eschnett · dannys4 · Jul 22, 2021 · Jul 23, 2021 · Jul 23, 2021 · Jul 24, 2021
diff --git a/src/LLVM_intrinsics.jl b/src/LLVM_intrinsics.jl
@@ -418,6 +418,7 @@ end
 const MULADD_INTRINSICS = [
     :fmuladd,
     :fma,
+
 ]
 
 for f in MULADD_INTRINSICS
@@ -430,6 +431,23 @@ for f in MULADD_INTRINSICS
     end
 end
 
+const AVX_EXTS = [("d"    , 2, Float64), ("s"    , 4, Float32),
+                  ("d.256", 4, Float64), ("s.256", 8, Float32),
+                  # ("d.512", 8, Float64), ("s.512", 16, Float32) # These don't seem supported by LLVM yet
+                  ]
+const MULALTADD_INTRINSICS = [:vfmaddsub, :vfmsubadd]
+
+for f in MULALTADD_INTRINSICS
+    for (t, N, T) in AVX_EXTS
+        @eval @generated function ($f)(a::LVec{$N, $T}, b::LVec{$N, $T}, c::LVec{$N, $T})
+            ff = "llvm.x86.fma."*(string($f))*".p"*($t)
+            return :(
+                $(Expr(:meta, :inline));
+                ccall($ff, llvmcall, LVec{$($N), $($T)}, (LVec{$($N), $($T)}, LVec{$($N), $($T)}, LVec{$($N), $($T)}), a, b, c)
+            )
+        end
+    end
+end
 
 ################
 # Load / store #

diff --git a/src/SIMD.jl b/src/SIMD.jl
@@ -4,7 +4,7 @@ using Base: @propagate_inbounds
 
 export Vec, vload, vloada, vloadnt, vloadx, vstore, vstorea, vstorent, vstorec,
        vgather, vgathera, vscatter, vscattera, shufflevector, vifelse, valloc,
-       VecRange
+       VecRange, vfmaddsub, vfmasubadd
 
 const VE         = Base.VecElement
 const LVec{N, T} = NTuple{N, VE{T}}

diff --git a/src/simdvec.jl b/src/simdvec.jl
@@ -435,6 +435,9 @@ for (op, llvmop) in [(:fma, Intrinsics.fma), (:muladd, Intrinsics.fmuladd)]
     end
 end
 
+@inline vfmaddsub(a::Vec{N,T}, b::Vec{N,T}, c::Vec{N,T}) where {N, T <: FloatingTypes} = Vec{N,T}(Intrinsics.vfmaddsub(a.data, b.data, c.data))
+@inline vfmsubadd(a::Vec{N,T}, b::Vec{N,T}, c::Vec{N,T}) where {N, T <: FloatingTypes} = Vec{N,T}(Intrinsics.vfmaddsub(a.data, b.data, c.data))
+
 if isdefined(Base, :bitrotate)
     @inline Base.bitrotate(x::Vec, k::Vec) = Vec(Intrinsics.fshl(x.data, x.data, k.data))
     @inline Base.bitrotate(x::Vec{N, T}, k::Integer) where {N, T} = bitrotate(x, Vec{N, T}(k))