Adding vfmasubadd

eschnett · Jul 24, 2021 · 1e6b689 · 1e6b689
1 parent e27c75d
commit 1e6b689
Show file tree

Hide file tree

Showing 3 changed files with 17 additions and 14 deletions.
diff --git a/src/LLVM_intrinsics.jl b/src/LLVM_intrinsics.jl
@@ -431,24 +431,24 @@ for f in MULADD_INTRINSICS
     end
 end
 
-
-for (t, N, T) in [("d"    , 2, Float64), ("s"    , 4, Float32),
+const AVX_EXTS = [("d"    , 2, Float64), ("s"    , 4, Float32),
                   ("d.256", 4, Float64), ("s.256", 8, Float32),
                   # ("d.512", 8, Float64), ("s.512", 16, Float32) # These don't seem supported by LLVM yet
-                 ]
-    @eval @generated function fmaddsub(a::LVec{$N, $T}, b::LVec{$N, $T}, c::LVec{$N, $T})
-        ff = "llvm.x86.fma.vfmaddsub.p"*$t
-        return :(
-            $(Expr(:meta, :inline));
-            ccall($ff, llvmcall, LVec{$($N), $($T)}, (LVec{$($N), $($T)}, LVec{$($N), $($T)}, LVec{$($N), $($T)}), a, b, c)
-        )
+                  ]
+const MULALTADD_INTRINSICS = [:vfmaddsub, :vfmsubadd]
+
+for f in MULALTADD_INTRINSICS
+    for (t, N, T) in AVX_EXTS
+        @eval @generated function ($f)(a::LVec{$N, $T}, b::LVec{$N, $T}, c::LVec{$N, $T})
+            ff = "llvm.x86.fma."*(string($f))*".p"*($t)
+            return :(
+                $(Expr(:meta, :inline));
+                ccall($ff, llvmcall, LVec{$($N), $($T)}, (LVec{$($N), $($T)}, LVec{$($N), $($T)}, LVec{$($N), $($T)}), a, b, c)
+            )
+        end
     end
 end
 
-# function fmaddsub(a::LVec{4, Float64}, b::LVec{4, Float64}, c::LVec{4, Float64}) where N
-#     ccall("llvm.x86.fma.vfmaddsub.pd.256", llvmcall, LVec{4, Float64}, (LVec{4, Float64}, LVec{4, Float64}, LVec{4, Float64}), a, b, c)
-# end
-
 ################
 # Load / store #
 ################

diff --git a/src/SIMD.jl b/src/SIMD.jl
@@ -4,7 +4,7 @@ using Base: @propagate_inbounds
 
 export Vec, vload, vloada, vloadnt, vloadx, vstore, vstorea, vstorent, vstorec,
        vgather, vgathera, vscatter, vscattera, shufflevector, vifelse, valloc,
-       VecRange
+       VecRange, vfmaddsub, vfmasubadd
 
 const VE         = Base.VecElement
 const LVec{N, T} = NTuple{N, VE{T}}

diff --git a/src/simdvec.jl b/src/simdvec.jl
@@ -435,6 +435,9 @@ for (op, llvmop) in [(:fma, Intrinsics.fma), (:muladd, Intrinsics.fmuladd)]
     end
 end
 
+@inline vfmaddsub(a::Vec{N,T}, b::Vec{N,T}, c::Vec{N,T}) where {N, T <: FloatingTypes} = Vec{N,T}(Intrinsics.vfmaddsub(a.data, b.data, c.data))
+@inline vfmsubadd(a::Vec{N,T}, b::Vec{N,T}, c::Vec{N,T}) where {N, T <: FloatingTypes} = Vec{N,T}(Intrinsics.vfmaddsub(a.data, b.data, c.data))
+
 if isdefined(Base, :bitrotate)
     @inline Base.bitrotate(x::Vec, k::Vec) = Vec(Intrinsics.fshl(x.data, x.data, k.data))
     @inline Base.bitrotate(x::Vec{N, T}, k::Integer) where {N, T} = bitrotate(x, Vec{N, T}(k))