RubyGems - tomoto - Versions diffs - 0.2.3 → 0.3.0 - Mend

tomoto 0.2.3 → 0.3.0

Files changed (347) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +6 -0
data/README.md +8 -10
data/ext/tomoto/extconf.rb +6 -2
data/ext/tomoto/{ext.cpp → tomoto.cpp} +1 -1
data/lib/tomoto/version.rb +1 -1
data/lib/tomoto.rb +5 -1
data/vendor/EigenRand/EigenRand/Core.h +10 -10
data/vendor/EigenRand/EigenRand/Dists/Basic.h +208 -9
data/vendor/EigenRand/EigenRand/Dists/Discrete.h +52 -31
data/vendor/EigenRand/EigenRand/Dists/GammaPoisson.h +9 -8
data/vendor/EigenRand/EigenRand/Dists/NormalExp.h +28 -21
data/vendor/EigenRand/EigenRand/EigenRand +11 -6
data/vendor/EigenRand/EigenRand/Macro.h +13 -7
data/vendor/EigenRand/EigenRand/MorePacketMath.h +348 -740
data/vendor/EigenRand/EigenRand/MvDists/Multinomial.h +5 -3
data/vendor/EigenRand/EigenRand/MvDists/MvNormal.h +9 -3
data/vendor/EigenRand/EigenRand/PacketFilter.h +11 -253
data/vendor/EigenRand/EigenRand/PacketRandomEngine.h +21 -47
data/vendor/EigenRand/EigenRand/RandUtils.h +50 -344
data/vendor/EigenRand/EigenRand/arch/AVX/MorePacketMath.h +619 -0
data/vendor/EigenRand/EigenRand/arch/AVX/PacketFilter.h +149 -0
data/vendor/EigenRand/EigenRand/arch/AVX/RandUtils.h +228 -0
data/vendor/EigenRand/EigenRand/arch/NEON/MorePacketMath.h +473 -0
data/vendor/EigenRand/EigenRand/arch/NEON/PacketFilter.h +142 -0
data/vendor/EigenRand/EigenRand/arch/NEON/RandUtils.h +126 -0
data/vendor/EigenRand/EigenRand/arch/SSE/MorePacketMath.h +501 -0
data/vendor/EigenRand/EigenRand/arch/SSE/PacketFilter.h +133 -0
data/vendor/EigenRand/EigenRand/arch/SSE/RandUtils.h +120 -0
data/vendor/EigenRand/EigenRand/doc.h +24 -12
data/vendor/EigenRand/README.md +57 -4
data/vendor/eigen/COPYING.APACHE +203 -0
data/vendor/eigen/COPYING.BSD +1 -1
data/vendor/eigen/COPYING.MINPACK +51 -52
data/vendor/eigen/Eigen/Cholesky +0 -1
data/vendor/eigen/Eigen/Core +112 -265
data/vendor/eigen/Eigen/Eigenvalues +2 -3
data/vendor/eigen/Eigen/Geometry +5 -8
data/vendor/eigen/Eigen/Householder +0 -1
data/vendor/eigen/Eigen/Jacobi +0 -1
data/vendor/eigen/Eigen/KLUSupport +41 -0
data/vendor/eigen/Eigen/LU +2 -5
data/vendor/eigen/Eigen/OrderingMethods +0 -3
data/vendor/eigen/Eigen/PaStiXSupport +1 -0
data/vendor/eigen/Eigen/PardisoSupport +0 -0
data/vendor/eigen/Eigen/QR +2 -3
data/vendor/eigen/Eigen/QtAlignedMalloc +0 -1
data/vendor/eigen/Eigen/SVD +0 -1
data/vendor/eigen/Eigen/Sparse +0 -2
data/vendor/eigen/Eigen/SparseCholesky +0 -8
data/vendor/eigen/Eigen/SparseLU +4 -0
data/vendor/eigen/Eigen/SparseQR +0 -1
data/vendor/eigen/Eigen/src/Cholesky/LDLT.h +42 -27
data/vendor/eigen/Eigen/src/Cholesky/LLT.h +39 -23
data/vendor/eigen/Eigen/src/CholmodSupport/CholmodSupport.h +90 -47
data/vendor/eigen/Eigen/src/Core/ArithmeticSequence.h +413 -0
data/vendor/eigen/Eigen/src/Core/Array.h +99 -11
data/vendor/eigen/Eigen/src/Core/ArrayBase.h +3 -3
data/vendor/eigen/Eigen/src/Core/ArrayWrapper.h +21 -21
data/vendor/eigen/Eigen/src/Core/Assign.h +1 -1
data/vendor/eigen/Eigen/src/Core/AssignEvaluator.h +125 -50
data/vendor/eigen/Eigen/src/Core/Assign_MKL.h +10 -10
data/vendor/eigen/Eigen/src/Core/BandMatrix.h +16 -16
data/vendor/eigen/Eigen/src/Core/Block.h +56 -60
data/vendor/eigen/Eigen/src/Core/BooleanRedux.h +29 -31
data/vendor/eigen/Eigen/src/Core/CommaInitializer.h +7 -3
data/vendor/eigen/Eigen/src/Core/CoreEvaluators.h +325 -272
data/vendor/eigen/Eigen/src/Core/CoreIterators.h +5 -0
data/vendor/eigen/Eigen/src/Core/CwiseBinaryOp.h +21 -22
data/vendor/eigen/Eigen/src/Core/CwiseNullaryOp.h +153 -18
data/vendor/eigen/Eigen/src/Core/CwiseUnaryOp.h +6 -6
data/vendor/eigen/Eigen/src/Core/CwiseUnaryView.h +14 -10
data/vendor/eigen/Eigen/src/Core/DenseBase.h +132 -42
data/vendor/eigen/Eigen/src/Core/DenseCoeffsBase.h +25 -21
data/vendor/eigen/Eigen/src/Core/DenseStorage.h +153 -71
data/vendor/eigen/Eigen/src/Core/Diagonal.h +21 -23
data/vendor/eigen/Eigen/src/Core/DiagonalMatrix.h +50 -2
data/vendor/eigen/Eigen/src/Core/DiagonalProduct.h +1 -1
data/vendor/eigen/Eigen/src/Core/Dot.h +10 -10
data/vendor/eigen/Eigen/src/Core/EigenBase.h +10 -9
data/vendor/eigen/Eigen/src/Core/ForceAlignedAccess.h +8 -4
data/vendor/eigen/Eigen/src/Core/Fuzzy.h +3 -3
data/vendor/eigen/Eigen/src/Core/GeneralProduct.h +20 -10
data/vendor/eigen/Eigen/src/Core/GenericPacketMath.h +599 -152
data/vendor/eigen/Eigen/src/Core/GlobalFunctions.h +40 -33
data/vendor/eigen/Eigen/src/Core/IO.h +40 -7
data/vendor/eigen/Eigen/src/Core/IndexedView.h +237 -0
data/vendor/eigen/Eigen/src/Core/Inverse.h +9 -10
data/vendor/eigen/Eigen/src/Core/Map.h +7 -7
data/vendor/eigen/Eigen/src/Core/MapBase.h +10 -3
data/vendor/eigen/Eigen/src/Core/MathFunctions.h +767 -125
data/vendor/eigen/Eigen/src/Core/MathFunctionsImpl.h +118 -19
data/vendor/eigen/Eigen/src/Core/Matrix.h +131 -25
data/vendor/eigen/Eigen/src/Core/MatrixBase.h +21 -3
data/vendor/eigen/Eigen/src/Core/NestByValue.h +25 -50
data/vendor/eigen/Eigen/src/Core/NoAlias.h +4 -3
data/vendor/eigen/Eigen/src/Core/NumTraits.h +107 -20
data/vendor/eigen/Eigen/src/Core/PartialReduxEvaluator.h +232 -0
data/vendor/eigen/Eigen/src/Core/PermutationMatrix.h +3 -31
data/vendor/eigen/Eigen/src/Core/PlainObjectBase.h +152 -59
data/vendor/eigen/Eigen/src/Core/Product.h +30 -25
data/vendor/eigen/Eigen/src/Core/ProductEvaluators.h +192 -125
data/vendor/eigen/Eigen/src/Core/Random.h +37 -1
data/vendor/eigen/Eigen/src/Core/Redux.h +180 -170
data/vendor/eigen/Eigen/src/Core/Ref.h +121 -23
data/vendor/eigen/Eigen/src/Core/Replicate.h +8 -8
data/vendor/eigen/Eigen/src/Core/Reshaped.h +454 -0
data/vendor/eigen/Eigen/src/Core/ReturnByValue.h +7 -5
data/vendor/eigen/Eigen/src/Core/Reverse.h +18 -12
data/vendor/eigen/Eigen/src/Core/Select.h +8 -6
data/vendor/eigen/Eigen/src/Core/SelfAdjointView.h +33 -20
data/vendor/eigen/Eigen/src/Core/Solve.h +14 -14
data/vendor/eigen/Eigen/src/Core/SolveTriangular.h +16 -16
data/vendor/eigen/Eigen/src/Core/SolverBase.h +41 -3
data/vendor/eigen/Eigen/src/Core/StableNorm.h +100 -70
data/vendor/eigen/Eigen/src/Core/StlIterators.h +463 -0
data/vendor/eigen/Eigen/src/Core/Stride.h +9 -4
data/vendor/eigen/Eigen/src/Core/Swap.h +5 -4
data/vendor/eigen/Eigen/src/Core/Transpose.h +88 -27
data/vendor/eigen/Eigen/src/Core/Transpositions.h +26 -47
data/vendor/eigen/Eigen/src/Core/TriangularMatrix.h +93 -75
data/vendor/eigen/Eigen/src/Core/VectorBlock.h +5 -5
data/vendor/eigen/Eigen/src/Core/VectorwiseOp.h +159 -70
data/vendor/eigen/Eigen/src/Core/Visitor.h +137 -29
data/vendor/eigen/Eigen/src/Core/arch/AVX/Complex.h +50 -129
data/vendor/eigen/Eigen/src/Core/arch/AVX/MathFunctions.h +126 -337
data/vendor/eigen/Eigen/src/Core/arch/AVX/PacketMath.h +1092 -155
data/vendor/eigen/Eigen/src/Core/arch/AVX/TypeCasting.h +65 -1
data/vendor/eigen/Eigen/src/Core/arch/AVX512/Complex.h +422 -0
data/vendor/eigen/Eigen/src/Core/arch/AVX512/MathFunctions.h +207 -236
data/vendor/eigen/Eigen/src/Core/arch/AVX512/PacketMath.h +1482 -495
data/vendor/eigen/Eigen/src/Core/arch/AVX512/TypeCasting.h +89 -0
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/Complex.h +152 -165
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/MathFunctions.h +19 -251
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/MatrixProduct.h +2937 -0
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/MatrixProductCommon.h +221 -0
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/MatrixProductMMA.h +629 -0
data/vendor/eigen/Eigen/src/Core/arch/AltiVec/PacketMath.h +2042 -392
data/vendor/eigen/Eigen/src/Core/arch/CUDA/Complex.h +235 -80
data/vendor/eigen/Eigen/src/Core/arch/Default/BFloat16.h +700 -0
data/vendor/eigen/Eigen/src/Core/arch/Default/ConjHelper.h +102 -14
data/vendor/eigen/Eigen/src/Core/arch/Default/GenericPacketMathFunctions.h +1649 -0
data/vendor/eigen/Eigen/src/Core/arch/Default/GenericPacketMathFunctionsFwd.h +110 -0
data/vendor/eigen/Eigen/src/Core/arch/Default/Half.h +942 -0
data/vendor/eigen/Eigen/src/Core/arch/Default/Settings.h +1 -1
data/vendor/eigen/Eigen/src/Core/arch/Default/TypeCasting.h +120 -0
data/vendor/eigen/Eigen/src/Core/arch/{CUDA → GPU}/MathFunctions.h +16 -4
data/vendor/eigen/Eigen/src/Core/arch/GPU/PacketMath.h +1685 -0
data/vendor/eigen/Eigen/src/Core/arch/GPU/TypeCasting.h +80 -0
data/vendor/eigen/Eigen/src/Core/arch/HIP/hcc/math_constants.h +23 -0
data/vendor/eigen/Eigen/src/Core/arch/MSA/Complex.h +648 -0
data/vendor/eigen/Eigen/src/Core/arch/MSA/MathFunctions.h +387 -0
data/vendor/eigen/Eigen/src/Core/arch/MSA/PacketMath.h +1233 -0
data/vendor/eigen/Eigen/src/Core/arch/NEON/Complex.h +313 -219
data/vendor/eigen/Eigen/src/Core/arch/NEON/GeneralBlockPanelKernel.h +183 -0
data/vendor/eigen/Eigen/src/Core/arch/NEON/MathFunctions.h +54 -70
data/vendor/eigen/Eigen/src/Core/arch/NEON/PacketMath.h +4376 -549
data/vendor/eigen/Eigen/src/Core/arch/NEON/TypeCasting.h +1419 -0
data/vendor/eigen/Eigen/src/Core/arch/SSE/Complex.h +59 -179
data/vendor/eigen/Eigen/src/Core/arch/SSE/MathFunctions.h +65 -428
data/vendor/eigen/Eigen/src/Core/arch/SSE/PacketMath.h +893 -283
data/vendor/eigen/Eigen/src/Core/arch/SSE/TypeCasting.h +65 -0
data/vendor/eigen/Eigen/src/Core/arch/SVE/MathFunctions.h +44 -0
data/vendor/eigen/Eigen/src/Core/arch/SVE/PacketMath.h +752 -0
data/vendor/eigen/Eigen/src/Core/arch/SVE/TypeCasting.h +49 -0
data/vendor/eigen/Eigen/src/Core/arch/SYCL/InteropHeaders.h +232 -0
data/vendor/eigen/Eigen/src/Core/arch/SYCL/MathFunctions.h +301 -0
data/vendor/eigen/Eigen/src/Core/arch/SYCL/PacketMath.h +670 -0
data/vendor/eigen/Eigen/src/Core/arch/SYCL/SyclMemoryModel.h +694 -0
data/vendor/eigen/Eigen/src/Core/arch/SYCL/TypeCasting.h +85 -0
data/vendor/eigen/Eigen/src/Core/arch/ZVector/Complex.h +212 -183
data/vendor/eigen/Eigen/src/Core/arch/ZVector/MathFunctions.h +101 -5
data/vendor/eigen/Eigen/src/Core/arch/ZVector/PacketMath.h +510 -395
data/vendor/eigen/Eigen/src/Core/functors/AssignmentFunctors.h +11 -2
data/vendor/eigen/Eigen/src/Core/functors/BinaryFunctors.h +112 -46
data/vendor/eigen/Eigen/src/Core/functors/NullaryFunctors.h +31 -30
data/vendor/eigen/Eigen/src/Core/functors/StlFunctors.h +32 -2
data/vendor/eigen/Eigen/src/Core/functors/UnaryFunctors.h +355 -16
data/vendor/eigen/Eigen/src/Core/products/GeneralBlockPanelKernel.h +1075 -586
data/vendor/eigen/Eigen/src/Core/products/GeneralMatrixMatrix.h +49 -24
data/vendor/eigen/Eigen/src/Core/products/GeneralMatrixMatrixTriangular.h +41 -35
data/vendor/eigen/Eigen/src/Core/products/GeneralMatrixMatrixTriangular_BLAS.h +6 -6
data/vendor/eigen/Eigen/src/Core/products/GeneralMatrixMatrix_BLAS.h +4 -2
data/vendor/eigen/Eigen/src/Core/products/GeneralMatrixVector.h +382 -483
data/vendor/eigen/Eigen/src/Core/products/Parallelizer.h +22 -5
data/vendor/eigen/Eigen/src/Core/products/SelfadjointMatrixMatrix.h +53 -30
data/vendor/eigen/Eigen/src/Core/products/SelfadjointMatrixMatrix_BLAS.h +16 -8
data/vendor/eigen/Eigen/src/Core/products/SelfadjointMatrixVector.h +8 -6
data/vendor/eigen/Eigen/src/Core/products/SelfadjointProduct.h +4 -4
data/vendor/eigen/Eigen/src/Core/products/SelfadjointRank2Update.h +5 -4
data/vendor/eigen/Eigen/src/Core/products/TriangularMatrixMatrix.h +33 -27
data/vendor/eigen/Eigen/src/Core/products/TriangularMatrixMatrix_BLAS.h +14 -12
data/vendor/eigen/Eigen/src/Core/products/TriangularSolverMatrix.h +36 -34
data/vendor/eigen/Eigen/src/Core/products/TriangularSolverMatrix_BLAS.h +8 -4
data/vendor/eigen/Eigen/src/Core/products/TriangularSolverVector.h +13 -10
data/vendor/eigen/Eigen/src/Core/util/BlasUtil.h +304 -119
data/vendor/eigen/Eigen/src/Core/util/ConfigureVectorization.h +512 -0
data/vendor/eigen/Eigen/src/Core/util/Constants.h +25 -9
data/vendor/eigen/Eigen/src/Core/util/DisableStupidWarnings.h +26 -3
data/vendor/eigen/Eigen/src/Core/util/ForwardDeclarations.h +29 -9
data/vendor/eigen/Eigen/src/Core/util/IndexedViewHelper.h +186 -0
data/vendor/eigen/Eigen/src/Core/util/IntegralConstant.h +272 -0
data/vendor/eigen/Eigen/src/Core/util/MKL_support.h +8 -1
data/vendor/eigen/Eigen/src/Core/util/Macros.h +709 -246
data/vendor/eigen/Eigen/src/Core/util/Memory.h +222 -52
data/vendor/eigen/Eigen/src/Core/util/Meta.h +355 -77
data/vendor/eigen/Eigen/src/Core/util/ReenableStupidWarnings.h +5 -1
data/vendor/eigen/Eigen/src/Core/util/ReshapedHelper.h +51 -0
data/vendor/eigen/Eigen/src/Core/util/StaticAssert.h +8 -5
data/vendor/eigen/Eigen/src/Core/util/SymbolicIndex.h +293 -0
data/vendor/eigen/Eigen/src/Core/util/XprHelper.h +65 -30
data/vendor/eigen/Eigen/src/Eigenvalues/ComplexEigenSolver.h +1 -1
data/vendor/eigen/Eigen/src/Eigenvalues/ComplexSchur.h +7 -4
data/vendor/eigen/Eigen/src/Eigenvalues/EigenSolver.h +2 -2
data/vendor/eigen/Eigen/src/Eigenvalues/GeneralizedSelfAdjointEigenSolver.h +1 -1
data/vendor/eigen/Eigen/src/Eigenvalues/HessenbergDecomposition.h +2 -2
data/vendor/eigen/Eigen/src/Eigenvalues/MatrixBaseEigenvalues.h +2 -2
data/vendor/eigen/Eigen/src/Eigenvalues/RealQZ.h +9 -6
data/vendor/eigen/Eigen/src/Eigenvalues/RealSchur.h +21 -9
data/vendor/eigen/Eigen/src/Eigenvalues/SelfAdjointEigenSolver.h +77 -43
data/vendor/eigen/Eigen/src/Eigenvalues/Tridiagonalization.h +20 -15
data/vendor/eigen/Eigen/src/Geometry/AlignedBox.h +99 -5
data/vendor/eigen/Eigen/src/Geometry/AngleAxis.h +4 -4
data/vendor/eigen/Eigen/src/Geometry/EulerAngles.h +3 -3
data/vendor/eigen/Eigen/src/Geometry/Homogeneous.h +15 -11
data/vendor/eigen/Eigen/src/Geometry/Hyperplane.h +1 -1
data/vendor/eigen/Eigen/src/Geometry/OrthoMethods.h +3 -2
data/vendor/eigen/Eigen/src/Geometry/ParametrizedLine.h +39 -2
data/vendor/eigen/Eigen/src/Geometry/Quaternion.h +70 -14
data/vendor/eigen/Eigen/src/Geometry/Rotation2D.h +3 -3
data/vendor/eigen/Eigen/src/Geometry/Scaling.h +23 -5
data/vendor/eigen/Eigen/src/Geometry/Transform.h +88 -67
data/vendor/eigen/Eigen/src/Geometry/Translation.h +6 -12
data/vendor/eigen/Eigen/src/Geometry/Umeyama.h +1 -1
data/vendor/eigen/Eigen/src/Geometry/arch/Geometry_SIMD.h +168 -0
data/vendor/eigen/Eigen/src/Householder/BlockHouseholder.h +9 -2
data/vendor/eigen/Eigen/src/Householder/Householder.h +8 -4
data/vendor/eigen/Eigen/src/Householder/HouseholderSequence.h +123 -48
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/BasicPreconditioners.h +15 -15
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/BiCGSTAB.h +7 -23
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/ConjugateGradient.h +5 -22
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/IncompleteCholesky.h +41 -47
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/IncompleteLUT.h +51 -60
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/IterativeSolverBase.h +70 -20
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/LeastSquareConjugateGradient.h +2 -20
data/vendor/eigen/Eigen/src/IterativeLinearSolvers/SolveWithGuess.h +11 -9
data/vendor/eigen/Eigen/src/Jacobi/Jacobi.h +31 -10
data/vendor/eigen/Eigen/src/KLUSupport/KLUSupport.h +358 -0
data/vendor/eigen/Eigen/src/LU/Determinant.h +35 -19
data/vendor/eigen/Eigen/src/LU/FullPivLU.h +29 -43
data/vendor/eigen/Eigen/src/LU/InverseImpl.h +25 -8
data/vendor/eigen/Eigen/src/LU/PartialPivLU.h +71 -58
data/vendor/eigen/Eigen/src/LU/arch/InverseSize4.h +351 -0
data/vendor/eigen/Eigen/src/OrderingMethods/Amd.h +7 -17
data/vendor/eigen/Eigen/src/OrderingMethods/Eigen_Colamd.h +297 -277
data/vendor/eigen/Eigen/src/OrderingMethods/Ordering.h +6 -10
data/vendor/eigen/Eigen/src/PaStiXSupport/PaStiXSupport.h +1 -1
data/vendor/eigen/Eigen/src/PardisoSupport/PardisoSupport.h +9 -7
data/vendor/eigen/Eigen/src/QR/ColPivHouseholderQR.h +41 -20
data/vendor/eigen/Eigen/src/QR/CompleteOrthogonalDecomposition.h +100 -27
data/vendor/eigen/Eigen/src/QR/FullPivHouseholderQR.h +59 -22
data/vendor/eigen/Eigen/src/QR/HouseholderQR.h +48 -23
data/vendor/eigen/Eigen/src/SPQRSupport/SuiteSparseQRSupport.h +25 -3
data/vendor/eigen/Eigen/src/SVD/BDCSVD.h +183 -63
data/vendor/eigen/Eigen/src/SVD/JacobiSVD.h +22 -14
data/vendor/eigen/Eigen/src/SVD/SVDBase.h +83 -22
data/vendor/eigen/Eigen/src/SVD/UpperBidiagonalization.h +3 -3
data/vendor/eigen/Eigen/src/SparseCholesky/SimplicialCholesky.h +17 -9
data/vendor/eigen/Eigen/src/SparseCholesky/SimplicialCholesky_impl.h +12 -37
data/vendor/eigen/Eigen/src/SparseCore/AmbiVector.h +3 -2
data/vendor/eigen/Eigen/src/SparseCore/CompressedStorage.h +16 -0
data/vendor/eigen/Eigen/src/SparseCore/ConservativeSparseSparseProduct.h +6 -6
data/vendor/eigen/Eigen/src/SparseCore/SparseAssign.h +81 -27
data/vendor/eigen/Eigen/src/SparseCore/SparseBlock.h +25 -57
data/vendor/eigen/Eigen/src/SparseCore/SparseCompressedBase.h +40 -11
data/vendor/eigen/Eigen/src/SparseCore/SparseCwiseBinaryOp.h +11 -15
data/vendor/eigen/Eigen/src/SparseCore/SparseCwiseUnaryOp.h +4 -2
data/vendor/eigen/Eigen/src/SparseCore/SparseDenseProduct.h +30 -8
data/vendor/eigen/Eigen/src/SparseCore/SparseMatrix.h +126 -11
data/vendor/eigen/Eigen/src/SparseCore/SparseMatrixBase.h +5 -12
data/vendor/eigen/Eigen/src/SparseCore/SparseProduct.h +13 -1
data/vendor/eigen/Eigen/src/SparseCore/SparseRef.h +7 -7
data/vendor/eigen/Eigen/src/SparseCore/SparseSelfAdjointView.h +5 -2
data/vendor/eigen/Eigen/src/SparseCore/SparseUtil.h +8 -0
data/vendor/eigen/Eigen/src/SparseCore/SparseVector.h +1 -1
data/vendor/eigen/Eigen/src/SparseCore/SparseView.h +1 -0
data/vendor/eigen/Eigen/src/SparseLU/SparseLU.h +162 -12
data/vendor/eigen/Eigen/src/SparseLU/SparseLU_Memory.h +1 -1
data/vendor/eigen/Eigen/src/SparseLU/SparseLU_SupernodalMatrix.h +76 -2
data/vendor/eigen/Eigen/src/SparseLU/SparseLU_column_dfs.h +2 -2
data/vendor/eigen/Eigen/src/SparseLU/SparseLU_gemm_kernel.h +1 -1
data/vendor/eigen/Eigen/src/SparseLU/SparseLU_panel_bmod.h +1 -1
data/vendor/eigen/Eigen/src/SparseQR/SparseQR.h +19 -6
data/vendor/eigen/Eigen/src/StlSupport/StdDeque.h +2 -12
data/vendor/eigen/Eigen/src/StlSupport/StdList.h +2 -2
data/vendor/eigen/Eigen/src/StlSupport/StdVector.h +2 -2
data/vendor/eigen/Eigen/src/SuperLUSupport/SuperLUSupport.h +6 -8
data/vendor/eigen/Eigen/src/UmfPackSupport/UmfPackSupport.h +175 -39
data/vendor/eigen/Eigen/src/misc/lapacke.h +5 -4
data/vendor/eigen/Eigen/src/plugins/ArrayCwiseBinaryOps.h +28 -2
data/vendor/eigen/Eigen/src/plugins/ArrayCwiseUnaryOps.h +155 -11
data/vendor/eigen/Eigen/src/plugins/BlockMethods.h +626 -242
data/vendor/eigen/Eigen/src/plugins/CommonCwiseUnaryOps.h +14 -0
data/vendor/eigen/Eigen/src/plugins/IndexedViewMethods.h +262 -0
data/vendor/eigen/Eigen/src/plugins/MatrixCwiseBinaryOps.h +4 -4
data/vendor/eigen/Eigen/src/plugins/MatrixCwiseUnaryOps.h +10 -0
data/vendor/eigen/Eigen/src/plugins/ReshapedMethods.h +149 -0
data/vendor/eigen/README.md +2 -0
data/vendor/eigen/bench/btl/README +1 -1
data/vendor/eigen/bench/tensors/README +6 -7
data/vendor/eigen/ci/README.md +56 -0
data/vendor/eigen/demos/mix_eigen_and_c/README +1 -1
data/vendor/eigen/unsupported/Eigen/CXX11/src/Tensor/README.md +213 -158
data/vendor/eigen/unsupported/README.txt +1 -1
data/vendor/tomotopy/README.kr.rst +21 -0
data/vendor/tomotopy/README.rst +20 -0
data/vendor/tomotopy/src/Labeling/FoRelevance.cpp +2 -2
data/vendor/tomotopy/src/Labeling/Phraser.hpp +1 -1
data/vendor/tomotopy/src/TopicModel/CTModel.hpp +2 -1
data/vendor/tomotopy/src/TopicModel/DMRModel.hpp +2 -1
data/vendor/tomotopy/src/TopicModel/DTModel.hpp +1 -1
data/vendor/tomotopy/src/TopicModel/GDMRModel.hpp +2 -2
data/vendor/tomotopy/src/TopicModel/HDP.h +1 -0
data/vendor/tomotopy/src/TopicModel/HDPModel.hpp +53 -2
data/vendor/tomotopy/src/TopicModel/HLDAModel.hpp +1 -1
data/vendor/tomotopy/src/TopicModel/HPAModel.hpp +1 -0
data/vendor/tomotopy/src/TopicModel/LDACVB0Model.hpp +2 -2
data/vendor/tomotopy/src/TopicModel/LDAModel.hpp +16 -5
data/vendor/tomotopy/src/TopicModel/LLDAModel.hpp +1 -0
data/vendor/tomotopy/src/TopicModel/MGLDAModel.hpp +1 -0
data/vendor/tomotopy/src/TopicModel/PLDAModel.hpp +1 -0
data/vendor/tomotopy/src/TopicModel/PT.h +3 -1
data/vendor/tomotopy/src/TopicModel/PTModel.hpp +31 -1
data/vendor/tomotopy/src/TopicModel/SLDAModel.hpp +2 -2
data/vendor/tomotopy/src/TopicModel/TopicModel.hpp +7 -5
data/vendor/tomotopy/src/Utils/EigenAddonOps.hpp +36 -1
data/vendor/tomotopy/src/Utils/exception.h +6 -0
data/vendor/tomotopy/src/Utils/sample.hpp +14 -12
data/vendor/tomotopy/src/Utils/sse_gamma.h +0 -3
metadata +60 -14
data/vendor/eigen/Eigen/CMakeLists.txt +0 -19
data/vendor/eigen/Eigen/src/Core/arch/CUDA/Half.h +0 -674
data/vendor/eigen/Eigen/src/Core/arch/CUDA/PacketMath.h +0 -333
data/vendor/eigen/Eigen/src/Core/arch/CUDA/PacketMathHalf.h +0 -1124
data/vendor/eigen/Eigen/src/Core/arch/CUDA/TypeCasting.h +0 -212
data/vendor/eigen/Eigen/src/Geometry/arch/Geometry_SSE.h +0 -161
data/vendor/eigen/Eigen/src/LU/arch/Inverse_SSE.h +0 -338

data/vendor/EigenRand/EigenRand/MorePacketMath.h CHANGED Viewed

@@ -2,10 +2,10 @@
  * @file MorePacketMath.h
  * @author bab2min (bab2min@gmail.com)
  * @brief
- * @version 0.3.0
- * @date 2020-10-07
+ * @version 0.3.3
+ * @date 2021-03-31
  *
- * @copyright Copyright (c) 2020
+ * @copyright Copyright (c) 2020-2021
  *
  */
@@ -14,14 +14,26 @@
 #include <Eigen/Dense>
+#define EIGENRAND_PRINT_PACKET(p) do { using _MTy = typename std::remove_const<typename std::remove_reference<decltype(p)>::type>::type; typename std::conditional<Eigen::internal::IsFloatPacket<_MTy>::value, float, typename std::conditional<Eigen::internal::IsDoublePacket<_MTy>::value, double, int>::type>::type f[4]; Eigen::internal::pstore(f, p); std::cout << #p " " << f[0] << " " << f[1] << " " << f[2] << " " << f[3] << std::endl; } while(0)
 namespace Eigen
 {
 	namespace internal
 	{
+		template<typename Ty>
+		struct IsIntPacket : std::false_type {};
+		template<typename Ty>
+		struct IsFloatPacket : std::false_type {};
+		template<typename Ty>
+		struct IsDoublePacket : std::false_type {};
+		template<typename Ty>
+		struct HalfPacket;
 		template<typename Packet>
-		struct reinterpreter
-		{
-		};
+		struct reinterpreter{};
 		template<typename Packet>
 		inline auto reinterpret_to_float(const Packet& x)
@@ -44,13 +56,40 @@ namespace Eigen
 			return reinterpreter<Packet>{}.to_int(x);
 		}
+		template<typename Packet>
+		EIGEN_STRONG_INLINE void split_two(const Packet& p, typename HalfPacket<Packet>::type& a, typename HalfPacket<Packet>::type& b);
 		template<typename Packet>
 		EIGEN_STRONG_INLINE Packet pseti64(uint64_t a);
+		template<typename Packet>
+		EIGEN_STRONG_INLINE Packet padd64(const Packet& a, const Packet& b);
+		template<typename Packet>
+		EIGEN_STRONG_INLINE Packet psub64(const Packet& a, const Packet& b);
+		template <typename SrcPacket, typename TgtPacket>
+		EIGEN_STRONG_INLINE TgtPacket pcast64(const SrcPacket& a);
 		template<typename Packet>
 		EIGEN_STRONG_INLINE Packet pcmpeq(const Packet& a, const Packet& b);
 		template<typename Packet>
+		struct BitShifter {};
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psll(const Packet& a);
+		template<int _b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psrl(const Packet& a, int b = _b);
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psll64(const Packet& a);
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psrl64(const Packet& a);
+		/*template<typename Packet>
 		EIGEN_STRONG_INLINE Packet psll(const Packet& a, int b);
 		template<typename Packet>
@@ -60,12 +99,34 @@ namespace Eigen
 		EIGEN_STRONG_INLINE Packet psll64(const Packet& a, int b);
 		template<typename Packet>
-		EIGEN_STRONG_INLINE Packet psrl64(const Packet& a, int b);
+		EIGEN_STRONG_INLINE Packet psrl64(const Packet& a, int b);*/
 		template<typename Packet>
 		EIGEN_STRONG_INLINE int pmovemask(const Packet& a);
-		template<>
+		template<typename Packet>
+		EIGEN_STRONG_INLINE typename std::enable_if<
+			IsFloatPacket<Packet>::value, Packet
+		>::type pext_sign(const Packet& a)
+		{
+			using IntPacket = decltype(reinterpret_to_int(a));
+			return reinterpret_to_float(
+				pand(reinterpret_to_int(a), pset1<IntPacket>(0x80000000))
+			);
+		}
+		template<typename Packet>
+		EIGEN_STRONG_INLINE typename std::enable_if<
+			IsDoublePacket<Packet>::value, Packet
+		>::type pext_sign(const Packet& a)
+		{
+			using IntPacket = decltype(reinterpret_to_int(a));
+			return reinterpret_to_double(
+				pand(reinterpret_to_int(a), pseti64<IntPacket>(0x8000000000000000))
+			);
+		}
+		/*template<>
 		EIGEN_STRONG_INLINE uint64_t psll64<uint64_t>(const uint64_t& a, int b)
 		{
 			return a << b;
@@ -75,109 +136,11 @@ namespace Eigen
 		EIGEN_STRONG_INLINE uint64_t psrl64<uint64_t>(const uint64_t& a, int b)
 		{
 			return a >> b;
-		}
-		template<typename Packet>
-		EIGEN_STRONG_INLINE void psincos(Packet x, Packet &s, Packet &c)
-		{
-			Packet xmm1, xmm2, xmm3 = pset1<Packet>(0), sign_bit_sin, y;
-			using IntPacket = decltype(reinterpret_to_int(x));
-			IntPacket emm0, emm2, emm4;
-			sign_bit_sin = x;
-			/* take the absolute value */
-			x = pabs(x);
-			/* extract the sign bit (upper one) */
-			sign_bit_sin = reinterpret_to_float(
-				pand(reinterpret_to_int(sign_bit_sin), pset1<IntPacket>(0x80000000))
-			);
-			/* scale by 4/Pi */
-			y = pmul(x, pset1<Packet>(1.27323954473516));
-			/* store the integer part of y in emm2 */
-			emm2 = pcast<Packet, IntPacket>(y);
-			/* j=(j+1) & (~1) (see the cephes sources) */
-			emm2 = padd(emm2, pset1<IntPacket>(1));
-			emm2 = pand(emm2, pset1<IntPacket>(~1));
-			y = pcast<IntPacket, Packet>(emm2);
-			emm4 = emm2;
-			/* get the swap sign flag for the sine */
-			emm0 = pand(emm2, pset1<IntPacket>(4));
-			emm0 = psll(emm0, 29);
-			Packet swap_sign_bit_sin = reinterpret_to_float(emm0);
-			/* get the polynom selection mask for the sine*/
-			emm2 = pand(emm2, pset1<IntPacket>(2));
-			emm2 = pcmpeq(emm2, pset1<IntPacket>(0));
-			Packet poly_mask = reinterpret_to_float(emm2);
-			/* The magic pass: "Extended precision modular arithmetic"
-			x = ((x - y * DP1) - y * DP2) - y * DP3; */
-			xmm1 = pset1<Packet>(-0.78515625);
-			xmm2 = pset1<Packet>(-2.4187564849853515625e-4);
-			xmm3 = pset1<Packet>(-3.77489497744594108e-8);
-			xmm1 = pmul(y, xmm1);
-			xmm2 = pmul(y, xmm2);
-			xmm3 = pmul(y, xmm3);
-			x = padd(x, xmm1);
-			x = padd(x, xmm2);
-			x = padd(x, xmm3);
-			emm4 = psub(emm4, pset1<IntPacket>(2));
-			emm4 = pandnot(emm4, pset1<IntPacket>(4));
-			emm4 = psll(emm4, 29);
-			Packet sign_bit_cos = reinterpret_to_float(emm4);
-			sign_bit_sin = pxor(sign_bit_sin, swap_sign_bit_sin);
-			/* Evaluate the first polynom  (0 <= x <= Pi/4) */
-			Packet z = pmul(x, x);
-			y = pset1<Packet>(2.443315711809948E-005);
-			y = pmul(y, z);
-			y = padd(y, pset1<Packet>(-1.388731625493765E-003));
-			y = pmul(y, z);
-			y = padd(y, pset1<Packet>(4.166664568298827E-002));
-			y = pmul(y, z);
-			y = pmul(y, z);
-			Packet tmp = pmul(z, pset1<Packet>(0.5));
-			y = psub(y, tmp);
-			y = padd(y, pset1<Packet>(1));
-			/* Evaluate the second polynom  (Pi/4 <= x <= 0) */
-			Packet y2 = pset1<Packet>(-1.9515295891E-4);
-			y2 = pmul(y2, z);
-			y2 = padd(y2, pset1<Packet>(8.3321608736E-3));
-			y2 = pmul(y2, z);
-			y2 = padd(y2, pset1<Packet>(-1.6666654611E-1));
-			y2 = pmul(y2, z);
-			y2 = pmul(y2, x);
-			y2 = padd(y2, x);
-			/* select the correct result from the two polynoms */
-			xmm3 = poly_mask;
-			Packet ysin2 = pand(xmm3, y2);
-			Packet ysin1 = pandnot(xmm3, y);
-			y2 = psub(y2, ysin2);
-			y = psub(y, ysin1);
-			xmm1 = padd(ysin1, ysin2);
-			xmm2 = padd(y, y2);
-			/* update the sign */
-			s = pxor(xmm1, sign_bit_sin);
-			c = pxor(xmm2, sign_bit_cos);
-		}
+		}*/
 		// approximation : lgamma(z) ~= (z+2.5)ln(z+3) - z - 3 + 0.5 ln (2pi) + 1/12/(z + 3) - ln (z(z+1)(z+2))
 		template<typename Packet>
-		EIGEN_STRONG_INLINE Packet plgamma(const Packet& x)
+		EIGEN_STRONG_INLINE Packet plgamma_approx(const Packet& x)
 		{
 			auto x_3 = padd(x, pset1<Packet>(3));
 			auto ret = pmul(padd(x_3, pset1<Packet>(-0.5)), plog(x_3));
@@ -195,6 +158,9 @@ namespace Eigen
 		template<typename Packet>
 		EIGEN_STRONG_INLINE Packet pcmple(const Packet& a, const Packet& b);
+		template<typename Packet>
+		EIGEN_STRONG_INLINE Packet pbitnot(const Packet& a);
 		template<typename PacketIf, typename Packet>
 		EIGEN_STRONG_INLINE Packet pblendv(const PacketIf& ifPacket, const Packet& thenPacket, const Packet& elsePacket);
@@ -213,6 +179,9 @@ namespace Eigen
 		template<typename Packet>
 		EIGEN_STRONG_INLINE Packet pcmpeq64(const Packet& a, const Packet& b);
+		template<typename Packet>
+		EIGEN_STRONG_INLINE Packet pcmplt64(const Packet& a, const Packet& b);
 		template<typename Packet>
 		EIGEN_STRONG_INLINE Packet pmuluadd64(const Packet& a, uint64_t b, uint64_t c);
@@ -241,10 +210,10 @@ namespace Eigen
 		}
 		template<typename _Scalar>
-		struct bit_scalar;
+		struct BitScalar;
 		template<>
-		struct bit_scalar<float>
+		struct BitScalar<float>
 		{
 			float to_ur(uint32_t x)
 			{
@@ -264,7 +233,7 @@ namespace Eigen
 		};
 		template<>
-		struct bit_scalar<double>
+		struct BitScalar<double>
 		{
 			double to_ur(uint64_t x)
 			{
@@ -291,720 +260,359 @@ namespace Eigen
 		EIGEN_STRONG_INLINE float2 bit_to_ur_float(uint64_t x)
 		{
-			bit_scalar<float> bs;
+			BitScalar<float> bs;
 			float2 ret;
 			ret.f[0] = bs.to_ur(x & 0xFFFFFFFF);
 			ret.f[1] = bs.to_ur(x >> 32);
 			return ret;
 		}
-	}
-}
-#ifdef EIGEN_VECTORIZE_AVX
-#include <immintrin.h>
-namespace Eigen
-{
-	namespace internal
-	{
-		template<>
-		struct reinterpreter<Packet8i>
+		template<typename Packet>
+		EIGEN_STRONG_INLINE typename std::enable_if<
+			IsFloatPacket<Packet>::value
+		>::type psincos(Packet x, Packet& s, Packet& c)
 		{
-			EIGEN_STRONG_INLINE Packet8f to_float(const Packet8i& x)
-			{
-				return _mm256_castsi256_ps(x);
-			}
-			EIGEN_STRONG_INLINE Packet4d to_double(const Packet8i& x)
-			{
-				return _mm256_castsi256_pd(x);
-			}
+			Packet xmm1, xmm2, xmm3 = pset1<Packet>(0), sign_bit_sin, y;
+			using IntPacket = decltype(reinterpret_to_int(x));
+			IntPacket emm0, emm2, emm4;
-			EIGEN_STRONG_INLINE Packet8i to_int(const Packet8i& x)
-			{
-				return x;
-			}
-		};
+			sign_bit_sin = x;
+			/* take the absolute value */
+			x = pabs(x);
+			/* extract the sign bit (upper one) */
+			sign_bit_sin = pext_sign(sign_bit_sin);
-		template<>
-		struct reinterpreter<Packet8f>
-		{
-			EIGEN_STRONG_INLINE Packet8f to_float(const Packet8f& x)
-			{
-				return x;
-			}
+			/* scale by 4/Pi */
+			y = pmul(x, pset1<Packet>(1.27323954473516));
-			EIGEN_STRONG_INLINE Packet4d to_double(const Packet8f& x)
-			{
-				return _mm256_castps_pd(x);
-			}
+			/* store the integer part of y in emm2 */
+			emm2 = pcast<Packet, IntPacket>(y);
-			EIGEN_STRONG_INLINE Packet8i to_int(const Packet8f& x)
-			{
-				return _mm256_castps_si256(x);
-			}
-		};
+			/* j=(j+1) & (~1) (see the cephes sources) */
+			emm2 = padd(emm2, pset1<IntPacket>(1));
+			emm2 = pand(emm2, pset1<IntPacket>(~1));
+			y = pcast<IntPacket, Packet>(emm2);
-		template<>
-		struct reinterpreter<Packet4d>
-		{
-			EIGEN_STRONG_INLINE Packet8f to_float(const Packet4d& x)
-			{
-				return _mm256_castpd_ps(x);
-			}
+			emm4 = emm2;
-			EIGEN_STRONG_INLINE Packet4d to_double(const Packet4d& x)
-			{
-				return x;
-			}
+			/* get the swap sign flag for the sine */
+			emm0 = pand(emm2, pset1<IntPacket>(4));
+			emm0 = psll<29>(emm0);
+			Packet swap_sign_bit_sin = reinterpret_to_float(emm0);
-			EIGEN_STRONG_INLINE Packet8i to_int(const Packet4d& x)
-			{
-				return _mm256_castpd_si256(x);
-			}
-		};
+			/* get the polynom selection mask for the sine*/
+			emm2 = pand(emm2, pset1<IntPacket>(2));
-		EIGEN_STRONG_INLINE void split_two(const Packet8i& x, Packet4i& a, Packet4i& b)
-		{
-			a = _mm256_extractf128_si256(x, 0);
-			b = _mm256_extractf128_si256(x, 1);
-		}
+			emm2 = pcmpeq(emm2, pset1<IntPacket>(0));
+			Packet poly_mask = reinterpret_to_float(emm2);
-		EIGEN_STRONG_INLINE Packet8i combine_two(const Packet4i& a, const Packet4i& b)
-		{
-			return _mm256_insertf128_si256(_mm256_castsi128_si256(a), b, 1);
-		}
+			/* The magic pass: "Extended precision modular arithmetic"
+			x = ((x - y * DP1) - y * DP2) - y * DP3; */
+			xmm1 = pset1<Packet>(-0.78515625);
+			xmm2 = pset1<Packet>(-2.4187564849853515625e-4);
+			xmm3 = pset1<Packet>(-3.77489497744594108e-8);
+			xmm1 = pmul(y, xmm1);
+			xmm2 = pmul(y, xmm2);
+			xmm3 = pmul(y, xmm3);
+			x = padd(x, xmm1);
+			x = padd(x, xmm2);
+			x = padd(x, xmm3);
-		EIGEN_STRONG_INLINE void split_two(const Packet8f& x, Packet4f& a, Packet4f& b)
-		{
-			a = _mm256_extractf128_ps(x, 0);
-			b = _mm256_extractf128_ps(x, 1);
-		}
+			emm4 = psub(emm4, pset1<IntPacket>(2));
+	#if defined(EIGEN_VECTORIZE_NEON) || defined(EIGENRAND_EIGEN_34_MODE)
+			emm4 = pandnot(pset1<IntPacket>(4), emm4);
+	#else
+			emm4 = pandnot(emm4, pset1<IntPacket>(4));
+	#endif
+			emm4 = psll<29>(emm4);
+			Packet sign_bit_cos = reinterpret_to_float(emm4);
+			sign_bit_sin = pxor(sign_bit_sin, swap_sign_bit_sin);
-		EIGEN_STRONG_INLINE Packet8f combine_two(const Packet4f& a, const Packet4f& b)
-		{
-			return _mm256_insertf128_ps(_mm256_castps128_ps256(a), b, 1);
-		}
+			/* Evaluate the first polynom  (0 <= x <= Pi/4) */
+			Packet z = pmul(x, x);
+			y = pset1<Packet>(2.443315711809948E-005);
-		EIGEN_STRONG_INLINE Packet4i combine_low32(const Packet8i& a)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_castsi256_si128(_mm256_permutevar8x32_epi32(a, _mm256_setr_epi32(0, 2, 4, 6, 1, 3, 5, 7)));
-#else
-			auto sc = _mm256_permutevar_ps(_mm256_castsi256_ps(a), _mm256_setr_epi32(0, 2, 1, 3, 1, 3, 0, 2));
-			return _mm_castps_si128(_mm_blend_ps(_mm256_extractf128_ps(sc, 0), _mm256_extractf128_ps(sc, 1), 0b1100));
-#endif
-		}
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(-1.388731625493765E-003));
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(4.166664568298827E-002));
+			y = pmul(y, z);
+			y = pmul(y, z);
+			Packet tmp = pmul(z, pset1<Packet>(0.5));
+			y = psub(y, tmp);
+			y = padd(y, pset1<Packet>(1));
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pseti64<Packet8i>(uint64_t a)
-		{
-			return _mm256_set1_epi64x(a);
-		}
+			/* Evaluate the second polynom  (Pi/4 <= x <= 0) */
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pcmpeq<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_cmpeq_epi32(a, b);
-#else
-			Packet4i a1, a2, b1, b2;
-			split_two(a, a1, a2);
-			split_two(b, b1, b2);
-			return combine_two((Packet4i)_mm_cmpeq_epi32(a1, b1), (Packet4i)_mm_cmpeq_epi32(a2, b2));
-#endif
-		}
+			Packet y2 = pset1<Packet>(-1.9515295891E-4);
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(8.3321608736E-3));
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(-1.6666654611E-1));
+			y2 = pmul(y2, z);
+			y2 = pmul(y2, x);
+			y2 = padd(y2, x);
-		template<>
-		EIGEN_STRONG_INLINE Packet8i psll<Packet8i>(const Packet8i& a, int b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_slli_epi32(a, b);
-#else
-			Packet4i a1, a2;
-			split_two(a, a1, a2);
-			return combine_two((Packet4i)_mm_slli_epi32(a1, b), (Packet4i)_mm_slli_epi32(a2, b));
-#endif
-		}
+			/* select the correct result from the two polynoms */
+			xmm3 = poly_mask;
+			Packet ysin2 = pand(xmm3, y2);
+	#if defined(EIGEN_VECTORIZE_NEON) || defined(EIGENRAND_EIGEN_34_MODE)
+			Packet ysin1 = pandnot(y, xmm3);
+	#else
+			Packet ysin1 = pandnot(xmm3, y);
+	#endif
+			y2 = psub(y2, ysin2);
+			y = psub(y, ysin1);
-		template<>
-		EIGEN_STRONG_INLINE Packet8i psrl<Packet8i>(const Packet8i& a, int b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_srli_epi32(a, b);
-#else
-			Packet4i a1, a2;
-			split_two(a, a1, a2);
-			return combine_two((Packet4i)_mm_srli_epi32(a1, b), (Packet4i)_mm_srli_epi32(a2, b));
-#endif
-		}
+			xmm1 = padd(ysin1, ysin2);
+			xmm2 = padd(y, y2);
-		template<>
-		EIGEN_STRONG_INLINE Packet8i psll64<Packet8i>(const Packet8i& a, int b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_slli_epi64(a, b);
-#else
-			Packet4i a1, a2;
-			split_two(a, a1, a2);
-			return combine_two((Packet4i)_mm_slli_epi64(a1, b), (Packet4i)_mm_slli_epi64(a2, b));
-#endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8i psrl64<Packet8i>(const Packet8i& a, int b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_srli_epi64(a, b);
-#else
-			Packet4i a1, a2;
-			split_two(a, a1, a2);
-			return combine_two((Packet4i)_mm_srli_epi64(a1, b), (Packet4i)_mm_srli_epi64(a2, b));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i padd<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_add_epi32(a, b);
-#else
-			Packet4i a1, a2, b1, b2;
-			split_two(a, a1, a2);
-			split_two(b, b1, b2);
-			return combine_two((Packet4i)_mm_add_epi32(a1, b1), (Packet4i)_mm_add_epi32(a2, b2));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i psub<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_sub_epi32(a, b);
-#else
-			Packet4i a1, a2, b1, b2;
-			split_two(a, a1, a2);
-			split_two(b, b1, b2);
-			return combine_two((Packet4i)_mm_sub_epi32(a1, b1), (Packet4i)_mm_sub_epi32(a2, b2));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i pand<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_and_si256(a, b);
-#else
-			return reinterpret_to_int((Packet8f)_mm256_and_ps(reinterpret_to_float(a), reinterpret_to_float(b)));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i pandnot<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_andnot_si256(a, b);
-#else
-			return reinterpret_to_int((Packet8f)_mm256_andnot_ps(reinterpret_to_float(a), reinterpret_to_float(b)));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i por<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_or_si256(a, b);
-#else
-			return reinterpret_to_int((Packet8f)_mm256_or_ps(reinterpret_to_float(a), reinterpret_to_float(b)));
-#endif
-		}
-		template<> EIGEN_STRONG_INLINE Packet8i pxor<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_xor_si256(a, b);
-#else
-			return reinterpret_to_int((Packet8f)_mm256_xor_ps(reinterpret_to_float(a), reinterpret_to_float(b)));
-#endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pcmplt<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_cmpgt_epi32(b, a);
-#else
-			Packet4i a1, a2, b1, b2;
-			split_two(a, a1, a2);
-			split_two(b, b1, b2);
-			return combine_two((Packet4i)_mm_cmpgt_epi32(b1, a1), (Packet4i)_mm_cmpgt_epi32(b2, a2));
-#endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8f pcmplt<Packet8f>(const Packet8f& a, const Packet8f& b)
-		{
-			return _mm256_cmp_ps(a, b, _CMP_LT_OQ);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8f pcmple<Packet8f>(const Packet8f& a, const Packet8f& b)
-		{
-			return _mm256_cmp_ps(a, b, _CMP_LE_OQ);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4d pcmplt<Packet4d>(const Packet4d& a, const Packet4d& b)
-		{
-			return _mm256_cmp_pd(a, b, _CMP_LT_OQ);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4d pcmple<Packet4d>(const Packet4d& a, const Packet4d& b)
-		{
-			return _mm256_cmp_pd(a, b, _CMP_LE_OQ);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8f pblendv(const Packet8f& ifPacket, const Packet8f& thenPacket, const Packet8f& elsePacket)
-		{
-			return _mm256_blendv_ps(elsePacket, thenPacket, ifPacket);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8f pblendv(const Packet8i& ifPacket, const Packet8f& thenPacket, const Packet8f& elsePacket)
-		{
-			return pblendv(_mm256_castsi256_ps(ifPacket), thenPacket, elsePacket);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pblendv(const Packet8i& ifPacket, const Packet8i& thenPacket, const Packet8i& elsePacket)
-		{
-			return _mm256_castps_si256(_mm256_blendv_ps(
-				_mm256_castsi256_ps(elsePacket),
-				_mm256_castsi256_ps(thenPacket),
-				_mm256_castsi256_ps(ifPacket)
-			));
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4d pblendv(const Packet4d& ifPacket, const Packet4d& thenPacket, const Packet4d& elsePacket)
-		{
-			return _mm256_blendv_pd(elsePacket, thenPacket, ifPacket);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4d pblendv(const Packet8i& ifPacket, const Packet4d& thenPacket, const Packet4d& elsePacket)
-		{
-			return pblendv(_mm256_castsi256_pd(ifPacket), thenPacket, elsePacket);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pgather<Packet8i>(const int* addr, const Packet8i& index)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_i32gather_epi32(addr, index, 4);
-#else
-			uint32_t u[8];
-			_mm256_storeu_si256((Packet8i*)u, index);
-			return _mm256_setr_epi32(addr[u[0]], addr[u[1]], addr[u[2]], addr[u[3]],
-				addr[u[4]], addr[u[5]], addr[u[6]], addr[u[7]]);
-#endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet8f pgather<Packet8i>(const float *addr, const Packet8i& index)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_i32gather_ps(addr, index, 4);
-#else
-			uint32_t u[8];
-			_mm256_storeu_si256((Packet8i*)u, index);
-			return _mm256_setr_ps(addr[u[0]], addr[u[1]], addr[u[2]], addr[u[3]],
-				addr[u[4]], addr[u[5]], addr[u[6]], addr[u[7]]);
-#endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4d pgather<Packet8i>(const double *addr, const Packet8i& index, bool upperhalf)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_i32gather_pd(addr, _mm256_castsi256_si128(index), 8);
-#else
-			uint32_t u[8];
-			_mm256_storeu_si256((Packet8i*)u, index);
-			if (upperhalf)
-			{
-				return _mm256_setr_pd(addr[u[4]], addr[u[5]], addr[u[6]], addr[u[7]]);
-			}
-			else
-			{
-				return _mm256_setr_pd(addr[u[0]], addr[u[1]], addr[u[2]], addr[u[3]]);
-			}
-#endif
+			/* update the sign */
+			s = pxor(xmm1, sign_bit_sin);
+			c = pxor(xmm2, sign_bit_cos);
 		}
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet8f>(const Packet8f& a)
+		template<typename Packet>
+		EIGEN_STRONG_INLINE typename std::enable_if<
+			IsDoublePacket<Packet>::value
+		>::type psincos(Packet x, Packet& s, Packet& c)
 		{
-			return _mm256_movemask_ps(a);
-		}
+			Packet xmm1, xmm2, xmm3 = pset1<Packet>(0), sign_bit_sin, y;
+			using IntPacket = decltype(reinterpret_to_int(x));
+			IntPacket emm0, emm2, emm4;
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet4d>(const Packet4d& a)
-		{
-			return _mm256_movemask_pd(a);
-		}
+			sign_bit_sin = x;
+			/* take the absolute value */
+			x = pabs(x);
+			/* extract the sign bit (upper one) */
+			sign_bit_sin = pext_sign(sign_bit_sin);
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet8i>(const Packet8i& a)
-		{
-			return pmovemask(_mm256_castsi256_ps(a));
-		}
+			/* scale by 4/Pi */
+			y = pmul(x, pset1<Packet>(1.27323954473516));
-		template<>
-		EIGEN_STRONG_INLINE Packet8f ptruncate<Packet8f>(const Packet8f& a)
-		{
-			return _mm256_round_ps(a, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
-		}
+			/* store the integer part of y in emm2 */
+			emm2 = pcast64<Packet, IntPacket>(y);
-		template<>
-		EIGEN_STRONG_INLINE Packet4d ptruncate<Packet4d>(const Packet4d& a)
-		{
-			return _mm256_round_pd(a, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
-		}
+			/* j=(j+1) & (~1) (see the cephes sources) */
+			emm2 = padd64(emm2, pseti64<IntPacket>(1));
+			emm2 = pand(emm2, pseti64<IntPacket>(~1ll));
+			y = pcast64<IntPacket, Packet>(emm2);
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pcmpeq64<Packet8i>(const Packet8i& a, const Packet8i& b)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm256_cmpeq_epi64(a, b);
-#else
-			Packet4i a1, a2, b1, b2;
-			split_two(a, a1, a2);
-			split_two(b, b1, b2);
-			return combine_two((Packet4i)_mm_cmpeq_epi64(a1, b1), (Packet4i)_mm_cmpeq_epi64(a2, b2));
-#endif
-		}
+			emm4 = emm2;
-		template<>
-		EIGEN_STRONG_INLINE Packet8i pmuluadd64<Packet8i>(const Packet8i& a, uint64_t b, uint64_t c)
-		{
-			uint64_t u[4];
-			_mm256_storeu_si256((__m256i*)u, a);
-			u[0] = u[0] * b + c;
-			u[1] = u[1] * b + c;
-			u[2] = u[2] * b + c;
-			u[3] = u[3] * b + c;
-			return _mm256_loadu_si256((__m256i*)u);
-		}
-	}
-}
-#endif
+			/* get the swap sign flag for the sine */
+			emm0 = pand(emm2, pseti64<IntPacket>(4));
+			emm0 = psll64<61>(emm0);
+			Packet swap_sign_bit_sin = reinterpret_to_double(emm0);
-#ifdef EIGEN_VECTORIZE_SSE2
-#include <xmmintrin.h>
+			/* get the polynom selection mask for the sine*/
+			emm2 = pand(emm2, pseti64<IntPacket>(2));
-namespace Eigen
-{
-	namespace internal
-	{
-		template<>
-		struct reinterpreter<Packet4i>
-		{
-			EIGEN_STRONG_INLINE Packet4f to_float(const Packet4i& x)
-			{
-				return _mm_castsi128_ps(x);
-			}
+			emm2 = pcmpeq64(emm2, pseti64<IntPacket>(0));
+			Packet poly_mask = reinterpret_to_double(emm2);
-			EIGEN_STRONG_INLINE Packet2d to_double(const Packet4i& x)
-			{
-				return _mm_castsi128_pd(x);
-			}
+			/* The magic pass: "Extended precision modular arithmetic"
+			x = ((x - y * DP1) - y * DP2) - y * DP3; */
+			xmm1 = pset1<Packet>(-0.78515625);
+			xmm2 = pset1<Packet>(-2.4187564849853515625e-4);
+			xmm3 = pset1<Packet>(-3.77489497744594108e-8);
+			xmm1 = pmul(y, xmm1);
+			xmm2 = pmul(y, xmm2);
+			xmm3 = pmul(y, xmm3);
+			x = padd(x, xmm1);
+			x = padd(x, xmm2);
+			x = padd(x, xmm3);
-			EIGEN_STRONG_INLINE Packet4i to_int(const Packet4i& x)
-			{
-				return x;
-			}
-		};
+			emm4 = psub64(emm4, pseti64<IntPacket>(2));
+	#if defined(EIGEN_VECTORIZE_NEON) || defined(EIGENRAND_EIGEN_34_MODE)
+			emm4 = pandnot(pseti64<IntPacket>(4), emm4);
+	#else
+			emm4 = pandnot(emm4, pseti64<IntPacket>(4));
+	#endif
+			emm4 = psll64<61>(emm4);
+			Packet sign_bit_cos = reinterpret_to_double(emm4);
+			sign_bit_sin = pxor(sign_bit_sin, swap_sign_bit_sin);
-		template<>
-		struct reinterpreter<Packet4f>
-		{
-			EIGEN_STRONG_INLINE Packet4f to_float(const Packet4f& x)
-			{
-				return x;
-			}
-			EIGEN_STRONG_INLINE Packet2d to_double(const Packet4f& x)
-			{
-				return _mm_castps_pd(x);
-			}
+			/* Evaluate the first polynom  (0 <= x <= Pi/4) */
+			Packet z = pmul(x, x);
+			y = pset1<Packet>(2.443315711809948E-005);
-			EIGEN_STRONG_INLINE Packet4i to_int(const Packet4f& x)
-			{
-				return _mm_castps_si128(x);
-			}
-		};
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(-1.388731625493765E-003));
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(4.166664568298827E-002));
+			y = pmul(y, z);
+			y = pmul(y, z);
+			Packet tmp = pmul(z, pset1<Packet>(0.5));
+			y = psub(y, tmp);
+			y = padd(y, pset1<Packet>(1));
-		template<>
-		struct reinterpreter<Packet2d>
-		{
-			EIGEN_STRONG_INLINE Packet4f to_float(const Packet2d& x)
-			{
-				return _mm_castpd_ps(x);
-			}
+			/* Evaluate the second polynom  (Pi/4 <= x <= 0) */
-			EIGEN_STRONG_INLINE Packet2d to_double(const Packet2d& x)
-			{
-				return x;
-			}
+			Packet y2 = pset1<Packet>(-1.9515295891E-4);
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(8.3321608736E-3));
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(-1.6666654611E-1));
+			y2 = pmul(y2, z);
+			y2 = pmul(y2, x);
+			y2 = padd(y2, x);
-			EIGEN_STRONG_INLINE Packet4i to_int(const Packet2d& x)
-			{
-				return _mm_castpd_si128(x);
-			}
-		};
+			/* select the correct result from the two polynoms */
+			xmm3 = poly_mask;
+			Packet ysin2 = pand(xmm3, y2);
+	#if defined(EIGEN_VECTORIZE_NEON) || defined(EIGENRAND_EIGEN_34_MODE)
+			Packet ysin1 = pandnot(y, xmm3);
+	#else
+			Packet ysin1 = pandnot(xmm3, y);
+	#endif
+			y2 = psub(y2, ysin2);
+			y = psub(y, ysin1);
-		EIGEN_STRONG_INLINE void split_two(const Packet4i& x, uint64_t& a, uint64_t& b)
-		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			a = _mm_extract_epi64(x, 0);
-			b = _mm_extract_epi64(x, 1);
-#else
-			uint64_t u[2];
-			_mm_storeu_si128((__m128i*)u, x);
-			a = u[0];
-			b = u[1];
-#endif
-		}
+			xmm1 = padd(ysin1, ysin2);
+			xmm2 = padd(y, y2);
-		EIGEN_STRONG_INLINE Packet4i combine_low32(const Packet4i& a, const Packet4i& b)
-		{
-			auto sa = _mm_shuffle_epi32(a, _MM_SHUFFLE(3, 1, 2, 0));
-			auto sb = _mm_shuffle_epi32(b, _MM_SHUFFLE(2, 0, 3, 1));
-			sa = _mm_and_si128(sa, _mm_setr_epi32(-1, -1, 0, 0));
-			sb = _mm_and_si128(sb, _mm_setr_epi32(0, 0, -1, -1));
-			return _mm_or_si128(sa, sb);
+			/* update the sign */
+			s = pxor(xmm1, sign_bit_sin);
+			c = pxor(xmm2, sign_bit_cos);
 		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pseti64<Packet4i>(uint64_t a)
+		template<typename Packet>
+		EIGEN_STRONG_INLINE typename std::enable_if<
+			IsDoublePacket<Packet>::value, Packet
+		>::type _psin(Packet x)
 		{
-			return _mm_set1_epi64x(a);
-		}
+			Packet xmm1, xmm2, xmm3 = pset1<Packet>(0), sign_bit_sin, y;
+			using IntPacket = decltype(reinterpret_to_int(x));
+			IntPacket emm0, emm2;
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pcmpeq<Packet4i>(const Packet4i& a, const Packet4i& b)
-		{
-			return _mm_cmpeq_epi32(a, b);
-		}
+			sign_bit_sin = x;
+			/* take the absolute value */
+			x = pabs(x);
+			/* extract the sign bit (upper one) */
+			sign_bit_sin = pext_sign(sign_bit_sin);
-		template<>
-		EIGEN_STRONG_INLINE Packet4i psll<Packet4i>(const Packet4i& a, int b)
-		{
-			return _mm_slli_epi32(a, b);
-		}
+			/* scale by 4/Pi */
+			y = pmul(x, pset1<Packet>(1.27323954473516));
-		template<>
-		EIGEN_STRONG_INLINE Packet4i psrl<Packet4i>(const Packet4i& a, int b)
-		{
-			return _mm_srli_epi32(a, b);
-		}
+			/* store the integer part of y in emm2 */
+			emm2 = pcast64<Packet, IntPacket>(y);
+			/* j=(j+1) & (~1) (see the cephes sources) */
+			emm2 = padd64(emm2, pseti64<IntPacket>(1));
+			emm2 = pand(emm2, pseti64<IntPacket>(~1ll));
+			y = pcast64<IntPacket, Packet>(emm2);
-		template<>
-		EIGEN_STRONG_INLINE Packet4i psll64<Packet4i>(const Packet4i& a, int b)
-		{
-			return _mm_slli_epi64(a, b);
-		}
+			/* get the swap sign flag for the sine */
+			emm0 = pand(emm2, pseti64<IntPacket>(4));
+			emm0 = psll64<61>(emm0);
+			Packet swap_sign_bit_sin = reinterpret_to_double(emm0);
-		template<>
-		EIGEN_STRONG_INLINE Packet4i psrl64<Packet4i>(const Packet4i& a, int b)
-		{
-			return _mm_srli_epi64(a, b);
-		}
+			/* get the polynom selection mask for the sine*/
+			emm2 = pand(emm2, pseti64<IntPacket>(2));
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pcmplt<Packet4i>(const Packet4i& a, const Packet4i& b)
-		{
-			return _mm_cmplt_epi32(a, b);
-		}
+			emm2 = pcmpeq64(emm2, pseti64<IntPacket>(0));
+			Packet poly_mask = reinterpret_to_double(emm2);
-		template<>
-		EIGEN_STRONG_INLINE Packet4f pcmplt<Packet4f>(const Packet4f& a, const Packet4f& b)
-		{
-			return _mm_cmplt_ps(a, b);
-		}
+			/* The magic pass: "Extended precision modular arithmetic"
+			x = ((x - y * DP1) - y * DP2) - y * DP3; */
+			xmm1 = pset1<Packet>(-0.78515625);
+			xmm2 = pset1<Packet>(-2.4187564849853515625e-4);
+			xmm3 = pset1<Packet>(-3.77489497744594108e-8);
+			xmm1 = pmul(y, xmm1);
+			xmm2 = pmul(y, xmm2);
+			xmm3 = pmul(y, xmm3);
+			x = padd(x, xmm1);
+			x = padd(x, xmm2);
+			x = padd(x, xmm3);
-		template<>
-		EIGEN_STRONG_INLINE Packet4f pcmple<Packet4f>(const Packet4f& a, const Packet4f& b)
-		{
-			return _mm_cmple_ps(a, b);
-		}
+			sign_bit_sin = pxor(sign_bit_sin, swap_sign_bit_sin);
-		template<>
-		EIGEN_STRONG_INLINE Packet2d pcmplt<Packet2d>(const Packet2d& a, const Packet2d& b)
-		{
-			return _mm_cmplt_pd(a, b);
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet2d pcmple<Packet2d>(const Packet2d& a, const Packet2d& b)
-		{
-			return _mm_cmple_pd(a, b);
-		}
+			/* Evaluate the first polynom  (0 <= x <= Pi/4) */
+			Packet z = pmul(x, x);
+			y = pset1<Packet>(2.443315711809948E-005);
-		template<>
-		EIGEN_STRONG_INLINE Packet4f pblendv(const Packet4f& ifPacket, const Packet4f& thenPacket, const Packet4f& elsePacket)
-		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_blendv_ps(elsePacket, thenPacket, ifPacket);
-#else
-			return _mm_or_ps(_mm_and_ps(ifPacket, thenPacket), _mm_andnot_ps(ifPacket, elsePacket));
-#endif
-		}
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(-1.388731625493765E-003));
+			y = pmul(y, z);
+			y = padd(y, pset1<Packet>(4.166664568298827E-002));
+			y = pmul(y, z);
+			y = pmul(y, z);
+			Packet tmp = pmul(z, pset1<Packet>(0.5));
+			y = psub(y, tmp);
+			y = padd(y, pset1<Packet>(1));
-		template<>
-		EIGEN_STRONG_INLINE Packet4f pblendv(const Packet4i& ifPacket, const Packet4f& thenPacket, const Packet4f& elsePacket)
-		{
-			return pblendv(_mm_castsi128_ps(ifPacket), thenPacket, elsePacket);
-		}
+			/* Evaluate the second polynom  (Pi/4 <= x <= 0) */
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pblendv(const Packet4i& ifPacket, const Packet4i& thenPacket, const Packet4i& elsePacket)
-		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_castps_si128(_mm_blendv_ps(_mm_castsi128_ps(elsePacket), _mm_castsi128_ps(thenPacket), _mm_castsi128_ps(ifPacket)));
-#else
-			return _mm_or_si128(_mm_and_si128(ifPacket, thenPacket), _mm_andnot_si128(ifPacket, elsePacket));
-#endif
-		}
+			Packet y2 = pset1<Packet>(-1.9515295891E-4);
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(8.3321608736E-3));
+			y2 = pmul(y2, z);
+			y2 = padd(y2, pset1<Packet>(-1.6666654611E-1));
+			y2 = pmul(y2, z);
+			y2 = pmul(y2, x);
+			y2 = padd(y2, x);
-		template<>
-		EIGEN_STRONG_INLINE Packet2d pblendv(const Packet2d& ifPacket, const Packet2d& thenPacket, const Packet2d& elsePacket)
-		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_blendv_pd(elsePacket, thenPacket, ifPacket);
-#else
-			return _mm_or_pd(_mm_and_pd(ifPacket, thenPacket), _mm_andnot_pd(ifPacket, elsePacket));
-#endif
-		}
+			/* select the correct result from the two polynoms */
+			xmm3 = poly_mask;
+			Packet ysin2 = pand(xmm3, y2);
+	#if defined(EIGEN_VECTORIZE_NEON) || defined(EIGENRAND_EIGEN_34_MODE)
+			Packet ysin1 = pandnot(y, xmm3);
+	#else
+			Packet ysin1 = pandnot(xmm3, y);
+	#endif
+			xmm1 = padd(ysin1, ysin2);
-		template<>
-		EIGEN_STRONG_INLINE Packet2d pblendv(const Packet4i& ifPacket, const Packet2d& thenPacket, const Packet2d& elsePacket)
-		{
-			return pblendv(_mm_castsi128_pd(ifPacket), thenPacket, elsePacket);
+			/* update the sign */
+			return pxor(xmm1, sign_bit_sin);
 		}
+	}
+}
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pgather<Packet4i>(const int* addr, const Packet4i& index)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm_i32gather_epi32(addr, index, 4);
-#else
-			uint32_t u[4];
-			_mm_storeu_si128((__m128i*)u, index);
-			return _mm_setr_epi32(addr[u[0]], addr[u[1]], addr[u[2]], addr[u[3]]);
+#ifdef EIGEN_VECTORIZE_AVX
+#include "arch/AVX/MorePacketMath.h"
 #endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4f pgather<Packet4i>(const float* addr, const Packet4i& index)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm_i32gather_ps(addr, index, 4);
-#else
-			uint32_t u[4];
-			_mm_storeu_si128((__m128i*)u, index);
-			return _mm_setr_ps(addr[u[0]], addr[u[1]], addr[u[2]], addr[u[3]]);
+#ifdef EIGEN_VECTORIZE_SSE2
+#include "arch/SSE/MorePacketMath.h"
 #endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet2d pgather<Packet4i>(const double* addr, const Packet4i& index, bool upperhalf)
-		{
-#ifdef EIGEN_VECTORIZE_AVX2
-			return _mm_i32gather_pd(addr, index, 8);
-#else
-			uint32_t u[4];
-			_mm_storeu_si128((__m128i*)u, index);
-			if (upperhalf)
-			{
-				return _mm_setr_pd(addr[u[2]], addr[u[3]]);
-			}
-			else
-			{
-				return _mm_setr_pd(addr[u[0]], addr[u[1]]);
-			}
+#ifdef EIGEN_VECTORIZE_NEON
+#include "arch/NEON/MorePacketMath.h"
 #endif
-		}
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet4f>(const Packet4f& a)
-		{
-			return _mm_movemask_ps(a);
-		}
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet2d>(const Packet2d& a)
-		{
-			return _mm_movemask_pd(a);
-		}
-		template<>
-		EIGEN_STRONG_INLINE int pmovemask<Packet4i>(const Packet4i& a)
-		{
-			return pmovemask((Packet4f)_mm_castsi128_ps(a));
-		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4f ptruncate<Packet4f>(const Packet4f& a)
+namespace Eigen
+{
+	namespace internal
+	{
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psll(const Packet& a)
 		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_round_ps(a, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
-#else
-			auto round = _MM_GET_ROUNDING_MODE();
-			_MM_SET_ROUNDING_MODE(_MM_ROUND_TOWARD_ZERO);
-			auto ret = _mm_cvtepi32_ps(_mm_cvtps_epi32(a));
-			_MM_SET_ROUNDING_MODE(round);
-			return ret;
-#endif
+			return BitShifter<Packet>{}.template sll<b>(a);
 		}
-		template<>
-		EIGEN_STRONG_INLINE Packet2d ptruncate<Packet2d>(const Packet2d& a)
+		template<int _b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psrl(const Packet& a, int b)
 		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_round_pd(a, _MM_FROUND_TO_ZERO | _MM_FROUND_NO_EXC);
-#else
-			auto round = _MM_GET_ROUNDING_MODE();
-			_MM_SET_ROUNDING_MODE(_MM_ROUND_TOWARD_ZERO);
-			auto ret = _mm_cvtepi32_pd(_mm_cvtpd_epi32(a));
-			_MM_SET_ROUNDING_MODE(round);
-			return ret;
-#endif
+			return BitShifter<Packet>{}.template srl<_b>(a, b);
 		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pcmpeq64<Packet4i>(const Packet4i& a, const Packet4i& b)
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psll64(const Packet& a)
 		{
-#ifdef EIGEN_VECTORIZE_SSE4_1
-			return _mm_cmpeq_epi64(a, b);
-#else
-			Packet4i c = _mm_cmpeq_epi32(a, b);
-			return pand(c, (Packet4i)_mm_shuffle_epi32(c, _MM_SHUFFLE(2, 3, 0, 1)));
-#endif
+			return BitShifter<Packet>{}.template sll64<b>(a);
 		}
-		template<>
-		EIGEN_STRONG_INLINE Packet4i pmuluadd64<Packet4i>(const Packet4i& a, uint64_t b, uint64_t c)
+		template<int b, typename Packet>
+		EIGEN_STRONG_INLINE Packet psrl64(const Packet& a)
 		{
-			uint64_t u[2];
-			_mm_storeu_si128((__m128i*)u, a);
-			u[0] = u[0] * b + c;
-			u[1] = u[1] * b + c;
-			return _mm_loadu_si128((__m128i*)u);
+			return BitShifter<Packet>{}.template srl64<b>(a);
 		}
 	}
 }
-#endif
-#endif
+#endif