RubyGems - vector_sse - Versions diffs - 0.0.1.pre → 0.0.2.pre - Mend

vector_sse 0.0.1.pre → 0.0.2.pre

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

checksums.yaml +4 -4
data/.gitignore +5 -1
data/Gemfile +5 -0
data/ext/.gitignore +1 -0
data/ext/vector_sse/extconf.rb +1 -1
data/ext/vector_sse/vector_sse_add.c +5 -4
data/ext/vector_sse/vector_sse_common.c +31 -0
data/ext/vector_sse/vector_sse_common.h +13 -0
data/ext/vector_sse/vector_sse_mul.c +2 -12
data/ext/vector_sse/vector_sse_sum.c +30 -28
data/ext/vector_sse/vector_sse_vec_mul.c +7 -9
data/lib/vector_sse.rb +1 -1
metadata +13 -9

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 98eb4a76855923685b4f2857b834900304bb85c8
-  data.tar.gz: 5ca280566cecbd8cf474e6950ebf21dfe3104199
+  metadata.gz: fdabd1511ca1ab68168a0723f06d26afe3312627
+  data.tar.gz: 9bb853808e5c0a8ec8e8b1592e84a0537954f6dc
 SHA512:
-  metadata.gz: 39cbc928cf7f4fc555d8edca11caa0eefb28d34b23356c837f2ef453afd06d6f1b6798c802ad4cad76f65fe3ae25fd6dee459f32fc731bfaad386e4ecf9dbf49
-  data.tar.gz: df243d6d5260ac8f414ccfb5b2c68dfc0a090304cd7c0d49947dc0a6d880dbe966a9cba265d6bedb7caadd41fd6d7bc55e9776929ab453870d85d3c17112b04f
+  metadata.gz: 213dffc68fc752e4520f0d5f7e910467b3fb51faba6ed5f6052b38d6a677928ead0b899b7658427fa78e08c7400f9ac874112b8c325174a328a9c137cdf34d6d
+  data.tar.gz: 10b7386669a7a1acbbcad0a9f24323e703487997d18969f9b02a6f0d5ba02ac2bd9ff1c50ba5df71f33d18413e38545454eb48700570046bc2c2c5fb1f54f712

data/.gitignore CHANGED Viewed

@@ -1,4 +1,8 @@
 test_vectorops.rb
 vector_sse-*.gem
 tmp/
-*.sublime-*
+*.sublime-*
+Gemfile.lock
+vendor/
+*DS_Store
+.bundle/

data/Gemfile ADDED Viewed

@@ -0,0 +1,5 @@
+source 'https://rubygems.org'
+gem 'rake', '10.4.2'
+gem 'rake-compiler', '0.9.5'
+gem 'rspec'

data/ext/.gitignore ADDED Viewed

	@@ -0,0 +1 @@
1	+ *DS_Store

data/ext/vector_sse/extconf.rb CHANGED Viewed

@@ -3,7 +3,7 @@ require 'mkmf'
 # Give it a name
 extension_name = 'vector_sse'
-$CFLAGS << ' -O3'
+$CFLAGS << ' -O3 -msse -msse2 -msse3 -msse4.1 -msse4.2'
 # Check for dependencies
 have_header( 'emmintrin.h' )

data/ext/vector_sse/vector_sse_add.c CHANGED Viewed

@@ -32,6 +32,7 @@
 #include <emmintrin.h>
 #include "vector_sse_add.h"
+#include "vector_sse_common.h"
 #define  TEMPLATE_ADD_S( FUNC_NAME, TYPE, OFTYPE, TYPE_SIZE, CONV_IN, CONV_OUT, EL_PER_VEC, ADD ) \
 VALUE FUNC_NAME( VALUE self, VALUE left, VALUE right ) \
@@ -118,10 +119,10 @@ VALUE FUNC_NAME( VALUE self, VALUE left, VALUE right ) \
 TEMPLATE_ADD_S( method_vec_add_s32, int32_t, int32_t, 32, NUM2INT, INT2NUM, 4, _mm_add_epi32 );
 TEMPLATE_ADD_S( method_vec_add_s64, int64_t, int64_t, 64, NUM2LL, LL2NUM, 2, _mm_add_epi64 );
-TEMPLATE_ADD_S( method_vec_add_f32, float, int32_t, 32, NUM2DBL, DBL2NUM, 4, _mm_add_ps );
-TEMPLATE_ADD_S( method_vec_add_f64, double, int64_t, 64, NUM2DBL, DBL2NUM, 2, _mm_add_pd );
+TEMPLATE_ADD_S( method_vec_add_f32, float, int32_t, 32, NUM2DBL, DBL2NUM, 4, add_f32 );
+TEMPLATE_ADD_S( method_vec_add_f64, double, int64_t, 64, NUM2DBL, DBL2NUM, 2, add_f64 );
 TEMPLATE_ADD_S( method_vec_sub_s32, int32_t, int32_t, 32, NUM2INT, INT2NUM, 4, _mm_sub_epi32 );
 TEMPLATE_ADD_S( method_vec_sub_s64, int64_t, int64_t, 64, NUM2LL, LL2NUM, 2, _mm_sub_epi64 );
-TEMPLATE_ADD_S( method_vec_sub_f32, float, int32_t, 32, NUM2DBL, DBL2NUM, 4, _mm_sub_ps );
-TEMPLATE_ADD_S( method_vec_sub_f64, double, int64_t, 64, NUM2DBL, DBL2NUM, 2, _mm_sub_pd );
+TEMPLATE_ADD_S( method_vec_sub_f32, float, int32_t, 32, NUM2DBL, DBL2NUM, 4, sub_f32 );
+TEMPLATE_ADD_S( method_vec_sub_f64, double, int64_t, 64, NUM2DBL, DBL2NUM, 2, sub_f64 );

data/ext/vector_sse/vector_sse_common.c ADDED Viewed

@@ -0,0 +1,31 @@
+#include "vector_sse_common.h"
+__m128i add_f32( const __m128i left, const __m128i right )
+{
+   return _mm_castps_si128( _mm_add_ps( _mm_castsi128_ps( left ), _mm_castsi128_ps( right ) ) );
+}
+__m128i add_f64( const __m128i left, const __m128i right )
+{
+   return _mm_cvtpd_epi32( _mm_add_pd( _mm_castsi128_pd( left ), _mm_castsi128_pd( right ) ) );
+}
+__m128i sub_f32( const __m128i left, const __m128i right )
+{
+   return _mm_castps_si128( _mm_sub_ps( _mm_castsi128_ps( left ), _mm_castsi128_ps( right ) ) );
+}
+__m128i sub_f64( const __m128i left, const __m128i right )
+{
+   return _mm_cvtpd_epi32( _mm_sub_pd( _mm_castsi128_pd( left ), _mm_castsi128_pd( right ) ) );
+}
+__m128i mul_f32( const __m128i left, const __m128i right )
+{
+   return _mm_castps_si128( _mm_mul_ps( _mm_castsi128_ps( left ), _mm_castsi128_ps( right ) ) );
+}
+__m128i mul_f64( const __m128i left, const __m128i right )
+{
+   return _mm_cvtpd_epi32( _mm_mul_pd( _mm_castsi128_pd( left ), _mm_castsi128_pd( right ) ) );
+}

data/ext/vector_sse/vector_sse_common.h ADDED Viewed

@@ -0,0 +1,13 @@
+#ifndef  VECTOR_SSE_COMMON_H
+#define  VECTOR_SSE_COMMON_H
+#include <emmintrin.h>
+__m128i add_f32( const __m128i left, const __m128i right );
+__m128i add_f64( const __m128i left, const __m128i right );
+__m128i sub_f32( const __m128i left, const __m128i right );
+__m128i sub_f64( const __m128i left, const __m128i right );
+__m128i mul_f32( const __m128i left, const __m128i right );
+__m128i mul_f64( const __m128i left, const __m128i right );
+#endif // VECTOR_SSE_COMMON_H

data/ext/vector_sse/vector_sse_mul.c CHANGED Viewed

@@ -32,6 +32,7 @@
 #include <emmintrin.h>
 #include "vector_sse_mul.h"
+#include "vector_sse_common.h"
 #define  SSE_VECTOR_WIDTH    (4)
@@ -40,7 +41,6 @@ VALUE method_mat_mul_s32( VALUE self, VALUE left, VALUE left_rows_rb, VALUE left
    uint32_t left_row = 0;
    uint32_t right_col = 0;
    uint32_t common = 0;
-   uint32_t vector_pos = 0;
    uint32_t input_index = 0;
    uint32_t pos = 0;
@@ -148,17 +148,8 @@ VALUE method_mat_mul_s64( VALUE self, VALUE left, VALUE left_rows_rb, VALUE left
    uint32_t left_row = 0;
    uint32_t right_col = 0;
    uint32_t common = 0;
-   uint32_t vector_pos = 0;
-   uint32_t input_index = 0;
    uint32_t pos = 0;
-   int64_t left_segment[ SSE_VECTOR_WIDTH ];
-   int64_t right_segment[ SSE_VECTOR_WIDTH ];
-   __m128i* left_vec = NULL;
-   __m128i* right_vec = NULL;
-   __m128i result_vec;
    VALUE result = Qnil;
    int64_t* result_native = NULL;
@@ -233,7 +224,6 @@ VALUE method_mat_mul_f32( VALUE self, VALUE left, VALUE left_rows_rb, VALUE left
    uint32_t left_row = 0;
    uint32_t right_col = 0;
    uint32_t common = 0;
-   uint32_t vector_pos = 0;
    uint32_t input_index = 0;
    uint32_t pos = 0;
@@ -303,7 +293,7 @@ VALUE method_mat_mul_f32( VALUE self, VALUE left, VALUE left_rows_rb, VALUE left
             left_vec   = ( __m128i *)left_segment;
             right_vec  = ( __m128i *)right_segment;
-            result_vec = _mm_mul_ps( *left_vec, *right_vec );
+            result_vec = mul_f32( *left_vec, *right_vec );
             _mm_store_si128( (__m128i*)result_segment, result_vec );
             for ( pos = 0; pos < SSE_VECTOR_WIDTH; ++pos )

data/ext/vector_sse/vector_sse_sum.c CHANGED Viewed

@@ -32,9 +32,31 @@
 #include <string.h>
 #include <emmintrin.h>
+#include <ruby.h>
 #include "vector_sse_sum.h"
+#include "vector_sse_common.h"
-#define  TEMPLATE_SUM_S( FUNC_NAME, TYPE, OFTYPE, TYPE_SIZE, CONV_IN, CONV_OUT, EL_PER_VEC, ADD ) \
+// Check for overflow
+// __m128i sign_left;
+// __m128i sign_right;
+// const int32_t OVERFLOW_MASK = ( (int32_t)0x1 << (32-1) );
+// int32_t overflow[ 4 ];
+// __m128i* overflow_vec = (__m128i*)overflow;
+// sign_left = _mm_xor_si128(result_vec, left_vec);
+// sign_right = _mm_xor_si128(result_vec, right_vec);
+// *overflow_vec = _mm_and_si128(sign_left, sign_right);
+// for ( vector_pos = 0; vector_pos < 4; ++vector_pos )
+// {
+//    if ( ( (int32_t)overflow[ vector_pos ] & OVERFLOW_MASK ) )
+//    {
+//       rb_raise( rb_eRuntimeError, "Vector addition overflow" );
+//    }
+// }
+#define  TEMPLATE_SUM_S( FUNC_NAME, TYPE, CONV_IN, CONV_OUT, EL_PER_VEC, ADDER ) \
 VALUE FUNC_NAME( VALUE self, VALUE vector ) \
 { \
    uint32_t length      = 0; \
@@ -44,20 +66,12 @@ VALUE FUNC_NAME( VALUE self, VALUE vector ) \
 \
    TYPE  result = 0; \
 \
-   TYPE left_segment[ EL_PER_VEC ]; \
-   TYPE right_segment[ EL_PER_VEC ]; \
    TYPE result_segment[ EL_PER_VEC ]; \
    TYPE vector_segment[ EL_PER_VEC ]; \
 \
-   __m128i left_vec; \
-   __m128i right_vec; \
+   __m128i left_vec;   \
+   __m128i right_vec;  \
    __m128i result_vec; \
-\
-   __m128i sign_left; \
-   __m128i sign_right; \
-   const OFTYPE OVERFLOW_MASK = ( (OFTYPE)0x1 << (TYPE_SIZE-1) ); \
-   OFTYPE overflow[ EL_PER_VEC ]; \
-   __m128i* overflow_vec = (__m128i*)overflow; \
 \
    Check_Type( vector, T_ARRAY ); \
 \
@@ -85,19 +99,7 @@ VALUE FUNC_NAME( VALUE self, VALUE vector ) \
          right_vec = _mm_loadu_si128( (const __m128i *)vector_segment ); \
          left_vec  = _mm_loadu_si128( &result_vec ); \
 \
-         result_vec = ADD( left_vec, right_vec ); \
-\
-         sign_left = _mm_xor_si128(result_vec, left_vec); \
-         sign_right = _mm_xor_si128(result_vec, right_vec); \
-         *overflow_vec = _mm_and_si128(sign_left, sign_right); \
-\
-         for ( vector_pos = 0; vector_pos < EL_PER_VEC; ++vector_pos ) \
-         { \
-            if ( ( (OFTYPE)overflow[ vector_pos ] & OVERFLOW_MASK ) ) \
-            { \
-               rb_raise( rb_eRuntimeError, "Vector addition overflow" ); \
-            } \
-         } \
+         result_vec = ADDER( left_vec, right_vec ); \
       } \
 \
       _mm_store_si128( (__m128i*)result_segment, result_vec ); \
@@ -111,8 +113,8 @@ VALUE FUNC_NAME( VALUE self, VALUE vector ) \
    return CONV_OUT( result ); \
 }
-TEMPLATE_SUM_S( method_vec_sum_s32, int32_t, int32_t, 32, NUM2INT, INT2NUM, 4, _mm_add_epi32 );
-TEMPLATE_SUM_S( method_vec_sum_s64, int64_t, int64_t, 64, NUM2LL, LL2NUM, 2, _mm_add_epi64 );
-TEMPLATE_SUM_S( method_vec_sum_f32, float, int32_t, 32, NUM2DBL, DBL2NUM, 4, _mm_add_ps );
-TEMPLATE_SUM_S( method_vec_sum_f64, double, int64_t, 32, NUM2DBL, DBL2NUM, 2, _mm_add_pd );
+TEMPLATE_SUM_S( method_vec_sum_s32, int32_t, NUM2INT, INT2NUM, 4, _mm_add_epi32 );
+TEMPLATE_SUM_S( method_vec_sum_s64, int64_t, NUM2LL, LL2NUM, 2, _mm_add_epi64 );
+TEMPLATE_SUM_S( method_vec_sum_f32, float, NUM2DBL, DBL2NUM, 4, add_f32 );
+TEMPLATE_SUM_S( method_vec_sum_f64, double, NUM2DBL, DBL2NUM, 2, add_f64 );

data/ext/vector_sse/vector_sse_vec_mul.c CHANGED Viewed

@@ -36,6 +36,7 @@
 #include <smmintrin.h>
 #endif
 #include "vector_sse_vec_mul.h"
+#include "vector_sse_common.h"
 #define  SSE_VECTOR_WIDTH    (4)
 // #define  EL_PER_VEC    SSE_VECTOR_WIDTH
@@ -66,14 +67,14 @@ static inline __m128i mul_s64( const __m128i* left_vec, const __m128i* right_vec
    return _mm_loadu_si128( (const __m128i *)result );
 }
-static inline __m128i mul_f32(const __m128i* a, const __m128i* b )
+static inline __m128i mul_f32_ptr(const __m128i* a, const __m128i* b )
 {
-   return _mm_mul_ps( *a, *b );
+   return mul_f32( *a, *b );
 }
-static inline __m128i mul_f64(const __m128i* a, const __m128i* b )
+static inline __m128i mul_f64_ptr(const __m128i* a, const __m128i* b )
 {
-   return _mm_mul_pd( *a, *b );
+   return mul_f64( *a, *b );
 }
@@ -95,9 +96,6 @@ VALUE FUNC_NAME( VALUE self, VALUE left, VALUE right ) \
 \
    TYPE result_segment[ EL_PER_VEC ]; \
    __m128i result_vec; \
-\
-   __m128i sign_left;  \
-   __m128i sign_right; \
 \
    Check_Type( left, T_ARRAY );  \
    Check_Type( right, T_ARRAY ); \
@@ -152,6 +150,6 @@ VALUE FUNC_NAME( VALUE self, VALUE left, VALUE right ) \
 TEMPLATE_VEC_MUL_S( method_vec_mul_s32, int32_t, 32, NUM2INT, INT2NUM, 4, mul_s32 );
 TEMPLATE_VEC_MUL_S( method_vec_mul_s64, int64_t, 64, NUM2LL, LL2NUM, 2, mul_s64 );
-TEMPLATE_VEC_MUL_S( method_vec_mul_f32, float, 32, NUM2DBL, DBL2NUM, 4, mul_f32 );
-TEMPLATE_VEC_MUL_S( method_vec_mul_f64, double, 64, NUM2DBL, DBL2NUM, 2, mul_f64 );
+TEMPLATE_VEC_MUL_S( method_vec_mul_f32, float, 32, NUM2DBL, DBL2NUM, 4, mul_f32_ptr );
+TEMPLATE_VEC_MUL_S( method_vec_mul_f64, double, 64, NUM2DBL, DBL2NUM, 2, mul_f64_ptr );

data/lib/vector_sse.rb CHANGED Viewed

@@ -36,7 +36,7 @@ require File.join( bin_root, 'vector_sse.so' )
 module VectorSSE
-   VERSION = "0.0.1.pre"
+   VERSION = "0.0.2.pre"
    module Type
       S32 = 0

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: vector_sse
 version: !ruby/object:Gem::Version
-  version: 0.0.1.pre
+  version: 0.0.2.pre
 platform: ruby
 authors:
 - Robert Glissmann
@@ -14,28 +14,28 @@ dependencies:
   name: rake-compiler
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ~>
+    - - "~>"
       - !ruby/object:Gem::Version
         version: 0.9.5
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ~>
+    - - "~>"
       - !ruby/object:Gem::Version
         version: 0.9.5
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ~>
+    - - "~>"
       - !ruby/object:Gem::Version
         version: 3.1.0
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ~>
+    - - "~>"
       - !ruby/object:Gem::Version
         version: 3.1.0
 description: VectorSse employs x86 Streaming SIMD Extensions (SSE), v3 or greater,
@@ -46,15 +46,19 @@ extensions:
 - ext/vector_sse/extconf.rb
 extra_rdoc_files: []
 files:
-- .gitignore
+- ".gitignore"
+- Gemfile
 - LICENSE.txt
 - README.md
 - Rakefile
+- ext/.gitignore
 - ext/vector_sse/.gitignore
 - ext/vector_sse/extconf.rb
 - ext/vector_sse/vector_sse.c
 - ext/vector_sse/vector_sse_add.c
 - ext/vector_sse/vector_sse_add.h
+- ext/vector_sse/vector_sse_common.c
+- ext/vector_sse/vector_sse_common.h
 - ext/vector_sse/vector_sse_mul.c
 - ext/vector_sse/vector_sse_mul.h
 - ext/vector_sse/vector_sse_sum.c
@@ -76,17 +80,17 @@ require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
   requirements:
-  - - '>='
+  - - ">="
     - !ruby/object:Gem::Version
       version: '0'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - '>'
+  - - ">"
     - !ruby/object:Gem::Version
       version: 1.3.1
 requirements: []
 rubyforge_project:
-rubygems_version: 2.0.14
+rubygems_version: 2.4.8
 signing_key:
 specification_version: 4
 summary: SIMD accelerated vector and matrix operations