RubyGems - statsample - Versions diffs - 1.5.0 → 2.0.0 - Mend

statsample 1.5.0 → 2.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (114) hide show

checksums.yaml +4 -4
data/.build.sh +15 -0
data/.gitignore +1 -0
data/.travis.yml +19 -7
data/CONTRIBUTING.md +33 -0
data/History.txt +5 -0
data/README.md +41 -53
data/benchmarks/correlation_matrix_15_variables.rb +6 -5
data/benchmarks/correlation_matrix_5_variables.rb +6 -5
data/benchmarks/correlation_matrix_methods/correlation_matrix.rb +23 -26
data/examples/boxplot.rb +17 -5
data/examples/correlation_matrix.rb +36 -7
data/examples/dataset.rb +25 -5
data/examples/dominance_analysis.rb +8 -7
data/examples/dominance_analysis_bootstrap.rb +16 -11
data/examples/histogram.rb +16 -2
data/examples/icc.rb +5 -6
data/examples/levene.rb +17 -3
data/examples/multiple_regression.rb +6 -3
data/examples/parallel_analysis.rb +11 -6
data/examples/polychoric.rb +26 -13
data/examples/principal_axis.rb +8 -4
data/examples/reliability.rb +10 -10
data/examples/scatterplot.rb +8 -0
data/examples/t_test.rb +7 -0
data/examples/u_test.rb +10 -2
data/examples/vector.rb +9 -6
data/examples/velicer_map_test.rb +12 -8
data/lib/statsample.rb +13 -47
data/lib/statsample/analysis/suite.rb +1 -1
data/lib/statsample/anova/oneway.rb +6 -6
data/lib/statsample/anova/twoway.rb +26 -24
data/lib/statsample/bivariate.rb +78 -61
data/lib/statsample/bivariate/pearson.rb +2 -2
data/lib/statsample/codification.rb +45 -32
data/lib/statsample/converter/csv.rb +15 -53
data/lib/statsample/converter/spss.rb +6 -5
data/lib/statsample/converters.rb +50 -211
data/lib/statsample/crosstab.rb +26 -25
data/lib/statsample/daru.rb +117 -0
data/lib/statsample/dataset.rb +70 -942
data/lib/statsample/dominanceanalysis.rb +16 -17
data/lib/statsample/dominanceanalysis/bootstrap.rb +26 -28
data/lib/statsample/factor/parallelanalysis.rb +17 -19
data/lib/statsample/factor/pca.rb +21 -20
data/lib/statsample/factor/principalaxis.rb +3 -3
data/lib/statsample/graph/boxplot.rb +8 -16
data/lib/statsample/graph/histogram.rb +4 -4
data/lib/statsample/graph/scatterplot.rb +8 -7
data/lib/statsample/histogram.rb +128 -119
data/lib/statsample/matrix.rb +20 -16
data/lib/statsample/multiset.rb +39 -38
data/lib/statsample/regression.rb +3 -3
data/lib/statsample/regression/multiple.rb +8 -10
data/lib/statsample/regression/multiple/alglibengine.rb +96 -89
data/lib/statsample/regression/multiple/baseengine.rb +32 -32
data/lib/statsample/regression/multiple/gslengine.rb +33 -36
data/lib/statsample/regression/multiple/matrixengine.rb +7 -9
data/lib/statsample/regression/multiple/rubyengine.rb +39 -41
data/lib/statsample/reliability.rb +23 -25
data/lib/statsample/reliability/icc.rb +8 -7
data/lib/statsample/reliability/multiscaleanalysis.rb +14 -12
data/lib/statsample/reliability/scaleanalysis.rb +58 -60
data/lib/statsample/reliability/skillscaleanalysis.rb +34 -29
data/lib/statsample/resample.rb +1 -1
data/lib/statsample/shorthand.rb +29 -25
data/lib/statsample/test/kolmogorovsmirnov.rb +5 -3
data/lib/statsample/test/levene.rb +28 -27
data/lib/statsample/test/t.rb +7 -9
data/lib/statsample/test/umannwhitney.rb +28 -28
data/lib/statsample/test/wilcoxonsignedrank.rb +45 -43
data/lib/statsample/vector.rb +70 -1013
data/lib/statsample/version.rb +1 -1
data/statsample.gemspec +12 -16
data/test/helpers_tests.rb +1 -1
data/test/test_analysis.rb +17 -17
data/test/test_anova_contrast.rb +6 -6
data/test/test_anovatwowaywithdataset.rb +8 -8
data/test/test_anovawithvectors.rb +8 -8
data/test/test_awesome_print_bug.rb +1 -1
data/test/test_bartlettsphericity.rb +4 -4
data/test/test_bivariate.rb +48 -43
data/test/test_codification.rb +33 -33
data/test/test_crosstab.rb +9 -9
data/test/test_dataset.rb +28 -458
data/test/test_factor.rb +46 -38
data/test/test_factor_pa.rb +22 -13
data/test/test_ggobi.rb +4 -4
data/test/test_gsl.rb +4 -4
data/test/test_histogram.rb +3 -3
data/test/test_matrix.rb +13 -13
data/test/test_multiset.rb +103 -91
data/test/test_regression.rb +57 -52
data/test/test_reliability.rb +55 -45
data/test/test_reliability_icc.rb +8 -8
data/test/test_reliability_skillscale.rb +26 -24
data/test/test_resample.rb +1 -1
data/test/test_statistics.rb +3 -13
data/test/test_stest.rb +9 -9
data/test/test_stratified.rb +3 -3
data/test/test_test_t.rb +12 -12
data/test/test_umannwhitney.rb +2 -2
data/test/test_vector.rb +76 -613
data/test/test_wilcoxonsignedrank.rb +4 -4
metadata +57 -28
data/lib/statsample/rserve_extension.rb +0 -20
data/lib/statsample/vector/gsl.rb +0 -106
data/test/fixtures/repeated_fields.csv +0 -7
data/test/fixtures/scientific_notation.csv +0 -4
data/test/fixtures/test_csv.csv +0 -7
data/test/fixtures/test_xls.xls +0 -0
data/test/test_csv.rb +0 -63
data/test/test_rserve_extension.rb +0 -42
data/test/test_xls.rb +0 -52

data/lib/statsample/regression.rb CHANGED

@@ -25,8 +25,8 @@ module Statsample
       # * x: independent Vector
       # * y: dependent Vector
       # <b>Usage:</b>
-      #   x=100.times.collect {|i| rand(100)}.to_numeric
-      #   y=100.times.collect {|i| 2+x[i]*2+rand()}.to_numeric
+      #   x = Daru::Vector.new(100.times.collect {|i| rand(100)})
+      #   y = Daru::Vector.new(100.times.collect {|i| 2+x[i]*2+rand()})
       #   sr=Statsample::Regression.simple(x,y)
       #   sr.a
       #   => 2.51763295177808
@@ -49,7 +49,7 @@ module Statsample
       #     * :pairwise: uses correlation matrix. Use with caution.
       #
       # <b>Usage:</b>
-      #   lr=Statsample::Regression::multiple(ds,'y')
+      #   lr=Statsample::Regression::multiple(ds,:y)
       def self.multiple(ds,y_var, opts=Hash.new)
         missing_data= (opts[:missing_data].nil? ) ? :listwise : opts.delete(:missing_data)
         if missing_data==:pairwise

data/lib/statsample/regression/multiple.rb CHANGED

@@ -6,12 +6,12 @@ module Statsample
     #  Use:.
     #
     #  require 'statsample'
-    #  a=1000.times.collect {rand}.to_numeric
-    #  b=1000.times.collect {rand}.to_numeric
-    #  c=1000.times.collect {rand}.to_numeric
-    #  ds={'a'=>a,'b'=>b,'c'=>c}.to_dataset
-    #  ds['y']=ds.collect{|row| row['a']*5+row['b']*3+row['c']*2+rand()}
-    #  lr=Statsample::Regression.multiple(ds,'y')
+    #  a = Daru::Vector.new(1000.times.collect {rand})
+    #  b = Daru::Vector.new(1000.times.collect {rand})
+    #  c = Daru::Vector.new(1000.times.collect {rand})
+    #  ds= Daru::DataFrame.new({:a => a,:b => b,:c => c})
+    #  ds[:y]=ds.collect{|row| row[:a]*5 + row[:b]*3 + row[:c]*2 + rand()}
+    #  lr=Statsample::Regression.multiple(ds, :y)
     #  puts lr.summary
     #  Summary for regression of a,b,c over y
     #  *************************************************************
@@ -53,8 +53,8 @@ module Statsample
         def initialize(matrix,y_var, opts=Hash.new)
           matrix.extend Statsample::CovariateMatrix
           @matrix=matrix
-          @fields=matrix.fields-y_var
-          @y_var=y_var
+          @fields=matrix.fields - y_var
+          @y_var = y_var
           @q=@y_var.size
           @matrix_cor=matrix.correlation
           @matrix_cor_xx = @matrix_cor.submatrix(@fields)
@@ -84,8 +84,6 @@ module Statsample
           vxy.quo(@q)
         end
       end
     end
   end
 end

data/lib/statsample/regression/multiple/alglibengine.rb CHANGED

@@ -9,108 +9,115 @@ module Multiple
 # If you need pairwise, use RubyEngine
 # Example:
 #
-#   @a=[1,3,2,4,3,5,4,6,5,7].to_vector(:numeric)
-#   @b=[3,3,4,4,5,5,6,6,4,4].to_vector(:numeric)
-#   @c=[11,22,30,40,50,65,78,79,99,100].to_vector(:numeric)
-#   @y=[3,4,5,6,7,8,9,10,20,30].to_vector(:numeric)
-#   ds={'a'=>@a,'b'=>@b,'c'=>@c,'y'=>@y}.to_dataset
-#   lr=Statsample::Regression::Multiple::AlglibEngine.new(ds,'y')
+#   @a = Daru::Vector.new([1,3,2,4,3,5,4,6,5,7])
+#   @b = Daru::Vector.new([3,3,4,4,5,5,6,6,4,4])
+#   @c = Daru::Vector.new([11,22,30,40,50,65,78,79,99,100])
+#   @y = Daru::Vector.new([3,4,5,6,7,8,9,10,20,30])
+#   ds = Daru::DataFrame.new({:a => @a,:b => @b,:c => @c,:y => @y})
+#   lr=Statsample::Regression::Multiple::AlglibEngine.new(ds, :y)
 #
 class AlglibEngine < BaseEngine
   def initialize(ds,y_var, opts=Hash.new)
     super
-    @ds=ds.dup_only_valid
-    @ds_valid=@ds
-    @dy=@ds[@y_var]
-    @ds_indep=ds.dup(ds.fields-[y_var])
+    @ds       = ds.dup_only_valid
+    @ds_valid = @ds
+    @dy       = @ds[@y_var]
+    @ds_indep = ds.dup(ds.vectors.to_a - [y_var])
     # Create a custom matrix
-    columns=[]
-    @fields=[]
-    @ds.fields.each{|f|
-        if f!=@y_var
-            columns.push(@ds[f].to_a)
-            @fields.push(f)
-        end
-    }
-    @dep_columns=columns.dup
+    columns = []
+    @fields = []
+    @ds.vectors.each do |f|
+      if f != @y_var
+        columns.push(@ds[f].to_a)
+        @fields.push(f)
+      end
+    end
+    @dep_columns = columns.dup
     columns.push(@ds[@y_var])
     matrix=Matrix.columns(columns)
     @lr_s=nil
     @lr=::Alglib::LinearRegression.build_from_matrix(matrix)
     @coeffs=assign_names(@lr.coeffs)
   end
-    def _dump(i)
-        Marshal.dump({'ds'=>@ds,'y_var'=>@y_var})
-    end
-    def self._load(data)
-        h=Marshal.load(data)
-        self.new(h['ds'], h['y_var'])
-    end
-    def coeffs
-        @coeffs
-    end
-    # Coefficients using a constant
-    # Based on http://www.xycoon.com/ols1.htm
-    def matrix_resolution
-        mse_p=mse
-        columns=@dep_columns.dup.map {|xi| xi.map{|i| i.to_f}}
-        columns.unshift([1.0]*@ds.cases)
-        y=Matrix.columns([@dy.data.map  {|i| i.to_f}])
-        x=Matrix.columns(columns)
-        xt=x.t
-        matrix=((xt*x)).inverse*xt
-        matrix*y
-    end
-    def r2
-        r**2
-    end
-    def r
-        Bivariate::pearson(@dy,predicted)
-    end
-    def sst
-        @dy.ss
-    end
-    def constant
-        @lr.constant
-    end
-    def standarized_coeffs
-        l=lr_s
-        assign_names(l.coeffs)
-    end
-    def lr_s
-        if @lr_s.nil?
-            build_standarized
-        end
-        @lr_s
-    end
-    def build_standarized
-        @ds_s=@ds.standarize
-        columns=[]
-        @ds_s.fields.each{|f|
-            columns.push(@ds_s[f].to_a) unless f==@y_var
-        }
-        @dep_columns_s=columns.dup
-        columns.push(@ds_s[@y_var])
-        matrix=Matrix.columns(columns)
-        @lr_s=Alglib::LinearRegression.build_from_matrix(matrix)
-    end
-    def process(v)
-        @lr.process(v)
-    end
-    def process_s(v)
-        lr_s.process(v)
-    end
-    # ???? Not equal to SPSS output
-    def standarized_residuals
-        res=residuals
-        red_sd=residuals.sds
-        res.collect {|v|
-            v.quo(red_sd)
-        }.to_vector(:numeric)
+  def _dump(i)
+    Marshal.dump({'ds'=>@ds,'y_var'=>@y_var})
+  end
+  def self._load(data)
+    h=Marshal.load(data)
+    self.new(h['ds'], h['y_var'])
+  end
+  def coeffs
+    @coeffs
+  end
+  # Coefficients using a constant
+  # Based on http://www.xycoon.com/ols1.htm
+  def matrix_resolution
+    mse_p=mse
+    columns=@dep_columns.dup.map {|xi| xi.map{|i| i.to_f}}
+    columns.unshift([1.0]*@ds.cases)
+    y=Matrix.columns([@dy.data.map  {|i| i.to_f}])
+    x=Matrix.columns(columns)
+    xt=x.t
+    matrix=((xt*x)).inverse*xt
+    matrix*y
+  end
+  def r2
+    r**2
+  end
+  def r
+    Bivariate::pearson(@dy,predicted)
+  end
+  def sst
+    @dy.ss
+  end
+  def constant
+    @lr.constant
+  end
+  def standarized_coeffs
+    l=lr_s
+    assign_names(l.coeffs)
+  end
+  def lr_s
+    if @lr_s.nil?
+      build_standarized
     end
+    @lr_s
+  end
+  def build_standarized
+    @ds_s=@ds.standardize
+    columns=[]
+    @ds_s.vectors.each{|f|
+      columns.push(@ds_s[f].to_a) unless f == @y_var
+    }
+    @dep_columns_s=columns.dup
+    columns.push(@ds_s[@y_var])
+    matrix=Matrix.columns(columns)
+    @lr_s=Alglib::LinearRegression.build_from_matrix(matrix)
+  end
+  def process(v)
+    @lr.process(v)
+  end
+  def process_s(v)
+    lr_s.process(v)
+  end
+  # ???? Not equal to SPSS output
+  def standarized_residuals
+    res    = residuals
+    red_sd = residuals.sds
+    Daru::Vector.new(res.collect {|v| v.quo(red_sd) })
+  end
 end
 end
 end

data/lib/statsample/regression/multiple/baseengine.rb CHANGED

@@ -19,13 +19,12 @@ module Statsample
         end
         def initialize(ds, y_var, opts = Hash.new)
           @ds=ds
-          @predictors_n=@ds.fields.size-1
-          @total_cases=@ds.cases
-          @cases=@ds.cases
+          @predictors_n=@ds.vectors.size-1
+          @total_cases=@ds.nrows
+          @cases=@ds.nrows
           @y_var=y_var
           @r2=nil
-          @name=_("Multiple Regression:  %s over %s") % [ ds.fields.join(",") , @y_var]
+          @name=_("Multiple Regression:  %s over %s") % [ ds.vectors.to_a.join(",") , @y_var]
           opts_default={:digits=>3}
           @opts=opts_default.merge opts
@@ -33,7 +32,6 @@ module Statsample
           @opts.each{|k,v|
             self.send("#{k}=",v) if self.respond_to? k
           }
         end
         # Calculate F Test
         def anova
@@ -45,15 +43,17 @@ module Statsample
         end
         # Retrieves a vector with predicted values for y
         def predicted
-          @total_cases.times.collect { |i|
-            invalid=false
-            vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
-            if invalid
-              nil
-            else
-              process(vect)
+          Daru::Vector.new(
+            @total_cases.times.collect do |i|
+              invalid = false
+              vect = @dep_columns.collect {|v| invalid = true if v[i].nil?; v[i]}
+              if invalid
+                nil
+              else
+                process(vect)
+              end
             end
-          }.to_vector(:numeric)
+          )
         end
         # Retrieves a vector with standarized values for y
         def standarized_predicted
@@ -61,15 +61,17 @@ module Statsample
         end
         # Retrieves a vector with residuals values for y
         def residuals
-          (0...@total_cases).collect{|i|
-            invalid=false
-            vect=@dep_columns.collect{|v| invalid=true if v[i].nil?; v[i]}
-            if invalid or @ds[@y_var][i].nil?
-              nil
-            else
-              @ds[@y_var][i] - process(vect)
+          Daru::Vector.new(
+            (0...@total_cases).collect do |i|
+              invalid=false
+              vect=@dep_columns.collect{|v| invalid=true if v[i].nil?; v[i]}
+              if invalid or @ds[@y_var][i].nil?
+                nil
+              else
+                @ds[@y_var][i] - process(vect)
+              end
             end
-          }.to_vector(:numeric)
+          )
         end
         # R Multiple
         def r
@@ -131,12 +133,10 @@ module Statsample
         # Tolerance for a given variable
         # http://talkstats.com/showthread.php?t=5056
         def tolerance(var)
-          ds=assign_names(@dep_columns)
-          ds.each{|k,v|
-          ds[k]=v.to_vector(:numeric)
-          }
-          lr=self.class.new(ds.to_dataset,var)
-          1-lr.r2
+          ds = assign_names(@dep_columns)
+          ds.each { |k,v| ds[k] = Daru::Vector.new(v) }
+          lr = self.class.new(Daru::DataFrame.new(ds),var)
+          1 - lr.r2
         end
         # Tolerances for each coefficient
         def coeffs_tolerances
@@ -165,12 +165,12 @@ module Statsample
         def estimated_variance_covariance_matrix
           #mse_p=mse
           columns=[]
-          @ds_valid.fields.each{|k|
-            v=@ds_valid[k]
-            columns.push(v.data) unless k==@y_var
+          @ds_valid.vectors.each{|k|
+            v = @ds_valid[k]
+            columns.push(v.to_a) unless k == @y_var
           }
           columns.unshift([1.0]*@valid_cases)
-          x=Matrix.columns(columns)
+          x=::Matrix.columns(columns)
           matrix=((x.t*x)).inverse * mse
           matrix.collect {|i| Math::sqrt(i) if i>=0 }
         end

data/lib/statsample/regression/multiple/gslengine.rb CHANGED

@@ -9,43 +9,44 @@ if Statsample.has_gsl?
         # If you need pairwise, use RubyEngine
         # Example:
         #
-        #   @a=[1,3,2,4,3,5,4,6,5,7].to_vector(:numeric)
-        #   @b=[3,3,4,4,5,5,6,6,4,4].to_vector(:numeric)
-        #   @c=[11,22,30,40,50,65,78,79,99,100].to_vector(:numeric)
-        #   @y=[3,4,5,6,7,8,9,10,20,30].to_vector(:numeric)
-        #   ds={'a'=>@a,'b'=>@b,'c'=>@c,'y'=>@y}.to_dataset
-        #   lr=Statsample::Regression::Multiple::GslEngine.new(ds,'y')
+        #   @a = Daru::Vector.new([1,3,2,4,3,5,4,6,5,7])
+        #   @b = Daru::Vector.new([3,3,4,4,5,5,6,6,4,4])
+        #   @c = Daru::Vector.new([11,22,30,40,50,65,78,79,99,100])
+        #   @y = Daru::Vector.new([3,4,5,6,7,8,9,10,20,30])
+        #   ds = Daru::DataFrame.new({:a => @a,:b => @b,:c => @c,:y => @y})
+        #   lr=Statsample::Regression::Multiple::GslEngine.new(ds,:y)
         #
         class GslEngine < BaseEngine
           def initialize(ds,y_var, opts=Hash.new)
             super
-            @ds=ds.dup_only_valid
-            @ds_valid=@ds
-            @valid_cases=@ds_valid.cases
-            @dy=@ds[@y_var]
-            @ds_indep=ds.dup(ds.fields-[y_var])
+            @ds          = ds.dup_only_valid
+            @ds_valid    = @ds
+            @valid_cases = @ds_valid.nrows
+            @dy          = @ds[@y_var]
+            @ds_indep    = ds.dup(ds.vectors.to_a - [y_var])
             # Create a custom matrix
             columns=[]
             @fields=[]
-            max_deps = GSL::Matrix.alloc(@ds.cases, @ds.fields.size)
-            constant_col=@ds.fields.size-1
-            for i in 0...@ds.cases
+            max_deps = GSL::Matrix.alloc(@ds.nrows, @ds.vectors.size)
+            constant_col=@ds.vectors.size-1
+            for i in 0...@ds.nrows
               max_deps.set(i,constant_col,1)
             end
-            j=0
-            @ds.fields.each{|f|
-              if f!=@y_var
-                @ds[f].each_index{|i1|
+            j = 0
+            @ds.vectors.each do |f|
+              if f != @y_var
+                @ds[f].each_index do |i1|
                   max_deps.set(i1,j,@ds[f][i1])
-                }
+                end
                 columns.push(@ds[f].to_a)
                 @fields.push(f)
-                j+=1
+                j += 1
               end
-            }
-            @dep_columns=columns.dup
-            @lr_s=nil
-            c, @cov, @chisq, @status = GSL::MultiFit.linear(max_deps, @dy.gsl)
+            end
+            @dep_columns = columns.dup
+            @lr_s        = nil
+            c, @cov, @chisq, @status = GSL::MultiFit.linear(max_deps, @dy.to_gsl)
             @constant=c[constant_col]
             @coeffs_a=c.to_a.slice(0...constant_col)
             @coeffs=assign_names(@coeffs_a)
@@ -97,7 +98,7 @@ if Statsample.has_gsl?
             @lr_s
           end
           def build_standarized
-            @ds_s=@ds.standarize
+            @ds_s=@ds.standardize
             @lr_s=GslEngine.new(@ds_s,@y_var)
           end
           def process_s(v)
@@ -107,24 +108,20 @@ if Statsample.has_gsl?
           def standarized_residuals
             res=residuals
             red_sd=residuals.sds
-            res.collect {|v|
-              v.quo(red_sd)
-            }.to_vector(:numeric)
+            Daru::Vector.new(res.collect {|v| v.quo(red_sd) })
           end
           # Standard error for coeffs
           def coeffs_se
-            out={}
-            evcm=estimated_variance_covariance_matrix
-            @ds_valid.fields.each_with_index do |f,i|
-              mi=i+1
-              next if f==@y_var
-              out[f]=evcm[mi,mi]
+            out  = {}
+            evcm = estimated_variance_covariance_matrix
+            @ds_valid.vectors.to_a.each_with_index do |f,i|
+              mi = i+1
+              next if f == @y_var
+              out[f] = evcm[mi,mi]
             end
             out
           end
         end
       end
     end