RubyGems - statsample - Versions diffs - 0.9.0 → 0.10.0 - Mend

statsample 0.9.0 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (65) hide show

data.tar.gz.sig +0 -0
data/History.txt +20 -1
data/Manifest.txt +8 -1
data/README.txt +11 -7
data/Rakefile +2 -2
data/data/locale/es/LC_MESSAGES/statsample.mo +0 -0
data/examples/dataset.rb +8 -0
data/examples/multiple_regression.rb +1 -1
data/examples/parallel_analysis.rb +29 -0
data/examples/parallel_analysis_tetrachoric.rb +30 -0
data/examples/vector.rb +6 -0
data/lib/distribution.rb +16 -6
data/lib/distribution/normal.rb +27 -20
data/lib/distribution/normalbivariate.rb +1 -1
data/lib/statsample.rb +19 -2
data/lib/statsample/anova.rb +118 -16
data/lib/statsample/bivariate.rb +27 -13
data/lib/statsample/bivariate/polychoric.rb +18 -5
data/lib/statsample/crosstab.rb +66 -74
data/lib/statsample/dataset.rb +52 -45
data/lib/statsample/dominanceanalysis.rb +2 -5
data/lib/statsample/factor.rb +1 -1
data/lib/statsample/factor/parallelanalysis.rb +122 -0
data/lib/statsample/factor/pca.rb +23 -28
data/lib/statsample/factor/principalaxis.rb +8 -3
data/lib/statsample/matrix.rb +27 -24
data/lib/statsample/mle.rb +11 -11
data/lib/statsample/permutation.rb +2 -1
data/lib/statsample/regression.rb +10 -8
data/lib/statsample/regression/multiple/baseengine.rb +36 -25
data/lib/statsample/regression/multiple/gslengine.rb +14 -0
data/lib/statsample/regression/multiple/matrixengine.rb +4 -32
data/lib/statsample/regression/multiple/rubyengine.rb +2 -6
data/lib/statsample/regression/simple.rb +1 -1
data/lib/statsample/reliability.rb +42 -54
data/lib/statsample/test.rb +10 -6
data/lib/statsample/test/f.rb +16 -26
data/lib/statsample/test/levene.rb +4 -8
data/lib/statsample/test/t.rb +30 -24
data/lib/statsample/test/umannwhitney.rb +13 -6
data/lib/statsample/vector.rb +86 -76
data/po/es/statsample.mo +0 -0
data/po/es/statsample.po +127 -94
data/po/statsample.pot +114 -79
data/test/test_anovaoneway.rb +27 -0
data/test/test_anovawithvectors.rb +97 -0
data/test/test_bivariate.rb +6 -57
data/test/test_bivariate_polychoric.rb +65 -0
data/test/test_crosstab.rb +6 -0
data/test/test_dataset.rb +29 -1
data/test/test_distribution.rb +6 -13
data/test/test_dominance_analysis.rb +1 -1
data/test/test_factor.rb +3 -3
data/test/test_helpers.rb +18 -18
data/test/test_matrix.rb +33 -20
data/test/test_permutation.rb +36 -30
data/test/test_regression.rb +26 -8
data/test/test_reliability.rb +104 -14
data/test/test_test_f.rb +11 -14
data/test/test_test_t.rb +42 -35
data/test/test_umannwhitney.rb +22 -10
data/test/test_vector.rb +204 -102
metadata +57 -81
metadata.gz.sig +0 -0
data/test/test_anova.rb +0 -24

data/lib/statsample/regression/multiple/baseengine.rb CHANGED Viewed

@@ -3,17 +3,22 @@ module Statsample
     module Multiple
       # Base class for Multiple Regression Engines
       class BaseEngine
-        include GetText
-        bindtextdomain("statsample")
+        include Statsample::Summarizable
         # Name of analysis
         attr_accessor :name
+        # Minimum number of  valid case for pairs of correlation
+        attr_reader :cases
+        # Number of valid cases (listwise)
+        attr_reader :valid_cases
+        # Number of total cases (dataset.cases)
+        attr_reader :total_cases
         def self.univariate?
           true
         end
         def initialize(ds, y_var, opts = Hash.new)
           @ds=ds
+          @predictors_n=@ds.fields.size-1
+          @total_cases=@ds.cases
           @cases=@ds.cases
           @y_var=y_var
           @r2=nil
@@ -23,12 +28,16 @@ module Statsample
           }
         end
         # Calculate F Test
-        def f_test
-          @f_test||=Statsample::Test::F.new(ssr, sse, df_r, df_e, :name_numerator=>_("Regression"), :name_denominator=>_("Error"), :name=>"ANOVA")
+        def anova
+          @anova||=Statsample::Anova::OneWay.new(:ss_num=>ssr, :ss_den=>sse, :df_num=>df_r, :df_den=>df_e, :name_numerator=>_("Regression"), :name_denominator=>_("Error"), :name=>"ANOVA")
+        end
+        # Standard error of estimate
+        def se_estimate
+          Math::sqrt(sse.quo(df_e))
         end
         # Retrieves a vector with predicted values for y
         def predicted
-          (0...@ds.cases).collect { |i|
+          @total_cases.times.collect { |i|
             invalid=false
             vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
             if invalid
@@ -44,7 +53,7 @@ module Statsample
         end
         # Retrieves a vector with residuals values for y
         def residuals
-          (0...@ds.cases).collect{|i|
+          (0...@total_cases).collect{|i|
             invalid=false
             vect=@dep_columns.collect{|v| invalid=true if v[i].nil?; v[i]}
             if invalid or @ds[@y_var][i].nil?
@@ -62,6 +71,9 @@ module Statsample
         def sst
           raise "You should implement this"
         end
+        def r2_adjusted
+          r2-((1-r2)*@predictors_n).quo(df_e)
+        end
         # Sum of squares (regression)
         def ssr
           r2*sst
@@ -89,19 +101,19 @@ module Statsample
         end
         # Degrees of freedom for regression
         def df_r
-          @dep_columns.size
+          @predictors_n
         end
         # Degrees of freedom for error
         def df_e
-          @ds_valid.cases-@dep_columns.size-1
+          @valid_cases-@predictors_n-1
         end
         # Fisher for Anova
         def f
-          f_test.f
+          anova.f
         end
         # p-value of Fisher
         def probability
-          f_test.probability
+          anova.probability
         end
         # Tolerance for a given variable
         # http://talkstats.com/showthread.php?t=5056
@@ -130,6 +142,7 @@ module Statsample
           out
         end
         # Estandar error of R^2
+        # ????
         def se_r2
           Math::sqrt((4*r2*(1-r2)**2*(df_e)**2).quo((@cases**2-1)*(@cases+3)))
         end
@@ -139,10 +152,11 @@ module Statsample
         def estimated_variance_covariance_matrix
           mse_p=mse
           columns=[]
-          @ds_valid.each_vector{|k,v|
+          @ds_valid.fields.each{|k|
+            v=@ds_valid[k]
             columns.push(v.data) unless k==@y_var
           }
-          columns.unshift([1.0]*@ds_valid.cases)
+          columns.unshift([1.0]*@valid_cases)
           x=Matrix.columns(columns)
           matrix=((x.t*x)).inverse * mse
           matrix.collect {|i| Math::sqrt(i) if i>0 }
@@ -155,25 +169,22 @@ module Statsample
         def constant_se
           estimated_variance_covariance_matrix[0,0]
         end
-        def summary
-          rp=ReportBuilder.new()
-          rp.add(self)
-          rp.to_text
-        end
         def report_building(b)
           b.section(:name=>@name) do |g|
             c=coeffs
-            g.text(_("Engine: %s") % self.class)
-            g.text(_("Cases(listwise)=%d(%d)") % [@ds.cases, @ds_valid.cases])
-            g.text("R=#{sprintf('%0.3f',r)}")
-            g.text("R^2=#{sprintf('%0.3f',r2)}")
+            g.text _("Engine: %s") % self.class
+            g.text(_("Cases(listwise)=%d(%d)") % [@total_cases, @valid_cases])
+            g.text _("R=%0.3f") % r
+            g.text _("R^2=%0.3f") % r2
+            g.text _"R^2 Adj=%0.3f" % r2_adjusted
+            g.text _("Std.Error R=%0.3f") % se_estimate
             g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
-            g.parse_element(f_test)
+            g.parse_element(anova)
             sc=standarized_coeffs
             cse=coeffs_se
-            g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|
+            g.table(:name=>_("Beta coefficients"), :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|
               t.row([_("Constant"), sprintf("%0.3f", constant), "-", sprintf("%0.3f", constant_se), sprintf("%0.3f", constant_t)])
               @fields.each do |f|
                 t.row([f, sprintf("%0.3f", c[f]), sprintf("%0.3f", sc[f]), sprintf("%0.3f", cse[f]), sprintf("%0.3f", c[f].quo(cse[f]))])

data/lib/statsample/regression/multiple/gslengine.rb CHANGED Viewed

@@ -21,6 +21,7 @@ class GslEngine < BaseEngine
     super
     @ds=ds.dup_only_valid
     @ds_valid=@ds
+    @valid_cases=@ds_valid.cases
     @dy=@ds[@y_var]
     @ds_indep=ds.dup(ds.fields-[y_var])
     # Create a custom matrix
@@ -111,6 +112,19 @@ class GslEngine < BaseEngine
         v.quo(red_sd)
     }.to_vector(:scale)
   end
+    # Standard error for coeffs
+  def coeffs_se
+    out={}
+    evcm=estimated_variance_covariance_matrix
+    @ds_valid.fields.each_with_index do |f,i|
+      mi=i+1
+      next if f==@y_var
+      out[f]=evcm[mi,mi]
+    end
+    out
+  end
 end
 end
 end

data/lib/statsample/regression/multiple/matrixengine.rb CHANGED Viewed

@@ -50,7 +50,7 @@ class MatrixEngine < BaseEngine
     @fields=matrix.fields-[y_var]
     @n_predictors=@fields.size
+    @predictors_n=@n_predictors
     @matrix_x= @matrix_cor.submatrix(@fields)
     @matrix_x_cov= @matrix_cov.submatrix(@fields)
@@ -88,11 +88,11 @@ class MatrixEngine < BaseEngine
       }
     else
       @coeffs_stan=result_matrix.column(0).to_a
       @coeffs=standarized_coeffs.collect {|k,v|
         standarized_coeffs[k]*@y_sd.quo(@x_sd[k])
       }
     end
+    @total_cases=@valid_cases=@cases
   end
   def cases
     raise "You should define the number of valid cases first" if @cases.nil?
@@ -144,6 +144,7 @@ class MatrixEngine < BaseEngine
   # Reference:
   # * http://talkstats.com/showthread.php?t=5056
   def tolerance(var)
+    return 1 if @matrix_x.column_size==1
     lr=Statsample::Regression::Multiple::MatrixEngine.new(@matrix_x, var)
     1-lr.r2
   end
@@ -165,7 +166,7 @@ class MatrixEngine < BaseEngine
   # t value for constant
   def constant_t
     return nil if constant_se.nil?
-    constant.to_f/constant_se
+    constant.to_f / constant_se
   end
   # Standard error for constant.
   # This method recreates the estimaded variance-covariance matrix
@@ -197,35 +198,6 @@ class MatrixEngine < BaseEngine
     matrix.collect {|i| Math::sqrt(i) if i>0 }[0,0]
   end
-  def report_building(builder) # :nodoc:
-    builder.section(:name=>_("Multiple Regression: ")+@name) do |g|
-      c=coeffs
-      g.text(_("Engine: %s") % self.class)
-      g.text(_("Cases=%d") % [@cases])
-      g.text("R=#{sprintf('%0.3f',r)}")
-      g.text("R^2=#{sprintf('%0.3f',r2)}")
-      g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
-      g.parse_element(f_test)
-      sc=standarized_coeffs
-      cse=coeffs_se
-      g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|
-        if (constant_se.nil?)
-          t.row([_("Constant"), sprintf("%0.3f", constant),"--","?","?"])
-        else
-          t.row([_("Constant"), sprintf("%0.3f", constant), "-", sprintf("%0.3f", constant_se), sprintf("%0.3f", constant_t)])
-        end
-        @fields.each do |f|
-          t.row([f, sprintf("%0.3f", c[f]), sprintf("%0.3f", sc[f]), sprintf("%0.3f", cse[f]), sprintf("%0.3f", c[f].quo(cse[f]))])
-        end
-      end
-    end
-  end
 end
 end
 end

data/lib/statsample/regression/multiple/rubyengine.rb CHANGED Viewed

@@ -31,11 +31,9 @@ class RubyEngine < MatrixEngine
     @ds=ds
     @dy=ds[@y_var]
     @ds_valid=ds.dup_only_valid
+    @total_cases=@ds.cases
+    @valid_cases=@ds_valid.cases
     @ds_indep = ds.dup(ds.fields-[y_var])
-#    p obtain_predictor_matrix
-#    p @matrix_x.correlation
     set_dep_columns
   end
@@ -82,8 +80,6 @@ class RubyEngine < MatrixEngine
     @ds_indep.update_valid_data
     set_dep_columns
   end
   # Standard error for constant
   def constant_se
     estimated_variance_covariance_matrix[0,0]

data/lib/statsample/regression/simple.rb CHANGED Viewed

@@ -70,7 +70,7 @@ module Statsample
         end
       end
       def init_vectors(vx,vy)
-        @vx,@vy=Statsample.only_valid(vx,vy)
+        @vx,@vy=Statsample.only_valid_clone(vx,vy)
         x_m=@vx.mean
         y_m=@vy.mean
         num=den=0

data/lib/statsample/reliability.rb CHANGED Viewed

@@ -7,9 +7,9 @@ module Statsample
         ds=ods.dup_only_valid
         n_items=ds.fields.size
         sum_var_items=ds.vectors.inject(0) {|ac,v|
-        ac+v[1].variance_sample }
+        ac+v[1].variance }
         total=ds.vector_sum
-        (n_items / (n_items-1).to_f) * (1-(sum_var_items/ total.variance_sample))
+        (n_items.quo(n_items-1)) * (1-(sum_var_items.quo(total.variance)))
       end
       # Calculate Chonbach's alpha for a given dataset
       # using standarized values for every vector.
@@ -17,16 +17,16 @@ module Statsample
       def cronbach_alpha_standarized(ods)
         ds=ods.dup_only_valid.fields.inject({}){|a,f|
-          a[f]=ods[f].vector_standarized; a
+          a[f]=ods[f].standarized; a
         }.to_dataset
         cronbach_alpha(ds)
       end
     end
     class ItemCharacteristicCurve
-      attr_reader :totals, :counts,:vector_total
+      attr_reader :totals, :counts, :vector_total
       def initialize (ds, vector_total=nil)
         vector_total||=ds.vector_sum
-        raise "Total size != Dataset size" if vector_total.size!=ds.cases
+        raise ArgumentError, "Total size != Dataset size" if vector_total.size!=ds.cases
         @vector_total=vector_total
         @ds=ds
         @totals={}
@@ -48,19 +48,21 @@ module Statsample
           i+=1
         end
       end
+      # Return a hash with p for each different value on a vector
       def curve_field(field, item)
         out={}
         item=item.to_s
-        @totals.each{|value,n|
+        @totals.each do |value,n|
           count_value= @counts[field][value][item].nil? ? 0 : @counts[field][value][item]
-          out[value]=count_value.to_f/n.to_f
-        }
+          out[value]=count_value.quo(n)
+        end
         out
       end
     end
     class ItemAnalysis
       attr_reader :mean, :sd,:valid_n, :alpha , :alpha_standarized
-      def initialize(ds)
+      attr_accessor :name
+      def initialize(ds,opts=Hash.new)
         @ds=ds.dup_only_valid
         @total=@ds.vector_sum
         @item_mean=@ds.vector_mean.mean
@@ -70,11 +72,15 @@ module Statsample
         @kurtosis=@total.kurtosis
         @sd = @total.sd
         @valid_n = @total.size
+        opts_default={:name=>"Reliability Analisis"}
+        @opts=opts_default.merge(opts)
+        @name=@opts[:name]
         begin
           @alpha = Statsample::Reliability.cronbach_alpha(ds)
           @alpha_standarized = Statsample::Reliability.cronbach_alpha_standarized(ds)
         rescue => e
-          raise DatasetException.new(@ds,e), "Problem on calculate alpha"
+          raise DatasetException.new(@ds,e), "Error calculating alpha"
         end
       end
       # Returns a hash with structure
@@ -201,51 +207,33 @@ module Statsample
           a
         end
       end
-      def html_summary
-				html = <<EOF
-<p><strong>Summary for scale:</strong></p>
-<ul>
-<li>Items=#{@ds.fields.size}</li>
-<li>Total Mean=#{@mean}</li>
-<li>Item Mean=#{@item_mean}</li>
-<li>Std.Dv.=#{@sd}</li>
-<li>Median=#{@median}</li>
-<li>Skewness=#{sprintf("%0.3f",@skew)}</li>
-<li>Kurtosis=#{sprintf("%0.3f",@kurtosis)}</li>
-<li>Valid n:#{@valid_n}</li>
-<li>Cronbach alpha: #{@alpha}</li>
-</ul>
-<table><thead><th>Variable</th>
-<th>Mean</th>
-<th>StDv.</th>
-<th>Mean if deleted</th><th>Var. if
-deleted</th><th>	StDv. if
-deleted</th><th>	Itm-Totl
-Correl.</th><th>Alpha if
-deleted</th></thead>
-EOF
+      def summary
+        ReportBuilder.new(:no_title=>true).add(self).to_text
+      end
+      def report_building(builder)
+        builder.section(:name=>@name) do |s|
+          s.table(:name=>"Summary") do |t|
+            t.row ["Items", @ds.fields.size]
+            t.row ["Total Mean", @mean]
+            t.row ["Item Mean", @item_mean]
+            t.row ["S.D.", @sd]
+            t.row ["Median", @median]
+            t.row ["Skewness", "%0.4f" % @skew]
+            t.row ["Kurtosis", "%0.4f" % @kurtosis]
+            t.row ["Valid n", @valid_n]
+            t.row ["Cronbach's alpha", "%0.4f" % @alpha]
+            t.row ["Standarized Cronbach's alpha", "%0.4f" % @alpha_standarized]
+          end
+          itc=item_total_correlation
+          sid=stats_if_deleted
+          is=item_statistics
-        itc=item_total_correlation
-        sid=stats_if_deleted
-        is=item_statistics
-        @ds.fields.each {|f|
-          html << <<EOF
-          <tr>
-          <td>#{f}</td>
-          <td>#{sprintf("%0.5f",is[f][:mean])}</td>
-          <td>#{sprintf("%0.5f",is[f][:sds])}</td>
-          <td>#{sprintf("%0.5f",sid[f][:mean])}</td>
-          <td>#{sprintf("%0.5f",sid[f][:variance_sample])}</td>
-          <td>#{sprintf("%0.5f",sid[f][:sds])}</td>
-          <td>#{sprintf("%0.5f",itc[f])}</td>
-          <td>#{sprintf("%0.5f",sid[f][:alpha])}</td>
-          </tr>
-EOF
-        }
-        html << "</table><hr />"
-        html
+          s.table(:name=>"Items report", :header=>["item","mean","sd", "mean if deleted", "var if deleted", "sd if deleted"," item-total correl.", "alpha if deleted"]) do |t|
+            @ds.fields.each do |f|
+              t.row(["#{@ds[f].name}(#{f})", sprintf("%0.5f",is[f][:mean]), sprintf("%0.5f",is[f][:sds]), sprintf("%0.5f",sid[f][:mean]), sprintf("%0.5f",sid[f][:variance_sample]), sprintf("%0.5f",sid[f][:sds]),  sprintf("%0.5f",itc[f]), sprintf("%0.5f",sid[f][:alpha])])
+            end
+          end
+          end
       end
     end
   end

data/lib/statsample/test.rb CHANGED Viewed

@@ -8,11 +8,12 @@ module Statsample
     autoload(:F, 'statsample/test/f')
     # Returns probability of getting a value lower or higher
     # than sample, using cdf and number of tails.
-    # * For one tail left, return the cdf
-    # * For one tail right, return 1-cdf
-    # * For two tails, returns 2*right_tail(cdf.abs)
+    #
+    # * <tt>:left</tt> : For one tail left, return the cdf
+    # * <tt>:right</tt> : For one tail right, return 1-cdf
+    # * <tt>:both</tt> : For both tails, returns 2*right_tail(cdf.abs)
     def p_using_cdf(cdf, tails=:both)
-      tails=:both if tails==2
+      tails=:both if tails==2 or tails==:two
       tails=:right if tails==1 or tails==:positive
       tails=:left if tails==:negative
       case tails
@@ -40,8 +41,11 @@ module Statsample
         }
         sum
       end
-      def u_mannwhitney(v1p,v2p)
-        Statsample::Test::UMannWhitney.new(v1p,v2p)
+      # Shorthand for Statsample::Test::UMannWhitney.new
+      #
+      # * <tt>v1</tt> and <tt>v2</tt> should be Statsample::Vector.
+      def u_mannwhitney(v1, v2)
+        Statsample::Test::UMannWhitney.new(v1,v2)
       end
       # Shorthand for Statsample::Test::T::OneSample.new
       def t_one_sample(vector, opts=Hash.new)