RubyGems - statsample - Versions diffs - 0.8.2 → 0.9.0 - Mend

statsample 0.8.2 → 0.9.0

Files changed (30) hide show

data.tar.gz.sig +0 -0
data/History.txt +3 -0
data/Manifest.txt +2 -0
data/README.txt +2 -2
data/Rakefile +2 -1
data/lib/statsample.rb +1 -1
data/lib/statsample/anova.rb +16 -25
data/lib/statsample/dataset.rb +1 -1
data/lib/statsample/dominanceanalysis.rb +3 -1
data/lib/statsample/regression.rb +1 -1
data/lib/statsample/regression/multiple/baseengine.rb +18 -23
data/lib/statsample/regression/multiple/matrixengine.rb +18 -17
data/lib/statsample/test.rb +1 -1
data/lib/statsample/test/f.rb +61 -0
data/lib/statsample/test/t.rb +44 -8
data/test/test_anova.rb +3 -4
data/test/test_bivariate.rb +5 -3
data/test/test_combination.rb +1 -4
data/test/test_factor.rb +3 -3
data/test/test_gsl.rb +2 -0
data/test/test_helpers.rb +12 -0
data/test/test_mle.rb +1 -1
data/test/test_multiset.rb +0 -3
data/test/test_regression.rb +2 -2
data/test/test_reliability.rb +1 -12
data/test/test_svg_graph.rb +2 -2
data/test/test_test_f.rb +37 -0
data/test/test_xls.rb +46 -28
metadata +76 -49
metadata.gz.sig +0 -0

data.tar.gz.sig CHANGED

Binary file

data/History.txt CHANGED

@@ -1,3 +1,6 @@
+=== 0.9.0 / 2010-04-04
+* New Statsample::Test::F. Anova::OneWay subclasses it and Regression classes uses it.
 === 0.8.2 / 2010-04-01
 * Statsample::PromiseAfter replaced by external package DirtyMemoize [http://rubygems.org/gems/dirty-memoize]
 === 0.8.1 / 2010-03-29

data/Manifest.txt CHANGED

@@ -75,6 +75,7 @@ lib/statsample/reliability.rb
 lib/statsample/resample.rb
 lib/statsample/srs.rb
 lib/statsample/test.rb
+lib/statsample/test/f.rb
 lib/statsample/test/levene.rb
 lib/statsample/test/t.rb
 lib/statsample/test/umannwhitney.rb
@@ -111,6 +112,7 @@ test/test_statistics.rb
 test/test_stest.rb
 test/test_stratified.rb
 test/test_svg_graph.rb
+test/test_test_f.rb
 test/test_test_t.rb
 test/test_umannwhitney.rb
 test/test_vector.rb

data/README.txt CHANGED

@@ -5,13 +5,13 @@ http://ruby-statsample.rubyforge.org/
 == DESCRIPTION:
-A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, Ruby 1.9 and JRuby 1.4 (Ruby 1.8.7 compatible)
+A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, 1.9.1, 1.9.2 (April, 2010) and JRuby 1.4 (Ruby 1.8.7 compatible)
 Includes:
 * Descriptive statistics: frequencies, median, mean, standard error, skew, kurtosis (and many others).
 * Imports and exports datasets from and to Excel, CSV and plain text files.
 * Correlations: Pearson's r, Spearman's rank correlation (rho), Tetrachoric, Polychoric
-* Tests: T, Levene, U-Mannwhitney, One-Way Anova
+* Tests: F (Anona One-Way), T, Levene, U-Mannwhitney.
 * Regression: Simple, Multiple, Probit  and Logit
 * Factorial Analysis: Extraction (PCA and Principal Axis) and Rotation (Varimax and relatives)
 * Dominance Analysis, with multivariate dependent and bootstrap (Azen & Budescu)

data/Rakefile CHANGED

@@ -39,7 +39,8 @@ task :makemo do
 end
 h=Hoe.spec('statsample') do
-	self.version=Statsample::VERSION
+	self.testlib=:minitest unless RUBY_VERSION<="1.9"
+  self.version=Statsample::VERSION
 	self.rubyforge_name = "ruby-statsample"
 	self.developer('Claudio Bustos', 'clbustos@gmail.com')
 	self.extra_deps << ["spreadsheet","~>0.6.0"] << ["svg-graph", "~>1.0"] << ["reportbuilder", "~>1.0"] << ["minimization", "~>0.1.0"] << ["fastercsv"] << ["dirty-memoize", "~>0.0"]

data/lib/statsample.rb CHANGED

@@ -112,7 +112,7 @@ module Statsample
       false
     end
   end
-  VERSION = '0.8.2'
+  VERSION = '0.9.0'
   SPLIT_TOKEN = ","
   autoload(:Database, 'statsample/converters')
   autoload(:Anova, 'statsample/anova')

data/lib/statsample/anova.rb CHANGED

@@ -8,31 +8,31 @@ module Statsample
     #   anova=Statsample::Anova::OneWay.new([v1,v2,v3])
     #   anova.f
     #   => 0.0243902439024391
-    #   anova.significance
+    #   anova.probability
     #   => 0.975953044203438
     #   anova.sst
     #   => 32.9333333333333
     #
-    class OneWay
-      def initialize(vectors)
+    class OneWay < Statsample::Test::F
+      def initialize(vectors,opts=Hash.new)
         @vectors=vectors
-      end
-      # Total sum
-      def sum
-        @vectors.inject(0){|a,v| a+v.sum}
+        opts_default={:name=>_("Anova One-Way"), :name_numerator=>"Between Groups", :name_denominator=>"Within Groups"}
+        super(ssbg,sswg, df_bg, df_wg)
       end
       # Total mean
       def mean
+        sum=@vectors.inject(0){|a,v| a+v.sum}
         sum.quo(n)
       end
       # Total sum of squares
       def sst
-        m=mean.to_f
-        @vectors.inject(0) {|total,vector| total+vector.sum_of_squares(m) }
+        m=mean
+        @vectors.inject(0) {|total,vector| total+vector.ss(m) }
       end
       # Sum of squares within groups
       def sswg
-        @vectors.inject(0) {|total,vector| total+vector.sum_of_squares }
+        @sswg||=@vectors.inject(0) {|total,vector| total+vector.ss }
       end
       # Sum of squares between groups
       def ssbg
@@ -43,29 +43,20 @@ module Statsample
       end
       # Degrees of freedom within groups
       def df_wg
-          @vectors.inject(0) {|a,v| a+(v.size-1)}
+        @dk_wg||=n-k
+      end
+      def k
+        @k||=@vectors.size
       end
       # Degrees of freedom between groups
       def df_bg
-          @vectors.size-1
-      end
-      # Total Degrees of freedom
-      def df_total
-          n-1
+          k-1
       end
       # Total number of cases
       def n
           @vectors.inject(0){|a,v| a+v.size}
       end
-      # Fisher
-      def f
-          k=@vectors.size
-          (ssbg*(n-k)) / (sswg*(k-1))
-      end
-      # Significance of Fisher
-      def significance
-          1.0-Distribution::F.cdf(f,df_bg,df_wg)
-      end
     end
   end
 end

data/lib/statsample/dataset.rb CHANGED

@@ -3,7 +3,7 @@ require 'statsample/vector'
 class Hash
   # Creates a Statsample::Dataset based on a Hash
   def to_dataset(*args)
-    Statsample::Dataset.new(self,*args)
+    Statsample::Dataset.new(self, *args)
   end
 end

data/lib/statsample/dominanceanalysis.rb CHANGED

@@ -1,4 +1,4 @@
-require 'statsample/dominanceanalysis/bootstrap'
 module Statsample
   # Dominance Analysis is a procedure based on an examination of the R<sup>2</sup> values
   # for all possible subset models, to identify the relevance of one or more
@@ -428,3 +428,5 @@ module Statsample
     end # end ModelData
   end # end Dominance Analysis
 end
+require 'statsample/dominanceanalysis/bootstrap'

data/lib/statsample/regression.rb CHANGED

@@ -78,7 +78,7 @@ module Statsample
            RubyEngine.new(ds,y_var)
         else
           if Statsample.has_gsl?
-            Statsample::Regression::Multiple::GslEngine.new(ds,y_var)
+            Statsample::Regression::Multiple::GslEngine.new(ds, y_var)
           else
             ds2=ds.dup_only_valid
             Statsample::Regression::Multiple::RubyEngine.new(ds2,y_var)

data/lib/statsample/regression/multiple/baseengine.rb CHANGED

@@ -12,9 +12,6 @@ module Statsample
         def self.univariate?
           true
         end
         def initialize(ds, y_var, opts = Hash.new)
           @ds=ds
           @cases=@ds.cases
@@ -25,17 +22,20 @@ module Statsample
             self.send("#{k}=",v) if self.respond_to? k
           }
         end
+        # Calculate F Test
+        def f_test
+          @f_test||=Statsample::Test::F.new(ssr, sse, df_r, df_e, :name_numerator=>_("Regression"), :name_denominator=>_("Error"), :name=>"ANOVA")
+        end
         # Retrieves a vector with predicted values for y
         def predicted
           (0...@ds.cases).collect { |i|
-          invalid=false
-          vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
-          if invalid
-            nil
-          else
-            process(vect)
-          end
+            invalid=false
+            vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
+            if invalid
+              nil
+            else
+              process(vect)
+            end
           }.to_vector(:scale)
         end
         # Retrieves a vector with standarized values for y
@@ -97,11 +97,11 @@ module Statsample
         end
         # Fisher for Anova
         def f
-          (ssr.quo(df_r)).quo(sse.quo(df_e))
+          f_test.f
         end
-        # Significance of Fisher
-        def significance
-          (1.0-Distribution::F.cdf(f, df_r, df_e)).abs
+        # p-value of Fisher
+        def probability
+          f_test.probability
         end
         # Tolerance for a given variable
         # http://talkstats.com/showthread.php?t=5056
@@ -129,7 +129,7 @@ module Statsample
           }
           out
         end
-        # Estandar error of R
+        # Estandar error of R^2
         def se_r2
           Math::sqrt((4*r2*(1-r2)**2*(df_e)**2).quo((@cases**2-1)*(@cases+3)))
         end
@@ -161,7 +161,7 @@ module Statsample
           rp.to_text
         end
         def report_building(b)
-          b.section(:name=>_("Multiple Regression: ")+@name) do |g|
+          b.section(:name=>@name) do |g|
             c=coeffs
             g.text(_("Engine: %s") % self.class)
             g.text(_("Cases(listwise)=%d(%d)") % [@ds.cases, @ds_valid.cases])
@@ -170,12 +170,7 @@ module Statsample
             g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
-            g.table(:name=>"ANOVA", :header=>%w{source ss df ms f s}) do |t|
-              t.row([_("Regression"), sprintf("%0.3f",ssr), df_r, sprintf("%0.3f",msr), sprintf("%0.3f",f), sprintf("%0.3f", significance)])
-              t.row([_("Error"), sprintf("%0.3f",sse), df_e, sprintf("%0.3f",mse),"",""])
-              t.row([_("Total"), sprintf("%0.3f",sst), df_r+df_e,"","",""])
-            end
+            g.parse_element(f_test)
             sc=standarized_coeffs
             cse=coeffs_se
             g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|

data/lib/statsample/regression/multiple/matrixengine.rb CHANGED

@@ -2,6 +2,10 @@ module Statsample
 module Regression
 module Multiple
   # Pure Ruby Class for Multiple Regression Analysis, based on a covariance or correlation matrix.
+  #
+  # Use Statsample::Regression::Multiple::RubyEngine if you have a
+  # Dataset, to avoid setting all details.
+  #
   # <b>Remember:</b> NEVER use a Covariance data if you have missing data. Use only correlation matrix on that case.
   #
   #
@@ -15,16 +19,13 @@ class MatrixEngine < BaseEngine
   # Hash of standard deviation of predictors.
   # Only useful for Correlation Matrix, because by default is set to 1
   attr_accessor :x_sd
-  # Standard deviation of criteria.
+  # Standard deviation of criterion
   # Only useful for Correlation Matrix, because by default is set to 1
   attr_accessor :y_sd
   # Hash of mean for predictors. By default, set to 0
-  #
   attr_accessor :x_mean
   # Mean for criteria. By default, set to 0
-  #
   attr_accessor :y_mean
   # Number of cases
@@ -92,23 +93,25 @@ class MatrixEngine < BaseEngine
         standarized_coeffs[k]*@y_sd.quo(@x_sd[k])
       }
     end
   end
   def cases
     raise "You should define the number of valid cases first" if @cases.nil?
     @cases
   end
   # Get R^2 for the regression
+  # For fixed models is the coefficient of determination.
+  # On random models, is the 'squared-multiple correlation'
   # Equal to
   # * 1-(|R| / |R_x|) or
   # * Sum(b_i*r_yi) <- used
   def r2
     @n_predictors.times.inject(0) {|ac,i| ac+@coeffs_stan[i]* @matrix_y[i,0]}
   end
+  # Multiple correlation, on random models.
   def r
     Math::sqrt(r2)
   end
+  # Value of constant
   def constant
     c=coeffs
     @y_mean - @fields.inject(0){|a,k| a + (c[k] * @x_mean[k])}
@@ -135,12 +138,10 @@ class MatrixEngine < BaseEngine
   def df_e
     cases-@n_predictors-1
   end
   # Tolerance for a given variable
   # defined as (1-R^2) of regression of other independent variables
   # over the selected
   # Reference:
-  #
   # * http://talkstats.com/showthread.php?t=5056
   def tolerance(var)
     lr=Statsample::Regression::Multiple::MatrixEngine.new(@matrix_x, var)
@@ -150,8 +151,7 @@ class MatrixEngine < BaseEngine
   # Standard error of a coefficients depends on
   # * Tolerance of the coeffients: Higher tolerances implies higher error
   # * Higher r2 implies lower error
-  # Reference:
+  # == Reference:
   # * Cohen et al. (2003). Applied Multiple Reggression / Correlation Analysis for the Behavioral Sciences
   #
   def coeffs_se
@@ -162,13 +162,15 @@ class MatrixEngine < BaseEngine
     }
     out
   end
+  # t value for constant
   def constant_t
     return nil if constant_se.nil?
     constant.to_f/constant_se
   end
   # Standard error for constant.
-  # Recreate the estimaded variance-covariance matrix
-  # using means, standard deviation and covariance matrix
+  # This method recreates the estimaded variance-covariance matrix
+  # using means, standard deviation and covariance matrix.
+  # So, needs the covariance matrix.
   def constant_se
     return nil if @no_covariance
     means=@x_mean
@@ -178,6 +180,7 @@ class MatrixEngine < BaseEngine
     #sd[@y_var]=@y_sd
     sd[:constant]=0
     fields=[:constant]+@matrix_cov.fields-[@y_var]
+    # Recreate X'X using the variance-covariance matrix
     xt_x=Matrix.rows(fields.collect {|i|
       fields.collect {|j|
         if i==:constant or j==:constant
@@ -203,13 +206,11 @@ class MatrixEngine < BaseEngine
       g.text("R^2=#{sprintf('%0.3f',r2)}")
       g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
+      g.parse_element(f_test)
-      g.table(:name=>"ANOVA", :header=>%w{source ss df ms f s}) do |t|
-        t.row([_("Regression"), sprintf("%0.3f",ssr), df_r, sprintf("%0.3f",msr), sprintf("%0.3f",f), sprintf("%0.3f", significance)])
-        t.row([_("Error"), sprintf("%0.3f",sse), df_e, sprintf("%0.3f",mse),"",""])
-        t.row([_("Total"), sprintf("%0.3f",sst), df_r+df_e,"","",""])
-      end
       sc=standarized_coeffs
       cse=coeffs_se
       g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|

data/lib/statsample/test.rb CHANGED

@@ -5,7 +5,7 @@ module Statsample
     autoload(:UMannWhitney, 'statsample/test/umannwhitney')
     autoload(:Levene, 'statsample/test/levene')
     autoload(:T, 'statsample/test/t')
+    autoload(:F, 'statsample/test/f')
     # Returns probability of getting a value lower or higher
     # than sample, using cdf and number of tails.
     # * For one tail left, return the cdf

data/lib/statsample/test/f.rb ADDED

@@ -0,0 +1,61 @@
+module Statsample
+  module Test
+    # From Wikipedia:
+    # An F-test is any statistical test in which the test statistic has an F-distribution under the null hypothesis. It is most often used when comparing statistical models that have been fit to a data set, in order to identify the model that best fits the population from which the data were sampled.
+    class F
+      include GetText
+      bindtextdomain("statsample")
+      include Statsample::Test
+      attr_reader :ss_num, :ss_den, :df_num, :df_den, :ss_total, :df_total
+      # Tails for probability (:both, :left or :right)
+      attr_accessor :tails
+      # Name of F analysis
+      attr_accessor :name
+      # Name of numerator
+      attr_accessor :name_numerator
+      # Name of denominator
+      attr_accessor :name_denominator
+      # Parameters:
+      # * ss_num: explained variance / between group variance
+      # * ss_den: unexplained variance / within group variance
+      # * df_num: degrees of freedom for explained variance / k-1
+      # * df_den: degrees of freedom for unexplained variance / n-k
+      def initialize(ss_num, ss_den, df_num, df_den, opts=Hash.new)
+        @ss_num=ss_num
+        @ss_den=ss_den
+        @df_num=df_num
+        @df_den=df_den
+        @ss_total=ss_num+ss_den
+        @df_total=df_num+df_den
+        opts_default={:tails=>:right, :name_numerator=>"Numerator", :name_denominator=>"Denominator", :name=>"F Test"}
+        @opts=opts_default.merge(opts)
+        raise "Tails should be right or left, not both" if @opts[:tails]==:both
+        opts_default.keys.each {|k|
+          send("#{k}=", @opts[k])
+        }
+      end
+      def summary
+        ReportBuilder.new(:no_title=>true).add(self).to_text
+      end
+      def f
+        (@ss_num.quo(@df_num)).quo(@ss_den.quo(@df_den))
+      end
+      # probability
+      def probability
+        p_using_cdf(Distribution::F.cdf(f, @df_num, @df_den), tails)
+      end
+      def report_building(builder)#:nodoc:
+        builder.section(:name=>@name) do |b|
+          b.table(:name=>_("%s Table") % @name, :header=>%w{source ss df f p}.map {|v| _(v)}) do |t|
+            t.row([@name_numerator, sprintf("%0.3f",@ss_num),  @df_num,  sprintf("%0.3f",f), sprintf("%0.3f", probability)])
+            t.row([@name_denominator, sprintf("%0.3f",@ss_den), @df_den, "", ""])
+            t.row([_("Total"), sprintf("%0.3f",@ss_total), @df_total,"",""])
+          end
+        end
+      end
+    end
+  end
+end

data/lib/statsample/test/t.rb CHANGED

@@ -55,6 +55,15 @@ module Statsample
       #   a=1000.times.map {rand(100)}.to_scale
       #   t_1=Statsample::Test::T::OneSample.new(a, {:u=>50})
       #   t_1.summary
+      #
+      # === Output
+      #
+      #  = One Sample T Test
+      #  Sample mean: 48.954
+      #  Population mean:50
+      #  Tails: both
+      #  t = -1.1573, p=0.2474, d.f=999
       class OneSample
         include Math
         include Statsample::Test
@@ -76,7 +85,11 @@ module Statsample
         dirty_writer :u, :tails
         dirty_memoize :t, :probability
+        # Create a One Sample T Test
+        # Options:
+        # * :u = Mean to compare. Default= 0
+        # * :name = Name of the analysis
+        # * :tails = Tail for probability. Could be :both, :left, :right
         def initialize(vector, opts=Hash.new)
           @vector=vector
           default={:u=>0, :name=>"One Sample T Test", :tails=>:both}
@@ -113,9 +126,30 @@ module Statsample
       # == Usage
       #   a=1000.times.map {rand(100)}.to_scale
       #   b=1000.times.map {rand(100)}.to_scale
-      #   t_2=Statsample::Test::T::OneSample.new(a,b)
+      #   t_2=Statsample::Test::T::TwoSamplesIndependent.new(a,b)
       #   t_2.summary
+      # === Output
+      #  = Two Sample T Test
+      #  Mean and standard deviation
+      #  +----------+---------+---------+------+
+      #  | Variable |    m    |   sd    |  n   |
+      #  +----------+---------+---------+------+
+      #  | 1        | 49.3310 | 29.3042 | 1000 |
+      #  | 2        | 47.8180 | 28.8640 | 1000 |
+      #  +----------+---------+---------+------+
+      #
+      #  == Levene Test
+      #   Levene Test
+      #   F: 0.3596
+      #   p: 0.5488
+      #   T statistics
+      #   +--------------------+--------+-----------+----------------+
+      #   |        Type        |   t    |    df     | p (both tails) |
+      #   +--------------------+--------+-----------+----------------+
+      #   | Equal variance     | 1.1632 | 1998      | 0.2449         |
+      #   | Non equal variance | 1.1632 | 1997.5424 | 0.1362         |
+      #   +--------------------+--------+-----------+----------------+
       class TwoSamplesIndependent
         include Math
         include Statsample::Test
@@ -142,18 +176,20 @@ module Statsample
         dirty_writer :tails
         dirty_memoize :t_equal_variance, :t_not_equal_variance, :probability_equal_variance, :probability_not_equal_variance, :df_equal_variance, :df_not_equal_variance
+        # Create a Two Independent T Test
+        # Options:
+        # * :name = Name of the analysis
+        # * :tails = Tail for probability. Could be :both, :left, :right
         def initialize(v1, v2, opts=Hash.new)
           @v1=v1
           @v2=v2
-          default={:u=>0, :name=>"Two Sample T Test", :paired_samples=>false, :tails=>:both}
+          default={:u=>0, :name=>"Two Sample T Test",  :tails=>:both}
           @opts=default.merge(opts)
           @name=@opts[:name]
           @tails=@opts[:tails]
         end
         # Set t and probability for given u
         def compute
           @t_equal_variance= T.two_sample_independent(@v1.mean, @v2.mean, @v1.sd, @v2.sd, @v1.n_valid, @v2.n_valid,true)

data/test/test_anova.rb CHANGED

@@ -1,12 +1,11 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleAnovaTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
+  def setup
     @v1=[3,3,2,3,6].to_vector(:scale)
     @v2=[7,6,5,6,7].to_vector(:scale)
     @v3=[9,8,9,7,8].to_vector(:scale)
     @anova=Statsample::Anova::OneWay.new([@v1,@v2,@v3])
-    super
   end
   def test_basic
     assert_in_delta(72.933, @anova.sst,0.001)
@@ -19,7 +18,7 @@ class StatsampleAnovaTestCase < MiniTest::Unit::TestCase
     assert_in_delta(23.568,@anova.f,0.001)
     anova2=Statsample::Anova::OneWay.new([@v1,@v1,@v1,@v1,@v2])
     assert_in_delta(3.960, anova2.f,0.001)
-    assert(@anova.significance<0.01)
-    assert_in_delta(0.016, anova2.significance,0.001)
+    assert(@anova.probability<0.01)
+    assert_in_delta(0.016, anova2.probability,0.001)
   end
 end

data/test/test_bivariate.rb CHANGED

@@ -12,7 +12,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       v2=1000.times.collect {|a| rand()}.to_scale
       assert_in_delta(Statsample::Bivariate.covariance(v1,v2), Statsample::Bivariate.covariance_slow(v1,v2), 0.001)
     else
-      puts "Bivariate::covariance not tested (needs GSL)"
+      skip "Bivariate::covariance not tested (needs GSL)"
     end
   end
@@ -24,7 +24,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       assert_in_delta(GSL::Stats::correlation(v1.gsl, v2.gsl), Statsample::Bivariate.pearson_slow(v1,v2), 1e-10)
     else
-      puts "Not tested gsl versus ruby correlation (needs GSL)"
+      skip "Not tested gsl versus ruby correlation (needs GSL)"
     end
   end
   def test_pearson
@@ -67,6 +67,8 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       if Statsample.has_gsl?
         poly.compute_two_step_mle_drasgow_gsl
         assert_in_delta(tetra.r,poly.r,0.0001)
+      else
+        skip "compute_two_step_mle_drasgow_gsl not tested (requires GSL)"
       end
     }
   end
@@ -112,7 +114,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       assert_in_delta(1.5938, poly.threshold_y[1],0.0001)
       assert_in_delta(1.1331, poly.threshold_x[1],0.0001)
     else
-      puts "Two-step optimized, polychoric series and Joint method for Polychoric  requires GSL"
+      skip "Two-step optimized, polychoric series and Joint method for Polychoric  requires GSL"
     end
     assert(poly.summary)
   end

data/test/test_combination.rb CHANGED

@@ -1,9 +1,6 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleCombinationTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
-  end
   def test_basic
     k=3
     n=5
@@ -34,7 +31,7 @@ class StatsampleCombinationTestCase < MiniTest::Unit::TestCase
       assert_equal(rb_array,gsl_array)
     else
-      puts "Not CombinationRuby vs CombinationGSL (no gsl)"
+      skip "Not CombinationRuby vs CombinationGSL (no gsl)"
     end
   end
 end

data/test/test_factor.rb CHANGED

@@ -33,7 +33,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       _test_matrix(expected_fm_2,pca.feature_vector(2))
       assert(pca.summary)
     else
-      puts "PCA not tested. Requires GSL"
+      skip "PCA not tested. Requires GSL"
     end
   end
@@ -67,7 +67,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       assert(fa.summary)
     else
-      puts "Principal Axis not tested. Requires GSL"
+      skip "Principal Axis not tested. Requires GSL"
     end
   end
@@ -89,7 +89,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       refute(varimax.h2.nil?,"H2 shouldn't be empty")
       _test_matrix(expected,varimax.rotated)
     else
-      puts "Rotation not tested. Requires GSL"
+      skip "Rotation not tested. Requires GSL"
     end
   end
   def _test_matrix(a,b)

data/test/test_gsl.rb CHANGED

@@ -14,6 +14,8 @@ class StatsampleGSLTestCase < MiniTest::Unit::TestCase
       matrix=gsl.to_matrix
       assert_equal(5,matrix.row_size)
       assert_equal(3,matrix.column_size)
+    else
+      skip("Needs GSL extension")
     end
   end
 end

data/test/test_helpers.rb CHANGED

@@ -3,8 +3,20 @@ require 'statsample'
 require 'minitest/unit'
 require 'tempfile'
 require 'tmpdir'
+require 'shoulda'
+module MiniTest
+  class Unit
+    class TestCase
+      include Shoulda::InstanceMethods
+      extend Shoulda::ClassMethods
+      include Shoulda::Assertions
+    end
+  end
+end
 module MiniTest::Assertions
   alias :assert_raise :assert_raises unless method_defined? :assert_raise
   alias :assert_not_equal :refute_equal unless method_defined? :assert_not_equal
   alias :assert_not_same :refute_same unless method_defined? :assert_not_same

data/test/test_mle.rb CHANGED

@@ -48,7 +48,7 @@ class StatsampleMLETestCase < MiniTest::Unit::TestCase
     #p coeffs_nr
     ds=@ds_indep.dup
     ds.add_vector('y',y)
-    lr=Statsample::Regression.multiple(ds,'y')
+    lr=Statsample::Regression.multiple(ds, 'y')
     lr_constant = lr.constant
     lr_coeffs   = lr.coeffs
     assert_in_delta(coeffs_nr[0,0], lr_constant,0.0000001)

data/test/test_multiset.rb CHANGED

@@ -2,9 +2,6 @@ require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleMultisetTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
-  end
   def test_creation
     v1a=[1,2,3,4,5].to_vector
     v2b=[11,21,31,41,51].to_vector

data/test/test_regression.rb CHANGED

@@ -90,7 +90,7 @@ class StatsampleRegressionTestCase < MiniTest::Unit::TestCase
         assert_in_delta(residuals[i],c_residuals[i],0.001)
       }
     else
-      puts "Regression::Multiple::GslEngine not tested (no Gsl)"
+      skip "Regression::Multiple::GslEngine not tested (no Gsl)"
     end
   end
@@ -115,7 +115,7 @@ class StatsampleRegressionTestCase < MiniTest::Unit::TestCase
     assert_in_delta(0.913,lr.r2,0.001)
     assert_in_delta(20.908, lr.f,0.001)
-    assert_in_delta(0.001, lr.significance, 0.001)
+    assert_in_delta(0.001, lr.probability, 0.001)
     assert_in_delta(0.226,lr.tolerance("a"),0.001)
     coeffs_se={"a"=>1.171,"b"=>1.129,"c"=>0.072}

data/test/test_reliability.rb CHANGED

@@ -3,8 +3,7 @@ require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleReliabilityTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
+  def setup
     @x1=[1,1,1,1,2,2,2,2,3,3,3,30].to_vector(:scale)
     @x2=[1,1,1,2,2,3,3,3,3,4,4,50].to_vector(:scale)
     @x3=[2,2,1,1,1,2,2,2,3,4,5,40].to_vector(:scale)
@@ -19,14 +18,4 @@ class StatsampleReliabilityTestCase < MiniTest::Unit::TestCase
     assert_in_delta(0.999,ia.item_total_correlation()['x1'],0.001)
     assert_in_delta(1050.455,ia.stats_if_deleted()['x1'][:variance_sample],0.001)
   end
-  def test_icc
-    #p @x1.factors
-    icc=Statsample::Reliability::ItemCharacteristicCurve.new(@ds)
-    # Need to create the test!!!!
-    #p icc.curve_field('x1',1).sort
-    #p icc.curve_field('x1',2).sort
-    #p icc.curve_field('x1',3).sort
-    #p icc.curve_field('x1',30).sort
-  end
 end

data/test/test_svg_graph.rb CHANGED

@@ -17,7 +17,7 @@ class StatsampleSvgGraphTestCase < MiniTest::Unit::TestCase
       graph.histogram=h
       file.puts(graph.burn)
     else
-      puts "Statsample::Graph::SvgHistogram.new not tested (no ruby-gsl)"
+      skip "Statsample::Graph::SvgHistogram.new not tested (no ruby-gsl)"
     end
   end
   def assert_svg(msg=nil)
@@ -48,7 +48,7 @@ class StatsampleSvgGraphTestCase < MiniTest::Unit::TestCase
       }
       assert(File.exists?(file))
     else
-      puts "Statsample::Vector#svggraph_histogram.new not tested (no ruby-gsl)"
+      skip "Statsample::Vector#svggraph_histogram.new not tested (no ruby-gsl)"
     end
   end
 end

data/test/test_test_f.rb ADDED

@@ -0,0 +1,37 @@
+require(File.dirname(__FILE__)+'/test_helpers.rb')
+class StatsampleTestFTestCase < MiniTest::Unit::TestCase
+  context(Statsample::Test::F) do
+    setup do
+      @ssb=84
+      @ssw=68
+      @f=Statsample::Test::F.new(@ssb,@ssw, 2,15)
+    end
+    should "have f equal to msb/msw" do
+      assert_equal((@ssb.quo(2)).quo(@ssw.quo(15)), @f.f)
+    end
+    should "have df total equal to df_num+df_den" do
+      assert_equal(17, @f.df_total)
+    end
+    should "have probability near 0.002" do
+      assert_in_delta(0.002, @f.probability, 0.0005)
+    end
+    context("#summary") do
+      setup do
+        @f.name_numerator="MSb"
+        @f.name_denominator="MSw"
+        @f.name="ANOVA"
+        @summary=@f.summary
+      end
+      should "have size > 0" do
+        assert(@summary.size>0)
+      end
+      should "include correct names for title, num and den" do
+        assert_match(@f.name_numerator, @summary)
+        assert_match(@f.name_denominator, @summary)
+        assert_match(@f.name, @summary)
+      end
+    end
+  end
+end

data/test/test_xls.rb CHANGED

@@ -1,35 +1,53 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleExcelTestCase < MiniTest::Unit::TestCase
-  def setup
-    @ds=Statsample::Excel.read(File.dirname(__FILE__)+"/test_xls.xls")
-  end
-  def test_read
-    assert_equal(6,@ds.cases)
-    assert_equal(%w{id name age city a1},@ds.fields)
-    id=[1,2,3,4,5,6].to_vector(:scale)
-    name=["Alex","Claude","Peter","Franz","George","Fernand"].to_vector(:nominal)
-    age=[20,23,25,nil,5.5,nil].to_vector(:scale)
-    city=["New York","London","London","Paris","Tome",nil].to_vector(:nominal)
-    a1=["a,b","b,c","a",nil,"a,b,c",nil].to_vector(:nominal)
-    ds_exp=Statsample::Dataset.new({'id'=>id,'name'=>name,'age'=>age,'city'=>city,'a1'=>a1}, %w{id name age city a1})
-    ds_exp.fields.each{|f|
-      assert_equal(ds_exp[f],@ds[f])
-    }
-    assert_equal(ds_exp,@ds)
-  end
-  def test_nil
-    assert_equal(nil,@ds['age'][5])
+  context "Excel reader" do
+    setup do
+      @ds=Statsample::Excel.read(File.dirname(__FILE__)+"/test_xls.xls")
+    end
+    should "set the number of cases" do
+      assert_equal(6,@ds.cases)
+    end
+    should "set correct field names" do
+      assert_equal(%w{id name age city a1},@ds.fields)
+    end
+    should "set a dataset equal to expected" do
+      id=[1,2,3,4,5,6].to_vector(:scale)
+      name=["Alex","Claude","Peter","Franz","George","Fernand"].to_vector(:nominal)
+      age=[20,23,25,nil,5.5,nil].to_vector(:scale)
+      city=["New York","London","London","Paris","Tome",nil].to_vector(:nominal)
+      a1=["a,b","b,c","a",nil,"a,b,c",nil].to_vector(:nominal)
+      ds_exp=Statsample::Dataset.new({'id'=>id,'name'=>name,'age'=>age,'city'=>city,'a1'=>a1}, %w{id name age city a1})
+      ds_exp.fields.each{|f|
+        assert_equal(ds_exp[f],@ds[f])
+      }
+      assert_equal(ds_exp,@ds)
+    end
+    should "set to nil empty cells" do
+      assert_equal(nil,@ds['age'][5])
+    end
   end
-  def test_write
-    tempfile=Tempfile.new("test_write.xls")
-    Statsample::Excel.write(@ds,tempfile.path)
-    ds2=Statsample::Excel.read(tempfile.path)
-    i=0
-    ds2.each_array do |row|
-      assert_equal(@ds.case_as_array(i),row)
-      i+=1
+  context "Excel writer" do
+    setup do
+      a=100.times.map{rand(100)}.to_scale
+      b=(["b"]*100).to_vector
+      @ds={'b'=>b, 'a'=>a}.to_dataset(%w{b a})
+      tempfile=Tempfile.new("test_write.xls")
+      Statsample::Excel.write(@ds,tempfile.path)
+      @ds2=Statsample::Excel.read(tempfile.path)
+    end
+    should "return same fields as original" do
+      assert_equal(@ds.fields ,@ds2.fields)
+    end
+    should "return same number of cases as original" do
+      assert_equal(@ds.cases, @ds2.cases)
+    end
+    should "return same cases as original" do
+      i=0
+      @ds2.each_array do |row|
+        assert_equal(@ds.case_as_array(i),row)
+        i+=1
+      end
     end
   end
 end

metadata CHANGED

@@ -1,7 +1,12 @@
 --- !ruby/object:Gem::Specification
 name: statsample
 version: !ruby/object:Gem::Version
-  version: 0.8.2
+  prerelease: false
+  segments:
+  - 0
+  - 9
+  - 0
+  version: 0.9.0
 platform: ruby
 authors:
 - Claudio Bustos
@@ -30,107 +35,124 @@ cert_chain:
   rpP0jjs0
   -----END CERTIFICATE-----
-date: 2010-04-01 00:00:00 -03:00
+date: 2010-04-04 00:00:00 -04:00
 default_executable:
 dependencies:
 - !ruby/object:Gem::Dependency
   name: spreadsheet
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 6
+        - 0
         version: 0.6.0
-    version:
+  type: :runtime
+  version_requirements: *id001
 - !ruby/object:Gem::Dependency
   name: svg-graph
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 1
+        - 0
         version: "1.0"
-    version:
+  type: :runtime
+  version_requirements: *id002
 - !ruby/object:Gem::Dependency
   name: reportbuilder
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id003 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 1
+        - 0
         version: "1.0"
-    version:
+  type: :runtime
+  version_requirements: *id003
 - !ruby/object:Gem::Dependency
   name: minimization
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id004 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 1
+        - 0
         version: 0.1.0
-    version:
+  type: :runtime
+  version_requirements: *id004
 - !ruby/object:Gem::Dependency
   name: fastercsv
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id005 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        segments:
+        - 0
         version: "0"
-    version:
+  type: :runtime
+  version_requirements: *id005
 - !ruby/object:Gem::Dependency
   name: dirty-memoize
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id006 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 0
         version: "0.0"
-    version:
+  type: :runtime
+  version_requirements: *id006
 - !ruby/object:Gem::Dependency
   name: rubyforge
-  type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id007 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        segments:
+        - 2
+        - 0
+        - 4
         version: 2.0.4
-    version:
-- !ruby/object:Gem::Dependency
-  name: gemcutter
   type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: 0.5.0
-    version:
+  version_requirements: *id007
 - !ruby/object:Gem::Dependency
   name: hoe
-  type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id008 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 2.5.1
-    version:
+        segments:
+        - 2
+        - 6
+        - 0
+        version: 2.6.0
+  type: :development
+  version_requirements: *id008
 description: |-
-  A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, Ruby 1.9 and JRuby 1.4 (Ruby 1.8.7 compatible)
+  A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, 1.9.1, 1.9.2 (April, 2010) and JRuby 1.4 (Ruby 1.8.7 compatible)
   Includes:
   * Descriptive statistics: frequencies, median, mean, standard error, skew, kurtosis (and many others).
   * Imports and exports datasets from and to Excel, CSV and plain text files.
   * Correlations: Pearson's r, Spearman's rank correlation (rho), Tetrachoric, Polychoric
-  * Tests: T, Levene, U-Mannwhitney, One-Way Anova
+  * Tests: F (Anona One-Way), T, Levene, U-Mannwhitney.
   * Regression: Simple, Multiple, Probit  and Logit
   * Factorial Analysis: Extraction (PCA and Principal Axis) and Rotation (Varimax and relatives)
   * Dominance Analysis, with multivariate dependent and bootstrap (Azen & Budescu)
@@ -225,6 +247,7 @@ files:
 - lib/statsample/resample.rb
 - lib/statsample/srs.rb
 - lib/statsample/test.rb
+- lib/statsample/test/f.rb
 - lib/statsample/test/levene.rb
 - lib/statsample/test/t.rb
 - lib/statsample/test/umannwhitney.rb
@@ -261,6 +284,7 @@ files:
 - test/test_stest.rb
 - test/test_stratified.rb
 - test/test_svg_graph.rb
+- test/test_test_f.rb
 - test/test_test_t.rb
 - test/test_umannwhitney.rb
 - test/test_vector.rb
@@ -280,18 +304,20 @@ required_ruby_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      segments:
+      - 0
       version: "0"
-  version:
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      segments:
+      - 0
       version: "0"
-  version:
 requirements: []
 rubyforge_project: ruby-statsample
-rubygems_version: 1.3.5
+rubygems_version: 1.3.6
 signing_key:
 specification_version: 3
 summary: A suite for basic and advanced statistics on Ruby
@@ -322,6 +348,7 @@ test_files:
 - test/test_stest.rb
 - test/test_statistics.rb
 - test/test_reliability.rb
+- test/test_test_f.rb
 - test/test_test_t.rb
 - test/test_histogram.rb
 - test/test_dataset.rb

metadata.gz.sig CHANGED

Binary file