RubyGems - statsample - Versions diffs - 0.8.2 → 0.9.0 - Mend

statsample 0.8.2 → 0.9.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (30) hide show

data.tar.gz.sig +0 -0
data/History.txt +3 -0
data/Manifest.txt +2 -0
data/README.txt +2 -2
data/Rakefile +2 -1
data/lib/statsample.rb +1 -1
data/lib/statsample/anova.rb +16 -25
data/lib/statsample/dataset.rb +1 -1
data/lib/statsample/dominanceanalysis.rb +3 -1
data/lib/statsample/regression.rb +1 -1
data/lib/statsample/regression/multiple/baseengine.rb +18 -23
data/lib/statsample/regression/multiple/matrixengine.rb +18 -17
data/lib/statsample/test.rb +1 -1
data/lib/statsample/test/f.rb +61 -0
data/lib/statsample/test/t.rb +44 -8
data/test/test_anova.rb +3 -4
data/test/test_bivariate.rb +5 -3
data/test/test_combination.rb +1 -4
data/test/test_factor.rb +3 -3
data/test/test_gsl.rb +2 -0
data/test/test_helpers.rb +12 -0
data/test/test_mle.rb +1 -1
data/test/test_multiset.rb +0 -3
data/test/test_regression.rb +2 -2
data/test/test_reliability.rb +1 -12
data/test/test_svg_graph.rb +2 -2
data/test/test_test_f.rb +37 -0
data/test/test_xls.rb +46 -28
metadata +76 -49
metadata.gz.sig +0 -0

data.tar.gz.sig CHANGED

Binary file

data/History.txt CHANGED

@@ -1,3 +1,6 @@
+=== 0.9.0 / 2010-04-04
+* New Statsample::Test::F. Anova::OneWay subclasses it and Regression classes uses it.
 === 0.8.2 / 2010-04-01
 * Statsample::PromiseAfter replaced by external package DirtyMemoize [http://rubygems.org/gems/dirty-memoize]
 === 0.8.1 / 2010-03-29

data/Manifest.txt CHANGED

@@ -75,6 +75,7 @@ lib/statsample/reliability.rb
 lib/statsample/resample.rb
 lib/statsample/srs.rb
 lib/statsample/test.rb
+lib/statsample/test/f.rb
 lib/statsample/test/levene.rb
 lib/statsample/test/t.rb
 lib/statsample/test/umannwhitney.rb
@@ -111,6 +112,7 @@ test/test_statistics.rb
 test/test_stest.rb
 test/test_stratified.rb
 test/test_svg_graph.rb
+test/test_test_f.rb
 test/test_test_t.rb
 test/test_umannwhitney.rb
 test/test_vector.rb

data/README.txt CHANGED

@@ -5,13 +5,13 @@ http://ruby-statsample.rubyforge.org/
 == DESCRIPTION:
-A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, Ruby 1.9 and JRuby 1.4 (Ruby 1.8.7 compatible)
+A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, 1.9.1, 1.9.2 (April, 2010) and JRuby 1.4 (Ruby 1.8.7 compatible)
 Includes:
 * Descriptive statistics: frequencies, median, mean, standard error, skew, kurtosis (and many others).
 * Imports and exports datasets from and to Excel, CSV and plain text files.
 * Correlations: Pearson's r, Spearman's rank correlation (rho), Tetrachoric, Polychoric
-* Tests: T, Levene, U-Mannwhitney, One-Way Anova
+* Tests: F (Anona One-Way), T, Levene, U-Mannwhitney.
 * Regression: Simple, Multiple, Probit  and Logit
 * Factorial Analysis: Extraction (PCA and Principal Axis) and Rotation (Varimax and relatives)
 * Dominance Analysis, with multivariate dependent and bootstrap (Azen & Budescu)

data/Rakefile CHANGED

@@ -39,7 +39,8 @@ task :makemo do
 end
 h=Hoe.spec('statsample') do
-	self.version=Statsample::VERSION
+	self.testlib=:minitest unless RUBY_VERSION<="1.9"
+  self.version=Statsample::VERSION
 	self.rubyforge_name = "ruby-statsample"
 	self.developer('Claudio Bustos', 'clbustos@gmail.com')
 	self.extra_deps << ["spreadsheet","~>0.6.0"] << ["svg-graph", "~>1.0"] << ["reportbuilder", "~>1.0"] << ["minimization", "~>0.1.0"] << ["fastercsv"] << ["dirty-memoize", "~>0.0"]

data/lib/statsample.rb CHANGED

@@ -112,7 +112,7 @@ module Statsample
       false
     end
   end
-  VERSION = '0.8.2'
+  VERSION = '0.9.0'
   SPLIT_TOKEN = ","
   autoload(:Database, 'statsample/converters')
   autoload(:Anova, 'statsample/anova')

data/lib/statsample/anova.rb CHANGED

@@ -8,31 +8,31 @@ module Statsample
     #   anova=Statsample::Anova::OneWay.new([v1,v2,v3])
     #   anova.f
     #   => 0.0243902439024391
-    #   anova.significance
+    #   anova.probability
     #   => 0.975953044203438
     #   anova.sst
     #   => 32.9333333333333
     #
-    class OneWay
-      def initialize(vectors)
+    class OneWay < Statsample::Test::F
+      def initialize(vectors,opts=Hash.new)
         @vectors=vectors
-      end
-      # Total sum
-      def sum
-        @vectors.inject(0){|a,v| a+v.sum}
+        opts_default={:name=>_("Anova One-Way"), :name_numerator=>"Between Groups", :name_denominator=>"Within Groups"}
+        super(ssbg,sswg, df_bg, df_wg)
       end
       # Total mean
       def mean
+        sum=@vectors.inject(0){|a,v| a+v.sum}
         sum.quo(n)
       end
       # Total sum of squares
       def sst
-        m=mean.to_f
-        @vectors.inject(0) {|total,vector| total+vector.sum_of_squares(m) }
+        m=mean
+        @vectors.inject(0) {|total,vector| total+vector.ss(m) }
       end
       # Sum of squares within groups
       def sswg
-        @vectors.inject(0) {|total,vector| total+vector.sum_of_squares }
+        @sswg||=@vectors.inject(0) {|total,vector| total+vector.ss }
       end
       # Sum of squares between groups
       def ssbg
@@ -43,29 +43,20 @@ module Statsample
       end
       # Degrees of freedom within groups
       def df_wg
-          @vectors.inject(0) {|a,v| a+(v.size-1)}
+        @dk_wg||=n-k
+      end
+      def k
+        @k||=@vectors.size
       end
       # Degrees of freedom between groups
       def df_bg
-          @vectors.size-1
-      end
-      # Total Degrees of freedom
-      def df_total
-          n-1
+          k-1
       end
       # Total number of cases
       def n
           @vectors.inject(0){|a,v| a+v.size}
       end
-      # Fisher
-      def f
-          k=@vectors.size
-          (ssbg*(n-k)) / (sswg*(k-1))
-      end
-      # Significance of Fisher
-      def significance
-          1.0-Distribution::F.cdf(f,df_bg,df_wg)
-      end
     end
   end
 end

data/lib/statsample/dataset.rb CHANGED

@@ -3,7 +3,7 @@ require 'statsample/vector'
 class Hash
   # Creates a Statsample::Dataset based on a Hash
   def to_dataset(*args)
-    Statsample::Dataset.new(self,*args)
+    Statsample::Dataset.new(self, *args)
   end
 end

data/lib/statsample/dominanceanalysis.rb CHANGED

@@ -1,4 +1,4 @@
-require 'statsample/dominanceanalysis/bootstrap'
 module Statsample
   # Dominance Analysis is a procedure based on an examination of the R<sup>2</sup> values
   # for all possible subset models, to identify the relevance of one or more
@@ -428,3 +428,5 @@ module Statsample
     end # end ModelData
   end # end Dominance Analysis
 end
+require 'statsample/dominanceanalysis/bootstrap'

data/lib/statsample/regression.rb CHANGED

@@ -78,7 +78,7 @@ module Statsample
            RubyEngine.new(ds,y_var)
         else
           if Statsample.has_gsl?
-            Statsample::Regression::Multiple::GslEngine.new(ds,y_var)
+            Statsample::Regression::Multiple::GslEngine.new(ds, y_var)
           else
             ds2=ds.dup_only_valid
             Statsample::Regression::Multiple::RubyEngine.new(ds2,y_var)

data/lib/statsample/regression/multiple/baseengine.rb CHANGED

@@ -12,9 +12,6 @@ module Statsample
         def self.univariate?
           true
         end
         def initialize(ds, y_var, opts = Hash.new)
           @ds=ds
           @cases=@ds.cases
@@ -25,17 +22,20 @@ module Statsample
             self.send("#{k}=",v) if self.respond_to? k
           }
         end
+        # Calculate F Test
+        def f_test
+          @f_test||=Statsample::Test::F.new(ssr, sse, df_r, df_e, :name_numerator=>_("Regression"), :name_denominator=>_("Error"), :name=>"ANOVA")
+        end
         # Retrieves a vector with predicted values for y
         def predicted
           (0...@ds.cases).collect { |i|
-          invalid=false
-          vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
-          if invalid
-            nil
-          else
-            process(vect)
-          end
+            invalid=false
+            vect=@dep_columns.collect {|v| invalid=true if v[i].nil?; v[i]}
+            if invalid
+              nil
+            else
+              process(vect)
+            end
           }.to_vector(:scale)
         end
         # Retrieves a vector with standarized values for y
@@ -97,11 +97,11 @@ module Statsample
         end
         # Fisher for Anova
         def f
-          (ssr.quo(df_r)).quo(sse.quo(df_e))
+          f_test.f
         end
-        # Significance of Fisher
-        def significance
-          (1.0-Distribution::F.cdf(f, df_r, df_e)).abs
+        # p-value of Fisher
+        def probability
+          f_test.probability
         end
         # Tolerance for a given variable
         # http://talkstats.com/showthread.php?t=5056
@@ -129,7 +129,7 @@ module Statsample
           }
           out
         end
-        # Estandar error of R
+        # Estandar error of R^2
         def se_r2
           Math::sqrt((4*r2*(1-r2)**2*(df_e)**2).quo((@cases**2-1)*(@cases+3)))
         end
@@ -161,7 +161,7 @@ module Statsample
           rp.to_text
         end
         def report_building(b)
-          b.section(:name=>_("Multiple Regression: ")+@name) do |g|
+          b.section(:name=>@name) do |g|
             c=coeffs
             g.text(_("Engine: %s") % self.class)
             g.text(_("Cases(listwise)=%d(%d)") % [@ds.cases, @ds_valid.cases])
@@ -170,12 +170,7 @@ module Statsample
             g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
-            g.table(:name=>"ANOVA", :header=>%w{source ss df ms f s}) do |t|
-              t.row([_("Regression"), sprintf("%0.3f",ssr), df_r, sprintf("%0.3f",msr), sprintf("%0.3f",f), sprintf("%0.3f", significance)])
-              t.row([_("Error"), sprintf("%0.3f",sse), df_e, sprintf("%0.3f",mse),"",""])
-              t.row([_("Total"), sprintf("%0.3f",sst), df_r+df_e,"","",""])
-            end
+            g.parse_element(f_test)
             sc=standarized_coeffs
             cse=coeffs_se
             g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|

data/lib/statsample/regression/multiple/matrixengine.rb CHANGED

@@ -2,6 +2,10 @@ module Statsample
 module Regression
 module Multiple
   # Pure Ruby Class for Multiple Regression Analysis, based on a covariance or correlation matrix.
+  #
+  # Use Statsample::Regression::Multiple::RubyEngine if you have a
+  # Dataset, to avoid setting all details.
+  #
   # <b>Remember:</b> NEVER use a Covariance data if you have missing data. Use only correlation matrix on that case.
   #
   #
@@ -15,16 +19,13 @@ class MatrixEngine < BaseEngine
   # Hash of standard deviation of predictors.
   # Only useful for Correlation Matrix, because by default is set to 1
   attr_accessor :x_sd
-  # Standard deviation of criteria.
+  # Standard deviation of criterion
   # Only useful for Correlation Matrix, because by default is set to 1
   attr_accessor :y_sd
   # Hash of mean for predictors. By default, set to 0
-  #
   attr_accessor :x_mean
   # Mean for criteria. By default, set to 0
-  #
   attr_accessor :y_mean
   # Number of cases
@@ -92,23 +93,25 @@ class MatrixEngine < BaseEngine
         standarized_coeffs[k]*@y_sd.quo(@x_sd[k])
       }
     end
   end
   def cases
     raise "You should define the number of valid cases first" if @cases.nil?
     @cases
   end
   # Get R^2 for the regression
+  # For fixed models is the coefficient of determination.
+  # On random models, is the 'squared-multiple correlation'
   # Equal to
   # * 1-(|R| / |R_x|) or
   # * Sum(b_i*r_yi) <- used
   def r2
     @n_predictors.times.inject(0) {|ac,i| ac+@coeffs_stan[i]* @matrix_y[i,0]}
   end
+  # Multiple correlation, on random models.
   def r
     Math::sqrt(r2)
   end
+  # Value of constant
   def constant
     c=coeffs
     @y_mean - @fields.inject(0){|a,k| a + (c[k] * @x_mean[k])}
@@ -135,12 +138,10 @@ class MatrixEngine < BaseEngine
   def df_e
     cases-@n_predictors-1
   end
   # Tolerance for a given variable
   # defined as (1-R^2) of regression of other independent variables
   # over the selected
   # Reference:
-  #
   # * http://talkstats.com/showthread.php?t=5056
   def tolerance(var)
     lr=Statsample::Regression::Multiple::MatrixEngine.new(@matrix_x, var)
@@ -150,8 +151,7 @@ class MatrixEngine < BaseEngine
   # Standard error of a coefficients depends on
   # * Tolerance of the coeffients: Higher tolerances implies higher error
   # * Higher r2 implies lower error
-  # Reference:
+  # == Reference:
   # * Cohen et al. (2003). Applied Multiple Reggression / Correlation Analysis for the Behavioral Sciences
   #
   def coeffs_se
@@ -162,13 +162,15 @@ class MatrixEngine < BaseEngine
     }
     out
   end
+  # t value for constant
   def constant_t
     return nil if constant_se.nil?
     constant.to_f/constant_se
   end
   # Standard error for constant.
-  # Recreate the estimaded variance-covariance matrix
-  # using means, standard deviation and covariance matrix
+  # This method recreates the estimaded variance-covariance matrix
+  # using means, standard deviation and covariance matrix.
+  # So, needs the covariance matrix.
   def constant_se
     return nil if @no_covariance
     means=@x_mean
@@ -178,6 +180,7 @@ class MatrixEngine < BaseEngine
     #sd[@y_var]=@y_sd
     sd[:constant]=0
     fields=[:constant]+@matrix_cov.fields-[@y_var]
+    # Recreate X'X using the variance-covariance matrix
     xt_x=Matrix.rows(fields.collect {|i|
       fields.collect {|j|
         if i==:constant or j==:constant
@@ -203,13 +206,11 @@ class MatrixEngine < BaseEngine
       g.text("R^2=#{sprintf('%0.3f',r2)}")
       g.text(_("Equation")+"="+ sprintf('%0.3f',constant) +" + "+ @fields.collect {|k| sprintf('%0.3f%s',c[k],k)}.join(' + ') )
+      g.parse_element(f_test)
-      g.table(:name=>"ANOVA", :header=>%w{source ss df ms f s}) do |t|
-        t.row([_("Regression"), sprintf("%0.3f",ssr), df_r, sprintf("%0.3f",msr), sprintf("%0.3f",f), sprintf("%0.3f", significance)])
-        t.row([_("Error"), sprintf("%0.3f",sse), df_e, sprintf("%0.3f",mse),"",""])
-        t.row([_("Total"), sprintf("%0.3f",sst), df_r+df_e,"","",""])
-      end
       sc=standarized_coeffs
       cse=coeffs_se
       g.table(:name=>"Beta coefficients", :header=>%w{coeff b beta se t}.collect{|field| _(field)} ) do |t|

data/lib/statsample/test.rb CHANGED

@@ -5,7 +5,7 @@ module Statsample
     autoload(:UMannWhitney, 'statsample/test/umannwhitney')
     autoload(:Levene, 'statsample/test/levene')
     autoload(:T, 'statsample/test/t')
+    autoload(:F, 'statsample/test/f')
     # Returns probability of getting a value lower or higher
     # than sample, using cdf and number of tails.
     # * For one tail left, return the cdf

data/lib/statsample/test/f.rb ADDED

@@ -0,0 +1,61 @@
+module Statsample
+  module Test
+    # From Wikipedia:
+    # An F-test is any statistical test in which the test statistic has an F-distribution under the null hypothesis. It is most often used when comparing statistical models that have been fit to a data set, in order to identify the model that best fits the population from which the data were sampled.
+    class F
+      include GetText
+      bindtextdomain("statsample")
+      include Statsample::Test
+      attr_reader :ss_num, :ss_den, :df_num, :df_den, :ss_total, :df_total
+      # Tails for probability (:both, :left or :right)
+      attr_accessor :tails
+      # Name of F analysis
+      attr_accessor :name
+      # Name of numerator
+      attr_accessor :name_numerator
+      # Name of denominator
+      attr_accessor :name_denominator
+      # Parameters:
+      # * ss_num: explained variance / between group variance
+      # * ss_den: unexplained variance / within group variance
+      # * df_num: degrees of freedom for explained variance / k-1
+      # * df_den: degrees of freedom for unexplained variance / n-k
+      def initialize(ss_num, ss_den, df_num, df_den, opts=Hash.new)
+        @ss_num=ss_num
+        @ss_den=ss_den
+        @df_num=df_num
+        @df_den=df_den
+        @ss_total=ss_num+ss_den
+        @df_total=df_num+df_den
+        opts_default={:tails=>:right, :name_numerator=>"Numerator", :name_denominator=>"Denominator", :name=>"F Test"}
+        @opts=opts_default.merge(opts)
+        raise "Tails should be right or left, not both" if @opts[:tails]==:both
+        opts_default.keys.each {|k|
+          send("#{k}=", @opts[k])
+        }
+      end
+      def summary
+        ReportBuilder.new(:no_title=>true).add(self).to_text
+      end
+      def f
+        (@ss_num.quo(@df_num)).quo(@ss_den.quo(@df_den))
+      end
+      # probability
+      def probability
+        p_using_cdf(Distribution::F.cdf(f, @df_num, @df_den), tails)
+      end
+      def report_building(builder)#:nodoc:
+        builder.section(:name=>@name) do |b|
+          b.table(:name=>_("%s Table") % @name, :header=>%w{source ss df f p}.map {|v| _(v)}) do |t|
+            t.row([@name_numerator, sprintf("%0.3f",@ss_num),  @df_num,  sprintf("%0.3f",f), sprintf("%0.3f", probability)])
+            t.row([@name_denominator, sprintf("%0.3f",@ss_den), @df_den, "", ""])
+            t.row([_("Total"), sprintf("%0.3f",@ss_total), @df_total,"",""])
+          end
+        end
+      end
+    end
+  end
+end

data/lib/statsample/test/t.rb CHANGED

@@ -55,6 +55,15 @@ module Statsample
       #   a=1000.times.map {rand(100)}.to_scale
       #   t_1=Statsample::Test::T::OneSample.new(a, {:u=>50})
       #   t_1.summary
+      #
+      # === Output
+      #
+      #  = One Sample T Test
+      #  Sample mean: 48.954
+      #  Population mean:50
+      #  Tails: both
+      #  t = -1.1573, p=0.2474, d.f=999
       class OneSample
         include Math
         include Statsample::Test
@@ -76,7 +85,11 @@ module Statsample
         dirty_writer :u, :tails
         dirty_memoize :t, :probability
+        # Create a One Sample T Test
+        # Options:
+        # * :u = Mean to compare. Default= 0
+        # * :name = Name of the analysis
+        # * :tails = Tail for probability. Could be :both, :left, :right
         def initialize(vector, opts=Hash.new)
           @vector=vector
           default={:u=>0, :name=>"One Sample T Test", :tails=>:both}
@@ -113,9 +126,30 @@ module Statsample
       # == Usage
       #   a=1000.times.map {rand(100)}.to_scale
       #   b=1000.times.map {rand(100)}.to_scale
-      #   t_2=Statsample::Test::T::OneSample.new(a,b)
+      #   t_2=Statsample::Test::T::TwoSamplesIndependent.new(a,b)
       #   t_2.summary
+      # === Output
+      #  = Two Sample T Test
+      #  Mean and standard deviation
+      #  +----------+---------+---------+------+
+      #  | Variable |    m    |   sd    |  n   |
+      #  +----------+---------+---------+------+
+      #  | 1        | 49.3310 | 29.3042 | 1000 |
+      #  | 2        | 47.8180 | 28.8640 | 1000 |
+      #  +----------+---------+---------+------+
+      #
+      #  == Levene Test
+      #   Levene Test
+      #   F: 0.3596
+      #   p: 0.5488
+      #   T statistics
+      #   +--------------------+--------+-----------+----------------+
+      #   |        Type        |   t    |    df     | p (both tails) |
+      #   +--------------------+--------+-----------+----------------+
+      #   | Equal variance     | 1.1632 | 1998      | 0.2449         |
+      #   | Non equal variance | 1.1632 | 1997.5424 | 0.1362         |
+      #   +--------------------+--------+-----------+----------------+
       class TwoSamplesIndependent
         include Math
         include Statsample::Test
@@ -142,18 +176,20 @@ module Statsample
         dirty_writer :tails
         dirty_memoize :t_equal_variance, :t_not_equal_variance, :probability_equal_variance, :probability_not_equal_variance, :df_equal_variance, :df_not_equal_variance
+        # Create a Two Independent T Test
+        # Options:
+        # * :name = Name of the analysis
+        # * :tails = Tail for probability. Could be :both, :left, :right
         def initialize(v1, v2, opts=Hash.new)
           @v1=v1
           @v2=v2
-          default={:u=>0, :name=>"Two Sample T Test", :paired_samples=>false, :tails=>:both}
+          default={:u=>0, :name=>"Two Sample T Test",  :tails=>:both}
           @opts=default.merge(opts)
           @name=@opts[:name]
           @tails=@opts[:tails]
         end
         # Set t and probability for given u
         def compute
           @t_equal_variance= T.two_sample_independent(@v1.mean, @v2.mean, @v1.sd, @v2.sd, @v1.n_valid, @v2.n_valid,true)

data/test/test_anova.rb CHANGED

@@ -1,12 +1,11 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleAnovaTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
+  def setup
     @v1=[3,3,2,3,6].to_vector(:scale)
     @v2=[7,6,5,6,7].to_vector(:scale)
     @v3=[9,8,9,7,8].to_vector(:scale)
     @anova=Statsample::Anova::OneWay.new([@v1,@v2,@v3])
-    super
   end
   def test_basic
     assert_in_delta(72.933, @anova.sst,0.001)
@@ -19,7 +18,7 @@ class StatsampleAnovaTestCase < MiniTest::Unit::TestCase
     assert_in_delta(23.568,@anova.f,0.001)
     anova2=Statsample::Anova::OneWay.new([@v1,@v1,@v1,@v1,@v2])
     assert_in_delta(3.960, anova2.f,0.001)
-    assert(@anova.significance<0.01)
-    assert_in_delta(0.016, anova2.significance,0.001)
+    assert(@anova.probability<0.01)
+    assert_in_delta(0.016, anova2.probability,0.001)
   end
 end

data/test/test_bivariate.rb CHANGED

@@ -12,7 +12,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       v2=1000.times.collect {|a| rand()}.to_scale
       assert_in_delta(Statsample::Bivariate.covariance(v1,v2), Statsample::Bivariate.covariance_slow(v1,v2), 0.001)
     else
-      puts "Bivariate::covariance not tested (needs GSL)"
+      skip "Bivariate::covariance not tested (needs GSL)"
     end
   end
@@ -24,7 +24,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       assert_in_delta(GSL::Stats::correlation(v1.gsl, v2.gsl), Statsample::Bivariate.pearson_slow(v1,v2), 1e-10)
     else
-      puts "Not tested gsl versus ruby correlation (needs GSL)"
+      skip "Not tested gsl versus ruby correlation (needs GSL)"
     end
   end
   def test_pearson
@@ -67,6 +67,8 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       if Statsample.has_gsl?
         poly.compute_two_step_mle_drasgow_gsl
         assert_in_delta(tetra.r,poly.r,0.0001)
+      else
+        skip "compute_two_step_mle_drasgow_gsl not tested (requires GSL)"
       end
     }
   end
@@ -112,7 +114,7 @@ class StatsampleBivariateTestCase < MiniTest::Unit::TestCase
       assert_in_delta(1.5938, poly.threshold_y[1],0.0001)
       assert_in_delta(1.1331, poly.threshold_x[1],0.0001)
     else
-      puts "Two-step optimized, polychoric series and Joint method for Polychoric  requires GSL"
+      skip "Two-step optimized, polychoric series and Joint method for Polychoric  requires GSL"
     end
     assert(poly.summary)
   end

data/test/test_combination.rb CHANGED

@@ -1,9 +1,6 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleCombinationTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
-  end
   def test_basic
     k=3
     n=5
@@ -34,7 +31,7 @@ class StatsampleCombinationTestCase < MiniTest::Unit::TestCase
       assert_equal(rb_array,gsl_array)
     else
-      puts "Not CombinationRuby vs CombinationGSL (no gsl)"
+      skip "Not CombinationRuby vs CombinationGSL (no gsl)"
     end
   end
 end

data/test/test_factor.rb CHANGED

@@ -33,7 +33,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       _test_matrix(expected_fm_2,pca.feature_vector(2))
       assert(pca.summary)
     else
-      puts "PCA not tested. Requires GSL"
+      skip "PCA not tested. Requires GSL"
     end
   end
@@ -67,7 +67,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       assert(fa.summary)
     else
-      puts "Principal Axis not tested. Requires GSL"
+      skip "Principal Axis not tested. Requires GSL"
     end
   end
@@ -89,7 +89,7 @@ class StatsampleFactorTestCase < MiniTest::Unit::TestCase
       refute(varimax.h2.nil?,"H2 shouldn't be empty")
       _test_matrix(expected,varimax.rotated)
     else
-      puts "Rotation not tested. Requires GSL"
+      skip "Rotation not tested. Requires GSL"
     end
   end
   def _test_matrix(a,b)

data/test/test_gsl.rb CHANGED

@@ -14,6 +14,8 @@ class StatsampleGSLTestCase < MiniTest::Unit::TestCase
       matrix=gsl.to_matrix
       assert_equal(5,matrix.row_size)
       assert_equal(3,matrix.column_size)
+    else
+      skip("Needs GSL extension")
     end
   end
 end

data/test/test_helpers.rb CHANGED

@@ -3,8 +3,20 @@ require 'statsample'
 require 'minitest/unit'
 require 'tempfile'
 require 'tmpdir'
+require 'shoulda'
+module MiniTest
+  class Unit
+    class TestCase
+      include Shoulda::InstanceMethods
+      extend Shoulda::ClassMethods
+      include Shoulda::Assertions
+    end
+  end
+end
 module MiniTest::Assertions
   alias :assert_raise :assert_raises unless method_defined? :assert_raise
   alias :assert_not_equal :refute_equal unless method_defined? :assert_not_equal
   alias :assert_not_same :refute_same unless method_defined? :assert_not_same

data/test/test_mle.rb CHANGED

@@ -48,7 +48,7 @@ class StatsampleMLETestCase < MiniTest::Unit::TestCase
     #p coeffs_nr
     ds=@ds_indep.dup
     ds.add_vector('y',y)
-    lr=Statsample::Regression.multiple(ds,'y')
+    lr=Statsample::Regression.multiple(ds, 'y')
     lr_constant = lr.constant
     lr_coeffs   = lr.coeffs
     assert_in_delta(coeffs_nr[0,0], lr_constant,0.0000001)

data/test/test_multiset.rb CHANGED

@@ -2,9 +2,6 @@ require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleMultisetTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
-  end
   def test_creation
     v1a=[1,2,3,4,5].to_vector
     v2b=[11,21,31,41,51].to_vector

data/test/test_regression.rb CHANGED

@@ -90,7 +90,7 @@ class StatsampleRegressionTestCase < MiniTest::Unit::TestCase
         assert_in_delta(residuals[i],c_residuals[i],0.001)
       }
     else
-      puts "Regression::Multiple::GslEngine not tested (no Gsl)"
+      skip "Regression::Multiple::GslEngine not tested (no Gsl)"
     end
   end
@@ -115,7 +115,7 @@ class StatsampleRegressionTestCase < MiniTest::Unit::TestCase
     assert_in_delta(0.913,lr.r2,0.001)
     assert_in_delta(20.908, lr.f,0.001)
-    assert_in_delta(0.001, lr.significance, 0.001)
+    assert_in_delta(0.001, lr.probability, 0.001)
     assert_in_delta(0.226,lr.tolerance("a"),0.001)
     coeffs_se={"a"=>1.171,"b"=>1.129,"c"=>0.072}

data/test/test_reliability.rb CHANGED

@@ -3,8 +3,7 @@ require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleReliabilityTestCase < MiniTest::Unit::TestCase
-  def initialize(*args)
-    super
+  def setup
     @x1=[1,1,1,1,2,2,2,2,3,3,3,30].to_vector(:scale)
     @x2=[1,1,1,2,2,3,3,3,3,4,4,50].to_vector(:scale)
     @x3=[2,2,1,1,1,2,2,2,3,4,5,40].to_vector(:scale)
@@ -19,14 +18,4 @@ class StatsampleReliabilityTestCase < MiniTest::Unit::TestCase
     assert_in_delta(0.999,ia.item_total_correlation()['x1'],0.001)
     assert_in_delta(1050.455,ia.stats_if_deleted()['x1'][:variance_sample],0.001)
   end
-  def test_icc
-    #p @x1.factors
-    icc=Statsample::Reliability::ItemCharacteristicCurve.new(@ds)
-    # Need to create the test!!!!
-    #p icc.curve_field('x1',1).sort
-    #p icc.curve_field('x1',2).sort
-    #p icc.curve_field('x1',3).sort
-    #p icc.curve_field('x1',30).sort
-  end
 end

data/test/test_svg_graph.rb CHANGED

@@ -17,7 +17,7 @@ class StatsampleSvgGraphTestCase < MiniTest::Unit::TestCase
       graph.histogram=h
       file.puts(graph.burn)
     else
-      puts "Statsample::Graph::SvgHistogram.new not tested (no ruby-gsl)"
+      skip "Statsample::Graph::SvgHistogram.new not tested (no ruby-gsl)"
     end
   end
   def assert_svg(msg=nil)
@@ -48,7 +48,7 @@ class StatsampleSvgGraphTestCase < MiniTest::Unit::TestCase
       }
       assert(File.exists?(file))
     else
-      puts "Statsample::Vector#svggraph_histogram.new not tested (no ruby-gsl)"
+      skip "Statsample::Vector#svggraph_histogram.new not tested (no ruby-gsl)"
     end
   end
 end

data/test/test_test_f.rb ADDED

@@ -0,0 +1,37 @@
+require(File.dirname(__FILE__)+'/test_helpers.rb')
+class StatsampleTestFTestCase < MiniTest::Unit::TestCase
+  context(Statsample::Test::F) do
+    setup do
+      @ssb=84
+      @ssw=68
+      @f=Statsample::Test::F.new(@ssb,@ssw, 2,15)
+    end
+    should "have f equal to msb/msw" do
+      assert_equal((@ssb.quo(2)).quo(@ssw.quo(15)), @f.f)
+    end
+    should "have df total equal to df_num+df_den" do
+      assert_equal(17, @f.df_total)
+    end
+    should "have probability near 0.002" do
+      assert_in_delta(0.002, @f.probability, 0.0005)
+    end
+    context("#summary") do
+      setup do
+        @f.name_numerator="MSb"
+        @f.name_denominator="MSw"
+        @f.name="ANOVA"
+        @summary=@f.summary
+      end
+      should "have size > 0" do
+        assert(@summary.size>0)
+      end
+      should "include correct names for title, num and den" do
+        assert_match(@f.name_numerator, @summary)
+        assert_match(@f.name_denominator, @summary)
+        assert_match(@f.name, @summary)
+      end
+    end
+  end
+end

data/test/test_xls.rb CHANGED

@@ -1,35 +1,53 @@
 require(File.dirname(__FILE__)+'/test_helpers.rb')
 class StatsampleExcelTestCase < MiniTest::Unit::TestCase
-  def setup
-    @ds=Statsample::Excel.read(File.dirname(__FILE__)+"/test_xls.xls")
-  end
-  def test_read
-    assert_equal(6,@ds.cases)
-    assert_equal(%w{id name age city a1},@ds.fields)
-    id=[1,2,3,4,5,6].to_vector(:scale)
-    name=["Alex","Claude","Peter","Franz","George","Fernand"].to_vector(:nominal)
-    age=[20,23,25,nil,5.5,nil].to_vector(:scale)
-    city=["New York","London","London","Paris","Tome",nil].to_vector(:nominal)
-    a1=["a,b","b,c","a",nil,"a,b,c",nil].to_vector(:nominal)
-    ds_exp=Statsample::Dataset.new({'id'=>id,'name'=>name,'age'=>age,'city'=>city,'a1'=>a1}, %w{id name age city a1})
-    ds_exp.fields.each{|f|
-      assert_equal(ds_exp[f],@ds[f])
-    }
-    assert_equal(ds_exp,@ds)
-  end
-  def test_nil
-    assert_equal(nil,@ds['age'][5])
+  context "Excel reader" do
+    setup do
+      @ds=Statsample::Excel.read(File.dirname(__FILE__)+"/test_xls.xls")
+    end
+    should "set the number of cases" do
+      assert_equal(6,@ds.cases)
+    end
+    should "set correct field names" do
+      assert_equal(%w{id name age city a1},@ds.fields)
+    end
+    should "set a dataset equal to expected" do
+      id=[1,2,3,4,5,6].to_vector(:scale)
+      name=["Alex","Claude","Peter","Franz","George","Fernand"].to_vector(:nominal)
+      age=[20,23,25,nil,5.5,nil].to_vector(:scale)
+      city=["New York","London","London","Paris","Tome",nil].to_vector(:nominal)
+      a1=["a,b","b,c","a",nil,"a,b,c",nil].to_vector(:nominal)
+      ds_exp=Statsample::Dataset.new({'id'=>id,'name'=>name,'age'=>age,'city'=>city,'a1'=>a1}, %w{id name age city a1})
+      ds_exp.fields.each{|f|
+        assert_equal(ds_exp[f],@ds[f])
+      }
+      assert_equal(ds_exp,@ds)
+    end
+    should "set to nil empty cells" do
+      assert_equal(nil,@ds['age'][5])
+    end
   end
-  def test_write
-    tempfile=Tempfile.new("test_write.xls")
-    Statsample::Excel.write(@ds,tempfile.path)
-    ds2=Statsample::Excel.read(tempfile.path)
-    i=0
-    ds2.each_array do |row|
-      assert_equal(@ds.case_as_array(i),row)
-      i+=1
+  context "Excel writer" do
+    setup do
+      a=100.times.map{rand(100)}.to_scale
+      b=(["b"]*100).to_vector
+      @ds={'b'=>b, 'a'=>a}.to_dataset(%w{b a})
+      tempfile=Tempfile.new("test_write.xls")
+      Statsample::Excel.write(@ds,tempfile.path)
+      @ds2=Statsample::Excel.read(tempfile.path)
+    end
+    should "return same fields as original" do
+      assert_equal(@ds.fields ,@ds2.fields)
+    end
+    should "return same number of cases as original" do
+      assert_equal(@ds.cases, @ds2.cases)
+    end
+    should "return same cases as original" do
+      i=0
+      @ds2.each_array do |row|
+        assert_equal(@ds.case_as_array(i),row)
+        i+=1
+      end
     end
   end
 end

metadata CHANGED

@@ -1,7 +1,12 @@
 --- !ruby/object:Gem::Specification
 name: statsample
 version: !ruby/object:Gem::Version
-  version: 0.8.2
+  prerelease: false
+  segments:
+  - 0
+  - 9
+  - 0
+  version: 0.9.0
 platform: ruby
 authors:
 - Claudio Bustos
@@ -30,107 +35,124 @@ cert_chain:
   rpP0jjs0
   -----END CERTIFICATE-----
-date: 2010-04-01 00:00:00 -03:00
+date: 2010-04-04 00:00:00 -04:00
 default_executable:
 dependencies:
 - !ruby/object:Gem::Dependency
   name: spreadsheet
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 6
+        - 0
         version: 0.6.0
-    version:
+  type: :runtime
+  version_requirements: *id001
 - !ruby/object:Gem::Dependency
   name: svg-graph
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 1
+        - 0
         version: "1.0"
-    version:
+  type: :runtime
+  version_requirements: *id002
 - !ruby/object:Gem::Dependency
   name: reportbuilder
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id003 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 1
+        - 0
         version: "1.0"
-    version:
+  type: :runtime
+  version_requirements: *id003
 - !ruby/object:Gem::Dependency
   name: minimization
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id004 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 1
+        - 0
         version: 0.1.0
-    version:
+  type: :runtime
+  version_requirements: *id004
 - !ruby/object:Gem::Dependency
   name: fastercsv
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id005 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        segments:
+        - 0
         version: "0"
-    version:
+  type: :runtime
+  version_requirements: *id005
 - !ruby/object:Gem::Dependency
   name: dirty-memoize
-  type: :runtime
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id006 !ruby/object:Gem::Requirement
     requirements:
     - - ~>
       - !ruby/object:Gem::Version
+        segments:
+        - 0
+        - 0
         version: "0.0"
-    version:
+  type: :runtime
+  version_requirements: *id006
 - !ruby/object:Gem::Dependency
   name: rubyforge
-  type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id007 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
+        segments:
+        - 2
+        - 0
+        - 4
         version: 2.0.4
-    version:
-- !ruby/object:Gem::Dependency
-  name: gemcutter
   type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: 0.5.0
-    version:
+  version_requirements: *id007
 - !ruby/object:Gem::Dependency
   name: hoe
-  type: :development
-  version_requirement:
-  version_requirements: !ruby/object:Gem::Requirement
+  prerelease: false
+  requirement: &id008 !ruby/object:Gem::Requirement
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
-        version: 2.5.1
-    version:
+        segments:
+        - 2
+        - 6
+        - 0
+        version: 2.6.0
+  type: :development
+  version_requirements: *id008
 description: |-
-  A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, Ruby 1.9 and JRuby 1.4 (Ruby 1.8.7 compatible)
+  A suite for basic and advanced statistics on Ruby. Tested on Ruby 1.8.7, 1.9.1, 1.9.2 (April, 2010) and JRuby 1.4 (Ruby 1.8.7 compatible)
   Includes:
   * Descriptive statistics: frequencies, median, mean, standard error, skew, kurtosis (and many others).
   * Imports and exports datasets from and to Excel, CSV and plain text files.
   * Correlations: Pearson's r, Spearman's rank correlation (rho), Tetrachoric, Polychoric
-  * Tests: T, Levene, U-Mannwhitney, One-Way Anova
+  * Tests: F (Anona One-Way), T, Levene, U-Mannwhitney.
   * Regression: Simple, Multiple, Probit  and Logit
   * Factorial Analysis: Extraction (PCA and Principal Axis) and Rotation (Varimax and relatives)
   * Dominance Analysis, with multivariate dependent and bootstrap (Azen & Budescu)
@@ -225,6 +247,7 @@ files:
 - lib/statsample/resample.rb
 - lib/statsample/srs.rb
 - lib/statsample/test.rb
+- lib/statsample/test/f.rb
 - lib/statsample/test/levene.rb
 - lib/statsample/test/t.rb
 - lib/statsample/test/umannwhitney.rb
@@ -261,6 +284,7 @@ files:
 - test/test_stest.rb
 - test/test_stratified.rb
 - test/test_svg_graph.rb
+- test/test_test_f.rb
 - test/test_test_t.rb
 - test/test_umannwhitney.rb
 - test/test_vector.rb
@@ -280,18 +304,20 @@ required_ruby_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      segments:
+      - 0
       version: "0"
-  version:
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
+      segments:
+      - 0
       version: "0"
-  version:
 requirements: []
 rubyforge_project: ruby-statsample
-rubygems_version: 1.3.5
+rubygems_version: 1.3.6
 signing_key:
 specification_version: 3
 summary: A suite for basic and advanced statistics on Ruby
@@ -322,6 +348,7 @@ test_files:
 - test/test_stest.rb
 - test/test_statistics.rb
 - test/test_reliability.rb
+- test/test_test_f.rb
 - test/test_test_t.rb
 - test/test_histogram.rb
 - test/test_dataset.rb

metadata.gz.sig CHANGED

Binary file