RubyGems - statsample - Versions diffs - 0.5.1 → 0.6.0 - Mend

statsample 0.5.1 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (51) hide show

data/History.txt +12 -0
data/Manifest.txt +13 -0
data/README.txt +2 -1
data/demo/pca.rb +29 -0
data/demo/umann.rb +8 -0
data/lib/distribution.rb +0 -1
data/lib/matrix_extension.rb +35 -21
data/lib/statsample.rb +31 -28
data/lib/statsample/anova.rb +7 -2
data/lib/statsample/bivariate.rb +17 -11
data/lib/statsample/codification.rb +136 -87
data/lib/statsample/combination.rb +0 -2
data/lib/statsample/converter/csv18.rb +1 -1
data/lib/statsample/converter/csv19.rb +1 -1
data/lib/statsample/converters.rb +176 -171
data/lib/statsample/crosstab.rb +227 -154
data/lib/statsample/dataset.rb +94 -12
data/lib/statsample/dominanceanalysis.rb +69 -62
data/lib/statsample/dominanceanalysis/bootstrap.rb +25 -21
data/lib/statsample/factor.rb +18 -0
data/lib/statsample/factor/pca.rb +128 -0
data/lib/statsample/factor/principalaxis.rb +133 -0
data/lib/statsample/factor/rotation.rb +125 -0
data/lib/statsample/histogram.rb +99 -0
data/lib/statsample/mle.rb +125 -126
data/lib/statsample/mle/logit.rb +91 -91
data/lib/statsample/mle/probit.rb +84 -85
data/lib/statsample/multiset.rb +1 -1
data/lib/statsample/permutation.rb +96 -0
data/lib/statsample/regression.rb +1 -1
data/lib/statsample/regression/binomial.rb +89 -89
data/lib/statsample/regression/binomial/logit.rb +9 -9
data/lib/statsample/regression/binomial/probit.rb +9 -9
data/lib/statsample/regression/multiple.rb +8 -14
data/lib/statsample/regression/multiple/gslengine.rb +1 -1
data/lib/statsample/regression/multiple/rubyengine.rb +55 -55
data/lib/statsample/resample.rb +12 -17
data/lib/statsample/srs.rb +4 -1
data/lib/statsample/test.rb +23 -22
data/lib/statsample/test/umannwhitney.rb +182 -0
data/lib/statsample/vector.rb +854 -815
data/test/test_bivariate.rb +132 -132
data/test/test_codification.rb +71 -50
data/test/test_dataset.rb +19 -1
data/test/test_factor.rb +44 -0
data/test/test_histogram.rb +26 -0
data/test/test_permutation.rb +37 -0
data/test/test_statistics.rb +74 -63
data/test/test_umannwhitney.rb +17 -0
data/test/test_vector.rb +46 -30
metadata +31 -4

data/test/test_bivariate.rb CHANGED Viewed

@@ -3,144 +3,144 @@ require 'statsample'
 require 'test/unit'
 class StatsampleBivariateTestCase < Test::Unit::TestCase
   def test_sum_of_codeviated
-		v1=[1,2,3,4,5,6].to_vector(:scale)
-		v2=[6,2,4,10,12,8].to_vector(:scale)
-		assert_equal(23.0, Statsample::Bivariate.sum_of_codeviated(v1,v2))
-	end
-    def test_pearson
-        v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
-        v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
-        assert_in_delta(0.525,Statsample::Bivariate.pearson(v1,v2), 0.001)
-        v3=[6,2,  1000,1000,5,4,7,8,4,3,2,nil].to_vector(:scale)
-        v4=[2,nil,nil,nil,  3,7,8,6,4,3,2,500].to_vector(:scale)
-        assert_in_delta(0.525,Statsample::Bivariate.pearson(v3,v4),0.001)
-    end
-    def test_tetrachoric_matrix
-      ds=Statsample::PlainText.read(File.dirname(__FILE__)+"/../data/tetmat_test.txt", %w{a b c d e})
-      tcm_obs=Statsample::Bivariate.tetrachoric_correlation_matrix(ds)
-      tcm_exp=Statsample::PlainText.read(File.dirname(__FILE__)+"/../data/tetmat_matrix.txt", %w{a b c d e}).to_matrix
-      tcm_obs.row_size.times {|i|
-        tcm_obs.column_size {|j|
-          assert_in_delta(tcm_obs[i,j], tcm_exp[i,k], 0.00001)
-        }
-      }
-    end
-    def test_tetrachoric
-      a,b,c,d=0,0,0,0
-      assert_raise RuntimeError do
-        tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      end
-      a,b,c,d=10,10,0,0
-      assert_raise RuntimeError do
-        tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      end
-      a,b,c,d=10,0,10,0
-      assert_raise RuntimeError do
-        tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
+    v1=[1,2,3,4,5,6].to_vector(:scale)
+    v2=[6,2,4,10,12,8].to_vector(:scale)
+    assert_equal(23.0, Statsample::Bivariate.sum_of_codeviated(v1,v2))
+  end
+  def test_pearson
+    v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
+    v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
+    assert_in_delta(0.525,Statsample::Bivariate.pearson(v1,v2), 0.001)
+    v3=[6,2,  1000,1000,5,4,7,8,4,3,2,nil].to_vector(:scale)
+    v4=[2,nil,nil,nil,  3,7,8,6,4,3,2,500].to_vector(:scale)
+    assert_in_delta(0.525,Statsample::Bivariate.pearson(v3,v4),0.001)
+  end
+  def test_tetrachoric_matrix
+    ds=Statsample::PlainText.read(File.dirname(__FILE__)+"/../data/tetmat_test.txt", %w{a b c d e})
+    tcm_obs=Statsample::Bivariate.tetrachoric_correlation_matrix(ds)
+    tcm_exp=Statsample::PlainText.read(File.dirname(__FILE__)+"/../data/tetmat_matrix.txt", %w{a b c d e}).to_matrix
+    tcm_obs.row_size.times do |i|
+      tcm_obs.column_size do |j|
+        assert_in_delta(tcm_obs[i,j], tcm_exp[i,k], 0.00001)
       end
-      a,b,c,d=10,0,0,10
+    end
+  end
+  def test_tetrachoric
+    a,b,c,d=0,0,0,0
+    assert_raise RuntimeError do
       tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      assert_equal(1,tc.r)
-      assert_equal(0,tc.se)
-      a,b,c,d=0,10,10,0
+    end
+    a,b,c,d=10,10,0,0
+    assert_raise RuntimeError do
       tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      assert_equal(-1,tc.r)
-      assert_equal(0,tc.se)
-      a,b,c,d = 30,40,70,20
+    end
+    a,b,c,d=10,0,10,0
+    assert_raise RuntimeError do
       tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      assert_in_delta(-0.53980,tc.r,0.0001)
-      assert_in_delta(0.09940,tc.se,0.0001)
-      assert_in_delta(0.31864,tc.threshold_x,0.0001)
-      assert_in_delta(-0.15731,tc.threshold_y,0.0001)
-      x=%w{a a a a b b b a b b a a b b}.to_vector
-      y=%w{0 0 1 1 0 0 1 1 1 1 0 0 1 1}.to_vector
-      # crosstab
-      #    0    1
-      # a  4    3
-      # b  2    5
-      a,b,c,d=4,3,2,5
-      tc1  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-      tc2  = Statsample::Bivariate::Tetrachoric.new_with_vectors(x,y)
-      assert_equal(tc1.r,tc2.r)
-      assert_equal(tc1.se,tc2.se)
     end
-    def test_matrix_correlation
-        v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
-        v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
-        v3=[6,2,  1000,1000,5,4,7,8].to_vector(:scale)
-        v4=[2,nil,nil,nil,  3,7,8,6].to_vector(:scale)
-        ds={'v1'=>v1,'v2'=>v2,'v3'=>v3,'v4'=>v4}.to_dataset
-        c=Proc.new {|n1,n2|Statsample::Bivariate.pearson(n1,n2)}
-        expected=Matrix[ [c.call(v1,v1),c.call(v1,v2),c.call(v1,v3),c.call(v1,v4)], [c.call(v2,v1),c.call(v2,v2),c.call(v2,v3),c.call(v2,v4)], [c.call(v3,v1),c.call(v3,v2),c.call(v3,v3),c.call(v3,v4)],
-        [c.call(v4,v1),c.call(v4,v2),c.call(v4,v3),c.call(v4,v4)]
-        ]
-	obt=Statsample::Bivariate.correlation_matrix(ds)
-	for i in 0...expected.row_size
-	for j in 0...expected.column_size
-		#puts expected[i,j].inspect
-		#puts obt[i,j].inspect
-		assert_in_delta(expected[i,j], obt[i,j],0.0001,"#{expected[i,j].class}!=#{obt[i,j].class}  ")
-	end
-	end
-#assert_equal(expected,obt)
+    a,b,c,d=10,0,0,10
+    tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
+    assert_equal(1,tc.r)
+    assert_equal(0,tc.se)
+    a,b,c,d=0,10,10,0
+    tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
+    assert_equal(-1,tc.r)
+    assert_equal(0,tc.se)
+    a,b,c,d = 30,40,70,20
+    tc  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
+    assert_in_delta(-0.53980,tc.r,0.0001)
+    assert_in_delta(0.09940,tc.se,0.0001)
+    assert_in_delta(0.31864,tc.threshold_x,0.0001)
+    assert_in_delta(-0.15731,tc.threshold_y,0.0001)
+    x=%w{a a a a b b b a b b a a b b}.to_vector
+    y=%w{0 0 1 1 0 0 1 1 1 1 0 0 1 1}.to_vector
+    # crosstab
+    #    0    1
+    # a  4    3
+    # b  2    5
+    a,b,c,d=4,3,2,5
+    tc1  = Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
+    tc2  = Statsample::Bivariate::Tetrachoric.new_with_vectors(x,y)
+    assert_equal(tc1.r,tc2.r)
+    assert_equal(tc1.se,tc2.se)
+  end
+  def test_matrix_correlation
+    v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
+    v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
+    v3=[6,2,  1000,1000,5,4,7,8].to_vector(:scale)
+    v4=[2,nil,nil,nil,  3,7,8,6].to_vector(:scale)
+    ds={'v1'=>v1,'v2'=>v2,'v3'=>v3,'v4'=>v4}.to_dataset
+    c=Proc.new {|n1,n2|Statsample::Bivariate.pearson(n1,n2)}
+    expected=Matrix[ [c.call(v1,v1),c.call(v1,v2),c.call(v1,v3),c.call(v1,v4)], [c.call(v2,v1),c.call(v2,v2),c.call(v2,v3),c.call(v2,v4)], [c.call(v3,v1),c.call(v3,v2),c.call(v3,v3),c.call(v3,v4)],
+    [c.call(v4,v1),c.call(v4,v2),c.call(v4,v3),c.call(v4,v4)]
+    ]
+    obt=Statsample::Bivariate.correlation_matrix(ds)
+    for i in 0...expected.row_size
+      for j in 0...expected.column_size
+        #puts expected[i,j].inspect
+        #puts obt[i,j].inspect
+        assert_in_delta(expected[i,j], obt[i,j],0.0001,"#{expected[i,j].class}!=#{obt[i,j].class}  ")
+      end
     end
-    def test_prop_pearson
-        assert_in_delta(0.42, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.084,94), 94),0.01)
-        assert_in_delta(0.65, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.046,95), 95),0.01)
-        r=0.9
-        n=100
-        t=Statsample::Bivariate.t_r(r,n)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:both)<0.05)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:right)<0.05)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:left)>0.05)
+    #assert_equal(expected,obt)
+  end
+  def test_prop_pearson
+    assert_in_delta(0.42, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.084,94), 94),0.01)
+    assert_in_delta(0.65, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.046,95), 95),0.01)
+    r=0.9
+    n=100
+    t=Statsample::Bivariate.t_r(r,n)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:both)<0.05)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:right)<0.05)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:left)>0.05)
-        r=-0.9
-        n=100
-        t=Statsample::Bivariate.t_r(r,n)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:both)<0.05)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:right)>0.05)
-        assert(Statsample::Bivariate.prop_pearson(t,n,:left)<0.05)
+    r=-0.9
+    n=100
+    t=Statsample::Bivariate.t_r(r,n)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:both)<0.05)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:right)>0.05)
+    assert(Statsample::Bivariate.prop_pearson(t,n,:left)<0.05)
+  end
+  def test_covariance
+  if HAS_GSL
+    v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
+    v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
+    assert_in_delta(Statsample::Bivariate.covariance(v1,v2), Statsample::Bivariate.covariance_slow(v1,v2), 0.001)
+  end
+  end
+  def test_spearman
+    v1=[86,97,99,100,101,103,106,110,112,113].to_vector(:scale)
+    v2=[0,20,28,27,50,29,7,17,6,12].to_vector(:scale)
+    assert_in_delta(-0.175758,Statsample::Bivariate.spearman(v1,v2),0.0001)
+  end
+  def test_point_biserial
+    c=[1,3,5,6,7,100,200,300,400,300].to_vector(:scale)
+    d=[1,1,1,1,1,0,0,0,0,0].to_vector(:scale)
+    assert_raise TypeError do
+      Statsample::Bivariate.point_biserial(c,d)
     end
-	def test_covariance
-		if HAS_GSL
-			v1=[6,5,4,7,8,4,3,2].to_vector(:scale)
-			v2=[2,3,7,8,6,4,3,2].to_vector(:scale)
-			assert_in_delta(Statsample::Bivariate.covariance(v1,v2), Statsample::Bivariate.covariance_slow(v1,v2), 0.001)
-		end
-	end
-	def test_spearman
-		v1=[86,97,99,100,101,103,106,110,112,113].to_vector(:scale)
-		v2=[0,20,28,27,50,29,7,17,6,12].to_vector(:scale)
-        assert_in_delta(-0.175758,Statsample::Bivariate.spearman(v1,v2),0.0001)
-	end
-	def test_point_biserial
-		c=[1,3,5,6,7,100,200,300,400,300].to_vector(:scale)
-		d=[1,1,1,1,1,0,0,0,0,0].to_vector(:scale)
-		assert_raise TypeError do
-			Statsample::Bivariate.point_biserial(c,d)
-		end
-		assert_in_delta(Statsample::Bivariate.point_biserial(d,c), Statsample::Bivariate.pearson(d,c), 0.0001)
-	end
-	def test_tau
-		v1=[1,2,3,4,5,6,7,8,9,10,11].to_vector(:ordinal)
-		v2=[1,3,4,5,7,8,2,9,10,6,11].to_vector(:ordinal)
-		assert_in_delta(0.6727,Statsample::Bivariate.tau_a(v1,v2),0.001)
-		assert_in_delta(0.6727,Statsample::Bivariate.tau_b((Statsample::Crosstab.new(v1,v2).to_matrix)),0.001)
-		v1=[12,14,14,17,19,19,19,19,19,20,21,21,21,21,21,22,23,24,24,24,26,26,27].to_vector(:ordinal)
-		v2=[11,4,4,2,0,0,0,0,0,0,4,0,4,0,0,0,0,4,0,0,0,0,0].to_vector(:ordinal)
-		assert_in_delta(-0.376201540231705, Statsample::Bivariate.tau_b(Statsample::Crosstab.new(v1,v2).to_matrix),0.001)
-	end
-	def test_gamma
-		m=Matrix[[10,5,2],[10,15,20]]
-		assert_in_delta(0.636,Statsample::Bivariate.gamma(m),0.001)
-		m2=Matrix[[15,12,6,5],[12,8,10,8],[4,6,9,10]]
-		assert_in_delta(0.349,Statsample::Bivariate.gamma(m2),0.001)
-	end
+    assert_in_delta(Statsample::Bivariate.point_biserial(d,c), Statsample::Bivariate.pearson(d,c), 0.0001)
+  end
+  def test_tau
+    v1=[1,2,3,4,5,6,7,8,9,10,11].to_vector(:ordinal)
+    v2=[1,3,4,5,7,8,2,9,10,6,11].to_vector(:ordinal)
+    assert_in_delta(0.6727,Statsample::Bivariate.tau_a(v1,v2),0.001)
+    assert_in_delta(0.6727,Statsample::Bivariate.tau_b((Statsample::Crosstab.new(v1,v2).to_matrix)),0.001)
+    v1=[12,14,14,17,19,19,19,19,19,20,21,21,21,21,21,22,23,24,24,24,26,26,27].to_vector(:ordinal)
+    v2=[11,4,4,2,0,0,0,0,0,0,4,0,4,0,0,0,0,4,0,0,0,0,0].to_vector(:ordinal)
+    assert_in_delta(-0.376201540231705, Statsample::Bivariate.tau_b(Statsample::Crosstab.new(v1,v2).to_matrix),0.001)
+  end
+  def test_gamma
+    m=Matrix[[10,5,2],[10,15,20]]
+    assert_in_delta(0.636,Statsample::Bivariate.gamma(m),0.001)
+    m2=Matrix[[15,12,6,5],[12,8,10,8],[4,6,9,10]]
+    assert_in_delta(0.349,Statsample::Bivariate.gamma(m2),0.001)
+  end
 end

data/test/test_codification.rb CHANGED Viewed

@@ -1,60 +1,81 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
 require 'tempfile'
+require 'tmpdir'
 require 'test/unit'
 class StatsampleCodificationTestCase < Test::Unit::TestCase
-	def initialize(*args)
-        v1=%w{run walk,run walking running sleep sleeping,dreaming sleep,dream}.to_vector
-        @dict={'run'=>'r','walk'=>'w','walking'=>'w','running'=>'r','sleep'=>'s', 'sleeping'=>'s','dream'=>'d','dreaming'=>'d'}
-        @ds={"v1"=>v1}.to_dataset
-		super
-	end
-    def test_create_yaml
-        assert_raise  ArgumentError do
-            Statsample::Codification.create_yaml(@ds,[])
-        end
-        expected_keys_v1=%w{run walk walking running sleep sleeping dream dreaming}.sort
-        yaml_hash=Statsample::Codification.create_yaml(@ds,['v1'])
-        h=YAML::load(yaml_hash)
-        assert_equal(['v1'],h.keys)
-        assert_equal(expected_keys_v1,h['v1'].keys.sort)
-        tf = Tempfile.new("test_codification")
-        yaml_hash=Statsample::Codification.create_yaml(@ds,['v1'],Statsample::SPLIT_TOKEN,tf)
-        tf.close
-        tf.open
-        h=YAML::load(tf)
-        assert_equal(['v1'],h.keys)
-        assert_equal(expected_keys_v1,h['v1'].keys.sort)
-        tf.close(true)
-    end
-    def test_recodification
-        expected=[['r'],['w','r'],['w'],['r'],['s'],['s','d'], ['s','d']]
-        assert_equal(expected,Statsample::Codification.recode_vector(@ds['v1'],@dict))
-        v2=['run','walk,dreaming',nil,'walk,dream,dreaming,walking'].to_vector
-        expected=[['r'],['w','d'],nil,['w','d']]
-        assert_equal(expected,Statsample::Codification.recode_vector(v2,@dict))
-    end
-    def test_recode_dataset_simple
-        yaml=YAML::dump({'v1'=>@dict})
-        Statsample::Codification.recode_dataset_simple!(@ds,yaml)
-        expected_vector=['r','w,r','w','r','s','s,d', 's,d'].to_vector
-        assert_not_equal(expected_vector,@ds['v1'])
-        assert_equal(expected_vector,@ds['v1_recoded'])
-    end
-    def test_recode_dataset_split
-        yaml=YAML::dump({'v1'=>@dict})
-        Statsample::Codification.recode_dataset_split!(@ds,yaml)
-        e={}
-        e['r']=[1,1,0,1,0,0,0].to_vector
-        e['w']=[0,1,1,0,0,0,0].to_vector
-        e['s']=[0,0,0,0,1,1,1].to_vector
-        e['d']=[0,0,0,0,0,1,1].to_vector
-        e.each{|k,expected|
-            assert_equal(expected,@ds['v1_'+k],"Error on key #{k}")
-        }
+  def initialize(*args)
+    v1=%w{run walk,run walking running sleep sleeping,dreaming sleep,dream}.to_vector
+    @dict={'run'=>'r','walk'=>'w','walking'=>'w','running'=>'r','sleep'=>'s', 'sleeping'=>'s', 'dream'=>'d', 'dreaming'=>'d'}
+    @ds={"v1"=>v1}.to_dataset
+  super
+  end
+  def test_create_hash
+    expected_keys_v1=%w{run walk walking running sleep sleeping dream dreaming}.sort
+    hash=Statsample::Codification.create_hash(@ds,['v1'])
+    assert_equal(['v1'],hash.keys)
+    assert_equal(expected_keys_v1,hash['v1'].keys.sort)
+    assert_equal(expected_keys_v1,hash['v1'].values.sort)
+  end
+  def test_create_excel
+    filename=Dir::tmpdir+"/test_excel"+Time.now().to_s+".xls"
+    #filename = Tempfile.new("test_codification_"+Time.now().to_s)
+    Statsample::Codification.create_excel(@ds, ['v1'], filename)
+    field=(["v1"]*8).to_vector
+    keys=%w{dream dreaming run running sleep sleeping walk walking}.to_vector
+    ds=Statsample::Excel.read(filename)
+    assert_equal(field, ds['field'])
+    assert_equal(keys, ds['original'])
+    assert_equal(keys, ds['recoded'])
+    hash=Statsample::Codification.excel_to_recoded_hash(filename)
+    assert_equal(keys.data, hash['v1'].keys.sort)
+    assert_equal(keys.data, hash['v1'].values.sort)
+  end
+  def test_create_yaml
+    assert_raise  ArgumentError do
+        Statsample::Codification.create_yaml(@ds,[])
     end
+    expected_keys_v1=%w{run walk walking running sleep sleeping dream dreaming}.sort
+    yaml_hash=Statsample::Codification.create_yaml(@ds,['v1'])
+    h=YAML::load(yaml_hash)
+    assert_equal(['v1'],h.keys)
+    assert_equal(expected_keys_v1,h['v1'].keys.sort)
+    tf = Tempfile.new("test_codification")
+    yaml_hash=Statsample::Codification.create_yaml(@ds,['v1'],tf, Statsample::SPLIT_TOKEN)
+    tf.close
+    tf.open
+    h=YAML::load(tf)
+    assert_equal(['v1'],h.keys)
+    assert_equal(expected_keys_v1,h['v1'].keys.sort)
+    tf.close(true)
+  end
+  def test_recodification
+    expected=[['r'],['w','r'],['w'],['r'],['s'],['s','d'], ['s','d']]
+    assert_equal(expected,Statsample::Codification.recode_vector(@ds['v1'],@dict))
+    v2=['run','walk,dreaming',nil,'walk,dream,dreaming,walking'].to_vector
+    expected=[['r'],['w','d'],nil,['w','d']]
+    assert_equal(expected,Statsample::Codification.recode_vector(v2,@dict))
+  end
+  def test_recode_dataset_simple
+    Statsample::Codification.recode_dataset_simple!(@ds,{'v1'=>@dict})
+    expected_vector=['r','w,r','w','r','s','s,d', 's,d'].to_vector
+    assert_not_equal(expected_vector,@ds['v1'])
+    assert_equal(expected_vector,@ds['v1_recoded'])
+  end
+  def test_recode_dataset_split
+    Statsample::Codification.recode_dataset_split!(@ds,{'v1'=>@dict})
+    e={}
+    e['r']=[1,1,0,1,0,0,0].to_vector
+    e['w']=[0,1,1,0,0,0,0].to_vector
+    e['s']=[0,0,0,0,1,1,1].to_vector
+    e['d']=[0,0,0,0,0,1,1].to_vector
+    e.each{|k,expected|
+        assert_equal(expected,@ds['v1_'+k],"Error on key #{k}")
+    }
+  end
 end

data/test/test_dataset.rb CHANGED Viewed

@@ -356,7 +356,7 @@ class StatsampleDatasetTestCase < Test::Unit::TestCase
         assert_equal(vmult,ds.compute("v1*v2"))
     end
-        def test_crosstab_with_asignation
+    def test_crosstab_with_asignation
       v1=%w{a a a b b b c c c}.to_vector
       v2=%w{a b c a b c a b c}.to_vector
       v3=%w{0 1 0 0 1 1 0 0 1}.to_scale
@@ -371,4 +371,22 @@ class StatsampleDatasetTestCase < Test::Unit::TestCase
       ds2={'_id'=>ev_id, 'a'=>ev_a, 'b'=>ev_b, 'c'=>ev_c}.to_dataset
       assert_equal(ds, ds2)
     end
+    def test_one_to_many
+      cases=[
+        ['1','george','red',10,'blue',20,nil,nil],
+        ['2','fred','green',15,'orange',30,'white',20],
+        ['3','alfred',nil,nil,nil,nil,nil,nil]
+      ]
+      ds=Statsample::Dataset.new(%w{id name car_color1 car_value1 car_color2 car_value2 car_color3 car_value3})
+      cases.each {|c| ds.add_case_array c }
+      ds.update_valid_data
+      ids=%w{1 1 2 2 2}.to_vector
+      colors=%w{red blue green orange white}.to_vector
+      values=[10,20,15,30,20].to_vector
+      col_ids=[1,2,1,2,3].to_scale
+      ds_expected={'id'=>ids, '_col_id'=>col_ids, 'color'=>colors, 'value'=>values}.to_dataset(['id','_col_id', 'color','value'])
+      assert_equal(ds_expected, ds.one_to_many(%w{id}, "car_%v%n"))
+    end
 end

data/test/test_factor.rb ADDED Viewed

@@ -0,0 +1,44 @@
+$:.unshift(File.dirname(__FILE__)+'/../lib/')
+require 'statsample'
+require 'test/unit'
+require 'matrix_extension'
+class StatsampleFactorTestCase < Test::Unit::TestCase
+    def test_pca
+      require 'gsl'
+      a=[2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2.0, 1.0, 1.5, 1.1].to_scale
+      b=[2.4,0.7,2.9,2.2,3.0,2.7,1.6,1.1,1.6,0.9].to_scale
+      a.recode! {|c| c-a.mean}
+      b.recode! {|c| c-b.mean}
+      ds={'a'=>a,'b'=>b}.to_dataset
+      cov_matrix=Statsample::Bivariate.covariance_matrix(ds)
+      pca=Statsample::Factor::PCA.new(cov_matrix)
+      expected_eigenvalues=[1.284, 0.0490]
+      expected_eigenvalues.each_with_index{|ev,i|
+        assert_in_delta(ev,pca.eigenvalues[i],0.001)
+      }
+      expected_fm_1=GSL::Matrix[[0.677], [0.735]]
+      expected_fm_2=GSL::Matrix[[0.677,0.735], [0.735, -0.677]]
+      _test_matrix(expected_fm_1,pca.feature_vector(1))
+      _test_matrix(expected_fm_2,pca.feature_vector(2))
+    end
+    def test_rotation_varimax
+      a = Matrix[ [ 0.4320,  0.8129,  0.3872]  ,
+       [0.7950, -0.5416,  0.2565]  ,
+       [0.5944,  0.7234, -0.3441],
+       [0.8945, -0.3921, -0.1863] ]
+       expected= Matrix[[-0.0204423,     0.938674,    -0.340334],
+       [0.983662, 0.0730206, 0.134997],
+       [0.0826106, 0.435975, -0.893379],
+       [0.939901, -0.0965213, -0.309596]].to_gsl
+       varimax=Statsample::Factor::Varimax.new(a)
+       varimax.iterate
+       _test_matrix(expected,varimax.rotated)
+    end
+    def _test_matrix(a,b)
+      a.size1.times {|i|
+        a.size2.times {|j|
+          assert_in_delta(a[i,j], b[i,j],0.001)
+        }
+      }
+    end
+end