RubyGems - statsample - Versions diffs - 0.4.1 → 0.5.0 - Mend

statsample 0.4.1 → 0.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (26) hide show

data/History.txt +4 -0
data/Manifest.txt +3 -1
data/lib/statsample.rb +175 -179
data/lib/statsample/codification.rb +1 -1
data/lib/statsample/converter/csv18.rb +56 -0
data/lib/statsample/converter/csv19.rb +60 -0
data/lib/statsample/converters.rb +26 -75
data/lib/statsample/dataset.rb +38 -29
data/lib/statsample/dominanceanalysis.rb +6 -6
data/lib/statsample/graph/gdchart.rb +2 -1
data/lib/statsample/graph/svggraph.rb +10 -9
data/lib/statsample/multiset.rb +3 -3
data/lib/statsample/regression/multiple.rb +43 -271
data/lib/statsample/regression/multiple/baseengine.rb +235 -0
data/lib/statsample/regression/multiple/gslengine.rb +2 -2
data/lib/statsample/vector.rb +754 -736
data/test/test_csv.rb +3 -4
data/test/test_dataset.rb +22 -3
data/test/test_distribution.rb +4 -3
data/test/test_ggobi.rb +2 -2
data/test/test_regression.rb +11 -2
data/test/test_svg_graph.rb +0 -1
data/test/test_vector.rb +50 -5
data/test/test_xls.rb +2 -4
metadata +5 -3
data/test/_test_chart.rb +0 -58

data/test/test_csv.rb CHANGED Viewed

@@ -1,13 +1,12 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
-	require 'tmpdir'
+require 'tmpdir'
 require 'test/unit'
 class StatsampleCSVTestCase < Test::Unit::TestCase
-	def initialize(*args)
+    def setup
         @ds=Statsample::CSV.read(File.dirname(__FILE__)+"/test_csv.csv")
-		super
-	end
+    end
     def test_read
         assert_equal(6,@ds.cases)
         assert_equal(%w{id name age city a1},@ds.fields)

data/test/test_dataset.rb CHANGED Viewed

@@ -1,18 +1,24 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
 require 'test/unit'
+require 'tmpdir'
 class StatsampleDatasetTestCase < Test::Unit::TestCase
-	def initialize(*args)
+	def setup
         @ds=Statsample::Dataset.new({'id' => Statsample::Vector.new([1,2,3,4,5]), 'name'=>Statsample::Vector.new(%w{Alex Claude Peter Franz George}), 'age'=>Statsample::Vector.new([20,23,25,27,5]),
         'city'=>Statsample::Vector.new(['New York','London','London','Paris','Tome']),
         'a1'=>Statsample::Vector.new(['a,b','b,c','a',nil,'a,b,c'])}, ['id','name','age','city','a1'])
-		super
 	end
     def test_basic
         assert_equal(5,@ds.cases)
         assert_equal(%w{id name age city a1}, @ds.fields)
     end
+    def test_saveload
+            outfile=Dir::tmpdir+"/dataset.ds"
+            @ds.save(outfile)
+            a=Statsample.load(outfile)
+            assert_equal(@ds,a)
+    end
     def test_matrix
         matrix=Matrix[[1,2],[3,4],[5,6]]
         ds=Statsample::Dataset.new('v1'=>[1,3,5].to_vector,'v2'=>[2,4,6].to_vector)
@@ -250,6 +256,19 @@ class StatsampleDatasetTestCase < Test::Unit::TestCase
             @ds.from_to("name","a2")
         end
     end
+        def test_each_array_with_nils
+            v1=[1,-99,3,4,"na"].to_vector(:scale,:missing_values=>[-99,"na"])
+            v2=[5,6,-99,8,20].to_vector(:scale,:missing_values=>[-99])
+            v3=[9,10,11,12,20].to_vector(:scale,:missing_values=>[-99])
+            ds1=Statsample::Dataset.new({'v1'=>v1,'v2'=>v2,'v3'=>v3})
+            ds2=ds1.dup_empty
+            ds1.each_array_with_nils {|row|
+                ds2.add_case_array(row)
+            }
+            ds2.update_valid_data
+            assert_equal([1,nil,3,4,nil],ds2['v1'].data)
+            assert_equal([5,6,nil,8,20],ds2['v2'].data)
+        end
     def test_dup_only_valid
         v1=[1,nil,3,4].to_vector(:scale)
         v2=[5,6,nil,8].to_vector(:scale)

data/test/test_distribution.rb CHANGED Viewed

@@ -33,9 +33,10 @@ class DistributionTestCase < Test::Unit::TestCase
     def test_normal
         if !NOT_GSL
             [-2,0.1,0.5,1,2].each{|x|
-                    area=Distribution::Normal.cdf(x)
-                    assert_in_delta(area, GSL::Cdf.ugaussian_P(x),0.0001)
-                    assert_in_delta(Distribution::Normal.p_value(area), GSL::Cdf.ugaussian_Pinv(area),0.0001)
+                area=Distribution::Normal.cdf(x)
+                assert_in_delta(area, GSL::Cdf.ugaussian_P(x),0.0001)
+                assert_in_delta(Distribution::Normal.p_value(area), GSL::Cdf.ugaussian_Pinv(area),0.0001)
+                assert_in_delta(Distribution::Normal.pdf(x), GSL::Ran::ugaussian_pdf(x),0.0001)
             }
         end
     end

data/test/test_ggobi.rb CHANGED Viewed

@@ -13,8 +13,8 @@ class StatsampleGGobiTestCase < Test::Unit::TestCase
 		@ds={'v1'=>v1,'v2'=>@v2,'v3'=>v3}.to_dataset
 	end
 	def test_values_definition
-		a=[1.0,2,"a"]
-		assert_equal("<real>1.0</real> <int>2</int> <string>a</string>",Statsample::GGobi.values_definition(a))
+		a=[1.0,2,"a",nil]
+		assert_equal("1.0 2 a NA", Statsample::GGobi.values_definition(a,"NA"))
 	end
 	def test_variable_definition
 		carrier=OpenStruct.new

data/test/test_regression.rb CHANGED Viewed

@@ -120,13 +120,22 @@ class StatsampleRegressionTestCase < Test::Unit::TestCase
         model_test(lr)
         predicted=[nil,1.7857, 6.0989, 3.2433, 7.2908, 4.9667, 10.3428, 8.8158, 10.4717, 23.6639, 25.3198]
         c_predicted = lr.predicted
         predicted.each_index{|i|
-            assert_in_delta(predicted[i],c_predicted[i],0.001)
+            if c_predicted[i].nil?
+                assert(predicted[i].nil?)
+            else
+            assert_in_delta(predicted[i], c_predicted[i], 0.001)
+            end
         }
         residuals=[nil,1.2142, -2.0989, 1.7566, -1.29085, 2.033, -2.3428, 0.18414, -0.47177, -3.66395, 4.6801]
         c_residuals=lr.residuals
         residuals.each_index{|i|
-            assert_in_delta(residuals[i],c_residuals[i],0.001)
+            if c_residuals[i].nil?
+                assert(residuals[i].nil?)
+            else
+                assert_in_delta(residuals[i],c_residuals[i],0.001)
+            end
         }
     end
     def test_ds_by_exp

data/test/test_svg_graph.rb CHANGED Viewed

@@ -38,7 +38,6 @@ class StatsampleSvgGraphTestCase < Test::Unit::TestCase
 		vector=ar.to_vector
         file=@image_path+"/svggraph_default.svg"
 		vector.svggraph_frequencies(file)
 		file=@image_path+"/svggraph_Bar.svg"
 		vector.svggraph_frequencies(file,800,600,SVG::Graph::Bar,:graph_title=>'Bar')
 		assert(File.exists?(file))

data/test/test_vector.rb CHANGED Viewed

@@ -1,18 +1,43 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
 require 'test/unit'
+require 'tmpdir'
 class StatsampleVectorTestCase < Test::Unit::TestCase
-	def initialize(*args)
-		super
+    def setup
 		@c = Statsample::Vector.new([5,5,5,5,5,6,6,7,8,9,10,1,2,3,4,nil,-99,-99], :nominal)
 		@c.missing_values=[-99]
-	end
+    end
+    def test_save_load
+        outfile=Dir::tmpdir+"/vector.vec"
+        @c.save(outfile)
+        a=Statsample.load(outfile)
+        assert_equal(@c,a)
+    end
+    def test_lazy_methods
+        data=[1,2,3,4,5,nil]
+        correct=Statsample::Vector.new(data,:scale)
+        lazy1=data.to_vector(:scale)
+        lazy2=data.to_scale
+        assert_equal(correct,lazy1)
+        assert_equal(correct,lazy2)
+        assert_equal(:scale,lazy2.type)
+        assert_equal([1,2,3,4,5],lazy2.valid_data)
+    end
     def test_enumerable
         val=@c.collect {|v| v}
         assert_equal(val,[5,5,5,5,5,6,6,7,8,9,10,1,2,3,4,nil,-99,-99])
     end
+    def test_recode
+        a=@c.recode{|v| @c.is_valid?(v) ? 0 : 1 }
+        exp=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1].to_vector
+        assert_equal(exp,a)
+        exp.recode!{|v| v==0 ? 1:0}
+        exp2=(([1]*15)+([0]*3)).to_vector
+        assert_equal(exp2,exp)
+    end
     def test_product
         a=[1,2,3,4,5].to_vector(:scale)
         assert_equal(120,a.product)
@@ -205,7 +230,27 @@ class StatsampleVectorTestCase < Test::Unit::TestCase
         assert_equal(@c.valid_data.to_a.sort, @c.sample_without_replacement(15).sort)
     end
+    def test_valid_data
+        a=Statsample::Vector.new([1,2,3,4,"STRING"])
+        a.missing_values=[-99]
+        a.add(1,false)
+        a.add(2,false)
+        a.add(-99,false)
+        a.set_valid_data
+        exp_valid_data=[1,2,3,4,"STRING",1,2]
+        assert_equal(exp_valid_data,a.valid_data)
+        a.add(20,false)
+        a.add(30,false)
+        assert_equal(exp_valid_data,a.valid_data)
+        a.set_valid_data
+        exp_valid_data_2=[1,2,3,4,"STRING",1,2,20,30]
+        assert_equal(exp_valid_data_2,a.valid_data)
+    end
+    def test_set_value
+        @c[2]=10
+        expected=[5,5,10,5,5,6,6,7,8,9,10,1,2,3,4,nil,-99,-99].to_vector
+        assert_equal(expected.data,@c.data)
+    end
     def test_gsl
 		if HAS_GSL
 			a=Statsample::Vector.new([1,2,3,4,"STRING"], :scale)

data/test/test_xls.rb CHANGED Viewed

@@ -8,11 +8,9 @@ rescue LoadError
 	puts "You should install spreadsheet (gem install spreadsheet)"
 end
 class StatsampleExcelTestCase < Test::Unit::TestCase
-	def initialize(*args)
+    def setup
         @ds=Statsample::Excel.read(File.dirname(__FILE__)+"/test_xls.xls")
-		super
-	end
+    end
     def test_read
         assert_equal(6,@ds.cases)
         assert_equal(%w{id name age city a1},@ds.fields)

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: statsample
 version: !ruby/object:Gem::Version
-  version: 0.4.1
+  version: 0.5.0
 platform: ruby
 authors:
 - Claudio Bustos
@@ -9,7 +9,7 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2009-09-12 00:00:00 -04:00
+date: 2009-09-26 00:00:00 -04:00
 default_executable:
 dependencies:
 - !ruby/object:Gem::Dependency
@@ -91,6 +91,8 @@ files:
 - lib/statsample/bivariate.rb
 - lib/statsample/codification.rb
 - lib/statsample/combination.rb
+- lib/statsample/converter/csv18.rb
+- lib/statsample/converter/csv19.rb
 - lib/statsample/converters.rb
 - lib/statsample/crosstab.rb
 - lib/statsample/dataset.rb
@@ -113,6 +115,7 @@ files:
 - lib/statsample/regression/binomial/probit.rb
 - lib/statsample/regression/multiple.rb
 - lib/statsample/regression/multiple/alglibengine.rb
+- lib/statsample/regression/multiple/baseengine.rb
 - lib/statsample/regression/multiple/gslengine.rb
 - lib/statsample/regression/multiple/rubyengine.rb
 - lib/statsample/regression/simple.rb
@@ -124,7 +127,6 @@ files:
 - po/es/statsample.po
 - po/statsample.pot
 - setup.rb
-- test/_test_chart.rb
 - test/test_anova.rb
 - test/test_codification.rb
 - test/test_combination.rb

data/test/_test_chart.rb DELETED Viewed

@@ -1,58 +0,0 @@
-require File.dirname(__FILE__)+'/../lib/statsample'
-require 'tempfile'
-require 'test/unit'
-require 'statsample/chart/gdchart'
-# Not included on default test, because GDChart send a lot of warnings!
-class StatsampleChartTestCase < Test::Unit::TestCase
-	def initialize(*args)
-		@image_path=File.dirname(__FILE__)+"/images"
-		super
-	end
-	def test_base_chart
-		file=@image_path+"/gdchart_base_bar_1.jpg"
-		width=500
-		height=300
-		chart_type=GDChart::BAR
-		labels=["a","b","c","d","e"]
-		options={'set_color'=>[0xFF3399]}
-		n_data=1
-		data=[10,40,30,20,40]
-		Statsample::Util.chart_gdchart(file,width,height,chart_type, labels, options,n_data,data)
-		assert(File.exists?(file))
-		%w{STACK_DEPTH STACK_SUM STACK_BESIDE STACK_LAYER}.each{|stack|
-			file=@image_path+"/gdchart_base_bar_2_#{stack}.jpg"
-			n_data=2
-			options={'set_color'=>[0xFF3399,0x33FF99,0xFF99FF,0xFF3399], 'stack_type'=>GDChart.const_get(stack.intern),'title'=>"Bar #{stack}"}
-			chart_type=GDChart::BAR
-			data=[10,15,10,20,30,30,20,5,15,20]
-			Statsample::Util.chart_gdchart(file,width,height,chart_type, labels, options,n_data,data)
-			assert(File.exists?(file))
-		}
-	end
-    def test_vector
-		file=@image_path+"/gdchart_bar.jpg"
-		ar=[]
-		(1..1000).each {|a|
-			ar.push(rand(10))
-		}
-		vector=ar.to_vector
-		file=@image_path+"/gdchart_bar.jpg"
-		vector.gdchart_frequencies(file,800,600,GDChart::BAR,'title'=>'Bar')
-		assert(File.exists?(file))
-		file=@image_path+"/gdchart_bar3d.jpg"
-		vector.gdchart_frequencies(file,300,100,GDChart::BAR3D,'title'=>'Bar3D')
-		assert(File.exists?(file))
-		file=@image_path+"/gdchart_floatingbar.jpg"
-		vector.gdchart_frequencies(file,200,200,GDChart::LINE,'title'=>'FloatingBar')
-		assert(File.exists?(file))
-		vector.type=:scale
-		file=@image_path+"/gdchart_histogram.jpg"
-		vector.gdchart_histogram(5,file,300,400,GDChart::BAR,'title'=>'Histogram')
-		assert(File.exists?(file))
-	end
-end