RubyGems - statsample-ekatena - Versions diffs - 2.0.2 - Mend

statsample-ekatena 2.0.2

Files changed (156) hide show

checksums.yaml +7 -0
data/.gitignore +15 -0
data/.travis.yml +23 -0
data/CONTRIBUTING.md +17 -0
data/Gemfile +2 -0
data/History.txt +457 -0
data/LICENSE.txt +12 -0
data/README.md +175 -0
data/Rakefile +44 -0
data/benchmarks/correlation_matrix_15_variables.rb +32 -0
data/benchmarks/correlation_matrix_5_variables.rb +33 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.ds +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.html +93 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.rb +71 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.xls +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_gsl_ruby.ods +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_with_graphics.ods +0 -0
data/benchmarks/correlation_matrix_methods/results.ds +0 -0
data/benchmarks/factor_map.rb +37 -0
data/benchmarks/helpers_benchmark.rb +5 -0
data/data/locale/es/LC_MESSAGES/statsample.mo +0 -0
data/doc_latex/manual/equations.tex +78 -0
data/examples/boxplot.rb +28 -0
data/examples/chisquare_test.rb +23 -0
data/examples/correlation_matrix.rb +32 -0
data/examples/dataset.rb +30 -0
data/examples/dominance_analysis.rb +33 -0
data/examples/dominance_analysis_bootstrap.rb +32 -0
data/examples/histogram.rb +26 -0
data/examples/icc.rb +24 -0
data/examples/levene.rb +29 -0
data/examples/multiple_regression.rb +20 -0
data/examples/multivariate_correlation.rb +33 -0
data/examples/parallel_analysis.rb +40 -0
data/examples/polychoric.rb +40 -0
data/examples/principal_axis.rb +26 -0
data/examples/reliability.rb +31 -0
data/examples/scatterplot.rb +25 -0
data/examples/t_test.rb +27 -0
data/examples/tetrachoric.rb +17 -0
data/examples/u_test.rb +24 -0
data/examples/vector.rb +20 -0
data/examples/velicer_map_test.rb +46 -0
data/grab_references.rb +29 -0
data/lib/spss.rb +134 -0
data/lib/statsample-ekatena/analysis.rb +100 -0
data/lib/statsample-ekatena/analysis/suite.rb +89 -0
data/lib/statsample-ekatena/analysis/suitereportbuilder.rb +44 -0
data/lib/statsample-ekatena/anova.rb +24 -0
data/lib/statsample-ekatena/anova/contrast.rb +79 -0
data/lib/statsample-ekatena/anova/oneway.rb +187 -0
data/lib/statsample-ekatena/anova/twoway.rb +207 -0
data/lib/statsample-ekatena/bivariate.rb +406 -0
data/lib/statsample-ekatena/bivariate/pearson.rb +54 -0
data/lib/statsample-ekatena/codification.rb +182 -0
data/lib/statsample-ekatena/converter/csv.rb +28 -0
data/lib/statsample-ekatena/converter/spss.rb +48 -0
data/lib/statsample-ekatena/converters.rb +211 -0
data/lib/statsample-ekatena/crosstab.rb +188 -0
data/lib/statsample-ekatena/daru.rb +115 -0
data/lib/statsample-ekatena/dataset.rb +10 -0
data/lib/statsample-ekatena/dominanceanalysis.rb +425 -0
data/lib/statsample-ekatena/dominanceanalysis/bootstrap.rb +232 -0
data/lib/statsample-ekatena/factor.rb +104 -0
data/lib/statsample-ekatena/factor/map.rb +124 -0
data/lib/statsample-ekatena/factor/parallelanalysis.rb +166 -0
data/lib/statsample-ekatena/factor/pca.rb +242 -0
data/lib/statsample-ekatena/factor/principalaxis.rb +243 -0
data/lib/statsample-ekatena/factor/rotation.rb +198 -0
data/lib/statsample-ekatena/formula/fit_model.rb +46 -0
data/lib/statsample-ekatena/formula/formula.rb +306 -0
data/lib/statsample-ekatena/graph.rb +11 -0
data/lib/statsample-ekatena/graph/boxplot.rb +236 -0
data/lib/statsample-ekatena/graph/histogram.rb +198 -0
data/lib/statsample-ekatena/graph/scatterplot.rb +213 -0
data/lib/statsample-ekatena/histogram.rb +180 -0
data/lib/statsample-ekatena/matrix.rb +329 -0
data/lib/statsample-ekatena/multiset.rb +310 -0
data/lib/statsample-ekatena/regression.rb +65 -0
data/lib/statsample-ekatena/regression/multiple.rb +89 -0
data/lib/statsample-ekatena/regression/multiple/alglibengine.rb +128 -0
data/lib/statsample-ekatena/regression/multiple/baseengine.rb +251 -0
data/lib/statsample-ekatena/regression/multiple/gslengine.rb +129 -0
data/lib/statsample-ekatena/regression/multiple/matrixengine.rb +205 -0
data/lib/statsample-ekatena/regression/multiple/rubyengine.rb +86 -0
data/lib/statsample-ekatena/regression/simple.rb +121 -0
data/lib/statsample-ekatena/reliability.rb +150 -0
data/lib/statsample-ekatena/reliability/icc.rb +415 -0
data/lib/statsample-ekatena/reliability/multiscaleanalysis.rb +181 -0
data/lib/statsample-ekatena/reliability/scaleanalysis.rb +233 -0
data/lib/statsample-ekatena/reliability/skillscaleanalysis.rb +114 -0
data/lib/statsample-ekatena/resample.rb +15 -0
data/lib/statsample-ekatena/shorthand.rb +125 -0
data/lib/statsample-ekatena/srs.rb +169 -0
data/lib/statsample-ekatena/test.rb +82 -0
data/lib/statsample-ekatena/test/bartlettsphericity.rb +45 -0
data/lib/statsample-ekatena/test/chisquare.rb +73 -0
data/lib/statsample-ekatena/test/f.rb +52 -0
data/lib/statsample-ekatena/test/kolmogorovsmirnov.rb +63 -0
data/lib/statsample-ekatena/test/levene.rb +88 -0
data/lib/statsample-ekatena/test/t.rb +309 -0
data/lib/statsample-ekatena/test/umannwhitney.rb +208 -0
data/lib/statsample-ekatena/test/wilcoxonsignedrank.rb +90 -0
data/lib/statsample-ekatena/vector.rb +19 -0
data/lib/statsample-ekatena/version.rb +3 -0
data/lib/statsample.rb +282 -0
data/po/es/statsample.mo +0 -0
data/po/es/statsample.po +959 -0
data/po/statsample.pot +947 -0
data/references.txt +24 -0
data/statsample-ekatena.gemspec +49 -0
data/test/fixtures/bank2.dat +200 -0
data/test/fixtures/correlation_matrix.rb +17 -0
data/test/fixtures/df.csv +15 -0
data/test/fixtures/hartman_23.matrix +9 -0
data/test/fixtures/stock_data.csv +500 -0
data/test/fixtures/tetmat_matrix.txt +5 -0
data/test/fixtures/tetmat_test.txt +1001 -0
data/test/helpers_tests.rb +83 -0
data/test/test_analysis.rb +176 -0
data/test/test_anova_contrast.rb +36 -0
data/test/test_anovaoneway.rb +26 -0
data/test/test_anovatwoway.rb +37 -0
data/test/test_anovatwowaywithdataset.rb +47 -0
data/test/test_anovawithvectors.rb +102 -0
data/test/test_awesome_print_bug.rb +16 -0
data/test/test_bartlettsphericity.rb +25 -0
data/test/test_bivariate.rb +164 -0
data/test/test_codification.rb +78 -0
data/test/test_crosstab.rb +67 -0
data/test/test_dominance_analysis.rb +39 -0
data/test/test_factor.rb +228 -0
data/test/test_factor_map.rb +38 -0
data/test/test_factor_pa.rb +56 -0
data/test/test_fit_model.rb +88 -0
data/test/test_ggobi.rb +35 -0
data/test/test_gsl.rb +15 -0
data/test/test_histogram.rb +109 -0
data/test/test_matrix.rb +48 -0
data/test/test_multiset.rb +176 -0
data/test/test_regression.rb +231 -0
data/test/test_reliability.rb +223 -0
data/test/test_reliability_icc.rb +198 -0
data/test/test_reliability_skillscale.rb +57 -0
data/test/test_resample.rb +24 -0
data/test/test_srs.rb +9 -0
data/test/test_statistics.rb +69 -0
data/test/test_stest.rb +69 -0
data/test/test_stratified.rb +17 -0
data/test/test_test_f.rb +33 -0
data/test/test_test_kolmogorovsmirnov.rb +34 -0
data/test/test_test_t.rb +62 -0
data/test/test_umannwhitney.rb +27 -0
data/test/test_vector.rb +12 -0
data/test/test_wilcoxonsignedrank.rb +64 -0
metadata +570 -0

data/test/test_awesome_print_bug.rb ADDED

@@ -0,0 +1,16 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleAwesomePrintBug < Minitest::Test
+  context('Awesome Print integration') do
+    setup do
+      require 'awesome_print'
+    end
+    should 'should be flawless' do
+      a = Daru::Vector.new([1, 2, 3])
+      assert(a != [1, 2, 3])
+      assert_nothing_raised do
+        ap a
+      end
+    end
+  end
+end

data/test/test_bartlettsphericity.rb ADDED

@@ -0,0 +1,25 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleBartlettSphericityTestCase < Minitest::Test
+  include Statsample::Test
+  context Statsample::Test::BartlettSphericity do
+    setup do
+      @v1 = Daru::Vector.new([1, 2, 3, 4, 7, 8, 9, 10, 14, 15, 20, 50, 60, 70])
+      @v2 = Daru::Vector.new([5, 6, 11, 12, 13, 16, 17, 18, 19, 20, 30, 0, 0, 0])
+      @v3 = Daru::Vector.new([10, 3, 20, 30, 40, 50, 80, 10, 20, 30, 40, 2, 3, 4])
+      # KMO: 0.490
+      ds = Daru::DataFrame.new({ :v1 => @v1, :v2 => @v2, :v3 => @v3 })
+      cor = Statsample::Bivariate.correlation_matrix(ds)
+      @bs = Statsample::Test::BartlettSphericity.new(cor, 14)
+    end
+    should 'have correct value for chi' do
+      assert_in_delta(9.477, @bs.value, 0.001)
+    end
+    should 'have correct value for df' do
+      assert_equal(3, @bs.df)
+    end
+    should 'have correct value for probability' do
+      assert_in_delta(0.024, @bs.probability, 0.001)
+    end
+  end
+end

data/test/test_bivariate.rb ADDED

@@ -0,0 +1,164 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleBivariateTestCase < Minitest::Test
+  should 'method sum of squares should be correct' do
+    v1 = Daru::Vector.new([1, 2, 3, 4, 5, 6])
+    v2 = Daru::Vector.new([6, 2, 4, 10, 12, 8])
+    assert_equal(23.0, Statsample::Bivariate.sum_of_squares(v1, v2))
+  end
+  should_with_gsl 'return same covariance with ruby and gls implementation' do
+    v1 = Daru::Vector.new(20.times.collect { |_a| rand })
+    v2 = Daru::Vector.new(20.times.collect { |_a| rand })
+    assert_in_delta(Statsample::Bivariate.covariance(v1, v2), Statsample::Bivariate.covariance_slow(v1, v2), 0.001)
+  end
+  should_with_gsl 'return same correlation with ruby and gls implementation' do
+    v1 = Daru::Vector.new(20.times.collect { |_a| rand })
+    v2 = Daru::Vector.new(20.times.collect { |_a| rand })
+    assert_in_delta(GSL::Stats.correlation(v1.to_gsl, v2.to_gsl), Statsample::Bivariate.pearson_slow(v1, v2), 1e-10)
+  end
+  should 'return correct pearson correlation' do
+    v1 = Daru::Vector.new([6, 5, 4, 7, 8, 4, 3, 2])
+    v2 = Daru::Vector.new([2, 3, 7, 8, 6, 4, 3, 2])
+    assert_in_delta(0.525, Statsample::Bivariate.pearson(v1, v2), 0.001)
+    assert_in_delta(0.525, Statsample::Bivariate.pearson_slow(v1, v2), 0.001)
+    v3 = Daru::Vector.new([6, 2,  1000, 1000, 5, 4, 7, 8, 4, 3, 2, nil])
+    v4 = Daru::Vector.new([2, nil, nil, nil,  3, 7, 8, 6, 4, 3, 2, 500])
+    assert_in_delta(0.525, Statsample::Bivariate.pearson(v3, v4), 0.001)
+    # Test ruby method
+    v3a, v4a = Statsample.only_valid v3, v4
+    assert_in_delta(0.525, Statsample::Bivariate.pearson_slow(v3a, v4a), 0.001)
+  end
+  should 'return correct values for t_pearson and prop_pearson' do
+    v1 = Daru::Vector.new([6, 5, 4, 7, 8, 4, 3, 2])
+    v2 = Daru::Vector.new([2, 3, 7, 8, 6, 4, 3, 2])
+    r = Statsample::Bivariate::Pearson.new(v1, v2)
+    assert_in_delta(0.525, r.r, 0.001)
+    assert_in_delta(Statsample::Bivariate.t_pearson(v1, v2), r.t, 0.001)
+    assert_in_delta(Statsample::Bivariate.prop_pearson(r.t, 8, :both), r.probability, 0.001)
+    assert(r.summary.size > 0)
+  end
+  should 'return correct correlation_matrix with nils values' do
+    v1 = Daru::Vector.new([6, 5, 4, 7, 8, 4, 3, 2])
+    v2 = Daru::Vector.new([2, 3, 7, 8, 6, 4, 3, 2])
+    v3 = Daru::Vector.new([6, 2,  1000, 1000, 5, 4, 7, 8])
+    v4 = Daru::Vector.new([2, nil, nil, nil,  3, 7, 8, 6])
+    ds = Daru::DataFrame.new({ :v1 => v1, :v2 => v2, :v3 => v3, :v4 => v4 })
+    c = proc { |n1, n2| Statsample::Bivariate.pearson(n1, n2) }
+    expected = Matrix[[c.call(v1, v1), c.call(v1, v2), c.call(v1, v3), c.call(v1, v4)], [c.call(v2, v1), c.call(v2, v2), c.call(v2, v3), c.call(v2, v4)], [c.call(v3, v1), c.call(v3, v2), c.call(v3, v3), c.call(v3, v4)],
+                      [c.call(v4, v1), c.call(v4, v2), c.call(v4, v3), c.call(v4, v4)]
+    ]
+    obt = Statsample::Bivariate.correlation_matrix(ds)
+    for i in 0...expected.row_size
+      for j in 0...expected.column_size
+        # puts expected[i,j].inspect
+        # puts obt[i,j].inspect
+        assert_in_delta(expected[i, j], obt[i, j], 0.0001, "#{expected[i, j].class}!=#{obt[i, j].class}  ")
+      end
+    end
+    # assert_equal(expected,obt)
+  end
+  should_with_gsl 'return same values for optimized and pairwise covariance matrix' do
+    cases = 100
+    v1 = Daru::Vector.new_with_size(cases) { rand }
+    v2 = Daru::Vector.new_with_size(cases) { rand }
+    v3 = Daru::Vector.new_with_size(cases) { rand }
+    v4 = Daru::Vector.new_with_size(cases) { rand }
+    v5 = Daru::Vector.new_with_size(cases) { rand }
+    ds = Daru::DataFrame.new({ :v1 => v1, :v2 => v2, :v3 => v3, :v4 => v4, :v5 => v5 })
+    cor_opt = Statsample::Bivariate.covariance_matrix_optimized(ds)
+    cor_pw = Statsample::Bivariate.covariance_matrix_pairwise(ds)
+    assert_equal_matrix(cor_opt, cor_pw, 1e-15)
+  end
+  should_with_gsl 'return same values for optimized and pairwise correlation matrix' do
+    cases = 100
+    v1 = Daru::Vector.new_with_size(cases) { rand }
+    v2 = Daru::Vector.new_with_size(cases) { rand }
+    v3 = Daru::Vector.new_with_size(cases) { rand }
+    v4 = Daru::Vector.new_with_size(cases) { rand }
+    v5 = Daru::Vector.new_with_size(cases) { rand }
+    ds = Daru::DataFrame.new({
+      :v1 => v1, :v2 => v2, :v3 => v3, :v4 => v4, :v5 => v5 })
+    cor_opt = Statsample::Bivariate.correlation_matrix_optimized(ds)
+    cor_pw = Statsample::Bivariate.correlation_matrix_pairwise(ds)
+    assert_equal_matrix(cor_opt, cor_pw, 1e-15)
+  end
+  should 'return correct correlation_matrix without nils values' do
+    v1 = Daru::Vector.new([6, 5, 4, 7, 8, 4, 3, 2])
+    v2 = Daru::Vector.new([2, 3, 7, 8, 6, 4, 3, 2])
+    v3 = Daru::Vector.new([6, 2,  1000, 1000, 5, 4, 7, 8])
+    v4 = Daru::Vector.new([2, 4, 6, 7,  3, 7, 8, 6])
+    ds = Daru::DataFrame.new({ :v1 => v1, :v2 => v2, :v3 => v3, :v4 => v4 })
+    c = proc { |n1, n2| Statsample::Bivariate.pearson(n1, n2) }
+    expected = Matrix[[c.call(v1, v1), c.call(v1, v2), c.call(v1, v3), c.call(v1, v4)], [c.call(v2, v1), c.call(v2, v2), c.call(v2, v3), c.call(v2, v4)], [c.call(v3, v1), c.call(v3, v2), c.call(v3, v3), c.call(v3, v4)],
+                      [c.call(v4, v1), c.call(v4, v2), c.call(v4, v3), c.call(v4, v4)]
+    ]
+    obt = Statsample::Bivariate.correlation_matrix(ds)
+    for i in 0...expected.row_size
+      for j in 0...expected.column_size
+        # puts expected[i,j].inspect
+        # puts obt[i,j].inspect
+        assert_in_delta(expected[i, j], obt[i, j], 0.0001, "#{expected[i, j].class}!=#{obt[i, j].class}  ")
+      end
+    end
+    # assert_equal(expected,obt)
+  end
+  should 'return correct value for prop pearson' do
+    assert_in_delta(0.42, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.084, 94), 94), 0.01)
+    assert_in_delta(0.65, Statsample::Bivariate.prop_pearson(Statsample::Bivariate.t_r(0.046, 95), 95), 0.01)
+    r = 0.9
+    n = 100
+    t = Statsample::Bivariate.t_r(r, n)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :both) < 0.05)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :right) < 0.05)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :left) > 0.05)
+    r = -0.9
+    n = 100
+    t = Statsample::Bivariate.t_r(r, n)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :both) < 0.05)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :right) > 0.05)
+    assert(Statsample::Bivariate.prop_pearson(t, n, :left) < 0.05)
+  end
+  should "return correct value for Spearman's rho" do
+    v1 =Daru::Vector.new( [86, 97, 99, 100, 101, 103, 106, 110, 112, 113])
+    v2 =Daru::Vector.new( [0, 20, 28, 27, 50, 29, 7, 17, 6, 12])
+    assert_in_delta(-0.175758, Statsample::Bivariate.spearman(v1, v2), 0.0001)
+  end
+  should 'return correct value for point_biserial correlation' do
+    c = Daru::Vector.new([1, 3, 5, 6, 7, 100, 200, 300, 400, 300])
+    d = Daru::Vector.new([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])
+    assert_raises TypeError do
+      Statsample::Bivariate.point_biserial(c, d)
+    end
+    assert_in_delta(Statsample::Bivariate.point_biserial(d, c), Statsample::Bivariate.pearson(d, c), 0.0001)
+  end
+  should 'return correct value for tau_a and tau_b' do
+    v1 = Daru::Vector.new([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])
+    v2 = Daru::Vector.new([1, 3, 4, 5, 7, 8, 2, 9, 10, 6, 11])
+    assert_in_delta(0.6727, Statsample::Bivariate.tau_a(v1, v2), 0.001)
+    assert_in_delta(0.6727, Statsample::Bivariate.tau_b((Statsample::Crosstab.new(v1, v2).to_matrix)), 0.001)
+    v1 = Daru::Vector.new([12, 14, 14, 17, 19, 19, 19, 19, 19, 20, 21, 21, 21, 21, 21, 22, 23, 24, 24, 24, 26, 26, 27])
+    v2 = Daru::Vector.new([11, 4, 4, 2, 0, 0, 0, 0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4, 0, 0, 0, 0, 0])
+    assert_in_delta(-0.376201540231705, Statsample::Bivariate.tau_b(Statsample::Crosstab.new(v1, v2).to_matrix), 0.001)
+  end
+  should 'return correct value for gamma correlation' do
+    m = Matrix[[10, 5, 2], [10, 15, 20]]
+    assert_in_delta(0.636, Statsample::Bivariate.gamma(m), 0.001)
+    m2 = Matrix[[15, 12, 6, 5], [12, 8, 10, 8], [4, 6, 9, 10]]
+    assert_in_delta(0.349, Statsample::Bivariate.gamma(m2), 0.001)
+  end
+  should 'return correct residuals' do
+    # TODO: test Statsample::Bivariate.residuals
+  end
+end

data/test/test_codification.rb ADDED

@@ -0,0 +1,78 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleCodificationTestCase < Minitest::Test
+  def initialize(*args)
+    v1 = Daru::Vector.new(%w(run walk,run walking running sleep sleeping,dreaming sleep,dream))
+    @dict = { 'run' => 'r', 'walk' => 'w', 'walking' => 'w', 'running' => 'r', 'sleep' => 's', 'sleeping' => 's', 'dream' => 'd', 'dreaming' => 'd' }
+    @ds = Daru::DataFrame.new({ :v1 => v1 })
+    super
+  end
+  def test_create_hash
+    expected_keys_v1 = %w(run walk walking running sleep sleeping dream dreaming).sort
+    hash = Statsample::Codification.create_hash(@ds, [:v1])
+    assert_equal([:v1], hash.keys)
+    assert_equal(expected_keys_v1, hash[:v1].keys.sort)
+    assert_equal(expected_keys_v1, hash[:v1].values.sort)
+  end
+  def test_create_excel
+    filename = Dir.tmpdir + '/test_excel' + Time.now.to_s + '.xls'
+    # filename = Tempfile.new("test_codification_"+Time.now().to_s)
+    Statsample::Codification.create_excel(@ds, ['v1'], filename)
+    field = Daru::Vector.new(['v1'] * 8, name: :field)
+    keys = Daru::Vector.new(%w(dream dreaming run running sleep sleeping walk walking))
+    ds = Daru::DataFrame.from_excel(filename)
+    assert_equal(field, ds[:field])
+    assert_equal(keys, ds[:original])
+    assert_equal(keys, ds[:recoded])
+    hash = Statsample::Codification.excel_to_recoded_hash(filename)
+    assert_equal(keys.to_a, hash[:v1].keys.sort)
+    assert_equal(keys.to_a, hash[:v1].values.sort)
+  end
+  def test_create_yaml
+    assert_raise ArgumentError do
+      Statsample::Codification.create_yaml(@ds, [])
+    end
+    expected_keys_v1 = %w(run walk walking running sleep sleeping dream dreaming).sort
+    yaml_hash = Statsample::Codification.create_yaml(@ds, [:v1])
+    h = YAML.load(yaml_hash)
+    assert_equal([:v1], h.keys)
+    assert_equal(expected_keys_v1, h[:v1].keys.sort)
+    tf = Tempfile.new('test_codification')
+    yaml_hash = Statsample::Codification.create_yaml(@ds, [:v1], tf, Statsample::SPLIT_TOKEN)
+    tf.close
+    tf.open
+    h = YAML.load(tf)
+    assert_equal([:v1], h.keys)
+    assert_equal(expected_keys_v1, h[:v1].keys.sort)
+    tf.close(true)
+  end
+  def test_recodification
+    expected = [['r'], %w(w r), ['w'], ['r'], ['s'], %w(s d), %w(s d)]
+    assert_equal(expected, Statsample::Codification.recode_vector(@ds[:v1], @dict))
+    v2 = Daru::Vector.new(['run', 'walk,dreaming', nil, 'walk,dream,dreaming,walking'])
+    expected = [['r'], %w(w d), nil, %w(w d)]
+    assert_equal(expected, Statsample::Codification.recode_vector(v2, @dict))
+  end
+  def test_recode_dataset_simple
+    Statsample::Codification.recode_dataset_simple!(@ds, :v1 => @dict)
+    expected_vector = Daru::Vector.new(['r', 'w,r', 'w', 'r', 's', 's,d', 's,d'])
+    assert_not_equal(expected_vector, @ds[:v1])
+    assert_equal(expected_vector, @ds[:v1_recoded])
+  end
+  def test_recode_dataset_split
+    Statsample::Codification.recode_dataset_split!(@ds, :v1 => @dict)
+    e = {}
+    e['r'] = Daru::Vector.new([1, 1, 0, 1, 0, 0, 0])
+    e['w'] = Daru::Vector.new([0, 1, 1, 0, 0, 0, 0])
+    e['s'] = Daru::Vector.new([0, 0, 0, 0, 1, 1, 1])
+    e['d'] = Daru::Vector.new([0, 0, 0, 0, 0, 1, 1])
+    e.each { |k, expected|
+      assert_equal(expected, @ds[('v1_' + k).to_sym], "Error on key #{k}")
+    }
+  end
+end

data/test/test_crosstab.rb ADDED

@@ -0,0 +1,67 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleCrosstabTestCase < Minitest::Test
+  def initialize(*args)
+    @v1 =Daru::Vector.new( %w(black blonde black black red black brown black blonde black red black blonde))
+    @v2 =Daru::Vector.new( %w(woman man man woman man man man woman man woman woman man man))
+    @ct = Statsample::Crosstab.new(@v1, @v2)
+    super
+  end
+  def test_crosstab_errors
+    e1 = %w(black blonde black black red black brown black blonde black)
+    assert_raise ArgumentError do
+      Statsample::Crosstab.new(e1, @v2)
+    end
+    e2 = Daru::Vector.new(%w(black blonde black black red black brown black blonde black black))
+    assert_raise ArgumentError do
+      Statsample::Crosstab.new(e2, @v2)
+    end
+    assert_nothing_raised do
+      Statsample::Crosstab.new(@v1, @v2)
+    end
+  end
+  def test_crosstab_basic
+    assert_equal(Daru::Vector.new(%w(black blonde brown red)), @ct.rows_names)
+    assert_equal(Daru::Vector.new(%w(man woman)), @ct.cols_names)
+    assert_equal({ 'black' => 7, 'blonde' => 3, 'red' => 2, 'brown' => 1 }, @ct.rows_total)
+    assert_equal({ 'man' => 8, 'woman' => 5 }, @ct.cols_total)
+  end
+  def test_crosstab_frequencies
+    fq = @ct.frequencies
+    assert_equal(8, fq.size)
+    sum = fq.inject(0) { |s, x| s + x[1] }
+    assert_equal(13, sum)
+    fr = @ct.frequencies_by_row
+    assert_equal(4, fr.size)
+    assert_equal(%w(black blonde brown red), fr.keys.sort)
+    fc = @ct.frequencies_by_col
+    assert_equal(2, fc.size)
+    assert_equal(%w(man woman), fc.keys.sort)
+    assert_equal(Matrix.rows([[3, 4], [3, 0], [1, 0], [1, 1]]), @ct.to_matrix)
+  end
+  def test_summary
+    @ct.percentage_row = true
+    @ct.percentage_column = true
+    @ct.percentage_total = true
+    assert(@ct.summary.size > 0)
+  end
+  def test_expected
+    v1 = Daru::Vector.new(%w(1 1 1 1 1 0 0 0 0 0))
+    v2 = Daru::Vector.new(%w(0 0 0 0 0 1 1 1 1 1))
+    ct = Statsample::Crosstab.new(v1, v2)
+    assert_equal(Matrix[[2.5, 2.5], [2.5, 2.5]], ct.matrix_expected)
+  end
+  def test_crosstab_with_scale
+    v1 = Daru::Vector.new(%w(1 1 1 1 1 0 0 0 0 0))
+    v2 = Daru::Vector.new(%w(0 0 0 0 0 1 1 1 1 1))
+    ct = Statsample::Crosstab.new(v1, v2)
+    assert_equal(Matrix[[0, 5], [5, 0]], ct.to_matrix)
+    assert_nothing_raised { ct.summary }
+  end
+end

data/test/test_dominance_analysis.rb ADDED

@@ -0,0 +1,39 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+class StatsampleDominanceAnalysisTestCase < Minitest::Test
+  def test_dominance_univariate
+    # Example from Budescu (1993)
+    m = Matrix[[1, 0.683, 0.154, 0.460, 0.618], [0.683, 1, -0.050, 0.297, 0.461], [0.154, -0.050, 1, 0.006, 0.262], [0.460, 0.297, 0.006, 1, 0.507], [0.618, 0.461, 0.262, 0.507, 1]]
+    m.extend Statsample::CovariateMatrix
+    m.fields = %w(x1 x2 x3 x4 y)
+    da = Statsample::DominanceAnalysis.new(m, 'y')
+    contr_x1 = { 'x2' => 0.003, 'x3' => 0.028, 'x4' => 0.063 }
+    contr_x1.each  do |k, v|
+      assert_in_delta(v, da.models_data[['x1']].contributions[k], 0.001)
+    end
+    assert_in_delta(0.052, da.models_data[%w(x2 x3 x4)].contributions['x1'], 0.001)
+    expected_dominances = [1, 1, 0.5, 0.5, 0, 0]
+    expected_g_dominances = [1, 1, 1, 1, 0, 0]
+    da.pairs.each_with_index do |a, i|
+      assert_equal(expected_dominances[i], da.total_dominance_pairwise(a[0], a[1]))
+      assert_equal(expected_dominances[i], da.conditional_dominance_pairwise(a[0], a[1]))
+      assert_equal(expected_g_dominances[i], da.general_dominance_pairwise(a[0], a[1]))
+    end
+    assert(da.summary.size > 0)
+  end
+  def test_dominance_multivariate
+    m = Matrix[[1.0, -0.19, -0.358, -0.343, 0.359, 0.257], [-0.19, 1.0, 0.26, 0.29, -0.11, -0.11], [-0.358, 0.26, 1.0, 0.54, -0.49, -0.23], [-0.343, 0.29, 0.54, 1.0, -0.22, -0.41], [0.359, -0.11, -0.49, -0.22, 1.0, 0.62], [0.257, -0.11, -0.23, -0.41, 0.62, 1]]
+    m.extend Statsample::CovariateMatrix
+    m.fields = %w(y1 y2 x1 x2 x3 x4)
+    m2 = m.submatrix(%w(y1 x1 x2 x3 x4))
+    da = Statsample::DominanceAnalysis.new(m, %w(y1 y2), cases: 683, method_association: :p2yx)
+    contr_x1 = { 'x2' => 0.027, 'x3' => 0.024, 'x4' => 0.017 }
+    contr_x1.each  do |k, v|
+      assert_in_delta(v, da.models_data[['x1']].contributions[k], 0.003)
+    end
+  end
+end

data/test/test_factor.rb ADDED

@@ -0,0 +1,228 @@
+require(File.expand_path(File.dirname(__FILE__) + '/helpers_tests.rb'))
+# require 'rserve'
+# require 'statsample/rserve_extension'
+class StatsampleFactorTestCase < Minitest::Test
+  include Statsample::Fixtures
+  # Based on Hardle and Simar
+  def setup
+    @fixtures_dir = File.expand_path(File.dirname(__FILE__) + '/fixtures')
+  end
+  # Based on Hurdle example
+  def test_covariance_matrix
+    ds = Daru::DataFrame.from_plaintext(@fixtures_dir + '/bank2.dat', [:v1,:v2,:v3,:v4,:v5,:v6])
+    ds.vectors.each {|f|
+      ds[f] = ds[f].center
+    }
+    cm = Statsample::Bivariate.covariance_matrix ds
+    pca = Statsample::Factor::PCA.new(cm, m: 6)
+    # puts pca.summary
+    # puts pca.feature_matrix
+    exp_eig = Daru::Vector.new([2.985, 0.931, 0.242, 0.194, 0.085, 0.035])
+    assert_similar_vector(exp_eig, Daru::Vector.new(pca.eigenvalues), 0.1)
+    pcs = pca.principal_components(ds)
+    k = 6
+    comp_matrix = pca.component_matrix
+    k.times {|i|
+      pc_id = "PC_#{i + 1}".to_sym
+      k.times {|j| # variable
+        ds_id = "v#{j + 1}".to_sym
+        r = Statsample::Bivariate.correlation(ds[ds_id], pcs[pc_id])
+        assert_in_delta(r, comp_matrix[j, i])
+      }
+    }
+  end
+  def test_principalcomponents_ruby_gsl
+    if Statsample.has_gsl?
+      ran = Distribution::Normal.rng
+      #    @r=::Rserve::Connection.new
+      samples = 20
+      [3, 5, 7].each {|k|
+        v = {}
+        v[:x0] = Daru::Vector.new(samples.times.map { ran.call }).center
+        (1...k).each { |i|
+          v["x#{i}".to_sym] = Daru::Vector.new(samples.times.map { |ii| ran.call * 0.5 + v["x#{i - 1}".to_sym][ii] * 0.5 }).center
+        }
+        ds = Daru::DataFrame.new(v)
+        cm = Statsample::Bivariate.covariance_matrix ds
+        #      @r.assign('ds',ds)
+        #      @r.eval('cm<-cor(ds);sm<-eigen(cm, sym=TRUE);v<-sm$vectors')
+        #      puts "eigenvalues"
+        #      puts @r.eval('v').to_ruby.to_s
+        pca_ruby = Statsample::Factor::PCA.new(cm, m: k, use_gsl: false)
+        pca_gsl = Statsample::Factor::PCA.new(cm, m: k, use_gsl: true)
+        pc_ruby = pca_ruby.principal_components(ds)
+        pc_gsl  = pca_gsl.principal_components(ds)
+        # Test component matrix correlation!
+        cm_ruby = pca_ruby.component_matrix
+        # puts cm_ruby.summary
+        k.times {|i|
+          pc_id = "PC_#{i + 1}".to_sym
+          assert_in_delta(pca_ruby.eigenvalues[i], pca_gsl.eigenvalues[i], 1e-10)
+          # Revert gsl component values
+          pc_gsl_data = (pc_gsl[pc_id][0] - pc_ruby[pc_id][0]).abs > 1e-6 ? pc_gsl[pc_id].recode(&:-@) : pc_gsl[pc_id]
+          assert_similar_vector(pc_gsl_data, pc_ruby[pc_id], 1e-6, "PC for #{k} variables")
+          if false
+            k.times {|j| # variable
+              ds_id = "x#{j}".to_sym
+              r = Statsample::Bivariate.correlation(ds[ds_id], pc_ruby[pc_id])
+              puts "#{pc_id}-#{ds_id}:#{r}"
+            }
+          end
+        }
+      }
+    end
+    # @r.close
+  end
+  def test_principalcomponents
+    if Statsample.has_gsl?
+      principalcomponents(true)
+    else
+      skip "Require GSL"
+    end
+    principalcomponents(false)
+  end
+  def principalcomponents(gsl)
+    ran = Distribution::Normal.rng
+    samples = 50
+    x1 = Daru::Vector.new(samples.times.map { ran.call })
+    x2 = Daru::Vector.new(samples.times.map { |i| ran.call * 0.5 + x1[i] * 0.5 })
+    ds = Daru::DataFrame.new({ :x1 => x1, :x2 => x2 })
+    cm = Statsample::Bivariate.correlation_matrix ds
+    r = cm[0, 1]
+    pca = Statsample::Factor::PCA.new(cm, m: 2, use_gsl: gsl)
+    assert_in_delta(1 + r, pca.eigenvalues[0], 1e-10)
+    assert_in_delta(1 - r, pca.eigenvalues[1], 1e-10)
+    hs = 1.0 / Math.sqrt(2)
+    assert_equal_vector(Vector[1, 1] * hs, pca.eigenvectors[0])
+    m_1 = gsl ? Vector[-1, 1] : Vector[1, -1]
+    assert_equal_vector(hs * m_1, pca.eigenvectors[1])
+    pcs = pca.principal_components(ds)
+    exp_pc_1 = ds.collect_row_with_index {|row, _i|
+      hs * (row[:x1] + row[:x2])
+    }
+    exp_pc_2 = ds.collect_row_with_index {|row, _i|
+      gsl ? hs * (row[:x2] - row[:x1]) : hs * (row[:x1] - row[:x2])
+    }
+    assert_similar_vector(exp_pc_1, pcs[:PC_1])
+    assert_similar_vector(exp_pc_2, pcs[:PC_2])
+  end
+  def test_antiimage
+    cor = Matrix[[1, 0.964, 0.312], [0.964, 1, 0.411], [0.312, 0.411, 1]]
+    expected = Matrix[[0.062, -0.057, 0.074], [-0.057, 0.057, -0.089], [0.074, -0.089, 0.729]]
+    ai = Statsample::Factor.anti_image_covariance_matrix(cor)
+    assert(Matrix.equal_in_delta?(expected, ai, 0.01), "#{expected} not equal to #{ai}")
+  end
+  def test_kmo
+    @v1 = Daru::Vector.new([1, 2, 3, 4, 7, 8, 9, 10, 14, 15, 20, 50, 60, 70])
+    @v2 = Daru::Vector.new([5, 6, 11, 12, 13, 16, 17, 18, 19, 20, 30, 0, 0, 0])
+    @v3 = Daru::Vector.new([10, 3, 20, 30, 40, 50, 80, 10, 20, 30, 40, 2, 3, 4])
+    # KMO: 0.490
+    ds = Daru::DataFrame.new({ :v1 => @v1, :v2 => @v2, :v3 => @v3 })
+    cor = Statsample::Bivariate.correlation_matrix(ds)
+    kmo = Statsample::Factor.kmo(cor)
+    assert_in_delta(0.667, kmo, 0.001)
+    assert_in_delta(0.81, Statsample::Factor.kmo(harman_817), 0.01)
+  end
+  def test_kmo_univariate
+    m = harman_817
+    expected = [0.73, 0.76, 0.84, 0.87, 0.53, 0.93, 0.78, 0.86]
+    m.row_size.times.map {|i|
+      assert_in_delta(expected[i], Statsample::Factor.kmo_univariate(m, i), 0.01)
+    }
+  end
+  # Tested with SPSS and R
+  def test_pca
+    dtype = Statsample.has_gsl? ? :gsl : :array
+    a = Daru::Vector.new([2.5, 0.5, 2.2, 1.9, 3.1, 2.3, 2.0, 1.0, 1.5, 1.1], dtype: dtype)
+    b = Daru::Vector.new([2.4, 0.7, 2.9, 2.2, 3.0, 2.7, 1.6, 1.1, 1.6, 0.9], dtype: dtype)
+    a = a - a.mean
+    b = b - b.mean
+    ds = Daru::DataFrame.new({ :a => a, :b => b })
+    cov_matrix = Statsample::Bivariate.covariance_matrix(ds)
+    if Statsample.has_gsl?
+      pca = Statsample::Factor::PCA.new(cov_matrix, use_gsl: true)
+      pca_set(pca, 'gsl')
+    else
+      skip('Eigenvalues could be calculated with GSL (requires gsl)')
+    end
+    pca = Statsample::Factor::PCA.new(cov_matrix, use_gsl: false)
+    pca_set(pca, 'ruby')
+  end
+  def pca_set(pca, _type)
+    expected_eigenvalues = [1.284, 0.0490]
+    expected_eigenvalues.each_with_index{|ev, i|
+      assert_in_delta(ev, pca.eigenvalues[i], 0.001)
+    }
+    expected_communality = [0.590, 0.694]
+    expected_communality.each_with_index{|ev, i|
+      assert_in_delta(ev, pca.communalities[i], 0.001)
+    }
+    expected_cm = [0.768, 0.833]
+    obs = pca.component_matrix_correlation(1).column(0).to_a
+    expected_cm.each_with_index{|ev, i|
+      assert_in_delta(ev, obs[i], 0.001)
+    }
+    assert(pca.summary)
+  end
+  # Tested with R
+  def test_principalaxis
+    matrix = ::Matrix[
+    [1.0, 0.709501601093587, 0.877596585880047, 0.272219316266807],  [0.709501601093587, 1.0, 0.291633797330304, 0.871141831433844], [0.877596585880047, 0.291633797330304, 1.0, -0.213373722977167], [0.272219316266807, 0.871141831433844, -0.213373722977167, 1.0]]
+    fa = Statsample::Factor::PrincipalAxis.new(matrix, m: 1, max_iterations: 50)
+    cm = ::Matrix[[0.923], [0.912], [0.507], [0.483]]
+    assert_equal_matrix(cm, fa.component_matrix, 0.001)
+    h2 = [0.852, 0.832, 0.257, 0.233]
+    h2.each_with_index{|ev, i|
+      assert_in_delta(ev, fa.communalities[i], 0.001)
+    }
+    eigen1 = 2.175
+    assert_in_delta(eigen1, fa.eigenvalues[0], 0.001)
+    assert(fa.summary.size > 0)
+    fa = Statsample::Factor::PrincipalAxis.new(matrix, smc: false)
+    assert_raise RuntimeError do
+      fa.iterate
+    end
+  end
+  def test_rotation_varimax
+    a = Matrix[[0.4320,  0.8129,  0.3872],
+               [0.7950, -0.5416,  0.2565],
+               [0.5944,  0.7234, -0.3441],
+               [0.8945, -0.3921, -0.1863]]
+    expected = Matrix[[-0.0204423,     0.938674,    -0.340334],
+                      [0.983662, 0.0730206, 0.134997],
+                      [0.0826106, 0.435975, -0.893379],
+                      [0.939901, -0.0965213, -0.309596]]
+    varimax = Statsample::Factor::Varimax.new(a)
+    assert(!varimax.rotated.nil?, "Rotated shouldn't be empty")
+    assert(!varimax.component_transformation_matrix.nil?, "Component matrix shouldn't be empty")
+    assert(!varimax.h2.nil?, "H2 shouldn't be empty")
+    assert_equal_matrix(expected, varimax.rotated, 1e-6)
+    assert(varimax.summary.size > 0)
+  end
+end