RubyGems - statsample - Versions diffs - 0.18.0 → 1.0.0 - Mend

statsample 0.18.0 → 1.0.0

Files changed (121) hide show

data.tar.gz.sig +0 -0
data/History.txt +23 -0
data/Manifest.txt +28 -17
data/Rakefile +3 -2
data/benchmarks/correlation_matrix_15_variables.rb +31 -0
data/benchmarks/correlation_matrix_5_variables.rb +32 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.ds +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.html +93 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.rb +75 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.xls +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_gsl_ruby.ods +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_with_graphics.ods +0 -0
data/benchmarks/correlation_matrix_methods/results.ds +0 -0
data/benchmarks/factor_map.rb +37 -0
data/benchmarks/helpers_benchmark.rb +5 -0
data/examples/boxplot.rb +13 -14
data/examples/correlation_matrix.rb +16 -8
data/examples/dataset.rb +13 -4
data/examples/dominance_analysis.rb +23 -17
data/examples/dominance_analysis_bootstrap.rb +28 -22
data/examples/histogram.rb +8 -9
data/examples/icc.rb +20 -21
data/examples/levene.rb +10 -4
data/examples/multiple_regression.rb +9 -28
data/examples/multivariate_correlation.rb +9 -3
data/examples/parallel_analysis.rb +20 -16
data/examples/polychoric.rb +15 -9
data/examples/principal_axis.rb +18 -6
data/examples/reliability.rb +26 -13
data/examples/scatterplot.rb +10 -6
data/examples/t_test.rb +15 -6
data/examples/tetrachoric.rb +9 -2
data/examples/u_test.rb +12 -4
data/examples/vector.rb +13 -2
data/examples/velicer_map_test.rb +33 -26
data/lib/statsample.rb +32 -12
data/lib/statsample/analysis.rb +79 -0
data/lib/statsample/analysis/suite.rb +72 -0
data/lib/statsample/analysis/suitereportbuilder.rb +38 -0
data/lib/statsample/bivariate.rb +70 -16
data/lib/statsample/dataset.rb +25 -19
data/lib/statsample/dominanceanalysis.rb +2 -2
data/lib/statsample/factor.rb +2 -0
data/lib/statsample/factor/map.rb +16 -10
data/lib/statsample/factor/parallelanalysis.rb +9 -3
data/lib/statsample/factor/pca.rb +28 -32
data/lib/statsample/factor/rotation.rb +15 -8
data/lib/statsample/graph/boxplot.rb +3 -4
data/lib/statsample/graph/histogram.rb +2 -1
data/lib/statsample/graph/scatterplot.rb +1 -0
data/lib/statsample/matrix.rb +106 -16
data/lib/statsample/regression.rb +4 -1
data/lib/statsample/regression/binomial.rb +1 -1
data/lib/statsample/regression/multiple/baseengine.rb +19 -9
data/lib/statsample/regression/multiple/gslengine.rb +127 -126
data/lib/statsample/regression/multiple/matrixengine.rb +8 -5
data/lib/statsample/regression/multiple/rubyengine.rb +1 -1
data/lib/statsample/regression/simple.rb +31 -6
data/lib/statsample/reliability.rb +11 -3
data/lib/statsample/reliability/scaleanalysis.rb +4 -4
data/lib/statsample/shorthand.rb +81 -0
data/lib/statsample/test/chisquare.rb +1 -1
data/lib/statsample/vector.rb +163 -163
data/lib/statsample/vector/gsl.rb +106 -0
data/references.txt +2 -2
data/{data → test/fixtures}/crime.txt +0 -0
data/{data → test/fixtures}/hartman_23.matrix +0 -0
data/{data → test/fixtures}/repeated_fields.csv +0 -0
data/{data → test/fixtures}/test_binomial.csv +0 -0
data/test/{test_csv.csv → fixtures/test_csv.csv} +0 -0
data/test/{test_xls.xls → fixtures/test_xls.xls} +0 -0
data/{data → test/fixtures}/tetmat_matrix.txt +0 -0
data/{data → test/fixtures}/tetmat_test.txt +0 -0
data/test/helpers_tests.rb +18 -2
data/test/test_analysis.rb +118 -0
data/test/test_anovatwoway.rb +1 -1
data/test/test_anovatwowaywithdataset.rb +1 -1
data/test/test_anovawithvectors.rb +1 -2
data/test/test_bartlettsphericity.rb +1 -2
data/test/test_bivariate.rb +64 -22
data/test/test_codification.rb +1 -2
data/test/test_crosstab.rb +1 -2
data/test/test_csv.rb +3 -4
data/test/test_dataset.rb +24 -3
data/test/test_dominance_analysis.rb +1 -2
data/test/test_factor.rb +8 -69
data/test/test_factor_map.rb +43 -0
data/test/test_factor_pa.rb +54 -0
data/test/test_ggobi.rb +1 -1
data/test/test_gsl.rb +12 -18
data/test/test_histogram.rb +1 -2
data/test/test_logit.rb +62 -18
data/test/test_matrix.rb +4 -5
data/test/test_mle.rb +3 -4
data/test/test_regression.rb +21 -2
data/test/test_reliability.rb +3 -3
data/test/test_reliability_icc.rb +1 -1
data/test/test_reliability_skillscale.rb +20 -4
data/test/test_resample.rb +1 -2
data/test/test_rserve_extension.rb +1 -2
data/test/test_srs.rb +1 -2
data/test/test_statistics.rb +1 -2
data/test/test_stest.rb +1 -2
data/test/test_stratified.rb +1 -2
data/test/test_test_f.rb +1 -2
data/test/test_test_t.rb +1 -2
data/test/test_umannwhitney.rb +1 -2
data/test/test_vector.rb +117 -18
data/test/test_xls.rb +2 -3
data/web/Rakefile +39 -0
metadata +109 -29
metadata.gz.sig +0 -0
data/examples/parallel_analysis_tetrachoric.rb +0 -31
data/lib/distribution.rb +0 -25
data/lib/distribution/chisquare.rb +0 -23
data/lib/distribution/f.rb +0 -35
data/lib/distribution/normal.rb +0 -60
data/lib/distribution/normalbivariate.rb +0 -284
data/lib/distribution/normalmultivariate.rb +0 -73
data/lib/distribution/t.rb +0 -55
data/test/test_distribution.rb +0 -73

data/examples/scatterplot.rb CHANGED Viewed

@@ -5,9 +5,13 @@ $:.unshift('/home/cdx/dev/reportbuilder/lib/')
 require 'benchmark'
 require 'statsample'
 n=100
-a=n.times.map {|i| rand(10)+i}.to_scale
-b=n.times.map {|i| rand(10)+i}.to_scale
-sp=Statsample::Graph::Scatterplot.new(a,b, :width=>200, :height=>200)
-rb=ReportBuilder.new
-rb.add(sp)
-puts rb.to_text
+Statsample::Analysis.store(Statsample::Graph::Scatterplot) do
+  x=rnorm(n)
+  y=x+rnorm(n,0.5,0.2)
+  scatterplot(x,y)
+end
+if __FILE__==$0
+  Statsample::Analysis.run
+end

data/examples/t_test.rb CHANGED Viewed

@@ -1,11 +1,20 @@
 #!/usr/bin/ruby
 $:.unshift(File.dirname(__FILE__)+'/../lib')
 require 'statsample'
-a=10.times.map {rand(100)}.to_scale
-t_1=Statsample::Test.t_one_sample(a,{:u=>50})
-puts t_1.summary
-b=20.times.map {(rand(20))**2+50}.to_scale
+Statsample::Analysis.store(Statsample::Test::T) do
+  a=rnorm(10)
+  t_1=Statsample::Test.t_one_sample(a,{:u=>50})
+  summary t_1
+  b=rnorm(10,2)
+  t_2=Statsample::Test.t_two_samples_independent(a,b)
+  summary t_2
+end
-t_2=Statsample::Test.t_two_samples_independent(a,b)
-puts t_2.summary
+if __FILE__==$0
+  Statsample::Analysis.run_batch
+end

data/examples/tetrachoric.rb CHANGED Viewed

@@ -2,9 +2,16 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
+Statsample::Analysis.store(Statsample::Bivariate::Tetrachoric) do
 a=40
 b=10
 c=20
 d=30
-tetra=Statsample::Bivariate::Tetrachoric.new(a,b,c,d)
-puts tetra.summary
+summary tetrachoric(a,b,c,d)
+end
+if __FILE__==$0
+  Statsample::Analysis.run_batch
+end

data/examples/u_test.rb CHANGED Viewed

@@ -1,8 +1,16 @@
 #!/usr/bin/ruby
 $:.unshift(File.dirname(__FILE__)+'/../lib')
 require 'statsample'
-a=10.times.map {rand(100)}.to_scale
-b=20.times.map {(rand(20))**2+50}.to_scale
-u=Statsample::Test::UMannWhitney.new(a,b)
-puts u.summary
+Statsample::Analysis.store(Statsample::Test::UMannWhitney) do
+  a=10.times.map {rand(100)}.to_scale
+  b=20.times.map {(rand(20))**2+50}.to_scale
+  u=Statsample::Test::UMannWhitney.new(a,b)
+  summary u
+end
+if __FILE__==$0
+  Statsample::Analysis.run_batch
+end

data/examples/vector.rb CHANGED Viewed

@@ -2,5 +2,16 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
-a=1000.times.collect {r=rand(5); r==4 ? nil: r;}.to_scale
-puts a.summary
+Statsample::Analysis.store(Statsample::Vector) do
+  a=Statsample::Vector.new_scale(1000) {r=rand(5); r==4 ? nil: r;}
+  summary a
+  b=c(1,2,3,4,6..10)
+  summary b
+end
+if __FILE__==$0
+  Statsample::Analysis.run_batch
+end

data/examples/velicer_map_test.rb CHANGED Viewed

@@ -2,34 +2,41 @@
 $:.unshift(File.dirname(__FILE__)+'/../lib/')
 require 'statsample'
-samples=100
-variables=10
-rng = GSL::Rng.alloc()
-f1=samples.times.collect {rng.ugaussian()}.to_scale
-f2=samples.times.collect {rng.ugaussian()}.to_scale
-vectors={}
-variables.times do |i|
+Statsample::Analysis.store(Statsample::Factor::MAP) do
+  rng=Distribution::Normal.rng
+  samples=100
+  variables=10
+  f1=rnorm(samples)
+  f2=rnorm(samples)
+  vectors={}
+  variables.times do |i|
   vectors["v#{i}"]=samples.times.collect {|nv|
-    if i<5
-      f1[nv]*5 + f2[nv] *2 +rng.ugaussian()
-    else
-      f1[nv]*2 + f2[nv] *3 +rng.ugaussian()
-    end
+  if i<5
+    f1[nv]*5 + f2[nv] *2 +rng.call
+  else
+    f1[nv]*2 + f2[nv] *3 +rng.call
+  end
   }.to_scale
+  end
+  ds=vectors.to_dataset
+  cor=cor(ds)
+  pca=pca(cor)
+  map=Statsample::Factor::MAP.new(cor)
+  echo ("There are 2 real factors on data")
+  summary(pca)
+  echo("Traditional Kaiser criterion (k>1) returns #{pca.m} factors")
+  summary(map)
+  echo("Velicer's MAP Test returns #{map.number_of_factors} factors to preserve")
 end
-ds=vectors.to_dataset
-cor=Statsample::Bivariate.correlation_matrix(ds)
-map=Statsample::Factor::MAP.new(cor)
-pca=Statsample::Factor::PCA.new(cor)
-rb=ReportBuilder.new(:name=>"Velicer's MAP test") do |g|
-  g.text("There are 2 real factors on data")
-  g.parse_element(pca)
-  g.text("Traditional Kaiser criterion (k>1) returns #{pca.m} factors")
-  g.parse_element(map)
-  g.text("Velicer's MAP Test returns #{map.number_of_factors} factors to preserve")
+if __FILE__==$0
+  Statsample::Analysis.run_batch
 end
-puts rb.to_text

data/lib/statsample.rb CHANGED Viewed

@@ -41,6 +41,17 @@ class String
   end
 end
+class Module
+  def include_aliasing(m, suffix="ruby")
+    m.instance_methods.each do |f|
+      if instance_methods.include? f
+        alias_method("#{f}_#{suffix}",f)
+        remove_method f
+      end
+    end
+    include m
+  end
+end
 class Array
   # Recode repeated values on an array, adding the number of repetition
@@ -105,21 +116,27 @@ end
 # * Interfaces to gdchart, gnuplot and SVG::Graph
 #
 module Statsample
-  @@has_gsl=nil
-  def self.has_gsl?
-    if @@has_gsl.nil?
-      begin
-        require 'rbgsl'
-        @@has_gsl=true
-      rescue LoadError
-        @@has_gsl=false
+  def self.create_has_library(library)
+    define_singleton_method("has_#{library}?") do
+      cv="@@#{library}"
+      if !class_variable_defined? cv
+        begin
+          require library.to_s
+          class_variable_set(cv,true)
+        rescue LoadError
+          class_variable_set(cv,false)
+        end
       end
+      class_variable_get(cv)
     end
-    @@has_gsl
   end
-  VERSION = '0.18.0'
+  create_has_library :gsl
+  VERSION = '1.0.0'
   SPLIT_TOKEN = ","
+  autoload(:Analysis, 'statsample/analysis')
   autoload(:Database, 'statsample/converters')
   autoload(:Anova, 'statsample/anova')
   autoload(:CSV, 'statsample/converters')
@@ -214,11 +231,12 @@ module Statsample
       ds=Statsample::Dataset.new(h).dup_only_valid
       ds.vectors.values
     end
     # Cheap version of #only_valid.
     # If any vectors have missing_values, return only valid.
-    # If not, return the vectors it self
+    # If not, return the vectors itself
     def only_valid_clone(*vs)
-      if vs.any? {|v| v.has_missing_data?}
+      if vs.any? {|v| v.flawed?}
         only_valid(*vs)
       else
         vs
@@ -294,3 +312,5 @@ require 'statsample/vector'
 require 'statsample/dataset'
 require 'statsample/crosstab'
 require 'statsample/matrix'
+require 'statsample/shorthand'

data/lib/statsample/analysis.rb ADDED Viewed

@@ -0,0 +1,79 @@
+require 'statsample/analysis/suite'
+require 'statsample/analysis/suitereportbuilder'
+module Statsample
+  # DSL to create analysis without hazzle.
+  # * Shortcuts methods to avoid use complete namescapes, many based on R
+  # * Attach/detach vectors to workspace, like R
+  # == Example
+  #  an1=Statsample::Analysis.store(:first) do
+  #    # Load excel file with x,y,z vectors
+  #    ds=excel('data.xls')
+  #    # See variables on ds dataset
+  #    names(ds)
+  #    # Attach the vectors to workspace, like R
+  #    attach(ds)
+  #    # vector 'x' is attached to workspace like a method,
+  #    # so you can use like any variable
+  #    mean,sd=x.mean, x.sd
+  #    # Shameless R robbery
+  #    a=c( 1:10)
+  #    b=c(21:30)
+  #    summary(cor(ds)) # Call summary method on correlation matrix
+  #  end
+  #  # You can run the analysis by its name
+  #  Statsample::Analysis.run(:first)
+  #  # or using the returned variables
+  #  an1.run
+  #  # You can also generate a report using ReportBuilder.
+  #  # puts and pp are overloaded, so its output will be
+  #  # redirected to report.
+  #  # Summary method call 'report_building' on the object,
+  #  # instead of calling summary
+  #  an1.generate("report.html")
+  module Analysis
+    @@stored_analysis={}
+    @@last_analysis=nil
+    def self.stored_analysis
+      @@stored_analysis
+    end
+    def self.last
+      @@stored_analysis[@@last_analysis]
+    end
+    def self.store(name,opts=Hash.new,&block)
+      raise "You should provide a block" if !block
+      @@last_analysis=name
+      @@stored_analysis[name]=Suite.new(name,opts,&block)
+    end
+    # Run analysis +name+
+    # Withoud arguments, run the latest analysis
+    # Only 'echo' will be returned to screen
+    def self.run(name=nil)
+      name||=@@last_analysis
+      raise "Analysis #{name} doesn't exists" unless stored_analysis[name]
+      stored_analysis[name].run
+    end
+    # Run analysis and return to screen all
+    # echo and summary callings
+    def self.run_batch(name=nil)
+      name||=@@last_analysis
+      raise "Analysis #{name} doesn't exists" unless stored_analysis[name]
+      puts stored_analysis[name].to_text
+    end
+    def self.save(filename, name=nil)
+      name||=@@last_analysis
+      raise "Analysis #{name} doesn't exists" unless stored_analysis[name]
+      puts stored_analysis[name].generate(filename)
+    end
+    # Run analysis and return as string
+    # output of echo callings
+    def self.to_text(name=nil)
+      name||=@@last_analysis
+      raise "Analysis #{name} doesn't exists" unless stored_analysis[name]
+      stored_analysis[name].to_text
+    end
+  end
+end

data/lib/statsample/analysis/suite.rb ADDED Viewed

@@ -0,0 +1,72 @@
+module Statsample
+  module Analysis
+    class Suite
+      include Statsample::Shorthand
+      attr_accessor :output
+      attr_accessor :name
+      attr_reader :block
+      def initialize(name,opts=Hash.new(),&block)
+        @name=name
+        @block=block
+        @attached=[]
+        @output=opts[:output] || ::STDOUT
+      end
+      # Run the analysis, putting output on
+      def run
+         @block.arity<1 ? instance_eval(&@block) : @block.call(self)
+      end
+      def echo(*args)
+        @output.puts(*args)
+      end
+      def summary(obj)
+        obj.summary
+      end
+      def generate(filename)
+        ar=SuiteReportBuilder.new(name,&block)
+        ar.generate(filename)
+      end
+      def to_text
+        ar=SuiteReportBuilder.new(name, &block)
+        ar.to_text
+      end
+      def attach(ds)
+        @attached.push(ds)
+      end
+      def detach(ds=nil)
+        if ds.nil?
+          @attached.pop
+        else
+          @attached.delete(ds)
+        end
+      end
+      alias :old_boxplot :boxplot
+      alias :old_histogram :histogram
+      alias :old_scatterplot :scatterplot
+      def show_svg(svg)
+        require 'tmpdir'
+        fn=Dir.tmpdir+"/image_#{Time.now.to_f}.svg"
+        File.open(fn,"w") {|fp| fp.write svg}
+        `xdg-open '#{fn}'`
+      end
+      def boxplot(*args)
+        show_svg(old_boxplot(*args).to_svg)
+      end
+      def histogram(*args)
+        show_svg(old_histogram(*args).to_svg)
+      end
+      def scatterplot(*args)
+        show_svg(old_scatterplot(*args).to_svg)
+      end
+      def method_missing(name, *args,&block)
+        @attached.reverse.each do |ds|
+          return ds[name.to_s] if ds.fields.include? (name.to_s)
+        end
+        raise "Method #{name} doesn't exists"
+      end
+    end
+  end
+end

data/lib/statsample/analysis/suitereportbuilder.rb ADDED Viewed

@@ -0,0 +1,38 @@
+module Statsample
+  module Analysis
+    class SuiteReportBuilder < Suite
+      attr_accessor :rb
+      def initialize(name,&block)
+        super(name,&block)
+        @rb=ReportBuilder.new(:name=>name)
+      end
+      def generate(filename)
+        run if @block
+        @rb.save(filename)
+      end
+      def to_text
+        run if @block
+        @rb.to_text
+      end
+      def summary(o)
+        @rb.add(o)
+      end
+      def echo(*args)
+        args.each do |a|
+          @rb.add(a)
+        end
+      end
+      def boxplot(*args)
+        @rb.add(old_boxplot(*args))
+      end
+      def histogram(*args)
+        @rb.add(old_histogram(*args))
+      end
+      def boxplot(*args)
+        @rb.add(old_boxplot(*args))
+      end
+    end
+  end
+end