RubyGems - statsample-ekatena - Versions diffs - 2.0.2 - Mend

statsample-ekatena 2.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (156) hide show

checksums.yaml +7 -0
data/.gitignore +15 -0
data/.travis.yml +23 -0
data/CONTRIBUTING.md +17 -0
data/Gemfile +2 -0
data/History.txt +457 -0
data/LICENSE.txt +12 -0
data/README.md +175 -0
data/Rakefile +44 -0
data/benchmarks/correlation_matrix_15_variables.rb +32 -0
data/benchmarks/correlation_matrix_5_variables.rb +33 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.ds +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.html +93 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.rb +71 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix.xls +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_gsl_ruby.ods +0 -0
data/benchmarks/correlation_matrix_methods/correlation_matrix_with_graphics.ods +0 -0
data/benchmarks/correlation_matrix_methods/results.ds +0 -0
data/benchmarks/factor_map.rb +37 -0
data/benchmarks/helpers_benchmark.rb +5 -0
data/data/locale/es/LC_MESSAGES/statsample.mo +0 -0
data/doc_latex/manual/equations.tex +78 -0
data/examples/boxplot.rb +28 -0
data/examples/chisquare_test.rb +23 -0
data/examples/correlation_matrix.rb +32 -0
data/examples/dataset.rb +30 -0
data/examples/dominance_analysis.rb +33 -0
data/examples/dominance_analysis_bootstrap.rb +32 -0
data/examples/histogram.rb +26 -0
data/examples/icc.rb +24 -0
data/examples/levene.rb +29 -0
data/examples/multiple_regression.rb +20 -0
data/examples/multivariate_correlation.rb +33 -0
data/examples/parallel_analysis.rb +40 -0
data/examples/polychoric.rb +40 -0
data/examples/principal_axis.rb +26 -0
data/examples/reliability.rb +31 -0
data/examples/scatterplot.rb +25 -0
data/examples/t_test.rb +27 -0
data/examples/tetrachoric.rb +17 -0
data/examples/u_test.rb +24 -0
data/examples/vector.rb +20 -0
data/examples/velicer_map_test.rb +46 -0
data/grab_references.rb +29 -0
data/lib/spss.rb +134 -0
data/lib/statsample-ekatena/analysis.rb +100 -0
data/lib/statsample-ekatena/analysis/suite.rb +89 -0
data/lib/statsample-ekatena/analysis/suitereportbuilder.rb +44 -0
data/lib/statsample-ekatena/anova.rb +24 -0
data/lib/statsample-ekatena/anova/contrast.rb +79 -0
data/lib/statsample-ekatena/anova/oneway.rb +187 -0
data/lib/statsample-ekatena/anova/twoway.rb +207 -0
data/lib/statsample-ekatena/bivariate.rb +406 -0
data/lib/statsample-ekatena/bivariate/pearson.rb +54 -0
data/lib/statsample-ekatena/codification.rb +182 -0
data/lib/statsample-ekatena/converter/csv.rb +28 -0
data/lib/statsample-ekatena/converter/spss.rb +48 -0
data/lib/statsample-ekatena/converters.rb +211 -0
data/lib/statsample-ekatena/crosstab.rb +188 -0
data/lib/statsample-ekatena/daru.rb +115 -0
data/lib/statsample-ekatena/dataset.rb +10 -0
data/lib/statsample-ekatena/dominanceanalysis.rb +425 -0
data/lib/statsample-ekatena/dominanceanalysis/bootstrap.rb +232 -0
data/lib/statsample-ekatena/factor.rb +104 -0
data/lib/statsample-ekatena/factor/map.rb +124 -0
data/lib/statsample-ekatena/factor/parallelanalysis.rb +166 -0
data/lib/statsample-ekatena/factor/pca.rb +242 -0
data/lib/statsample-ekatena/factor/principalaxis.rb +243 -0
data/lib/statsample-ekatena/factor/rotation.rb +198 -0
data/lib/statsample-ekatena/formula/fit_model.rb +46 -0
data/lib/statsample-ekatena/formula/formula.rb +306 -0
data/lib/statsample-ekatena/graph.rb +11 -0
data/lib/statsample-ekatena/graph/boxplot.rb +236 -0
data/lib/statsample-ekatena/graph/histogram.rb +198 -0
data/lib/statsample-ekatena/graph/scatterplot.rb +213 -0
data/lib/statsample-ekatena/histogram.rb +180 -0
data/lib/statsample-ekatena/matrix.rb +329 -0
data/lib/statsample-ekatena/multiset.rb +310 -0
data/lib/statsample-ekatena/regression.rb +65 -0
data/lib/statsample-ekatena/regression/multiple.rb +89 -0
data/lib/statsample-ekatena/regression/multiple/alglibengine.rb +128 -0
data/lib/statsample-ekatena/regression/multiple/baseengine.rb +251 -0
data/lib/statsample-ekatena/regression/multiple/gslengine.rb +129 -0
data/lib/statsample-ekatena/regression/multiple/matrixengine.rb +205 -0
data/lib/statsample-ekatena/regression/multiple/rubyengine.rb +86 -0
data/lib/statsample-ekatena/regression/simple.rb +121 -0
data/lib/statsample-ekatena/reliability.rb +150 -0
data/lib/statsample-ekatena/reliability/icc.rb +415 -0
data/lib/statsample-ekatena/reliability/multiscaleanalysis.rb +181 -0
data/lib/statsample-ekatena/reliability/scaleanalysis.rb +233 -0
data/lib/statsample-ekatena/reliability/skillscaleanalysis.rb +114 -0
data/lib/statsample-ekatena/resample.rb +15 -0
data/lib/statsample-ekatena/shorthand.rb +125 -0
data/lib/statsample-ekatena/srs.rb +169 -0
data/lib/statsample-ekatena/test.rb +82 -0
data/lib/statsample-ekatena/test/bartlettsphericity.rb +45 -0
data/lib/statsample-ekatena/test/chisquare.rb +73 -0
data/lib/statsample-ekatena/test/f.rb +52 -0
data/lib/statsample-ekatena/test/kolmogorovsmirnov.rb +63 -0
data/lib/statsample-ekatena/test/levene.rb +88 -0
data/lib/statsample-ekatena/test/t.rb +309 -0
data/lib/statsample-ekatena/test/umannwhitney.rb +208 -0
data/lib/statsample-ekatena/test/wilcoxonsignedrank.rb +90 -0
data/lib/statsample-ekatena/vector.rb +19 -0
data/lib/statsample-ekatena/version.rb +3 -0
data/lib/statsample.rb +282 -0
data/po/es/statsample.mo +0 -0
data/po/es/statsample.po +959 -0
data/po/statsample.pot +947 -0
data/references.txt +24 -0
data/statsample-ekatena.gemspec +49 -0
data/test/fixtures/bank2.dat +200 -0
data/test/fixtures/correlation_matrix.rb +17 -0
data/test/fixtures/df.csv +15 -0
data/test/fixtures/hartman_23.matrix +9 -0
data/test/fixtures/stock_data.csv +500 -0
data/test/fixtures/tetmat_matrix.txt +5 -0
data/test/fixtures/tetmat_test.txt +1001 -0
data/test/helpers_tests.rb +83 -0
data/test/test_analysis.rb +176 -0
data/test/test_anova_contrast.rb +36 -0
data/test/test_anovaoneway.rb +26 -0
data/test/test_anovatwoway.rb +37 -0
data/test/test_anovatwowaywithdataset.rb +47 -0
data/test/test_anovawithvectors.rb +102 -0
data/test/test_awesome_print_bug.rb +16 -0
data/test/test_bartlettsphericity.rb +25 -0
data/test/test_bivariate.rb +164 -0
data/test/test_codification.rb +78 -0
data/test/test_crosstab.rb +67 -0
data/test/test_dominance_analysis.rb +39 -0
data/test/test_factor.rb +228 -0
data/test/test_factor_map.rb +38 -0
data/test/test_factor_pa.rb +56 -0
data/test/test_fit_model.rb +88 -0
data/test/test_ggobi.rb +35 -0
data/test/test_gsl.rb +15 -0
data/test/test_histogram.rb +109 -0
data/test/test_matrix.rb +48 -0
data/test/test_multiset.rb +176 -0
data/test/test_regression.rb +231 -0
data/test/test_reliability.rb +223 -0
data/test/test_reliability_icc.rb +198 -0
data/test/test_reliability_skillscale.rb +57 -0
data/test/test_resample.rb +24 -0
data/test/test_srs.rb +9 -0
data/test/test_statistics.rb +69 -0
data/test/test_stest.rb +69 -0
data/test/test_stratified.rb +17 -0
data/test/test_test_f.rb +33 -0
data/test/test_test_kolmogorovsmirnov.rb +34 -0
data/test/test_test_t.rb +62 -0
data/test/test_umannwhitney.rb +27 -0
data/test/test_vector.rb +12 -0
data/test/test_wilcoxonsignedrank.rb +64 -0
metadata +570 -0

data/lib/statsample-ekatena/histogram.rb ADDED

@@ -0,0 +1,180 @@
+module Statsample
+  # A histogram consists of a set of bins which count the
+  # number of events falling into a given range of a continuous variable x.
+  #
+  # This implementations follows convention of GSL
+  # for specification.
+  #
+  #  * Verbatim: *
+  #
+  #  The range for bin[i] is given by range[i] to range[i+1].
+  #  For n bins there are n+1 entries in the array range.
+  #  Each bin is inclusive at the lower end and exclusive at the upper end.
+  #  Mathematically this means that the bins are defined
+  #  by the following inequality,
+  #
+  #   bin[i] corresponds to range[i] <= x < range[i+1]
+  #
+  #  Here is a diagram of the correspondence between ranges and bins
+  #  on the number-line for x,
+  #
+  #
+  #      [ bin[0] )[ bin[1] )[ bin[2] )[ bin[3] )[ bin[4] )
+  #   ---|---------|---------|---------|---------|---------|---  x
+  #    r[0]      r[1]      r[2]      r[3]      r[4]      r[5]
+  #
+  #
+  #  In this picture the values of the range array are denoted by r.
+  #  On the left-hand side of each bin the square bracket ‘[’ denotes
+  #  an inclusive lower bound ( r <= x), and the round parentheses ‘)’
+  #  on the right-hand side denote an exclusive upper bound (x < r).
+  #  Thus any samples which fall on the upper end of the histogram are
+  #  excluded.
+  #  If you want to include this value for the last bin you will need to
+  #  add an extra bin to your histogram.
+  #
+  #
+  # == Reference:
+  # * http://www.gnu.org/software/gsl/manual/html_node/The-histogram-struct.html
+  class Histogram
+    include Enumerable
+    class << self
+      # Alloc +n_bins+, using +range+ as ranges of bins
+      def alloc(n_bins, range=nil, opts=Hash.new)
+        Histogram.new(n_bins, range, opts)
+      end
+      # Alloc +n_bins+ bins, using +p1+ as minimum and +p2+
+      # as maximum
+      def alloc_uniform(n_bins, p1=nil,p2=nil)
+        if p1.is_a? Array
+          min,max=p1
+        else
+          min,max=p1,p2
+        end
+        range=max - min
+        step=range / n_bins.to_f
+        range=(n_bins+1).times.map {|i| min + (step*i)}
+        Histogram.new(range)
+      end
+    end
+    attr_accessor :name
+    attr_reader :bin
+    attr_reader :range
+    include GetText
+    bindtextdomain("statsample")
+    def initialize(p1, min_max=false, opts=Hash.new)
+      if p1.is_a? Array
+        range=p1
+        @n_bins=p1.size-1
+      elsif p1.is_a? Integer
+        @n_bins=p1
+      end
+      @bin=[0.0]*(@n_bins)
+      if(min_max)
+        min, max=min_max[0], min_max[1]
+        range=Array.new(@n_bins+1)
+        (@n_bins+1).times {|i| range[i]=min+(i*(max-min).quo(@n_bins)) }
+      end
+      range||=[0.0]*(@n_bins+1)
+      set_ranges(range)
+      @name=""
+      opts.each{|k,v|
+      self.send("#{k}=",v) if self.respond_to? k
+      }
+    end
+    # Number of bins
+    def bins
+      @n_bins
+    end
+    def increment(x, w=1)
+      if x.respond_to? :each
+        x.each{|y| increment(y,w) }
+      elsif x.is_a? Numeric
+        (range.size - 1).times do |i|
+          if x >= range[i] and x < range[i+1]
+            @bin[i] += w
+            break
+          end
+        end
+      end
+    end
+    def set_ranges(range)
+      raise "Range size should be bin+1" if range.size!=@bin.size+1
+      @range=range
+    end
+    def get_range(i)
+      [@range[i],@range[i+1]]
+    end
+    def max
+      @range.last
+    end
+    def min
+      @range.first
+    end
+    def max_val
+      @bin.max
+    end
+    def min_val
+      @bin.min
+    end
+    def each
+      bins.times.each do |i|
+        r=get_range(i)
+        arg={:i=>i, :low=>r[0],:high=>r[1], :middle=>(r[0]+r[1]) / 2.0,  :value=>@bin[i]}
+        yield arg
+      end
+    end
+    def estimated_variance
+      sum,n=0,0
+      mean=estimated_mean
+      each do |v|
+        sum+=v[:value]*(v[:middle]-mean)**2
+        n+=v[:value]
+      end
+      sum / (n-1)
+    end
+    def estimated_standard_deviation
+      Math::sqrt(estimated_variance)
+    end
+    def estimated_mean
+      sum,n=0,0
+      each do |v|
+        sum+= v[:value]* v[:middle]
+        n+=v[:value]
+      end
+      sum / n
+    end
+    alias :mean :estimated_mean
+    alias :sigma :estimated_standard_deviation
+    def sum(start=nil,_end=nil)
+      start||=0
+      _end||=@n_bins-1
+      (start.._end).inject(0) {|ac,i| ac+@bin[i]}
+    end
+    def report_building(generator)
+      hg=Statsample::Graph::Histogram.new(self)
+      generator.parse_element(hg)
+    end
+    def report_building_text(generator)
+      @range.each_with_index do |r,i|
+        next if i==@bin.size
+        generator.text(sprintf("%5.2f : %d", r, @bin[i]))
+      end
+    end
+  end
+end

data/lib/statsample-ekatena/matrix.rb ADDED

@@ -0,0 +1,329 @@
+class ::Vector
+  def to_matrix
+    ::Matrix.columns([self.to_a])
+  end
+  def to_vector
+    self
+  end
+end
+class ::Matrix
+  def to_matrix
+    self
+  end
+  def to_dataframe
+    f = (self.respond_to? :fields_y) ? fields_y : column_size.times.map {|i| "VAR_#{i+1}".to_sym }
+    f = [f] unless f.is_a?(Array)
+    ds = Daru::DataFrame.new({}, order: f)
+    f.each do |ff|
+      ds[ff].rename ff
+    end
+    row_size.times {|i|
+      ds.add_row(self.row(i).to_a)
+    }
+    ds.rename(self.name) if self.respond_to? :name
+    ds
+  end
+  alias :to_dataset :to_dataframe
+  if defined? :eigenpairs
+    alias_method :eigenpairs_ruby, :eigenpairs
+  end
+  if Statsample.has_gsl?
+    # Optimize eigenpairs of extendmatrix module using gsl
+    def eigenpairs
+      to_gsl.eigenpairs
+    end
+  end
+  def eigenvalues
+    eigenpairs.collect {|v| v[0]}
+  end
+  def eigenvectors
+    eigenpairs.collect {|v| v[1]}
+  end
+  def eigenvectors_matrix
+    Matrix.columns(eigenvectors)
+  end
+  def to_gsl
+    out=[]
+    self.row_size.times{|i|
+      out[i]=self.row(i).to_a
+    }
+    GSL::Matrix[*out]
+  end
+  def []=(i, j, x)
+    @rows[i][j] = x
+  end
+end
+module GSL
+  class Vector
+    class Col
+      def to_matrix
+      ::Matrix.columns([self.size.times.map {|i| self[i]}])
+      end
+      def to_ary
+        to_a
+      end
+      def to_gsl
+        self
+      end
+    end
+  end
+  class Matrix
+    def to_gsl
+      self
+    end
+    def to_dataframe
+      f = (self.respond_to? :fields_y) ? fields_y : column_size.times.map { |i| "VAR_#{i+1}".to_sym }
+      ds=Daru::DataFrame.new({}, order: f)
+      f.each do |ff|
+        ds[ff].rename ff
+      end
+      row_size.times {|i|
+        ds.add_row(self.row(i).to_a)
+      }
+      ds.rename(self.name) if self.respond_to? :name
+      ds
+    end
+    alias :to_dataset :to_dataframe
+    def row_size
+      size1
+    end
+    def column_size
+      size2
+    end
+    def determinant
+      det
+    end
+    def inverse
+      GSL::Linalg::LU.invert(self)
+    end
+    def eigenvalues
+      eigenpairs.collect {|v| v[0]}
+    end
+    def eigenvectors
+      eigenpairs.collect {|v| v[1]}
+    end
+    # Matrix sum of squares
+    def mssq
+      sum=0
+      to_v.each {|i| sum+=i**2}
+      sum
+    end
+    def eigenvectors_matrix
+      eigval, eigvec= GSL::Eigen.symmv(self)
+      GSL::Eigen::symmv_sort(eigval, eigvec, GSL::Eigen::SORT_VAL_DESC)
+      eigvec
+    end
+    def eigenpairs
+      eigval, eigvec= GSL::Eigen.symmv(self)
+      GSL::Eigen::symmv_sort(eigval, eigvec, GSL::Eigen::SORT_VAL_DESC)
+      @eigenpairs=eigval.size.times.map {|i|
+        [eigval[i],eigvec.get_col(i)]
+      }
+    end
+    #def eigenpairs_ruby
+    #  self.to_matrix.eigenpairs_ruby
+    #end
+    def square?
+      size1==size2
+    end
+    def to_matrix
+      rows=self.size1
+      cols=self.size2
+      out=(0...rows).collect{|i| (0...cols).collect {|j| self[i,j]} }
+      ::Matrix.rows(out)
+    end
+    def total_sum
+      sum=0
+      size1.times {|i|
+        size2.times {|j|
+          sum+=self[i,j]
+        }
+      }
+      sum
+    end
+  end
+end
+module Statsample
+  # Module to add names to X and Y fields
+  module NamedMatrix
+    include Summarizable
+    def fields
+    raise "Should be square" if !square?
+    fields_x
+    end
+    def fields=(v)
+    raise "Matrix should be square" if !square?
+    @fields_x=v
+    @fields_y=v
+    end
+    def fields_x=(v)
+    raise "Size of fields != row_size" if v.size!=row_size
+    @fields_x=v
+    end
+    def fields_y=(v)
+    raise "Size of fields != column_size" if v.size!=column_size
+    @fields_y=v
+    end
+    def fields_x
+    @fields_x||=row_size.times.collect {|i| _("X%d") % i}
+    end
+    def fields_y
+    @fields_y||=column_size.times.collect {|i| _("Y%d") % i}
+    end
+    def name
+      @name||=get_new_name
+    end
+    def name=(v)
+      @name=v
+    end
+    def get_new_name
+      @@named_matrix||=0
+      @@named_matrix+=1
+      _("Matrix %d") % @@named_matrix
+    end
+  end
+  # Module to add method for variance/covariance and correlation matrices
+  # == Usage
+  #  matrix=Matrix[[1,2],[2,3]]
+  #  matrix.extend CovariateMatrix
+  #
+  module CovariateMatrix
+    include NamedMatrix
+    @@covariatematrix=0
+    # Get type of covariate matrix. Could be :covariance or :correlation
+    def _type
+      if row_size==column_size
+        if row_size.times.find {|i| self[i,i]!=1.0}
+          :covariance
+        else
+          :correlation
+        end
+      else
+        @type
+      end
+    end
+    def _type=(t)
+      @type=t
+    end
+    def correlation
+      if(_type==:covariance)
+        matrix=Matrix.rows(row_size.times.collect { |i|
+          column_size.times.collect { |j|
+            if i==j
+              1.0
+            else
+              self[i,j].quo(Math::sqrt(self[i,i])*Math::sqrt(self[j,j]))
+            end
+          }
+        })
+        matrix.extend CovariateMatrix
+        matrix.fields_x=fields_x
+        matrix.fields_y=fields_y
+        matrix._type=:correlation
+        matrix
+      else
+        self
+      end
+    end
+    # Get variance for field k
+    #
+    def variance(k)
+      submatrix([k])[0,0]
+    end
+    def get_new_name
+      @@covariatematrix+=1
+      _("Covariate matrix %d") % @@covariatematrix
+    end
+    # Select a submatrix of factors. If you have a correlation matrix
+    # with a, b and c, you could obtain a submatrix of correlations of
+    # a and b, b and c or a and b
+    #
+    # You could use labels or index to select the factors.
+    # If you don't specify columns, its will be equal to rows.
+    #
+    # Example:
+    #   a=Matrix[[1.0, 0.3, 0.2],
+    #            [0.3, 1.0, 0.5],
+    #            [0.2, 0.5, 1.0]]
+    #   a.extend CovariateMatrix
+    #   a.fields=%w{a b c}
+    #   a.submatrix(%w{c a}, %w{b})
+    #   => Matrix[[0.5],[0.3]]
+    #   a.submatrix(%w{c a})
+    #   => Matrix[[1.0, 0.2] , [0.2, 1.0]]
+    def submatrix(rows,columns = nil)
+      raise ArgumentError, "rows shouldn't be empty" if rows.respond_to? :size and rows.size == 0
+      columns ||= rows
+      # Convert all fields on index
+      row_index = rows.collect do |v|
+        r = v.is_a?(Numeric) ? v : fields_x.index(v)
+        raise "Index #{v} doesn't exists on matrix" if r.nil?
+        r
+      end
+      column_index = columns.collect do |v|
+        r = v.is_a?(Numeric) ? v : fields_y.index(v)
+        raise "Index #{v} doesn't exists on matrix" if r.nil?
+        r
+      end
+      fx=row_index.collect {|v| fields_x[v]}
+      fy=column_index.collect {|v| fields_y[v]}
+      matrix = Matrix.rows(row_index.collect { |i| column_index.collect { |j| self[i, j] }})
+      matrix.extend CovariateMatrix
+      matrix.fields_x = fx
+      matrix.fields_y = fy
+      matrix._type = _type
+      matrix
+    end
+    def report_building(generator)
+      @name||= (_type==:correlation ? _("Correlation"):_("Covariance"))+_(" Matrix")
+      generator.table(:name=>@name, :header=>[""]+fields_y) do |t|
+        row_size.times {|i|
+          t.row([fields_x[i]]+row(i).to_a.collect {|i1|
+              i1.nil? ? "--" : sprintf("%0.3f",i1).gsub("0.",".")
+          })
+        }
+      end
+    end
+  end
+end