RubyGems - statsample - Versions diffs - 0.5.1 → 0.6.0 - Mend

statsample 0.5.1 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (51) hide show

data/History.txt +12 -0
data/Manifest.txt +13 -0
data/README.txt +2 -1
data/demo/pca.rb +29 -0
data/demo/umann.rb +8 -0
data/lib/distribution.rb +0 -1
data/lib/matrix_extension.rb +35 -21
data/lib/statsample.rb +31 -28
data/lib/statsample/anova.rb +7 -2
data/lib/statsample/bivariate.rb +17 -11
data/lib/statsample/codification.rb +136 -87
data/lib/statsample/combination.rb +0 -2
data/lib/statsample/converter/csv18.rb +1 -1
data/lib/statsample/converter/csv19.rb +1 -1
data/lib/statsample/converters.rb +176 -171
data/lib/statsample/crosstab.rb +227 -154
data/lib/statsample/dataset.rb +94 -12
data/lib/statsample/dominanceanalysis.rb +69 -62
data/lib/statsample/dominanceanalysis/bootstrap.rb +25 -21
data/lib/statsample/factor.rb +18 -0
data/lib/statsample/factor/pca.rb +128 -0
data/lib/statsample/factor/principalaxis.rb +133 -0
data/lib/statsample/factor/rotation.rb +125 -0
data/lib/statsample/histogram.rb +99 -0
data/lib/statsample/mle.rb +125 -126
data/lib/statsample/mle/logit.rb +91 -91
data/lib/statsample/mle/probit.rb +84 -85
data/lib/statsample/multiset.rb +1 -1
data/lib/statsample/permutation.rb +96 -0
data/lib/statsample/regression.rb +1 -1
data/lib/statsample/regression/binomial.rb +89 -89
data/lib/statsample/regression/binomial/logit.rb +9 -9
data/lib/statsample/regression/binomial/probit.rb +9 -9
data/lib/statsample/regression/multiple.rb +8 -14
data/lib/statsample/regression/multiple/gslengine.rb +1 -1
data/lib/statsample/regression/multiple/rubyengine.rb +55 -55
data/lib/statsample/resample.rb +12 -17
data/lib/statsample/srs.rb +4 -1
data/lib/statsample/test.rb +23 -22
data/lib/statsample/test/umannwhitney.rb +182 -0
data/lib/statsample/vector.rb +854 -815
data/test/test_bivariate.rb +132 -132
data/test/test_codification.rb +71 -50
data/test/test_dataset.rb +19 -1
data/test/test_factor.rb +44 -0
data/test/test_histogram.rb +26 -0
data/test/test_permutation.rb +37 -0
data/test/test_statistics.rb +74 -63
data/test/test_umannwhitney.rb +17 -0
data/test/test_vector.rb +46 -30
metadata +31 -4

data/lib/statsample/dataset.rb CHANGED Viewed

@@ -23,8 +23,8 @@ module Statsample
       @exp=e
     end
     def to_s
-      m="Error: "+@exp.message+"\n"+@exp.backtrace.join("\n")+"\nOn Dataset:"+@ds.inspect
-      m+="\nRow: #{@i}" unless @i.nil?
+      m="Error on iteration: "+@exp.message+"\n"+@exp.backtrace.join("\n")
+      m+="\nRow: #{@ds.i}" unless @ds.i.nil?
       m
     end
   end
@@ -120,7 +120,7 @@ module Statsample
       end
       matrix
     end
-    def vector_label(v_id)
+    def label(v_id)
       raise "Vector #{v} doesn't exists" unless @fields.include? v_id
       @labels[v_id].nil? ? v_id : @labels[v_id]
     end
@@ -334,7 +334,7 @@ module Statsample
       a=[]
       fields=check_fields(fields)
       size=fields.size
-      each_with_index do |i, row|
+      each_with_index do |row, i |
         # numero de invalidos
         sum=0
         invalids=0
@@ -407,21 +407,21 @@ module Statsample
         }
         @i=nil
       rescue =>e
-        raise DatasetException.new(self,e)
+        raise DatasetException.new(self, e)
       end
     end
-    # Returns each case as index and hash
+    # Returns each case as hash and index
     def each_with_index
       begin
         @i=0
         @cases.times{|i|
           @i=i
           row=case_as_hash(i)
-          yield i,row
+          yield row, i
         }
         @i=nil
       rescue =>e
-        raise DatasetException.new(self,e)
+        raise DatasetException.new(self, e)
       end
     end
     # Returns each case as an array, coding missing values as nils
@@ -473,26 +473,28 @@ module Statsample
     def collect(type=:scale)
       data=[]
       each {|row|
-        data.push(yield(row))
+        data.push yield(row)
       }
       Statsample::Vector.new(data,type)
     end
     def collect_with_index(type=:scale)
       data=[]
-      each_with_index {|i,row|
+      each_with_index {|row, i|
         data.push(yield(i,row))
       }
       Statsample::Vector.new(data,type)
     end
     # Recode a vector based on a block
     def recode!(vector_name)
       0.upto(@cases-1) {|i|
         @vectors[vector_name].data[i]=yield case_as_hash(i)
       }
       @vectors[vector_name].set_valid_data
     end
-    def crosstab(v1,v2)
-      Statsample::Crosstab.new(@vectors[v1],@vectors[v2])
+    def crosstab(v1,v2,opts={})
+      Statsample::Crosstab.new(@vectors[v1], @vectors[v2],opts)
     end
     def[]=(i,v)
       if v.instance_of? Statsample::Vector
@@ -508,6 +510,15 @@ module Statsample
         rows.push(c)
       }
       Matrix.rows(rows)
+    end
+    if HAS_GSL
+      def to_matrix_gsl
+      rows=[]
+      self.each_array{|c|
+        rows.push(c)
+      }
+      GSL::Matrix.alloc(*rows)
+      end
     end
 		def to_multiset_by_split(*fields)
 			require 'statsample/multiset'
@@ -640,6 +651,77 @@ module Statsample
     def inspect
       self.to_s
     end
+    # Creates a new dataset for one to many relations
+    # on a dataset, based on pattern of field names.
+    # for example, you have a survey for number of children
+    # with this structure:
+    #   id, name, child_name_1, child_age_1, child_name_2, child_age_2
+    # with
+    #   ds.one_to_many(%w{id}, "child_%v_%n"
+    # the field of first parameters will be copied verbatim
+    # to new dataset, and fields which responds to second
+    # pattern will be added one case for each different %n.
+    # For example
+    #   cases=[
+    #     ['1','george','red',10,'blue',20,nil,nil],
+    #     ['2','fred','green',15,'orange',30,'white',20],
+    #     ['3','alfred',nil,nil,nil,nil,nil,nil]
+    #   ]
+    #   ds=Statsample::Dataset.new(%w{id name car_color1 car_value1 car_color2 car_value2 car_color3 car_value3})
+    #   cases.each {|c| ds.add_case_array c }
+    #   ds.one_to_many(['id'],'car_%v%n').to_matrix
+    #   => Matrix[
+    #      ["red", "1", 10],
+    #      ["blue", "1", 20],
+    #      ["green", "2", 15],
+    #      ["orange", "2", 30],
+    #      ["white", "2", 20]
+    #      ]
+    #
+    def one_to_many(parent_fields, pattern)
+      base_pattern=pattern.gsub(/%v|%n/,"")
+      re=Regexp.new pattern.gsub("%v","(.+?)").gsub("%n","(\\d+?)")
+      ds_vars=parent_fields
+      vars=[]
+      max_n=0
+      h=parent_fields.inject({}) {|a,v| a[v]=Statsample::Vector.new([], @vectors[v].type);a }
+      # Adding _row_id
+      h['_col_id']=[].to_scale
+      ds_vars.push("_col_id")
+      @fields.each do |f|
+        if f=~re
+          if !vars.include? $1
+            vars.push($1)
+            h[$1]=Statsample::Vector.new([], @vectors[f].type)
+          end
+          max_n=$2.to_i if max_n < $2.to_i
+        end
+      end
+      ds=Dataset.new(h,ds_vars+vars)
+      each do |row|
+        row_out={}
+        parent_fields.each do |f|
+          row_out[f]=row[f]
+        end
+        max_n.times do |n1|
+          n=n1+1
+          any_data=false
+          vars.each do |v|
+            data=row[pattern.gsub("%v",v.to_s).gsub("%n",n.to_s)]
+            row_out[v]=data
+            any_data=true if !data.nil?
+          end
+          if any_data
+            row_out["_col_id"]=n
+            ds.add_case(row_out,false)
+          end
+        end
+      end
+      ds.update_valid_data
+      ds
+    end
 		def summary
 			out=""
 			out << "Summary for dataset\n"

data/lib/statsample/dominanceanalysis.rb CHANGED Viewed

@@ -38,15 +38,16 @@ module Statsample
             return 0.5 if dm==0.5
             dominances=[dm]
             @models_data.each{|k,m|
-                if !m.contributions[i].nil? and !m.contributions[j].nil?
-                    if m.contributions[i]>m.contributions[j]
-                        dominances.push(1)
-                    elsif m.contributions[i]<m.contributions[j]
-                        dominances.push(0)
-                    else
-                        dominances.push(0.5)
-                    end
+              if !m.contributions[i].nil? and !m.contributions[j].nil?
+                if m.contributions[i]>m.contributions[j]
+                    dominances.push(1)
+                elsif m.contributions[i]<m.contributions[j]
+                    dominances.push(0)
+                else
+                  return 0.5
+                    #dominances.push(0.5)
                 end
+              end
             }
             final=dominances.uniq
             final.size>1 ? 0.5 : final[0]
@@ -64,7 +65,8 @@ module Statsample
                 elsif a[i]<a[j]
                     dominances.push(0)
                 else
-                    a(0.5)
+                  return 0.5
+                    dominances.push(0.5)
                 end
             end
             final=dominances.uniq
@@ -72,34 +74,34 @@ module Statsample
         end
         # Returns 1 if i gD k, 0 if j gD i and 0.5 if undetermined
         def general_dominance_pairwise(i,j)
-            ga=general_averages
-            if ga[i]>ga[j]
-                1
-            elsif ga[i]<ga[j]
-                0
-            else
-                0.5
-            end
+          ga=general_averages
+          if ga[i]>ga[j]
+              1
+          elsif ga[i]<ga[j]
+              0
+          else
+              0.5
+          end
         end
         def pairs
-            @models.find_all{|m| m.size==2}
+          @models.find_all{|m| m.size==2}
         end
         def total_dominance
             pairs.inject({}){|a,pair|
-                a[pair]=total_dominance_pairwise(pair[0], pair[1])
-                a
+              a[pair]=total_dominance_pairwise(pair[0], pair[1])
+              a
             }
         end
         def conditional_dominance
             pairs.inject({}){|a,pair|
-                a[pair]=conditional_dominance_pairwise(pair[0], pair[1])
-                a
+              a[pair]=conditional_dominance_pairwise(pair[0], pair[1])
+              a
             }
         end
         def general_dominance
             pairs.inject({}){|a,pair|
-                a[pair]=general_dominance_pairwise(pair[0], pair[1])
-                a
+              a[pair]=general_dominance_pairwise(pair[0], pair[1])
+              a
             }
         end
@@ -108,56 +110,61 @@ module Statsample
         end
         # Get all model of size k
         def md_k(k)
-            out=[]
-            models=@models.each{|m|
-                out.push(md(m)) if m.size==k
-            }
-            out
+          out=[]
+          models=@models.each{|m| out.push(md(m)) if m.size==k }
+          out
         end
+        # For a hash with arrays of numbers as values
+        # Returns a hash with same keys and
+        # value as the mean of values of original hash
         def get_averages(averages)
           out={}
           averages.each{|key,val| out[key]=val.to_vector(:scale).mean }
           out
         end
+        # Hash with average for each k size
+        # model
         def average_k(k)
-            return nil if k==@fields.size
-            models=md_k(k)
-            averages=@fields.inject({}) {|a,v| a[v]=[];a}
-            models.each{|m|
-                @fields.each{|f|
-                    averages[f].push(m.contributions[f]) unless m.contributions[f].nil?
-                }
-            }
-            get_averages(averages)
+          return nil if k==@fields.size
+          models=md_k(k)
+          averages=@fields.inject({}) {|a,v| a[v]=[];a}
+          models.each do |m|
+            @fields.each do |f|
+              averages[f].push(m.contributions[f]) unless m.contributions[f].nil?
+            end
+          end
+          get_averages(averages)
         end
         def general_averages
-            if @general_averages.nil?
-                averages=@fields.inject({}) {|a,v| a[v]=[md(v).r2];a}
-                for k in 1...@fields.size
-                    ak=average_k(k)
-                    @fields.each{|f|
-                        averages[f].push(ak[f])
-                    }
-                end
-                @general_averages=get_averages(averages)
+          if @general_averages.nil?
+            averages=@fields.inject({}) {|a,v| a[v]=[md(v).r2];a}
+            for k in 1...@fields.size
+                ak=average_k(k)
+                @fields.each{|f|
+                    averages[f].push(ak[f])
+                }
             end
-            @general_averages
+            @general_averages=get_averages(averages)
+          end
+          @general_averages
         end
         def create_models
-            @models=[]
-            @models_data={}
-            for i in 1..@fields.size
-                c=Statsample::Combination.new(i,@fields.size)
-                c.each{|data|
-                    convert=data.collect {|i1|
-                        @fields[i1]
-                    }
-                    @models.push(convert)
-                    ds_prev=@ds.dup(convert+[@y_var])
-                    modeldata=ModelData.new(convert,ds_prev, @y_var, @fields, @r_class)
-                    @models_data[convert.sort]=modeldata
-                }
-            end
+          @models=[]
+          @models_data={}
+          for i in 1..@fields.size
+              c=Statsample::Combination.new(i,@fields.size)
+              c.each{|data|
+                  convert=data.collect {|i1|
+                      @fields[i1]
+                  }
+                  @models.push(convert)
+                  ds_prev=@ds.dup(convert+[@y_var])
+                  modeldata=ModelData.new(convert,ds_prev, @y_var, @fields, @r_class)
+                  @models_data[convert.sort]=modeldata
+              }
+          end
         end
         def summary(report_type=ConsoleSummary)
             out=""

data/lib/statsample/dominanceanalysis/bootstrap.rb CHANGED Viewed

@@ -26,25 +26,29 @@ class DominanceAnalysis
             end
             @da
         end
+        # Creates re-samples from original dataset.
+        # * number_samples: Number of new samples to add
+        # * n: size of each new sample. If nil, equal to original sample size
+        # * report: if true, echo number of current resample and total
         def bootstrap(number_samples,n=nil,report=false)
-                number_samples.times{ |t|
-                    @n_samples+=1
-                    puts _("Bootstrap %d of %d") % [t+1, number_samples] if report
-                    ds_boot=@ds.bootstrap(n)
-                    da_1=DominanceAnalysis.new(ds_boot,@y_var,@lr_class)
-                    da_1.total_dominance.each{|k,v|
-                        @samples_td[k].push(v)
-                    }
-                    da_1.conditional_dominance.each{|k,v|
-                        @samples_cd[k].push(v)
-                    }
-                    da_1.general_dominance.each{|k,v|
-                        @samples_gd[k].push(v)
-                    }
-                    da_1.general_averages.each{|k,v|
-                        @samples_ga[k].push(v)
-                    }
-                }
+          number_samples.times{ |t|
+            @n_samples+=1
+            puts _("Bootstrap %d of %d") % [t+1, number_samples] if report
+            ds_boot=@ds.bootstrap(n)
+            da_1=DominanceAnalysis.new(ds_boot,@y_var,@lr_class)
+            da_1.total_dominance.each{|k,v|
+                @samples_td[k].push(v)
+            }
+            da_1.conditional_dominance.each{|k,v|
+                @samples_cd[k].push(v)
+            }
+            da_1.general_dominance.each{|k,v|
+                @samples_gd[k].push(v)
+            }
+            da_1.general_averages.each{|k,v|
+                @samples_ga[k].push(v)
+            }
+          }
         end
         def create_samples_pairs
             @samples_td={}
@@ -106,7 +110,7 @@ class DominanceAnalysis
             table.header=[_("var"),_("mean"),_("se"),_("p.5"),_("p.95")]
             @fields.each{|f|
                 v=@samples_ga[f].to_vector(:scale)
-                row=[@ds.vector_label(f), sprintf("%0.3f",v.mean), sprintf("%0.3f",v.sd), sprintf("%0.3f",v.percentil(5)),sprintf("%0.3f",v.percentil(95))]
+                row=[@ds.label(f), sprintf("%0.3f",v.mean), sprintf("%0.3f",v.sd), sprintf("%0.3f",v.percentil(5)),sprintf("%0.3f",v.percentil(95))]
                 table.add_row(row)
             }
@@ -115,10 +119,10 @@ class DominanceAnalysis
         end
         def summary_pairs(pair,std,ttd)
             freqs=std.proportions
-            [0,0.5,1].each{|n|
+            [0, 0.5, 1].each{|n|
                 freqs[n]=0 if freqs[n].nil?
             }
-            name=@ds.vector_label(pair[0])+" - "+@ds.vector_label(pair[1])
+            name=@ds.label(pair[0])+" - "+@ds.label(pair[1])
             [name,f(ttd,1),f(std.mean,4),f(std.sd),f(freqs[1]), f(freqs[0]), f(freqs[0.5]), f(freqs[ttd])]
         end
         def f(v,n=3)

data/lib/statsample/factor.rb ADDED Viewed

@@ -0,0 +1,18 @@
+require 'statsample/factor/pca'
+require 'statsample/factor/principalaxis'
+require 'statsample/factor/rotation'
+module Statsample
+  # = Factor Analysis toolbox
+  # * Classes for Extraction of factors:
+  #   * Statsample::Factor::PCA
+  #   * Statsample::Factor::PrincipalAxis
+  # * Classes for Rotation of factors:
+  #   * Statsample::Factor::Varimax
+  #   * Statsample::Factor::Equimax
+  #   * Statsample::Factor::Quartimax
+  #
+  # See documentation of each class to use it
+  module Factor
+  end
+end