RubyGems - statsample - Versions diffs - 0.5.0 → 0.5.1 - Mend

statsample 0.5.0 → 0.5.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (36) hide show

data/History.txt +11 -0
data/Manifest.txt +7 -0
data/README.txt +3 -3
data/data/repeated_fields.csv +7 -0
data/data/tetmat_matrix.txt +5 -0
data/data/tetmat_test.txt +1001 -0
data/demo/spss_matrix.rb +3 -0
data/lib/spss.rb +1 -1
data/lib/statistics2.rb +1 -1
data/lib/statsample.rb +30 -1
data/lib/statsample/anova.rb +62 -66
data/lib/statsample/bivariate.rb +273 -281
data/lib/statsample/bivariate/tetrachoric.rb +418 -0
data/lib/statsample/codification.rb +15 -15
data/lib/statsample/combination.rb +108 -106
data/lib/statsample/converter/csv18.rb +52 -52
data/lib/statsample/converter/csv19.rb +45 -48
data/lib/statsample/converter/spss.rb +47 -0
data/lib/statsample/converters.rb +74 -77
data/lib/statsample/crosstab.rb +21 -17
data/lib/statsample/dataset.rb +595 -543
data/lib/statsample/dominanceanalysis.rb +7 -10
data/lib/statsample/htmlreport.rb +23 -0
data/lib/statsample/regression/multiple/baseengine.rb +59 -59
data/lib/statsample/regression/multiple/gslengine.rb +1 -1
data/lib/statsample/reliability.rb +165 -145
data/lib/statsample/vector.rb +16 -2
data/test/test_anova.rb +16 -16
data/test/test_bivariate.rb +146 -0
data/test/test_csv.rb +6 -0
data/test/test_dataset.rb +49 -5
data/test/test_statistics.rb +6 -90
data/test/test_vector.rb +27 -10
metadata +10 -4
data/test/test_r.rb +0 -9
data/test/test_stata.rb +0 -11

data/lib/statsample/dominanceanalysis.rb CHANGED Viewed

@@ -114,6 +114,11 @@ module Statsample
             }
             out
         end
+        def get_averages(averages)
+          out={}
+          averages.each{|key,val| out[key]=val.to_vector(:scale).mean }
+          out
+        end
         def average_k(k)
             return nil if k==@fields.size
             models=md_k(k)
@@ -123,11 +128,7 @@ module Statsample
                     averages[f].push(m.contributions[f]) unless m.contributions[f].nil?
                 }
             }
-            out={}
-            averages.each{|key,val|
-                out[key]=val.to_vector(:scale).mean
-            }
-            out
+            get_averages(averages)
         end
         def general_averages
             if @general_averages.nil?
@@ -138,11 +139,7 @@ module Statsample
                         averages[f].push(ak[f])
                     }
                 end
-                out={}
-                averages.each{|key,val|
-                    out[key]=val.to_vector(:scale).mean
-                }
-                @general_averages=out
+                @general_averages=get_averages(averages)
             end
             @general_averages
         end

data/lib/statsample/htmlreport.rb CHANGED Viewed

@@ -27,6 +27,29 @@ module Statsample
         @uniq_file+=1
         "#{prepend}_#{@uniq_file}_#{Time.now.to_i}"
     end
+    def add_tetrachoric_correlation_matrix(ds)
+      add_anchor("Tetrachoric correlation Matrix")
+      html="<h2>Tetrachoric Correlation Matrix</h2> <table><thead><th>-</th><th>"+ds.fields.join("</th><th>")+"</th> </thead> <tbody>"
+        matrix=Statsample::Bivariate.tetrachoric_correlation_matrix(ds)
+        (0...(matrix.row_size)).each {|row|
+            html+="<tr><td>"+ds.fields[row]+"</td>"
+            (0...(matrix.column_size)).each {|col|
+                if matrix[row,col].nil?
+                    html+="<td>--</td>"
+                else
+                    html+="<td><strong>#{sprintf("%0.2f",matrix[row,col])}</td>"
+                end
+            }
+            html+="</tr>"
+        }
+        html+="</tbody></table>"
+        @partials.push(html)
+    end
     def add_correlation_matrix(ds)
         add_anchor("Correlation Matrix")
         html="<h2>Correlation Matrix</h2> <table><thead><th>-</th><th>"+ds.fields.join("</th><th>")+"</th> </thead> <tbody>"

data/lib/statsample/regression/multiple/baseengine.rb CHANGED Viewed

@@ -8,7 +8,7 @@ module Statsample
         @y_var=y_var
         @r2=nil
         end
         # Retrieves a vector with predicted values for y
         def predicted
         (0...@ds.cases).collect { |i|
@@ -52,13 +52,13 @@ module Statsample
         # Sum of squares (Error)
         def sse
         sst - ssr
-        end
+        end
         # T values for coeffs
         def coeffs_t
         out={}
         se=coeffs_se
         coeffs.each{|k,v|
-        out[k]=v / se[k]
+        out[k]=v / se[k]
         }
         out
         end
@@ -69,7 +69,7 @@ module Statsample
         # Mean Square Error
         def mse
         sse.quo(df_e)
-        end
+        end
         # Degrees of freedom for regression
         def df_r
         @dep_columns.size
@@ -113,7 +113,7 @@ module Statsample
         out
         end
         # Estimated Variance-Covariance Matrix
-        # Used for calculation of se of constant
+        # Used for calculation of se of constant
         def estimated_variance_covariance_matrix
         mse_p=mse
         columns=[]
@@ -129,7 +129,7 @@ module Statsample
         end
         # T for constant
         def constant_t
-        constant.to_f/constant_se
+        constant.to_f/constant_se
         end
         # Standard error for constant
         def constant_se
@@ -140,27 +140,27 @@ module Statsample
         c=coeffs
         out=""
         out.extend report_type
-        out.add <<HEREDOC
-        Summary for regression of #{@fields.join(',')} over #{@y_var}
-        *************************************************************
-        Engine: #{self.class}
-        Cases(listwise)=#{@ds.cases}(#{@ds_valid.cases})
-        r=#{sprintf("%0.3f",r)}
-        r2=#{sprintf("%0.3f",r2)}
-        Equation=#{sprintf("%0.3f",constant)}+#{@fields.collect {|k| sprintf("%0.3f%s",c[k],k)}.join(' + ')}
+        out.add <<-HEREDOC
+Summary for regression of #{@fields.join(',')} over #{@y_var}
+*************************************************************
+Engine: #{self.class}
+Cases(listwise)=#{@ds.cases}(#{@ds_valid.cases})
+r=#{sprintf("%0.3f",r)}
+r2=#{sprintf("%0.3f",r2)}
+Equation=#{sprintf("%0.3f",constant)}+#{@fields.collect {|k| sprintf("%0.3f%s",c[k],k)}.join(' + ')}
 HEREDOC
         out.add_line
         out.add "ANOVA TABLE"
         t=Statsample::ReportTable.new(%w{source ss df ms f s})
         t.add_row(["Regression", sprintf("%0.3f",ssr), df_r, sprintf("%0.3f",msr), sprintf("%0.3f",f), sprintf("%0.3f", significance)])
         t.add_row(["Error", sprintf("%0.3f",sse), df_e, sprintf("%0.3f",mse)])
         t.add_row(["Total", sprintf("%0.3f",sst), df_r+df_e])
         out.parse_table(t)
         begin
         out.add "Beta coefficientes"
         sc=standarized_coeffs
@@ -171,63 +171,63 @@ HEREDOC
         t.add_row([f, sprintf("%0.3f", c[f]), sprintf("%0.3f", sc[f]), sprintf("%0.3f", cse[f]), sprintf("%0.3f", c[f].quo(cse[f]))])
         }
         out.parse_table(t)
         rescue
         end
         out
         end
         def assign_names(c)
-        a={}
-        @fields.each_index {|i|
-        a[@fields[i]]=c[i]
-        }
-        a
-        end
+          a={}
+          @fields.each_index {|i|
+          a[@fields[i]]=c[i]
+          }
+          a
+        end
         # Deprecated
         # Sum of squares of error (manual calculation)
         # using the predicted value minus the y_i value
         def sse_manual
-        pr=predicted
-        cases=0
-        sse=(0...@ds.cases).inject(0) {|a,i|
-        if !@dy.data_with_nils[i].nil? and !pr[i].nil?
-        cases+=1
-        a+((pr[i]-@dy[i])**2)
-        else
-        a
-        end
-        }
-        sse*(min_n_valid-1.0).quo(cases-1)
+          pr=predicted
+          cases=0
+          sse=(0...@ds.cases).inject(0) {|a,i|
+          if !@dy.data_with_nils[i].nil? and !pr[i].nil?
+          cases+=1
+          a+((pr[i]-@dy[i])**2)
+          else
+          a
+          end
+          }
+          sse*(min_n_valid-1.0).quo(cases-1)
         end
         # Sum of squares of regression
         # using the predicted value minus y mean
         def ssr_direct
-        mean=@dy.mean
-        cases=0
-        ssr=(0...@ds.cases).inject(0) {|a,i|
-        invalid=false
-        v=@dep_columns.collect{|c| invalid=true if c[i].nil?; c[i]}
-        if !invalid
-        cases+=1
-        a+((process(v)-mean)**2)
-        else
-        a
-        end
-        }
-        ssr
+          mean=@dy.mean
+          cases=0
+          ssr=(0...@ds.cases).inject(0) {|a,i|
+            invalid=false
+            v=@dep_columns.collect{|c| invalid=true if c[i].nil?; c[i]}
+            if !invalid
+              cases+=1
+              a+((process(v)-mean)**2)
+            else
+              a
+            end
+          }
+          ssr
         end
         def sse_direct
-        sst-ssr
+          sst-ssr
         end
         def process(v)
-        c=coeffs
-        total=constant
-        @fields.each_index{|i|
-        total+=c[@fields[i]]*v[i]
-        }
-        total
+          c=coeffs
+          total=constant
+          @fields.each_index{|i|
+            total+=c[@fields[i]]*v[i]
+          }
+          total
         end
       end
     end

data/lib/statsample/regression/multiple/gslengine.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-if HAS_ALGIB
+if HAS_GSL
 module Statsample
 module Regression
 module Multiple

data/lib/statsample/reliability.rb CHANGED Viewed

@@ -1,160 +1,158 @@
 module Statsample
-	module Reliability
-		class << self
-            # Calculate Chonbach's alpha for a given dataset.
-            # only uses tuples without missing data
+  module Reliability
+	  class << self
+      # Calculate Chonbach's alpha for a given dataset.
+      # only uses tuples without missing data
 			def cronbach_alpha(ods)
 				ds=ods.dup_only_valid
 				n_items=ds.fields.size
 				sum_var_items=ds.vectors.inject(0) {|ac,v|
-					ac+v[1].variance_sample
-				}
+          ac+v[1].variance_sample }
 				total=ds.vector_sum
 				(n_items / (n_items-1).to_f) * (1-(sum_var_items/ total.variance_sample))
 			end
-            # Calculate Chonbach's alpha for a given dataset
-            # using standarized values for every vector.
-            # Only uses tuples without missing data
-            def cronbach_alpha_standarized(ods)
-                ds=ods.fields.inject({}){|a,f|
-                    a[f]=ods[f].vector_standarized
-                    a
-                }.to_dataset
-                cronbach_alpha(ds)
-            end
-		end
+      # Calculate Chonbach's alpha for a given dataset
+      # using standarized values for every vector.
+      # Only uses tuples without missing data
+      def cronbach_alpha_standarized(ods)
+        ds=ods.dup_only_valid.fields.inject({}){|a,f|
+          a[f]=ods[f].vector_standarized; a
+        }.to_dataset
+        cronbach_alpha(ds)
+      end
+		end
 		class ItemCharacteristicCurve
-            attr_reader :totals, :counts,:vector_total
-            def initialize (ds, vector_total=nil)
-                vector_total||=ds.vector_sum
-                raise "Total size != Dataset size" if vector_total.size!=ds.cases
-                @vector_total=vector_total
-                @ds=ds
-                @totals={}
-                @counts=@ds.fields.inject({}) {|a,v| a[v]={};a}
-                process
-            end
-            def process
-                i=0
-                @ds.each{|row|
-					tot=@vector_total[i]
-                   @totals[tot]||=0
-                   @totals[tot]+=1
-					@ds.fields.each {|f|
-                        item=row[f].to_s
-                       @counts[f][tot]||={}
-                       @counts[f][tot][item]||=0
-                       @counts[f][tot][item] += 1
-					}
+      attr_reader :totals, :counts,:vector_total
+      def initialize (ds, vector_total=nil)
+        vector_total||=ds.vector_sum
+        raise "Total size != Dataset size" if vector_total.size!=ds.cases
+        @vector_total=vector_total
+        @ds=ds
+        @totals={}
+        @counts=@ds.fields.inject({}) {|a,v| a[v]={};a}
+        process
+      end
+      def process
+        i=0
+        @ds.each do |row|
+          tot=@vector_total[i]
+          @totals[tot]||=0
+          @totals[tot]+=1
+					@ds.fields.each  do |f|
+            item=row[f].to_s
+            @counts[f][tot]||={}
+            @counts[f][tot][item]||=0
+            @counts[f][tot][item] += 1
+          end
 					i+=1
-				}
-            end
-            def curve_field(field, item)
-                out={}
-                item=item.to_s
-                @totals.each{|value,n|
-                    count_value= @counts[field][value][item].nil? ? 0 : @counts[field][value][item]
-                    out[value]=count_value.to_f/n.to_f
-                }
-                out
-            end
         end
+      end
+      def curve_field(field, item)
+        out={}
+        item=item.to_s
+        @totals.each{|value,n|
+            count_value= @counts[field][value][item].nil? ? 0 : @counts[field][value][item]
+            out[value]=count_value.to_f/n.to_f
+        }
+        out
+      end
+    end
 		class ItemAnalysis
-            attr_reader :mean, :sd,:valid_n, :alpha , :alpha_standarized
+      attr_reader :mean, :sd,:valid_n, :alpha , :alpha_standarized
 			def initialize(ds)
-				@ds=ds.dup_only_valid
-				@total=@ds.vector_sum
-				@mean=@total.mean
-                @median=@total.median
-                @skew=@total.skew
-                @kurtosis=@total.kurtosis
-				@sd=@total.sdp
-				@valid_n=@total.size
-                begin
-				@alpha=Statsample::Reliability.cronbach_alpha(ds)
-				@alpha_standarized=Statsample::Reliability.cronbach_alpha_standarized(ds)
-                rescue => e
-                    raise DatasetException.new(@ds,e), "Problem on calculate alpha"
-                end
+        @ds=ds.dup_only_valid
+        @total=@ds.vector_sum
+        @item_mean=@ds.vector_mean.mean
+        @mean=@total.mean
+        @median=@total.median
+        @skew=@total.skew
+        @kurtosis=@total.kurtosis
+        @sd = @total.sd
+        @valid_n = @total.size
+        begin
+          @alpha = Statsample::Reliability.cronbach_alpha(ds)
+          @alpha_standarized = Statsample::Reliability.cronbach_alpha_standarized(ds)
+        rescue => e
+          raise DatasetException.new(@ds,e), "Problem on calculate alpha"
+        end
 			end
             # Returns a hash with structure
 			def item_characteristic_curve
-				i=0
-				out={}
-                total={}
-				@ds.each{|row|
-					tot=@total[i]
-					@ds.fields.each {|f|
-						out[f]||= {}
-                        total[f]||={}
-						out[f][tot]||= 0
-                        total[f][tot]||=0
-						out[f][tot]+= row[f]
-                        total[f][tot]+=1
-					}
-					i+=1
-				}
-                total.each{|f,var|
-                    var.each{|tot,v|
-                        out[f][tot]=out[f][tot].to_f / total[f][tot]
-                    }
-                }
-                out
+        i=0
+        out={}
+        total={}
+        @ds.each do |row|
+          tot=@total[i]
+          @ds.fields.each do |f|
+            out[f]||= {}
+            total[f]||={}
+            out[f][tot]||= 0
+            total[f][tot]||=0
+            out[f][tot]+= row[f]
+            total[f][tot]+=1
+          end
+          i+=1
+        end
+        total.each do |f,var|
+          var.each do |tot,v|
+            out[f][tot]=out[f][tot].to_f / total[f][tot]
+          end
+        end
+        out
 			end
-            def gnuplot_item_characteristic_curve(directory, base="crd",options={})
-                require 'gnuplot'
-                crd=item_characteristic_curve
-                @ds.fields.each {|f|
-                    x=[]
-                    y=[]
-                Gnuplot.open do |gp|
-                Gnuplot::Plot.new( gp ) do |plot|
-                    crd[f].sort.each{|tot,prop|
-                       x.push(tot)
-                       y.push((prop*100).to_i.to_f/100)
-                   }
-                plot.data << Gnuplot::DataSet.new( [x, y] ) do |ds|
-                ds.with = "linespoints"
-                ds.notitle
-                end
-                end
-                end
-            }
-            end
-            def svggraph_item_characteristic_curve(directory, base="icc",options={})
-                require 'statsample/graph/svggraph'
-                crd=ItemCharacteristicCurve.new(@ds)
-               @ds.fields.each {|f|
-                   factors=@ds[f].factors.sort
-                   options={
-                           :height=>500,
-                           :width=>800,
-                           :key=>true
-                   }.update(options)
-                   graph = ::SVG::Graph::Plot.new(options)
-                   factors.each{|factor|
-                       factor=factor.to_s
-                       dataset=[]
-                           crd.curve_field(f, factor).each{|tot,prop|
-                               dataset.push(tot)
-                               dataset.push((prop*100).to_i.to_f/100)
-                            }
-                        graph.add_data({
-                                :title=>"#{factor}",
-                               :data=>dataset
-                        })
-                   }
-                   File.open(directory+"/"+base+"_#{f}.svg","w") {|fp|
-                       fp.puts(graph.burn())
-                   }
-               }
-           end
+      def gnuplot_item_characteristic_curve(directory, base="crd",options={})
+        require 'gnuplot'
+        crd=item_characteristic_curve
+        @ds.fields.each {|f|
+            x=[]
+            y=[]
+        Gnuplot.open do |gp|
+        Gnuplot::Plot.new( gp ) do |plot|
+            crd[f].sort.each{|tot,prop|
+               x.push(tot)
+               y.push((prop*100).to_i.to_f/100)
+           }
+        plot.data << Gnuplot::DataSet.new( [x, y] ) do |ds|
+        ds.with = "linespoints"
+        ds.notitle
+        end
+        end
+        end
+        }
+      end
+      def svggraph_item_characteristic_curve(directory, base="icc",options={})
+        require 'statsample/graph/svggraph'
+        crd=ItemCharacteristicCurve.new(@ds)
+        @ds.fields.each {|f|
+         factors=@ds[f].factors.sort
+         options={
+                 :height=>500,
+                 :width=>800,
+                 :key=>true
+         }.update(options)
+         graph = ::SVG::Graph::Plot.new(options)
+         factors.each{|factor|
+             factor=factor.to_s
+             dataset=[]
+                 crd.curve_field(f, factor).each{|tot,prop|
+                     dataset.push(tot)
+                     dataset.push((prop*100).to_i.to_f/100)
+                  }
+              graph.add_data({
+                      :title=>"#{factor}",
+                     :data=>dataset
+              })
+         }
+         File.open(directory+"/"+base+"_#{f}.svg","w") {|fp|
+             fp.puts(graph.burn())
+         }
+        }
+      end
 			def item_total_correlation
 				@ds.fields.inject({}) do |a,v|
 					vector=@ds[v].dup
@@ -163,7 +161,7 @@ module Statsample
 					total=ds2.vector_sum
 					a[v]=Statsample::Bivariate.pearson(vector,total)
 					a
-				end
+        end
 			end
 			def item_statistics
 				@ds.fields.inject({}) do |a,v|
@@ -171,9 +169,29 @@ module Statsample
 					a
 				end
 			end
+      # Returns a dataset with cases ordered by score
+      # and variables ordered by difficulty
+			def item_difficulty_analysis
+        dif={}
+        @ds.fields.each{|f| dif[f]=@ds[f].mean }
+        dif_sort=dif.sort{|a,b| -(a[1]<=>b[1])}
+        scores_sort={}
+        scores=@ds.vector_mean
+        scores.each_index{|i| scores_sort[i]=scores[i] }
+        scores_sort=scores_sort.sort{|a,b| a[1]<=>b[1]}
+        ds_new=Statsample::Dataset.new(['case','score'] + dif_sort.collect{|a,b| a})
+        scores_sort.each do |i,score|
+          row=[i, score]
+          case_row=@ds.case_as_hash(i)
+          dif_sort.each{|variable,dif_value| row.push(case_row[variable]) }
+          ds_new.add_case_array(row)
+        end
+        ds_new.update_valid_data
+        ds_new
+      end
 			def stats_if_deleted
-				@ds.fields.inject({}){|a,v|
+				@ds.fields.inject({}) do |a,v|
 					ds2=@ds.dup
 					ds2.delete_vector(v)
 					total=ds2.vector_sum
@@ -183,13 +201,15 @@ module Statsample
 					a[v][:variance_sample]=total.variance_sample
 					a[v][:alpha]=Statsample::Reliability.cronbach_alpha(ds2)
 					a
-				}
+        end
 			end
 			def html_summary
 				html = <<EOF
 <p><strong>Summary for scale:</strong></p>
 <ul>
-<li>Mean=#{@mean}</li>
+<li>Items=#{@ds.fields.size}</li>
+<li>Total Mean=#{@mean}</li>
+<li>Item Mean=#{@item_mean}</li>
 <li>Std.Dv.=#{@sd}</li>
 <li>Median=#{@median}</li>
 <li>Skewness=#{sprintf("%0.3f",@skew)}</li>