RubyGems - statsample - Versions diffs - 0.11.2 → 0.12.0 - Mend

statsample 0.11.2 → 0.12.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (29) hide show

data.tar.gz.sig +1 -2
data/History.txt +11 -0
data/Manifest.txt +4 -0
data/README.txt +14 -5
data/Rakefile +24 -3
data/data/locale/es/LC_MESSAGES/statsample.mo +0 -0
data/doc_latex/manual/equations.tex +78 -0
data/examples/reliability.rb +1 -1
data/lib/distribution.rb +5 -1
data/lib/distribution/normalbivariate.rb +7 -1
data/lib/distribution/normalmultivariate.rb +73 -0
data/lib/distribution/t.rb +34 -1
data/lib/statsample.rb +2 -1
data/lib/statsample/anova/twoway.rb +1 -1
data/lib/statsample/bivariate/polychoric.rb +190 -69
data/lib/statsample/factor/pca.rb +1 -1
data/lib/statsample/graph/svgscatterplot.rb +10 -1
data/lib/statsample/reliability.rb +38 -191
data/lib/statsample/reliability/multiscaleanalysis.rb +87 -0
data/lib/statsample/reliability/scaleanalysis.rb +204 -0
data/po/es/statsample.mo +0 -0
data/po/es/statsample.po +193 -49
data/po/statsample.pot +173 -40
data/test/test_bivariate_polychoric.rb +6 -6
data/test/test_distribution.rb +1 -1
data/test/test_reliability.rb +87 -8
data/test/test_vector.rb +0 -8
metadata +44 -36
metadata.gz.sig +0 -0

data/lib/statsample/factor/pca.rb CHANGED Viewed

@@ -39,7 +39,7 @@ module Factor
     include GetText
     bindtextdomain("statsample")
-    def initialize(matrix ,opts=Hash.new)
+    def initialize(matrix, opts=Hash.new)
 	@use_gsl=nil
       @name=_("Principal Component Analysis")
       @matrix=matrix

data/lib/statsample/graph/svgscatterplot.rb CHANGED Viewed

@@ -1,3 +1,4 @@
+require 'tempfile'
 module Statsample
   module Graph
     class SvgScatterplot < SVG::Graph::Plot # :nodoc:
@@ -7,6 +8,14 @@ module Statsample
           @ds=ds
           set_x(@ds.fields[0])
       end
+      def report_building_html(g)
+        self.parse()
+        tf=Tempfile.new(['image','.svg'])
+        tf.write self.burn
+        tf.close
+        image=ReportBuilder::Image.new(tf.path)
+        g.parse_element(image)
+      end
       def set_defaults
           super
           init_with(
@@ -27,7 +36,7 @@ module Statsample
         }
         data.each{|y,d|
           add_data({
-                  :data=>d, :title=>@ds.vector_label(y)
+              :data=>d, :title=>@ds[y].name
           })
         }
       end

data/lib/statsample/reliability.rb CHANGED Viewed

@@ -21,13 +21,44 @@ module Statsample
         }.to_dataset
         cronbach_alpha(ds)
       end
+      def cronbach_alpha_from_n_s2_cov(n,s2,cov)
+        (n.quo(n-1)) * (1-(s2.quo(s2+(n-1)*cov)))
+      end
+      # Returns n necessary to obtain specific alpha
+      # given variance and covariance mean of items
+      def n_for_desired_alpha(alpha,s2,cov)
+        # Start with a regular test : 50 items
+        min=2
+        max=1000
+        n=50
+        prev_n=0
+        epsilon=0.0001
+        dif=1000
+        c_a=cronbach_alpha_from_n_s2_cov(n,s2,cov)
+        dif=c_a - alpha
+        while(dif.abs>epsilon and n!=prev_n)
+          prev_n=n
+          if dif<0
+            min=n
+            n=(n+(max-min).quo(2)).to_i
+          else
+            max=n
+            n=(n-(max-min).quo(2)).to_i
+          end
+          c_a=cronbach_alpha_from_n_s2_cov(n,s2,cov)
+          dif=c_a - alpha
+          #puts "#{n} , #{c_a}"
+        end
+        n
+      end
       # First derivative for alfa
       # Parameters
       # <tt>n</tt>: Number of items
       # <tt>sx</tt>: mean of variances
       # <tt>sxy</tt>: mean of covariances
-      def alfa_first_derivative(n,sx,sxy)
+      def alpha_first_derivative(n,sx,sxy)
         (sxy*(sx-sxy)).quo(((sxy*(n-1))+sx)**2)
       end
       # Second derivative for alfa
@@ -75,193 +106,9 @@ module Statsample
           out[value]=count_value.quo(n)
         end
         out
-      end
-    end
-    class ItemAnalysis
-      attr_reader :mean, :sd,:valid_n, :alpha , :alpha_standarized, :variances_mean, :covariances_mean
-      attr_accessor :name
-      def initialize(ds,opts=Hash.new)
-        @ds=ds.dup_only_valid
-        @k=@ds.fields.size
-        @total=@ds.vector_sum
-        @item_mean=@ds.vector_mean.mean
-        @mean=@total.mean
-        @median=@total.median
-        @skew=@total.skew
-        @kurtosis=@total.kurtosis
-        @sd = @total.sd
-        @variance=@total.variance
-        @valid_n = @total.size
-        opts_default={:name=>"Reliability Analisis"}
-        @opts=opts_default.merge(opts)
-        @name=@opts[:name]
-        # Mean for covariances and variances
-        @variances=@ds.fields.map {|f| @ds[f].variance}.to_scale
-        @variances_mean=@variances.mean
-        @covariances_mean=(@variance-@variances.sum).quo(@k**2-@k)
-        begin
-          @alpha = Statsample::Reliability.cronbach_alpha(ds)
-          @alpha_standarized = Statsample::Reliability.cronbach_alpha_standarized(ds)
-        rescue => e
-          raise DatasetException.new(@ds,e), "Error calculating alpha"
-        end
-      end
-      # Returns a hash with structure
-      def item_characteristic_curve
-        i=0
-        out={}
-        total={}
-        @ds.each do |row|
-          tot=@total[i]
-          @ds.fields.each do |f|
-            out[f]||= {}
-            total[f]||={}
-            out[f][tot]||= 0
-            total[f][tot]||=0
-            out[f][tot]+= row[f]
-            total[f][tot]+=1
-          end
-          i+=1
-        end
-        total.each do |f,var|
-          var.each do |tot,v|
-            out[f][tot]=out[f][tot].to_f / total[f][tot]
-          end
-        end
-        out
-      end
-      def gnuplot_item_characteristic_curve(directory, base="crd",options={})
-        require 'gnuplot'
-        crd=item_characteristic_curve
-        @ds.fields.each  do |f|
-          x=[]
-          y=[]
-          Gnuplot.open do |gp|
-            Gnuplot::Plot.new( gp ) do |plot|
-              crd[f].sort.each do |tot,prop|
-                x.push(tot)
-                y.push((prop*100).to_i.to_f/100)
-              end
-              plot.data << Gnuplot::DataSet.new( [x, y] ) do |ds|
-                ds.with = "linespoints"
-                ds.notitle
-              end
-            end
-          end
-        end
-      end
-      def svggraph_item_characteristic_curve(directory, base="icc",options={})
-        require 'statsample/graph/svggraph'
-        crd=ItemCharacteristicCurve.new(@ds)
-        @ds.fields.each do |f|
-          factors=@ds[f].factors.sort
-          options={
-            :height=>500,
-            :width=>800,
-            :key=>true
-          }.update(options)
-          graph = ::SVG::Graph::Plot.new(options)
-          factors.each do |factor|
-            factor=factor.to_s
-            dataset=[]
-            crd.curve_field(f, factor).each do |tot,prop|
-              dataset.push(tot)
-              dataset.push((prop*100).to_i.to_f/100)
-            end
-            graph.add_data({
-              :title=>"#{factor}",
-              :data=>dataset
-            })
-          end
-          File.open(directory+"/"+base+"_#{f}.svg","w") {|fp|
-            fp.puts(graph.burn())
-          }
-        end
-      end
-      def item_total_correlation
-        @ds.fields.inject({}) do |a,v|
-          vector=@ds[v].dup
-          ds2=@ds.dup
-          ds2.delete_vector(v)
-          total=ds2.vector_sum
-          a[v]=Statsample::Bivariate.pearson(vector,total)
-          a
-        end
-      end
-      def item_statistics
-        @ds.fields.inject({}) do |a,v|
-          a[v]={:mean=>@ds[v].mean,:sds=>@ds[v].sds}
-          a
-        end
-      end
-      # Returns a dataset with cases ordered by score
-      # and variables ordered by difficulty
-      def item_difficulty_analysis
-        dif={}
-        @ds.fields.each{|f| dif[f]=@ds[f].mean }
-        dif_sort=dif.sort{|a,b| -(a[1]<=>b[1])}
-        scores_sort={}
-        scores=@ds.vector_mean
-        scores.each_index{|i| scores_sort[i]=scores[i] }
-        scores_sort=scores_sort.sort{|a,b| a[1]<=>b[1]}
-        ds_new=Statsample::Dataset.new(['case','score'] + dif_sort.collect{|a,b| a})
-        scores_sort.each do |i,score|
-          row=[i, score]
-          case_row=@ds.case_as_hash(i)
-          dif_sort.each{|variable,dif_value| row.push(case_row[variable]) }
-          ds_new.add_case_array(row)
-        end
-        ds_new.update_valid_data
-        ds_new
-      end
-      def stats_if_deleted
-        @ds.fields.inject({}) do |a,v|
-          ds2=@ds.dup
-          ds2.delete_vector(v)
-          total=ds2.vector_sum
-          a[v]={}
-          a[v][:mean]=total.mean
-          a[v][:sds]=total.sds
-          a[v][:variance_sample]=total.variance_sample
-          a[v][:alpha]=Statsample::Reliability.cronbach_alpha(ds2)
-          a
-        end
-      end
-      def summary
-        ReportBuilder.new(:no_title=>true).add(self).to_text
-      end
-      def report_building(builder)
-        builder.section(:name=>@name) do |s|
-          s.table(:name=>"Summary") do |t|
-            t.row ["Items", @ds.fields.size]
-            t.row ["Total Mean", @mean]
-            t.row ["Total S.D.", @sd]
-            t.row ["Total Variance", @variance]
-            t.row ["Item Mean", @item_mean]
-            t.row ["Median", @median]
-            t.row ["Skewness", "%0.4f" % @skew]
-            t.row ["Kurtosis", "%0.4f" % @kurtosis]
-            t.row ["Valid n", @valid_n]
-            t.row ["Cronbach's alpha", "%0.4f" % @alpha]
-            t.row ["Standarized Cronbach's alpha", "%0.4f" % @alpha_standarized]
-            t.row ["Variances mean",  "%g" % @variances_mean]
-            t.row ["Covariances mean" , "%g" % @covariances_mean]
-          end
-          itc=item_total_correlation
-          sid=stats_if_deleted
-          is=item_statistics
-          s.table(:name=>"Items report", :header=>["item","mean","sd", "mean if deleted", "var if deleted", "sd if deleted"," item-total correl.", "alpha if deleted"]) do |t|
-            @ds.fields.each do |f|
-              t.row(["#{@ds[f].name}(#{f})", sprintf("%0.5f",is[f][:mean]), sprintf("%0.5f",is[f][:sds]), sprintf("%0.5f",sid[f][:mean]), sprintf("%0.5f",sid[f][:variance_sample]), sprintf("%0.5f",sid[f][:sds]),  sprintf("%0.5f",itc[f]), sprintf("%0.5f",sid[f][:alpha])])
-            end
-          end
-          end
-      end
-    end
-  end
-end
+      end # def
+    end # self
+   end # Reliability
+ end # Statsample
+require 'statsample/reliability/scaleanalysis.rb'
+require 'statsample/reliability/multiscaleanalysis.rb'

data/lib/statsample/reliability/multiscaleanalysis.rb ADDED Viewed

@@ -0,0 +1,87 @@
+module Statsample
+  module Reliability
+    # DSL for analysis of multiple scales analysis. Analoge of Scale Reliability analysis on SPSS.
+    # Returns several statistics for complete scale and each item
+    # == Usage
+    #  @x1=[1,1,1,1,2,2,2,2,3,3,3,30].to_vector(:scale)
+    #  @x2=[1,1,1,2,2,3,3,3,3,4,4,50].to_vector(:scale)
+    #  @x3=[2,2,1,1,1,2,2,2,3,4,5,40].to_vector(:scale)
+    #  @x4=[1,2,3,4,4,4,4,3,4,4,5,30].to_vector(:scale)
+    #  ds={'x1'=>@x1,'x2'=>@x2,'x3'=>@x3,'x4'=>@x4}.to_dataset
+    #  msa=Statsample::Reliability::MultiScaleAnalysis.new(:name=>"Scales") do |m|
+    #    m.scale :s1, "Section 1", ds.clone(%w{x1 x2})
+    #    m.scale :s2, "Section 2", ds.clone(%w{x3 x4})
+    #    m.correlation_matrix
+    #    m.factor_analysis
+    #  end
+    #  puts msa.summary
+    class MultiScaleAnalysis
+      include Statsample::Summarizable
+      attr_reader :scales
+      attr_accessor :name
+      attr_accessor :summary_correlation_matrix
+      attr_accessor :summary_pca
+      attr_accessor :pca_options
+      def initialize(opts=Hash.new, &block)
+        @scales=Hash.new
+        opts_default={  :name=>_("Multiple Scale analysis"),
+                        :summary_correlation_matrix=>false,
+                        :summary_pca=>false,
+                        :pca_options=>Hash.new}
+        @opts=opts_default.merge(opts)
+        @opts.each{|k,v|
+          self.send("#{k}=",v) if self.respond_to? k
+        }
+        if block
+          block.arity<1 ? instance_eval(&block) : block.call(self)
+        end
+      end
+      def scale(code,ds=nil, opts=nil)
+        if ds.nil?
+          @scales[code]
+        else
+          opts={:name=>_("Scale %s") % code} if opts.nil?
+          @scales[code]=ScaleAnalysis.new(ds, opts)
+        end
+      end
+      def delete_scale(code)
+        @scales.delete code
+      end
+      def pca(opts=Hash.new)
+        Statsample::Factor::PCA.new(correlation_matrix,opts)
+      end
+      def factor_analysis(opts=nil)
+        opts||=pca_options
+        Statsample::Factor::FactorAnalysis.new(correlation_matrix,opts)
+      end
+      def correlation_matrix
+        vectors=Hash.new
+        @scales.each_pair do |code,scale|
+          vectors[code.to_s]=scale.ds.vector_sum
+        end
+        Statsample::Bivariate.correlation_matrix(vectors.to_dataset)
+      end
+      def report_building(b)
+        b.section(:name=>name) do |s|
+          s.section(:name=>_("Reliability analysis of scales")) do |s2|
+            @scales.each_pair do |k,scale|
+              s2.parse_element(scale)
+            end
+          end
+          if summary_correlation_matrix
+            s.section(:name=>_("Correlation matrix for %s") % name) do |s2|
+              s2.parse_element(correlation_matrix)
+            end
+          end
+          if summary_pca
+            s.section(:name=>_("PCA for %s") % name) do |s2|
+              s2.parse_element(pca)
+            end
+          end
+        end
+      end
+    end
+  end
+end

data/lib/statsample/reliability/scaleanalysis.rb ADDED Viewed

@@ -0,0 +1,204 @@
+module Statsample
+  module Reliability
+    # Analysis of a Scale. Analoge of Scale Reliability analysis on SPSS.
+    # Returns several statistics for complete scale and each item
+    # == Usage
+    #  @x1=[1,1,1,1,2,2,2,2,3,3,3,30].to_vector(:scale)
+    #  @x2=[1,1,1,2,2,3,3,3,3,4,4,50].to_vector(:scale)
+    #  @x3=[2,2,1,1,1,2,2,2,3,4,5,40].to_vector(:scale)
+    #  @x4=[1,2,3,4,4,4,4,3,4,4,5,30].to_vector(:scale)
+    #  ds={'x1'=>@x1,'x2'=>@x2,'x3'=>@x3,'x4'=>@x4}.to_dataset
+    #  ia=Statsample::Reliability::ScaleAnalysis.new(ds)
+    #  puts ia.summary
+    class ScaleAnalysis
+      include Summarizable
+      attr_reader :ds,:mean, :sd,:valid_n, :alpha , :alpha_standarized, :variances_mean, :covariances_mean
+      attr_accessor :name
+      def initialize(ds, opts=Hash.new)
+        @ds=ds.dup_only_valid
+        @k=@ds.fields.size
+        @total=@ds.vector_sum
+        @item_mean=@ds.vector_mean.mean
+        @mean=@total.mean
+        @median=@total.median
+        @skew=@total.skew
+        @kurtosis=@total.kurtosis
+        @sd = @total.sd
+        @variance=@total.variance
+        @valid_n = @total.size
+        opts_default={:name=>"Reliability Analisis"}
+        @opts=opts_default.merge(opts)
+        @name=@opts[:name]
+        # Mean for covariances and variances
+        @variances=@ds.fields.map {|f| @ds[f].variance}.to_scale
+        @variances_mean=@variances.mean
+        @covariances_mean=(@variance-@variances.sum).quo(@k**2-@k)
+        begin
+          @alpha = Statsample::Reliability.cronbach_alpha(ds)
+          @alpha_standarized = Statsample::Reliability.cronbach_alpha_standarized(ds)
+        rescue => e
+          raise DatasetException.new(@ds,e), "Error calculating alpha"
+        end
+      end
+      # Returns a hash with structure
+      def item_characteristic_curve
+        i=0
+        out={}
+        total={}
+        @ds.each do |row|
+          tot=@total[i]
+          @ds.fields.each do |f|
+            out[f]||= {}
+            total[f]||={}
+            out[f][tot]||= 0
+            total[f][tot]||=0
+            out[f][tot]+= row[f]
+            total[f][tot]+=1
+          end
+          i+=1
+        end
+        total.each do |f,var|
+          var.each do |tot,v|
+            out[f][tot]=out[f][tot].to_f / total[f][tot]
+          end
+        end
+        out
+      end
+      def gnuplot_item_characteristic_curve(directory, base="crd",options={})
+        require 'gnuplot'
+        crd=item_characteristic_curve
+        @ds.fields.each  do |f|
+          x=[]
+          y=[]
+          Gnuplot.open do |gp|
+            Gnuplot::Plot.new( gp ) do |plot|
+              crd[f].sort.each do |tot,prop|
+                x.push(tot)
+                y.push((prop*100).to_i.to_f/100)
+              end
+              plot.data << Gnuplot::DataSet.new( [x, y] ) do |ds|
+                ds.with = "linespoints"
+                ds.notitle
+              end
+            end
+          end
+        end
+      end
+      def svggraph_item_characteristic_curve(directory, base="icc",options={})
+        require 'statsample/graph/svggraph'
+        crd=ItemCharacteristicCurve.new(@ds)
+        @ds.fields.each do |f|
+          factors=@ds[f].factors.sort
+          options={
+            :height=>500,
+            :width=>800,
+            :key=>true
+          }.update(options)
+          graph = ::SVG::Graph::Plot.new(options)
+          factors.each do |factor|
+            factor=factor.to_s
+            dataset=[]
+            crd.curve_field(f, factor).each do |tot,prop|
+              dataset.push(tot)
+              dataset.push((prop*100).to_i.to_f/100)
+            end
+            graph.add_data({
+              :title=>"#{factor}",
+              :data=>dataset
+            })
+          end
+          File.open(directory+"/"+base+"_#{f}.svg","w") {|fp|
+            fp.puts(graph.burn())
+          }
+        end
+      end
+      def item_total_correlation
+        @ds.fields.inject({}) do |a,v|
+          vector=@ds[v].dup
+          ds2=@ds.dup
+          ds2.delete_vector(v)
+          total=ds2.vector_sum
+          a[v]=Statsample::Bivariate.pearson(vector,total)
+          a
+        end
+      end
+      def item_statistics
+        @ds.fields.inject({}) do |a,v|
+          a[v]={:mean=>@ds[v].mean,:sds=>@ds[v].sds}
+          a
+        end
+      end
+      # Returns a dataset with cases ordered by score
+      # and variables ordered by difficulty
+      def item_difficulty_analysis
+        dif={}
+        @ds.fields.each{|f| dif[f]=@ds[f].mean }
+        dif_sort=dif.sort{|a,b| -(a[1]<=>b[1])}
+        scores_sort={}
+        scores=@ds.vector_mean
+        scores.each_index{|i| scores_sort[i]=scores[i] }
+        scores_sort=scores_sort.sort{|a,b| a[1]<=>b[1]}
+        ds_new=Statsample::Dataset.new(['case','score'] + dif_sort.collect{|a,b| a})
+        scores_sort.each do |i,score|
+          row=[i, score]
+          case_row=@ds.case_as_hash(i)
+          dif_sort.each{|variable,dif_value| row.push(case_row[variable]) }
+          ds_new.add_case_array(row)
+        end
+        ds_new.update_valid_data
+        ds_new
+      end
+      def stats_if_deleted
+        @ds.fields.inject({}) do |a,v|
+          ds2=@ds.dup
+          ds2.delete_vector(v)
+          total=ds2.vector_sum
+          a[v]={}
+          a[v][:mean]=total.mean
+          a[v][:sds]=total.sds
+          a[v][:variance_sample]=total.variance_sample
+          a[v][:alpha]=Statsample::Reliability.cronbach_alpha(ds2)
+          a
+        end
+      end
+      def report_building(builder)
+        builder.section(:name=>@name) do |s|
+          s.table(:name=>_("Summary for %s") % @name) do |t|
+          t.row [_("Items"), @ds.fields.size]
+          t.row [_("Sum mean"), @mean]
+          t.row [_("Sum sd"), @sd]
+          t.row [_("Sum variance"), @variance]
+          t.row [_("Sum median"), @median]
+          t.hr
+          t.row [_("Item mean"), @item_mean]
+          t.row [_("Skewness"), "%0.4f" % @skew]
+          t.row [_("Kurtosis"), "%0.4f" % @kurtosis]
+          t.hr
+          t.row [_("Valid n"), @valid_n]
+          t.row [_("Cronbach's alpha"), "%0.4f" % @alpha]
+          t.row [_("Standarized Cronbach's alpha"), "%0.4f" % @alpha_standarized]
+          t.hr
+          t.row [_("Variances mean"),  "%g" % @variances_mean]
+          t.row [_("Covariances mean") , "%g" % @covariances_mean]
+          end
+          s.text _("items for obtain alpha(0.8) : %d" % Statsample::Reliability::n_for_desired_alpha(0.8, @variances_mean,@covariances_mean))
+          s.text _("items for obtain alpha(0.9) : %d" % Statsample::Reliability::n_for_desired_alpha(0.9, @variances_mean,@covariances_mean))
+          itc=item_total_correlation
+          sid=stats_if_deleted
+          is=item_statistics
+          s.table(:name=>_("Items report for %s") % @name, :header=>["item","mean","sd", "mean if deleted", "var if deleted", "sd if deleted"," item-total correl.", "alpha if deleted"]) do |t|
+            @ds.fields.each do |f|
+              t.row(["#{@ds[f].name}(#{f})", sprintf("%0.5f",is[f][:mean]), sprintf("%0.5f",is[f][:sds]), sprintf("%0.5f",sid[f][:mean]), sprintf("%0.5f",sid[f][:variance_sample]), sprintf("%0.5f",sid[f][:sds]),  sprintf("%0.5f",itc[f]), sprintf("%0.5f",sid[f][:alpha])])
+            end # end each
+          end # table
+        end # section
+      end # def
+    end # class
+  end # module
+end # module