RubyGems - sclust - Versions diffs - 1.0.0 → 2.1.0 - Mend

sclust 1.0.0 → 2.1.0

Files changed (22) hide show

data/lib/sclust/kmean/cluster.rb +294 -0
data/lib/sclust/kmean/doccluster.rb +83 -0
data/lib/sclust/lda/lda.rb +243 -0
data/lib/sclust/lda/lda2.rb +328 -0
data/lib/sclust/util/doc.rb +134 -0
data/lib/sclust/util/doccol.rb +187 -0
data/lib/sclust/util/filters.rb +210 -0
data/lib/sclust/util/rss.rb +96 -0
data/lib/sclust/util/sparse_vector.rb +96 -0
data/lib/sclust/util/stopwords.rb +1149 -0
data/lib/sclust/util/weightedmovingaverage.rb +25 -0
data/lib/sclust/util/word.rb +53 -0
data/tests/clustertest.rb +56 -29
data/tests/filters_test.rb +48 -0
data/tests/ldatest.rb +75 -0
data/tests/sparse_vector_test.rb +61 -0
data/tests/test001.rb +49 -19
metadata +74 -40
data/lib/sclust/cluster.rb +0 -197
data/lib/sclust/doc.rb +0 -92
data/lib/sclust/doccluster.rb +0 -39
data/lib/sclust/doccol.rb +0 -75

@@ -1,75 +0,0 @@
-require 'rubygems'
-require 'log4r'
-module SClust
-class DocumentCollection
-    # terms - a hash were they keys are the terms in the documents and the values stored are the number of documents contiaining the term.
-    attr_reader :terms
-    # A list of documents
-    attr_reader :doclist
-    # Log4r::Logger for this document collection.
-    attr_reader :logger
-    def initialize()
-        @logger = Log4r::Logger.new("SClust::DocumentCollection")
-        @terms   = Hash.new(0)
-        @doclist = []
-    end
-    # Add a document to the collection and adjust the @terms attribute to store any new terms in the document.
-    # The document is also added to the @doclist attribute.
-    def +(d)
-        d.each_term do |term|
-          @terms[term] += 1.0
-        end
-        @doclist<<d
-        @logger.info("There are #{@doclist.size} documents and #{@terms.size} terms.")
-        self
-    end
-    def drop_terms(min_frequency=0.10, max_frequency=0.80)
-        min_docs = @doclist.length * min_frequency
-        max_docs = @doclist.length * max_frequency
-        @logger.info("Analyzing #{@terms.length} terms for removal.")
-        @logger.info("Upper/lower boundary are #{max_frequency}/#{min_frequency}% document frequency or #{max_docs}/#{min_docs} documents.")
-        remove_list = []
-        @terms.each do |term, frequency|
-            if ( frequency < min_docs or frequency > max_docs )
-                @logger.info("Removing term #{term} occuring in #{frequency} documents out of #{@doclist.length}")
-                @terms.delete(term)
-                remove_list << term
-            end
-        end
-        @logger.info("Removed #{remove_list.length} of #{@terms.length + remove_list.length} terms. Updating #{doclist.length} documents.")
-        @doclist.each do |doc|
-            remove_list.each do |term|
-                doc.terms.delete(term)
-            end
-        end
-    end
-    def inverse_document_frequency(term)
-        Math.log( @terms.length / @terms[term] )
-    end
-    alias idf inverse_document_frequency
-    def each_term(&c)
-        @terms.each_key { |k| yield k }
-    end
-end
-end