RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/exception.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 module Treat
   # Custom exception class for the Treat toolkit.
   # Used to distinguish between errors raised by
-  # gems or Ruby from errors raised by the toolkit.
-  class Exception < ::Exception
-  end
-end
+  # gems/Ruby from errors raised by the toolkit.
+  class Exception < ::Exception; end
+  class InvalidInputException < Exception; end
+end

data/lib/treat/extractors.rb CHANGED Viewed

@@ -1,82 +1,79 @@
-module Treat
-  # Extractors extract specific information out of texts.
-  module Extractors
-    # Detecs language.
-    module Language
-      extend Group
-      require 'treat/extractors/language/language_extractor.rb'
-      self.type = :annotator
-      self.targets = [:entity]
-      self.default = :what_language
-    end
-    # Extracts the time of an object and annotates it
-    # with specific information regarding time.
-    module Time
-      extend Group
-      self.type = :annotator
-      self.targets = [:phrase]
-    end
-    # Extracts the time of an object and annotates it
-    # with specific information regarding time.
-    module Date
-      extend Group
-      self.type = :annotator
-      self.targets = [:phrase]
-    end
-    # Extract the topic from a text.
-    module Topics
-      extend Group
-      self.type = :annotator
-      self.targets = [:document, :zone]
-    end
-    # Extract the keywords from a text.
-    module Keywords
-      extend Group
-      self.type = :annotator
-      self.targets = [:document, :zone]
-    end
-    # Extract the topic words from a text.
-    module TopicWords
-      extend Group
-      self.type = :annotator
-      self.targets = [:collection]
-    end
-    # Extract named entities from texts.
-    module NamedEntityTag
-      extend Group
-      self.type = :annotator
-      self.targets = [:phrase, :word]
-    end
-    # Extract named entities from texts.
-    module Coreferences
-      extend Group
-      self.type = :annotator
-      self.targets = [:zone]
-    end
-    # This module should be moved out of here ASAP.
-    module Statistics
-      extend Group
-      self.type = :annotator
-      self.targets = [:word]
-      self.default = :none
-      self.preprocessors = {
-        :frequency_in => lambda do |entity, worker, options|
-          options = {:parent => worker}.merge(options)
-          entity.statistics(:frequency_in, options)
-        end,
-        :tf_idf => lambda do |entity, worker, options|
-          entity.statistics(:tf_idf, options)
-        end,
-        :position_in => lambda do |entity, options|
-          entity.statistics(:position_in, options)
-        end
-      }
-    end
-    module Roles
-      extend Group
-      self.type = :annotator
-      self.targets = [:phrase]
-    end
-    extend Treat::Category
+# Extractors extract information out of texts.
+module Treat::Extractors
+  # Extracts the language from an entity.
+  module Language
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:entity]
+    self.default = :what_language
   end
+  # Extracts the date/time of a phrase.
+  module Time
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:phrase]
+  end
+  # Extract the topic from a document or zone.
+  module Topics
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:document]
+  end
+  # Extract the keywords from a text.
+  module Keywords
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:document]
+  end
+  # Extract clusters of topic words from a collection.
+  module TopicWords
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:collection]
+  end
+  # Extract named entities from phrases.
+  module NameTag
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:phrase, :word]
+  end
+  # Extract coreferences from a zone.
+  module Coreferences
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:zone]
+  end
+  # Retrieve the main grammatical roles
+  # in the phrase (subject, verb, object).
+  module Roles
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:phrase]
+  end
+  module TfIdf
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:word]
+    self.default = :native
+  end
+  module Summary
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:document]
+    self.default = :keyword_count
+  end
+  # Make Extractors categorizable.
+  extend Treat::Categorizable
 end

data/lib/treat/extractors/keywords/tf_idf.rb CHANGED Viewed

@@ -1,26 +1,60 @@
-module Treat
-  module Extractors
-    module Keywords
-      class TfIdf
-        DefaultOptions = { num_keywords: 5 }
-        def self.keywords(entity, options = {})
-          options = DefaultOptions.merge(options)
-          tf_idfs = {}
-          entity.each_word do |word|
-            tf_idfs[word.value] ||= word.tf_idf
-          end
-          tf_idfs = tf_idfs.sort_by {|k,v| v}.reverse
-          return tf_idfs if tf_idfs.size <= options[:num_keywords]
-          keywords = []
-          i = 0
-          tf_idfs.each do |info|
-            break if i > options[:num_keywords]
-            keywords << info[0]
-            i += 1
-          end
-          keywords
+# This retrieves a supplied number of keywords
+# by selecting the N words with the highest TF*IDF
+# for each document.
+class Treat::Extractors::Keywords::TfIdf
+  # Default options - retrieve 5 keywords.
+  DefaultOptions = { :number => 5 }
+  # Annotate a document with an array containing
+  # the N words with the highest TF*IDF in that
+  # document,
+  def self.keywords(entity, options = {})
+    options = DefaultOptions.merge(options)
+    tf_idfs = {}
+    entity.each_word do |word|
+      word.check_has(:tf_idf, false)
+      tf_idfs[word] ||= word.get(:tf_idf)
+    end
+    tf_idfs = tf_idfs.
+    sort_by {|k,v| v}.reverse
+    if tf_idfs.size <= options[:number]
+      return tf_idfs
+    end
+    keywords = []
+    i = 0
+    tf_idfs.each do |word|
+      w = word[0].to_s
+      next if keywords.include?(w)
+      entity.each_word_with_value(w) do |w2|
+        ps = w2.parent_phrase
+        if ps.has?(:keyword_count)
+          ps.set :keyword_count,
+          ps.keyword_count + 1
+        else
+          ps.set :keyword_count, 1
         end
+        ps.set :keyword_density,
+        (ps.keyword_count / ps.size)
       end
+      break if i > options[:number]
+      keywords << w
+      i += 1
     end
+    keywords
   end
-end
+end

data/lib/treat/extractors/language/what_language.rb CHANGED Viewed

@@ -1,49 +1,54 @@
-module Treat
-  module Extractors
-    module Language
-      # Require the 'whatlanguage' gem.
-      silence_warnings { require 'whatlanguage'  }
-      String.class_eval { undef :language }
-      DefaultOptions = {
-         :bias => [:eng, :fre, :chi, :ger, :ara, :spa]
-      }
-      # Adaptor for the 'whatlanguage' gem, which
-      # performs probabilistic language detection.
-      # The library works by checking for the presence
-      # of words with bloom filters built from dictionaries
-      # based upon each source language.
-      class WhatLanguage < LanguageExtractor
-        # Keep only once instance of the gem class.
-        @@detector = nil
-        # Detect the language of an entity using the
-        # 'whatlanguage' gem. Return an identifier
-        # corresponding to the ISO-639-2 code for the
-        # language.
-        #
-        # Options:
-        # - (Array of Symbols) bias => Languages to bias
-        # toward when more than one language is detected
-        # with equal probability.
-        def self.language(entity, options = {})
-          options = DefaultOptions.merge(options)
-          predetection = super(entity, options)
-          return predetection if predetection
-          @@detector ||= ::WhatLanguage.new(:possibilities)
-          possibilities = @@detector.process_text(entity.to_s)
-          lang = {}
-          possibilities.each do |k,v|
-            lang[Treat::Languages.code(k)] = v
-          end
-          max = lang.values.max
-          ordered = lang.select { |i,j| j == max }.keys
-          ordered.each do |l|
-            if options[:bias].include?(l)
-              return l
-            end
-          end
-          return ordered.first
+module Treat::Extractors::Language
+  # Adaptor for the 'whatlanguage' gem, which
+  # performs probabilistic language detection.
+  # The library works by checking for the presence
+  # of words with bloom filters built from
+  # dictionaries based upon each source language.
+  class WhatLanguage
+    # Require the 'whatlanguage' gem.
+    silence_warnings { require 'whatlanguage'  }
+    # Undefine the method defined by the gem.
+    String.class_eval { undef :language }
+    # By default, bias towards common languages.
+    DefaultOptions = {
+      :bias => [:eng, :fre, :chi, :ger, :ara, :spa]
+    }
+    # Keep only once instance of the gem class.
+    @@detector = nil
+    # Detect the language of an entity using the
+    # 'whatlanguage' gem. Return an identifier
+    # corresponding to the ISO-639-2 code for the
+    # language.
+    #
+    # Options:
+    #
+    # - (Array of Symbols) bias => Languages to bias
+    # toward when more than one language is detected
+    # with equal probability.
+    def self.language(entity, options = {})
+      options = DefaultOptions.merge(options)
+      @@detector ||= ::WhatLanguage.new(:possibilities)
+      possibilities = @@detector.process_text(entity.to_s)
+      lang = {}
+      possibilities.each do |k,v|
+        lang[Treat::Languages.code(k)] = v
+      end
+      max = lang.values.max
+      ordered = lang.select { |i,j| j == max }.keys
+      ordered.each do |l|
+        if options[:bias].include?(l)
+          return l
         end
       end
+      return ordered.first
     end
   end
-end
+end

data/lib/treat/extractors/name_tag/stanford.rb ADDED Viewed

@@ -0,0 +1,55 @@
+# Detects the named entity tag in sentences by using
+# the stanford-core-nlp gem, which interfaces with
+# the Stanford Deterministic Coreference Resolver.
+class Treat::Extractors::NameTag::Stanford
+  require 'treat/loaders/stanford'
+  @@classifiers = {}
+  def self.name_tag(entity, options = {})
+    pp = nil
+    lang = entity.language
+    language = Treat::Languages.describe(lang)
+    isolated_token = entity.is_a?(Treat::Entities::Token)
+    tokens = isolated_token ? [entity] : entity.tokens
+    ms = StanfordCoreNLP::Config::Models[:ner][language]
+    ms = Treat.models + 'stanford/' +
+    StanfordCoreNLP::Config::ModelFolders[:ner] +
+    ms['3class']
+    @@classifiers[lang] ||=
+    StanfordCoreNLP::CRFClassifier.
+    getClassifier(ms)
+    token_list = StanfordCoreNLP.get_list(tokens)
+    sentence = @@classifiers[lang].classify_sentence(token_list)
+    i = 0
+    n = 0
+    sentence.each do |s_token|
+      tag = s_token.get(:answer).to_s.downcase
+      tag = nil if tag == 'o'
+      return tag if isolated_token
+      if tag
+        tokens[i].set :name_tag, tag
+        n += 1
+      end
+      i += 1
+    end
+    entity.set :named_entity_count, n
+    nil
+  end
+end

data/lib/treat/extractors/tf_idf/native.rb ADDED Viewed

@@ -0,0 +1,87 @@
+# Calculates the TF*IDF score of words.
+module Treat::Extractors::TfIdf::Native
+  DefaultOptions = {
+    :tf => :natural,
+    :idf => :logarithm,
+    :remove_common_words => true,
+    :precision => 4
+  }
+  Algorithms = {
+    :tf => {
+      :natural => lambda { |tf| tf },
+      :logarithm => lambda { |tf| Math.log(1 + tf) },
+      :sqrt =>lambda { |tf| Math.sqrt(tf) }
+    },
+    :idf => {
+      :logarithm => lambda { |n,df| Math.log(n/(1 + df)) },
+      :none => lambda { |n,idf| 1 }
+    }
+  }
+  # Optimization caches for tf idf.
+  @@n = {} # Number of documents in the collection (n).
+  @@df= {} # Number of documents that have a given value (document count).
+  @@f = {} # Number of times a word appears in a given document (term count).
+  @@wc = {} # Number of words in a given document (word count).
+  @@cw = {} # Common words to filter out.
+  def self.tf_idf(entity, options={})
+    l = Treat::Languages.get(entity.language)
+    if l.const_defined?(:CommonWords)
+      @@cw[entity.language] =
+      l.const_get(:CommonWords)
+      return 0 if @@cw[entity.language].include?(entity.value)
+    end
+    return 0 if entity.value.length <= 2
+    options = DefaultOptions.merge(options)
+    lambdas = options.partition do |k,v|
+      [:tf, :idf, :normalization].include?(k)
+    end[0]
+    lambdas.each do |opt,val|
+      if opt.is_a?(Symbol)
+        if Algorithms[opt][val]
+          options[opt] = Algorithms[opt][val]
+        else
+          raise Treat::Exception,
+          "The specified algorithm '#{val}' "+
+          "to calculate #{opt} does not exist."
+        end
+      end
+    end
+    collection = entity.parent_collection
+    unless collection
+      raise Treat::Exception, "Cannot get the TF*IDF scores " +
+      "for a document that is not in a collection."
+    end
+    document = entity.parent_document
+    dc = collection.document_count
+    if !collection || !document
+      raise Treat::Exception,
+      "Tf*Idf requires a collection with documents."
+    end
+    val = entity.value.downcase
+    @@n[collection.id] = dc if @@n[collection.id].nil?
+    @@df[collection.id] ||= {}
+    if @@df[collection.id][val].nil?
+      df = 0
+      collection.each_document do |doc|
+        @@f[doc.id] ||= {}
+        if @@f[doc.id][val].nil?
+          @@f[doc.id][val] =
+          doc.frequency_of(val)
+        end
+        df += 1 if @@f[doc.id][val] > 0
+      end
+      @@df[collection.id][val] = df
+    end
+    f = @@f[document.id][entity.value].to_f
+    df = @@df[collection.id][entity.value].to_f
+    tf = options[:tf].call(f).to_f
+    if options[:normalize_word_count]
+      @@wc[document.id] ||= document.word_count
+      tf /= @@wc[document.id]
+    end
+    n = @@n[collection.id].to_f
+    idf = options[:idf].call(n, df)
+    tf_idf = tf * idf
+    tf_idf.abs.round(options[:precision])
+  end
+end