RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/doable.rb DELETED Viewed

@@ -1,45 +0,0 @@
-module Treat
-  module Doable
-    def do(*tasks)
-      tasks.each do |task|
-        if task.is_a?(Hash)
-          task.each do |k,v|
-            t, w = k, v
-            w, o = *w if w.is_a?(Array)
-            o ||= {}
-            do_task(t, w, o)
-          end
-        else
-          t = task.is_a?(Array) ? task[0] : task
-          w = task.is_a?(Array) ? task[1] : nil
-          w, o = *w if w.is_a?(Array)
-          o ||= {}
-          do_task(t, w, o)
-        end
-      end
-    end
-    DEBUG = true
-    def do_task(task, worker, options)
-      group = Categories.lookup(task)
-      unless group
-        raise Treat::Exception, "Task #{task} does not exist."
-      end
-      entity_types = group.targets
-      f = nil
-      entity_types.each do |t|
-        f = true if Treat::Entities.match_types[t][type]
-      end
-      if f || entity_types.include?(:entity)
-        send(task, worker, options)
-      else
-        each_entity(*entity_types) do |entity|
-          entity.do_task(task, worker, options)
-        end
-        unless entity_types.include?(type)
-          features.delete(task)
-        end
-        nil
-      end
-    end
-  end
-end

data/lib/treat/entities/collection.rb DELETED Viewed

@@ -1,14 +0,0 @@
-module Treat
-  module Entities
-    # Represents a collection of texts.
-    class Collection < Entity
-      # Initialize the collection with a folder
-      # containing the texts of the collection.
-      def initialize(folder = nil)
-        super('', id)
-        @type = :collection
-        set :folder, folder
-      end
-    end
-  end
-end

data/lib/treat/entities/document.rb DELETED Viewed

@@ -1,12 +0,0 @@
-module Treat
-  module Entities
-    # Represents a document.
-    class Document < Entity
-      def initialize(file = nil, id = nil)
-        super('', id)
-        set :file, file if file
-        @type = :document
-      end
-    end
-  end
-end

data/lib/treat/entities/phrases.rb DELETED Viewed

@@ -1,17 +0,0 @@
-module Treat
-  module Entities
-    # Represents any syntactic phrase of a sentence.
-    class Phrase < Entity
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :phrase
-      end
-    end
-    class Sentence < Phrase
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :sentence
-      end
-    end
-  end
-end

data/lib/treat/entities/tokens.rb DELETED Viewed

@@ -1,61 +0,0 @@
-module Treat
-  module Entities
-    # Represents a terminal element in the text structure.
-    class Token < Entity
-      # All tokens are leafs.
-      def is_leaf?; true; end
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :token
-      end
-    end
-    # Represents a word.
-    class Word < Token
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :word
-      end
-    end
-    # Represents a clitic ('s).
-    class Clitic < Token
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :clitic
-      end
-    end
-    # Represents a number.
-    class Number < Token
-      # Convert the number to an integer.
-      def to_i; to_s.to_i; end
-      # Convert the number to a float.
-      def to_f; to_s.to_f; end
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :number
-      end
-    end
-    # Represents a punctuation sign.
-    class Punctuation < Token
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :punctuation
-      end
-    end
-    # Represents a character that is neither
-    # alphabetical, numerical or a punctuation
-    # character (e.g. @#$%&*).
-    class Symbol < Token
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :symbol
-      end
-    end
-    # Represents an entity of unknown type.
-    class Unknown < Token
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :unknown
-      end
-    end
-  end
-end

data/lib/treat/entities/zones.rb DELETED Viewed

@@ -1,41 +0,0 @@
-module Treat
-  module Entities
-    # Represents a zone of text
-    # (Title, Paragraph, List, Quote).
-    class Zone < Entity
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :zone
-      end
-    end
-    # Represents a title, subtitle, logical header.
-    class Title < Zone
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :title
-      end
-    end
-    # Represents a paragraph.
-    class Paragraph < Zone
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :paragraph
-      end
-    end
-    # Represents a list.
-    class List < Zone
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :list
-      end
-    end
-    # Represents a section, usually with a title
-    # and at least one paragraph.
-    class Section < Zone
-      def initialize(value = '', id = nil)
-        super(value, id)
-        @type = :section
-      end
-    end
-  end
-end

data/lib/treat/extractors/coreferences/stanford.rb DELETED Viewed

@@ -1,69 +0,0 @@
-module Treat
-  module Extractors
-    module Coreferences
-      class Stanford
-        require 'stanford-core-nlp'
-        @@pipeline = nil
-        def self.coreferences(entity, options = {})
-          val = entity.to_s
-          if entity.has_children?
-            warn "The Stanford Coreference Resolver currently requires " +
-            "an unsegmented, untokenized block of text to work with. " +
-            "Removing and replacing all children of '#{entity.short_value}'."
-            entity.remove_all!
-          end
-          @@pipeline ||=  ::StanfordCoreNLP.load(
-          :tokenize, :ssplit, :pos,
-          :lemma, :parse, :ner, :dcoref
-          )
-          text = ::StanfordCoreNLP::Text.new(entity.to_s)
-          @@pipeline.annotate(text)
-          clusters = {}
-          text.get(:sentences).each do |sentence|
-            s = Treat::Entities::Sentence.
-            from_string(sentence.get(:value).to_s, true)
-            sentence.get(:tokens).each do |token|
-              t = Treat::Entities::Token.
-              from_string(token.value.to_s)
-              tag = token.get(:named_entity_tag).
-              to_s.downcase
-              corefid = token.get(:coref_cluster_id).to_s
-              unless corefid == ''
-                clusters[corefid] ||= []
-                clusters[corefid] << t
-                t.set :coref_cluster_id, corefid
-              end
-              t.set :named_entity_tag,
-              tag.intern unless tag == 'o'
-              s << t
-            end
-            entity << s
-          end
-          entity.each_token do |token|
-            if token.has?(:coref_cluster_id)
-              id = token.coref_cluster_id
-              links = clusters[id].dup
-              links.delete(token)
-              token.unset(:coref_cluster_id)
-              next if links.empty?
-              token.set :coreferents, links
-              links.each do |target|
-                token.link(target, :refers_to)
-              end
-            end
-          end
-          i = 0
-          coreferences = {}
-          clusters.each do |k,v|
-            unless !v || v.size == 1
-              coreferences[i] = v
-              i += 1
-            end
-          end
-          coreferences
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/date/chronic.rb DELETED Viewed

@@ -1,32 +0,0 @@
-module Treat
-  module Extractors
-    module Date
-      # A wrapper for the 'chronic' gem, which parses
-      # date information.
-      #
-      # Project website: http://chronic.rubyforge.org/
-      class Chronic
-        silence_warnings { require 'chronic' }
-        require 'date'
-        # Return the date information contained within the entity
-        # by parsing it with the 'chronic' gem.
-        #
-        # Options: none.
-        def self.date(entity, options = {})
-          date = nil
-          return if entity.has?(:time)
-          s = entity.to_s
-          s.gsub!('\/', '/')
-          s.strip!
-          silence_warnings do
-            date = ::Chronic.parse(s, {:guess => true})
-          end
-          entity.ancestors_with_type(:phrase).each do |a|
-            a.unset(:date) if a.has?(:date)
-          end
-          return date.to_date if date
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/date/ruby.rb DELETED Viewed

@@ -1,25 +0,0 @@
-module Treat
-  module Extractors
-    module Date
-      # A wrapper for Ruby's native date parsing.
-      class Ruby
-        require 'date'
-        # Return a DateTime object representing the date/date
-        # contained within the entity, using Ruby's native
-        # date/date parser.
-        #
-        # Options: none.
-        def self.date(entity, options = {})
-          begin
-            s = entity.to_s.strip
-            s.gsub!('\/', '/')
-            date = ::DateTime.parse(s)
-            date.to_date
-          rescue
-            nil
-          end
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/keywords/topics_tf_idf.rb DELETED Viewed

@@ -1,48 +0,0 @@
-module Treat
-  module Extractors
-    module Keywords
-      class TopicsTfIdf
-        DefaultOptions = {num_keywords: 5, tf_idf_threshold: 0.5, topic_words: nil}
-        def self.keywords(entity, options = {})
-          options = DefaultOptions.merge(options)
-          unless options[:topic_words]
-            options[:topic_words] = entity.parent_collection.topic_words
-          end
-          if Treat::Entities.rank(entity.type) <
-            Treat::Entities.rank(:sentence)
-            raise Treat::Exception, 'Cannot get the key ' +
-            'sentences of an entity smaller than a sentence.'
-          else
-            find_keywords(entity, options)
-          end
-        end
-        def self.find_keywords(entity, options)
-          keywords = []
-          entity.each_word do |word|
-            found = false
-            tf_idf = word.tf_idf
-            options[:topic_words].each do |i, topic_words|
-              next if keywords.include?(word.value)
-              if topic_words.include?(word.value)
-                found = true
-                if tf_idf > options[:tf_idf_threshold]
-                  keywords << word.value
-                  word.set :is_keyword?, found
-                end
-              end
-            end
-          end
-          i = 0
-          # Take a slice of keywords with i elements.
-          selected_keywords = []
-          keywords.each do |keyword|
-            break if i > options[:num_keywords]
-            selected_keywords << keyword
-            i += 1
-          end
-          selected_keywords
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/language/language_extractor.rb DELETED Viewed

@@ -1,27 +0,0 @@
-module Treat
-  module Extractors
-    module Language
-      # A generic language detector, which is called before
-      # any language detector and ensures that configuration
-      # options concerning language are enforced (e.g. returns
-      # the default language when Treat.detect_language is false).
-      class LanguageExtractor
-        def self.language(entity, options = {})
-          if entity.to_s =~ /^[[:digit:]]+$/
-            return Treat.default_language
-          end
-          if Treat.detect_language == false
-            return Treat.default_language
-          else
-            dlvl = Treat.language_detection_level
-            if (Entities.rank(entity.type) < Entities.rank(dlvl)) &&
-               entity.has_parent?
-               anc = entity.ancestor_with_type(dlvl)
-               return anc.language if anc
-            end
-          end
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/named_entity_tag/stanford.rb DELETED Viewed

@@ -1,53 +0,0 @@
-module Treat
-  module Extractors
-    module NamedEntityTag
-      class Stanford
-        require 'stanford-core-nlp'
-        StanfordCoreNLP.load_class('ArrayList', 'java.util')
-        StanfordCoreNLP.load_class('Word', 'edu.stanford.nlp.ling')
-        @@pipeline = nil
-        def self.named_entity_tag(entity, options = {})
-          pp = nil
-          if entity.is_a?(Treat::Entities::Token) &&
-             entity.has_parent?
-              pp = entity.parent_phrase
-              s = get_list(pp.tokens)
-          else
-            s = entity.to_s
-          end
-          @@pipeline ||=  ::StanfordCoreNLP.load(
-          :tokenize, :ssplit, :pos, :lemma, :parse, :ner
-          )
-          text = ::StanfordCoreNLP::Text.new(s)
-          @@pipeline.annotate(text)
-          add_to = pp ? pp : entity
-          if entity.is_a?(Treat::Entities::Phrase)
-            text.get(:tokens).each do |token|
-              t = Treat::Entities::Token.from_string(token.value.to_s)
-              tag = token.get(:named_entity_tag).to_s.downcase
-              t.set :named_entity_tag, tag.intern unless tag == 'o'
-              add_to << t
-            end
-          elsif entity.is_a?(Treat::Entities::Token)
-            tag = text.get(:tokens).iterator.next.
-            get(:named_entity_tag).to_s.downcase
-            entity.set :named_entity_tag, tag.intern unless tag == 'o'
-          end
-        end
-        def self.get_list(words)
-          list = StanfordCoreNLP::ArrayList.new
-          words.each do |w|
-            list.add(StanfordCoreNLP::Word.new(w.to_s))
-          end
-          list
-        end
-      end
-    end
-  end
-end