RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/processors/parsers/stanford.rb CHANGED Viewed

@@ -1,137 +1,136 @@
-module Treat
-  module Processors
-    module Parsers
-      # A wrapper class for the Stanford parser.
-      class Stanford
-        require 'stanford-core-nlp'
-        @@parser = {}
-        DefaultOptions = {
-          :silence => false,
-          :log_to_file => nil,
-          :parser_model => nil,
-          :tagger_model => nil
-        }
-        # Parse the entity using the Stanford parser.
-        #
-        # Options:
-        # - (String) :log_to_file => a filename to log output to
-        # instead of displaying it.
-        def self.parse(entity, options = {})
-          val = entity.to_s
-          entity.remove_all! if entity.has_children?
-          options = DefaultOptions.merge(options)
-          lang = entity.language
-          StanfordCoreNLP.use(lang)
-          if options[:tagger_model]
-            ::StanfordCoreNLP.set_model(
-              'pos.model', options[:tagger_model]
-            )
-          end
-          if options[:parser_model]
-            ::StanfordCoreNLP.set_model(
-              'parser.model', options[:parser_model]
-            )
-          end
-          if options[:silence]
-            options[:log_to_file] = '/dev/null'
-          end
-          if options[:log_to_file]
-            ::StanfordCoreNLP.log_file =
-              options[:log_to_file]
-          end
-          @@parser[lang] ||=
-            ::StanfordCoreNLP.load(
-              :tokenize, :ssplit, :pos, :lemma, :parse
-            )
-          text = ::StanfordCoreNLP::Text.new(val)
-          @@parser[lang].annotate(text)
-          text.get(:sentences).each do |s|
-            if entity.is_a?(Treat::Entities::Sentence) ||
-              entity.is_a?(Treat::Entities::Phrase)
-              tag = s.get(:category).to_s
-              tag_s, tag_opt = *tag.split('-')
-              tag_s ||= 'S'
-              entity.set :tag_set, :penn
-              entity.set :tag, tag_s
-              entity.set :tag_opt, tag_opt if tag_opt
-              recurse(s.get(:tree), entity)
-              break
-            else
-              recurse(s.get(:tree), entity)
-            end
-          end
+# A wrapper class for the Stanford parser.
+class Treat::Processors::Parsers::Stanford
+  require 'treat/loaders/stanford'
+  # Hold one instance of the pipeline per language.
+  @@parsers = {}
+  DefaultOptions = {
+    :parser_model => nil,
+    :tagger_model => nil
+  }
+  # Parse the entity using the Stanford parser.
+  #
+  # Options:
+  #
+  # - (Boolean) :silent => whether to silence the output
+  #   of the JVM.
+  # - (String) :log_file => a filename to log output to
+  # instead of displaying it.
+  def self.parse(entity, options = {})
+    entity.check_hasnt_children
+    val = entity.to_s
+    lang = entity.language
+    init(lang, options)
+    text = ::StanfordCoreNLP::Text.new(val)
+    @@parsers[lang].annotate(text)
+    text.get(:sentences).each do |s|
+      if entity.is_a?(Treat::Entities::Sentence) ||
+        entity.is_a?(Treat::Entities::Phrase)
+        tag = s.get(:category).to_s
+        tag_s, tag_opt = *tag.split('-')
+        tag_s ||= 'S'
+        entity.set :tag_set, :penn
+        entity.set :tag, tag_s
+        entity.set :tag_opt, tag_opt if tag_opt
+        recurse(s.get(:tree).children[0], entity)
+        break
+      else
+        recurse(s.get(:tree), entity)
+      end
+    end
+  end
+  def self.init(lang, options)
+    return if @@parsers[lang]
+    options = DefaultOptions.merge(options)
+    StanfordCoreNLP.use(lang)
+    if options[:tagger_model]
+      ::StanfordCoreNLP.set_model(
+      'pos.model', options[:tagger_model]
+      )
+    end
+    if options[:parser_model]
+      ::StanfordCoreNLP.set_model(
+      'parser.model', options[:parser_model]
+      )
+    end
+    @@parsers[lang] ||=
+    ::StanfordCoreNLP.load(
+    :tokenize, :ssplit, :pos, :lemma, :parse
+    )
+  end
+  # Helper method which recurses the tree supplied by
+  # the Stanford parser.
+  def self.recurse(java_node, ruby_node, additional_tags = [])
+    if java_node.num_children == 0
+      label = java_node.label
+      tag = label.get(:part_of_speech).to_s
+      tag_s, tag_opt = *tag.split('-')
+      tag_s ||= ''
+      ruby_node.value = java_node.value.to_s.strip
+      ruby_node.set :tag_set, :penn
+      ruby_node.set :tag, tag_s
+      ruby_node.set :tag_opt, tag_opt if tag_opt
+      ruby_node.set :tag_set, :penn
+      ruby_node.set :lemma, label.get(:lemma).to_s
+      additional_tags.each do |t|
+        lt = label.get(t)
+        ruby_node.set t, lt.to_s if lt
+      end
+      ruby_node
+    else
+      if java_node.num_children == 1 &&
+        java_node.children[0].num_children == 0
+        recurse(java_node.children[0],
+        ruby_node, additional_tags)
+        return
+      end
+      java_node.children.each do |java_child|
+        label = java_child.label
+        tag = label.get(:category).to_s
+        tag_s, tag_opt = *tag.split('-')
+        tag_s ||= ''
+        if Treat::Linguistics::Tags::PhraseTagToCategory[tag_s]
+          ruby_child = Treat::Entities::Phrase.new
+        else
+          l = java_child.children[0].to_s
+          v = java_child.children[0].value.to_s.strip
+          # Mhmhmhmhmhm
+          val = (l == v) ? v :  l.split(' ')[-1].gsub(')', '')
+          ruby_child = Treat::Entities::Token.from_string(val)
         end
-        # Helper method which recurses the tree supplied by
-        # the Stanford parser.
-        def self.recurse(java_node, ruby_node, additional_tags = [])
-          # Leaf
-          if java_node.num_children == 0
-            label = java_node.label
-            tag = label.get(:part_of_speech).to_s
-            tag_s, tag_opt = *tag.split('-')
-            tag_s ||= ''
-            ruby_node.value = java_node.value.to_s.strip
-            ruby_node.set :tag_set, :penn
-            ruby_node.set :tag, tag_s
-            ruby_node.set :tag_opt, tag_opt if tag_opt
-            ruby_node.set :tag_set, :penn
-            ruby_node.set :lemma, label.get(:lemma).to_s
-            ruby_node.set :character_offset_begin,
-            label.get(:character_offset_begin).to_s
-            ruby_node.set :character_offset_end,
-            label.get(:character_offset_end).to_s
-            ruby_node.set :begin_index,
-            label.get(:begin_index).to_s
-            ruby_node.set :end_index,
-            label.get(:end_index).to_s
-            additional_tags.each do |t|
-              lt = label.get(t)
-              ruby_node.set t, lt.to_s if lt
-            end
-            return ruby_node
-          else
-            if java_node.num_children == 1 &&
-              java_node.children[0].num_children == 0
-              recurse(java_node.children[0], ruby_node, additional_tags)
-              return
-            end
-            java_node.children.each do |java_child|
-              label = java_child.label
-              tag = label.get(:category).to_s
-              tag_s, tag_opt = *tag.split('-')
-              tag_s ||= ''
-              if Treat::Languages::Tags::PhraseTagToCategory[tag_s]
-                ruby_child = Treat::Entities::Phrase.new
-              else
-                l = java_child.children[0].to_s
-                v = java_child.children[0].value.to_s.strip
-                # Mhmhmhmhmhm
-                val = (l == v) ? v :  l.split(' ')[-1].gsub(')', '')
-                ruby_child = Treat::Entities::Token.from_string(val)
-              end
-              ruby_child.set :tag_set, :penn
-              ruby_child.set :tag, tag_s
-              ruby_child.set :tag_opt, tag_opt if tag_opt
-              ruby_node << ruby_child
-              unless java_child.children.empty?
-                recurse(java_child, ruby_child, additional_tags)
-              end
-            end
-          end
+        ruby_child.set :tag_set, :penn
+        ruby_child.set :tag, tag_s
+        ruby_child.set :tag_opt, tag_opt if tag_opt
+        ruby_node << ruby_child
+        unless java_child.children.empty?
+          recurse(java_child, ruby_child, additional_tags)
         end
       end
     end
   end
 end

data/lib/treat/processors/segmenters/punkt.rb CHANGED Viewed

@@ -1,48 +1,82 @@
-module Treat
-  module Processors
-    module Segmenters
-      # An adapter for the 'punk-segmenter' gem, which segments
-      # texts into sentences based on an unsupervised, language
-      # independent algorithm.
-      #
-      # Original paper: Kiss, Tibor and Strunk, Jan (2006):
-      # Unsupervised Multilingual Sentence Boundary Detection.
-      # Computational Linguistics 32: 485-525.
-      class Punkt
-        silence_warnings { require 'punkt-segmenter' }
-        require 'psych'
-        # Hold one copy of the segmenter per language.
-        @@segmenters = {}
-        # Hold only one trainer per language.
-        @@trainers = {}
-        # Segment a text using the Punkt segmenter gem.
-        #
-        # Options:
-        #
-        #   :training_text => (String) Text to train the segmenter on.
-        def self.segment(entity, options = {})
-          lang = entity.language
-          if options[:model]
-            model = options[:model]
-          else
-            l = Treat::Languages.describe(lang)
-            model = "#{Treat.lib}/treat/processors/segmenters/punkt/#{l}.yaml"
-            unless File.readable?(model)
-              raise Treat::Exception,
-              "Could not get the language model for the Punkt segmenter for #{l}."
-            end
-          end
-          t = ::Psych.load(File.read(model))
-          @@segmenters[lang] ||= ::Punkt::SentenceTokenizer.new(t)
-          s = entity.to_s
-          s.gsub!(/([^\.\?!]\.|\!|\?)([^\s])/) { $1 + ' ' + $2 }
-          result = @@segmenters[lang].sentences_from_text(
-            s, :output => :sentences_text)
-          result.each do |sentence|
-            entity << Treat::Entities::Phrase.from_string(sentence)
-          end
-        end
+# An adapter for the 'punk-segmenter' gem, which segments
+# texts into sentences based on an unsupervised, language
+# independent algorithm.
+#
+# Original paper: Kiss, Tibor and Strunk, Jan (2006):
+# Unsupervised Multilingual Sentence Boundary Detection.
+# Computational Linguistics 32: 485-525.
+module Treat::Processors::Segmenters::Punkt
+  require 'treat/helpers/decimal_point_escaper'
+  # Require silently the punkt-segmenter gem.
+  silence_warnings { require 'punkt-segmenter' }
+  # Require the YAML parser.
+  silence_warnings { require 'psych' }
+  # Hold one copy of the segmenter per language.
+  @@segmenters = {}
+  # Hold only one trainer per language.
+  @@trainers = {}
+  # Segment a text using the Punkt segmenter gem.
+  # The included models for this segmenter have
+  # been trained on one or two lengthy books
+  # from the corresponding language.
+  #
+  # Options:
+  #
+  # (String) :training_text => Text to train on.
+  def self.segment(entity, options = {})
+    entity.check_hasnt_children
+    lang = entity.language
+    set_options(lang, options)
+    s = entity.to_s
+    # Replace all decimal points by ^^
+    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    s.gsub!(/([^\.\?!]\.|\!|\?)([^\s])/) { $1 + ' ' + $2 }
+    result = @@segmenters[lang].
+    sentences_from_text(s,
+    :output => :sentences_text)
+    result.each do |sentence|
+      Treat::Helpers::DecimalPointEscaper.
+      unescape!(sentence)
+      entity << Treat::Entities::Phrase.
+        from_string(sentence)
+    end
+  end
+  def self.set_options(lang, options)
+    return @@segmenters[lang] if @@segmenters[lang]
+    if options[:model]
+      model = options[:model]
+    else
+      l = Treat::Languages.describe(lang)
+      model = "#{Treat.models}punkt/#{l}.yaml"
+      unless File.readable?(model)
+        raise Treat::Exception,
+        "Could not get the language model " +
+        "for the Punkt segmenter for #{l}."
       end
     end
+    t = ::Psych.load(File.read(model))
+    @@segmenters[lang] =
+    ::Punkt::SentenceTokenizer.new(t)
   end
-end
+end

data/lib/treat/processors/segmenters/stanford.rb CHANGED Viewed

@@ -1,52 +1,50 @@
-module Treat
-  module Processors
-    module Segmenters
-      # A wrapper for the sentence splitter supplied by
-      # the Stanford parser.
-      class Stanford
-        require 'stanford-core-nlp'
-        DefaultOptions = {
-          :silence => false,
-          :log_to_file => false,
-          :also_tokenize => false
-        }
-        # Segment sentences using the sentence splitter supplied by
-        # the Stanford parser. By default, this segmenter also adds
-        # the tokens as children of the sentences.
-        #
-        # Options:
-        # - (Boolean) :also_tokenize - Whether to also add the tokens
-        # as children of the sentence.
-        # - (String) :log_to_file => a filename to log output to
-        # instead of displaying it.
-        # - (String) :silence => send
-        def self.segment(entity, options = {})
-          options = DefaultOptions.merge(options)
-          options[:log_to_file] = '/dev/null' if options[:silence]
-          if options[:log_to_file]
-            ::StanfordCoreNLP.log_file = options[:log_to_file]
-          end
-          options = DefaultOptions.merge(options)
-          pipeline =  ::StanfordCoreNLP.load(:tokenize, :ssplit)
-          text = ::StanfordCoreNLP::Text.new(entity.to_s)
-          pipeline.annotate(text)
-          text.get(:sentences).each do |sentence|
-            s = Treat::Entities::Sentence.from_string(sentence.to_s, true)
-            entity << s
-            if options[:also_tokenize]
-              sentence.get(:tokens).each do |token|
-                t = Treat::Entities::Phrase.from_string(token.value)
-                s << t
-                t.set :character_offset_begin,
-                token.get(:character_offset_begin)
-                t.set :character_offset_end,
-                token.get(:character_offset_end)
-              end
-            end
-          end
-        end
+# A wrapper for the sentence splitter supplied by
+# the Stanford parser.
+class Treat::Processors::Segmenters::Stanford
+  require 'treat/loaders/stanford'
+  DefaultOptions = {
+    :also_tokenize => false
+  }
+  # Keep one copy of the Stanford Core NLP pipeline.
+  @@segmenter = nil
+  # Segment sentences using the sentence splitter
+  # supplied by the Stanford parser. For better
+  # performance, set the option :also_tokenize
+  # to true, and this segmenter will also add
+  # the tokens as children of the sentences.
+  #
+  # Options:
+  #
+  # - (Boolean) :also_tokenize - Whether to also
+  # add the tokens as children of the sentence.
+  def self.segment(entity, options = {})
+    options = DefaultOptions.merge(options)
+    entity.check_hasnt_children
+    @@segmenter ||=
+    ::StanfordCoreNLP.load(:tokenize, :ssplit)
+    s = entity.to_s
+    text = ::StanfordCoreNLP::Text.new(entity.to_s)
+    @@segmenter.annotate(text)
+    text.get(:sentences).each do |sentence|
+      sentence = sentence.to_s
+      s = Treat::Entities::Sentence.
+      from_string(sentence, true)
+      entity << s
+      if options[:also_tokenize]
+        Treat::Processors::Tokenizers::Stanford.
+        add_tokens(s, sentence.get(:tokens))
       end
     end
   end
 end