RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/processors/segmenters/tactful.rb CHANGED Viewed

@@ -1,38 +1,45 @@
-module Treat
-  module Processors
-    module Segmenters
-      # An adapter for the 'tactful_tokenizer' gem, which
-      # detects sentence boundaries (the name is a misnomer;
-      # it isn't a tokenizer, but a sentence boundary detector).
-      # It uses a Naive Bayesian statistical model, and is
-      # based on Splitta, but has support for ‘?’ and ‘!’
-      # as well as primitive handling of XHTML markup.
-      #
-      # Project website: https://github.com/SlyShy/Tackful-Tokenizer
-      # Original paper: Dan Gillick. 2009. Sentence Boundary Detection
-      # and the Problem with the U.S. University of California, Berkeley.
-      # http://dgillick.com/resource/sbd_naacl_2009.pdf
-      class Tactful
-        # Require the 'tactful_tokenizer' gem.
-        silence_warnings { require 'tactful_tokenizer' }
-        # Remove function definition 'tactful_tokenizer' by gem.
-        String.class_eval { undef :tokenize }
-        # Keep only one copy of the segmenter.
-        @@segmenter = nil
-        # Segment a text or zone into sentences
-        # using the 'tactful_tokenizer' gem.
-        #
-        # Options: none.
-        def self.segment(entity, options = {})
-          @@segmenter ||= TactfulTokenizer::Model.new
-          s = entity.to_s
-          s.gsub!(/([^\.\?!]\.|\!|\?)([^\s])/) { $1 + ' ' + $2 }
-          sentences = @@segmenter.tokenize_text(s)
-          sentences.each do |sentence|
-            entity << Entities::Phrase.from_string(sentence)
-          end
-        end
-      end
+# An adapter for the 'tactful_tokenizer' gem, which
+# detects sentence boundaries based on a Naive Bayesian
+# statistical model.
+#
+# Project website: https://github.com/SlyShy/Tackful-Tokenizer
+#
+# Original paper: Dan Gillick. 2009. Sentence Boundary Detection
+# and the Problem with the U.S. University of California, Berkeley.
+# http://dgillick.com/resource/sbd_naacl_2009.pdf
+module Treat::Processors::Segmenters::Tactful
+  # Require the 'tactful_tokenizer' gem.
+  silence_warnings { require 'tactful_tokenizer' }
+  # Remove function definition 'tactful_tokenizer' by gem.
+  String.class_eval { undef :tokenize }
+  require 'treat/helpers/decimal_point_escaper'
+  # Keep only one copy of the segmenter.
+  @@segmenter = nil
+  # Segment a text or zone into sentences
+  # using the 'tactful_tokenizer' gem.
+  #
+  # Options: none.
+  def self.segment(entity, options = {})
+    entity.check_hasnt_children
+    s = entity.to_s
+    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    s.gsub!(/([^\.\?!]\.|\!|\?)([^\s])/) { $1 + ' ' + $2 }
+    @@segmenter ||= TactfulTokenizer::Model.new
+    sentences = @@segmenter.tokenize_text(s)
+    sentences.each do |sentence|
+      Treat::Helpers::DecimalPointEscaper.unescape!(sentence)
+      entity << Treat::Entities::Phrase.from_string(sentence)
     end
   end
-end
+end

data/lib/treat/processors/tokenizers/perl.rb CHANGED Viewed

@@ -1,96 +1,128 @@
 # encoding: utf-8
-module Treat
-  module Processors
-    module Tokenizers
-      # Tokenize the entity using a native rule-based algorithm.
-      # This tokenizer is a port from an unknown Perl module,
-      # which I have lifted from the 'rbtagger' gem.
-      #
-      # Author: Todd A. Fisher
-      # This code is free to use under the terms of the MIT license.
-      #
-      # Original project website:
-      # https://github.com/taf2/rb-brill-tagger
-      class Perl
-        # Tokenize the entity using a native rule-based algorithm.
-        # Options: none.
-        def self.tokenize(entity, options = {})
-          # Normalize all whitespace
-          text = entity.to_s.gsub(/\s+/,' ')
-          # Translate some common extended ascii characters to quotes
-          text.gsub!(/‘/,'`')
-          text.gsub!(/’/,"'")
-          text.gsub!(/“/,"``")
-          text.gsub!(/”/,"''")
-          # Attempt to get correct directional quotes
-          # s{\"\b} { `` }g;
-          text.gsub!(/\"\b/,' `` ')
-          # s{\b\"} { '' }g;
-          text.gsub!(/\b\"/," '' ")
-          #s{\"(?=\s)} { '' }g;
-          text.gsub!(/\"(?=\s)/," '' ")
-          #s{\"} { `` }g;
-          text.gsub!(/\"(?=\s)/," `` ")
-          # Isolate ellipses
-          # s{\.\.\.}   { ... }g;
-          text.gsub!(/\.\.\./,' ... ')
-          # Isolate any embedded punctuation chars
-          #   s{([,;:\@\#\$\%&])} { $1 }g;
-          text.gsub!(/([,;:\@\#\$\%&])/, ' \1 ')
-          # Assume sentence tokenization has been done first, so split FINAL
-          # periods only.
-          # s/ ([^.]) \.  ([\]\)\}\>\"\']*) [ \t]* $ /$1 .$2 /gx;
-          text.gsub!(/ ([^.]) \.  ([\]\)\}\>\"\']*) [ \t]* $ /x, '\1 .\2 ')
-          # however, we may as well split ALL question marks and exclamation points,
-          # since they shouldn't have the abbrev.-marker ambiguity problem
-          #s{([?!])} { $1 }g;
-          text.gsub!(/([?!])/, ' \1 ')
-          # parentheses, brackets, etc.
-          #s{([\]\[\(\)\{\}\<\>])} { $1 }g;
-          text.gsub!(/([\]\[\(\)\{\}\<\>])/,' \1 ')
-          #s/(-{2,})/ $1 /g;
-          text.gsub!(/(-{2,})/,' \1 ')
-          # Add a space to the beginning and end of each line, to reduce
-          # necessary number of regexps below.
-          #s/$/ /;
-          text.gsub!(/$/," ")
-          #s/^/ /;
-          text.gsub!(/^/," ")
-          # possessive or close-single-quote
-          #s/\([^\']\)\' /$1 \' /g;
-          text.gsub!(/\([^\']\)\' /,%q(\1 ' ))
-          # as in it's, I'm, we'd
-          #s/\'([smd]) / \'$1 /ig;
-          text.gsub!(/\'([smd]) /i,%q( '\1 ))
-          #s/\'(ll|re|ve) / \'$1 /ig;
-          text.gsub!(/\'(ll|re|ve) /i,%q( '\1 ))
-          #s/n\'t / n\'t /ig;
-          text.gsub!(/n\'t /i,"  n't ")
-          #s/ (can)(not) / $1 $2 /ig;
-          text.gsub!(/ (can)(not) /i,' \1 \2 ')
-          #s/ (d\')(ye) / $1 $2 /ig;
-          text.gsub!(/ (d\')(ye) /i,' \1 \2 ')
-          #s/ (gim)(me) / $1 $2 /ig;
-          text.gsub!(/ (gim)(me) /i,' \1 \2 ')
-          #s/ (gon)(na) / $1 $2 /ig;
-          text.gsub!(/ (gon)(na) /i,' \1 \2 ')
-          #s/ (got)(ta) / $1 $2 /ig;
-          text.gsub!(/ (got)(ta) /i,' \1 \2 ')
-          #s/ (lem)(me) / $1 $2 /ig;
-          text.gsub!(/ (lem)(me) /i,' \1 \2 ')
-          #s/ (more)(\'n) / $1 $2 /ig;
-          text.gsub!(/ (more)(\'n) /i,' \1 \2 ')
-          #s/ (\'t)(is|was) / $1 $2 /ig;
-          text.gsub!(/ (\'t)(is|was) /i,' \1 \2 ')
-          #s/ (wan)(na) / $1 $2 /ig;
-          text.gsub!(/ (wan)(na) /i,' \1 \2 ')
-          tokens = text.split(/\s/)
-          tokens[1..-1].each do |token|
-            next if token =~ /([[:space:]]+)/
-            entity << Treat::Entities::Token.from_string(token)
-          end
-        end
-      end
+#
+# Tokenize the entity using a native rule-based
+# algorithm. This tokenizer is a port from an
+# unknown Perl module, which I have lifted from
+# the 'rbtagger' gem.
+#
+# Author: Todd A. Fisher
+#
+# This code is free to use under the terms of
+# the MIT license.
+#
+# Original project website:
+#
+# https://github.com/taf2/rb-brill-tagger
+module Treat::Processors::Tokenizers::Perl
+  require 'treat/helpers/decimal_point_escaper'
+  # Tokenize the entity using a rule-based algorithm
+  # ported from Perl by Todd A. Fisher.
+  #
+  # Options: none.
+  def self.tokenize(entity, options = {})
+    entity.check_hasnt_children
+    s = entity.to_s
+    tokens = get_tokens(entity.to_s)
+    tokens[1..-1].each do |token|
+      next if token =~ /^\s*$/
+      entity << Treat::Entities::Token.
+      from_string(token)
     end
   end
+  # Helper method to perform the tokenization.
+  def self.get_tokens(string)
+    # Normalize all whitespace
+    text = string.gsub(/\s+/,' ')
+    # Replace all decimal points by ^^
+    Treat::Helpers::DecimalPointEscaper.escape!(text)
+    # Translate some common extended ascii
+    # characters to quotes
+    text.gsub!(/‘/,'`')
+    text.gsub!(/’/,"'")
+    text.gsub!(/“/,"``")
+    text.gsub!(/”/,"''")
+    # Attempt to get correct directional quotes
+    # s{\"\b} { `` }g;
+    text.gsub!(/\"\b/,' `` ')
+    # s{\b\"} { '' }g;
+    text.gsub!(/\b\"/," '' ")
+    #s{\"(?=\s)} { '' }g;
+    text.gsub!(/\"(?=\s)/," '' ")
+    #s{\"} { `` }g;
+    text.gsub!(/\"(?=\s)/," `` ")
+    # Isolate ellipses
+    # s{\.\.\.}   { ... }g;
+    text.gsub!(/\.\.\./,' ... ')
+    # Isolate any embedded punctuation chars
+    #   s{([,;:\@\#\$\%&])} { $1 }g;
+    text.gsub!(/([,;:\@\#\$\%&])/, ' \1 ')
+    # Assume sentence tokenization has been
+    # done first, so split FINAL
+    # periods only.
+    # s/ ([^.]) \.  ([\]\)\}\>\"\']*)
+    # [ \t]* $ /$1 .$2 /gx;
+    text.gsub!(/ ([^.]) \.  ([\]\)\}\>\"\']*) [ \t]* $ /x, '\1 .\2 ')
+    # however, we may as well split ALL
+    # question marks and exclamation points,
+    # since they shouldn't have the abbrev.
+    # -marker ambiguity problem
+    #s{([?!])} { $1 }g;
+    text.gsub!(/([?!])/, ' \1 ')
+    # parentheses, brackets, etc.
+    #s{([\]\[\(\)\{\}\<\>])} { $1 }g;
+    text.gsub!(/([\]\[\(\)\{\}\<\>])/,' \1 ')
+    #s/(-{2,})/ $1 /g;
+    text.gsub!(/(-{2,})/,' \1 ')
+    # Add a space to the beginning and end of
+    # each line, to reduce # of regexps below.
+    #s/$/ /;
+    text.gsub!(/$/," ")
+    #s/^/ /;
+    text.gsub!(/^/," ")
+    # possessive or close-single-quote
+    #s/\([^\']\)\' /$1 \' /g;
+    text.gsub!(/\([^\']\)\' /,%q(\1 ' ))
+    # as in it's, I'm, we'd
+    #s/\'([smd]) / \'$1 /ig;
+    text.gsub!(/\'([smd]) /i,%q( '\1 ))
+    #s/\'(ll|re|ve) / \'$1 /ig;
+    text.gsub!(/\'(ll|re|ve) /i,%q( '\1 ))
+    #s/n\'t / n\'t /ig;
+    text.gsub!(/n\'t /i,"  n't ")
+    #s/ (can)(not) / $1 $2 /ig;
+    text.gsub!(/ (can)(not) /i,' \1 \2 ')
+    #s/ (d\')(ye) / $1 $2 /ig;
+    text.gsub!(/ (d\')(ye) /i,' \1 \2 ')
+    #s/ (gim)(me) / $1 $2 /ig;
+    text.gsub!(/ (gim)(me) /i,' \1 \2 ')
+    #s/ (gon)(na) / $1 $2 /ig;
+    text.gsub!(/ (gon)(na) /i,' \1 \2 ')
+    #s/ (got)(ta) / $1 $2 /ig;
+    text.gsub!(/ (got)(ta) /i,' \1 \2 ')
+    #s/ (lem)(me) / $1 $2 /ig;
+    text.gsub!(/ (lem)(me) /i,' \1 \2 ')
+    #s/ (more)(\'n) / $1 $2 /ig;
+    text.gsub!(/ (more)(\'n) /i,' \1 \2 ')
+    #s/ (\'t)(is|was) / $1 $2 /ig;
+    text.gsub!(/ (\'t)(is|was) /i,' \1 \2 ')
+    #s/ (wan)(na) / $1 $2 /ig;
+    text.gsub!(/ (wan)(na) /i,' \1 \2 ')
+    text.split(/\s/)
+  end
 end

data/lib/treat/processors/tokenizers/ptb.rb ADDED Viewed

@@ -0,0 +1,81 @@
+# A native rule-basd tokenizer based on the one
+# developped by Robert Macyntyre in 1995 for the Penn
+# Treebank project. This tokenizer follows the
+# conventions used by the Penn Treebank.
+#
+# Original script:
+# http://www.cis.upenn.edu/~treebank/tokenizer.sed
+#
+# Copyright (c) 2004 UTIYAMA Masao <mutiyama@nict.go.jp>
+# All rights reserved. This program is free software;
+# you can redistribute it and/or modify it under the
+# same terms as Ruby itself.
+module Treat::Processors::Tokenizers::PTB
+  require 'treat/helpers/decimal_point_escaper'
+  # Tokenize the entity using a native rule-based algorithm.
+  def self.tokenize(entity, options = {})
+    entity.check_hasnt_children
+    if entity.has_children?
+      raise Treat::Exception,
+      "Cannot tokenize an #{entity.class} " +
+      "that already has children."
+    end
+    chunks = split(entity.to_s)
+    chunks.each do |chunk|
+      next if chunk =~ /([[:space:]]+)/
+      entity << Treat::Entities::Token.from_string(chunk)
+    end
+  end
+  # Helper method to split the string into tokens.
+  def self.split(string)
+    s = " " + string + " "
+    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    s.gsub!(/\s+/," ")
+    s.gsub!(/(\s+)''/,'\1"')
+    s.gsub!(/(\s+)``/,'\1"')
+    s.gsub!(/''(\s+)/,'"\1')
+    s.gsub!(/``(\s+)/,'"\1')
+    s.gsub!(/ (['`]+)([^0-9].+) /,' \1 \2 ')
+    s.gsub!(/([ (\[{<])"/,'\1 `` ')
+    s.gsub!(/\.\.\./,' ... ')
+    s.gsub!(/[,;:@\#$%&]/,' \& ')
+    s.gsub!(/([^.])([.])([\])}>"']*)[ 	]*$/,'\1 \2\3 ')
+    s.gsub!(/[?!]/,' \& ')
+    s.gsub!(/[\]\[(){}<>]/,' \& ')
+    s.gsub!(/--/,' -- ')
+    s.sub!(/$/,' ')
+    s.sub!(/^/,' ')
+    s.gsub!(/"/,' \'\' ')
+    s.gsub!(/([^'])' /,'\1 \' ')
+    s.gsub!(/'([sSmMdD]) /,' \'\1 ')
+    s.gsub!(/'ll /,' \'ll ')
+    s.gsub!(/'re /,' \'re ')
+    s.gsub!(/'ve /,' \'ve ')
+    s.gsub!(/n't /,' n\'t ')
+    s.gsub!(/'LL /,' \'LL ')
+    s.gsub!(/'RE /,' \'RE ')
+    s.gsub!(/'VE /,' \'VE ')
+    s.gsub!(/N'T /,' N\'T ')
+    s.gsub!(/ ([Cc])annot /,' \1an not ')
+    s.gsub!(/ ([Dd])'ye /,' \1\' ye ')
+    s.gsub!(/ ([Gg])imme /,' \1im me ')
+    s.gsub!(/ ([Gg])onna /,' \1on na ')
+    s.gsub!(/ ([Gg])otta /,' \1ot ta ')
+    s.gsub!(/ ([Ll])emme /,' \1em me ')
+    s.gsub!(/ ([Mm])ore'n /,' \1ore \'n ')
+    s.gsub!(/ '([Tt])is /,' \'\1 is ')
+    s.gsub!(/ '([Tt])was /,' \'\1 was ')
+    s.gsub!(/ ([Ww])anna /,' \1an na ')
+    while s.sub!(/(\s)([0-9]+) , ([0-9]+)(\s)/, '\1\2,\3\4'); end
+    s.gsub!(/\//, ' / ')
+    s.gsub!(/\s+/,' ')
+    s.strip!
+    s.split(/\s+/)
+  end
+end

data/lib/treat/processors/tokenizers/punkt.rb CHANGED Viewed

@@ -1,45 +1,51 @@
-module Treat
-  module Processors
-    module Tokenizers
-      # A tokenizer that was lifted from the 'punkt-segmenter'
-      # Ruby gem.
-      #
-      # This code follows the terms and conditions of Apache
-      # License v2 (http://www.apache.org/licenses/LICENSE-2.0)
-      #
-      # Authors: Willy <willy@csse.unimelb.edu.au>
-      # (original Python port), Steven Bird
-      # <sb@csse.unimelb.edu.au> (additions),
-      # Edward Loper <edloper@gradient.cis.upenn.edu>
-      # (rewrite), Joel Nothman <jnothman@student.usyd.edu.au>
-      # (almost rewrite).
-      #
-      # Project website: https://github.com/lfcipriani/punkt-segmenter
-      class Punkt
-        SentEndChars = ['.', '?', '!']
-        ReSentEndChars = /[.?!]/
-        InternalPunctuation = [',', ':', ';']
-        ReBoundaryRealignment = /^["\')\]}]+?(?:\s+|(?=--)|$)/m
-        ReWordStart = /[^\(\"\`{\[:;&\#\*@\)}\]\-,]/
-        ReNonWordChars = /(?:[?!)\";}\]\*:@\'\({\[])/
-        ReMultiCharPunct = /(?:\-{2,}|\.{2,}|(?:\.\s){2,}\.)/
-        ReWordTokenizer = /#{ReMultiCharPunct}|(?=#{ReWordStart})\S+?(?=\s|$|#{ReNonWordChars}|#{ReMultiCharPunct}|,(?=$|\s|#{ReNonWordChars}|#{ReMultiCharPunct}))|\S/
-        RePeriodContext = /\S*#{ReSentEndChars}(?=(?<after_tok>#{ReNonWordChars}|\s+(?<next_tok>\S+)))/
-        # Tokenize the text using the algorithm lifted from
-        # the Punkt tokenizer gem.
-        #
-        # Options: none.
-        def self.tokenize(entity, options = {})
-          entity.to_s.scan(ReWordTokenizer).each do |token|
-            if SentEndChars.include?(token[-1])
-              entity << Treat::Entities::Token.from_string(token[0..-2])
-              entity << Treat::Entities::Token.from_string(token[-1..-1])
-            else
-              entity << Treat::Entities::Token.from_string(token)
-            end
-          end
-        end
+# A tokenizer that was lifted from the 'punkt-segmenter'
+# Ruby gem.
+#
+# This code follows the terms and conditions of Apache
+# License v2 (http://www.apache.org/licenses/LICENSE-2.0)
+#
+# Authors: Willy <willy@csse.unimelb.edu.au>
+# (original Python port), Steven Bird
+# <sb@csse.unimelb.edu.au> (additions),
+# Edward Loper <edloper@gradient.cis.upenn.edu>
+# (rewrite), Joel Nothman <jnothman@student.usyd.edu.au>
+# (almost rewrite).
+#
+# Project website: https://github.com/lfcipriani/punkt-segmenter
+class Treat::Processors::Tokenizers::Punkt
+  require 'treat/helpers/decimal_point_escaper'
+  SentEndChars = ['.', '?', '!']
+  ReSentEndChars = /[.?!]/
+  InternalPunctuation = [',', ':', ';']
+  ReBoundaryRealignment = /^["\')\]}]+?(?:\s+|(?=--)|$)/m
+  ReWordStart = /[^\(\"\`{\[:;&\#\*@\)}\]\-,]/
+  ReNonWordChars = /(?:[?!)\";}\]\*:@\'\({\[])/
+  ReMultiCharPunct = /(?:\-{2,}|\.{2,}|(?:\.\s){2,}\.)/
+  ReWordTokenizer = /#{ReMultiCharPunct}|(?=#{ReWordStart})\S+?(?=\s|$|#{ReNonWordChars}|#{ReMultiCharPunct}|,(?=$|\s|#{ReNonWordChars}|#{ReMultiCharPunct}))|\S/
+  RePeriodContext = /\S*#{ReSentEndChars}(?=(?<after_tok>#{ReNonWordChars}|\s+(?<next_tok>\S+)))/
+  # Tokenize the text using the algorithm lifted from
+  # the Punkt tokenizer gem.
+  #
+  # Options: none.
+  def self.tokenize(entity, options = {})
+    entity.check_hasnt_children
+    s = entity.to_s
+    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    s.scan(ReWordTokenizer).each do |token|
+      if SentEndChars.include?(token[-1])
+        entity << Treat::Entities::Token.from_string(token[0..-2])
+        entity << Treat::Entities::Token.from_string(token[-1..-1])
+      else
+        entity << Treat::Entities::Token.from_string(token)
       end
     end
   end
-end
+end