RubyGems - treat - Versions diffs - 0.1.4 → 0.2.0 - Mend

treat 0.1.4 → 0.2.0

Files changed (160) hide show

data/LICENSE +4 -4
data/TODO +21 -54
data/lib/economist/half_cocked_basel.txt +16 -0
data/lib/economist/hose_and_dry.doc +0 -0
data/lib/economist/hungarys_troubles.abw +70 -0
data/lib/economist/republican_nomination.pdf +0 -0
data/lib/economist/saving_the_euro.odt +0 -0
data/lib/economist/to_infinity_and_beyond.txt +15 -0
data/lib/economist/zero_sum.html +91 -0
data/lib/treat.rb +58 -72
data/lib/treat/buildable.rb +59 -15
data/lib/treat/categories.rb +26 -14
data/lib/treat/category.rb +2 -2
data/lib/treat/delegatable.rb +65 -48
data/lib/treat/doable.rb +44 -0
data/lib/treat/entities.rb +34 -14
data/lib/treat/entities/collection.rb +2 -0
data/lib/treat/entities/document.rb +3 -2
data/lib/treat/entities/entity.rb +105 -90
data/lib/treat/entities/phrases.rb +17 -0
data/lib/treat/entities/tokens.rb +28 -13
data/lib/treat/entities/zones.rb +20 -0
data/lib/treat/extractors.rb +49 -11
data/lib/treat/extractors/coreferences/stanford.rb +68 -0
data/lib/treat/extractors/date/chronic.rb +32 -0
data/lib/treat/extractors/date/ruby.rb +25 -0
data/lib/treat/extractors/keywords/tf_idf.rb +26 -0
data/lib/treat/extractors/keywords/{topics_frequency.rb → topics_tf_idf.rb} +15 -7
data/lib/treat/{detectors/language/language_detector.rb → extractors/language/language_extractor.rb} +5 -2
data/lib/treat/extractors/language/what_language.rb +49 -0
data/lib/treat/extractors/named_entity_tag/stanford.rb +53 -0
data/lib/treat/extractors/roles/naive.rb +73 -0
data/lib/treat/extractors/statistics/frequency_in.rb +6 -13
data/lib/treat/extractors/statistics/{position_in_parent.rb → position_in.rb} +1 -1
data/lib/treat/extractors/statistics/tf_idf.rb +89 -21
data/lib/treat/extractors/statistics/transition_matrix.rb +11 -11
data/lib/treat/extractors/statistics/transition_probability.rb +4 -4
data/lib/treat/extractors/time/nickel.rb +30 -12
data/lib/treat/extractors/topic_words/lda.rb +9 -9
data/lib/treat/extractors/topics/reuters.rb +14 -15
data/lib/treat/extractors/topics/reuters/region.xml +1 -0
data/lib/treat/features.rb +7 -0
data/lib/treat/formatters/readers/abw.rb +6 -1
data/lib/treat/formatters/readers/autoselect.rb +5 -6
data/lib/treat/formatters/readers/doc.rb +3 -1
data/lib/treat/formatters/readers/html.rb +1 -1
data/lib/treat/formatters/readers/image.rb +43 -0
data/lib/treat/formatters/readers/odt.rb +1 -2
data/lib/treat/formatters/readers/pdf.rb +9 -1
data/lib/treat/formatters/readers/xml.rb +40 -0
data/lib/treat/formatters/serializers/xml.rb +50 -14
data/lib/treat/formatters/serializers/yaml.rb +7 -2
data/lib/treat/formatters/unserializers/xml.rb +33 -7
data/lib/treat/formatters/visualizers/dot.rb +90 -20
data/lib/treat/formatters/visualizers/short_value.rb +2 -2
data/lib/treat/formatters/visualizers/standoff.rb +2 -2
data/lib/treat/formatters/visualizers/tree.rb +1 -1
data/lib/treat/formatters/visualizers/txt.rb +13 -4
data/lib/treat/group.rb +16 -10
data/lib/treat/helpers/linguistics_loader.rb +18 -0
data/lib/treat/inflectors.rb +10 -0
data/lib/treat/inflectors/cardinal_words/linguistics.rb +3 -3
data/lib/treat/inflectors/conjugations/linguistics.rb +5 -12
data/lib/treat/inflectors/declensions/english.rb +319 -0
data/lib/treat/inflectors/declensions/linguistics.rb +12 -11
data/lib/treat/inflectors/ordinal_words/linguistics.rb +3 -3
data/lib/treat/install.rb +59 -0
data/lib/treat/kernel.rb +18 -8
data/lib/treat/languages.rb +18 -11
data/lib/treat/languages/arabic.rb +4 -2
data/lib/treat/languages/chinese.rb +6 -2
data/lib/treat/languages/dutch.rb +16 -0
data/lib/treat/languages/english.rb +47 -19
data/lib/treat/languages/french.rb +8 -5
data/lib/treat/languages/german.rb +9 -6
data/lib/treat/languages/greek.rb +16 -0
data/lib/treat/languages/italian.rb +6 -3
data/lib/treat/languages/polish.rb +16 -0
data/lib/treat/languages/portuguese.rb +16 -0
data/lib/treat/languages/russian.rb +16 -0
data/lib/treat/languages/spanish.rb +16 -0
data/lib/treat/languages/swedish.rb +16 -0
data/lib/treat/languages/tags.rb +377 -0
data/lib/treat/lexicalizers.rb +34 -23
data/lib/treat/lexicalizers/category/from_tag.rb +17 -10
data/lib/treat/lexicalizers/linkages/naive.rb +51 -51
data/lib/treat/lexicalizers/synsets/wordnet.rb +5 -1
data/lib/treat/lexicalizers/tag/brill.rb +35 -40
data/lib/treat/lexicalizers/tag/lingua.rb +19 -14
data/lib/treat/lexicalizers/tag/stanford.rb +59 -68
data/lib/treat/lexicalizers/tag/tagger.rb +29 -0
data/lib/treat/processors.rb +8 -8
data/lib/treat/processors/chunkers/txt.rb +4 -4
data/lib/treat/processors/parsers/enju.rb +114 -99
data/lib/treat/processors/parsers/stanford.rb +109 -41
data/lib/treat/processors/segmenters/punkt.rb +17 -18
data/lib/treat/processors/segmenters/punkt/dutch.yaml +9716 -0
data/lib/treat/processors/segmenters/punkt/english.yaml +10340 -0
data/lib/treat/processors/segmenters/punkt/french.yaml +43159 -0
data/lib/treat/processors/segmenters/punkt/german.yaml +9572 -0
data/lib/treat/processors/segmenters/punkt/greek.yaml +6050 -0
data/lib/treat/processors/segmenters/punkt/italian.yaml +14748 -0
data/lib/treat/processors/segmenters/punkt/polish.yaml +9751 -0
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +13662 -0
data/lib/treat/processors/segmenters/punkt/russian.yaml +4237 -0
data/lib/treat/processors/segmenters/punkt/spanish.yaml +24034 -0
data/lib/treat/processors/segmenters/punkt/swedish.yaml +10001 -0
data/lib/treat/processors/segmenters/stanford.rb +38 -37
data/lib/treat/processors/segmenters/tactful.rb +5 -4
data/lib/treat/processors/tokenizers/macintyre.rb +7 -6
data/lib/treat/processors/tokenizers/multilingual.rb +2 -3
data/lib/treat/processors/tokenizers/perl.rb +2 -2
data/lib/treat/processors/tokenizers/punkt.rb +6 -2
data/lib/treat/processors/tokenizers/stanford.rb +25 -24
data/lib/treat/processors/tokenizers/tactful.rb +1 -2
data/lib/treat/proxies.rb +2 -35
data/lib/treat/registrable.rb +17 -22
data/lib/treat/sugar.rb +11 -11
data/lib/treat/tree.rb +27 -17
data/lib/treat/viewable.rb +29 -0
data/lib/treat/visitable.rb +1 -1
data/test/tc_entity.rb +56 -49
data/test/tc_extractors.rb +41 -18
data/test/tc_formatters.rb +7 -8
data/test/tc_inflectors.rb +19 -24
data/test/tc_lexicalizers.rb +12 -19
data/test/tc_processors.rb +26 -12
data/test/tc_resources.rb +2 -7
data/test/tc_treat.rb +20 -22
data/test/tc_tree.rb +4 -4
data/test/tests.rb +3 -5
data/test/texts.rb +13 -14
data/tmp/INFO +1 -0
metadata +78 -158
data/bin/INFO +0 -1
data/examples/benchmark.rb +0 -81
data/examples/keywords.rb +0 -148
data/lib/treat/detectors.rb +0 -31
data/lib/treat/detectors/encoding/r_chardet19.rb +0 -27
data/lib/treat/detectors/format/file.rb +0 -36
data/lib/treat/detectors/language/what_language.rb +0 -29
data/lib/treat/entities/constituents.rb +0 -15
data/lib/treat/entities/sentence.rb +0 -8
data/lib/treat/extractors/named_entity/abner.rb +0 -20
data/lib/treat/extractors/named_entity/stanford.rb +0 -174
data/lib/treat/extractors/statistics/frequency_of.rb +0 -15
data/lib/treat/extractors/time/chronic.rb +0 -20
data/lib/treat/extractors/time/native.rb +0 -18
data/lib/treat/formatters/readers/gocr.rb +0 -26
data/lib/treat/formatters/readers/ocropus.rb +0 -31
data/lib/treat/formatters/visualizers/html.rb +0 -13
data/lib/treat/formatters/visualizers/inspect.rb +0 -20
data/lib/treat/inflectors/declensions/en.rb +0 -18
data/lib/treat/languages/categories.rb +0 -5
data/lib/treat/languages/english/categories.rb +0 -23
data/lib/treat/languages/english/tags.rb +0 -352
data/lib/treat/languages/xinhua.rb +0 -12
data/lib/treat/lexicalizers/synsets/rita_wn.rb +0 -23
data/lib/treat/string.rb +0 -5
data/test/tc_detectors.rb +0 -26

@@ -0,0 +1,29 @@
+module Treat
+  module Viewable
+    # Return the entity's string value in plain text format.
+    def to_string; @value; end
+    # An alias for #to_string.
+    def to_s; visualize(:txt); end
+    alias :to_str :to_s
+    # Return a shortened value of the entity's string value using [...].
+    def short_value(ml = 6); visualize(:short_value, :max_length => ml); end
+    # Return an informative string representation of the entity.
+    def inspect
+      s = "#{cl(self.class)} (#{@id.to_s})"
+      if caller_method(2) == :inspect
+        @id.to_s
+      else
+        dependencies = []
+        @dependencies.each do |dependency|
+          dependencies << "#{dependency.target}#{dependency.type}"
+        end
+        s += "  |  #{short_value.inspect}" +
+        "  |  #{@features.inspect}" +
+        "  | { #{dependencies.join(', ')} }"
+      end
+      s
+    end
+    # Print out an ASCII representation of the tree.
+    def print_tree; puts visualize(:tree); end
+  end
+end

data/lib/treat/visitable.rb CHANGED

@@ -8,7 +8,7 @@ module Treat
         if group.type == :transformer
           if has_children?
             @children.each do |entity|
-              if group.has_target?(entity.class)
+              if group.has_target?(entity.class) && entity.id != id
                 entity.accept(group, klass, method, options)
               end
             end

data/test/tc_entity.rb CHANGED

@@ -2,17 +2,14 @@ module Treat
   module Tests
     class TestEntity < Test::Unit::TestCase
       def setup
-        @text = Treat::Entities::Section.new
+        @section = Treat::Entities::Section.new
         @sentence = Treat::Entities::Sentence.new
-        @noun_phrase = Treat::Entities::Phrase.new
-        @noun_phrase.set :tag, 'NP'
-        @verb_phrase = Treat::Entities::Phrase.new
-        @verb_phrase.set :tag, 'VP'
-        @adj_phrase = Treat::Entities::Phrase.new
-        @adj_phrase.set :tag, 'ADJP'
+        @noun_cons = Treat::Entities::Phrase.new
+        @noun_cons.set :tag, 'NP'
+        @verb_cons = Treat::Entities::Phrase.new
+        @verb_cons.set :tag, 'VP'
+        @adj_cons = Treat::Entities::Phrase.new
+        @adj_cons.set :tag, 'ADJP'
         @det = Treat::Entities::Word.new('The')
         @det.set :category, :determiner
         @det.set :tag, 'DT'
@@ -34,77 +31,87 @@ module Treat
         @verb.set :tag, 'VBG'
         @verb.set :tag_set, :penn
         @dot = Treat::Entities::Punctuation.new('.')
-        @text << @sentence << [@noun_phrase, @verb_phrase, @dot]
-        @noun_phrase << [@det, @adj_phrase, @noun]
-        @adj_phrase << @adj
-        @verb_phrase << [@aux, @verb]
+        @section << @sentence << [@noun_cons, @verb_cons, @dot]
+        @noun_cons << [@det, @adj_cons, @noun]
+        @adj_cons << @adj
+        @verb_cons << [@aux, @verb]
       end
-      def test_respond_to_missing
+      def test_viewable
+        s = 'Happiness is not an ideal of reason, but of imagination.'.tokenize
+        assert_nothing_raised do
+          # Return the string value of the sentence.
+          s.to_s
+          # Return a debug description of the sentence.
+          s.inspect
+          # Return a shortened version of the Sentence with [...]
+          s.short_value
+        end
       end
       def test_registrable
-        assert_equal @text.token_registry, @verb.token_registry
-        assert_equal @noun, @text.token_registry[:id][@noun.id]
-        assert_equal [@noun], @text.token_registry[:value][@noun.value]
+        assert_equal @section.token_registry, @verb.token_registry
+        assert_equal @noun, @section.token_registry[:id][@noun.id]
+        assert_equal [@noun], @section.token_registry[:value][@noun.value]
       end
       def test_delegatable_visitable
-        assert_raise(Treat::Exception) do
-          @text.encoding(:nonexistent)
+        assert_raise(Treat::Exception) do
+          @section.encoding(:nonexistent)
         end
         assert_nothing_raised do
-          @text.language
+          @section.language
         end
       end
       def test_type
-        assert_equal :section, @text.type
+        assert_equal :section, @section.type
       end
       def test_printers
         assert_nothing_raised do
-          @text.to_s
-          @text.to_string
-          @text.short_value
-          @text.inspect
+          @section.to_s
+          @section.to_string
+          @section.short_value
+          @section.inspect
         end
       end
       def test_magic_methods
-        assert_equal @sentence, @text.sentence
-        assert_equal [@sentence], @text.sentences
-        assert_equal 1, @text.sentence_count
-        assert_equal [@det], @text.words_with_value('The')
-        assert_equal [@verb], @text.words_with_tag('VBG')
-        assert_equal @noun, @text.noun
-        assert_equal [@aux, @verb], @text.verbs
-        assert_equal 6, @text.token_count
-        @text.each_sentence do |s|
+        assert_equal true, @sentence.is_sentence?
+        assert_equal true, @noun.is_noun?
+        assert_equal @sentence, @section.sentence
+        assert_equal [@sentence], @section.sentences
+        assert_equal 1, @section.sentence_count
+        assert_equal [@det], @section.words_with_value('The')
+        assert_equal [@verb], @section.words_with_tag('VBG')
+        assert_equal @noun, @section.noun
+        assert_equal [@aux, @verb], @section.verbs
+        assert_equal 6, @section.token_count
+        @section.each_sentence do |s|
           assert_equal @sentence, s
         end
-        @text.each_noun do |n|
+        @section.each_noun do |n|
           assert_equal @noun, n
         end
-        @text.each_with_value('The') do |x|
+        @section.each_with_value('The') do |x|
           assert_equal @det, x
         end
         assert_equal @sentence, @noun.parent_sentence
       end
       def test_features
         @verb.set :test, :test
         assert_equal :test,  @verb.test
-        assert_raise(Treat::Exception) { @verb.nonexistent }
+        assert_raise(Treat::Exception) { @verb.nonexistent }
       end
     end
   end
 end

data/test/tc_extractors.rb CHANGED

@@ -1,34 +1,38 @@
+# encoding: utf-8
 module Treat
   module Tests
     class TestExtractors < Test::Unit::TestCase
       def setup
-        @time = Treat::Tests::EnglishTime
-        @date = Treat::Tests::EnglishDate
-        @doc = Treat::Tests::EnglishLongDoc
-        @word = Treat::Tests::EnglishWord
+        @time = Treat::Tests::English::Time
+        @date = Treat::Tests::English::Date
+        @doc = Treat::Tests::English::LongDoc
+        @word = Treat::Tests::English::Word
+        @col = Treat::Tests::English::Collection
       end
       def test_time
-        assert_nothing_raised { @date.time(:chronic) }
-        assert_nothing_raised { @date.time(:native) }
-        assert_nothing_raised { @date.time(:nickel) }
+        assert_nothing_raised { @time.time(:nickel) }
+      end
+      def test_date
+        assert_equal 2011, @date.date(:chronic).year
+        assert_equal 2011, @date.date(:ruby).year
       end
       def test_topic_words
-        assert_nothing_raised { @doc.topic_words(:lda) }
+        assert_nothing_raised { @col.topic_words(:lda) }
       end
       def test_named_entity
-        # assert_nothing_raised { @doc.named_entity(:stanford) }
-        # assert_nothing_raised { @doc.named_entity(:abner) }
+        p = 'Angela Merkel and Nicolas Sarkozy were the first ones to board the p'
+        assert_nothing_raised { @doc.named_entity(:stanford) }
       end
       def test_keywords
-        assert_nothing_raised do
-          topics = @doc.topic_words(:lda)
-          @doc.keywords(:topics_frequency, topic_words: topics)
+        assert_nothing_raised do
+          topics = @col.topic_words(:lda)
+          @doc.keywords(:topics_frequency, :topic_words => topics)
         end
       end
@@ -38,13 +42,32 @@ module Treat
       def test_statistics
         @doc.chunk.segment(:tactful).tokenize
-        assert_nothing_raised { @doc.statistics(:frequency_of, value: 'the') }
-        assert_nothing_raised { @word.statistics(:frequency_in) }
+        assert_equal 1, @word.frequency_in(:document)
+        assert_nothing_raised { @word.tf_idf ; puts @word.tf_idf }
         # assert_nothing_raised { @doc.statistics(:position_in) }
         # assert_nothing_raised { @doc.statistics(:transition_matrix) }
         # assert_nothing_raised { @doc.statistics(:transition_probability) }
       end
+      def test_language
+        assert_equal Treat.default_language, @doc.language
+        Treat.detect_language = true
+        assert_equal :eng, @doc.language
+        a = 'I want to know God\'s thoughts; the rest are details. - Albert Einstein'
+        b = 'El mundo de hoy no tiene sentido, así que ¿por qué debería pintar cuadros que lo tuvieran? - Pablo Picasso'
+        c = 'Un bon Allemand ne peut souffrir les Français, mais il boit volontiers les vins de France. - Goethe'
+        d = 'Wir haben die Kunst, damit wir nicht an der Wahrheit zugrunde gehen. - Friedrich Nietzsche'
+        assert_equal :eng, a.language
+        assert_equal :spa, b.language
+        assert_equal :fre, c.language
+        assert_equal :ger, d.language
+        # Reset defaults
+        Treat.detect_language = false
+      end
     end
   end
 end

data/test/tc_formatters.rb CHANGED

@@ -3,25 +3,25 @@ module Treat
     class TestFormatters < Test::Unit::TestCase
       def setup
-        @doc = Treat::Tests::EnglishShortDoc
-        @html_doc = Treat::Tests::EnglishHtmlDoc
-        @sentence = Treat::Tests::EnglishSentence
+        @doc = Treat::Tests::English::ShortDoc
+        @sentence = Treat::Tests::English::Sentence
       end
       def test_readers
-        # How should we test this?
+        # This is done by loading a collection with all types of texts.
       end
       def test_serializers_and_unserializers
+        # Test roundtrip Ruby -> YAML -> Ruby -> YAML
         create_temp_file('yml') do |tmp|
-          @doc.serialize(:yaml).save(tmp)
+          @doc.serialize(:yaml, :file => tmp)
           doc = Treat::Entities::Document(tmp)
           assert_equal File.read(tmp).length,
           doc.serialize(:yaml).length
         end
+        # Test roundtrip Ruby -> XML -> Ruby -> XML.
         create_temp_file('xml') do |tmp|
-          @doc.serialize(:xml).save(tmp)
+          @doc.serialize(:xml, :file => tmp)
           doc = Treat::Entities::Document(tmp)
           assert_equal File.read(tmp).length,
           doc.serialize(:xml).length
@@ -32,7 +32,6 @@ module Treat
         assert_nothing_raised { @doc.visualize(:tree) }
         # assert_nothing_raised { @doc.visualize(:html) }
         assert_nothing_raised { @doc.visualize(:dot) }
-        assert_nothing_raised { @doc.visualize(:inspect) }
         assert_nothing_raised { @doc.visualize(:short_value) }
         assert_nothing_raised { @sentence.visualize(:standoff) }
       end

data/test/tc_inflectors.rb CHANGED

@@ -2,38 +2,33 @@ module Treat
   module Tests
     class TestInflectors < Test::Unit::TestCase
-      def setup
-        @word = Treat::Tests::EnglishWord
-        @number = Treat::Tests::Number
-        @verb = Treat::Tests::EnglishVerb
-        @noun = Treat::Tests::EnglishNoun
-      end
       def test_lemmatizers
         # Not implemented yet.
       end
       def test_stemmers
-        assert_equal 'run', @word.stem(:porter)
-        assert_equal 'run', @word.stem(:porter_c)
-        assert_equal 'run', @word.stem(:uea)
+        assert_equal 'run', 'running'.stem(:porter)
+        assert_equal 'run', 'running'.stem(:porter_c)
+        assert_equal 'run', 'running'.stem(:uea)
       end
-    end
-    def test_conjugators
-      assert_equal 'running', @verb.present_participle
-      assert_equal 'run', @verb.infinitive
-      assert_equal 'run', @verb.plural
-    end
+      def test_conjugators
+        assert_equal 'run', 'running'.infinitive
+        assert_equal 'running', 'run'.present_participle
+        assert_equal 'run', 'runs'.plural_verb
+      end
-    def test_declensors
-      assert_equal 'geese', @noun.plural
-    end
+      def test_declensors
+        assert_equal 'inflections', 'inflection'.plural(:linguistics)
+        assert_equal 'inflections', 'inflection'.plural(:english)
+        assert_equal 'inflection', 'inflections'.singular(:english)
+      end
-    def test_ordinal_and_cardinal_words
-      assert_equal 'twenty', @number.cardinal_words
-      assert_equal 'twentieth', @number.ordinal_words
-    end
+      def test_ordinal_and_cardinal_words
+        assert_equal 'twenty', 20.cardinal_words
+        assert_equal 'twentieth', 20.ordinal_words
+      end
+    end
   end
-end
+end

data/test/tc_lexicalizers.rb CHANGED

@@ -2,35 +2,28 @@ module Treat
   module Tests
     class TestLexicalizers < Test::Unit::TestCase
-      def setup
-        @word = Treat::Tests::EnglishWord
-        @sentence = Treat::Tests::EnglishSentence.parse
-      end
       def test_category
-        assert_equal :verb, @word.category(:from_tag)
+        assert_equal :verb, 'visualize'.category(:from_tag, :tagger => :stanford)
+        assert_equal :noun, 'inflection'.category(:from_tag, :tagger => :brill)
+        assert_equal :adjective, 'sweet'.category(:from_tag, :tagger => :lingua)
       end
       def test_synsets
-        # assert_nothing_raised { @word.synsets(:rita_wn) }
-        assert_nothing_raised { @word.synsets(:wordnet) }
-        assert_nothing_raised { @word.synonyms(:wordnet) }
-        assert_nothing_raised { @word.antonyms(:wordnet) }
-        assert_nothing_raised { @word.hyponyms(:wordnet) }
-        assert_nothing_raised { @word.hypernyms(:wordnet) }
+        assert_equal 'mature', 'ripe'.synonyms(:wordnet)[0]
+        # assert_equal 'green', ' ripe'.antonyms(:wordnet)[0]
+        assert_equal 'beverage', 'coffee'.hypernyms(:wordnet)[0]
+        assert_equal 'gravy', 'juice'.hyponyms(:wordnet)[0]
       end
       def test_linkages
-        assert_nothing_raised { @sentence.linkages(:naive, :linkage => :main_verb) }
-        assert_nothing_raised { @sentence.linkages(:naive, :linkage => :subject) }
-        assert_nothing_raised { @sentence.linkages(:naive, :linkage => :object) }
-        assert_nothing_raised { @sentence.linkages(:naive, :linkage => :patient) }
+        sentence = 'Good is bad, but bad is not good'
+       # assert_equal sentence.parse(:enju).linkages
       end
       def test_taggers
-        assert_nothing_raised { @word.tag(:brill) }
-        assert_nothing_raised { @word.tag(:lingua) }
-        assert_nothing_raised { @word.tag(:stanford) }
+        assert_equal 'VBG', 'running'.tag(:stanford)
+        assert_equal 'VBG', 'running'.tag(:brill)
+        assert_equal 'VBG', 'running'.tag(:lingua)
       end
     end

data/test/tc_processors.rb CHANGED

@@ -3,31 +3,45 @@ module Treat
     class TestProcessors < Test::Unit::TestCase
       def setup
-        @doc = Treat::Tests::EnglishShortDoc
+        @doc = Treat::Tests::English::ShortDoc
       end
       def test_tokenizers
-        assert_nothing_raised { @doc.tokenize(:macintyre) }
-        assert_nothing_raised { @doc.tokenize(:multilingual) }
-        assert_nothing_raised { @doc.tokenize(:perl) }
-        assert_nothing_raised { @doc.tokenize(:punkt) }
-        assert_nothing_raised { @doc.tokenize(:stanford) }
-        assert_nothing_raised { @doc.tokenize(:tactful) }
+        words = ['A', 'sentence', 'to', 'tokenize']
+        tokenize_map = lambda do |worker, o={}|
+          'A sentence to tokenize'.
+          tokenize(worker, o).words.map { |w| w.value }
+        end
+        assert_equal words, tokenize_map.call(:macintyre)
+        assert_equal words, tokenize_map.call(:multilingual)
+        assert_equal words, tokenize_map.call(:perl)
+        assert_equal words, tokenize_map.call(:punkt)
+        assert_equal words, tokenize_map.call(:stanford, :silence => true)
+        assert_equal words, tokenize_map.call(:tactful)
       end
       def test_segmenters
-        assert_nothing_raised { @doc.segment(:punkt) }
-        assert_nothing_raised { @doc.segment(:stanford) }
-        assert_nothing_raised { @doc.segment(:tactful) }
+        sentences = ['This is sentence 1.', 'This is sentence 2.']
+        segment_map = lambda do |worker,o={}|
+          'This is sentence 1. This is sentence 2.'.
+          segment(worker, o).sentences.map { |s| s.value }
+        end
+        assert_equal sentences, segment_map.call(:punkt)
+        assert_equal sentences, segment_map.call(:stanford, :silence => true)
+        assert_equal sentences, segment_map.call(:tactful)
       end
       def test_chunkers
-        assert_nothing_raised { @doc.chunk(:txt) }
+        title = 'This is a title!'
+        paragraph = 'This is sentence 1. This is a potential sentence inside a pargraph describing the wonders of the world.'
+        s = "This is a title!\nThis is sentence 1. This is a potential sentence inside a pargraph describing the wonders of the world.".chunk
+        assert_equal title, s.title.value
+        assert_equal paragraph, s.paragraph.value
       end
       def test_parsers
         assert_nothing_raised { @doc.segment.parse(:enju) }
-        assert_nothing_raised { @doc.segment.parse(:stanford) }
+        assert_nothing_raised { @doc.segment.parse(:stanford, :silence => true) }
       end
     end