RubyGems - treat - Versions diffs - 0.1.2 → 0.1.3 - Mend

treat 0.1.2 → 0.1.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (100) hide show

data/LICENSE +7 -8
data/TODO +16 -13
data/examples/keywords.rb +89 -1
data/lib/treat/buildable.rb +1 -8
data/lib/treat/categories.rb +3 -4
data/lib/treat/category.rb +1 -1
data/lib/treat/delegatable.rb +1 -1
data/lib/treat/detectors/encoding/native.rb +5 -0
data/lib/treat/detectors/encoding/r_chardet19.rb +2 -3
data/lib/treat/detectors/language/language_detector.rb +4 -0
data/lib/treat/detectors/language/what_language.rb +4 -4
data/lib/treat/detectors.rb +1 -1
data/lib/treat/entities/entity.rb +5 -3
data/lib/treat/entities/tokens.rb +14 -5
data/lib/treat/entities/zones.rb +4 -0
data/lib/treat/entities.rb +7 -5
data/lib/treat/extractors/keywords/topics_frequency.rb +40 -0
data/lib/treat/extractors/statistics/{frequency.rb → frequency_in.rb} +5 -4
data/lib/treat/extractors/statistics/frequency_of.rb +3 -5
data/lib/treat/extractors/statistics/{position_in.rb → position_in_parent.rb} +4 -3
data/lib/treat/extractors/statistics/tf_idf.rb +36 -0
data/lib/treat/extractors/statistics/transition_matrix.rb +25 -25
data/lib/treat/extractors/statistics/transition_probability.rb +8 -4
data/lib/treat/extractors/time/chronic.rb +8 -0
data/lib/treat/extractors/time/native.rb +6 -0
data/lib/treat/extractors/time/nickel.rb +31 -23
data/lib/treat/extractors/topic_words/lda.rb +21 -16
data/lib/treat/extractors/topics/reuters.rb +6 -4
data/lib/treat/extractors.rb +7 -7
data/lib/treat/formatters/readers/abw.rb +32 -0
data/lib/treat/formatters/readers/autoselect.rb +13 -11
data/lib/treat/formatters/readers/doc.rb +13 -0
data/lib/treat/formatters/readers/gocr.rb +2 -0
data/lib/treat/formatters/readers/html.rb +21 -1
data/lib/treat/formatters/readers/ocropus.rb +3 -3
data/lib/treat/formatters/readers/odt.rb +41 -0
data/lib/treat/formatters/readers/pdf.rb +5 -2
data/lib/treat/formatters/readers/txt.rb +2 -0
data/lib/treat/formatters/serializers/xml.rb +3 -2
data/lib/treat/formatters/serializers/yaml.rb +2 -0
data/lib/treat/formatters/unserializers/autoselect.rb +7 -1
data/lib/treat/formatters/unserializers/xml.rb +6 -1
data/lib/treat/formatters/unserializers/yaml.rb +5 -1
data/lib/treat/formatters/visualizers/dot.rb +35 -37
data/lib/treat/formatters/visualizers/html.rb +1 -0
data/lib/treat/formatters/visualizers/inspect.rb +4 -0
data/lib/treat/formatters/visualizers/short_value.rb +18 -3
data/lib/treat/formatters/visualizers/standoff.rb +11 -6
data/lib/treat/formatters/visualizers/tree.rb +5 -1
data/lib/treat/formatters/visualizers/txt.rb +6 -1
data/lib/treat/formatters.rb +1 -1
data/lib/treat/group.rb +4 -3
data/lib/treat/inflectors/cardinal_words/linguistics.rb +14 -17
data/lib/treat/inflectors/conjugations/linguistics.rb +16 -3
data/lib/treat/inflectors/declensions/linguistics.rb +17 -6
data/lib/treat/inflectors/ordinal_words/linguistics.rb +9 -10
data/lib/treat/inflectors/stem/porter.rb +6 -2
data/lib/treat/inflectors/stem/porter_c.rb +4 -1
data/lib/treat/inflectors/stem/uea.rb +4 -4
data/lib/treat/languages/english/tags.rb +16 -0
data/lib/treat/languages/english.rb +4 -1
data/lib/treat/lexicalizers/category/from_tag.rb +4 -4
data/lib/treat/lexicalizers/linkages/naive.rb +3 -3
data/lib/treat/lexicalizers/tag/brill.rb +3 -11
data/lib/treat/lexicalizers/tag/lingua.rb +4 -6
data/lib/treat/lexicalizers.rb +0 -2
data/lib/treat/processors/chunkers/txt.rb +4 -4
data/lib/treat/processors/parsers/enju.rb +3 -17
data/lib/treat/processors/parsers/stanford.rb +4 -0
data/lib/treat/processors/segmenters/punkt.rb +1 -0
data/lib/treat/processors/segmenters/stanford.rb +4 -0
data/lib/treat/processors/segmenters/tactful.rb +4 -1
data/lib/treat/processors/tokenizers/punkt.rb +1 -2
data/lib/treat/processors/tokenizers/stanford.rb +4 -0
data/lib/treat/processors/tokenizers/tactful.rb +1 -1
data/lib/treat/processors.rb +4 -4
data/lib/treat/proxies.rb +18 -11
data/lib/treat/registrable.rb +12 -5
data/lib/treat/sugar.rb +8 -3
data/lib/treat/tree.rb +10 -3
data/lib/treat.rb +55 -55
data/test/tc_entity.rb +7 -7
data/test/tc_extractors.rb +6 -4
data/test/tc_formatters.rb +0 -4
data/test/tests.rb +2 -0
data/test/texts.rb +4 -4
metadata +48 -56
data/examples/texts/bugged_out.txt +0 -26
data/examples/texts/half_cocked_basel.txt +0 -16
data/examples/texts/hedge_funds.txt +0 -24
data/examples/texts/hose_and_dry.txt +0 -19
data/examples/texts/hungarys_troubles.txt +0 -46
data/examples/texts/indias_slowdown.txt +0 -15
data/examples/texts/merkozy_rides_again.txt +0 -24
data/examples/texts/prada_is_not_walmart.txt +0 -9
data/examples/texts/republican_nomination.txt +0 -26
data/examples/texts/to_infinity_and_beyond.txt +0 -15
data/lib/treat/entities/text.rb +0 -7
data/lib/treat/extractors/key_sentences/topics_frequency.rb +0 -49
data/lib/treat/formatters/cleaners/html.rb +0 -17

data/lib/treat/extractors/key_sentences/topics_frequency.rb DELETED Viewed

@@ -1,49 +0,0 @@
-module Treat
-  module Extractors
-    module KeySentences
-      class TopicsFrequency
-        def self.key_sentences(entity, options = {})
-          options[:threshold] ||= 4
-          @@topics = options[:topic_words]
-          if Treat::Entities.rank(entity.type) <
-            Treat::Entities.rank(:sentence)
-            raise Treat::Exception, 'Cannot get the key ' +
-            'sentences of an entity smaller than a sentence.'
-          else
-            sentence_scores = {}
-            sentences = []
-            entity.each_sentence do |sentence|
-              sentence_scores[sentence.id] = score_sentence(sentence)
-            end
-            sentence_scores.each do |sid, score|
-              if score >= options[:threshold]
-                s = entity.find(sid)
-                s.set :is_key_sentence?, true
-                sentences << s
-              end
-            end
-          end
-          sentences
-        end
-        def self.score_sentence(sentence)
-          sentence.set :topic_score, 0
-          sentence.each_word do |word|
-            found = false
-            @@topics.each do |i, topic_words|
-              if topic_words.include?(word.to_s)
-                sentence.set :topic_score,
-                (sentence.topic_score + 1)
-                found = true
-              end
-            end
-            word.set :is_keyword?, found
-          end
-          sentence.topic_score
-        end
-      end
-    end
-  end
-end

data/lib/treat/formatters/cleaners/html.rb DELETED Viewed

@@ -1,17 +0,0 @@
-module Treat
-  module Formatters
-    module Cleaners
-      class HTML
-        silence_warnings { require 'hpricot' }
-        def self.clean(document, options = {})
-          document.each_text do |text|
-            text.set :html_value, text.value
-            v = Hpricot(text.value).inner_text
-            text.value = v
-          end
-          document
-        end
-      end
-    end
-  end
-end