RubyGems - nlp - Versions diffs - 0.2.1 → 0.2.2 - Mend

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

data/lib/analyzer.rb CHANGED Viewed

@@ -1,12 +1,10 @@
 require 'dictionary'
-require 'morfeusz'
+#require 'morfeusz'
 require 'token'
 require 'word'
 require 'emoticon'
 require 'sentence'
 require "token_scanner.rb"
-require "inflectable"
-require "meaningable"
 $KODE = "UTF8"
@@ -15,7 +13,6 @@ module NLP
   class Analyzer
     include REXML
-   #Lexeme = Apohllo::Morfeusz::Lexeme
     def initialize( category_file, restore = true )
         state_file = File.expand_path(Dictionary::CACHE_DIR)
@@ -46,7 +43,6 @@ module NLP
         unless categories.nil?
             categories.each do |category|
-                puts "#{word} : #{category.name}"
                 results[:scores][category] = results[:scores][category] + 1
             end

data/lib/dictionary.rb CHANGED Viewed

@@ -59,7 +59,6 @@ module NLP
               @tree.insert( word, category )
             end
           rescue
-            puts "Error for line: #{line}"
             raise
           end
         end

data/lib/emoticon.rb CHANGED Viewed

@@ -1,5 +1,6 @@
+require 'meaningable'
 module NLP
-class Emoticon < Token
+    class Emoticon < Token
 	include Meaningable
 	def initialize(tokens,tags)
@@ -8,6 +9,6 @@ class Emoticon < Token
 	end
-end
+    end
 end

data/lib/inflectable.rb CHANGED Viewed

@@ -2,8 +2,8 @@ module Inflectable
 	GRAM_CAT = {
 		#rzeczownik
-		[:subst, :depr] => 'rzeczownik',
 		:adj => 'przymiotnik',
+                [:subst,:depr] => 'rzeczownik',
 		:adv => 'przyslowek',
 		:num => 'liczebnik',
 		[:pron,:siebie] => 'zaimek',
@@ -22,15 +22,15 @@ module Inflectable
     		:voc => 'wolacz',
 		#Rodzaje
-    		:m1 => 'męski_osobowy',
-    		:m2 => 'męski_zwierzęcy',
-    		:m3 => 'męski_rzeczowy',
-    		:f => 'żeński',
-    		:n1 => 'nijaki zbiorowy',
-		:n2 => 'nijaki zwykły',
-    		:p1 => 'przymnogi osobowy',
-		:p2 => 'przymnogi zwykły',
-		:p3 => 'przymnogi opisowy',
+    		:m1 => 'meski_osobowy',
+    		:m2 => 'meski_zwierzecy',
+    		:m3 => 'meski_rzeczowy',
+    		:f => 'zenski',
+    		:n1 => 'nijaki_zbiorowy',
+		:n2 => 'nijaki zwykly',
+    		:p1 => 'przymnogi_osobowy',
+		:p2 => 'przymnogi_zwykly',
+		:p3 => 'przymnogi_opisowy',
 		#Osoby
 		:pri => "pierwsza_osoba",
@@ -44,16 +44,18 @@ module Inflectable
 	}
 	      GRAM_CAT.each do |key,value|
-		if key.kind_of? Array
-			key = key.first
-		else
-			define_method(value+"?"){
-				inflection.split(":").any?{|e| e.include? key.to_s[1..-1]}
-			}
-		end
+                  define_method(value+"?"){
+			    inflection.split(":").any?{|e|
+                                if key.is_a? Array
+                                    key.any?{|k| e.include? k.to_s}
+                                else
+                                    e.include? key.to_s
+                                end
+                            }
+		    }
 	      end
 end

data/lib/sentence.rb CHANGED Viewed

@@ -1,14 +1,12 @@
 module NLP
-class Sentence
-    attr_reader :tokens
-    def initialize()
-        @tokens = []
-    end
+    class Sentence
+        attr_reader :tokens
+        def initialize()
+            @tokens = []
+        end
-    def << tokens
-        @tokens.concat tokens
+        def << tokens
+            @tokens.concat tokens
+        end
     end
-end
 end

data/lib/token.rb CHANGED Viewed

@@ -1,35 +1,34 @@
-require 'inflectable'
 module NLP
-class Token
-   attr_reader :orth
-   attr_reader :tags
-    def initialize(orth,tags)
-        @orth = orth
-        @tags = tags
-    end
+    class Token
+       attr_reader :orth
+       attr_reader :tags
-    def interp?
-        @tags.eql? "interp"
-    end
+        def initialize(orth,tags)
+            @orth = orth
+            @tags = tags
+        end
-    def word?
-        not interp? and not number?
-    end
+        def interp?
+            @tags.eql? "interp"
+        end
-    def number?
-        @tags.include?("tnum")
-    end
+        def word?
+            not interp? and not number?
+        end
-    def integer?
-        @tags.include?("tnum:integer")
-    end
+        def number?
+            @tags.include?("tnum")
+        end
-    def float?
-        @tags.include?("tnum:frac")
-    end
+        def integer?
+            @tags.include?("tnum:integer")
+        end
+        def float?
+            @tags.include?("tnum:frac")
+        end
-end
+    end
 end

data/lib/token_scanner.rb CHANGED Viewed

@@ -1,137 +1,136 @@
 require 'rexml/document'
 require 'soap/rpc/driver'
-module NLP
-class TokenScanner
-include REXML
-  attr_reader :text, :tokens
-    def initialize(text, method)
-        @pos = 0
+module NLP
+    class TokenScanner
+        include REXML
-        if method === :file
-            puts "laduje tekst"
-            @text = load_lemated_text(text)
-        elsif method === :text
-            @text = lematize_text(text)
-        else
-            @text = text
+        attr_reader :text, :tokens
+        def initialize(text, method)
+            if method === :takipi
+                @text = load_lemated_text(text)
+            elsif method === :morfeusz
+                @text = lematize_text(text)
+            else
+                @text = text
+            end
+            @pos = 0
+            @tokens = flatten_text(@text)
         end
-        @tokens = flatten_text(@text)
-    end
+        def next(type)
+            @pos+=1
-    def next(type)
-        @pos+=1
-        case type
-        when :word
-            while @pos < @tokens.size and !@tokens[@pos].word?
-                @pos+= 1
-            end
+            case type
+            when :word
+                while @pos < @tokens.size and !@tokens[@pos].word?
+                    @pos+= 1
+                end
-        when :interp
-            while @pos < @tokens.size and !@tokens[@pos].interp?
-                @pos+= 1
-            end
-         when :number
-            while @pos < @tokens.size and !@tokens[@pos].number?
-                @pos+= 1
+            when :interp
+                while @pos < @tokens.size and !@tokens[@pos].interp?
+                    @pos+= 1
+                end
+             when :number
+                while @pos < @tokens.size and !@tokens[@pos].number?
+                    @pos+= 1
+                end
             end
         end
-    end
-    def current
-        if @pos == @tokens.size
+        def current
+            if @pos == @tokens.size
                 nil
-        else
+            else
                 @tokens[@pos]
-        end
-    end
-    def index
-        @pos
-    end
-    def end?
-        @pos == tokens.size
-    end
-    private
-    def flatten_text(text)
-        flattened = []
-        text.each { |s| s.tokens.each {|t| flattened.push t } }
-        flattened
-    end
-   def load_lemated_text(text_file)
-        	t1 = Thread.new do
-          	`takipi -i #{text_file} -o output.xml -it TXT`
-        	end
-        	t1.join
+            end
+        end
+        def index
+            @pos
+        end
+        def end?
+            @pos == tokens.size
+        end
-       text = []
-       File.open("output.xml") do |f|
-           doc = Document.new(f)
+        private
-           doc.elements.each("*/chunkList/chunk") do |chunk|
-                sentence = Sentence.new
-                tokens = []
+        def flatten_text(text)
+            flattened = []
+            text.each { |s| s.tokens.each {|t| flattened.push t } }
+            flattened
+        end
-                chunk.elements.each("tok") do |tok|
-                   word = tok.elements[1].text
-                   lemat, inflect = ""
+        #Tok
+       def load_lemated_text(text)
-                   tok.elements.each("lex") do |lex|
-                        if lex.has_attributes?
-                            lemat = lex.elements[1].text
-                            inflect = lex.elements[2].text
-                        end
+            t1 = Thread.new do
+                `echo #{text} | takipi -i  -o output.xml -it TXT`
+            end
+            t1.join
+           text = []
+           File.open("output.xml") do |f|
+               doc = Document.new(f)
+               doc.elements.each("*/chunkList/chunk") do |chunk|
+                    sentence = Sentence.new
+                    tokens = []
+                    chunk.elements.each("tok") do |tok|
+                       word = tok.elements[1].text
+                       lemat, inflect = ""
+                       tok.elements.each("lex") do |lex|
+                            if lex.has_attributes?
+                                lemat = lex.elements[1].text
+                                inflect = lex.elements[2].text
+                            end
+                       end
+                       tokens << Word.new(word,lemat,inflect)
                    end
-                   tokens << Word.new(word,lemat,inflect)
-               end
-                sentence << tokens
-                text << sentence
+                    sentence << tokens
+                    text << sentence
+            end
         end
-    end
-    text
-    end
-   def lematize_text(text)
-        temp_text = []
-       text.split(/\.|!|\?/).each do |s|
-            sentence = Sentence.new
-            sentence << s.split(" ").collect{ |t|
-                if word = Morfeusz::Lexeme.find(t)
-                   if word[0]
-                        Word.new(t,word[0].base_form,"")
-                   else
+        text
+        end
+       def lematize_text(text)
+            temp_text = []
+           text.split(/\.|!|\?/).each do |s|
+                sentence = Sentence.new
+                sentence << s.split(" ").collect{ |t|
+                    if word = Morfeusz::Lexeme.find(t)
+                       if word[0]
+                            Word.new(t,word[0].base_form,"")
+                       else
+                            Word.new(t,"","")
+                       end
+                    else
                         Word.new(t,"","")
-                   end
-                else
-                    Word.new(t,"","")
-                end
-            }
-            temp_text.push  sentence
+                    end
+                }
+                temp_text.push  sentence
+           end
+           temp_text
        end
-       temp_text
-   end
-end
+    end
 end

data/lib/word.rb CHANGED Viewed

@@ -2,20 +2,20 @@ require 'inflectable'
 require 'meaningable'
 module NLP
-class Word < Token
-	include Inflectable
-	include Meaningable
+    class Word < Token
+        include Inflectable
+        include Meaningable
         attr_reader :lemat, :orth
-	def initialize(word, lemat, tags)
+        def initialize(word, lemat, tags)
             super(word,tags)
             @lemat = lemat
-	end
+        end
         def inflection
             @tags
         end
-end
+    end
 end

data/test/word_test.rb ADDED Viewed

@@ -0,0 +1,42 @@
+require 'helper'
+require '../lib/word.rb'
+class WordTest < Test::Unit::TestCase
+    def setup
+        @word_kota = NLP::Word.new('kota','kot','subst:sg:gen.acc:m2')
+        @word_siebie = NLP::Word.new('siebie','się','siebie:gen.acc')
+    end
+      def test_word_lematization
+            assert_equal 'kot', @word_kota.lemat
+            assert_equal 'się', @word_siebie.lemat
+      end
+      def test_word_orth
+          assert_equal 'kota', @word_kota.orth
+          assert_equal 'siebie', @word_siebie.orth
+      end
+      def test_recognizing_part_of_speech
+          assert @word_kota.rzeczownik?
+          assert @word_siebie.zaimek?
+      end
+     def test_recognizing_inflection
+        assert @word_kota.liczba_pojedyncza?
+        assert @word_kota.dopelniacz?
+        assert @word_kota.biernik?
+        assert @word_kota.meski_zwierzecy?
+        assert_equal false,  @word_kota.liczba_mnoga?
+        assert_equal false, @word_kota.mianownik?
+        assert @word_siebie.biernik?
+        assert @word_siebie.dopelniacz?
+     end
+     def test_inflection_string
+         assert_equal  @word_kota.inflection, 'subst:sg:gen.acc:m2'
+     end
+end

metadata CHANGED Viewed

@@ -1,13 +1,13 @@
 --- !ruby/object:Gem::Specification
 name: nlp
 version: !ruby/object:Gem::Version
-  hash: 21
+  hash: 19
   prerelease: false
   segments:
   - 0
   - 2
-  - 1
-  version: 0.2.1
+  - 2
+  version: 0.2.2
 platform: ruby
 authors:
 - knife
@@ -15,7 +15,7 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2010-09-04 00:00:00 +02:00
+date: 2010-09-06 00:00:00 +02:00
 default_executable:
 dependencies: []
@@ -51,6 +51,7 @@ files:
 - README.rdoc
 - test/helper.rb
 - test/test_nlp.rb
+- test/word_test.rb
 has_rdoc: true
 homepage: http://github.com/knife/nlp
 licenses: []
@@ -88,3 +89,4 @@ summary: Linguistics tools for processing polish language.
 test_files:
 - test/helper.rb
 - test/test_nlp.rb
+- test/word_test.rb

nlp 0.2.1 → 0.2.2