RubyGems - nlp - Versions diffs - 0.2.6 → 0.2.7 - Mend

nlp 0.2.6 → 0.2.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

data/dict/liwc CHANGED

@@ -509,7 +509,7 @@ PROCESY_PSYCHOLOGICZNE
 			obraźliwy
 			obrona
 			oburzenie
-			obwiniać
+			obwiniać
 			ofiara
 			okrutny
 			oszustwo
@@ -637,7 +637,7 @@ PROCESY_PSYCHOLOGICZNE
 			tragedia
 			tragiczny
 			współczucie
-			wsþółczuć
+			współczuć
 			żal
 			żałosny
 			zawalić
@@ -851,7 +851,7 @@ PROCESY_PSYCHOLOGICZNE
 			zaprzeczać
 			zatkać
 			zatrzymanie
-			zatrzymywać
+			zatrzymywać
 			zawada
 			zawierać
 			zignorować
@@ -1153,7 +1153,7 @@ PROCESY_PSYCHOLOGICZNE
 			kontakt
 			łapać
 			macać
-			obmacywać
+			obmacywać
 			odczuwać
 			poczucie
 			przecierać
@@ -1614,7 +1614,7 @@ OSOBISTE
 			wymagania
 			zadanie domowe
 			zaganiany
-			zarządzanie
+			zarządzanie
 			zespół
 			zgłoszenie
 		PRACA
@@ -1664,7 +1664,7 @@ OSOBISTE
 			przedsiębiorstwo
 			przemysł
 			przemysłowy
-			przyjmować
+			przyjmować
 			rozmowa kwalfikacyjna
 			rynek
 			sekretarka
@@ -1677,7 +1677,7 @@ OSOBISTE
 			współpracownik
 			wynagrodzenie
 			wypłata
-			wyposażenie
+			wyposażenie
 			wyrzucać
 			wywalać
 			zajęcie
@@ -1733,7 +1733,7 @@ OSOBISTE
 			przegrany
 			przewyższać
 			przodować
-			rezultat
+			rezultat
 			rozwiązać
 			rozwiązanie
 			silny
@@ -1918,7 +1918,6 @@ OSOBISTE
 		pożyczyć
 		profit
 		prowizja
-		prowizja
 		rentowny
 		sklep
 		spadek
@@ -2000,8 +1999,8 @@ OSOBISTE
 			wiara
 			wieczność
 			wieczny
-			Wielkanoc
-			Żyd
+			wielkanoc
+			żyd
 			żydowski
 		ŚMIERĆ
 			cmentarz
@@ -2383,7 +2382,7 @@ OSOBISTE
 			zmęczony
 		TOALETA
 			czysty
-			czyścić
+			czyścić
 			kąpać
 			kąpiel
 			golić

data/dict/rid CHANGED

@@ -936,7 +936,7 @@ PIERWOTNE
 			schnąć
 			śmierć
 			spokój
-			spokojny
+			spokojny
 			stagnacja
 			statyczny
 			tapczan
@@ -959,7 +959,7 @@ PIERWOTNE
 			zmiękczenie
 			znużenie
 			zrelaksować
-			zrelaksowany
+			zrelaksowany
 		PODRÓŻ
 			agitować
 			aktywność
@@ -1140,7 +1140,7 @@ PIERWOTNE
 	REGRESYWNOŚĆ
 		NIEZNANE
 			bezgraniczny
-			bezimienny
+			bezimienny
 			bezkształtny
 			cudowny
 			czarodziej
@@ -1490,7 +1490,7 @@ PIERWOTNE
 			pływak
 			podnosić
 			podrzucać
-			podskakiwać
+			podskakiwać
 			powiesić
 			powstały
 			powstawać
@@ -1791,7 +1791,7 @@ WTORNE
 		koncept
 		konkludować
 		konsekwentnie
-		krtyterium
+		kryterium
 		kwantyfikować
 		kwestia
 		liczyć
@@ -1961,7 +1961,7 @@ WTORNE
 		obdarzać
 		obiecać
 		obietnica
-		obsłużyć
+		obsłużyć
 		obwieścić
 		ochraniać
 		oddziałowywać
@@ -2960,7 +2960,7 @@ EMOCJE
 		sprzeciwiać
 		sprzeczać
 		sprzeczać
-		srogi
+		srogi
 		strzał
 		strzała
 		strzelać

data/lib/nlp.rb CHANGED

@@ -1,14 +1,36 @@
 module  NLP
    TAKIPI_XML_FILE = "/tmp/output.xml"
    DICTIONARY_CACHE_DIR = "~/"
 end
 require 'stdlib/ext/array'
-require 'stdlib/ext/string.rb'
-require 'analyzer'
+require 'morfeusz'
+require "analizators/analyzer"
+require "analizators/rid_analyzer.rb"
+require "analizators/liwc_analyzer.rb"
+require "dictionaries/pl_trie"
+require 'dictionaries/dictionary'
+require 'dictionaries/category'
+require "dictionaries/liwc_category"
+require "dictionaries/rid_category"
+require "tagger/inflectable"
+require "tagger/meaningable"
+require 'tagger/token'
+require 'tagger/word'
+require 'tagger/emoticon'
+require 'tagger/sentence'
+require 'tagger/text'
+require "tagger/token_scanner"
+require "tagger/takipi_web_service"
+require "tagger/lemmatizer"
+require "text_statistics"
+require 'jcode'
+$KCODE = "UTF8"

data/lib/stdlib/ext/array.rb CHANGED

@@ -1,4 +1,5 @@
 class Array
   def tail
     self[1..-1]
   end

data/lib/text_statistics.rb ADDED

@@ -0,0 +1,53 @@
+module NLP
+  class TextStatistics
+    attr_accessor :total_words, :hash
+    attr_reader :cwords, :words, :total_words, :word_count, :scores
+    def initialize
+      @word_count = 0           # number of found words
+      @total_words = 0          # total number of words
+      @scores = Hash.new { 0 }  #numbers of words in each category
+      @words = []               #found words
+      @cwords = Hash.new {nil}  #found words grouped into categories
+      @hash = {}                #additional data
+    end
+    #Adds word and its category to stats.
+    def add(word,categories)
+      categories.each do |category|
+        @cwords[category] = [] if @cwords[category].nil?
+        @cwords[category].push word
+        @scores[category] += 1
+      end
+      @words.push word
+      @word_count += 1
+    end
+    def [](key)
+        @hash[key]
+    end
+    def []=(key,value)
+      @hash[key] = value
+    end
+    def category_participation(categories)
+      sorted_scores = @scores.to_a.sort_by{ |result| -result[1] }
+      r = {}
+      categories.each do |cat|
+        r[cat] = percentage_distribution(sorted_scores){|c| c.send(cat.to_s+'?')}
+      end
+      r
+    end
+    private
+    def percentage_distribution scores, &block
+      all = scores.map{|k,v| v}.inject(0){|e,m|m = m +e}
+      sum = scores.select{|result| yield result[0]}.inject(0){|count,result| count + result[1]}
+      Float(sum)/all
+    end
+  end
+end

metadata CHANGED

@@ -1,13 +1,13 @@
 --- !ruby/object:Gem::Specification
 name: nlp
 version: !ruby/object:Gem::Version
-  hash: 27
-  prerelease: false
+  hash: 25
+  prerelease:
   segments:
   - 0
   - 2
-  - 6
-  version: 0.2.6
+  - 7
+  version: 0.2.7
 platform: ruby
 authors:
 - knife
@@ -15,10 +15,38 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2011-06-21 00:00:00 +02:00
-default_executable:
-dependencies: []
+date: 2011-09-13 00:00:00 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: savon
+  prerelease: false
+  requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - "="
+      - !ruby/object:Gem::Version
+        hash: 17
+        segments:
+        - 0
+        - 7
+        - 9
+        version: 0.7.9
+  type: :runtime
+  version_requirements: *id001
+- !ruby/object:Gem::Dependency
+  name: ds
+  prerelease: false
+  requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        hash: 3
+        segments:
+        - 0
+        version: "0"
+  type: :runtime
+  version_requirements: *id002
 description: Tools for processing polish language. Tokenization, scanning, categorization...
 email: satre@o2.pl
 executables: []
@@ -31,49 +59,18 @@ extra_rdoc_files:
 files:
 - dict/liwc
 - dict/rid
-- lib/analyzer.rb
-- lib/category.rb
-- lib/dictionary.rb
-- lib/emoticon.rb
-- lib/inflectable.rb
-- lib/lemmatizer.rb
-- lib/liwc_analyzer.rb
-- lib/liwc_category.rb
-- lib/meaningable.rb
 - lib/morfeusz.rb
 - lib/nlp.rb
-- lib/rid_analyzer.rb
-- lib/rid_category.rb
-- lib/sentence.rb
-- lib/statistic.rb
 - lib/stdlib/ext/array.rb
-- lib/stdlib/ext/string.rb
-- lib/stree.rb
-- lib/takipi_web_service.rb
-- lib/text.rb
-- lib/token.rb
-- lib/token_scanner.rb
-- lib/word.rb
+- lib/text_statistics.rb
 - LICENSE
 - README.rdoc
-- test/sentence_test.rb
-- test/analyzer_test.rb
-- test/meaningable_test.rb
-- test/token_scanner_test.rb
-- test/helper.rb
-- test/nlp_test_suite.rb
-- test/test_nlp.rb
-- test/word_test.rb
-- test/lemmatizer_test.rb
-- test/token_test.rb
-- test/text_test.rb
-has_rdoc: true
 homepage: http://github.com/knife/nlp
 licenses: []
 post_install_message:
-rdoc_options:
-- --charset=UTF-8
+rdoc_options: []
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
@@ -97,19 +94,9 @@ required_rubygems_version: !ruby/object:Gem::Requirement
 requirements: []
 rubyforge_project:
-rubygems_version: 1.3.7
+rubygems_version: 1.7.2
 signing_key:
 specification_version: 3
 summary: Linguistics tools for processing polish language.
-test_files:
-- test/sentence_test.rb
-- test/analyzer_test.rb
-- test/meaningable_test.rb
-- test/token_scanner_test.rb
-- test/helper.rb
-- test/nlp_test_suite.rb
-- test/test_nlp.rb
-- test/word_test.rb
-- test/lemmatizer_test.rb
-- test/token_test.rb
-- test/text_test.rb
+test_files: []

data/lib/analyzer.rb DELETED

@@ -1,50 +0,0 @@
-require 'dictionary'
-#require 'morfeusz'
-require 'token'
-require 'word'
-require 'token'
-require 'text'
-require 'emoticon'
-require 'sentence'
-require "token_scanner.rb"
-require "lemmatizer"
-require 'jcode'
-require 'statistic'
-$KODE = "UTF8"
-module NLP
-  class Analyzer
-    def initialize(dict)
-      @dictionary = Dictionary.new(dict)
-    end
-    def analyze(scanner)
-      results = Statistic.new
-      while token = scanner.current
-        word = token.lemat
-        categories = @dictionary.find(word.gsub(/[^\w-]/, "" ))
-        unless categories.nil?
-          categories.each do |category|
-            puts "Znalazłem słowo #{word} : #{category}"
-            results.add(word,category)
-          end
-        end
-        results.total_words += 1
-        scanner.next(:word)
-      end
-      results
-    end
-  end
-end
-require "rid_analyzer.rb"
-require "liwc_analyzer.rb"

data/lib/category.rb DELETED

@@ -1,27 +0,0 @@
-module NLP
-  class Category
-    attr_reader :parent, :name
-    def initialize(name, parent = nil)
-      @parent = parent
-      @name = name.to_sym
-    end
-    def path
-      @parent ? (@parent.path + '/' + name.to_s) : name.to_s
-    end
-    def root
-      category = self
-      while category.parent != nil
-        category = category.parent
-      end
-      category.name
-    end
-    def to_s
-      "#{path.inspect}"
-    end
-  end
-end