RubyGems - open_nlp - Versions diffs - 0.0.3-java → 0.0.4-java - Mend

open_nlp 0.0.3-java → 0.0.4-java

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

data/README.md +8 -1
data/lib/open_nlp/categorizer.rb +12 -0
data/lib/open_nlp/model/categorizer.rb +3 -0
data/lib/open_nlp/version.rb +1 -1
data/lib/open_nlp.rb +2 -0
data/spec/categorizer_spec.rb +36 -0
data/spec/fixtures/en-doccat.bin +0 -0
metadata +7 -2
data/lib/open_nlp/utils/span.rb +0 -15

data/README.md CHANGED Viewed

@@ -7,6 +7,7 @@ A JRuby wrapper for the Apache OpenNLP tools library, that allows you execute co
  * named entity extraction
  * chunks detection
  * parsing
+ * document categorization
 ## Installation
@@ -66,7 +67,7 @@ Then you can create instances of open_nlp classes and use it for your nlp tasks
 ### Parsing
     # parser also needs tokenizer model because it uses tokenizer inside parse task
-    parse_model = OpenNlp::Model::Parser.new(File.join(FIXTURES_DIR, "en-parser-chunking.bin"))
+    parse_model = OpenNlp::Model::Parser.new(File.join("nlp_models/en-parser-chunking.bin"))
     token_model = OpenNlp::Model::Tokenizer.new("nlp_models/en-token.bin")
     parser = OpenNlp::Parser.new(parse_model, token_model)
@@ -79,6 +80,12 @@ Then you can create instances of open_nlp classes and use it for your nlp tasks
     # you can get code tree structure of parse result by calling
     parse_info.code_tree
+### Categorizing
+    doccat_model = OpenNlp::Model::Parser.new(File.join("nlp_models/en-doccat.bin"))
+    categorizer = OpenNlp::Categorizer.new(doccat_model)
+    categorizer.categorize("Quick brown fox jumps very bad.")
 ## Contributing
 1. Fork it

data/lib/open_nlp/categorizer.rb ADDED Viewed

@@ -0,0 +1,12 @@
+module OpenNlp
+  class Categorizer < Tool
+    self.java_class = Java::opennlp.tools.doccat.DocumentCategorizerME
+    def categorize(str)
+      raise ArgumentError, "str must be a String" unless str.is_a?(String)
+      outcomes = @j_instance.categorize(str)
+      @j_instance.getBestCategory(outcomes)
+    end
+  end
+end

data/lib/open_nlp/model/categorizer.rb ADDED Viewed

@@ -0,0 +1,3 @@
+class OpenNlp::Model::Categorizer < OpenNlp::Model
+  self.java_class = Java::opennlp.tools.doccat.DoccatModel
+end

data/lib/open_nlp/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module OpenNlp
-  VERSION = '0.0.3'
+  VERSION = '0.0.4'
 end

data/lib/open_nlp.rb CHANGED Viewed

@@ -9,6 +9,7 @@ require 'open_nlp/java_class'
 require 'open_nlp/model'
 require 'open_nlp/model/chunker'
+require 'open_nlp/model/categorizer'
 require 'open_nlp/model/detokenizer'
 require 'open_nlp/model/named_entity_detector'
 require 'open_nlp/model/pos_tagger'
@@ -17,6 +18,7 @@ require 'open_nlp/model/tokenizer'
 require 'open_nlp/model/parser'
 require 'open_nlp/tool'
+require 'open_nlp/categorizer'
 require 'open_nlp/named_entity_detector'
 require 'open_nlp/pos_tagger'
 require 'open_nlp/sentence_detector'

data/spec/categorizer_spec.rb ADDED Viewed

@@ -0,0 +1,36 @@
+require 'spec_helper'
+describe OpenNlp::Categorizer do
+  subject { OpenNlp::Categorizer }
+  let(:model){ OpenNlp::Model::Categorizer.new(File.join(FIXTURES_DIR, "en-doccat.bin")) }
+  describe "initialization" do
+    it "should initialize with a valid model" do
+      categorizer = subject.new(model)
+      categorizer.should be_a(subject)
+      categorizer.j_instance.should be_a(subject.java_class)
+    end
+    it "should raise an ArgumentError without a valid model" do
+      lambda { subject.new(nil) }.should raise_error(ArgumentError)
+    end
+  end
+  describe "categorizing a string" do
+    let(:categorizer) { subject.new(model) }
+    it "should categorize a provided document to positive" do
+      category = categorizer.categorize("The fox is a good worker.")
+      category.should == "Positive"
+    end
+    it "should categorize a provided document to negative" do
+      category = categorizer.categorize("Quick brown fox jumps very bad.")
+      category.should == "Negative"
+    end
+    it "should raise an ArgumentError for a non-string" do
+      lambda { categorizer.categorize(nil) }.should raise_error(ArgumentError)
+    end
+  end
+end

data/spec/fixtures/en-doccat.bin ADDED Viewed

Binary file

metadata CHANGED Viewed

@@ -2,7 +2,7 @@
 name: open_nlp
 version: !ruby/object:Gem::Version
   prerelease:
-  version: 0.0.3
+  version: 0.0.4
 platform: java
 authors:
 - Hck
@@ -24,9 +24,11 @@ files:
 - README.md
 - Rakefile
 - lib/open_nlp.rb
+- lib/open_nlp/categorizer.rb
 - lib/open_nlp/chunker.rb
 - lib/open_nlp/java_class.rb
 - lib/open_nlp/model.rb
+- lib/open_nlp/model/categorizer.rb
 - lib/open_nlp/model/chunker.rb
 - lib/open_nlp/model/detokenizer.rb
 - lib/open_nlp/model/named_entity_detector.rb
@@ -43,12 +45,13 @@ files:
 - lib/open_nlp/sentence_detector.rb
 - lib/open_nlp/tokenizer.rb
 - lib/open_nlp/tool.rb
-- lib/open_nlp/utils/span.rb
 - lib/open_nlp/version.rb
 - open_nlp.gemspec
+- spec/categorizer_spec.rb
 - spec/chunker_spec.rb
 - spec/fixtures/en-chunker.bin
 - spec/fixtures/en-detokenizer.xml
+- spec/fixtures/en-doccat.bin
 - spec/fixtures/en-ner-time.bin
 - spec/fixtures/en-parser-chunking.bin
 - spec/fixtures/en-pos-maxent.bin
@@ -94,9 +97,11 @@ signing_key:
 specification_version: 3
 summary: A JRuby wrapper for the Apache OpenNLP tools library
 test_files:
+- spec/categorizer_spec.rb
 - spec/chunker_spec.rb
 - spec/fixtures/en-chunker.bin
 - spec/fixtures/en-detokenizer.xml
+- spec/fixtures/en-doccat.bin
 - spec/fixtures/en-ner-time.bin
 - spec/fixtures/en-parser-chunking.bin
 - spec/fixtures/en-pos-maxent.bin

data/lib/open_nlp/utils/span.rb DELETED Viewed

@@ -1,15 +0,0 @@
-module OpenNlp
-  module Utils
-    class Span
-      include JavaClass
-      self.java_class = Java::opennlp.tools.util.Span
-      attr_reader :j_instance
-      def initialize(start_offset, end_offset)
-        @j_instance = self.class.java_class.new(start_offset, end_offset)
-      end
-    end
-  end
-end