RubyGems - corpus-processor - Versions diffs - 0.2.0 → 0.3.0 - Mend

corpus-processor 0.2.0 → 0.3.0

Files changed (33) hide show

checksums.yaml +4 -4
data/.travis.yml +5 -0
data/.yardopts +1 -0
data/README.md +235 -34
data/bin/corpus-processor +3 -3
data/corpus-processor.gemspec +16 -14
data/lib/corpus-processor.rb +12 -8
data/lib/corpus-processor/categories.rb +58 -0
data/lib/corpus-processor/categories/default.yml +10 -0
data/lib/corpus-processor/cli.rb +31 -11
data/lib/corpus-processor/generators.rb +5 -1
data/lib/corpus-processor/generators/stanford_ner.rb +19 -10
data/lib/corpus-processor/parsers.rb +5 -1
data/lib/corpus-processor/parsers/lampada.rb +103 -47
data/lib/corpus-processor/processor.rb +19 -4
data/lib/corpus-processor/token.rb +35 -1
data/lib/corpus-processor/version.rb +1 -1
data/spec/{integration → corpus-processor}/cli_spec.rb +81 -71
data/spec/corpus-processor/generators/stanford_ner_spec.rb +57 -0
data/spec/corpus-processor/parsers/lampada_spec.rb +333 -0
data/spec/corpus-processor/processor_spec.rb +36 -0
data/spec/corpus-processor/token_spec.rb +15 -0
data/spec/spec_helper.rb +7 -4
metadata +39 -27
data/lib/corpus-processor/default_categories.rb +0 -14
data/lib/corpus-processor/tokenizer.rb +0 -17
data/lib/corpus-processor/traverser.rb +0 -19
data/spec/unit/generators/stanford_ner_spec.rb +0 -46
data/spec/unit/parsers/lampada_spec.rb +0 -269
data/spec/unit/processor.rb +0 -37
data/spec/unit/token_spec.rb +0 -8
data/spec/unit/tokenizer_spec.rb +0 -121
data/spec/unit/traverser_spec.rb +0 -68

data/spec/unit/processor.rb DELETED Viewed

@@ -1,37 +0,0 @@
-require "spec_helper"
-describe CorpusProcessor::Processor do
-  subject(:processor) { CorpusProcessor::Processor.new(parser, generator) }
-  describe "#process" do
-    subject { processor.process(corpus) }
-    let(:corpus) { "Some corpus" }
-    let(:processed_corpus) {
-<<-CORPUS
-Some	O
-corpus	O
-CORPUS
-    }
-    let(:tokens) {
-      [
-        CorpusProcessor::Token.new("Some"),
-        CorpusProcessor::Token.new("corpus"),
-      ]
-    }
-    let(:parser)    { double :parser    }
-    let(:generator) { double :generator }
-    specify {
-      parser.should_receive(:parse)
-            .with(corpus)
-            .and_return(tokens)
-      generator.should_receive(:generate)
-            .with(tokens)
-            .and_return(processed_corpus)
-      subject.should == processed_corpus
-    }
-  end
-end

data/spec/unit/token_spec.rb DELETED Viewed

@@ -1,8 +0,0 @@
-require "spec_helper"
-describe CorpusProcessor::Token do
-  subject { CorpusProcessor::Token.new }
-  it { should respond_to(:word)     }
-  it { should respond_to(:category) }
-end

data/spec/unit/tokenizer_spec.rb DELETED Viewed

@@ -1,121 +0,0 @@
-require "spec_helper"
-describe CorpusProcessor::Tokenizer do
-  subject(:tokenizer) { CorpusProcessor::Tokenizer.new }
-  describe "#tokenize" do
-    subject { tokenizer.tokenize(text, category) }
-    let(:category) { nil }
-    context "empty string" do
-      let(:text) { "" }
-      it { should == [] }
-    end
-    context "one word" do
-      let(:text) { "banana" }
-      it { should == [CorpusProcessor::Token.new("banana")] }
-    end
-    context "two words" do
-      let(:text) { "good banana" }
-      it { should == [
-        CorpusProcessor::Token.new("good"),
-        CorpusProcessor::Token.new("banana"),
-      ] }
-    end
-    context "ponctuation" do
-      let(:text) { "good, banana" }
-      it { should == [
-        CorpusProcessor::Token.new("good"),
-        CorpusProcessor::Token.new("banana"),
-      ] }
-    end
-    context "default category" do
-      let(:text)     { "Google" }
-      let(:category) { :organization }
-      it { should == [
-        CorpusProcessor::Token.new("Google", :organization),
-      ] }
-    end
-    context "with tags" do
-      let(:text) { "good<lalala/>, banana" }
-      it { should == [
-        CorpusProcessor::Token.new("good"),
-        CorpusProcessor::Token.new("banana"),
-      ] }
-    end
-  end
-  describe "#strip_tags" do
-    subject { tokenizer.strip_tags(text) }
-    context "empty text" do
-      let(:text) { "" }
-      it { should == "" }
-    end
-    context "self closed tag" do
-      let(:text) { "<br/>" }
-      it { should == "" }
-    end
-    context "tag with content" do
-      let(:text) { "<p>Some text</p>" }
-      it { should == "Some text" }
-    end
-    context "content after tag" do
-      let(:text) { "<p>Some<br/>text</p>" }
-      it { should == "Some text" }
-    end
-  end
-  describe "#join_lines" do
-    subject { tokenizer.join_lines(text) }
-    context "empty text" do
-      let(:text) { "" }
-      it { should == "" }
-    end
-    context "one word" do
-      let(:text) { "banana" }
-      it { should == "banana" }
-    end
-    context "two lines" do
-      let(:text) { "banana\nquiabo" }
-      it { should == "banana quiabo" }
-    end
-    context "line with empty space" do
-      let(:text) { "banana\n   \nquiabo" }
-      it { should == "banana quiabo" }
-    end
-    context "leading spaces" do
-      let(:text) { "  \n  banana\n   \nquiabo  \n" }
-      it { should == "banana quiabo" }
-    end
-  end
-end

data/spec/unit/traverser_spec.rb DELETED Viewed

@@ -1,68 +0,0 @@
-require "spec_helper"
-describe CorpusProcessor::Traverser do
-  subject(:traverser) { CorpusProcessor::Traverser.new }
-  describe "#traverse" do
-    subject { traverser.traverse(text, regexp) }
-    context "empty text" do
-      let(:text)   { "" }
-      let(:regexp) { // }
-      specify {
-        expect { |mock_block|
-          traverser.traverse(text, regexp, &mock_block)
-        }.not_to yield_control
-      }
-    end
-    context "simple text" do
-      let(:text)   { "abc" }
-      let(:regexp) { /b/ }
-      specify {
-        expect { |mock_block|
-          traverser.traverse(text, regexp, &mock_block)
-        }.to yield_successive_args "a", text.match(regexp), "c"
-      }
-    end
-    context "two matches" do
-      let(:text)   { "abcbd" }
-      let(:regexp) { /b/ }
-      specify {
-        expect { |mock_block|
-          traverser.traverse(text, regexp, &mock_block)
-        }.to yield_successive_args "a",
-                                   text.match(regexp),
-                                   "c",
-                                   text[2..-1].match(regexp),
-                                   "d"
-      }
-    end
-    context "match in beginning" do
-      let(:text)   { "bc" }
-      let(:regexp) { /b/ }
-      specify {
-        expect { |mock_block|
-          traverser.traverse(text, regexp, &mock_block)
-        }.to yield_successive_args text.match(regexp), "c"
-      }
-    end
-    context "match in ending" do
-      let(:text)   { "bc" }
-      let(:regexp) { /c/ }
-      specify {
-        expect { |mock_block|
-          traverser.traverse(text, regexp, &mock_block)
-        }.to yield_successive_args "b", text.match(regexp)
-      }
-    end
-  end
-end