RubyGems - nlp-pure - Versions diffs - 0.0.2 → 0.0.4 - Mend

nlp-pure 0.0.2 → 0.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +8 -0
data/README.md +2 -2
data/lib/nlp_pure/segmenting/default_word.rb +3 -4
data/lib/nlp_pure/version.rb +1 -1
data/spec/lib/segmenting/default_word_spec.rb +35 -0
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: c4f6247383c48cd71d5ccebf6cc937023d1a880b
-  data.tar.gz: b33e1b19f2bfb5d49c6082f10699f06e2052e32c
+  metadata.gz: 7adc921eb51b54bd646cc0c7c57edbfd47a4d7fb
+  data.tar.gz: 54930de1e0cd9f5507bde731e057f22942f1d212
 SHA512:
-  metadata.gz: 7dee5b3c6947d08ef7e8b92a7332baeaaf8785969f98673613a7de2287dbba65dfb06a6f05990036013abaf01235f0017cb75cdf64be27770cc0c06046e30d99
-  data.tar.gz: a01ebec79d05301998d3618c1cd4e1b9cfa23982b36834cee17c529559b2bf36b5a32ea11d843469574924c42be245f192a636a3ee7f288490f7516e39f0a589
+  metadata.gz: a0ee82f8e519e712d36f89af779e9b42aed4887e0b87fa5c77e6b422f5b8ab6d66afc702c650f3bd9149a80d7c2fbb1434504fb53e132164c5dafb8c520b5102
+  data.tar.gz: db7bf9e6178c2e25a5d5bcdde763dbeb8fc9d3130800a0bfd41a8a6abae1ab64ad012ca27bd7334c241e8c4486566cd6f60a8f9c173086c53747f3296d7e9fed

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,11 @@
+# 0.0.4
+Fixed bug in `NlpPure::Segmenting::DefaultWord` where ellipses without spaces would not segment.
+# 0.0.3
+Fixed bug in `NlpPure::Segmenting::DefaultWord` where double hyphens and spaced dashes would segment as empty words.
 # 0.0.2
 Added `NlpPure::Segmenting::DefaultWord` module for segmenting text into words.

data/README.md CHANGED Viewed

@@ -2,7 +2,7 @@
 [![Code Climate](https://codeclimate.com/github/parhamr/nlp-pure/badges/gpa.svg)](https://codeclimate.com/github/parhamr/nlp-pure)
 [![Build Status](https://travis-ci.org/parhamr/nlp-pure.svg?branch=master)](https://travis-ci.org/parhamr/nlp-pure)
-[![Coverage Status](https://coveralls.io/repos/parhamr/nlp-pure/badge.png?branch=master)](https://coveralls.io/r/parhamr/nlp-pure)
+[![Coverage Status](https://coveralls.io/repos/parhamr/nlp-pure/badge.png?branch=master)](https://coveralls.io/r/parhamr/nlp-pure?branch=master)
 Natural language processing algorithms implemented in pure Ruby with minimal dependencies.
@@ -44,7 +44,7 @@ $ gem install nlp-pure
 ```
 $ bundle exec irb
-irb(main):001:0> require_relative './lib/nlp_pure/segmenting/default_word'
+irb(main):001:0> require 'nlp_pure/segmenting/default_word'
 => true
 irb(main):002:0> NlpPure::Segmenting::DefaultWord.parse 'The quick brown fox jumps over the lazy dog.'
 => ["The", "quick", "brown", "fox", "jumps", "over", "the", "lazy", "dog."]

data/lib/nlp_pure/segmenting/default_word.rb CHANGED Viewed

@@ -5,8 +5,9 @@ module NlpPure
     #
     module DefaultWord
       DEFAULT_OPTIONS = {
-        # hyphen, en dash, em dash, and string
-        split: /[\-–—\s]/
+        # 3+ periods as pseudo-ellipsis (with optional whitespace)
+        # OR hyphen, en dash, em dash, and whitespace
+        split: /\s?\.{3,}+\s?|[\s\-–—…]+/
       }.freeze
       def self.parse(*args)
         unless args.nil? || args.empty?
@@ -22,5 +23,3 @@ module NlpPure
     end
   end
 end
-require_relative '../segmenting'

data/lib/nlp_pure/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # encoding: utf-8
 #
 module NlpPure
-  VERSION = '0.0.2'
+  VERSION = '0.0.4'
 end

data/spec/lib/segmenting/default_word_spec.rb CHANGED Viewed

@@ -14,6 +14,13 @@ describe NlpPure::Segmenting::DefaultWord do
       let(:english_simple_sentence) { 'The quick brown fox jumps over the lazy dog.' }
       let(:english_hyphen_sentence) { 'The New York-based company hired new staff.' }
       let(:english_dash_sentence) { 'The quick brown fox—full of energy—jumps over the lazy dog.' }
+      let(:english_spaced_dash_sentence) { 'The quick brown fox — full of energy — jumps over the lazy dog.' }
+      let(:english_twohyphen_sentence) { 'The quick brown fox--full of energy--jumps over the lazy dog.' }
+      let(:english_ellipsis_sentence) { 'The quick brown fox…jumps over the lazy dog.' }
+      let(:english_spaced_ellipsis_sentence) { 'The quick brown fox … jumps over the lazy dog.' }
+      let(:english_period_ellipses_sentence) { 'The quick brown fox...jumps over the lazy dog.' }
+      let(:english_trailing_ellipses_sentence) { 'The quick brown fox jumps over the lazy dog …' }
+      let(:english_spaced_period_ellipses_sentence) { 'The quick brown fox ... jumps over the lazy dog.' }
       let(:english_abbreviation_sentence) { 'The U.S.A. is a member of NATO.' }
       let(:english_simple_paragraph) { 'Mary had a little lamb. The lamb’s fleece was white as snow. Everywhere that Mary went, the lamb was sure to go.' }
       let(:english_simple_line_breaks) { "Mary had a little lamb,\nHis fleece was white as snow,\nAnd everywhere that Mary went,\nThe lamb was sure to go." }
@@ -51,10 +58,38 @@ describe NlpPure::Segmenting::DefaultWord do
           expect(NlpPure::Segmenting::DefaultWord.parse(english_hyphen_sentence).length).to eq(8)
         end
+        it 'correctly segments double-hyphen dashes' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_twohyphen_sentence).length).to eq(12)
+        end
         it 'correctly segments dashes' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_spaced_dash_sentence).length).to eq(12)
+        end
+        it 'correctly segments spaced dashes' do
           expect(NlpPure::Segmenting::DefaultWord.parse(english_dash_sentence).length).to eq(12)
         end
+        it 'correctly segments ellipses' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_ellipsis_sentence).length).to eq(9)
+        end
+        it 'correctly segments spaced ellipses' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_spaced_ellipsis_sentence).length).to eq(9)
+        end
+        it 'correctly segments period-ellipses' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_period_ellipses_sentence).length).to eq(9)
+        end
+        it 'correctly segments spaced period-ellipses' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_spaced_period_ellipses_sentence).length).to eq(9)
+        end
+        it 'correctly segments with trailing, spaced ellipses' do
+          expect(NlpPure::Segmenting::DefaultWord.parse(english_trailing_ellipses_sentence).length).to eq(9)
+        end
         it 'does not segment abbreviations' do
           expect(NlpPure::Segmenting::DefaultWord.parse(english_abbreviation_sentence).length).to eq(7)
         end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: nlp-pure
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.4
 platform: ruby
 authors:
 - Reid Parham