RubyGems - llt-segmenter - Versions diffs - 0.0.5 → 0.0.6 - Mend

llt-segmenter 0.0.5 → 0.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/Gemfile +0 -1
data/lib/llt/segmenter.rb +5 -1
data/lib/llt/segmenter/version.rb +1 -1
data/spec/lib/llt/segmenter_spec.rb +94 -0
metadata +3 -3

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: f6c90686915f9e02706f88b650695a4b40aa6867
-  data.tar.gz: 67ed2ade8bb50c0419a82f18b40eeef031c7a243
+  metadata.gz: 3575aa6f3f997afa19250f04c5d01e881279db0a
+  data.tar.gz: e07b2452c0ed737ebddadc4b61c097b48cbcc6b5
 SHA512:
-  metadata.gz: e38adead709637f4520233ead966d000c332b8b356f4e2d827ae40b3ce31d6e2a0e6969762b57393bcb02c9a9b647e1e617a5bd81ab20712663ac525de7a5062
-  data.tar.gz: 50fedc9e52883f8458a437a6f6ff6252bbe6e1f6d78cdfb59d5b78873a27da3dfc40481a1008cf7278493196041cc42a5beaa40be2faef9071e5f36aad946769
+  metadata.gz: 36fdb7ee87f64279f678b1f96741a9bdfc19003c2c190d4a7982a3213455802c8b49b752adca3fcd0d732a2d50d17f96001944180bdd778fc651a69b0606ebe8
+  data.tar.gz: 65237979c9a8e3cec56c65ef3707e947347debdfc6c381bd427b4961c6fc72b195a90c745a5cf229d8ea2ae477c74ef362b84c5ed6e43cc8da19eabd9c9005e6

data/Gemfile CHANGED

@@ -2,7 +2,6 @@ source 'https://rubygems.org'
 # Specify your gem's dependencies in llt-segmenter.gemspec
 gemspec
-gem 'pry'
 gem 'coveralls', require: false

data/lib/llt/segmenter.rb CHANGED

@@ -127,6 +127,7 @@ module LLT
         sentence = scan_until_next_sentence(scanner, sentences)
         raise if scanner.pos == loop_guard
         if @xml
@@ -194,8 +195,11 @@ module LLT
     def rescue_no_delimiters(sentences, scanner)
       if sentences.any?
         # broken off texts
-        scanner.scan_until(/$/)
+        scanner.scan_until(/\Z/)
       else
+        if scanner.eos? && @xml
+          return ''
+        end
         # try a simple newline as delimiter, if there was no delimiter
         scanner.reset
         @sentence_closer = /\n/

data/lib/llt/segmenter/version.rb CHANGED

@@ -1,5 +1,5 @@
 module LLT
   class Segmenter
-    VERSION = "0.0.5"
+    VERSION = "0.0.6"
   end
 end

data/spec/lib/llt/segmenter_spec.rb CHANGED

@@ -158,6 +158,100 @@ describe LLT::Segmenter do
         sentences = segmenter.segment(txt, xml: true)
         sentences.should have(1).item
       end
+      it "doesn't fall for complex documents" do
+        txt = <<-EOF
+          <tei:TEI xmlns:tei="http://www.tei-c.org/ns/1.0">
+            <tei:text xml:lang="grc">
+              <tei:body>
+               <tei:div type="line">
+                  <milestone ed="P" unit="para"/>μῆνιν ἄειδε θεὰ Πηληϊάδεω Ἀχιλῆος</tei:div>
+            </tei:body>
+            </tei:text>
+          </tei:TEI>
+        EOF
+        sentences = segmenter.segment(txt, xml: true)
+        sentences.should have(1).item
+      end
+      it "doesn't fall for complex documents II" do
+        txt = <<-EOF
+          <tei:TEI xmlns:tei="http://www.tei-c.org/ns/1.0">
+            <tei:text xml:lang="grc">
+              <tei:body>
+               <tei:div type="line">
+                  <milestone ed="P" unit="para"/>Arma virum. Test.</tei:div>
+            </tei:body>
+            </tei:text>
+          </tei:TEI>
+        EOF
+        sentences = segmenter.segment(txt, xml: true)
+        sentences.should have(2).item
+      end
+      it "doesn't fall for complex documents III" do
+        txt = <<-EOF
+          <tei:TEI xmlns:tei="http://www.tei-c.org/ns/1.0">
+            <tei:text xml:lang="grc">
+              <tei:body>
+               <tei:div type="line">
+                  <milestone ed="P" unit="para"/>Arma virum. Test</tei:div>
+            </tei:body>
+            </tei:text>
+          </tei:TEI>
+        EOF
+        sentences = segmenter.segment(txt, xml: true)
+        sentences.should have(2).item
+      end
+      it "doesn't fall for complex documents IV" do
+        txt = <<-EOF
+          <TEI xmlns="http://www.tei-c.org/ns/1.0">
+            <text xml:lang="grc">
+              <body>
+                <div1 type="Book" n="1">
+                  <l n="1">
+                    <milestone ed="P" unit="para"/>
+                    μῆνιν ἄειδε θεὰ Πηληϊάδεω Ἀχιλῆος
+                  </l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="2">οὐλομένην, ἣ μυρίʼ Ἀχαιοῖς ἄλγεʼ ἔθηκε,</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="3">πολλὰς δʼ ἰφθίμους ψυχὰς Ἄϊδι προΐαψεν</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="4">ἡρώων, αὐτοὺς δὲ ἑλώρια τεῦχε κύνεσσιν</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="5">οἰωνοῖσί τε πᾶσι, Διὸς δʼ ἐτελείετο βουλή,</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="6">ἐξ οὗ δὴ τὰ πρῶτα διαστήτην ἐρίσαντε</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="7">Ἀτρεΐδης τε ἄναξ ἀνδρῶν καὶ δῖος Ἀχιλλεύς.</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="8">
+                    <milestone ed="P" unit="Para"/>
+                    τίς τʼ ἄρ σφωε θεῶν ἔριδι ξυνέηκε μάχεσθαι;
+                  </l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="9">Λητοῦς καὶ Διὸς υἱός· ὃ γὰρ βασιλῆϊ χολωθεὶς</l>
+                </div1>
+                <div1 type="Book" n="1">
+                  <l n="10">νοῦσον ἀνὰ στρατὸν ὄρσε κακήν, ὀλέκοντο δὲ λαοί,</l>
+                </div1>
+              </body>
+            </text>
+          </TEI>
+        EOF
+        sentences = segmenter.segment(txt, xml: true)
+        sentences.should have(4).item
+      end
     end
     context "with xml escaped characters" do

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: llt-segmenter
 version: !ruby/object:Gem::Version
-  version: 0.0.5
+  version: 0.0.6
 platform: ruby
 authors:
 - Gernot Höflechner, Robert Lichstensteiner, Christof Sirk
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-08-11 00:00:00.000000000 Z
+date: 2014-08-18 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -157,7 +157,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.2.0
+rubygems_version: 2.2.2
 signing_key:
 specification_version: 4
 summary: Segments text into sentences