RubyGems - llt-tokenizer - Versions diffs - 0.0.6 → 0.0.7 - Mend

llt-tokenizer 0.0.6 → 0.0.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/lib/llt/tokenizer/version.rb +1 -1
data/lib/llt/tokenizer.rb +12 -6
data/spec/lib/llt/tokenizer_spec.rb +12 -0
metadata +3 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 9a9abfc5e79b148f497749053c8ccfa7ac9653af
-  data.tar.gz: 1c9fe20eb2824eccc1840602beae6552415eb5d2
+  metadata.gz: cd490c0611dc9cd5ed2f2aad95631b500e7e7d35
+  data.tar.gz: fe8162ded4cecfda383f3919576ec19ca14f5a38
 SHA512:
-  metadata.gz: 3cd367d754d75f895240c709aed9697140c8359490bc634e56f118b77cc015c2a08c80d7fa4fa74448084844beec4749a7b01b1789c0805a3a5a8fa8d465d5e9
-  data.tar.gz: 21c50a75955cab805fb81bc1435963e047171936c015981121de1405378fb4af9c21a69153c0c043d3a504986e1022437690cedb60b88e0b8246ca6fce20565b
+  metadata.gz: a8a90a133ccd0c27fbbd20e64df0a8e560ad183010ae55716362e0909c737a6d5359c51a647da387ddade71a3bd50545381c899cd3fcea095001ef0e27c42483
+  data.tar.gz: 2d81412a66b473206d23aec3128d3321ff736f3a9d5ab8fca0349bcc347e8d692b3ee33d0fd2c67f87f031335113c1a54caef80b5aa0a4eaca4c5bd2320d6778

data/lib/llt/tokenizer/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 module LLT
   class Tokenizer
-    VERSION = "0.0.6"
+    VERSION = "0.0.7"
   end
 end

data/lib/llt/tokenizer.rb CHANGED Viewed

@@ -169,7 +169,7 @@ module LLT
     ENCLITICS = %w{ que ne ve c }
     def split_enklitika_and_change_their_position
       split_with_force
-      split_nec
+      split_nec_and_oute
       make_frequent_corrections
     end
@@ -202,16 +202,22 @@ module LLT
       "#{@enclitics_marker}#{val}"
     end
-    def split_nec
-      indices = []
+    def split_nec_and_oute
+      nec_indices  = []
+      oute_indices = []
       @worker.each_with_index do |token, i|
-        if token =~ /^nec$/i
+        case token
+        when /^nec$/i
           token.slice!(-1)
-          indices << (i + indices.size + @shift_range)
+          nec_indices << (i + nec_indices.size + @shift_range)
+        when /^οὐτε$/i
+          token.slice!(-2, 2)
+          oute_indices << (i + oute_indices.size + @shift_range)
         end
       end
-      indices.each { |i| @worker.insert(i, enclitic('c')) }
+      nec_indices.each  { |i| @worker.insert(i, enclitic('c')) }
+      oute_indices.each { |i| @worker.insert(i, enclitic('τε')) }
     end
     def make_frequent_corrections

data/spec/lib/llt/tokenizer_spec.rb CHANGED Viewed

@@ -260,6 +260,18 @@ describe LLT::Tokenizer do
           end
         end
       end
+      context "when confronted with -τε" do
+        examples = {
+          'οὐτε'  => '-τε οὐ'
+        }
+        examples.each do |example, expected|
+          it "transforms #{example} to #{expected}" do
+            enklitika_test(example).should be_transformed_to expected
+          end
+        end
+      end
     end
     describe "#merge_what_needs_merging" do

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: llt-tokenizer
 version: !ruby/object:Gem::Version
-  version: 0.0.6
+  version: 0.0.7
 platform: ruby
 authors:
 - LFDM
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-08-11 00:00:00.000000000 Z
+date: 2014-08-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -190,7 +190,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.2.0
+rubygems_version: 2.2.2
 signing_key:
 specification_version: 4
 summary: Breaks latin sentences into tokens