RubyGems - pragmatic_segmenter - Versions diffs - 0.3.6 → 0.3.7 - Mend

pragmatic_segmenter 0.3.6 → 0.3.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml +4 -4
data/README.md +3 -0
data/lib/pragmatic_segmenter/abbreviation_replacer.rb +5 -4
data/lib/pragmatic_segmenter/languages.rb +2 -0
data/lib/pragmatic_segmenter/languages/bulgarian.rb +23 -0
data/lib/pragmatic_segmenter/languages/russian.rb +1 -1
data/lib/pragmatic_segmenter/list.rb +3 -3
data/lib/pragmatic_segmenter/version.rb +1 -1
data/pragmatic_segmenter.gemspec +1 -0
data/spec/pragmatic_segmenter/languages/bulgarian_spec.rb +27 -0
metadata +19 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: f8c68d5563d388488aeacf96083dc2c81191b364
-  data.tar.gz: 60f67ff5dc22c136f389f48ff9ba76350de013df
+  metadata.gz: e52784b9c640f8e05b250ef0382117952e385b38
+  data.tar.gz: b7ab33db4cb7c9e0b9b2d34a88e79a7a0f31f22d
 SHA512:
-  metadata.gz: 3dcc1aa9da843232653928fb1a961f1b9d053aa9556924c4bed109a4c250c32bf1f11ccd69bdef6e6e1f40e3293e14d6274b06bd689cd03fb50c155200f29a98
-  data.tar.gz: 5b0220d3d9645a78025bdd76b9bff39611255de9e8d568beb053d738e42152ada640bd3d973e6f833ef77e5ff66f12ecd7dd1450617062f7d37fb558ff25ad28
+  metadata.gz: e2de3bd5dc14e04c4cdac85c0eee27912c74ffe0f7d3b098c2e82861a3d4c247d7ed48c3c84a6d850151acce4da324fa2c997be896890ec6bcd342b7f5c682f0
+  data.tar.gz: d2630ec99ffe38b08eadb619c75f8c9622bc79a20abb0987de36f8fd04f3bac7e58a90835891ff4e5db9cec7f8e29d7c1fba3ba8bf91386b7086263a3b3cbd52

data/README.md CHANGED Viewed

@@ -828,6 +828,9 @@ To test the relative performance of different segmentation tools and libraries I
 **Version 0.3.6**
 * Refactor SENTENCE_STARTERS to each individual language and add SENTENCE_STARTERS for German
+**Version 0.3.7**
+* Add `unicode` gem and use it for downcasing to better handle cyrillic languages
 ## Contributing
 If you find a text that is incorrectly segmented using this gem, please submit an issue.

data/lib/pragmatic_segmenter/abbreviation_replacer.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 # -*- encoding : utf-8 -*-
+require 'unicode'
 module PragmaticSegmenter
   # This class searches for periods within an abbreviation and
@@ -26,7 +27,7 @@ module PragmaticSegmenter
     def search_for_abbreviations_in_string(txt)
       original = txt.dup
-      downcased = txt.downcase
+      downcased = Unicode::downcase(txt)
       @language::Abbreviation::ABBREVIATIONS.each do |a|
         next unless downcased.include?(a.strip)
         abbrev_match = original.scan(/(?:^|\s|\r|\n)#{Regexp.escape(a.strip)}/i)
@@ -45,10 +46,10 @@ module PragmaticSegmenter
       prepositive = @language::Abbreviation::PREPOSITIVE_ABBREVIATIONS
       number_abbr = @language::Abbreviation::NUMBER_ABBREVIATIONS
       upper = /[[:upper:]]/.match(character.to_s)
-      if upper.nil? || prepositive.include?(am.downcase.strip)
-        if prepositive.include?(am.downcase.strip)
+      if upper.nil? || prepositive.include?(Unicode::downcase(am.strip))
+        if prepositive.include?(Unicode::downcase(am.strip))
           txt = replace_prepositive_abbr(txt, am)
-        elsif number_abbr.include?(am.downcase.strip)
+        elsif number_abbr.include?(Unicode::downcase(am.strip))
           txt = replace_pre_number_abbr(txt, am)
         else
           txt = replace_period_of_abbr(txt, am)

data/lib/pragmatic_segmenter/languages.rb CHANGED Viewed

@@ -22,11 +22,13 @@ require 'pragmatic_segmenter/languages/japanese'
 require 'pragmatic_segmenter/languages/dutch'
 require 'pragmatic_segmenter/languages/polish'
 require 'pragmatic_segmenter/languages/chinese'
+require 'pragmatic_segmenter/languages/bulgarian'
 module PragmaticSegmenter
   module Languages
     LANGUAGE_CODES = {
       'en' => English,
+      'bg' => Bulgarian,
       'de' => Deutsch,
       'es' => Spanish,
       'fr' => French,

data/lib/pragmatic_segmenter/languages/bulgarian.rb ADDED Viewed

@@ -0,0 +1,23 @@
+module PragmaticSegmenter
+  module Languages
+    module Bulgarian
+      include Languages::Common
+      module Abbreviation
+        ABBREVIATIONS = ["p.s", "акад", "ал", "б.р", "б.ред", "бел.а", "бел.пр", "бр", "бул", "в", "вж", "вкл", "вм", "вр", "г", "ген", "гр", "дж", "дм", "доц", "др", "ем", "заб", "зам", "инж", "к.с", "кв", "кв.м", "кг", "км", "кор", "куб", "куб.м", "л", "лв", "м", "м.г", "мин", "млн", "млрд", "мм", "н.с", "напр", "пл", "полк", "проф", "р", "рис", "с", "св", "сек", "см", "сп", "срв", "ст", "стр", "т", "т.г", "т.е", "т.н", "т.нар", "табл", "тел", "у", "ул", "фиг", "ха", "хил", "ч", "чл", "щ.д"]
+        NUMBER_ABBREVIATIONS = []
+        PREPOSITIVE_ABBREVIATIONS = []
+      end
+      class AbbreviationReplacer < AbbreviationReplacer
+        SENTENCE_STARTERS = [].freeze
+        private
+        def replace_period_of_abbr(txt, abbr)
+          txt.gsub!(/(?<=\s#{abbr.strip})\.|(?<=^#{abbr.strip})\./, '∯')
+          txt
+        end
+      end
+    end
+  end
+end

data/lib/pragmatic_segmenter/languages/russian.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module PragmaticSegmenter
       include Languages::Common
       module Abbreviation
-        ABBREVIATIONS = ['а', 'авт', 'адм.-терр', 'акад', 'в', 'вв', 'вкз', 'вост.-европ', 'г', 'гг', 'гос', 'гр', 'д', 'деп', 'дисс', 'дол', 'долл', 'ежедн', 'ж', 'жен', 'з', 'зап', 'зап.-европ', 'заруб', 'и', 'И', 'и', 'ин', 'иностр', 'инст', 'к', 'кв', 'К', 'Кв', 'куб', 'канд', 'кг', 'л', 'м', 'мин', 'моск', 'муж', 'нед', 'о', 'о', 'О', 'о', 'п', 'пер', 'пп', 'пр', 'просп', 'р', 'руб', 'с', 'сек', 'см', 'СПб', 'стр', 'т', 'т', 'тел', 'тов', 'тт', 'тыс', 'ул', 'у.е', 'y.e', 'у', 'y', 'Ф', 'ф', 'ч', 'пгт', 'проф', 'л.h', 'Л.Н', 'Н']
+        ABBREVIATIONS = ["y", "y.e", "а", "авт", "адм.-терр", "акад", "в", "вв", "вкз", "вост.-европ", "г", "гг", "гос", "гр", "д", "деп", "дисс", "дол", "долл", "ежедн", "ж", "жен", "з", "зап", "зап.-европ", "заруб", "и", "ин", "иностр", "инст", "к", "канд", "кв", "кг", "куб", "л", "л.h", "л.н", "м", "мин", "моск", "муж", "н", "нед", "о", "п", "пгт", "пер", "пп", "пр", "просп", "проф", "р", "руб", "с", "сек", "см", "спб", "стр", "т", "тел", "тов", "тт", "тыс", "у", "у.е", "ул", "ф", "ч"]
         PREPOSITIVE_ABBREVIATIONS = []
         NUMBER_ABBREVIATIONS = []
       end

data/lib/pragmatic_segmenter/list.rb CHANGED Viewed

@@ -149,9 +149,9 @@ module PragmaticSegmenter
     def replace_alphabet_list_parens(a)
       @text.gsub!(EXTRACT_ALPHABETICAL_LIST_LETTERS_REGEX).with_index do |m|
         if m.include?('(')
-          a.eql?(m.dup.downcase.gsub!(/\(/, '')) ? "\r&✂&#{Regexp.escape(m.gsub!(/\(/, ''))}" : "#{m}"
+          a.eql?(Unicode::downcase(m.dup).gsub!(/\(/, '')) ? "\r&✂&#{Regexp.escape(m.gsub!(/\(/, ''))}" : "#{m}"
         else
-          a.eql?(m.dup.downcase) ? "\r#{Regexp.escape(m)}" : "#{m}"
+          a.eql?(Unicode::downcase(m.dup)) ? "\r#{Regexp.escape(m)}" : "#{m}"
         end
       end
     end
@@ -183,7 +183,7 @@ module PragmaticSegmenter
     end
     def iterate_alphabet_array(regex, parens: false, roman_numeral: false)
-      list_array = @text.scan(regex).map(&:downcase)
+      list_array = @text.scan(regex).map { |s| Unicode::downcase(s) }
       if roman_numeral
         alphabet = ROMAN_NUMERALS
       else

data/lib/pragmatic_segmenter/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module PragmaticSegmenter
-  VERSION = "0.3.6"
+  VERSION = "0.3.7"
 end

data/pragmatic_segmenter.gemspec CHANGED Viewed

@@ -18,6 +18,7 @@ Gem::Specification.new do |spec|
   spec.test_files    = spec.files.grep(%r{^(test|spec|features)/})
   spec.require_paths = ["lib"]
+  spec.add_runtime_dependency "unicode"
   spec.add_development_dependency "bundler", "~> 1.7"
   spec.add_development_dependency "rake", "~> 10.0"
   spec.add_development_dependency "rspec"

data/spec/pragmatic_segmenter/languages/bulgarian_spec.rb ADDED Viewed

@@ -0,0 +1,27 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Bulgarian, '(bg)' do
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "В първата половина на ноември т.г. ще бъде свикан Консултативният съвет за национална сигурност, обяви държавният глава.", language: 'bg')
+      expect(ps.segment).to eq(["В първата половина на ноември т.г. ще бъде свикан Консултативният съвет за национална сигурност, обяви държавният глава."])
+    end
+    it 'correctly segments text #002' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Компютърът е устройство с общо предназначение, което може да бъде програмирано да извършва набор от аритметични и/или логически операции. Възможността поредицата такива операции да бъде променяна позволява компютърът да се използва за решаването на теоретично всяка изчислителна/логическа задача. Обикновено целта на тези операции е обработката на въведена информация (данни), представена в цифров (дигитален) вид, резултатът от които може да се изведе в най-общо казано използваема форма.", language: 'bg')
+      expect(ps.segment).to eq(["Компютърът е устройство с общо предназначение, което може да бъде програмирано да извършва набор от аритметични и/или логически операции.", "Възможността поредицата такива операции да бъде променяна позволява компютърът да се използва за решаването на теоретично всяка изчислителна/логическа задача.", "Обикновено целта на тези операции е обработката на въведена информация (данни), представена в цифров (дигитален) вид, резултатът от които може да се изведе в най-общо казано използваема форма."])
+    end
+    it 'correctly segments text #003' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Пл. \"20 Април\"", language: 'bg')
+      expect(ps.segment).to eq(["Пл. \"20 Април\""])
+    end
+    it 'correctly segments text #004' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Той поставя началото на могъща династия, която управлява в продължение на 150 г. Саргон надделява в двубой с владетеля на град Ур и разширява териториите на държавата си по долното течение на Тигър и Ефрат. Стойностни, вкл. български и руски", language: 'bg')
+      expect(ps.segment).to eq(["Той поставя началото на могъща династия, която управлява в продължение на 150 г. Саргон надделява в двубой с владетеля на град Ур и разширява териториите на държавата си по долното течение на Тигър и Ефрат.", "Стойностни, вкл. български и руски"])
+    end
+  end
+end

metadata CHANGED Viewed

@@ -1,15 +1,29 @@
 --- !ruby/object:Gem::Specification
 name: pragmatic_segmenter
 version: !ruby/object:Gem::Version
-  version: 0.3.6
+  version: 0.3.7
 platform: ruby
 authors:
 - Kevin S. Dias
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-01-05 00:00:00.000000000 Z
+date: 2016-01-12 00:00:00.000000000 Z
 dependencies:
+- !ruby/object:Gem::Dependency
+  name: unicode
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: bundler
   requirement: !ruby/object:Gem::Requirement
@@ -93,6 +107,7 @@ files:
 - lib/pragmatic_segmenter/languages/amharic.rb
 - lib/pragmatic_segmenter/languages/arabic.rb
 - lib/pragmatic_segmenter/languages/armenian.rb
+- lib/pragmatic_segmenter/languages/bulgarian.rb
 - lib/pragmatic_segmenter/languages/burmese.rb
 - lib/pragmatic_segmenter/languages/chinese.rb
 - lib/pragmatic_segmenter/languages/common.rb
@@ -122,6 +137,7 @@ files:
 - spec/pragmatic_segmenter/languages/amharic_spec.rb
 - spec/pragmatic_segmenter/languages/arabic_spec.rb
 - spec/pragmatic_segmenter/languages/armenian_spec.rb
+- spec/pragmatic_segmenter/languages/bulgarian_spec.rb
 - spec/pragmatic_segmenter/languages/burmese_spec.rb
 - spec/pragmatic_segmenter/languages/chinese_spec.rb
 - spec/pragmatic_segmenter/languages/deutsch_spec.rb
@@ -170,6 +186,7 @@ test_files:
 - spec/pragmatic_segmenter/languages/amharic_spec.rb
 - spec/pragmatic_segmenter/languages/arabic_spec.rb
 - spec/pragmatic_segmenter/languages/armenian_spec.rb
+- spec/pragmatic_segmenter/languages/bulgarian_spec.rb
 - spec/pragmatic_segmenter/languages/burmese_spec.rb
 - spec/pragmatic_segmenter/languages/chinese_spec.rb
 - spec/pragmatic_segmenter/languages/deutsch_spec.rb