RubyGems - pragmatic_segmenter - Versions diffs - 0.3.3 → 0.3.4 - Mend

pragmatic_segmenter 0.3.3 → 0.3.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (48) hide show

checksums.yaml +4 -4
data/.travis.yml +1 -0
data/lib/pragmatic_segmenter/abbreviation_replacer.rb +6 -6
data/lib/pragmatic_segmenter/between_punctuation.rb +6 -4
data/lib/pragmatic_segmenter/cleaner.rb +51 -47
data/lib/pragmatic_segmenter/cleaner/rules.rb +86 -0
data/lib/pragmatic_segmenter/languages.rb +21 -30
data/lib/pragmatic_segmenter/languages/arabic.rb +0 -13
data/lib/pragmatic_segmenter/languages/common.rb +67 -44
data/lib/pragmatic_segmenter/languages/common/ellipsis.rb +37 -0
data/lib/pragmatic_segmenter/languages/common/numbers.rb +90 -0
data/lib/pragmatic_segmenter/languages/deutsch.rb +25 -48
data/lib/pragmatic_segmenter/languages/english.rb +3 -3
data/lib/pragmatic_segmenter/languages/japanese.rb +5 -13
data/lib/pragmatic_segmenter/languages/persian.rb +0 -14
data/lib/pragmatic_segmenter/languages/russian.rb +0 -25
data/lib/pragmatic_segmenter/languages/spanish.rb +0 -9
data/lib/pragmatic_segmenter/list.rb +60 -58
data/lib/pragmatic_segmenter/{process.rb → processor.rb} +47 -26
data/lib/pragmatic_segmenter/punctuation_replacer.rb +41 -20
data/lib/pragmatic_segmenter/segmenter.rb +19 -5
data/lib/pragmatic_segmenter/version.rb +1 -1
data/pragmatic_segmenter.gemspec +1 -0
data/spec/pragmatic_segmenter/languages/amharic_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages/arabic_spec.rb +59 -0
data/spec/pragmatic_segmenter/languages/armenian_spec.rb +160 -0
data/spec/pragmatic_segmenter/languages/burmese_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages/chinese_spec.rb +11 -0
data/spec/pragmatic_segmenter/languages/deutsch_spec.rb +189 -0
data/spec/pragmatic_segmenter/languages/dutch_spec.rb +23 -0
data/spec/pragmatic_segmenter/languages/english_spec.rb +1348 -0
data/spec/pragmatic_segmenter/languages/french_spec.rb +31 -0
data/spec/pragmatic_segmenter/languages/greek_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages/hindi_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages/italian_spec.rb +190 -0
data/spec/pragmatic_segmenter/languages/japanese_spec.rb +53 -0
data/spec/pragmatic_segmenter/languages/persian_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages/polish_spec.rb +11 -0
data/spec/pragmatic_segmenter/languages/russian_spec.rb +219 -0
data/spec/pragmatic_segmenter/languages/spanish_spec.rb +189 -0
data/spec/pragmatic_segmenter/languages/urdu_spec.rb +18 -0
data/spec/pragmatic_segmenter/languages_spec.rb +31 -0
data/spec/pragmatic_segmenter_spec.rb +24 -2583
metadata +59 -8
data/lib/pragmatic_segmenter/number.rb +0 -35
data/lib/pragmatic_segmenter/rules.rb +0 -168
data/lib/pragmatic_segmenter/rules/ellipsis.rb +0 -35
data/lib/pragmatic_segmenter/rules/html.rb +0 -13

data/spec/pragmatic_segmenter/languages/french_spec.rb ADDED

@@ -0,0 +1,31 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::French, '(fr)' do
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Après avoir été l'un des acteurs du projet génome humain, le Genoscope met aujourd'hui le cap vers la génomique environnementale. L'exploitation des données de séquences, prolongée par l'identification expérimentale des fonctions biologiques, notamment dans le domaine de la biocatalyse, ouvrent des perspectives de développements en biotechnologie industrielle.", language: 'fr')
+      expect(ps.segment).to eq(["Après avoir été l'un des acteurs du projet génome humain, le Genoscope met aujourd'hui le cap vers la génomique environnementale.", "L'exploitation des données de séquences, prolongée par l'identification expérimentale des fonctions biologiques, notamment dans le domaine de la biocatalyse, ouvrent des perspectives de développements en biotechnologie industrielle."])
+    end
+    it 'correctly segments text #002' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "\"Airbus livrera comme prévu 30 appareils 380 cette année avec en ligne de mire l'objectif d'équilibre financier du programme en 2015\", a-t-il ajouté.", language: 'fr')
+      expect(ps.segment).to eq(["\"Airbus livrera comme prévu 30 appareils 380 cette année avec en ligne de mire l'objectif d'équilibre financier du programme en 2015\", a-t-il ajouté."])
+    end
+    it 'correctly segments text #003' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "À 11 heures ce matin, la direction ne décomptait que douze grévistes en tout sur la France : ce sont ceux du site de Saran (Loiret), dont l’effectif est de 809 salariés, dont la moitié d’intérimaires. Elle assure que ce mouvement « n’aura aucun impact sur les livraisons ».", language: 'fr')
+      expect(ps.segment).to eq(["À 11 heures ce matin, la direction ne décomptait que douze grévistes en tout sur la France : ce sont ceux du site de Saran (Loiret), dont l’effectif est de 809 salariés, dont la moitié d’intérimaires.", "Elle assure que ce mouvement « n’aura aucun impact sur les livraisons »."])
+    end
+    it 'correctly segments text #004' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Ce modèle permet d’afficher le texte « LL.AA.II.RR. » pour l’abréviation de « Leurs Altesses impériales et royales » avec son infobulle.", language: 'fr')
+      expect(ps.segment).to eq(["Ce modèle permet d’afficher le texte « LL.AA.II.RR. » pour l’abréviation de « Leurs Altesses impériales et royales » avec son infobulle."])
+    end
+    it 'correctly segments text #005' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Les derniers ouvrages de Intercept Ltd. sont ici.", language: 'fr')
+      expect(ps.segment).to eq(["Les derniers ouvrages de Intercept Ltd. sont ici."])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/greek_spec.rb ADDED

@@ -0,0 +1,18 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Greek, '(el)' do
+  context "Golden Rules" do
+    it "Question mark to end sentence #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Με συγχωρείτε· πού είναι οι τουαλέτες; Τις Κυριακές δε δούλευε κανένας. το κόστος του σπιτιού ήταν £260.950,00.", language: "el")
+      expect(ps.segment).to eq(["Με συγχωρείτε· πού είναι οι τουαλέτες;", "Τις Κυριακές δε δούλευε κανένας.", "το κόστος του σπιτιού ήταν £260.950,00."])
+    end
+  end
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Με συγχωρείτε· πού είναι οι τουαλέτες; Τις Κυριακές δε δούλευε κανένας. το κόστος του σπιτιού ήταν £260.950,00.", language: 'el')
+      expect(ps.segment).to eq(["Με συγχωρείτε· πού είναι οι τουαλέτες;", "Τις Κυριακές δε δούλευε κανένας.", "το κόστος του σπιτιού ήταν £260.950,00."])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/hindi_spec.rb ADDED

@@ -0,0 +1,18 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Hindi, '(hi)' do
+  context "Golden Rules" do
+    it "Full stop #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "सच्चाई यह है कि इसे कोई नहीं जानता। हो सकता है यह फ़्रेन्को के खिलाफ़ कोई विद्रोह रहा हो, या फिर बेकाबू हो गया कोई आनंदोत्सव।", language: "hi")
+      expect(ps.segment).to eq(["सच्चाई यह है कि इसे कोई नहीं जानता।", "हो सकता है यह फ़्रेन्को के खिलाफ़ कोई विद्रोह रहा हो, या फिर बेकाबू हो गया कोई आनंदोत्सव।"])
+    end
+  end
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "सच्चाई यह है कि इसे कोई नहीं जानता। हो सकता है यह फ़्रेन्को के खिलाफ़ कोई विद्रोह रहा हो, या फिर बेकाबू हो गया कोई आनंदोत्सव।", language: 'hi')
+      expect(ps.segment).to eq(["सच्चाई यह है कि इसे कोई नहीं जानता।", "हो सकता है यह फ़्रेन्को के खिलाफ़ कोई विद्रोह रहा हो, या फिर बेकाबू हो गया कोई आनंदोत्सव।"])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/italian_spec.rb ADDED

@@ -0,0 +1,190 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Italian, "(it)" do
+  context "Golden Rules" do
+    it "Abbreviations #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Salve Sig.ra Mengoni! Come sta oggi?", language: "it")
+      expect(ps.segment).to eq(["Salve Sig.ra Mengoni!", "Come sta oggi?"])
+    end
+    it "Quotations #002" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Una lettera si può iniziare in questo modo «Il/la sottoscritto/a.».", language: "it")
+      expect(ps.segment).to eq(["Una lettera si può iniziare in questo modo «Il/la sottoscritto/a.»."])
+    end
+    it "Numbers #003" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La casa costa 170.500.000,00€!", language: "it")
+      expect(ps.segment).to eq(["La casa costa 170.500.000,00€!"])
+    end
+  end
+  # Thanks to Davide Fornelli for the Italian test examples.
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Salve Sig.ra Mengoni! Come sta oggi?", language: 'it')
+      expect(ps.segment).to eq(["Salve Sig.ra Mengoni!", "Come sta oggi?"])
+    end
+    it 'correctly segments text #002' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Buongiorno! Sono l'Ing. Mengozzi. È presente l'Avv. Cassioni?", language: 'it')
+      expect(ps.segment).to eq(["Buongiorno!", "Sono l'Ing. Mengozzi.", "È presente l'Avv. Cassioni?"])
+    end
+    it 'correctly segments text #003' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Mi fissi un appuntamento per mar. 23 Nov.. Grazie.", language: 'it')
+      expect(ps.segment).to eq(["Mi fissi un appuntamento per mar. 23 Nov..", "Grazie."])
+    end
+    it 'correctly segments text #004' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Ecco il mio tel.:01234567. Mi saluti la Sig.na Manelli. Arrivederci.", language: 'it')
+      expect(ps.segment).to eq(["Ecco il mio tel.:01234567.", "Mi saluti la Sig.na Manelli.", "Arrivederci."])
+    end
+    it 'correctly segments text #005' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La centrale meteor. si è guastata. Gli idraul. son dovuti andare a sistemarla.", language: 'it')
+      expect(ps.segment).to eq(["La centrale meteor. si è guastata.", "Gli idraul. son dovuti andare a sistemarla."])
+    end
+    it 'correctly segments text #006' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Hanno creato un algoritmo allo st. d. arte. Si ringrazia lo psicol. Serenti.", language: 'it')
+      expect(ps.segment).to eq(["Hanno creato un algoritmo allo st. d. arte.", "Si ringrazia lo psicol. Serenti."])
+    end
+    it 'correctly segments text #007' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Chiamate il V.Cte. delle F.P., adesso!", language: 'it')
+      expect(ps.segment).to eq(["Chiamate il V.Cte. delle F.P., adesso!"])
+    end
+    it 'correctly segments text #008' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Giancarlo ha sostenuto l'esame di econ. az..", language: 'it')
+      expect(ps.segment).to eq(["Giancarlo ha sostenuto l'esame di econ. az.."])
+    end
+    it 'correctly segments text #009' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Stava viaggiando a 90 km/h verso la provincia di TR quando il Dott. Mesini ha sentito un rumore e si fermò!", language: 'it')
+      expect(ps.segment).to eq(["Stava viaggiando a 90 km/h verso la provincia di TR quando il Dott. Mesini ha sentito un rumore e si fermò!"])
+    end
+    it 'correctly segments text #010' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Egregio Dir. Amm., le faccio sapere che l'ascensore non funziona.", language: 'it')
+      expect(ps.segment).to eq(["Egregio Dir. Amm., le faccio sapere che l'ascensore non funziona."])
+    end
+    it 'correctly segments text #011' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Stava mangiando e/o dormendo.", language: 'it')
+      expect(ps.segment).to eq(["Stava mangiando e/o dormendo."])
+    end
+    it 'correctly segments text #012' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Ricordatevi che dom 25 Set. sarà il compleanno di Maria; dovremo darle un regalo.", language: 'it')
+      expect(ps.segment).to eq(["Ricordatevi che dom 25 Set. sarà il compleanno di Maria; dovremo darle un regalo."])
+    end
+    it 'correctly segments text #013' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La politica è quella della austerità; quindi verranno fatti tagli agli sprechi.", language: 'it')
+      expect(ps.segment).to eq(["La politica è quella della austerità; quindi verranno fatti tagli agli sprechi."])
+    end
+    it 'correctly segments text #014' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Nel tribunale, l'Avv. Fabrizi ha urlato \"Io, l'illustrissimo Fabrizi, vi si oppone!\".", language: 'it')
+      expect(ps.segment).to eq(["Nel tribunale, l'Avv. Fabrizi ha urlato \"Io, l'illustrissimo Fabrizi, vi si oppone!\"."])
+    end
+    it 'correctly segments text #015' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Le parti fisiche di un computer (ad es. RAM, CPU, tastiera, mouse, etc.) sono definiti HW.", language: 'it')
+      expect(ps.segment).to eq(["Le parti fisiche di un computer (ad es. RAM, CPU, tastiera, mouse, etc.) sono definiti HW."])
+    end
+    it 'correctly segments text #016' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La parola 'casa' è sinonimo di abitazione.", language: 'it')
+      expect(ps.segment).to eq(["La parola 'casa' è sinonimo di abitazione."])
+    end
+    it 'correctly segments text #017' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La \"Mulino Bianco\" fa alimentari pre-confezionati.", language: 'it')
+      expect(ps.segment).to eq(["La \"Mulino Bianco\" fa alimentari pre-confezionati."])
+    end
+    it 'correctly segments text #018' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "\"Ei fu. Siccome immobile / dato il mortal sospiro / stette la spoglia immemore / orba di tanto spiro / [...]\" (Manzoni).", language: 'it')
+      expect(ps.segment).to eq(["\"Ei fu. Siccome immobile / dato il mortal sospiro / stette la spoglia immemore / orba di tanto spiro / [...]\" (Manzoni)."])
+    end
+    it 'correctly segments text #019' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Una lettera si può iniziare in questo modo «Il/la sottoscritto/a ... nato/a a ...».", language: 'it')
+      expect(ps.segment).to eq(["Una lettera si può iniziare in questo modo «Il/la sottoscritto/a ... nato/a a ...»."])
+    end
+    it 'correctly segments text #020' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Per casa, in uno degli esercizi per i bambini c'era \"3 + (14/7) = 5\"", language: 'it')
+      expect(ps.segment).to eq(["Per casa, in uno degli esercizi per i bambini c'era \"3 + (14/7) = 5\""])
+    end
+    it 'correctly segments text #021' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Ai bambini è stato chiesto di fare \"4:2*2\"", language: 'it')
+      expect(ps.segment).to eq(["Ai bambini è stato chiesto di fare \"4:2*2\""])
+    end
+    it 'correctly segments text #022' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La maestra esclamò: \"Bambini, quanto fa '2/3 + 4/3?'\".", language: 'it')
+      expect(ps.segment).to eq(["La maestra esclamò: \"Bambini, quanto fa \'2/3 + 4/3?\'\"."])
+    end
+    it 'correctly segments text #023' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Il motore misurava 120°C.", language: 'it')
+      expect(ps.segment).to eq(["Il motore misurava 120°C."])
+    end
+    it 'correctly segments text #024' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Il volume era di 3m³.", language: 'it')
+      expect(ps.segment).to eq(["Il volume era di 3m³."])
+    end
+    it 'correctly segments text #025' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La stanza misurava 20m².", language: 'it')
+      expect(ps.segment).to eq(["La stanza misurava 20m²."])
+    end
+    it 'correctly segments text #026' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "1°C corrisponde a 33.8°F.", language: 'it')
+      expect(ps.segment).to eq(["1°C corrisponde a 33.8°F."])
+    end
+    it 'correctly segments text #027' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Oggi è il 27-10-14.", language: 'it')
+      expect(ps.segment).to eq(["Oggi è il 27-10-14."])
+    end
+    it 'correctly segments text #028' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La casa costa 170.500.000,00€!", language: 'it')
+      expect(ps.segment).to eq(["La casa costa 170.500.000,00€!"])
+    end
+    it 'correctly segments text #029' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Il corridore 103 è arrivato 4°.", language: 'it')
+      expect(ps.segment).to eq(["Il corridore 103 è arrivato 4°."])
+    end
+    it 'correctly segments text #030' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Oggi è il 27/10/2014.", language: 'it')
+      expect(ps.segment).to eq(["Oggi è il 27/10/2014."])
+    end
+    it 'correctly segments text #031' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Ecco l'elenco: 1.gelato, 2.carne, 3.riso.", language: 'it')
+      expect(ps.segment).to eq(["Ecco l'elenco: 1.gelato, 2.carne, 3.riso."])
+    end
+    it 'correctly segments text #032' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Devi comprare : 1)pesce 2)sale.", language: 'it')
+      expect(ps.segment).to eq(["Devi comprare : 1)pesce 2)sale."])
+    end
+    it 'correctly segments text #033' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "La macchina viaggiava a 100 km/h.", language: 'it')
+      expect(ps.segment).to eq(["La macchina viaggiava a 100 km/h."])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/japanese_spec.rb ADDED

@@ -0,0 +1,53 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Japanese, "(ja)" do
+  context "Golden Rules" do
+    it "Simple period to end sentence #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "これはペンです。それはマーカーです。", language: "ja")
+      expect(ps.segment).to eq(["これはペンです。", "それはマーカーです。"])
+    end
+    it "Question mark to end sentence #002" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "それは何ですか？ペンですか？", language: "ja")
+      expect(ps.segment).to eq(["それは何ですか？", "ペンですか？"])
+    end
+    it "Exclamation point to end sentence #003" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "良かったね！すごい！", language: "ja")
+      expect(ps.segment).to eq(["良かったね！", "すごい！"])
+    end
+    it "Quotation #004" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "自民党税制調査会の幹部は、「引き下げ幅は３．２９％以上を目指すことになる」と指摘していて、今後、公明党と合意したうえで、３０日に決定する与党税制改正大綱に盛り込むことにしています。２％台後半を目指すとする方向で最終調整に入りました。", language: "ja")
+      expect(ps.segment).to eq(["自民党税制調査会の幹部は、「引き下げ幅は３．２９％以上を目指すことになる」と指摘していて、今後、公明党と合意したうえで、３０日に決定する与党税制改正大綱に盛り込むことにしています。", "２％台後半を目指すとする方向で最終調整に入りました。"])
+    end
+    it "Errant newlines in the middle of sentences #005" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "これは父の\n家です。", language: "ja")
+      expect(ps.segment).to eq(["これは父の家です。"])
+    end
+  end
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "これは山です \nこれは山です \nこれは山です（「これは山です」） \nこれは山です（これは山です「これは山です」）これは山です・これは山です、これは山です。 \nこれは山です（これは山です。これは山です）。これは山です、これは山です、これは山です、これは山です（これは山です。これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です。 \n1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です。 \n※1　これは山です。 \n2.）これは山です、これは山です、これは山です、これは山です。 \n3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です。 \n4.）これは山です、これは山です（これは山です、これは山です、これは山です。これは山です）これは山です、これは山です（これは山です、これは山です）。 \nこれは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です。 \n(1) 「これは山です」（これは山です：0円）　（※1） \n① これは山です", language: 'ja')
+      expect(ps.segment).to eq(["これは山です", "これは山です", "これは山です（「これは山です」）", "これは山です（これは山です「これは山です」）これは山です・これは山です、これは山です。", "これは山です（これは山です。これは山です）。", "これは山です、これは山です、これは山です、これは山です（これは山です。これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です。", "1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です。", "※1　これは山です。", "2.）これは山です、これは山です、これは山です、これは山です。", "3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です。", "4.）これは山です、これは山です（これは山です、これは山です、これは山です。これは山です）これは山です、これは山です（これは山です、これは山です）。", "これは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です。", "(1) 「これは山です」（これは山です：0円）　（※1）", "① これは山です"])
+    end
+    it 'correctly segments text #002' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "フフーの\n主たる債務", language: 'ja')
+      expect(ps.segment).to eq(["フフーの主たる債務"])
+    end
+    it 'correctly segments text #003' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "これは山です \nこれは山です \nこれは山です（「これは山です」） \nこれは山です（これは山です「これは山です」）これは山です・これは山です、これは山です． \nこれは山です（これは山です．これは山です）．これは山です、これは山です、これは山です、これは山です（これは山です．これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です． \n1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です． \n※1　これは山です． \n2.）これは山です、これは山です、これは山です、これは山です． \n3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です． \n4.）これは山です、これは山です（これは山です、これは山です、これは山です．これは山です）これは山です、これは山です（これは山です、これは山です）． \nこれは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です． \n(1) 「これは山です」（これは山です：0円）　（※1） \n① これは山です", language: 'ja')
+      expect(ps.segment).to eq(["これは山です", "これは山です", "これは山です（「これは山です」）", "これは山です（これは山です「これは山です」）これは山です・これは山です、これは山です．", "これは山です（これは山です．これは山です）．", "これは山です、これは山です、これは山です、これは山です（これは山です．これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です．", "1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です．", "※1　これは山です．", "2.）これは山です、これは山です、これは山です、これは山です．", "3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です．", "4.）これは山です、これは山です（これは山です、これは山です、これは山です．これは山です）これは山です、これは山です（これは山です、これは山です）．", "これは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です．", "(1) 「これは山です」（これは山です：0円）　（※1）", "① これは山です"])
+    end
+    it 'correctly segments text #004' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "これは山です \nこれは山です \nこれは山です（「これは山です」） \nこれは山です（これは山です「これは山です」）これは山です・これは山です、これは山です！ \nこれは山です（これは山です！これは山です）！これは山です、これは山です、これは山です、これは山です（これは山です！これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です！ \n1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です！ \n※1　これは山です！ \n2.）これは山です、これは山です、これは山です、これは山です！ \n3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です！ \n4.）これは山です、これは山です（これは山です、これは山です、これは山です！これは山です）これは山です、これは山です（これは山です、これは山です）！ \nこれは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です！ \n(1) 「これは山です」（これは山です：0円）　（※1） \n① これは山です", language: 'ja')
+      expect(ps.segment).to eq(["これは山です", "これは山です", "これは山です（「これは山です」）", "これは山です（これは山です「これは山です」）これは山です・これは山です、これは山です！", "これは山です（これは山です！これは山です）！", "これは山です、これは山です、これは山です、これは山です（これは山です！これは山です）これは山です、これは山です、これは山です「これは山です」これは山です（これは山です：0円）これは山です！", "1.）これは山です、これは山です（これは山です、これは山です6円（※1））これは山です！", "※1　これは山です！", "2.）これは山です、これは山です、これは山です、これは山です！", "3.）これは山です、これは山です・これは山です、これは山です、これは山です、これは山です（これは山です「これは山です」）これは山です、これは山です、これは山です、これは山です！", "4.）これは山です、これは山です（これは山です、これは山です、これは山です！これは山です）これは山です、これは山です（これは山です、これは山です）！", "これは山です、これは山です、これは山です、これは山です、これは山です（者）これは山です！", "(1) 「これは山です」（これは山です：0円）　（※1）", "① これは山です"])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/persian_spec.rb ADDED

@@ -0,0 +1,18 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Persian, '(fa)' do
+  context "Golden Rules" do
+    it "Sentence ending punctuation #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "خوشبختم، آقای رضا. شما کجایی هستید؟ من از تهران هستم.", language: 'fa')
+      expect(ps.segment).to eq(["خوشبختم، آقای رضا.", "شما کجایی هستید؟", "من از تهران هستم."])
+    end
+  end
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "خوشبختم، آقای رضا. شما کجایی هستید؟ من از تهران هستم.", language: 'fa')
+      expect(ps.segment).to eq(["خوشبختم، آقای رضا.", "شما کجایی هستید؟", "من از تهران هستم."])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/polish_spec.rb ADDED

@@ -0,0 +1,11 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Polish, '(pl)' do
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "To słowo bałt. jestskrótem.", language: 'pl')
+      expect(ps.segment).to eq(["To słowo bałt. jestskrótem."])
+    end
+  end
+end

data/spec/pragmatic_segmenter/languages/russian_spec.rb ADDED

@@ -0,0 +1,219 @@
+require 'spec_helper'
+RSpec.describe PragmaticSegmenter::Languages::Russian, "(ru)" do
+  context "Golden Rules" do
+    it "Abbreviations #001" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Объем составляет 5 куб.м.", language: "ru")
+      expect(ps.segment).to eq(["Объем составляет 5 куб.м."])
+    end
+    it "Quotations #002" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Маленькая девочка бежала и кричала: «Не видали маму?».", language: "ru")
+      expect(ps.segment).to eq(["Маленькая девочка бежала и кричала: «Не видали маму?»."])
+    end
+    it "Numbers #003" do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Сегодня 27.10.14", language: "ru")
+      expect(ps.segment).to eq(["Сегодня 27.10.14"])
+    end
+  end
+  # Thanks to Anastasiia Tsvitailo for the Russian test examples.
+  describe '#segment' do
+    it 'correctly segments text #001' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Маленькая девочка бежала и кричала: «Не видали маму?».", language: 'ru')
+      expect(ps.segment).to eq(["Маленькая девочка бежала и кричала: «Не видали маму?»."])
+    end
+    it 'correctly segments text #002' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "«Я приду поздно»,  — сказал Андрей.", language: 'ru')
+      expect(ps.segment).to eq(["«Я приду поздно»,  — сказал Андрей."])
+    end
+    it 'correctly segments text #003' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "«К чему ты готовишься? – спросила мама. – Завтра ведь выходной».", language: 'ru')
+      expect(ps.segment).to eq(["«К чему ты готовишься? – спросила мама. – Завтра ведь выходной»."])
+    end
+    it 'correctly segments text #004' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "По словам Пушкина, «Привычка свыше дана, замена счастью она».", language: 'ru')
+      expect(ps.segment).to eq(["По словам Пушкина, «Привычка свыше дана, замена счастью она»."])
+    end
+    it 'correctly segments text #005' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Он сказал: «Я очень устал», и сразу же замолчал.", language: 'ru')
+      expect(ps.segment).to eq(["Он сказал: «Я очень устал», и сразу же замолчал."])
+    end
+    it 'correctly segments text #006' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Мне стало как-то ужасно грустно в это мгновение; однако что-то похожее на смех зашевелилось в душе моей.", language: 'ru')
+      expect(ps.segment).to eq(["Мне стало как-то ужасно грустно в это мгновение; однако что-то похожее на смех зашевелилось в душе моей."])
+    end
+    it 'correctly segments text #007' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Шухов как был в ватных брюках, не снятых на ночь (повыше левого колена их тоже был пришит затасканный, погрязневший лоскут, и на нем выведен черной, уже поблекшей краской номер Щ-854), надел телогрейку…", language: 'ru')
+      expect(ps.segment).to eq(["Шухов как был в ватных брюках, не снятых на ночь (повыше левого колена их тоже был пришит затасканный, погрязневший лоскут, и на нем выведен черной, уже поблекшей краской номер Щ-854), надел телогрейку…"])
+    end
+    it 'correctly segments text #008' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Слово «дом» является синонимом жилища", language: 'ru')
+      expect(ps.segment).to eq(["Слово «дом» является синонимом жилища"])
+    end
+    it 'correctly segments text #009' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "В Санкт-Петербург на гастроли приехал театр «Современник»", language: 'ru')
+      expect(ps.segment).to eq(["В Санкт-Петербург на гастроли приехал театр «Современник»"])
+    end
+    it 'correctly segments text #010' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Машина едет со скоростью 100 км/ч.", language: 'ru')
+      expect(ps.segment).to eq(["Машина едет со скоростью 100 км/ч."])
+    end
+    it 'correctly segments text #011' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Я поем и/или лягу спать.", language: 'ru')
+      expect(ps.segment).to eq(["Я поем и/или лягу спать."])
+    end
+    it 'correctly segments text #012' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Он не мог справиться с примером \"3 + (14:7) = 5\"", language: 'ru')
+      expect(ps.segment).to eq(["Он не мог справиться с примером \"3 + (14:7) = 5\""])
+    end
+    it 'correctly segments text #013' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Вот список: 1.мороженое, 2.мясо, 3.рис.", language: 'ru')
+      expect(ps.segment).to eq(["Вот список: 1.мороженое, 2.мясо, 3.рис."])
+    end
+    it 'correctly segments text #014' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Квартира 234 находится на 4-ом этаже.", language: 'ru')
+      expect(ps.segment).to eq(["Квартира 234 находится на 4-ом этаже."])
+    end
+    it 'correctly segments text #015' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "В это время года температура может подниматься до 40°C.", language: 'ru')
+      expect(ps.segment).to eq(["В это время года температура может подниматься до 40°C."])
+    end
+    it 'correctly segments text #016' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Объем составляет 5м³.", language: 'ru')
+      expect(ps.segment).to eq(["Объем составляет 5м³."])
+    end
+    it 'correctly segments text #017' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Объем составляет 5 куб.м.", language: 'ru')
+      expect(ps.segment).to eq(["Объем составляет 5 куб.м."])
+    end
+    it 'correctly segments text #018' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Площадь комнаты 14м².", language: 'ru')
+      expect(ps.segment).to eq(["Площадь комнаты 14м²."])
+    end
+    it 'correctly segments text #019' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Площадь комнаты 14 кв.м.", language: 'ru')
+      expect(ps.segment).to eq(["Площадь комнаты 14 кв.м."])
+    end
+    it 'correctly segments text #020' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "1°C соответствует 33.8°F.", language: 'ru')
+      expect(ps.segment).to eq(["1°C соответствует 33.8°F."])
+    end
+    it 'correctly segments text #021' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Сегодня 27.10.14", language: 'ru')
+      expect(ps.segment).to eq(["Сегодня 27.10.14"])
+    end
+    it 'correctly segments text #022' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Сегодня 27 октября 2014 года.", language: 'ru')
+      expect(ps.segment).to eq(["Сегодня 27 октября 2014 года."])
+    end
+    it 'correctly segments text #023' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Эта машина стоит 150 000 дол.!", language: 'ru')
+      expect(ps.segment).to eq(["Эта машина стоит 150 000 дол.!"])
+    end
+    it 'correctly segments text #024' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Эта машина стоит $150 000!", language: 'ru')
+      expect(ps.segment).to eq(["Эта машина стоит $150 000!"])
+    end
+    it 'correctly segments text #025' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Вот номер моего телефона: +39045969798. Передавайте привет г-ну Шапочкину. До свидания.", language: 'ru')
+      expect(ps.segment).to eq(["Вот номер моего телефона: +39045969798.", "Передавайте привет г-ну Шапочкину.", "До свидания."])
+    end
+    it 'correctly segments text #026' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Постойте, разве можно указывать цены в у.е.!", language: 'ru')
+      expect(ps.segment).to eq(["Постойте, разве можно указывать цены в у.е.!"])
+    end
+    it 'correctly segments text #027' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Едем на скорости 90 км/ч в сторону пгт. Брагиновка, о котором мы так много слышали по ТВ!", language: 'ru')
+      expect(ps.segment).to eq(["Едем на скорости 90 км/ч в сторону пгт. Брагиновка, о котором мы так много слышали по ТВ!"])
+    end
+    it 'correctly segments text #028' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Д-р ветеринарных наук А. И. Семенов и пр. выступали на этом семинаре.", language: 'ru')
+      expect(ps.segment).to eq(["Д-р ветеринарных наук А. И. Семенов и пр. выступали на этом семинаре."])
+    end
+    it 'correctly segments text #029' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Уважаемый проф. Семенов! Просьба до 20.10 сдать отчет на кафедру.", language: 'ru')
+      expect(ps.segment).to eq(["Уважаемый проф. Семенов!", "Просьба до 20.10 сдать отчет на кафедру."])
+    end
+    it 'correctly segments text #030' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Первоначальная стоимость этого комплекта 30 долл., но сейчас действует скидка. Предъявите дисконтную карту, пожалуйста!", language: 'ru')
+      expect(ps.segment).to eq(["Первоначальная стоимость этого комплекта 30 долл., но сейчас действует скидка.", "Предъявите дисконтную карту, пожалуйста!"])
+    end
+    it 'correctly segments text #031' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Виктор съел пол-лимона и ушел по-английски из дома на ул. 1 Мая.", language: 'ru')
+      expect(ps.segment).to eq(["Виктор съел пол-лимона и ушел по-английски из дома на ул. 1 Мая."])
+    end
+    it 'correctly segments text #032' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Напоминаю Вам, что 25.10 день рождения у Маши К., нужно будет купить ей подарок.", language: 'ru')
+      expect(ps.segment).to eq(["Напоминаю Вам, что 25.10 день рождения у Маши К., нужно будет купить ей подарок."])
+    end
+    it 'correctly segments text #033' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "В 2010-2012 гг. Виктор посещал г. Волгоград неоднократно.", language: 'ru')
+      expect(ps.segment).to eq(["В 2010-2012 гг. Виктор посещал г. Волгоград неоднократно."])
+    end
+    it 'correctly segments text #034' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Маленькая девочка бежала и кричала: «Не видали маму?»", language: 'ru')
+      expect(ps.segment).to eq(["Маленькая девочка бежала и кричала: «Не видали маму?»"])
+    end
+    it 'correctly segments text #035' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Кв. 234 находится на 4 этаже.", language: 'ru')
+      expect(ps.segment).to eq(["Кв. 234 находится на 4 этаже."])
+    end
+    it 'correctly segments text #036' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "В это время года температура может подниматься до 40°C.", language: 'ru')
+      expect(ps.segment).to eq(["В это время года температура может подниматься до 40°C."])
+    end
+    it 'correctly segments text #037' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Нужно купить 1)рыбу 2)соль.", language: 'ru')
+      expect(ps.segment).to eq(["Нужно купить 1)рыбу 2)соль."])
+    end
+    it 'correctly segments text #038' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Машина едет со скоростью 100 км/ч.", language: 'ru')
+      expect(ps.segment).to eq(["Машина едет со скоростью 100 км/ч."])
+    end
+    it 'correctly segments text #039' do
+      ps = PragmaticSegmenter::Segmenter.new(text: "Л.Н. Толстой написал \"Войну и мир\". Кроме Волконских, Л. Н. Толстой состоял в близком родстве с некоторыми другими аристократическими родами. Дом, где родился Л.Н.Толстой, 1898 г. В 1854 году дом продан по распоряжению писателя на вывоз в село Долгое.", language: 'ru')
+      expect(ps.segment).to eq(["Л.Н. Толстой написал \"Войну и мир\".", "Кроме Волконских, Л. Н. Толстой состоял в близком родстве с некоторыми другими аристократическими родами.", "Дом, где родился Л.Н.Толстой, 1898 г. В 1854 году дом продан по распоряжению писателя на вывоз в село Долгое."])
+    end
+  end
+end