RubyGems - pragmatic_segmenter - Versions diffs - 0.3.1 → 0.3.2 - Mend

pragmatic_segmenter 0.3.1 → 0.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

checksums.yaml +4 -4
data/README.md +8 -2
data/lib/pragmatic_segmenter/abbreviation_replacer.rb +16 -51
data/lib/pragmatic_segmenter/cleaner.rb +18 -99
data/lib/pragmatic_segmenter/languages.rb +62 -0
data/lib/pragmatic_segmenter/languages/amharic.rb +4 -30
data/lib/pragmatic_segmenter/languages/arabic.rb +21 -64
data/lib/pragmatic_segmenter/languages/armenian.rb +4 -30
data/lib/pragmatic_segmenter/languages/burmese.rb +4 -30
data/lib/pragmatic_segmenter/languages/chinese.rb +8 -0
data/lib/pragmatic_segmenter/languages/common.rb +70 -1
data/lib/pragmatic_segmenter/languages/deutsch.rb +49 -78
data/lib/pragmatic_segmenter/languages/dutch.rb +5 -36
data/lib/pragmatic_segmenter/languages/english.rb +3 -12
data/lib/pragmatic_segmenter/languages/french.rb +5 -32
data/lib/pragmatic_segmenter/languages/greek.rb +4 -26
data/lib/pragmatic_segmenter/languages/hindi.rb +4 -30
data/lib/pragmatic_segmenter/languages/italian.rb +3 -37
data/lib/pragmatic_segmenter/languages/japanese.rb +6 -4
data/lib/pragmatic_segmenter/languages/persian.rb +16 -40
data/lib/pragmatic_segmenter/languages/polish.rb +6 -38
data/lib/pragmatic_segmenter/languages/russian.rb +13 -33
data/lib/pragmatic_segmenter/languages/spanish.rb +6 -31
data/lib/pragmatic_segmenter/languages/urdu.rb +4 -30
data/lib/pragmatic_segmenter/number.rb +5 -5
data/lib/pragmatic_segmenter/process.rb +28 -49
data/lib/pragmatic_segmenter/rules.rb +65 -1
data/lib/pragmatic_segmenter/{ellipsis.rb → rules/ellipsis.rb} +0 -0
data/lib/pragmatic_segmenter/rules/html.rb +13 -0
data/lib/pragmatic_segmenter/segmenter.rb +12 -32
data/lib/pragmatic_segmenter/version.rb +1 -1
data/spec/pragmatic_segmenter_spec.rb +6 -7
metadata +6 -8
data/lib/pragmatic_segmenter/abbreviation.rb +0 -22
data/lib/pragmatic_segmenter/language_support.rb +0 -31
data/lib/pragmatic_segmenter/punctuation.rb +0 -12
data/lib/pragmatic_segmenter/sentence_boundary_punctuation.rb +0 -17
data/lib/pragmatic_segmenter/single_letter_abbreviation.rb +0 -37

data/lib/pragmatic_segmenter/languages/arabic.rb CHANGED

@@ -1,84 +1,41 @@
 module PragmaticSegmenter
   module Languages
-    class Arabic
-      class Process < PragmaticSegmenter::Process
-        private
-        def sentence_boundary_punctuation(txt)
-          PragmaticSegmenter::Languages::Arabic::SentenceBoundaryPunctuation.new(text: txt).split
-        end
+    module Arabic
+      include Languages::Common
-        def replace_abbreviations(txt)
-          PragmaticSegmenter::Languages::Arabic::AbbreviationReplacer.new(text: txt).replace
-        end
+      Punctuations = ['?', '!', ':', '.', '؟', '،']
+      SENTENCE_BOUNDARY_REGEX = /.*?[:\.!\?؟،]|.*?\z|.*?$/
-        def punctuation_array
-          PragmaticSegmenter::Languages::Arabic::Punctuation.new.punct
-        end
-      end
-      class Cleaner < PragmaticSegmenter::Cleaner
+      module Abbreviation
+        ABBREVIATIONS = ['ا', 'ا. د', 'ا.د', 'ا.ش.ا', 'ا.ش.ا', 'إلخ', 'ت.ب', 'ت.ب', 'ج.ب', 'جم', 'ج.ب', 'ج.م.ع', 'ج.م.ع', 'س.ت', 'س.ت', 'سم', 'ص.ب.', 'ص.ب', 'كج.', 'كلم.', 'م', 'م.ب', 'م.ب', 'ه', 'د‪']
+        PREPOSITIVE_ABBREVIATIONS = []
+        NUMBER_ABBREVIATIONS = []
       end
-      class SentenceBoundaryPunctuation < PragmaticSegmenter::SentenceBoundaryPunctuation
-        SENTENCE_BOUNDARY = /.*?[:\.!\?؟،]|.*?\z|.*?$/
+      # Rubular: http://rubular.com/r/RX5HpdDIyv
+      ReplaceColonBetweenNumbersRule = Rule.new(/(?<=\d):(?=\d)/, '♭')
-        # Rubular: http://rubular.com/r/RX5HpdDIyv
-        ReplaceColonBetweenNumbersRule = Rule.new(/(?<=\d):(?=\d)/, '♭')
-        # Rubular: http://rubular.com/r/kPRgApNHUg
-        ReplaceNonSentenceBoundaryCommaRule = Rule.new(/،(?=\s\S+،)/, '♬')
-        def split
-          txt = replace_non_sentence_boundary_punctuation(text)
-          txt.scan(SENTENCE_BOUNDARY)
-        end
+      # Rubular: http://rubular.com/r/kPRgApNHUg
+      ReplaceNonSentenceBoundaryCommaRule = Rule.new(/،(?=\s\S+،)/, '♬')
+      class Process < Process
         private
-        def replace_non_sentence_boundary_punctuation(txt)
-          txt.apply(ReplaceColonBetweenNumbersRule).
-              apply(ReplaceNonSentenceBoundaryCommaRule)
-        end
-      end
-      class Abbreviation < PragmaticSegmenter::Abbreviation
-        ABBREVIATIONS = ['ا', 'ا. د', 'ا.د', 'ا.ش.ا', 'ا.ش.ا', 'إلخ', 'ت.ب', 'ت.ب', 'ج.ب', 'جم', 'ج.ب', 'ج.م.ع', 'ج.م.ع', 'س.ت', 'س.ت', 'سم', 'ص.ب.', 'ص.ب', 'كج.', 'كلم.', 'م', 'م.ب', 'م.ب', 'ه', 'د‪']
-        def all
-          ABBREVIATIONS
-        end
-        def prepositive
-          []
+        def sentence_boundary_punctuation(txt)
+          txt = txt.apply(ReplaceColonBetweenNumbersRule, ReplaceNonSentenceBoundaryCommaRule)
+          txt.scan(SENTENCE_BOUNDARY_REGEX)
         end
-        def number
-          []
-        end
-      end
-      class Punctuation < PragmaticSegmenter::Punctuation
-        PUNCT = ['?', '!', ':', '.', '؟', '،']
-        def punct
-          PUNCT
+        def replace_abbreviations(txt)
+          AbbreviationReplacer.new(text: txt, language: Arabic).replace
         end
       end
-      class AbbreviationReplacer  < PragmaticSegmenter::AbbreviationReplacer
+      class AbbreviationReplacer  < AbbreviationReplacer
         private
-        def scan_for_replacements(txt, am, index, character_array, abbr)
-          replace_abbr(txt, am)
-        end
-        def replace_abbr(txt, abbr)
-          txt.gsub(/(?<=#{abbr})\./, '∯')
-        end
-        def abbreviations
-          PragmaticSegmenter::Languages::Arabic::Abbreviation.new
+        def scan_for_replacements(txt, am, index, character_array)
+          txt.gsub(/(?<=#{am})\./, '∯')
         end
       end
     end

data/lib/pragmatic_segmenter/languages/armenian.rb CHANGED

@@ -1,36 +1,10 @@
 module PragmaticSegmenter
   module Languages
-    class Armenian
-      class Process < PragmaticSegmenter::Process
-        private
+    module Armenian
+      include Languages::Common
-        def sentence_boundary_punctuation(txt)
-          PragmaticSegmenter::Languages::Armenian::SentenceBoundaryPunctuation.new(text: txt).split
-        end
-        def punctuation_array
-          PragmaticSegmenter::Languages::Armenian::Punctuation.new.punct
-        end
-      end
-      class Cleaner < PragmaticSegmenter::Cleaner
-      end
-      class SentenceBoundaryPunctuation < PragmaticSegmenter::SentenceBoundaryPunctuation
-        SENTENCE_BOUNDARY = /.*?[։՜:]|.*?$/
-        def split
-          text.scan(SENTENCE_BOUNDARY)
-        end
-      end
-      class Punctuation < PragmaticSegmenter::Punctuation
-        PUNCT = ['։', '՜', ':']
-        def punct
-          PUNCT
-        end
-      end
+      SENTENCE_BOUNDARY_REGEX = /.*?[։՜:]|.*?$/
+      Punctuations = ['։', '՜', ':']
     end
   end
 end

data/lib/pragmatic_segmenter/languages/burmese.rb CHANGED

@@ -1,36 +1,10 @@
 module PragmaticSegmenter
   module Languages
-    class Burmese
-      class Process < PragmaticSegmenter::Process
-        private
+    module Burmese
+      include Languages::Common
-        def sentence_boundary_punctuation(txt)
-          PragmaticSegmenter::Languages::Burmese::SentenceBoundaryPunctuation.new(text: txt).split
-        end
-        def punctuation_array
-          PragmaticSegmenter::Languages::Burmese::Punctuation.new.punct
-        end
-      end
-      class Cleaner < PragmaticSegmenter::Cleaner
-      end
-      class SentenceBoundaryPunctuation < PragmaticSegmenter::SentenceBoundaryPunctuation
-        SENTENCE_BOUNDARY = /.*?[။၏!\?]|.*?$/
-        def split
-          text.scan(SENTENCE_BOUNDARY)
-        end
-      end
-      class Punctuation < PragmaticSegmenter::Punctuation
-        PUNCT = ['။', '၏', '?', '!']
-        def punct
-          PUNCT
-        end
-      end
+      SENTENCE_BOUNDARY_REGEX = /.*?[။၏!\?]|.*?$/
+      Punctuations = ['။', '၏', '?', '!']
     end
   end
 end

data/lib/pragmatic_segmenter/languages/chinese.rb ADDED

@@ -0,0 +1,8 @@
+module PragmaticSegmenter
+  module Languages
+    module Chinese
+      include Languages::Common
+    end
+  end
+end

data/lib/pragmatic_segmenter/languages/common.rb CHANGED

@@ -1,6 +1,75 @@
 module PragmaticSegmenter
   module Languages
-    class Common
+    module Common
+      # This class holds the punctuation marks.
+      Punctuations = ['。', '．', '.', '！', '!', '?', '？']
+      # Defines the abbreviations for each language (if available)
+      module Abbreviation
+        ABBREVIATIONS = ['adj', 'adm', 'adv', 'al', 'ala', 'alta', 'apr', 'arc', 'ariz', 'ark', 'art', 'assn', 'asst', 'attys', 'aug', 'ave', 'bart', 'bld', 'bldg', 'blvd', 'brig', 'bros', 'btw', 'cal', 'calif', 'capt', 'cl', 'cmdr', 'co', 'col', 'colo', 'comdr', 'con', 'conn', 'corp', 'cpl', 'cres', 'ct', 'd.phil', 'dak', 'dec', 'del', 'dept', 'det', 'dist', 'dr', 'dr.phil', 'dr.philos', 'drs', 'e.g', 'ens', 'esp', 'esq', 'etc', 'exp', 'expy', 'ext', 'feb', 'fed', 'fla', 'ft', 'fwy', 'fy', 'ga', 'gen', 'gov', 'hon', 'hosp', 'hr', 'hway', 'hwy', 'i.e', 'ia', 'id', 'ida', 'ill', 'inc', 'ind', 'ing', 'insp', 'is', 'jan', 'jr', 'jul', 'jun', 'kan', 'kans', 'ken', 'ky', 'la', 'lt', 'ltd', 'maj', 'man', 'mar', 'mass', 'may', 'md', 'me', 'med', 'messrs', 'mex', 'mfg', 'mich', 'min', 'minn', 'miss', 'mlle', 'mm', 'mme', 'mo', 'mont', 'mr', 'mrs', 'ms', 'msgr', 'mssrs', 'mt', 'mtn', 'neb', 'nebr', 'nev', 'no', 'nos', 'nov', 'nr', 'oct', 'ok', 'okla', 'ont', 'op', 'ord', 'ore', 'p', 'pa', 'pd', 'pde', 'penn', 'penna', 'pfc', 'ph', 'ph.d', 'pl', 'plz', 'pp', 'prof', 'pvt', 'que', 'rd', 'ref', 'rep', 'reps', 'res', 'rev', 'rt', 'sask', 'sec', 'sen', 'sens', 'sep', 'sept', 'sfc', 'sgt', 'sr', 'st', 'supt', 'surg', 'tce', 'tenn', 'tex', 'univ', 'usafa', 'u.s', 'ut', 'va', 'v', 'ver', 'vs', 'vt', 'wash', 'wis', 'wisc', 'wy', 'wyo', 'yuk']
+        PREPOSITIVE_ABBREVIATIONS = ['adm', 'attys', 'brig', 'capt', 'cmdr', 'col', 'cpl', 'det', 'dr', 'gen', 'gov', 'ing', 'lt', 'maj', 'mr', 'mrs', 'ms', 'mt', 'messrs', 'mssrs', 'prof', 'ph', 'rep', 'reps', 'rev', 'sen', 'sens', 'sgt', 'st', 'supt', 'v', 'vs']
+        NUMBER_ABBREVIATIONS = ['art', 'ext', 'no', 'nos', 'p', 'pp']
+      end
+      SENTENCE_BOUNDARY_REGEX = /\u{ff08}(?:[^\u{ff09}])*\u{ff09}(?=\s?[A-Z])|\u{300c}(?:[^\u{300d}])*\u{300d}(?=\s[A-Z])|\((?:[^\)]){2,}\)(?=\s[A-Z])|'(?:[^'])*[^,]'(?=\s[A-Z])|"(?:[^"])*[^,]"(?=\s[A-Z])|“(?:[^”])*[^,]”(?=\s[A-Z])|\S.*?[。．.！!?？ȸȹ☉☈☇☄]/
+      include Rules
+      # Rubular: http://rubular.com/r/NqCqv372Ix
+      QUOTATION_AT_END_OF_SENTENCE_REGEX = /[!?\.-][\"\'\u{201d}\u{201c}]\s{1}[A-Z]/
+      # Rubular: http://rubular.com/r/6flGnUMEVl
+      PARENS_BETWEEN_DOUBLE_QUOTES_REGEX = /["”]\s\(.*\)\s["“]/
+      # Rubular: http://rubular.com/r/TYzr4qOW1Q
+      BETWEEN_DOUBLE_QUOTES_REGEX = /"(?:[^"])*[^,]"|“(?:[^”])*[^,]”/
+      # Rubular: http://rubular.com/r/JMjlZHAT4g
+      SPLIT_SPACE_QUOTATION_AT_END_OF_SENTENCE_REGEX = /(?<=[!?\.-][\"\'\u{201d}\u{201c}])\s{1}(?=[A-Z])/
+      # Rubular: http://rubular.com/r/mQ8Es9bxtk
+      CONTINUOUS_PUNCTUATION_REGEX = /(?<=\S)(!|\?){3,}(?=(\s|\z|$))/
+      # Rubular: http://rubular.com/r/yqa4Rit8EY
+      PossessiveAbbreviationRule = Rule.new(/\.(?='s\s)|\.(?='s$)|\.(?='s\z)/, '∯')
+      # Rubular: http://rubular.com/r/NEv265G2X2
+      KommanditgesellschaftRule = Rule.new(/(?<=Co)\.(?=\sKG)/, '∯')
+      # Rubular: http://rubular.com/r/xDkpFZ0EgH
+      MULTI_PERIOD_ABBREVIATION_REGEX = /\b[a-z](?:\.[a-z])+[.]/i
+      module AmPmRules
+        # Rubular: http://rubular.com/r/Vnx3m4Spc8
+        UpperCasePmRule = Rule.new(/(?<=P∯M)∯(?=\s[A-Z])/, '.')
+        # Rubular: http://rubular.com/r/AJMCotJVbW
+        UpperCaseAmRule = Rule.new(/(?<=A∯M)∯(?=\s[A-Z])/, '.')
+        # Rubular: http://rubular.com/r/13q7SnOhgA
+        LowerCasePmRule = Rule.new(/(?<=p∯m)∯(?=\s[A-Z])/, '.')
+        # Rubular: http://rubular.com/r/DgUDq4mLz5
+        LowerCaseAmRule = Rule.new(/(?<=a∯m)∯(?=\s[A-Z])/, '.')
+        All = [UpperCasePmRule, UpperCaseAmRule, LowerCasePmRule, LowerCaseAmRule]
+      end
+      # This class searches for periods within an abbreviation and
+      # replaces the periods.
+      module SingleLetterAbbreviationRules
+        # Rubular: http://rubular.com/r/e3H6kwnr6H
+        SingleUpperCaseLetterAtStartOfLineRule = Rule.new(/(?<=^[A-Z])\.(?=\s)/, '∯')
+        # Rubular: http://rubular.com/r/gitvf0YWH4
+        SingleUpperCaseLetterRule = Rule.new(/(?<=\s[A-Z])\.(?=\s)/, '∯')
+        All = [
+          SingleUpperCaseLetterAtStartOfLineRule,
+          SingleUpperCaseLetterRule
+        ]
+      end
       class Process < PragmaticSegmenter::Process
       end
       class Cleaner < PragmaticSegmenter::Cleaner

data/lib/pragmatic_segmenter/languages/deutsch.rb CHANGED

@@ -1,19 +1,51 @@
 module PragmaticSegmenter
   module Languages
-    class Deutsch
+    module Deutsch
+      include Languages::Common
+      module Abbreviation
+        ABBREVIATIONS = ['Ä', 'ä', 'adj', 'adm', 'adv', 'art', 'asst', 'b.a', 'b.s', 'bart', 'bldg', 'brig', 'bros', 'bse', 'buchst', 'bzgl', 'bzw', 'c.-à-d', 'ca', 'capt', 'chr', 'cmdr', 'co', 'col', 'comdr', 'con', 'corp', 'cpl', 'd.h', 'd.j', 'dergl', 'dgl', 'dkr', 'dr ', 'ens', 'etc', 'ev ', 'evtl', 'ff', 'g.g.a', 'g.u', 'gen', 'ggf', 'gov', 'hon', 'hosp', 'i.f', 'i.h.v', 'ii', 'iii', 'insp', 'iv', 'ix', 'jun', 'k.o', 'kath ', 'lfd', 'lt', 'ltd', 'm.e', 'maj', 'med', 'messrs', 'mio', 'mlle', 'mm', 'mme', 'mr', 'mrd', 'mrs', 'ms', 'msgr', 'mwst', 'no', 'nos', 'nr', 'o.ä', 'op', 'ord', 'pfc', 'ph', 'pp', 'prof', 'pvt', 'rep', 'reps', 'res', 'rev', 'rt', 's.p.a', 'sa', 'sen', 'sens', 'sfc', 'sgt', 'sog', 'sogen', 'spp', 'sr', 'st', 'std', 'str  ', 'supt', 'surg', 'u.a  ', 'u.e', 'u.s.w', 'u.u', 'u.ä', 'usf', 'usw', 'v', 'vgl', 'vi', 'vii', 'viii', 'vs', 'x', 'xi', 'xii', 'xiii', 'xiv', 'xix', 'xv', 'xvi', 'xvii', 'xviii', 'xx', 'z.b', 'z.t', 'z.z', 'z.zt', 'zt', 'zzt']
+        NUMBER_ABBREVIATIONS = ['art', 'ca', 'no', 'nos', 'nr', 'pp']
+        PREPOSITIVE_ABBREVIATIONS = []
+      end
+      # Rubular: http://rubular.com/r/OdcXBsub0w
+      BETWEEN_UNCONVENTIONAL_DOUBLE_QUOTE_DE_REGEX = /,,(?>[^“\\]+|\\{2}|\\.)*“/
+      # Rubular: http://rubular.com/r/2UskIupGgP
+      SPLIT_DOUBLE_QUOTES_DE_REGEX = /\A„(?>[^“\\]+|\\{2}|\\.)*“/
+      # Rubular: http://rubular.com/r/TkZomF9tTM
+      BETWEEN_DOUBLE_QUOTES_DE_REGEX = /„(?>[^“\\]+|\\{2}|\\.)*“/
+      # Rubular: http://rubular.com/r/hZxoyQwKT1
+      NumberPeriodSpaceRule = Rule.new(/(?<=\s[0-9]|\s([1-9][0-9]))\.(?=\s)/, '∯')
+      # Rubular: http://rubular.com/r/ityNMwdghj
+      NegativeNumberPeriodSpaceRule = Rule.new(/(?<=-[0-9]|-([1-9][0-9]))\.(?=\s)/, '∯')
+      MONTHS = ['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']
+      # Rubular: http://rubular.com/r/B4X33QKIL8
+      SingleLowerCaseLetterRule = Rule.new(/(?<=\s[a-z])\.(?=\s)/, '∯')
+      # Rubular: http://rubular.com/r/iUNSkCuso0
+      SingleLowerCaseLetterAtStartOfLineRule = Rule.new(/(?<=^[a-z])\.(?=\s)/, '∯')
       class Process < PragmaticSegmenter::Process
         private
         def between_punctuation(txt)
-          PragmaticSegmenter::Languages::Deutsch::BetweenPunctuation.new(text: txt).replace
+          BetweenPunctuation.new(text: txt).replace
         end
         def replace_numbers(txt)
-          PragmaticSegmenter::Languages::Deutsch::Number.new(text: txt).replace
+          Number.new(text: txt).replace
         end
         def replace_abbreviations(txt)
-          PragmaticSegmenter::Languages::Deutsch::AbbreviationReplacer.new(text: txt).replace
+          AbbreviationReplacer.new(text: txt, language: Deutsch).replace
         end
       end
@@ -21,27 +53,19 @@ module PragmaticSegmenter
         private
         def abbreviations
-          PragmaticSegmenter::Languages::Deutsch::Abbreviation.new.all
+          Abbreviation::ABBREVIATIONS
         end
       end
       class Number < PragmaticSegmenter::Number
-        # Rubular: http://rubular.com/r/hZxoyQwKT1
-        NumberPeriodSpaceRule = Rule.new(/(?<=\s[0-9]|\s([1-9][0-9]))\.(?=\s)/, '∯')
-        # Rubular: http://rubular.com/r/ityNMwdghj
-        NegativeNumberPeriodSpaceRule = Rule.new(/(?<=-[0-9]|-([1-9][0-9]))\.(?=\s)/, '∯')
-        DE_MONTHS = ['Januar', 'Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']
         def replace
           super
-          @text.apply(NumberPeriodSpaceRule).apply(NegativeNumberPeriodSpaceRule)
+          @text.apply(NumberPeriodSpaceRule, NegativeNumberPeriodSpaceRule)
           replace_period_in_deutsch_dates(@text)
         end
         def replace_period_in_deutsch_dates(txt)
-          DE_MONTHS.each do |month|
+          MONTHS.each do |month|
             # Rubular: http://rubular.com/r/zlqgj7G5dA
             txt.gsub!(/(?<=\d)\.(?=\s*#{Regexp.escape(month)})/, '∯')
           end
@@ -49,81 +73,28 @@ module PragmaticSegmenter
         end
       end
-      class SingleLetterAbbreviation < PragmaticSegmenter::SingleLetterAbbreviation
-        # Rubular: http://rubular.com/r/B4X33QKIL8
-        SingleLowerCaseLetterRule = Rule.new(/(?<=\s[a-z])\.(?=\s)/, '∯')
-        # Rubular: http://rubular.com/r/iUNSkCuso0
-        SingleLowerCaseLetterAtStartOfLineRule = Rule.new(/(?<=^[a-z])\.(?=\s)/, '∯')
+      class AbbreviationReplacer  < AbbreviationReplacer
         def replace
-          super
-          @formatted_text = replace_single_lowercase_letter(@formatted_text)
-          replace_single_lowercase_letter_sol(@formatted_text)
-        end
-        private
+          @reformatted_text = text.apply(
+            @language::PossessiveAbbreviationRule,
+            @language::SingleLetterAbbreviationRules::All,
+            SingleLowerCaseLetterRule,
+            SingleLowerCaseLetterAtStartOfLineRule)
-        def replace_single_lowercase_letter_sol(txt)
-          txt.apply(SingleLowerCaseLetterRule)
-        end
-        def replace_single_lowercase_letter(txt)
-          txt.apply(SingleLowerCaseLetterAtStartOfLineRule)
-        end
-      end
-      class Abbreviation < PragmaticSegmenter::Abbreviation
-        ABBREVIATIONS = ['Ä', 'ä', 'adj', 'adm', 'adv', 'art', 'asst', 'b.a', 'b.s', 'bart', 'bldg', 'brig', 'bros', 'bse', 'buchst', 'bzgl', 'bzw', 'c.-à-d', 'ca', 'capt', 'chr', 'cmdr', 'co', 'col', 'comdr', 'con', 'corp', 'cpl', 'd.h', 'd.j', 'dergl', 'dgl', 'dkr', 'dr ', 'ens', 'etc', 'ev ', 'evtl', 'ff', 'g.g.a', 'g.u', 'gen', 'ggf', 'gov', 'hon', 'hosp', 'i.f', 'i.h.v', 'ii', 'iii', 'insp', 'iv', 'ix', 'jun', 'k.o', 'kath ', 'lfd', 'lt', 'ltd', 'm.e', 'maj', 'med', 'messrs', 'mio', 'mlle', 'mm', 'mme', 'mr', 'mrd', 'mrs', 'ms', 'msgr', 'mwst', 'no', 'nos', 'nr', 'o.ä', 'op', 'ord', 'pfc', 'ph', 'pp', 'prof', 'pvt', 'rep', 'reps', 'res', 'rev', 'rt', 's.p.a', 'sa', 'sen', 'sens', 'sfc', 'sgt', 'sog', 'sogen', 'spp', 'sr', 'st', 'std', 'str  ', 'supt', 'surg', 'u.a  ', 'u.e', 'u.s.w', 'u.u', 'u.ä', 'usf', 'usw', 'v', 'vgl', 'vi', 'vii', 'viii', 'vs', 'x', 'xi', 'xii', 'xiii', 'xiv', 'xix', 'xv', 'xvi', 'xvii', 'xviii', 'xx', 'z.b', 'z.t', 'z.z', 'z.zt', 'zt', 'zzt']
-        NUMBER_ABBREVIATIONS = ['art', 'ca', 'no', 'nos', 'nr', 'pp']
-        def all
-          ABBREVIATIONS
-        end
-        def prepositive
-          []
-        end
-        def number
-          NUMBER_ABBREVIATIONS
-        end
-      end
-      class AbbreviationReplacer  < PragmaticSegmenter::AbbreviationReplacer
-        def replace
-          @reformatted_text = text.apply(PossessiveAbbreviationRule)
-          @reformatted_text = PragmaticSegmenter::Languages::Deutsch::SingleLetterAbbreviation.new(text: @reformatted_text).replace
-          @reformatted_text = search_for_abbreviations_in_string(@reformatted_text, abbreviations)
+          @reformatted_text = search_for_abbreviations_in_string(@reformatted_text)
           @reformatted_text = replace_multi_period_abbreviations(@reformatted_text)
-          @reformatted_text = @reformatted_text.apply(AmPmRules::All)
+          @reformatted_text = @reformatted_text.apply(Languages::Common::AmPmRules::All)
           replace_abbreviation_as_sentence_boundary(@reformatted_text)
         end
         private
-        def scan_for_replacements(txt, am, index, character_array, abbr)
-          replace_abbr(txt, am)
-        end
-        def replace_abbr(txt, abbr)
-          txt.gsub(/(?<=#{abbr})\.(?=\s)/, '∯')
-        end
-        def abbreviations
-          PragmaticSegmenter::Languages::Deutsch::Abbreviation.new
+        def scan_for_replacements(txt, am, index, character_array)
+          txt.gsub(/(?<=#{am})\.(?=\s)/, '∯')
         end
       end
       class BetweenPunctuation < PragmaticSegmenter::BetweenPunctuation
-        # Rubular: http://rubular.com/r/OdcXBsub0w
-        BETWEEN_UNCONVENTIONAL_DOUBLE_QUOTE_DE_REGEX = /,,(?>[^“\\]+|\\{2}|\\.)*“/
-        # Rubular: http://rubular.com/r/2UskIupGgP
-        SPLIT_DOUBLE_QUOTES_DE_REGEX = /\A„(?>[^“\\]+|\\{2}|\\.)*“/
-        # Rubular: http://rubular.com/r/TkZomF9tTM
-        BETWEEN_DOUBLE_QUOTES_DE_REGEX = /„(?>[^“\\]+|\\{2}|\\.)*“/
         private
         def sub_punctuation_between_double_quotes(txt)