RubyGems - twitter_cldr - Versions diffs - 5.1.0 → 5.2.0 - Mend

twitter_cldr 5.1.0 → 5.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (57) hide show

checksums.yaml +4 -4
data/Rakefile +5 -5
data/lib/twitter_cldr.rb +1 -0
data/lib/twitter_cldr/resources.rb +2 -8
data/lib/twitter_cldr/resources/loader.rb +6 -4
data/lib/twitter_cldr/resources/locales_resources_importer.rb +0 -1
data/lib/twitter_cldr/resources/segment_rules_importer.rb +202 -0
data/lib/twitter_cldr/resources/segment_tests_importer.rb +3 -1
data/lib/twitter_cldr/segmentation.rb +10 -8
data/lib/twitter_cldr/segmentation/break_iterator.rb +15 -11
data/lib/twitter_cldr/segmentation/category_table.rb +56 -0
data/lib/twitter_cldr/segmentation/cursor.rb +10 -5
data/lib/twitter_cldr/segmentation/metadata.rb +20 -0
data/lib/twitter_cldr/segmentation/null_suppressions.rb +18 -0
data/lib/twitter_cldr/segmentation/rule_set.rb +23 -79
data/lib/twitter_cldr/segmentation/state_machine.rb +125 -0
data/lib/twitter_cldr/segmentation/state_table.rb +46 -0
data/lib/twitter_cldr/segmentation/status_table.rb +30 -0
data/lib/twitter_cldr/segmentation/suppressions.rb +79 -0
data/lib/twitter_cldr/shared/caser.rb +1 -1
data/lib/twitter_cldr/shared/locale.rb +6 -2
data/lib/twitter_cldr/version.rb +1 -1
data/resources/shared/segments/rules/el/sentence.yml +723 -0
data/resources/shared/segments/rules/en-US-POSIX/word.yml +527 -0
data/resources/shared/segments/rules/ja/line.yml +964 -0
data/resources/shared/segments/rules/ja/word.yml +527 -0
data/resources/shared/segments/rules/root/grapheme.yml +463 -0
data/resources/shared/segments/rules/root/line.yml +964 -0
data/resources/shared/segments/rules/root/sentence.yml +723 -0
data/resources/shared/segments/rules/root/word.yml +527 -0
data/resources/shared/segments/rules/zh-Hant/line.yml +964 -0
data/resources/shared/segments/rules/zh/line.yml +964 -0
data/resources/shared/segments/suppressions/de/sentence.yml +5 -0
data/resources/shared/segments/suppressions/en/sentence.yml +5 -0
data/resources/shared/segments/suppressions/es/sentence.yml +5 -0
data/resources/shared/segments/suppressions/fr/sentence.yml +5 -0
data/resources/shared/segments/suppressions/it/sentence.yml +5 -0
data/resources/shared/segments/suppressions/pt/sentence.yml +5 -0
data/resources/shared/segments/suppressions/ru/sentence.yml +5 -0
data/resources/shared/segments/tests/grapheme_break_test.yml +603 -0
data/resources/shared/segments/tests/line_break_test.yml +7348 -0
data/resources/uli/segments/de.yml +5 -230
data/resources/uli/segments/en.yml +3 -154
data/resources/uli/segments/es.yml +5 -145
data/resources/uli/segments/fr.yml +5 -68
data/resources/uli/segments/it.yml +3 -48
data/resources/uli/segments/pt.yml +5 -173
data/resources/uli/segments/ru.yml +3 -10
data/spec/segmentation/rule_set_spec.rb +54 -27
metadata +29 -9
data/lib/twitter_cldr/resources/uli.rb +0 -12
data/lib/twitter_cldr/resources/uli/segment_exceptions_importer.rb +0 -59
data/lib/twitter_cldr/segmentation/parser.rb +0 -71
data/lib/twitter_cldr/segmentation/rule.rb +0 -79
data/lib/twitter_cldr/segmentation/rule_set_builder.rb +0 -142
data/resources/shared/segments/segments_root.yml +0 -869
data/spec/segmentation/parser_spec.rb +0 -104

data/spec/segmentation/parser_spec.rb DELETED Viewed

@@ -1,104 +0,0 @@
-# encoding: UTF-8
-# Copyright 2012 Twitter, Inc
-# http://www.apache.org/licenses/LICENSE-2.0
-require 'spec_helper'
-describe 'Segmentation' do
-  let(:parser) { TwitterCldr::Segmentation::Parser.new }
-  def parse(tokens, options = {})
-    parser.parse(tokens, options)
-  end
-  describe TwitterCldr::Segmentation::Parser do
-    let(:symbol_table) do
-      TwitterCldr::Parsers::SymbolTable.new({
-        "$FOO" => parser.tokenize_regex("[abc]")
-      })
-    end
-    describe "#parse" do
-      it "should parse a rule with a break" do
-        rule = parse("[a-z] ÷ [0-9]")
-        expect(rule.left.to_regexp_str).to eq("(?:[\\u{0061}-\\u{007a}])")
-        expect(rule.right.to_regexp_str).to eq("(?:[\\u{0030}-\\u{0039}])")
-        expect(rule.boundary_symbol).to eq(:break)
-      end
-      it "should parse a rule with a non-break" do
-        rule = parse("[a-z] × [0-9]")
-        expect(rule.left.to_regexp_str).to eq(
-          "(?:[\\u{0061}-\\u{007a}])"
-        )
-        expect(rule.right.to_regexp_str).to eq(
-          "(?:[\\u{0030}-\\u{0039}])"
-        )
-        expect(rule.boundary_symbol).to eq(:no_break)
-      end
-      it "should parse a rule containing a variable" do
-        rule = parse("$FOO × bar", symbol_table: symbol_table)
-        expect(rule.left.to_regexp_str).to eq(
-          "(?:[\\u{0061}-\\u{0063}])"
-        )
-        expect(rule.right.to_regexp_str).to eq(
-          "(?:\\u{0062})(?:\\u{0061})(?:\\u{0072})"
-        )
-        expect(rule.boundary_symbol).to eq(:no_break)
-      end
-    end
-  end
-  describe TwitterCldr::Segmentation::BreakRule do
-    describe "#match" do
-      let(:rule) { parse("[a-z] ÷ [0-9]") }
-      it "rule should be the right type" do
-        expect(rule).to be_a(TwitterCldr::Segmentation::BreakRule)
-      end
-      it "should match and return the right offset and text" do
-        cursor = TwitterCldr::Segmentation::Cursor.new("c7")
-        match = rule.match(cursor)
-        expect(match.boundary_offset).to eq([0, 2])
-        expect(match.boundary_position).to eq(1)
-      end
-      it "should not match if the input string doesn't contain a matching right- and/or left-hand side" do
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("C7"))).to be_nil
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("cc"))).to be_nil
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("CC"))).to be_nil
-      end
-    end
-  end
-  describe TwitterCldr::Segmentation::NoBreakRule do
-    describe "#match" do
-      let(:rule) { parse("[a-z] × [0-9]") }
-      it "rule should be the right type" do
-        expect(rule).to be_a(TwitterCldr::Segmentation::NoBreakRule)
-      end
-      it "should match and return the right offset and text" do
-        match = rule.match(TwitterCldr::Segmentation::Cursor.new("c7"))
-        expect(match.boundary_offset).to eq([0, 2])
-        expect(match.boundary_position).to eq(1)
-      end
-      it "should not match if the input string doesn't contain matching text" do
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("C7"))).to be_nil
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("cc"))).to be_nil
-        expect(rule.match(TwitterCldr::Segmentation::Cursor.new("CC"))).to be_nil
-      end
-    end
-  end
-end