RubyGems - tataki - Versions diffs - 0.0.3 → 0.0.4 - Mend

tataki 0.0.3 → 0.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

checksums.yaml +4 -4
data/README.md +4 -3
data/benchmark/001-M_jinmei.rb +17 -0
data/lib/tataki/converters/skk_jisyo.rb +54 -57
data/lib/tataki/version.rb +1 -1
data/spec/spec_helper.rb +2 -1
data/spec/tataki/converters/combine_spec.rb +0 -9
data/spec/tataki/converters/skk_jisyo_spec.rb +10 -1
data/spec/tataki_spec.rb +2 -1
data/tataki.gemspec +0 -1
metadata +2 -19
data/data/roman.yml +0 -142
data/lib/tataki/converters/roman.rb +0 -67
data/spec/tataki/converters/roman_spec.rb +0 -30

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: aa8fec9bc8527b014ade8528d1cd9cefa2223c59
-  data.tar.gz: 39f9543bbcdf66bb83fc3062a019c126064cbde2
+  metadata.gz: c75759d9be482c52fc40c1b59d543fa709877f9d
+  data.tar.gz: d2f4bc1514cd2eb3d4a8b57286509b2e91442db3
 SHA512:
-  metadata.gz: d1b330894a4b2bd8d159b6ebabb3be71486ba820f87feee4a744682a83e3a93936acbeacd48bfd44cf80ecec99f197b2da6d354e97e2048e067fe1bfe73492e0
-  data.tar.gz: ff9e1b5643bb7d748bfe0fadfcd191ebf270103198662d5e2f6c2d4aa3171d8c29bc4bebbe8a58ce4cbf67853ea9a8d87a5f2a43d4c1c5de2cbdff158627c4a5
+  metadata.gz: 6b1cc2f50a0302cb959b6414d56a8c3e565286b9284ec07ecf328caefb6735a23d1aa83f09e1abdf5be208c5811a0b5936cb422beb192119209678a2c45ef599
+  data.tar.gz: 315cf59f199dfa3532293ae19252083ce58a2e305ea0ee3421bebd1fb66f99c0d89c75ea3df93943e7fb3f0060a732c1c4519dbb10aeb76d6313a6d3b5743224

data/README.md CHANGED

@@ -36,11 +36,12 @@ require "tataki/base"
 alphabet_converter = Tataki::Converter::Alphabet.new
 alphabet_converter.to_kana("abcde") # => "えーびーしーでぃーいー"
-roman_alphabet_converter = Tataki::Converter::Combine.new(Tataki::Converter::Roman.new, Tataki::Converter::Alphabet.new)
-roman_alphabet_converter.to_kana("robottotaisennf") # => "ろぼっとたいせんえふ"
 skk_converter = Tataki::Converter::SkkJisyo.new
 skk_converter.to_kana("研究者") # => "けんきゅうしゃ"
+alphabet_skk_converter = Tataki::Converter::Combine.new(Tataki::Converter::Alphabet.new, Tataki::Converter::SkkJisyo.new)
+alphabet_skk_converter.to_kana("X線研究者") # => "robottotaisennf"
 ```
 ## TODO

data/benchmark/001-M_jinmei.rb ADDED

@@ -0,0 +1,17 @@
+require "benchmark"
+N = 1000
+$LOAD_PATH.unshift File.expand_path('../../lib', __FILE__)
+require 'tataki/base'
+converter = Tataki::Converter::SkkJisyo.new(%w[M jinmei])
+source = "かな漢字変換" * 100
+puts Benchmark::CAPTION
+puts Benchmark.measure {
+  N.times do
+    converter.to_kana(source)
+  end
+}

data/lib/tataki/converters/skk_jisyo.rb CHANGED

@@ -2,7 +2,6 @@
 require "yaml"
 require "time"
 require "skk/jisyo"
-require "trie"
 module Tataki
   module Converter
@@ -12,30 +11,34 @@ module Tataki
       def initialize(jisyo_types = DEFAULT_JISYO_SUFFIXES)
         @jisyo_paths = jisyo_types.map{|suffix| Skk::Jisyo.path(suffix) }
-        @trie_cache_path = trie_cache_path(jisyo_types.join("_"))
+        @table_cache_path = table_cache_path(jisyo_types.join("_"))
         config_file = File.expand_path(DEFAULT_CONFIG_PATH, __FILE__)
         config_data = YAML.load_file(config_file)
         @roman_data = config_data["roman_table"]
         @ignore_kana = config_data["ignore_kana"]
-        @trie = setup_jisyo.freeze
+        tables = setup_jisyo
+        @match_table = tables[0].freeze
+        @okurigana_table = tables[1].freeze
       end
       def setup_jisyo
-        if File.exist?(@trie_cache_path)
-          trie = Marshal.load(File.read(@trie_cache_path))
+        if File.exist?(@table_cache_path)
+          tables = Marshal.load(File.read(@table_cache_path))
         else
-          trie = Trie.new
+          match_table = {}
+          okurigana_table = {}
           @jisyo_paths.each do |jisyo_path|
-            add_jisyo(trie, jisyo_path)
+            add_jisyo(match_table, okurigana_table, jisyo_path)
           end
-          File.binwrite(@trie_cache_path, Marshal.dump(trie))
-          File.write("#{@trie_cache_path}.timestamp", Time.now.to_s)
+          tables = [match_table, okurigana_table]
+          File.binwrite(@table_cache_path, Marshal.dump(tables))
+          File.write("#{@table_cache_path}.timestamp", Time.now.to_s)
         end
-        trie
+        tables
       end
-      def add_jisyo(trie, jisyo_path)
+      def add_jisyo(match_table, okurigana_table, jisyo_path)
         File.open(jisyo_path, "rb:euc-jp") do |jisyo_file|
           jisyo_file.each_line do |line|
             next if line.empty? || line[0] == ";" || line.include?("#")
@@ -44,8 +47,14 @@ module Tataki
             kana.gsub!(/[^ぁ-んa-z]/, "")
             next if kana.empty? || !(kana =~ /^[ぁ-ん]+[a-z]?/) || @ignore_kana.include?(kana)
             kanji_part.gsub!(/^\/|;.+|\/$/, "")
+            table = kana =~ /^(.+)([a-z])$/ ? okurigana_table : match_table
             kanji_part.split("/").each do |kanji|
-              trie.insert(kanji, kana)
+              kanji_prefix = kanji[0]
+              table_entry = table[kanji_prefix]
+              table[kanji_prefix] = table_entry = [] unless table_entry
+              table_entry.push($2 ? [kanji, $1, $2] : [kanji, kana])
+              table_entry.sort_by!{|entry| - (entry[0].size) }
             end
           end
         end
@@ -55,8 +64,8 @@ module Tataki
         File.expand_path("../../../../data/jisyo", __FILE__)
       end
-      def trie_cache_path(name)
-        File.join(jisyo_path, "SKK-JISYO.#{name}.trie.cache")
+      def table_cache_path(name)
+        File.join(jisyo_path, "SKK-JISYO.#{name}.table.cache")
       end
       def jisyo_timestamp(path)
@@ -64,61 +73,49 @@ module Tataki
       end
       def to_kana(sentence)
-        _to_kana(sentence, "", "", @trie)
+        _to_kana(sentence, "")
       end
       private
-      def _to_kana(sentence, kana, prefix, trie, through_alphabet = true)
-        return if trie.empty?
+      def _to_kana(sentence, kana)
         return kana if sentence.empty?
-        next_ch = sentence[0]
-        next_sentence = sentence[1..-1]
-        next_trie = trie.find_prefix(next_ch)
-        next_trie_values = next_trie.values
-        next_trie_values.reject!{|value| value =~ /[a-z]/ }
-        next_set = next_trie.find([])
-        next_set_values = next_set.values
-        okurigana = find_okurigana(next_set_values, next_sentence)
-        next_set_values.reject!{|value| value =~ /[a-z]/ }
-        if okurigana
-          return _to_kana(next_sentence, kana + okurigana, "", @trie)
-        elsif next_set_values.size > 0 && next_set_values.size == next_trie_values.size
-          return _to_kana(next_sentence, kana + next_set_values.sample, "", @trie)
-        end
-        if next_sentence.empty?
-          if next_set_values.size > 0
-            return kana + next_set_values.sample
-          elsif through_alphabet
-            return kana + prefix + next_ch
-          end
+        table_entry = find_okurigana_entry(sentence) || find_match_entry(sentence)
+        if table_entry
+          next_kanji = table_entry[0]
+          next_kana = table_entry[1]
+          next_sentence = sentence[next_kanji.size .. -1]
+          return _to_kana(next_sentence, kana + next_kana)
         end
-        next_kana = _to_kana(next_sentence, kana, prefix + next_ch, next_trie, false)
-        if next_kana
-          return next_kana
-        end
+        return _to_kana(sentence[1 .. -1], kana + sentence[0])
+      end
-        if next_set_values.size > 0
-          return _to_kana(next_sentence, kana + next_set_values.sample, "", @trie)
-        elsif through_alphabet
-          return _to_kana(next_sentence, kana + prefix + next_ch, "", @trie)
-        else
-          return nil
+      def find_okurigana_entry(sentence)
+        entries = @okurigana_table[sentence[0]]
+        return unless entries
+        entries.each do |entry|
+          kanji, yomi, alphabet = *entry
+          next unless sentence.start_with?(kanji)
+          next_ch = sentence[kanji.size]
+          okurigana_candidates = @roman_data[alphabet]
+          next unless okurigana_candidates
+          okurigana_candidates.each do |okurigana|
+            return entry if okurigana == next_ch
+          end
         end
+        nil
       end
-      def find_okurigana(yomi_candidates, next_sentence)
-        yomi_candidates.each do |yomi|
-          next unless yomi =~ /.+([a-z])$/
-          okurigana_yomi = @roman_data[$1]
-          next unless okurigana_yomi
-          okurigana_yomi.each do |okurigana|
-            return yomi.gsub(/[a-z]$/, "") if next_sentence.start_with?(okurigana)
-          end
+      def find_match_entry(sentence)
+        entries = @match_table[sentence[0]]
+        return unless entries
+        entries.each do |entry|
+          kanji, yomi = *entry
+          return entry if sentence.start_with?(kanji)
         end
         nil
       end

data/lib/tataki/version.rb CHANGED

@@ -1,3 +1,3 @@
 module Tataki
-  VERSION = "0.0.3"
+  VERSION = "0.0.4"
 end

data/spec/spec_helper.rb CHANGED

@@ -1,2 +1,3 @@
+require 'pry'
 $LOAD_PATH.unshift File.expand_path('../../lib', __FILE__)
-require 'tataki'
+require 'tataki/base'

data/spec/tataki/converters/combine_spec.rb CHANGED

@@ -3,7 +3,6 @@ require "spec_helper"
 describe Tataki::Converter::Combine do
   let(:skk_converter) { Tataki::Converter::SkkJisyo.new }
-  let(:roman_converter) { Tataki::Converter::Roman.new }
   let(:alphabet_converter) { Tataki::Converter::Alphabet.new }
   describe ".to_kana" do
@@ -13,14 +12,6 @@ describe Tataki::Converter::Combine do
       end
     end
-    context "when roman + alphabet" do
-      let(:converter) do
-        Tataki::Converter::Combine.new(roman_converter, alphabet_converter)
-      end
-      include_examples "converts_kana", "robottotaisennf", "ろぼっとたいせんえふ"
-    end
     context "when skk-jisyo + alphabet" do
       let(:converter) do
         Tataki::Converter::Combine.new(skk_converter, alphabet_converter)

data/spec/tataki/converters/skk_jisyo_spec.rb CHANGED

@@ -2,7 +2,6 @@
 require "spec_helper"
 describe Tataki::Converter::SkkJisyo do
   describe ".to_kana" do
     shared_examples "converts_kana" do |sentence, kana|
       it "converts #{sentence.inspect} to #{kana.inspect}" do
@@ -29,5 +28,15 @@ describe Tataki::Converter::SkkJisyo do
       include_examples "converts_kana", "漢字", "漢字"
       include_examples "converts_kana", "半澤直樹", "はんざわなおき"
     end
+    context "with M, jinmei jisyo" do
+      let(:converter) { Tataki::Converter::SkkJisyo.new(%w[M jinmei]) }
+      include_examples "converts_kana", "", ""
+      include_examples "converts_kana", "漢字", "かんじ"
+      include_examples "converts_kana", "半澤直樹", "はんざわなおき"
+      include_examples "converts_kana", "半澤直樹倍返し", "はんざわなおきばいかえし"
+      include_examples "converts_kana", "半澤直樹、銀行を買う", "はんざわなおき、ぎんこうをかう"
+    end
   end
 end

data/spec/tataki_spec.rb CHANGED

@@ -9,7 +9,6 @@ describe Tataki do
   describe ".converters" do
     it "returns converters" do
       expect(Tataki.converters).to match_array([
-        Tataki::Converter::Roman,
         Tataki::Converter::Alphabet,
         Tataki::Converter::Combine,
         Tataki::Converter::SkkJisyo,
@@ -18,6 +17,8 @@ describe Tataki do
   end
   describe "String.to_kana" do
+    before { require "tataki" }
     it "converts to kana" do
       expect("X線研究者".to_kana).to eq("えっくすせんけんきゅうしゃ")
     end

data/tataki.gemspec CHANGED

@@ -19,7 +19,6 @@ Gem::Specification.new do |spec|
   spec.require_paths = ["lib"]
   spec.add_dependency "skk-jisyo", "~> 0.0.5"
-  spec.add_dependency "trie"
   spec.add_development_dependency "bundler", "~> 1.3"
   spec.add_development_dependency "rake"

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: tataki
 version: !ruby/object:Gem::Version
-  version: 0.0.3
+  version: 0.0.4
 platform: ruby
 authors:
 - hogelog
@@ -24,20 +24,6 @@ dependencies:
     - - ~>
       - !ruby/object:Gem::Version
         version: 0.0.5
-- !ruby/object:Gem::Dependency
-  name: trie
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - '>='
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :runtime
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - '>='
-      - !ruby/object:Gem::Version
-        version: '0'
 - !ruby/object:Gem::Dependency
   name: bundler
   requirement: !ruby/object:Gem::Requirement
@@ -137,22 +123,20 @@ files:
 - LICENSE.txt
 - README.md
 - Rakefile
+- benchmark/001-M_jinmei.rb
 - data/alphabet.yml
 - data/jisyo/.gitignore
-- data/roman.yml
 - data/skk-jisyo.yml
 - lib/tataki.rb
 - lib/tataki/base.rb
 - lib/tataki/converters.rb
 - lib/tataki/converters/alphabet.rb
 - lib/tataki/converters/combine.rb
-- lib/tataki/converters/roman.rb
 - lib/tataki/converters/skk_jisyo.rb
 - lib/tataki/version.rb
 - spec/spec_helper.rb
 - spec/tataki/converters/alphabet_spec.rb
 - spec/tataki/converters/combine_spec.rb
-- spec/tataki/converters/roman_spec.rb
 - spec/tataki/converters/skk_jisyo_spec.rb
 - spec/tataki_spec.rb
 - tataki.gemspec
@@ -184,7 +168,6 @@ test_files:
 - spec/spec_helper.rb
 - spec/tataki/converters/alphabet_spec.rb
 - spec/tataki/converters/combine_spec.rb
-- spec/tataki/converters/roman_spec.rb
 - spec/tataki/converters/skk_jisyo_spec.rb
 - spec/tataki_spec.rb
 has_rdoc:

data/data/roman.yml DELETED

@@ -1,142 +0,0 @@
-table:
-  "a": あ
-  "i": い
-  "u": う
-  "e": え
-  "o": お
-  "ka": か
-  "ki": き
-  "ku": く
-  "ke": け
-  "ko": こ
-  "ga": が
-  "gi": ぎ
-  "gu": ぐ
-  "ge": げ
-  "go": ご
-  "sa": さ
-  "si": し
-  "shi": し
-  "su": す
-  "se": せ
-  "so": そ
-  "za": ざ
-  "zi": じ
-  "ji": じ
-  "zu": ず
-  "ze": ぜ
-  "zo": ぞ
-  "ta": た
-  "ti": ち
-  "chi": ち
-  "tu": つ
-  "tsu": つ
-  "te": て
-  "to": と
-  "da": だ
-  "di": ぢ
-  "du": づ
-  "de": で
-  "do": ど
-  "na": な
-  "ni": に
-  "nu": ぬ
-  "ne": ね
-  "no": の
-  "ha": は
-  "hi": ひ
-  "hu": ふ
-  "fu": ふ
-  "he": へ
-  "ho": ほ
-  "ba": ば
-  "bi": び
-  "bu": ぶ
-  "be": べ
-  "bo": ぼ
-  "pa": ぱ
-  "pi": ぴ
-  "pu": ぷ
-  "pe": ぺ
-  "po": ぽ
-  "ma": ま
-  "mi": み
-  "mu": む
-  "me": め
-  "mo": も
-  "ya": や
-  "yu": ゆ
-  "yo": よ
-  "ra": ら
-  "ri": り
-  "ru": る
-  "re": れ
-  "ro": ろ
-  "wa": わ
-  "wo": を
-  "n": ん
-  "nn": ん
-  "xa": ぁ
-  "la": ぁ
-  "xi": ぃ
-  "li": ぃ
-  "xu": ぅ
-  "lu": ぅ
-  "xe": ぇ
-  "le": ぇ
-  "xo": ぉ
-  "lo": ぉ
-  "kya": きゃ
-  "kyu": きゅ
-  "kyo": きょ
-  "gya": ぎゃ
-  "gyu": ぎゅ
-  "gyo": ぎょ
-  "zya": じゃ
-  "sya": しゃ
-  "sha": しゃ
-  "syu": しゅ
-  "shu": しゅ
-  "syo": しょ
-  "sho": しょ
-  "ja": じゃ
-  "zyu": じゅ
-  "ju": じゅ
-  "zyo": じょ
-  "jo": じょ
-  "tya": ちゃ
-  "cha": ちゃ
-  "tyu": ちゅ
-  "chu": ちゅ
-  "tyo": ちょ
-  "cho": ちょ
-  "dya": ぢゃ
-  "dyu": ぢゅ
-  "dyo": ぢょ
-  "nya": にゃ
-  "nyu": にゅ
-  "nyo": にょ
-  "hya": ひゃ
-  "hyu": ひゅ
-  "hyo": ひょ
-  "bya": びゃ
-  "byu": びゅ
-  "byo": びょ
-  "pya": ぴゃ
-  "pyu": ぴゅ
-  "pyo": ぴょ
-  "mya": みゃ
-  "myu": みゅ
-  "myo": みょ
-  "xya": ゃ
-  "lya": ゃ
-  "xyu": ゅ
-  "lyu": ゅ
-  "xyo": ょ
-  "lyo": ょ
-  "rya": りゃ
-  "ryu": りゅ
-  "ryo": りょ
-  "xwa": ゎ
-  "lwa": ゎ
-consonant: [k, g, s, j, t, c, d, n, h, f, b, p, m, y, r, w, x, l]

data/lib/tataki/converters/roman.rb DELETED

@@ -1,67 +0,0 @@
-# coding: utf-8
-require "trie"
-require "yaml"
-module Tataki
-  module Converter
-    class Roman < Base
-      SOKUON = "っ"
-      def initialize
-        @trie = Trie.new
-        roman_file = File.expand_path("../../../../data/roman.yml", __FILE__)
-        roman_data = YAML.load_file(roman_file)
-        roman_data["table"].each do |roman, kana|
-          @trie.insert(roman, kana)
-        end
-        @consonant = roman_data["consonant"]
-        @trie.freeze
-      end
-      def to_kana(sentence)
-        _to_kana(sentence.downcase, "", "", @trie)
-      end
-      private
-      def _to_kana(sentence, kana, prefix, trie, through_alphabet = true)
-        return if trie.empty?
-        return kana if sentence.empty?
-        next_ch = sentence[0]
-        next_sentence = sentence[1..-1]
-        next_trie = trie.find_prefix(next_ch)
-        next_set = next_trie.find([])
-        if next_set.size > 0 && next_set.size == next_trie.size
-          return _to_kana(next_sentence, kana + next_set.values.first, "", @trie)
-        end
-        if next_sentence.empty?
-          if next_set.size > 0
-            return kana + prefix + next_set.values.first
-          else
-            return kana + prefix + next_ch
-          end
-        end
-        next_kana = _to_kana(next_sentence, kana, prefix + next_ch, next_trie, false)
-        if next_kana
-          return next_kana
-        end
-        if next_set.size > 0
-          return _to_kana(next_sentence, kana + next_set.values.first, "", @trie)
-        elsif @consonant.include?(next_ch) && next_sentence.start_with?(next_ch)
-          return _to_kana(next_sentence, kana + SOKUON, "", @trie)
-        elsif through_alphabet
-          return _to_kana(next_sentence, kana + prefix + next_ch, "", @trie)
-        else
-          return nil
-        end
-      end
-    end
-  end
-  Tataki::CONVERTERS << Converter::Roman
-end

data/spec/tataki/converters/roman_spec.rb DELETED

@@ -1,30 +0,0 @@
-# coding: utf-8
-require "spec_helper"
-describe Tataki::Converter::Roman do
-  let(:converter) { Tataki::Converter::Roman.new }
-  describe ".to_kana" do
-    shared_examples "converts_kana" do |sentence, kana|
-      it "converts #{sentence.inspect} to #{kana.inspect}" do
-        expect(converter.to_kana(sentence)).to eq(kana)
-      end
-    end
-    include_examples "converts_kana", "", ""
-    include_examples "converts_kana", "hoge", "ほげ"
-    include_examples "converts_kana", "hogelog", "ほげぉg"
-    include_examples "converts_kana", "hogge", "ほっげ"
-    include_examples "converts_kana", "hogs", "ほgs"
-    include_examples "converts_kana", "nanka", "なんか"
-    include_examples "converts_kana", "nannnan", "なんなん"
-    include_examples "converts_kana", "nannnann", "なんなん"
-    include_examples "converts_kana", "nannnannsei", "なんなんせい"
-    include_examples "converts_kana", "kukkingu", "くっきんぐ"
-    include_examples "converts_kana", "kukkingu papa", "くっきんぐ ぱぱ"
-    include_examples "converts_kana", "toukyoutokkyokyokakyoku", "とうきょうとっきょきょかきょく"
-    include_examples "converts_kana", "kku", "っく"
-    include_examples "converts_kana", ",,", ",,"
-  end
-end