RubyGems - cbeta - Versions diffs - 0.6.1 → 1.0.0 - Mend

cbeta 0.6.1 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 20467d7b166bf2c6daf7ec2a174472ba7cbd6a56
-  data.tar.gz: efcbf9c7d8c3cf5d71b371d0ef0745c6d3988466
+  metadata.gz: e7b3afd9fe14f3c71a3f519aa0a15dc5b2e198ab
+  data.tar.gz: 898fddd049d4f076edb446c6f2751a10e41e248e
 SHA512:
-  metadata.gz: 41b01556ca22270c458d806a0b45833d4eb64b0c38d64110a39232e09dc925d3c5081fd382f75da4857d3c05177250541a03c22d5236ea1c799ee73a33fcdec7
-  data.tar.gz: b4081c2d5e1f68a26072eba3409bd12372c28765487c8e12217a7e9c7389a1bf002e42af63c10a267e4dde7a87c4537654a5b146506d50263ec09b6a6842ddc0
+  metadata.gz: bd71006daf93b24dc46bd1afe004d1726cc6ef0b6de6159357ec01a3c255e732642f551037ffc8dc05be7e2997599bbb2ca015dcbc05bc497c029c903a0fca3c
+  data.tar.gz: f860ffec038a6924de638861a46e94c8bcb325a8114fb00aad19f898036c2722657229e4b25f83ac8b19143f65b100212041f4e51a95c3a208f632e163f7c276

data/lib/cbeta.rb CHANGED Viewed

@@ -52,11 +52,25 @@ class CBETA
   #
   # @example
   #   cbeta = CBETA.new
-  #   cbeta.get_canon_abbr('T') # return "【大】"
-	def get_canon_abbr(id)
+  #   cbeta.get_canon_symbol('T') # return "【大】"
+	def get_canon_symbol(id)
 		return nil unless @canon_abbr.key? id
 		@canon_abbr[id]
 	end
+  # 取得藏經略名
+  #
+  # @param id [String] 藏經 ID, 例如大正藏的 ID 是 "T"
+  # @return [String] 藏經短名，例如 "大"
+  #
+  # @example
+  #   cbeta = CBETA.new
+  #   cbeta.get_canon_abbr('T') # return "大"
+	def get_canon_abbr(id)
+    r = get_canon_symbol(id)
+    return nil if r.nil?
+    r.sub(/^【(.*?)】$/, '\1')
+	end
 end
 require 'cbeta/gaiji'

data/lib/cbeta/gaiji.rb CHANGED Viewed

@@ -37,10 +37,65 @@ class CBETA::Gaiji
   # @return [Array<String>]
   #
   # @example
-  #   g = Cbeta::Gaiji.new
+  #   g = CBETA::Gaiji.new
   #   g.zhuyin("CB00023") # return [ "ㄍㄢˇ", "ㄍㄢ", "ㄧㄤˊ", "ㄇㄧˇ", "ㄇㄧㄝ", "ㄒㄧㄤˊ" ]
   def zhuyin(cb)
   	return nil unless @gaijis.key? cb
     @gaijis[cb]['zhuyin']
   end
+  # 讀 XML P5 檔頭的缺字資料，更新現有缺字資料，輸出 JSON
+  def update_from_p5(p5_folder, output_json_filename)
+    update_from_p5_folder(p5_folder)
+    s = JSON.pretty_generate(@gaijis)
+    File.write(output_json_filename, s)
+  end
+  private
+  def char_to_hash(char)
+    r = {}
+    id = char['id']
+    char.xpath('charProp').each do |e|
+      prop = e.at('localName').text
+      case prop
+      when 'composition'
+        r['zzs'] = e.at('value').text
+      when 'normalized form'
+        r['normal'] = e.at('value').text
+      else
+        puts "未處理 charProp/localName: #{prop}"
+      end
+    end
+    char.xpath('mapping').each do |e|
+      case e['type']
+      when 'unicode'
+        u = e.text[2..-1]
+        r['unicode'] = u
+        r['unicode-char'] = [u.hex].pack('U')
+      end
+    end
+    r
+  end
+  def update_from_p5_file(fn)
+    f = File.open(fn)
+    doc = Nokogiri::XML(f)
+    f.close
+    doc.remove_namespaces!()
+    doc.xpath("//charDecl/char").each do |char|
+      @gaijis[char['id']] = char_to_hash(char)
+    end
+  end
+  def update_from_p5_folder(folder)
+    Dir.entries(folder).each do |f|
+      path = File.join(folder, f)
+      next if f.start_with? '.'
+      if Dir.exist? path
+        update_from_p5_folder path
+      else
+        update_from_p5_file path
+      end
+    end
+  end
 end

data/lib/cbeta/p5a_to_epub.rb CHANGED Viewed

@@ -323,14 +323,6 @@ eos
     abort "Line:#{__LINE__} 無缺字資料:#{gid}" if g.nil?
     zzs = g['zzs']
-    if mode == 'txt'
-      return g['roman'] if gid.start_with?('SD')
-      if zzs.nil?
-        abort "缺組字式：#{g}"
-      else
-        return zzs
-      end
-    end
     if gid.start_with?('SD')
       case gid
@@ -339,14 +331,43 @@ eos
       when 'SD-E35B'
         return '）'
       else
-        return g['roman']
+        return g['roman'] if g.key? 'roman'
+        if mode == 'txt'
+          puts "警告：純文字模式出現悉曇字：#{gid}"
+          return gid
+        else
+          # 如果沒有羅馬轉寫就顯示圖檔
+          src = File.join(@settings[:graphic_base], 'sd-gif', gid[3..4], gid+'.gif')
+          basename = File.basename(src)
+          dest = File.join(@temp_folder, 'img', basename)
+          FileUtils.copy(src, dest)
+          return "<img src='../img/#{basename}' />"
+        end
       end
     end
     if gid.start_with?('RJ')
-      return g['roman']
+      return g['roman'] if g.key? 'roman'
+      if mode == 'txt'
+        puts "警告：純文字模式出現蘭札體：#{gid}"
+        return gid
+      else
+        # 如果沒有羅馬轉寫就顯示圖檔
+        src = File.join(@settings[:graphic_base], 'rj-gif', gid[3..4], gid+'.gif')
+        basename = File.basename(src)
+        dest = File.join(@temp_folder, 'img', basename)
+        FileUtils.copy(src, dest)
+        return "<img src='../img/#{basename}' />"
+      end
     end
+    if mode == 'txt'
+      abort "缺組字式：#{g}" if zzs.nil?
+      return zzs
+    end
     default = ''
     if g.has_key?('unicode')
       if @unicode1.include?(g['unicode'])
@@ -359,7 +380,7 @@ eos
   def handle_graphic(e)
     url = e['url']
-    url.sub!(/^.*figures\/(.*)$/, '\1')
+    url.sub!(/^.*(figures\/.*)$/, '\1')
     src = File.join(@settings[:graphic_base], url)
     basename = File.basename(src)
@@ -516,6 +537,7 @@ eos
     return '' if e.comment?
     return handle_text(e, mode) if e.text?
     return '' if PASS.include?(e.name)
     r = case e.name
     when 'anchor'    then handle_anchor(e)
     when 'app'       then handle_app(e)

data/lib/cbeta/p5a_to_text.rb CHANGED Viewed

@@ -15,6 +15,10 @@ require 'set'
 #   c.convert('T01')
 #
 class CBETA::P5aToText
+  # 內容不輸出的元素
+  PASS=['back', 'teiHeader']
+  private_constant :PASS
   # @param xml_root [String] 來源 CBETA XML P5a 路徑
   # @param output_root [String] 輸出 Text 路徑
@@ -444,7 +448,7 @@ class CBETA::P5aToText
   def handle_vol(vol)
     puts "convert volumn: #{vol}"
-    @orig = @cbeta.get_canon_abbr(vol[0])
+    @orig = @cbeta.get_canon_symbol(vol[0])
     abort "未處理底本" if @orig.nil?
     @vol = vol
@@ -508,7 +512,11 @@ class CBETA::P5aToText
       text = frag.content
       text = appify(text) if @format == 'app'
-      fn = "#{ed}.txt"
+      if ed == @orig
+        fn = "#{ed}-orig.txt"
+      else
+        fn = "#{ed}.txt"
+      end
       output_path = File.join(folder, fn)
       File.write(output_path, text)
     end

data/lib/data/gaiji.json CHANGED Viewed

@@ -50,10 +50,7 @@
   "CB00178": {
     "zzs": "[木*奈]",
     "unicode": "3B88",
-    "unicode-char": "㮈",
-    "zhuyin": [
-      "ㄋㄞˋ"
-    ]
+    "unicode-char": "㮈"
   },
   "CB00238": {
     "zzs": "[打-丁+毛]",
@@ -107,10 +104,7 @@
     "zzs": "[馬*犬]",
     "normal": "馱",
     "unicode": "4B7E",
-    "unicode-char": "䭾",
-    "zhuyin": [
-      "ㄊㄨㄛˊ"
-    ]
+    "unicode-char": "䭾"
   },
   "CB00509": {
     "zzs": "[商/衣]",
@@ -2933,8 +2927,7 @@
   },
   "CB04775": {
     "zzs": "[柷-口+登]",
-    "normal": "凳",
-    "normal_unicode": "櫈"
+    "normal": "凳"
   },
   "CB00144": {
     "zzs": "[少/免]",
@@ -3403,10 +3396,7 @@
   "CB05105": {
     "zzs": "[契-大+石]",
     "unicode": "40AE",
-    "unicode-char": "䂮",
-    "zhuyin": [
-      "ㄌㄩㄝˋ"
-    ]
+    "unicode-char": "䂮"
   },
   "SD-CFC5": {
     "sd-char": "狣",
@@ -42271,10 +42261,7 @@
   "CB06535": {
     "zzs": "[自/本]",
     "unicode": "2690E",
-    "unicode-char": "𦤎",
-    "zhuyin": [
-      "ㄍㄠ"
-    ]
+    "unicode-char": "𦤎"
   },
   "CB06952": {
     "zzs": "[狂-王+羊]",
@@ -45192,11 +45179,7 @@
   "CB05711": {
     "zzs": "[颱-台+日]",
     "unicode": "4AFB",
-    "unicode-char": "䫻",
-    "zhuyin": [
-      "ㄒㄩㄝˊ",
-      "ㄩˋ"
-    ]
+    "unicode-char": "䫻"
   },
   "CB15400": {
     "zzs": "[身*國]",
@@ -49191,11 +49174,7 @@
     "zzs": "[仁-二+嶲]",
     "normal": "俊",
     "unicode": "349E",
-    "unicode-char": "㒞",
-    "zhuyin": [
-      "ㄐㄩㄣˋ",
-      "ㄎㄜˇ"
-    ]
+    "unicode-char": "㒞"
   },
   "CB13910": {
     "zzs": "[打-丁+閵]"
@@ -126184,5 +126163,72 @@
       "ㄅㄧㄣˇ",
       "ㄌㄧㄣˇ"
     ]
+  },
+  "CB32783": {
+    "zzs": "[(糸*子)/心]"
+  },
+  "CB32784": {
+    "zzs": "[受-又+(撤-育)]"
+  },
+  "CB32785": {
+    "zzs": "[烈-列+((白/匕)*旡)]"
+  },
+  "CB32781": {
+    "zzs": "[虫*雷]",
+    "unicode": "274BD",
+    "unicode-char": "𧒽"
+  },
+  "CB32792": {
+    "zzs": "[番*韭]",
+    "unicode": "2940F",
+    "unicode-char": "𩐏"
+  },
+  "CB32793": {
+    "zzs": "[米*(產-文+(立-一))]"
+  },
+  "CB32821": {
+    "zzs": "[入/耳]",
+    "normal": "聞",
+    "unicode": "26535",
+    "unicode-char": "𦔵"
+  },
+  "CB32825": {
+    "zzs": "[舟*定]",
+    "unicode": "26A58",
+    "unicode-char": "𦩘"
+  },
+  "CB32828": {
+    "zzs": "[打-丁+審]",
+    "unicode": "22E19",
+    "unicode-char": "𢸙"
+  },
+  "CB32832": {
+    "zzs": "[卄/(袖-由+任)]"
+  },
+  "CB32830": {
+    "zzs": "[烈-列+毛]",
+    "unicode": "241AC",
+    "unicode-char": "𤆬"
+  },
+  "CB32983": {
+    "zzs": "[雨/如]",
+    "unicode": "290B0",
+    "unicode-char": "𩂰"
+  },
+  "CB32984": {
+    "zzs": "[貝*昜]",
+    "normal": "賜",
+    "unicode": "27DBD",
+    "unicode-char": "𧶽"
+  },
+  "CB32985": {
+    "zzs": "[怡-台+志]",
+    "unicode": "2267A",
+    "unicode-char": "𢙺"
+  },
+  "CB32986": {
+    "zzs": "[棣-木+王]",
+    "unicode": "3ED6",
+    "unicode-char": "㻖"
   }
 }

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: cbeta
 version: !ruby/object:Gem::Version
-  version: 0.6.1
+  version: 1.0.0
 platform: ruby
 authors:
 - Ray Chou
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-09-11 00:00:00.000000000 Z
+date: 2015-09-24 00:00:00.000000000 Z
 dependencies: []
 description: Ruby gem for use Chinese Buddhist Text resources made by CBETA (http://www.cbeta.org).
 email: zhoubx@gmail.com