RubyGems - ebook_tools - Versions diffs - 0.1.0 → 0.1.1 - Mend

ebook_tools 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

data/CHANGELOG CHANGED Viewed

@@ -1,3 +1,10 @@
+0.1.1 2013.5.26
+  fix bug: 提取目录结构时文本内容开始部分存在全角空格而无法正确提取目录结构
+  fix bug: 无法提取文本目录中包含“？”等标点符号的目录
+  fix bug: 识别以“正文”开始的标题
+  fix bug: 调整段落自动修复
+  fix bug: 修正以讲、则为目录结构
 0.1.0 2013.4.10
   refactor struct extract

data/ebook_tools.gemspec CHANGED Viewed

@@ -2,7 +2,7 @@
 Gem::Specification.new do |s|
   s.name = %q{ebook_tools}
-  s.version = '0.1.0'
+  s.version = '0.1.1'
   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
   s.authors = ["Aaron"]

data/lib/header_detect.rb CHANGED Viewed

@@ -10,7 +10,7 @@
 #   根据不同的类型，对结构信息的提取采用不同的处理手段。
 #
 # 有效的标题信息应该符合以下规则:
-#  1. 标题应该不包含完整的句子（应该不包含句子分隔符，例如“。","!"等）
+#  1. 标题应该不包含完整的句子（应该不包含句子分隔符，例如“。"）
 #  2. 应该包含结构信息表述，具体如下：
 #    文本描述:
 #     卷:  以"第xxx卷"开始
@@ -54,34 +54,39 @@ module HeaderDetect
     text =~ /[\.。!\?！？]/
   end
+  def valid_title?(text)
+    text = text.gsub(/^\d+(\.\d)*\s/,'')
+    text =~ /[\.。]/
+  end
   def guess_volume?(text,options={})
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if (text =~ /^第.{1,3}卷/ || text =~ /^卷\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/)
     text = text.downcase
     return true if text =~ /^volume\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
   end
   def guess_part?(text,options={})
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^第.{1,3}[部篇]/
     text = text.downcase
     return true if text =~ /^part\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
   end
   def guess_chapter?(text)
-    return false if hav_complete_sentence?(text)
-    return true if text =~ /^第.{1,4}[章回]/
+    return false if valid_title?(text)
+    return true if text =~ /^第.{1,4}[章回则讲]/
     text = text.downcase
     return true if text =~ /^chapter\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
   end
   def guess_section?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^第.{1,3}[节]/
   end
   def guess_preface?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^前\s*言$/
     return true if text =~ /^序\s*言$/
     return true if text =~ /^序$/
@@ -94,7 +99,7 @@ module HeaderDetect
   end
   def guess_index?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^索\s*引$/
     return true if text =~ /^索\s*引\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
     text = text.downcase
@@ -103,7 +108,7 @@ module HeaderDetect
   end
   def guess_appendix?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^附\s*录$/
     return true if text =~ /^附\s*录\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIiA-Za-z]/
     text = text.downcase
@@ -112,7 +117,7 @@ module HeaderDetect
   end
   def guess_glossary?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     return true if text =~ /^术\s*语$/
     return true if text =~ /^术\s*语\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
     text = text.downcase
@@ -121,7 +126,7 @@ module HeaderDetect
   end
   def guess_digital_section?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     matcher = text.match(/^(\d+\.)+[\d]\s*(.*)/)
     if matcher
       return false if matcher[2].length == 0
@@ -131,7 +136,7 @@ module HeaderDetect
   end
   def guess_digital_header?(text)
-    return false if hav_complete_sentence?(text)
+    return false if valid_title?(text)
     matcher = text.match(/(^\d+(\.\d)*\s)(.*)/)
     if matcher
       return false if matcher[3].length == 0
@@ -150,12 +155,14 @@ module HeaderDetect
     return :volume if guess_volume?(text)
     return :part if guess_part?(text)
     return :chapter if guess_chapter?(text)
-    return :section if guess_section?(text)
+    return :sect1 if guess_section?(text)
     return :preface if guess_preface?(text)
     return :appendix if guess_appendix?(text)
     return :index if guess_index?(text)
     return :glossary if guess_glossary?(text)
-    return :section if guess_digital_section?(text)
+    if type = guess_digital_section?(text)
+      return type
+    end
   end
 end

data/lib/txt_book.rb CHANGED Viewed

@@ -12,6 +12,36 @@ require 'cgi'
 #   5. 文档需要包含结构信息（例如： 卷、篇、部分、章（回）节或者有连续的序号）
 #   6. 每个结构信息都应该独立成行。
 #
+#
+#== 文本书籍现状
+#  目前来说，文本书籍的目录结构情况并非如想像的完整，主要存在以下几方面问题：
+#   1. 目录结构问题
+#      文本文件中包含的目录情况主要有以下几种：
+#         * 不包含目录结构。 典型的如诗歌、散文类电子书
+#         * 包含目录结构，同时列出目录。 典型的如在文件开头部分列出了电子书的目录
+#         * 目录结构信息是以节、讲、则组成的。
+#         * 目录信息被特殊的信息包裹。例如: "第一节: 第一章xxxxxxx",">>>>"等
+#         * 目录信息本身就有误。有些书本身就是不完整的书，目录信息不完整。
+#         * 信息层级结构错位，没有按照卷（篇）、章（回）、节的顺序来组织，或因为部分信息被不正确的关联到其他内容后面，导致无法识别。
+#
+#   2. 内容问题
+#       内容问题主要来自两个问题：
+#         * 页眉、页脚问题。很多从PDF转换过来的书都包含了页眉页脚
+#         * 断句问题。 很多PDF转换过来的电子书都有断句问题。
+#
+#== 解决办法
+#=== 问题1: 不包含目录结构
+#     这类书籍没有办法进行处理
+#
+#=== 问题2: 包含目录结构，同时列出目录
+#     这类书籍先要检测列出的目录并将该内容从文件内容中剥离，防止重复提取。
+#     有些列出的目录并不是完全符合目录结构信息，在这里只能进行猜测。猜测规则：
+#       1. 假设列出的目录总行数不会超过50行
+#       2. 只要在50行内连续出现60%以上章节的信息即作为目录块
+#
+#=== 问题3: 目录结构信息是以节等组成
+#     将节、讲、则作为标题的构成部分
+#
 class TxtBook
   include HeaderDetect
   attr_reader :title,:author,:publisher,:pubdate,:isbn,:content
@@ -34,7 +64,8 @@ class TxtBook
     unless Utils.detect_utf8(content)
       content = Utils.to_utf8(content)
     end
-    @content = content
+    @content = preprocess_content(content)
   end
   def struct_content
@@ -72,6 +103,11 @@ class TxtBook
   end
   private
+  def preprocess_content(content)
+    paras = extract_paras(content)
+    paras.join("\n")
+  end
   def extract_book_struct(content,options={})
     paras = extract_paras(content)
     # 检查书类型（text,digital,hybrid)
@@ -301,7 +337,7 @@ EOS
     toc.each do |item|
       children = ""
       if item[:children].any?
-        children = gen_toc(item[:children],block)
+        children = gen_toc(item[:children],&block)
       end
       doc_toc << block.call(item,children)
     end
@@ -369,8 +405,42 @@ EOS
     return paras if content.blank?
     content.each_line do |line|
       text = Utils.clean_text(line)
+      text = clean_title(text)
       paras << text if text.length > 0
     end
     paras
   end
+  def clean_title(text)
+    if text =~ /^正文.*/
+      temp_text = text.sub(/^正文/,'')
+      temp_text = Utils.clean_text(temp_text)
+      if guess_header?(temp_text)
+        text = temp_text
+      end
+    end
+    text
+  end
+  # 清除文本内容中的目录信息
+  def clean_toc(paras)
+    start_point = nil
+    cur_point = nil
+    paras.each_with_index do |para, index|
+      if guess_header?(para)
+        if start_point.nil?
+          start_point = index
+        end
+        cur_point = index
+      else
+        if start_point && cur_point && (cur_point - start_point) > 0
+        end
+      end
+    end
+    if start_point && (cur_point - start_point) > 0
+      paras = paras[0...start_point] + paras[index..-1]
+    end
+    paras
+  end
 end

data/lib/utils.rb CHANGED Viewed

@@ -17,13 +17,16 @@ end
 module Utils
   extend self
   # fixed_page_break
   #  修复文本中的异常中断
   # parameters:
   #   +page_text+   文本内容
   def fixed_page_break(page_text,options={})
     length = options[:length] || guess_content_line_length(page_text)
+    return page_text if (length > 80 || length <=0)  #每行超过80个文字的默认为不需要修复
     page_lines = text_to_array(page_text)
     lines = []
@@ -49,6 +52,8 @@ module Utils
     break_lines = []
     lines = text_to_array(text)
     length = options[:length] || guess_content_line_length(text)
+    return break_lines if length <= 0
     lines.each do |line|
       if line.length > 0
         unless line_closed?(line,length)
@@ -84,19 +89,16 @@ module Utils
   # line_closed?
   #   判断是否为一行的结束。如何算一行结束？
   #    * 以句子结束符结尾的
+  #    * 猜测是一种标题
   #    * 非结束符结束，但长度小于猜测的行长度的
   # parameters:
   #   +text+  一行的文本内容
   def line_closed?(text,length=60)
     return true if end_mark?(text)
     short_text = text.gsub(/[\.\-—． ]/,'')
-    if short_text =~ /\p{Han}/
-      return true if short_text.length > 80
-      return true if short_text.length < length * 2
-    else
-      return true if short_text.length > 80
-      return true if short_text.length < length
-    end
+    return true if short_text.length > 80
+    return true if HeaderDetect.guess_header?(short_text)
+    return true if short_text.length < length
     false
   end
@@ -113,6 +115,12 @@ module Utils
     end
   end
+  # 猜测内容长度，用于修复PDF导出时出现断句的问题
+  #  PDF导出文本中的断句特点:
+  #    * 文本长度小于80
+  #    * 相同长度的句子一定高于某个比例
+  # 返回值:
+  #   如果识别长度则返回识别的长度，否则返回0
   def guess_content_line_length(content)
     line_length = 0
     return line_length if content.blank?
@@ -120,11 +128,16 @@ module Utils
     content.each_line{|line|
       lengths << line.length
     }
-    lengths.sort!
-    while true
-      line_length = lengths.pop
-      break if line_length < 80
+    grouped = lengths.group_by{|i| i}
+    sorted = grouped.map{|k,v| [k,v.count]}.sort_by{|i| i[1]}.reverse
+    sorted.each do |length, count|
+      if ((count.to_f / lengths.count.to_f) > 0.1) && length < 80
+        line_length = (length * 0.8).to_i
+        break
+      end
     end
     return line_length
   end
@@ -133,7 +146,9 @@ module Utils
   def clean_text(text)
     return text if text.nil?
     text = text.strip
-    text.gsub("\n",'')
+    text = text.gsub("\n",'')
+    #去除全角空格
+    text.gsub(/^　*/,'')
   end
   # escape_html

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: ebook_tools
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.1.1
   prerelease:
 platform: ruby
 authors: