RubyGems - ebook_tools - Versions diffs - 0.0.1 - Mend

ebook_tools 0.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

data/lib/header_detect.rb ADDED

@@ -0,0 +1,161 @@
+# encoding: utf-8
+# HeaderDetect
+#  HeaderDetect模块提供对标题的检测
+#
+# 文档结构信息分析
+#   一本书在编排的时候会有自己的结构信息，这些结构信息通常通过卷、篇、部分、章(回)节等表述，也会使用序号的方式表述。总体上可以分为以下几种：
+#  1. 文本描述(text)： 按卷、部分(篇)、章（回）、节等文字表述
+#  2. 数字描述(digital)： 所有结构信息都是按照数字序号表示，比如 1 xxxxx; 1.1 xxxxx
+#  3. 混合描述(hybrid)：章按照文字表述，节按照序号表示，比如 1.1 xxxxxx
+#   根据不同的类型，对结构信息的提取采用不同的处理手段。
+#
+# 有效的标题信息应该符合以下规则:
+#  1. 标题应该不包含完整的句子（应该不包含句子分隔符，例如“。","!"等）
+#  2. 应该包含结构信息表述，具体如下：
+#    文本描述:
+#     卷:  以"第xxx卷"开始
+#          以"卷"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#          以"volume"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     部分（篇）: 以"第xxx部"或"第xxx篇"开始
+#               以"part"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     章(回）: 以"第xxx章"或"第xxx回"开始
+#              以"chapter"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     节:  以"第xxx节"开始
+#     前言: 以"前"开始，以"言"结束，中间加入空白字符。例如"前言"，"前  言"等。
+#           以"序"开始，以"言"结束，中间加入空白字符。例如"序言"，"序  言"等。
+#           单个"序"
+#           以"序"或"序言"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#          "preface"
+#          "foreword"
+#           以"preface"或"foreword"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     索引: 以"索"开始，以"引"结束，中间加入空白字符。例如"索引"，"索  引"等。
+#           以"索引"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#          "index"
+#           以"index"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     附录: 以"附"开始，以"录"结束，中间加入空白字符。例如"附录"，"附  录"等。
+#           以"附录"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#          "appendix"
+#           以"appendix"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#     术语: 以"术"开始，以"语"结束，中间加入空白字符。例如"术语"，"术  语"等。
+#           以"术语"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#          "glossary"
+#           以"glossary"开始，后面跟序号表述方式，例如 “I”，“Ⅱ”，“1”等
+#
+#    数字描述:
+#      以数字序号层级表达，数字序号和标题内容之间有空白字符分隔。例如"1 管理的概念", "1.1 定义", "1.1.1 管理"等。
+module HeaderDetect
+  extend self
+  HEAD_TYPES = [:volume,:part,:chapter,:section,:preface,:appendix,:index,:glossary]
+  # 判断包含完整的句子。
+  def hav_complete_sentence?(text)
+    text = text.gsub(/^\d+(\.\d)*\s/,'')
+    text =~ /[\.。!\?！？]/
+  end
+  def guess_volume?(text,options={})
+    return false if hav_complete_sentence?(text)
+    return true if (text =~ /^第.{1,3}卷/ || text =~ /^卷\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/)
+    text = text.downcase
+    return true if text =~ /^volume\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_part?(text,options={})
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^第.{1,3}[部篇]/
+    text = text.downcase
+    return true if text =~ /^part\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_chapter?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^第.{1,4}[章回]/
+    text = text.downcase
+    return true if text =~ /^chapter\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_section?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^第.{1,3}[节]/
+  end
+  def guess_preface?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^前\s*言$/
+    return true if text =~ /^序\s*言$/
+    return true if text =~ /^序$/
+    return true if text =~ /^序[言]\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+    text = text.downcase
+    return true if text =~ /^preface$/
+    return true if text =~ /^preface\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+    return true if text =~ /^foreword$/
+    return true if text =~ /^foreword\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_index?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^索\s*引$/
+    return true if text =~ /^索\s*引\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+    text = text.downcase
+    return true if text =~ /^index$/
+    return true if text =~ /^index\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_appendix?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^附\s*录$/
+    return true if text =~ /^附\s*录\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIiA-Za-z]/
+    text = text.downcase
+    return true if text =~ /^appendix$/
+    return true if text =~ /^appendix\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIiA-Za-z]/
+  end
+  def guess_glossary?(text)
+    return false if hav_complete_sentence?(text)
+    return true if text =~ /^术\s*语$/
+    return true if text =~ /^术\s*语\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+    text = text.downcase
+    return true if text =~ /^glossary$/
+    return true if text =~ /^glossary\s*[\dⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹIi]/
+  end
+  def guess_digital_section?(text)
+    return false if hav_complete_sentence?(text)
+    matcher = text.match(/^(\d+\.)+[\d]\s*(.*)/)
+    if matcher
+      return false if matcher[2].length == 0
+      level = matcher[0].split(".").count - 1
+      "sect#{level}".to_sym
+    end
+  end
+  def guess_digital_header?(text)
+    return false if hav_complete_sentence?(text)
+    matcher = text.match(/(^\d+(\.\d)*\s)(.*)/)
+    if matcher
+      return false if matcher[3].length == 0
+      levels = matcher[1].split(".")
+      return false if levels[0].to_i > 99
+      case levels.count
+      when 1
+        "chapter".to_sym
+      else
+        "sect#{levels.count - 1}".to_sym
+      end
+    end
+  end
+  def guess_header?(text)
+    return :volume if guess_volume?(text)
+    return :part if guess_part?(text)
+    return :chapter if guess_chapter?(text)
+    return :section if guess_section?(text)
+    return :preface if guess_preface?(text)
+    return :appendix if guess_appendix?(text)
+    return :index if guess_index?(text)
+    return :glossary if guess_glossary?(text)
+    return :section if guess_digital_section?(text)
+  end
+end

data/lib/pdf.rb ADDED

@@ -0,0 +1,265 @@
+# encoding: UTF-8
+require 'poppler'
+require 'pdf-reader'
+module PDF
+  extend self
+  include Utils
+  # scan_pdf?
+  #  检查指定的文件是否为扫描版pdf
+  # parameters:
+  #   +filename+   pdf文件
+  def scan_pdf?(filename)
+    if File.extname(filename).downcase == '.pdf'
+      threshold = 1000
+      pdf = Poppler::Document.new(filename)
+      content = pdf.map{|page| page.get_text}.join('')
+      content.strip.length < threshold ? true : false
+    end
+  end
+  # extract_pdf_pages_text
+  #   提取pdf中页文本内容
+  # parameters:
+  #  +filename+   pdf文件
+  def extract_pdf_pages_text(filename)
+    pdf = PDF::Reader.new(filename)
+    pages = []
+    pdf.pages.each do |page|
+      pages << page.text
+    end
+    pages
+  end
+  # sanitize_page_header_and_footer
+  #  清洗页眉页脚
+  # parameters:
+  #  +pdf_pages_text+  pdf文件页文本内容集合
+  #  +options+    可选参数
+  #   :header_rows_count 指定页眉行数
+  #   :footer_rows_count 指定页脚行数
+  def sanitize_page_header_and_footer(pdf_pages_text,options={})
+    header_rows_count = options[:header_rows_count] || guess_header_row_count(pdf_pages_text)
+    footer_rows_count = options[:footer_rows_count] || guess_footer_row_count(pdf_pages_text)
+    pages_text = []
+    pdf_pages_text.each do |page_text|
+      page_lines = page_text.split("\n")
+      page_lines = page_lines[(header_rows_count)..(-footer_rows_count-1)] || []
+      pages_text << page_lines.join("\n")
+    end
+    pages_text
+  end
+  # extract_pdf_meta
+  #  提取pdf元数据
+  # parameters:
+  #  +filename+   pdf文件
+  def extract_pdf_meta(filename)
+    pdf = Poppler::Document.new(filename)
+    meta ={}
+    meta[:author] = pdf.author
+    meta[:title] = pdf.title
+    meta
+  end
+  # extract_sections
+  #  提取pdf文件的大纲
+  # parameters:
+  #  +filename+   pdf文件
+  def extract_sections(filename)
+    sections = []
+    pdf = Poppler::Document.new(filename)
+    indexer = Poppler::IndexIter.new(pdf)
+    walk_index(indexer,sections)
+    sections
+  rescue
+    sections
+  end
+  # extract_illustrations
+  #  提取pdf文件中的插图
+  # parameters:
+  #  +filename+   pdf文件
+  #  +options+    可选参数
+  #     +dir+       插图存放的目录，默认存放在当前目录下与filename同名的子目录下。
+  def extract_illustrations(filename,options={})
+    tmp_dir = options[:dir] || File.basename(filename,'.pdf')
+    old_dir = Dir.getwd
+    Dir.mkdir(tmp_dir) unless Dir.exists?(tmp_dir)
+    system("pdfimages -p '#{filename}' '#{tmp_dir}/'")
+    system("mogrify -format png '#{tmp_dir}/*.ppm'")
+    Dir.chdir(tmp_dir)
+    images = Dir.glob('*.png')
+    images_path = []
+    images.each do |image|
+      images_path << image
+    end
+    Dir.chdir(old_dir)
+    images_path
+  end
+  def fixed_break_with_pages_text(pages_text)
+    line_length = pages_text.map{|text| Utils.guess_content_line_length(text)}.compact.sort.last * 0.5
+    pages_text = pages_text.map{|page_text| Utils.fixed_page_break(page_text,:length=>line_length) }
+    pages_text = fixed_break_of_cross_page(pages_text,line_length)
+  end
+  def gen_html_from_sections_and_page_texts(sections,page_texts,illustrations)
+    if sections.empty?
+      gen_html_from_page_texts(page_texts,illustrations)
+    else
+      gen_html_from_page_texts(page_texts,illustrations) #sections中的页码不准确，暂时不进行处理
+    end
+  end
+  def extract_page_illustrations(illustrations,index)
+    page_illustrations = []
+    illustrations.each do |image_path|
+      if image_path.split("-")[1].to_i == index
+        page_illustrations << image_path
+      end
+    end
+    page_illustrations
+  end
+  def gen_html_from_page_texts(page_texts,illustrations,options={})
+    page_htmls = []
+    page_texts.each_with_index do |page_text,index|
+      page_illustrations = extract_page_illustrations(illustrations,index)
+      page_htmls << gen_html_from_page_text(page_text,page_illustrations,options.merge(:index=>index))
+    end
+    page_htmls.join("")
+  end
+  def gen_html_from_page_text(page_text,illustrations,options={})
+    html = ''
+    page_text.split("\n").each_with_index do |line,index|
+      if line.present?
+        if HeaderDetect.guess_header?(line)
+          html += "<h2 id='#{options[:index]}_#{index}'>#{Utils.escape_html(Utils.clean_text(line))}</h2>"
+        else
+          html += "<p class='division'>#{Utils.escape_html(Utils.clean_text(line))}</p>"
+        end
+      end
+    end
+    images = illustrations.map{|image_path| "<p class='division'><img src='#{image_path}' /></p>"}.compact.join("")
+    "<div class='page' name='#{options[:index]}' >#{html}#{images}</div>"
+  end
+  def walk_index(indexer,sections)
+    indexer.each_with_index do |i,index|
+      sections[index] = {:title=>Utils.clean_text(i.action.title),:page_num=>i.action.dest.page_num}
+      child = i.child
+      if child.nil? == false
+        sub_sections = []
+        work_index(child,sub_sections)
+        sections[index][:sub_sections] = sub_sections
+      end
+    end
+  end
+  def work_index(child,sections)
+    child.each_with_index do |h,index|
+      sections[index] = {:title=> Utils.clean_text(h.action.title),:page_num=>h.action.dest.page_num}
+      sub = h.child
+      if sub.nil? == false
+        sub_sections = []
+        work_index(sub,sub_sections)
+        sections[index][:sub_sections] = sub_sections
+      end
+    end
+  end
+  def fixed_break_of_cross_page(pages,length=80)
+    i=0
+    while i < (pages.count-1)
+      first_page_lines = pages[i].split("\n")
+      second_page_lines = pages[i+1].split("\n")
+      if first_page_lines.any? && second_page_lines.any?
+        first_page_last = first_page_lines.last
+        second_page_first = second_page_lines.first
+        unless Utils.end_mark?(first_page_last)
+          first_page_lines[(first_page_lines.count-1)] = Utils.merge_para_part(first_page_last,second_page_first)
+          second_page_lines.shift
+          pages[i] = first_page_lines.join("\n")
+          pages[i+1] = second_page_lines.join("\n")
+        end
+      end
+      i = i + 1
+    end
+    pages
+  end
+  # 猜测页眉/页脚的行数
+  # 页眉页脚有一定的规律：
+  #   1. 页眉和页脚一般都在每页的固定位置出现或者对称出现(相邻两页左右位置堆成)
+  #   2. 呈现的内容一般是书名、章节名、页码等。
+  #   3. 呈现的顺序一般有两种形式：逐页式，即每一页的页眉页脚大致相似；隔页式
+  def guess_header_row_count(pages_text)
+    i = 0
+    while true
+      if guess_header_line?(pages_text.map{|page_text| page_text.split("\n")[i]})
+        i = i + 1
+      else
+        break
+      end
+    end
+    i > 2 ? 0 : i
+  end
+  def guess_footer_row_count(pages_text)
+    i = 0
+    while true
+      lines = pages_text.map{|page_text| page_text.split("\n")[(-i -1)]}
+      if guess_footer_line?(lines)
+        i = i + 1
+      else
+        break
+      end
+    end
+    i > 2 ? 0 : i
+  end
+  # 猜测是否是页眉/页脚行
+  # 猜测规则：
+  #  1. 相邻页的行匹配相似度，一定相似比例(默认70%)以上加入相似集合。如果相似集合占总集合数的比例高于一定值（默认50%）时，猜测为页眉页脚行
+  #  2. 隔页的行匹配相似度，一定相似比例(默认70%)以上加入相似集合。如果相似集合占总集合数的比例高于一定值（默认50%）时，猜测为页眉页脚行
+  #  3. 页码猜测，页的行是数值则加入相似集合。如果相似集合占总集合数的比例高于一定值（默认50%）时，猜测为页眉页脚行
+  def guess_header_line?(lines)
+    return false if lines.empty?
+    lines = lines.map{|line| line.strip if line.present?}
+    similarity_set = []
+    lines.each_with_index do |line,index|
+      if Utils.text_similarity(line,lines[index+1]) > 0.7
+        similarity_set << [index,index+1]
+      end
+    end
+    similarity_set.flatten!
+    similarity_set.uniq!
+    return true if similarity_set.count.to_f / lines.count.to_f > 0.5
+    similarity_set = []
+    lines.each_with_index do |line,index|
+      if Utils.text_similarity(line,lines[index+2]) > 0.7
+        similarity_set << [index,index+2]
+      end
+    end
+    similarity_set.flatten!
+    similarity_set.uniq!
+    return true if similarity_set.count.to_f / lines.count.to_f > 0.5
+    similarity_set=[]
+    lines.each_with_index do |line,index|
+      similarity_set << index if line.to_i > 0
+    end
+    return true if similarity_set.count.to_f / lines.count.to_f > 0.5
+    false
+  end
+  alias guess_footer_line? guess_header_line?
+end

data/lib/txt.rb ADDED

@@ -0,0 +1,108 @@
+# encoding: UTF-8
+require 'nokogiri'
+module TXT
+  extend self
+  def extract_book_part(filename)
+    content = File.open(filename).read
+    return nil,nil if content.nil?
+    content = clean_forward_blank(content)
+    title,content = extract_title_and_content(content,:title=>File.basename(filename,'.txt'))
+    outlines,content = extract_outlines_and_content(content)
+    [title,outlines,content]
+  end
+  def clean_forward_blank(content)
+    begin
+      content = content.gsub("\r","")
+    rescue
+      content = Utils.to_utf8(content)
+      if content.nil?
+        return ''
+      else
+        content = content.gsub("\r","")
+      end
+    end
+    lines = content.split(/\n/)
+    while line = lines.shift
+      break if line.present?
+    end
+    if line.present?
+      lines.unshift(line)
+      lines.join("\n")
+    else
+      ""
+    end
+  end
+  def extract_title_and_content(content,options={})
+    title = options[:title] || ''
+    lines = content.split("\n")
+    item = lines.shift
+    if Utils.text_similarity(item,title) > 0.8
+      title = item
+    else
+      lines.unshift(item)
+    end
+    [title, lines.join("\n")]
+  end
+  def extract_outlines_and_content(content)
+    lines = content.split(/\n/)
+    outlines = []
+    while line = lines.shift
+      if HeaderDetect.guess_header?(line)
+        outlines << line
+      else
+        break
+      end
+    end
+    lines.unshift(line) if line.present?
+    if outlines.count > 1
+      [outlines.join("\n"),lines.join("\n")]
+    else
+      content = (outlines + lines).join("\n")
+      [nil,content]
+    end
+  end
+  def gen_html_from_txt_book(title,outlines,content,options={})
+    html = "<h1>#{title}</h1>"
+    html = html + gen_html_from_txt_outlines(outlines,options)
+    html = html + gen_html_from_txt_content(content,options)
+  end
+  def gen_html_from_txt_outlines(outlines,options={})
+    if outlines.present?
+      html = outlines.split("\n").map{|item|
+        "<li>#{item}</li>"
+      }
+      "<ol class='outlines'>#{html}</ol>"
+    else
+      ''
+    end
+  end
+  def gen_html_from_txt_content(content,options={})
+    row_index = 0
+    html = content.split("\n").map do |line|
+      row_index += 1
+      if line.present?
+        if HeaderDetect.guess_header?(line)
+          "<h2 id='#{row_index}'>#{Utils.escape_html(Utils.clean_text(line))}</h2>"
+        else
+          "<p class='division'>#{Utils.escape_html(Utils.clean_text(line))}</p>"
+        end
+      end
+    end.compact.join("")
+  end
+end