RubyGems - pdfbeads - Versions diffs - 1.0.9 → 1.1.1 - Mend

pdfbeads 1.0.9 → 1.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +7 -0
data/ChangeLog +23 -0
data/bin/pdfbeads +28 -3
data/doc/pdfbeads.en.html +552 -0
data/doc/pdfbeads.ru.html +74 -34
data/lib/pdfbeads.rb +17 -6
data/lib/pdfbeads/pdfbuilder.rb +254 -74
data/lib/pdfbeads/pdfpage.rb +8 -8
data/lib/pdfbeads/pdftoc.rb +7 -3
metadata +80 -48

data/doc/pdfbeads.ru.html CHANGED

@@ -8,7 +8,7 @@
 <meta name="Generator" content="Written directly in html">
-<meta name="Description" content="Руководство пользователя PDFBEADS версии 1.0">
+<meta name="Description" content="Руководство пользователя pdfbeads версии 1.1">
 <style type="text/css">
   body {
@@ -30,22 +30,22 @@
   h1 {
     font-size: 36px;
     font-family: Times New Roman, Times, serif;
-    text-align: center;
-    font-style: normal;
+    text-align: center;
+    font-style: normal;
     font-weight: bold
   }
   h2 {
     font-size: 20px;
     font-family: Arial, Helvetica, sans-serif;
-    text-align: center;
-    font-style: normal;
+    text-align: center;
+    font-style: normal;
     font-weight: bold;
   }
   h3 {
     font-size: 16px;
     font-family: Arial, Helvetica, sans-serif;
-    text-align: left;
-    font-style: italic;
+    text-align: left;
+    font-style: italic;
     font-weight: bold;
   }
   dt {
@@ -57,9 +57,9 @@
 <body>
-<h1>Руководство пользователя PDFBEADS версии 1.0</h1>
+<h1>Руководство пользователя pdfbeads версии 1.1</h1>
-<p>(c) Алексей Крюков, 2010</p>
+<p>(c) Алексей Крюков, 2013</p>
 <p>Утилита pdfbeads предназначена для создания электронных книг в формате
 PDF из предварительно обработанных отсканированных страниц. В отличие от
@@ -90,7 +90,8 @@ JPEG2000;</p></li>
 <li><p>создание PDF-файлов с оглавлением и метаданными;</p></li>
 <li><p>добавление скрытого текстового слоя из документов в формате hOCR
-с корректной обработкой символов кириллицы.</p></li>
+с корректной обработкой символов кириллицы либо перенос текста из другого
+PDF-файла.</p></li>
 </ul>
@@ -103,23 +104,19 @@ JPEG2000;</p></li>
 <h2>Требования</h2>
 <p>Для запуска программы требуется прежде всего интерпретатор языка Ruby
-версии 1.8 или 1.9, доступный в дистрибутивах большинства Unix-подобных
+версии 1.8 или выше, доступный в дистрибутивах большинства Unix-подобных
 систем. Версия для Windows может быть загружена с сайта <a
 href="http://www.rubyinstaller.org/">RubyInstaller</a>. Для корректной
 установки pdfbeads необходимо также загрузить пакетный менеджер RubyGems,
 представляющий собой стандартный интерфейс языка Ruby для работы с
 расширениями. Кроме того, в дополнение к основному дистрибутиву Ruby
-понадобятся расширения RMagick и hpricot (последнее&nbsp;&mdash; для
-обработки распознанного текста в формате hOCR).</p>
+понадобятся расширения RMagick, Nokogiri (для обработки распознанного
+текста в формате hOCR) и PDF::Reader (для считывания распознанного
+текста из другого PDF-файла).</p>
 <p>Если вы хотите создавать PDF-файлы с использованием формата сжатия
 данных JBIG2, то в системе также должна быть установлена утилита jbig2
-из пакета <a href="http://github.com/agl/jbig2enc">jbig2enc</a>. Внимание:
-по состоянию на октябрь 2010&nbsp;г., когда пишется этот файл,
-настоятельно рекомендуется использовать версию jbig2, самостоятельно
-собранную из исходников, доступных в репозитории git, поскольку более
-ранние версии не обеспечивают корректного сохранения информации о разрешении
-изображений.</p>
+из пакета <a href="http://github.com/agl/jbig2enc">jbig2enc</a>.</p>
 <h2>Установка</h2>
@@ -132,10 +129,10 @@ gem install pdfbeads
 </pre>
 <p>Перед запуском программы необходимо удостовериться, что расширение
-RMagick установлено и доступно интерпретатору Ruby. К сожалению, эту
-зависимость нельзя отследить автоматически, поскольку в некоторых
+RMagick установлено и доступно интерпретатору Ruby. <strong>К сожалению, эту
+зависимость нельзя отследить автоматически</strong>, поскольку в некоторых
 дистрибутивах Linux (в частности, Ubuntu) пакет RMagick устанавливается в
-обход механизма RubyGems, так что утилите gem о нем ничего не известно.</p>
+обход механизма RubyGems, так что утилите <tt>gem</tt> о нем ничего не известно.</p>
 <p>Пользователям Ubuntu также следует иметь в виду, что в этом дистрибутиве
 исполняемые файлы из пакетов gem по умолчанию распаковываются в каталоги
@@ -195,7 +192,7 @@ HTM(L) или HOCR, содержащих распознанный текст в
 pdfbeads, иногда занимает довольно много времени, эти файлы в дальнейшем
 не удаляются с диска и могут быть повторно использованы при последующих
 прогонах в целях экономии времени. Для того, чтобы заставить pdfbeads
-заменить такие файлы заново созданными версиями, можно запустить его с опцией
+заменить такие файлы заново созданными версиями, можно запустить его с ключом
 <tt>-f</tt> или <tt>--force-update</tt>.</p>
 <p>pdfbeads предназначен для сборки PDF из предварительно обработанных
@@ -239,7 +236,7 @@ pdfbeads [options] [files to process] [&gt; output_file.pdf]
 специальное назначение.</p>
 <p>Вместо записи PDF-файла на стандартное устройство вывода можно использовать
-опцию <tt>-o</tt> или <tt>--output</tt>, сопроводив ее указанием имени файла.</p>
+ключ <tt>-o</tt> или <tt>--output</tt>, сопроводив ее указанием имени файла.</p>
 <h2>Обработка бинаризованных изображений</h2>
@@ -276,12 +273,12 @@ ImageMagick, что существенно увеличивает скорост
 <p>По умолчанию передний план страницы упаковывается с помощью технологии
 сжатия JBIG2, для чего pdfbeads использует утилиту <a
 href="http://github.com/agl/jbig2enc">jbig2enc</a> (автор&nbsp;&mdash; Адам
-Лэнгли). При этом можно задать опцию <tt>-p</tt> (<tt>--pages-per-dict</tt>),
+Лэнгли). При этом можно задать ключ <tt>-p</tt> (<tt>--pages-per-dict</tt>),
 чтобы указать желательное количество страниц, использующих общий словарь
 разделенных символов (по умолчанию&nbsp;&mdash; 15).</p>
-<p>Если утилита jbig2enc недоступна, либо при запуске pdfbeads была указана
-опция <tt>-m</tt> (<tt>--mask-compression</tt>) с аргументом `G4' (синонимы&nbsp;&mdash;
+<p>Если утилита jbig2enc недоступна, либо при запуске pdfbeads был указан
+ключ <tt>-m</tt> (<tt>--mask-compression</tt>) с аргументом `G4' (синонимы&nbsp;&mdash;
 `Group4', `CCITTFax'), то вместо JBIG2-сжатия будет использоваться формат
 CCITT Group 4 fax.</p>
@@ -303,7 +300,7 @@ CCITT Group 4 fax.</p>
 `JP2' или `JPX'), `JPEG' (с синонимом `JPG'), а также `LOSSLESS'
 (синонимы&nbsp;&mdash; `DEFLATE', `PNG'). Если используемая сборка библиотеки
 ImageMagick поддерживает формат JPEG2000, по умолчанию используется именно
-он; в противном случае&nbsp;&mdash; JPEG. Если выбрана опция LOSSLESS,
+он; в противном случае&nbsp;&mdash; JPEG. Если выбрано значение LOSSLESS,
 то pdfbeads будет использовать для сжатия изображений технологию deflate.
 Следует иметь в виду, что это может привести к значительному возрастанию
 объема данных по сравнению с форматами JPEG2000 или JPEG.</p></dd>
@@ -314,7 +311,7 @@ ImageMagick поддерживает формат JPEG2000, по умолчан
 <dt>-g, --grayscale</dt>
 <dd><p>Заставляет pdfbeads принудительно конвертировать цветные картинки в
-оттенки серого. Данная опция может быть полезна в том случае, если исходные
+оттенки серого. Данный ключ может быть полезен в том случае, если исходные
 сканы были выполнены в цвете, но фактически содержали только черно-белые
 картинки, причем преобразование в оттенки серого не было выполнено на этапе
 первичной сканобработки. Такая ситуация часто возникает, в частности, при
@@ -354,7 +351,7 @@ pdfbeads, необходимо подготовить два графическ
 <tt>*.bg.*</tt>) будет содержать фон, освобожденный от текстовых данных,
 а на втором (с суффиксом <tt>*.fg.*</tt>) останутся только элементы маски
 с присущей им текстурой. Данная процедура по смыслу напоминает операцию,
-осуществляемую утилитой <tt>djvumake</tt> при указании опции <tt>PPM</tt>,
+осуществляемую утилитой <tt>djvumake</tt> при указании ключа <tt>PPM</tt>,
 и имеет ту же самую цель: создание трехслойной страницы, где один из
 полноцветных слоев отвечает за отображение фона, а другой&nbsp;&mdash;
 за раскраску наложенной на этот фон маски.</p>
@@ -379,9 +376,9 @@ pdfbeads, необходимо подготовить два графическ
 <a href="http://www.imagemagick.org/discourse-server/viewtopic.php?p=41498#p41498">дискуссии
 на форуме ImageMagick</a>, где обсуждались возможные способы удаления текста
 с картинки с последующим заполнением образовавшихся «дырок»
-исходя из значений соседних пикселей.
+исходя из значений соседних пикселей.</p>
-</p><h2>Дополнительные возможности</h2>
+<h2>Дополнительные возможности</h2>
 <h3>Добавление метаданных</h3>
@@ -397,7 +394,7 @@ pdfbeads, необходимо подготовить два графическ
 <tt>Author</tt>, <tt>Subject</tt> и <tt>Keywords</tt>. Строки, начинающиеся
 с символа `#', считаются комментариями и игнорируются.</p>
-<p>Ссылку на созданный файл можно передать pdfbeads с помощью опции
+<p>Ссылку на созданный файл можно передать pdfbeads с помощью ключа
 <tt>-M</tt> (или <tt>--meta</tt>).</p>
 <h3>Метки страниц</h3>
@@ -481,11 +478,54 @@ PDF-файлу. Для этого используется параметр <tt>
 параметр указывает, должен ли данный пункт оглавления отображаться
 развернутым по умолчанию (символы `+' и `1' означают «да»).</p>
-<p>Опцию <tt>--toc</tt> целесообразно использовать в сочетании с опцией
+<p>Ключ <tt>--toc</tt> целесообразно использовать в сочетании с ключом
 <tt>--labels</tt>. В этом случае в файле оглавления можно использовать
 те же номера страниц, что и в бумажной книге, не задумываясь о сдвигах
 нумерации.</p>
+<h3>Добавление текстового слоя</h3>
+<p>pdfbeads позволяет создавать документы PDF со скрытым текстовым
+слоем. Последний может быть либо получен из файлов в формате
+<a href="http://docs.google.com/View?docid=dfxcv4vc_67g844kf">hOCR</a>
+(расширение языка HTML, позволяющее сохранять в документе информацию
+о положении символов и элементов разметки текста на странице), либо
+импортирован из другого PDF-файла.</p>
+<p>Для создания файлов в формате hOCR необходимо воспользоваться программой
+оптического распознавания символов, поддерживающей этот формат, например
+<a href="https://launchpad.net/cuneiform-linux/">Cuneiform</a> или
+<a href="http://code.google.com/p/tesseract-ocr/">Tesseract</a>.
+Распознанный текст следует сохранить в той же директории, что и остальные
+файлы, относящиеся к проекту. При этом каждой распознанной странице должен
+соответствовать отдельный файл с тем же базовым именем, что и у исходного
+изображения, при расширении HTM(L) или HOCR. Обработка файлов hOCR
+осуществляется автоматически при условии, что интерпретатору Ruby доступно
+расширение Nokogiri.</p>
+<p>Иное возможное решение заключается в том, чтобы импортировать текстовый
+слой из другого PDF-файла (естественно, последний должен быть получен путем
+распознавания тех же самых изображений, которые предполагается затем обработать
+с помощью pdfbeads). Имя полученного файла следует передать pdfbeads с помощью
+ключа <tt>-T</tt> (полная форма&nbsp;&mdash; <tt>-text-pdf</tt>). Эта
+возможность особенно важна в тех случаях, когда приходится использовать для
+распознавания текста коммерческое приложение (например,
+<a href="http://www.abbyy.ru/finereader/">ABBYY Finereader</a>), в котором
+не предусмотрена поддержка формата hOCR. <strong>Внимание:</strong> возможно,
+вам придется поэкспериментировать с настройками экспорта PDF в OCR-приложении
+для того, чтобы получить наилучшее соответствие между размещением распознанного
+текста на странице и исходным изображением. В частности, в ABBYY Finereader
+11-й версии желаемый результат достигается только при сохранении файла в
+режиме «текст под изображением».</p>
+<h3>Обработка документов с направлением текста справа налево</h3>
+<p>Ключ <tt>-R</tt> (или <tt>--right-to-left</tt> позволяет сохранить
+в создаваемом файле пометку, указывающую на то, что основной язык
+данного документа предполагает направление чтения справа налево. Данный
+флажок используется Acrobat Reader при выборе порядка следования страниц в
+режиме их попарного отображения.</p>
 <h2>Лицензия</h2>
 <p>Данная программа является свободным программным обеспечением. Вы

data/lib/pdfbeads.rb CHANGED

@@ -8,7 +8,7 @@
 # Unlike other PDF creation tools, this utility attempts to implement
 # the approach typically used for DjVu books. Its key feature is
 # separating scanned text (typically black, but indexed images with
-# a small number of colors are also accepted) from halftone images
+# a small number of colors are also accepted) from halftone images
 # placed into a background layer.
 #
 # Copyright (C) 2010 Alexey Kryukov (amkryukov@gmail.com).
@@ -30,19 +30,25 @@
 #
 #######################################################################
-require 'iconv'
 require 'zlib'
 require 'RMagick'
 include Magick
 begin
-  require 'hpricot'
-  $has_hpricot = true
+  require 'nokogiri'
+  $has_nokogiri = true
 rescue LoadError
-  $stderr.puts( "Warning: the hpricot extension is not available. I'll not be able" )
+  $stderr.puts( "Warning: the nokogiri extension is not available. I'll not be able" )
   $stderr.puts( "\tto create hidden text layer from hOCR files." )
-  $has_hpricot = false
+  $has_nokogiri = false
+end
+begin
+  require 'pdf/reader'
+  $has_pdfreader = true
+rescue LoadError
+  $has_pdfreader = false
 end
 unless ''.respond_to? :ord
@@ -50,6 +56,11 @@ unless ''.respond_to? :ord
   require 'jcode'
 end
+# Require iconv for Ruby version less than 1.9.3
+unless ''.respond_to? :encode
+  require 'iconv'
+end
 class String
   # Protect strings which are supposed be treated as a raw sequence of bytes.
   # This is important for Ruby 1.9. For earlier versions the method just

data/lib/pdfbeads/pdfbuilder.rb CHANGED

@@ -9,7 +9,7 @@
 # Unlike other PDF creation tools, this utility attempts to implement
 # the approach typically used for DjVu books. Its key feature is
 # separating scanned text (typically black, but indexed images with
-# a small number of colors are also accepted) from halftone images
+# a small number of colors are also accepted) from halftone images
 # placed into a background layer.
 #
 # Copyright (C) 2010 Alexey Kryukov (amkryukov@gmail.com).
@@ -69,6 +69,7 @@ class PDFBeads::PDFBuilder
     labels = PDFLabels.new( @pdfargs[:labels] ) unless @pdfargs[:labels].nil?
     toc    = PDFTOC.new( @pdfargs[:toc] ) unless @pdfargs[:toc].nil?
     meta   = parseMeta( @pdfargs[:meta] )
+    reader = getPDFReader( @pdfargs[:textpdf] )
     cat = XObj.new(Hash[
       'Type'       => '/Catalog',
@@ -98,12 +99,12 @@ class PDFBeads::PDFBuilder
       info.addToDict(key, "(\xFE\xFF#{meta[key].to_text})")
     end
-    out = XObj.new(Hash[
-      'Type'  => '/Outlines',
-      'Count' => 0
-    ])
-    @doc.addObject(out)
-    cat.addToDict('Outlines', ref(out.getID))
+    if ( toc != nil and toc.length > 0 ) or @pdfargs[:rtl]
+      vpref = XObj.new(Hash.new())
+      vpref.addToDict('Direction', "/R2L") if @pdfargs[:rtl]
+      @doc.addObject(vpref)
+      cat.addToDict('ViewerPreferences', ref(vpref.getID))
+    end
     pages = XObj.new(Hash[
       'Type' => '/Pages'
@@ -132,7 +133,7 @@ class PDFBeads::PDFBuilder
       'Intent' => '[/View/Design]'
     })
     @doc.addObject(ocBack)
-    cat.addToDict('OCProperties',
+    cat.addToDict('OCProperties',
       sprintf("<< /OCGs[%s %s] /D<< /Intent /View /BaseState (ON) /Order[%s %s] >>>>",
         ref(ocFore.getID), ref(ocBack.getID), ref(ocFore.getID), ref(ocBack.getID)))
@@ -150,9 +151,14 @@ class PDFBeads::PDFBuilder
           begin
             # If possible, use iso8859-1 (aka PDFDocEncoding) for page labels:
             # it is at least guaranteed to be safe
-            ltitl = Iconv.iconv( "iso8859-1", "utf-8", rng[:prefix] ).first
-            nTree << "/P (#{ltitl.to_text}) "
-          rescue Iconv::InvalidCharacter, Iconv::IllegalSequence
+            if rng[:prefix].respond_to? :encode
+              ltitl = rng[:prefix].encode( "iso8859-1", "utf-8" )
+            else
+              ltitl = Iconv.iconv( "iso8859-1", "utf-8", rng[:prefix] ).first
+            end
+            nTree << "/P (#{ltitl.to_text}) "
+          # Iconv::InvalidCharacter, Iconv::IllegalSequence, Encoding::UndefinedConversionError, Encoding::InvalidByteSequenceError
+          rescue
             ltitl = Iconv.iconv( "utf-16be", "utf-8", rng[:prefix] ).first
             # If there is no number (just prefix) then put a zero character after the prefix:
             # this makes acroread happy, but prevents displaying the number in evince
@@ -176,27 +182,31 @@ class PDFBeads::PDFBuilder
     needs_font = false
     fonts = encodings = nil
-    pagefiles.each do |p|
-      unless p.hocr_path.nil?
-        needs_font = true
-        break
+    unless reader.nil?
+      fdict = importPDFFonts( reader,@pdfargs[:textpdf] )
+    else
+      pagefiles.each do |p|
+        unless p.hocr_path.nil?
+          needs_font = true
+          break
+        end
       end
-    end
-    if needs_font
-      fonts = Array.new()
-      encodings = [ [' '] ]
-      fdict = XObj.new( Hash[] )
-      @doc.addObject( fdict )
-      descr = XObj.new( Hash[
-        'Type'     => '/FontDescriptor',
-        'BaseFont' => '/Times-Roman',
-        ] )
-      @fdata.header.each_key do |key|
-        descr.addToDict( key,@fdata.header[key] )
+      if needs_font
+        fonts = Array.new()
+        encodings = [ [' '] ]
+        fdict = XObj.new( Hash[] )
+        @doc.addObject( fdict )
+        descr = XObj.new( Hash[
+          'Type'     => '/FontDescriptor',
+          'BaseFont' => '/Times-Roman',
+          ] )
+        @fdata.header.each_key do |key|
+          descr.addToDict( key,@fdata.header[key] )
+        end
+        @doc.addObject( descr )
       end
-      @doc.addObject( descr )
     end
     pagefiles.each do |p|
@@ -261,17 +271,24 @@ class PDFBeads::PDFBuilder
       doc_objs.concat( [contents, resobj, resources] )
       hocr = nil
-      unless p.hocr_path.nil?
-        hocr = open( p.hocr_path ) { |f| Hpricot.parse( f ) }
+      if not reader.nil?
         procSet << '/Text'
-        c_str   << getPDFText( hocr,pheight,72.0/xres,72.0/yres,encodings )
+        c_str   << getPDFText( reader,pidx,@pdfargs[:debug] )
+      elsif not p.hocr_path.nil?
+        hocr = open( p.hocr_path ) { |f| Nokogiri::HTML( f ) }
+        procSet << '/Text'
+        c_str   << getHOCRText( hocr,pheight,72.0/xres,72.0/yres,encodings )
       end
-      contents.reinit( Hash[
-        'Filter' => '/FlateDecode'
-      ], Zlib::Deflate.deflate( c_str,9 ) )
+      unless @pdfargs[:debug]
+        contents.reinit( Hash[
+          'Filter' => '/FlateDecode'
+        ], Zlib::Deflate.deflate( c_str,9 ) )
+      else
+        contents.reinit( Hash[], c_str )
+      end
       resources.addToDict( 'ProcSet', "[ #{procSet.join(' ')} ]" )
-      resources.addToDict( 'Font', ref( fdict.getID ) ) unless hocr.nil?
+      resources.addToDict( 'Font', ref( fdict.getID ) ) unless hocr.nil? and reader.nil?
       page = XObj.new(Hash[
         'Type'      => '/Page',
@@ -325,6 +342,7 @@ class PDFBeads::PDFBuilder
       getOutlineObjs( toc,pages_by_num,page_objs[0].getID )
       cat.addToDict('Outlines', ref(toc[0][:pdfobj].getID))
       cat.addToDict('PageMode', "/UseOutlines")
+      vpref.addToDict('NonFullScreenPageMode', "/UseOutlines")
     end
     if @pdfargs[:delfiles]
@@ -381,7 +399,11 @@ class PDFBeads::PDFBuilder
           key = $1
           if keys.include? key
             begin
-              ret[key] = Iconv.iconv( "utf-16be", "utf-8", $2 ).first
+              if $2.respond_to? :encode
+                ret[key] = $2.encode( "utf-16be", "utf-8" )
+              else
+                ret[key] = Iconv.iconv( "utf-16be", "utf-8", $2 ).first
+              end
             rescue
               $stderr.puts("Error: metadata should be specified in utf-8")
             end
@@ -392,6 +414,171 @@ class PDFBeads::PDFBuilder
     ret
   end
+  def getPDFReader( path )
+    return nil if path.nil? or path.eql? ''
+    return nil unless File.file? path
+    PDF::Reader.new( path )
+  end
+  def encodePDFArray( in_a )
+    out_a = Array.new()
+    out_a << '['
+    in_a.each do |item|
+      if item.is_a? String
+        out_a << ( '(' << item.to_s << ')' )
+      elsif item.is_a? Symbol
+        out_a << ( '/' << item.to_s )
+      elsif item.is_a? Array
+        out_a << encodePDFArray( item )
+      else
+        out_a << item.to_s
+      end
+    end
+    out_a << ']'
+    out_a.join( ' ' )
+  end
+  def encodePDFObjEntry( inhash,outobj,label )
+    if inhash[label].is_a? String
+      outobj.addToDict( label,"(#{inhash[label]})" )
+    elsif inhash[label].is_a? Symbol
+      outobj.addToDict( label,"/#{inhash[label]}" )
+    elsif inhash[label].is_a? Integer
+      outobj.addToDict( label,"#{inhash[label]}" )
+    elsif inhash[label].is_a? Array
+      outobj.addToDict( label,encodePDFArray( inhash[label] ) )
+    elsif inhash[label].is_a? Hash
+      newobj = XObj.new( Hash.new() )
+      @doc.addObject( newobj )
+      outobj.addToDict( label,ref(newobj.getID) )
+      inhash[label].keys.each do |newlabel|
+        encodePDFObjEntry( inhash[label],newobj,newlabel )
+      end
+    elsif inhash[label].is_a? PDF::Reader::Stream
+      newobj = XObj.new( Hash.new(),inhash[label].data )
+      @doc.addObject( newobj )
+      outobj.addToDict( label,ref(newobj.getID) )
+      inhash[label].hash.keys.each do |newlabel|
+        encodePDFObjEntry( inhash[label].hash,newobj,newlabel ) unless newlabel.eql? :Length
+      end
+    end
+  end
+  def importPDFFont( label,font )
+    fontobj = XObj.new( Hash.new() )
+    fontobj.addToDict( 'Name',"/#{label}" ) unless label.nil?
+    @doc.addObject( fontobj )
+    if font.has_key? :DescendantFonts
+      dfonts = Array.new()
+      font[:DescendantFonts].each {|dfont| dfonts << importPDFFont( nil,dfont ) }
+      fontobj.addToDict( "DescendantFonts",'[ ' << dfonts.map{|dfont| ref(dfont.getID)}.join(' ') << ' ]' )
+    end
+    [ :BaseFont, :Type, :Subtype, :FirstChar, :LastChar, :Widths, :FontDescriptor,
+      :Encoding, :ToUnicode, :DW, :W, :CIDSystemInfo, :CIDToGIDMap ].each do |fontkey|
+      encodePDFObjEntry( font,fontobj,fontkey ) if font.has_key? fontkey
+    end
+    fontobj
+  end
+  def importPDFFonts( reader,path )
+    fonts = Hash.new()
+    reader.pages.each_index do |i|
+      $stderr.puts("Reading font data from #{path}: page #{i}\n")
+      page = reader.pages[i]
+      page.fonts.each do |label,font|
+        fonts[label] = page.objects.deref( font ) unless fonts.has_key? label
+      end
+    end
+    fdict = XObj.new( Hash[] )
+    @doc.addObject( fdict )
+    fonts.keys.sort_by {|sym| sym.to_s}.each do |label|
+      fontobj = importPDFFont( label,fonts[label] )
+      fdict.addToDict( label,ref(fontobj.getID) )
+    end
+    fdict
+  end
+  def getPDFText( reader,pidx,debug )
+    return "" unless reader.pages.length > pidx
+    page = reader.pages[pidx]
+    pcont = page.raw_content.to_binary()
+    cidx = 0
+    in_t = false
+    pstack = 0
+    prevc = "\0"
+    ch_start = -1
+    ret = ""
+    tr_val = debug ? 0 : 3
+    pcont.each_byte do |char|
+      if char.chr.eql? '('
+        ctx = pcont[0,cidx].match( /\\+$/ )
+        pstack += 1 if ( ctx.nil? or ctx[0].length % 2 == 0 )
+      elsif char.chr.eql? ')'
+        ctx = pcont[0,cidx].match( /\\+$/ )
+        pstack -= 1 if ( ctx.nil? or ctx[0].length % 2 == 0 )
+      end
+      unless pstack > 0
+        # Text state operators may occur outside text objects. We have to take care of this
+        if not in_t and prevc.eql? 'T'
+          case char.chr
+            when 'c'
+              if pcont[0,cidx-1] =~ /([-+]?\d*\.?\d+)\s+$/
+                ret << " #{$1} Tc"
+              end
+            when 'w'
+              if pcont[0,cidx-1] =~ /([-+]?\d*\.?\d+)\s+$/
+                ret << " #{$1} Tw"
+              end
+            when 'z'
+              if pcont[0,cidx-1] =~ /([-+]?\d*\.?\d+)\s+$/
+                ret << " #{$1} Tz"
+              end
+            when 'L'
+              if pcont[0,cidx-1] =~ /([-+]?\d*\.?\d+)\s+$/
+                ret << " #{$1} TL"
+              end
+            when 'f'
+              if pcont[0,cidx-1] =~ /\/([A-Za-z0-9]+)\s+([-+]?\d*\.?\d+)\s+$/
+                ret << " /#{$1} #{$2} Tf"
+              end
+            # Tr operators are ignored, since we always need either a hidden text (3 Tr)
+            # or (for debugging purposes) a visible text without special effects (0 Tr)
+            when 's'
+              if pcont[0,cidx-1] =~ /([-+]?\d*\.?\d+)\s+$/
+                chunks << " #{$1} Ts"
+              end
+          end
+        elsif not in_t and ( prevc + char.chr ).eql? 'BT'
+          ch_start = cidx -1
+          in_t = true
+        elsif in_t and ( prevc + char.chr ).eql? 'ET'
+          chunk = pcont.slice( ch_start,cidx - ch_start + 1 )
+          chunk.gsub!( /\d{1}\s+Tr/,"#{tr_val} Tr" )
+          ret << "\n" << chunk
+          ch_start = -1
+          in_t = false
+        end
+      end
+      prevc = char.chr
+      cidx += 1
+    end
+    return "\nq #{tr_val} Tr" << ret << " Q" if ret.length > 0
+    return ""
+  end
   def getOutlineObjs( toc,page_ids,fp_id )
     root = toc[0]
     root[:pdfobj] = XObj.new( Hash[
@@ -453,8 +640,8 @@ class PDFBeads::PDFBuilder
   def elementCoordinates( element,xscale,yscale )
     out = [0,0,0,0]
-    if element.attributes.to_hash.has_key? 'title'
-      if /bbox((\s+\d+){4})/.match(element.attributes.to_hash['title'])
+    if element.attributes.has_key? 'title'
+      if /bbox((\s+\d+){4})/.match(element.attributes['title'].content)
         coords = $1.strip.split(/\s+/)
         out = [ (coords[0].to_i*xscale).to_f,(coords[1].to_i*xscale).to_f,
                 (coords[2].to_i*yscale).to_f,(coords[3].to_i*yscale).to_f ]
@@ -463,23 +650,16 @@ class PDFBeads::PDFBuilder
     return out
   end
-  def elementText( elem,charset )
-    txt = ''
-    begin
-      txt = elem.to_plain_text.strip
-      txt = Iconv.iconv( 'utf-8',charset,txt ).first unless charset.downcase.eql? 'utf-8'
-    rescue
-    end
-    txt.force_encoding( 'utf-8' ) if txt.respond_to? :force_encoding
-    return txt
+  def elementText( elem )
+    # used to put some Iconv stuff here, but nokogiri makes this conversion itself
+    return elem.inner_text.strip
   end
-  def getOCRUnits( ocr_line,lbbox,fsize,charset,xscale,yscale )
+  def getOCRUnits( ocr_line,lbbox,fsize,xscale,yscale )
     units = Array.new()
-    ocr_words = ocr_line.search("//span[@class='ocrx_word']")
+    ocr_words = ocr_line.xpath(".//span[@class='ocrx_word']")
     ocr_chars = nil
-    ocr_chars = ocr_line.at("//span[@class='ocr_cinfo']") if ocr_words.length == 0
+    ocr_chars = ocr_line.at_xpath(".//span[@class='ocr_cinfo']") if ocr_words.length == 0
     # If 'ocrx_word' elements are available (as in Tesseract owtput), split the line
     # into individual words
@@ -487,16 +667,16 @@ class PDFBeads::PDFBuilder
       ocr_words.each do |word|
         bbox = elementCoordinates( word,xscale,yscale )
         next if bbox == [0,0,0,0]
-        txt = elementText( word,charset )
+        txt = elementText( word )
         units << [txt,bbox]
       end
-    # If 'ocrx_cinfo' data is available (as in Cuneiform) owtput, then split it
+    # If 'ocrx_cinfo' data is available (as in Cuneiform) owtput, then split it
     # into individual characters and then combine them into words
-    elsif not ocr_chars.nil? and ocr_chars.attributes.to_hash.has_key? 'title'
-      if /x_bboxes([-\s\d]+)/.match( ocr_chars.attributes.to_hash['title'] )
+    elsif not ocr_chars.nil? and ocr_chars.attributes.has_key? 'title'
+      if /x_bboxes([-\s\d]+)/.match( ocr_chars.attributes['title'].content )
         coords = $1.strip.split(/\s+/)
-        ltxt = elementText( ocr_line,charset )
+        ltxt = elementText( ocr_line )
         charcnt = 0
         ltxt.each_char { |uc| charcnt += 1 }
@@ -521,10 +701,11 @@ class PDFBeads::PDFBuilder
               if /^\s+$/.match( uc )
                 wtxt = ''
-              # A workaround for probable hpricot bug, which sometimes causes whitespace
-              # characters from inside a string to be stripped. So if we find
-              # a bounding box with negative values we assume there was a whitespace
-              # character here, even if not preserved in the string itself
+              # A workaround for probable hpricot bug (TODO: is Nokogiri affected?),
+              # which sometimes causes whitespace characters from inside a string
+              # to be stripped. So if we find a bounding box with negative values
+              # we assume there was a whitespace character here, even if not
+              # preserved in the string itself
               else
                 wtxt = uc
                 i += 1
@@ -541,7 +722,7 @@ class PDFBeads::PDFBuilder
     # If neither word nor character bounding boxes are available, then store the line as a whole
     if units.length == 0
-      ltxt = elementText( ocr_line,charset )
+      ltxt = elementText( ocr_line )
       units << [ltxt,lbbox] unless ltxt.eql? ''
     end
@@ -549,22 +730,15 @@ class PDFBeads::PDFBuilder
     return units
   end
-  def getPDFText( hocr,pheight,xscale,yscale,encodings )
+  def getHOCRText( hocr,pheight,xscale,yscale,encodings )
     fsize = 10
     cur_enc = nil
     ret = " BT 3 Tr "
-    charset = 'utf-8'
-    hocr.search("//meta[@http-equiv='Content-Type']").each do |el|
-      attrs = el.attributes.to_hash
-      charset = $1 if attrs.has_key? 'content' and
-        /\Atext\/html;charset=([A-Za-z0-9-]+)\Z/i.match( attrs['content'] )
-    end
-    hocr.search("//span[@class='ocr_line']").each do |line|
+    hocr.xpath("//span[@class='ocr_line']").each do |line|
       lbbox = elementCoordinates( line,xscale,yscale )
       next if lbbox[2] - lbbox[0] <= 0 or lbbox[3] - lbbox[1] <= 0
-      units = getOCRUnits( line,lbbox,fsize,charset,xscale,yscale )
+      units = getOCRUnits( line,lbbox,fsize,xscale,yscale )
       next if units.length == 0
       wwidth = 0
@@ -573,7 +747,9 @@ class PDFBeads::PDFBuilder
         ltxt << unit[0]
         wwidth += ( unit[1][2] - unit[1][0] )
       end
-      ratio = wwidth / @fdata.getLineWidth( ltxt,fsize )
+      lw = @fdata.getLineWidth( ltxt,fsize )
+      ratio = 1
+      ratio = wwidth / lw unless lw == 0
       pos = lbbox[0]
       posdiff = 0
@@ -592,7 +768,11 @@ class PDFBeads::PDFBuilder
         txt8 = ''
         wtxt.each_char do |char|
           begin
-            Iconv.iconv( "utf-16be","utf-8",char )
+            if char.respond_to? :encode
+              char.encode!( "utf-16be", "utf-8" )
+            else
+              Iconv.iconv( "utf-16be","utf-8",char )
+            end
           rescue
             rawbytes = char.unpack( 'C*' )
             bs = ''