RubyGems - pdfbeads - Versions diffs - 1.0.7 → 1.1.3 - Mend

pdfbeads 1.0.7 → 1.1.3

Files changed (16) hide show

checksums.yaml +7 -0
data/COPYING +0 -0
data/ChangeLog +59 -0
data/README +0 -0
data/bin/pdfbeads +33 -4
data/doc/pdfbeads.en.html +548 -0
data/doc/pdfbeads.ru.html +74 -34
data/lib/imageinspector.rb +24 -21
data/lib/pdfbeads/pdfbuilder.rb +308 -87
data/lib/pdfbeads/pdfdoc.rb +0 -0
data/lib/pdfbeads/pdffont.rb +0 -0
data/lib/pdfbeads/pdflabels.rb +0 -0
data/lib/pdfbeads/pdfpage.rb +45 -32
data/lib/pdfbeads/pdftoc.rb +7 -3
data/lib/pdfbeads.rb +18 -7
metadata +92 -61

data/doc/pdfbeads.ru.html CHANGED Viewed

@@ -8,7 +8,7 @@
 <meta name="Generator" content="Written directly in html">
-<meta name="Description" content="Руководство пользователя PDFBEADS версии 1.0">
+<meta name="Description" content="Руководство пользователя pdfbeads версии 1.1">
 <style type="text/css">
   body {
@@ -30,22 +30,22 @@
   h1 {
     font-size: 36px;
     font-family: Times New Roman, Times, serif;
-    text-align: center;
-    font-style: normal;
+    text-align: center;
+    font-style: normal;
     font-weight: bold
   }
   h2 {
     font-size: 20px;
     font-family: Arial, Helvetica, sans-serif;
-    text-align: center;
-    font-style: normal;
+    text-align: center;
+    font-style: normal;
     font-weight: bold;
   }
   h3 {
     font-size: 16px;
     font-family: Arial, Helvetica, sans-serif;
-    text-align: left;
-    font-style: italic;
+    text-align: left;
+    font-style: italic;
     font-weight: bold;
   }
   dt {
@@ -57,9 +57,9 @@
 <body>
-<h1>Руководство пользователя PDFBEADS версии 1.0</h1>
+<h1>Руководство пользователя pdfbeads версии 1.1</h1>
-<p>(c) Алексей Крюков, 2010</p>
+<p>(c) Алексей Крюков, 2013</p>
 <p>Утилита pdfbeads предназначена для создания электронных книг в формате
 PDF из предварительно обработанных отсканированных страниц. В отличие от
@@ -90,7 +90,8 @@ JPEG2000;</p></li>
 <li><p>создание PDF-файлов с оглавлением и метаданными;</p></li>
 <li><p>добавление скрытого текстового слоя из документов в формате hOCR
-с корректной обработкой символов кириллицы.</p></li>
+с корректной обработкой символов кириллицы либо перенос текста из другого
+PDF-файла.</p></li>
 </ul>
@@ -103,23 +104,19 @@ JPEG2000;</p></li>
 <h2>Требования</h2>
 <p>Для запуска программы требуется прежде всего интерпретатор языка Ruby
-версии 1.8 или 1.9, доступный в дистрибутивах большинства Unix-подобных
+версии 1.8 или выше, доступный в дистрибутивах большинства Unix-подобных
 систем. Версия для Windows может быть загружена с сайта <a
 href="http://www.rubyinstaller.org/">RubyInstaller</a>. Для корректной
 установки pdfbeads необходимо также загрузить пакетный менеджер RubyGems,
 представляющий собой стандартный интерфейс языка Ruby для работы с
 расширениями. Кроме того, в дополнение к основному дистрибутиву Ruby
-понадобятся расширения RMagick и hpricot (последнее&nbsp;&mdash; для
-обработки распознанного текста в формате hOCR).</p>
+понадобятся расширения RMagick, Nokogiri (для обработки распознанного
+текста в формате hOCR) и PDF::Reader (для считывания распознанного
+текста из другого PDF-файла).</p>
 <p>Если вы хотите создавать PDF-файлы с использованием формата сжатия
 данных JBIG2, то в системе также должна быть установлена утилита jbig2
-из пакета <a href="http://github.com/agl/jbig2enc">jbig2enc</a>. Внимание:
-по состоянию на октябрь 2010&nbsp;г., когда пишется этот файл,
-настоятельно рекомендуется использовать версию jbig2, самостоятельно
-собранную из исходников, доступных в репозитории git, поскольку более
-ранние версии не обеспечивают корректного сохранения информации о разрешении
-изображений.</p>
+из пакета <a href="http://github.com/agl/jbig2enc">jbig2enc</a>.</p>
 <h2>Установка</h2>
@@ -132,10 +129,10 @@ gem install pdfbeads
 </pre>
 <p>Перед запуском программы необходимо удостовериться, что расширение
-RMagick установлено и доступно интерпретатору Ruby. К сожалению, эту
-зависимость нельзя отследить автоматически, поскольку в некоторых
+RMagick установлено и доступно интерпретатору Ruby. <strong>К сожалению, эту
+зависимость нельзя отследить автоматически</strong>, поскольку в некоторых
 дистрибутивах Linux (в частности, Ubuntu) пакет RMagick устанавливается в
-обход механизма RubyGems, так что утилите gem о нем ничего не известно.</p>
+обход механизма RubyGems, так что утилите <tt>gem</tt> о нем ничего не известно.</p>
 <p>Пользователям Ubuntu также следует иметь в виду, что в этом дистрибутиве
 исполняемые файлы из пакетов gem по умолчанию распаковываются в каталоги
@@ -195,7 +192,7 @@ HTM(L) или HOCR, содержащих распознанный текст в
 pdfbeads, иногда занимает довольно много времени, эти файлы в дальнейшем
 не удаляются с диска и могут быть повторно использованы при последующих
 прогонах в целях экономии времени. Для того, чтобы заставить pdfbeads
-заменить такие файлы заново созданными версиями, можно запустить его с опцией
+заменить такие файлы заново созданными версиями, можно запустить его с ключом
 <tt>-f</tt> или <tt>--force-update</tt>.</p>
 <p>pdfbeads предназначен для сборки PDF из предварительно обработанных
@@ -239,7 +236,7 @@ pdfbeads [options] [files to process] [&gt; output_file.pdf]
 специальное назначение.</p>
 <p>Вместо записи PDF-файла на стандартное устройство вывода можно использовать
-опцию <tt>-o</tt> или <tt>--output</tt>, сопроводив ее указанием имени файла.</p>
+ключ <tt>-o</tt> или <tt>--output</tt>, сопроводив ее указанием имени файла.</p>
 <h2>Обработка бинаризованных изображений</h2>
@@ -276,12 +273,12 @@ ImageMagick, что существенно увеличивает скорост
 <p>По умолчанию передний план страницы упаковывается с помощью технологии
 сжатия JBIG2, для чего pdfbeads использует утилиту <a
 href="http://github.com/agl/jbig2enc">jbig2enc</a> (автор&nbsp;&mdash; Адам
-Лэнгли). При этом можно задать опцию <tt>-p</tt> (<tt>--pages-per-dict</tt>),
+Лэнгли). При этом можно задать ключ <tt>-p</tt> (<tt>--pages-per-dict</tt>),
 чтобы указать желательное количество страниц, использующих общий словарь
 разделенных символов (по умолчанию&nbsp;&mdash; 15).</p>
-<p>Если утилита jbig2enc недоступна, либо при запуске pdfbeads была указана
-опция <tt>-m</tt> (<tt>--mask-compression</tt>) с аргументом `G4' (синонимы&nbsp;&mdash;
+<p>Если утилита jbig2enc недоступна, либо при запуске pdfbeads был указан
+ключ <tt>-m</tt> (<tt>--mask-compression</tt>) с аргументом `G4' (синонимы&nbsp;&mdash;
 `Group4', `CCITTFax'), то вместо JBIG2-сжатия будет использоваться формат
 CCITT Group 4 fax.</p>
@@ -303,7 +300,7 @@ CCITT Group 4 fax.</p>
 `JP2' или `JPX'), `JPEG' (с синонимом `JPG'), а также `LOSSLESS'
 (синонимы&nbsp;&mdash; `DEFLATE', `PNG'). Если используемая сборка библиотеки
 ImageMagick поддерживает формат JPEG2000, по умолчанию используется именно
-он; в противном случае&nbsp;&mdash; JPEG. Если выбрана опция LOSSLESS,
+он; в противном случае&nbsp;&mdash; JPEG. Если выбрано значение LOSSLESS,
 то pdfbeads будет использовать для сжатия изображений технологию deflate.
 Следует иметь в виду, что это может привести к значительному возрастанию
 объема данных по сравнению с форматами JPEG2000 или JPEG.</p></dd>
@@ -314,7 +311,7 @@ ImageMagick поддерживает формат JPEG2000, по умолчан
 <dt>-g, --grayscale</dt>
 <dd><p>Заставляет pdfbeads принудительно конвертировать цветные картинки в
-оттенки серого. Данная опция может быть полезна в том случае, если исходные
+оттенки серого. Данный ключ может быть полезен в том случае, если исходные
 сканы были выполнены в цвете, но фактически содержали только черно-белые
 картинки, причем преобразование в оттенки серого не было выполнено на этапе
 первичной сканобработки. Такая ситуация часто возникает, в частности, при
@@ -354,7 +351,7 @@ pdfbeads, необходимо подготовить два графическ
 <tt>*.bg.*</tt>) будет содержать фон, освобожденный от текстовых данных,
 а на втором (с суффиксом <tt>*.fg.*</tt>) останутся только элементы маски
 с присущей им текстурой. Данная процедура по смыслу напоминает операцию,
-осуществляемую утилитой <tt>djvumake</tt> при указании опции <tt>PPM</tt>,
+осуществляемую утилитой <tt>djvumake</tt> при указании ключа <tt>PPM</tt>,
 и имеет ту же самую цель: создание трехслойной страницы, где один из
 полноцветных слоев отвечает за отображение фона, а другой&nbsp;&mdash;
 за раскраску наложенной на этот фон маски.</p>
@@ -379,9 +376,9 @@ pdfbeads, необходимо подготовить два графическ
 <a href="http://www.imagemagick.org/discourse-server/viewtopic.php?p=41498#p41498">дискуссии
 на форуме ImageMagick</a>, где обсуждались возможные способы удаления текста
 с картинки с последующим заполнением образовавшихся «дырок»
-исходя из значений соседних пикселей.
+исходя из значений соседних пикселей.</p>
-</p><h2>Дополнительные возможности</h2>
+<h2>Дополнительные возможности</h2>
 <h3>Добавление метаданных</h3>
@@ -397,7 +394,7 @@ pdfbeads, необходимо подготовить два графическ
 <tt>Author</tt>, <tt>Subject</tt> и <tt>Keywords</tt>. Строки, начинающиеся
 с символа `#', считаются комментариями и игнорируются.</p>
-<p>Ссылку на созданный файл можно передать pdfbeads с помощью опции
+<p>Ссылку на созданный файл можно передать pdfbeads с помощью ключа
 <tt>-M</tt> (или <tt>--meta</tt>).</p>
 <h3>Метки страниц</h3>
@@ -481,11 +478,54 @@ PDF-файлу. Для этого используется параметр <tt>
 параметр указывает, должен ли данный пункт оглавления отображаться
 развернутым по умолчанию (символы `+' и `1' означают «да»).</p>
-<p>Опцию <tt>--toc</tt> целесообразно использовать в сочетании с опцией
+<p>Ключ <tt>--toc</tt> целесообразно использовать в сочетании с ключом
 <tt>--labels</tt>. В этом случае в файле оглавления можно использовать
 те же номера страниц, что и в бумажной книге, не задумываясь о сдвигах
 нумерации.</p>
+<h3>Добавление текстового слоя</h3>
+<p>pdfbeads позволяет создавать документы PDF со скрытым текстовым
+слоем. Последний может быть либо получен из файлов в формате
+<a href="http://docs.google.com/View?docid=dfxcv4vc_67g844kf">hOCR</a>
+(расширение языка HTML, позволяющее сохранять в документе информацию
+о положении символов и элементов разметки текста на странице), либо
+импортирован из другого PDF-файла.</p>
+<p>Для создания файлов в формате hOCR необходимо воспользоваться программой
+оптического распознавания символов, поддерживающей этот формат, например
+<a href="https://launchpad.net/cuneiform-linux/">Cuneiform</a> или
+<a href="http://code.google.com/p/tesseract-ocr/">Tesseract</a>.
+Распознанный текст следует сохранить в той же директории, что и остальные
+файлы, относящиеся к проекту. При этом каждой распознанной странице должен
+соответствовать отдельный файл с тем же базовым именем, что и у исходного
+изображения, при расширении HTM(L) или HOCR. Обработка файлов hOCR
+осуществляется автоматически при условии, что интерпретатору Ruby доступно
+расширение Nokogiri.</p>
+<p>Иное возможное решение заключается в том, чтобы импортировать текстовый
+слой из другого PDF-файла (естественно, последний должен быть получен путем
+распознавания тех же самых изображений, которые предполагается затем обработать
+с помощью pdfbeads). Имя полученного файла следует передать pdfbeads с помощью
+ключа <tt>-T</tt> (полная форма&nbsp;&mdash; <tt>-text-pdf</tt>). Эта
+возможность особенно важна в тех случаях, когда приходится использовать для
+распознавания текста коммерческое приложение (например,
+<a href="http://www.abbyy.ru/finereader/">ABBYY Finereader</a>), в котором
+не предусмотрена поддержка формата hOCR. <strong>Внимание:</strong> возможно,
+вам придется поэкспериментировать с настройками экспорта PDF в OCR-приложении
+для того, чтобы получить наилучшее соответствие между размещением распознанного
+текста на странице и исходным изображением. В частности, в ABBYY Finereader
+11-й версии желаемый результат достигается только при сохранении файла в
+режиме «текст под изображением».</p>
+<h3>Обработка документов с направлением текста справа налево</h3>
+<p>Ключ <tt>-R</tt> (или <tt>--right-to-left</tt> позволяет сохранить
+в создаваемом файле пометку, указывающую на то, что основной язык
+данного документа предполагает направление чтения справа налево. Данный
+флажок используется Acrobat Reader при выборе порядка следования страниц в
+режиме их попарного отображения.</p>
 <h2>Лицензия</h2>
 <p>Данная программа является свободным программным обеспечением. Вы

data/lib/imageinspector.rb CHANGED Viewed

@@ -49,7 +49,7 @@ module ImageInspector
 end
 # Parse image header and retrieve its basic properties. The code is inspired
-# by Sam Stephenson's snippet which demonstrates how to determine a JPEG
+# by Sam Stephenson's snippet which demonstrates how to determine a JPEG
 # image size ( see http://snippets.dzone.com/posts/show/805) and Paul
 # Schreiber's code for TIFF (see
 # http://paulschreiber.com/blog/2010/06/10/tiff-file-dimensions-in-ruby/)
@@ -67,12 +67,12 @@ class ImageInspector::Image
   # Image format and compression method
   attr_reader :format, :compression
   # Return TIFF tags as a hash for TIFF images or JPEG images with EXIF
-  # data. Otherwise this property is nil.
+  # data. Otherwise this property is nil.
   attr_reader :tags
   @@gc = (IO.method_defined? :getbyte) ? (:getbyte) : (:getc)
-  # Set all image attributes to nil and open an image if an optional
+  # Set all image attributes to nil and open an image if an optional
   # argument is specified.
   def initialize( input=nil )
     clearData()
@@ -99,7 +99,7 @@ class ImageInspector::Image
     end
   end
-  # Return image data (possibly compressed) for a previously initialized
+  # Return image data (possibly compressed) for a previously initialized
   # image as a sring. For JPEG and JPEG2000 this would be the whole image
   # as it is stored on the disk, while for TIFF and PNG all headers are
   # stripped and a raw data stream is returned.
@@ -169,7 +169,7 @@ class ImageInspector::Image
     sign = io.read( 2 )
     if sign.eql? "\xFF\xD8".to_binary
       @format = :JPEG
-      @compression = :DCTDecode
+      @compression = :DCTDecode
       jpgExamine( io )
       return
     end
@@ -191,7 +191,7 @@ class ImageInspector::Image
     sign << io.read( 4 )
     if sign.eql? "\x00\x00\x00\x0CjP  \x0D\x0A\x87\x0A".to_binary
       @format = :JPEG2000
-      @compression = :JPXDecode
+      @compression = :JPXDecode
       j2kParseBox( io )
       return
     end
@@ -288,8 +288,8 @@ class ImageInspector::Image
     # We should not expect to find required image properties (such as width
     # or height) in EXIF data of a JPEG image.
-    raise 'malformed TIFF: a required tag is missing' unless @format.eql? :JPEG or (
-      @tags.has_key? 0x0100 and @tags.has_key? 0x0101 and
+    raise 'malformed TIFF: a required tag is missing' unless @format.eql? :JPEG or (
+      @tags.has_key? 0x0100 and @tags.has_key? 0x0101 and
       @tags.has_key? 0x0106 and @tags.has_key? 0x0111 and @tags.has_key? 0x0117 )
     unless @format.eql? :JPEG
@@ -325,16 +325,19 @@ class ImageInspector::Image
     end
     @tags.merge! tiffParseIFD( io,@tags[0x8769][0],intgr ) if @tags.has_key? 0x8769
-    if @tags.has_key? 0x0103
-      case @tags[0x0103][0]
-        when 1
-          @compression = :NoCompression
-        when 3, 4
-          @compression = :CCITTFaxDecode
-        when 5
-          @compression = :LZWDecode
-        when 8, 32946
-          @compression = :FlateDecode
+    # Strangely, got some JPEG's marked as LZW-decoded
+    unless @format.eql? :JPEG
+      if @tags.has_key? 0x0103
+        case @tags[0x0103][0]
+          when 1
+            @compression = :NoCompression
+          when 3, 4
+            @compression = :CCITTFaxDecode
+          when 5
+            @compression = :LZWDecode
+          when 8, 32946
+            @compression = :FlateDecode
+        end
       end
     end
@@ -433,7 +436,7 @@ class ImageInspector::Image
           when 'PLTE'
             @palette = Array.new()
             for i in (0...length/3)
-              r, g, b = io.read( 3 ).unpack( 'ccc' )
+              r, g, b = io.read( 3 ).unpack( 'CCC' )
               @palette << [ r, g, b ]
             end
           when 'IDAT'
@@ -444,14 +447,14 @@ class ImageInspector::Image
             @x_dpi = (x_dpm/100 * 2.54).round
             @y_dpi = (y_dpm/100 * 2.54).round
           when 'tRNS'
-            trans = Hash.new[]
+            trans = Hash.new()
             case @cspace
               when :Indexed
                 # Indexed colour, RGB. Each byte in this chunk is an alpha for
                 # the palette index in the PLTE ("palette") chunk up until the
                 # last non-opaque entry. Set up an array, stretching over all
                 # palette entries which will be 0 (opaque) or 1 (transparent).
-                @trans = io.read( size ).unpack( 'C*' )
+                @trans = io.read( length ).unpack( 'C*' )
               when :DeviceGray
                 # Greyscale. Corresponding to entries in the PLTE chunk.
                 # Grey is two bytes, range 0 .. (2 ^ bit-depth) - 1