RubyGems - act_as_page_extractor - Versions diffs - 0.6.4 → 0.7.1 - Mend

act_as_page_extractor 0.6.4 → 0.7.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

checksums.yaml +4 -4
data/.github/workflows/coverage.yml +32 -0
data/.gitignore +1 -0
data/Aptfile.sh +55 -0
data/CHANGELOG.md +67 -0
data/Gemfile +3 -3
data/Gemfile.lock +9 -8
data/README.md +27 -32
data/act_as_page_extractor.gemspec +4 -3
data/lib/act_as_page_extractor/modules/extracting.rb +12 -13
data/lib/act_as_page_extractor/modules/tools.rb +14 -4
data/lib/act_as_page_extractor/modules/unzipping.rb +14 -0
data/lib/act_as_page_extractor/modules/validating.rb +15 -9
data/lib/act_as_page_extractor/version.rb +1 -1
data/lib/act_as_page_extractor.rb +25 -15
data/lib/generators/act_as_page_extractor/templates/add_page_extractor_fields_to_documents.rb.erb +1 -0
data/spec/act_as_page_extractor_spec.rb +46 -9
data/spec/spec_helper.rb +1 -1
data/spec/support/models.rb +11 -2
metadata +18 -9

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: f412c60bccb3fca934efecbc7922af07b41297423e6a2c4fbe04b8110a0e22e8
-  data.tar.gz: 4b281d9c93de0955e90b1a9d500213b1fa7103c449d72354caaa3d5d29702ff5
+  metadata.gz: 4a11b311c9575aace2a74e468f35b062c6e444d58e6f62caed99b70bab60703b
+  data.tar.gz: 9c463a553f4e3490110f46626d2c4c6c0f124b2522c63ef0e7db2acc856b12a2
 SHA512:
-  metadata.gz: b545143db8d5fd51fb4c5c3d95d76b8122576e26e6587bb0b8c1ec62303e7e7bc5509554132ba9e65d47294fd2fa7c803a01634529c8e4ca8ecf9d0b3f1a392c
-  data.tar.gz: 3ff648cca05fe842e97db5e5153399bcfcd34f98141cd47ad5ca511de588de67c080778b643cba9be372178a6d6fc497552082bece168d3e10be6788382c8426
+  metadata.gz: 4db62f37880a270dfe39dcedf5a537b2e5699633709348a030ae2274218478493c994099d38e7ff21729bdf543e681c66b818d2bc321b6b49f1478fa348d00c7
+  data.tar.gz: e2df6c4f723418d1098b0d0afac87fef847b50a87a766198e13ee42b8ff2cf4fac5e2788f09a7105ee13dbec4d84bfaf5084f9bcae7ad127915ab08d652f9deb

data/.github/workflows/coverage.yml ADDED Viewed

@@ -0,0 +1,32 @@
+# .github/workflows/coverage.yml
+name: Coverage
+on:
+  push:
+    branches: [ main, master ]
+  pull_request:
+    branches: [ main, master ]
+jobs:
+  test:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+      - name: Set up Ruby
+        uses: ruby/setup-ruby@v1
+        with:
+          ruby-version: 3.2.3
+      - name: Install dependencies
+        run: |
+          sudo apt-get update
+          sudo apt-get install -y libreoffice unoconv poppler-utils zlib1g zlib1g-dev zip rar p7zip-full
+          bundle install --jobs 4 --retry 3
+      - name: Run tests with coverage
+        run: |
+          bundle exec rspec
+      - name: Upload coverage to Codecov
+        uses: codecov/codecov-action@v4
+        with:
+          files: ./coverage/.resultset.json,./coverage/coverage.json,./coverage/index.html
+          fail_ci_if_error: false

data/.gitignore CHANGED Viewed

@@ -20,6 +20,7 @@ build/
 *.bridgesupport
 build-iPhoneOS/
 build-iPhoneSimulator/
+.byebug_history
 ## Specific to RubyMotion (use of CocoaPods):
 #

data/Aptfile.sh ADDED Viewed

@@ -0,0 +1,55 @@
+# https://github.com/phlowerteam/total_compressor
+sudo apt-get install zlib1g
+sudo apt-get install zlib1g-dev
+sudo apt-get install zip
+sudo apt-get install rar
+sudo apt-get install p7zip-full
+# PDF
+sudo apt-get install poppler-utils
+# OpenOffice
+sudo apt-get install jodconverter
+sudo apt-get install nautilus-filename-repairer
+sudo apt-get install python3-chardet
+sudo apt-get install xfonts-encodings
+sudo apt-get install libfontenc1
+sudo apt-get install console-setup
+sudo apt-get install fontconfig
+sudo apt-get install fontconfig-config
+sudo apt-get install fonts-kacst
+sudo apt-get install fonts-kacst-one
+sudo apt-get install fonts-khmeros-core
+sudo apt-get install fonts-lao
+sudo apt-get install fonts-liberation
+sudo apt-get install fonts-nanum
+sudo apt-get install fonts-opensymbol
+sudo apt-get install fonts-sil-gentium-basic
+sudo apt-get install fonts-takao-pgothic
+sudo apt-get install fonts-thai-tlwg
+sudo apt-get install fonts-tlwg-garuda
+sudo apt-get install fonts-tlwg-kinnari
+sudo apt-get install fonts-tlwg-loma
+sudo apt-get install fonts-tlwg-mono
+sudo apt-get install fonts-tlwg-norasi
+sudo apt-get install fonts-tlwg-purisa
+sudo apt-get install fonts-tlwg-sawasdee
+sudo apt-get install fonts-tlwg-typewriter
+sudo apt-get install fonts-tlwg-typist
+sudo apt-get install fonts-tlwg-typo
+sudo apt-get install fonts-tlwg-umpush
+sudo apt-get install fonts-tlwg-waree
+sudo apt-get install gnome-font-viewer
+sudo apt-get install gsfonts gucharmap
+sudo apt-get install kbd
+sudo apt-get install libfontconfig1
+sudo apt-get install libfontenc1
+sudo apt-get install libfreetype6
+sudo apt-get install libxft2
+sudo apt-get install fonts-ubuntu
+sudo apt-get install fonts-wqy-microhei
+sudo apt-get install x11-xfs-utils xfonts-base
+sudo apt-get install xfonts-encodings
+sudo apt-get install xfonts-scalable
+sudo apt-get install xfonts-utils

data/CHANGELOG.md ADDED Viewed

@@ -0,0 +1,67 @@
+# Changelog
+## [0.7.0] - 2025-08-21
+### Added
+- Breaking changes: added root folder as an option to access the folder between deployments, improved error processing ([883cafc], [b10a367])
+HINT: to upgrade an older version, you need to fix the DB scheme and data migrations like this:
+```rb
+# db/migrate/20250804182426_upgrade_act_as_page_extractor_to_version.rb
+class UpgradeActAsPageExtractorToVersion < ActiveRecord::Migration
+  def change
+    add_column :documents, :pages_extraction_errors, :string, default: ''
+  end
+end
+# db/data/20250804183544_upgrade_act_as_page_extractor_to_version.rb
+class UpgradeActAsPageExtractorToVersion < ActiveRecord::Migration
+  def up
+    Document
+      .where(page_extraction_state: 'error.extraction')
+      .update_all(page_extraction_state: 'error_extraction')
+  end
+  def down
+    raise ActiveRecord::IrreversibleMigration
+  end
+end
+```
+## [0.6.0] - 2024-08-31
+### Changed
+- Upgraded to Ruby 3.2 minimal version ([4b463a1], [be52d9c])
+- Upgraded to ActiveRecord >=6.x.x ([7881613], [48e6d8b], [8bd3707])
+- Improved docs & Readme ([c405044], [6e895bb])
+## [0.5.0] - 2024-08-30
+### Changed
+- Upgraded to ActiveRecord 6.0 ([9eea586])
+## [0.2.3] - 2020-06-05
+### Changed
+- Upgraded to ActiveRecord-5.2.0 ([cde1f36])
+## [0.2.2] - 2020-06-04
+### Changed
+- Upgraded to ActiveRecord-5.1.0 ([f6ea8d7])
+## [0.2.1] - 2020-05-11
+### Changed
+- Upgraded to ActiveRecord-5.0.0 ([5c595ee], [3eb4ad7])
+## [0.1.6] - 2020-05-10
+### Changed
+- Updated libraries ([eca4346]), ([7d3bb4f], [203c689], [171cf27])
+## [0.1.2] - 2018-11-29
+### Changed
+- Updated rubyzip library ([38c4156])
+## [0.1.1] - 2017-01-10
+### Changed
+- Removed code coverage from Rails generators ([a990357])
+## [0.1.0] - 2017-01-09
+### Added
+- Initial commit ([47c0950], [5225f33])
+- Fixed tests ([e68a6b7])

data/Gemfile CHANGED Viewed

@@ -3,11 +3,11 @@ source 'https://rubygems.org'
 # Specify your gem's dependencies in total_compressor.gemspec
 gemspec
-ruby '>= 3.2'
+ruby '3.2.3'
-gem 'activerecord', '~> 6'
+gem 'activerecord'
-gem 'awesome_print'
+gem 'amazing_print'
 gem 'docsplit'            # API for OpenOffice jodconverter (any to pdf)
 gem 'pdf_utils'           # getting text from pdf

data/Gemfile.lock CHANGED Viewed

@@ -1,9 +1,9 @@
 PATH
   remote: .
   specs:
-    act_as_page_extractor (0.6.4)
-      activerecord (~> 6)
-      awesome_print (~> 1)
+    act_as_page_extractor (0.7.1)
+      activerecord (~> 6.0)
+      amazing_print (~> 1)
       docsplit (~> 0)
       filesize (~> 0)
       pdf-reader (~> 1, >= 1.4)
@@ -27,8 +27,9 @@ GEM
       tzinfo (~> 2.0)
       zeitwerk (~> 2.3)
     afm (0.2.2)
+    amazing_print (1.8.1)
     awesome_print (1.9.2)
-    byebug (11.1.3)
+    byebug (12.0.0)
     concurrent-ruby (1.3.4)
     diff-lcs (1.5.1)
     docile (1.4.1)
@@ -84,9 +85,9 @@ PLATFORMS
 DEPENDENCIES
   act_as_page_extractor!
-  activerecord (~> 6)
-  awesome_print
-  bundler (~> 2)
+  activerecord
+  amazing_print
+  bundler (~> 2.2, >= 2.2.33)
   byebug
   docsplit
   filesize
@@ -99,7 +100,7 @@ DEPENDENCIES
   total_compressor
 RUBY VERSION
-   ruby 3.2.0p0
+   ruby 3.2.3p157
 BUNDLED WITH
    2.4.1

data/README.md CHANGED Viewed

@@ -1,30 +1,29 @@
+[![codecov](https://codecov.io/gh/phlowerteam/act_as_page_extractor/branch/41-Feature-Improve-error-procesing/graph/badge.svg)](https://codecov.io/gh/phlowerteam/act_as_page_extractor)
 act_as_page_extractor
 ================
-Library for extracting plain text from documents(files) for further processing (indexing and searching).
+A library that extracts plain text from documents for subsequent processing, such as indexing and search.
 ## Installation
-Install appropriate tools before using:
+Install all dependencies before use:
 ```sh
-sudo apt-get install zlib1g zlib1g-dev zip rar p7zip-full
+sh Aptfile.sh
 ```
-Add this line to your application's Gemfile:
+Add this to your Gemfile:
 ```rb
 gem 'act_as_page_extractor'
-bundle
 ```
 ## Usage
-For example, for model Document in the Rails framework we need run:
+Generate a migration, for example for a Document model:
 ```sh
 rails g act_as_page_extractor:migration Document category_id user_id
 ```
-As a result we get two migration files:
+This will generate two migration files:
 ```rb
 class AddPageExtractorFields < ActiveRecord::Migration
   def change
@@ -32,6 +31,7 @@ class AddPageExtractorFields < ActiveRecord::Migration
     add_column :documents, :page_extraction_pages, :integer, default: 0
     add_column :documents, :page_extraction_doctype, :string, default: ''
     add_column :documents, :page_extraction_filesize, :string, default: ''
+    add_column :documents, :pages_extraction_errors, :string, default: ''
   end
 end
@@ -65,20 +65,20 @@ Add to model next parameters for initializing:
     act_as_page_extractor options: {
       document_class:    'Document',
-      save_as_pdf:       true,
+      save_as_pdf:       true, # store converted document as PDF
       filename:          :filename,
       document_id:       :document_id,
-      additional_fields: [:category_id, :user_id],
-      #file_storage:      "/full/path/to/documents/storage",
-      #pdf_storage:       "/full/path/to/extracted/pdf/storage"
+      additional_fields: [:category_id, :user_id], # copy values of these fields from document to extracted_page
+      root_folder:       Rails.root.to_s, # or "/full/path/to/project", it needs to share folder between deployments
+      # file_storage:      "/full/path/to/project/public/uploads/documents/storage" # optional
+      # pdf_storage:       "/full/path/to/project/public/uploads/extracted/pdf/storage" # optional
     }
     has_many :extracted_pages, dependent: :destroy
 end
 ```
-Now our instance has few new methods:
+The instance now provides several new methods:
 ```rb
 document = Document.first
 document.page_extract!
@@ -100,29 +100,24 @@ ActAsPageExtractor.statistics
 Parameters of initializing **act_as_page_extractor**:
-* **document_class** - name of model (e.g. Document)
-* **save_as_pdf** - boolean [true, false] when we want save temporary pdf
-* **filename** - name of field which contains access to the file and it should be an object with 'url' method that returns path to file (e.g. CarrierWave object with 'filename.url')
-* **document_id** - name for saving id
-* **additional_fields** - additional fields that added to extracted page (e.g. for indexing, etc.)
-* **file_storage** - path for saving tmp files (by default it is "public")
-* **pdf_storage** - path for saving pdf (by default it is "public/uploads/extracted/pdf")
+* **document_class** — The name of the model (e.g., `Document`).
+* **save_as_pdf** — Boolean (`true`/`false`). Indicates whether to save a temporary PDF.
+* **filename** — The field containing access to the file. This should be an object with a `url` method that returns the file path (e.g., a CarrierWave object with `filename.url`).
+* **document_id** — The field name for storing the document ID.
+* **additional_fields** — Extra fields to be added to the extracted page (useful for indexing, etc.).
+* **root_folder** — The root folder to be shared across deployments (e.g., `Rails.root.to_s`).
+* **file_storage** — Path for saving temporary files (default: `"public"`).
+* **pdf_storage** — Path for saving PDFs (default: `"public/uploads/extracted/pdf"`).
 ## Run tests
 ```sh
+bundle
 rspec
 ```
-## Contributing
-1. Fork it
-2. Create your feature branch (`git checkout -b my-new-feature`)
-3. Commit your changes (`git commit -am 'Add some feature'`)
-4. Push to the branch (`git push origin my-new-feature`)
-5. Create new Pull Request
 ## Contacts
-https://github.com/phlowerteam
-phlowerteam@gmail.com
+https://github.com/phlowerteam / phlowerteam[A]gmail.com
 ## License
-Copyright (c) 2024 PhlowerTeam
-MIT License
+MIT License © 2025 PhlowerTeam

data/act_as_page_extractor.gemspec CHANGED Viewed

@@ -16,15 +16,16 @@ Gem::Specification.new do |spec|
   spec.files         = `git ls-files`.split($/)
   spec.test_files    = spec.files.grep(%r{^(test|spec|features)/})
   spec.require_paths = ['lib']
+  spec.required_ruby_version = '>= 3.2'
-  spec.add_development_dependency 'bundler',   '~> 2'
+  spec.add_development_dependency 'bundler',   '~> 2.2', '>= 2.2.33'
   spec.add_development_dependency 'rake',      '~> 12', '>= 12.3.3'
   spec.add_development_dependency 'byebug',    '~> 0'
   spec.add_development_dependency 'rspec',     '~> 0'
   spec.add_development_dependency 'simplecov', '~> 0'
-  spec.add_runtime_dependency 'activerecord',     '~> 6'
-  spec.add_runtime_dependency 'awesome_print',    '~> 1'
+  spec.add_runtime_dependency 'activerecord',     '~> 6.0'
+  spec.add_runtime_dependency 'amazing_print',    '~> 1'
   spec.add_runtime_dependency 'docsplit',         '~> 0'                  # API for OpenOffice jodconverter (any to pdf)
   spec.add_runtime_dependency 'pdf_utils',        '~> 0'                  # getting text from pdf
   spec.add_runtime_dependency 'prawn',            '~> 1'                # need for pdf_utils

data/lib/act_as_page_extractor/modules/extracting.rb CHANGED Viewed

@@ -20,23 +20,22 @@ module ActAsPageExtractor
         pdf_path if File.exist?(pdf_path)
       end
     end
+  rescue StandardError => e
+    add_error(e)
   end
   def convert_to_text
-    begin
-      @pdf_pages = PdfUtils.info(@pdf_path).pages
-      if @pdf_pages
-        if timeout_wrapper{ Docsplit::extract_text(@pdf_path, ocr: false, pages: 'all', output: @tmp_dir) }
-        else
-          # :nocov:
-          @pdf_pages = nil
-          raise
-          # :nocov:
-        end
+    @pdf_pages = PdfUtils.info(@pdf_path).pages
+    if @pdf_pages
+      if timeout_wrapper{ Docsplit::extract_text(@pdf_path, ocr: false, pages: 'all', output: @tmp_dir) }
+      else
+        # :nocov:
+        @pdf_pages = nil
+        raise ERRORS[:unknown_docsplit_error]
+        # :nocov:
       end
-    # :nocov:
-    rescue
     end
-    # :nocov:
+  rescue StandardError => e
+    add_error(e)
   end
 end

data/lib/act_as_page_extractor/modules/tools.rb CHANGED Viewed

@@ -5,8 +5,9 @@ module ActAsPageExtractor
   def timeout_wrapper
     result = nil
     begin
-      result = Timeout::timeout(60*5) { yield }
-    rescue
+      result = Timeout::timeout(EXTRACTION_TIMEOUT) { yield }
+    rescue StandardError => e
+      add_error(e)
     ensure
       result
     end
@@ -25,12 +26,13 @@ module ActAsPageExtractor
       }
     else
       {
-        page_extraction_state: EXTRACTING_STATES[:'error.extraction'],
+        page_extraction_state: @page_extraction_state || EXTRACTING_STATES[:error_extraction],
         page_extraction_pages: 0
       }
     end.merge({
         page_extraction_doctype: @document_path&.split('.')&.last,
-        page_extraction_filesize: Filesize.from("#{File.size(@document_path)} B").pretty
+        page_extraction_filesize: Filesize.from("#{File.size(@document_path)} B").pretty,
+        pages_extraction_errors: @pages_extraction_errors.chomp
       })
     self.update(updated_attributes)
   end
@@ -39,6 +41,14 @@ module ActAsPageExtractor
     self.extracted_pages.destroy_all
   end
+  def add_error(e)
+    if ERRORS.values.include?(e.message)
+      @pages_extraction_errors << "#{e.message}\n\n"
+    else
+      @pages_extraction_errors << "#{e.class}, #{e.message}\n#{e.backtrace[0..ERROR_BACKTRACE_LINES].join("\n")}\n"
+    end
+  end
   # :nocov:
   def debug_info
     # ap "@tmp_dir"

data/lib/act_as_page_extractor/modules/unzipping.rb CHANGED Viewed

@@ -1,6 +1,9 @@
 module ActAsPageExtractor
  def unzip_document
     @document_path = @copy_document_path
+    return if VALIDATE_DOC_TYPES.include?(@document_path.split('.').last&.downcase)
     if validate_compress_types
       result = TotalCompressor.decompress(@copy_document_path)
       if result[:success] && result[:files].length == 1
@@ -12,4 +15,15 @@ module ActAsPageExtractor
       end
     end
   end
+  def validate_compress_types
+    valid = VALIDATE_COMPRESS_TYPES.include?(@copy_document_path.split('.').last&.downcase)
+    unless valid
+      @page_extraction_state = EXTRACTING_STATES[:error_doctype]
+      @pages_extraction_errors << "#{EXTRACTING_STATES[:error_doctype]} "
+    end
+    valid
+  end
 end

data/lib/act_as_page_extractor/modules/validating.rb CHANGED Viewed

@@ -1,22 +1,28 @@
 module ActAsPageExtractor
-  VALIDATE_COMPRESS_TYPES = ['zip', 'rar', '7z', 'gzip'].freeze
-  VALIDATE_DOC_TYPES = ['txt', 'pdf', 'doc', 'docx',
-                        'rtf', 'odt', 'htm', 'html'].freeze
   def valid_document
     validate_size && validate_doc_types
   end
   def validate_size
     mb = 2**20
-    File.size(@copy_document_path) <= 1*mb
-  end
+    valid = File.size(@copy_document_path) <= 1*mb
+    unless valid
+      @page_extraction_state = EXTRACTING_STATES[:error_filesize]
+      @pages_extraction_errors << "#{EXTRACTING_STATES[:error_filesize]} "
+    end
-  def validate_compress_types
-    VALIDATE_COMPRESS_TYPES.include?(@copy_document_path.split('.').last&.downcase)
+    valid
   end
   def validate_doc_types
-    VALIDATE_DOC_TYPES.include?(@document_path.split('.').last&.downcase)
+    valid = VALIDATE_DOC_TYPES.include?(@document_path.split('.').last&.downcase)
+    unless valid
+      @page_extraction_state = EXTRACTING_STATES[:error_doctype]
+      @pages_extraction_errors << "#{EXTRACTING_STATES[:error_doctype]} "
+    end
+    valid
   end
 end

data/lib/act_as_page_extractor/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # :nocov:
 module ActAsPageExtractor
-  VERSION = "0.6.4"
+  VERSION = "0.7.1"
 end
 # :nocov:

data/lib/act_as_page_extractor.rb CHANGED Viewed

@@ -19,9 +19,26 @@ require 'act_as_page_extractor/modules/saving.rb'
 require 'act_as_page_extractor/modules/interface'
 module ActAsPageExtractor
   extend ActiveSupport::Concern
+  DEFAULT_ROOT_FOLDER = Dir.pwd.to_s
+  ERRORS = {
+    unknown_docsplit_error: 'Unknown Docsplit error'
+  }.freeze
+  ERROR_BACKTRACE_LINES = 15
+  EXTRACTING_STATES = {
+    new: 'new',
+    extracting: 'extracting',
+    extracted: 'extracted',
+    error_doctype: 'error_doctype',
+    error_extraction: 'error_extraction',
+    error_filesize: 'error_filesize'
+  }.freeze
+  EXTRACTION_TIMEOUT = 60*5 # 5 minutes
+  VALIDATE_COMPRESS_TYPES = ['zip', 'rar', '7z', 'gzip'].freeze
+  VALIDATE_DOC_TYPES = ['txt', 'pdf', 'doc', 'docx',
+                        'rtf', 'odt', 'htm', 'html'].freeze
   included do
     before_create { self.page_extraction_state = EXTRACTING_STATES[:new] }
     before_destroy :remove_files
@@ -35,23 +52,16 @@ module ActAsPageExtractor
       ActAsPageExtractor.define_singleton_method(:document_class) {|*args| Object.const_get(options[:document_class]) }
       define_method(:extracted_document_id){|*args| options[:document_id] }
       define_method(:additional_fields){|*args| options[:additional_fields] || [] }
-      define_method(:file_storage){|*args| options[:file_storage] || FILE_STORAGE }
-      define_method(:pdf_storage){|*args| options[:pdf_storage] || PDF_STORAGE }
+      define_method(:root_folder){|*args| options[:root_folder] || DEFAULT_ROOT_FOLDER }
+      define_method(:file_storage){|*args| options[:file_storage] || "#{root_folder}/public".freeze }
+      define_method(:pdf_storage){|*args| options[:pdf_storage] || "#{file_storage}/uploads/extracted/pdf".freeze }
+      define_method(:tmp_extraction_file_storage){|*args| "#{root_folder}/tmp/page_extraction" }
     end
   end
-  EXTRACTING_STATES = {
-    new: 'new',
-    extracting: 'extracting',
-    extracted: 'extracted',
-    'error.extraction': 'error.extraction'
-  }.freeze
-  TMP_EXTRACTION_FILE_STORAGE = "#{Dir.pwd}/tmp/page_extraction".freeze
-  FILE_STORAGE = "#{Dir.pwd}/public".freeze
-  PDF_STORAGE = "#{FILE_STORAGE}/uploads/extracted/pdf".freeze
   def initialized
+    @page_extraction_state = nil
+    @pages_extraction_errors = ''
     # add all need callbacks
       #on destroy remove pdf
@@ -90,7 +100,7 @@ module ActAsPageExtractor
   end
   def create_tmp_dir
-    @tmp_dir = "#{TMP_EXTRACTION_FILE_STORAGE}/#{SecureRandom.hex(6)}"
+    @tmp_dir = "#{tmp_extraction_file_storage}/#{SecureRandom.hex(6)}"
     FileUtils::mkdir_p(@tmp_dir) unless File.exist?(@tmp_dir)
   end

data/lib/generators/act_as_page_extractor/templates/add_page_extractor_fields_to_documents.rb.erb CHANGED Viewed

@@ -4,5 +4,6 @@ class <%= migration_class_name_documents %> < ActiveRecord::Migration
     add_column :<%= documents_table_name %>, :page_extraction_pages, :integer, default: 0
     add_column :<%= documents_table_name %>, :page_extraction_doctype, :string, default: ''
     add_column :<%= documents_table_name %>, :page_extraction_filesize, :string, default: ''
+    add_column :<%= documents_table_name %>, :pages_extraction_errors, :text, default: ''
   end
 end

data/spec/act_as_page_extractor_spec.rb CHANGED Viewed

@@ -15,7 +15,7 @@ describe ActAsPageExtractor do
       'Oscar_Wilde_The_Happy_Prince_en.docx.rar',
       'Oscar_Wilde_The_Happy_Prince_en.docx.7z'
     ].each do |document|
-      it "extraction valid document #{document}" do
+      it "extracts valid document #{document}" do
         book = Book.new({doc_path: document})
         allow(Book).to receive_message_chain('where') { [book] }
         ActAsPageExtractor.start_extraction
@@ -25,21 +25,58 @@ describe ActAsPageExtractor do
         unless document.match /pdf/
           expect(book.pdf_path).to match /pdf/
           expect(book.remove_files.count).to eq 1
+          expect(book.pages_extraction_errors).to be_empty
         end
         expect(ActAsPageExtractor.statistics).to include(supported_documents:  1)
       end
     end
   end
-  context 'incorrect extraction' do
-    [
-      'Oscar_Wilde_The_Happy_Prince_en.wrong',
-    ].each do |document|
-      it "extraction invalid document #{document}" do
-        book = Book.new({doc_path: document})
-        allow(Book).to receive_message_chain('where') { [book] }
+  describe 'errors processing' do
+    let(:book) { Book.new({doc_path: document}) }
+    before do
+      allow(Book).to receive_message_chain('where') { [book] }
+    end
+    context 'when invalid doctype' do
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.wrong' }
+      it "logs invalid doctype" do
+        ActAsPageExtractor.start_extraction
+        expect(book.page_extraction_state).to eq 'error_doctype'
+        expect(book.pages_extraction_errors).to match('error_doctype')
+      end
+    end
+    context 'with extraction timeout' do
+      let(:error_msg) { 'execution expired' }
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.docx' }
+      before do
+        allow(Docsplit).to receive(:extract_pdf).and_raise(Timeout::Error.new(error_msg))
+      end
+      it "logs timeout error" do
+        ActAsPageExtractor.start_extraction
+        expect(book.page_extraction_state).to eq 'error_extraction'
+        expect(book.pages_extraction_errors).to match(error_msg)
+      end
+    end
+    context 'when Docsplit returns failure' do
+      let(:error_msg) { 'Unknown Docsplit error' }
+      let(:document) { 'Oscar_Wilde_The_Happy_Prince_en.docx' }
+      before do
+        allow(Docsplit).to receive(:extract_pdf).and_raise(Timeout::Error.new(error_msg))
+        allow(Docsplit).to receive(:extract_text).and_raise(Timeout::Error.new(error_msg))
+      end
+      it "logs Docsplit error" do
         ActAsPageExtractor.start_extraction
-        expect(book.page_extraction_state).to eq ActAsPageExtractor::EXTRACTING_STATES[:'error.extraction']
+        expect(book.page_extraction_state).to eq 'error_extraction'
+        expect(book.pages_extraction_errors).to match(error_msg)
       end
     end
   end

data/spec/spec_helper.rb CHANGED Viewed

@@ -3,7 +3,7 @@ unless ENV['SKIP_COVERAGE']
   SimpleCov.start 'rails' do
     add_filter 'vendor'
   end
-  SimpleCov.minimum_coverage 100
+  SimpleCov.minimum_coverage 98
 end
 require 'rspec'

data/spec/support/models.rb CHANGED Viewed

@@ -14,7 +14,8 @@ class Book
                 :page_extraction_state,
                 :page_extraction_pages,
                 :page_extraction_doctype,
-                :page_extraction_filesize
+                :page_extraction_filesize,
+                :pages_extraction_errors
   def self.before_create &block
     yield
@@ -35,6 +36,7 @@ class Book
     filename:          :filename, # CarrierWave class with 'filename.url' method
     document_id:       :document_id,
     additional_fields: [:category_id, :user_id],
+    root_folder:       Dir.pwd.to_s,
     file_storage:      "#{Dir.pwd}/test/",
     pdf_storage:       "#{Dir.pwd}/test/uploads/extracted/pdf"
   }
@@ -44,6 +46,7 @@ class Book
     @id = @category_id = @user_id = nil
     @page_extraction_state = @page_extraction_pages = nil
     @page_extraction_doctype = @page_extraction_filesize = nil
+    @pages_extraction_errors = ''
     ExtractedPage.cleanup
   end
@@ -62,7 +65,13 @@ class Book
   def update params
     params.each do |key, value|
-      instance_eval("self.#{key} = #{value.class == String ? '\'' + value + '\'': value }")
+      if value.nil?
+        instance_eval("self.#{key} = nil")
+      elsif value.class == String
+        instance_eval("self.#{key} = \"#{value}\"")
+      else
+        instance_eval("self.#{key} = #{value}")
+      end
     end
   end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: act_as_page_extractor
 version: !ruby/object:Gem::Version
-  version: 0.6.4
+  version: 0.7.1
 platform: ruby
 authors:
 - PhlowerTeam
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2024-08-31 00:00:00.000000000 Z
+date: 2025-08-23 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -16,14 +16,20 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '2'
+        version: '2.2'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 2.2.33
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '2'
+        version: '2.2'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: 2.2.33
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
@@ -92,16 +98,16 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '6'
+        version: '6.0'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '6'
+        version: '6.0'
 - !ruby/object:Gem::Dependency
-  name: awesome_print
+  name: amazing_print
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
@@ -212,9 +218,12 @@ executables: []
 extensions: []
 extra_rdoc_files: []
 files:
+- ".github/workflows/coverage.yml"
 - ".gitignore"
 - ".rspec"
 - ".ruby-gemset"
+- Aptfile.sh
+- CHANGELOG.md
 - Gemfile
 - Gemfile.lock
 - LICENSE
@@ -261,14 +270,14 @@ required_ruby_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
-      version: '0'
+      version: '3.2'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.4.1
+rubygems_version: 3.4.19
 signing_key:
 specification_version: 4
 summary: Uses system calls