RubyGems - act_as_page_extractor - Versions diffs - 0.6.0 → 0.6.2 - Mend

act_as_page_extractor 0.6.0 → 0.6.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/Gemfile +1 -1
data/Gemfile.lock +12 -15
data/README.md +80 -71
data/act_as_page_extractor.gemspec +6 -6
data/docs/publishing.md +14 -0
data/lib/act_as_page_extractor/modules/tools.rb +4 -4
data/lib/act_as_page_extractor/version.rb +1 -1
data/spec/spec_helper.rb +6 -2
metadata +21 -20

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 6fd076b19cd732c20e8aea0fd17f280523ff1b3013778d599757095c1f3e1e88
-  data.tar.gz: 41832e5eb175e7417b2862a72fa72b063a60a95692f5116b4dab98f5401b37bb
+  metadata.gz: d0bd64f8e12d0c7bb3a75893738e30af616e4bcc5b958b18853b35363823b5ef
+  data.tar.gz: d87505b025bd924a545e2f6cbd9071958d65f993a234092f65b3cb7e108b16b1
 SHA512:
-  metadata.gz: c2e3a77a42c332c7666b9e474b83dbb72527aa1a22833a3e59ecd97afa9145699479ade5dd2f8e6f1e434ebd8a11179179d96553e86297e984cf6808f086d78b
-  data.tar.gz: 91b844ef793d0724454cb92c92e5600cde2924ca4925d80b2150fb25c7bfed6354b8bd817fde978da2d35928f47ce8f11c36934d739b181aa95dce802e4e0232
+  metadata.gz: af0708407f3b4546424e1666926c248cdb9fe0813ede2dd642d099836282d2f608d8d47edcd5cd513cef9b3ead231c192f6b815ec7721eb141b6820f561d0f30
+  data.tar.gz: 6a5969118ff6a6141aaaec8989e38670f75a817afa230636ed84f9f2a4e7c1f160ee569664f940e1355cfc74dff56e30370ca993fbb38d2a7139c17f56858acf

data/Gemfile CHANGED Viewed

@@ -3,7 +3,7 @@ source 'https://rubygems.org'
 # Specify your gem's dependencies in total_compressor.gemspec
 gemspec
-gem 'activerecord', '~> 6.0'
+gem 'activerecord', '~> 6'
 gem 'awesome_print'

data/Gemfile.lock CHANGED Viewed

@@ -1,14 +1,14 @@
 PATH
   remote: .
   specs:
-    act_as_page_extractor (0.2.3)
-      activerecord (~> 6.0)
+    act_as_page_extractor (0.6.1)
+      activerecord (~> 6)
       awesome_print (~> 1)
       docsplit (~> 0)
       filesize (~> 0)
-      pdf-reader (~> 1.4.0, >= 1.4.0)
+      pdf-reader (~> 1, >= 1.4)
       pdf_utils (~> 0)
-      prawn (~> 0.7.1)
+      prawn (~> 1)
       total_compressor (~> 0)
 GEM
@@ -38,6 +38,7 @@ GEM
     i18n (1.14.5)
       concurrent-ruby (~> 1.0)
     minitest (5.25.1)
+    pdf-core (0.4.0)
     pdf-reader (1.4.1)
       Ascii85 (~> 1.0.0)
       afm (~> 0.2.1)
@@ -45,13 +46,9 @@ GEM
       ruby-rc4
       ttfunk
     pdf_utils (0.1.0)
-    prawn (0.7.2)
-      prawn-core (>= 0.7.2, < 0.8)
-      prawn-layout (>= 0.7.2, < 0.8)
-      prawn-security (>= 0.7.1, < 0.8)
-    prawn-core (0.7.2)
-    prawn-layout (0.7.2)
-    prawn-security (0.7.1)
+    prawn (1.3.0)
+      pdf-core (~> 0.4.0)
+      ttfunk (~> 1.4.0)
     rake (12.3.3)
     rspec (3.13.0)
       rspec-core (~> 3.13.0)
@@ -77,7 +74,7 @@ GEM
     total_compressor (0.1.11)
       awesome_print (~> 1.1, >= 1.1.0)
       rubyzip (~> 1.2, >= 1.2.2)
-    ttfunk (1.7.0)
+    ttfunk (1.4.0)
     tzinfo (2.0.6)
       concurrent-ruby (~> 1.0)
     zeitwerk (2.6.17)
@@ -87,16 +84,16 @@ PLATFORMS
 DEPENDENCIES
   act_as_page_extractor!
-  activerecord (~> 6.0)
+  activerecord (~> 6)
   awesome_print
-  bundler (~> 1.3)
+  bundler (~> 1)
   byebug
   docsplit
   filesize
   pdf-reader
   pdf_utils
   prawn
-  rake (~> 12.3, >= 12.3.3)
+  rake (~> 12, >= 12.3.3)
   rspec
   simplecov
   total_compressor

data/README.md CHANGED Viewed

@@ -7,102 +7,111 @@ Library for extracting plain text from documents(files) for further processing (
 Install appropriate tools before using:
-    sudo apt-get install zlib1g zlib1g-dev zip rar p7zip-full
+```sh
+sudo apt-get install zlib1g zlib1g-dev zip rar p7zip-full
+```
 Add this line to your application's Gemfile:
-    gem 'act_as_page_extractor'
+```rb
+gem 'act_as_page_extractor'
+bundle
+```
 ## Usage
-For example, for model Document we need execute:
+For example, for model Document in the Rails framework we need run:
-    $ bundle
-    $ rails g act_as_page_extractor:migration Document category_id user_id
+```sh
+rails g act_as_page_extractor:migration Document category_id user_id
+```
 As a result we get two migration files:
-    class AddPageExtractorFields < ActiveRecord::Migration
-      def change
-        add_column :documents, :page_extraction_state, :string, default: ''
-        add_column :documents, :page_extraction_pages, :integer, default: 0
-        add_column :documents, :page_extraction_doctype, :string, default: ''
-        add_column :documents, :page_extraction_filesize, :string, default: ''
-      end
-    end
-    class CreateExtractedPages < ActiveRecord::Migration
-      def change
-        create_table :extracted_pages do |t|
-          t.text :page
-          t.integer :document_id
-          t.integer :category_id
-          t.integer :user_id
-          t.integer :page_number
-          t.timestamps null: false
-        end
-        add_index :extracted_pages, :document_id
-        add_index :extracted_pages, :category_id
-        add_index :extracted_pages, [:document_id, :category_id]
-        add_index :extracted_pages, [:document_id, :page_number]
-      end
+```rb
+class AddPageExtractorFields < ActiveRecord::Migration
+  def change
+    add_column :documents, :page_extraction_state, :string, default: ''
+    add_column :documents, :page_extraction_pages, :integer, default: 0
+    add_column :documents, :page_extraction_doctype, :string, default: ''
+    add_column :documents, :page_extraction_filesize, :string, default: ''
+  end
+end
+class CreateExtractedPages < ActiveRecord::Migration
+  def change
+    create_table :extracted_pages do |t|
+      t.text :page
+      t.integer :document_id
+      t.integer :category_id
+      t.integer :user_id
+      t.integer :page_number
+      t.timestamps null: false
     end
+    add_index :extracted_pages, :document_id
+    add_index :extracted_pages, :category_id
+    add_index :extracted_pages, [:document_id, :category_id]
+    add_index :extracted_pages, [:document_id, :page_number]
+  end
+end
+```
-Model Document must have field which contains path to file(supports [different archive types](https://github.com/phlowerteam/total_compressor) that contains [txt, pdf, doc/x, txt, html, rtf, ...](https://www.exoplatform.com/docs/public/index.jsp?topic=%2FPLF43%2FPLFAdminGuide.Configuration.JODConverter.html))
+Model Document must have field which contains path to file(supports [different archive types](https://github.com/phlowerteam/total_compressor) that contains [txt, pdf, doc/x, txt, html, rtf, ...](https://docs-old.exoplatform.org/public/index.jsp?topic=%2FPLF41%2FPLFAdminGuide.Configuration.JODConverter.html))
 Add to model next parameters for initializing:
-        class Document < ActiveRecord::Base
-          include ActAsPageExtractor
+```rb
+  class Document < ActiveRecord::Base
+    include ActAsPageExtractor
-          act_as_page_extractor options: {
-            document_class:    'Document',
-            save_as_pdf:       true,
-            filename:          :filename,
-            document_id:       :document_id,
-            additional_fields: [:category_id, :user_id],
-            #file_storage:      "/full/path/to/documents/storage",
-            #pdf_storage:       "/full/path/to/extracted/pdf/storage"
-          }
+    act_as_page_extractor options: {
+      document_class:    'Document',
+      save_as_pdf:       true,
+      filename:          :filename,
+      document_id:       :document_id,
+      additional_fields: [:category_id, :user_id],
+      #file_storage:      "/full/path/to/documents/storage",
+      #pdf_storage:       "/full/path/to/extracted/pdf/storage"
+    }
-          has_many :extracted_pages, dependent: :destroy
-      end
+    has_many :extracted_pages, dependent: :destroy
+end
+```
 Now our instance has few new methods:
-    document = Document.first
-    document.page_extract!
-    document.extracted_pages
-    document.pdf_path # if option 'save_as_pdf' is 'true'
+```rb
+document = Document.first
+document.page_extract!
+document.extracted_pages
+document.pdf_path # if option 'save_as_pdf' is 'true'
-    # Access to pages
-    ExtractedPage.count
+# Access to pages
+ExtractedPage.count
-    # Importing whole directory of documents
-    ActAsPageExtractor.import_files('/path/to/foler/with/documents')
+# Importing whole directory of documents
+ActAsPageExtractor.import_files('/path/to/foler/with/documents')
-    # We can use cron for run the processing of all the new documents
-    ActAsPageExtractor.start_extraction
+# We can use cron for run the processing of all the new documents
+ActAsPageExtractor.start_extraction
-    # Getting statistics information of all documents
-    ActAsPageExtractor.statistics
+# Getting statistics information of all documents
+ActAsPageExtractor.statistics
+```
-Parameters of initializing `act_as_page_extractor options: { ... }`:
+Parameters of initializing **act_as_page_extractor**:
-`document_class` - name of model (e.g. 'Document)
-`save_as_pdf` - boolean [true, false] when we want save temporary pdf
-`filename` - name of field which contains access to the file and it should be an object with 'url' method that returns path to file (e.g. CarrierWave object with 'filename.url')
-`document_id` - name for saving id
-`additional_fields` - additional fields that added to extracted page (e.g. for indexing, etc.)
-`file_storage` - path for saving tmp files (by default it is "public")
-`pdf_storage` - path for saving pdf (by default it is "public/uploads/extracted/pdf")
+* **document_class** - name of model (e.g. Document)
+* **save_as_pdf** - boolean [true, false] when we want save temporary pdf
+* **filename** - name of field which contains access to the file and it should be an object with 'url' method that returns path to file (e.g. CarrierWave object with 'filename.url')
+* **document_id** - name for saving id
+* **additional_fields** - additional fields that added to extracted page (e.g. for indexing, etc.)
+* **file_storage** - path for saving tmp files (by default it is "public")
+* **pdf_storage** - path for saving pdf (by default it is "public/uploads/extracted/pdf")
 ## Run tests
-    $ COVERAGE=true rspec
+```sh
+rspec
+```
 ## Contributing
 1. Fork it
 2. Create your feature branch (`git checkout -b my-new-feature`)
@@ -115,5 +124,5 @@ https://github.com/phlowerteam
 phlowerteam@gmail.com
 ## License
-Copyright (c) 2017 PhlowerTeam
+Copyright (c) 2024 PhlowerTeam
 MIT License

data/act_as_page_extractor.gemspec CHANGED Viewed

@@ -10,25 +10,25 @@ Gem::Specification.new do |spec|
   spec.email         = ['phlowerteam@gmail.com']
   spec.description   = %q{Library (Docsplit wrapper) for text extraction from pdf, doc/x, txt files with OpenOffice}
   spec.summary       = %q{Uses system calls}
-  spec.homepage      = 'https://github.com/phlowerteam'
+  spec.homepage      = 'https://github.com/phlowerteam/act_as_page_extractor'
   spec.license       = 'MIT'
   spec.files         = `git ls-files`.split($/)
   spec.test_files    = spec.files.grep(%r{^(test|spec|features)/})
   spec.require_paths = ['lib']
-  spec.add_development_dependency 'bundler',   '~> 1.3'
-  spec.add_development_dependency 'rake',      '~> 12.3', '>= 12.3.3'
+  spec.add_development_dependency 'bundler',   '~> 1'
+  spec.add_development_dependency 'rake',      '~> 12', '>= 12.3.3'
   spec.add_development_dependency 'byebug',    '~> 0'
   spec.add_development_dependency 'rspec',     '~> 0'
   spec.add_development_dependency 'simplecov', '~> 0'
-  spec.add_runtime_dependency 'activerecord',     '~> 6.0'
+  spec.add_runtime_dependency 'activerecord',     '~> 6'
   spec.add_runtime_dependency 'awesome_print',    '~> 1'
   spec.add_runtime_dependency 'docsplit',         '~> 0'                  # API for OpenOffice jodconverter (any to pdf)
   spec.add_runtime_dependency 'pdf_utils',        '~> 0'                  # getting text from pdf
-  spec.add_runtime_dependency 'prawn',            '~> 0.7.1'              # need for pdf_utils
-  spec.add_runtime_dependency 'pdf-reader',       '~> 1.4.0', '>= 1.4.0'  # need for pdf_utils
+  spec.add_runtime_dependency 'prawn',            '~> 1'                # need for pdf_utils
+  spec.add_runtime_dependency 'pdf-reader',       '~> 1', '>= 1.4'      # need for pdf_utils
   spec.add_runtime_dependency 'total_compressor', '~> 0'                  # decompressing files
   spec.add_runtime_dependency 'filesize',         '~> 0'                  # pretty size of file
 end

data/docs/publishing.md ADDED Viewed

@@ -0,0 +1,14 @@
+# GEM publishing
+```sh
+# Add features or fix bugs
+# Increase version number x.y.z
+# lib/act_as_page_extractor/version.rb
+bundle update
+rspec
+# git commit & git push
+gem build act_as_page_extractor.gemspec
+gem install ./act_as_page_extractor-x.y.z.gem
+gem push act_as_page_extractor-x.y.z.gem
+```

data/lib/act_as_page_extractor/modules/tools.rb CHANGED Viewed

@@ -1,17 +1,17 @@
 require 'timeout'
 module ActAsPageExtractor
+  # :nocov:
   def timeout_wrapper
     result = nil
     begin
       result = Timeout::timeout(60*5) { yield }
     rescue
-    # :nocov:
     ensure
-    # :nocov:
       result
     end
   end
+  # :nocov:
   def is_extracted
     @pdf_pages.to_i > 0 && self.extracted_pages.count == @pdf_pages
@@ -46,11 +46,11 @@ module ActAsPageExtractor
     # ap "@copy_document_path"
     # ap @copy_document_path
     # ap "@document_path"
-    ap @document_path
+      # ap @document_path
     # ap "@pdf_path"
     # ap @pdf_path
     # ap "@pdf_pages"
-    ap @pdf_pages
+      # ap @pdf_pages
   end
   # :nocov:
 end

data/lib/act_as_page_extractor/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # :nocov:
 module ActAsPageExtractor
-  VERSION = "0.6.0"
+  VERSION = "0.6.2"
 end
 # :nocov:

data/spec/spec_helper.rb CHANGED Viewed

@@ -1,7 +1,11 @@
-if ENV['COVERAGE']
+unless ENV['SKIP_COVERAGE']
   require 'simplecov'
-  SimpleCov.start 'rails'
+  SimpleCov.start 'rails' do
+    add_filter 'vendor'
+  end
+  SimpleCov.minimum_coverage 100
 end
 require 'rspec'
 require 'support/models'
 require 'act_as_page_extractor'

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: act_as_page_extractor
 version: !ruby/object:Gem::Version
-  version: 0.6.0
+  version: 0.6.2
 platform: ruby
 authors:
 - PhlowerTeam
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2024-08-30 00:00:00.000000000 Z
+date: 2024-08-31 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -16,21 +16,21 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.3'
+        version: '1'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.3'
+        version: '1'
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '12.3'
+        version: '12'
     - - ">="
       - !ruby/object:Gem::Version
         version: 12.3.3
@@ -40,7 +40,7 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '12.3'
+        version: '12'
     - - ">="
       - !ruby/object:Gem::Version
         version: 12.3.3
@@ -92,14 +92,14 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '6.0'
+        version: '6'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '6.0'
+        version: '6'
 - !ruby/object:Gem::Dependency
   name: awesome_print
   requirement: !ruby/object:Gem::Requirement
@@ -148,34 +148,34 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.7.1
+        version: '1'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 0.7.1
+        version: '1'
 - !ruby/object:Gem::Dependency
   name: pdf-reader
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: 1.4.0
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 1.4.0
+        version: '1'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '1.4'
   type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: 1.4.0
     - - "~>"
       - !ruby/object:Gem::Version
-        version: 1.4.0
+        version: '1'
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '1.4'
 - !ruby/object:Gem::Dependency
   name: total_compressor
   requirement: !ruby/object:Gem::Requirement
@@ -221,6 +221,7 @@ files:
 - README.md
 - Rakefile
 - act_as_page_extractor.gemspec
+- docs/publishing.md
 - lib/act_as_page_extractor.rb
 - lib/act_as_page_extractor/modules/extracting.rb
 - lib/act_as_page_extractor/modules/interface.rb
@@ -248,7 +249,7 @@ files:
 - test/test-doc-3-pages.rtf
 - test/test-doc-3-pages.txt
 - test/test-doc-3-pages.wrong
-homepage: https://github.com/phlowerteam
+homepage: https://github.com/phlowerteam/act_as_page_extractor
 licenses:
 - MIT
 metadata: {}
@@ -267,7 +268,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.0.3
+rubygems_version: 3.3.22
 signing_key:
 specification_version: 4
 summary: Uses system calls