RubyGems - act_as_page_extractor - Versions diffs - 0.1.0 - Mend

act_as_page_extractor 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

checksums.yaml +7 -0
data/.gitignore +57 -0
data/.rmvrc +1 -0
data/.rspec +3 -0
data/.ruby-gemset +1 -0
data/.ruby-version +1 -0
data/Gemfile +22 -0
data/Gemfile.lock +107 -0
data/LICENSE +21 -0
data/README.md +119 -0
data/Rakefile +6 -0
data/act_as_page_extractor.gemspec +34 -0
data/lib/act_as_page_extractor.rb +126 -0
data/lib/act_as_page_extractor/modules/extracting.rb +35 -0
data/lib/act_as_page_extractor/modules/interface.rb +30 -0
data/lib/act_as_page_extractor/modules/saving.rb +47 -0
data/lib/act_as_page_extractor/modules/tools.rb +54 -0
data/lib/act_as_page_extractor/modules/unzipping.rb +15 -0
data/lib/act_as_page_extractor/modules/validating.rb +22 -0
data/lib/act_as_page_extractor/version.rb +5 -0
data/lib/generators/act_as_page_extractor/migration_generator.rb +49 -0
data/lib/generators/act_as_page_extractor/templates/act_as_page_extractor.rb.erb +14 -0
data/lib/generators/act_as_page_extractor/templates/add_page_extractor_fields_to_documents.rb.erb +8 -0
data/lib/generators/act_as_page_extractor/templates/create_extracted_pages_table.rb.erb +19 -0
data/lib/generators/act_as_page_extractor/templates/extracted_page.rb.erb +3 -0
data/spec/act_as_page_extractor_spec.rb +46 -0
data/spec/spec_helper.rb +8 -0
data/spec/support/models.rb +92 -0
data/test/test-doc-3-pages.doc +0 -0
data/test/test-doc-3-pages.docx +0 -0
data/test/test-doc-3-pages.docx.7z +0 -0
data/test/test-doc-3-pages.docx.rar +0 -0
data/test/test-doc-3-pages.docx.zip +0 -0
data/test/test-doc-3-pages.html +279 -0
data/test/test-doc-3-pages.odt +0 -0
data/test/test-doc-3-pages.pdf +0 -0
data/test/test-doc-3-pages.rtf +339 -0
data/test/test-doc-3-pages.txt +125 -0
data/test/test-doc-3-pages.wrong +0 -0
metadata +279 -0

data/test/test-doc-3-pages.txt ADDED Viewed

@@ -0,0 +1,125 @@
+require 'act_as_page_extractor/version'
+require 'active_record'
+require 'awesome_print'
+require 'filesize'
+require 'total_compressor'
+require 'docsplit'
+require 'pdf_utils'
+require 'prawn'
+require 'pdf-reader'
+require 'act_as_page_extractor/modules/tools.rb'
+require 'act_as_page_extractor/modules/validating.rb'
+require 'act_as_page_extractor/modules/unzipping.rb'
+require 'act_as_page_extractor/modules/extracting.rb'
+require 'act_as_page_extractor/modules/saving.rb'
+require 'act_as_page_extractor/modules/interface'
+module ActAsPageExtractor
+  extend ActiveSupport::Concern
+  included do
+    before_create { self.page_extraction_state = EXTRACTING_STATES[:new] }
+    before_destroy :remove_files
+  end
+  # attr_reader :options
+  module ClassMethods
+    def act_as_page_extractor(options: {})
+      define_method(:save_as_pdf){|*args| options[:save_as_pdf] }
+      define_method(:extracted_filename){|*args| self.send(options[:filename].to_sym) }
+      ActAsPageExtractor.define_singleton_method(:extracted_filename) {|*args| options[:filename] }
+      ActAsPageExtractor.define_singleton_method(:document_class) {|*args| options[:document_class].constantize }
+      define_method(:extracted_document_id){|*args| options[:document_id] }
+      define_method(:additional_fields){|*args| options[:additional_fields] }
+    end
+  end
+  EXTRACTING_STATES = {
+    new: 'new',
+    extracting: 'extracting',
+    extracted: 'extracted',
+    'error.extraction': 'error.extraction'
+  }.freeze
+  TMP_EXTRACTION_FILE_STORAGE = "#{Dir.pwd}/tmp/page_extraction".freeze
+  FILE_STORAGE = "#{Dir.pwd}/public".freeze
+  PDF_STORAGE = "#{FILE_STORAGE}/uploads/extracted/pdf".freeze
+  def initialized
+    # add all need callbacks
+      #on destroy remove pdf
+    #Add to Readme!!
+    #rails g act_as_page_extractor:migration Document category_id user_id
+    # add to [Document] model:
+    # has_many :extracted_pages, dependent: :destroy
+    create_pdf_dir
+  end
+  def page_extract!
+    initialized
+    cleanup_pages
+    create_tmp_dir
+    begin
+      copy_document
+      # debug_info
+      unzip_document
+      if valid_document
+        extract_pages
+        save_to_db
+      end
+    ensure
+      update_state
+      save_pdf
+      finish
+    end
+  end
+  def create_pdf_dir
+    if save_as_pdf
+      FileUtils::mkdir_p(PDF_STORAGE) unless File.exists?(PDF_STORAGE)
+    end
+  end
+  def create_tmp_dir
+    @tmp_dir = "#{TMP_EXTRACTION_FILE_STORAGE}/#{SecureRandom.hex(6)}"
+    FileUtils::mkdir_p(@tmp_dir) unless File.exists?(@tmp_dir)
+  end
+  def copy_document
+    @origin_document_path = "#{FILE_STORAGE}#{self.send(:extracted_filename).url.to_s}"
+    ap @origin_document_path
+    FileUtils.cp(@origin_document_path, @tmp_dir)
+    @copy_document_path = "#{@tmp_dir}/#{@origin_document_path.split("/").last}"
+    @document_filename = @origin_document_path.split("/").last
+  end
+  def finish
+    remove_tmp_dir
+  end
+  def remove_tmp_dir
+    FileUtils.rm_rf(@tmp_dir) if @tmp_dir =~ /\/tmp\//
+  end
+end
+# rails g model ExtractedPage page:text document_id:integer category_id:integer page_number:integer
+# Rails 4 way
+# 9.2.7.1 Multiple Callback Methods in One Class
+# 258 page
+# class ActiveRecord::Base
+#   def self.acts_as_page_extractor(document_field=:filename)
+#     auditor = Auditor.new(audit_log)
+#     after_create auditor
+#     after_update auditor
+#     after_destroy auditor
+#   end
+# end

data/test/test-doc-3-pages.wrong ADDED Viewed

Binary file

metadata ADDED Viewed

@@ -0,0 +1,279 @@
+--- !ruby/object:Gem::Specification
+name: act_as_page_extractor
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+platform: ruby
+authors:
+- PhlowerTeam
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2017-01-09 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: bundler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.3'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.3'
+- !ruby/object:Gem::Dependency
+  name: rake
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: byebug
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: rspec
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: simplecov
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: activerecord
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '4.1'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '4.1'
+- !ruby/object:Gem::Dependency
+  name: awesome_print
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: docsplit
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: pdf_utils
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: prawn
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.7.1
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.7.1
+- !ruby/object:Gem::Dependency
+  name: pdf-reader
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: total_compressor
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: filesize
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+description: Library (Docsplit wrapper) for text extraction from pdf, doc/x, txt files
+  with OpenOffice
+email:
+- phlowerteam@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- ".gitignore"
+- ".rmvrc"
+- ".rspec"
+- ".ruby-gemset"
+- ".ruby-version"
+- Gemfile
+- Gemfile.lock
+- LICENSE
+- README.md
+- Rakefile
+- act_as_page_extractor.gemspec
+- lib/act_as_page_extractor.rb
+- lib/act_as_page_extractor/modules/extracting.rb
+- lib/act_as_page_extractor/modules/interface.rb
+- lib/act_as_page_extractor/modules/saving.rb
+- lib/act_as_page_extractor/modules/tools.rb
+- lib/act_as_page_extractor/modules/unzipping.rb
+- lib/act_as_page_extractor/modules/validating.rb
+- lib/act_as_page_extractor/version.rb
+- lib/generators/act_as_page_extractor/migration_generator.rb
+- lib/generators/act_as_page_extractor/templates/act_as_page_extractor.rb.erb
+- lib/generators/act_as_page_extractor/templates/add_page_extractor_fields_to_documents.rb.erb
+- lib/generators/act_as_page_extractor/templates/create_extracted_pages_table.rb.erb
+- lib/generators/act_as_page_extractor/templates/extracted_page.rb.erb
+- spec/act_as_page_extractor_spec.rb
+- spec/spec_helper.rb
+- spec/support/models.rb
+- test/test-doc-3-pages.doc
+- test/test-doc-3-pages.docx
+- test/test-doc-3-pages.docx.7z
+- test/test-doc-3-pages.docx.rar
+- test/test-doc-3-pages.docx.zip
+- test/test-doc-3-pages.html
+- test/test-doc-3-pages.odt
+- test/test-doc-3-pages.pdf
+- test/test-doc-3-pages.rtf
+- test/test-doc-3-pages.txt
+- test/test-doc-3-pages.wrong
+homepage: https://github.com/phlowerteam
+licenses:
+- MIT
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubyforge_project:
+rubygems_version: 2.5.1
+signing_key:
+specification_version: 4
+summary: Uses system calls
+test_files:
+- spec/act_as_page_extractor_spec.rb
+- spec/spec_helper.rb
+- spec/support/models.rb
+- test/test-doc-3-pages.doc
+- test/test-doc-3-pages.docx
+- test/test-doc-3-pages.docx.7z
+- test/test-doc-3-pages.docx.rar
+- test/test-doc-3-pages.docx.zip
+- test/test-doc-3-pages.html
+- test/test-doc-3-pages.odt
+- test/test-doc-3-pages.pdf
+- test/test-doc-3-pages.rtf
+- test/test-doc-3-pages.txt
+- test/test-doc-3-pages.wrong