RubyGems - simple_text_extract - Versions diffs - 0.1.3 → 1.0.2 - Mend

simple_text_extract 0.1.3 → 1.0.2

Files changed (17) hide show

checksums.yaml +4 -4
data/.ruby-version +1 -1
data/Gemfile +0 -2
data/Gemfile.lock +18 -15
data/README.md +12 -6
data/Rakefile +1 -1
data/bin/console +0 -3
data/lib/simple_text_extract.rb +8 -4
data/lib/simple_text_extract/format_extractor/xls.rb +20 -0
data/lib/simple_text_extract/format_extractor/xls_x.rb +8 -6
data/lib/simple_text_extract/format_extractor_factory.rb +6 -3
data/lib/simple_text_extract/text_extractor.rb +39 -11
data/lib/simple_text_extract/version.rb +1 -1
data/simple_text_extract.gemspec +5 -3
metadata +25 -13
data/lib/simple_text_extract/file_extractor.rb +0 -17
data/lib/simple_text_extract/tempfile_extractor.rb +0 -34

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: bd06e0bd11dd74c71adb01918b474b714ebd3762785931d14d294052aa3301e5
-  data.tar.gz: 8fbfff63e6403e4abfc980abd03fce52a1653010c6d401c2507ae253d9391916
+  metadata.gz: 67a6daab9ba3d33ea757384fda1407875c1451cb2be0bb636ffea9b32384c12d
+  data.tar.gz: e5077817daf69f20d5ad54ae82b55465cf3727f5acb20df7382cc54403ca3e43
 SHA512:
-  metadata.gz: 6d2cc814d3b419e9540800752f097b2f9d860e4756e7bd6b8e62f6178ad6cd7967c0f0dd9912a6f900564a686e78564c2c2acb7cee412c9e857ae6ed48cc906e
-  data.tar.gz: dbb00c6da2de38f9d254486adb98bbce2c607a2c54c8637e2b8c9e08efae746ff8bd2ef384a9b1f7ffc2d4edaabda7527498c63726525aa29ba005f24db03770
+  metadata.gz: 7ef181da803d55ba917a5051402a3ac8527deb8886c68c417b4eabc677523a87fd011840944018c3c485a48c8dd2098b60960fc639b716481310c3ccc30f87a3
+  data.tar.gz: f73297a615714bbf29b48b87f0437f10c565078dd97d7ab0a07171f422233e5170f54e97eb19ea81f1e85b4777d52482807cc6efcc8c1737d31e52c41c59d778

data/.ruby-version CHANGED

	@@ -1 +1 @@
1	- 2.5.3
1	+ 2.6.5

data/Gemfile CHANGED

@@ -4,6 +4,4 @@ source "https://rubygems.org"
 git_source(:github) { |repo_name| "https://github.com/#{repo_name}" }
-gem "pry"
 gemspec

data/Gemfile.lock CHANGED

@@ -1,32 +1,35 @@
 PATH
   remote: .
   specs:
-    simple_text_extract (0.1.1)
+    simple_text_extract (1.0.0)
+      roo (~> 2.8.2)
+      spreadsheet (~> 1.1.8)
 GEM
   remote: https://rubygems.org/
   specs:
-    coderay (1.1.2)
-    metaclass (0.0.4)
-    method_source (0.9.2)
-    minitest (5.11.3)
-    mocha (1.8.0)
-      metaclass (~> 0.0.1)
-    pry (0.12.2)
-      coderay (~> 1.1.0)
-      method_source (~> 0.9.0)
-    rake (10.5.0)
+    mini_portile2 (2.4.0)
+    minitest (5.14.0)
+    mocha (1.11.2)
+    nokogiri (1.10.9)
+      mini_portile2 (~> 2.4.0)
+    rake (13.0.1)
+    roo (2.8.3)
+      nokogiri (~> 1)
+      rubyzip (>= 1.3.0, < 3.0.0)
+    ruby-ole (1.2.12.2)
+    rubyzip (2.3.0)
+    spreadsheet (1.1.9)
+      ruby-ole (>= 1.0)
 PLATFORMS
   ruby
 DEPENDENCIES
-  bundler (~> 1.17)
   minitest (~> 5.0)
   mocha
-  pry
-  rake (~> 10.0)
+  rake (~> 13.0)
   simple_text_extract!
 BUNDLED WITH
-   1.17.2
+   2.0.2

data/README.md CHANGED

@@ -9,6 +9,7 @@ SimpleTextExtract handles parsing text from:
 - `.doc`
 - `.xlsx`
 - `.xls`
+- `.csv`
 - `.txt` 😜
 If no text is parsed (for `pdf`), or a file format is not supported (like images), then `nil` is returned and you can move on to the heavy-duty tools like [Henkei](https://github.com/abrom/henkei) 💪.
@@ -34,11 +35,13 @@ Or install it yourself as:
 Text can be parsed from raw file content or files in the filesystem t by calling `SimpleTextExtract.extract`:
 ```ruby
-# raw file content using ActiveStorage
-SimpleTextExtract.extract(filename: attachment.blob.filename, raw: attachment.download)
+# using ActiveStorage >= 6
+extract = attachment.open { |tmp| SimpleTextExtract.extract(tempfile: tmp) }
+# raw file content or when ActiveStorage < 6
+extract = SimpleTextExtract.extract(filename: attachment.blob.filename, raw: attachment.download)
 # filesystem
-SimpleTextExtract.extract(filepath: "path_to_file.pdf")
+extract = SimpleTextExtract.extract(filepath: "path_to_file.pdf")
 ```
 ### Usage Dependencies
@@ -67,7 +70,7 @@ If not, you can either add that buildpack, or add `poppler-utils` to your `Aptfi
 ##### heroku-buildpack-apt
-To add `antiword` as a dependency on Heroku, install the [heroku-buildpack-apt](https://elements.heroku.com/buildpacks/heroku/heroku-buildpack-apt) buildpack and follow the install instructions.
+To add `antiword` and/or `gnumeric`* as a dependency on Heroku, install the [heroku-buildpack-apt](https://elements.heroku.com/buildpacks/heroku/heroku-buildpack-apt) buildpack and follow the install instructions.
 In your `Aptfile`, add:
 ```
@@ -75,6 +78,8 @@ antiword
 gnumeric
 ```
+* There is currently an [issue](https://github.com/heroku/heroku-buildpack-google-chrome/issues/59) with the heroku-18 stack that requires additional dependencies added to the Aptfile to get `gnumeric` to work properly.  You can reference the linked issue above to figure out those dependencies, or downgrade to heroku-16 until it is fixed.
 ## Benchmarks
 *Benchmarks test extracting text from the same file 50 times (Macbook pro)*
@@ -84,8 +89,9 @@ gnumeric
 | .doc        | 1.40s             | 74.27s                         |
 | .docx       | 0.78s             | 71.44s                         |
 | .pdf*       | 1.73s             | 82.86s                         |
-| .xlsx       | 21.99s            | 51.89s                         |
-| .txt        | 0.036s            | 39.25s                         |
+| .xlsx       | 1.16s             | 51.89s                         |
+| .xls        | 0.80s             | 67.88s                         |
+| .txt        | 0.04s             | 39.25s                         |
 * SimpleTextExtract is limited in its text extraction from pdfs, as Tika can also perform OCR on pdfs with Tesseract

data/Rakefile CHANGED

@@ -7,4 +7,4 @@ Rake::TestTask.new(:test) do |t|
   t.test_files = FileList["test/**/*_test.rb"]
 end
-task :default => :test
+task default: :test

data/bin/console CHANGED

@@ -6,8 +6,5 @@ require "simple_text_extract"
 # You can add fixtures and/or initialization code here to make experimenting
 # with your gem easier. You can also use a different console, if you like.
-require "pry"
-Pry.start
 require "irb"
 IRB.start(__FILE__)

data/lib/simple_text_extract.rb CHANGED

@@ -2,14 +2,18 @@
 require "simple_text_extract/version"
 require "simple_text_extract/text_extractor"
-require "simple_text_extract/file_extractor"
-require "simple_text_extract/tempfile_extractor"
 require "simple_text_extract/format_extractor_factory"
 module SimpleTextExtract
+  SUPPORTED_FILETYPES = ["xls", "xlsx", "doc", "docx", "txt", "pdf", "csv"].freeze
   class Error < StandardError; end
-  def self.extract(filename: nil, raw: nil, filepath: nil)
-    TextExtractor.call(filename: filename, raw: raw, filepath: filepath).to_s
+  def self.extract(filename: nil, raw: nil, filepath: nil, tempfile: nil)
+    TextExtractor.new(filename: filename, raw: raw, filepath: filepath, tempfile: tempfile).to_s
+  end
+  def self.supports?(filename: nil)
+    SUPPORTED_FILETYPES.include?(filename.split(".").last)
   end
 end

data/lib/simple_text_extract/format_extractor/xls.rb ADDED

@@ -0,0 +1,20 @@
+# frozen_string_literal: true
+module SimpleTextExtract
+  module FormatExtractor
+    class Xls < Base
+      def extract
+        require "spreadsheet"
+        spreadsheet = Spreadsheet.open(file)
+        text = []
+        spreadsheet.worksheets.each do |sheet|
+          text << sheet.name
+          text << sheet.rows
+        end
+        text.flatten.join(" ")
+      end
+    end
+  end
+end

data/lib/simple_text_extract/format_extractor/xls_x.rb CHANGED

@@ -4,16 +4,18 @@ module SimpleTextExtract
   module FormatExtractor
     class XlsX < Base
       def extract
-        return nil if missing_dependency?("ssconvert")
+        require "roo"
-        extract_filepath = "#{file.path.split(".")[0]}.txt"
+        spreadsheet = Roo::Spreadsheet.open(file, only_visible_sheets: true)
-        `ssconvert -O 'separator=" "' #{Shellwords.escape(file.path)} #{extract_filepath}`
+        text = []
-        text = File.read(extract_filepath)
-        File.unlink(extract_filepath)
+        spreadsheet.each_with_pagename do |name, sheet|
+          text << name
+          1.upto(sheet.last_row.to_i) { |row| text << sheet.row(row) }
+        end
-        text
+        text.flatten.join(" ")
       end
     end
   end

data/lib/simple_text_extract/format_extractor_factory.rb CHANGED

@@ -4,14 +4,15 @@ require "simple_text_extract/format_extractor/base"
 require "simple_text_extract/format_extractor/plain_text"
 require "simple_text_extract/format_extractor/pdf"
 require "simple_text_extract/format_extractor/xls_x"
+require "simple_text_extract/format_extractor/xls"
 require "simple_text_extract/format_extractor/doc_x"
 require "simple_text_extract/format_extractor/doc"
 module SimpleTextExtract
   class FormatExtractorFactory
-    def self.call(file) # rubocop:disable Metrics/MethodLength
+    def self.call(file) # rubocop:disable Metrics/MethodLength, Metrics/CyclomaticComplexity
       case file.path
-      when /.txt$/i
+      when /(.txt$|.csv$)/i
         FormatExtractor::PlainText.new(file)
       when /.pdf$/i
         FormatExtractor::PDF.new(file)
@@ -19,8 +20,10 @@ module SimpleTextExtract
         FormatExtractor::DocX.new(file)
       when /.doc$/i
         FormatExtractor::Doc.new(file)
-      when /(.xlsx$|.xls$)/i
+      when /.xlsx$/i
         FormatExtractor::XlsX.new(file)
+      when /.xls$/i
+        FormatExtractor::Xls.new(file)
       else
         FormatExtractor::Base.new(file)
       end

data/lib/simple_text_extract/text_extractor.rb CHANGED

@@ -2,24 +2,52 @@
 module SimpleTextExtract
   class TextExtractor
-    def self.call(filename: nil, raw: nil, filepath: nil)
-      if !filename.nil? && !raw.nil?
-        TempfileExtractor.new(filename: filename.to_s, raw: raw).extract
-      elsif !filepath.nil? && File.exist?(filepath)
-        FileExtractor.new(filepath: filepath).extract
-      end
-    end
+    attr_reader :file
-    def extract
-      text = FormatExtractorFactory.call(file).extract
-      cleanup
+    def initialize(filename: nil, raw: nil, filepath: nil, tempfile: nil)
+      @file = get_file(filename: filename, raw: raw, filepath: filepath, tempfile: tempfile)
+    end
-      text
+    def to_s
+      @to_s ||= extract.to_s
     end
     private
+      def get_file(filename:, raw:, filepath:, tempfile:)
+        if tempfile&.class == Tempfile
+          tempfile
+        elsif !filename.nil? && !raw.nil?
+          write_tempfile(filename: filename.to_s, raw: raw)
+        elsif !filepath.nil? && File.exist?(filepath)
+          File.new(filepath)
+        end
+      end
+      def extract
+        return unless file
+        begin
+          FormatExtractorFactory.call(file).extract
+        ensure
+          cleanup
+        end
+      end
       def cleanup
+        return unless file.class == Tempfile
+        file.close
+        file.unlink
+      end
+      def write_tempfile(filename:, raw:)
+        filename = filename.split(".").yield_self { |parts| [parts[0], ".#{parts[1]}"] }
+        file = Tempfile.new(filename)
+        raw = String.new(raw, encoding: Encoding::UTF_8)
+        file.write(raw)
+        file.tap(&:rewind)
       end
   end
 end

data/lib/simple_text_extract/version.rb CHANGED

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module SimpleTextExtract
-  VERSION = "0.1.3"
+  VERSION = "1.0.2"
 end

data/simple_text_extract.gemspec CHANGED

@@ -24,12 +24,14 @@ Gem::Specification.new do |spec|
   spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
   spec.require_paths = ["lib"]
-  spec.requirements << "Antiword"
+  spec.requirements << "antiword"
   spec.requirements << "pdftotext/poppler"
   spec.required_ruby_version = ">= 2.5"
-  spec.add_development_dependency "bundler", "~> 1.17"
-  spec.add_development_dependency "rake", "~> 10.0"
+  spec.add_runtime_dependency "roo", "~> 2.8.2"
+  spec.add_runtime_dependency "spreadsheet", "~> 1.1.8"
+  spec.add_development_dependency "rake", "~> 13.0"
   spec.add_development_dependency "minitest", "~> 5.0"
   spec.add_development_dependency "mocha"
 end

metadata CHANGED

@@ -1,43 +1,57 @@
 --- !ruby/object:Gem::Specification
 name: simple_text_extract
 version: !ruby/object:Gem::Version
-  version: 0.1.3
+  version: 1.0.2
 platform: ruby
 authors:
 - Nick Weiland
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2019-01-24 00:00:00.000000000 Z
+date: 2020-07-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
-  name: bundler
+  name: roo
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.17'
-  type: :development
+        version: 2.8.2
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 2.8.2
+- !ruby/object:Gem::Dependency
+  name: spreadsheet
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 1.1.8
+  type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.17'
+        version: 1.1.8
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '13.0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '13.0'
 - !ruby/object:Gem::Dependency
   name: minitest
   requirement: !ruby/object:Gem::Requirement
@@ -86,15 +100,14 @@ files:
 - bin/console
 - bin/setup
 - lib/simple_text_extract.rb
-- lib/simple_text_extract/file_extractor.rb
 - lib/simple_text_extract/format_extractor/base.rb
 - lib/simple_text_extract/format_extractor/doc.rb
 - lib/simple_text_extract/format_extractor/doc_x.rb
 - lib/simple_text_extract/format_extractor/pdf.rb
 - lib/simple_text_extract/format_extractor/plain_text.rb
+- lib/simple_text_extract/format_extractor/xls.rb
 - lib/simple_text_extract/format_extractor/xls_x.rb
 - lib/simple_text_extract/format_extractor_factory.rb
-- lib/simple_text_extract/tempfile_extractor.rb
 - lib/simple_text_extract/text_extractor.rb
 - lib/simple_text_extract/version.rb
 - simple_text_extract.gemspec
@@ -118,10 +131,9 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements:
-- Antiword
+- antiword
 - pdftotext/poppler
-rubyforge_project:
-rubygems_version: 2.7.6
+rubygems_version: 3.0.3
 signing_key:
 specification_version: 4
 summary: Attempts to quickly extract text from various file types before resorting

data/lib/simple_text_extract/file_extractor.rb DELETED

@@ -1,17 +0,0 @@
-# frozen_string_literal: true
-module SimpleTextExtract
-  class FileExtractor < TextExtractor
-    attr_reader :filepath
-    def initialize(filepath:)
-      @filepath = filepath
-    end
-    private
-      def file
-        @file ||= File.new(filepath)
-      end
-  end
-end

data/lib/simple_text_extract/tempfile_extractor.rb DELETED

@@ -1,34 +0,0 @@
-# frozen_string_literal: true
-module SimpleTextExtract
-  class TempfileExtractor < TextExtractor
-    attr_reader :filename, :raw
-    def initialize(filename:, raw:)
-      @filename = filename
-      @raw = String.new(raw, encoding: Encoding::UTF_8)
-      write_raw
-    end
-    private
-      def file
-        @file ||= Tempfile.new(filepath)
-      end
-      def write_raw
-        file.write(raw)
-        file.rewind
-      end
-      def cleanup
-        file.close
-        file.unlink
-      end
-      def filepath
-        @filepath ||= filename.split(".").yield_self { |parts| [parts[0], ".#{parts[1]}"] }
-      end
-  end
-end