RubyGems - simple_text_extract - Versions diffs - 0.1.1 → 0.1.2 - Mend

simple_text_extract 0.1.1 → 0.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml +4 -4
data/Gemfile.lock +5 -1
data/README.md +14 -0
data/lib/simple_text_extract/format_extractor/base.rb +5 -0
data/lib/simple_text_extract/format_extractor/doc.rb +1 -1
data/lib/simple_text_extract/format_extractor/doc_x.rb +1 -1
data/lib/simple_text_extract/format_extractor/pdf.rb +1 -1
data/lib/simple_text_extract/format_extractor/xls_x.rb +1 -1
data/lib/simple_text_extract/version.rb +1 -1
data/simple_text_extract.gemspec +1 -0
metadata +15 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 6bfb9a91dc36259a45033d005b1b5a4bc37c941b153235708ca6755d77cce66e
-  data.tar.gz: dad58cb4b7f039d258196a1ce8568e8169214b12d8ff1c024e1fd9f8412fdf5b
+  metadata.gz: 0c6b024db3cda3f2d163a321e838e37a61e95c4531afc8cc540f7ef0e49ca6d6
+  data.tar.gz: 017e1d1942669d66c74b43872e174d848e2909907f991b7802052edc7021aa43
 SHA512:
-  metadata.gz: 0c5923028e2ff87feecddfcc2f6b340d4ffeb20d92bde686d607a1f498a2fe94326cd5f2df514f392641bbea988776955c76c4a12651178c2a32f885fda39c3d
-  data.tar.gz: acfb70f0bc6746011111a39c5fb730e378372e21b7b5f9eafda1f072c0ead5801ac2425d00070e1b2cc6cb78f6df3a93a0d313ae4627af1e3a7de3339baab882
+  metadata.gz: 76a36c16f31adf9360ccc55b8f1da78b9afd3d5f1d7c89d4139518bd0070f1d3b250eeb11d43af4127057622036086c0dad34970788fbce36088a6b282835b6d
+  data.tar.gz: b0691f0e9a1f0cc3efbfa0aa8a8a2fb7d8370e5cbd40b2c3dd9cb1998f1b67bb3e7a5ce8851e11756f6db957ae8b039b838f4a845dc6358c10db1e8984bab964

data/Gemfile.lock CHANGED Viewed

@@ -1,14 +1,17 @@
 PATH
   remote: .
   specs:
-    simple_text_extract (0.1.0)
+    simple_text_extract (0.1.1)
 GEM
   remote: https://rubygems.org/
   specs:
     coderay (1.1.2)
+    metaclass (0.0.4)
     method_source (0.9.2)
     minitest (5.11.3)
+    mocha (1.8.0)
+      metaclass (~> 0.0.1)
     pry (0.12.2)
       coderay (~> 1.1.0)
       method_source (~> 0.9.0)
@@ -20,6 +23,7 @@ PLATFORMS
 DEPENDENCIES
   bundler (~> 1.17)
   minitest (~> 5.0)
+  mocha
   pry
   rake (~> 10.0)
   simple_text_extract!

data/README.md CHANGED Viewed

@@ -75,6 +75,20 @@ antiword
 gnumeric
 ```
+## Benchmarks
+*Benchmarks test extracting text from the same file 50 times (Macbook pro)*
+| File format | SimpleTextExtract | Henkei (i.e. Yomu/Apache Tika) |
+|-------------|-------------------|--------------------------------|
+| .doc        | 1.40s             | 74.27s                         |
+| .docx       | 0.78s             | 71.44s                         |
+| .pdf*       | 1.73s             | 82.86s                         |
+| .xlsx       | 21.99s            | 51.89s                         |
+| .txt        | 0.036s            | 39.25s                         |
+* SimpleTextExtract is limited in its text extraction from pdfs, as Tika can also perform OCR on pdfs with Tesseract
 ## Development
 After checking out the repo, run `bin/setup` to install dependencies. Then, run `rake test` to run the tests. You can also run `bin/console` for an interactive prompt that will allow you to experiment.

data/lib/simple_text_extract/format_extractor/base.rb CHANGED Viewed

@@ -13,6 +13,11 @@ module SimpleTextExtract
       def extract
       end
+      def missing_dependency?(command)
+        dependency = `command -v #{command}`
+        dependency.nil? || dependency.empty?
+      end
     end
   end
 end

data/lib/simple_text_extract/format_extractor/doc.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module SimpleTextExtract
   module FormatExtractor
     class Doc < Base
       def extract
-        return nil if `command -v antiword`.empty?
+        return nil if missing_dependency?('antiword')
         `antiword #{Shellwords.escape(file.path)}`
       end

data/lib/simple_text_extract/format_extractor/doc_x.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module SimpleTextExtract
   module FormatExtractor
     class DocX < Base
       def extract
-        return nil if `command -v unzip`.empty?
+        return nil if missing_dependency?("unzip")
         `unzip -p #{Shellwords.escape(file.path)} | grep '<w:t' | sed 's/<[^<]*>//g' | grep -v '^[[:space:]]*$'`
       end

data/lib/simple_text_extract/format_extractor/pdf.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module SimpleTextExtract
   module FormatExtractor
     class PDF < Base
       def extract
-        return nil if `command -v pdftotext`.empty?
+        return nil if missing_dependency?("pdftotext")
         `pdftotext #{Shellwords.escape(file.path)} -`
       end

data/lib/simple_text_extract/format_extractor/xls_x.rb CHANGED Viewed

@@ -4,7 +4,7 @@ module SimpleTextExtract
   module FormatExtractor
     class XlsX < Base
       def extract
-        return nil if `command -v ssconvert`.empty?
+        return nil if missing_dependency?("ssconvert")
         extract_filepath = "#{file.path.split(".")[0]}.txt"

data/lib/simple_text_extract/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module SimpleTextExtract
-  VERSION = "0.1.1"
+  VERSION = "0.1.2"
 end

data/simple_text_extract.gemspec CHANGED Viewed

@@ -31,4 +31,5 @@ Gem::Specification.new do |spec|
   spec.add_development_dependency "bundler", "~> 1.17"
   spec.add_development_dependency "rake", "~> 10.0"
   spec.add_development_dependency "minitest", "~> 5.0"
+  spec.add_development_dependency "mocha"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: simple_text_extract
 version: !ruby/object:Gem::Version
-  version: 0.1.1
+  version: 0.1.2
 platform: ruby
 authors:
 - Nick Weiland
@@ -52,6 +52,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '5.0'
+- !ruby/object:Gem::Dependency
+  name: mocha
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 description: Attempts to quickly extract text from various file types before resorting
   to something more extreme like Apache Tika. Built with ActiveStorage in mind.
 email: