RubyGems - simple_text_extract - Versions diffs - 0.2.0 → 0.2.1 - Mend

simple_text_extract 0.2.0 → 0.2.1

Files changed (6) hide show

checksums.yaml +4 -4
data/Gemfile.lock +1 -1
data/README.md +10 -3
data/lib/simple_text_extract/version.rb +1 -1
data/lib/simple_text_extract.rb +6 -0
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: fa34a31195f18156df695d2fb860a2beb9562f6a8ae76d6f2b6a7d4585e2e306
-  data.tar.gz: 3af31eaa54ed98bf8d0355cdf2bdf29f525a97e1ae66573b1c7317cbfcd3c951
+  metadata.gz: 83da9d28803f321b9a13aeaad4972211d40733b96f6b5fd085e52ab293a19d30
+  data.tar.gz: 99769610f1adef1d8fbe46647c7253af7859029a362854f4c8d73ec45fa9d8da
 SHA512:
-  metadata.gz: 3d37e232dd959b4c0897439a29b46f64d598f024b61bba2edc2cdad1f0d14461db77b93a227326697d4913e83ab87b4393234943aef964285b253c652849436d
-  data.tar.gz: 44255a841598321a97559ef3a77c3db3e6f6a7d22cb78fc78819aaecef643b8b67c85484b4f10ac979923f28c8f727fcaca69ebec694b3df9fe5f6a9c37cc1f9
+  metadata.gz: 6f8dc568cf35fe6519d24dfc9a97a2b3c4d68770d5d489a1a1c4f813307ff7cc2fb973a663656893b448fb2532198f36373827ef202887edb1ad73b0ef53d3e7
+  data.tar.gz: d334282c216656d91cb038d020e4c1da67ca563b708bf4356f0005ff8d1ec2f1dae1ea58c5427828a2a593b2ef238325caab4fdbdf9d3575ca8ca5e14b1791ca

data/Gemfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    simple_text_extract (0.1.3)
+    simple_text_extract (0.2.0)
       roo (~> 2.8)
       spreadsheet (~> 1.1.8)

data/README.md CHANGED Viewed

@@ -51,6 +51,9 @@ You can choose to use SimpleTextExtract without the following dependencies, but
 `doc` parsing requires `antiword`
 - `brew install antiword`
+`xlsx` and `xls` parsing requires `ssconvert` which is part of `gnumeric`
+- `brew install gnumeric`
 ### Usage on Heroku
 To use on Heroku you'll have to add some custom buildpacks.
@@ -64,13 +67,16 @@ If not, you can either add that buildpack, or add `poppler-utils` to your `Aptfi
 ##### heroku-buildpack-apt
-To add `antiword` as a dependency on Heroku, install the [heroku-buildpack-apt](https://elements.heroku.com/buildpacks/heroku/heroku-buildpack-apt) buildpack and follow the install instructions.
+To add `antiword` and/or `gnumeric`* as a dependency on Heroku, install the [heroku-buildpack-apt](https://elements.heroku.com/buildpacks/heroku/heroku-buildpack-apt) buildpack and follow the install instructions.
 In your `Aptfile`, add:
 ```
 antiword
+gnumeric
 ```
+* There is currently an [issue](https://github.com/heroku/heroku-buildpack-google-chrome/issues/59) with the heroku-18 stack that requires additional dependencies added to the Aptfile to get `gnumeric` to work properly.  You can reference the linked issue above to figure out those dependencies, or downgrade to heroku-16 until it is fixed.
 ## Benchmarks
 *Benchmarks test extracting text from the same file 50 times (Macbook pro)*
@@ -80,8 +86,9 @@ antiword
 | .doc        | 1.40s             | 74.27s                         |
 | .docx       | 0.78s             | 71.44s                         |
 | .pdf*       | 1.73s             | 82.86s                         |
-| .xlsx       | 21.99s            | 51.89s                         |
-| .txt        | 0.036s            | 39.25s                         |
+| .xlsx       | 1.16s             | 51.89s                         |
+| .xls        | 0.80s             | 67.88s                         |
+| .txt        | 0.04s             | 39.25s                         |
 * SimpleTextExtract is limited in its text extraction from pdfs, as Tika can also perform OCR on pdfs with Tesseract

data/lib/simple_text_extract/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module SimpleTextExtract
-  VERSION = "0.2.0"
+  VERSION = "0.2.1"
 end

data/lib/simple_text_extract.rb CHANGED Viewed

@@ -7,9 +7,15 @@ require "simple_text_extract/tempfile_extractor"
 require "simple_text_extract/format_extractor_factory"
 module SimpleTextExtract
+  SUPPORTED_FILETYPES = ["xls", "xlsx", "doc", "docx", "txt", "pdf"]
   class Error < StandardError; end
   def self.extract(filename: nil, raw: nil, filepath: nil)
     TextExtractor.call(filename: filename, raw: raw, filepath: filepath).to_s
   end
+  def self.supports?(filename: nil)
+    SUPPORTED_FILETYPES.include?(filename.split(".")[1])
+  end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: simple_text_extract
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.2.1
 platform: ruby
 authors:
 - Nick Weiland
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2019-01-25 00:00:00.000000000 Z
+date: 2019-01-28 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: roo