RubyGems - ocr-file - Versions diffs - 0.0.2 → 0.0.3 - Mend

ocr-file 0.0.2 → 0.0.3

Files changed (6) hide show

checksums.yaml +4 -4
data/README.md +2 -2
data/lib/ocr-file/document.rb +1 -1
data/lib/ocr-file/image_engines/image_magick.rb +7 -0
data/lib/ocr-file/version.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: f188bc0b29f4232b379e5e15d924c57a64a1758f04d8e168d2a44a744d20d1af
-  data.tar.gz: 5b54d844f01a5a5249572dd0abc270ae1fb37ff0070df9ad47eb84cf5f233fe7
+  metadata.gz: 0e67553a31e82eba190368040d3475b812e113aedfb9994484043dda34a55053
+  data.tar.gz: 6fe5e142fef4387fc98fce57d3fdb2b7a0c37199d1712bd1d85dced9a0e61274
 SHA512:
-  metadata.gz: c51ab724a77e8b22568dc0c7cefcf3ba28407f7050976d6900824954221d4f04e677b31b58ae644c87752e60024e1667194eda8b00c89dfab30f9a81d53ba1d5
-  data.tar.gz: 9b521be6e75808899398e77cf0c0b9dee842350a5c81c0ba513ad56125725607906c8c19e6b493201750ba331521db4ba247723a1c09d82dfb61e8caec857428
+  metadata.gz: e5d06cf54a8bc96c90522ab67530310730230067ee226f6eb1143adde2ccb407dde25aef7b595836478ee944e4e9b3ff306b4df5a08ec14ab6623ab08daefa8b
+  data.tar.gz: 45a7c3d06908c878f281db9baf4ec82310ecde20e12cad5ff4cc03d2f271167d46fa52145fe598f594a3360a525c926d955bb08d17e740ba78f97ec72f0f4b47

data/README.md CHANGED Viewed

@@ -43,7 +43,7 @@ You will need to install `tesseract` with your desired language on your system,
     ocr_engine: 'tesseract', # 'cloud-vision'
     # Image Pre-Processing
     image_preprocess: true,
-    effects: ['despeckle', 'deskew', 'enhance', 'sharpen', 'bw'], # Applies effects as listed. 'norm' is also available
+    effects: ['despeckle', 'deskew', 'enhance', 'sharpen', 'remove_shadow', 'bw'], # Applies effects as listed. 'norm' is also available
     # PDF to Image Processing
     optimise_pdf: true,
     extract_pdf_images: true, # if false will screenshot each PDF page
@@ -83,7 +83,7 @@ You will need to install `tesseract` with your desired language on your system,
 ### Notes / Tips
 Set `extract_pdf_images` to `false` for higher quality OCR. However this will consume more temporary space per PDF page and also be considerably slower.
-Image pre-processing only thresholds (bw), normalises the colour space, removes speckles and tries to straighten the image. Will make the end result Black and White but have far more accurate OCR (PDFs). The order of operations is important, but steps can be removed when necessary.
+Image pre-processing only thresholds (bw), normalises the colour space, removes speckles, removes shadows and tries to straighten the image. Will make the end result Black and White but have far more accurate OCR (PDFs). The order of operations is important, but steps can be removed when necessary. Expanding the colour dynamic range with `'norm'` can also be done but isn't recommended.
 ### Simple CLI
 Once installed you can use `ocr-file` as a CLI. Its currently a reduced set of options. These are subject to change in future versions

data/lib/ocr-file/document.rb CHANGED Viewed

@@ -22,7 +22,7 @@ module OcrFile
       ocr_engine: 'tesseract', # 'cloud-vision'
       # Image Pre-Processing
       image_preprocess: true,
-      effects: ['despeckle', 'deskew', 'enhance', 'sharpen', 'bw'],
+      effects: ['despeckle', 'deskew', 'enhance', 'sharpen', 'remove_shadow', 'bw'],
       # PDF to Image Processing
       optimise_pdf: true,
       extract_pdf_images: true, # if false will screenshot each PDF page

data/lib/ocr-file/image_engines/image_magick.rb CHANGED Viewed

@@ -61,6 +61,13 @@ module OcrFile
         @image.sharpen('0x4') # radiusXsigma
       end
+      # https://github.com/ImageMagick/ImageMagick/discussions/4145
+      def remove_shadow
+        @image.negate
+        @image.lat("20x20+10\%")
+        @image.negate
+      end
       def deskew
         @image.deskew('40%') # threshold recommended in the docs
       end

data/lib/ocr-file/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module OcrFile
-  VERSION = "0.0.2"
+  VERSION = "0.0.3"
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: ocr-file
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3
 platform: ruby
 authors:
 - trex22