RubyGems - plaintext - Versions diffs - 0.3.0 → 0.3.1 - Mend

plaintext 0.3.0 → 0.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/CHANGELOG +6 -0
data/lib/plaintext/file_handler/zipped_xml_handler.rb +22 -7
data/lib/plaintext/file_handler/zipped_xml_handler/office_document_handler/pptx_handler.rb +10 -3
data/lib/plaintext/version.rb +1 -1
metadata +3 -3

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: eb87c916a0f34e20251b5a97cbcf1e354fc046b0
-  data.tar.gz: e6dff85b7b0cec1ae3fdebbaabb950be1b563215
+  metadata.gz: 857600eeedad2b6b305655743d6dd4768faa5e5d
+  data.tar.gz: 17c78e4c90da3f07f5637c92a0891feb54b25b5b
 SHA512:
-  metadata.gz: 48be94f65a07c3e400bacfae575758494afbf3d6004b19a99f7838a032b26d4503ae3ea47b46548de0dd34b4892c551d5d7af3620a72375ae9a771afc0601cc2
-  data.tar.gz: 0b5dc9aa9abae205083d3dd4dcc89572bf36361fee098c6145472735ac6d10c810b07595be095565baa18b99534b61bbbc63b4e26c445ccdac94a3468b6c962c
+  metadata.gz: 436883566c3f9e1598a3f482c9146195646aa4e5d123aaedfe15876bb2876e93dd4c5bc964c515ece9b5f4e93b25974745bc176bd1aafb51aa4c64084221c7d5
+  data.tar.gz: 92969693830e20b3a1fb842bb9e60a5ed63a93f87903da8c7c88466df7a62e14dec0bb03f457ba7b28e3ce47bf82da3c9cc1a22fae4555a6cba6dce9ebc48405

data/CHANGELOG CHANGED

@@ -6,6 +6,12 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 ## [Unreleased]
+## [0.3.1] - 2019-01-16
+### Added
+- The max_plaintext_bytes limit introduced in 0.3.0 is now also enforced in the
+  zipped XML handlers responsible for office document parsing.
 ## [0.3.0] - 2019-01-09
 ### Added

data/lib/plaintext/file_handler/zipped_xml_handler.rb CHANGED

@@ -9,16 +9,26 @@ module Plaintext
     class SaxDocument < Nokogiri::XML::SAX::Document
       attr_reader :text
-      def initialize(text_element, text_namespace)
+      def initialize(text_element, text_namespace, max_size = nil)
         @element = text_element
         @namespace_uri = text_namespace
+        @max_size = max_size
         @text = ''.dup
         @is_text = false
       end
+      def text_length_exceeded?
+        @max_size && (@text.length > @max_size)
+      end
       # Handle each element, expecting the name and any attributes
       def start_element_namespace(name, attrs = [], prefix = nil, uri = nil, ns = [])
-        if name == @element and uri == @namespace_uri
+        if name == @element and
+            uri == @namespace_uri and
+            !text_length_exceeded?
           @is_text = true
         end
       end
@@ -30,7 +40,10 @@ module Plaintext
       # Given the name of an element once its closing tag is reached
       def end_element_namespace(name, prefix = nil, uri = nil)
-        if name == @element and uri == @namespace_uri
+        if name == @element and
+            uri == @namespace_uri and
+            @is_text
           @text << ' '
           @is_text = false
         end
@@ -38,10 +51,11 @@ module Plaintext
     end
     def text(file, options = {})
+      max_size = options[:max_size]
       Zip::File.open(file) do |zip_file|
         zip_file.each do |entry|
           if entry.name == @file_name
-            return xml_to_text entry.get_input_stream
+            return xml_to_text entry.get_input_stream, max_size
           end
         end
       end
@@ -49,10 +63,11 @@ module Plaintext
     private
-    def xml_to_text(io)
-      sax_doc = SaxDocument.new @element, @namespace_uri
+    def xml_to_text(io, max_size)
+      sax_doc = SaxDocument.new @element, @namespace_uri, max_size
       Nokogiri::XML::SAX::Parser.new(sax_doc).parse(io)
-      sax_doc.text
+      text = sax_doc.text
+      max_size.present? ? text[0, max_size] : text
     end
   end
 end

data/lib/plaintext/file_handler/zipped_xml_handler/office_document_handler/pptx_handler.rb CHANGED

@@ -15,16 +15,23 @@ module Plaintext
     end
     def text(file, options = {})
+      max_size = options[:max_size]
       slides = []
+      result = ''.dup
       Zip::File.open(file) do |zip_file|
         zip_file.each do |entry|
           if entry.name =~ /slide(\d+)\.xml/
-            slides << [$1, xml_to_text(entry.get_input_stream)]
+            slides << [$1, entry]
           end
         end
+        slides.sort!{|a, b| a.first <=> b.first}
+        slides.each do |id, entry|
+          result << xml_to_text(entry.get_input_stream, max_size)
+          break if max_size and result.length >= max_size
+        end
       end
-      slides.sort!{|a, b| a.first <=> b.first}
-      slides.map(&:last).join ' '
+      return result
     end
   end
 end

data/lib/plaintext/version.rb CHANGED

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module Plaintext
-  VERSION = "0.3.0"
+  VERSION = "0.3.1"
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: plaintext
 version: !ruby/object:Gem::Version
-  version: 0.3.0
+  version: 0.3.1
 platform: ruby
 authors:
 - Jens Krämer
@@ -10,7 +10,7 @@ authors:
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2019-01-09 00:00:00.000000000 Z
+date: 2019-01-16 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rubyzip
@@ -155,7 +155,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.5.2.1
+rubygems_version: 2.4.5.5
 signing_key:
 specification_version: 4
 summary: Extract plain text from most common office documents.