RubyGems - onlyoffice_pdf_parser - Versions diffs - 0.1.0 - Mend

onlyoffice_pdf_parser 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

checksums.yaml +7 -0
data/README.md +12 -0
data/lib/onlyoffice_pdf_parser/bmp_image.rb +110 -0
data/lib/onlyoffice_pdf_parser/helpers/array_helper.rb +23 -0
data/lib/onlyoffice_pdf_parser/helpers/cursor_point.rb +47 -0
data/lib/onlyoffice_pdf_parser/helpers/file_helper.rb +23 -0
data/lib/onlyoffice_pdf_parser/pdf_structure/pdf_convert_to_bmp_helper.rb +24 -0
data/lib/onlyoffice_pdf_parser/pdf_structure/pdf_reader_helper.rb +17 -0
data/lib/onlyoffice_pdf_parser/pdf_structure.rb +97 -0
data/lib/onlyoffice_pdf_parser/version.rb +7 -0
data/lib/onlyoffice_pdf_parser.rb +4 -0
metadata +103 -0

checksums.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+---
+SHA256:
+  metadata.gz: 661dfba5483c4463abeac412e29aef2c7813ac31edf78e17ca3593ed879e10aa
+  data.tar.gz: 5bcabaa8c35ecf07a814f555693c64720234bffd1e9ee2e82b831e8c65f72a09
+SHA512:
+  metadata.gz: a91f4477b8d9a32de8459856a6e3e965380f5143be90cea0c67b1b94367ecfc1e4961f34be916dc5ae9bfbdf634d0f331d3a45f0b7c34261cf6d7ad9ddc392eb
+  data.tar.gz: b0960da736c0e12c99f02c7dc8c8dc3c08569b25f81b5995b858fd060322e77ab7c3145c4aeca9670be3ef12e8247d8550b410335c3b407bdc5a5a0b7aaf8f55

data/README.md ADDED Viewed

@@ -0,0 +1,12 @@
+# Onlyoffice PDF Parser
+It is gem for parsing pdf files.
+### Example
+```
+require 'onlyoffice_pdf_parser'
+OnlyofficePdfParser::PdfParser.parse('Text.pdf')
+```

data/lib/onlyoffice_pdf_parser/bmp_image.rb ADDED Viewed

@@ -0,0 +1,110 @@
+# frozen_string_literal: true
+require 'image_size'
+require 'rmagick'
+require_relative 'helpers/array_helper'
+require_relative 'helpers/cursor_point'
+module OnlyofficePdfParser
+  # class for storing bmp image pixels data
+  class BmpImage
+    include Magick
+    attr_accessor :path_to_image, :pixels, :width, :height
+    # @return [String] binary dat of file
+    attr_reader :data
+    def initialize(param = nil)
+      return unless param
+      init_data(param)
+      image_size = ImageSize.new(data).size
+      @width = image_size.first
+      @height = image_size.last
+      fetch_pixels
+    end
+    def to_s
+      path_to_image
+    end
+    def ==(other)
+      return false unless other.width == width && other.height == height
+      pixels.each_with_index do |row, row_index|
+        row.each_with_index do |pixel, pixel_index|
+          other_pixel = other.pixels[row_index][pixel_index]
+          result = (pixel == other_pixel)
+          return false unless result
+        end
+      end
+      true
+    end
+    def get_sub_image(start_point = CursorPoint.new(0, 0), width = 0, height = 0)
+      sub_image = BmpImage.new
+      pixels_array = []
+      height.times do |current_height|
+        line_array = []
+        width.times do |current_width|
+          pixel_line = pixels[start_point.top + current_height]
+          # If pixels match to near to the edge of right border of image, then end
+          return nil unless pixel_line
+          line_array << pixel_line[start_point.left + current_width]
+        end
+        pixels_array << line_array
+      end
+      sub_image.pixels = pixels_array
+      sub_image.width = width
+      sub_image.height = height
+      sub_image
+    end
+    def get_sub_image_array(path_to_sub_image)
+      coordinates_array = []
+      sub_image = BmpImage.new(path_to_sub_image)
+      first_sub_image_line = sub_image.pixels.first
+      pixels.each_with_index do |current_line, image_line_index|
+        included_indexes = ArrayHelper.get_array_inclusion_indexes(current_line, first_sub_image_line)
+        included_indexes.each do |current_included_index|
+          coordinates = image_location_start_find(current_included_index, image_line_index)
+          got_sub_image = get_sub_image(coordinates,
+                                        sub_image.width,
+                                        sub_image.height)
+          coordinates_array << coordinates if got_sub_image == sub_image
+        end
+      end
+      coordinates_array
+    end
+    private
+    # @param param [String] file path of file binaryt
+    # @return [Void] init class data
+    def init_data(param)
+      if OnlyofficePdfParser::FileHelper.file_path?(param)
+        @data = File.read(param)
+        @path_to_image = param
+      else
+        @data = param
+        @path_to_image = '[Binary Steam]'
+      end
+    end
+    # @return [Void] Fill @pixel with data
+    def fetch_pixels
+      tmp_file = Tempfile.new('onlyoffice_pdf_parser')
+      File.open(tmp_file, 'wb') { |file| file.write(data) }
+      @pixels = ImageList.new(tmp_file.path).get_pixels(0, 0, width, height).each_slice(width).to_a
+      tmp_file.unlink
+    end
+    # @param x_coordinate [Integer] x of start search
+    # @param y_coordinate [Integer] y of start search
+    # @return [CursorPoint] point to start
+    def image_location_start_find(x_coordinate, y_coordinate)
+      CursorPoint.new(x_coordinate % width, y_coordinate)
+    end
+  end
+end

data/lib/onlyoffice_pdf_parser/helpers/array_helper.rb ADDED Viewed

@@ -0,0 +1,23 @@
+# frozen_string_literal: true
+module OnlyofficePdfParser
+  # Methods to help working with array
+  class ArrayHelper
+    # Get list of indexes in which one array is included to another
+    # @param array [Array] big array
+    # @param included_array [Array] array to search
+    # @return [Array, Integer] indexes
+    def self.get_array_inclusion_indexes(array,
+                                         included_array)
+      index_array = []
+      first_element = included_array.first
+      array.each_with_index do |array_element, array_element_index|
+        if array_element == first_element
+          array_part = array.slice(array_element_index, included_array.length)
+          index_array << array_element_index if array_part == included_array
+        end
+      end
+      index_array
+    end
+  end
+end

data/lib/onlyoffice_pdf_parser/helpers/cursor_point.rb ADDED Viewed

@@ -0,0 +1,47 @@
+# frozen_string_literal: true
+module OnlyofficePdfParser
+  # Class for working with cursor coordinates
+  class CursorPoint
+    attr_accessor :left, :top
+    def initialize(left, top)
+      @left = left
+      @top = top
+    end
+    alias width left
+    alias height top
+    alias x left
+    alias y top
+    def dup
+      CursorPoint.new(@left, @top)
+    end
+    def to_s
+      "[#{@left}, #{@top}]"
+    end
+    def ==(other)
+      if other.respond_to?(:left) && other.respond_to?(:top)
+        @left == other.left && @top == other.top
+      else
+        false
+      end
+    end
+    def [](name)
+      case name
+      when :width
+        left
+      when :height
+        top
+      else
+        'Unknown attribute'
+      end
+    end
+  end
+  Dimensions = CursorPoint
+end

data/lib/onlyoffice_pdf_parser/helpers/file_helper.rb ADDED Viewed

@@ -0,0 +1,23 @@
+# frozen_string_literal: true
+module OnlyofficePdfParser
+  # Class for working with files
+  class FileHelper
+    class << self
+      # @return [String] name for temp file
+      def generate_temp_name
+        file = Tempfile.new(%w[onlyoffice_bmp_parser .bmp])
+        path = file.path
+        file.unlink
+        path
+      end
+      # @return [True, False] if string is file path
+      def file_path?(string)
+        File.exist?(string)
+      rescue ArgumentError
+        false
+      end
+    end
+  end
+end

data/lib/onlyoffice_pdf_parser/pdf_structure/pdf_convert_to_bmp_helper.rb ADDED Viewed

@@ -0,0 +1,24 @@
+# frozen_string_literal: true
+# Helper methods to convert pdf to bmp
+module PdfConvertToBmpHelper
+  # Fill @pages_bmp with data
+  def fetch_bmp_binary
+    temp_path = OnlyofficePdfParser::FileHelper.generate_temp_name
+    `convert "#{@file_path}" #{temp_path}`
+    files = multipage_files(temp_path)
+    files.each do |file|
+      @pages_in_bmp << File.binread(file)
+    end
+  end
+  private
+  # @param path_pattern [String] pattern to find bmps
+  # @return [Array<String>] list of bmps
+  def multipage_files(path_pattern)
+    files_dir = File.dirname(path_pattern)
+    files_base = File.basename(path_pattern, '.*')
+    Dir["#{files_dir}/#{files_base}*"]
+  end
+end

data/lib/onlyoffice_pdf_parser/pdf_structure/pdf_reader_helper.rb ADDED Viewed

@@ -0,0 +1,17 @@
+# frozen_string_literal: true
+module OnlyofficePdfParser
+  # Module for helper methods for `pdf-reader` gem
+  module PdfReaderHelper
+    # Return font name from page data
+    # @param page [PDF::Reader::Page] page to parse
+    # @return [String] font
+    def parse_font(page)
+      return :unknown if page.fonts[:F1].nil?
+      font_string = page.fonts[:F1][:BaseFont].to_s
+      font_string = /(?=\+)(.*)/.match(font_string).to_s # remove from "+" to ","
+      font_string.delete('+')
+    end
+  end
+end

data/lib/onlyoffice_pdf_parser/pdf_structure.rb ADDED Viewed

@@ -0,0 +1,97 @@
+# frozen_string_literal: true
+require 'pdf/reader'
+require 'tempfile'
+require_relative 'helpers/file_helper'
+require_relative 'pdf_structure/pdf_reader_helper'
+require_relative 'pdf_structure/pdf_convert_to_bmp_helper'
+module OnlyofficePdfParser
+  # Class for working and parsing PDF files
+  class PdfStructure
+    include PdfConvertToBmpHelper
+    include PdfReaderHelper
+    # @return [Array, Pages] array of pages
+    attr_accessor :pages
+    # @return [String] full path to file
+    attr_accessor :file_path
+    # @return [Array<String>] bin representation of bmps
+    attr_reader :pages_in_bmp
+    def initialize(pages: [], file_path: nil)
+      @file_path = file_path
+      @pages = pages
+      @pages_in_bmp = []
+    end
+    def [](parameter)
+      case parameter
+      when :pages
+        @pages
+      when :page_size
+        @page_size
+      else
+        raise "Unknown instance variable - #{parameter}."
+      end
+    end
+    # @return [True, false] Check if pdf file contains graphic pattern
+    def contain_pattern?(path_to_patter)
+      pages_in_bmp.each do |current_page|
+        bmp = BmpImage.new(current_page)
+        array = bmp.get_sub_image_array(path_to_patter)
+        return true unless array.empty?
+      end
+      false
+    end
+    # Parse file using `pdf-reader` gem
+    def pdf_reader_parse
+      PDF::Reader.open(file_path.to_s) do |reader|
+        reader.pages.each do |page|
+          @pages << { text: page.text,
+                      fonts: parse_font(page) }
+        end
+      end
+    end
+    # @return [Array <Integer>] page size of pdf in points
+    def page_size_points
+      return @page_size_points if @page_size_points
+      pdfinfo = `pdfinfo "#{@file_path}"`
+      page_size_fraction = pdfinfo.split('Page size:')[1].split('pts').first.strip.split(', ').first.split(' x ')
+      @page_size_points = page_size_fraction.map { |size| size.to_f.round }
+    end
+    # @return [String, nil] name of page size
+    def page_size
+      @page_size = PAGE_SIZE_FOR_PDF.key(page_size_points)
+      @page_size ||= "Landscape #{PAGE_SIZE_FOR_PDF.key(page_size_points.reverse)}"
+    end
+    PAGE_SIZE_FOR_PDF = { 'US Letter' => [612, 792],
+                          'US Legal' => [612, 1008],
+                          'A4' => [595, 842],
+                          'A5' => [420, 595],
+                          'B5' => [499, 709],
+                          'Envelope #10' => [297, 684],
+                          'Envelope DL' => [312, 624],
+                          'Tabloid' => [792, 1224],
+                          'A3' => [842, 1191],
+                          'Tabloid Oversize' => [864, 1296],
+                          'ROC 16K' => [558, 774],
+                          'Envelope Choukei 3' => [340, 666],
+                          'Super B/A3' => [936, 1368] }.freeze
+    def self.parse(filename)
+      file = PdfStructure.new(pages: [], file_path: filename)
+      file.pdf_reader_parse
+      file.fetch_bmp_binary
+      file.page_size
+      file
+    end
+  end
+  PdfParser = PdfStructure
+end

data/lib/onlyoffice_pdf_parser/version.rb ADDED Viewed

@@ -0,0 +1,7 @@
+# frozen_string_literal: true
+module OnlyofficePdfParser
+  module Version
+    STRING = '0.1.0'
+  end
+end

data/lib/onlyoffice_pdf_parser.rb ADDED Viewed

@@ -0,0 +1,4 @@
+# frozen_string_literal: true
+require_relative 'onlyoffice_pdf_parser/bmp_image.rb'
+require_relative 'onlyoffice_pdf_parser/pdf_structure.rb'

metadata ADDED Viewed

@@ -0,0 +1,103 @@
+--- !ruby/object:Gem::Specification
+name: onlyoffice_pdf_parser
+version: !ruby/object:Gem::Version
+  version: 0.1.0
+platform: ruby
+authors:
+- Pavel Lobashov
+- Dmitry Rotaty
+autorequire:
+bindir: bin
+cert_chain: []
+date: 2020-03-13 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
+  name: image_size
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2'
+- !ruby/object:Gem::Dependency
+  name: pdf-reader
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2'
+- !ruby/object:Gem::Dependency
+  name: rmagick
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '2'
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: '5'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '2'
+    - - "<"
+      - !ruby/object:Gem::Version
+        version: '5'
+description: Wrapper for Testrail by OnlyOffice
+email:
+- shockwavenn@gmail.com
+- kvazilife@gmail.com
+executables: []
+extensions: []
+extra_rdoc_files: []
+files:
+- README.md
+- lib/onlyoffice_pdf_parser.rb
+- lib/onlyoffice_pdf_parser/bmp_image.rb
+- lib/onlyoffice_pdf_parser/helpers/array_helper.rb
+- lib/onlyoffice_pdf_parser/helpers/cursor_point.rb
+- lib/onlyoffice_pdf_parser/helpers/file_helper.rb
+- lib/onlyoffice_pdf_parser/pdf_structure.rb
+- lib/onlyoffice_pdf_parser/pdf_structure/pdf_convert_to_bmp_helper.rb
+- lib/onlyoffice_pdf_parser/pdf_structure/pdf_reader_helper.rb
+- lib/onlyoffice_pdf_parser/version.rb
+homepage: https://github.com/onlyoffice-testing-robot/onlyoffice_pdf_parser
+licenses:
+- AGPL-3.0
+metadata: {}
+post_install_message:
+rdoc_options: []
+require_paths:
+- lib
+required_ruby_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ">="
+    - !ruby/object:Gem::Version
+      version: '0'
+requirements: []
+rubygems_version: 3.0.6
+signing_key:
+specification_version: 4
+summary: ONLYOFFICE Testrail Wrapper Gem
+test_files: []