RubyGems - tabula-extractor - Versions diffs - 0.6.6-java → 0.7.0-java - Mend

tabula-extractor 0.6.6-java → 0.7.0-java

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (67) hide show

checksums.yaml +7 -0
data/AUTHORS.md +1 -0
data/README.md +27 -11
data/bin/tabula +61 -19
data/ext/liblsd-linux32.so +0 -0
data/ext/liblsd-linux64.so +0 -0
data/ext/liblsd.dll +0 -0
data/ext/liblsd.dylib +0 -0
data/ext/liblsd64.dll +0 -0
data/ext/lsd.c +137 -137
data/ext/lsd.h +9 -9
data/lib/tabula.rb +20 -3
data/lib/tabula/core_ext.rb +261 -0
data/lib/tabula/entities.rb +11 -456
data/lib/tabula/entities/cell.rb +42 -0
data/lib/tabula/entities/has_cells.rb +244 -0
data/lib/tabula/entities/line.rb +39 -0
data/lib/tabula/entities/page.rb +269 -0
data/lib/tabula/entities/page_area.rb +7 -0
data/lib/tabula/entities/ruling.rb +300 -0
data/lib/tabula/entities/spreadsheet.rb +92 -0
data/lib/tabula/entities/table.rb +81 -0
data/lib/tabula/entities/text_chunk.rb +114 -0
data/lib/tabula/entities/text_element.rb +112 -0
data/lib/tabula/entities/zone_entity.rb +57 -0
data/lib/tabula/extraction.rb +327 -0
data/lib/tabula/line_segment_detector.rb +9 -7
data/lib/tabula/pdf_line_extractor.rb +319 -0
data/lib/tabula/pdf_render.rb +1 -5
data/lib/tabula/spreadsheet_extractor.rb +52 -0
data/lib/tabula/table_extractor.rb +50 -348
data/lib/tabula/table_guesser.rb +21 -23
data/lib/tabula/version.rb +1 -1
data/lib/tabula/writers.rb +5 -6
data/tabula-extractor.gemspec +1 -0
data/target/pdfbox-app-2.0.0-SNAPSHOT.jar +0 -0
data/test/data/47008204D_USA.page4.pdf +0 -0
data/test/data/560015757GV_China.page1.pdf +0 -0
data/test/data/GSK_2012_Q4.page437.pdf +0 -0
data/test/data/S2MNCEbirdisland.pdf +0 -0
data/test/data/campaign_donors.pdf +0 -0
data/test/data/frx_2012_disclosure.tsv +88 -0
data/test/data/no_tables.pdf +0 -0
data/test/data/puertos1.pdf +0 -0
data/test/data/spanning_cells.csv +21 -0
data/test/data/spanning_cells.pdf +0 -0
data/test/data/strongschools.pdf +0 -0
data/{vertical_rulings_bug.pdf → test/data/vertical_rulings_bug.pdf} +0 -0
data/test/data/vietnam3.pdf +0 -0
data/test/heuristic-test-set/original/560015757GV_China.page1.pdf +0 -0
data/test/heuristic-test-set/original/S2MNCEbirdisland.pdf +0 -0
data/test/heuristic-test-set/original/bo_page24.pdf +0 -0
data/test/heuristic-test-set/original/campaign_donors.pdf +0 -0
data/test/heuristic-test-set/spreadsheet/47008204D_USA.page4.pdf +0 -0
data/test/heuristic-test-set/spreadsheet/GSK_2012_Q4.page437.pdf +0 -0
data/test/heuristic-test-set/spreadsheet/strongschools.pdf +0 -0
data/test/heuristic-test-set/spreadsheet/tabla_subsidios.pdf +0 -0
data/test/heuristic.rb +50 -0
data/test/test_bin_tabula.sh +7 -0
data/test/tests.rb +476 -63
metadata +79 -28
data/lib/geom/point.rb +0 -21
data/lib/geom/rectangle.rb +0 -101
data/lib/geom/segment.rb +0 -82
data/lib/tabula/pdf_dump.rb +0 -132
data/lib/tabula/whitespace.rb +0 -50
data/vertical_rulings_bug.rb +0 -29

data/lib/tabula/table_extractor.rb CHANGED Viewed

@@ -1,370 +1,72 @@
-require 'csv'
 module Tabula
-  class TableExtractor
-    attr_accessor :text_elements, :options
-    DEFAULT_OPTIONS = {
-      :horizontal_rulings => [],
-      :vertical_rulings => [],
-      :merge_words => true,
-      :split_multiline_cells => false
-    }
-    def initialize(text_elements, options = {})
-      self.text_elements = text_elements
-      self.options = DEFAULT_OPTIONS.merge(options)
-      if self.options[:merge_words]
-        if self.options[:vertical_rulings]
-          merge_words_in_a_vertical_rulings_aware_manner!(self.options[:vertical_rulings])
-        else
-          merge_words!
-        end
-      end
-    end
-    def get_rows
-      hg = self.get_line_boundaries
-      hg.sort_by(&:top).map { |r| {'top' => r.top, 'bottom' => r.bottom, 'text' => r.texts} }
-    end
-    # TODO finish writing this method
-    # it should be analogous to get_line_boundaries
-    # (ie, take into account vertical ruling lines if available)
-    def group_by_columns
-      columns = []
-      tes = self.text_elements.sort_by &:left
-      # we don't have vertical rulings
-      if self.options[:vertical_rulings].empty?
-        tes.each do |te|
-          if column = columns.detect { |c| te.horizontally_overlaps?(c) }
-            column << te
-          else
-            columns << Column.new(te.left, te.width, [te])
-          end
-        end
-      else
-        self.options[:vertical_rulings].sort_by! &:left
-        1.upto(self.options[:vertical_rulings].size - 1) do |i|
-          left_ruling_line =  self.options[:vertical_rulings][i - 1]
-          right_ruling_line = self.options[:vertical_rulings][i]
-          columns << Column.new(left_ruling_line.left, right_ruling_line.left - left_ruling_line.left, []) if (right_ruling_line.left - left_ruling_line.left > 10)
-        end
-        tes.each do |te|
-          if column = columns.detect { |c| te.horizontally_overlaps?(c) }
-            column << te
-          else
-            #puts "couldn't find a place for #{te.inspect}"
-            #columns << Column.new(te.left, te.width, [te])
-          end
-        end
-      end
-      columns
-    end
-    def get_columns
-      TableExtractor.new(text_elements).group_by_columns.map do |c|
-        {'left' => c.left, 'right' => c.right, 'width' => c.width}
-      end
-    end
-    def get_line_boundaries
-      boundaries = []
-      if self.options[:horizontal_rulings].empty?
-        # we don't have rulings
-        # iteratively grow boundaries to construct lines
-        self.text_elements.each do |te|
-          row = boundaries.detect { |l| l.vertically_overlaps?(te) }
-          ze = ZoneEntity.new(te.top, te.left, te.width, te.height)
-          if row.nil?
-            boundaries << ze
-            ze.texts << te.text
-          else
-            row.merge!(ze)
-            row.texts << te.text
-          end
-        end
-      else
-        self.options[:horizontal_rulings].sort_by!(&:top)
-        1.upto(self.options[:horizontal_rulings].size - 1) do |i|
-          above = self.options[:horizontal_rulings][i - 1]
-          below = self.options[:horizontal_rulings][i]
-          # construct zone between a horizontal ruling and the next
-          ze = ZoneEntity.new(above.top,
-                              [above.left, below.left].min,
-                              [above.width, below.width].max,
-                              below.top - above.top)
-          # skip areas shorter than some threshold
-          # TODO: this should be the height of the shortest character, or something like that
-          next if ze.height < 2
-          boundaries << ze
-        end
-      end
-      boundaries
-    end
-    private
-    #this is where spaces come from!
-    def merge_words!
-      return self.text_elements if @merged # only merge once. awful hack.
-      @merged = true
-      current_word_index = i = 0
-      char1 = self.text_elements[i]
-      while i < self.text_elements.size-1 do
-        char2 = self.text_elements[i+1]
-        next if char2.nil? or char1.nil?
-        if self.text_elements[current_word_index].should_merge?(char2)
-          self.text_elements[current_word_index].merge!(char2)
-          char1 = char2
-          self.text_elements[i+1] = nil
-        else
-          # is there a space? is this within `CHARACTER_DISTANCE_THRESHOLD` points of previous char?
-          if (char1.text != " ") and (char2.text != " ") and self.text_elements[current_word_index].should_add_space?(char2)
-            self.text_elements[current_word_index].text += " "
-            #self.text_elements[current_word_index].width += self.text_elements[current_word_index].width_of_space
-          end
-          current_word_index = i+1
-        end
-        i += 1
-      end
-      self.text_elements.compact!
-      return self.text_elements
-    end
-      #this is where spaces come from!
-    def merge_words_in_a_vertical_rulings_aware_manner!(vertical_rulings)
-      #don't merge words across a ruling.
-      return self.text_elements if @merged # only merge once. awful hack.
-      @merged = true
-      current_word_index = i = 0
-      char1 = self.text_elements[i]
-      vertical_ruling_locations = vertical_rulings.map &:left
-      while i < self.text_elements.size-1 do
-        char2 = self.text_elements[i+1]
-        next if char2.nil? or char1.nil?
-        if self.text_elements[current_word_index].should_merge?(char2)
-            unless vertical_ruling_locations.map{|loc| self.text_elements[current_word_index].left < loc && char2.left > loc}.include?(true)
-              self.text_elements[current_word_index].merge!(char2)
-            end
-            char1 = char2
-            self.text_elements[i+1] = nil
-        else
-          # is there a space? is this within `CHARACTER_DISTANCE_THRESHOLD` points of previous char?
-          if (char1.text != " ") and (char2.text != " ") and self.text_elements[current_word_index].should_add_space?(char2)
-            self.text_elements[current_word_index].text += " "
-            #self.text_elements[current_word_index].width += self.text_elements[current_word_index].width_of_space
-          end
-          current_word_index = i+1
-        end
-        i += 1
-      end
-      self.text_elements.compact!
-      return self.text_elements
-    end
-  end
-  ##
-  # Deprecated.
-  ##
-  def Tabula.group_by_columns(text_elements, merge_words=false)
-    TableExtractor.new(text_elements, :merge_words => merge_words).group_by_columns
+  def Tabula.merge_words(text_elements, options={})
+    warn 'Tabula.merge_words is DEPRECATED. Use Tabula::TextElement.merge_words instead'
+    TextElement.merge_words(text_elements, options)
   end
-  ##
-  # Deprecated.
-  ##
-  def Tabula.get_line_boundaries(text_elements)
-    TableExtractor.new(text_elements).get_line_boundaries
-  end
-  ##
-  # Deprecated.
-  ##
-  def Tabula.get_columns(text_elements, merge_words=true)
-    TableExtractor.new(text_elements, :merge_words => merge_words).get_columns
-  end
-  ##
-  # Deprecated.
-  ##
-  def Tabula.get_rows(text_elements, merge_words=true)
-    TableExtractor.new(text_elements, :merge_words => merge_words).get_rows
-  end
-  def Tabula.lines_to_csv(lines)
-    CSV.generate do |csv|
-      lines.each do |l|
-        csv << l.map { |c| c.text.strip }
-      end
-    end
-  end
-  ONLY_SPACES_RE = Regexp.new('^\s+$')
-  def Tabula.group_by_lines(text_elements)
-    lines = []
-    text_elements.each do |te|
-      next if te.text =~ ONLY_SPACES_RE
-      l = lines.find { |line| line.horizontal_overlap_ratio(te) >= 0.01 }
-      if l.nil?
-        l = Line.new
-        lines << l
-      end
-      l << te
-    end
-    lines
+  def Tabula.group_by_lines(text_chunks)
+    warn 'Tabula.group_by_lines is DEPRECATED. Use Tabula::TextChunk.group_by_lines instead.'
+    TextChunk.group_by_lines(text_chunks)
   end
   # Returns an array of Tabula::Line
-  def Tabula.make_table(text_elements, options={})
-    default_options = {:separators => []}
-    options = default_options.merge(options)
-    if text_elements.empty?
-      return []
-    end
-    extractor = TableExtractor.new(text_elements, options).text_elements
-    lines = group_by_lines(text_elements)
-    top = lines[0].text_elements.map(&:top).min
-    right = 0
-    columns = []
-    text_elements.sort_by(&:left).each do |te|
-      next if te.text =~ ONLY_SPACES_RE
-      if te.top >= top
-        left = te.left
-        if (left > right)
-          columns << right
-          right = te.right
-        elsif te.right > right
-          right = te.right
-        end
-      end
-    end
-    separators = columns[1..-1].sort.reverse
-    table = Table.new(lines.count, separators)
-    lines.each_with_index do |line, i|
-      line.text_elements.each do |te|
-        j = separators.find_index { |s| te.left > s } || separators.count
-        table.add_text_element(te, i, separators.count - j)
-      end
-    end
-    table.lines.map { |l|
-      l.text_elements.map! { |te|
-        te.nil? ? TextElement.new(nil, nil, nil, nil, nil, nil, '', nil) : te
-      }
-    }.sort_by { |l| l.map { |te| te.top or 0 }.max }
+  def Tabula.make_table(page, area, options={})
+    warn 'Tabula.make_table is DEPRECATED. Use Tabula::Page#make_table instead.'
+    page.get_area(area).make_table(options)
   end
+  # extract a table from file +pdf_path+, +pages+ and +area+
+  #
+  # +pages+ can be a single integer (1-based) or an array of integers
+  #
+  # ==== Options
+  # +:password+ - Password if encrypted PDF (default: empty)
+  # +:detect_ruling_lines+ - Try to detect vertical (default: true)
+  # +:vertical_rulings+ - List of positions for vertical rulings. Overrides +:detect_ruling_lines+. (default: [])
+  def Tabula.extract_table(pdf_path, page, area, options={})
+    options = {
+      :password => '',
+      :detect_ruling_lines => true,
+      :vertical_rulings => []
+    }.merge(options)
-  def Tabula.make_table_with_vertical_rulings(text_elements, options={})
-    extractor = TableExtractor.new(text_elements, options)
-    # group by lines
-    lines = []
-    line_boundaries = extractor.get_line_boundaries
-    # find all the text elements
-    # contained within each detected line (table row) boundary
-    line_boundaries.each do |lb|
-      line = Line.new
-      line_members = text_elements.find_all do |te|
-        te.vertically_overlaps?(lb)
-      end
-      text_elements -= line_members
-      line_members.sort_by(&:left).each do |te|
-        # skip text_elements that only contain spaces
-        next if te.text =~ ONLY_SPACES_RE
-        line << te
-      end
-      lines << line if line.text_elements.size > 0
+    if area.instance_of?(Array)
+      top, left, bottom, right = area
+      area = Tabula::ZoneEntity.new(top, left,
+                                    right - left, bottom - top)
     end
-    lines.sort_by!(&:top)
-    vertical_rulings = options[:vertical_rulings]
-    columns = TableExtractor.new(lines.map(&:text_elements).flatten.compact.uniq, {:merge_words => options[:merge_words], :vertical_rulings => vertical_rulings}).group_by_columns.sort_by(&:left)
-    # insert an empty cell in a given column if there's no text elements within that column's boundaries
-    lines.each_with_index do |l, line_index|
-      next if l.text_elements.nil?
-      l.text_elements.compact! # TODO WHY do I have to do this?
-      l.text_elements.uniq!  # TODO WHY do I have to do this?
-      l.text_elements.sort_by!(&:left)
-      columns.each_with_index do |c, i|
-        if (l.text_elements.select{|te| te && te.left >= c.left && te.right <= (c.left + c.width)}.empty?)
-          l.text_elements.insert(i, TextElement.new(l.top, c.left, c.width, l.height, nil, 0, '', 0))
-        end
-      end
+    if page.is_a?(Integer)
+      page = [page]
     end
-    # merge elements that are in the same column
-    unless options[:dontmerge]
-      lines.each_with_index do |l, line_index|
-        next if l.text_elements.nil?
+    page_obj = Extraction::ObjectExtractor.new(pdf_path,
+                                               page,
+                                               options[:password]) \
+      .extract.next
-        (0..l.text_elements.size-1).to_a.combination(2).each do |t1, t2|  #don't remove a string of empty cells
-          next if l.text_elements[t1].nil? or l.text_elements[t2].nil?  or l.text_elements[t1].text.empty? or l.text_elements[t2].text.empty?
+    use_detected_lines = false
+    if options[:detect_ruling_lines] && options[:vertical_rulings].empty?
+      detected_vertical_rulings = Ruling.crop_rulings_to_area(page_obj.vertical_ruling_lines,
+                                                              area)
-          # if same column...
-          if columns.detect { |c| c.text_elements.include? l.text_elements[t1] } \
-            == columns.detect { |c| c.text_elements.include? l.text_elements[t2] }
-            if l.text_elements[t1].bottom <= l.text_elements[t2].bottom
-              l.text_elements[t1].merge!(l.text_elements[t2])
-              l.text_elements[t2] = nil
-            else
-              l.text_elements[t2].merge!(l.text_elements[t1])
-              l.text_elements[t1] = nil
-            end
-          end
-        end
+      # only use lines if at least 80% of them cover at least 90%
+      # of the height of area of interest
-        l.text_elements.compact!
-      end
-    end
+      # TODO this heuristic SUCKS
+      # what if only a couple columns is delimited with vertical rulings?
+      # ie: https://www.dropbox.com/s/lpydler5c3pn408/S2MNCEbirdisland.pdf (see 7th column)
+      # idea: detect columns without considering rulings, detect vertical rulings
+      # calculate ratio and try to come up with a threshold
+      use_detected_lines = detected_vertical_rulings.size > 2 \
+      && (detected_vertical_rulings.count { |vl|
+            vl.height / area.height > 0.9
+          } / detected_vertical_rulings.size.to_f) >= 0.8
-    # remove duplicate lines
-    # TODO this shouldn't have happened here, check why we have to do
-    # this (maybe duplication is happening in the column merging phase?)
-    (0..lines.size - 2).each do |i|
-      next if lines[i].nil?
-      # if any of the elements on the next line is duplicated, kill
-      # the next line
-      if (0..lines[i].text_elements.size-1).any? { |j| lines[i].text_elements[j] == lines[i+1].text_elements[j] }
-        lines[i+1] = nil
-      end
     end
-    lines.compact.map do |line|
-      line.text_elements.sort_by(&:left)
-    end
+    page_obj.get_area(area).make_table(:vertical_rulings => use_detected_lines ? detected_vertical_rulings : options[:vertical_rulings])
   end
 end

data/lib/tabula/table_guesser.rb CHANGED Viewed

@@ -1,11 +1,6 @@
-require 'java'
 require 'json'
-require_relative '../geom/point'
-require_relative '../geom/segment'
-require_relative '../geom/rectangle'
-require_relative './pdf_render'
-#CLASSPATH=:./target/javacpp.jar:./target/javacv.jar:./target/javacv-macosx-x86_64.jar:./target/PDFRenderer-0.9.1.jar
+warn 'Tabula::TableGuesser is DEPRECATED and will be removed'
 module Tabula
   module TableGuesser
@@ -13,7 +8,7 @@ module Tabula
     def TableGuesser.find_and_write_rects(filename, output_dir)
       #writes to JSON the rectangles on each page in the specified PDF.
       open(File.join(output_dir, "tables.json"), 'w') do |f|
-        f.write( JSON.dump(find_rects(filename).map{|a| a.map{|r| r.dims.map &:to_i }} ))
+        f.write( JSON.dump(find_rects(filename).map{|a| a.map{|r| r.dims.map(&:to_i) }} ))
       end
     end
@@ -50,8 +45,8 @@ module Tabula
       lines
     end
-    def TableGuesser.find_lines_on_page(pdf, page_index)
-      Tabula::LSD.detect_lines_in_pdf_page(pdf, page_index)
+    def TableGuesser.find_lines_on_page(pdf, page_number_zero_indexed)
+      Tabula::Extraction::LineExtractor.lines_in_pdf_page(pdf, page_number_zero_indexed, {:render_pdf => false})
     end
     def TableGuesser.find_rects_on_page(pdf, page_index)
@@ -59,9 +54,11 @@ module Tabula
     end
     def TableGuesser.find_rects_from_lines(lines)
-      horizontal_lines = lines.select &:horizontal?
-      vertical_lines = lines.select &:vertical?
-      find_tables(vertical_lines, horizontal_lines).inject([]){|memo, next_rect| Geometry::Rectangle.unionize(memo, next_rect )}.sort_by(&:area).reverse
+      horizontal_lines = lines.select(&:horizontal?)
+      vertical_lines = lines.select(&:vertical?)
+      find_tables(vertical_lines, horizontal_lines).inject([]) do |memo, next_rect|
+        java.awt.geom.Rectangle2D::Float.unionize( memo, next_rect )
+      end.compact.reject{|r| r.area == 0 }.sort_by(&:area).reverse
     end
@@ -75,14 +72,14 @@ module Tabula
     end
     def TableGuesser.find_tables(verticals, horizontals)
-      # /*
-      #  * Find all the rectangles in the vertical and horizontal lines given.
-      #  *
-      #  * Rectangles are deduped with hashRectangle, which considers two rectangles identical if each point rounds to the same tens place as the other.
-      #  *
-      #  * TODO: generalize this.
-      #  */
-      corner_proximity_threshold = 0.10;
+      #
+      # Find all the rectangles in the vertical and horizontal lines given.
+      #
+      # Rectangles are deduped with hashRectangle, which considers two rectangles identical if each point rounds to the same tens place as the other.
+      #
+      # TODO: generalize this.
+      #
+      corner_proximity_threshold = 0.005;
       rectangles = []
       #find rectangles with one horizontal line and two vertical lines that end within $threshold to the ends of the horizontal line.
@@ -137,9 +134,10 @@ module Tabula
             #in case we eventually tolerate not-quite-vertical lines, this computers the distance in Y directly, rather than depending on the vertical lines' lengths.
             height = [left_vertical_line.bottom - left_vertical_line.top, right_vertical_line.bottom - right_vertical_line.top].max
-            y = [left_vertical_line.top, right_vertical_line.top].min
+            top = [left_vertical_line.top, right_vertical_line.top].min
             width = horizontal_line.right - horizontal_line.left
-            r = Geometry::Rectangle.new_by_x_y_dims(horizontal_line.left, y, width, height ) #x, y, w, h
+            left = horizontal_line.left
+            r = java.awt.geom.Rectangle2D::Float.new( left, top, width, height ) #x, y, w, h
             #rectangles.put(hashRectangle(r), r); #TODO: I dont' think I need this now that I'm in Rubyland
             rectangles << r
           end
@@ -187,7 +185,7 @@ module Tabula
             y = vertical_line.top
             width = [top_horizontal_line.right - top_horizontal_line.left, bottom_horizontal_line.right - bottom_horizontal_line.right].max
             height = vertical_line.bottom - vertical_line.top
-            r = Geometry::Rectangle.new_by_x_y_dims(x, y, width, height); #x, y, w, h
+            r = java.awt.geom.Rectangle2D::Float.new( x, y, width, height ) #x, y, w, h
             #rectangles.put(hashRectangle(r), r);
             rectangles << r
           end