RubyGems - text_extractor - Versions diffs - 0.5.2 → 0.6.0 - Mend

text_extractor 0.5.2 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml +4 -4
data/lib/text_extractor.rb +55 -15
data/lib/text_extractor/directives.rb +11 -6
data/lib/text_extractor/directives/group.rb +1 -0
data/lib/text_extractor/extraction.rb +1 -0
data/lib/text_extractor/record.rb +20 -43
data/lib/text_extractor/version.rb +1 -1
metadata +9 -9

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 536459e92aed84134a79cc83b43582806dc241b7c6e1f634da83f33cbc204fb9
-  data.tar.gz: 7840132fc524f8c6a5ec564e5e99a53adb58854e18fc292265f12a149dfd0c44
+  metadata.gz: bc66aa843889a7f5396d26c41d7756fb56b2157563d7aa8640732867d32750c4
+  data.tar.gz: d491b948b0baece51042436d5d9d934d6800e26255bbf4a73f8f815b1aedda44
 SHA512:
-  metadata.gz: 9ba4320ef35cef8e1a313c37cb800c9ea2dd716564f0105f94839f48d03ca17e02a53a96cadc40aa9475113cb48e87f866f9f56c7a75e7bed84b94db15e9c741
-  data.tar.gz: acebe63b3cedf8c1c1e4acca41030ffb86d1782fc71612e6f4200a18d6e953b3e3d7f41f28da269a1fb579e9e93e11b406b32e51a9d211d057156d2b2ecd5884
+  metadata.gz: 4111f9a6090fb6314fea8e164b9bd6fedb669bdfd8abe8031cbfbedc3c0e52df83f7ff2c0377bf00aa53340ee8423c7ab7d203d770114d1a756d09b4d0869b29
+  data.tar.gz: 48fa9d25532211f7473cd9535ad3740fe34cc79fc0f0628df35399c7711a303d16f5cc0182367fdfb4968bd1e47e6a608fa5e36d239ae9738d92afc8a232d221

data/lib/text_extractor.rb CHANGED

@@ -8,37 +8,53 @@ require_relative 'text_extractor/inline_value'
 # represents an extractor definition
 class TextExtractor
+  @append_newline = false
+  singleton_class.instance_eval do
+    attr_accessor :append_newline
+  end
   attr_reader :records, :values
-  # rubocop: disable Metrics/MethodLength
   def initialize(&block)
     raise "#{self.class}.new requires a block" unless block
+    initialize_options
+    initialize_collections
+    instance_exec(&block)
+    @append_guards.each { |g| guard(**g, &g[:block]) }
+  end
+  def initialize_options
+    @factory = nil
+    @section_delimiter = nil
+    @section_terminator = nil
+    @strip = nil
+    @append_newline = nil
+  end
+  def initialize_collections
     @values = {}
     @fill = {}
     @values = {}
     @records = []
     @filldowns = []
     @current_record_values = []
-    @section_delimiter = nil
-    @section_terminator = nil
     @append_guards = []
-    instance_exec(&block)
-    @append_guards.each { |g| guard(**g, &g[:block]) }
   end
-  # rubocop: enable Metrics/MethodLength
   module Patterns
-    INTEGER = /\d+/
-    FLOAT = /\d+\.?|\d*\.\d+/
-    RATIONAL = %r{\d+/\d+}
-    IPV4 = /[0-9.]{7,15}/
-    IPV6 = /[:a-fA-F0-9\.]{2,45}/
+    INTEGER = /\d+/.freeze
+    FLOAT = /\d+\.?|\d*\.\d+/.freeze
+    RATIONAL = %r{\d+/\d+}.freeze
+    IPV4 = /[0-9.]{7,15}/.freeze
+    IPV6 = /[:a-fA-F0-9\.]{2,45}/.freeze
     IPADDR = Regexp.union(IPV4, IPV6)
-    IPV4_NET = %r{#{IPV4}/\d{1,2}}
-    IPV6_NET = %r{#{IPV6}\/\d{1,3}}
+    IPV4_NET = %r{#{IPV4}/\d{1,2}}.freeze
+    IPV6_NET = %r{#{IPV6}\/\d{1,3}}.freeze
     IPNETADDR = Regexp.union(IPV4_NET, IPV6_NET)
-    TRUE = /y|yes|t|true|on/i
-    FALSE = /n|no|f|false|off/i
+    TRUE = /y|yes|t|true|on/i.freeze
+    FALSE = /n|no|f|false|off/i.freeze
     BOOLEAN = Regexp.union(TRUE, FALSE)
   end
@@ -78,8 +94,16 @@ class TextExtractor
     value(id, re) { |val| IPAddr.new(val) }
   end
+  def append_newline(activate = nil)
+    return TextExtractor.append_newline if activate.nil? && @append_newline.nil?
+    return @append_newline if activate.nil?
+    @append_newline = activate
+  end
   def record(klass = Record, **kwargs, &block)
     raise "#{self.class}.record requires a block" unless block
     kwargs[:extractor_values] = values
     kwargs[:factory] ||= @factory if @factory
     kwargs[:values] = @current_record_values = []
@@ -91,6 +115,17 @@ class TextExtractor
     @section_terminator = terminator
   end
+  STRIP_PROCS = {
+    left: ->(s) { s.split("\n").map(&:lstrip).join("\n") + "\n" },
+    right: ->(s) { s.split("\n").map(&:rstrip).join("\n") + "\n" },
+    both: ->(s) { s.split("\n").map(&:strip).join("\n") + "\n" }
+  }.freeze
+  def strip(side = nil)
+    @strip = STRIP_PROCS[side] ||
+             (raise ArgumentError, 'Unknown strip option')
+  end
   def factory(object = nil)
     if object
       @factory = object
@@ -101,6 +136,7 @@ class TextExtractor
   def filldown(**kwargs, &block)
     raise "#{self.class}.filldown requires a block" unless block
     record(Filldown, **kwargs, &block)
   end
@@ -110,6 +146,7 @@ class TextExtractor
   def guard(**kwargs, &block)
     raise "#{self.class}.guard requires a block" unless block
     record(Guard, **kwargs, &block)
   end
@@ -119,6 +156,8 @@ class TextExtractor
   end
   def scan(input)
+    input = @strip.call(input) if @strip
+    input += "\n" if append_newline && !input.end_with?("\n")
     prefill = {}
     sections(input).flat_map { |section|
       Extraction.new(section, self, prefill).scan.extraction_matches
@@ -136,6 +175,7 @@ class TextExtractor
   def skip(**kwargs, &block)
     raise "#{self.class}.skip requires a block" unless block
     record(Skip, **kwargs, &block)
   end

data/lib/text_extractor/directives.rb CHANGED

@@ -31,10 +31,12 @@ class TextExtractor
     def expand
       return @output if @output
       @state = State.new
       scanner = StringScanner.new(@source)
       read_line(scanner) until scanner.eos?
       raise 'Unterminated line group' unless @state.groups.empty?
       @output = Regexp.new(@state.target.join(''), @options)
     end
@@ -45,14 +47,14 @@ class TextExtractor
     private
     DIRECTIVE_MAP = {
-      ' '      => { class: Comment },
-      'any'    => { class: Any },
-      'begin'  => { class: Begin, arguments: :parsed },
+      ' ' => { class: Comment },
+      'any' => { class: Any },
+      'begin' => { class: Begin, arguments: :parsed },
       'capture' => { class: Capture, arguments: :parsed },
-      'end'    => { class: End },
-      'maybe'  => { class: Maybe },
+      'end' => { class: End },
+      'maybe' => { class: Maybe },
       'repeat' => { class: Repeat, arguments: :parse },
-      'rest'   => { class: Rest }
+      'rest' => { class: Rest }
     }.freeze
     private_constant :DIRECTIVE_MAP
@@ -97,6 +99,7 @@ class TextExtractor
     def parse_directives(full_source)
       return [Comment.new(@state)] if full_source.start_with?(' ')
       split_directives(full_source)
         .map { |source| parse_one_directive(source) }
         .each { |directive| @directives << directive }
@@ -105,6 +108,7 @@ class TextExtractor
     def parse_one_directive(source)
       md = source.match(/^[a-z_]+/) || source.match(/^ /)
       raise "Unknown directive(s) in #{@state.current_line}" unless md
       word = md[0]
       map = DIRECTIVE_MAP.fetch(word) { raise "Unknown directive #{word}" }
       args = parse_arguments(map[:arguments], md.post_match)
@@ -118,6 +122,7 @@ class TextExtractor
     def parse_arguments(rule, source)
       return [] unless rule
       return rule.call(source) if rule.is_a?(Proc)
       source.match(/\(([^)]*)\)/) { |md| md[1] }
     end
   end # class Expander

data/lib/text_extractor/directives/group.rb CHANGED

@@ -17,6 +17,7 @@ class TextExtractor
       def chomp(newline)
         return if @lines.empty? || newline
         tail = @lines[-1]
         if tail.is_a?(Array)
           tail = tail[-1] while tail[-1].is_a?(Array)

data/lib/text_extractor/extraction.rb CHANGED

@@ -27,6 +27,7 @@ class TextExtractor
       loop do
         match = input.match(re, pos)
         break unless match
         @pos = match.end(0)
         @matches << match
       end

data/lib/text_extractor/record.rb CHANGED

@@ -4,17 +4,15 @@ class TextExtractor
   class Record
     attr_reader :regexp, :factory, :values
-    # rubocop: disable Metrics/ParameterLists
     def initialize(
-          regexp,
-          factory: nil,
-          values: [],
-          fill: [],
-          directives: true,
-          inline: [],
-          extractor_values: {},
-          strip: nil,
-          **_kwargs
+      regexp,
+      factory: nil,
+      values: [],
+      fill: [],
+      directives: true,
+      inline: [],
+      extractor_values: {},
+      **_kwargs
     )
       @factory = factory
       @constructor = FactoryAnalyzer.new(factory).to_proc
@@ -22,10 +20,9 @@ class TextExtractor
       @values = values.map { |val| [val.id, val] }.to_h
       initialize_inline_values(inline)
       @default_values = values.map { |val| [val.id, nil] }.to_h
-      @regexp = build_regexp(regexp, directives, strip)
+      @regexp = build_regexp(regexp, directives)
       @fill = Array(fill)
     end
-    # rubocop: enable Metrics/ParameterLists
     # @return Array
     def extraction(match, fill)
@@ -37,36 +34,29 @@ class TextExtractor
     def build_extraction(extracted)
       return extracted unless @constructor
       @constructor.call(extracted)
     end
-    def build_regexp(regexp, directives, strip)
-      stripped = strip_regexp(regexp, strip)
-      expanded = expand_regexp(stripped, directives)
-      ignore_regexp(expanded, strip)
+    def build_regexp(regexp, directives)
+      stripped = strip_regexp(regexp)
+      final = expand_regexp(stripped, directives)
+      raise EmptyRecordError, 'Empty record detected' if final =~ ''
+      final
     end
-    def strip_regexp(regexp, strip)
+    def strip_regexp(regexp)
       lines = regexp.source.split("\n")
       prefix = lines.last
       if lines.first =~ /\A\s*\z/ && prefix =~ /\A\s*\z/
         lines.shift
         lines = lines.map { |s| s.gsub(prefix, '') }
-        lines = lines.map(&regexp_line_stripper(strip))
       end
       Regexp.new(lines.join("\n"), regexp.options)
     end
-    def regexp_line_stripper(strip)
-      case strip
-      when :left  then ->(s) { s.lstrip }
-      when :right then ->(s) { s.rstrip }
-      when :both  then ->(s) { s.strip }
-      when nil, false then ->(s) { s }
-      else raise "Unknown strip option: #{strip}"
-      end
-    end
     def expand_regexp(regexp, directives)
       if directives
         expander = Directives.new(regexp)
@@ -80,21 +70,6 @@ class TextExtractor
       end
     end
-    def ignore_regexp(regexp, strip)
-      return regexp unless strip
-      lines = regexp.source.split("\n").map(&regexp_line_ignorer(strip))
-      Regexp.new(lines.join("\n"), regexp.options)
-    end
-    def regexp_line_ignorer(strip)
-      case strip
-      when :left  then ->(s) { "\[ \\t\\r\\f]*#{s}" }
-      when :right then ->(s) { "#{s}\[ \\t\\r\\f]*" }
-      when :both  then ->(s) { "\[ \\t\\r\\f]*#{s}\[ \\t\\r\\f]*" }
-      else raise "Unknown ignore whitespace option: #{strip}"
-      end
-    end
     def match(string, pos = 0)
       @regexp.match(string, pos)
     end
@@ -178,4 +153,6 @@ class TextExtractor
       end
     end # class FactoryAnalyzer
   end # class Record
+  class EmptyRecordError < StandardError; end
 end # class TextExtractor

data/lib/text_extractor/version.rb CHANGED

@@ -1,5 +1,5 @@
 class TextExtractor
   def self.version
-    '0.5.2'
+    '0.6.0'
   end
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: text_extractor
 version: !ruby/object:Gem::Version
-  version: 0.5.2
+  version: 0.6.0
 platform: ruby
 authors:
 - Ben Miller
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2018-08-15 00:00:00.000000000 Z
+date: 2020-04-23 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -16,14 +16,14 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.0'
+        version: '2.0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '1.0'
+        version: '2.0'
 - !ruby/object:Gem::Dependency
   name: minitest
   requirement: !ruby/object:Gem::Requirement
@@ -44,28 +44,28 @@ dependencies:
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '13.0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '13.0'
 - !ruby/object:Gem::Dependency
   name: rubocop
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '0.54'
+        version: '0.82'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '0.54'
+        version: '0.82'
 description:
 email: bjmllr@gmail.com
 executables: []
@@ -104,7 +104,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.7.3
+rubygems_version: 2.7.6.2
 signing_key:
 specification_version: 4
 summary: Easily extract data from text