RubyGems - text_alignment - Versions diffs - 0.2.4 → 0.2.9 - Mend

text_alignment 0.2.4 → 0.2.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml +4 -4
data/Gemfile +2 -1
data/Gemfile.lock +3 -1
data/bin/align_annotations +24 -3
data/lib/text_alignment/approximate_fit.rb +36 -19
data/lib/text_alignment/find_divisions.rb +112 -12
data/lib/text_alignment/lcs_cdiff.rb +1 -1
data/lib/text_alignment/text_alignment.rb +3 -6
data/lib/text_alignment/version.rb +1 -1
data/text_alignment.gemspec +2 -1
metadata +18 -4

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: c61a711930d19f5a72bd4a4128f5f36038a185eeb203b9ca68afce143694dbd3
-  data.tar.gz: 173fa1ed0277f0384f0804e7a1ea02c3bd1a1eda20a5d3f57523028f815e69ac
+  metadata.gz: 8c1c45ed630cdd60291606b59e1944f0b854a689cfa0d281ae8b8879bf01e806
+  data.tar.gz: 9b33688f3a08f9110f556b4357fbe598d42d1147bc06933323cae4df7187341f
 SHA512:
-  metadata.gz: 8f2a018145a07ec1d9a5c2277fd4d1e4bdb694726cf0936c92e8f25addb325e485545b7a1373a265e3b60fe2da0e39cdccbad586968aef093ed2154070242173
-  data.tar.gz: 488390234e0e3b9d7d67389f303aed6e59bb0e16b1ad94908c8020be64b9c0bac9a9f404e42944fd37ece188377c930fd43596678a80ee24f3b00174c9e33aa4
+  metadata.gz: 856a8fca63f80be4cea7f6beff85dcf475d9237d68bc96728bcfcc030397f414637d2a8e32b139a6fdbccfd8603d327738ff7f3f59d80dc9e61e55a11a04bf20
+  data.tar.gz: 6055f50827354461f194a50da74259e8d97473be9b085634df270964bb815d96d9f916bbad2ef3961ddd845291a80e13b1680f1c42bafeab156b0d59fa3ba952

data/Gemfile CHANGED

@@ -1,8 +1,9 @@
 source 'https://rubygems.org'
-ruby '2.3.4'
+ruby '2.5.5'
 gem 'diff-lcs', '~> 1.3'
 gem 'ruby-dictionary', '~>1.1', '>=1.1.1'
+gem 'string-similarity', '~> 2.1'
 group :test do
 	gem 'rspec', '~>3.0'

data/Gemfile.lock CHANGED

@@ -15,6 +15,7 @@ GEM
       rspec-support (~> 3.0.0)
     rspec-support (3.0.4)
     ruby-dictionary (1.1.1)
+    string-similarity (2.1.0)
 PLATFORMS
   ruby
@@ -23,9 +24,10 @@ DEPENDENCIES
   diff-lcs (~> 1.3)
   rspec (~> 3.0)
   ruby-dictionary (~> 1.1, >= 1.1.1)
+  string-similarity (~> 2.1)
 RUBY VERSION
-   ruby 2.3.4p301
+   ruby 2.5.5p157
 BUNDLED WITH
    1.17.3

data/bin/align_annotations CHANGED

@@ -17,14 +17,35 @@ str2 = anns2[:text]
 denotations = anns1[:denotations]
+puts "[Alignment1]====="
 align = TextAlignment::TextAlignment.new(str1, str2, TextAlignment::MAPPINGS)
 puts TextAlignment::sdiff2cdiff(align.sdiff)
-puts "\n=====\n\n"
+puts
+puts "[Similarity]\n#{align.similarity}"
+puts
+puts '[Denotations original]'
+pp denotations
+puts
+puts '[Denotations transformed]'
+new_denotations = align.transform_hdenotations(denotations)
+pp new_denotations
+puts
+puts "[Alignment2 (downcased)]====="
+align = TextAlignment::TextAlignment.new(str1.downcase, str2.downcase, TextAlignment::MAPPINGS)
+puts TextAlignment::sdiff2cdiff(align.sdiff)
+puts
+puts "[Similarity]\n#{align.similarity}"
+puts
+puts '[Denotations original]'
 pp denotations
-puts "-----"
+puts
+puts '[Denotations transformed]'
 new_denotations = align.transform_hdenotations(denotations)
 pp new_denotations
+puts
+puts '[Annotations transformed]'
+anns2[:denotations] = new_denotations
+puts anns2.to_json
 # p align.common_elements
 # puts "---------------"

data/lib/text_alignment/approximate_fit.rb CHANGED

@@ -1,11 +1,14 @@
 #!/usr/bin/env ruby
+require 'string-similarity'
 module TextAlignment; end unless defined? TextAlignment
 # approximate the location of str1 in str2
 module TextAlignment
   SIGNATURE_NGRAM = 5
   MIN_LENGTH_FOR_APPROXIMATION = 50
-  BUFFER_RATE = 0.2
+  BUFFER_RATE = 0.1
+  TEXT_SIMILARITY_TRESHOLD = 0.7
 end
 class << TextAlignment
@@ -22,29 +25,43 @@ class << TextAlignment
     # If there is no shared n-gram found, it may mean there is no serious overlap between the two strings
     return nil, nil if ngram_shared.empty?
-    # approximate the beginning of the fit
-    signature_ngram = ngram_shared.detect{|g| ngram2.count(g) == 1}
+    signature_ngrams = ngram_shared.select{|g| ngram2.count(g) == 1}
+    return nil, nil if signature_ngrams.empty? #raise "no signature ngram"
+    cache = {}
+    fit_begin, fit_end = nil, nil
+    signature_ngrams.each do |signature_ngram|
+      loc_signature_ngram_in_str1 = str1.index(signature_ngram)
+      loc_signature_ngram_in_str2 = str2.index(signature_ngram)
+      # approximate the beginning of the fit
+      fit_begin = loc_signature_ngram_in_str2 - loc_signature_ngram_in_str1 - (loc_signature_ngram_in_str1 * TextAlignment::BUFFER_RATE).to_i
+      fit_begin = 0 if fit_begin < 0
-    return nil, nil if signature_ngram.nil? #raise "no signature ngram"
-    offset = str1.index(signature_ngram)
-    fit_begin = str2.index(signature_ngram) - offset - (offset * TextAlignment::BUFFER_RATE).to_i
-    fit_begin = 0 if fit_begin < 0
+      # approximate the end of the fit
+      offset_end = str1.length - loc_signature_ngram_in_str1
+      fit_end = loc_signature_ngram_in_str2 + offset_end + (offset_end * TextAlignment::BUFFER_RATE).to_i
+      fit_end = str2.length if fit_end > str2.length
-    # to change the order according to ngram2
-    ngram_shared = ngram2 & ngram1
+      next if cache.has_key?("#{fit_begin}-#{fit_end}")
+      text_similarity = text_similarity(str1, str2[fit_begin ... fit_end])
+      cache["#{fit_begin}-#{fit_end}"] = text_similarity
-    # approximate the end of the fit
-    ngram_shared_reverse = ngram_shared.reverse
-    ngram2_reverse = ngram2.reverse
-    signature_ngram = ngram_shared_reverse.detect{|g| ngram2_reverse.count(g) == 1}
-    return nil, nil if signature_ngram.nil? # raise "no signature ngram"
-    offset = str1.length - str1.rindex(signature_ngram)
-    fit_end = str2.rindex(signature_ngram) + offset + (offset * TextAlignment::BUFFER_RATE).to_i
-    fit_end = str2.length if fit_end > str2.length
+      break if text_similarity > TextAlignment::TEXT_SIMILARITY_TRESHOLD
+      fit_begin, fit_end = nil, nil
+    end
+    return fit_begin, fit_end if fit_begin && fit_end && fit_begin < fit_end
+    return nil, nil
+  end
+  private
-    return nil, nil if fit_begin >= fit_end
-    return fit_begin, fit_end
+  def text_similarity(str1, str2, ngram_order = 3)
+    _str1 = str1.delete(" \t\r\n")
+    _str2 = str2.delete(" \t\r\n")
+    String::Similarity.cosine(_str1, _str2, ngram:2)
   end
 end
 if __FILE__ == $0

data/lib/text_alignment/find_divisions.rb CHANGED

@@ -8,7 +8,7 @@ module TextAlignment; end unless defined? TextAlignment
 # to assume that there is no bag representation to this method
 module TextAlignment
-  TextAlignment::SIMILARITY_THRESHOLD = 0.8
+  TextAlignment::SIMILARITY_THRESHOLD = 0.7
 end
 class << TextAlignment
@@ -28,12 +28,102 @@ class << TextAlignment
     target.tr!(characters_from, characters_to)
     sources.each{|source| source[:text].tr!(characters_from, characters_to)}
+    # to process smaller ones first
     sources.sort!{|s1, s2| s1[:text].size <=> s2[:text].size}
     TextAlignment._find_divisions(target, sources)
   end
-  def _find_divisions(target, sources)
+  def _find_divisions(_target, _sources)
+    indice = []
+    history = []
+    cache = {}
+    target = _target.dup
+    sources = _sources.dup
+    until target.strip.empty? || sources.empty?
+      mode, cmp = nil, nil
+      candidates = []
+      sources.each_with_index do |source, i|
+        if target.size < source[:text].size
+          mode = :t_in_s
+          str1 = target
+          str2 = source[:text]
+        else
+          mode = :s_in_t
+          str1 = source[:text]
+          str2 = target
+        end
+        len1 = str1.length
+        len2 = str2.length
+        offset_begin, offset_end = if (len2 - len1) > len1 * (1 - TextAlignment::SIMILARITY_THRESHOLD)
+          approximate_fit(str1, str2)
+        else
+          # the whole target
+          [0, -1]
+        end
+        unless offset_begin.nil?
+          key = str1 + ' _:_ ' + str2[offset_begin .. offset_end]
+          cmp = if cache.has_key? key
+            cache[key]
+          else
+            cmp = TextAlignment::LCSComparison.new(str1, str2[offset_begin .. offset_end])
+          end
+          cache[key] = cmp
+          if (cmp.similarity > TextAlignment::SIMILARITY_THRESHOLD) && ((len1 - (cmp.str1_match_final - cmp.str1_match_initial + 1)) < len1 * (1 - TextAlignment::SIMILARITY_THRESHOLD))
+            candidates << {idx:i, offset:offset_begin, mode:mode, cmp:cmp}
+          end
+        end
+      end
+      # return remaining target and sources if m.nil?
+      break if candidates.empty?
+      choice = candidates.max{|a, b| a[:cmp].similarity <=> a[:cmp].similarity}
+      m = choice[:idx]
+      mode = choice[:mode]
+      index = if mode == :t_in_s
+        {divid:sources[m][:divid], region:[0, target.size]}
+      else # :s_in_t
+        cmp = choice[:cmp]
+        offset = choice[:offset]
+        {divid:sources[m][:divid], region:[cmp.str2_match_initial + offset, cmp.str2_match_final + offset + 1]}
+      end
+      target = target[0 ... index[:region][0]] + target[index[:region][1] .. -1]
+      history << index[:region].dup
+      before_begin = index[:region][0]
+      before_end = index[:region][1]
+      rhistory = history.reverse
+      rhistory.shift
+      rhistory.each do |h|
+        gap = h[1] - h[0]
+        index[:region][0] += gap if index[:region][0] >= h[0]
+        index[:region][1] += gap if index[:region][1] >  h[0]
+      end
+      indice << index
+      sources.delete_at(m)
+    end
+    unless target.strip.empty? && sources.empty?
+      index = {divid:nil}
+      index[:remaining_target] = target unless target.strip.empty?
+      index[:remaining_sources] = sources.collect{|s| s[:divid]} unless sources.empty?
+      indice << index
+    end
+    indice
+  end
+  def _find_divisions_old(target, sources)
     mode, m, c, offset_begin = nil, nil, nil, nil
     sources.each_with_index do |source, i|
@@ -88,6 +178,7 @@ class << TextAlignment
       return [index] + more_index
     end
   end
 end
 if __FILE__ == $0
@@ -98,20 +189,29 @@ if __FILE__ == $0
     sources = JSON.parse File.read(ARGV[1]), :symbolize_names => true
     div_index = TextAlignment::find_divisions(target_text, sources)
+    pp div_index
     # str1 = File.read(ARGV[0]).strip
     # str2 = File.read(ARGV[1]).strip
     # div_index = TextAlignment::find_divisions(str1, [str2])
-    puts "target length: #{target_text.length}"
-    div_index.each do |i|
-      if i[0] >= 0
-        puts "[Div: #{i[0]}] (#{i[1][0]}, #{i[1][1]})"
-        puts target_text[i[1][0] ... i[1][1]]
-        puts "=========="
-      else
-        p i
-      end
-    end
+    # puts "target length: #{target_text.length}"
+    # div_index.each do |i|
+    #   unless i[:divid].nil?
+    #     puts "[Div: #{i[:divid]}] (#{i[:region][0]}, #{i[:region][1]})"
+    #     puts target_text[i[:region][0] ... i[:region][1]]
+    #     puts "=========="
+    #   else
+    #     p i
+    #   end
+    #   # if i[0] >= 0
+    #   #   puts "[Div: #{i[0]}] (#{i[1][0]}, #{i[1][1]})"
+    #   #   puts target_text[i[1][0] ... i[1][1]]
+    #   #   puts "=========="
+    #   # else
+    #   #   p i
+    #   # end
+    # end
   end
 end

data/lib/text_alignment/lcs_cdiff.rb CHANGED

@@ -37,7 +37,7 @@ class << TextAlignment
       end
     end
-    cdiff_str1.gsub(/\n/, ' ') + "\n" + cdiff_str2.gsub(/\n/, ' ')
+    cdiff_str1.gsub(/\n/, ' ') + "\n>>>>><<<<<\n" + cdiff_str2.gsub(/\n/, ' ')
   end
 end

data/lib/text_alignment/text_alignment.rb CHANGED

@@ -79,7 +79,7 @@ class TextAlignment::TextAlignment
   end
   def transform_a_span(span)
-    {:begin=>@position_map_begin[span[:begin]], :end=>@position_map_end[span[:end]]}
+    {begin: @position_map_begin[span[:begin]], end: @position_map_end[span[:end]]}
   end
   def transform_spans(spans)
@@ -91,11 +91,8 @@ class TextAlignment::TextAlignment
   end
   def transform_hdenotations(hdenotations)
-    unless hdenotations.nil?
-      hdenotations_new = Array.new(hdenotations)
-      (0...hdenotations.length).each {|i| hdenotations_new[i][:span] = transform_a_span(hdenotations[i][:span])}
-      hdenotations_new
-    end
+    return nil if hdenotations.nil?
+    hdenotations.collect{|d| d.dup.merge({span:transform_a_span(d[:span])})}
   end
   private

data/lib/text_alignment/version.rb CHANGED

@@ -1,3 +1,3 @@
 class TextAlignment
-  VERSION = '0.2.4'
+  VERSION = '0.2.9'
 end

data/text_alignment.gemspec CHANGED

@@ -17,6 +17,7 @@ Gem::Specification.new do |gem|
   gem.test_files    = gem.files.grep(%r{^(test|spec|features)/})
   gem.require_paths = ['lib']
-  gem.add_development_dependency 'ruby-dictionary', '~>1.1', '>=1.1.1'
+  gem.add_runtime_dependency 'ruby-dictionary', '~>1.1', '>=1.1.1'
+  gem.add_runtime_dependency 'string-similarity', '~> 2.1'
   gem.add_development_dependency 'rspec', '~>3.0'
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: text_alignment
 version: !ruby/object:Gem::Version
-  version: 0.2.4
+  version: 0.2.9
 platform: ruby
 authors:
 - Jin-Dong Kim
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2019-06-11 00:00:00.000000000 Z
+date: 2020-07-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: ruby-dictionary
@@ -20,7 +20,7 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: 1.1.1
-  type: :development
+  type: :runtime
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
@@ -30,6 +30,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: 1.1.1
+- !ruby/object:Gem::Dependency
+  name: string-similarity
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.1'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '2.1'
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
@@ -98,7 +112,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.0.3
+rubygems_version: 3.0.8
 signing_key:
 specification_version: 4
 summary: Ruby class for aligning two character strings