RubyGems - text_alignment - Versions diffs - 0.2.0 - Mend

text_alignment 0.2.0

Files changed (26) hide show

checksums.yaml +7 -0
data/.gitignore +1 -0
data/Gemfile +11 -0
data/Gemfile.lock +30 -0
data/LICENSE.txt +22 -0
data/README.md +27 -0
data/lib/text_alignment.rb +1 -0
data/lib/text_alignment/approximate_fit.rb +61 -0
data/lib/text_alignment/find_divisions.rb +117 -0
data/lib/text_alignment/glcs_alignment.rb +311 -0
data/lib/text_alignment/glcs_alignment_fast.rb +114 -0
data/lib/text_alignment/glcs_required.rb +68 -0
data/lib/text_alignment/lcs_alignment.rb +146 -0
data/lib/text_alignment/lcs_cdiff.rb +61 -0
data/lib/text_alignment/lcs_comparison.rb +63 -0
data/lib/text_alignment/lcs_min.rb +160 -0
data/lib/text_alignment/mappings.rb +75 -0
data/lib/text_alignment/text_alignment.rb +223 -0
data/lib/text_alignment/version.rb +3 -0
data/spec/spec_helper.rb +1 -0
data/spec/text_alignment/glcs_alignment_spec.rb +302 -0
data/spec/text_alignment/lcs_alignment_spec.rb +98 -0
data/spec/text_alignment/lcs_comparision_spec.rb +322 -0
data/spec/text_alignment/text_alignment_spec.rb +302 -0
data/text_alignment.gemspec +22 -0
metadata +108 -0

data/lib/text_alignment/glcs_alignment_fast.rb ADDED Viewed

@@ -0,0 +1,114 @@
+#!/usr/bin/env ruby
+require 'diff-lcs'
+require 'text_alignment/lcs_min'
+require 'text_alignment/find_divisions'
+require 'text_alignment/lcs_comparison'
+require 'text_alignment/lcs_alignment'
+require 'text_alignment/glcs_alignment'
+require 'text_alignment/mappings'
+module TextAlignment; end unless defined? TextAlignment
+TextAlignment::SIGNATURE_NGRAM = 5 unless defined? TextAlignment::SIGNATURE_NGRAM
+class TextAlignment::GLCSTextAlignment
+  attr_reader :position_map_begin, :position_map_end
+  attr_reader :common_elements, :mapped_elements
+  attr_reader :similarity
+  attr_reader :str1_match_initial, :str1_match_final, :str2_match_initial, :str2_match_final
+  def initialize(str1, str2, mappings = [], lcs = nil, sdiff = nil)
+    raise ArgumentError, "nil string" if str1.nil? || str2.nil?
+    raise ArgumentError, "nil mappings" if mappings.nil?
+    _glcs_alignment_fast(str1, str2, mapptings, lcs, sdiff)
+  end
+  private
+  def _glcs_alignment_fast(str1, str2, mappings, lcs, sdiff)
+    sdiff = TextAlignment::LCSMin.new(str1, str2).sdiff if sdiff.nil?
+    posmap_begin, posmap_end = {}, {}
+    @common_elements, @mapped_elements = [], []
+    addition, deletion = [], []
+    sdiff.each do |h|
+      case h.action
+      when '='
+        p1, p2 = h.old_position, h.new_position
+        @common_elements << [str1[p1], str2[p2]]
+        posmap_begin[p1], posmap_end[p1] = p2, p2
+        if !addition.empty? && deletion.empty?
+          posmap_end[p1] = p2 - addition.length unless p1 == 0
+        elsif addition.empty? && !deletion.empty?
+          deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+        elsif !addition.empty? && !deletion.empty?
+          if addition.length > 1 || deletion.length > 1
+            galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
+            galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+            galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+            posmap_begin[p1], posmap_end[p1] = p2, p2
+            @common_elements += galign.common_elements
+            @mapped_elements += galign.mapped_elements
+          else
+            posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+            deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+            @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+          end
+        end
+        addition.clear; deletion.clear
+      when '!'
+        deletion << h.old_position
+        addition << h.new_position
+      when '-'
+        deletion << h.old_position
+      when '+'
+        addition << h.new_position
+      end
+    end
+    p1, p2 = str1.length, str2.length
+    posmap_begin[p1], posmap_end[p1] = p2, p2
+    if !addition.empty? && deletion.empty?
+      posmap_end[p1] = p2 - addition.length unless p1 == 0
+    elsif addition.empty? && !deletion.empty?
+      deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+    elsif !addition.empty? && !deletion.empty?
+      if addition.length > 1 && deletion.length > 1
+        galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
+        galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+        galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+        posmap_begin[p1], posmap_end[p1] = p2, p2
+        @mapped_elements += galign.common_elements + galign.mapped_elements
+      else
+        posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+        deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+        @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+      end
+    end
+    @position_map_begin = posmap_begin.sort.to_h
+    @position_map_end = posmap_end.sort.to_h
+  end
+end
+if __FILE__ == $0
+  str1 = '-βκ-'
+  str2 = '-betakappa-'
+  # anns1 = JSON.parse File.read(ARGV[0]), :symbolize_names => true
+  # anns2 = JSON.parse File.read(ARGV[1]), :symbolize_names => true
+  dictionary = [["β", "beta"]]
+  # align = TextAlignment::TextAlignment.new(str1, str2)
+  align = TextAlignment::TextAlignment.new(str1, str2, TextAlignment::MAPPINGS)
+  p align.common_elements
+  p align.mapped_elements
+end

data/lib/text_alignment/glcs_required.rb ADDED Viewed

@@ -0,0 +1,68 @@
+#!/usr/bin/env ruby
+module TextAlignment; end unless defined? TextAlignment
+class << TextAlignment
+  def glcs_required?(str1, mappings = [])
+    raise ArgumentError, "nil string" if str1.nil?
+    raise ArgumentError, "nil mappings" if mappings.nil?
+    # character mappings can be safely applied to the strings withoug changing the position of other characters
+    character_mappings = mappings.select{|m| m[0].length == 1 && m[1].length == 1}
+    characters_from = character_mappings.collect{|m| m[0]}.join
+    characters_to   = character_mappings.collect{|m| m[1]}.join
+    characters_to.gsub!(/-/, '\-')
+    str1.tr!(characters_from, characters_to)
+    str1 =~/([^\p{ASCII}][^\p{ASCII}])/
+    $1
+  end
+end
+if __FILE__ == $0
+  dictionary = [
+                ["×", "x"],       #U+00D7 (multiplication sign)
+                ["•", "*"],       #U+2022 (bullet)
+                ["Δ", "delta"],   #U+0394 (greek capital letter delta)
+                ["Φ", "phi"],     #U+03A6 (greek capital letter phi)
+                ["α", "alpha"],   #U+03B1 (greek small letter alpha)
+                ["β", "beta"],    #U+03B2 (greek small letter beta)
+                ["γ", "gamma"],   #U+03B3 (greek small letter gamma)
+                ["δ", "delta"],   #U+03B4 (greek small letter delta)
+                ["ε", "epsilon"], #U+03B5 (greek small letter epsilon)
+                ["κ", "kappa"],   #U+03BA (greek small letter kappa)
+                ["λ", "lambda"],  #U+03BB (greek small letter lambda)
+                ["μ", "mu"],      #U+03BC (greek small letter mu)
+                ["χ", "chi"],     #U+03C7 (greek small letter chi)
+                ["ϕ", "phi"],     #U+03D5 (greek phi symbol)
+                [" ", " "],       #U+2009 (thin space)
+                [" ", " "],       #U+200A (hair space)
+                [" ", " "],       #U+00A0 (no-break space)
+                ["　", " "],       #U+3000 (ideographic space)
+                ["−", "-"],       #U+2212 (minus sign)
+                ["–", "-"],       #U+2013 (en dash)
+                ["′", "'"],       #U+2032 (prime)
+                ["‘", "'"],       #U+2018 (left single quotation mark)
+                ["’", "'"],       #U+2019 (right single quotation mark)
+                ["“", '"'],       #U+201C (left double quotation mark)
+                ["”", '"']        #U+201D (right double quotation mark)
+               ]
+  str = "TGF-β–induced"
+  # from_text = "TGF-beta-induced"
+  # to_text = "TGF-β–induced"
+  # from_text = "TGF-β–β induced"
+  # to_text = "TGF-beta-beta induced"
+  # str = "-βκ-"
+  if ARGV.length == 1
+    str = File.read(ARGV[0])
+  end
+  # anns2 = JSON.parse File.read(ARGV[1]), :symbolize_names => true
+  p TextAlignment.glcs_required?(str, dictionary)
+end

data/lib/text_alignment/lcs_alignment.rb ADDED Viewed

@@ -0,0 +1,146 @@
+#!/usr/bin/env ruby
+require 'text_alignment/lcs_min'
+class TextAlignment::LCSAlignment
+  attr_reader :position_map_begin, :position_map_end
+  attr_reader :common_elements, :mapped_elements
+  # It initializes the LCS table for the given two strings, str1 and str2.
+  # Exception is raised when nil given passed to either str1, str2 or dictionary
+  def initialize(str1, str2, lcs = nil, sdiff = nil)
+    raise ArgumentError, "nil string" if str1 == nil || str2 == nil
+    sdiff = TextAlignment::LCSMin.new(str1, str2).sdiff if sdiff.nil?
+    _compute_position_map(str1, str2, sdiff)
+  end
+  private
+  def _compute_position_map(str1, str2, sdiff)
+    posmap_begin, posmap_end = {}, {}
+    @common_elements, @mapped_elements = [], []
+    addition, deletion = [], []
+    sdiff.each do |h|
+      case h.action
+      when '='
+        p1, p2 = h.old_position, h.new_position
+        @common_elements << [str1[p1], str2[p2]]
+        posmap_begin[p1], posmap_end[p1] = p2, p2
+        if !addition.empty? && deletion.empty?
+          # correct the position for end
+          posmap_end[p1] = p2 - addition.length unless p1 == 0
+        elsif addition.empty? && !deletion.empty?
+          deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+        elsif !addition.empty? && !deletion.empty?
+          @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+          posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+          deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+        end
+        addition.clear; deletion.clear
+      when '!'
+        deletion << h.old_position
+        addition << h.new_position
+      when '-'
+        deletion << h.old_position
+      when '+'
+        addition << h.new_position
+      end
+    end
+    p1, p2 = str1.length, str2.length
+    posmap_begin[p1], posmap_end[p1] = p2, p2
+    if !addition.empty? && deletion.empty?
+      # correct the position for end
+      posmap_end[p1] = p2 - addition.length unless p1 == 0
+    elsif addition.empty? && !deletion.empty?
+      deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+    elsif !addition.empty? && !deletion.empty?
+      @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+      posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+      deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+    end
+    @position_map_begin = posmap_begin.sort.to_h
+    @position_map_end = posmap_end.sort.to_h
+  end
+end
+if __FILE__ == $0
+  # from_text = "TGF-β mRNA"
+  # to_text = "TGF-beta mRNA"
+  # from_text = "TGF-beta mRNA"
+  # to_text = "TGF-β mRNA"
+  # from_text = "TGF-beta mRNA"
+  # to_text = "TGF- mRNA"
+  # from_text = "TGF-β–induced"
+  # to_text = "TGF-beta-induced"
+  from_text = 'abxyzcd'
+  to_text =  'abcd'
+  # from_text = "TGF-beta-induced"
+  # to_text = "TGF-β–induced"
+  # from_text = "beta-induced"
+  # to_text = "TGF-beta-induced"
+  # from_text = "TGF-beta-induced"
+  # to_text = "beta-induced"
+  # from_text = "TGF-β–β induced"
+  # to_text = "TGF-beta-beta induced"
+  # from_text = "-βκ-"
+  # to_text = "-betakappa-"
+  # from_text = "-betakappa-beta-z"
+  # to_text = "-βκ-β–z"
+  # from_text = "affect C/EBP-β’s ability"
+  # to_text = "affect C/EBP-beta's ability"
+  # from_text = "12 ± 34"
+  # to_text = "12 +/- 34"
+  # from_text = "TGF-β–treated"
+  # to_text = "TGF-beta-treated"
+  # from_text = "in TGF-β–treated cells"
+  # to_text   = "in TGF-beta-treated cells"
+  # from_text = "TGF-β–induced"
+  # to_text = "TGF-beta-induced"
+  # anns1 = JSON.parse File.read(ARGV[0]), :symbolize_names => true
+  # anns2 = JSON.parse File.read(ARGV[1]), :symbolize_names => true
+  # aligner = TextAlignment.new(anns1[:text], anns2[:text], [["Δ", "delta"], [" ", " "], ["–", "-"], ["′", "'"]])
+  # denotations = aligner.transform_denotations(anns1[:denotations])
+  denotations_s = <<-'ANN'
+  [{"id":"T0", "span":{"begin":1,"end":2}, "category":"Protein"}]
+  ANN
+  # denotations = JSON.parse denotations_s, :symbolize_names => true
+  a = TextAlignment::LCSAlignment.new(from_text, to_text)
+  p a.position_map_begin
+  puts "-----"
+  p a.position_map_end
+  # aligner = TextAlignment.new(from_text, to_text, [["Δ", "delta"], [" ", " "], ["–", "-"], ["′", "'"], ["β", "beta"]])
+  # p denotations
+end

data/lib/text_alignment/lcs_cdiff.rb ADDED Viewed

@@ -0,0 +1,61 @@
+#!/usr/bin/env ruby
+require 'diff-lcs'
+module TextAlignment; end unless defined? TextAlignment
+module TextAlignment
+  NIL_CHARACTER = '_'
+end
+class << TextAlignment
+  def cdiff(str1, str2)
+    raise ArgumentError, "nil string" if str1.nil? || str2.nil?
+    raise "a nil character appears in the input string" if str1.index(TextAlignment::NIL_CHARACTER) || str2.index(TextAlignment::NIL_CHARACTER)
+    sdiff2cdiff(Diff::LCS.sdiff(str1, str2))
+  end
+  def sdiff2cdiff (sdiff)
+    raise ArgumentError, "nil sdiff" if sdiff.nil?
+    cdiff_str1, cdiff_str2 = '', ''
+    sdiff.each do |h|
+      case h.action
+      when '='
+        cdiff_str1 += h.old_element
+        cdiff_str2 += h.new_element
+      when '!'
+        cdiff_str1 += h.old_element + TextAlignment::NIL_CHARACTER
+        cdiff_str2 += TextAlignment::NIL_CHARACTER + h.new_element
+      when '-'
+        cdiff_str1 += h.old_element
+        cdiff_str2 += TextAlignment::NIL_CHARACTER
+      when '+'
+        cdiff_str1 += TextAlignment::NIL_CHARACTER
+        cdiff_str2 += h.new_element
+      end
+    end
+    cdiff_str1.gsub(/\n/, ' ') + "\n" + cdiff_str2.gsub(/\n/, ' ')
+  end
+end
+if __FILE__ == $0
+  require 'json'
+  str1 = 'abcde'
+  str2 = 'naxbyzabcdexydzem'
+  if ARGV.length == 2
+    str1 = JSON.parse(File.read(ARGV[0]).strip)["text"]
+    str2 = JSON.parse(File.read(ARGV[1]).strip)["text"]
+  end
+  puts "string 1: #{str1}"
+  puts "-----"
+  puts "string 2: #{str2}"
+  puts "-----"
+  puts "[cdiff]"
+  puts TextAlignment::cdiff(str1, str2)
+end

data/lib/text_alignment/lcs_comparison.rb ADDED Viewed

@@ -0,0 +1,63 @@
+#!/usr/bin/env ruby
+require 'text_alignment/lcs_min'
+module TextAlignment; end unless defined? TextAlignment
+class TextAlignment::LCSComparison
+  # The similarity ratio of the given two strings after stripping unmatched prefixes and suffixes
+  attr_reader :similarity
+  # The initial and final matching positions of str1 and str2
+  attr_reader :str1_match_initial, :str1_match_final, :str2_match_initial, :str2_match_final
+  def initialize(str1, str2, lcs = nil, sdiff = nil)
+    raise ArgumentError, "nil string" if str1 == nil || str2 == nil
+    @str1, @str2 = str1, str2
+    _lcs_comparison(str1, str2, lcs, sdiff)
+  end
+  private
+  def _lcs_comparison(str1, str2, lcs = nil, sdiff = nil)
+    if lcs.nil?
+      lcsmin = TextAlignment::LCSMin.new(str1, str2)
+      lcs = lcsmin.lcs
+      sdiff = lcsmin.sdiff
+    end
+    if lcs > 0
+      match_initial = sdiff.index{|d| d.action == '='}
+      match_final   = sdiff.rindex{|d| d.action == '='}
+      @str1_match_initial = sdiff[match_initial].old_position
+      @str2_match_initial = sdiff[match_initial].new_position
+      @str1_match_final   = sdiff[match_final].old_position
+      @str2_match_final   = sdiff[match_final].new_position
+      @similarity  = 2 * lcs / ((@str1_match_final - @str1_match_initial + 1) + (@str2_match_final - @str2_match_initial + 1)).to_f
+    else
+      @str1_match_initial = 0
+      @str2_match_initial = 0
+      @str1_match_final   = 0
+      @str2_match_final   = 0
+      @similarity         = 0
+    end
+  end
+end
+if __FILE__ == $0
+  require 'json'
+  str1 = 'naxbyzabcdexydzem'
+  str2 = 'abcde'
+  if ARGV.length == 2
+    str1 = JSON.parse(File.read(ARGV[0]).strip)["text"]
+    str2 = JSON.parse(File.read(ARGV[1]).strip)["text"]
+  end
+  comparison = TextAlignment::LCSComparison.new(str1, str2)
+  puts "Similarity: #{comparison.similarity}"
+  puts "String 1 match: (#{comparison.str1_match_initial}, #{comparison.str1_match_final})"
+  puts "String 2 match: (#{comparison.str2_match_initial}, #{comparison.str2_match_final})"
+  puts "-----"
+  puts '[' + str1[comparison.str1_match_initial .. comparison.str1_match_final] + ']'
+  puts "-----"
+  puts '[' + str2[comparison.str2_match_initial .. comparison.str2_match_final] + ']'
+end