RubyGems - text_alignment - Versions diffs - 0.2.9 → 0.3.9 - Mend

text_alignment 0.2.9 → 0.3.9

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (23) hide show

checksums.yaml +4 -4
data/bin/align_annotations +190 -39
data/lib/text_alignment/anchor_finder.rb +149 -0
data/lib/text_alignment/approximate_fit.rb +50 -52
data/lib/text_alignment/find_divisions.rb +198 -200
data/lib/text_alignment/glcs_alignment.rb +297 -297
data/lib/text_alignment/glcs_alignment_fast.rb +94 -94
data/lib/text_alignment/glcs_required.rb +50 -50
data/lib/text_alignment/lcs_alignment.rb +115 -115
data/lib/text_alignment/lcs_cdiff.rb +46 -48
data/lib/text_alignment/lcs_comparison.rb +53 -53
data/lib/text_alignment/lcs_min.rb +144 -138
data/lib/text_alignment/mappings.rb +68 -69
data/lib/text_alignment/mixed_alignment.rb +193 -0
data/lib/text_alignment/text_alignment.rb +232 -174
data/lib/text_alignment/version.rb +1 -1
data/text_alignment.gemspec +1 -1
metadata +5 -13
data/spec/spec_helper.rb +0 -1
data/spec/text_alignment/glcs_alignment_spec.rb +0 -302
data/spec/text_alignment/lcs_alignment_spec.rb +0 -98
data/spec/text_alignment/lcs_comparision_spec.rb +0 -322
data/spec/text_alignment/text_alignment_spec.rb +0 -302

data/lib/text_alignment/mappings.rb CHANGED

@@ -1,75 +1,74 @@
-module TextAlignment
+module TextAlignment; end unless defined? TextAlignment
-  TextAlignment::MAPPINGS = [
-    ["©", "(c)"],   #U+00A9 (Copyright Sign)
+TextAlignment::MAPPINGS = [
+	["©", "(c)"],   #U+00A9 (Copyright Sign)
-    ["α", "alpha"],   #U+03B1 (greek small letter alpha)
-    ["β", "beta"],    #U+03B2 (greek small letter beta)
-    ["γ", "gamma"],   #U+03B3 (greek small letter gamma)
-    ["δ", "delta"],   #U+03B4 (greek small letter delta)
-    ["ε", "epsilon"], #U+03B5 (greek small letter epsilon)
-    ["ζ", "zeta"],    #U+03B6 (greek small letter zeta)
-    ["η", "eta"],     #U+03B7 (greek small letter eta)
-    ["θ", "theta"],   #U+03B7 (greek small letter eta)
-    ["ι", "iota"],    #U+03B7 (greek small letter eta)
-    ["κ", "kappa"],   #U+03BA (greek small letter kappa)
-    ["λ", "lambda"],  #U+03BB (greek small letter lambda)
-    ["λ", "lamda"],  #U+03BB (greek small letter lambda)
-    ["μ", "mu"],      #U+03BC (greek small letter mu)
-    ["ν", "nu"],      #U+03BD (greek small letter nu)
-    ["ξ", "xi"],      #U+03BE (greek small letter xi)
-    ["ο", "omicron"], #U+03BF (greek small letter omicron)
-    ["π", "pi"],      #U+03C0 (greek small letter pi)
-    ["ρ", "rho"],     #U+03C1 (greek small letter rho)
-    ["σ", "sigma"],   #U+03C3 (greek small letter sigma)
-    ["τ", "tau"],     #U+03C4 (greek small letter tau)
-    ["υ", "upsilon"], #U+03C5 (greek small letter upsilon)
-    ["φ", "phi"],     #U+03C6 (greek small letter phi)
-    ["χ", "chi"],     #U+03C7 (greek small letter chi)
-    ["ψ", "psi"],     #U+03C8 (greek small letter psi)
-    ["ω", "omega"],   #U+03C9 (greek small letter omega)
+	["α", "alpha"],   #U+03B1 (greek small letter alpha)
+	["β", "beta"],    #U+03B2 (greek small letter beta)
+	["γ", "gamma"],   #U+03B3 (greek small letter gamma)
+	["δ", "delta"],   #U+03B4 (greek small letter delta)
+	["ε", "epsilon"], #U+03B5 (greek small letter epsilon)
+	["ζ", "zeta"],    #U+03B6 (greek small letter zeta)
+	["η", "eta"],     #U+03B7 (greek small letter eta)
+	["θ", "theta"],   #U+03B7 (greek small letter eta)
+	["ι", "iota"],    #U+03B7 (greek small letter eta)
+	["κ", "kappa"],   #U+03BA (greek small letter kappa)
+	["λ", "lambda"],  #U+03BB (greek small letter lambda)
+	["λ", "lamda"],  #U+03BB (greek small letter lambda)
+	["μ", "mu"],      #U+03BC (greek small letter mu)
+	["ν", "nu"],      #U+03BD (greek small letter nu)
+	["ξ", "xi"],      #U+03BE (greek small letter xi)
+	["ο", "omicron"], #U+03BF (greek small letter omicron)
+	["π", "pi"],      #U+03C0 (greek small letter pi)
+	["ρ", "rho"],     #U+03C1 (greek small letter rho)
+	["σ", "sigma"],   #U+03C3 (greek small letter sigma)
+	["τ", "tau"],     #U+03C4 (greek small letter tau)
+	["υ", "upsilon"], #U+03C5 (greek small letter upsilon)
+	["φ", "phi"],     #U+03C6 (greek small letter phi)
+	["χ", "chi"],     #U+03C7 (greek small letter chi)
+	["ψ", "psi"],     #U+03C8 (greek small letter psi)
+	["ω", "omega"],   #U+03C9 (greek small letter omega)
-    ["Α", "Alpha"],   #U+0391 (greek capital letter alpha)
-    ["Β", "Beta"],    #U+0392 (greek capital letter beta)
-    ["Γ", "Gamma"],   #U+0393 (greek capital letter gamma)
-    ["Δ", "Delta"],   #U+0394 (greek capital letter delta)
-    ["Ε", "Epsilon"], #U+0395 (greek capital letter epsilon)
-    ["Ζ", "Zeta"],    #U+0396 (greek capital letter zeta)
-    ["Η", "Eta"],     #U+0397 (greek capital letter eta)
-    ["Θ", "Theta"],   #U+0398 (greek capital letter theta)
-    ["Ι", "Iota"],    #U+0399 (greek capital letter iota)
-    ["Κ", "Kappa"],   #U+039A (greek capital letter kappa)
-    ["Λ", "Lambda"],  #U+039B (greek capital letter lambda)
-    ["Λ", "Lamda"],  #U+039B (greek capital letter lambda)
-    ["Μ", "Mu"],      #U+039C (greek capital letter mu)
-    ["Ν", "Nu"],      #U+039D (greek capital letter nu)
-    ["Ξ", "Xi"],      #U+039E (greek capital letter xi)
-    ["Ο", "Omicron"], #U+039F (greek capital letter omicron)
-    ["Π", "Pi"],      #U+03A0 (greek capital letter pi)
-    ["Ρ", "Rho"],     #U+03A1 (greek capital letter rho)
-    ["Σ", "Sigma"],   #U+03A3 (greek capital letter sigma)
-    ["Τ", "Tau"],     #U+03A4 (greek capital letter tau)
-    ["Υ", "Upsilon"], #U+03A5 (greek capital letter upsilon)
-    ["Φ", "Phi"],     #U+03A6 (greek capital letter phi)
-    ["Χ", "Chi"],     #U+03A7 (greek capital letter chi)
-    ["Ψ", "Psi"],     #U+03A8 (greek capital letter Psi)
-    ["Ω", "Omega"],   #U+03A9 (greek capital letter omega)
+	["Α", "Alpha"],   #U+0391 (greek capital letter alpha)
+	["Β", "Beta"],    #U+0392 (greek capital letter beta)
+	["Γ", "Gamma"],   #U+0393 (greek capital letter gamma)
+	["Δ", "Delta"],   #U+0394 (greek capital letter delta)
+	["Ε", "Epsilon"], #U+0395 (greek capital letter epsilon)
+	["Ζ", "Zeta"],    #U+0396 (greek capital letter zeta)
+	["Η", "Eta"],     #U+0397 (greek capital letter eta)
+	["Θ", "Theta"],   #U+0398 (greek capital letter theta)
+	["Ι", "Iota"],    #U+0399 (greek capital letter iota)
+	["Κ", "Kappa"],   #U+039A (greek capital letter kappa)
+	["Λ", "Lambda"],  #U+039B (greek capital letter lambda)
+	["Λ", "Lamda"],  #U+039B (greek capital letter lambda)
+	["Μ", "Mu"],      #U+039C (greek capital letter mu)
+	["Ν", "Nu"],      #U+039D (greek capital letter nu)
+	["Ξ", "Xi"],      #U+039E (greek capital letter xi)
+	["Ο", "Omicron"], #U+039F (greek capital letter omicron)
+	["Π", "Pi"],      #U+03A0 (greek capital letter pi)
+	["Ρ", "Rho"],     #U+03A1 (greek capital letter rho)
+	["Σ", "Sigma"],   #U+03A3 (greek capital letter sigma)
+	["Τ", "Tau"],     #U+03A4 (greek capital letter tau)
+	["Υ", "Upsilon"], #U+03A5 (greek capital letter upsilon)
+	["Φ", "Phi"],     #U+03A6 (greek capital letter phi)
+	["Χ", "Chi"],     #U+03A7 (greek capital letter chi)
+	["Ψ", "Psi"],     #U+03A8 (greek capital letter Psi)
+	["Ω", "Omega"],   #U+03A9 (greek capital letter omega)
-    ["ϕ", "phi"],     #U+03D5 (greek phi symbol)
+	["ϕ", "phi"],     #U+03D5 (greek phi symbol)
-    ["×", "x"],       #U+00D7 (multiplication sign)
-    ["•", "*"],       #U+2022 (bullet)
-    [" ", " "],       #U+2009 (thin space)
-    [" ", " "],       #U+200A (hair space)
-    [" ", " "],       #U+00A0 (no-break space)
-    ["　", " "],       #U+3000 (ideographic space)
-    ["−", "-"],       #U+2212 (minus sign)
-    ["–", "-"],       #U+2013 (en dash)
-    ["′", "'"],       #U+2032 (prime)
-    ["‘", "'"],       #U+2018 (left single quotation mark)
-    ["’", "'"],       #U+2019 (right single quotation mark)
-    ["“", '"'],       #U+201C (left double quotation mark)
-    ["”", '"'],        #U+201D (right double quotation mark)
-    ['"', "''"]
+	["×", "x"],       #U+00D7 (multiplication sign)
+	["•", "*"],       #U+2022 (bullet)
+	[" ", " "],       #U+2009 (thin space)
+	[" ", " "],       #U+200A (hair space)
+	[" ", " "],       #U+00A0 (no-break space)
+	["　", " "],       #U+3000 (ideographic space)
+	["−", "-"],       #U+2212 (minus sign)
+	["–", "-"],       #U+2013 (en dash)
+	["′", "'"],       #U+2032 (prime)
+	["‘", "'"],       #U+2018 (left single quotation mark)
+	["’", "'"],       #U+2019 (right single quotation mark)
+	["“", '"'],       #U+201C (left double quotation mark)
+	["”", '"'],        #U+201D (right double quotation mark)
+	['"', "''"]
   ]
-end

data/lib/text_alignment/mixed_alignment.rb ADDED

@@ -0,0 +1,193 @@
+#!/usr/bin/env ruby
+require 'diff-lcs'
+require 'text_alignment/lcs_min'
+require 'text_alignment/find_divisions'
+require 'text_alignment/lcs_comparison'
+require 'text_alignment/lcs_alignment'
+require 'text_alignment/lcs_cdiff'
+require 'text_alignment/glcs_alignment'
+require 'text_alignment/mappings'
+module TextAlignment; end unless defined? TextAlignment
+TextAlignment::NOMATCH_CHARS = "@^|#$%&_" unless defined? TextAlignment::NOMATCH_CHARS
+class TextAlignment::MixedAlignment
+	attr_reader :sdiff
+	attr_reader :position_map_begin, :position_map_end
+	attr_reader :common_elements, :mapped_elements
+	attr_reader :similarity
+	attr_reader :str1_match_initial, :str1_match_final, :str2_match_initial, :str2_match_final
+	def initialize(str1, str2, mappings = [])
+		raise ArgumentError, "nil string" if str1.nil? || str2.nil?
+		raise ArgumentError, "nil mappings" if mappings.nil?
+		## preprocessing
+		str1 = str1.dup
+		str2 = str2.dup
+		mappings = mappings.dup
+		## find the first nomatch character
+		TextAlignment::NOMATCH_CHARS.each_char do |c|
+			if str2.index(c).nil?
+				@nomatch_char1 = c
+				break
+			end
+		end
+		raise RuntimeError, "Cannot find nomatch character" if @nomatch_char1.nil?
+		## find the first nomatch character
+		TextAlignment::NOMATCH_CHARS.each_char do |c|
+			if c != @nomatch_char1 && str1.index(c).nil?
+				@nomatch_char2 = c
+				break
+			end
+		end
+		raise RuntimeError, "Cannot find nomatch character" if @nomatch_char2.nil?
+		# single character mappings
+		character_mappings = mappings.select{|m| m[0].length == 1 && m[1].length == 1}
+		characters_from = character_mappings.collect{|m| m[0]}.join
+		characters_to   = character_mappings.collect{|m| m[1]}.join
+		characters_to.gsub!(/-/, '\-')
+		str1.tr!(characters_from, characters_to)
+		str2.tr!(characters_from, characters_to)
+		mappings.delete_if{|m| m[0].length == 1 && m[1].length == 1}
+		# ASCII foldings
+		ascii_foldings = mappings.select{|m| m[0].length == 1 && m[1].length > 1}
+		ascii_foldings.each do |f|
+			from = f[1]
+			if str2.index(f[0])
+				to   = f[0] + (@nomatch_char1 * (f[1].length - 1))
+				str1.gsub!(from, to)
+			end
+			if str1.index(f[0])
+				to   = f[0] + (@nomatch_char2 * (f[1].length - 1))
+				str2.gsub!(from, to)
+			end
+		end
+		mappings.delete_if{|m| m[0].length == 1 && m[1].length > 1}
+		_compute_mixed_alignment(str1, str2, mappings)
+	end
+	def transform_begin_position(begin_position)
+		@position_map_begin[begin_position]
+	end
+	def transform_end_position(end_position)
+		@position_map_end[end_position]
+	end
+	def transform_a_span(span)
+		{begin: @position_map_begin[span[:begin]], end: @position_map_end[span[:end]]}
+	end
+	def transform_spans(spans)
+		spans.map{|span| transform_a_span(span)}
+	end
+	def transform_denotations!(denotations)
+		denotations.map!{|d| d.begin = @position_map_begin[d.begin]; d.end = @position_map_end[d.end]; d} unless denotations.nil?
+	end
+	def transform_hdenotations(hdenotations)
+		return nil if hdenotations.nil?
+		hdenotations.collect{|d| d.dup.merge({span:transform_a_span(d[:span])})}
+	end
+	private
+	def _compute_mixed_alignment(str1, str2, mappings = [])
+		lcsmin = TextAlignment::LCSMin.new(str1, str2)
+		lcs = lcsmin.lcs
+		@sdiff = lcsmin.sdiff
+		if @sdiff.nil?
+			@similarity = 0
+			return
+		end
+		cmp = TextAlignment::LCSComparison.new(str1, str2, lcs, @sdiff)
+		@similarity         = cmp.similarity
+		@str1_match_initial = cmp.str1_match_initial
+		@str1_match_final   = cmp.str1_match_final
+		@str2_match_initial = cmp.str2_match_initial
+		@str2_match_final   = cmp.str2_match_final
+		posmap_begin, posmap_end = {}, {}
+		@common_elements, @mapped_elements = [], []
+		addition, deletion = [], []
+		@sdiff.each do |h|
+			case h.action
+			when '='
+				p1, p2 = h.old_position, h.new_position
+				@common_elements << [str1[p1], str2[p2]]
+				posmap_begin[p1], posmap_end[p1] = p2, p2
+				if !addition.empty? && deletion.empty?
+					posmap_end[p1] = p2 - addition.length unless p1 == 0
+				elsif addition.empty? && !deletion.empty?
+					deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+				elsif !addition.empty? && !deletion.empty?
+					if addition.length > 1 || deletion.length > 1
+						galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
+						galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+						galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+						posmap_begin[p1], posmap_end[p1] = p2, p2
+						@common_elements += galign.common_elements
+						@mapped_elements += galign.mapped_elements
+					else
+						posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+						deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+						@mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+					end
+				end
+				addition.clear; deletion.clear
+			when '!'
+				deletion << h.old_position
+				addition << h.new_position
+			when '-'
+				deletion << h.old_position
+			when '+'
+				addition << h.new_position
+			end
+		end
+		p1, p2 = str1.length, str2.length
+		posmap_begin[p1], posmap_end[p1] = p2, p2
+		if !addition.empty? && deletion.empty?
+			posmap_end[p1] = p2 - addition.length unless p1 == 0
+		elsif addition.empty? && !deletion.empty?
+			deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
+		elsif !addition.empty? && !deletion.empty?
+			if addition.length > 1 && deletion.length > 1
+				galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
+				galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+				galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
+				posmap_begin[p1], posmap_end[p1] = p2, p2
+				@common_elements += galign.common_elements
+				@mapped_elements += galign.mapped_elements
+			else
+				posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
+				deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
+				@mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
+			end
+		end
+		@position_map_begin = posmap_begin.sort.to_h
+		@position_map_end = posmap_end.sort.to_h
+	end
+end

data/lib/text_alignment/text_alignment.rb CHANGED

@@ -1,181 +1,239 @@
 #!/usr/bin/env ruby
-require 'diff-lcs'
-require 'text_alignment/lcs_min'
-require 'text_alignment/find_divisions'
-require 'text_alignment/lcs_comparison'
-require 'text_alignment/lcs_alignment'
-require 'text_alignment/lcs_cdiff'
-require 'text_alignment/glcs_alignment'
-require 'text_alignment/mappings'
+require 'text_alignment/anchor_finder'
+require 'text_alignment/mixed_alignment'
 module TextAlignment; end unless defined? TextAlignment
-TextAlignment::SIGNATURE_NGRAM = 5 unless defined? TextAlignment::SIGNATURE_NGRAM
-TextAlignment::NOMATCH_CHARS = "@^|#$%&_" unless defined? TextAlignment::NOMATCH_CHARS
+TextAlignment::SIGNATURE_NGRAM = 7 unless defined? TextAlignment::SIGNATURE_NGRAM
+TextAlignment::BUFFER_RATE = 0.1 unless defined? TextAlignment::BUFFER_RATE
 class TextAlignment::TextAlignment
-  attr_reader :sdiff
-  attr_reader :position_map_begin, :position_map_end
-  attr_reader :common_elements, :mapped_elements
-  attr_reader :similarity
-  attr_reader :str1_match_initial, :str1_match_final, :str2_match_initial, :str2_match_final
-  def initialize(str1, str2, mappings = [])
-    raise ArgumentError, "nil string" if str1.nil? || str2.nil?
-    raise ArgumentError, "nil mappings" if mappings.nil?
-    ## preprocessing
-    str1 = str1.dup
-    str2 = str2.dup
-    mappings = mappings.dup
-    ## find the first nomatch character
-    TextAlignment::NOMATCH_CHARS.each_char do |c|
-      if str2.index(c).nil?
-        @nomatch_char1 = c
-        break
-      end
-    end
-    raise RuntimeError, "Cannot find nomatch character" if @nomatch_char1.nil?
-    ## find the first nomatch character
-    TextAlignment::NOMATCH_CHARS.each_char do |c|
-      if c != @nomatch_char1 && str1.index(c).nil?
-        @nomatch_char2 = c
-        break
-      end
-    end
-    raise RuntimeError, "Cannot find nomatch character" if @nomatch_char2.nil?
-    # single character mappings
-    character_mappings = mappings.select{|m| m[0].length == 1 && m[1].length == 1}
-    characters_from = character_mappings.collect{|m| m[0]}.join
-    characters_to   = character_mappings.collect{|m| m[1]}.join
-    characters_to.gsub!(/-/, '\-')
-    str1.tr!(characters_from, characters_to)
-    str2.tr!(characters_from, characters_to)
-    mappings.delete_if{|m| m[0].length == 1 && m[1].length == 1}
-    # ASCII foldings
-    ascii_foldings = mappings.select{|m| m[0].length == 1 && m[1].length > 1}
-    ascii_foldings.each do |f|
-      from = f[1]
-      if str2.index(f[0])
-        to   = f[0] + (@nomatch_char1 * (f[1].length - 1))
-        str1.gsub!(from, to)
-      end
-      if str1.index(f[0])
-        to   = f[0] + (@nomatch_char2 * (f[1].length - 1))
-        str2.gsub!(from, to)
-      end
-    end
-    mappings.delete_if{|m| m[0].length == 1 && m[1].length > 1}
-    _compute_mixed_alignment(str1, str2, mappings)
-  end
-  def transform_a_span(span)
-    {begin: @position_map_begin[span[:begin]], end: @position_map_end[span[:end]]}
-  end
-  def transform_spans(spans)
-    spans.map{|span| transform_a_span(span)}
-  end
-  def transform_denotations!(denotations)
-    denotations.map!{|d| d.begin = @position_map_begin[d.begin]; d.end = @position_map_end[d.end]; d} unless denotations.nil?
-  end
-  def transform_hdenotations(hdenotations)
-    return nil if hdenotations.nil?
-    hdenotations.collect{|d| d.dup.merge({span:transform_a_span(d[:span])})}
-  end
-  private
-  def _compute_mixed_alignment(str1, str2, mappings = [])
-    lcsmin = TextAlignment::LCSMin.new(str1, str2)
-    lcs = lcsmin.lcs
-    @sdiff = lcsmin.sdiff
-    cmp = TextAlignment::LCSComparison.new(str1, str2, lcs, @sdiff)
-    @similarity         = cmp.similarity
-    @str1_match_initial = cmp.str1_match_initial
-    @str1_match_final   = cmp.str1_match_final
-    @str2_match_initial = cmp.str2_match_initial
-    @str2_match_final   = cmp.str2_match_final
-    posmap_begin, posmap_end = {}, {}
-    @common_elements, @mapped_elements = [], []
-    addition, deletion = [], []
-    @sdiff.each do |h|
-      case h.action
-      when '='
-        p1, p2 = h.old_position, h.new_position
-        @common_elements << [str1[p1], str2[p2]]
-        posmap_begin[p1], posmap_end[p1] = p2, p2
-        if !addition.empty? && deletion.empty?
-          posmap_end[p1] = p2 - addition.length unless p1 == 0
-        elsif addition.empty? && !deletion.empty?
-          deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
-        elsif !addition.empty? && !deletion.empty?
-          if addition.length > 1 || deletion.length > 1
-            galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
-            galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
-            galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
-            posmap_begin[p1], posmap_end[p1] = p2, p2
-            @common_elements += galign.common_elements
-            @mapped_elements += galign.mapped_elements
-          else
-            posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
-            deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
-            @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
-          end
-        end
-        addition.clear; deletion.clear
-      when '!'
-        deletion << h.old_position
-        addition << h.new_position
-      when '-'
-        deletion << h.old_position
-      when '+'
-        addition << h.new_position
-      end
-    end
-    p1, p2 = str1.length, str2.length
-    posmap_begin[p1], posmap_end[p1] = p2, p2
-    if !addition.empty? && deletion.empty?
-      posmap_end[p1] = p2 - addition.length unless p1 == 0
-    elsif addition.empty? && !deletion.empty?
-      deletion.each{|p| posmap_begin[p], posmap_end[p] = p2, p2}
-    elsif !addition.empty? && !deletion.empty?
-      if addition.length > 1 && deletion.length > 1
-        galign = TextAlignment::GLCSAlignment.new(str1[deletion[0] .. deletion[-1]], str2[addition[0] .. addition[-1]], mappings)
-        galign.position_map_begin.each {|k, v| posmap_begin[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
-        galign.position_map_end.each   {|k, v|   posmap_end[k + deletion[0]] = v.nil? ? nil : v + addition[0]}
-        posmap_begin[p1], posmap_end[p1] = p2, p2
-        @common_elements += galign.common_elements
-        @mapped_elements += galign.mapped_elements
-      else
-        posmap_begin[deletion[0]], posmap_end[deletion[0]] = addition[0], addition[0]
-        deletion[1..-1].each{|p| posmap_begin[p], posmap_end[p] = nil, nil}
-        @mapped_elements << [str1[deletion[0], deletion.length], str2[addition[0], addition.length]]
-      end
-    end
-    @position_map_begin = posmap_begin.sort.to_h
-    @position_map_end = posmap_end.sort.to_h
-  end
+	attr_reader :block_alignments
+	attr_reader :similarity
+	attr_reader :lost_annotations
+	def initialize(str1, str2, mappings = nil)
+		raise ArgumentError, "nil string" if str1.nil? || str2.nil?
+		mappings ||= TextAlignment::MAPPINGS
+		# try exact match
+		block_begin = str2.index(str1)
+		unless block_begin.nil?
+			@block_alignments = [{source:{begin:0, end:str1.length}, target:{begin:block_begin, end:block_begin + str1.length}, delta:block_begin}]
+			return @block_alignments
+		end
+		anchor_finder = TextAlignment::AnchorFinder.new(str1, str2)
+		# To collect matched blocks
+		mblocks = []
+		while anchor = anchor_finder.get_next_anchor
+			last = mblocks.last
+			if last && (anchor[:source][:begin] == last[:source][:end] + 1) && (anchor[:target][:begin] == last[:target][:end] + 1)
+				last[:source][:end] = anchor[:source][:end]
+				last[:target][:end] = anchor[:target][:end]
+			else
+				mblocks << anchor
+			end
+		end
+		# mblocks.each do |b|
+		# 	p [b[:source], b[:target]]
+		# 	puts "---"
+		# 	puts str1[b[:source][:begin] ... b[:source][:end]]
+		# 	puts "---"
+		# 	puts str2[b[:target][:begin] ... b[:target][:end]]
+		# 	puts "====="
+		# 	puts
+		# end
+		# puts "-=-=-=-=-"
+		# puts
+		## To find block alignments
+		@block_alignments = []
+		return if mblocks.empty?
+		# Initial step
+		if mblocks[0][:source][:begin] > 0
+			e1 = mblocks[0][:source][:begin]
+			e2 = mblocks[0][:target][:begin]
+			if mblocks[0][:target][:begin] == 0
+				@block_alignments << {source:{begin:0, end:e1}, target:{begin:0, end:0}, alignment: :empty}
+			else
+				_str1 = str1[0 ... e1]
+				_str2 = str2[0 ... e2]
+				unless _str1.strip.empty?
+					if _str2.strip.empty?
+						@block_alignments << {source:{begin:0, end:e1}, target:{begin:0, end:e2}, alignment: :empty}
+					else
+						len_min = [_str1.length, _str2.length].min
+						len_buffer = (len_min * (1 + TextAlignment::BUFFER_RATE)).to_i
+						b1 = _str1.length < len_buffer ? 0 : e1 - len_buffer
+						b2 = _str2.length < len_buffer ? 0 : e2 - len_buffer
+						@block_alignments << {source:{begin:0, end:b1}, target:{begin:0, end:b2}, alignment: :empty} if b1 > 0
+						alignment = TextAlignment::MixedAlignment.new(_str1.downcase, _str2.downcase, mappings)
+						if alignment.similarity < 0.6
+							@block_alignments << {source:{begin:b1, end:e1}, target:{begin:0, end:e2}, alignment: :empty}
+						else
+							@block_alignments << {source:{begin:b1, end:e1}, target:{begin:0, end:e2}, alignment:alignment}
+						end
+					end
+				end
+			end
+		end
+		@block_alignments << mblocks[0]
+		(1 ... mblocks.length).each do |i|
+			b1 = mblocks[i - 1][:source][:end]
+			b2 = mblocks[i - 1][:target][:end]
+			e1 = mblocks[i][:source][:begin]
+			e2 = mblocks[i][:target][:begin]
+			_str1 = str1[b1 ... e1]
+			_str2 = str2[b2 ... e2]
+			unless _str1.strip.empty?
+				if _str2.strip.empty?
+					@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment: :empty}
+				else
+					alignment = TextAlignment::MixedAlignment.new(_str1.downcase, _str2.downcase, mappings)
+					if alignment.similarity < 0.6
+						@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment: :empty}
+					else
+						@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment:alignment}
+					end
+				end
+			end
+			@block_alignments << mblocks[i]
+		end
+		# Final step
+		if mblocks[-1][:source][:end] < str1.length
+			b1 = mblocks[-1][:source][:end]
+			b2 = mblocks[-1][:target][:end]
+			if mblocks[-1][:target][:end] < str2.length
+			else
+				e1 = str1.length
+				e2 = str2.length
+				@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment: :empty}
+			end
+		end
+		if  mblocks[-1][:source][:end] < str1.length && mblocks[-1][:target][:end] < str2.length
+			b1 = mblocks[-1][:source][:end]
+			b2 = mblocks[-1][:target][:end]
+			_str1 = str1[b1 ... -1]
+			_str2 = str2[b2 ... -1]
+			unless _str1.strip.empty?
+				if _str2.strip.empty?
+					@block_alignments << {source:{begin:b1, end:str1.length}, target:{begin:b2, end:str2.length}, alignment: :empty}
+				else
+					len_min = [_str1.length, _str2.length].min
+					len_buffer = (len_min * (1 + TextAlignment::BUFFER_RATE)).to_i
+					e1 = _str1.length < len_buffer ? str1.length : b1 + len_buffer
+					e2 = _str2.length < len_buffer ? str1.length : b2 + len_buffer
+					alignment = TextAlignment::MixedAlignment.new(_str1.downcase, _str2.downcase, mappings)
+					if alignment.similarity < 0.6
+						@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment: :empty}
+					else
+						@block_alignments << {source:{begin:b1, end:e1}, target:{begin:b2, end:e2}, alignment:alignment}
+					end
+					@block_alignments << {source:{begin:e1, end:-1}, target:{begin:e2, end:-1}, alignment: :empty} if e1 < str1.length
+				end
+			end
+		end
+		@block_alignments.each do |a|
+			a[:delta] = a[:target][:begin] - a[:source][:begin]
+		end
+	end
+	def transform_begin_position(begin_position)
+		i = @block_alignments.index{|b| b[:source][:end] > begin_position}
+		block_alignment = @block_alignments[i]
+		b = if block_alignment[:alignment].nil?
+			begin_position + block_alignment[:delta]
+		elsif block_alignment[:alignment] == :empty
+			if begin_position == block_alignment[:source][:begin]
+				block_alignment[:target][:begin]
+			else
+				raise "lost annotation"
+			end
+		else
+			block_alignment[:alignment].transform_begin_position(begin_position - block_alignment[:source][:begin]) + block_alignment[:target][:begin]
+		end
+	end
+	def transform_end_position(end_position)
+		i = @block_alignments.index{|b| b[:source][:end] >= end_position}
+		block_alignment = @block_alignments[i]
+		e = if block_alignment[:alignment].nil?
+			end_position + block_alignment[:delta]
+		elsif block_alignment[:alignment] == :empty
+			if end_position == block_alignment[:source][:end]
+				block_alignment[:target][:end]
+			else
+				raise "lost annotation"
+			end
+		else
+			block_alignment[:alignment].transform_end_position(end_position - block_alignment[:source][:begin]) + block_alignment[:target][:begin]
+		end
+	end
+	def transform_a_span(span)
+		{begin: transform_begin_position(span[:begin]), end: transform_end_position(span[:end])}
+	end
+	def transform_spans(spans)
+		spans.map{|span| transform_a_span(span)}
+	end
+	def transform_denotations!(denotations)
+		puts "hereherehere========"
+		return nil if denotations.nil?
+		@lost_annotations = []
+		pp denotations
+		puts "-----"
+		denotations.each do |d|
+			begin
+				d.begin = transform_begin_position(d.begin);
+				d.end = transform_end_position(d.end);
+			rescue
+				@lost_annotations << d
+				d.begin = nil
+				d.end = nil
+			end
+		end
+		pp denotations
+	end
+	def transform_hdenotations(hdenotations)
+		return nil if hdenotations.nil?
+		@lost_annotations = []
+		r = hdenotations.collect do |d|
+			new_d = begin
+				d.dup.merge({span:transform_a_span(d[:span])})
+			rescue
+				@lost_annotations << d
+				nil
+			end
+		end.compact
+		r
+	end
 end