RubyGems - text - Versions diffs - 1.0.1 → 1.0.2 - Mend

text 1.0.1 → 1.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (4) hide show

data/lib/text/version.rb +1 -1
data/lib/text/white_similarity.rb +7 -6
data/test/test_white_similarity.rb +9 -0
metadata +2 -2

data/lib/text/version.rb CHANGED

@@ -2,7 +2,7 @@ module Text
   module VERSION #:nodoc:
     MAJOR = 1
     MINOR = 0
-    TINY  = 1
+    TINY  = 2
     STRING = [MAJOR, MINOR, TINY].join('.')
   end

data/lib/text/white_similarity.rb CHANGED

@@ -34,23 +34,24 @@ module Text
     end
     def similarity(str1, str2)
-      pairs1 = word_letter_pairs(str1)
-      pairs2 = word_letter_pairs(str2)
+      pairs1, length1 = word_letter_pairs(str1)
+      pairs2, length2 = word_letter_pairs(str2)
       intersection = pairs1.inject(0) { |acc, pair|
         pairs2.include?(pair) ? acc + 1 : acc
       }
-      union = pairs1.length + pairs2.length
+      union = length1 + length2
       (2.0 * intersection) / union
     end
   private
     def word_letter_pairs(str)
-      @word_letter_pairs[str] ||= Set.new(
-        str.upcase.split(/\s+/).map{ |word|
-          (0 ... (word.length - 1)).map { |i| str[i, 2] }
+      @word_letter_pairs[str] ||= (
+        pairs = str.upcase.split(/\s+/).map{ |word|
+          (0 ... (word.length - 1)).map { |i| word[i, 2] }
         }.flatten
+        [Set.new(pairs), pairs.length]
       )
     end
   end

data/test/test_white_similarity.rb CHANGED

@@ -26,4 +26,13 @@ class WhiteSimilarityTest < Test::Unit::TestCase
     assert_in_delta 0.25, white.similarity(word, "Help"),    0.01
     assert_in_delta 0.0,  white.similarity(word, "Sold"),    0.01
   end
+  def test_similarity_with_examples_from_article
+    assert_in_delta 0.4,  Text::WhiteSimilarity.similarity("GGGGG", "GG"),                           0.01
+    assert_in_delta 0.56, Text::WhiteSimilarity.similarity("REPUBLIC OF FRANCE", "FRANCE"),          0.01
+    assert_in_delta 0.0,  Text::WhiteSimilarity.similarity("FRANCE", "QUEBEC"),                      0.01
+    assert_in_delta 0.72, Text::WhiteSimilarity.similarity("FRENCH REPUBLIC", "REPUBLIC OF FRANCE"), 0.01
+    assert_in_delta 0.61, Text::WhiteSimilarity.similarity("FRENCH REPUBLIC", "REPUBLIC OF CUBA"),   0.01
+  end
 end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: text
 version: !ruby/object:Gem::Version
-  version: 1.0.1
+  version: 1.0.2
   prerelease:
 platform: ruby
 authors:
@@ -11,7 +11,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2011-11-22 00:00:00.000000000Z
+date: 2011-12-13 00:00:00.000000000 Z
 dependencies: []
 description: ! 'A collection of text algorithms: Levenshtein, Soundex, Metaphone,
   Double Metaphone, Figlet, Porter Stemming'