RubyGems - name-tamer - Versions diffs - 0.1.6 → 0.1.7 - Mend

name-tamer 0.1.6 → 0.1.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 2706fda214e230fdf9bda63cc4424842183672e3
-  data.tar.gz: 89f191da4268cfbca81674335e3dfe5abec626a0
+  metadata.gz: f8e5bd6a935818948438315fc5f7a1a2ff90e173
+  data.tar.gz: c6b2f73fa732939faa8e0eef6c680d852374b7c2
 SHA512:
-  metadata.gz: cc8d7e0474059fe5e3680cc720655c303628fbb1ea25fe638e2e630582374720dd867b1b149c18990503d2c7e3d68ead42b896f41331c2fc650f13287146e438
-  data.tar.gz: 16e081e040d86117620e5a1760e8cf49328264adf9488ab29f3f8649d4e732247f30b4ed430005bd5ba51063ce03d196728e9323e0b1b300912dd32993282de8
+  metadata.gz: dca80914cdbb4d1e6d254e51c2c9104ea18410424cd75663800564ac9c597cfe19c16651467cebc20883f4359b9e394ee23fbc0291cd6dad293c801db862ec84
+  data.tar.gz: 4cfadfe895919caf36468c5dc2c243054db0be686f8a6bb8500c69f4f7b39aeb00e9c32e6d358eb088e6e39c36ce1f9eb2d3d2ebce5806f5618aa8ee41832b75

data/Gemfile.lock CHANGED

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    name-tamer (0.1.5)
+    name-tamer (0.1.6)
 GEM
   remote: https://rubygems.org/

data/lib/name-tamer.rb CHANGED

@@ -26,6 +26,7 @@ class NameTamer
       @nice_name = name.dup          # Start with the name we've received
       tidy_spacing                    # " John   Smith " -> "John Smith"
+      fix_encoding_errors             # "RenÃ© Descartes" -> "René Descartes"
       consolidate_initials            # "I. B. M." -> "I.B.M."
       remove_adfixes                  # prefixes and suffixes: "Smith, John, Jr." -> "Smith, John"
       fixup_last_name_first           # "Smith, John" -> "John Smith"
@@ -108,6 +109,10 @@ class NameTamer
       .whitespace_to!(ASCII_SPACE)
   end
+  def fix_encoding_errors
+    @nice_name.fix_encoding_errors!
+  end
   # Remove spaces from groups of initials
   def consolidate_initials
     @nice_name

data/lib/name-tamer/version.rb CHANGED

@@ -1,3 +1,3 @@
 class NameTamer
-  VERSION = '0.1.6'
+  VERSION = '0.1.7'
 end

data/lib/string_extras.rb CHANGED

@@ -51,6 +51,13 @@ class String
     self # Allows chaining
   end
+  # Strings that were wrongly encoded with single-byte encodings sometimes have
+  # tell-tale substrings that we can put back into the correct UTF-8 character
+  def fix_encoding_errors!
+    self.gsub!(BAD_ENCODING_PATTERNS) { |substring| BAD_ENCODING[substring] || substring }
+    self # Allows chaining
+  end
   def upcase_first_letter!
     self.gsub!(/\b\w/) { |first| first.upcase }
     self # Allows chaining
@@ -190,4 +197,37 @@ class String
     'Ŷ' => 'Y', 'ŷ' => 'y', 'Ÿ' => 'Y', 'Ź' => 'Z', 'ź' => 'z', 'Ż' => 'Z', 'ż' => 'z',
     'Ž' => 'Z', 'ž' => 'z'
   }
+  # When strings are mistakenly encoded as single-byte character sets, instead
+  # of UTF-8, there are some distinctive character combinations that we can spot
+  # and fix
+  BAD_ENCODING = {
+    'â‚¬' => '€', 'â€š' => '‚', 'Æ’' => 'ƒ', 'â€ž' => '„', 'â€¦' => '…',
+    'â€' => '†', 'â€¡' => '‡', 'Ë†' => 'ˆ', 'â€°' => '‰', 'Å ' => 'Š',
+    'â€¹' => '‹', 'Å’' => 'Œ', 'Å½' => 'Ž', 'â€˜' => '‘', 'â€™' => '’',
+    'â€œ' => '“', 'â€' => '”', 'â€¢' => '•', 'â€“' => '–', 'â€”' => '—',
+    'Ëœ' => '˜', 'â„¢' => '™', 'Å¡' => 'š', 'â€º' => '›', 'Å“' => 'œ',
+    'Å¾' => 'ž', 'Å¸' => 'Ÿ', 'Â ' => ' ', 'Â¡' => '¡', 'Â¢' => '¢',
+    'Â£' => '£', 'Â¤' => '¤', 'Â¥' => '¥', 'Â¦' => '¦', 'Â§' => '§',
+    'Â¨' => '¨', 'Â©' => '©', 'Âª' => 'ª', 'Â«' => '«', 'Â¬' => '¬',
+    'Â' => '', 'Â®' => '®', 'Â¯' => '¯', 'Â°' => '°', 'Â±' => '±',
+    'Â²' => '²', 'Â³' => '³', 'Â´' => '´', 'Âµ' => 'µ', 'Â¶' => '¶',
+    'Â·' => '·', 'Â¸' => '¸', 'Â¹' => '¹', 'Âº' => 'º', 'Â»' => '»',
+    'Â¼' => '¼', 'Â½' => '½', 'Â¾' => '¾', 'Â¿' => '¿', 'Ã€' => 'À',
+    'Ã�' => 'Á', 'Ã‚' => 'Â', 'Ãƒ' => 'Ã', 'Ã„' => 'Ä', 'Ã…' => 'Å',
+    'Ã†' => 'Æ', 'Ã‡' => 'Ç', 'Ãˆ' => 'È', 'Ã‰' => 'É', 'ÃŠ' => 'Ê',
+    'Ã‹' => 'Ë', 'ÃŒ' => 'Ì', 'Ã�' => 'Í', 'ÃŽ' => 'Î', 'Ã�' => 'Ï',
+    'Ã�' => 'Ð', 'Ã‘' => 'Ñ', 'Ã’' => 'Ò', 'Ã“' => 'Ó', 'Ã”' => 'Ô',
+    'Ã•' => 'Õ', 'Ã–' => 'Ö', 'Ã—' => '×', 'Ã˜' => 'Ø', 'Ã™' => 'Ù',
+    'Ãš' => 'Ú', 'Ã›' => 'Û', 'Ãœ' => 'Ü', 'Ã�' => 'Ý', 'Ãž' => 'Þ',
+    'ÃŸ' => 'ß', 'Ã ' => 'à', 'Ã¡' => 'á', 'Ã¢' => 'â', 'Ã£' => 'ã',
+    'Ã¤' => 'ä', 'Ã¥' => 'å', 'Ã¦' => 'æ', 'Ã§' => 'ç', 'Ã¨' => 'è',
+    'Ã©' => 'é', 'Ãª' => 'ê', 'Ã«' => 'ë', 'Ã¬' => 'ì', 'Ã' => 'í',
+    'Ã®' => 'î', 'Ã¯' => 'ï', 'Ã°' => 'ð', 'Ã±' => 'ñ', 'Ã²' => 'ò',
+    'Ã³' => 'ó', 'Ã´' => 'ô', 'Ãµ' => 'õ', 'Ã¶' => 'ö', 'Ã·' => '÷',
+    'Ã¸' => 'ø', 'Ã¹' => 'ù', 'Ãº' => 'ú', 'Ã»' => 'û', 'Ã¼' => 'ü',
+    'Ã½' => 'ý', 'Ã¾' => 'þ', 'Ã¿' => 'ÿ'
+  }
+  BAD_ENCODING_PATTERNS = /(#{BAD_ENCODING.keys.join('|')})/
 end

data/spec/name_tamer_spec.rb CHANGED

@@ -181,6 +181,12 @@ describe NameTamer do
         nn: 'Scout® Loyalty Optimizer',
         sn: 'Scout Loyalty Optimizer',
         s: 'scout-loyalty-optimizer'
+      },
+      { n: 'RenÃ© Descartes',
+        t: :person,
+        nn: 'René Descartes',
+        sn: 'René Descartes',
+        s:'rene-descartes'
       }
     ]
   end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: name-tamer
 version: !ruby/object:Gem::Version
-  version: 0.1.6
+  version: 0.1.7
 platform: ruby
 authors:
 - Xenapto