RubyGems - confidential_info_redactor_lite - Versions diffs - 0.0.24 → 0.0.25 - Mend

confidential_info_redactor_lite 0.0.24 → 0.0.25

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/lib/confidential_info_redactor_lite/redactor.rb +45 -38
data/lib/confidential_info_redactor_lite/version.rb +1 -1
data/spec/confidential_info_redactor_lite/redactor_spec.rb +10 -0
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 9761f67ff135e132a20ef01c222b4f22faf131f1
-  data.tar.gz: 2d85c726798fc13bf87bcc9089fc866e66f40230
+  metadata.gz: 1e6584e5ec77fa94af369f94094b9b299ca07202
+  data.tar.gz: dea7c2fa65b217d6b5eb5c6851028b2ca3b78b4f
 SHA512:
-  metadata.gz: f6c6c47fc76d60e8e05dc48fd92ebc4321eca1fc72a3d52a3ea9ac9976b4c60dcd400b5ab7587e39980396f49b107590ee2eb34d21d321ba891b247e2ff9fc62
-  data.tar.gz: f584cb53e3e713b1a2f91011926c85d9ec479786e6fe4ece719f57619ddb70011d54e823641ed65526f3a07c080d8b116e25c0bb429a576e264f20eb1053a0e0
+  metadata.gz: 6de045b28a80c2d57889bd601737b12ede3aa3374c5ac4c6e6b95706ce12db478b49006818b47459250937d30e1f6577a5ffb2a5989fb1c2ec1940917ff38251
+  data.tar.gz: 9e9ffe65a2fc50b82064fd66a56b537ce4b4943de63102bc2d1a909084781f5a56023fe1d3ecb7391137e07868c0abbe84e302219232b22da950c07276001416

data/lib/confidential_info_redactor_lite/redactor.rb CHANGED Viewed

@@ -97,10 +97,14 @@ module ConfidentialInfoRedactorLite
     def redact_numbers_html(txt)
       redacted_text = redact_numbers(txt).gsub(/\>\s#{Regexp.escape(token_text)}\s\</, ">#{token_text}<").gsub(/\>\s#{Regexp.escape(number_text)}\s\</, ">#{number_text}<").gsub(/\>\s#{Regexp.escape(date_text)}\s\</, ">#{date_text}<").gsub(/\>\s#{Regexp.escape(email_text)}\s\</, ">#{email_text}<").gsub(/\>\s#{Regexp.escape(hyperlink_text)}\s\</, ">#{hyperlink_text}<")
-      original_sentence_array = txt.split(' ')
-      redacted_sentence_array = redacted_text.split(' ')
-      diff = original_sentence_array - redacted_sentence_array
-      final_number_tokens = diff.map { |token| token[-1].eql?('.') ? token[0...-1] : token }.map { |token| token[-1].eql?(')') ? token[0...-1] : token }.map { |token| token[0].eql?('(') ? token[1..token.length] : token }
+      if language.eql?('ja')
+        final_number_tokens = txt.scan(/[０１２３４５６７８９]+|\d+/)
+      else
+        original_sentence_array = txt.split(' ')
+        redacted_sentence_array = redacted_text.split(' ')
+        diff = original_sentence_array - redacted_sentence_array
+        final_number_tokens = diff.map { |token| token[-1].eql?('.') ? token[0...-1] : token }.map { |token| token[-1].eql?(')') ? token[0...-1] : token }.map { |token| token[0].eql?('(') ? token[1..token.length] : token }
+      end
       [redacted_text.gsub(/(?<=[^\>])#{Regexp.escape(number_text)}/, "<span class='confidentialNumber'>#{number_text}</span>"), final_number_tokens]
     end
@@ -115,44 +119,47 @@ module ConfidentialInfoRedactorLite
     def redact_dates_html(txt)
       redacted_text = redact_dates(txt)
-      original_sentence_array = txt.split(' ')
-      redacted_sentence_array = redacted_text.split(' ')
-      diff = original_sentence_array - redacted_sentence_array
-      date_tokens = []
-      redacted_text.split(' ').each_with_index do |redacted_token, index|
-        if redacted_token.gsub(/\./, '') == date_text
-          original_sentence_array.each_with_index do |original_token, i|
-            if redacted_sentence_array[index - 1] == original_token &&
-              diff.include?(original_sentence_array[i + 1]) &&
-              original_sentence_array[i + 2] == redacted_sentence_array[index + 1]
-              date_tokens << original_sentence_array[i + 1]
-            end
-            if redacted_sentence_array[index - 1] == original_token &&
-              diff.include?(original_sentence_array[i + 1]) &&
-              diff.include?(original_sentence_array[i + 2]) &&
-              original_sentence_array[i + 3] == redacted_sentence_array[index + 1]
-              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2]
-            end
-            if redacted_sentence_array[index - 1] == original_token &&
-              diff.include?(original_sentence_array[i + 1]) &&
-              diff.include?(original_sentence_array[i + 2]) &&
-              diff.include?(original_sentence_array[i + 3]) &&
-              original_sentence_array[i + 4] == redacted_sentence_array[index + 1]
-              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3]
-            end
-            if redacted_sentence_array[index - 1] == original_token &&
-              diff.include?(original_sentence_array[i + 1]) &&
-              diff.include?(original_sentence_array[i + 2]) &&
-              diff.include?(original_sentence_array[i + 3]) &&
-              diff.include?(original_sentence_array[i + 4]) &&
-              original_sentence_array[i + 5] == redacted_sentence_array[index + 1]
-              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3] + ' ' + original_sentence_array[i + 4]
+      if language.eql?('ja')
+        final_date_tokens = txt.scan(/[０１２３４５６７８９]+年[０１２３４５６７８９]+月[０１２３４５６７８９]+日|[０１２３４５６７８９]+月[０１２３４５６７８９]+日/)
+      else
+        original_sentence_array = txt.split(' ')
+        redacted_sentence_array = redacted_text.split(' ')
+        diff = original_sentence_array - redacted_sentence_array
+        date_tokens = []
+        redacted_text.split(' ').each_with_index do |redacted_token, index|
+          if redacted_token.gsub(/\./, '') == date_text
+            original_sentence_array.each_with_index do |original_token, i|
+              if redacted_sentence_array[index - 1] == original_token &&
+                diff.include?(original_sentence_array[i + 1]) &&
+                original_sentence_array[i + 2] == redacted_sentence_array[index + 1]
+                date_tokens << original_sentence_array[i + 1]
+              end
+              if redacted_sentence_array[index - 1] == original_token &&
+                diff.include?(original_sentence_array[i + 1]) &&
+                diff.include?(original_sentence_array[i + 2]) &&
+                original_sentence_array[i + 3] == redacted_sentence_array[index + 1]
+                date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2]
+              end
+              if redacted_sentence_array[index - 1] == original_token &&
+                diff.include?(original_sentence_array[i + 1]) &&
+                diff.include?(original_sentence_array[i + 2]) &&
+                diff.include?(original_sentence_array[i + 3]) &&
+                original_sentence_array[i + 4] == redacted_sentence_array[index + 1]
+                date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3]
+              end
+              if redacted_sentence_array[index - 1] == original_token &&
+                diff.include?(original_sentence_array[i + 1]) &&
+                diff.include?(original_sentence_array[i + 2]) &&
+                diff.include?(original_sentence_array[i + 3]) &&
+                diff.include?(original_sentence_array[i + 4]) &&
+                original_sentence_array[i + 5] == redacted_sentence_array[index + 1]
+                date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3] + ' ' + original_sentence_array[i + 4]
+              end
             end
           end
         end
+        final_date_tokens = date_tokens.map { |token| token[-1].eql?('.') ? token[0...-1] : token }
       end
-      final_date_tokens = date_tokens.map { |token| token[-1].eql?('.') ? token[0...-1] : token }
       [redacted_text.gsub(/#{Regexp.escape(date_text)}/, "<span class='confidentialDate'>#{date_text}</span>"), final_date_tokens]
     end

data/lib/confidential_info_redactor_lite/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module ConfidentialInfoRedactorLite
-  VERSION = "0.0.24"
+  VERSION = "0.0.25"
 end

data/spec/confidential_info_redactor_lite/redactor_spec.rb CHANGED Viewed

@@ -49,6 +49,11 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
       text = 'On May 1st, 2000 Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020.'
       expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, date_text: "*****").dates_html).to eq(["On <span class='confidentialDate'>*****</span> Coca-Cola announced a merger with Pepsi that will happen on <span class='confidentialDate'>*****</span>.", ['May 1st, 2000', 'December 15th, 2020']])
     end
+    it 'surrounds the redacted dates in spans and return the redacted dates from a text #002' do
+      text = '２０１１年１２月３１日です。'
+      expect(described_class.new(text: text, language: 'ja', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, date_text: "*****").dates_html).to eq(["<span class='confidentialDate'>*****</span> です。", ["２０１１年１２月３１日"]])
+    end
   end
   describe '#numbers' do
@@ -88,6 +93,11 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
       text = 'It was his 1st) time, not yet his 10th, not even his 2nd. The wood was 3/4" thick. It cost $200,000.'
       expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, number_text: "*****").numbers_html).to eq(["It was his <span class='confidentialNumber'>*****</span>) time, not yet his <span class='confidentialNumber'>*****</span>, not even his <span class='confidentialNumber'>*****</span>. The wood was <span class='confidentialNumber'>*****</span> thick. It cost <span class='confidentialNumber'>*****</span>.", ["1st", "10th,", "2nd", "3/4\"", "$200,000"]])
     end
+    it 'surrounds the redacted numbers in spans and return the redacted numbers from a text #002' do
+      text = 'プロのミニチュアゴルファー２人のサイン。２人の出身国は別であること。（４５ポイント；それぞれが別の大陸出身だった場合、５ボーナスポイント。）'
+      expect(described_class.new(text: text, language: 'ja', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, number_text: "*****").numbers_html).to eq(["プロのミニチュアゴルファー <span class='confidentialNumber'>*****</span> 人のサイン。 <span class='confidentialNumber'>*****</span> 人の出身国は別であること。（ <span class='confidentialNumber'>*****</span> ポイント；それぞれが別の大陸出身だった場合、 <span class='confidentialNumber'>*****</span> ボーナスポイント。）", ["２", "２", "４５", "５"]])
+    end
   end
   describe '#emails' do

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: confidential_info_redactor_lite
 version: !ruby/object:Gem::Version
-  version: 0.0.24
+  version: 0.0.25
 platform: ruby
 authors:
 - Kevin S. Dias