RubyGems - confidential_info_redactor_lite - Versions diffs - 0.0.9 → 0.0.10 - Mend

confidential_info_redactor_lite 0.0.9 → 0.0.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/lib/confidential_info_redactor_lite/redactor.rb +93 -0
data/lib/confidential_info_redactor_lite/version.rb +1 -1
data/spec/confidential_info_redactor_lite/redactor_spec.rb +36 -0
metadata +1 -1

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 216e96faca24f56d0c98efd9fe537d443ebf99ee
-  data.tar.gz: 79fd2f8c443c6d3875298b860a81ba84b4d68113
+  metadata.gz: b9a493d85c2cd235866ab329d987ebc634742127
+  data.tar.gz: a9fee602079d81f7d9e0970d59cca14197a8b31d
 SHA512:
-  metadata.gz: f82751b04aa5c32af2de0fc4048a3fa79a82dbf0a9fdbe63b8118371172c62fc0b0d9cffa9eb036e1529e2b66b1ff37ce77e1cb4ee849fe45cff55cfd0b5ab5d
-  data.tar.gz: 7b2e643f54eb7bcfd624f16fc64ea2301f99cbad9c19a8b11c10faa1a3bd9282a319fbbd506ece94a3ea42246e8f310337a73ff2a5611632b8d0e9f04aab83e6
+  metadata.gz: b77ba5ea584cb31bff9084d108eae3c0f2630a4bd9fe4a99603f12240fe267a14da5ee4be22fbb38bdfa5bba29054eca64cbb4a1b7755a0c926b2a43edec42b1
+  data.tar.gz: dc783fce3502f7e62f5ddabbca2e9c0901d9fbb5b88e2ec003ceb1c8dd6647cef766d0b876ad1bb6584570b98f73e8a4e652203adc042e20c4cb96ed83886e32

data/lib/confidential_info_redactor_lite/redactor.rb CHANGED Viewed

@@ -31,18 +31,34 @@ module ConfidentialInfoRedactorLite
       redact_dates(text)
     end
+    def dates_html
+      redact_dates_html(text)
+    end
     def numbers
       redact_numbers(text)
     end
+    def numbers_html
+      redact_numbers_html(text)
+    end
     def emails
       redact_emails(text)
     end
+    def emails_html
+      redact_emails_html(text)
+    end
     def hyperlinks
       redact_hyperlinks(text)
     end
+    def hyperlinks_html
+      redact_hyperlinks_html(text)
+    end
     def proper_nouns
       redact_tokens(text)
     end
@@ -59,8 +75,85 @@ module ConfidentialInfoRedactorLite
       redact_tokens(redacted_text)
     end
+    def redact_html
+      redacted_text = redact_dates_html(text)[0]
+      redacted_text = redact_emails_html(redacted_text)[0]
+      redacted_text = redact_hyperlinks_html(redacted_text)[0]
+      redact_numbers_html(redacted_text)[0]
+    end
     private
+    def redact_hyperlinks_html(txt)
+      redacted_text = redact_hyperlinks(txt).gsub(/\>\s#{Regexp.escape(token_text)}\s\</, ">#{token_text}<").gsub(/\>\s#{Regexp.escape(number_text)}\s\</, ">#{number_text}<").gsub(/\>\s#{Regexp.escape(date_text)}\s\</, ">#{date_text}<")
+      original_sentence_array = txt.split(' ')
+      redacted_sentence_array = redacted_text.split(' ')
+      diff = original_sentence_array - redacted_sentence_array
+      final_hyperlinks_tokens = diff.map { |token| token[-1].eql?('.') ? token[0...-1] : token }.map { |token| token[-1].eql?(')') ? token[0...-1] : token }.map { |token| token[0].eql?('(') ? token[1..token.length] : token }
+      [redacted_text.gsub(/(?<=[^\>])#{Regexp.escape(token_text)}/, "<span class='confidentialHyperlinks'>#{token_text}</span>"), final_hyperlinks_tokens]
+    end
+    def redact_numbers_html(txt)
+      redacted_text = redact_numbers(txt).gsub(/\>\s#{Regexp.escape(token_text)}\s\</, ">#{token_text}<").gsub(/\>\s#{Regexp.escape(number_text)}\s\</, ">#{number_text}<").gsub(/\>\s#{Regexp.escape(date_text)}\s\</, ">#{date_text}<")
+      original_sentence_array = txt.split(' ')
+      redacted_sentence_array = redacted_text.split(' ')
+      diff = original_sentence_array - redacted_sentence_array
+      final_number_tokens = diff.map { |token| token[-1].eql?('.') ? token[0...-1] : token }
+      [redacted_text.gsub(/(?<=[^\>])#{Regexp.escape(number_text)}/, "<span class='confidentialNumber'>#{number_text}</span>"), final_number_tokens]
+    end
+    def redact_emails_html(txt)
+      redacted_text = redact_emails(txt).gsub(/\>\s#{Regexp.escape(token_text)}\s\</, ">#{token_text}<").gsub(/\>\s#{Regexp.escape(number_text)}\s\</, ">#{number_text}<").gsub(/\>\s#{Regexp.escape(date_text)}\s\</, ">#{date_text}<")
+      original_sentence_array = txt.split(' ')
+      redacted_sentence_array = redacted_text.split(' ')
+      diff = original_sentence_array - redacted_sentence_array
+      final_email_tokens = diff.map { |token| token[-1].eql?('.') ? token[0...-1] : token }.map { |token| token[-1].eql?(')') ? token[0...-1] : token }.map { |token| token[0].eql?('(') ? token[1..token.length] : token }
+      [redacted_text.gsub(/(?<=[^\>])#{Regexp.escape(token_text)}/, "<span class='confidentialEmail'>#{token_text}</span>"), final_email_tokens]
+    end
+    def redact_dates_html(txt)
+      redacted_text = redact_dates(txt)
+      original_sentence_array = txt.split(' ')
+      redacted_sentence_array = redacted_text.split(' ')
+      diff = original_sentence_array - redacted_sentence_array
+      date_tokens = []
+      redacted_text.split(' ').each_with_index do |redacted_token, index|
+        if redacted_token.gsub(/\./, '') == date_text
+          original_sentence_array.each_with_index do |original_token, i|
+            if redacted_sentence_array[index - 1] == original_token &&
+              diff.include?(original_sentence_array[i + 1]) &&
+              original_sentence_array[i + 2] == redacted_sentence_array[index + 1]
+              date_tokens << original_sentence_array[i + 1]
+            end
+            if redacted_sentence_array[index - 1] == original_token &&
+              diff.include?(original_sentence_array[i + 1]) &&
+              diff.include?(original_sentence_array[i + 2]) &&
+              original_sentence_array[i + 3] == redacted_sentence_array[index + 1]
+              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2]
+            end
+            if redacted_sentence_array[index - 1] == original_token &&
+              diff.include?(original_sentence_array[i + 1]) &&
+              diff.include?(original_sentence_array[i + 2]) &&
+              diff.include?(original_sentence_array[i + 3]) &&
+              original_sentence_array[i + 4] == redacted_sentence_array[index + 1]
+              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3]
+            end
+            if redacted_sentence_array[index - 1] == original_token &&
+              diff.include?(original_sentence_array[i + 1]) &&
+              diff.include?(original_sentence_array[i + 2]) &&
+              diff.include?(original_sentence_array[i + 3]) &&
+              diff.include?(original_sentence_array[i + 4]) &&
+              original_sentence_array[i + 5] == redacted_sentence_array[index + 1]
+              date_tokens << original_sentence_array[i + 1] + ' ' + original_sentence_array[i + 2] + ' ' + original_sentence_array[i + 3] + ' ' + original_sentence_array[i + 4]
+            end
+          end
+        end
+      end
+      final_date_tokens = date_tokens.map { |token| token[-1].eql?('.') ? token[0...-1] : token }
+      [redacted_text.gsub(/#{Regexp.escape(date_text)}/, "<span class='confidentialDate'>#{date_text}</span>"), final_date_tokens]
+    end
     def redact_hyperlinks(txt)
       ConfidentialInfoRedactorLite::Hyperlink.new(string: txt).replace.gsub(/<redacted>/, "#{token_text}").gsub(/\s*#{Regexp.escape(token_text)}\s*/, " #{token_text} ").gsub(/#{Regexp.escape(token_text)}\s{1}\.{1}/, "#{token_text}.").gsub(/#{Regexp.escape(token_text)}\s{1}\,{1}/, "#{token_text},")
     end

data/lib/confidential_info_redactor_lite/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module ConfidentialInfoRedactorLite
-  VERSION = "0.0.9"
+  VERSION = "0.0.10"
 end

data/spec/confidential_info_redactor_lite/redactor_spec.rb CHANGED Viewed

@@ -44,6 +44,13 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
     end
   end
+  describe '#dates_html' do
+    it 'surrounds the redacted dates in spans and return the redacted dates from a text #001' do
+      text = 'On May 1st, 2000 Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020.'
+      expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, date_text: "*****").dates_html).to eq(["On <span class='confidentialDate'>*****</span> Coca-Cola announced a merger with Pepsi that will happen on <span class='confidentialDate'>*****</span>.", ['May 1st, 2000', 'December 15th, 2020']])
+    end
+  end
   describe '#numbers' do
     it 'redacts numbers from a text #001' do
       text = 'Coca-Cola announced a merger with Pepsi that will happen on <redacted date> for $200,000,000,000.'
@@ -61,6 +68,13 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
     end
   end
+  describe '#numbers_html' do
+    it 'surrounds the redacted numbers in spans and return the redacted numbers from a text #001' do
+      text = 'It was his 1st time, not yet his 10th, not even his 2nd. The wood was 3/4" thick. It cost $200,000.'
+      expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, number_text: "*****").numbers_html).to eq(["It was his <span class='confidentialNumber'>*****</span> time, not yet his <span class='confidentialNumber'>*****</span>, not even his <span class='confidentialNumber'>*****</span>. The wood was <span class='confidentialNumber'>*****</span> thick. It cost <span class='confidentialNumber'>*****</span>.", ["1st", "10th,", "2nd", "3/4\"", "$200,000"]])
+    end
+  end
   describe '#emails' do
     it 'redacts email addresses from a text #001' do
       text = 'His email is john@gmail.com or you can try k.light@tuv.eu.us.'
@@ -73,6 +87,13 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
     end
   end
+  describe '#emails_html' do
+    it 'surrounds the redacted emails in spans and return the redacted emails from a text #001' do
+      text = 'His email is (john@gmail.com) or you can try (k.light@tuv.eu.us).'
+      expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, token_text: "*****").emails_html).to eq(["His email is (<span class='confidentialEmail'>*****</span>) or you can try (<span class='confidentialEmail'>*****</span>).", ["john@gmail.com", "k.light@tuv.eu.us"]])
+    end
+  end
   describe '#hyperlinks' do
     it 'redacts hyperlinks from a text #001' do
       text = 'Visit https://www.tm-town.com for more info.'
@@ -80,6 +101,13 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
     end
   end
+  describe '#hyperlinks_html' do
+    it 'surrounds the redacted hyperlinks in spans and return the redacted hyperlinks from a text #001' do
+      text = 'Visit https://www.tm-town.com for more info or https://www.google.com.'
+      expect(described_class.new(text: text, language: 'en', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, token_text: "*****").hyperlinks_html).to eq(["Visit <span class='confidentialHyperlinks'>*****</span> for more info or <span class='confidentialHyperlinks'>*****</span>.", ["https://www.tm-town.com", "https://www.google.com"]])
+    end
+  end
   describe '#proper_nouns' do
     it 'redacts tokens from a text #001' do
       tokens = ['Coca-Cola', 'Pepsi']
@@ -181,4 +209,12 @@ RSpec.describe ConfidentialInfoRedactorLite::Redactor do
       expect(described_class.new(text: text, language: 'en', tokens: tokens, number_text: '**redacted number**', date_text: '^^redacted date^^', token_text: '*****', dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr).redact).to eq('***** announced a merger with ***** that will happen on ^^redacted date^^ for **redacted number**. Please contact ***** at ***** or visit *****.')
     end
   end
+  describe '#redact_html' do
+    it 'redacts all confidential information from a text #001' do
+      tokens = ['Coca-Cola', 'Pepsi']
+      text = 'Coca-Cola announced a merger with Pepsi that will happen on on December 15th, 2020 for $200,000,000,000. Find out more at https://www.merger.com or contact john@merger.com.'
+      expect(described_class.new(text: text, language: 'en', tokens: tokens, dow: en_dow, dow_abbr: en_dow_abbr, months: en_months, months_abbr: en_month_abbr, number_text: '*****', date_text: '*****', token_text: '*****').redact_html).to eq("Coca-Cola announced a merger with Pepsi that will happen on on <span class='confidentialDate'>*****</span> for <span class='confidentialNumber'>*****</span>. Find out more at <span class='confidentialHyperlinks'>*****</span> or contact <span class='confidentialEmail'>*****</span>.")
+    end
+  end
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: confidential_info_redactor_lite
 version: !ruby/object:Gem::Version
-  version: 0.0.9
+  version: 0.0.10
 platform: ruby
 authors:
 - Kevin S. Dias