RubyGems - confidential_info_redactor - Versions diffs - 0.0.18 → 1.0.0 - Mend

confidential_info_redactor 0.0.18 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

checksums.yaml +4 -4
data/README.md +11 -11
data/lib/confidential_info_redactor/date.rb +98 -118
data/lib/confidential_info_redactor/extractor.rb +66 -33
data/lib/confidential_info_redactor/hyperlink.rb +5 -17
data/lib/confidential_info_redactor/redactor.rb +13 -13
data/lib/confidential_info_redactor/version.rb +1 -1
data/lib/confidential_info_redactor/word_lists.rb +2 -2
data/lib/confidential_info_redactor.rb +2 -1
data/spec/confidential_info_redactor/date_spec.rb +88 -88
data/spec/confidential_info_redactor/extractor_spec.rb +20 -20
data/spec/confidential_info_redactor/hyperlink_spec.rb +18 -18
data/spec/confidential_info_redactor/redactor_spec.rb +22 -22
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: e355c3ef2477be1d933d8a44e7a46908f38b2fee
-  data.tar.gz: 87ff07efbbe1d48c575527f5e7ee77f1651b8e65
+  metadata.gz: e5b5d282da6e72d809ac29188c1423775d513931
+  data.tar.gz: 09252aaf2b2e49f1360d03470d38c1d82a6e968d
 SHA512:
-  metadata.gz: 14e81b76b14eb050869778bf3d099ececb2120ba864454a53a08af33452c7465497dd340d2d24cd425371c843529fef1f28bab9c7d6e55854551b4f7686b0c98
-  data.tar.gz: 110b3fbd098ef5522930f2be7329a9e921876ea015711c06f0c4e57da5e53a2594c9fc75a5962614f7c8be85b03e4163981ccba081690fdfb7ea078535130c82
+  metadata.gz: 50c47839331dba86546a92929140d5156599a8699a0d0ecb79f2f0cb767837c206ac14784c661818a1519d2f06b7c0323561477e868ee63aae94580acc191929
+  data.tar.gz: acfc20dd05bf76f7ed8b719643afb3017a302fd6d1cd1eb1f68060513a1059d1efb19c68efdb935c40860afea8d42c63bdc9a28ae99df52eaef0a4a5cdcc59dd

data/README.md CHANGED Viewed

@@ -40,45 +40,45 @@ gem 'confidential_info_redactor'
 ```ruby
 text = 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-tokens = ConfidentialInfoRedactor::Extractor.new(text: text).extract
+tokens = ConfidentialInfoRedactor::Extractor.new.extract(text)
 # => ["Coca-Cola", "Pepsi", "John Smith"]
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens).redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens).redact(text)
 # => '<redacted> announced a merger with <redacted> that will happen on <redacted date> for <redacted number>. Please contact <redacted> at <redacted> or visit <redacted>.'
 # You can also just use a specific redactor
-ConfidentialInfoRedactor::Redactor.new(text: text).dates
+ConfidentialInfoRedactor::Redactor.new.dates(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on <redacted date> for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).numbers
+ConfidentialInfoRedactor::Redactor.new.numbers(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December <redacted number>, <redacted number> for <redacted number>. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).emails
+ConfidentialInfoRedactor::Redactor.new.emails(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at <redacted> or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).hyperlinks
+ConfidentialInfoRedactor::Redactor.new.hyperlinks(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit <redacted>.'
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens).proper_nouns
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens).proper_nouns(text)
 # => '<redacted> announced a merger with <redacted> that will happen on December 15th, 2020 for $200,000,000,000. Please contact <redacted> at j.smith@example.com or visit http://www.super-fake-merger.com.'
 # It is possible to 'turn off' any of the specific redactors
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens, ignore_numbers: true).redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens, ignore_numbers: true).redact(text)
 # => '<redacted> announced a merger with <redacted> that will happen on <redacted date> for $200,000,000,000. Please contact <redacted> at <redacted> or visit <redacted>.'
 # German Example
 text = 'Viele Mitarbeiter der Deutschen Bank suchen eine andere Arbeitsstelle.'
-tokens = ConfidentialInfoRedactor::Extractor.new(text: text, language: 'de').extract
+tokens = ConfidentialInfoRedactor::Extractor.new(language: 'de').extract(text)
 # => ['Deutschen Bank']
-ConfidentialInfoRedactor::Redactor.new(text: text, language: 'de', tokens: tokens).redact
+ConfidentialInfoRedactor::Redactor.new(language: 'de', tokens: tokens).redact(text)
 # => 'Viele Mitarbeiter der <redacted> suchen eine andere Arbeitsstelle.'
 # It is also possible to change the redaction text
 text = 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
 tokens = ['Coca-Cola', 'Pepsi', 'John Smith']
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens, number_text: '**redacted number**', date_text: '^^redacted date^^', token_text: '*****').redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens, number_text: '**redacted number**', date_text: '^^redacted date^^', token_text: '*****').redact(text)
 # => '***** announced a merger with ***** that will happen on ^^redacted date^^ for **redacted number**. Please contact ***** at ***** or visit *****.'
 ```

data/lib/confidential_info_redactor/date.rb CHANGED Viewed

@@ -1,14 +1,14 @@
 module ConfidentialInfoRedactor
   class Date
-    EN_DOW = %w(monday tuesday wednesday thursday friday saturday sunday)
-    EN_DOW_ABBR = %w(mon tu tue tues wed th thu thur thurs fri sat sun)
-    EN_MONTHS = %w(january february march april may june july august september october november december)
-    EN_MONTH_ABBR = %w(jan feb mar apr jun jul aug sep sept oct nov dec)
-    DE_DOW = %w(montag dienstag mittwoch donnerstag freitag samstag sonntag sonnabend)
-    DE_DOW_ABBR = %w(mo di mi do fr sa so)
-    DE_MONTHS = %w(januar februar märz april mai juni juli august september oktober november dezember)
-    DE_MONTH_ABBR = %w(jan jän feb märz apr mai juni juli aug sep sept okt nov dez)
+    EN_DOW = %w(monday tuesday wednesday thursday friday saturday sunday).freeze
+    EN_DOW_ABBR = %w(mon tu tue tues wed th thu thur thurs fri sat sun).freeze
+    EN_MONTHS = %w(january february march april may june july august september october november december).freeze
+    EN_MONTH_ABBR = %w(jan feb mar apr jun jul aug sep sept oct nov dec).freeze
+    DE_DOW = %w(montag dienstag mittwoch donnerstag freitag samstag sonntag sonnabend).freeze
+    DE_DOW_ABBR = %w(mo di mi do fr sa so).freeze
+    DE_MONTHS = %w(januar februar märz april mai juni juli august september oktober november dezember).freeze
+    DE_MONTH_ABBR = %w(jan jän feb märz apr mai juni juli aug sep sept okt nov dez).freeze
     # Rubular: http://rubular.com/r/73CZ2HU0q6
     DMY_MDY_REGEX = /(\d{1,2}(\/|\.|-)){2}\d{4}/
@@ -21,9 +21,8 @@ module ConfidentialInfoRedactor
     # Rubular: http://rubular.com/r/mpVSeaKwdY
     DIGIT_ONLY_YEAR_LAST_REGEX = /\d{4}[12]\d{3}\D/
-    attr_reader :string, :language, :dow, :dow_abbr, :months, :months_abbr
-    def initialize(string:, language:)
-      @string = string
+    attr_reader :language, :dow, :dow_abbr, :months, :months_abbr
+    def initialize(language:)
       @language = language
       case language
       when 'en'
@@ -44,133 +43,114 @@ module ConfidentialInfoRedactor
       end
     end
-    def includes_date?
-      long_date || number_only_date
+    def includes_date?(text)
+      includes_long_date?(text) || includes_number_only_date?(text)
     end
-    def replace
-      new_string = string.dup
+    def replace(text)
+      return text unless is_an_array?
       counter = 0
-      dow_abbr.each do |day|
-        counter +=1 if string.include?('day')
-      end
+      dow_abbr.map { |day| counter +=1 if text.include?('day') }
+      text = redact_dates(counter, text)
+      redact_regex(text)
+    end
+    def occurences(text)
+      replace(text).scan(/<redacted date>/).size
+    end
+    def replace_number_only_date(text)
+      text.gsub(DMY_MDY_REGEX, ' <redacted date> ')
+          .gsub(YMD_YDM_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+    end
+    private
+    def is_an_array?
+      dow.kind_of?(Array) && dow_abbr.kind_of?(Array) && months.kind_of?(Array) && months_abbr.kind_of?(Array)
+    end
+    def redact_dates(counter, text)
       if counter > 0
-        dow_abbr.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-        end
-        dow.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-        end
+        text = redact_dow_abbr(text)
+        text = redact_dow(text)
       else
-        dow.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-        end
-        dow_abbr.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-        end
+        text = redact_dow(text)
+        text = redact_dow_abbr(text)
       end
-      new_string = new_string.gsub(DMY_MDY_REGEX, ' <redacted date> ')
-                     .gsub(YMD_YDM_REGEX, ' <redacted date> ')
-                     .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
-                     .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+      text
     end
-    def occurences
-      replace.scan(/<redacted date>/).size
+    def redact_regex(text)
+      text.gsub(DMY_MDY_REGEX, ' <redacted date> ')
+          .gsub(YMD_YDM_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
     end
-    def replace_number_only_date
-      string.gsub(DMY_MDY_REGEX, ' <redacted date> ')
-            .gsub(YMD_YDM_REGEX, ' <redacted date> ')
-            .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
-            .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+    def redact_dow(text)
+      dow.each do |day|
+        months.map { |month| text = redact_date(text, day, month) }
+        months_abbr.map { |month| text = redact_date(text, day, month) }
+      end
+      text
     end
-    private
+    def redact_dow_abbr(text)
+      dow_abbr.each do |day|
+        months.map { |month| text = text.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ') }
+        months_abbr.map { |month| text = text.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ') }
+      end
+      text
+    end
-    def long_date
-      match_found = false
+    def redact_date(text, day, month)
+      text.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d+\s+de\s+#{Regexp.escape(month)}\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
+                       .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
+    end
+    def includes_long_date?(text)
+      includes_long_date_1?(text) || includes_long_date_2?(text)
+    end
+    def includes_long_date_1?(text)
       dow.each do |day|
-        months.each do |month|
-          break if match_found
-          match_found = check_for_matches(day, month)
-        end
-        months_abbr.each do |month|
-          break if match_found
-          match_found = check_for_matches(day, month)
-        end
+        months.map { |month| return true if check_for_matches(day, month, text) }
+        months_abbr.map { |month| return true if check_for_matches(day, month, text) }
       end
+      false
+    end
+    def includes_long_date_2?(text)
       dow_abbr.each do |day|
-        months.each do |month|
-          break if match_found
-          match_found = !(string !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i)
-        end
-        months_abbr.each do |month|
-          break if match_found
-          match_found = !(string !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i)
-        end
+        months.map { |month| return true if !(text !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i) }
+        months_abbr.map { |month| return true if !(text !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) }
       end
-      match_found
+      false
     end
-    def number_only_date
-      !(string !~ DMY_MDY_REGEX) ||
-      !(string !~ YMD_YDM_REGEX) ||
-      !(string !~ DIGIT_ONLY_YEAR_FIRST_REGEX) ||
-      !(string !~ DIGIT_ONLY_YEAR_LAST_REGEX)
+    def includes_number_only_date?(text)
+      !(text !~ DMY_MDY_REGEX) ||
+      !(text !~ YMD_YDM_REGEX) ||
+      !(text !~ DIGIT_ONLY_YEAR_FIRST_REGEX) ||
+      !(text !~ DIGIT_ONLY_YEAR_LAST_REGEX)
     end
-    def check_for_matches(day, month)
-      !(string !~ /#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
-      !(string !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
-      !(string !~ /\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i) ||
-      !(string !~ /\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i) ||
-      !(string !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i) ||
-      !(string !~ /\d{2}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*(\d{4}|\d{2})/i)
+    def check_for_matches(day, month, text)
+      !(text !~ /#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
+      !(text !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
+      !(text !~ /\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i) ||
+      !(text !~ /\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i) ||
+      !(text !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i) ||
+      !(text !~ /\d{2}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*(\d{4}|\d{2})/i)
     end
   end
 end

data/lib/confidential_info_redactor/extractor.rb CHANGED Viewed

@@ -4,10 +4,12 @@ module ConfidentialInfoRedactor
   # This class extracts proper nouns from a text
   class Extractor
     # Rubular: http://rubular.com/r/qE0g4r9zR7
-    EXTRACT_REGEX = /(?<=\s|^|\s\")([A-Z]\S*\s)*[A-Z]\S*(?=(\s|\.|\z))|(?<=\s|^|\s\")[i][A-Z][a-z]+/
-    attr_reader :text, :language, :corpus
-    def initialize(text:, **args)
-      @text = text.gsub(/[’‘]/, "'")
+    EXTRACT_REGEX = /(?<=\s|^|\s\"|\s\“|\s\«|\s\‹|\s\”|\s\»|\s\›)([A-Z]\S*\s)*[A-Z]\S*(?=(\s|\.|\z))|(?<=\s|^|\s\"|\s\”|\s\»|\s\›|\s\“|\s\«|\s\‹)[i][A-Z][a-z]+/
+    PUNCTUATION_REGEX = /[\?\)\(\!\\\/\"\:\;\,\”\“\«\»\‹\›]/
+    attr_reader :language, :corpus
+    def initialize(**args)
       @language = args[:language] || 'en'
       case @language
       when 'en'
@@ -19,38 +21,69 @@ module ConfidentialInfoRedactor
       end
     end
-    def extract
+    def extract(text)
       extracted_terms = []
-      PragmaticSegmenter::Segmenter.new(text: text, language: language).segment.each do |segment|
-        initial_extracted_terms = segment.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '')) }.compact
-        in_corpus = true
-        initial_extracted_terms.each do |ngram|
-          ngram.split(/[\?\)\(\!\\\/\"\:\;\,]/).each do |t|
-            unless corpus.include?(t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip)
-              in_corpus = false
-            end
-          end
-        end
-        next if initial_extracted_terms.length.eql?(segment.split(' ').length) && in_corpus
-        initial_extracted_terms.each do |ngram|
-          ngram.split(/[\?\)\(\!\\\/\"\:\;\,]/).each do |t|
-            next if !(t !~ /.*\d+.*/)
-            if corpus.include?(t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0]) && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0] != 'the' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'deutsche' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2)
-              extracted_terms << t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[1] unless corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/\'$/, '').gsub(/”/,'').strip.split(' ')[1])
-            else
-              tracker = true
-              unless t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ').length.eql?(2) && t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[1].downcase.eql?('bank')
-                t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ').each do |token|
-                  tracker = false if corpus.include?(token.downcase)
-                end
-              end
-              extracted_terms << t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip unless corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip) || !tracker || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('en')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('es')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('er')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-1].eql?('s')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-1].eql?('n'))
-            end
-          end
-        end
+      PragmaticSegmenter::Segmenter.new(text: text.gsub(/[’‘]/, "'"), language: language).segment.each do |segment|
+        initial_extracted_terms = extract_preliminary_terms(segment)
+        search_ngrams(initial_extracted_terms, extracted_terms)
+      end
+      extracted_terms.map { |t| t.gsub(/\{\}/, '') }.delete_if { |t| t.length == 1 }.uniq.reject(&:empty?)
+    end
+    private
+    def extract_preliminary_terms(segment)
+      segment.to_s.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '')) }.compact
+    end
+    def clean_token(token)
+      token.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip
+    end
+    def non_confidential_token?(token, includes_confidential)
+      corpus.include?(token) || !includes_confidential || singular_in_corpus?(token)
+    end
+    def singular_in_corpus?(token)
+      corpus.include?(token[0...-1]) &&
+        token[-1].eql?('s') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('en') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('es') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('er') ||
+        corpus.include?(token[0...-1]) && token[-1].eql?('n')
+    end
+    def includes_confidential?(token)
+      token.split(' ').map { |t| return false if corpus.include?(t.downcase) } unless token.split(' ').length.eql?(2) && token.split(' ')[1].downcase.eql?('bank')
+      true
+    end
+    def matching_first_token?(tokens)
+      corpus.include?(tokens[0]) &&
+        tokens[0] != 'the' &&
+        tokens[0] != 'deutsche' &&
+        tokens.length.eql?(2)
+    end
+    def find_extracted_terms(string, extracted_terms)
+      cleaned_token_downcased = clean_token(string.downcase)
+      cleaned_token = clean_token(string)
+      tokens = cleaned_token_downcased.split(' ')
+      if matching_first_token?(tokens)
+        extracted_terms << cleaned_token.split(' ')[1] unless corpus.include?(tokens[1])
+      else
+        extracted_terms << cleaned_token unless non_confidential_token?(cleaned_token_downcased, includes_confidential?(cleaned_token))
       end
+      extracted_terms
+    end
-      extracted_terms.uniq.reject(&:empty?)
+    def search_ngrams(tokens, extracted_terms)
+      tokens.each do |ngram|
+        ngram.split(PUNCTUATION_REGEX).each do |t|
+          next if !(t !~ /.*\d+.*/)
+          extracted_terms = find_extracted_terms(t, extracted_terms)
+        end
+      end
     end
   end
 end

data/lib/confidential_info_redactor/hyperlink.rb CHANGED Viewed

@@ -7,25 +7,13 @@ module ConfidentialInfoRedactor
     # Rubular: http://rubular.com/r/fXa4lp0gfS
     HYPERLINK_REGEX = /(http|https|www)(\.|:)/
-    attr_reader :string
-    def initialize(string:)
-      @string = string
+    def hyperlink?(text)
+      !(text !~ URI.regexp) && text !~ NON_HYPERLINK_REGEX && !(text !~ HYPERLINK_REGEX)
     end
-    def hyperlink?
-      !(string !~ URI.regexp) && string !~ NON_HYPERLINK_REGEX && !(string !~ HYPERLINK_REGEX)
-    end
-    def replace
-      new_string = string.dup
-      string.split(/\s+/).each do |token|
-        if !(token !~ URI.regexp) && token !~ NON_HYPERLINK_REGEX && !(token !~ HYPERLINK_REGEX) && token.include?('">')
-          new_string = new_string.gsub(/#{Regexp.escape(token.split('">')[0].gsub(/\.\z/, ''))}/, ' <redacted> ')
-        elsif !(token !~ URI.regexp) && token !~ NON_HYPERLINK_REGEX && !(token !~ HYPERLINK_REGEX)
-          new_string = new_string.gsub(/#{Regexp.escape(token.gsub(/\.\z/, ''))}/, ' <redacted> ')
-        end
-      end
-      new_string
+    def replace(text)
+      text.split(/\s+/).map { |token| text = text.gsub(/#{Regexp.escape(token.gsub(/\.\z/, ''))}/, ' <redacted> ') if !(token !~ HYPERLINK_REGEX) }
+      text
     end
   end
 end