RubyGems - confidential_info_redactor - Versions diffs - 0.0.18 → 1.0.0 - Mend

confidential_info_redactor 0.0.18 → 1.0.0

Files changed (14) hide show

checksums.yaml +4 -4
data/README.md +11 -11
data/lib/confidential_info_redactor/date.rb +98 -118
data/lib/confidential_info_redactor/extractor.rb +66 -33
data/lib/confidential_info_redactor/hyperlink.rb +5 -17
data/lib/confidential_info_redactor/redactor.rb +13 -13
data/lib/confidential_info_redactor/version.rb +1 -1
data/lib/confidential_info_redactor/word_lists.rb +2 -2
data/lib/confidential_info_redactor.rb +2 -1
data/spec/confidential_info_redactor/date_spec.rb +88 -88
data/spec/confidential_info_redactor/extractor_spec.rb +20 -20
data/spec/confidential_info_redactor/hyperlink_spec.rb +18 -18
data/spec/confidential_info_redactor/redactor_spec.rb +22 -22
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: e355c3ef2477be1d933d8a44e7a46908f38b2fee
-  data.tar.gz: 87ff07efbbe1d48c575527f5e7ee77f1651b8e65
+  metadata.gz: e5b5d282da6e72d809ac29188c1423775d513931
+  data.tar.gz: 09252aaf2b2e49f1360d03470d38c1d82a6e968d
 SHA512:
-  metadata.gz: 14e81b76b14eb050869778bf3d099ececb2120ba864454a53a08af33452c7465497dd340d2d24cd425371c843529fef1f28bab9c7d6e55854551b4f7686b0c98
-  data.tar.gz: 110b3fbd098ef5522930f2be7329a9e921876ea015711c06f0c4e57da5e53a2594c9fc75a5962614f7c8be85b03e4163981ccba081690fdfb7ea078535130c82
+  metadata.gz: 50c47839331dba86546a92929140d5156599a8699a0d0ecb79f2f0cb767837c206ac14784c661818a1519d2f06b7c0323561477e868ee63aae94580acc191929
+  data.tar.gz: acfc20dd05bf76f7ed8b719643afb3017a302fd6d1cd1eb1f68060513a1059d1efb19c68efdb935c40860afea8d42c63bdc9a28ae99df52eaef0a4a5cdcc59dd

data/README.md CHANGED Viewed

@@ -40,45 +40,45 @@ gem 'confidential_info_redactor'
 ```ruby
 text = 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-tokens = ConfidentialInfoRedactor::Extractor.new(text: text).extract
+tokens = ConfidentialInfoRedactor::Extractor.new.extract(text)
 # => ["Coca-Cola", "Pepsi", "John Smith"]
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens).redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens).redact(text)
 # => '<redacted> announced a merger with <redacted> that will happen on <redacted date> for <redacted number>. Please contact <redacted> at <redacted> or visit <redacted>.'
 # You can also just use a specific redactor
-ConfidentialInfoRedactor::Redactor.new(text: text).dates
+ConfidentialInfoRedactor::Redactor.new.dates(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on <redacted date> for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).numbers
+ConfidentialInfoRedactor::Redactor.new.numbers(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December <redacted number>, <redacted number> for <redacted number>. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).emails
+ConfidentialInfoRedactor::Redactor.new.emails(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at <redacted> or visit http://www.super-fake-merger.com.'
-ConfidentialInfoRedactor::Redactor.new(text: text).hyperlinks
+ConfidentialInfoRedactor::Redactor.new.hyperlinks(text)
 # => 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit <redacted>.'
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens).proper_nouns
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens).proper_nouns(text)
 # => '<redacted> announced a merger with <redacted> that will happen on December 15th, 2020 for $200,000,000,000. Please contact <redacted> at j.smith@example.com or visit http://www.super-fake-merger.com.'
 # It is possible to 'turn off' any of the specific redactors
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens, ignore_numbers: true).redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens, ignore_numbers: true).redact(text)
 # => '<redacted> announced a merger with <redacted> that will happen on <redacted date> for $200,000,000,000. Please contact <redacted> at <redacted> or visit <redacted>.'
 # German Example
 text = 'Viele Mitarbeiter der Deutschen Bank suchen eine andere Arbeitsstelle.'
-tokens = ConfidentialInfoRedactor::Extractor.new(text: text, language: 'de').extract
+tokens = ConfidentialInfoRedactor::Extractor.new(language: 'de').extract(text)
 # => ['Deutschen Bank']
-ConfidentialInfoRedactor::Redactor.new(text: text, language: 'de', tokens: tokens).redact
+ConfidentialInfoRedactor::Redactor.new(language: 'de', tokens: tokens).redact(text)
 # => 'Viele Mitarbeiter der <redacted> suchen eine andere Arbeitsstelle.'
 # It is also possible to change the redaction text
 text = 'Coca-Cola announced a merger with Pepsi that will happen on December 15th, 2020 for $200,000,000,000. Please contact John Smith at j.smith@example.com or visit http://www.super-fake-merger.com.'
 tokens = ['Coca-Cola', 'Pepsi', 'John Smith']
-ConfidentialInfoRedactor::Redactor.new(text: text, tokens: tokens, number_text: '**redacted number**', date_text: '^^redacted date^^', token_text: '*****').redact
+ConfidentialInfoRedactor::Redactor.new(tokens: tokens, number_text: '**redacted number**', date_text: '^^redacted date^^', token_text: '*****').redact(text)
 # => '***** announced a merger with ***** that will happen on ^^redacted date^^ for **redacted number**. Please contact ***** at ***** or visit *****.'
 ```

data/lib/confidential_info_redactor/date.rb CHANGED Viewed

@@ -1,14 +1,14 @@
 module ConfidentialInfoRedactor
   class Date
-    EN_DOW = %w(monday tuesday wednesday thursday friday saturday sunday)
-    EN_DOW_ABBR = %w(mon tu tue tues wed th thu thur thurs fri sat sun)
-    EN_MONTHS = %w(january february march april may june july august september october november december)
-    EN_MONTH_ABBR = %w(jan feb mar apr jun jul aug sep sept oct nov dec)
-    DE_DOW = %w(montag dienstag mittwoch donnerstag freitag samstag sonntag sonnabend)
-    DE_DOW_ABBR = %w(mo di mi do fr sa so)
-    DE_MONTHS = %w(januar februar märz april mai juni juli august september oktober november dezember)
-    DE_MONTH_ABBR = %w(jan jän feb märz apr mai juni juli aug sep sept okt nov dez)
+    EN_DOW = %w(monday tuesday wednesday thursday friday saturday sunday).freeze
+    EN_DOW_ABBR = %w(mon tu tue tues wed th thu thur thurs fri sat sun).freeze
+    EN_MONTHS = %w(january february march april may june july august september october november december).freeze
+    EN_MONTH_ABBR = %w(jan feb mar apr jun jul aug sep sept oct nov dec).freeze
+    DE_DOW = %w(montag dienstag mittwoch donnerstag freitag samstag sonntag sonnabend).freeze
+    DE_DOW_ABBR = %w(mo di mi do fr sa so).freeze
+    DE_MONTHS = %w(januar februar märz april mai juni juli august september oktober november dezember).freeze
+    DE_MONTH_ABBR = %w(jan jän feb märz apr mai juni juli aug sep sept okt nov dez).freeze
     # Rubular: http://rubular.com/r/73CZ2HU0q6
     DMY_MDY_REGEX = /(\d{1,2}(\/|\.|-)){2}\d{4}/
@@ -21,9 +21,8 @@ module ConfidentialInfoRedactor
     # Rubular: http://rubular.com/r/mpVSeaKwdY
     DIGIT_ONLY_YEAR_LAST_REGEX = /\d{4}[12]\d{3}\D/
-    attr_reader :string, :language, :dow, :dow_abbr, :months, :months_abbr
-    def initialize(string:, language:)
-      @string = string
+    attr_reader :language, :dow, :dow_abbr, :months, :months_abbr
+    def initialize(language:)
       @language = language
       case language
       when 'en'
@@ -44,133 +43,114 @@ module ConfidentialInfoRedactor
       end
     end
-    def includes_date?
-      long_date || number_only_date
+    def includes_date?(text)
+      includes_long_date?(text) || includes_number_only_date?(text)
     end
-    def replace
-      new_string = string.dup
+    def replace(text)
+      return text unless is_an_array?
       counter = 0
-      dow_abbr.each do |day|
-        counter +=1 if string.include?('day')
-      end
+      dow_abbr.map { |day| counter +=1 if text.include?('day') }
+      text = redact_dates(counter, text)
+      redact_regex(text)
+    end
+    def occurences(text)
+      replace(text).scan(/<redacted date>/).size
+    end
+    def replace_number_only_date(text)
+      text.gsub(DMY_MDY_REGEX, ' <redacted date> ')
+          .gsub(YMD_YDM_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+    end
+    private
+    def is_an_array?
+      dow.kind_of?(Array) && dow_abbr.kind_of?(Array) && months.kind_of?(Array) && months_abbr.kind_of?(Array)
+    end
+    def redact_dates(counter, text)
       if counter > 0
-        dow_abbr.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-        end
-        dow.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-        end
+        text = redact_dow_abbr(text)
+        text = redact_dow(text)
       else
-        dow.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-                                   .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
-                                   .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
-          end
-        end
-        dow_abbr.each do |day|
-          months.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-          months_abbr.each do |month|
-            new_string = new_string.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
-          end
-        end
+        text = redact_dow(text)
+        text = redact_dow_abbr(text)
       end
-      new_string = new_string.gsub(DMY_MDY_REGEX, ' <redacted date> ')
-                     .gsub(YMD_YDM_REGEX, ' <redacted date> ')
-                     .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
-                     .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+      text
     end
-    def occurences
-      replace.scan(/<redacted date>/).size
+    def redact_regex(text)
+      text.gsub(DMY_MDY_REGEX, ' <redacted date> ')
+          .gsub(YMD_YDM_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
+          .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
     end
-    def replace_number_only_date
-      string.gsub(DMY_MDY_REGEX, ' <redacted date> ')
-            .gsub(YMD_YDM_REGEX, ' <redacted date> ')
-            .gsub(DIGIT_ONLY_YEAR_FIRST_REGEX, ' <redacted date> ')
-            .gsub(DIGIT_ONLY_YEAR_LAST_REGEX, ' <redacted date> ')
+    def redact_dow(text)
+      dow.each do |day|
+        months.map { |month| text = redact_date(text, day, month) }
+        months_abbr.map { |month| text = redact_date(text, day, month) }
+      end
+      text
     end
-    private
+    def redact_dow_abbr(text)
+      dow_abbr.each do |day|
+        months.map { |month| text = text.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ') }
+        months_abbr.map { |month| text = text.gsub(/#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ') }
+      end
+      text
+    end
-    def long_date
-      match_found = false
+    def redact_date(text, day, month)
+      text.gsub(/#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d+\s+de\s+#{Regexp.escape(month)}\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d{2}(\.|-|\/)*\s?#{Regexp.escape(month)}(\.|-|\/)*\s?(\d{4}|\d{2})/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i, ' <redacted date> ')
+                       .gsub(/\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i, ' <redacted date> ')
+                       .gsub(/\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i, ' <redacted date> ')
+                       .gsub(/#{Regexp.escape(month)}\sde\s\d+(rd|th|st)*/i, ' <redacted date> ')
+    end
+    def includes_long_date?(text)
+      includes_long_date_1?(text) || includes_long_date_2?(text)
+    end
+    def includes_long_date_1?(text)
       dow.each do |day|
-        months.each do |month|
-          break if match_found
-          match_found = check_for_matches(day, month)
-        end
-        months_abbr.each do |month|
-          break if match_found
-          match_found = check_for_matches(day, month)
-        end
+        months.map { |month| return true if check_for_matches(day, month, text) }
+        months_abbr.map { |month| return true if check_for_matches(day, month, text) }
       end
+      false
+    end
+    def includes_long_date_2?(text)
       dow_abbr.each do |day|
-        months.each do |month|
-          break if match_found
-          match_found = !(string !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i)
-        end
-        months_abbr.each do |month|
-          break if match_found
-          match_found = !(string !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i)
-        end
+        months.map { |month| return true if !(text !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*(,)*\s\d{4}/i) }
+        months_abbr.map { |month| return true if !(text !~ /#{Regexp.escape(day)}(\.)*(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) }
       end
-      match_found
+      false
     end
-    def number_only_date
-      !(string !~ DMY_MDY_REGEX) ||
-      !(string !~ YMD_YDM_REGEX) ||
-      !(string !~ DIGIT_ONLY_YEAR_FIRST_REGEX) ||
-      !(string !~ DIGIT_ONLY_YEAR_LAST_REGEX)
+    def includes_number_only_date?(text)
+      !(text !~ DMY_MDY_REGEX) ||
+      !(text !~ YMD_YDM_REGEX) ||
+      !(text !~ DIGIT_ONLY_YEAR_FIRST_REGEX) ||
+      !(text !~ DIGIT_ONLY_YEAR_LAST_REGEX)
     end
-    def check_for_matches(day, month)
-      !(string !~ /#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
-      !(string !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
-      !(string !~ /\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i) ||
-      !(string !~ /\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i) ||
-      !(string !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i) ||
-      !(string !~ /\d{2}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*(\d{4}|\d{2})/i)
+    def check_for_matches(day, month, text)
+      !(text !~ /#{Regexp.escape(day)}(,)*\s#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
+      !(text !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*(,)*\s\d{4}/i) ||
+      !(text !~ /\d{4}\.*\s#{Regexp.escape(month)}\s\d+(rd|th|st)*/i) ||
+      !(text !~ /\d{4}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*\d+/i) ||
+      !(text !~ /#{Regexp.escape(month)}(\.)*\s\d+(rd|th|st)*/i) ||
+      !(text !~ /\d{2}(\.|-|\/)*#{Regexp.escape(month)}(\.|-|\/)*(\d{4}|\d{2})/i)
     end
   end
 end

data/lib/confidential_info_redactor/extractor.rb CHANGED Viewed

@@ -4,10 +4,12 @@ module ConfidentialInfoRedactor
   # This class extracts proper nouns from a text
   class Extractor
     # Rubular: http://rubular.com/r/qE0g4r9zR7
-    EXTRACT_REGEX = /(?<=\s|^|\s\")([A-Z]\S*\s)*[A-Z]\S*(?=(\s|\.|\z))|(?<=\s|^|\s\")[i][A-Z][a-z]+/
-    attr_reader :text, :language, :corpus
-    def initialize(text:, **args)
-      @text = text.gsub(/[’‘]/, "'")
+    EXTRACT_REGEX = /(?<=\s|^|\s\"|\s\“|\s\«|\s\‹|\s\”|\s\»|\s\›)([A-Z]\S*\s)*[A-Z]\S*(?=(\s|\.|\z))|(?<=\s|^|\s\"|\s\”|\s\»|\s\›|\s\“|\s\«|\s\‹)[i][A-Z][a-z]+/
+    PUNCTUATION_REGEX = /[\?\)\(\!\\\/\"\:\;\,\”\“\«\»\‹\›]/
+    attr_reader :language, :corpus
+    def initialize(**args)
       @language = args[:language] || 'en'
       case @language
       when 'en'
@@ -19,38 +21,69 @@ module ConfidentialInfoRedactor
       end
     end
-    def extract
+    def extract(text)
       extracted_terms = []
-      PragmaticSegmenter::Segmenter.new(text: text, language: language).segment.each do |segment|
-        initial_extracted_terms = segment.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '')) }.compact
-        in_corpus = true
-        initial_extracted_terms.each do |ngram|
-          ngram.split(/[\?\)\(\!\\\/\"\:\;\,]/).each do |t|
-            unless corpus.include?(t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip)
-              in_corpus = false
-            end
-          end
-        end
-        next if initial_extracted_terms.length.eql?(segment.split(' ').length) && in_corpus
-        initial_extracted_terms.each do |ngram|
-          ngram.split(/[\?\)\(\!\\\/\"\:\;\,]/).each do |t|
-            next if !(t !~ /.*\d+.*/)
-            if corpus.include?(t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0]) && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0] != 'the' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'deutsche' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2)
-              extracted_terms << t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[1] unless corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/\'$/, '').gsub(/”/,'').strip.split(' ')[1])
-            else
-              tracker = true
-              unless t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ').length.eql?(2) && t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[1].downcase.eql?('bank')
-                t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ').each do |token|
-                  tracker = false if corpus.include?(token.downcase)
-                end
-              end
-              extracted_terms << t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip unless corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip) || !tracker || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('en')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('es')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-2..-1].eql?('er')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-1].eql?('s')) || (corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '').strip[-1].eql?('n'))
-            end
-          end
-        end
+      PragmaticSegmenter::Segmenter.new(text: text.gsub(/[’‘]/, "'"), language: language).segment.each do |segment|
+        initial_extracted_terms = extract_preliminary_terms(segment)
+        search_ngrams(initial_extracted_terms, extracted_terms)
+      end
+      extracted_terms.map { |t| t.gsub(/\{\}/, '') }.delete_if { |t| t.length == 1 }.uniq.reject(&:empty?)
+    end
+    private
+    def extract_preliminary_terms(segment)
+      segment.to_s.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '')) }.compact
+    end
+    def clean_token(token)
+      token.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip
+    end
+    def non_confidential_token?(token, includes_confidential)
+      corpus.include?(token) || !includes_confidential || singular_in_corpus?(token)
+    end
+    def singular_in_corpus?(token)
+      corpus.include?(token[0...-1]) &&
+        token[-1].eql?('s') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('en') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('es') ||
+        corpus.include?(token[0...-2]) && token[-2..-1].eql?('er') ||
+        corpus.include?(token[0...-1]) && token[-1].eql?('n')
+    end
+    def includes_confidential?(token)
+      token.split(' ').map { |t| return false if corpus.include?(t.downcase) } unless token.split(' ').length.eql?(2) && token.split(' ')[1].downcase.eql?('bank')
+      true
+    end
+    def matching_first_token?(tokens)
+      corpus.include?(tokens[0]) &&
+        tokens[0] != 'the' &&
+        tokens[0] != 'deutsche' &&
+        tokens.length.eql?(2)
+    end
+    def find_extracted_terms(string, extracted_terms)
+      cleaned_token_downcased = clean_token(string.downcase)
+      cleaned_token = clean_token(string)
+      tokens = cleaned_token_downcased.split(' ')
+      if matching_first_token?(tokens)
+        extracted_terms << cleaned_token.split(' ')[1] unless corpus.include?(tokens[1])
+      else
+        extracted_terms << cleaned_token unless non_confidential_token?(cleaned_token_downcased, includes_confidential?(cleaned_token))
       end
+      extracted_terms
+    end
-      extracted_terms.uniq.reject(&:empty?)
+    def search_ngrams(tokens, extracted_terms)
+      tokens.each do |ngram|
+        ngram.split(PUNCTUATION_REGEX).each do |t|
+          next if !(t !~ /.*\d+.*/)
+          extracted_terms = find_extracted_terms(t, extracted_terms)
+        end
+      end
     end
   end
 end

data/lib/confidential_info_redactor/hyperlink.rb CHANGED Viewed

@@ -7,25 +7,13 @@ module ConfidentialInfoRedactor
     # Rubular: http://rubular.com/r/fXa4lp0gfS
     HYPERLINK_REGEX = /(http|https|www)(\.|:)/
-    attr_reader :string
-    def initialize(string:)
-      @string = string
+    def hyperlink?(text)
+      !(text !~ URI.regexp) && text !~ NON_HYPERLINK_REGEX && !(text !~ HYPERLINK_REGEX)
     end
-    def hyperlink?
-      !(string !~ URI.regexp) && string !~ NON_HYPERLINK_REGEX && !(string !~ HYPERLINK_REGEX)
-    end
-    def replace
-      new_string = string.dup
-      string.split(/\s+/).each do |token|
-        if !(token !~ URI.regexp) && token !~ NON_HYPERLINK_REGEX && !(token !~ HYPERLINK_REGEX) && token.include?('">')
-          new_string = new_string.gsub(/#{Regexp.escape(token.split('">')[0].gsub(/\.\z/, ''))}/, ' <redacted> ')
-        elsif !(token !~ URI.regexp) && token !~ NON_HYPERLINK_REGEX && !(token !~ HYPERLINK_REGEX)
-          new_string = new_string.gsub(/#{Regexp.escape(token.gsub(/\.\z/, ''))}/, ' <redacted> ')
-        end
-      end
-      new_string
+    def replace(text)
+      text.split(/\s+/).map { |token| text = text.gsub(/#{Regexp.escape(token.gsub(/\.\z/, ''))}/, ' <redacted> ') if !(token !~ HYPERLINK_REGEX) }
+      text
     end
   end
 end