RubyGems - confidential_info_redactor_lite - Versions diffs - 0.0.33 → 0.0.34 - Mend

confidential_info_redactor_lite 0.0.33 → 0.0.34

Files changed (7) hide show

checksums.yaml +4 -4
data/confidential_info_redactor_lite.gemspec +2 -1
data/lib/confidential_info_redactor_lite/extractor.rb +38 -24
data/lib/confidential_info_redactor_lite/version.rb +1 -1
data/lib/confidential_info_redactor_lite.rb +2 -1
data/spec/confidential_info_redactor_lite/performance_spec.rb +58 -0
metadata +20 -4

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 3663d0bbfe01b799ee393dbd5c7fdf1124c87d42
-  data.tar.gz: 978f762e6c496064cfb59995c737895009dd2bcc
+  metadata.gz: 05d26fbe6fe84f3a1f695b05a47ff9ae555cbb06
+  data.tar.gz: 9be6e91bf1e96e8f237820ac53de547ce534c9d6
 SHA512:
-  metadata.gz: 73cbcfad95c1100dd4362469b9ddff18852554a05a9542fb25adb8ade73c8ab6980360b39f63c4482fca7cffd8b358c6a41c89e5f038481164c69d3b9254c3c9
-  data.tar.gz: 90249a5a9272046f357523970d2e0f9a28dda314b444c122fd60b12f52b8b07b58fa3b807e16890838dc9629006a33d2e962b5b84b70980bc25945f759f702d0
+  metadata.gz: 528f42365aadf05514ec5d56d088e838392473c3cb80a8210302fc8a256bcbb9ed98817c2fd6d3034f99f0aef4b47f4ed67a393c654cdaecb84bc034f0eddd3d
+  data.tar.gz: d1c900aefe94e6a45a1c7c28d8dd61ac23b39f46f6f0ea1076e126312148254aa84349527b0183221e3c4519997a6d865993ddb573e94ee3dfd37e45506042d4

data/confidential_info_redactor_lite.gemspec CHANGED Viewed

@@ -22,5 +22,6 @@ Gem::Specification.new do |spec|
   spec.add_development_dependency "bundler", "~> 1.6"
   spec.add_development_dependency "rake", "~> 10.0"
   spec.add_development_dependency "rspec"
-  spec.add_runtime_dependency "pragmatic_segmenter"
+  spec.add_development_dependency "stackprof"
+  spec.add_runtime_dependency "pragmatic_segmenter", "~> 0.3.7"
 end

data/lib/confidential_info_redactor_lite/extractor.rb CHANGED Viewed

@@ -7,43 +7,57 @@ module ConfidentialInfoRedactorLite
     PUNCTUATION_REGEX = /[\?\)\(\!\\\/\"\:\;\,\”\“\«\»\‹\›]/
     attr_reader :text, :language, :corpus
     def initialize(text:, corpus:, **args)
-      @text = text.gsub(/[’‘]/, "'")
-      @corpus = corpus
+      @text = text.gsub(/[’‘]/, "'").freeze
+      @corpus = Set.new(corpus).freeze
       @language = args[:language] || 'en'
     end
     def extract
       extracted_terms = []
       PragmaticSegmenter::Segmenter.new(text: text, language: language).segment.each do |segment|
-        initial_extracted_terms = segment.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '')) }.compact
-        in_corpus = true
-        initial_extracted_terms.each do |ngram|
-          ngram.split(PUNCTUATION_REGEX).each do |t|
-            unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip)
-              in_corpus = false
-            end
+        initial_extracted_terms = extract_preliminary_terms(segment)
+        next if initial_extracted_terms.length.eql?(segment.split(' ').length) && search_for_ngrams(initial_extracted_terms)
+        search_ngrams(initial_extracted_terms, extracted_terms)
+      end
+      extracted_terms.uniq.reject(&:empty?)
+    end
+    private
+    def extract_preliminary_terms(segment)
+      segment.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '')) }.compact
+    end
+    def search_for_ngrams(tokens)
+      in_corpus = true
+      tokens.each do |ngram|
+        ngram.split(PUNCTUATION_REGEX).each do |t|
+          unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip)
+            in_corpus = false
           end
         end
-        next if initial_extracted_terms.length.eql?(segment.split(' ').length) && in_corpus
-        initial_extracted_terms.each do |ngram|
-          ngram.split(PUNCTUATION_REGEX).each do |t|
-            next if !(t !~ /.*\d+.*/)
-            if corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'the' && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'deutsche' && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2)
-              extracted_terms << t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[1] unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip.split(' ')[1])
-            else
-              tracker = true
-              unless t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2) && t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[1].downcase.eql?('bank')
-                t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').each do |token|
-                  tracker = false if corpus.include?(token.downcase)
-                end
+      end
+      in_corpus
+    end
+    def search_ngrams(tokens, extracted_terms)
+      tokens.each do |ngram|
+        ngram.split(PUNCTUATION_REGEX).each do |t|
+          next if !(t !~ /.*\d+.*/)
+          if corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'the' && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'deutsche' && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2)
+            extracted_terms << t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[1] unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip.split(' ')[1])
+          else
+            tracker = true
+            unless t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2) && t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[1].downcase.eql?('bank')
+              t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').each do |token|
+                tracker = false if corpus.include?(token.downcase)
               end
-              extracted_terms << t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip) || !tracker || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('en')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('es')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('er')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-1].eql?('s')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-1].eql?('n'))
             end
+            extracted_terms << t.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip unless corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip) || !tracker || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('en')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('es')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-2]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-2..-1].eql?('er')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-1].eql?('s')) || (corpus.include?(t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[0...-1]) && t.downcase.gsub(PUNCTUATION_REGEX, '').gsub(/\'$/, '').strip[-1].eql?('n'))
           end
         end
       end
-      extracted_terms.uniq.reject(&:empty?)
+      extracted_terms
     end
   end
 end

data/lib/confidential_info_redactor_lite/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module ConfidentialInfoRedactorLite
-  VERSION = "0.0.33"
+  VERSION = "0.0.34"
 end

data/lib/confidential_info_redactor_lite.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 require 'confidential_info_redactor_lite/version'
 require 'confidential_info_redactor_lite/extractor'
 require 'confidential_info_redactor_lite/redactor'
-require 'pragmatic_segmenter'
+require 'pragmatic_segmenter'
+require 'set'