RubyGems - confidential_info_redactor - Versions diffs - 0.0.13 → 0.0.14 - Mend

confidential_info_redactor 0.0.13 → 0.0.14

Files changed (5) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: d698521a92a28fa94c1cd8f2c6317b4249a0a19d
-  data.tar.gz: ab825e72bb74de93b72efaac0364f4b01ba7b3fb
+  metadata.gz: f372184466d5b6452bc24fcba0cc4b7f6754d5c8
+  data.tar.gz: e6cc96f50cb2ff83e4d74b5e9fb201c2c0f93a17
 SHA512:
-  metadata.gz: b91adab393e7137f24f9255a20b9d35cb812fbbb0513b0a3daf01944065d3659ef40864bc8013c7291d210593a60341e1dae898d6c5c97262029d7f0fefc8a5f
-  data.tar.gz: c554f97b0ce9fe0341ab983641bc347c415d770561acb150ce810236271c485cd0b395d8ebf8eef333372ebbb6719a703adca82cef36855022b8d565c1d196e1
+  metadata.gz: 3752768a77fd3514e3717363c9c23cfccfe62b6acbdba59a540d9eb1506a55573a582dc581b7f433c94822c43cbfc9d82d27ca754a0b51751306f8cfdc9d8ea7
+  data.tar.gz: 2de4f5514ea01869ae0f552d9bdefeba79c60c79cbb62167644f47c2a3a3d0213fb546c5c70fd3466e0afd8d421a3c712e163a6cfbc3e82629e44e8501798d7a

data/lib/confidential_info_redactor/extractor.rb CHANGED Viewed

@@ -25,6 +25,7 @@ module ConfidentialInfoRedactor
         initial_extracted_terms = segment.gsub(EXTRACT_REGEX).map { |match| match unless corpus.include?(match.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/”/,'').gsub(/\'$/, '')) }.compact
         initial_extracted_terms.each do |ngram|
           ngram.split(/[\?\)\(\!\\\/\"\:\;\,]/).each do |t|
+            next if !(t !~ /.*\d+.*/)
             if corpus.include?(t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0]) && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[0] != 'the' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ')[0] != 'deutsche' && t.downcase.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/\.\z/, '').strip.split(' ').length.eql?(2)
               extracted_terms << t.gsub(/[\?\)\(\!\\\/\"\:\;\,]/, '').gsub(/\'$/, '').gsub(/”/,'').gsub(/\.\z/, '').strip.split(' ')[1] unless corpus.include?(t.downcase.gsub(/[\?\.\)\(\!\\\/\"\:\;]/, '').gsub(/\'$/, '').gsub(/”/,'').strip.split(' ')[1])
             else

data/lib/confidential_info_redactor/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module ConfidentialInfoRedactor
-  VERSION = "0.0.13"
+  VERSION = "0.0.14"
 end

@@ -133,6 +133,11 @@ RSpec.describe ConfidentialInfoRedactor::Extractor do
         text = '“Reducing'
         expect(described_class.new(text: text, language: 'en').extract).to eq([])
       end
+      it 'extracts the proper nouns from a text #015' do
+        text = 'Corrigendum to Council Regulation (EC) No 85/2009 of 19 January 2009 amending Regulation (EC) No 1083/2006 laying down general provisions on the European Regional Development Fund, the European Social Fund and the Cohesion Fund concerning certain provisions relating to financial management'
+        expect(described_class.new(text: text, language: 'en').extract).to eq(["Corrigendum"])
+      end
     end
     context 'German (de)' do

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: confidential_info_redactor
 version: !ruby/object:Gem::Version
-  version: 0.0.13
+  version: 0.0.14
 platform: ruby
 authors:
 - Kevin S. Dias