RubyGems - text_rank - Versions diffs - 1.1.7 → 1.2.5 - Mend

text_rank 1.1.7 → 1.2.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (38) hide show

checksums.yaml +5 -5
data/.codeclimate.yml +1 -6
data/.rubocop.yml +60 -1075
data/.ruby-version +1 -1
data/.travis.yml +13 -5
data/{LICENSE.txt → LICENSE} +0 -0
data/README.md +2 -1
data/bin/console +3 -3
data/lib/page_rank.rb +2 -0
data/lib/page_rank/base.rb +9 -8
data/lib/page_rank/dense.rb +2 -1
data/lib/page_rank/sparse.rb +6 -7
data/lib/text_rank.rb +12 -9
data/lib/text_rank/char_filter.rb +1 -1
data/lib/text_rank/char_filter/ascii_folding.rb +5 -1
data/lib/text_rank/char_filter/strip_possessive.rb +2 -2
data/lib/text_rank/char_filter/undo_contractions.rb +1 -137
data/lib/text_rank/char_filter/undo_contractions.yml +135 -0
data/lib/text_rank/fingerprint.rb +20 -28
data/lib/text_rank/fingerprint_overlap.rb +55 -0
data/lib/text_rank/graph_strategy/coocurrence.rb +15 -6
data/lib/text_rank/keyword_extractor.rb +32 -25
data/lib/text_rank/rank_filter/collapse_adjacent.rb +53 -25
data/lib/text_rank/rank_filter/normalize_probability.rb +2 -1
data/lib/text_rank/rank_filter/normalize_unit_vector.rb +2 -1
data/lib/text_rank/token_filter/part_of_speech.rb +0 -1
data/lib/text_rank/token_filter/stopwords.rb +1 -321
data/lib/text_rank/token_filter/stopwords.yml +317 -0
data/lib/text_rank/tokenizer.rb +1 -1
data/lib/text_rank/tokenizer/money.rb +11 -6
data/lib/text_rank/tokenizer/number.rb +4 -3
data/lib/text_rank/tokenizer/punctuation.rb +4 -1
data/lib/text_rank/tokenizer/url.rb +3 -0
data/lib/text_rank/tokenizer/whitespace.rb +4 -1
data/lib/text_rank/tokenizer/word.rb +5 -2
data/lib/text_rank/version.rb +3 -1
data/text_rank.gemspec +10 -10
metadata +48 -32

data/lib/text_rank/tokenizer.rb CHANGED

@@ -31,7 +31,7 @@ module TextRank
       tokens = []
       text.scan(Regexp.new(regular_expressions.flatten.join('|'))) do |matches|
         m = matches.compact.first
-        tokens << m if m && m.size > 0
+        tokens << m if m&.size&.positive?
       end
       tokens
     end

data/lib/text_rank/tokenizer/money.rb CHANGED

@@ -1,4 +1,3 @@
-#encoding: UTF-8
 module TextRank
   module Tokenizer
@@ -12,7 +11,7 @@ module TextRank
       "\u20a4", # Lira Symbol
       "\u20a7", # Peseta Sign
       "\u20ac", # Euro Symbol
-      "\u20B9", # Rupee
+      "\u20B9", # Rupee
       "\u20a9", # Won Sign
       "\u20b4", # Hryvnia Sign
       "\u20af", # Drachma Sign
@@ -34,6 +33,8 @@ module TextRank
     # A tokenizer regex that preserves money or formatted numbers as a single token. This
     # currently supports 24 different currency symbols:
     #
+    # rubocop:disable Style/AsciiComments
+    #
     # * ¤
     # * $
     # * ¢
@@ -58,19 +59,23 @@ module TextRank
     # * ₫
     # * %
     # * ‰
+    # rubocop:enable Style/AsciiComments
     #
     # It also supports two alternative formats for negatives as well as optional three digit comma
     # separation and optional decimals.
     ##
-    Money = %r{
+    # rubocop:disable Naming/ConstantName
+    Money = /
       (
-        #{CURRENCY_SYMBOLS} \-? #{Number}      # $-45,231.21
+        #{CURRENCY_SYMBOLS} -? #{Number}       # $-45,231.21
         |
-        \-? #{CURRENCY_SYMBOLS} #{Number}      # -$45,231.21
+        -? #{CURRENCY_SYMBOLS} #{Number}       # -$45,231.21
         |
         \( #{CURRENCY_SYMBOLS} #{Number} \)    # ($45,231.21)
       )
-    }x
+    /x
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/number.rb CHANGED

@@ -1,11 +1,11 @@
-#encoding: UTF-8
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves (optionally formatted) numbers as a single token.
     ##
-    Number = %r{
+    # rubocop:disable Naming/ConstantName
+    Number = /
       (
         [1-9]\d{3,}       # 453231162
         (?:\.\d+)?        # 453231162.17
@@ -25,7 +25,8 @@ module TextRank
         (?:\.\d+)         # .17
       )
-    }x
+    /x
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/punctuation.rb CHANGED

@@ -1,11 +1,14 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves single punctuation symbols as a token. Use
     # this if one or more of your TokenFilter classes need punctuation in order to
     # make decisions.
     ##
-    Punctuation = %r{([\p{Punct}])}
+    # rubocop:disable Naming/ConstantName
+    Punctuation = /(\p{Punct})/
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/url.rb CHANGED

@@ -1,8 +1,10 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves entire URL's as a token (rather than split them up)
     ##
+    # rubocop:disable Naming/ConstantName
     Url = %r{
       (
         (?:[\w-]+://?|www[.])
@@ -16,6 +18,7 @@ module TextRank
         )
       )
     }xi
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/whitespace.rb CHANGED

@@ -1,11 +1,14 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves single whitespace characters as a token. Use
     # this if one or more of your TokenFilter classes need whitespace in order to
     # make decisions.
     ##
-    Whitespace = %r{\s}
+    # rubocop:disable Naming/ConstantName
+    Whitespace = /\s/
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/word.rb CHANGED

@@ -1,14 +1,17 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves a non-space, non-punctuation "word".  It does
     # allow hyphens and numerals, but the first character must be an A-Z character.
     ##
-    Word = %r{
+    # rubocop:disable Naming/ConstantName
+    Word = /
       (
         [a-z][a-z0-9-]*
       )
-    }xi
+    /xi
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/version.rb CHANGED

@@ -1,4 +1,6 @@
 module TextRank
   # Current gem version
-  VERSION = '1.1.7'
+  VERSION = '1.2.5'
 end

data/text_rank.gemspec CHANGED

@@ -1,4 +1,3 @@
-# coding: utf-8
 lib = File.expand_path('../lib', __FILE__)
 $LOAD_PATH.unshift(lib) unless $LOAD_PATH.include?(lib)
 require 'text_rank/version'
@@ -9,8 +8,8 @@ Gem::Specification.new do |spec|
   spec.authors       = ['David McCullars']
   spec.email         = ['david.mccullars@gmail.com']
-  spec.summary       = %q{Implementation of TextRank solution to ranked keyword extraction}
-  spec.description   = %q{Implementation of TextRank solution to ranked keyword extraction.  See https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf}
+  spec.summary       = 'Implementation of TextRank solution to ranked keyword extraction'
+  spec.description   = 'Implementation of TextRank solution to ranked keyword extraction.  See https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf'
   spec.homepage      = 'https://github.com/david-mccullars/text_rank'
   spec.license       = 'MIT'
@@ -19,12 +18,13 @@ Gem::Specification.new do |spec|
   spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
   spec.require_paths = ['lib']
-  spec.add_development_dependency 'bundler',    '~> 1.11'
-  spec.add_development_dependency 'rake',       '~> 10.0'
-  spec.add_development_dependency 'rspec',      '~> 3.0'
-  spec.add_development_dependency 'simplecov',  '~> 0.11'
-  spec.add_development_dependency 'codeclimate-test-reporter'
+  spec.add_development_dependency 'bundler'
+  spec.add_development_dependency 'rake'
+  spec.add_development_dependency 'rspec'
+  spec.add_development_dependency 'rubocop'
+  spec.add_development_dependency 'simplecov', '~> 0.17.0' # 0.18 not supported by code climate
+  spec.add_development_dependency 'yard'
-  spec.add_development_dependency 'engtagger',  '~> 0.2.0' # Optional runtime dependency but needed for specs
-  spec.add_development_dependency 'nokogiri',   '~> 1.0'   # Optional runtime dependency but needed for specs
+  spec.add_development_dependency 'engtagger' # Optional runtime dependency but needed for specs
+  spec.add_development_dependency 'nokogiri'  # Optional runtime dependency but needed for specs
 end

metadata CHANGED

@@ -1,73 +1,87 @@
 --- !ruby/object:Gem::Specification
 name: text_rank
 version: !ruby/object:Gem::Version
-  version: 1.1.7
+  version: 1.2.5
 platform: ruby
 authors:
 - David McCullars
-autorequire:
+autorequire:
 bindir: exe
 cert_chain: []
-date: 2016-07-05 00:00:00.000000000 Z
+date: 2021-01-27 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '1.11'
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '1.11'
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rake
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '10.0'
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '3.0'
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '3.0'
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: rubocop
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: simplecov
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '0.11'
+        version: 0.17.0
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
     - - "~>"
       - !ruby/object:Gem::Version
-        version: '0.11'
+        version: 0.17.0
 - !ruby/object:Gem::Dependency
-  name: codeclimate-test-reporter
+  name: yard
   requirement: !ruby/object:Gem::Requirement
     requirements:
     - - ">="
@@ -84,30 +98,30 @@ dependencies:
   name: engtagger
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 0.2.0
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 0.2.0
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: nokogiri
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '1.0'
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: '1.0'
+        version: '0'
 description: Implementation of TextRank solution to ranked keyword extraction.  See
   https://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf
 email:
@@ -124,7 +138,7 @@ files:
 - ".travis.yml"
 - CODE_OF_CONDUCT.md
 - Gemfile
-- LICENSE.txt
+- LICENSE
 - README.md
 - Rakefile
 - bin/console
@@ -141,7 +155,9 @@ files:
 - lib/text_rank/char_filter/strip_html.rb
 - lib/text_rank/char_filter/strip_possessive.rb
 - lib/text_rank/char_filter/undo_contractions.rb
+- lib/text_rank/char_filter/undo_contractions.yml
 - lib/text_rank/fingerprint.rb
+- lib/text_rank/fingerprint_overlap.rb
 - lib/text_rank/graph_strategy.rb
 - lib/text_rank/graph_strategy/coocurrence.rb
 - lib/text_rank/keyword_extractor.rb
@@ -154,6 +170,7 @@ files:
 - lib/text_rank/token_filter/min_length.rb
 - lib/text_rank/token_filter/part_of_speech.rb
 - lib/text_rank/token_filter/stopwords.rb
+- lib/text_rank/token_filter/stopwords.yml
 - lib/text_rank/tokenizer.rb
 - lib/text_rank/tokenizer/money.rb
 - lib/text_rank/tokenizer/number.rb
@@ -167,7 +184,7 @@ homepage: https://github.com/david-mccullars/text_rank
 licenses:
 - MIT
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -182,10 +199,9 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubyforge_project:
-rubygems_version: 2.5.1
-signing_key:
+rubyforge_project:
+rubygems_version: 2.7.6
+signing_key:
 specification_version: 4
 summary: Implementation of TextRank solution to ranked keyword extraction
 test_files: []
-has_rdoc: