RubyGems - text_rank - Versions diffs - 1.2.3 → 1.3.0 - Mend

text_rank 1.2.3 → 1.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (43) hide show

checksums.yaml +4 -4
data/.codeclimate.yml +1 -1
data/.gitignore +4 -0
data/.rubocop.yml +7 -0
data/.ruby-version +1 -1
data/.travis.yml +1 -0
data/Rakefile +5 -0
data/bin/console +3 -3
data/ext/text_rank/extconf.rb +3 -0
data/ext/text_rank/page_rank_sparse_native.c +300 -0
data/ext/text_rank/page_rank_sparse_native.h +93 -0
data/ext/text_rank/text_rank.c +5 -0
data/lib/page_rank/base.rb +12 -9
data/lib/page_rank/dense.rb +3 -2
data/lib/page_rank/sparse.rb +6 -7
data/lib/page_rank/sparse_native.rb +21 -0
data/lib/page_rank.rb +7 -4
data/lib/text_rank/char_filter/ascii_folding.rb +5 -1
data/lib/text_rank/char_filter/strip_possessive.rb +2 -2
data/lib/text_rank/char_filter/undo_contractions.rb +1 -137
data/lib/text_rank/char_filter/undo_contractions.yml +135 -0
data/lib/text_rank/char_filter.rb +1 -1
data/lib/text_rank/fingerprint.rb +10 -18
data/lib/text_rank/fingerprint_overlap.rb +55 -0
data/lib/text_rank/graph_strategy/coocurrence.rb +15 -6
data/lib/text_rank/keyword_extractor.rb +32 -25
data/lib/text_rank/rank_filter/collapse_adjacent.rb +48 -25
data/lib/text_rank/rank_filter/normalize_probability.rb +2 -1
data/lib/text_rank/rank_filter/normalize_unit_vector.rb +2 -1
data/lib/text_rank/token_filter/part_of_speech.rb +0 -1
data/lib/text_rank/token_filter/stopwords.rb +1 -321
data/lib/text_rank/token_filter/stopwords.yml +317 -0
data/lib/text_rank/tokenizer/money.rb +11 -6
data/lib/text_rank/tokenizer/number.rb +4 -3
data/lib/text_rank/tokenizer/punctuation.rb +4 -1
data/lib/text_rank/tokenizer/url.rb +3 -0
data/lib/text_rank/tokenizer/whitespace.rb +4 -1
data/lib/text_rank/tokenizer/word.rb +5 -2
data/lib/text_rank/tokenizer.rb +1 -1
data/lib/text_rank/version.rb +3 -1
data/lib/text_rank.rb +14 -9
data/text_rank.gemspec +4 -1
metadata +48 -12

data/lib/text_rank/token_filter/stopwords.yml ADDED Viewed

@@ -0,0 +1,317 @@
+- a
+- about
+- above
+- across
+- after
+- afterwards
+- again
+- against
+- all
+- almost
+- alone
+- along
+- already
+- also
+- although
+- always
+- am
+- among
+- amongst
+- amoungst
+- amount
+- an
+- and
+- another
+- any
+- anyhow
+- anyone
+- anything
+- anyway
+- anywhere
+- are
+- around
+- as
+- at
+- back
+- be
+- became
+- because
+- become
+- becomes
+- becoming
+- been
+- before
+- beforehand
+- behind
+- being
+- below
+- beside
+- besides
+- between
+- beyond
+- bill
+- both
+- bottom
+- but
+- by
+- call
+- can
+- cannot
+- cant
+- co
+- con
+- could
+- couldnt
+- cry
+- de
+- describe
+- detail
+- do
+- done
+- down
+- due
+- during
+- each
+- eg
+- eight
+- either
+- eleven
+- else
+- elsewhere
+- empty
+- enough
+- etc
+- even
+- ever
+- every
+- everyone
+- everything
+- everywhere
+- except
+- few
+- fifteen
+- fify
+- fill
+- find
+- fire
+- first
+- five
+- for
+- former
+- formerly
+- forty
+- found
+- four
+- from
+- front
+- full
+- further
+- get
+- give
+- go
+- had
+- has
+- hasnt
+- have
+- he
+- hence
+- her
+- here
+- hereafter
+- hereby
+- herein
+- hereupon
+- hers
+- herself
+- him
+- himself
+- his
+- how
+- however
+- hundred
+- ie
+- if
+- in
+- inc
+- indeed
+- interest
+- into
+- is
+- it
+- its
+- itself
+- keep
+- last
+- latter
+- latterly
+- least
+- less
+- ltd
+- made
+- many
+- may
+- me
+- meanwhile
+- might
+- mill
+- mine
+- more
+- moreover
+- most
+- mostly
+- move
+- much
+- must
+- my
+- myself
+- name
+- namely
+- neither
+- never
+- nevertheless
+- next
+- nine
+- no
+- nobody
+- none
+- noone
+- nor
+- not
+- nothing
+- now
+- nowhere
+- of
+- off
+- often
+- on
+- once
+- one
+- only
+- onto
+- or
+- other
+- others
+- otherwise
+- our
+- ours
+- ourselves
+- out
+- over
+- own
+- part
+- per
+- perhaps
+- please
+- put
+- rather
+- re
+- same
+- see
+- seem
+- seemed
+- seeming
+- seems
+- serious
+- several
+- she
+- should
+- show
+- side
+- since
+- sincere
+- six
+- sixty
+- so
+- some
+- somehow
+- someone
+- something
+- sometime
+- sometimes
+- somewhere
+- still
+- such
+- system
+- take
+- ten
+- than
+- that
+- the
+- their
+- them
+- themselves
+- then
+- thence
+- there
+- thereafter
+- thereby
+- therefore
+- therein
+- thereupon
+- these
+- they
+- thickv
+- thin
+- third
+- this
+- those
+- though
+- three
+- through
+- throughout
+- thru
+- thus
+- to
+- together
+- too
+- top
+- toward
+- towards
+- twelve
+- twenty
+- two
+- un
+- under
+- until
+- up
+- upon
+- us
+- very
+- via
+- was
+- we
+- well
+- were
+- what
+- whatever
+- when
+- whence
+- whenever
+- where
+- whereafter
+- whereas
+- whereby
+- wherein
+- whereupon
+- wherever
+- whether
+- which
+- while
+- whither
+- who
+- whoever
+- whole
+- whom
+- whose
+- why
+- will
+- with
+- within
+- without
+- would
+- yet
+- you
+- your
+- yours
+- yourself
+- yourselves

data/lib/text_rank/tokenizer/money.rb CHANGED Viewed

@@ -1,4 +1,3 @@
-#encoding: UTF-8
 module TextRank
   module Tokenizer
@@ -12,7 +11,7 @@ module TextRank
       "\u20a4", # Lira Symbol
       "\u20a7", # Peseta Sign
       "\u20ac", # Euro Symbol
-      "\u20B9", # Rupee
+      "\u20B9", # Rupee
       "\u20a9", # Won Sign
       "\u20b4", # Hryvnia Sign
       "\u20af", # Drachma Sign
@@ -34,6 +33,8 @@ module TextRank
     # A tokenizer regex that preserves money or formatted numbers as a single token. This
     # currently supports 24 different currency symbols:
     #
+    # rubocop:disable Style/AsciiComments
+    #
     # * ¤
     # * $
     # * ¢
@@ -58,19 +59,23 @@ module TextRank
     # * ₫
     # * %
     # * ‰
+    # rubocop:enable Style/AsciiComments
     #
     # It also supports two alternative formats for negatives as well as optional three digit comma
     # separation and optional decimals.
     ##
-    Money = %r{
+    # rubocop:disable Naming/ConstantName
+    Money = /
       (
-        #{CURRENCY_SYMBOLS} \-? #{Number}      # $-45,231.21
+        #{CURRENCY_SYMBOLS} -? #{Number}       # $-45,231.21
         |
-        \-? #{CURRENCY_SYMBOLS} #{Number}      # -$45,231.21
+        -? #{CURRENCY_SYMBOLS} #{Number}       # -$45,231.21
         |
         \( #{CURRENCY_SYMBOLS} #{Number} \)    # ($45,231.21)
       )
-    }x
+    /x
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/number.rb CHANGED Viewed

@@ -1,11 +1,11 @@
-#encoding: UTF-8
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves (optionally formatted) numbers as a single token.
     ##
-    Number = %r{
+    # rubocop:disable Naming/ConstantName
+    Number = /
       (
         [1-9]\d{3,}       # 453231162
         (?:\.\d+)?        # 453231162.17
@@ -25,7 +25,8 @@ module TextRank
         (?:\.\d+)         # .17
       )
-    }x
+    /x
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/punctuation.rb CHANGED Viewed

@@ -1,11 +1,14 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves single punctuation symbols as a token. Use
     # this if one or more of your TokenFilter classes need punctuation in order to
     # make decisions.
     ##
-    Punctuation = %r{([\p{Punct}])}
+    # rubocop:disable Naming/ConstantName
+    Punctuation = /(\p{Punct})/
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/url.rb CHANGED Viewed

@@ -1,8 +1,10 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves entire URL's as a token (rather than split them up)
     ##
+    # rubocop:disable Naming/ConstantName
     Url = %r{
       (
         (?:[\w-]+://?|www[.])
@@ -16,6 +18,7 @@ module TextRank
         )
       )
     }xi
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/whitespace.rb CHANGED Viewed

@@ -1,11 +1,14 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves single whitespace characters as a token. Use
     # this if one or more of your TokenFilter classes need whitespace in order to
     # make decisions.
     ##
-    Whitespace = %r{\s}
+    # rubocop:disable Naming/ConstantName
+    Whitespace = /\s/
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer/word.rb CHANGED Viewed

@@ -1,14 +1,17 @@
 module TextRank
   module Tokenizer
     ##
     # A tokenizer regex that preserves a non-space, non-punctuation "word".  It does
     # allow hyphens and numerals, but the first character must be an A-Z character.
     ##
-    Word = %r{
+    # rubocop:disable Naming/ConstantName
+    Word = /
       (
         [a-z][a-z0-9-]*
       )
-    }xi
+    /xi
+    # rubocop:enable Naming/ConstantName
   end
 end

data/lib/text_rank/tokenizer.rb CHANGED Viewed

@@ -31,7 +31,7 @@ module TextRank
       tokens = []
       text.scan(Regexp.new(regular_expressions.flatten.join('|'))) do |matches|
         m = matches.compact.first
-        tokens << m if m && m.size > 0
+        tokens << m if m&.size&.positive?
       end
       tokens
     end

data/lib/text_rank/version.rb CHANGED Viewed

@@ -1,4 +1,6 @@
 module TextRank
   # Current gem version
-  VERSION = '1.2.3'
+  VERSION = '1.3.0'
 end

data/lib/text_rank.rb CHANGED Viewed

@@ -1,4 +1,6 @@
 require 'page_rank'
+require 'set'
+require 'yaml'
 ##
 # Provides convenience methods for quickly extracting keywords.
@@ -7,17 +9,18 @@ require 'page_rank'
 ##
 module TextRank
-  autoload :CharFilter,       'text_rank/char_filter'
-  autoload :Fingerprint,      'text_rank/fingerprint'
-  autoload :GraphStrategy,    'text_rank/graph_strategy'
-  autoload :KeywordExtractor, 'text_rank/keyword_extractor'
-  autoload :RankFilter,       'text_rank/rank_filter'
-  autoload :TokenFilter,      'text_rank/token_filter'
-  autoload :Tokenizer,        'text_rank/tokenizer'
-  autoload :VERSION,          'text_rank/version'
+  autoload :CharFilter,         'text_rank/char_filter'
+  autoload :Fingerprint,        'text_rank/fingerprint'
+  autoload :FingerprintOverlap, 'text_rank/fingerprint_overlap'
+  autoload :GraphStrategy,      'text_rank/graph_strategy'
+  autoload :KeywordExtractor,   'text_rank/keyword_extractor'
+  autoload :RankFilter,         'text_rank/rank_filter'
+  autoload :TokenFilter,        'text_rank/token_filter'
+  autoload :Tokenizer,          'text_rank/tokenizer'
+  autoload :VERSION,            'text_rank/version'
   # A convenience method for quickly extracting keywords from text with default options
-  # @param text [String] text from which to extract keywords
+  # @param text [String,Array<String>] text from which to extract keywords
   # @option (see KeywordExtractor.basic)
   # @return [Hash<String, Float>] of tokens and text rank (in descending order)
   def self.extract_keywords(text, **options)
@@ -37,3 +40,5 @@ module TextRank
   end
 end
+require 'text_rank/text_rank'

data/text_rank.gemspec CHANGED Viewed

@@ -16,13 +16,16 @@ Gem::Specification.new do |spec|
   spec.files         = `git ls-files -z`.split("\x0").reject { |f| f.match(%r{^(test|spec|features)/}) }
   spec.bindir        = 'exe'
   spec.executables   = spec.files.grep(%r{^exe/}) { |f| File.basename(f) }
+  spec.extensions    = ['ext/text_rank/extconf.rb']
   spec.require_paths = ['lib']
   spec.add_development_dependency 'bundler'
   spec.add_development_dependency 'rake'
+  spec.add_development_dependency 'rake-compiler'
   spec.add_development_dependency 'rspec'
   spec.add_development_dependency 'rubocop'
-  spec.add_development_dependency 'simplecov', '~> 0.17.0' # 0.18 not supported by code climate
+  spec.add_development_dependency 'simplecov'
+  spec.add_development_dependency 'yard'
   spec.add_development_dependency 'engtagger' # Optional runtime dependency but needed for specs
   spec.add_development_dependency 'nokogiri'  # Optional runtime dependency but needed for specs

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: text_rank
 version: !ruby/object:Gem::Version
-  version: 1.2.3
+  version: 1.3.0
 platform: ruby
 authors:
 - David McCullars
-autorequire:
+autorequire:
 bindir: exe
 cert_chain: []
-date: 2020-06-10 00:00:00.000000000 Z
+date: 2021-12-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -38,6 +38,20 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
+- !ruby/object:Gem::Dependency
+  name: rake-compiler
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
@@ -70,16 +84,30 @@ dependencies:
   name: simplecov
   requirement: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: yard
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 0.17.0
+        version: '0'
   type: :development
   prerelease: false
   version_requirements: !ruby/object:Gem::Requirement
     requirements:
-    - - "~>"
+    - - ">="
       - !ruby/object:Gem::Version
-        version: 0.17.0
+        version: '0'
 - !ruby/object:Gem::Dependency
   name: engtagger
   requirement: !ruby/object:Gem::Requirement
@@ -113,7 +141,8 @@ description: Implementation of TextRank solution to ranked keyword extraction.
 email:
 - david.mccullars@gmail.com
 executables: []
-extensions: []
+extensions:
+- ext/text_rank/extconf.rb
 extra_rdoc_files: []
 files:
 - ".codeclimate.yml"
@@ -129,10 +158,15 @@ files:
 - Rakefile
 - bin/console
 - bin/setup
+- ext/text_rank/extconf.rb
+- ext/text_rank/page_rank_sparse_native.c
+- ext/text_rank/page_rank_sparse_native.h
+- ext/text_rank/text_rank.c
 - lib/page_rank.rb
 - lib/page_rank/base.rb
 - lib/page_rank/dense.rb
 - lib/page_rank/sparse.rb
+- lib/page_rank/sparse_native.rb
 - lib/text_rank.rb
 - lib/text_rank/char_filter.rb
 - lib/text_rank/char_filter/ascii_folding.rb
@@ -141,7 +175,9 @@ files:
 - lib/text_rank/char_filter/strip_html.rb
 - lib/text_rank/char_filter/strip_possessive.rb
 - lib/text_rank/char_filter/undo_contractions.rb
+- lib/text_rank/char_filter/undo_contractions.yml
 - lib/text_rank/fingerprint.rb
+- lib/text_rank/fingerprint_overlap.rb
 - lib/text_rank/graph_strategy.rb
 - lib/text_rank/graph_strategy/coocurrence.rb
 - lib/text_rank/keyword_extractor.rb
@@ -154,6 +190,7 @@ files:
 - lib/text_rank/token_filter/min_length.rb
 - lib/text_rank/token_filter/part_of_speech.rb
 - lib/text_rank/token_filter/stopwords.rb
+- lib/text_rank/token_filter/stopwords.yml
 - lib/text_rank/tokenizer.rb
 - lib/text_rank/tokenizer/money.rb
 - lib/text_rank/tokenizer/number.rb
@@ -167,7 +204,7 @@ homepage: https://github.com/david-mccullars/text_rank
 licenses:
 - MIT
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -182,9 +219,8 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubyforge_project:
-rubygems_version: 2.7.6
-signing_key:
+rubygems_version: 3.2.32
+signing_key:
 specification_version: 4
 summary: Implementation of TextRank solution to ranked keyword extraction
 test_files: []