RubyGems - cloud_text - Versions diffs - 0.1.0 → 0.1.1 - Mend

cloud_text 0.1.0 → 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 983b4f884b5029e10005ae1e89c31d2c97f16ace
-  data.tar.gz: 88cea0d72ea1fde97fb59cc552552c3efebb8adf
+  metadata.gz: 454fff55b372f0cf569dd85ff4d0628a61979447
+  data.tar.gz: 80c4881f8c853eda28307f1af69d2994eac2d62d
 SHA512:
-  metadata.gz: 4e9f961744d2d31dd61a075029c53746161c723e588199995a2dbd8a36b9f80abb19c50b3fe0345a0d118310a82c27ccbd8a32662487910cab9c8eec5590ab65
-  data.tar.gz: 064e0468f37ebc8ba528f2f27d6fafcba6b102bfda2b42823ccd17b1bee3020f1899f674e561a0cd46e3d03755517e397617082ff88873b335194df215b77732
+  metadata.gz: 1fd69e11aaeba4d3169482cb09c6ccdd56d36883176e499550c11fa3b9012591cba269757d206a2de39a428c55fded3c53bdcedd14c2f51c1a3f255c29887418
+  data.tar.gz: e74a99f08e16dcecc363fabd286b49253fd8042e367efd00598f17b87652505dec960ac1e146e532edf311edd5e8304aceb0362b32a94b7a8788861cedb134a1

data/.gitignore CHANGED Viewed

@@ -6,6 +6,6 @@
 /pkg/
 /spec/reports/
 /tmp/
+*.gem
 # rspec failure tracking
 .rspec_status

data/Gemfile CHANGED Viewed

@@ -4,6 +4,3 @@ git_source(:github) {|repo_name| "https://github.com/#{repo_name}" }
 # Specify your gem's dependencies in cloud_text.gemspec
 gemspec
-gem 'unicode_utils'
-gem 'stopwords-filter'
-gem 'ruby-stemmer'

data/Gemfile.lock ADDED Viewed

@@ -0,0 +1,41 @@
+PATH
+  remote: .
+  specs:
+    cloud_text (0.1.1)
+      ruby-stemmer (~> 0.9.6)
+      stopwords-filter (~> 0.4.1)
+      unicode_utils (~> 1.4)
+GEM
+  remote: https://rubygems.org/
+  specs:
+    diff-lcs (1.3)
+    rake (10.5.0)
+    rspec (3.7.0)
+      rspec-core (~> 3.7.0)
+      rspec-expectations (~> 3.7.0)
+      rspec-mocks (~> 3.7.0)
+    rspec-core (3.7.1)
+      rspec-support (~> 3.7.0)
+    rspec-expectations (3.7.0)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.7.0)
+    rspec-mocks (3.7.0)
+      diff-lcs (>= 1.2.0, < 2.0)
+      rspec-support (~> 3.7.0)
+    rspec-support (3.7.1)
+    ruby-stemmer (0.9.6)
+    stopwords-filter (0.4.1)
+    unicode_utils (1.4.0)
+PLATFORMS
+  ruby
+DEPENDENCIES
+  bundler (~> 1.16)
+  cloud_text!
+  rake (~> 10.0)
+  rspec (~> 3.0)
+BUNDLED WITH
+   1.16.1

data/README.md CHANGED Viewed

@@ -28,9 +28,9 @@ require 'cloud_text'
 # language => "en"
 # stemming => false
-options = { remove_digits: false, language: "en", stemming: true }
-cleaner = CloudText.clean_text("Your text to be cleaned, will come here1!1", options)
-# => [["come", 1], ["will", 1], ["clean", 1], ["text", 1]]
+options = { remove_digits: true, language: "en", stemming: true }
+cleaner = CloudText.clean_text("Your text to be cleaned, will come come come here1!1", options)
+# => [["come", 3], ["will", 1], ["clean", 1], ["text", 1]]
 ```
 ## Contributing

data/cloud_text.gemspec CHANGED Viewed

@@ -24,4 +24,8 @@ Gem::Specification.new do |spec|
   spec.add_development_dependency "bundler", "~> 1.16"
   spec.add_development_dependency "rake", "~> 10.0"
   spec.add_development_dependency "rspec", "~> 3.0"
+  spec.add_runtime_dependency 'unicode_utils', '~> 1.4'
+  spec.add_runtime_dependency 'stopwords-filter', '~> 0.4.1'
+  spec.add_runtime_dependency 'ruby-stemmer', '~> 0.9.6'
 end

data/lib/cloud_text.rb CHANGED Viewed

@@ -9,48 +9,65 @@ module CloudText
     @input = input
     @options = options
-    # Remove punctuation and/or digits
+    # Get feature on/off switches
     remove_digits = @options.fetch(:remove_digits, false)
-    if remove_digits
-      @input = input.gsub(/[^A-Za-z0-9^şŞıİçÇöÖüÜĞğ\s]|_|\d/, ' ')
-    else
-      @input = input.gsub(/[^A-Za-z0-9^şŞıİçÇöÖüÜĞğ\s]|_/, ' ')
-    end
-    # Reduce multiple whitespaces into single whitespace
-    @input = @input.gsub(/\s+/, ' ')
+    stemming_enabled = @options.fetch(:stemming, false)
-    # Lowercase all tokens
+    # Get variables
     @language = @options.fetch(:language, "en")
-    @input = UnicodeUtils.downcase(@input, @language.to_sym)
-    # Filter stopwords
-    @cutsom_stopwords = @options.fetch(:stopwords, [])
-    if @language == "tr"
-      stopword_filter = Stopwords::Filter.new tr_stopwords
-    else
-      stopword_filter = Stopwords::Snowball::Filter.new @language
-    end
+    @custom_stopwords = @options.fetch(:stopwords, [])
+    @input = process_text(@input, stemming_enabled, remove_digits, @language, @custom_stopwords)
+    count_words(@input)
+  end
+  private
+  def self.process_text(input, stemming_enabled, remove_digits, language, custom_stopwords)
+    input = remove_punctuation(input, remove_digits)
+    input = reduce_whitespaces(input)
+    input = lowercase_words(input, language)
+    input = filter_stopwords(input, language, custom_stopwords) # Get custom_stopwords from user and filter words
+    input = stemming(input, language) if stemming_enabled
+  end
+  def self.remove_punctuation(input, remove_digits)
+    regex = remove_digits ? /[^A-Za-z0-9^şŞıİçÇöÖüÜĞğ\s]|_|\d/ : /[^A-Za-z0-9^şŞıİçÇöÖüÜĞğ\s]|_/
+    input.gsub(regex, ' ')
+  end
-    # Here we intentionally do not downcase custom_stopwords
+  # Reduce multiple whitespaces into single whitespace
+  def self.reduce_whitespaces(input)
+    input.gsub(/\s+/, ' ')
+  end
+  def self.lowercase_words(input, language)
+    UnicodeUtils.downcase(input, language.to_sym)
+  end
+  # Remove stopwords for given language and also given custom stopwords
+  def self.filter_stopwords(input, language, custom_stopwords = nil)
+    stopword_filter = language == "tr" ? Stopwords::Filter.new(tr_stopwords) : stopword_filter = Stopwords::Snowball::Filter.new(language)
+    # Here we intentionally do not downcase custom_stopwords
     # since we want to filter only capitalized version of a word
-    stopword_filter.stopwords << @cutsom_stopwords
-    @input = stopword_filter.filter(@input.split)
-    # Stemming
-    stemming_enabled = @options.fetch(:stemming, false)
-    if stemming_enabled
-      stemmer = Lingua::Stemmer.new(language: @language)
-      @input = @input.map do |word|
-        stemmer.stem(word)
-      end
+    stopword_filter.stopwords << custom_stopwords if custom_stopwords
+    stopword_filter.filter(input.split)
+  end
+  def self.stemming(input, language)
+    stemmer = Lingua::Stemmer.new(language: language)
+    input.map do |word|
+      stemmer.stem(word)
     end
+  end
-    # Counting the words, generate array for each element like => [word, frequency]
-    @result = @input.each_with_object(Hash.new(0)) { |token, hash| hash[token] += 1 }.sort_by {|k,v| v}.reverse
+  # Counting the words, generate array for each element like => [word, frequency]
+  def self.count_words(input)
+    input.each_with_object(Hash.new(0)) { |token, hash| hash[token] += 1 }.sort_by(&:last).reverse
   end
-  private
   def self.tr_stopwords
-    ['a','acaba','altı','altmış','ama','ancak','arada','artık','asla','aslında','aslında','ayrıca','az','bana','bazen','bazı','bazıları','belki','ben','benden','beni','benim','beri','beş','bile','bilhassa','bin','bir','biraz','birçoğu','birçok','biri','birisi','birkaç','birşey','biz','bizden','bize','bizi','bizim','böyle','böylece','bu','buna','bunda','bundan','bunlar','bunları','bunların','bunu','bunun','burada','bütün','çoğu','çoğunu','çok','çünkü','da','daha','dahi','dan','de','defa','değil','diğer','diğeri','diğerleri','diye','doksan','dokuz','dolayı','dolayısıyla','dört','e','edecek','eden','ederek','edilecek','ediliyor','edilmesi','ediyor','eğer','elbette','elli','en','etmesi','etti','ettiği','ettiğini','fakat','falan','filan','gene','gereği','gerek','gibi','göre','hala','halde','halen','hangi','hangisi','hani','hatta','hem','henüz','hep','hepsi','her','herhangi','herkes','herkese','herkesi','herkesin','hiç','hiçbir','hiçbiri','i','ı','için','içinde','iki','ile','ilgili','ise','işte','itibaren','itibariyle','kaç','kadar','karşın','kendi','kendilerine','kendine','kendini','kendisi','kendisine','kendisini','kez','ki','kim','kime','kimi','kimin','kimisi','kimse','kırk','madem','mi','mı','milyar','milyon','mu','mü','nasıl','ne','neden','nedenle','nerde','nerede','nereye','neyse','niçin','nin','nın','niye','nun','nün','o','öbür','olan','olarak','oldu','olduğu','olduğunu','olduklarını','olmadı','olmadığı','olmak','olması','olmayan','olmaz','olsa','olsun','olup','olur','olur','olursa','oluyor','on','ön','ona','önce','ondan','onlar','onlara','onlardan','onları','onların','onu','onun','orada','öte','ötürü','otuz','öyle','oysa','pek','rağmen','sana','sanki','sanki','şayet','şekilde','sekiz','seksen','sen','senden','seni','senin','şey','şeyden','şeye','şeyi','şeyler','şimdi','siz','siz','sizden','sizden','size','sizi','sizi','sizin','sizin','sonra','şöyle','şu','şuna','şunları','şunu','ta','tabii','tam','tamam','tamamen','tarafından','trilyon','tüm','tümü','u','ü','üç','un','ün','üzere','var','vardı','ve','veya','ya','yani','yapacak','yapılan','yapılması','yapıyor','yapmak','yaptı','yaptığı','yaptığını','yaptıkları','ye','yedi','yerine','yetmiş','yi','yı','yine','yirmi','yoksa','yu','yüz','zaten','zira']
+    File.readlines('tr_stopwords_dict').each(&:chomp!)
   end
 end

data/lib/cloud_text/version.rb CHANGED Viewed

@@ -1,3 +1,10 @@
+# frozen_string_literal: true
 module CloudText
-  VERSION = "0.1.0"
+  MAJOR = 0
+  MINOR = 1
+  TINY  = 1
+  # PRE   = nil
+  VERSION = [MAJOR, MINOR, TINY].compact.join('.')
 end

data/lib/tr_stopwords_dict ADDED Viewed

@@ -0,0 +1,283 @@
+a
+acaba
+altı
+altmış
+ama
+ancak
+arada
+artık
+asla
+aslında
+aslında
+ayrıca
+az
+bana
+bazen
+bazı
+bazıları
+belki
+ben
+benden
+beni
+benim
+beri
+beş
+bile
+bilhassa
+bin
+bir
+biraz
+birçoğu
+birçok
+biri
+birisi
+birkaç
+birşey
+biz
+bizden
+bize
+bizi
+bizim
+böyle
+böylece
+bu
+buna
+bunda
+bundan
+bunlar
+bunları
+bunların
+bunu
+bunun
+burada
+bütün
+çoğu
+çoğunu
+çok
+çünkü
+da
+daha
+dahi
+dan
+de
+defa
+değil
+diğer
+diğeri
+diğerleri
+diye
+doksan
+dokuz
+dolayı
+dolayısıyla
+dört
+e
+edecek
+eden
+ederek
+edilecek
+ediliyor
+edilmesi
+ediyor
+eğer
+elbette
+elli
+en
+etmesi
+etti
+ettiği
+ettiğini
+fakat
+falan
+filan
+gene
+gereği
+gerek
+gibi
+göre
+hala
+halde
+halen
+hangi
+hangisi
+hani
+hatta
+hem
+henüz
+hep
+hepsi
+her
+herhangi
+herkes
+herkese
+herkesi
+herkesin
+hiç
+hiçbir
+hiçbiri
+i
+ı
+için
+içinde
+iki
+ile
+ise
+işte
+itibaren
+itibariyle
+kaç
+kadar
+karşın
+kendi
+kendilerine
+kendine
+kendini
+kendisi
+kendisine
+kendisini
+kez
+ki
+kim
+kime
+kimi
+kimin
+kimisi
+kimse
+kırk
+madem
+mi
+mı
+milyar
+milyon
+mu
+mü
+nasıl
+ne
+neden
+nedenle
+nerde
+nerede
+nereye
+neyse
+niçin
+nin
+nın
+niye
+nun
+nün
+o
+öbür
+olan
+olarak
+oldu
+olduğu
+olduğunu
+olduklarını
+olmadı
+olmadığı
+olmak
+olması
+olmayan
+olmaz
+olsa
+olsun
+olup
+olur
+olur
+olursa
+oluyor
+on
+ön
+ona
+önce
+ondan
+onlar
+onlara
+onlardan
+onları
+onların
+onu
+onun
+orada
+öte
+ötürü
+otuz
+öyle
+oysa
+pek
+rağmen
+sana
+sanki
+sanki
+şayet
+şekilde
+sekiz
+seksen
+sen
+senden
+seni
+senin
+şey
+şeyden
+şeye
+şeyi
+şeyler
+şimdi
+siz
+siz
+sizden
+sizden
+size
+sizi
+sizi
+sizin
+sizin
+sonra
+şöyle
+şu
+şuna
+şunları
+şunu
+ta
+tabii
+tam
+tamam
+tamamen
+tarafından
+trilyon
+tüm
+tümü
+u
+ü
+üç
+un
+ün
+üzere
+var
+vardı
+ve
+veya
+ya
+yani
+yapacak
+yapılan
+yapılması
+yapıyor
+yapmak
+yaptı
+yaptığı
+yaptığını
+yaptıkları
+ye
+yedi
+yerine
+yetmiş
+yi
+yı
+yine
+yirmi
+yoksa
+yu
+yüz
+zaten
+zira

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: cloud_text
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.1.1
 platform: ruby
 authors:
 - recepinanc
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2017-12-30 00:00:00.000000000 Z
+date: 2018-03-12 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -52,6 +52,48 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '3.0'
+- !ruby/object:Gem::Dependency
+  name: unicode_utils
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.4'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '1.4'
+- !ruby/object:Gem::Dependency
+  name: stopwords-filter
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.4.1
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.4.1
+- !ruby/object:Gem::Dependency
+  name: ruby-stemmer
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.9.6
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: 0.9.6
 description: This gem removes punctuation and digits(optional), filters stopwords
   for the chosen language ('tr', 'en' or 'fr'), does stemming on the words and outputs
   an array of words with their frequencies.
@@ -66,6 +108,7 @@ files:
 - ".travis.yml"
 - CODE_OF_CONDUCT.md
 - Gemfile
+- Gemfile.lock
 - LICENSE
 - README.md
 - Rakefile
@@ -74,7 +117,7 @@ files:
 - cloud_text.gemspec
 - lib/cloud_text.rb
 - lib/cloud_text/version.rb
-- lib/tr_stopwords.txt
+- lib/tr_stopwords_dict
 homepage: https://github.com/twentify/cloud_text
 licenses:
 - MIT
@@ -95,7 +138,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.6.8
+rubygems_version: 2.5.2
 signing_key:
 specification_version: 4
 summary: Cleans the given text for the given language.

data/lib/tr_stopwords.txt DELETED Viewed

@@ -1 +0,0 @@

- ['a','acaba','altı','altmış','ama','ancak','arada','artık','asla','aslında','aslında','ayrıca','az','bana','bazen','bazı','bazıları','belki','ben','benden','beni','benim','beri','beş','bile','bilhassa','bin','bir','biraz','birçoğu','birçok','biri','birisi','birkaç','birşey','biz','bizden','bize','bizi','bizim','böyle','böylece','bu','buna','bunda','bundan','bunlar','bunları','bunların','bunu','bunun','burada','bütün','çoğu','çoğunu','çok','çünkü','da','daha','dahi','dan','de','defa','değil','diğer','diğeri','diğerleri','diye','doksan','dokuz','dolayı','dolayısıyla','dört','e','edecek','eden','ederek','edilecek','ediliyor','edilmesi','ediyor','eğer','elbette','elli','en','etmesi','etti','ettiği','ettiğini','fakat','falan','filan','gene','gereği','gerek','gibi','göre','hala','halde','halen','hangi','hangisi','hani','hatta','hem','henüz','hep','hepsi','her','herhangi','herkes','herkese','herkesi','herkesin','hiç','hiçbir','hiçbiri','i','ı','için','içinde','iki','ile','ise','işte','itibaren','itibariyle','kaç','kadar','karşın','kendi','kendilerine','kendine','kendini','kendisi','kendisine','kendisini','kez','ki','kim','kime','kimi','kimin','kimisi','kimse','kırk','madem','mi','mı','milyar','milyon','mu','mü','nasıl','ne','neden','nedenle','nerde','nerede','nereye','neyse','niçin','nin','nın','niye','nun','nün','o','öbür','olan','olarak','oldu','olduğu','olduğunu','olduklarını','olmadı','olmadığı','olmak','olması','olmayan','olmaz','olsa','olsun','olup','olur','olur','olursa','oluyor','on','ön','ona','önce','ondan','onlar','onlara','onlardan','onları','onların','onu','onun','orada','öte','ötürü','otuz','öyle','oysa','pek','rağmen','sana','sanki','sanki','şayet','şekilde','sekiz','seksen','sen','senden','seni','senin','şey','şeyden','şeye','şeyi','şeyler','şimdi','siz','siz','sizden','sizden','size','sizi','sizi','sizin','sizin','sonra','şöyle','şu','şuna','şunları','şunu','ta','tabii','tam','tamam','tamamen','tarafından','trilyon','tüm','tümü','u','ü','üç','un','ün','üzere','var','vardı','ve','veya','ya','yani','yapacak','yapılan','yapılması','yapıyor','yapmak','yaptı','yaptığı','yaptığını','yaptıkları','ye','yedi','yerine','yetmiş','yi','yı','yine','yirmi','yoksa','yu','yüz','zaten',zira]