RubyGems - persian - Versions diffs - 0.2.1 → 0.2.2 - Mend

persian 0.2.1 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

checksums.yaml +5 -5
data/.rubocop.yml +3 -0
data/lib/persian/list/homonyms.rb +59 -0
data/lib/persian/text/text.rb +24 -7
data/lib/persian/tokenizer.rb +14 -0
data/lib/persian/url.rb +2 -2
data/lib/persian/version.rb +1 -1
data/lib/persian.rb +1 -0
data/persian.gemspec +2 -2
data/readme.md +22 -21
data/spec/text_spec.rb +22 -0
data/spec/tokenizer_spec.rb +8 -0
metadata +5 -5

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
-SHA1:
-  metadata.gz: 19996fd038d9500710629966a4f1d8376fccf274
-  data.tar.gz: b2dfff05e57dbb3cb3cb313a5c2431b90a688fb0
+SHA256:
+  metadata.gz: ad07e72f8e952adecef3078d3132de48372e936682eaf67dfc77745d863d24d5
+  data.tar.gz: 618f5b540864a034b4fc5bae2865a1c6de8f0fff50fb12eb1c28e4a506062d06
 SHA512:
-  metadata.gz: b3d326f07258d4fc731220fc411a58c50a74f128178bf39b9389ba87a448e032986ac44996d1e1425bdd809589ec9aee9ddb6949b64ddd8cb8a7e965d84aa7eb
-  data.tar.gz: 470411b5ae7d07d45f7a685a79c237c78e3294a59dfe785f539ef9fdba5ce5e4e784a0546c47dae8e3bf4d6e2773e3d38f64990d6ace98761a82f66f4a5ca917
+  metadata.gz: 5dd769632abf8da06746802aedbcfc83a3bb49edfec68364f068c476454469b38ba8e91a0ea721026202d025714a88ee4a969d76ea928f88b0a48af134cb6f71
+  data.tar.gz: ad6bea9eee317516acfe91241137896f474877531ef34c4b69fe1e297b7ca346757e88b9baf7e67dc16b01b9ddc86994900ae1b442ac2325cf59cc909c955c9b

data/.rubocop.yml CHANGED Viewed

@@ -27,3 +27,6 @@ Style/AsciiComments:
 Style/MethodMissing:
   Enabled: false
+Style/ConstantName:
+  Enabled: false

data/lib/persian/list/homonyms.rb ADDED Viewed

@@ -0,0 +1,59 @@
+module Persian
+  # Homonyms of persian
+  module Homonyms
+    include Alphabet
+    T = [
+      TE,
+      TA
+    ].freeze
+    S = [
+      THE,
+      SIN,
+      SAD
+    ].freeze
+    H = [
+      HE_JIMI,
+      HE_DOCHESHM
+    ].freeze
+    Z = [
+      ZAL,
+      ZE,
+      ZA,
+      ZAD
+    ].freeze
+    GH = [
+      GHEIN,
+      QAF
+    ].freeze
+    # List of all Homonyms classified in a hash
+    ALL = {
+      T: T,
+      S: S,
+      H: H,
+      Z: Z,
+      GH: GH
+    }.freeze
+    # List of all Homonyms bulk in array
+    ALL_a = [
+      T, S, H, Z, GH
+    ].flatten.freeze
+    # Hash reverse list of Homonyms
+    temp = {}
+    ALL.each do |key, value|
+      value.each do |i|
+        temp[i.to_s] = key
+      end
+    end
+    ALL_r = temp.freeze
+  end
+end

data/lib/persian/text/text.rb CHANGED Viewed

@@ -20,29 +20,35 @@ module Persian
     # Remove Arabic harecats from text
     def self.remove_harekats(text)
-      HAREKATS.each { |v| text.gsub!(v, '') }
+      HAREKATS.each { |v| text = text.gsub(v, '') }
       text
     end
     # Remove All barckets
     def self.remove_brackets(text)
-      BRACKETS.each { |v| text.gsub!(v, '') }
+      BRACKETS.each { |v| text = text.gsub(v, '') }
       text
     end
     # Remove Persian signs
     def self.remove_signs(text, with = '')
-      SIGNS.each { |v| text.gsub!(v, with) }
+      return '' if text.nil?
+      SIGNS.each { |v| text = text.gsub(v, with) }
+      text
+    end
+    def self.replace_zwnj_with_space(text)
+      text = text.gsub(/(‌)/, ' ')
       text
     end
     # Replace general brackets with one type brackets
     # Default: 	0xAB & 	0xBB
     def self.general_brackets(text, left = '«', right = '»')
-      text.gsub!(/"(.*?)"/, left + '\1' + right)
-      text.gsub!(/\[(.*?)\]/, left + '\1' + right)
-      text.gsub!(/\{(.*?)\}/, left + '\1' + right)
-      text.gsub!(/\((.*?)\)/, left + '\1' + right)
+      text = text.gsub(/"(.*?)"/, left + '\1' + right)
+      text = text.gsub(/\[(.*?)\]/, left + '\1' + right)
+      text = text.gsub(/\{(.*?)\}/, left + '\1' + right)
+      text = text.gsub(/\((.*?)\)/, left + '\1' + right)
       text
     end
@@ -193,5 +199,16 @@ module Persian
       text.gsub!(/(\.)(\S)/, '\1 \2')
       text
     end
+    def self.squeeze(text)
+      text.squeeze
+    end
+    # Remove specific character from end of text
+    # EXample: remove_postfix('پسره','ه')
+    def self.remove_postfix(text, postfix)
+      text.chomp!(postfix)
+      text
+    end
   end
 end

data/lib/persian/tokenizer.rb CHANGED Viewed

@@ -32,6 +32,20 @@ module Persian
       tokens.flatten
     end
+    def self.tokenize_more(text, num)
+      list = tokenize(text)
+      tokens = []
+      0.upto list.size - num do |i|
+        token = ''
+        0.upto num - 1 do |j|
+          token += list[i + j] + ' '
+        end
+        tokens.push token.strip
+      end
+      tokens
+    end
     # Split paragraphs
     # Return an array of paragraphs
     def self.split_paragraphs(text)

data/lib/persian/url.rb CHANGED Viewed

@@ -10,7 +10,7 @@ module Persian
       # remove harekats
       text = Text.remove_harekats(text)
       # remove slash and backslash
-      text.gsub!(%r{(\/||\\)}, '')
+      text = text.gsub(%r{(\/||\\)}, '')
       # remove signs
       text = Text.remove_signs(text, ' ')
       # Remove extra spaces
@@ -18,7 +18,7 @@ module Persian
       # trim spaces from start and end of text
       text = text.strip
       # replace space with dash
-      text.gsub!(/\s/, '-')
+      text = text.gsub(/\s/, '-')
       text
     end
   end

data/lib/persian/version.rb CHANGED Viewed

@@ -2,5 +2,5 @@
 # Persian module
 module Persian
-  VERSION = '0.2.1'.freeze
+  VERSION = '0.2.2'.freeze
 end

data/lib/persian.rb CHANGED Viewed

@@ -4,6 +4,7 @@
 require 'persian/list/alphabet'
 require 'persian/list/number'
 require 'persian/list/character'
+require 'persian/list/homonyms'
 # classes
 require 'persian/number'

data/persian.gemspec CHANGED Viewed

@@ -8,7 +8,7 @@ require 'persian/version'
 Gem::Specification.new do |s|
   s.name        = 'persian'
   s.version     = Persian::VERSION
-  s.date        = '2016-11-16'
+  s.date        = '2022-03-25'
   s.summary     = 'Persian language for ruby.'
   s.description = 'A set of utilities for Persian language.'
   s.authors     = ['Dariush Abbasi']
@@ -19,7 +19,7 @@ Gem::Specification.new do |s|
     `git ls-files -- bin/*`.split("\n").map { |f| File.basename(f) }
   s.require_paths = ['lib']
   s.homepage      =
-    'http://github.com/negah/persian'
+    'http://github.com/dariubs/persian.rb'
   s.license       = 'MIT'
   s.add_development_dependency 'rspec', '3.4'

data/readme.md CHANGED Viewed

@@ -1,27 +1,28 @@
 <p align="center">
     <img src="https://upload.wikimedia.org/wikipedia/commons/a/a2/Farsi.svg"
-         height="130" alt="Persian">
-</p>
-<p align="center">
-    <a href="https://travis-ci.org/negah/persian">
-        <img src="https://travis-ci.org/negah/persian.svg?branch=master"
-             alt="Build Status">
-    </a>
-    <a href="https://rubygems.org/gems/persian">
-        <img src="https://img.shields.io/badge/gem-persian-orange.svg"
-             alt="Ruby Gems">
-    </a>
-    <a href="https://rubygems.org/gems/persian">
-        <img src="https://img.shields.io/gem/dv/persian/stable.svg?maxAge=2592000"
-             alt="Ruby Gems downloads">
-    </a>
-    <a href="https://codeclimate.com/github/negah/persian">
-        <img src="https://codeclimate.com/github/negah/persian/badges/gpa.svg"
-             alt="Code Climate">
-    </a>
+         height="130" alt="Persian ruby gem">
 </p>
+<a href="https://travis-ci.org/negah/persian">
+    <img src="https://travis-ci.org/negah/persian.svg?branch=master"
+            alt="Build Status">
+</a>
+<a href="https://rubygems.org/gems/persian">
+    <img src="https://img.shields.io/badge/gem-persian-orange.svg"
+            alt="Ruby Gems">
+</a>
+<a href="https://rubygems.org/gems/persian">
+    <img src="https://img.shields.io/gem/dv/persian/stable.svg?maxAge=2592000"
+            alt="Ruby Gems downloads">
+</a>
+<a href="https://codeclimate.com/github/negah/persian">
+    <img src="https://codeclimate.com/github/negah/persian/badges/gpa.svg"
+            alt="Code Climate">
+</a>
 <p align="center"><sup><strong> Ruby gem for working with Persian text. </strong></sup></p>

data/spec/text_spec.rb CHANGED Viewed

@@ -33,6 +33,13 @@ describe 'persian character methods' do
     expect(Persian::Text.remove_signs(before)).to eq(after)
   end
+  it 'should replace all zwnjs with space ' do
+    before = 'من‌در‌نیم‌فاصله‌ات‌اسیرم'
+    after = 'من در نیم فاصله ات اسیرم'
+    expect(Persian::Text.replace_zwnj_with_space(before)).to eq(after)
+  end
   it 'should replace [ & ], { & }, ( & ), " & " with « & »' do
     before_first = 'اگر اراده ای نباشد عشقی نیست. "گاندی"'
     after_first = 'اگر اراده ای نباشد عشقی نیست. «گاندی»'
@@ -233,4 +240,19 @@ describe 'persian character methods' do
     after = 'سلام. اسپیس کو؟'
     expect(Persian::Text.space_after_dot(text)).to eq(after)
   end
+  it 'should remove all repeated characters from text' do
+    text = 'سلااااااام.چی میکنییی؟؟؟؟؟'
+    after = 'سلام.چی میکنی؟'
+    expect(Persian::Text.squeeze(text)).to eq(after)
+  end
+  it 'should remove text postfix' do
+    text = 'پسره'
+    postfix = 'ه'
+    result = 'پسر'
+    expect(Persian::Text.remove_postfix(text, postfix)).to eq(result)
+  end
 end

data/spec/tokenizer_spec.rb CHANGED Viewed

@@ -10,6 +10,14 @@ describe 'persian tokenizers' do
     expect(Persian::Tokenizer.tokenize(before)).to eq(after)
   end
+  it 'should tokenize as a serie' do
+    text = 'سلام من به تو یار قدیمی'
+    parts = 3
+    result = ['سلام من به', 'من به تو', 'به تو یار', 'تو یار قدیمی']
+    expect(Persian::Tokenizer.tokenize_more(text, parts)).to eq(result)
+  end
   it 'should split paragraphs' do
     text = "
 یوهانس برامس در سال ۱۸۳۳ در شهر هامبورگ آلمان در خانواده‌ای فقیر به دنیا آمد. تحصیلات ابتدایی موسیقی را نزد پدرش که نوازنده کنترباس بود فرا گرفت.

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: persian
 version: !ruby/object:Gem::Version
-  version: 0.2.1
+  version: 0.2.2
 platform: ruby
 authors:
 - Dariush Abbasi
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-11-16 00:00:00.000000000 Z
+date: 2022-03-25 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rspec
@@ -43,6 +43,7 @@ files:
 - lib/persian/dynamic.rb
 - lib/persian/list/alphabet.rb
 - lib/persian/list/character.rb
+- lib/persian/list/homonyms.rb
 - lib/persian/list/number.rb
 - lib/persian/num_text.rb
 - lib/persian/number.rb
@@ -63,7 +64,7 @@ files:
 - spec/tokenizer_spec.rb
 - spec/unicode_spec.rb
 - spec/url_spec.rb
-homepage: http://github.com/negah/persian
+homepage: http://github.com/dariubs/persian.rb
 licenses:
 - MIT
 metadata: {}
@@ -82,8 +83,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubyforge_project:
-rubygems_version: 2.5.1
+rubygems_version: 3.2.5
 signing_key:
 specification_version: 4
 summary: Persian language for ruby.