RubyGems - scylla - Versions diffs - 0.8.0 → 0.8.29 - Mend

scylla 0.8.0 → 0.8.29

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (93) hide show

data/Gemfile +4 -0
data/Gemfile.lock +9 -1
data/lib/scylla/generator.rb +46 -13
data/lib/scylla/lms/afrikaans.lm +400 -400
data/lib/scylla/lms/arabic.lm +400 -400
data/lib/scylla/lms/bulgarian.lm +400 -400
data/lib/scylla/lms/catalan.lm +399 -399
data/lib/scylla/lms/chinese.lm +400 -400
data/lib/scylla/lms/czech.lm +400 -0
data/lib/scylla/lms/danish.lm +396 -396
data/lib/scylla/lms/dutch.lm +400 -0
data/lib/scylla/lms/english.lm +400 -400
data/lib/scylla/lms/finnish.lm +400 -400
data/lib/scylla/lms/french.lm +398 -398
data/lib/scylla/lms/german.lm +400 -400
data/lib/scylla/lms/greek.lm +400 -400
data/lib/scylla/lms/hebrew.lm +399 -399
data/lib/scylla/lms/hindi.lm +400 -400
data/lib/scylla/lms/icelandic.lm +399 -399
data/lib/scylla/lms/indonesian.lm +400 -400
data/lib/scylla/lms/italian.lm +400 -400
data/lib/scylla/lms/japanese.lm +399 -399
data/lib/scylla/lms/kannada.lm +400 -0
data/lib/scylla/lms/korean.lm +400 -400
data/lib/scylla/lms/marathi.lm +400 -0
data/lib/scylla/lms/norwegian.lm +400 -400
data/lib/scylla/lms/persian.lm +400 -0
data/lib/scylla/lms/polish.lm +400 -400
data/lib/scylla/lms/portuguese.lm +400 -400
data/lib/scylla/lms/romanian.lm +400 -400
data/lib/scylla/lms/russian.lm +400 -400
data/lib/scylla/lms/slovak.lm +400 -400
data/lib/scylla/lms/slovenian.lm +387 -387
data/lib/scylla/lms/spanish.lm +400 -400
data/lib/scylla/lms/swedish.lm +399 -399
data/lib/scylla/lms/tagalog.lm +400 -400
data/lib/scylla/lms/thai.lm +400 -400
data/lib/scylla/lms/turkish.lm +400 -400
data/lib/scylla/lms/vietnamese.lm +400 -400
data/lib/scylla/lms/welsh.lm +398 -398
data/lib/scylla/resources.rb +43 -33
data/lib/scylla/string.rb +2 -2
data/lib/scylla.rb +0 -4
data/pkg/scylla-0.5.0.gem +0 -0
data/scylla.gemspec +1 -1
data/source_texts/afrikaans.txt +330 -81
data/source_texts/arabic.txt +590 -448
data/source_texts/bulgarian.txt +588 -821
data/source_texts/catalan.txt +435 -413
data/source_texts/chinese.txt +526 -100
data/source_texts/czech.txt +237 -0
data/source_texts/danish.txt +233 -184
data/source_texts/dutch.txt +503 -0
data/source_texts/english.txt +673 -70
data/source_texts/finnish.txt +939 -71
data/source_texts/french.txt +879 -465
data/source_texts/german.txt +1236 -137
data/source_texts/greek.txt +488 -139
data/source_texts/hebrew.txt +539 -100
data/source_texts/hindi.txt +254 -100
data/source_texts/icelandic.txt +301 -90
data/source_texts/indonesian.txt +509 -93
data/source_texts/italian.txt +1066 -120
data/source_texts/japanese.txt +1217 -450
data/source_texts/kannada.txt +340 -0
data/source_texts/korean.txt +343 -219
data/source_texts/marathi.txt +237 -0
data/source_texts/norwegian.txt +555 -190
data/source_texts/persian.txt +886 -0
data/source_texts/polish.txt +1013 -90
data/source_texts/portuguese.txt +690 -88
data/source_texts/romanian.txt +436 -103
data/source_texts/russian.txt +1029 -100
data/source_texts/slovak.txt +575 -102
data/source_texts/slovenian.txt +353 -99
data/source_texts/spanish.txt +858 -675
data/source_texts/swedish.txt +558 -488
data/source_texts/tagalog.txt +391 -100
data/source_texts/thai.txt +286 -60
data/source_texts/turkish.txt +635 -87
data/source_texts/vietnamese.txt +300 -92
data/source_texts/welsh.txt +288 -104
data/test/fixtures/lms/danish.lm +314 -314
data/test/fixtures/lms/english.lm +301 -301
data/test/fixtures/lms/french.lm +326 -326
data/test/fixtures/lms/german.lm +331 -331
data/test/fixtures/lms/hindi.lm +191 -191
data/test/fixtures/lms/italian.lm +299 -299
data/test/fixtures/lms/japanese.lm +103 -103
data/test/fixtures/lms/norwegian.lm +309 -309
data/test/fixtures/lms/spanish.lm +331 -331
data/test/generator_test.rb +2 -2
metadata +14 -3

data/Gemfile CHANGED Viewed

@@ -10,6 +10,10 @@ group :development do
   gem "jeweler", "~> 1.6.4"
   gem "mail"
   gem "sanitize"
+  gem "character-encodings"
+  gem "wikipedia-client"
+  gem "json"
+  gem "unicode"
 end
 group :test do

data/Gemfile.lock CHANGED Viewed

@@ -1,6 +1,7 @@
 GEM
   remote: http://rubygems.org/
   specs:
+    character-encodings (0.4.1)
     columnize (0.3.4)
     git (1.2.5)
     i18n (0.6.0)
@@ -8,6 +9,7 @@ GEM
       bundler (~> 1.0)
       git (>= 1.2.5)
       rake
+    json (1.6.3)
     linecache (0.46)
       rbx-require-relative (> 0.0.4)
     mail (2.3.0)
@@ -18,7 +20,7 @@ GEM
     mocha (0.9.12)
     nokogiri (1.4.7)
     polyglot (0.3.2)
-    rake (0.9.2)
+    rake (0.9.2.2)
     rbx-require-relative (0.0.5)
     ruby-debug (0.10.4)
       columnize (>= 0.1)
@@ -31,15 +33,21 @@ GEM
     treetop (1.4.10)
       polyglot
       polyglot (>= 0.3.1)
+    unicode (0.4.0)
+    wikipedia-client (1.0.0)
 PLATFORMS
   ruby
 DEPENDENCIES
   bundler (~> 1.0.0)
+  character-encodings
   jeweler (~> 1.6.4)
+  json
   mail
   mocha
   ruby-debug (~> 0.10.4)
   sanitize
   shoulda
+  unicode
+  wikipedia-client

data/lib/scylla/generator.rb CHANGED Viewed

@@ -1,16 +1,19 @@
 require 'sanitize'
 require 'cgi'
+require 'wikipedia'
+require 'unicode'
 module Scylla
   class Generator
-    attr_accessor :dirtext, :dirlm, :minsize
+    attr_accessor :dirtext, :dirlm, :minsize, :delimiter
     # dirtext: The location of the source training text files
     # minsize: The minimum size of the ngrams that you would like to store
-    def initialize(dirtext = DEFAULT_SOURCE_DIR, dirlm = DEFAULT_TARGET_DIR, minsize = 0, silent = false)
+    def initialize(dirtext = DEFAULT_SOURCE_DIR, dirlm = DEFAULT_TARGET_DIR, minsize = 0, silent = false, delimiter = "[[classifier_delimiter]]")
       @dirtext = dirtext
       @dirlm   = dirlm
       @minsize = minsize
+      @delimiter = delimiter
     end
     # Loads all the .txt files in the specified source training text folder
@@ -18,21 +21,47 @@ module Scylla
     # lib/scylla/lms as .lm files
     def train
       languages = Dir.glob(@dirlm + "/*.lm")
-      textpaths = Dir.glob(@dirtext + "/*.txt")
       languages.each {|l| File.delete(l) }
-      textpaths.each do |path|
-        write_lm(path)
+      locales = Scylla::Resources.locales
+      locales.each do |key, value|
+        path = File.join(@dirtext, "#{key}.txt")
+        text = ""
+        File.open(path).each { |line| text += " " + line }
+        write_lm(text, key)
       end
     end
+    def get_wikis
+      locales = Scylla::Resources.locales
+      locales.each do |key, value|
+        text = get_wiki(value[0],value[1])
+        textname = File.join(@dirtext, "#{key}.txt")
+        File.delete(textname) if File.exists?(textname)
+        File.open(textname, 'w') { |f| f.write(text) }
+      end
+    end
+    def get_wiki(locale,article)
+      Wikipedia.Configure {
+        domain "#{locale}.wikipedia.org"
+        path   'w/api.php'
+      }
+      p article
+      page = Wikipedia.find( article )
+      value = page.content.gsub(/\{\{(.*?)\}\}/,"")
+      value = value.gsub(/\[\[(.+?)\]\]/m,"")
+      value = value.gsub(/\{\{(.+?)\}\}/m,"")
+      value = value.gsub(/\{(.+?)\}/m,"")
+      value = value.gsub(/\[(.+?)\]/m,"")
+      Sanitize.clean(value)
+    end
     # Reads a single text file specified by a path and writes a .lm file in
     # lib/scylla/lms
-    def write_lm(path)
-      text = ""
-      File.open(path).each { |line| text += " " + line }
-      p "Creating language map for " + path
+    def write_lm(text, language)
+      p "Creating language map for #{language}"
       lm = create_lm(text, true)
-      lmname = File.join(@dirlm, File.basename(path, ".txt") + ".lm")
+      lmname = File.join(@dirlm, "#{language}.lm")
       File.delete(lmname) if File.exists?(lmname)
       File.open(lmname, 'w') do |f|
         i = 0
@@ -45,11 +74,13 @@ module Scylla
     end
     def clean(string)
+      delimit = string.index(@delimiter)
+      string = string[0, delimit] if delimit
       string = Sanitize.clean(string)
       string = CGI.unescapeHTML(string)
       string.gsub!(/(?:http|https):\/\/[a-z0-9]+(?:[\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(?:(?::[0-9]{1,5})?\/[^\s]*)?/, "")
-      string.gsub!(/[\*\^><!\"#\$%&\'\(\)\*\+:;=\?@\{\}\[\]|\-\n\r0-9]/," ")
-      string.strip.split(" ").join(" ")
+      string.gsub!(/[\*\^><!\"#\$%&\'\(\)\*\+:;,._\/=\?@\{\}\[\]|\-\n\r0-9]/," ")
+      Unicode::downcase(string.strip.split(" ").join(" "))
     end
     # Creates a language map for a given input string.
@@ -57,12 +88,14 @@ module Scylla
     # return the freqencies of the ngrams, or simply an array in sorted order
     def create_lm(input, frequencies = false)
       input = clean(input)
+      debugger
       ngram = Hash.new
       input.split(/[\d\s\[\]]/).each do |word|
         word = "_" + word + "_";
         len = word.size
         for i in 0..word.size
-          (1..5).each do |j|
+          for j in (1..3)
+            next unless word[i,j]
             ngram[word[i,j]] ||= 0
             ngram[word[i,j]] += 1 if (len > (j - 1))
           end