RubyGems - markov_words - Versions diffs - 2.0.1 → 2.0.2 - Mend

markov_words 2.0.1 → 2.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 962d1783383aa1d75e121e932a2d1dbde2ef487a
-  data.tar.gz: 677c629d528e959762d13b88073ed4a246d9a449
+  metadata.gz: f4c5006ece0a2f2eb6e4f30ac865ef48ba18ed80
+  data.tar.gz: dea0a20dc2d7f05f38f55821c7e88ad254aa5470
 SHA512:
-  metadata.gz: 6dcbc277e2fdb99a202935e5f76fd607064cd89d9bf15b8a99959e1d8c27214620ef9ead098629cf02d79d9d977e588dbb090d589289dce5997a414a7516e703
-  data.tar.gz: 60d870efaefdd70579e46c6984412ad2bc2bf20d326ac8f32b10d0b4a5037d9771306452347774fc1b28b4e738dfa6a6ca2ec5eb7b0604c44de610cbbbe6a5cb
+  metadata.gz: 1c6f73c9a170deae7f904635eb326b71effa6ed6f0a45da190f8b5e9009606956efd686e3de16f69ce0e5e9c4a4def2774d5b52186d2fbc0df48ca83de343584
+  data.tar.gz: 35edfedcbaa4501ab892def54cc213e641195c6bd4c7c7e52d3044bb8f2c7772a0439289958461f92c310c5760f8f3ba78ba7472a7daf3b4d95c5359df59b8f5

data/Gemfile.lock CHANGED Viewed

@@ -1,7 +1,7 @@
 PATH
   remote: .
   specs:
-    markov_words (2.0.1)
+    markov_words (2.0.2)
       sqlite3 (~> 1.3)
 GEM

data/bin/benchmark CHANGED Viewed

@@ -5,80 +5,84 @@ require 'benchmark'
 require 'bundler/setup'
 require 'markov_words'
-# Utility class to generate benchmarks for MarkovWords
-class GeneratorBenchmark
-  LABEL_WIDTH = 7
-  def run
-    test_if_desired 'initial database creation time versus gram size' do
-      Benchmark.bm(LABEL_WIDTH) do |x|
-        @min_gram_size.upto(@max_gram_size) do |size|
-          generator =
-            MarkovWords::Generator.new(flush_data: true,
-                                       gram_size: size,
-                                       corpus_file: @corpus_file)
-          x.report("size: #{size}") { generator.word }
-        end
-      end
-    end
+if ARGV.empty?
+  puts 'USAGE: bin/benchmark min_gram_size max_gram_size corpus_file'
+  puts 'EXAMPLE: bin/benchmark 2 6 /usr/share/dict/words'
+end
-    test_if_desired 'existing database on disk, initial memory load' do
-      Benchmark.bm(LABEL_WIDTH) do |x|
-        @min_gram_size.upto(@max_gram_size) do |size|
-          generator =
-            MarkovWords::Generator.new(flush_data: true,
-                                       gram_size: size,
-                                       corpus_file: @corpus_file)
-          _word = generator.word # this will run initial setup
-          generator_load_data_from_file =
-            MarkovWords::Generator.new(gram_size: size,
-                                       corpus_file: @corpus_file)
-          x.report("size: #{size}") { generator_load_data_from_file.word }
-        end
-      end
-    end
+@min_gram_size = ARGV[0].to_i || 1
+@max_gram_size = ARGV[1].to_i || 6
+@corpus_file = ARGV[2] || '/usr/share/dict/words'
+@label_width = 7
-    test_if_desired 'word generation averages for 100 words per gram size' do
-      Benchmark.bm(LABEL_WIDTH) do |x|
+puts "Minimum n-gram size set to #{@min_gram_size}"
+puts "Maximum n-gram size set to #{@max_gram_size}"
+puts "Corpus file set to #{@corpus_file}"
+def print_separator
+  printf "%s\n", Array.new(70).map { '-' }.join
+end
+def test_if_desired(description, **opts)
+  printf "\n%s", "Test #{description}? (y/n) "
+  if /y/.match?($stdin.readline)
+    print_separator
+    if opts.fetch :benchmark, true
+      Benchmark.bm(@label_width) do |report|
         @min_gram_size.upto(@max_gram_size) do |size|
-          generator =
-            MarkovWords::Generator.new(flush_data: true,
-                                       gram_size: size,
-                                       perform_caching: false,
-                                       corpus_file: @corpus_file)
-          _word = generator.word # this will run initial setup
-          x.report("size: #{size}") { 1.upto(100) { generator.word } }
+          yield(report, size) if block_given?
         end
       end
+    else
+      @min_gram_size.upto(@max_gram_size) do |size|
+        yield(size) if block_given?
+      end
     end
+    print_separator
   end
+end
-  def initialize(opts)
-    @min_gram_size = opts.fetch :min_gram_size, 1
-    @max_gram_size = opts.fetch :max_gram_size, 6
-    @corpus_file = opts.fetch :corpus_file, '/usr/share/dict/words'
-    puts "Minimum n-gram size set to #{@min_gram_size}"
-    puts "Maximum n-gram size set to #{@max_gram_size}"
-    puts "Corpus file set to #{@corpus_file}"
-  end
+def new_generator(**opts)
+  opts = {
+    flush_data: true,
+    corpus_file: @corpus_file
+  }.merge(opts)
-  def print_separator
-    printf "%s\n", Array.new(60).map { '-' }.join
-  end
+  generator = MarkovWords::Generator.new(opts)
+  _word = generator.word if opts.fetch(:pre_seed, false)
-  def test_if_desired(description, &block)
-    printf "\n%s", "Test #{description}? (y/n) "
-    if /y/.match?($stdin.readline)
-      print_separator
-      yield(block)
-      print_separator
-    end
-  end
+  generator
 end
-if ARGV.empty?
-  puts "USAGE: bin/benchmark min_gram_size max_gram_size corpus_file\n"
+report_name = 'initial database creation time versus gram size'
+test_if_desired report_name do |report, size|
+  generator = new_generator(gram_size: size)
+  report.report("size: #{size}") { generator.word }
+end
+report_name = 'existing database on disk, initial memory load'
+test_if_desired report_name do |report, size|
+  new_generator(pre_seed: true, gram_size: size)
+  generator_existing_db = new_generator(flush_data: false, gram_size: size)
+  report.report("size: #{size}") { generator_existing_db.word }
+end
+report_name = 'word generation averages for 100 words per gram size'
+test_if_desired report_name do |report, size|
+  generator = new_generator(pre_seed: true, gram_size: size)
+  report.report("size: #{size}") { 1.upto(100) { generator.word } }
+end
+test_if_desired 'word uniqueness per gram size', benchmark: false do |size|
+  generator = new_generator(gram_size: size)
+  num_words = 6000
+  seen_words = {}
+  num_words.times do
+    word = generator.word
+    seen_words[word].nil? ? seen_words[word] = 0 : seen_words[word] += 1
+  end
+  num_dupes = seen_words.find_all{ |_key, val| val > 1 }.length
+  puts "n-gram size: #{size}, #{num_dupes}/#{num_words} words were duplicates."
 end
-bm = GeneratorBenchmark.new(min_gram_size: ARGV[0].to_i,
-                            max_gram_size: ARGV[1].to_i,
-                            corpus_file: ARGV[2])
-bm.run

data/lib/markov_words/version.rb CHANGED Viewed

@@ -2,5 +2,5 @@
 module MarkovWords
   # Current version
-  VERSION = '2.0.1'
+  VERSION = '2.0.2'
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: markov_words
 version: !ruby/object:Gem::Version
-  version: 2.0.1
+  version: 2.0.2
 platform: ruby
 authors:
 - Donald Merand