RubyGems - jk-ferret - Versions diffs - 0.11.8.2 - Mend

jk-ferret 0.11.8.2

Files changed (228) hide show

data/CHANGELOG +24 -0
data/MIT-LICENSE +20 -0
data/README +90 -0
data/RELEASE_CHANGES +137 -0
data/RELEASE_NOTES +60 -0
data/Rakefile +443 -0
data/TODO +109 -0
data/TUTORIAL +231 -0
data/bin/ferret-browser +79 -0
data/ext/BZLIB_blocksort.c +1094 -0
data/ext/BZLIB_bzlib.c +1578 -0
data/ext/BZLIB_compress.c +672 -0
data/ext/BZLIB_crctable.c +104 -0
data/ext/BZLIB_decompress.c +626 -0
data/ext/BZLIB_huffman.c +205 -0
data/ext/BZLIB_randtable.c +84 -0
data/ext/STEMMER_api.c +66 -0
data/ext/STEMMER_libstemmer.c +93 -0
data/ext/STEMMER_stem_ISO_8859_1_danish.c +337 -0
data/ext/STEMMER_stem_ISO_8859_1_dutch.c +624 -0
data/ext/STEMMER_stem_ISO_8859_1_english.c +1117 -0
data/ext/STEMMER_stem_ISO_8859_1_finnish.c +762 -0
data/ext/STEMMER_stem_ISO_8859_1_french.c +1246 -0
data/ext/STEMMER_stem_ISO_8859_1_german.c +503 -0
data/ext/STEMMER_stem_ISO_8859_1_hungarian.c +1230 -0
data/ext/STEMMER_stem_ISO_8859_1_italian.c +1065 -0
data/ext/STEMMER_stem_ISO_8859_1_norwegian.c +297 -0
data/ext/STEMMER_stem_ISO_8859_1_porter.c +749 -0
data/ext/STEMMER_stem_ISO_8859_1_portuguese.c +1017 -0
data/ext/STEMMER_stem_ISO_8859_1_spanish.c +1093 -0
data/ext/STEMMER_stem_ISO_8859_1_swedish.c +307 -0
data/ext/STEMMER_stem_ISO_8859_2_romanian.c +998 -0
data/ext/STEMMER_stem_KOI8_R_russian.c +700 -0
data/ext/STEMMER_stem_UTF_8_danish.c +339 -0
data/ext/STEMMER_stem_UTF_8_dutch.c +634 -0
data/ext/STEMMER_stem_UTF_8_english.c +1125 -0
data/ext/STEMMER_stem_UTF_8_finnish.c +768 -0
data/ext/STEMMER_stem_UTF_8_french.c +1256 -0
data/ext/STEMMER_stem_UTF_8_german.c +509 -0
data/ext/STEMMER_stem_UTF_8_hungarian.c +1234 -0
data/ext/STEMMER_stem_UTF_8_italian.c +1073 -0
data/ext/STEMMER_stem_UTF_8_norwegian.c +299 -0
data/ext/STEMMER_stem_UTF_8_porter.c +755 -0
data/ext/STEMMER_stem_UTF_8_portuguese.c +1023 -0
data/ext/STEMMER_stem_UTF_8_romanian.c +1004 -0
data/ext/STEMMER_stem_UTF_8_russian.c +694 -0
data/ext/STEMMER_stem_UTF_8_spanish.c +1097 -0
data/ext/STEMMER_stem_UTF_8_swedish.c +309 -0
data/ext/STEMMER_stem_UTF_8_turkish.c +2205 -0
data/ext/STEMMER_utilities.c +478 -0
data/ext/analysis.c +1710 -0
data/ext/analysis.h +266 -0
data/ext/api.h +26 -0
data/ext/array.c +125 -0
data/ext/array.h +62 -0
data/ext/bitvector.c +96 -0
data/ext/bitvector.h +594 -0
data/ext/bzlib.h +282 -0
data/ext/bzlib_private.h +503 -0
data/ext/compound_io.c +384 -0
data/ext/config.h +52 -0
data/ext/document.c +159 -0
data/ext/document.h +63 -0
data/ext/except.c +102 -0
data/ext/except.h +176 -0
data/ext/extconf.rb +15 -0
data/ext/ferret.c +416 -0
data/ext/ferret.h +94 -0
data/ext/field_index.c +262 -0
data/ext/field_index.h +52 -0
data/ext/filter.c +157 -0
data/ext/fs_store.c +493 -0
data/ext/global.c +458 -0
data/ext/global.h +302 -0
data/ext/hash.c +524 -0
data/ext/hash.h +515 -0
data/ext/hashset.c +192 -0
data/ext/hashset.h +215 -0
data/ext/header.h +58 -0
data/ext/helper.c +63 -0
data/ext/helper.h +21 -0
data/ext/index.c +6804 -0
data/ext/index.h +935 -0
data/ext/internal.h +1019 -0
data/ext/lang.c +10 -0
data/ext/lang.h +68 -0
data/ext/libstemmer.h +79 -0
data/ext/mempool.c +88 -0
data/ext/mempool.h +43 -0
data/ext/modules.h +190 -0
data/ext/multimapper.c +351 -0
data/ext/multimapper.h +60 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +973 -0
data/ext/priorityqueue.c +149 -0
data/ext/priorityqueue.h +155 -0
data/ext/q_boolean.c +1621 -0
data/ext/q_const_score.c +162 -0
data/ext/q_filtered_query.c +212 -0
data/ext/q_fuzzy.c +280 -0
data/ext/q_match_all.c +149 -0
data/ext/q_multi_term.c +673 -0
data/ext/q_parser.c +3103 -0
data/ext/q_phrase.c +1206 -0
data/ext/q_prefix.c +98 -0
data/ext/q_range.c +682 -0
data/ext/q_span.c +2390 -0
data/ext/q_term.c +337 -0
data/ext/q_wildcard.c +167 -0
data/ext/r_analysis.c +2626 -0
data/ext/r_index.c +3468 -0
data/ext/r_qparser.c +635 -0
data/ext/r_search.c +4490 -0
data/ext/r_store.c +513 -0
data/ext/r_utils.c +1131 -0
data/ext/ram_store.c +476 -0
data/ext/scanner.c +895 -0
data/ext/scanner.h +36 -0
data/ext/scanner_mb.c +6701 -0
data/ext/scanner_utf8.c +4415 -0
data/ext/search.c +1864 -0
data/ext/search.h +953 -0
data/ext/similarity.c +151 -0
data/ext/similarity.h +89 -0
data/ext/sort.c +786 -0
data/ext/stem_ISO_8859_1_danish.h +16 -0
data/ext/stem_ISO_8859_1_dutch.h +16 -0
data/ext/stem_ISO_8859_1_english.h +16 -0
data/ext/stem_ISO_8859_1_finnish.h +16 -0
data/ext/stem_ISO_8859_1_french.h +16 -0
data/ext/stem_ISO_8859_1_german.h +16 -0
data/ext/stem_ISO_8859_1_hungarian.h +16 -0
data/ext/stem_ISO_8859_1_italian.h +16 -0
data/ext/stem_ISO_8859_1_norwegian.h +16 -0
data/ext/stem_ISO_8859_1_porter.h +16 -0
data/ext/stem_ISO_8859_1_portuguese.h +16 -0
data/ext/stem_ISO_8859_1_spanish.h +16 -0
data/ext/stem_ISO_8859_1_swedish.h +16 -0
data/ext/stem_ISO_8859_2_romanian.h +16 -0
data/ext/stem_KOI8_R_russian.h +16 -0
data/ext/stem_UTF_8_danish.h +16 -0
data/ext/stem_UTF_8_dutch.h +16 -0
data/ext/stem_UTF_8_english.h +16 -0
data/ext/stem_UTF_8_finnish.h +16 -0
data/ext/stem_UTF_8_french.h +16 -0
data/ext/stem_UTF_8_german.h +16 -0
data/ext/stem_UTF_8_hungarian.h +16 -0
data/ext/stem_UTF_8_italian.h +16 -0
data/ext/stem_UTF_8_norwegian.h +16 -0
data/ext/stem_UTF_8_porter.h +16 -0
data/ext/stem_UTF_8_portuguese.h +16 -0
data/ext/stem_UTF_8_romanian.h +16 -0
data/ext/stem_UTF_8_russian.h +16 -0
data/ext/stem_UTF_8_spanish.h +16 -0
data/ext/stem_UTF_8_swedish.h +16 -0
data/ext/stem_UTF_8_turkish.h +16 -0
data/ext/stopwords.c +410 -0
data/ext/store.c +698 -0
data/ext/store.h +799 -0
data/ext/symbol.c +10 -0
data/ext/symbol.h +23 -0
data/ext/term_vectors.c +73 -0
data/ext/threading.h +31 -0
data/ext/win32.h +62 -0
data/lib/ferret.rb +30 -0
data/lib/ferret/browser.rb +246 -0
data/lib/ferret/browser/s/global.js +192 -0
data/lib/ferret/browser/s/style.css +148 -0
data/lib/ferret/browser/views/document/list.rhtml +49 -0
data/lib/ferret/browser/views/document/show.rhtml +27 -0
data/lib/ferret/browser/views/error/index.rhtml +7 -0
data/lib/ferret/browser/views/help/index.rhtml +8 -0
data/lib/ferret/browser/views/home/index.rhtml +29 -0
data/lib/ferret/browser/views/layout.rhtml +22 -0
data/lib/ferret/browser/views/term-vector/index.rhtml +4 -0
data/lib/ferret/browser/views/term/index.rhtml +199 -0
data/lib/ferret/browser/views/term/termdocs.rhtml +1 -0
data/lib/ferret/browser/webrick.rb +14 -0
data/lib/ferret/document.rb +130 -0
data/lib/ferret/field_infos.rb +44 -0
data/lib/ferret/field_symbol.rb +87 -0
data/lib/ferret/index.rb +973 -0
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret/version.rb +3 -0
data/setup.rb +1555 -0
data/test/long_running/largefile/tc_largefile.rb +46 -0
data/test/test_all.rb +5 -0
data/test/test_helper.rb +29 -0
data/test/test_installed.rb +1 -0
data/test/threading/number_to_spoken.rb +132 -0
data/test/threading/thread_safety_index_test.rb +88 -0
data/test/threading/thread_safety_read_write_test.rb +73 -0
data/test/threading/thread_safety_test.rb +133 -0
data/test/unit/analysis/tc_analyzer.rb +550 -0
data/test/unit/analysis/tc_token_stream.rb +653 -0
data/test/unit/index/tc_index.rb +867 -0
data/test/unit/index/tc_index_reader.rb +699 -0
data/test/unit/index/tc_index_writer.rb +447 -0
data/test/unit/index/th_doc.rb +332 -0
data/test/unit/query_parser/tc_query_parser.rb +238 -0
data/test/unit/search/tc_filter.rb +156 -0
data/test/unit/search/tc_fuzzy_query.rb +147 -0
data/test/unit/search/tc_index_searcher.rb +67 -0
data/test/unit/search/tc_multi_searcher.rb +128 -0
data/test/unit/search/tc_multiple_search_requests.rb +58 -0
data/test/unit/search/tc_search_and_sort.rb +179 -0
data/test/unit/search/tc_sort.rb +49 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +190 -0
data/test/unit/search/tm_searcher.rb +436 -0
data/test/unit/store/tc_fs_store.rb +115 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +34 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/tc_document.rb +81 -0
data/test/unit/tc_field_symbol.rb +26 -0
data/test/unit/ts_analysis.rb +2 -0
data/test/unit/ts_index.rb +2 -0
data/test/unit/ts_largefile.rb +4 -0
data/test/unit/ts_query_parser.rb +2 -0
data/test/unit/ts_search.rb +2 -0
data/test/unit/ts_store.rb +2 -0
data/test/unit/ts_utils.rb +2 -0
data/test/unit/utils/tc_bit_vector.rb +295 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
data/test/utils/content_generator.rb +226 -0
metadata +319 -0

data/test/unit/utils/tc_number_tools.rb ADDED Viewed

@@ -0,0 +1,117 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+require 'ferret/number_tools'
+class NumberToolsTest < Test::Unit::TestCase
+  include Ferret::Utils
+  def test_to_i_lex_near_zero()
+    (-10..10).each do |num|
+      assert(num.to_s_lex > (num-1).to_s_lex,
+             "Strings should sort correctly but " +
+             "#{num.to_s_lex} <= #{(num-1).to_s_lex}")
+      assert_equal(num, num.to_s_lex.to_i_lex)
+    end
+  end
+  def test_to_i_pad_near_zero()
+    (1..10).each do |num|
+      assert(num.to_s_pad(3) > (num-1).to_s_pad(3),
+             "Strings should sort correctly but " +
+             "#{num.to_s_pad(3)} <= #{(num-1).to_s_pad(3)}")
+      assert_equal(num, num.to_s_pad(3).to_i)
+    end
+  end
+  def test_to_i_lex_larger_numbers
+    100.times do
+      num1 = rand(10000000000000000000000000000000000)
+      num2 = rand(10000000000000000000000000000000000)
+      num1 *= -1 if rand(2) == 0
+      num2 *= -1 if rand(2) == 0
+      assert_equal(num1, num1.to_s_lex.to_i_lex)
+      assert_equal(num2, num2.to_s_lex.to_i_lex)
+      assert_equal(num1 < num2, num1.to_s_lex < num2.to_s_lex,
+                   "Strings should sort correctly but " +
+                   "#{num1} < #{num2} == #{num1 < num2} but " +
+                   "#{num1.to_s_lex} < #{num2.to_s_lex} == " +
+                   "#{num1.to_s_lex < num2.to_s_lex}")
+    end
+  end
+  def test_to_i_pad
+    100.times do
+      num1 = rand(10000000000000000000000000000000000)
+      num2 = rand(10000000000000000000000000000000000)
+      assert_equal(num1, num1.to_s_pad(35).to_i)
+      assert_equal(num2, num2.to_s_pad(35).to_i)
+      assert_equal(num1 < num2, num1.to_s_pad(35) < num2.to_s_pad(35),
+                   "Strings should sort correctly but " +
+                   "#{num1} < #{num2} == #{num1 < num2} but " +
+                   "#{num1.to_s_pad(35)} < #{num2.to_s_pad(35)} == " +
+                   "#{num1.to_s_pad(35) < num2.to_s_pad(35)}")
+    end
+  end
+  def test_time_to_s_lex
+    t_num = Time.now.to_i - 365*24*60*60 # prevent range error
+    10.times do
+      t1 = Time.now - rand(t_num)
+      t2 = Time.now - rand(t_num)
+      assert_equal(t1.to_s, t1.to_s_lex(:second).to_time_lex.to_s)
+      assert_equal(t2.to_s, t2.to_s_lex(:second).to_time_lex.to_s)
+      [:year, :month, :day, :hour, :minute, :second, :millisecond].each do |prec|
+        t1_x = t1.to_s_lex(prec).to_time_lex
+        t2_x = t2.to_s_lex(prec).to_time_lex
+        assert_equal(t1_x < t2_x, t1.to_s_lex(prec) < t2.to_s_lex(prec),
+                     "Strings should sort correctly but " +
+                     "#{t1_x} < #{t2_x} == #{t1_x < t2_x} but " +
+                     "#{t1.to_s_lex(prec)} < #{t2.to_s_lex(prec)} == " +
+                     "#{t1.to_s_lex(prec) < t2.to_s_lex(prec)}")
+      end
+    end
+  end
+  def test_date_to_s_lex
+    10.times do
+      d1 = Date.civil(rand(2200), rand(12) + 1, rand(28) + 1)
+      d2 = Date.civil(rand(2200), rand(12) + 1, rand(28) + 1)
+      assert_equal(d1.to_s, d1.to_s_lex(:day).to_date_lex.to_s)
+      assert_equal(d2.to_s, d2.to_s_lex(:day).to_date_lex.to_s)
+      [:year, :month, :day].each do |prec|
+        d1_x = d1.to_s_lex(prec).to_date_lex
+        d2_x = d2.to_s_lex(prec).to_date_lex
+        assert_equal(d1_x < d2_x, d1.to_s_lex(prec) < d2.to_s_lex(prec),
+                     "Strings should sort correctly but " +
+                     "#{d1_x} < #{d2_x} == #{d1_x < d2_x} but " +
+                     "#{d1.to_s_lex(prec)} < #{d2.to_s_lex(prec)} == " +
+                     "#{d1.to_s_lex(prec) < d2.to_s_lex(prec)}")
+      end
+    end
+  end
+  def test_date_time_to_s_lex
+    10.times do
+      d1 = "#{rand(600) + 1600}-#{rand(12)+1}-#{rand(28)+1} " +
+           "#{rand(24)}:#{rand(60)}:#{rand(60)}"
+      d2 = "#{rand(600) + 1600}-#{rand(12)+1}-#{rand(28)+1} " +
+           "#{rand(24)}:#{rand(60)}:#{rand(60)}"
+      d1 = DateTime.strptime(d1, "%Y-%m-%d %H:%M:%S")
+      d2 = DateTime.strptime(d2, "%Y-%m-%d %H:%M:%S")
+      assert_equal(d1.to_s, d1.to_s_lex(:second).to_date_time_lex.to_s)
+      assert_equal(d2.to_s, d2.to_s_lex(:second).to_date_time_lex.to_s)
+      [:year, :month, :day, :hour, :minute, :second].each do |prec|
+        d1_x = d1.to_s_lex(prec).to_date_lex
+        d2_x = d2.to_s_lex(prec).to_date_lex
+        assert_equal(d1_x < d2_x, d1.to_s_lex(prec) < d2.to_s_lex(prec),
+                     "Strings should sort correctly but " +
+                     "#{d1_x} < #{d2_x} == #{d1_x < d2_x} but " +
+                     "#{d1.to_s_lex(prec)} < #{d2.to_s_lex(prec)} == " +
+                     "#{d1.to_s_lex(prec) < d2.to_s_lex(prec)}")
+      end
+    end
+  end
+end

data/test/unit/utils/tc_priority_queue.rb ADDED Viewed

@@ -0,0 +1,106 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class PriorityQueueTest < Test::Unit::TestCase
+  include Ferret::Utils
+  PQ_STRESS_SIZE = 1000
+  def test_pq()
+    pq = PriorityQueue.new(4)
+    assert_equal(0, pq.size)
+    assert_equal(4, pq.capacity)
+    pq.insert("bword")
+    assert_equal(1, pq.size)
+    assert_equal("bword", pq.top)
+    pq.insert("cword")
+    assert_equal(2, pq.size)
+    assert_equal("bword", pq.top)
+    pq << "dword"
+    assert_equal(3, pq.size)
+    assert_equal("bword", pq.top)
+    pq << "eword"
+    assert_equal(4, pq.size)
+    assert_equal("bword", pq.top)
+    pq << "aword"
+    assert_equal(4, pq.size)
+    assert_equal("bword", pq.top, "aword < all other elements so ignore")
+    pq << "fword"
+    assert_equal(4, pq.size)
+    assert_equal("cword", pq.top, "bword got pushed off the bottom of the queue")
+    assert_equal("cword", pq.pop())
+    assert_equal(3, pq.size)
+    assert_equal("dword", pq.pop())
+    assert_equal(2, pq.size)
+    assert_equal("eword", pq.pop())
+    assert_equal(1, pq.size)
+    assert_equal("fword", pq.pop())
+    assert_equal(0, pq.size)
+    assert_nil(pq.top)
+    assert_nil(pq.pop)
+  end
+  def test_pq_clear()
+    pq = PriorityQueue.new(3)
+    pq << "word1"
+    pq << "word2"
+    pq << "word3"
+    assert_equal(3, pq.size)
+    pq.clear()
+    assert_equal(0, pq.size)
+    assert_nil(pq.top)
+    assert_nil(pq.pop)
+  end
+  #define PQ_STRESS_SIZE 1000
+  def test_stress_pq
+    pq = PriorityQueue.new(PQ_STRESS_SIZE)
+    PQ_STRESS_SIZE.times do
+      pq.insert("<#{rand(PQ_STRESS_SIZE)}>")
+    end
+    prev = pq.pop()
+    (PQ_STRESS_SIZE - 1).times do
+      curr = pq.pop()
+      assert(prev <= curr, "#{prev} should be less than #{curr}")
+      prev = curr
+    end
+    pq.clear()
+  end
+  def test_pq_block
+    pq = PriorityQueue.new(21) {|a, b| a > b}
+    100.times do
+      pq.insert("<#{rand(50)}>")
+    end
+    prev = pq.pop()
+    20.times do
+      curr = pq.pop()
+      assert(prev >= curr, "#{prev} should be greater than #{curr}")
+      prev = curr
+    end
+    assert_equal 0, pq.size
+  end
+  def test_pq_proc
+    pq = PriorityQueue.new({:less_than => lambda {|a, b| a.size > b.size}, :capacity => 21})
+    100.times do
+      pq.insert("x" * rand(50))
+    end
+    prev = pq.pop()
+    20.times do
+      curr = pq.pop()
+      assert(prev.size >= curr.size, "#{prev} should be greater than #{curr}")
+      prev = curr
+    end
+    assert_equal 0, pq.size
+  end
+end

data/test/utils/content_generator.rb ADDED Viewed

@@ -0,0 +1,226 @@
+module ContentGenerator
+  wpath = File.expand_path(File.join(__FILE__, '../../../data/words'))
+  WORDS = File.readlines(wpath).collect {|w| w.strip}
+  CHARS = 'abcdefghijklmnopqrstuvwxyz1234567890`~!@#$%^&*()_-+={[}]|\\:;"\'<,>.?/'
+  ALNUM = 'abcdefghijklmnopqrstuvwxyz1234567890'
+  ALPHA = 'abcdefghijklmnopqrstuvwxyz'
+  URL_SUFFIXES = %w{com net org biz info}
+  URL_COUNTRY_CODES = %w{au jp uk nz tv}
+  TEXT_CACHE = {}
+  WORD_CACHE = {}
+  MARKDOWN_EMPHASIS_MARKERS = %w{* _ ** __ ` ``}
+  MARKDOWN_LIST_MARKERS = %w{- * + 1.}
+  def self.generate_text(length = 5..10, options = {})
+    if length.is_a?(Range)
+      raise ArgumentError, "range must be positive" unless length.min
+      length = length.min + rand(length.max - length.min)
+    end
+    text = ''
+    if options[:chars]
+      while word = random_word and text.size + word.size < length
+        text << word + ' '
+      end
+      text.strip!
+      text << generate_word(length - text.size)
+    else
+      text = Array.new(length) {|x| random_word}.join(' ')
+    end
+    if key = options[:unique]||options[:key]
+      cache = TEXT_CACHE[key]||={}
+      if cache[text]
+        return generate_text(options)
+      else
+        return cache[text] = true
+      end
+    end
+    return text
+  end
+  def self.generate_word(length = 5..10, options = {})
+    if length.is_a?(Range)
+      raise ArgumentError, "range must be positive" unless length.min
+      length = length.min + rand(length.max - length.min)
+    end
+    word = ''
+    case options[:charset]
+    when :alpha
+      word = Array.new(length) {|x| random_alpha}.pack('c*')
+    when :alnum
+      word = Array.new(length) {|x| random_alnum}.pack('c*')
+    else
+      word = Array.new(length) {|x| random_char}.pack('c*')
+    end
+    if key = options[:unique]||options[:key]
+      cache = WORD_CACHE[key]||={}
+      if cache[word]
+        return generate_word(options)
+      else
+        cache[word] = true
+      end
+    end
+    return word
+  end
+  def self.generate_alpha_word(length = 5..10, options = {})
+    options[:charset] = :alpha
+    generate_word(length, options)
+  end
+  def self.generate_alnum_word(length = 5..10, options = {})
+    options[:charset] = :alnum
+    generate_word(length, options)
+  end
+  def self.generate_email(options = {})
+    num_name_sections = 1 + rand(2)
+    num_url_sections = 1 + rand(2)
+    name = Array.new(num_name_sections) {|x| generate_alnum_word }.join('.')
+    url = [generate_alnum_word]
+    url += Array.new(num_url_sections) {|x| generate_alpha_word(2..3) }
+    url = url.join('.')
+    name + '@' + url
+  end
+  def self.generate_url(options = {})
+    ext = random_from(URL_SUFFIXES)
+    ext += '.' + random_from(URL_COUNTRY_CODES) if rand(2) > 0
+    "http://www.#{generate_alnum_word}.#{ext}/"
+  end
+  def self.generate_markdown(length = 100..1000, options = {})
+    @footnote_num = 0
+    if length.is_a?(Range)
+      raise ArgumentError, "range must be positive" unless length.min
+      length = length.min + rand(length.max - length.min)
+    end
+    text = []
+    while length > 0
+      case rand
+      when 0.3..1 # generate paragraph
+        l = gen_num(length, 50)
+        paragraph = gen_md_para(l)
+        if rand > 0.95 # make block quote
+          paragraph = '> ' + paragraph
+        end
+        text << paragraph
+        length -= l
+      when 0.2..0.3 # generate list
+        li = random_from(MARKDOWN_LIST_MARKERS) + ' '
+        num_elements = gen_num(length/5, 10)
+        num_elements.times do
+          break if length == 0
+          if rand > 0.75 # do paragraph list element
+            xli = li
+            (2 + rand(3)).times do |i|
+              break if length == 0
+              l = gen_num(length, 10)
+              text << xli
+              text << gen_md_para(l, :no_footnotes => true)
+              text << "\n\n"
+              xli = ' ' * xli.size if i == 0
+              length -= l
+            end
+          else
+            l = gen_num(length, 10)
+            text << li
+            text << gen_md_para(l, :no_footnotes => true)
+            text << "\n"
+            length -= l
+          end
+        end
+      when 0.1..0.2 # header
+        l = gen_num(length, 7)
+        t = gen_md_para(l, :no_footnotes => true)
+        if rand > 0.8
+          t += "\n" + random_from(%w{= -}) * t.size
+        else
+          t = ('#' * (1 + rand(6))) + ' ' + t
+        end
+        length -= l
+        text << t
+      else
+        text << '---'
+      end
+      text << "\n\n"
+    end
+    text.join()
+  end
+  def self.random_word
+    random_from(WORDS)
+  end
+  def self.random_char
+    random_from(CHARS)
+  end
+  def self.random_alnum
+    random_from(ALNUM)
+  end
+  def self.random_alpha
+    random_from(ALPHA)
+  end
+  private
+  def self.gen_md_para(length, options = {})
+    link_words = rand(1 + length/10)
+    length -= link_words
+    text = gen_md_text(length)
+    text << "\n"
+    footnote_cnt = 0
+    while link_words > 0
+      if options[:no_footnotes] or rand > 0.5
+        if rand > 0.6 # inline link
+          l = gen_num(link_words, 5)
+          link = "[#{gen_md_text(l)}](#{generate_url} \"#{generate_text(1 + rand(5))}\")"
+          text.insert(rand(text.length - footnote_cnt), link)
+          link_words -= l
+        else          # auto link
+          text.insert(rand(text.length - footnote_cnt), "<#{generate_url}>")
+          link_words -= 1
+        end
+      else            # footnote link
+        l = gen_num(link_words, 5)
+        reference = "[#{gen_md_text(l).join(' ')}][#{@footnote_num}]"
+        text.insert(rand(text.length - footnote_cnt), reference)
+        text << link = "\n[#{@footnote_num}]: #{generate_url} \"#{generate_text(1 + rand(5))}\""
+        @footnote_num += 1
+        footnote_cnt += 1
+        link_words -= l
+      end
+    end
+    text.pop if text.last == "\n"
+    text.join(' ')
+  end
+  def self.gen_md_text(length)
+    text = Array.new(length) {|x| random_word}
+    if rand > 0.8
+      (1 + rand(Math.sqrt(length))).times do
+        first = rand(text.size)
+        last = first + rand(3)
+        last = text.size - 1 if last >= text.size
+        words = text.slice!(first..last)
+        em = random_from(MARKDOWN_EMPHASIS_MARKERS)
+        words = "#{em}#{words.join(' ')}#{em}" unless words.join.index(em[0,1])
+        text.insert(first, words).flatten!
+      end
+    end
+    text
+  end
+  def self.gen_num(max1, max2)
+    minmax = [max1, max2].min
+    return minmax == 0 ? 0 : 1 + rand(minmax)
+  end
+  def self.random_from(list)
+    list[rand(list.size)]
+  end
+end