RubyGems - sdsykes-ferret - Versions diffs - 0.11.6.19 - Mend

sdsykes-ferret 0.11.6.19

Files changed (195) hide show

data/CHANGELOG +24 -0
data/MIT-LICENSE +20 -0
data/README +102 -0
data/Rakefile +338 -0
data/TODO +17 -0
data/TUTORIAL +231 -0
data/bin/ferret-browser +79 -0
data/ext/analysis.c +1555 -0
data/ext/analysis.h +219 -0
data/ext/api.c +69 -0
data/ext/api.h +27 -0
data/ext/array.c +123 -0
data/ext/array.h +53 -0
data/ext/bitvector.c +540 -0
data/ext/bitvector.h +272 -0
data/ext/compound_io.c +383 -0
data/ext/config.h +42 -0
data/ext/document.c +156 -0
data/ext/document.h +53 -0
data/ext/except.c +120 -0
data/ext/except.h +168 -0
data/ext/extconf.rb +14 -0
data/ext/ferret.c +402 -0
data/ext/ferret.h +91 -0
data/ext/filter.c +156 -0
data/ext/fs_store.c +483 -0
data/ext/global.c +418 -0
data/ext/global.h +117 -0
data/ext/hash.c +567 -0
data/ext/hash.h +473 -0
data/ext/hashset.c +170 -0
data/ext/hashset.h +187 -0
data/ext/header.h +58 -0
data/ext/helper.c +62 -0
data/ext/helper.h +13 -0
data/ext/inc/lang.h +48 -0
data/ext/inc/threading.h +31 -0
data/ext/index.c +6425 -0
data/ext/index.h +961 -0
data/ext/lang.h +66 -0
data/ext/libstemmer.c +92 -0
data/ext/libstemmer.h +79 -0
data/ext/mempool.c +87 -0
data/ext/mempool.h +35 -0
data/ext/modules.h +162 -0
data/ext/multimapper.c +310 -0
data/ext/multimapper.h +51 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +151 -0
data/ext/priorityqueue.h +143 -0
data/ext/q_boolean.c +1608 -0
data/ext/q_const_score.c +161 -0
data/ext/q_filtered_query.c +209 -0
data/ext/q_fuzzy.c +268 -0
data/ext/q_match_all.c +148 -0
data/ext/q_multi_term.c +677 -0
data/ext/q_parser.c +2825 -0
data/ext/q_phrase.c +1126 -0
data/ext/q_prefix.c +100 -0
data/ext/q_range.c +350 -0
data/ext/q_span.c +2402 -0
data/ext/q_term.c +337 -0
data/ext/q_wildcard.c +171 -0
data/ext/r_analysis.c +2575 -0
data/ext/r_index.c +3472 -0
data/ext/r_qparser.c +585 -0
data/ext/r_search.c +4105 -0
data/ext/r_store.c +513 -0
data/ext/r_utils.c +963 -0
data/ext/ram_store.c +471 -0
data/ext/search.c +1741 -0
data/ext/search.h +885 -0
data/ext/similarity.c +150 -0
data/ext/similarity.h +82 -0
data/ext/sort.c +983 -0
data/ext/stem_ISO_8859_1_danish.c +338 -0
data/ext/stem_ISO_8859_1_danish.h +16 -0
data/ext/stem_ISO_8859_1_dutch.c +635 -0
data/ext/stem_ISO_8859_1_dutch.h +16 -0
data/ext/stem_ISO_8859_1_english.c +1156 -0
data/ext/stem_ISO_8859_1_english.h +16 -0
data/ext/stem_ISO_8859_1_finnish.c +792 -0
data/ext/stem_ISO_8859_1_finnish.h +16 -0
data/ext/stem_ISO_8859_1_french.c +1276 -0
data/ext/stem_ISO_8859_1_french.h +16 -0
data/ext/stem_ISO_8859_1_german.c +512 -0
data/ext/stem_ISO_8859_1_german.h +16 -0
data/ext/stem_ISO_8859_1_italian.c +1091 -0
data/ext/stem_ISO_8859_1_italian.h +16 -0
data/ext/stem_ISO_8859_1_norwegian.c +296 -0
data/ext/stem_ISO_8859_1_norwegian.h +16 -0
data/ext/stem_ISO_8859_1_porter.c +776 -0
data/ext/stem_ISO_8859_1_porter.h +16 -0
data/ext/stem_ISO_8859_1_portuguese.c +1035 -0
data/ext/stem_ISO_8859_1_portuguese.h +16 -0
data/ext/stem_ISO_8859_1_spanish.c +1119 -0
data/ext/stem_ISO_8859_1_spanish.h +16 -0
data/ext/stem_ISO_8859_1_swedish.c +307 -0
data/ext/stem_ISO_8859_1_swedish.h +16 -0
data/ext/stem_KOI8_R_russian.c +701 -0
data/ext/stem_KOI8_R_russian.h +16 -0
data/ext/stem_UTF_8_danish.c +344 -0
data/ext/stem_UTF_8_danish.h +16 -0
data/ext/stem_UTF_8_dutch.c +653 -0
data/ext/stem_UTF_8_dutch.h +16 -0
data/ext/stem_UTF_8_english.c +1176 -0
data/ext/stem_UTF_8_english.h +16 -0
data/ext/stem_UTF_8_finnish.c +808 -0
data/ext/stem_UTF_8_finnish.h +16 -0
data/ext/stem_UTF_8_french.c +1296 -0
data/ext/stem_UTF_8_french.h +16 -0
data/ext/stem_UTF_8_german.c +526 -0
data/ext/stem_UTF_8_german.h +16 -0
data/ext/stem_UTF_8_italian.c +1113 -0
data/ext/stem_UTF_8_italian.h +16 -0
data/ext/stem_UTF_8_norwegian.c +302 -0
data/ext/stem_UTF_8_norwegian.h +16 -0
data/ext/stem_UTF_8_porter.c +794 -0
data/ext/stem_UTF_8_porter.h +16 -0
data/ext/stem_UTF_8_portuguese.c +1055 -0
data/ext/stem_UTF_8_portuguese.h +16 -0
data/ext/stem_UTF_8_russian.c +709 -0
data/ext/stem_UTF_8_russian.h +16 -0
data/ext/stem_UTF_8_spanish.c +1137 -0
data/ext/stem_UTF_8_spanish.h +16 -0
data/ext/stem_UTF_8_swedish.c +313 -0
data/ext/stem_UTF_8_swedish.h +16 -0
data/ext/stopwords.c +401 -0
data/ext/store.c +692 -0
data/ext/store.h +777 -0
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/utilities.c +446 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +29 -0
data/lib/ferret/browser.rb +246 -0
data/lib/ferret/browser/s/global.js +192 -0
data/lib/ferret/browser/s/style.css +148 -0
data/lib/ferret/browser/views/document/list.rhtml +49 -0
data/lib/ferret/browser/views/document/show.rhtml +27 -0
data/lib/ferret/browser/views/error/index.rhtml +7 -0
data/lib/ferret/browser/views/help/index.rhtml +8 -0
data/lib/ferret/browser/views/home/index.rhtml +29 -0
data/lib/ferret/browser/views/layout.rhtml +22 -0
data/lib/ferret/browser/views/term-vector/index.rhtml +4 -0
data/lib/ferret/browser/views/term/index.rhtml +199 -0
data/lib/ferret/browser/views/term/termdocs.rhtml +1 -0
data/lib/ferret/browser/webrick.rb +14 -0
data/lib/ferret/document.rb +130 -0
data/lib/ferret/field_infos.rb +44 -0
data/lib/ferret/index.rb +786 -0
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/setup.rb +1555 -0
data/test/test_all.rb +5 -0
data/test/test_helper.rb +24 -0
data/test/threading/number_to_spoken.rb +132 -0
data/test/threading/thread_safety_index_test.rb +79 -0
data/test/threading/thread_safety_read_write_test.rb +76 -0
data/test/threading/thread_safety_test.rb +133 -0
data/test/unit/analysis/tc_analyzer.rb +548 -0
data/test/unit/analysis/tc_token_stream.rb +646 -0
data/test/unit/index/tc_index.rb +762 -0
data/test/unit/index/tc_index_reader.rb +699 -0
data/test/unit/index/tc_index_writer.rb +437 -0
data/test/unit/index/th_doc.rb +315 -0
data/test/unit/largefile/tc_largefile.rb +46 -0
data/test/unit/query_parser/tc_query_parser.rb +238 -0
data/test/unit/search/tc_filter.rb +135 -0
data/test/unit/search/tc_fuzzy_query.rb +147 -0
data/test/unit/search/tc_index_searcher.rb +61 -0
data/test/unit/search/tc_multi_searcher.rb +128 -0
data/test/unit/search/tc_multiple_search_requests.rb +58 -0
data/test/unit/search/tc_search_and_sort.rb +179 -0
data/test/unit/search/tc_sort.rb +49 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +190 -0
data/test/unit/search/tm_searcher.rb +384 -0
data/test/unit/store/tc_fs_store.rb +77 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +34 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +2 -0
data/test/unit/ts_index.rb +2 -0
data/test/unit/ts_largefile.rb +4 -0
data/test/unit/ts_query_parser.rb +2 -0
data/test/unit/ts_search.rb +2 -0
data/test/unit/ts_store.rb +2 -0
data/test/unit/ts_utils.rb +2 -0
data/test/unit/utils/tc_bit_vector.rb +295 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +285 -0

@@ -0,0 +1,5 @@
+$:.unshift File.dirname(__FILE__)
+require 'test_helper.rb'
+load_test_dir("unit")
+#load_test_dir("functional")

data/test/test_helper.rb ADDED

@@ -0,0 +1,24 @@
+$:.unshift File.dirname(__FILE__)
+$:.unshift File.join(File.dirname(__FILE__), '../lib')
+$:.unshift File.join(File.dirname(__FILE__), '../ext')
+ENV['LANG'] = "en_US.UTF-8"
+ENV['LC_CTYPE'] = "en_US.UTF-8"
+class Float
+  def approx_eql?(o)
+    return (1 - self/o).abs < 0.0001
+  end
+  alias :=~ :approx_eql?
+end
+require 'test/unit'
+require 'ferret'
+require 'unit/index/th_doc' if (defined?(IndexTestHelper).nil?)
+def load_test_dir(dir)
+  Dir[File.join(File.dirname(__FILE__), dir, "t[scm]*.rb")].each do |file|
+    require file
+  end
+end

data/test/threading/number_to_spoken.rb ADDED

@@ -0,0 +1,132 @@
+# Author: Matthew D Moss
+#
+# Writtern for ruby quiz #25
+#
+class JapaneseTranslator
+    # My knowledge of counting Japanese is limited, so this may not
+    # be entirely correct; in particular, I don't know what rules
+    # to follow after 'hyaku man' (1,000,000).
+    # I also combine a digit with its group, such as 'gohyaku' rather
+    # than 'go hyaku'; I just like reading it better that way.
+    DIGITS = %w(zero ichi ni san yon go roku nana hachi kyu)
+    GROUPS = %w(nothingtoseeheremovealong ju hyaku sen)
+    MAN = 10000
+    def to_spoken(val)
+        case val <=> 0
+        when -1
+            '- ' + to_spoken(-val)
+        when 0
+            DIGITS[0]
+        else
+            group(val, 0)
+        end
+    end
+    private
+    def group(val, level)
+        if val >= MAN
+            group(val / MAN, 0) + 'man ' + group(val % MAN, 0)
+        else
+            case val
+            when 0
+                ''
+            when 1
+                level == 0 ? DIGITS[val] : GROUPS[level]
+            when 2...10
+                DIGITS[val] + (GROUPS[level] if level > 0).to_s
+            else
+                group(val / 10, level+1) + ' ' + group(val % 10, level)
+            end
+        end
+    end
+end
+class USEnglishTranslator
+    # Formal, US English. Optional 'and'. Will not produce things
+    # such as 'twelve hundred' but rather 'one thousand two hundred'.
+    # The use of 'and' is incomplete; it is sometimes missed.
+    DIGITS = %w(zero one two three four five six seven eight nine)
+    TEENS  = %w(ten eleven twelve thirteen fourteen fifteen sixteen
+                seventeen eighteen nineteen)
+    TENS   = %w(hello world twenty thirty forty fifty sixty seventy
+                eighty ninety)
+    GROUPS = %w(thousand million billion trillion quadrillion
+                quintillion sextillion septillion octillion nonillion
+                decillion)
+    K = 1000
+    def initialize(conjunction = true)
+        @conjunction = conjunction
+    end
+    def to_spoken(val)
+        case val <=> 0
+        when -1
+            'negative ' + to_spoken(-val)
+        when 0
+            DIGITS[0]
+        else
+            group(val, 0).flatten.join(' ')
+        end
+    end
+    private
+    def group(val, level)
+        x = group(val / K, level + 1) << GROUPS[level] if val >= K
+        x.to_a << under_1000(val % K, level)
+    end
+    def under_1000(val, level)
+        x = [DIGITS[val / 100]] << 'hundred' if val >= 100
+        x.to_a << under_100(val % 100, (level == 0 and not x.nil?))
+    end
+    def under_100(val, junction)
+        x = [('and' if @conjunction and junction)]    # wyf?
+        case val
+        when 0
+            []
+        when 1...10
+            x << DIGITS[val]
+        when 10...20
+            x << TEENS[val - 10]
+        else
+            d = val % 10
+            x << (TENS[val / 10] + ('-' + DIGITS[d] if d != 0).to_s)
+        end
+    end
+end
+class Integer
+    def to_spoken(translator = USEnglishTranslator.new)
+        translator.to_spoken(self).squeeze(' ').strip
+    end
+end
+if $0 == __FILE__
+    SAMPLES = [ 0, 1, 2, 5, 10, 11, 14, 18, 20, 21, 29, 33, 42, 50, 87, 99,
+                100, 101, 110, 167, 199, 200, 201, 276, 300, 314, 500, 610,
+                1000, 1039, 1347, 2309, 3098, 23501, 32767, 70000, 5480283,
+                2435489238, 234100090000, -42, -2001 ]
+    TRANSLATORS = { 'US English' => USEnglishTranslator.new,
+                    'Japanese'   => JapaneseTranslator.new }
+    # main
+    TRANSLATORS.each do |lang, translator|
+        puts
+        puts lang
+        puts '-' * lang.length
+        SAMPLES.each do |val|
+            puts "%12d => %s" % [val, val.to_spoken(translator)]
+        end
+    end
+end

data/test/threading/thread_safety_index_test.rb ADDED

@@ -0,0 +1,79 @@
+require File.dirname(__FILE__) + "/../test_helper"
+require File.dirname(__FILE__) + "/number_to_spoken.rb"
+require 'thread'
+class IndexThreadSafetyTest < Test::Unit::TestCase
+  include Ferret::Index
+  INDEX_DIR = File.expand_path(File.join(File.dirname(__FILE__), "index"))
+  ITERATIONS = 100
+  NUM_THREADS = 3
+  ANALYZER = Ferret::Analysis::StandardAnalyzer.new()
+  def setup
+    index = Index.new(:path => INDEX_DIR,
+                      :create => true,
+                      :analyzer => ANALYZER,
+                      :default_field => :content)
+    index.close
+  end
+  def indexing_thread()
+    index = Index.new(:path => INDEX_DIR,
+                      :analyzer => ANALYZER,
+                      :default_field => :content)
+    ITERATIONS.times do
+      choice = rand()
+      if choice > 0.98
+        do_optimize(index)
+      elsif choice > 0.7
+        do_delete_doc(index)
+      elsif choice > 0.5
+        do_search(index)
+      else
+        do_add_doc(index)
+      end
+      index.commit
+    end
+  end
+  def do_optimize(index)
+    puts "Optimizing the index"
+    index.optimize
+  end
+  def do_delete_doc(index)
+    return if index.size == 0
+    doc_num = rand(index.size)
+    puts "Deleting #{doc_num} from index which has#{index.has_deletions? ? "" : " no"} deletions"
+    puts "document was already deleted" if (index.deleted?(doc_num))
+    index.delete(doc_num)
+  end
+  def do_add_doc(index)
+    n = rand(0xFFFFFFFF)
+    d = {:id => n, :content => n.to_spoken}
+    puts("Adding #{n}")
+    index << d
+  end
+  def do_search(index)
+    n = rand(0xFFFFFFFF)
+    puts("Searching for #{n}")
+    hits = index.search_each(n.to_spoken, :num_docs => 3) do |d, s|
+      puts "Hit for #{n}: #{index[d][:id]} - #{s}"
+    end
+    puts("Searched for #{n}: total = #{hits}")
+  end
+  def test_threading
+    threads = []
+    NUM_THREADS.times do
+      threads << Thread.new { indexing_thread }
+    end
+    threads.each {|t| t.join}
+  end
+end

data/test/threading/thread_safety_read_write_test.rb ADDED

@@ -0,0 +1,76 @@
+require File.dirname(__FILE__) + "/../test_helper"
+require File.dirname(__FILE__) + "/../utils/number_to_spoken.rb"
+require 'thread'
+class IndexThreadSafetyReadWriteTest < Test::Unit::TestCase
+  include Ferret::Index
+  include Ferret::Document
+  INDEX_DIR = File.expand_path(File.join(File.dirname(__FILE__), "index"))
+  ITERATIONS = 10000
+  ANALYZER = Ferret::Analysis::Analyzer.new()
+  def setup
+    @index = Index.new(:path => 'index2',
+                       :create => true,
+                       :analyzer => ANALYZER,
+                       :default_field => 'contents')
+  end
+  def search_thread()
+    ITERATIONS.times do
+      do_search()
+      sleep(rand(1))
+    end
+  rescue => e
+    puts e
+    puts e.backtrace
+    @index = nil
+    raise e
+  end
+  def index_thread()
+    ITERATIONS.times do
+      do_add_doc()
+      sleep(rand(1))
+    end
+  rescue => e
+    puts e
+    puts e.backtrace
+    @index = nil
+    raise e
+  end
+  def do_add_doc
+    d = Document.new()
+    n = rand(0xFFFFFFFF)
+    d << Field.new("id", n.to_s, Field::Store::YES, Field::Index::UNTOKENIZED)
+    d << Field.new("contents", n.to_spoken, Field::Store::NO, Field::Index::TOKENIZED)
+    puts("Adding #{n}")
+    begin
+      @index << d
+    rescue => e
+      puts e
+      puts e.backtrace
+      @index = nil
+      raise e
+    end
+  end
+  def do_search
+    n = rand(0xFFFFFFFF)
+    puts("Searching for #{n}")
+    hits = @index.search_each(n.to_spoken, :num_docs => 3) do |d, s|
+      puts "Hit for #{n}: #{@index[d]["id"]} - #{s}"
+    end
+    puts("Searched for #{n}: total = #{hits}")
+  end
+  def test_threading
+    threads = []
+    threads << Thread.new { search_thread }
+    threads << Thread.new { index_thread }
+    threads.each { |t| t.join }
+  end
+end

data/test/threading/thread_safety_test.rb ADDED

@@ -0,0 +1,133 @@
+require File.dirname(__FILE__) + "/../test_helper"
+require File.join(File.dirname(__FILE__), "number_to_spoken.rb")
+require 'thread'
+class ThreadSafetyTest
+  include Ferret::Index
+  include Ferret::Search
+  include Ferret::Store
+  include Ferret
+  def initialize(options)
+    @options = options
+  end
+  INDEX_DIR = File.expand_path(File.join(File.dirname(__FILE__), "index"))
+  ANALYZER = Ferret::Analysis::WhiteSpaceAnalyzer.new()
+  ITERATIONS = 1000
+  QUERY_PARSER = Ferret::QueryParser.new(:analyzer => ANALYZER,
+                                         :default_field => 'contents')
+  @@searcher = nil
+  def run_index_thread(writer)
+    reopen_interval = 30 + rand(60)
+    use_compound_file = false
+    (400*ITERATIONS).times do |i|
+      n = rand(0xFFFFFFFF)
+      d = {:id => n.to_s, :contents => n.to_spoken}
+      puts("Adding #{n}")
+      # Switch between single and multiple file segments
+      use_compound_file = (rand < 0.5)
+      writer.use_compound_file = use_compound_file
+      writer << d
+      if (i % reopen_interval == 0)
+        writer.close()
+        writer = IndexWriter.new(:path => INDEX_DIR, :analyzer => ANALYZER)
+      end
+    end
+    writer.close()
+  rescue => e
+    puts e
+    puts e.backtrace
+    raise e
+  end
+  def run_search_thread(use_global)
+    reopen_interval = 10 + rand(20)
+    unless use_global
+      searcher = Searcher.new(INDEX_DIR)
+    end
+    (50*ITERATIONS).times do |i|
+      search_for(rand(0xFFFFFFFF), (searcher.nil? ? @@searcher : searcher))
+      if (i%reopen_interval == 0)
+        if (searcher == nil)
+          @@searcher = Searcher.new(INDEX_DIR)
+        else
+          searcher.close()
+          searcher = Searcher.new(INDEX_DIR)
+        end
+      end
+    end
+  rescue => e
+    puts e
+    puts e.backtrace
+    raise e
+  end
+  def search_for(n, searcher)
+    puts("Searching for #{n}")
+    topdocs = searcher.search(QUERY_PARSER.parse(n.to_spoken), :limit => 3)
+    puts("Search for #{n}: total = #{topdocs.total_hits}")
+    topdocs.hits.each do |hit|
+      puts "Hit for #{n}: #{searcher.reader[hit.doc]["id"]} - #{hit.score}"
+    end
+  end
+  def run_test_threads
+    threads = []
+    unless @options[:read_only]
+      writer = IndexWriter.new(:path => INDEX_DIR, :analyzer => ANALYZER,
+                               :create => !@options[:add])
+      threads << Thread.new { run_index_thread(writer) }
+      sleep(1)
+    end
+    threads << Thread.new { run_search_thread(false)}
+    @@searcher = Searcher.new(INDEX_DIR)
+    threads << Thread.new { run_search_thread(true)}
+    threads << Thread.new { run_search_thread(true)}
+    threads.each {|t| t.join}
+  end
+end
+if $0 == __FILE__
+  require 'optparse'
+  OPTIONS = {
+    :all        => false,
+    :read_only  => false,
+  }
+  ARGV.options do |opts|
+    script_name = File.basename($0)
+    opts.banner = "Usage: ruby #{script_name} [options]"
+    opts.separator ""
+    opts.on("-r", "--read-only", "Read Only.") { OPTIONS[:all] = true }
+    opts.on("-a", "--all", "All.") { OPTIONS[:read_only] = true }
+    opts.separator ""
+    opts.on("-h", "--help",
+            "Show this help message.") { puts opts; exit }
+    opts.parse!
+  end
+  tst = ThreadSafetyTest.new(OPTIONS)
+  tst.run_test_threads
+end