RubyGems - sdsykes-ferret - Versions diffs - 0.11.6.19 - Mend

sdsykes-ferret 0.11.6.19

Files changed (195) hide show

data/CHANGELOG +24 -0
data/MIT-LICENSE +20 -0
data/README +102 -0
data/Rakefile +338 -0
data/TODO +17 -0
data/TUTORIAL +231 -0
data/bin/ferret-browser +79 -0
data/ext/analysis.c +1555 -0
data/ext/analysis.h +219 -0
data/ext/api.c +69 -0
data/ext/api.h +27 -0
data/ext/array.c +123 -0
data/ext/array.h +53 -0
data/ext/bitvector.c +540 -0
data/ext/bitvector.h +272 -0
data/ext/compound_io.c +383 -0
data/ext/config.h +42 -0
data/ext/document.c +156 -0
data/ext/document.h +53 -0
data/ext/except.c +120 -0
data/ext/except.h +168 -0
data/ext/extconf.rb +14 -0
data/ext/ferret.c +402 -0
data/ext/ferret.h +91 -0
data/ext/filter.c +156 -0
data/ext/fs_store.c +483 -0
data/ext/global.c +418 -0
data/ext/global.h +117 -0
data/ext/hash.c +567 -0
data/ext/hash.h +473 -0
data/ext/hashset.c +170 -0
data/ext/hashset.h +187 -0
data/ext/header.h +58 -0
data/ext/helper.c +62 -0
data/ext/helper.h +13 -0
data/ext/inc/lang.h +48 -0
data/ext/inc/threading.h +31 -0
data/ext/index.c +6425 -0
data/ext/index.h +961 -0
data/ext/lang.h +66 -0
data/ext/libstemmer.c +92 -0
data/ext/libstemmer.h +79 -0
data/ext/mempool.c +87 -0
data/ext/mempool.h +35 -0
data/ext/modules.h +162 -0
data/ext/multimapper.c +310 -0
data/ext/multimapper.h +51 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +151 -0
data/ext/priorityqueue.h +143 -0
data/ext/q_boolean.c +1608 -0
data/ext/q_const_score.c +161 -0
data/ext/q_filtered_query.c +209 -0
data/ext/q_fuzzy.c +268 -0
data/ext/q_match_all.c +148 -0
data/ext/q_multi_term.c +677 -0
data/ext/q_parser.c +2825 -0
data/ext/q_phrase.c +1126 -0
data/ext/q_prefix.c +100 -0
data/ext/q_range.c +350 -0
data/ext/q_span.c +2402 -0
data/ext/q_term.c +337 -0
data/ext/q_wildcard.c +171 -0
data/ext/r_analysis.c +2575 -0
data/ext/r_index.c +3472 -0
data/ext/r_qparser.c +585 -0
data/ext/r_search.c +4105 -0
data/ext/r_store.c +513 -0
data/ext/r_utils.c +963 -0
data/ext/ram_store.c +471 -0
data/ext/search.c +1741 -0
data/ext/search.h +885 -0
data/ext/similarity.c +150 -0
data/ext/similarity.h +82 -0
data/ext/sort.c +983 -0
data/ext/stem_ISO_8859_1_danish.c +338 -0
data/ext/stem_ISO_8859_1_danish.h +16 -0
data/ext/stem_ISO_8859_1_dutch.c +635 -0
data/ext/stem_ISO_8859_1_dutch.h +16 -0
data/ext/stem_ISO_8859_1_english.c +1156 -0
data/ext/stem_ISO_8859_1_english.h +16 -0
data/ext/stem_ISO_8859_1_finnish.c +792 -0
data/ext/stem_ISO_8859_1_finnish.h +16 -0
data/ext/stem_ISO_8859_1_french.c +1276 -0
data/ext/stem_ISO_8859_1_french.h +16 -0
data/ext/stem_ISO_8859_1_german.c +512 -0
data/ext/stem_ISO_8859_1_german.h +16 -0
data/ext/stem_ISO_8859_1_italian.c +1091 -0
data/ext/stem_ISO_8859_1_italian.h +16 -0
data/ext/stem_ISO_8859_1_norwegian.c +296 -0
data/ext/stem_ISO_8859_1_norwegian.h +16 -0
data/ext/stem_ISO_8859_1_porter.c +776 -0
data/ext/stem_ISO_8859_1_porter.h +16 -0
data/ext/stem_ISO_8859_1_portuguese.c +1035 -0
data/ext/stem_ISO_8859_1_portuguese.h +16 -0
data/ext/stem_ISO_8859_1_spanish.c +1119 -0
data/ext/stem_ISO_8859_1_spanish.h +16 -0
data/ext/stem_ISO_8859_1_swedish.c +307 -0
data/ext/stem_ISO_8859_1_swedish.h +16 -0
data/ext/stem_KOI8_R_russian.c +701 -0
data/ext/stem_KOI8_R_russian.h +16 -0
data/ext/stem_UTF_8_danish.c +344 -0
data/ext/stem_UTF_8_danish.h +16 -0
data/ext/stem_UTF_8_dutch.c +653 -0
data/ext/stem_UTF_8_dutch.h +16 -0
data/ext/stem_UTF_8_english.c +1176 -0
data/ext/stem_UTF_8_english.h +16 -0
data/ext/stem_UTF_8_finnish.c +808 -0
data/ext/stem_UTF_8_finnish.h +16 -0
data/ext/stem_UTF_8_french.c +1296 -0
data/ext/stem_UTF_8_french.h +16 -0
data/ext/stem_UTF_8_german.c +526 -0
data/ext/stem_UTF_8_german.h +16 -0
data/ext/stem_UTF_8_italian.c +1113 -0
data/ext/stem_UTF_8_italian.h +16 -0
data/ext/stem_UTF_8_norwegian.c +302 -0
data/ext/stem_UTF_8_norwegian.h +16 -0
data/ext/stem_UTF_8_porter.c +794 -0
data/ext/stem_UTF_8_porter.h +16 -0
data/ext/stem_UTF_8_portuguese.c +1055 -0
data/ext/stem_UTF_8_portuguese.h +16 -0
data/ext/stem_UTF_8_russian.c +709 -0
data/ext/stem_UTF_8_russian.h +16 -0
data/ext/stem_UTF_8_spanish.c +1137 -0
data/ext/stem_UTF_8_spanish.h +16 -0
data/ext/stem_UTF_8_swedish.c +313 -0
data/ext/stem_UTF_8_swedish.h +16 -0
data/ext/stopwords.c +401 -0
data/ext/store.c +692 -0
data/ext/store.h +777 -0
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/utilities.c +446 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +29 -0
data/lib/ferret/browser.rb +246 -0
data/lib/ferret/browser/s/global.js +192 -0
data/lib/ferret/browser/s/style.css +148 -0
data/lib/ferret/browser/views/document/list.rhtml +49 -0
data/lib/ferret/browser/views/document/show.rhtml +27 -0
data/lib/ferret/browser/views/error/index.rhtml +7 -0
data/lib/ferret/browser/views/help/index.rhtml +8 -0
data/lib/ferret/browser/views/home/index.rhtml +29 -0
data/lib/ferret/browser/views/layout.rhtml +22 -0
data/lib/ferret/browser/views/term-vector/index.rhtml +4 -0
data/lib/ferret/browser/views/term/index.rhtml +199 -0
data/lib/ferret/browser/views/term/termdocs.rhtml +1 -0
data/lib/ferret/browser/webrick.rb +14 -0
data/lib/ferret/document.rb +130 -0
data/lib/ferret/field_infos.rb +44 -0
data/lib/ferret/index.rb +786 -0
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/setup.rb +1555 -0
data/test/test_all.rb +5 -0
data/test/test_helper.rb +24 -0
data/test/threading/number_to_spoken.rb +132 -0
data/test/threading/thread_safety_index_test.rb +79 -0
data/test/threading/thread_safety_read_write_test.rb +76 -0
data/test/threading/thread_safety_test.rb +133 -0
data/test/unit/analysis/tc_analyzer.rb +548 -0
data/test/unit/analysis/tc_token_stream.rb +646 -0
data/test/unit/index/tc_index.rb +762 -0
data/test/unit/index/tc_index_reader.rb +699 -0
data/test/unit/index/tc_index_writer.rb +437 -0
data/test/unit/index/th_doc.rb +315 -0
data/test/unit/largefile/tc_largefile.rb +46 -0
data/test/unit/query_parser/tc_query_parser.rb +238 -0
data/test/unit/search/tc_filter.rb +135 -0
data/test/unit/search/tc_fuzzy_query.rb +147 -0
data/test/unit/search/tc_index_searcher.rb +61 -0
data/test/unit/search/tc_multi_searcher.rb +128 -0
data/test/unit/search/tc_multiple_search_requests.rb +58 -0
data/test/unit/search/tc_search_and_sort.rb +179 -0
data/test/unit/search/tc_sort.rb +49 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +190 -0
data/test/unit/search/tm_searcher.rb +384 -0
data/test/unit/store/tc_fs_store.rb +77 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +34 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +2 -0
data/test/unit/ts_index.rb +2 -0
data/test/unit/ts_largefile.rb +4 -0
data/test/unit/ts_query_parser.rb +2 -0
data/test/unit/ts_search.rb +2 -0
data/test/unit/ts_store.rb +2 -0
data/test/unit/ts_utils.rb +2 -0
data/test/unit/utils/tc_bit_vector.rb +295 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +285 -0

data/test/unit/largefile/tc_largefile.rb ADDED

@@ -0,0 +1,46 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class SampleLargeTest < Test::Unit::TestCase
+  include Ferret::Index
+  include Ferret::Search
+  include Ferret::Store
+  include Ferret::Utils
+  INDEX_DIR = File.dirname(__FILE__) + "/../../temp/largefile"
+  RECORDS = 750
+  RECORD_SIZE = 10e5
+  def setup
+    @index = Index.new(:path => INDEX_DIR, :create_if_missing => true, :key => :id)
+    create_index! if @index.size == 0 or ENV["RELOAD_LARGE_INDEX"]
+  end
+  def test_file_index_created
+    assert @index.size == RECORDS, "Index size should be #{RECORDS}, is #{@index.size}"
+  end
+  def test_keys_work
+    @index << {:content => "foo", :id => RECORDS - 4}
+    assert @index.size == RECORDS, "Index size should be #{RECORDS}, is #{@index.size}"
+  end
+  def test_read_file_after_two_gigs
+    assert @index.reader[RECORDS - 5].load.is_a?Hash
+  end
+  def create_index!
+    @@already_built_large_index ||= false
+    return if @@already_built_large_index
+    @@already_built_large_index = true
+    a = "a"
+    RECORDS.times { |i|
+      seq = (a.succ! + " ") * RECORD_SIZE
+      record = {:id => i, :content => seq}
+    	@index << record
+    	print "i"
+    	STDOUT.flush
+    }
+    puts "o"
+    @index.optimize
+  end
+end

data/test/unit/query_parser/tc_query_parser.rb ADDED

@@ -0,0 +1,238 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class QueryParserTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_strings()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "field", "f1", "f2"],
+                                     :tokenized_fields => ["xxx", "f1", "f2"])
+    pairs = [
+      ['', ''],
+      ['*:word', 'word field:word f1:word f2:word'],
+      ['word', 'word'],
+      ['field:word', 'field:word'],
+      ['"word1 word2 word#"', '"word1 word2 word"'],
+      ['"word1 %%% word3"', '"word1 <> word3"~1'],
+      ['field:"one two three"', 'field:"one two three"'],
+      ['field:"one %%% three"', 'field:"one %%% three"'],
+      ['f1:"one %%% three"', 'f1:"one <> three"~1'],
+      ['field:"one <> three"', 'field:"one <> three"'],
+      ['field:"one <> three <>"', 'field:"one <> three"'],
+      ['field:"one <> <> <> three <>"', 'field:"one <> <> <> three"'],
+      ['field:"one <> 222 <> three|four|five <>"', 'field:"one <> 222 <> three|four|five"'],
+      ['field:"on1|tw2 THREE|four|five six|seven"', 'field:"on1|tw2 THREE|four|five six|seven"'],
+      ['field:"testing|trucks"', 'field:"testing|trucks"'],
+      ['[aaa bbb]', '[aaa bbb]'],
+      ['{aaa bbb]', '{aaa bbb]'],
+      ['field:[aaa bbb}', 'field:[aaa bbb}'],
+      ['{aaa bbb}', '{aaa bbb}'],
+      ['{aaa>', '{aaa>'],
+      ['[aaa>', '[aaa>'],
+      ['field:<a\ aa}', 'field:<a aa}'],
+      ['<aaa]', '<aaa]'],
+      ['>aaa', '{aaa>'],
+      ['>=aaa', '[aaa>'],
+      ['<aaa', '<aaa}'],
+      ['[A>', '[a>'],
+      ['field:<=aaa', 'field:<aaa]'],
+      ['REQ one REQ two', '+one +two'],
+      ['REQ one two', '+one two'],
+      ['one REQ two', 'one +two'],
+      ['+one +two', '+one +two'],
+      ['+one two', '+one two'],
+      ['one +two', 'one +two'],
+      ['-one -two', '-one -two'],
+      ['-one two', '-one two'],
+      ['one -two', 'one -two'],
+      ['!one !two', '-one -two'],
+      ['!one two', '-one two'],
+      ['one !two', 'one -two'],
+      ['NOT one NOT two', '-one -two'],
+      ['NOT one two', '-one two'],
+      ['one NOT two', 'one -two'],
+      ['NOT two', '-two +*'],
+      ['one two', 'one two'],
+      ['one OR two', 'one two'],
+      ['one AND two', '+one +two'],
+      ['one two AND three', 'one two +three'],
+      ['one two OR three', 'one two three'],
+      ['one (two AND three)', 'one (+two +three)'],
+      ['one AND (two OR three)', '+one +(two three)'],
+      ['field:(one AND (two OR three))', '+field:one +(field:two field:three)'],
+      ['one AND (two OR [aaa vvv})', '+one +(two [aaa vvv})'],
+      ['one AND (f1:two OR f2:three) AND four', '+one +(f1:two f2:three) +four'],
+      ['one^1.23', 'one^1.23'],
+      ['(one AND two)^100.23', '(+one +two)^100.23'],
+      ['field:(one AND two)^100.23', '(+field:one +field:two)^100.23'],
+      ['field:(one AND [aaa bbb]^23.3)^100.23', '(+field:one +field:[aaa bbb]^23.3)^100.23'],
+      ['(REQ field:"one two three")^23', 'field:"one two three"^23.0'],
+      ['asdf~0.2', 'asdf~0.2'],
+      ['field:asdf~0.2', 'field:asdf~0.2'],
+      ['asdf~0.2^100.0', 'asdf~0.2^100.0'],
+      ['field:asdf~0.2^0.1', 'field:asdf~0.2^0.1'],
+      ['field:"asdf <> asdf|asdf"~4', 'field:"asdf <> asdf|asdf"~4'],
+      ['"one two three four five"~5', '"one two three four five"~5'],
+      ['ab?de', 'ab?de'],
+      ['ab*de', 'ab*de'],
+      ['asdf?*?asd*dsf?asfd*asdf?', 'asdf?*?asd*dsf?asfd*asdf?'],
+      ['field:a* AND field:(b*)', '+field:a* +field:b*'],
+      ['field:abc~ AND field:(b*)', '+field:abc~ +field:b*'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['*:xxx', 'xxx field:xxx f1:xxx f2:xxx'],
+      ['f1|f2:xxx', 'f1:xxx f2:xxx'],
+      ['*:asd~0.2', 'asd~0.2 field:asd~0.2 f1:asd~0.2 f2:asd~0.2'],
+      ['f1|f2:asd~0.2', 'f1:asd~0.2 f2:asd~0.2'],
+      ['*:a?d*^20.0', '(a?d* field:a?d* f1:a?d* f2:a?d*)^20.0'],
+      ['f1|f2:a?d*^20.0', '(f1:a?d* f2:a?d*)^20.0'],
+      ['*:"asdf <> xxx|yyy"', '"asdf <> xxx|yyy" field:"asdf <> xxx|yyy" f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy"'],
+      ['f1|f2:"asdf <> xxx|yyy"', 'f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy"'],
+      ['f1|f2:"asdf <> do|yyy"', 'f1:"asdf <> yyy" f2:"asdf <> yyy"'],
+      ['f1|f2:"do|cat"', 'f1:cat f2:cat'],
+      ['*:[bbb xxx]', '[bbb xxx] field:[bbb xxx] f1:[bbb xxx] f2:[bbb xxx]'],
+      ['f1|f2:[bbb xxx]', 'f1:[bbb xxx] f2:[bbb xxx]'],
+      ['*:(xxx AND bbb)', '+(xxx field:xxx f1:xxx f2:xxx) +(bbb field:bbb f1:bbb f2:bbb)'],
+      ['f1|f2:(xxx AND bbb)', '+(f1:xxx f2:xxx) +(f1:bbb f2:bbb)'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['"onewordphrase"', 'onewordphrase'],
+      ["who'd", "who'd"]
+    ]
+    pairs.each do |query_str, expected|
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+  def test_qp_with_standard_analyzer()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => StandardAnalyzer.new)
+    pairs = [
+      ['key:1234', 'key:1234'],
+      ['key:(1234 and Dave)', 'key:1234 key:dave'],
+      ['key:(1234)', 'key:1234'],
+      ['and the but they with', '']
+    ]
+    pairs.each do |query_str, expected|
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+  def test_qp_changing_fields()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new)
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
+    parser.fields = ["xxx", "one", "two", "three"]
+    assert_equal('word one:word two:word three:word',
+                 parser.parse("*:word").to_s("xxx"))
+    assert_equal('three:word four:word',
+                 parser.parse("three:word four:word").to_s("xxx"))
+  end
+  def test_qp_allow_any_field()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new,
+                                     :validate_fields => true)
+    assert_equal('key:word',
+                 parser.parse("key:word song:word").to_s("xxx"))
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new)
+    assert_equal('key:word song:word',
+                 parser.parse("key:word song:word").to_s("xxx"))
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
+  end
+  def do_test_query_parse_exception_raised(str)
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["f1", "f2", "f3"],
+                                     :handle_parse_errors => false)
+    assert_raise(Ferret::QueryParser::QueryParseException,
+                 str + " should have failed") do
+      parser.parse(str)
+    end
+  end
+  def test_or_default
+    parser = Ferret::QueryParser.new(:default_field => :*,
+                                     :fields => [:x, :y],
+                                     :or_default => false,
+                                     :analyzer => StandardAnalyzer.new)
+    pairs = [
+      ['word', 'x:word y:word'],
+      ['word1 word2', '+(x:word1 y:word1) +(x:word2 y:word2)']
+    ]
+    pairs.each do |query_str, expected|
+      assert_equal(expected, parser.parse(query_str).to_s(""))
+    end
+  end
+  def test_prefix_query
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx"],
+                                     :analyzer => StandardAnalyzer.new)
+    assert_equal(Ferret::Search::PrefixQuery, parser.parse("asdg*").class)
+    assert_equal(Ferret::Search::WildcardQuery, parser.parse("a?dg*").class)
+    assert_equal(Ferret::Search::WildcardQuery, parser.parse("a*dg*").class)
+    assert_equal(Ferret::Search::WildcardQuery, parser.parse("adg*c").class)
+  end
+  def test_bad_queries
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["f1", "f2"])
+    pairs = [
+      ['::*word', 'word'],
+      ['::*&)(*^&*(', ''],
+      ['::*&one)(*two(*&"', '"one two"~1'],
+      [':', ''],
+      ['[, ]', ''],
+      ['{, }', ''],
+      ['!', ''],
+      ['+', ''],
+      ['~', ''],
+      ['^', ''],
+      ['-', ''],
+      ['|', ''],
+      ['<, >', ''],
+      ['=', ''],
+      ['<script>', 'script']
+    ]
+    pairs.each do |query_str, expected|
+      do_test_query_parse_exception_raised(query_str)
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+  def test_use_keywords_switch
+    analyzer = LetterAnalyzer.new
+    parser = Ferret::QueryParser.new(:analyzer => analyzer,
+                                     :default_field => "xxx")
+    assert_equal("+www (+xxx +yyy) -zzz",
+                 parser.parse("REQ www (xxx AND yyy) OR NOT zzz").to_s("xxx"))
+    parser = Ferret::QueryParser.new(:analyzer => analyzer,
+                                     :default_field => "xxx",
+                                     :use_keywords => false)
+    assert_equal("req www (xxx and yyy) or not zzz",
+                 parser.parse("REQ www (xxx AND yyy) OR NOT zzz").to_s("xxx"))
+  end
+end

data/test/unit/search/tc_filter.rb ADDED

@@ -0,0 +1,135 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class FilterTest < Test::Unit::TestCase
+  include Ferret::Search
+  include Ferret::Analysis
+  include Ferret::Index
+  def setup()
+    @dir = Ferret::Store::RAMDirectory.new()
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    [
+      {:int => "0", :date => "20040601", :switch => "on"},
+      {:int => "1", :date => "20041001", :switch => "off"},
+      {:int => "2", :date => "20051101", :switch => "on"},
+      {:int => "3", :date => "20041201", :switch => "off"},
+      {:int => "4", :date => "20051101", :switch => "on"},
+      {:int => "5", :date => "20041201", :switch => "off"},
+      {:int => "6", :date => "20050101", :switch => "on"},
+      {:int => "7", :date => "20040701", :switch => "off"},
+      {:int => "8", :date => "20050301", :switch => "on"},
+      {:int => "9", :date => "20050401", :switch => "off"}
+    ].each {|doc| iw << doc}
+    iw.close
+  end
+  def teardown()
+    @dir.close()
+  end
+  def do_test_top_docs(searcher, query, expected, filter)
+    top_docs = searcher.search(query, {:filter => filter})
+    #puts top_docs
+    assert_equal(expected.size, top_docs.hits.size)
+    top_docs.total_hits.times do |i|
+      assert_equal(expected[i], top_docs.hits[i].doc)
+    end
+  end
+  def test_filter_proc
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    filter_proc = lambda {|doc, score, s| (s[doc][:int] % 2) == 0}
+    top_docs = searcher.search(q, :filter_proc => filter_proc)
+    top_docs.hits.each do |hit|
+      assert_equal(0, searcher[hit.doc][:int] % 2)
+    end
+  end
+  def test_range_filter
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    rf = RangeFilter.new(:int, :>= => "2", :<= => "6")
+    do_test_top_docs(searcher, q, [2,3,4,5,6], rf)
+    rf = RangeFilter.new(:int, :>= => "2", :< => "6")
+    do_test_top_docs(searcher, q, [2,3,4,5], rf)
+    rf = RangeFilter.new(:int, :> => "2", :<= => "6")
+    do_test_top_docs(searcher, q, [3,4,5,6], rf)
+    rf = RangeFilter.new(:int, :> => "2", :< => "6")
+    do_test_top_docs(searcher, q, [3,4,5], rf)
+    rf = RangeFilter.new(:int, :>= => "6")
+    do_test_top_docs(searcher, q, [6,7,8,9], rf)
+    rf = RangeFilter.new(:int, :> => "6")
+    do_test_top_docs(searcher, q, [7,8,9], rf)
+    rf = RangeFilter.new(:int, :<= => "2")
+    do_test_top_docs(searcher, q, [0,1,2], rf)
+    rf = RangeFilter.new(:int, :< => "2")
+    do_test_top_docs(searcher, q, [0,1], rf)
+    bits = rf.bits(searcher.reader)
+    assert(bits[0])
+    assert(bits[1])
+    assert(!bits[2])
+    assert(!bits[3])
+    assert(!bits[4])
+  end
+  def test_range_filter_errors
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :> => "b", :< => "a")}
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :include_lower => true)}
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :include_upper => true)}
+  end
+  def test_query_filter()
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    qf = QueryFilter.new(TermQuery.new(:switch, "on"))
+    do_test_top_docs(searcher, q, [0,2,4,6,8], qf)
+    # test again to test caching doesn't break it
+    do_test_top_docs(searcher, q, [0,2,4,6,8], qf)
+    qf = QueryFilter.new(TermQuery.new(:switch, "off"))
+    do_test_top_docs(searcher, q, [1,3,5,7,9], qf)
+    bits = qf.bits(searcher.reader)
+    assert(bits[1])
+    assert(bits[3])
+    assert(bits[5])
+    assert(bits[7])
+    assert(bits[9])
+    assert(!bits[0])
+    assert(!bits[2])
+    assert(!bits[4])
+    assert(!bits[6])
+    assert(!bits[8])
+  end
+  def test_filtered_query
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    rf = RangeFilter.new(:int, :>= => "2", :<= => "6")
+    rq = FilteredQuery.new(q, rf)
+    qf = QueryFilter.new(TermQuery.new(:switch, "on"))
+    do_test_top_docs(searcher, rq, [2,4,6], qf)
+    query = FilteredQuery.new(rq, qf)
+    rf2 = RangeFilter.new(:int, :>= => "3")
+    do_test_top_docs(searcher, query, [4,6], rf2)
+  end
+  class CustomFilter
+    def bits(ir)
+      bv = Ferret::Utils::BitVector.new
+      bv[0] = bv[2] = bv[4] = true
+      bv
+    end
+  end
+  def test_custom_filter
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new
+    filt = CustomFilter.new
+    do_test_top_docs(searcher, q, [0, 2, 4], filt)
+  end
+end

data/test/unit/search/tc_fuzzy_query.rb ADDED

@@ -0,0 +1,147 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class FuzzyQueryTest < Test::Unit::TestCase
+  include Ferret::Search
+  include Ferret::Store
+  include Ferret::Analysis
+  include Ferret::Index
+  def add_doc(text, writer)
+    writer << {:field => text}
+  end
+  def setup()
+    @dir = RAMDirectory.new()
+  end
+  def teardown()
+    @dir.close()
+  end
+  def do_test_top_docs(is, query, expected)
+    top_docs = is.search(query)
+    assert_equal(expected.length, top_docs.total_hits,
+                "expected #{expected.length} hits but got #{top_docs.total_hits}")
+    assert_equal(expected.length, top_docs.hits.size)
+    top_docs.total_hits.times do |i|
+      assert_equal(expected[i], top_docs.hits[i].doc)
+    end
+  end
+  def do_prefix_test(is, text, prefix, expected)
+    fq = FuzzyQuery.new(:field, text, :prefix_length => prefix)
+    #puts is.explain(fq, 0)
+    #puts is.explain(fq, 1)
+    do_test_top_docs(is, fq, expected)
+  end
+  def test_fuzziness()
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    add_doc("aaaaa", iw)
+    add_doc("aaaab", iw)
+    add_doc("aaabb", iw)
+    add_doc("aabbb", iw)
+    add_doc("abbbb", iw)
+    add_doc("bbbbb", iw)
+    add_doc("ddddd", iw)
+    add_doc("ddddddddddddddddddddd", iw) # test max_distances problem
+    add_doc("aaaaaaaaaaaaaaaaaaaaaaa", iw) # test max_distances problem
+    #iw.optimize()
+    iw.close()
+    is = Searcher.new(@dir)
+    fq = FuzzyQuery.new(:field, "aaaaa", :prefix_length => 5)
+    do_prefix_test(is, "aaaaaaaaaaaaaaaaaaaaaa", 1, [8])
+    do_prefix_test(is, "aaaaa", 0, [0,1,2])
+    do_prefix_test(is, "aaaaa", 1, [0,1,2])
+    do_prefix_test(is, "aaaaa", 2, [0,1,2])
+    do_prefix_test(is, "aaaaa", 3, [0,1,2])
+    do_prefix_test(is, "aaaaa", 4, [0,1])
+    do_prefix_test(is, "aaaaa", 5, [0])
+    do_prefix_test(is, "aaaaa", 6, [0])
+    do_prefix_test(is, "xxxxx", 0, [])
+    do_prefix_test(is, "aaccc", 0, [])
+    do_prefix_test(is, "aaaac", 0, [0,1,2])
+    do_prefix_test(is, "aaaac", 1, [0,1,2])
+    do_prefix_test(is, "aaaac", 2, [0,1,2])
+    do_prefix_test(is, "aaaac", 3, [0,1,2])
+    do_prefix_test(is, "aaaac", 4, [0,1])
+    do_prefix_test(is, "aaaac", 5, [])
+    do_prefix_test(is, "ddddX", 0, [6])
+    do_prefix_test(is, "ddddX", 1, [6])
+    do_prefix_test(is, "ddddX", 2, [6])
+    do_prefix_test(is, "ddddX", 3, [6])
+    do_prefix_test(is, "ddddX", 4, [6])
+    do_prefix_test(is, "ddddX", 5, [])
+    fq = FuzzyQuery.new(:anotherfield, "ddddX", :prefix_length => 0)
+    top_docs = is.search(fq)
+    assert_equal(0, top_docs.total_hits)
+    is.close()
+  end
+  def test_fuzziness_long()
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    add_doc("aaaaaaa", iw)
+    add_doc("segment", iw)
+    iw.optimize()
+    iw.close()
+    is = Searcher.new(@dir)
+    # not similar enough:
+    do_prefix_test(is, "xxxxx", 0, [])
+    # edit distance to "aaaaaaa" = 3, this matches because the string is longer than
+    # in testDefaultFuzziness so a bigger difference is allowed:
+    do_prefix_test(is, "aaaaccc", 0, [0])
+    # now with prefix
+    do_prefix_test(is, "aaaaccc", 1, [0])
+    do_prefix_test(is, "aaaaccc", 4, [0])
+    do_prefix_test(is, "aaaaccc", 5, [])
+    # no match, more than half of the characters is wrong:
+    do_prefix_test(is, "aaacccc", 0, [])
+    # now with prefix
+    do_prefix_test(is, "aaacccc", 1, [])
+    # "student" and "stellent" are indeed similar to "segment" by default:
+    do_prefix_test(is, "student", 0, [1])
+    do_prefix_test(is, "stellent", 0, [1])
+    # now with prefix
+    do_prefix_test(is, "student", 2, [])
+    do_prefix_test(is, "stellent", 2, [])
+    # "student" doesn't match anymore thanks to increased minimum similarity:
+    fq = FuzzyQuery.new(:field, "student",
+                        :min_similarity => 0.6,
+                        :prefix_length => 0)
+    top_docs = is.search(fq)
+    assert_equal(0, top_docs.total_hits)
+    assert_raise(ArgumentError) do
+      fq = FuzzyQuery.new(:f, "s", :min_similarity => 1.1)
+    end
+    assert_raise(ArgumentError) do
+      fq = FuzzyQuery.new(:f, "s", :min_similarity => -0.1)
+    end
+    is.close()
+  end
+end