RubyGems - ferret - Versions diffs - 0.1.0 - Mend

ferret 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

data/MIT-LICENSE +20 -0
data/README +109 -0
data/Rakefile +275 -0
data/TODO +9 -0
data/TUTORIAL +197 -0
data/ext/extconf.rb +3 -0
data/ext/ferret.c +23 -0
data/ext/ferret.h +85 -0
data/ext/index_io.c +543 -0
data/ext/priority_queue.c +227 -0
data/ext/ram_directory.c +316 -0
data/ext/segment_merge_queue.c +41 -0
data/ext/string_helper.c +42 -0
data/ext/tags +240 -0
data/ext/term.c +261 -0
data/ext/term_buffer.c +299 -0
data/ext/util.c +12 -0
data/lib/ferret.rb +41 -0
data/lib/ferret/analysis.rb +11 -0
data/lib/ferret/analysis/analyzers.rb +93 -0
data/lib/ferret/analysis/standard_tokenizer.rb +65 -0
data/lib/ferret/analysis/token.rb +79 -0
data/lib/ferret/analysis/token_filters.rb +86 -0
data/lib/ferret/analysis/token_stream.rb +26 -0
data/lib/ferret/analysis/tokenizers.rb +107 -0
data/lib/ferret/analysis/word_list_loader.rb +27 -0
data/lib/ferret/document.rb +2 -0
data/lib/ferret/document/document.rb +152 -0
data/lib/ferret/document/field.rb +304 -0
data/lib/ferret/index.rb +26 -0
data/lib/ferret/index/compound_file_io.rb +343 -0
data/lib/ferret/index/document_writer.rb +288 -0
data/lib/ferret/index/field_infos.rb +259 -0
data/lib/ferret/index/fields_io.rb +175 -0
data/lib/ferret/index/index.rb +228 -0
data/lib/ferret/index/index_file_names.rb +33 -0
data/lib/ferret/index/index_reader.rb +462 -0
data/lib/ferret/index/index_writer.rb +488 -0
data/lib/ferret/index/multi_reader.rb +363 -0
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +105 -0
data/lib/ferret/index/segment_infos.rb +130 -0
data/lib/ferret/index/segment_merge_info.rb +47 -0
data/lib/ferret/index/segment_merge_queue.rb +16 -0
data/lib/ferret/index/segment_merger.rb +337 -0
data/lib/ferret/index/segment_reader.rb +380 -0
data/lib/ferret/index/segment_term_enum.rb +178 -0
data/lib/ferret/index/segment_term_vector.rb +58 -0
data/lib/ferret/index/term.rb +49 -0
data/lib/ferret/index/term_buffer.rb +88 -0
data/lib/ferret/index/term_doc_enum.rb +283 -0
data/lib/ferret/index/term_enum.rb +52 -0
data/lib/ferret/index/term_info.rb +41 -0
data/lib/ferret/index/term_infos_io.rb +312 -0
data/lib/ferret/index/term_vector_offset_info.rb +20 -0
data/lib/ferret/index/term_vectors_io.rb +552 -0
data/lib/ferret/query_parser.rb +274 -0
data/lib/ferret/query_parser/query_parser.tab.rb +819 -0
data/lib/ferret/search.rb +49 -0
data/lib/ferret/search/boolean_clause.rb +100 -0
data/lib/ferret/search/boolean_query.rb +303 -0
data/lib/ferret/search/boolean_scorer.rb +294 -0
data/lib/ferret/search/caching_wrapper_filter.rb +40 -0
data/lib/ferret/search/conjunction_scorer.rb +99 -0
data/lib/ferret/search/disjunction_sum_scorer.rb +203 -0
data/lib/ferret/search/exact_phrase_scorer.rb +32 -0
data/lib/ferret/search/explanation.rb +41 -0
data/lib/ferret/search/field_cache.rb +216 -0
data/lib/ferret/search/field_doc.rb +31 -0
data/lib/ferret/search/field_sorted_hit_queue.rb +184 -0
data/lib/ferret/search/filter.rb +11 -0
data/lib/ferret/search/filtered_query.rb +130 -0
data/lib/ferret/search/filtered_term_enum.rb +79 -0
data/lib/ferret/search/fuzzy_query.rb +153 -0
data/lib/ferret/search/fuzzy_term_enum.rb +244 -0
data/lib/ferret/search/hit_collector.rb +34 -0
data/lib/ferret/search/hit_queue.rb +11 -0
data/lib/ferret/search/index_searcher.rb +173 -0
data/lib/ferret/search/match_all_docs_query.rb +104 -0
data/lib/ferret/search/multi_phrase_query.rb +204 -0
data/lib/ferret/search/multi_term_query.rb +65 -0
data/lib/ferret/search/non_matching_scorer.rb +22 -0
data/lib/ferret/search/phrase_positions.rb +55 -0
data/lib/ferret/search/phrase_query.rb +217 -0
data/lib/ferret/search/phrase_scorer.rb +153 -0
data/lib/ferret/search/prefix_query.rb +47 -0
data/lib/ferret/search/query.rb +111 -0
data/lib/ferret/search/query_filter.rb +51 -0
data/lib/ferret/search/range_filter.rb +103 -0
data/lib/ferret/search/range_query.rb +139 -0
data/lib/ferret/search/req_excl_scorer.rb +125 -0
data/lib/ferret/search/req_opt_sum_scorer.rb +70 -0
data/lib/ferret/search/score_doc.rb +38 -0
data/lib/ferret/search/score_doc_comparator.rb +114 -0
data/lib/ferret/search/scorer.rb +91 -0
data/lib/ferret/search/similarity.rb +278 -0
data/lib/ferret/search/sloppy_phrase_scorer.rb +47 -0
data/lib/ferret/search/sort.rb +105 -0
data/lib/ferret/search/sort_comparator.rb +60 -0
data/lib/ferret/search/sort_field.rb +87 -0
data/lib/ferret/search/spans.rb +12 -0
data/lib/ferret/search/spans/near_spans_enum.rb +304 -0
data/lib/ferret/search/spans/span_first_query.rb +79 -0
data/lib/ferret/search/spans/span_near_query.rb +108 -0
data/lib/ferret/search/spans/span_not_query.rb +130 -0
data/lib/ferret/search/spans/span_or_query.rb +176 -0
data/lib/ferret/search/spans/span_query.rb +25 -0
data/lib/ferret/search/spans/span_scorer.rb +74 -0
data/lib/ferret/search/spans/span_term_query.rb +105 -0
data/lib/ferret/search/spans/span_weight.rb +84 -0
data/lib/ferret/search/spans/spans_enum.rb +44 -0
data/lib/ferret/search/term_query.rb +128 -0
data/lib/ferret/search/term_scorer.rb +181 -0
data/lib/ferret/search/top_docs.rb +24 -0
data/lib/ferret/search/top_field_docs.rb +17 -0
data/lib/ferret/search/weight.rb +54 -0
data/lib/ferret/search/wildcard_query.rb +26 -0
data/lib/ferret/search/wildcard_term_enum.rb +61 -0
data/lib/ferret/stemmers.rb +1 -0
data/lib/ferret/stemmers/porter_stemmer.rb +218 -0
data/lib/ferret/store.rb +5 -0
data/lib/ferret/store/buffered_index_io.rb +191 -0
data/lib/ferret/store/directory.rb +139 -0
data/lib/ferret/store/fs_store.rb +338 -0
data/lib/ferret/store/index_io.rb +259 -0
data/lib/ferret/store/ram_store.rb +282 -0
data/lib/ferret/utils.rb +7 -0
data/lib/ferret/utils/bit_vector.rb +105 -0
data/lib/ferret/utils/date_tools.rb +138 -0
data/lib/ferret/utils/number_tools.rb +91 -0
data/lib/ferret/utils/parameter.rb +41 -0
data/lib/ferret/utils/priority_queue.rb +120 -0
data/lib/ferret/utils/string_helper.rb +47 -0
data/lib/ferret/utils/weak_key_hash.rb +51 -0
data/rake_utils/code_statistics.rb +106 -0
data/setup.rb +1551 -0
data/test/benchmark/tb_ram_store.rb +76 -0
data/test/benchmark/tb_rw_vint.rb +26 -0
data/test/longrunning/tc_numbertools.rb +60 -0
data/test/longrunning/tm_store.rb +19 -0
data/test/test_all.rb +9 -0
data/test/test_helper.rb +6 -0
data/test/unit/analysis/tc_analyzer.rb +21 -0
data/test/unit/analysis/tc_letter_tokenizer.rb +20 -0
data/test/unit/analysis/tc_lower_case_filter.rb +20 -0
data/test/unit/analysis/tc_lower_case_tokenizer.rb +27 -0
data/test/unit/analysis/tc_per_field_analyzer_wrapper.rb +39 -0
data/test/unit/analysis/tc_porter_stem_filter.rb +16 -0
data/test/unit/analysis/tc_standard_analyzer.rb +20 -0
data/test/unit/analysis/tc_standard_tokenizer.rb +20 -0
data/test/unit/analysis/tc_stop_analyzer.rb +20 -0
data/test/unit/analysis/tc_stop_filter.rb +14 -0
data/test/unit/analysis/tc_white_space_analyzer.rb +21 -0
data/test/unit/analysis/tc_white_space_tokenizer.rb +20 -0
data/test/unit/analysis/tc_word_list_loader.rb +32 -0
data/test/unit/document/tc_document.rb +47 -0
data/test/unit/document/tc_field.rb +80 -0
data/test/unit/index/tc_compound_file_io.rb +107 -0
data/test/unit/index/tc_field_infos.rb +119 -0
data/test/unit/index/tc_fields_io.rb +167 -0
data/test/unit/index/tc_index.rb +140 -0
data/test/unit/index/tc_index_reader.rb +622 -0
data/test/unit/index/tc_index_writer.rb +57 -0
data/test/unit/index/tc_multiple_term_doc_pos_enum.rb +80 -0
data/test/unit/index/tc_segment_infos.rb +74 -0
data/test/unit/index/tc_segment_term_docs.rb +17 -0
data/test/unit/index/tc_segment_term_enum.rb +60 -0
data/test/unit/index/tc_segment_term_vector.rb +71 -0
data/test/unit/index/tc_term.rb +22 -0
data/test/unit/index/tc_term_buffer.rb +57 -0
data/test/unit/index/tc_term_info.rb +19 -0
data/test/unit/index/tc_term_infos_io.rb +192 -0
data/test/unit/index/tc_term_vector_offset_info.rb +18 -0
data/test/unit/index/tc_term_vectors_io.rb +108 -0
data/test/unit/index/th_doc.rb +244 -0
data/test/unit/query_parser/tc_query_parser.rb +84 -0
data/test/unit/search/tc_filter.rb +113 -0
data/test/unit/search/tc_fuzzy_query.rb +136 -0
data/test/unit/search/tc_index_searcher.rb +188 -0
data/test/unit/search/tc_search_and_sort.rb +98 -0
data/test/unit/search/tc_similarity.rb +37 -0
data/test/unit/search/tc_sort.rb +48 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +153 -0
data/test/unit/store/tc_fs_store.rb +84 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +180 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/ts_analysis.rb +16 -0
data/test/unit/ts_document.rb +4 -0
data/test/unit/ts_index.rb +18 -0
data/test/unit/ts_query_parser.rb +3 -0
data/test/unit/ts_search.rb +10 -0
data/test/unit/ts_store.rb +6 -0
data/test/unit/ts_utils.rb +10 -0
data/test/unit/utils/tc_bit_vector.rb +65 -0
data/test/unit/utils/tc_date_tools.rb +50 -0
data/test/unit/utils/tc_number_tools.rb +59 -0
data/test/unit/utils/tc_parameter.rb +40 -0
data/test/unit/utils/tc_priority_queue.rb +62 -0
data/test/unit/utils/tc_string_helper.rb +21 -0
data/test/unit/utils/tc_weak_key_hash.rb +25 -0
metadata +251 -0

data/test/unit/query_parser/tc_query_parser.rb ADDED

@@ -0,0 +1,84 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class QueryParserTest < Test::Unit::TestCase
+  def setup()
+    @parser = Ferret::QueryParser.new("xxx")
+  end
+  def test_strings()
+    pairs = [
+      ['word', 'word'],
+      ['field:word', 'field:word'],
+      ['"word1 word2 word3"', '"word word word"'],
+      ['"word1 2342 word3"', '"word word"'],
+      ['field:"one two three"', 'field:"one two three"'],
+      ['field:"one 222 three"', 'field:"one three"'],
+      ['field:"one <> three"', 'field:"one <> three"'],
+      ['field:"one <> three <>"', 'field:"one <> three"'],
+      ['field:"one <> <> <> three <>"', 'field:"one <> <> <> three"'],
+      ['field:"one <> <> <> three|four|five <>"', 'field:"one <> <> <> three|four|five"'],
+      ['field:"one|two three|four|five six|seven"', 'field:"one|two three|four|five six|seven"'],
+      ['[aaa bbb]', '[aaa bbb]'],
+      ['{aaa bbb]', '{aaa bbb]'],
+      ['field:[aaa bbb}', 'field:[aaa bbb}'],
+      ['{aaa bbb}', '{aaa bbb}'],
+      ['{aaa|', '{aaa|'],
+      ['[aaa|', '[aaa|'],
+      ['field:|aaa}', 'field:|aaa}'],
+      ['|aaa]', '|aaa]'],
+      ['>aaa', '{aaa|'],
+      ['>=aaa', '[aaa|'],
+      ['<aaa', '|aaa}'],
+      ['field:<=aaa', 'field:|aaa]'],
+      ['REQ one REQ two', '+one +two'],
+      ['REQ one two', '+one two'],
+      ['one REQ two', 'one +two'],
+      ['+one +two', '+one +two'],
+      ['+one two', '+one two'],
+      ['one +two', 'one +two'],
+      ['-one -two', '-one -two'],
+      ['-one two', '-one two'],
+      ['one -two', 'one -two'],
+      ['!one !two', '-one -two'],
+      ['!one two', '-one two'],
+      ['one !two', 'one -two'],
+      ['NOT one NOT two', '-one -two'],
+      ['NOT one two', '-one two'],
+      ['one NOT two', 'one -two'],
+      ['one two', 'one two'],
+      ['one OR two', 'one two'],
+      ['one AND two', '+one +two'],
+      ['one two AND three', 'one two +three'],
+      ['one two OR three', 'one two three'],
+      ['one (two AND three)', 'one (+two +three)'],
+      ['one AND (two OR three)', '+one +(two three)'],
+      ['field:(one AND (two OR three))', '+field:one +(field:two field:three)'],
+      ['one AND (two OR [aaa vvv})', '+one +(two [aaa vvv})'],
+      ['one AND (one:two OR two:three) AND four', '+one +(one:two two:three) +four'],
+      ['one^1.23', 'one^1.23'],
+      ['(one AND two)^100.23', '(+one +two)^100.23'],
+      ['field:(one AND two)^100.23', '(+field:one +field:two)^100.23'],
+      ['field:(one AND [aaa bbb]^23.3)^100.23', '(+field:one +field:[aaa bbb]^23.3)^100.23'],
+      ['(REQ field:"one two three")^23', 'field:"one two three"^23.0'],
+      ['asdf~0.2', 'asdf~0.2'],
+      ['field:asdf~0.2', 'field:asdf~0.2'],
+      ['asdf~0.2^100.0', 'asdf~0.2^100.0'],
+      ['field:asdf~0.2^0.1', 'field:asdf~0.2^0.1'],
+      ['field:"asdf <> asdf|asdf"~4', 'field:"asdf <> asdf|asdf"~4'],
+      ['"one two three four five"~5', '"one two three four five"~5'],
+      ['ab?de', 'ab?de'],
+      ['ab*de', 'ab*de'],
+      ['asdf?*?asd*dsf?asfd*asdf?', 'asdf?*?asd*dsf?asfd*asdf?'],
+      ['field:a* AND field:(b*)', '+field:a* +field:b*'],
+      ['field:abc~ AND field:(b*)', '+field:abc~0.5 +field:b*'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0']
+    ]
+    pairs.each do |pair|
+      assert_equal(pair[1], @parser.parse(pair[0]).to_s(@parser.default_field))
+    end
+  end
+end

data/test/unit/search/tc_filter.rb ADDED

@@ -0,0 +1,113 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class FilterTest < Test::Unit::TestCase
+  include Ferret::Document
+  include Ferret::Search
+  include Ferret::Analysis
+  include Ferret::Index
+  def add_doc(hash, writer)
+    doc = Document.new()
+    hash.each_pair do |field, text|
+      doc << Field.new(field, text, Field::Store::NO, Field::Index::UNTOKENIZED)
+    end
+    writer << doc
+  end
+  def setup()
+    @dir = Ferret::Store::RAMDirectory.new()
+    iw = IndexWriter.new(@dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    docs = [
+      {"int"=>"0","date"=>"20040601","switch"=>"on"},
+      {"int"=>"1","date"=>"20041001","switch"=>"off"},
+      {"int"=>"2","date"=>"20051101","switch"=>"on"},
+      {"int"=>"3","date"=>"20041201","switch"=>"off"},
+      {"int"=>"4","date"=>"20051101","switch"=>"on"},
+      {"int"=>"5","date"=>"20041201","switch"=>"off"},
+      {"int"=>"6","date"=>"20050101","switch"=>"on"},
+      {"int"=>"7","date"=>"20040701","switch"=>"off"},
+      {"int"=>"8","date"=>"20050301","switch"=>"on"},
+      {"int"=>"9","date"=>"20050401","switch"=>"off"}
+    ]
+    docs.each {|doc| add_doc(doc, iw)}
+    iw.close
+  end
+  def tear_down()
+    @dir.close()
+  end
+  def do_test_top_docs(is, query, expected, filter)
+    top_docs = is.search(query, {:filter => filter})
+    #puts top_docs
+    assert_equal(expected.size, top_docs.score_docs.size)
+    top_docs.total_hits.times do |i|
+      assert_equal(expected[i], top_docs.score_docs[i].doc)
+    end
+  end
+  def test_range_filter
+    is = IndexSearcher.new(@dir)
+    q = MatchAllDocsQuery.new()
+    rf = RangeFilter.new("int", "2", "6", true, true)
+    do_test_top_docs(is, q, [2,3,4,5,6], rf)
+    rf = RangeFilter.new("int", "2", "6", true, false)
+    do_test_top_docs(is, q, [2,3,4,5], rf)
+    rf = RangeFilter.new("int", "2", "6", false, true)
+    do_test_top_docs(is, q, [3,4,5,6], rf)
+    rf = RangeFilter.new("int", "2", "6", false, false)
+    do_test_top_docs(is, q, [3,4,5], rf)
+    rf = RangeFilter.new_more("int", "6")
+    do_test_top_docs(is, q, [6,7,8,9], rf)
+    rf = RangeFilter.new_more("int", "6", false)
+    do_test_top_docs(is, q, [7,8,9], rf)
+    rf = RangeFilter.new_less("int", "2")
+    do_test_top_docs(is, q, [0,1,2], rf)
+    rf = RangeFilter.new_less("int", "2", false)
+    do_test_top_docs(is, q, [0,1], rf)
+  end
+  def test_range_filter_errors
+    assert_raise(ArgumentError) {f = RangeFilter.new("", "asd", nil, false, true)}
+    assert_raise(ArgumentError) {f = RangeFilter.new("", nil, "asd", true, false)}
+    assert_raise(ArgumentError) {f = RangeFilter.new("", "ac", "ab", false, false)}
+    assert_raise(ArgumentError) {f = RangeFilter.new("", nil, nil, false, false)}
+  end
+  def test_query_filter()
+    is = IndexSearcher.new(@dir)
+    q = MatchAllDocsQuery.new()
+    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "on")))
+    do_test_top_docs(is, q, [0,2,4,6,8], qf)
+    # test again to test caching doesn't break it
+    do_test_top_docs(is, q, [0,2,4,6,8], qf)
+    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "off")))
+    do_test_top_docs(is, q, [1,3,5,7,9], qf)
+  end
+  def test_caching_wrapper_filter
+    is = IndexSearcher.new(@dir)
+    q = MatchAllDocsQuery.new()
+    rf = RangeFilter.new("int", "2", "6", true, true)
+    cf = CachingWrapperFilter.new(rf)
+    #puts "about to test cache"
+    do_test_top_docs(is, q, [2,3,4,5,6], cf)
+    do_test_top_docs(is, q, [2,3,4,5,6], cf)
+    #puts "finished_testing_cache"
+  end
+  def test_filtered_query
+    is = IndexSearcher.new(@dir)
+    q = MatchAllDocsQuery.new()
+    rf = RangeFilter.new("int", "2", "6", true, true)
+    rq = FilteredQuery.new(q, rf)
+    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "on")))
+    do_test_top_docs(is, rq, [2,4,6], qf)
+    query = FilteredQuery.new(rq, qf)
+    rf2 = RangeFilter.new_more("int", "3")
+    do_test_top_docs(is, query, [4,6], rf2)
+  end
+end

data/test/unit/search/tc_fuzzy_query.rb ADDED

@@ -0,0 +1,136 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class FuzzyQueryTest < Test::Unit::TestCase
+  include Ferret::Document
+  include Ferret::Search
+  include Ferret::Store
+  include Ferret::Analysis
+  include Ferret::Index
+  def add_doc(text, writer)
+    doc = Document.new()
+    doc << Field.new("field", text, Field::Store::NO, Field::Index::TOKENIZED)
+    writer << doc
+  end
+  def setup()
+    @dir = RAMDirectory.new()
+  end
+  def tear_down()
+    @dir.close()
+  end
+  def do_test_top_docs(is, query, expected)
+    top_docs = is.search(query)
+    assert_equal(expected.length, top_docs.total_hits,
+                "expected #{expected.length} hits but got #{top_docs.total_hits}")
+    assert_equal(expected.length, top_docs.score_docs.size)
+    top_docs.total_hits.times do |i|
+      assert_equal(expected[i], top_docs.score_docs[i].doc)
+    end
+  end
+  def do_prefix_test(is, text, prefix, expected)
+    fq = FuzzyQuery.new(Term.new("field", text), FuzzyQuery.default_min_similarity, prefix)
+    #puts is.explain(fq, 0)
+    #puts is.explain(fq, 1)
+    do_test_top_docs(is, fq, expected)
+  end
+  def test_fuzziness()
+    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
+    add_doc("aaaaa", iw)
+    add_doc("aaaab", iw)
+    add_doc("aaabb", iw)
+    add_doc("aabbb", iw)
+    add_doc("abbbb", iw)
+    add_doc("bbbbb", iw)
+    add_doc("ddddd", iw)
+    #iw.optimize()
+    iw.close()
+    is = IndexSearcher.new(@dir)
+    fq = FuzzyQuery.new(Term.new("field", "aaaaa"), FuzzyQuery.default_min_similarity, 5)
+    do_prefix_test(is, "aaaaa", 0, [0,1,2])
+    do_prefix_test(is, "aaaaa", 1, [0,1,2])
+    do_prefix_test(is, "aaaaa", 2, [0,1,2])
+    do_prefix_test(is, "aaaaa", 3, [0,1,2])
+    do_prefix_test(is, "aaaaa", 4, [0,1])
+    do_prefix_test(is, "aaaaa", 5, [0])
+    do_prefix_test(is, "aaaaa", 6, [0])
+    do_prefix_test(is, "xxxxx", 0, [])
+    do_prefix_test(is, "aaccc", 0, [])
+    do_prefix_test(is, "aaaac", 0, [0,1,2])
+    do_prefix_test(is, "aaaac", 1, [0,1,2])
+    do_prefix_test(is, "aaaac", 2, [0,1,2])
+    do_prefix_test(is, "aaaac", 3, [0,1,2])
+    do_prefix_test(is, "aaaac", 4, [0,1])
+    do_prefix_test(is, "aaaac", 5, [])
+    do_prefix_test(is, "ddddX", 0, [6])
+    do_prefix_test(is, "ddddX", 1, [6])
+    do_prefix_test(is, "ddddX", 2, [6])
+    do_prefix_test(is, "ddddX", 3, [6])
+    do_prefix_test(is, "ddddX", 4, [6])
+    do_prefix_test(is, "ddddX", 5, [])
+    fq = FuzzyQuery.new(Term.new("anotherfield", "ddddX"), FuzzyQuery.default_min_similarity, 0)
+    top_docs = is.search(fq)
+    assert_equal(0, top_docs.total_hits)
+    is.close()
+  end
+  def test_fuzziness_long()
+    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
+    add_doc("aaaaaaa", iw)
+    add_doc("segment", iw)
+    iw.optimize()
+    iw.close()
+    is = IndexSearcher.new(@dir)
+    # not similar enough:
+    do_prefix_test(is, "xxxxx", 0, [])
+    # edit distance to "aaaaaaa" = 3, this matches because the string is longer than
+    # in testDefaultFuzziness so a bigger difference is allowed:
+    do_prefix_test(is, "aaaaccc", 0, [0])
+    # now with prefix
+    do_prefix_test(is, "aaaaccc", 1, [0])
+    do_prefix_test(is, "aaaaccc", 4, [0])
+    do_prefix_test(is, "aaaaccc", 5, [])
+    # no match, more than half of the characters is wrong:
+    do_prefix_test(is, "aaacccc", 0, [])
+    # now with prefix
+    do_prefix_test(is, "aaacccc", 1, [])
+    # "student" and "stellent" are indeed similar to "segment" by default:
+    do_prefix_test(is, "student", 0, [1])
+    do_prefix_test(is, "stellent", 0, [1])
+    # now with prefix
+    do_prefix_test(is, "student", 2, [])
+    do_prefix_test(is, "stellent", 2, [])
+    # "student" doesn't match anymore thanks to increased minimum similarity:
+    fq = FuzzyQuery.new(Term.new("field", "student"), 0.6, 0)
+    top_docs = is.search(fq)
+    assert_equal(0, top_docs.total_hits)
+    assert_raise(ArgumentError) {fq = FuzzyQuery.new(Term.new("f", "s"), 1.1)}
+    assert_raise(ArgumentError) {fq = FuzzyQuery.new(Term.new("f", "s"), -0.1)}
+    is.close()
+  end
+end

data/test/unit/search/tc_index_searcher.rb ADDED

@@ -0,0 +1,188 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class IndexSearcherTest < Test::Unit::TestCase
+  include Ferret::Document
+  include Ferret::Search
+  include Ferret::Store
+  include Ferret::Analysis
+  include Ferret::Index
+  def setup()
+    @dir = RAMDirectory.new()
+    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
+    @documents = IndexTestHelper.prepare_search_docs()
+    @documents.each { |doc| iw << doc; }
+    iw.close()
+    @is = IndexSearcher.new(@dir)
+  end
+  def tear_down()
+    @is.close
+    @dir.close()
+  end
+  def get_docs(score_docs)
+    docs = []
+    score_docs.each do |score_doc|
+      docs << score_doc.doc
+    end
+    docs
+  end
+  def check_hits(query, expected, top=nil, total_hits=nil)
+    top_docs = @is.search(query)
+    assert_equal(expected.length, top_docs.score_docs.size)
+    assert_equal(top, top_docs.score_docs[0].doc) if top
+    if total_hits
+      assert_equal(total_hits, top_docs.total_hits)
+    else
+      assert_equal(expected.length, top_docs.total_hits)
+    end
+    top_docs.score_docs.each do |score_doc|
+      assert(expected.include?(score_doc.doc),
+             "#{score_doc.doc} was found unexpectedly")
+      assert(score_doc.score =~ @is.explain(query, score_doc.doc).value,
+        "Scores(#{score_doc.score} != #{@is.explain(query, score_doc.doc).value})")
+    end
+  end
+  def test_term_query
+    tq = TermQuery.new(Term.new("field", "word2"));
+    tq.boost = 100
+    check_hits(tq, [1,4,8])
+    tq = TermQuery.new(Term.new("field", "word1"));
+    top_docs = @is.search(tq)
+    #puts top_docs.score_docs
+    assert_equal(@documents.size, top_docs.total_hits)
+    assert_equal(10, top_docs.score_docs.size)
+    top_docs = @is.search(tq, {:num_docs => 20})
+    assert_equal(@documents.size, top_docs.score_docs.size)
+  end
+  def test_boolean_query
+    bq = BooleanQuery.new()
+    tq1 = TermQuery.new(Term.new("field", "word1"))
+    tq2 = TermQuery.new(Term.new("field", "word3"))
+    bq.add_query(tq1, BooleanClause::Occur::MUST)
+    bq.add_query(tq2, BooleanClause::Occur::MUST)
+    check_hits(bq, [2,3,6,8,11,14], 14)
+    tq3 = TermQuery.new(Term.new("field", "word2"))
+    bq.add_query(tq3, BooleanClause::Occur::SHOULD)
+    check_hits(bq, [2,3,6,8,11,14], 8)
+    bq = BooleanQuery.new()
+    bq.add_query(tq2, BooleanClause::Occur::MUST)
+    bq.add_query(tq3, BooleanClause::Occur::MUST_NOT)
+    check_hits(bq, [2,3,6,11,14])
+    bq = BooleanQuery.new()
+    bq.add_query(tq2, BooleanClause::Occur::MUST_NOT)
+    check_hits(bq, [])
+    bq = BooleanQuery.new()
+    bq.add_query(tq2, BooleanClause::Occur::SHOULD)
+    bq.add_query(tq3, BooleanClause::Occur::SHOULD)
+    check_hits(bq, [1,2,3,4,6,8,11,14])
+  end
+  def test_phrase_query()
+    pq = PhraseQuery.new()
+    t1 = Term.new("field", "quick")
+    t2 = Term.new("field", "brown")
+    t3 = Term.new("field", "fox")
+    pq << t1 << t2 << t3
+    check_hits(pq, [1])
+    pq.slop = 4
+    check_hits(pq, [1,16,17])
+    pq = PhraseQuery.new()
+    pq << t1
+    pq.add(t3, 2)
+    check_hits(pq, [1,11,14])
+    pq.slop = 1
+    check_hits(pq, [1,11,14,16])
+    pq.slop = 4
+    check_hits(pq, [1,11,14,16,17])
+  end
+  def test_range_query()
+    rq = RangeQuery.new("date", "20051006", "20051010", true, true)
+    check_hits(rq, [6,7,8,9,10])
+    rq = RangeQuery.new("date", "20051006", "20051010", false, true)
+    check_hits(rq, [7,8,9,10])
+    rq = RangeQuery.new("date", "20051006", "20051010", true, false)
+    check_hits(rq, [6,7,8,9])
+    rq = RangeQuery.new("date", "20051006", "20051010", false, false)
+    check_hits(rq, [7,8,9])
+    rq = RangeQuery.new("date", nil, "20051003", false, true)
+    check_hits(rq, [0,1,2,3])
+    rq = RangeQuery.new("date", nil, "20051003", false, false)
+    check_hits(rq, [0,1,2])
+    rq = RangeQuery.new_less("date", "20051003", true)
+    check_hits(rq, [0,1,2,3])
+    rq = RangeQuery.new_less("date", "20051003", false)
+    check_hits(rq, [0,1,2])
+    rq = RangeQuery.new("date", "20051014", nil, true, false)
+    check_hits(rq, [14,15,16,17])
+    rq = RangeQuery.new("date", "20051014", nil, false, false)
+    check_hits(rq, [15,16,17])
+    rq = RangeQuery.new_more("date", "20051014", true)
+    check_hits(rq, [14,15,16,17])
+    rq = RangeQuery.new_more("date", "20051014", false)
+    check_hits(rq, [15,16,17])
+  end
+  def test_prefix_query()
+    t = Term.new("cat", "cat1")
+    pq = PrefixQuery.new(t)
+    check_hits(pq, [0, 1, 2, 3, 4, 13, 14, 15, 16, 17])
+    t.text = "cat1/sub2"
+    pq = PrefixQuery.new(t)
+    check_hits(pq, [3, 4, 13, 15])
+  end
+  def test_wildcard_query()
+    t = Term.new("cat", "cat1*")
+    wq = WildcardQuery.new(t)
+    check_hits(wq, [0, 1, 2, 3, 4, 13, 14, 15, 16, 17])
+    t.text = "cat1*/su??ub2"
+    wq = WildcardQuery.new(t)
+    check_hits(wq, [4, 16])
+  end
+  def test_prefix_query()
+    t11 = Term.new("field", "quick")
+    t12 = Term.new("field", "fast")
+    t21 = Term.new("field", "brown")
+    t22 = Term.new("field", "red")
+    t23 = Term.new("field", "hairy")
+    t3 = Term.new("field", "fox")
+    mpq = MultiPhraseQuery.new()
+    mpq << [t11, t12]
+    mpq << [t21, t22, t23]
+    mpq << t3
+    check_hits(mpq, [1, 8, 11, 14])
+    mpq.slop = 4
+    check_hits(mpq, [1, 8, 11, 14, 16, 17])
+  end
+end