RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/test/unit/query_parser/tc_query_parser.rb CHANGED Viewed

@@ -1,9 +1,11 @@
 require File.dirname(__FILE__) + "/../../test_helper"
 class QueryParserTest < Test::Unit::TestCase
+  include Ferret::Analysis
   def test_strings()
-    parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "field", "f1", "f2"])
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "field", "f1", "f2"])
     pairs = [
       ['', ''],
       ['*:word', 'word field:word f1:word f2:word'],
@@ -101,8 +103,9 @@ class QueryParserTest < Test::Unit::TestCase
   end
   def test_qp_with_standard_analyzer()
-    parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "key"],
-                                     :analyzer => Ferret::Analysis::StandardAnalyzer.new)
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => StandardAnalyzer.new)
     pairs = [
       ['key:1234', 'key:1234'],
       ['key:(1234 and Dave)', 'key:1234 key:dave'],
@@ -116,48 +119,51 @@ class QueryParserTest < Test::Unit::TestCase
   end
-  if not $ferret_pure_ruby
-    def test_qp_changing_fields()
-      parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "key"],
-                     :analyzer => Ferret::Analysis::WhiteSpaceAnalyzer.new)
-      assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
-      parser.fields = ["xxx", "one", "two", "three"]
-      assert_equal('word one:word two:word three:word',
-                   parser.parse("*:word").to_s("xxx"))
-      assert_equal('three:word four:word',
-                   parser.parse("three:word four:word").to_s("xxx"))
-    end
+  def test_qp_changing_fields()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new)
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
+    parser.fields = ["xxx", "one", "two", "three"]
+    assert_equal('word one:word two:word three:word',
+                 parser.parse("*:word").to_s("xxx"))
+    assert_equal('three:word four:word',
+                 parser.parse("three:word four:word").to_s("xxx"))
+  end
-    def test_qp_allow_any_field()
-      parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "key"],
-                     :analyzer => Ferret::Analysis::WhiteSpaceAnalyzer.new,
-                     :allow_any_fields => false)
+  def test_qp_allow_any_field()
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new,
+                                     :validate_fields => true)
-      assert_equal('key:word',
-                   parser.parse("key:word song:word").to_s("xxx"))
-      assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
+    assert_equal('key:word',
+                 parser.parse("key:word song:word").to_s("xxx"))
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
-      parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "key"],
-                     :analyzer => Ferret::Analysis::WhiteSpaceAnalyzer.new)
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx", "key"],
+                                     :analyzer => WhiteSpaceAnalyzer.new)
-      assert_equal('key:word song:word',
-                   parser.parse("key:word song:word").to_s("xxx"))
-      assert_equal('word key:word song:word', parser.parse("*:word").to_s("xxx"))
-    end
+    assert_equal('key:word song:word',
+                 parser.parse("key:word song:word").to_s("xxx"))
+    assert_equal('word key:word', parser.parse("*:word").to_s("xxx"))
   end
   def do_test_query_parse_exception_raised(str)
-    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2", "f3"])
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["f1", "f2", "f3"])
     assert_raise(Ferret::QueryParser::QueryParseException) do
       parser.parse(str)
     end
   end
   def test_prefix_query
-    parser = Ferret::QueryParser.new("xxx", :fields => ["xxx"],
-                   :analyzer => Ferret::Analysis::StandardAnalyzer.new)
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["xxx"],
+                                     :analyzer => StandardAnalyzer.new)
     assert_equal(Ferret::Search::PrefixQuery, parser.parse("asdg*").class)
     assert_equal(Ferret::Search::WildcardQuery, parser.parse("a?dg*").class)
     assert_equal(Ferret::Search::WildcardQuery, parser.parse("a*dg*").class)
@@ -165,8 +171,9 @@ class QueryParserTest < Test::Unit::TestCase
   end
   def test_bad_queries
-    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2"],
-                                            :handle_parse_errors => true)
+    parser = Ferret::QueryParser.new(:default_field => "xxx",
+                                     :fields => ["f1", "f2"],
+                                     :handle_parse_errors => true)
     pairs = [
       ['::*word', 'word'],

data/test/unit/search/tc_filter.rb CHANGED Viewed

@@ -2,37 +2,27 @@ require File.dirname(__FILE__) + "/../../test_helper"
 class FilterTest < Test::Unit::TestCase
-  include Ferret::Document
   include Ferret::Search
   include Ferret::Analysis
   include Ferret::Index
-  def add_doc(hash, writer)
-    doc = Document.new()
-    hash.each_pair do |field, text|
-      doc << Field.new(field, text, Field::Store::NO, Field::Index::UNTOKENIZED)
-    end
-    writer << doc
-  end
   def setup()
     @dir = Ferret::Store::RAMDirectory.new()
-    iw = IndexWriter.new(@dir,
+    iw = IndexWriter.new(:dir => @dir,
                          :analyzer => WhiteSpaceAnalyzer.new(),
                          :create => true)
-    docs = [
-      {"int"=>"0","date"=>"20040601","switch"=>"on"},
-      {"int"=>"1","date"=>"20041001","switch"=>"off"},
-      {"int"=>"2","date"=>"20051101","switch"=>"on"},
-      {"int"=>"3","date"=>"20041201","switch"=>"off"},
-      {"int"=>"4","date"=>"20051101","switch"=>"on"},
-      {"int"=>"5","date"=>"20041201","switch"=>"off"},
-      {"int"=>"6","date"=>"20050101","switch"=>"on"},
-      {"int"=>"7","date"=>"20040701","switch"=>"off"},
-      {"int"=>"8","date"=>"20050301","switch"=>"on"},
-      {"int"=>"9","date"=>"20050401","switch"=>"off"}
-    ]
-    docs.each {|doc| add_doc(doc, iw)}
+    [
+      {:int => "0", :date => "20040601", :switch => "on"},
+      {:int => "1", :date => "20041001", :switch => "off"},
+      {:int => "2", :date => "20051101", :switch => "on"},
+      {:int => "3", :date => "20041201", :switch => "off"},
+      {:int => "4", :date => "20051101", :switch => "on"},
+      {:int => "5", :date => "20041201", :switch => "off"},
+      {:int => "6", :date => "20050101", :switch => "on"},
+      {:int => "7", :date => "20040701", :switch => "off"},
+      {:int => "8", :date => "20050301", :switch => "on"},
+      {:int => "9", :date => "20050401", :switch => "off"}
+    ].each {|doc| iw << doc}
     iw.close
   end
@@ -40,74 +30,72 @@ class FilterTest < Test::Unit::TestCase
     @dir.close()
   end
-  def do_test_top_docs(is, query, expected, filter)
-    top_docs = is.search(query, {:filter => filter})
+  def do_test_top_docs(searcher, query, expected, filter)
+    top_docs = searcher.search(query, {:filter => filter})
     #puts top_docs
-    assert_equal(expected.size, top_docs.score_docs.size)
+    assert_equal(expected.size, top_docs.hits.size)
     top_docs.total_hits.times do |i|
-      assert_equal(expected[i], top_docs.score_docs[i].doc)
+      assert_equal(expected[i], top_docs.hits[i].doc)
+    end
+  end
+  def test_filter_proc
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    filter_proc = lambda {|doc, score, s| (s[doc][:int] % 2) == 0}
+    top_docs = searcher.search(q, :filter_proc => filter_proc)
+    top_docs.hits.each do |hit|
+      assert_equal(0, searcher[hit.doc][:int] % 2)
     end
   end
   def test_range_filter
-    is = IndexSearcher.new(@dir)
+    searcher = Searcher.new(@dir)
     q = MatchAllQuery.new()
-    rf = RangeFilter.new("int", "2", "6", true, true)
-    do_test_top_docs(is, q, [2,3,4,5,6], rf)
-    rf = RangeFilter.new("int", "2", "6", true, false)
-    do_test_top_docs(is, q, [2,3,4,5], rf)
-    rf = RangeFilter.new("int", "2", "6", false, true)
-    do_test_top_docs(is, q, [3,4,5,6], rf)
-    rf = RangeFilter.new("int", "2", "6", false, false)
-    do_test_top_docs(is, q, [3,4,5], rf)
-    rf = RangeFilter.new_more("int", "6")
-    do_test_top_docs(is, q, [6,7,8,9], rf)
-    rf = RangeFilter.new_more("int", "6", false)
-    do_test_top_docs(is, q, [7,8,9], rf)
-    rf = RangeFilter.new_less("int", "2")
-    do_test_top_docs(is, q, [0,1,2], rf)
-    rf = RangeFilter.new_less("int", "2", false)
-    do_test_top_docs(is, q, [0,1], rf)
+    rf = RangeFilter.new(:int, :>= => "2", :<= => "6")
+    do_test_top_docs(searcher, q, [2,3,4,5,6], rf)
+    rf = RangeFilter.new(:int, :>= => "2", :< => "6")
+    do_test_top_docs(searcher, q, [2,3,4,5], rf)
+    rf = RangeFilter.new(:int, :> => "2", :<= => "6")
+    do_test_top_docs(searcher, q, [3,4,5,6], rf)
+    rf = RangeFilter.new(:int, :> => "2", :< => "6")
+    do_test_top_docs(searcher, q, [3,4,5], rf)
+    rf = RangeFilter.new(:int, :>= => "6")
+    do_test_top_docs(searcher, q, [6,7,8,9], rf)
+    rf = RangeFilter.new(:int, :> => "6")
+    do_test_top_docs(searcher, q, [7,8,9], rf)
+    rf = RangeFilter.new(:int, :<= => "2")
+    do_test_top_docs(searcher, q, [0,1,2], rf)
+    rf = RangeFilter.new(:int, :< => "2")
+    do_test_top_docs(searcher, q, [0,1], rf)
   end
   def test_range_filter_errors
-    assert_raise(ArgumentError) {f = RangeFilter.new("", "asd", nil, false, true)}
-    assert_raise(ArgumentError) {f = RangeFilter.new("", nil, "asd", true, false)}
-    assert_raise(ArgumentError) {f = RangeFilter.new("", "ac", "ab", false, false)}
-    assert_raise(ArgumentError) {f = RangeFilter.new("", nil, nil, false, false)}
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :> => "b", :< => "a")}
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :include_lower => true)}
+    assert_raise(ArgumentError) {f = RangeFilter.new(:f, :include_upper => true)}
   end
   def test_query_filter()
-    is = IndexSearcher.new(@dir)
+    searcher = Searcher.new(@dir)
     q = MatchAllQuery.new()
-    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "on")))
-    do_test_top_docs(is, q, [0,2,4,6,8], qf)
+    qf = QueryFilter.new(TermQuery.new(:switch, "on"))
+    do_test_top_docs(searcher, q, [0,2,4,6,8], qf)
     # test again to test caching doesn't break it
-    do_test_top_docs(is, q, [0,2,4,6,8], qf)
-    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "off")))
-    do_test_top_docs(is, q, [1,3,5,7,9], qf)
+    do_test_top_docs(searcher, q, [0,2,4,6,8], qf)
+    qf = QueryFilter.new(TermQuery.new(:switch, "off"))
+    do_test_top_docs(searcher, q, [1,3,5,7,9], qf)
   end
   def test_filtered_query
-    is = IndexSearcher.new(@dir)
+    searcher = Searcher.new(@dir)
     q = MatchAllQuery.new()
-    rf = RangeFilter.new("int", "2", "6", true, true)
+    rf = RangeFilter.new(:int, :>= => "2", :<= => "6")
     rq = FilteredQuery.new(q, rf)
-    qf = QueryFilter.new(TermQuery.new(Term.new("switch", "on")))
-    do_test_top_docs(is, rq, [2,4,6], qf)
+    qf = QueryFilter.new(TermQuery.new(:switch, "on"))
+    do_test_top_docs(searcher, rq, [2,4,6], qf)
     query = FilteredQuery.new(rq, qf)
-    rf2 = RangeFilter.new_more("int", "3")
-    do_test_top_docs(is, query, [4,6], rf2)
+    rf2 = RangeFilter.new(:int, :>= => "3")
+    do_test_top_docs(searcher, query, [4,6], rf2)
   end
-  #def test_filtered_query
-  #  is = IndexSearcher.new(@dir)
-  #  q = MatchAllQuery.new()
-  #  rf = RangeFilter.new("int", "2", "6", true, true)
-  #  rq = FilteredQuery.new(q, rf)
-  #  qf = QueryFilter.new(TermQuery.new(Term.new("switch", "on")))
-  #  do_test_top_docs(is, rq, [2,4,6], qf)
-  #  query = FilteredQuery.new(rq, qf)
-  #  rf2 = RangeFilter.new_more("int", "3")
-  #  do_test_top_docs(is, query, [4,6], rf2)
-  #end
 end

data/test/unit/search/tc_fuzzy_query.rb CHANGED Viewed

@@ -1,16 +1,13 @@
 require File.dirname(__FILE__) + "/../../test_helper"
 class FuzzyQueryTest < Test::Unit::TestCase
-  include Ferret::Document
   include Ferret::Search
   include Ferret::Store
   include Ferret::Analysis
   include Ferret::Index
   def add_doc(text, writer)
-    doc = Document.new()
-    doc << Field.new("field", text, Field::Store::NO, Field::Index::TOKENIZED)
-    writer << doc
+    writer << {:field => text}
   end
   def setup()
@@ -25,21 +22,23 @@ class FuzzyQueryTest < Test::Unit::TestCase
     top_docs = is.search(query)
     assert_equal(expected.length, top_docs.total_hits,
                 "expected #{expected.length} hits but got #{top_docs.total_hits}")
-    assert_equal(expected.length, top_docs.score_docs.size)
+    assert_equal(expected.length, top_docs.hits.size)
     top_docs.total_hits.times do |i|
-      assert_equal(expected[i], top_docs.score_docs[i].doc)
+      assert_equal(expected[i], top_docs.hits[i].doc)
     end
   end
   def do_prefix_test(is, text, prefix, expected)
-    fq = FuzzyQuery.new(Term.new("field", text), FuzzyQuery.default_min_similarity, prefix)
+    fq = FuzzyQuery.new(:field, text, :prefix_length => prefix)
     #puts is.explain(fq, 0)
     #puts is.explain(fq, 1)
     do_test_top_docs(is, fq, expected)
   end
   def test_fuzziness()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
     add_doc("aaaaa", iw)
     add_doc("aaaab", iw)
     add_doc("aaabb", iw)
@@ -53,9 +52,9 @@ class FuzzyQueryTest < Test::Unit::TestCase
     iw.close()
-    is = IndexSearcher.new(@dir)
+    is = Searcher.new(@dir)
-    fq = FuzzyQuery.new(Term.new("field", "aaaaa"), FuzzyQuery.default_min_similarity, 5)
+    fq = FuzzyQuery.new(:field, "aaaaa", :prefix_length => 5)
     do_prefix_test(is, "aaaaaaaaaaaaaaaaaaaaaa", 1, [8])
     do_prefix_test(is, "aaaaa", 0, [0,1,2])
@@ -84,7 +83,7 @@ class FuzzyQueryTest < Test::Unit::TestCase
     do_prefix_test(is, "ddddX", 4, [6])
     do_prefix_test(is, "ddddX", 5, [])
-    fq = FuzzyQuery.new(Term.new("anotherfield", "ddddX"), FuzzyQuery.default_min_similarity, 0)
+    fq = FuzzyQuery.new(:anotherfield, "ddddX", :prefix_length => 0)
     top_docs = is.search(fq)
     assert_equal(0, top_docs.total_hits)
@@ -92,12 +91,14 @@ class FuzzyQueryTest < Test::Unit::TestCase
   end
   def test_fuzziness_long()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
     add_doc("aaaaaaa", iw)
     add_doc("segment", iw)
     iw.optimize()
     iw.close()
-    is = IndexSearcher.new(@dir)
+    is = Searcher.new(@dir)
     # not similar enough:
     do_prefix_test(is, "xxxxx", 0, [])
@@ -126,12 +127,19 @@ class FuzzyQueryTest < Test::Unit::TestCase
     do_prefix_test(is, "stellent", 2, [])
     # "student" doesn't match anymore thanks to increased minimum similarity:
-    fq = FuzzyQuery.new(Term.new("field", "student"), 0.6, 0)
+    fq = FuzzyQuery.new(:field, "student",
+                        :min_similarity => 0.6,
+                        :prefix_length => 0)
     top_docs = is.search(fq)
     assert_equal(0, top_docs.total_hits)
-    assert_raise(ArgumentError) {fq = FuzzyQuery.new(Term.new("f", "s"), 1.1)}
-    assert_raise(ArgumentError) {fq = FuzzyQuery.new(Term.new("f", "s"), -0.1)}
+    assert_raise(ArgumentError) do
+      fq = FuzzyQuery.new(:f, "s", :min_similarity => 1.1)
+    end
+    assert_raise(ArgumentError) do
+      fq = FuzzyQuery.new(:f, "s", :min_similarity => -0.1)
+    end
     is.close()
   end

data/test/unit/search/tc_index_searcher.rb CHANGED Viewed

@@ -1,237 +1,59 @@
 require File.dirname(__FILE__) + "/../../test_helper"
+require File.dirname(__FILE__) + "/tm_searcher"
-class IndexSearcherTest < Test::Unit::TestCase
-  include Ferret::Document
+class SearcherTest < Test::Unit::TestCase
   include Ferret::Search
   include Ferret::Store
   include Ferret::Analysis
   include Ferret::Index
+  include SearcherTests
   def setup()
     @dir = RAMDirectory.new()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    @documents = IndexTestHelper.prepare_search_docs()
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    @documents = IndexTestHelper::SEARCH_TEST_DOCS
     @documents.each { |doc| iw << doc }
     iw.close()
-    @is = IndexSearcher.new(@dir)
+    @searcher = Searcher.new(@dir)
   end
   def tear_down()
-    @is.close
+    @searcher.close
     @dir.close()
   end
-  def get_docs(score_docs)
+  def get_docs(hits)
     docs = []
-    score_docs.each do |score_doc|
-      docs << score_doc.doc
+    hits.each do |hit|
+      docs << hit.doc
     end
     docs
   end
   def check_hits(query, expected, top=nil, total_hits=nil)
-    top_docs = @is.search(query)
-    assert_equal(expected.length, top_docs.score_docs.size)
-    assert_equal(top, top_docs.score_docs[0].doc) if top
+    top_docs = @searcher.search(query)
+    assert_equal(expected.length, top_docs.hits.size)
+    assert_equal(top, top_docs.hits[0].doc) if top
     if total_hits
       assert_equal(total_hits, top_docs.total_hits)
     else
       assert_equal(expected.length, top_docs.total_hits)
     end
-    top_docs.score_docs.each do |score_doc|
+    top_docs.hits.each do |score_doc|
       assert(expected.include?(score_doc.doc),
              "#{score_doc.doc} was found unexpectedly")
-      assert(score_doc.score =~ @is.explain(query, score_doc.doc).value,
-        "Scores(#{score_doc.score} != #{@is.explain(query, score_doc.doc).value})")
-    end
-  end
-  def check_docs(query, options, expected=[])
-    top_docs = @is.search(query, options)
-    docs = top_docs.score_docs
-    assert_equal(expected.length, docs.length)
-    docs.length.times do |i|
-      assert_equal(expected[i], docs[i].doc)
+      assert(score_doc.score =~ @searcher.explain(query, score_doc.doc).score,
+        "Scores(#{score_doc.score} != #{@searcher.explain(query, score_doc.doc).score})")
     end
   end
   def test_get_doc()
-    assert_equal(18, @is.max_doc)
-    assert_equal("20050930", @is.doc(0).values(:date))
-    assert_equal("cat1/sub2/subsub2", @is.doc(4)[:cat])
-    assert_equal("20051012", @is.doc(12)[:date])
-  end
-  def test_term_query
-    tq = TermQuery.new(Term.new("field", "word2"))
-    tq.boost = 100
-    check_hits(tq, [1,4,8])
-    #puts @is.explain(tq, 1)
-    #puts @is.explain(tq, 4)
-    #puts @is.explain(tq, 8)
-    tq = TermQuery.new(Term.new("field", "2342"))
-    check_hits(tq, [])
-    tq = TermQuery.new(Term.new("field", ""))
-    check_hits(tq, [])
-    tq = TermQuery.new(Term.new("field", "word1"))
-    top_docs = @is.search(tq)
-    assert_equal(@documents.size, top_docs.total_hits)
-    assert_equal(10, top_docs.score_docs.size)
-    top_docs = @is.search(tq, {:num_docs => 20})
-    assert_equal(@documents.size, top_docs.score_docs.size)
-  end
-  def test_first_doc
-    tq = TermQuery.new(Term.new("field", "word1"))
-    tq.boost = 100
-    top_docs = @is.search(tq, {:num_docs => 100})
-    expected = []
-    top_docs.score_docs.each do |sd|
-      expected << sd.doc
-    end
-    assert_raise(ArgumentError) { @is.search(tq, {:first_doc => -1}) }
-    assert_raise(ArgumentError) { @is.search(tq, {:num_docs => 0}) }
-    assert_raise(ArgumentError) { @is.search(tq, {:num_docs => -1}) }
-    check_docs(tq, {:num_docs => 8, :first_doc => 0}, expected[0,8])
-    check_docs(tq, {:num_docs => 3, :first_doc => 1}, expected[1,3])
-    check_docs(tq, {:num_docs => 6, :first_doc => 2}, expected[2,6])
-    check_docs(tq, {:num_docs => 2, :first_doc => expected.length}, [])
-    check_docs(tq, {:num_docs => 2, :first_doc => expected.length + 100}, [])
-  end
-  def test_boolean_query
-    bq = BooleanQuery.new()
-    tq1 = TermQuery.new(Term.new("field", "word1"))
-    tq2 = TermQuery.new(Term.new("field", "word3"))
-    bq.add_query(tq1, BooleanClause::Occur::MUST)
-    bq.add_query(tq2, BooleanClause::Occur::MUST)
-    check_hits(bq, [2,3,6,8,11,14], 14)
-    tq3 = TermQuery.new(Term.new("field", "word2"))
-    bq.add_query(tq3, BooleanClause::Occur::SHOULD)
-    check_hits(bq, [2,3,6,8,11,14], 8)
-    bq = BooleanQuery.new()
-    bq.add_query(tq2, BooleanClause::Occur::MUST)
-    bq.add_query(tq3, BooleanClause::Occur::MUST_NOT)
-    check_hits(bq, [2,3,6,11,14])
-    bq = BooleanQuery.new()
-    bq.add_query(tq2, BooleanClause::Occur::MUST_NOT)
-    check_hits(bq, [])
-    bq = BooleanQuery.new()
-    bq.add_query(tq2, BooleanClause::Occur::SHOULD)
-    bq.add_query(tq3, BooleanClause::Occur::SHOULD)
-    check_hits(bq, [1,2,3,4,6,8,11,14])
-    bq = BooleanQuery.new()
-    bc1 = BooleanClause.new(tq2, BooleanClause::Occur::SHOULD)
-    bc2 = BooleanClause.new(tq3, BooleanClause::Occur::SHOULD)
-    bq.add_clause(bc1)
-    bq.add_clause(bc2)
-    check_hits(bq, [1,2,3,4,6,8,11,14])
-  end
-  def test_phrase_query()
-    pq = PhraseQuery.new()
-    t1 = Term.new("field", "quick")
-    t2 = Term.new("field", "brown")
-    t3 = Term.new("field", "fox")
-    pq << t1 << t2 << t3
-    check_hits(pq, [1])
-    pq = PhraseQuery.new()
-    pq << t1
-    pq.add(t3, 2)
-    check_hits(pq, [1,11,14])
-    pq.slop = 1
-    check_hits(pq, [1,11,14,16])
-    pq.slop = 4
-    check_hits(pq, [1,11,14,16,17])
-  end
-  def test_range_query()
-    rq = RangeQuery.new("date", "20051006", "20051010", true, true)
-    check_hits(rq, [6,7,8,9,10])
-    rq = RangeQuery.new("date", "20051006", "20051010", false, true)
-    check_hits(rq, [7,8,9,10])
-    rq = RangeQuery.new("date", "20051006", "20051010", true, false)
-    check_hits(rq, [6,7,8,9])
-    rq = RangeQuery.new("date", "20051006", "20051010", false, false)
-    check_hits(rq, [7,8,9])
-    rq = RangeQuery.new("date", nil, "20051003", false, true)
-    check_hits(rq, [0,1,2,3])
-    rq = RangeQuery.new("date", nil, "20051003", false, false)
-    check_hits(rq, [0,1,2])
-    rq = RangeQuery.new_less("date", "20051003", true)
-    check_hits(rq, [0,1,2,3])
-    rq = RangeQuery.new_less("date", "20051003", false)
-    check_hits(rq, [0,1,2])
-    rq = RangeQuery.new("date", "20051014", nil, true, false)
-    check_hits(rq, [14,15,16,17])
-    rq = RangeQuery.new("date", "20051014", nil, false, false)
-    check_hits(rq, [15,16,17])
-    rq = RangeQuery.new_more("date", "20051014", true)
-    check_hits(rq, [14,15,16,17])
-    rq = RangeQuery.new_more("date", "20051014", false)
-    check_hits(rq, [15,16,17])
-  end
-  def test_prefix_query()
-    t = Term.new("cat", "cat1")
-    pq = PrefixQuery.new(t)
-    check_hits(pq, [0, 1, 2, 3, 4, 13, 14, 15, 16, 17])
-    t.text = "cat1/sub2"
-    pq = PrefixQuery.new(t)
-    check_hits(pq, [3, 4, 13, 15])
-  end
-  def test_wildcard_query()
-    t = Term.new("cat", "cat1*")
-    wq = WildcardQuery.new(t)
-    check_hits(wq, [0, 1, 2, 3, 4, 13, 14, 15, 16, 17])
-    t.text = "cat1*/su??ub2"
-    wq = WildcardQuery.new(t)
-    check_hits(wq, [4, 16])
-  end
-  def test_multi_phrase_query()
-    t11 = Term.new("field", "quick")
-    t12 = Term.new("field", "fast")
-    t21 = Term.new("field", "brown")
-    t22 = Term.new("field", "red")
-    t23 = Term.new("field", "hairy")
-    t3 = Term.new("field", "fox")
-    mpq = MultiPhraseQuery.new()
-    mpq << [t11, t12]
-    mpq << [t21, t22, t23]
-    mpq << t3
-    check_hits(mpq, [1, 8, 11, 14])
-    mpq.slop = 4
-    check_hits(mpq, [1, 8, 11, 14, 16, 17])
+    assert_equal(18, @searcher.max_doc)
+    assert_equal("20050930", @searcher.get_document(0)[:date])
+    assert_equal("cat1/sub2/subsub2", @searcher.get_document(4)[:category])
+    assert_equal("20051012", @searcher.get_document(12)[:date])
   end
 end