RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/test/unit/index/tc_index_reader.rb CHANGED Viewed

@@ -8,342 +8,217 @@ module IndexReaderCommon
   def test_index_reader
     do_test_get_field_names()
+    do_test_term_enum()
     do_test_term_doc_enum()
     do_test_term_vectors()
-    do_test_changing_field()
     do_test_get_doc()
-    do_test_term_enum()
   end
   def do_test_get_field_names()
-    field_names = @ir.get_field_names
-    assert(field_names.include?("body"))
-    assert(field_names.include?("changing_field"))
-    assert(field_names.include?("author"))
-    assert(field_names.include?("title"))
-    assert(field_names.include?("text"))
-    assert(field_names.include?("year"))
+    field_names = @ir.field_names
+    assert(field_names.include?(:body))
+    assert(field_names.include?(:changing_field))
+    assert(field_names.include?(:author))
+    assert(field_names.include?(:title))
+    assert(field_names.include?(:text))
+    assert(field_names.include?(:year))
   end
   def do_test_term_enum()
-    te = @ir.terms
+    te = @ir.terms(:author)
     assert(te.next?)
-    assert_equal(Term.new("author", "Leo"), te.term)
+    assert_equal("Leo", te.term)
     assert_equal(1, te.doc_freq)
     assert(te.next?)
-    assert_equal(Term.new("author", "Tolstoy"), te.term)
+    assert_equal("Tolstoy", te.term)
     assert_equal(1, te.doc_freq)
+    assert(! te.next?)
+    te.field = :body
     assert(te.next?)
-    assert_equal(Term.new("body", "And"), te.term)
+    assert_equal("And", te.term)
     assert_equal(1, te.doc_freq)
-    assert(te.skip_to(Term.new("body", "Not")))
-    assert_equal(Term.new("body", "Not"), te.term)
+    assert(te.skip_to("Not"))
+    assert_equal("Not", te.term)
     assert_equal(1, te.doc_freq)
     assert(te.next?)
-    assert_equal(Term.new("body", "Random"), te.term)
+    assert_equal("Random", te.term)
     assert_equal(16, te.doc_freq)
-    assert(te.skip_to(Term.new("text", "which")))
-    assert(Term.new("text", "which"), te.term)
+    te.field = :text
+    assert(te.skip_to("which"))
+    assert("which", te.term)
     assert_equal(1, te.doc_freq)
+    assert(! te.next?)
+    te.field = :title
     assert(te.next?)
-    assert_equal(Term.new("title", "War And Peace"), te.term)
+    assert_equal("War And Peace", te.term)
     assert_equal(1, te.doc_freq)
     assert(!te.next?)
-    te.close
-    te = @ir.terms_from(Term.new("body", "Not"))
-    assert_equal(Term.new("body", "Not"), te.term)
+    te = @ir.terms_from(:body, "Not")
+    assert_equal("Not", te.term)
     assert_equal(1, te.doc_freq)
     assert(te.next?)
-    assert_equal(Term.new("body", "Random"), te.term)
+    assert_equal("Random", te.term)
     assert_equal(16, te.doc_freq)
-    te.close
   end
   def do_test_term_doc_enum()
-    assert_equal(IndexTestHelper::IR_TEST_DOC_CNT, @ir.num_docs())
-    assert_equal(IndexTestHelper::IR_TEST_DOC_CNT, @ir.max_doc())
-    term = Term.new("body", "Wally")
-    assert_equal(4, @ir.doc_freq(term))
-    tde = @ir.term_docs_for(term)
-    assert(tde.next?)
-    assert_equal(0, tde.doc())
-    assert_equal(1, tde.freq())
-    assert(tde.next?)
-    assert_equal(5, tde.doc())
-    assert_equal(1, tde.freq())
-    assert(tde.next?)
-    assert_equal(18, tde.doc())
-    assert_equal(3, tde.freq())
-    assert(tde.next?)
-    assert_equal(20, tde.doc())
-    assert_equal(6, tde.freq())
-    assert_equal(false, tde.next?)
-    # test fast read. Use a small array to exercise repeat read
-    docs = Array.new(3)
-    freqs = Array.new(3)
-    term = Term.new("body", "read")
-    tde.seek(term)
-    assert_equal(3, tde.read(docs, freqs))
-    assert_equal([1,2,6], docs)
-    assert_equal([1,2,4], freqs)
+    assert_equal(IndexTestHelper::INDEX_TEST_DOCS.size, @ir.num_docs())
+    assert_equal(IndexTestHelper::INDEX_TEST_DOCS.size, @ir.max_doc())
-    assert_equal(3, tde.read(docs, freqs))
-    assert_equal([9, 10, 15], docs)
-    assert_equal([3, 1, 1], freqs)
+    assert_equal(4, @ir.doc_freq(:body, "Wally"))
-    assert_equal(3, tde.read(docs, freqs))
-    assert_equal([16, 17, 20], docs)
-    assert_equal([2, 1, 1], freqs)
+    tde = @ir.term_docs_for(:body, "Wally")
-    assert_equal(1, tde.read(docs, freqs))
-    assert_equal([21], docs[0, 1])
-    assert_equal([6], freqs[0, 1])
-    assert_equal(0, tde.read(docs, freqs))
+    [
+      [ 0, 1],
+      [ 5, 1],
+      [18, 3],
+      [20, 6]
+    ].each do |doc, freq|
+      assert(tde.next?)
+      assert_equal(doc, tde.doc())
+      assert_equal(freq, tde.freq())
+    end
+    assert(! tde.next?)
     do_test_term_docpos_enum_skip_to(tde)
-    tde.close()
     # test term positions
-    term = Term.new("body", "read")
-    tde = @ir.term_positions_for(term)
-    assert(tde.next?)
-    assert_equal(1, tde.doc())
-    assert_equal(1, tde.freq())
-    assert_equal(3, tde.next_position())
-    assert(tde.next?)
-    assert_equal(2, tde.doc())
-    assert_equal(2, tde.freq())
-    assert_equal(1, tde.next_position())
-    assert_equal(4, tde.next_position())
-    assert(tde.next?)
-    assert_equal(6, tde.doc())
-    assert_equal(4, tde.freq())
-    assert_equal(3, tde.next_position())
-    assert_equal(4, tde.next_position())
-    assert(tde.next?)
-    assert_equal(9, tde.doc())
-    assert_equal(3, tde.freq())
-    assert_equal(0, tde.next_position())
-    assert_equal(4, tde.next_position())
-    assert(tde.skip_to(16))
-    assert_equal(16, tde.doc())
-    assert_equal(2, tde.freq())
-    assert_equal(2, tde.next_position())
-    assert(tde.skip_to(21))
-    assert_equal(21, tde.doc())
-    assert_equal(6, tde.freq())
-    assert_equal(3, tde.next_position())
-    assert_equal(4, tde.next_position())
-    assert_equal(5, tde.next_position())
-    assert_equal(8, tde.next_position())
-    assert_equal(9, tde.next_position())
-    assert_equal(10, tde.next_position())
-    assert_equal(false, tde.next?)
+    tde = @ir.term_positions_for(:body, "read")
+    [
+      [false,  1, 1, [3]],
+      [false,  2, 2, [1, 4]],
+      [false,  6, 4, [3, 4]],
+      [false,  9, 3, [0, 4]],
+      [ true, 16, 2, [2]],
+      [ true, 21, 6, [3, 4, 5, 8, 9, 10]]
+    ].each do |skip, doc, freq, positions|
+      if skip
+        assert(tde.skip_to(doc))
+      else
+        assert(tde.next?)
+      end
+      assert_equal(doc, tde.doc())
+      assert_equal(freq, tde.freq())
+      positions.each {|pos| assert_equal(pos, tde.next_position())}
+    end
+    assert_nil(tde.next_position())
+    assert(! tde.next?)
     do_test_term_docpos_enum_skip_to(tde)
-    tde.close()
   end
   def do_test_term_docpos_enum_skip_to(tde)
-    term = Term.new("text", "skip")
-    tde.seek(term)
-    assert(tde.skip_to(10))
-    assert_equal(22, tde.doc())
-    assert_equal(22, tde.freq())
-    assert(tde.skip_to(60))
-    assert_equal(60, tde.doc())
-    assert_equal(60, tde.freq())
+    tde.seek(:text, "skip")
+    [
+      [10, 22],
+      [44, 44],
+      [60, 60],
+      [62, 62],
+      [63, 63],
+    ].each do |skip_doc, doc_and_freq|
+      assert(tde.skip_to(skip_doc))
+      assert_equal(doc_and_freq, tde.doc())
+      assert_equal(doc_and_freq, tde.freq())
+    end
-    tde.seek(term)
-    assert(tde.skip_to(45))
-    assert_equal(45, tde.doc())
-    assert_equal(45, tde.freq())
-    assert(tde.skip_to(62))
-    assert_equal(62, tde.doc())
-    assert_equal(62, tde.freq())
+    assert(! tde.skip_to(IndexTestHelper::INDEX_TEST_DOC_COUNT))
+    assert(! tde.skip_to(IndexTestHelper::INDEX_TEST_DOC_COUNT))
+    assert(! tde.skip_to(IndexTestHelper::INDEX_TEST_DOC_COUNT + 100))
-    assert(tde.skip_to(63))
-    assert_equal(63, tde.doc())
-    assert_equal(63, tde.freq())
+    tde.seek(:text, "skip")
+    assert(! tde.skip_to(IndexTestHelper::INDEX_TEST_DOC_COUNT))
+  end
-    assert_equal(false, tde.skip_to(64))
+  def do_test_term_vectors()
+    expected_tv = TermVector.new(:body,
+      [
+        TVTerm.new("word1", [2, 4, 7]),
+        TVTerm.new("word2", [3]),
+        TVTerm.new("word3", [0, 5, 8, 9]),
+        TVTerm.new("word4", [1, 6])
+      ],
+      [*(0...10)].collect {|i| TVOffsets.new(i*6, (i+1)*6 - 1)})
-    tde.seek(term)
-    assert_equal(false, tde.skip_to(64))
-  end
+    tv = @ir.term_vector(3, :body)
-  def t(start_offset, end_offset)
-    TermVectorOffsetInfo.new(start_offset, end_offset)
-  end
+    assert_equal(expected_tv, tv)
-  def do_test_term_vectors()
-    tv = @ir.get_term_vector(3, :body)
-    assert_equal("body", tv.field)
-    assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    assert_equal([3, 1, 4, 2], tv.freqs)
-    assert_equal([[2, 4, 7], [3], [0, 5, 8, 9], [1,6]], tv.positions)
-    assert_equal([[t(12,17), t(24,29), t(42,47)],
-                  [t(18,23)],
-                  [t(0,5), t(30,35), t(48,53), t(54,59)],
-                  [t(6,11), t(36,41)]], tv.offsets)
-    tv = nil
-    tvs = @ir.get_term_vectors(3)
+    tvs = @ir.term_vectors(3)
     assert_equal(3, tvs.size)
-    tv = tvs[0]
-    assert_equal("author", tv.field)
-    assert_equal(["Leo", "Tolstoy"], tv.terms)
-    assert(tv.offsets.nil?)
-    tv = tvs[1]
-    assert_equal("body", tv.field)
-    assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    tv = tvs[2]
-    assert_equal("title", tv.field)
-    assert_equal(["War And Peace"], tv.terms)
-    assert(tv.positions.nil?)
-    assert_equal(t(0, 13), tv.offsets[0][0])
-  end
-  def do_test_changing_field()
-    tv = @ir.get_term_vector(0, "changing_field")
-    assert(tv.nil?)
-    tv = @ir.get_term_vector(10, "changing_field")
-    assert(tv.positions.nil?)
-    assert(tv.offsets.nil?)
-    tv = @ir.get_term_vector(17, "changing_field")
-    assert(tv.positions)
+    assert_equal(expected_tv, tvs[:body])
+    tv = tvs[:author]
+    assert_equal(:author, tv.field)
+    assert_equal([TVTerm.new("Leo", [0]), TVTerm.new("Tolstoy", [1])], tv.terms)
     assert(tv.offsets.nil?)
-    tv = @ir.get_term_vector(19, "changing_field")
-    assert(tv.positions.nil?)
-    assert(tv.offsets)
-    tv = @ir.get_term_vector(20, "changing_field")
-    assert(tv.positions)
-    assert(tv.offsets)
-    tv = @ir.get_term_vector(21, "changing_field")
-    assert(tv.nil?)
+    tv = tvs[:title]
+    assert_equal(:title, tv.field)
+    assert_equal([TVTerm.new("War And Peace", nil)], tv.terms)
+    assert_equal([TVOffsets.new(0, 13)], tv.offsets)
   end
   def do_test_get_doc()
     doc = @ir.get_document(3)
-    assert_equal(4, doc.field_count)
-    df = doc.field("author")
-    assert_equal("author", df.name)
-    assert_equal("Leo Tolstoy", df.data)
-    assert_equal(df.boost, 1.0)
-    assert_equal(true, df.stored?)
-    assert_equal(false, df.compressed?)
-    assert_equal(true, df.indexed?)
-    assert_equal(true, df.tokenized?)
-    assert_equal(true, df.store_term_vector?)
-    assert_equal(true, df.store_positions?)
-    assert_equal(false, df.store_offsets?)
-    assert_equal(false, df.binary?)
-    df = doc.field("body")
-    assert_equal("body", df.name)
-    assert_equal("word3 word4 word1 word2 word1 word3 word4 word1 word3 word3", df.data)
-    assert_equal(df.boost, 1.0)
-    assert_equal(true, df.stored?)
-    assert_equal(false, df.compressed?)
-    assert_equal(true, df.indexed?)
-    assert_equal(true, df.tokenized?)
-    assert_equal(true, df.store_term_vector?)
-    assert_equal(true, df.store_positions?)
-    assert_equal(true, df.store_offsets?)
-    assert_equal(false, df.binary?)
-    df = doc.field("title")
-    assert_equal("title", df.name)
-    assert_equal("War And Peace", df.data)
-    assert_equal(df.boost, 1.0)
-    assert_equal(true, df.stored?)
-    assert_equal(false, df.compressed?)
-    assert_equal(true, df.indexed?)
-    assert_equal(false, df.tokenized?)
-    assert_equal(true, df.store_term_vector?)
-    assert_equal(false, df.store_positions?)
-    assert_equal(true, df.store_offsets?)
-    assert_equal(false, df.binary?)
-    df = doc.field("year")
-    assert_equal("year", df.name)
-    assert_equal("1865", df.data)
-    assert_equal(df.boost, 1.0)
-    assert_equal(true, df.stored?)
-    assert_equal(false, df.compressed?)
-    assert_equal(false, df.indexed?)
-    assert_equal(false, df.tokenized?)
-    assert_equal(false, df.store_term_vector?)
-    assert_equal(false, df.store_positions?)
-    assert_equal(false, df.store_offsets?)
-    assert_equal(false, df.binary?)
-    df = doc.field("text")
-    assert(df.nil?) # "text" is not stored
+    assert_equal(4, doc.fields.size)
+    assert_equal(0, doc.size)
+    assert_equal([], doc.keys)
+    assert_equal("Leo Tolstoy", doc[:author])
+    assert_equal("word3 word4 word1 word2 word1 word3 word4 word1 word3 word3",
+                 doc[:body])
+    assert_equal("War And Peace", doc[:title])
+    assert_equal("1865", doc[:year])
+    assert_nil(doc[:text])
+    assert_equal(4, doc.size)
+    [:author, :body, :title, :year].each {|fn| assert(doc.keys.include?(fn))}
   end
   def test_ir_norms()
-    @ir.set_norm(3, "title", 1)
-    @ir.set_norm(3, "body", 12)
-    @ir.set_norm(3, "author", 145)
-    @ir.set_norm(3, "year", 31)
-    @ir.set_norm(3, "text", 202)
-    @ir.set_norm(25, "text", 20)
-    @ir.set_norm(50, "text", 200)
-    @ir.set_norm(63, "text", 155)
-    norms = @ir.get_norms("text")
-    assert_equal(202, norms[3])
-    assert_equal(20, norms[25])
+    @ir.set_norm(3, :title, 1)
+    @ir.set_norm(3, :body, 12)
+    @ir.set_norm(3, :author, 145)
+    @ir.set_norm(3, :year, 31)
+    @ir.set_norm(3, :text, 202)
+    @ir.set_norm(25, :text, 20)
+    @ir.set_norm(50, :text, 200)
+    @ir.set_norm(63, :text, 155)
+    norms = @ir.norms(:text)
+    assert_equal(202, norms[ 3])
+    assert_equal( 20, norms[25])
     assert_equal(200, norms[50])
     assert_equal(155, norms[63])
-    norms = @ir.get_norms("title")
+    norms = @ir.norms(:title)
     assert_equal(1, norms[3])
-    norms = @ir.get_norms("body")
+    norms = @ir.norms(:body)
     assert_equal(12, norms[3])
-    norms = @ir.get_norms("author")
+    norms = @ir.norms(:author)
     assert_equal(145, norms[3])
-    norms = @ir.get_norms("year")
+    norms = @ir.norms(:year)
     # TODO: this returns two possible results depending on whether it is
     # a multi reader or a segment reader. If it is a multi reader it will
     # always return an empty set of norms, otherwise it will return nil.
@@ -351,117 +226,99 @@ module IndexReaderCommon
     #assert(norms.nil?)
     norms = " " * 164
-    @ir.get_norms_into("text", norms, 100)
+    @ir.get_norms_into(:text, norms, 100)
     assert_equal(202, norms[103])
-    assert_equal(20, norms[125])
+    assert_equal( 20, norms[125])
     assert_equal(200, norms[150])
     assert_equal(155, norms[163])
     @ir.commit()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new())
-    iw.optimize()
-    iw.close()
+    iw_optimize()
-    ir2 = IndexReader.open(@dir, false)
+    ir2 = ir_new()
     norms = " " * 164
-    ir2.get_norms_into("text", norms, 100)
+    ir2.get_norms_into(:text, norms, 100)
     assert_equal(202, norms[103])
-    assert_equal(20, norms[125])
+    assert_equal( 20, norms[125])
     assert_equal(200, norms[150])
     assert_equal(155, norms[163])
     ir2.close()
   end
   def test_ir_delete()
-    doc_count = IndexTestHelper::IR_TEST_DOC_CNT
-    assert_equal(false, @ir.has_deletions?())
+    doc_count = IndexTestHelper::INDEX_TEST_DOCS.size
+    @ir.delete(1000) # non existant doc_num
+    assert(! @ir.has_deletions?())
     assert_equal(doc_count, @ir.max_doc())
     assert_equal(doc_count, @ir.num_docs())
-    assert_equal(false, @ir.deleted?(10))
-    @ir.delete(10)
-    assert_equal(true, @ir.has_deletions?())
-    assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count - 1, @ir.num_docs())
-    assert_equal(true, @ir.deleted?(10))
+    assert(! @ir.deleted?(10))
+    [
+      [10,            doc_count - 1],
+      [10,            doc_count - 1],
+      [doc_count - 1, doc_count - 2],
+      [doc_count - 2, doc_count - 3],
+    ].each do |del_num, num_docs|
+      @ir.delete(del_num)
+      assert(@ir.has_deletions?())
+      assert_equal(doc_count, @ir.max_doc())
+      assert_equal(num_docs, @ir.num_docs())
+      assert(@ir.deleted?(del_num))
+    end
-    @ir.delete(10)
-    assert_equal(true, @ir.has_deletions?())
+    @ir.undelete_all()
+    assert(! @ir.has_deletions?())
     assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count - 1, @ir.num_docs())
-    assert_equal(true, @ir.deleted?(10))
+    assert_equal(doc_count, @ir.num_docs())
+    assert(! @ir.deleted?(10))
+    assert(! @ir.deleted?(doc_count - 2))
+    assert(! @ir.deleted?(doc_count - 1))
-    @ir.delete(doc_count - 1)
-    assert_equal(true, @ir.has_deletions?())
-    assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count - 2, @ir.num_docs())
-    assert_equal(true, @ir.deleted?(doc_count - 1))
+    del_list = [10, 20, 30, 40, 50, doc_count - 1]
-    @ir.delete(doc_count - 2)
-    assert_equal(true, @ir.has_deletions?())
+    del_list.each {|doc_num| @ir.delete(doc_num)}
+    assert(@ir.has_deletions?())
     assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count - 3, @ir.num_docs())
-    assert_equal(true, @ir.deleted?(doc_count - 2))
+    assert_equal(doc_count - del_list.size, @ir.num_docs())
+    del_list.each {|doc_num| assert(@ir.deleted?(doc_num))}
-    @ir.undelete_all()
-    assert_equal(false, @ir.has_deletions?())
-    assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count, @ir.num_docs())
-    assert_equal(false, @ir.deleted?(10))
-    assert_equal(false, @ir.deleted?(doc_count - 2))
-    assert_equal(false, @ir.deleted?(doc_count - 1))
-    @ir.delete(10)
-    @ir.delete(20)
-    @ir.delete(30)
-    @ir.delete(40)
-    @ir.delete(50)
-    @ir.delete(doc_count - 1)
-    assert_equal(true, @ir.has_deletions?())
-    assert_equal(doc_count, @ir.max_doc())
-    assert_equal(doc_count - 6, @ir.num_docs())
+    ir2 = ir_new()
+    assert(! ir2.has_deletions?())
+    assert_equal(doc_count, ir2.max_doc())
+    assert_equal(doc_count, ir2.num_docs())
     @ir.commit()
-    ir2 = IndexReader.open(@dir, false)
+    assert(! ir2.has_deletions?())
+    assert_equal(doc_count, ir2.max_doc())
+    assert_equal(doc_count, ir2.num_docs())
-    assert_equal(true, ir2.has_deletions?())
+    ir2 = ir_new()
+    assert(ir2.has_deletions?())
     assert_equal(doc_count, ir2.max_doc())
     assert_equal(doc_count - 6, ir2.num_docs())
-    assert_equal(true, ir2.deleted?(10))
-    assert_equal(true, ir2.deleted?(20))
-    assert_equal(true, ir2.deleted?(30))
-    assert_equal(true, ir2.deleted?(40))
-    assert_equal(true, ir2.deleted?(50))
-    assert_equal(true, ir2.deleted?(doc_count - 1))
+    del_list.each {|doc_num| assert(ir2.deleted?(doc_num))}
     ir2.undelete_all()
-    assert_equal(false, ir2.has_deletions?())
+    assert(! ir2.has_deletions?())
     assert_equal(doc_count, ir2.max_doc())
     assert_equal(doc_count, ir2.num_docs())
-    assert_equal(false, ir2.deleted?(10))
-    assert_equal(false, ir2.deleted?(20))
-    assert_equal(false, ir2.deleted?(30))
-    assert_equal(false, ir2.deleted?(40))
-    assert_equal(false, ir2.deleted?(50))
-    assert_equal(false, ir2.deleted?(doc_count - 1))
-    ir2.delete(10)
-    ir2.delete(20)
-    ir2.delete(30)
-    ir2.delete(40)
-    ir2.delete(50)
-    ir2.delete(doc_count - 1)
+    del_list.each {|doc_num| assert(! ir2.deleted?(doc_num))}
+    del_list.each {|doc_num| assert(@ir.deleted?(doc_num))}
     ir2.commit()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new())
-    iw.optimize()
-    iw.close()
+    del_list.each {|doc_num| assert(@ir.deleted?(doc_num))}
+    del_list.each {|doc_num| ir2.delete(doc_num)}
+    ir2.commit()
-    ir3 = IndexReader.open(@dir, false)
+    iw_optimize()
+    ir3 = ir_new()
     assert(!ir3.has_deletions?())
     assert_equal(doc_count - 6, ir3.max_doc())
@@ -469,24 +326,35 @@ module IndexReaderCommon
     ir3.close()
   end
 end
-class SegmentReaderTest < Test::Unit::TestCase
+class MultiReaderTest < Test::Unit::TestCase
   include IndexReaderCommon
-  def setup()
-    @dir = Ferret::Store::RAMDirectory.new()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    docs = IndexTestHelper.prepare_ir_test_docs()
-    IndexTestHelper::IR_TEST_DOC_CNT.times do |i|
-      iw << docs[i]
-    end
+  def ir_new
+    IndexReader.new(@dir)
+  end
-    # we must optimize here so that SegmentReader is used.
+  def iw_optimize
+    iw = IndexWriter.new(:dir => @dir, :analyzer => WhiteSpaceAnalyzer.new())
     iw.optimize()
     iw.close()
-    @ir = IndexReader.open(@dir, false)
+  end
+  def setup
+    @dir = Ferret::Store::RAMDirectory.new()
+    iw = IndexWriter.new(:dir => @dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true,
+                         :field_infos => IndexTestHelper::INDEX_TEST_FIS,
+                         :max_buffered_docs => 15)
+    IndexTestHelper::INDEX_TEST_DOCS.each {|doc| iw << doc}
+    # we mustn't optimize here so that MultiReader is used.
+    #iw.optimize() unless self.class == MultiReaderTest
+    iw.close()
+    @ir = ir_new()
   end
   def tear_down()
@@ -495,21 +363,46 @@ class SegmentReaderTest < Test::Unit::TestCase
   end
 end
-class MultiReaderTest < Test::Unit::TestCase
+class SegmentReaderTest < MultiReaderTest
+end
+class MultiExternalReaderTest < Test::Unit::TestCase
   include IndexReaderCommon
-  def setup()
-    @dir = Ferret::Store::RAMDirectory.new()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    docs = IndexTestHelper.prepare_ir_test_docs()
-    IndexTestHelper::IR_TEST_DOC_CNT.times do |i|
-      iw << docs[i]
+  def ir_new
+    readers = @dirs.collect {|dir| IndexReader.new(dir) }
+    IndexReader.new(readers)
+  end
+  def iw_optimize
+    @dirs.each do |dir|
+      iw = IndexWriter.new(:dir => dir, :analyzer => WhiteSpaceAnalyzer.new())
+      iw.optimize()
+      iw.close()
     end
+  end
-    # we mustn't optimize here so that MultiReader is used.
-    # iw.optimize()
-    iw.close()
-    @ir = IndexReader.open(@dir, false)
+  def setup()
+    @dirs = []
+    [
+      [0, 10],
+      [10, 30],
+      [30, IndexTestHelper::INDEX_TEST_DOCS.size]
+    ].each do |start, finish|
+      dir = Ferret::Store::RAMDirectory.new()
+      @dirs << dir
+      iw = IndexWriter.new(:dir => dir,
+                           :analyzer => WhiteSpaceAnalyzer.new(),
+                           :create => true,
+                           :field_infos => IndexTestHelper::INDEX_TEST_FIS)
+      (start...finish).each do |doc_id|
+        iw << IndexTestHelper::INDEX_TEST_DOCS[doc_id]
+      end
+      iw.close()
+    end
+    @ir = ir_new
   end
   def tear_down()
@@ -521,7 +414,6 @@ end
 class IndexReaderTest < Test::Unit::TestCase
   include Ferret::Index
   include Ferret::Analysis
-  include Ferret::Document
   def setup()
     @dir = Ferret::Store::RAMDirectory.new()
@@ -536,113 +428,69 @@ class IndexReaderTest < Test::Unit::TestCase
                                            '../../temp/fsdir'))
     @fs_dir = Ferret::Store::FSDirectory.new(@fs_dpath, true)
-    iw = IndexWriter.new(@fs_dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    doc = Document.new()
-    doc << Field.new("tag", "Ruby", Field::Store::YES, Field::Index::NO, Field::TermVector::NO)
-    doc << Field.new("tag", "C", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::NO)
-    doc << Field.new("body", "this is the body Document Field", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_POSITIONS_OFFSETS)
-    doc << Field.new("tag", "Lucene", Field::Store::YES, Field::Index::TOKENIZED, Field::TermVector::WITH_POSITIONS)
-    doc << Field.new("tag", "Ferret", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_OFFSETS)
-    doc << Field.new("title", "this is the title DocField", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_POSITIONS_OFFSETS)
-    doc << Field.new("author", "this is the author field", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_POSITIONS_OFFSETS)
-    #fis = FieldInfos.new()
-    #fis << doc
-    #assert_equal(4, fis.size)
-    #fi = fis["tag"]
-    #assert_equal(true, fi.indexed?)
-    #assert_equal(true, fi.store_term_vector?)
-    #assert_equal(true, fi.store_positions?)
-    #assert_equal(true, fi.store_offsets?)
+    iw = IndexWriter.new(:dir => @fs_dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    doc = {
+      :tag => ["Ruby", "C", "Lucene", "Ferret"],
+      :body => "this is the body Document Field",
+      :title => "this is the title DocField",
+      :author => "this is the author field"
+    }
     iw << doc
-    iw.close()
-    @dir = Ferret::Store::RAMDirectory.new(@fs_dir, true)
-    ir = IndexReader.open(@dir, false)
-    doc = ir.get_document(0)
-    assert_equal(4, doc.field_count)
-    assert_equal(7, doc.entry_count)
-    entries = doc.fields("tag")
-    assert_equal(4, entries.size)
-    assert_equal("Ruby", entries[0].data)
-    assert_equal("C", entries[1].data)
-    assert_equal("Lucene", entries[2].data)
-    assert_equal("Ferret", entries[3].data)
-    doc.remove_field("tag")
-    assert_equal(4, doc.field_count)
-    assert_equal(6, doc.entry_count)
-    assert_equal("C", doc.field("tag").data)
-    doc.remove_fields("tag")
-    assert_equal(3, doc.field_count)
-    assert_equal(3, doc.entry_count)
-    ir.delete(0)
-    ir.close()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new())
-    iw << doc
-    iw.optimize()
     iw.close()
-    doc = nil
-    ir = IndexReader.open(@dir, false)
-    doc = ir.get_document(0)
-    assert_equal(3, doc.field_count)
-    assert_equal(3, doc.entry_count)
-    ir.close()
-  end
-  def t(start_offset, end_offset)
-    TermVectorOffsetInfo.new(start_offset, end_offset)
+    @dir = Ferret::Store::RAMDirectory.new(@fs_dir)
+    ir = IndexReader.new(@dir)
+    assert_equal(doc, ir.get_document(0).load)
   end
   def do_test_term_vectors(ir)
-    tv = ir.get_term_vector(3, "body")
-    assert_equal("body", tv.field)
-    assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    assert_equal([3, 1, 4, 2], tv.freqs)
-    assert_equal([[2, 4, 7], [3], [0, 5, 8, 9], [1,6]], tv.positions)
-    assert_equal([[t(12,17), t(24,29), t(42,47)],
-                  [t(18,23)],
-                  [t(0,5), t(30,35), t(48,53), t(54,59)],
-                  [t(6,11), t(36,41)]], tv.offsets)
-    tv = nil
-    tvs = ir.get_term_vectors(3)
+    expected_tv = TermVector.new(:body,
+      [
+        TVTerm.new("word1", [2, 4, 7]),
+        TVTerm.new("word2", [3]),
+        TVTerm.new("word3", [0, 5, 8, 9]),
+        TVTerm.new("word4", [1, 6])
+      ],
+      [*(0...10)].collect {|i| TVOffsets.new(i*6, (i+1)*6 - 1)})
+    tv = ir.term_vector(3, :body)
+    assert_equal(expected_tv, tv)
+    tvs = ir.term_vectors(3)
     assert_equal(3, tvs.size)
-    tv = tvs[0]
-    assert_equal("author", tv.field)
-    assert_equal(["Leo", "Tolstoy"], tv.terms)
+    assert_equal(expected_tv, tvs[:body])
+    tv = tvs[:author]
+    assert_equal(:author, tv.field)
+    assert_equal([TVTerm.new("Leo", [0]), TVTerm.new("Tolstoy", [1])], tv.terms)
     assert(tv.offsets.nil?)
-    tv = tvs[1]
-    assert_equal("body", tv.field)
-    assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    tv = tvs[2]
-    assert_equal("title", tv.field)
-    assert_equal(["War And Peace"], tv.terms)
-    assert(tv.positions.nil?)
-    assert_equal(t(0, 13), tv.offsets[0][0])
+    tv = tvs[:title]
+    assert_equal(:title, tv.field)
+    assert_equal([TVTerm.new("War And Peace", nil)], tv.terms)
+    assert_equal([TVOffsets.new(0, 13)], tv.offsets)
   end
-  def test_ir_read_while_optimizing()
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    docs = IndexTestHelper.prepare_ir_test_docs()
-    IndexTestHelper::IR_TEST_DOC_CNT.times do |i|
-      iw << docs[i]
-    end
+  def do_test_ir_read_while_optimizing(dir)
+    iw = IndexWriter.new(:dir => dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true,
+                         :field_infos => IndexTestHelper::INDEX_TEST_FIS)
+    IndexTestHelper::INDEX_TEST_DOCS.each {|doc| iw << doc}
     iw.close()
-    ir = IndexReader.open(@dir, false)
+    ir = IndexReader.new(dir)
     do_test_term_vectors(ir)
-    iw = IndexWriter.new(@dir, :analyzer => WhiteSpaceAnalyzer.new())
+    iw = IndexWriter.new(:dir => dir, :analyzer => WhiteSpaceAnalyzer.new())
     iw.optimize()
     iw.close()
@@ -651,28 +499,15 @@ class IndexReaderTest < Test::Unit::TestCase
     ir.close()
   end
+  def test_ir_read_while_optimizing()
+    do_test_ir_read_while_optimizing(@dir)
+  end
   def test_ir_read_while_optimizing_on_disk()
     dpath = File.expand_path(File.join(File.dirname(__FILE__),
                        '../../temp/fsdir'))
     fs_dir = Ferret::Store::FSDirectory.new(dpath, true)
-    iw = IndexWriter.new(fs_dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    docs = IndexTestHelper.prepare_ir_test_docs()
-    IndexTestHelper::IR_TEST_DOC_CNT.times do |i|
-      iw << docs[i]
-    end
-    iw.close()
-    ir = IndexReader.open(fs_dir, false)
-    do_test_term_vectors(ir)
-    iw = IndexWriter.new(fs_dir, :analyzer => WhiteSpaceAnalyzer.new())
-    iw.optimize()
-    iw.close()
-    do_test_term_vectors(ir)
-    ir.close()
+    do_test_ir_read_while_optimizing(fs_dir)
     fs_dir.close()
   end
@@ -681,25 +516,23 @@ class IndexReaderTest < Test::Unit::TestCase
                        '../../temp/fsdir'))
     fs_dir = Ferret::Store::FSDirectory.new(dpath, true)
-    iw = IndexWriter.new(fs_dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
-    doc = Document.new
-    doc << Field.new("field", "content", Field::Store::YES, Field::Index::TOKENIZED)
-    iw << doc
+    iw = IndexWriter.new(:dir => fs_dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create => true)
+    iw << {:field => "content"}
     iw.close()
-    ir = IndexReader.open(fs_dir, false)
+    ir = IndexReader.new(fs_dir)
     assert(ir.latest?)
-    iw = IndexWriter.new(fs_dir, :analyzer => WhiteSpaceAnalyzer.new())
-    doc = Document.new
-    doc << Field.new("field", "content2", Field::Store::YES, Field::Index::TOKENIZED)
-    iw << doc
+    iw = IndexWriter.new(:dir => fs_dir, :analyzer => WhiteSpaceAnalyzer.new())
+    iw << {:field => "content2"}
     iw.close()
     assert(!ir.latest?)
     ir.close()
-    ir = IndexReader.open(fs_dir, false)
+    ir = IndexReader.new(fs_dir)
     assert(ir.latest?)
     ir.close()
   end