RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/lib/ferret/index/segment_infos.rb DELETED Viewed

@@ -1,130 +0,0 @@
-module Ferret
-  module Index
-    # Holds the info for one segment.
-    #
-    # ToDo: Does the dir really need to be stored here?
-    class SegmentInfo
-      attr_accessor :name, :doc_count, :directory
-      def initialize(name, doc_count, dir)
-        @name = name
-        @doc_count = doc_count
-        @directory = dir
-      end
-      def ==(o)
-        (o.name == @name and o.doc_count == @doc_count)
-      end
-    end
-    class SegmentInfos < Array
-      # for compatability with Java Ferret files
-      FORMAT = -1
-      SEGMENT_FILENAME = "segments"
-      TEMPORARY_SEGMENT_FILENAME = "segments.new"
-      attr_reader :version    # counts how often the index has been modified
-                              # by adding or deleting docs
-      attr_accessor :counter  # used to name new segments??
-      # Current version number from segments file.
-      def SegmentInfos.read_current_version(directory)
-        return 0 if not directory.exists?(SEGMENT_FILENAME)
-        input = directory.open_input(SEGMENT_FILENAME)
-        @format = 0
-        @version = 0
-        begin
-          @format = input.read_int()
-          if(@format < 0)
-            if (@format < FORMAT) then raise "Unknown format version: " + @format end
-            @version = input.read_long() # read version
-          end
-        ensure
-          input.close()
-        end
-        if(@format < 0)
-          return @version
-        end
-        # We cannot be sure about the format of the file.
-        # Therefore we have to read the whole file and cannot simply
-        # seek to the version entry.
-        sis = SegmentInfos.new()
-        sis.read(directory)
-        return sis.version()
-      end
-      def initialize()
-        @version = Time.now.to_i * 1000
-        @counter = 0
-      end
-      def initialize_copy(o)
-        super
-        o.each_index {|i| self[i] = o[i].clone}
-      end
-      def read(directory)
-        input = directory.open_input(SEGMENT_FILENAME)
-        begin
-          @format = input.read_int()
-          if(@format < 0) # file contains explicit format info
-            # check that it is a format we can understand
-            if (@format < FORMAT) then raise "Unknown format version: " + @format end
-            @version = input.read_long()
-            @counter = input.read_int()
-          else  # file is in old format without explicit format info
-            @counter = @format
-          end
-          seg_count = input.read_int()
-          seg_count.times do
-            self << SegmentInfo.new(input.read_string(),
-                                    input.read_int(),
-                                    directory)
-          end
-          if(@format >= 0)
-            # in old format the version number may be at the end of the file
-            if (input.pos() >= input.length())
-              @version = 0 # old file format without version number
-            else
-              @version = input.read_long() # read version
-            end
-          end
-        ensure
-          input.close()
-        end
-      end
-      def write(directory)
-        output = directory.create_output(TEMPORARY_SEGMENT_FILENAME)
-        begin
-          output.write_int(FORMAT) # write FORMAT
-          output.write_long(@version += 1) # every write changes the index
-          output.write_int(@counter) # write counter
-          output.write_int(size()) # write infos
-          each() do |si|
-            output.write_string(si.name)
-            output.write_int(si.doc_count)
-          end
-        ensure
-          output.close()
-        end
-        # install new segment info
-        directory.rename(TEMPORARY_SEGMENT_FILENAME, SEGMENT_FILENAME)
-      end
-      def to_s()
-        str = "\nSegmentInfos: <"
-        each() { |si| str << "#{si.name}:#{si.doc_count}," }
-        str[-1] = ">"
-        str
-      end
-    end
-  end
-end

data/lib/ferret/index/segment_merge_info.rb DELETED Viewed

@@ -1,49 +0,0 @@
-module Ferret
-  module Index
-    class SegmentMergeInfo
-      attr_reader :term_enum, :reader, :base, :term_buffer
-      def initialize(base, term_enum, reader)
-        @base = base
-        @reader = reader
-        @term_enum = term_enum
-        @term_buffer = term_enum.term_buffer
-      end
-      def positions
-        @postings ||= @reader.term_positions()
-      end
-      def doc_map
-        if @doc_map.nil?
-          # build array which maps document numbers around deletions
-          if (@reader.has_deletions?())
-            max_doc = @reader.max_doc()
-            @doc_map = Array.new(max_doc)
-            j = 0
-            max_doc.times do |i|
-              if (@reader.deleted?(i))
-                @doc_map[i] = -1
-              else
-                @doc_map[i] = j
-                j += 1
-              end
-            end
-          end
-        end
-        return @doc_map
-      end
-      def next?
-        @term_enum.next?
-      end
-      def close()
-        @term_enum.close()
-        @postings.close() if @postings
-        @reader = nil
-      end
-    end
-  end
-end

data/lib/ferret/index/segment_merge_queue.rb DELETED Viewed

@@ -1,16 +0,0 @@
-module Ferret::Index
-  class SegmentMergeQueue < Ferret::Utils::PriorityQueue
-    def less_than(sti_a, sti_b)
-      if sti_a.term_buffer == sti_b.term_buffer
-        return sti_a.base < sti_b.base
-      else
-        return sti_a.term_buffer < sti_b.term_buffer
-      end
-    end
-    def close()
-      @heap.each {|sti| sti.close if sti}
-      clear
-    end
-  end
-end

data/lib/ferret/index/segment_merger.rb DELETED Viewed

@@ -1,358 +0,0 @@
-module Ferret::Index
-  # The SegmentMerger class combines two or more Segments, represented by
-  # an IndexReader#add, into a single Segment.  After adding the
-  # appropriate readers, call the merge method to combine the segments.
-  #
-  # If the compoundFile flag is set, then the segments will be merged
-  # into a compound file.
-  class SegmentMerger
-    # dir:: The Directory to merge the other segments into
-    # name:: The name of the new segment
-    def initialize(dir, name,
-                  term_index_interval = IndexWriter::DEFAULT_TERM_INDEX_INTERVAL)
-      @directory = dir
-      @segment = name
-      @term_index_interval = term_index_interval
-      @readers = []
-      @field_infos = nil
-      @freq_output = nil
-      @prox_output = nil
-      @term_infos_writer = nil
-      @queue = nil
-      @term_info = TermInfo.new()
-      @skip_buffer = Ferret::Store::RAMDirectory::RAMIndexOutput.new(
-                          Ferret::Store::RAMDirectory::RAMFile.new(""))
-    end
-    # Add an IndexReader to the collection of readers that are to be merged
-    # reader::
-    def add(reader)
-      @readers << reader
-    end
-    alias :<< :add
-    #
-    # i:: The index of the reader to return
-    # returns:: The ith reader to be merged
-    def segment_reader(i)
-      return @readers[i]
-    end
-    # Merges the readers specified by the #add method into the directory
-    # passed to the constructor
-    #
-    # returns:: The number of documents that were merged
-    # raises:: IOError
-    def merge()
-      value = merge_fields()
-      merge_terms()
-      merge_norms()
-      merge_vectors() if @field_infos.has_vectors?
-      return value
-    end
-    # close all IndexReaders that have been added.  Should not be called
-    # before merge().
-    #
-    # raises:: IOError
-    def close_readers()
-      @readers.each { |reader| reader.close }
-    end
-    def create_compound_file(file_name)
-      cfs_writer = CompoundFileWriter.new(@directory, file_name)
-      files = []
-      # Basic files
-      IndexFileNames::COMPOUND_EXTENSIONS.each do |ext|
-        files << "#{@segment}.#{ext}"
-      end
-      # Field norm files
-      @field_infos.each_with_index do |fi, i|
-        if (fi.indexed? and not fi.omit_norms?)
-          files << "#{@segment}.f#{i}"
-        end
-      end
-      # Vector files
-      if @field_infos.has_vectors?
-        IndexFileNames::VECTOR_EXTENSIONS.each do |ext|
-          files << "#{@segment}.#{ext}"
-        end
-      end
-      # Now merge all added files
-      files.each do |file|
-        cfs_writer.add_file(file)
-      end
-      # Perform the merge
-      cfs_writer.close
-      return files
-    end
-    def add_indexed(reader, field_infos, field_names,
-                    store_term_vectors,
-                    store_position_with_term_vector,
-                    store_offset_with_term_vector)
-      field_names.each do |field|
-        field_infos.add(field, true,
-                        store_term_vectors,
-                        store_position_with_term_vector,
-                        store_offset_with_term_vector,
-                        !reader.has_norms?(field))
-      end
-    end
-    private :add_indexed
-    #
-    # returns:: The number of documents in all of the readers
-    # raises:: IOError
-    def merge_fields()
-      @field_infos = FieldInfos.new()      # merge field names
-      doc_count = 0
-      @readers.each do |reader|
-        add_indexed(reader, @field_infos, reader.get_field_names(IndexReader::FieldOption::TERM_VECTOR_WITH_POSITION_OFFSET), true, true, true)
-        add_indexed(reader, @field_infos, reader.get_field_names(IndexReader::FieldOption::TERM_VECTOR_WITH_POSITION), true, true, false)
-        add_indexed(reader, @field_infos, reader.get_field_names(IndexReader::FieldOption::TERM_VECTOR_WITH_OFFSET), true, false, true)
-        add_indexed(reader, @field_infos, reader.get_field_names(IndexReader::FieldOption::TERM_VECTOR), true, false, false)
-        add_indexed(reader, @field_infos, reader.get_field_names(IndexReader::FieldOption::INDEXED), false, false, false)
-        @field_infos.add_fields(reader.get_field_names(IndexReader::FieldOption::UNINDEXED), false)
-      end
-      @field_infos.write_to_dir(@directory, @segment + ".fnm")
-      # merge field values
-      fields_writer = FieldsWriter.new(@directory, @segment, @field_infos)
-      begin
-        @readers.each do |reader|
-          max_doc = reader.max_doc()
-          max_doc.times do |j|
-            if not reader.deleted?(j) # skip deleted docs
-              fields_writer.add_document(reader.get_document(j))
-              doc_count += 1
-            end
-          end
-        end
-      ensure
-        fields_writer.close()
-      end
-      return doc_count
-    end
-    # Merge the TermVectors from each of the segments into the new one.
-    # raises:: IOError
-    def merge_vectors()
-      term_vectors_writer = TermVectorsWriter.new(@directory, @segment, @field_infos)
-      begin
-        @readers.each do |reader|
-          max_doc = reader.max_doc()
-          max_doc.times do |doc_num|
-            # skip deleted docs
-            next if (reader.deleted?(doc_num))
-            term_vectors_writer.add_all_doc_vectors(reader.get_term_vectors(doc_num))
-          end
-        end
-      ensure
-        term_vectors_writer.close()
-      end
-    end
-    def merge_terms()
-      begin
-        @freq_output = @directory.create_output(@segment + ".frq")
-        @prox_output = @directory.create_output(@segment + ".prx")
-        @term_infos_writer =
-                TermInfosWriter.new(@directory, @segment, @field_infos,
-                                    @term_index_interval)
-        @skip_interval = @term_infos_writer.skip_interval
-        @queue = SegmentMergeQueue.new(@readers.size())
-        merge_term_infos()
-      ensure
-        [@freq_output, @prox_output, @term_infos_writer, @queue].each do |obj|
-          obj.close()
-        end
-      end
-    end
-    def merge_term_infos()
-      base = 0
-      @readers.each do |reader|
-        term_enum = reader.terms()
-        smi = SegmentMergeInfo.new(base, term_enum, reader)
-        base += reader.num_docs()
-        if (smi.next?)
-          @queue.push(smi) # initialize @queue
-        else
-          smi.close()
-        end
-      end
-      match = Array.new(@readers.size)
-      while (@queue.size > 0)
-        match_size = 0     # pop matching terms
-        match[match_size] = @queue.pop
-        match_size += 1
-        #term = match[0].term
-        term_buffer = match[0].term_buffer
-        top = @queue.top
-        #while top and term == top.term
-        while top and term_buffer == top.term_buffer
-          match[match_size] = @queue.pop
-          match_size += 1
-          top = @queue.top
-        end
-        merge_term_info(match, match_size)      # add new TermInfo
-        while (match_size > 0)
-          match_size -= 1
-          smi = match[match_size]
-          if (smi.next?)
-            @queue.push(smi) # restore queue
-          else
-            smi.close()      # done with a segment
-          end
-        end
-      end
-    end
-    # Merge one term found in one or more segments. The array <code>smis</code>
-    # contains segments that are positioned at the same term. <code>N</code>
-    # is the number of cells in the array actually occupied.
-    #
-    # smis:: array of segments
-    # n:: number of cells in the array actually occupied
-    def merge_term_info(smis, n)
-      freq_pointer = @freq_output.pos
-      prox_pointer = @prox_output.pos
-      df = append_postings(smis, n)      # append posting data
-      skip_pointer = write_skip()
-      if (df > 0)
-        # add an entry to the dictionary with pointers to prox and freq files
-        @term_info.set_values!(df, freq_pointer, prox_pointer, (skip_pointer - freq_pointer))
-        @term_infos_writer.add(smis[0].term_buffer.term, @term_info)
-      end
-    end
-    # Process postings from multiple segments all positioned on the
-    # same term. Writes out merged entries into @freq_utput and
-    # the @prox_output streams.
-    #
-    # smis:: array of segments
-    # n:: number of cells in the array actually occupied
-    # returns:: number of documents across all segments where this term was found
-    def append_postings(smis, n)
-      last_doc = 0
-      df = 0            # number of docs w/ term
-      reset_skip()
-      n.times do |i|
-        smi = smis[i]
-        postings = smi.positions
-        base = smi.base
-        doc_map = smi.doc_map
-        postings.seek(smi.term_enum)
-        while (postings.next?)
-          doc = postings.doc()
-          doc = doc_map[doc] if (doc_map != nil) # work around deletions
-          doc += base                            # convert to merged space
-          if (doc < last_doc)
-            raise "docs out of order curent doc = " + doc.to_s +
-              " and previous doc = " + last_doc.to_s
-          end
-          df += 1
-          if ((df % @skip_interval) == 0)
-            buffer_skip(last_doc)
-          end
-          doc_code = (doc - last_doc) << 1    # use low bit to flag freq=1
-          last_doc = doc
-          freq = postings.freq
-          if (freq == 1)
-            @freq_output.write_vint(doc_code | 1) # write doc & freq=1
-          else
-            @freq_output.write_vint(doc_code)     # write doc
-            @freq_output.write_vint(freq)         # write frequency in doc
-          end
-          last_position = 0        # write position deltas
-          freq.times do |j|
-            position = postings.next_position()
-            @prox_output.write_vint(position - last_position)
-            last_position = position
-          end
-        end
-      end
-      return df
-    end
-    def reset_skip()
-      @skip_buffer.reset()
-      @last_skip_doc = 0
-      @last_skip_freq_pointer = @freq_output.pos
-      @last_skip_prox_pointer = @prox_output.pos
-    end
-    def buffer_skip(doc)
-      freq_pointer = @freq_output.pos
-      prox_pointer = @prox_output.pos
-      @skip_buffer.write_vint(doc - @last_skip_doc)
-      @skip_buffer.write_vint(freq_pointer - @last_skip_freq_pointer)
-      @skip_buffer.write_vint(prox_pointer - @last_skip_prox_pointer)
-      @last_skip_doc = doc
-      @last_skip_freq_pointer = freq_pointer
-      @last_skip_prox_pointer = prox_pointer
-    end
-    def write_skip()
-      skip_pointer = @freq_output.pos
-      @skip_buffer.write_to(@freq_output)
-      return skip_pointer
-    end
-    def merge_norms()
-      @field_infos.each_with_index do |fi, i|
-        if (fi.indexed? and not fi.omit_norms?)
-          output = @directory.create_output(@segment + ".f" + i.to_s)
-          begin
-            @readers.each do |reader|
-              max_doc = reader.max_doc()
-              input = "0" * max_doc
-              reader.get_norms_into(fi.name, input, 0)
-              max_doc.times do |k|
-                if not reader.deleted?(k)
-                  output.write_byte(input[k])
-                end
-              end
-            end
-          ensure
-            output.close()
-          end
-        end
-      end
-    end
-  end
-end