RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/lib/ferret/index/field_infos.rb DELETED Viewed

@@ -1,279 +0,0 @@
-module Ferret
-  module Index
-    # Access to the Field Info file that describes document fields and whether or
-    # not they are indexed. Each segment has a separate Field Info file. Objects
-    # of this class are thread-safe for multiple readers, but only one thread can
-    # be adding documents at a time, with no other reader or writer threads
-    # accessing this object.
-    class FieldInfos
-      NOT_A_FIELD = 0xffffffff # -1 in java int
-      # Construct a FieldInfos object using the directory and the name of the file
-      # InputStream
-      #
-      # dir:: The directory to open the InputStream from
-      # name:: The name of the file to open the InputStream from in the Directory
-      def initialize(dir = nil, name = nil)
-        @fi_array = []
-        @fi_hash = {}
-        if dir and dir.exists?(name)
-          input = dir.open_input(name)
-          begin
-            read(input)
-          ensure
-            input.close()
-          end
-        end
-      end
-      # Automatically adds all of the fields from the document if they haven't
-      # been added already. Or it will update the values.
-      def add_doc_fields(doc)
-        doc.all_fields.each do |field|
-          add(field.name,
-              field.indexed?,
-              field.store_term_vector?,
-              field.store_positions?,
-              field.store_offsets?,
-              field.omit_norms?)
-        end
-      end
-      alias :<< :add_doc_fields
-      # Calls the 5 param add method to add all the names in the collection
-      def add_fields(names,
-                    indexed = true,
-                    store_term_vector = false,
-                    store_position = false,
-                    store_offset = false,
-                    omit_norms = false)
-        names.each do |name|
-          add(name, indexed, store_term_vector, store_position,
-              store_offset, omit_norms)
-        end
-      end
-      # If the field is not yet known, adds it. If it is known, checks to make
-      # sure that the indexed flag is the same as was given previously for this
-      # field. If not - marks it as being indexed.  Same goes for the TermVector
-      # parameters.
-      #
-      # name:: The name of the field
-      # indexed:: true if the field is indexed
-      # store_term_vector:: true if the term vector should be stored
-      # store_position:: true if the positions should be stored
-      # store_offset:: true if the offsets should be stored
-      def add(name,
-              indexed = true,
-              store_term_vector = false,
-              store_position = false,
-              store_offset = false,
-              omit_norms = false)
-        fi = @fi_hash[name]
-        if (fi == nil)
-          fi = add_internal(name, indexed, store_term_vector, store_position,
-                            store_offset, omit_norms)
-        else
-          if (fi.indexed? != indexed)
-            fi.indexed = true             # once indexed, always index
-          end
-          if (fi.store_term_vector? != store_term_vector)
-            fi.store_term_vector = true   # once vector, always vector
-          end
-          if (fi.store_positions? != store_position)
-            fi.store_position = true # once vector, always vector
-          end
-          if (fi.store_offsets? != store_offset)
-            fi.store_offset = true   # once vector, always vector
-          end
-          if (fi.omit_norms? != omit_norms)
-            fi.omit_norms = false   # once norms are stored, always store norms
-          end
-        end
-        return fi
-      end
-      # Returns the number of the field that goes by the field name that is
-      # passed. If there is no field of this name then -1 is returned
-      def field_number(name)
-        fi = @fi_hash[name.to_s]
-        return fi ? fi.number : NOT_A_FIELD
-      end
-      # Retrieve the field_info object by either field number or field name.
-      def [](index)
-        if index.is_a? Integer
-          if index >= NOT_A_FIELD || index < 0 # < 0 is for C extensions
-            return FieldInfo.new("", false, NOT_A_FIELD, false)
-          end
-          return @fi_array[index]
-        else
-          return @fi_hash[index.to_s]
-        end
-      end
-      def name(index)
-        if index == NOT_A_FIELD || index < 0 # < 0 is for C extensions
-          return ""
-        end
-        return self[index].name
-      end
-      # Iterate through the field_info objects
-      def each()
-        @fi_array.each() {|fi| yield(fi) }
-      end
-      # Iterate through the field_info objects including the index
-      def each_with_index()
-        @fi_array.each_with_index() {|fi, i| yield(fi, i) }
-      end
-      # Get the number of field_infos in this object.
-      #
-      # NOTE: There is a default empty field always added at the start. This
-      # may later be used to set the default values for a field.
-      def size()
-        return @fi_array.size()
-      end
-      # Return true if any of the fields have store_term_vector? set to true
-      def has_vectors?()
-        @fi_array.each() { |fi| return true if fi.store_term_vector? }
-        return false
-      end
-      # Write the field_infos to a file specified by name in dir.
-      #
-      # dir:: the directory to write the fieldinfos to
-      # name:: the name of the file to write to.
-      def write_to_dir(dir, name)
-        output = dir.create_output(name)
-        begin
-          write(output)
-        ensure
-          output.close()
-        end
-      end
-      protected
-        # Write the field_infos to the output file
-        #
-        # output:: the file to write to
-        def write(output)
-          output.write_vint(size())
-          @fi_array.each() do |fi|
-            output.write_string(fi.name)
-            output.write_byte(get_field_info_byte(fi))
-          end
-        end
-        # Read the field_infos object from the input file
-        #
-        # input:: the input file to read from
-        def read(input)
-          size = input.read_vint()#read in the size
-          size.times do |i|
-            name = input.read_string()
-            bits = input.read_byte()
-            indexed = (bits & IS_INDEXED) != 0
-            store_term_vector = (bits & STORE_TERM_VECTOR) != 0
-            store_position = (bits & STORE_POSITION) != 0
-            store_offset = (bits & STORE_OFFSET) != 0
-            omit_norms = (bits & OMIT_NORMS) != 0
-            add_internal(name, indexed, store_term_vector, store_position,
-                         store_offset, omit_norms)
-          end
-        end
-      private
-        IS_INDEXED = 0x1;
-        STORE_TERM_VECTOR = 0x2;
-        STORE_POSITION = 0x4;
-        STORE_OFFSET = 0x8;
-        OMIT_NORMS = 0x10;
-        def add_internal(name, indexed, store_term_vector,
-                         store_position = false,
-                         store_offset = false,
-                         omit_norms = false)
-          fi = FieldInfo.new(name, indexed,
-                             @fi_array.size(),
-                             store_term_vector,
-                             store_position,
-                             store_offset,
-                             omit_norms)
-          @fi_array << fi
-          @fi_hash[name] = fi
-          return fi
-        end
-        def get_field_info_byte(fi)
-          bits = 0x0
-          if (fi.indexed?)
-            bits |= IS_INDEXED
-          end
-          if (fi.store_term_vector?)
-            bits |= STORE_TERM_VECTOR
-          end
-          if (fi.store_positions?)
-            bits |= STORE_POSITION
-          end
-          if (fi.store_offsets?)
-            bits |= STORE_OFFSET
-          end
-          if (fi.omit_norms?)
-            bits |= OMIT_NORMS
-          end
-          return bits
-        end
-    end
-    class FieldInfo
-      attr_accessor :name, :number
-      attr_writer :indexed, :store_term_vector, :store_offset,
-        :store_position, :omit_norms
-      def indexed?()
-        return @indexed
-      end
-      def store_term_vector?()
-        return @store_term_vector
-      end
-      def store_offsets?()
-        return @store_offset
-      end
-      def store_positions?()
-        return @store_position
-      end
-      def omit_norms?()
-        return @omit_norms
-      end
-      def set!(indexed, store_term_vector, store_position,
-               store_offset, omit_norms)
-        @indexed = indexed
-        @store_term_vector = store_term_vector
-        @store_position = store_position
-        @store_offset = store_offset
-        @omit_norms = omit_norms
-      end
-      def initialize(name, indexed, number, store_term_vector,
-                     store_position = false,
-                     store_offset = false,
-                     omit_norms = false)
-        @name = name
-        @number = number
-        set!(indexed, store_term_vector, store_position,
-             store_offset, omit_norms)
-      end
-    end
-  end
-end

data/lib/ferret/index/fields_io.rb DELETED Viewed

@@ -1,181 +0,0 @@
-require 'zlib'
-module Ferret::Index
-  # Class responsible for access to stored document fields.
-  #
-  # It uses &lt;segment&gt;.fdt and &lt;segment&gt;.fdx; files.
-  class FieldsReader
-    include Ferret::Document
-    attr_reader :size
-    alias :length :size
-    def initialize(d, segment, fi)
-      @field_infos = fi
-      @fields_stream = d.open_input(segment + ".fdt")
-      @index_stream = d.open_input(segment + ".fdx")
-      @size = (@index_stream.length() / 8).to_i
-    end
-    def close()
-      @fields_stream.close()
-      @index_stream.close()
-    end
-    def doc(n)
-      @index_stream.seek(n * 8)
-      position = @index_stream.read_long()
-      @fields_stream.seek(position)
-      doc = Document.new
-      @fields_stream.read_vint().times do
-        field_number = @fields_stream.read_vint()
-        fi = @field_infos[field_number]
-        bits = @fields_stream.read_byte()
-        compressed = (bits & FieldsWriter::FIELD_IS_COMPRESSED) != 0
-        tokenize = (bits & FieldsWriter::FIELD_IS_TOKENIZED) != 0
-        binary = (bits & FieldsWriter::FIELD_IS_BINARY) != 0
-        if binary
-          b = " " * @fields_stream.read_vint()
-          @fields_stream.read_bytes(b, 0, b.length)
-          if compressed
-            doc << Field.new_binary_field(fi.name,
-                                          uncompress(b),
-                                          Field::Store::COMPRESS)
-          else # No compression
-            doc << Field.new_binary_field(fi.name, b, Field::Store::YES)
-          end
-        else
-          store = Field::Store::YES
-          if fi.indexed?
-            if tokenize
-              index = Field::Index::TOKENIZED
-            else
-              if fi.omit_norms?
-                index = Field::Index::NO_NORMS
-              else
-                index = Field::Index::UNTOKENIZED
-              end
-            end
-          else
-            index = Field::Index::NO
-          end
-          data = nil
-          if (compressed)
-            store = Field::Store::COMPRESS
-            b = " " * @fields_stream.read_vint()
-            @fields_stream.read_bytes(b, 0, b.length)
-            data = uncompress(b)
-          else
-            data = @fields_stream.read_string()
-          end
-          stv =  Field::TermVector::NO
-          if fi.store_term_vector?
-            if fi.store_positions? and fi.store_offsets?
-              stv =  Field::TermVector::WITH_POSITIONS_OFFSETS
-            elsif fi.store_positions?
-              stv =  Field::TermVector::WITH_POSITIONS
-            elsif fi.store_offsets?
-              stv =  Field::TermVector::WITH_OFFSETS
-            else
-              stv =  Field::TermVector::YES
-            end
-          end
-          doc << Field.new(fi.name, data, store, index, stv)
-        end
-      end
-      return doc
-    end
-    def uncompress(input)
-      zstream = Zlib::Inflate.new
-      buf = zstream.inflate(input)
-      zstream.finish
-      zstream.close
-      buf
-    end
-  end
-  class FieldsWriter
-    FIELD_IS_TOKENIZED = 0X1
-    FIELD_IS_BINARY = 0X2
-    FIELD_IS_COMPRESSED = 0X4
-    def initialize(dir, segment, fi)
-      @field_infos = fi
-      @fields_stream = dir.create_output(segment + ".fdt")
-      @index_stream = dir.create_output(segment + ".fdx")
-    end
-    def close()
-      @fields_stream.close()
-      @index_stream.close()
-    end
-    def add_document(doc)
-      @index_stream.write_long(@fields_stream.pos)
-      stored_count = 0
-      doc.all_fields.each() { |field| stored_count += 1 if field.stored?() }
-      @fields_stream.write_vint(stored_count)
-      doc.all_fields.each() do |field|
-        if (field.stored?())
-          @fields_stream.write_vint(@field_infos.field_number(field.name))
-          bits = 0
-          bits |= FIELD_IS_TOKENIZED if field.tokenized?
-          bits |= FIELD_IS_BINARY if field.binary?
-          bits |= FIELD_IS_COMPRESSED if field.compressed?
-          @fields_stream.write_byte(bits)
-          data = nil
-          if field.compressed?
-            if field.binary?
-              data = compress(field.binary_value)
-            else
-              data = compress(field.string_value)
-            end
-            save_data(data)
-          else
-            if field.binary?
-              save_data(field.binary_value)
-            else
-              @fields_stream.write_string(field.string_value)
-            end
-          end
-        end
-      end
-    end
-    alias :<< :add_document
-    private
-      def compress(input)
-        zstream = Zlib::Deflate.new(Zlib::BEST_COMPRESSION)
-        buf = zstream.deflate(input, Zlib::FINISH)
-        zstream.close
-        return buf
-      end
-      def save_data(data)
-        len = data.length
-        if data.is_a? Array
-          data = data.pack("C*")
-        end
-        @fields_stream.write_vint(len)
-        @fields_stream.write_bytes(data, len)
-      end
-  end
-end