RubyGems - ferret - Versions diffs - 0.1.0 - Mend

ferret 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

data/MIT-LICENSE +20 -0
data/README +109 -0
data/Rakefile +275 -0
data/TODO +9 -0
data/TUTORIAL +197 -0
data/ext/extconf.rb +3 -0
data/ext/ferret.c +23 -0
data/ext/ferret.h +85 -0
data/ext/index_io.c +543 -0
data/ext/priority_queue.c +227 -0
data/ext/ram_directory.c +316 -0
data/ext/segment_merge_queue.c +41 -0
data/ext/string_helper.c +42 -0
data/ext/tags +240 -0
data/ext/term.c +261 -0
data/ext/term_buffer.c +299 -0
data/ext/util.c +12 -0
data/lib/ferret.rb +41 -0
data/lib/ferret/analysis.rb +11 -0
data/lib/ferret/analysis/analyzers.rb +93 -0
data/lib/ferret/analysis/standard_tokenizer.rb +65 -0
data/lib/ferret/analysis/token.rb +79 -0
data/lib/ferret/analysis/token_filters.rb +86 -0
data/lib/ferret/analysis/token_stream.rb +26 -0
data/lib/ferret/analysis/tokenizers.rb +107 -0
data/lib/ferret/analysis/word_list_loader.rb +27 -0
data/lib/ferret/document.rb +2 -0
data/lib/ferret/document/document.rb +152 -0
data/lib/ferret/document/field.rb +304 -0
data/lib/ferret/index.rb +26 -0
data/lib/ferret/index/compound_file_io.rb +343 -0
data/lib/ferret/index/document_writer.rb +288 -0
data/lib/ferret/index/field_infos.rb +259 -0
data/lib/ferret/index/fields_io.rb +175 -0
data/lib/ferret/index/index.rb +228 -0
data/lib/ferret/index/index_file_names.rb +33 -0
data/lib/ferret/index/index_reader.rb +462 -0
data/lib/ferret/index/index_writer.rb +488 -0
data/lib/ferret/index/multi_reader.rb +363 -0
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +105 -0
data/lib/ferret/index/segment_infos.rb +130 -0
data/lib/ferret/index/segment_merge_info.rb +47 -0
data/lib/ferret/index/segment_merge_queue.rb +16 -0
data/lib/ferret/index/segment_merger.rb +337 -0
data/lib/ferret/index/segment_reader.rb +380 -0
data/lib/ferret/index/segment_term_enum.rb +178 -0
data/lib/ferret/index/segment_term_vector.rb +58 -0
data/lib/ferret/index/term.rb +49 -0
data/lib/ferret/index/term_buffer.rb +88 -0
data/lib/ferret/index/term_doc_enum.rb +283 -0
data/lib/ferret/index/term_enum.rb +52 -0
data/lib/ferret/index/term_info.rb +41 -0
data/lib/ferret/index/term_infos_io.rb +312 -0
data/lib/ferret/index/term_vector_offset_info.rb +20 -0
data/lib/ferret/index/term_vectors_io.rb +552 -0
data/lib/ferret/query_parser.rb +274 -0
data/lib/ferret/query_parser/query_parser.tab.rb +819 -0
data/lib/ferret/search.rb +49 -0
data/lib/ferret/search/boolean_clause.rb +100 -0
data/lib/ferret/search/boolean_query.rb +303 -0
data/lib/ferret/search/boolean_scorer.rb +294 -0
data/lib/ferret/search/caching_wrapper_filter.rb +40 -0
data/lib/ferret/search/conjunction_scorer.rb +99 -0
data/lib/ferret/search/disjunction_sum_scorer.rb +203 -0
data/lib/ferret/search/exact_phrase_scorer.rb +32 -0
data/lib/ferret/search/explanation.rb +41 -0
data/lib/ferret/search/field_cache.rb +216 -0
data/lib/ferret/search/field_doc.rb +31 -0
data/lib/ferret/search/field_sorted_hit_queue.rb +184 -0
data/lib/ferret/search/filter.rb +11 -0
data/lib/ferret/search/filtered_query.rb +130 -0
data/lib/ferret/search/filtered_term_enum.rb +79 -0
data/lib/ferret/search/fuzzy_query.rb +153 -0
data/lib/ferret/search/fuzzy_term_enum.rb +244 -0
data/lib/ferret/search/hit_collector.rb +34 -0
data/lib/ferret/search/hit_queue.rb +11 -0
data/lib/ferret/search/index_searcher.rb +173 -0
data/lib/ferret/search/match_all_docs_query.rb +104 -0
data/lib/ferret/search/multi_phrase_query.rb +204 -0
data/lib/ferret/search/multi_term_query.rb +65 -0
data/lib/ferret/search/non_matching_scorer.rb +22 -0
data/lib/ferret/search/phrase_positions.rb +55 -0
data/lib/ferret/search/phrase_query.rb +217 -0
data/lib/ferret/search/phrase_scorer.rb +153 -0
data/lib/ferret/search/prefix_query.rb +47 -0
data/lib/ferret/search/query.rb +111 -0
data/lib/ferret/search/query_filter.rb +51 -0
data/lib/ferret/search/range_filter.rb +103 -0
data/lib/ferret/search/range_query.rb +139 -0
data/lib/ferret/search/req_excl_scorer.rb +125 -0
data/lib/ferret/search/req_opt_sum_scorer.rb +70 -0
data/lib/ferret/search/score_doc.rb +38 -0
data/lib/ferret/search/score_doc_comparator.rb +114 -0
data/lib/ferret/search/scorer.rb +91 -0
data/lib/ferret/search/similarity.rb +278 -0
data/lib/ferret/search/sloppy_phrase_scorer.rb +47 -0
data/lib/ferret/search/sort.rb +105 -0
data/lib/ferret/search/sort_comparator.rb +60 -0
data/lib/ferret/search/sort_field.rb +87 -0
data/lib/ferret/search/spans.rb +12 -0
data/lib/ferret/search/spans/near_spans_enum.rb +304 -0
data/lib/ferret/search/spans/span_first_query.rb +79 -0
data/lib/ferret/search/spans/span_near_query.rb +108 -0
data/lib/ferret/search/spans/span_not_query.rb +130 -0
data/lib/ferret/search/spans/span_or_query.rb +176 -0
data/lib/ferret/search/spans/span_query.rb +25 -0
data/lib/ferret/search/spans/span_scorer.rb +74 -0
data/lib/ferret/search/spans/span_term_query.rb +105 -0
data/lib/ferret/search/spans/span_weight.rb +84 -0
data/lib/ferret/search/spans/spans_enum.rb +44 -0
data/lib/ferret/search/term_query.rb +128 -0
data/lib/ferret/search/term_scorer.rb +181 -0
data/lib/ferret/search/top_docs.rb +24 -0
data/lib/ferret/search/top_field_docs.rb +17 -0
data/lib/ferret/search/weight.rb +54 -0
data/lib/ferret/search/wildcard_query.rb +26 -0
data/lib/ferret/search/wildcard_term_enum.rb +61 -0
data/lib/ferret/stemmers.rb +1 -0
data/lib/ferret/stemmers/porter_stemmer.rb +218 -0
data/lib/ferret/store.rb +5 -0
data/lib/ferret/store/buffered_index_io.rb +191 -0
data/lib/ferret/store/directory.rb +139 -0
data/lib/ferret/store/fs_store.rb +338 -0
data/lib/ferret/store/index_io.rb +259 -0
data/lib/ferret/store/ram_store.rb +282 -0
data/lib/ferret/utils.rb +7 -0
data/lib/ferret/utils/bit_vector.rb +105 -0
data/lib/ferret/utils/date_tools.rb +138 -0
data/lib/ferret/utils/number_tools.rb +91 -0
data/lib/ferret/utils/parameter.rb +41 -0
data/lib/ferret/utils/priority_queue.rb +120 -0
data/lib/ferret/utils/string_helper.rb +47 -0
data/lib/ferret/utils/weak_key_hash.rb +51 -0
data/rake_utils/code_statistics.rb +106 -0
data/setup.rb +1551 -0
data/test/benchmark/tb_ram_store.rb +76 -0
data/test/benchmark/tb_rw_vint.rb +26 -0
data/test/longrunning/tc_numbertools.rb +60 -0
data/test/longrunning/tm_store.rb +19 -0
data/test/test_all.rb +9 -0
data/test/test_helper.rb +6 -0
data/test/unit/analysis/tc_analyzer.rb +21 -0
data/test/unit/analysis/tc_letter_tokenizer.rb +20 -0
data/test/unit/analysis/tc_lower_case_filter.rb +20 -0
data/test/unit/analysis/tc_lower_case_tokenizer.rb +27 -0
data/test/unit/analysis/tc_per_field_analyzer_wrapper.rb +39 -0
data/test/unit/analysis/tc_porter_stem_filter.rb +16 -0
data/test/unit/analysis/tc_standard_analyzer.rb +20 -0
data/test/unit/analysis/tc_standard_tokenizer.rb +20 -0
data/test/unit/analysis/tc_stop_analyzer.rb +20 -0
data/test/unit/analysis/tc_stop_filter.rb +14 -0
data/test/unit/analysis/tc_white_space_analyzer.rb +21 -0
data/test/unit/analysis/tc_white_space_tokenizer.rb +20 -0
data/test/unit/analysis/tc_word_list_loader.rb +32 -0
data/test/unit/document/tc_document.rb +47 -0
data/test/unit/document/tc_field.rb +80 -0
data/test/unit/index/tc_compound_file_io.rb +107 -0
data/test/unit/index/tc_field_infos.rb +119 -0
data/test/unit/index/tc_fields_io.rb +167 -0
data/test/unit/index/tc_index.rb +140 -0
data/test/unit/index/tc_index_reader.rb +622 -0
data/test/unit/index/tc_index_writer.rb +57 -0
data/test/unit/index/tc_multiple_term_doc_pos_enum.rb +80 -0
data/test/unit/index/tc_segment_infos.rb +74 -0
data/test/unit/index/tc_segment_term_docs.rb +17 -0
data/test/unit/index/tc_segment_term_enum.rb +60 -0
data/test/unit/index/tc_segment_term_vector.rb +71 -0
data/test/unit/index/tc_term.rb +22 -0
data/test/unit/index/tc_term_buffer.rb +57 -0
data/test/unit/index/tc_term_info.rb +19 -0
data/test/unit/index/tc_term_infos_io.rb +192 -0
data/test/unit/index/tc_term_vector_offset_info.rb +18 -0
data/test/unit/index/tc_term_vectors_io.rb +108 -0
data/test/unit/index/th_doc.rb +244 -0
data/test/unit/query_parser/tc_query_parser.rb +84 -0
data/test/unit/search/tc_filter.rb +113 -0
data/test/unit/search/tc_fuzzy_query.rb +136 -0
data/test/unit/search/tc_index_searcher.rb +188 -0
data/test/unit/search/tc_search_and_sort.rb +98 -0
data/test/unit/search/tc_similarity.rb +37 -0
data/test/unit/search/tc_sort.rb +48 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +153 -0
data/test/unit/store/tc_fs_store.rb +84 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +180 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/ts_analysis.rb +16 -0
data/test/unit/ts_document.rb +4 -0
data/test/unit/ts_index.rb +18 -0
data/test/unit/ts_query_parser.rb +3 -0
data/test/unit/ts_search.rb +10 -0
data/test/unit/ts_store.rb +6 -0
data/test/unit/ts_utils.rb +10 -0
data/test/unit/utils/tc_bit_vector.rb +65 -0
data/test/unit/utils/tc_date_tools.rb +50 -0
data/test/unit/utils/tc_number_tools.rb +59 -0
data/test/unit/utils/tc_parameter.rb +40 -0
data/test/unit/utils/tc_priority_queue.rb +62 -0
data/test/unit/utils/tc_string_helper.rb +21 -0
data/test/unit/utils/tc_weak_key_hash.rb +25 -0
metadata +251 -0

data/lib/ferret/index/multi_reader.rb ADDED

@@ -0,0 +1,363 @@
+module Ferret
+  module Index
+    # An IndexReader which reads multiple indexes, appending their content.
+    class MultiReader < IndexReader
+      attr_reader :max_doc
+      # Construct a MultiReader aggregating the named set of (sub)readers.
+      # Directory locking for delete, undeleteAll, and set_norm operations is
+      # left to the subreaders.
+      #
+      # Note that all subreaders are closed if this Multireader is closed.
+      # sub_readers:: set of (sub)readers
+      # raises:: IOException
+      def initialize(sub_readers, directory = nil, sis = nil, close_dir = false)
+        if (directory)
+          super(directory, sis, close_dir)
+        else
+          super(sub_readers.length == 0 ? nil : sub_readers[0].directory())
+        end
+        @max_doc = 0
+        @num_docs = -1
+        @has_deletions = false
+        @sub_readers = sub_readers
+        @starts = Array.new(@sub_readers.length + 1)    # build starts array
+        @sub_readers.each_with_index do |sub_reader, i|
+          @starts[i] = @max_doc
+          @max_doc += sub_reader.max_doc # compute maxDocs
+          if @sub_readers[i].has_deletions?
+            @has_deletions = true
+          end
+        end
+        @starts[@sub_readers.length] = @max_doc
+        @norms_cache = {}
+      end
+      # Return an array of term frequency vectors for the specified document.  The
+      # array contains a vector for each vectorized field in the document.  Each
+      # vector vector contains term numbers and frequencies for all terms in a
+      # given vectorized field.  If no such fields existed, the method returns
+      # nil.
+      def get_term_vectors(n)
+        i = reader_index(n)        # find segment num
+        return @sub_readers[i].get_term_vectors(n - @starts[i]); # dispatch to segment
+      end
+      def get_term_vector(n, field)
+         i = reader_index(n)        # find segment num
+        return @sub_readers[i].get_term_vector(n - @starts[i], field)
+      end
+      def num_docs()
+        synchronize do
+          if (@num_docs == -1) # check cache
+            n = 0                # cache miss -= 1recompute
+            @sub_readers.each {|reader| n += reader.num_docs()}
+            @num_docs = n
+          end
+          return @num_docs
+        end
+      end
+      def get_document(n)
+        i = reader_index(n)                                 # find segment num
+        return @sub_readers[i].get_document(n - @starts[i]) # dispatch to segment reader
+      end
+      def deleted?(n)
+        i = reader_index(n)                             # find segment num
+        return @sub_readers[i].deleted?(n - @starts[i]) # dispatch to segment reader
+      end
+      def has_deletions?()
+        return @has_deletions
+      end
+      def do_delete(n)
+        @num_docs = -1                         # invalidate cache
+        i = reader_index(n)                    # find segment num
+        @sub_readers[i].delete(n - @starts[i]) # dispatch to segment reader
+        @has_deletions = true
+      end
+      def do_undelete_all()
+        @num_docs = -1                         # invalidate cache
+        @sub_readers.each {|reader| reader.undelete_all() }
+        @has_deletions = false
+      end
+      def reader_index(n) # find reader for doc n:
+        lo = 0                       # search @starts array
+        hi = @sub_readers.length - 1 # for first element less
+        while (hi >= lo)
+          mid = (lo + hi) >> 1
+          mid_value = @starts[mid]
+          if (n < mid_value)
+            hi = mid - 1
+          elsif (n > mid_value)
+            lo = mid + 1
+          else # found a match
+            while (mid+1 < @sub_readers.length and @starts[mid+1] == mid_value)
+              mid += 1 # scan to last match
+            end
+            return mid
+          end
+        end
+        return hi
+      end
+      def get_norms(field)
+        synchronize do
+          bytes = @norms_cache[field]
+          if (bytes != nil)
+            return bytes    # cache hit
+          end
+          bytes = " " * @max_doc
+          @sub_readers.length.times do |i|
+            @sub_readers[i].get_norms_into(field, bytes, @starts[i])
+          end
+          @norms_cache[field] = bytes      # update cache
+          return bytes
+        end
+      end
+      def get_norms_into(field, buf, offset)
+        bytes = @norms_cache[field]
+        if (bytes != nil)                            # cache hit
+          buf[offset ,@max_doc] = bytes[0, @max_doc]
+          return
+        end
+        @sub_readers.length.times do |i|
+          @sub_readers[i].get_norms_into(field, buf, offset + @starts[i])
+        end
+      end
+      def do_set_norm(n, field, value)
+        @norms_cache.delete(field)                   # clear cache
+        i = reader_index(n)                          # find segment num
+        @sub_readers[i].set_norm(n-@starts[i], field, value); # dispatch
+      end
+      def terms()
+        return MultiTermEnum.new(@sub_readers, @starts, nil)
+      end
+      def terms_from(term)
+        return MultiTermEnum.new(@sub_readers, @starts, term)
+      end
+      def doc_freq(t)
+        total = 0          # sum freqs in segments
+        @sub_readers.each {|reader| total += reader.doc_freq(t)}
+        return total
+      end
+      def term_docs()
+        return MultiTermDocEnum.new(@sub_readers, @starts)
+      end
+      def term_positions()
+        return MultiTermDocPosEnum.new(@sub_readers, @starts)
+      end
+      def do_commit()
+        @sub_readers.each {|reader| reader.commit() }
+      end
+      def do_close()
+        synchronize do
+          @sub_readers.each {|reader| reader.close() }
+        end
+      end
+      # See IndexReader#get_field_names
+      def get_field_names(field_option)
+        # maintain a unique set of field names
+        field_set = Set.new
+        @sub_readers.each do |reader|
+          field_set |= reader.get_field_names(field_option)
+        end
+        return field_set
+      end
+    end
+    class MultiTermEnum < TermEnum
+      attr_reader :doc_freq, :term
+      def initialize(readers, starts, t)
+        @queue = SegmentMergeQueue.new(readers.length)
+        readers.each_index do |i|
+          reader = readers[i]
+          term_enum = nil
+          if (t != nil)
+            term_enum = reader.terms_from(t)
+          else
+            term_enum = reader.terms()
+          end
+          smi = SegmentMergeInfo.new(starts[i], term_enum, reader)
+          if (t == nil and smi.next?) or term_enum.term
+            @queue.push(smi);          # initialize queue
+          else
+            smi.close()
+          end
+        end
+        if (t != nil and @queue.size() > 0)
+          next?()
+        end
+      end
+      def next?()
+        top = @queue.top()
+        if (top == nil)
+          @term = nil
+          return false
+        end
+        @term = top.term
+        @doc_freq = 0
+        while top and @term == top.term
+          @queue.pop()
+          @doc_freq += top.term_enum.doc_freq() # increment freq
+          if (top.next?)
+            @queue.push(top) # restore queue
+          else
+            top.close()     # done with a segment
+          end
+          top = @queue.top()
+        end
+        return true
+      end
+      def close()
+        @queue.close()
+      end
+    end
+    class MultiTermDocEnum < TermDocEnum
+      attr_accessor :readers, :starts, :term, :base, :pointer, :current
+      def initialize(readers, starts)
+        @readers = readers
+        @starts = starts
+        @base = 0
+        @pointer = 0
+        @reader_term_docs = Array.new(readers.length)
+      end
+      def doc
+        return @base + @current.doc()
+      end
+      def freq
+        return @current.freq()
+      end
+      def seek(term)
+        @term = term
+        @base = 0
+        @pointer = 0
+        @current = nil
+      end
+      def next?
+        if @current and @current.next?
+          return true
+        elsif @pointer < @readers.length
+          @base = @starts[@pointer]
+          @current = term_docs(@pointer)
+          @pointer += 1
+          return next?()
+        else
+          return false
+        end
+      end
+      # Optimized implementation. Unlike the Java version, this method
+      # always returns as many results as it can read.
+      def read(docs, freqs)
+        got = 0
+        last_got = 0
+        needed = docs.length
+        while (true)
+          while @current.nil?
+            if @pointer < @readers.length # begin next segment
+              @base = @starts[@pointer]
+              @current = term_docs(@pointer)
+              @pointer += 1
+            else
+              return got
+            end
+          end
+          got = @current.read(docs, freqs, got)
+          if (got == last_got) # none left in segment
+            @current = nil
+          else # got some
+            b = @base        # adjust doc numbers
+            (last_got...got).each {|i| docs[i] += b}
+            if got == needed
+              return got
+            else
+              last_got = got
+            end
+          end
+        end
+      end
+      # As yet unoptimized implementation.
+      def skip_to(target)
+        begin
+          return false if not next?
+        end while target > doc()
+        return true
+      end
+      def term_docs(i)
+        return nil if (@term == nil)
+        result = @reader_term_docs[i]
+        if (result == nil)
+          result = @reader_term_docs[i] = term_docs_from_reader(@readers[i])
+        end
+        result.seek(@term)
+        return result
+      end
+      def term_docs_from_reader(reader)
+        return reader.term_docs()
+      end
+      def close()
+        @reader_term_docs.compact.each do |rtd|
+          rtd.close()
+        end
+      end
+    end
+    class MultiTermDocPosEnum < MultiTermDocEnum
+      def initialize(r, s)
+        super(r,s)
+      end
+      def term_docs_from_reader(reader)
+        return reader.term_positions()
+      end
+      def next_position()
+        return @current.next_position()
+      end
+    end
+  end
+end

data/lib/ferret/index/multiple_term_doc_pos_enum.rb ADDED

@@ -0,0 +1,105 @@
+module Ferret::Index
+  # Describe class +MultipleTermPositions+ here.
+  #
+  # @author Anders Nielsen
+  class MultipleTermDocPosEnum < TermDocEnum
+    class TermPositionsQueue < Ferret::Utils::PriorityQueue
+      def initialize(term_positions)
+        super(term_positions.size)
+        term_positions.each do |tp|
+          push(tp) if tp.next?
+        end
+      end
+      def less_than(tp1, tp2)
+        return tp1.doc < tp2.doc
+      end
+    end
+    # Creates a new +MultipleTermPositions+ instance.
+    #
+    # @exception IOException
+    def initialize(reader, terms)
+      term_positions = []
+      terms.each do |term|
+        term_positions << reader.term_positions_for(term)
+      end
+      @tps_queue = TermPositionsQueue.new(term_positions)
+      @pos_list = []
+    end
+    def next?
+      return false if (@tps_queue.size == 0)
+      @pos_list.clear()
+      @doc = @tps_queue.top.doc
+      tps = nil
+      begin
+        tps = @tps_queue.top()
+        tps.freq.times do |i|
+          @pos_list << tps.next_position()
+        end
+        if tps.next?
+          @tps_queue.adjust_top()
+        else
+          @tps_queue.pop()
+          tps.close()
+        end
+      end while (@tps_queue.size > 0 and @tps_queue.top.doc == @doc)
+      @pos_list.sort!()
+      @freq = @pos_list.size
+      return true
+    end
+    def next_position()
+      return @pos_list.shift()
+    end
+    def skip_to(target)
+      while (@tps_queue.top != nil and target > @tps_queue.top.doc)
+        tps = @tps_queue.pop()
+        if (tps.skip_to(target))
+          @tps_queue.push(tps)
+        else
+          tps.close()
+        end
+      end
+      return next?
+    end
+    def doc()
+      return @doc
+    end
+    def freq()
+      return @freq
+    end
+    def close()
+      while (tps = @tps_queue.pop())
+        tps.close()
+      end
+    end
+    # Not implemented.
+    # raises:: NotImplementedError
+    def seek(term)
+      raise NotImplementedError
+    end
+    # Not implemented.
+    # raises:: NotImplementedError
+    def read(docs, freqs)
+      raise NotImplementedError
+    end
+  end
+end