RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/lib/ferret/search/multi_searcher.rb DELETED Viewed

@@ -1,261 +0,0 @@
-module Ferret::Search
-  # Implements searching multiple IndexSearchers at once
-  #
-  # Applications usually need only call the @link #search(Query)
-  # or @link #search(Query,Filter) methods. For performance reasons it is
-  # recommended to open only one Searcher and use it for all of your searches.
-  class MultiSearcher
-    include Ferret::Index
-    attr_accessor :similarity, :searchers
-    # Creates a MultiSearcher searching across all the searchers
-    # in the provided array.
-    #
-    def initialize(args)
-      @searchers = Array.new(args)
-      @similarity = Similarity.default
-      # initialize reader lookup array
-      @max_doc = 0
-      @starts = Array.new(@searchers.size + 1)
-      @searchers.each_with_index { |searcher, i|
-        @starts[i] = @max_doc
-        @max_doc += searcher.max_doc
-      }
-      @starts[@searchers.size] = @max_doc
-    end
-    # closes all underlying Searchers
-    def close()
-      @searchers.each { |searcher| searcher.close() }
-    end
-    # Expert: Returns the number of documents containing +term+.
-    # Called by search code to compute term weights.
-    # See IndexReader#doc_freq
-    def doc_freq(term)
-      return @searchers.inject(0) { |df, searcher|
-        df + searcher.doc_freq(term)
-      }
-    end
-    # Expert: For each term in the terms array, calculates the number of
-    # documents containing +term+. Returns an array with these
-    # document frequencies. Used to minimize number of remote calls.
-    def doc_freqs(terms)
-      result = Array.new
-      terms.each {|term, i| result << doc_freq(term)}
-      return result
-    end
-    # Expert: Returns the stored fields of document +n+.
-    #
-    # See IndexReader#get_document
-    def doc(n)
-      i = sub_searcher(n)
-      return @searchers[i].doc(n - @starts[i])
-    end
-    # Returns index of the searcher for document <code>n</code> in the
-    # array used to construct this searcher.
-    def sub_searcher(n)
-      lo = 0			            # search starts array
-      hi = @searchers.size - 1  # for first element less
-						                  # than n, return its index
-      while hi >= lo do
-        mid = (lo + hi) >> 1
-        midValue = @starts[mid]
-        if n < midValue
-          hi = mid - 1;
-        elsif n > midValue
-          lo = mid + 1;
-        else                   # found a match
-          while mid+1 < @searchers.size && @starts[mid+1] == midValue do
-            mid += 1                # scan to last match
-          end
-          return mid
-        end
-      end
-      return hi
-    end
-    # Returns the document number of document <code>n</code> within its
-    # sub-index.
-    def sub_doc(n)
-      return n - @starts[sub_searcher(n)]
-    end
-    # Expert: Returns one greater than the largest possible document number.
-    # Called by search code to compute term weights.
-    # See IndexReader#max_doc
-    def max_doc
-      return @max_doc
-    end
-    # Create weight in multiple index scenario.
-    #
-    # Distributed query processing is done in the following steps:
-    # 1. rewrite query
-    # 2. extract necessary terms
-    # 3. collect dfs for these terms from the Searchables
-    # 4. create query weight using aggregate dfs.
-    # 5. distribute that weight to Searchables
-    # 6. merge results
-    #
-    # Steps 1-4 are done here, 5+6 in the search() methods
-    def create_weight(query)
-      # step 1
-      rewritten_query = self.rewrite(query)
-      # step 2
-      terms = Set.new
-      rewritten_query.extract_terms(terms)
-      # step 3
-      aggregated_dfs = Array.new(terms.size, 0)
-      @searchers.each { |searcher|
-        dfs = searcher.doc_freqs(terms)
-        dfs.each_with_index { |df,i|
-          aggregated_dfs[i] += df
-        }
-      }
-      df_map = Hash.new
-      terms.each_with_index { |term,i|
-        df_map[term] = aggregated_dfs[i]
-      }
-      # step 4
-      cache_sim = CachedDfSource.new(df_map, self.max_doc, self.similarity)
-      return rewritten_query.weight(cache_sim)
-    end
-    def search(query, options = {})
-      filter = options[:filter]
-      first_doc = options[:first_doc]||0
-      num_docs = options[:num_docs]||10
-      max_size = first_doc + num_docs
-      sort = options[:sort]
-      if (num_docs <= 0)
-        raise ArgumentError, "num_docs must be > 0 to run a search"
-      end
-      if (first_doc < 0)
-        raise ArgumentError, "first_doc must be >= 0 to run a search"
-      end
-      if (sort)
-        raise NotImplementedError
-        #fields = sort.is_a?(Array) ? sort : sort.fields
-        #hq = FieldDocSortedHitQueue.new(fields, max_size)
-      else
-        hq = HitQueue.new(max_size)
-      end
-      total_hits = 0
-      weight = create_weight(query)
-      @searchers.each_with_index { |searcher,i|     # search each searcher
-        docs = searcher.search(weight,
-                               :filter => filter,
-                               #:sort => sort,
-                               :num_docs => max_size,
-                               :first_doc => 0)
-        total_hits += docs.total_hits  # update total_hits
-        docs.score_docs.each { |score_doc|
-          score_doc.doc += @starts[i]   # convert doc
-          break unless hq.insert(score_doc) # no more scores > min_score
-        }
-      }
-      score_docs = []
-      if (hq.size > first_doc)
-        if (hq.size - first_doc) < num_docs
-          num_docs = hq.size - first_doc
-        end
-        num_docs.times do
-          score_docs.unshift(hq.pop)
-        end
-      end
-      hq.clear
-      return TopDocs.new(total_hits, score_docs)
-    end
-    def search_each(query, filter = nil, &block)
-      weight = create_weight(query)
-      @searchers.each { |searcher|     # search each searcher
-        searcher.search_each(weight, filter, &block)
-      }
-    end
-    # rewrites the query into a query that can be processed by the search
-    # methods. For example, a Fuzzy query is turned into a massive boolean
-    # query.
-    #
-    # original:: The original query to be rewritten.
-    def rewrite(original)
-      #print "multi_searcher#rewrite: #{original}\n"
-      queries = []
-      @searchers.each { |searcher|
-        queries << searcher.rewrite(original)
-      }
-      return queries.first.combine(queries)
-    end
-    # Returns an Explanation that describes how +doc+ scored against
-    # +query+.
-    #
-    # This is intended to be used in developing Similarity implementations,
-    # and, for good performance, should not be displayed with every hit.
-    # Computing an explanation is as expensive as executing the query over the
-    # entire index.
-    def explain(query, doc)
-      i = sub_searcher(doc)
-      return @searchers[i].explain(create_weight(query), doc-@starts[i])
-    end
-  end
-  # Document Frequency cache acting as a Dummy-Searcher.
-  # This class is no full-fledged Searcher, but only supports
-  # the methods necessary to initialize Weights.
-  class CachedDfSource
-    attr_reader :max_doc, :similarity
-    def initialize(df_map, max_doc, similarity)
-      @df_map = df_map
-      @max_doc = max_doc
-      @similarity = similarity
-    end
-    def doc_freq(term)
-      return @df_map[term]
-    end
-    def doc_freqs(terms)
-      result = Array.new
-      terms.each { |term|
-        result << doc_freq(term)
-      }
-      return result
-    end
-    def rewrite(query)
-      # this is a bit of a hack. We know that a query which
-      # creates a Weight based on this Dummy-Searcher is
-      # always already rewritten (see preparedWeight()).
-      # Therefore we just return the unmodified query here
-      return query
-    end
-  end
-end

data/lib/ferret/search/multi_term_query.rb DELETED Viewed

@@ -1,65 +0,0 @@
-module Ferret::Search
-  # A Query that matches documents containing a subset of terms provided
-  # by a FilteredTermEnum enumeration.
-  #
-  # +MultiTermQuery+ is not designed to be used by itself. The reason being
-  # that it is not intialized with a FilteredTermEnum enumeration. A
-  # FilteredTermEnum enumeration needs to be provided.
-  #
-  # For example, WildcardQuery and FuzzyQuery extend +MultiTermQuery+ to
-  # provide WildcardTermEnum and FuzzyTermEnum, respectively.
-  class MultiTermQuery < Query
-    attr_reader :term
-    # Constructs a query for terms matching +term+.
-    def initialize(term)
-      super()
-      @term = term
-    end
-    # Construct the enumeration to be used, expanding the pattern term.
-    def get_term_enum(reader)
-      raise NotImplementedError
-    end
-    def rewrite(reader)
-      enumerator = get_term_enum(reader)
-      bq = BooleanQuery.new(true)
-      begin
-        begin
-          t = enumerator.term()
-          if (t != nil)
-            tq = TermQuery.new(t)      # found a match
-            tq.boost = boost() * enumerator.difference()   # set the boost
-            bq.add_query(tq, BooleanClause::Occur::SHOULD) # add to query
-          end
-        end while enumerator.next?
-      ensure
-        enumerator.close()
-      end
-      return bq
-    end
-    # Prints a user-readable version of this query.
-    def to_s(field = nil)
-      buffer = ""
-      buffer << "#{@term.field}:" if @term.field != field
-      buffer << @term.text
-      buffer << "^#{boost()}" if (boost() != 1.0)
-      return buffer
-    end
-    def eql?(o)
-      if not o.instance_of? MultiTermQuery
-        return false
-      end
-      return term == o.term
-    end
-    alias :== :eql?
-    def hash()
-      return term.hash()
-    end
-  end
-end

data/lib/ferret/search/non_matching_scorer.rb DELETED Viewed

@@ -1,22 +0,0 @@
-module Ferret::Search
-  # A scorer that matches no document at all.
-  class NonMatchingScorer < Scorer
-    def initialize()
-      super(nil) # no similarity used
-    end
-   def next?
-     return false
-   end
-   def skip_to(target)
-     return false
-   end
-   def explain(doc)
-      e = Explanation.new()
-      e.description = "No document matches."
-      return e
-    end
-  end
-end

data/lib/ferret/search/phrase_positions.rb DELETED Viewed

@@ -1,55 +0,0 @@
-module Ferret::Search
-  class PhrasePositions
-    attr_reader :doc, :position
-    attr_accessor :next
-    def initialize(tp_enum, offset)
-      @tp_enum = tp_enum
-      @offset = offset
-      @count = @position = @doc = -1
-      @next = nil
-    end
-    def next?()
-      if not @tp_enum.next?
-        @tp_enum.close()          # close stream
-        @doc = Scorer::MAX_DOCS    # sentinel value
-        return false
-      end
-      @doc = @tp_enum.doc
-      @position = 0
-      return true
-    end
-    def skip_to(target)
-      if not @tp_enum.skip_to(target)
-        @tp_enum.close()          # close stream
-        @doc = Scorer::MAX_DOCS    # sentinel value
-        return false
-      end
-      @doc = @tp_enum.doc
-      @position = 0
-      return true
-    end
-    def first_position()
-      @count = @tp_enum.freq       # read first pos
-      next_position()
-    end
-    def next_position()
-      @count -= 1
-      if @count >= 0          # read subsequent pos's
-        @position = @tp_enum.next_position() - @offset
-        return true
-      else
-        return false
-      end
-    end
-    def to_s
-      "pp->(doc => #{@doc}, position => #{position})"
-    end
-  end
-end

data/lib/ferret/search/phrase_query.rb DELETED Viewed

@@ -1,214 +0,0 @@
-module Ferret::Search
-  # A Query that matches documents containing a particular sequence of terms.
-  # A PhraseQuery is built by QueryParser for input like +"new york"+.
-  #
-  # This query may be combined with other terms or queries with a BooleanQuery.
-  class PhraseQuery < Query
-    def initialize()
-      super
-      @slop = 0
-      @terms = []
-      @positions = []
-      @field = nil
-    end
-    # Sets the number of other words permitted between words in query phrase.
-    # If zero, then this is an exact phrase search.  For larger values this
-    # works like a +WITHIN+ or +NEAR+ operator.
-    #
-    # The slop is in fact an edit-distance, where the units correspond to
-    # moves of terms in the query phrase out of position.  For example, to
-    # switch the order of two words requires two moves (the first move places
-    # the words atop one another), so to permit re-orderings of phrases, the
-    # slop must be at least two.
-    #
-    # More exact matches are scored higher than sloppier matches, thus search
-    # results are sorted by exactness.
-    #
-    # The slop is zero by default, requiring exact matches.
-    attr_accessor :slop
-    attr_reader :terms, :positions, :field
-    # Adds a term to the end of the query phrase.
-    #
-    # The relative position of the term is the one immediately after the last
-    # term added, unless explicitly specified. By specifying explicitly,
-    # you can have phrases with more than one term at the same position or
-    # phrases with gaps (e.g. in connection with stopwords).
-    #
-    # term:: the term to search for
-    # position:: the relative position of the term to the rest of the terms
-    # int the query.
-    def add(term, position = nil, pos_inc = 1)
-      if position.nil?
-        position = (@positions.size > 0) ? (@positions[-1] + pos_inc) : 0
-      end
-      if @terms.size == 0
-        @field = term.field
-      elsif (term.field != @field)
-        raise ArgumentError, "All phrase terms must be in the same field: #{term}"
-      end
-      @terms << term
-      @positions << position
-    end
-    def <<(term)
-      add(term)
-      return self
-    end
-    class PhraseWeight < Weight
-      attr_reader :query, :value
-      def initialize(query, searcher)
-        @query = query
-        @similarity = query.similarity(searcher)
-        @idf = @similarity.idf_phrase(@query.terms, searcher)
-      end
-      def to_s() return "phrase_weight(#{@value})" end
-      def sum_of_squared_weights()
-        @query_weight = @idf * @query.boost()  # compute query weight
-        return @query_weight * @query_weight   # square it
-      end
-      def normalize(query_norm)
-        @query_norm = query_norm
-        @query_weight *= query_norm            # normalize query weight
-        @value = @query_weight * @idf          # idf for document
-      end
-      def scorer(reader)
-        return nil if @query.terms.size == 0   # optimize zero-term case
-        tps = []
-        @query.terms.each do |term|
-          tp = reader.term_positions_for(term)
-          return nil if tp.nil?
-          tps << tp
-        end
-        if (@query.slop == 0)				  # optimize exact case
-          return ExactPhraseScorer.new(self, tps, @query.positions,
-                                       @similarity,
-                                       reader.get_norms(@query.field))
-        else
-          return SloppyPhraseScorer.new(self, tps, @query.positions,
-                                   @similarity,
-                                   @query.slop,
-                                   reader.get_norms(@query.field))
-        end
-      end
-      def explain(reader, doc)
-        result = Explanation.new()
-        result.description = "weight(#{@query} in #{doc}), product of:"
-        doc_freqs = @query.terms.map do |term|
-          "#{term.text}=#{reader.doc_freq(term)}"
-        end.join(", ")
-        idf_expl = Explanation.new(@idf, "idf(#{@query.field}:<#{doc_freqs}>)")
-        # explain query weight
-        query_expl = Explanation.new()
-        query_expl.description = "query_weight(#{@query}), product of:"
-        boost = @query.boost()
-        if boost != 1.0
-          boost_expl = Explanation.new(boost, "boost")
-          query_expl << boost_expl
-        end
-        query_expl << idf_expl
-        query_norm_expl = Explanation.new(@query_norm, "query_norm")
-        query_expl << query_norm_expl
-        query_expl.value = boost * @idf * @query_norm
-        result << query_expl
-        # explain field weight
-        field_expl = Explanation.new()
-        field_expl.description =
-          "field_weight(#{query} in #{doc}), product of:"
-        tf_expl = scorer(reader).explain(doc)
-        field_expl << tf_expl
-        field_expl << idf_expl
-        field_norm_expl = Explanation.new()
-        field_norms = reader.get_norms(@query.field)
-        field_norm =
-          field_norms ? Similarity.decode_norm(field_norms[doc]) : 0.0
-        field_norm_expl.value = field_norm
-        field_norm_expl.description =
-          "field_norm(field=#{@query.field}, doc=#{doc})"
-        field_expl << field_norm_expl
-        field_expl.value = tf_expl.value * @idf * field_norm
-        result << field_expl
-        if (query_expl.value == 1.0)
-          return field_expl
-        else
-          result.value = query_expl.value * field_expl.value
-          return result
-        end
-      end
-    end
-    def create_weight(searcher)
-      if @terms.size == 1 # optimize one-term case
-        term = @terms[0]
-        tq = TermQuery.new(term)
-        tq.boost = boost()
-        return tq.create_weight(searcher)
-      end
-      return PhraseWeight.new(self, searcher)
-    end
-    # See Query#extract_terms()
-    def extract_terms(query_terms)
-      query_terms.merge(@terms)
-    end
-    # Prints a user-readable version of this query.
-    def to_s(f=nil)
-      buffer = ""
-      buffer << "#{@field}:" if @field != f
-      buffer << '"'
-      last_pos = -1
-      @terms.each_index do |i|
-        term = @terms[i]
-        pos = @positions[i]
-        last_pos.upto(pos-2) {buffer << "<> "}
-        last_pos = pos
-        buffer << "#{term.text} "
-      end
-      buffer.rstrip!
-      buffer << '"'
-      buffer << "~#{slop}" if (slop != 0)
-      buffer << "^#{boost()}" if boost() != 1.0
-      return buffer
-    end
-    # Returns true iff +o+ is equal to this.
-    def eql?(o)
-      if not o.instance_of? PhraseQuery
-        return false
-      end
-      return (boost() == o.boost() and @slop == o.slop and
-        @terms == o.terms and @positions == o.positions)
-    end
-    alias :== :eql?
-    # Returns a hash code value for this object.
-    def hash()
-      return boost().hash ^ slop.hash ^ @terms.hash ^ @positions.hash
-    end
-  end
-end