RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/lib/ferret/search/term_scorer.rb DELETED Viewed

@@ -1,183 +0,0 @@
-module Ferret::Search
-  # Expert: A +Scorer+ for documents matching a +Term+.
-  class TermScorer < Scorer
-    SCORE_CACHE_SIZE = 32
-    # Returns the current document number matching the query.
-    # Initially invalid, until #next() is called the first time.
-    attr_reader :doc
-    # Construct a +TermScorer+.
-    # weight:: The weight of the +Term+ in the query.
-    # td:: An iterator over the documents matching the +Term+.
-    # similarity:: The +Similarity+ implementation to be used for score
-    # computations.
-    # norms:: The field norms of the document fields for the +Term+.
-    def initialize(weight, td, similarity, norms)
-      super(similarity)
-      @doc = 0
-      @docs = Array.new(SCORE_CACHE_SIZE, 0) # buffered doc numbers
-      @freqs = Array.new(SCORE_CACHE_SIZE, 0) # buffered term freqs
-      @pointer = @pointer_max = 0;
-      @score_cache = Array.new(SCORE_CACHE_SIZE)
-      @weight = weight
-      @term_docs = td
-      @norms = norms
-      @weight_value = weight.value
-      SCORE_CACHE_SIZE.times do |i|
-        @score_cache[i] = similarity().tf(i) * @weight_value
-      end
-    end
-    # Expert: Iterates over matching all documents, yielding the document
-    # number and the score.
-    #
-    # returns:: true if more matching documents may remain.
-    def each_hit() # :yields: doc, score
-      sim = similarity() # cache sim in local
-      while next?
-        f = @freqs[@pointer]
-        # compute tf(f)*weight
-        if f < SCORE_CACHE_SIZE                    # check cache
-          score = @score_cache[f]                  # cache hit
-        else
-          score = sim.tf(f) * @weight_value # cache miss
-        end
-        score *= sim.decode_norm(@norms[@doc])      # normalize for field
-        yield(@doc, score)                         # collect score
-      end
-    end
-    # Expert: Iterates over matching documents in a range.
-    #
-    # NOTE: that #next? needs to be called first.
-    #
-    # max:: Do not score documents past this. Default will search all documents
-    # avaliable.
-    # returns:: true if more matching documents may remain.
-    def each_hit_up_to(max = MAX_DOCS) # :yields: doc, score
-      sim = similarity() # cache sim in local
-      while (@doc < max) # for docs in window
-        f = @freqs[@pointer]
-        # compute tf(f)*weight
-        if f < SCORE_CACHE_SIZE                    # check cache
-          score = @score_cache[f]                  # cache hit
-        else
-          score = sim.tf(f) * @weight_value # cache miss
-        end
-        score *= sim.decode_norm(@norms[@doc])      # normalize for field
-        yield(@doc, score)                         # collect score
-        if not next?
-          return false
-        end
-      end
-      return true # false if we didn't find +max+ hits
-    end
-    # Advances to the next document matching the query.
-    #
-    # The iterator over the matching documents is buffered using
-    # TermDocEnum#read(int[],int[]).
-    #
-    # returns:: true iff there is another document matching the query.
-    def next?()
-      @pointer += 1
-      if @pointer >= @pointer_max
-        @pointer_max = @term_docs.read(@docs, @freqs) # refill buffer
-        if @pointer_max != 0
-          @pointer = 0
-        else
-          @term_docs.close()                          # close stream
-          @doc = MAX_DOCS                             # set to sentinel value
-          return false
-        end
-      end
-      @doc = @docs[@pointer]
-      return true
-    end
-    def score()
-      f = @freqs[@pointer]
-      # compute tf(f)*weight
-      if  f < SCORE_CACHE_SIZE                 # check cache
-        raw = @score_cache[f]                  # cache hit
-      else
-        raw = similarity().tf(f) * @weight_value # cache miss
-      end
-      return raw * Similarity.decode_norm(@norms[@doc]) # normalize for field
-    end
-    # Skips to the first match beyond the current whose document number is
-    # greater than or equal to a given target.
-    #
-    # The implementation uses TermDocEnum#skip_to(int).
-    # target:: The target document number.
-    # returns:: true iff there is such a match.
-    def skip_to(target)
-      # first scan in cache
-      while (@pointer += 1) < @pointer_max
-        if @docs[@pointer] >= target
-          @doc = @docs[@pointer]
-          return true
-        end
-      end
-      # not found in cache, seek underlying stream
-      result = @term_docs.skip_to(target)
-      if (result)
-        @pointer_max = 1
-        @pointer = 0
-        @docs[@pointer] = @doc = @term_docs.doc
-        @freqs[@pointer] = @term_docs.freq
-      else
-        @doc = MAX_DOCS
-      end
-      return result
-    end
-    # Returns an explanation of the score for a document.
-    #
-    # When this method is used, the #next() method and the #score() method
-    # should not be used.
-    #
-    # doc:: The document number for the explanation.
-    # TODO: Modify to make use of TermDocEnum#skip_to(int).
-    def explain(doc)
-      query = @weight.query()
-      tf_explanation = Explanation.new()
-      tf = 0
-      while (@pointer < @pointer_max)
-        if (@docs[@pointer] == doc)
-          tf = @freqs[@pointer]
-        end
-        @pointer += 1
-      end
-      if (tf == 0)
-        while (@term_docs.next?)
-          if (@term_docs.doc() == doc)
-            tf = @term_docs.freq()
-          end
-        end
-      end
-      @term_docs.close()
-      tf_explanation.value = similarity().tf(tf)
-      tf_explanation.description = "tf(term_freq(#{query.term})=#{tf})"
-      return tf_explanation
-    end
-    # Returns a string representation of this +TermScorer+.
-    def to_s() return "scorer(" + @weight + ")"; end
-  end
-end

data/lib/ferret/search/top_docs.rb DELETED Viewed

@@ -1,36 +0,0 @@
-module Ferret::Search
-  # Expert: Returned by low-level search implementations.
-  # See Searcher#search
-  class TopDocs
-    # Expert: The total number of hits for the query.
-    # See Hits#length()
-    attr_accessor :score_docs, :total_hits, :fields
-    alias :size :total_hits
-    # iterate through each of the score docs, yielding the document number and
-    # the score. eg:
-    #
-    #   top_docs.each do |doc, score|
-    #     puts "Doc number #{doc} found with score of #{score}"}
-    #   end
-    #
-    def each
-      score_docs.each {|sd| yield(sd.doc, sd.score) }
-    end
-    # Expert: Constructs a TopDocs.
-    def initialize(total_hits, score_docs, fields = SortField::FIELD_SCORE)
-      @total_hits = total_hits
-      @score_docs = score_docs
-      @fields = fields
-    end
-    def to_s
-      buffer = "#{total_hits} hits sorted by <"
-      buffer << [fields].flatten.map {|field| "#{@field}" }.join(", ")
-      buffer << ">:\n"
-      score_docs.each {|sd| buffer << "\t#{sd}\n" }
-      return buffer
-    end
-  end
-end

data/lib/ferret/search/top_field_docs.rb DELETED Viewed

@@ -1,17 +0,0 @@
-module Ferret::Search
-  # Expert: Returned by low-level sorted search implementations.
-  class TopFieldDocs < TopDocs
-    # The fields which were used to sort results by.
-    attr_accessor :fields
-    # Creates one of these objects.
-    # total_hits::  Total number of hits for the query.
-    # score_docs::  The top hits for the query.
-    # fields::     The sort criteria used to find the top hits.
-    def initialize(total_hits, score_docs, fields)
-      super(total_hits, score_docs)
-      @fields = fields
-    end
-  end
-end

data/lib/ferret/search/weight.rb DELETED Viewed

@@ -1,54 +0,0 @@
-module Ferret
-  module Search
-    # Expert: Calculate query weights and build query scorers.
-    #
-    # The purpose of Weight is to make it so that searching does not modify
-    # a Query, so that a Query instance can be reused.
-    #
-    # Searcher dependent state of the query should reside in the Weight.
-    #
-    # IndexReader dependent state should reside in the Scorer.
-    #
-    # A +Weight+ is used in the following way:
-    #
-    # 1. A +Weight+ is constructed by a top-level query, given a +Searcher+
-    #    (See Query#create_weight).
-    # 2. The #sum_of_squared_weights() method is called on the +Weight+ to
-    #    compute the query normalization factor Similarity#query_norm(float)
-    #    of the query clauses contained in the query.
-    # 3. The query normalization factor is passed to #normalize().
-    #    At this point the weighting is complete.
-    # 4. A +Scorer+ is constructed by #scorer()
-    class Weight
-      # The query that this concerns.
-      def query()
-        raise NotImplementedError
-      end
-      # The weight for this query.
-      def  value()
-        raise NotImplementedError
-      end
-      # The sum of squared weights of contained query clauses.
-      def sum_of_squared_weights()
-        raise NotImplementedError
-      end
-      # Assigns the query normalization factor to this.
-      def normalize(norm)
-        raise NotImplementedError
-      end
-      # Constructs a scorer for this.
-      def scorer(reader)
-        raise NotImplementedError
-      end
-      # An explanation of the score computation for the named document.
-      def explain(reader, doc)
-        raise NotImplementedError
-      end
-    end
-  end
-end

data/lib/ferret/search/wildcard_query.rb DELETED Viewed

@@ -1,26 +0,0 @@
-module Ferret::Search
-  # Implements the wildcard search query. Supported wildcards are +*+, which
-  # matches any character sequence (including the empty one), and +?+, which
-  # matches any single character. Note this query can be slow, as it needs to
-  # iterate over many terms. In order to prevent extremely slow
-  # WildcardQueries, a Wildcard term should not start with one of the
-  # wildcards +*+ or +?+.
-  #
-  # See WildcardTermEnum
-  class WildcardQuery < MultiTermQuery
-    def initialize(term)
-      super(term)
-    end
-    def get_term_enum(reader)
-      return WildcardTermEnum.new(reader, @term)
-    end
-    def eql?(o)
-      if o.instance_of?(WildcardQuery)
-        return super(o)
-      end
-      return false
-    end
-  end
-end

data/lib/ferret/search/wildcard_term_enum.rb DELETED Viewed

@@ -1,61 +0,0 @@
-module Ferret::Search
-  # Subclass of FilteredTermEnum for enumerating all terms that match the
-  # specified wildcard filter term.
-  #
-  # Term enumerations are always ordered by Term.compareTo().  Each term in
-  # the enumeration is greater than all that precede it.
-  #
-  class WildcardTermEnum < FilteredTermEnum
-    include Ferret::Index
-    attr_reader :end_enum
-    WILDCARD_STRING = '*'
-    WILDCARD_CHAR = '?'
-    # Creates a new +WildcardTermEnum+.  Passing in a
-    # org.apache.lucene.index.Term Term that does not contain a
-    # +WILDCARD_CHAR+ will cause an exception to be raisen.
-    #
-    # After calling the constructor the enumeration is already pointing to the first
-    # valid term if such a term exists.
-    def initialize(reader, term)
-      super()
-      @end_enum = false
-      @search_term = term
-      @field = @search_term.field
-      text = @search_term.text
-      len = text.length
-      sidx = text.index(WILDCARD_STRING)||len
-      cidx = text.index(WILDCARD_CHAR)||len
-      idx = [sidx, cidx].min
-      @pre = @search_term.text[0,idx]
-      @pre_len = idx
-      @pattern = /^#{Regexp.escape(text[idx..-1]).gsub(/\\([?*])/){".#{$1}"}}$/
-      self.enum = reader.terms_from(Term.new(@search_term.field, @pre))
-    end
-    def term_compare(term)
-      if (@field == term.field)
-        search_text = term.text
-        if (search_text[0, @pre_len] == @pre)
-          return (search_text[@pre_len..-1] =~ @pattern)
-        end
-      end
-      @end_enum = true
-      return false
-    end
-    def difference()
-      return 1.0
-    end
-    def close()
-      super()
-      @pattern = nil
-      @field = nil
-    end
-  end
-end

data/lib/ferret/stemmers.rb DELETED Viewed

	@@ -1 +0,0 @@
1	- require 'ferret/stemmers/porter_stemmer'

data/lib/ferret/stemmers/porter_stemmer.rb DELETED Viewed

@@ -1,218 +0,0 @@
-#!/usr/bin/env ruby
-#
-# $Id: PorterStemmer.rb,v 1.1.1.1 2004/04/17 13:55:20 pragdave Exp $
-#
-# See example usage at the end of this file.
-#
-module Stemmable
-  STEMMED = {}
-  STEP_2_LIST = {
-    'ational'=>'ate', 'tional'=>'tion', 'enci'=>'ence', 'anci'=>'ance',
-    'izer'=>'ize', 'bli'=>'ble',
-    'alli'=>'al', 'entli'=>'ent', 'eli'=>'e', 'ousli'=>'ous',
-    'ization'=>'ize', 'ation'=>'ate',
-    'ator'=>'ate', 'alism'=>'al', 'iveness'=>'ive', 'fulness'=>'ful',
-    'ousness'=>'ous', 'aliti'=>'al',
-    'iviti'=>'ive', 'biliti'=>'ble', 'logi'=>'log'
-  }
-  STEP_3_LIST = {
-    'icate'=>'ic', 'ative'=>'', 'alize'=>'al', 'iciti'=>'ic',
-    'ical'=>'ic', 'ful'=>'', 'ness'=>''
-  }
-  SUFFIX_1_REGEXP = /(
-                    ational  |
-                    tional   |
-                    enci     |
-                    anci     |
-                    izer     |
-                    bli      |
-                    alli     |
-                    entli    |
-                    eli      |
-                    ousli    |
-                    ization  |
-                    ation    |
-                    ator     |
-                    alism    |
-                    iveness  |
-                    fulness  |
-                    ousness  |
-                    aliti    |
-                    iviti    |
-                    biliti   |
-                    logi)$/x
-  SUFFIX_2_REGEXP = /(
-                      al       |
-                      ance     |
-                      ence     |
-                      er       |
-                      ic       |
-                      able     |
-                      ible     |
-                      ant      |
-                      ement    |
-                      ment     |
-                      ent      |
-                      ou       |
-                      ism      |
-                      ate      |
-                      iti      |
-                      ous      |
-                      ive      |
-                      ize)$/x
-  C = "[^aeiou]"         # consonant
-  V = "[aeiouy]"         # vowel
-  CC = "#{C}(?>[^aeiouy]*)"  # consonant sequence
-  VV = "#{V}(?>[aeiou]*)"    # vowel sequence
-  MGR0 = /^(#{CC})?#{VV}#{CC}/o                # [cc]vvcc... is m>0
-  MEQ1 = /^(#{CC})?#{VV}#{CC}(#{VV})?$/o       # [cc]vvcc[vv] is m=1
-  MGR1 = /^(#{CC})?#{VV}#{CC}#{VV}#{CC}/o      # [cc]vvccvvcc... is m>1
-  VOWEL_IN_STEM   = /^(#{CC})?#{V}/o                      # vowel in stem
-  #
-  # Porter stemmer in Ruby.
-  #
-  # This is the Porter stemming algorithm, ported to Ruby from the
-  # version coded up in Perl.  It's easy to follow against the rules
-  # in the original paper in:
-  #
-  #   Porter, 1980, An algorithm for suffix stripping, Program, Vol. 14,
-  #   no. 3, pp 130-137,
-  #
-  # See also http://www.tartarus.org/~martin/PorterStemmer
-  #
-  # Send comments to raypereda@hotmail.com
-  #
-  def stem_porter(w = self.to_str.dup)
-    # make a copy of the given object and convert it to a string.
-    original_word = w
-    return w if w.length < 3
-    result = STEMMED[w]
-    return result if result
-    # now map initial y to Y so that the patterns never treat it as vowel
-    w[0] = 'Y' if w[0] == ?y
-    # Step 1a
-    if w =~ /(ss|i)es$/
-      w = $` + $1
-    elsif w =~ /([^s])s$/
-      w = $` + $1
-    end
-    # Step 1b
-    if w =~ /eed$/
-      w.chop! if $` =~ MGR0
-    elsif w =~ /(ed|ing)$/
-      stem = $`
-      if stem =~ VOWEL_IN_STEM
-        w = stem
-        case w
-        when /(at|bl|iz)$/             then w << "e"
-        when /([^aeiouylsz])\1$/       then w.chop!
-        when /^#{CC}#{V}[^aeiouwxy]$/o then w << "e"
-        end
-      end
-    end
-    if w =~ /y$/
-      stem = $`
-      w = stem + "i" if stem =~ VOWEL_IN_STEM
-    end
-    # Step 2
-    if w =~ SUFFIX_1_REGEXP
-      stem = $`
-      suffix = $1
-      # print "stem= " + stem + "\n" + "suffix=" + suffix + "\n"
-      if stem =~ MGR0
-        w = stem + STEP_2_LIST[suffix]
-      end
-    end
-    # Step 3
-    if w =~ /(icate|ative|alize|iciti|ical|ful|ness)$/
-      stem = $`
-      suffix = $1
-      if stem =~ MGR0
-        w = stem + STEP_3_LIST[suffix]
-      end
-    end
-    # Step 4
-    if w =~ SUFFIX_2_REGEXP
-      stem = $`
-      if stem =~ MGR1
-        w = stem
-      end
-    elsif w =~ /(s|t)(ion)$/
-      stem = $` + $1
-      if stem =~ MGR1
-        w = stem
-      end
-    end
-    #  Step 5
-    if w =~ /e$/
-      stem = $`
-      if (stem =~ MGR1) ||
-          (stem =~ MEQ1 && stem !~ /^#{CC}#{V}[^aeiouwxy]$/o)
-        w = stem
-      end
-    end
-    if w =~ /ll$/ && w =~ MGR1
-      w.chop!
-    end
-    # and turn initial Y back to y
-    w[0] = 'y' if w[0] == ?Y
-    STEMMED[original_word] = w
-    w
-  end
-  module_function :stem_porter
-  #
-  # make the stem_porter the default stem method, just in case we
-  # feel like having multiple stemmers available later.
-  #
-  alias stem stem_porter
-  public :stem
-end
-#
-# Make this script executable, and send it words on stdin, one per
-# line, and it will output the stemmed versions to stdout.
-#
-if $0 == __FILE__ then
-  class String
-    include Stemmable
-  end
-  # the String class, and any subclasses of it you might have, now know
-  # how to stem things.
-  $stdin.each do |word|
-    puts word.strip.stem
-  end
-end