RubyGems - ferret - Versions diffs - 0.11.6 → 0.11.8.4 - Mend

ferret 0.11.6 → 0.11.8.4

Files changed (185) hide show

data/README +10 -22
data/RELEASE_CHANGES +137 -0
data/RELEASE_NOTES +60 -0
data/Rakefile +379 -274
data/TODO +100 -8
data/bin/ferret-browser +0 -0
data/ext/BZLIB_blocksort.c +1094 -0
data/ext/BZLIB_bzlib.c +1578 -0
data/ext/BZLIB_compress.c +672 -0
data/ext/BZLIB_crctable.c +104 -0
data/ext/BZLIB_decompress.c +626 -0
data/ext/BZLIB_huffman.c +205 -0
data/ext/BZLIB_randtable.c +84 -0
data/ext/{api.c → STEMMER_api.c} +7 -10
data/ext/{libstemmer.c → STEMMER_libstemmer.c} +3 -2
data/ext/{stem_ISO_8859_1_danish.c → STEMMER_stem_ISO_8859_1_danish.c} +123 -124
data/ext/{stem_ISO_8859_1_dutch.c → STEMMER_stem_ISO_8859_1_dutch.c} +177 -188
data/ext/STEMMER_stem_ISO_8859_1_english.c +1117 -0
data/ext/{stem_ISO_8859_1_finnish.c → STEMMER_stem_ISO_8859_1_finnish.c} +276 -306
data/ext/STEMMER_stem_ISO_8859_1_french.c +1246 -0
data/ext/{stem_ISO_8859_1_german.c → STEMMER_stem_ISO_8859_1_german.c} +161 -170
data/ext/STEMMER_stem_ISO_8859_1_hungarian.c +1230 -0
data/ext/STEMMER_stem_ISO_8859_1_italian.c +1065 -0
data/ext/STEMMER_stem_ISO_8859_1_norwegian.c +297 -0
data/ext/{stem_ISO_8859_1_porter.c → STEMMER_stem_ISO_8859_1_porter.c} +263 -290
data/ext/{stem_ISO_8859_1_portuguese.c → STEMMER_stem_ISO_8859_1_portuguese.c} +362 -380
data/ext/STEMMER_stem_ISO_8859_1_spanish.c +1093 -0
data/ext/STEMMER_stem_ISO_8859_1_swedish.c +307 -0
data/ext/STEMMER_stem_ISO_8859_2_romanian.c +998 -0
data/ext/{stem_KOI8_R_russian.c → STEMMER_stem_KOI8_R_russian.c} +244 -245
data/ext/STEMMER_stem_UTF_8_danish.c +339 -0
data/ext/{stem_UTF_8_dutch.c → STEMMER_stem_UTF_8_dutch.c} +192 -211
data/ext/STEMMER_stem_UTF_8_english.c +1125 -0
data/ext/{stem_UTF_8_finnish.c → STEMMER_stem_UTF_8_finnish.c} +284 -324
data/ext/STEMMER_stem_UTF_8_french.c +1256 -0
data/ext/{stem_UTF_8_german.c → STEMMER_stem_UTF_8_german.c} +170 -187
data/ext/STEMMER_stem_UTF_8_hungarian.c +1234 -0
data/ext/STEMMER_stem_UTF_8_italian.c +1073 -0
data/ext/STEMMER_stem_UTF_8_norwegian.c +299 -0
data/ext/{stem_UTF_8_porter.c → STEMMER_stem_UTF_8_porter.c} +271 -310
data/ext/STEMMER_stem_UTF_8_portuguese.c +1023 -0
data/ext/STEMMER_stem_UTF_8_romanian.c +1004 -0
data/ext/STEMMER_stem_UTF_8_russian.c +694 -0
data/ext/STEMMER_stem_UTF_8_spanish.c +1097 -0
data/ext/STEMMER_stem_UTF_8_swedish.c +309 -0
data/ext/STEMMER_stem_UTF_8_turkish.c +2205 -0
data/ext/{utilities.c → STEMMER_utilities.c} +100 -68
data/ext/analysis.c +276 -121
data/ext/analysis.h +190 -143
data/ext/api.h +3 -4
data/ext/array.c +5 -3
data/ext/array.h +52 -43
data/ext/bitvector.c +38 -482
data/ext/bitvector.h +446 -124
data/ext/bzlib.h +282 -0
data/ext/bzlib_private.h +503 -0
data/ext/compound_io.c +23 -22
data/ext/config.h +21 -11
data/ext/document.c +43 -40
data/ext/document.h +31 -21
data/ext/except.c +20 -38
data/ext/except.h +89 -76
data/ext/extconf.rb +3 -2
data/ext/ferret.c +49 -35
data/ext/ferret.h +14 -11
data/ext/field_index.c +262 -0
data/ext/field_index.h +52 -0
data/ext/filter.c +11 -10
data/ext/fs_store.c +65 -47
data/ext/global.c +245 -165
data/ext/global.h +252 -54
data/ext/hash.c +200 -243
data/ext/hash.h +205 -163
data/ext/hashset.c +118 -96
data/ext/hashset.h +110 -82
data/ext/header.h +19 -19
data/ext/helper.c +11 -10
data/ext/helper.h +14 -6
data/ext/index.c +745 -366
data/ext/index.h +503 -529
data/ext/internal.h +1020 -0
data/ext/lang.c +10 -0
data/ext/lang.h +35 -15
data/ext/mempool.c +5 -4
data/ext/mempool.h +30 -22
data/ext/modules.h +35 -7
data/ext/multimapper.c +43 -2
data/ext/multimapper.h +32 -23
data/ext/posh.c +0 -0
data/ext/posh.h +4 -38
data/ext/priorityqueue.c +10 -12
data/ext/priorityqueue.h +33 -21
data/ext/q_boolean.c +22 -9
data/ext/q_const_score.c +3 -2
data/ext/q_filtered_query.c +15 -12
data/ext/q_fuzzy.c +147 -135
data/ext/q_match_all.c +3 -2
data/ext/q_multi_term.c +28 -32
data/ext/q_parser.c +451 -173
data/ext/q_phrase.c +158 -79
data/ext/q_prefix.c +16 -18
data/ext/q_range.c +363 -31
data/ext/q_span.c +130 -141
data/ext/q_term.c +21 -21
data/ext/q_wildcard.c +19 -23
data/ext/r_analysis.c +369 -242
data/ext/r_index.c +421 -434
data/ext/r_qparser.c +142 -92
data/ext/r_search.c +790 -407
data/ext/r_store.c +44 -44
data/ext/r_utils.c +264 -96
data/ext/ram_store.c +29 -23
data/ext/scanner.c +895 -0
data/ext/scanner.h +36 -0
data/ext/scanner_mb.c +6701 -0
data/ext/scanner_utf8.c +4415 -0
data/ext/search.c +210 -87
data/ext/search.h +556 -488
data/ext/similarity.c +17 -16
data/ext/similarity.h +51 -44
data/ext/sort.c +157 -354
data/ext/stem_ISO_8859_1_hungarian.h +16 -0
data/ext/stem_ISO_8859_2_romanian.h +16 -0
data/ext/stem_UTF_8_hungarian.h +16 -0
data/ext/stem_UTF_8_romanian.h +16 -0
data/ext/stem_UTF_8_turkish.h +16 -0
data/ext/stopwords.c +287 -278
data/ext/store.c +57 -51
data/ext/store.h +308 -286
data/ext/symbol.c +10 -0
data/ext/symbol.h +23 -0
data/ext/term_vectors.c +14 -293
data/ext/threading.h +22 -22
data/ext/win32.h +12 -4
data/lib/ferret.rb +2 -1
data/lib/ferret/browser.rb +1 -1
data/lib/ferret/field_symbol.rb +94 -0
data/lib/ferret/index.rb +221 -34
data/lib/ferret/number_tools.rb +6 -6
data/lib/ferret/version.rb +3 -0
data/test/{unit → long_running}/largefile/tc_largefile.rb +1 -1
data/test/test_helper.rb +7 -2
data/test/test_installed.rb +1 -0
data/test/threading/thread_safety_index_test.rb +10 -1
data/test/threading/thread_safety_read_write_test.rb +4 -7
data/test/threading/thread_safety_test.rb +0 -0
data/test/unit/analysis/tc_analyzer.rb +29 -27
data/test/unit/analysis/tc_token_stream.rb +23 -16
data/test/unit/index/tc_index.rb +116 -11
data/test/unit/index/tc_index_reader.rb +27 -27
data/test/unit/index/tc_index_writer.rb +10 -0
data/test/unit/index/th_doc.rb +38 -21
data/test/unit/search/tc_filter.rb +31 -10
data/test/unit/search/tc_index_searcher.rb +6 -0
data/test/unit/search/tm_searcher.rb +53 -1
data/test/unit/store/tc_fs_store.rb +40 -2
data/test/unit/store/tc_ram_store.rb +0 -0
data/test/unit/store/tm_store.rb +0 -0
data/test/unit/store/tm_store_lock.rb +7 -6
data/test/unit/tc_field_symbol.rb +26 -0
data/test/unit/ts_analysis.rb +0 -0
data/test/unit/ts_index.rb +0 -0
data/test/unit/ts_store.rb +0 -0
data/test/unit/ts_utils.rb +0 -0
data/test/unit/utils/tc_number_tools.rb +0 -0
data/test/utils/content_generator.rb +226 -0
metadata +262 -221
data/ext/inc/lang.h +0 -48
data/ext/inc/threading.h +0 -31
data/ext/stem_ISO_8859_1_english.c +0 -1156
data/ext/stem_ISO_8859_1_french.c +0 -1276
data/ext/stem_ISO_8859_1_italian.c +0 -1091
data/ext/stem_ISO_8859_1_norwegian.c +0 -296
data/ext/stem_ISO_8859_1_spanish.c +0 -1119
data/ext/stem_ISO_8859_1_swedish.c +0 -307
data/ext/stem_UTF_8_danish.c +0 -344
data/ext/stem_UTF_8_english.c +0 -1176
data/ext/stem_UTF_8_french.c +0 -1296
data/ext/stem_UTF_8_italian.c +0 -1113
data/ext/stem_UTF_8_norwegian.c +0 -302
data/ext/stem_UTF_8_portuguese.c +0 -1055
data/ext/stem_UTF_8_russian.c +0 -709
data/ext/stem_UTF_8_spanish.c +0 -1137
data/ext/stem_UTF_8_swedish.c +0 -313
data/lib/ferret_version.rb +0 -3

data/test/unit/index/tc_index.rb CHANGED

@@ -353,7 +353,7 @@ class IndexTest < Test::Unit::TestCase
     assert_equal(0, top_docs.hits.size)
     iw = IndexWriter.new(:path => fs_path, :analyzer => WhiteSpaceAnalyzer.new)
-    iw << {:f, "content3"}
+    iw << {:f => "content3"}
     iw.close()
     top_docs = index.search("content3")
@@ -462,6 +462,95 @@ class IndexTest < Test::Unit::TestCase
     index.close
   end
+  def test_index_key_batch0
+    data = {
+      "0" => {:id => "0", :val => "one"},
+      "0" => {:id => "0", :val => "two"},
+      "1" =>{:id => "1", :val => "three"},
+      "1" => {:id => "1", :val => "four"},
+    }
+    index = Index.new(:analyzer => WhiteSpaceAnalyzer.new,
+                      :key => :id)
+    index.batch_update data
+    assert_equal(2, index.size)
+    index.close
+  end
+  def test_index_key_batch1
+    data0 = {
+      "0" => {:id => "0", :val => "one"},
+      "0" => {:id => "0", :val => "two"},
+      "1" =>{:id => "1", :val => "three"},
+      "2" => {:id => "1", :val => "four"},
+    }
+    data1 = {
+      "0" => {:id => "0", :val => "one"},
+      "3" => {:id => "3", :val => "two"},
+      "2" =>{:id => "2", :val => "three"},
+      "1" => {:id => "1", :val => "four"},
+      "4" => {:id => "4", :val => "four"},
+    }
+    index = Index.new(:analyzer => WhiteSpaceAnalyzer.new,
+                      :key => :id)
+    index.batch_update data0
+    assert_equal(3, index.size)
+    index.batch_update data1
+    assert_equal(5, index.size)
+    index.close
+  end
+  def test_index_key_delete_batch0
+    data0 = {
+      "0" => {:id => "0", :val => "one"},
+      "0" => {:id => "0", :val => "two"},
+      "1" =>{:id => "1", :val => "three"},
+      "2" => {:id => "2", :val => "four"},
+      "0" => {:id => "0", :val => "four"},
+    }
+    data1 = ["0", "1"];
+    index = Index.new(:analyzer => WhiteSpaceAnalyzer.new, :key => :id)
+    index.batch_update data0
+    assert_equal("four", index["0"][:val])
+    assert_equal("three", index["1"][:val])
+    assert_equal("four", index["2"][:val])
+    assert_equal(3, index.size)
+    index.delete data1
+    assert_equal(1, index.size)
+    assert_equal("four", index["2"][:val])
+    index.close
+  end
+  def test_index_key_delete_batch0
+    index = Index.new(:analyzer => WhiteSpaceAnalyzer.new)
+    1000.times {|i| index << {:id => "#{i}", :content => "content #{i}"}}
+    assert_equal(1000, index.size)
+    assert_equal("content 876", index['876'][:content])
+    new_docs = Array.new(1000) {|i| {:id => i, :content => "#{i} > content"}}
+    index.batch_update(new_docs)
+    assert_equal(1000, index.size)
+    assert_equal("128 > content", index['128'][:content])
+    new_docs = Array.new(1000) {|i| {:id => i.to_s, :content => "_(#{i})_"}}
+    index.batch_update(new_docs)
+    assert_equal(1000, index.size)
+    assert_equal("_(287)_", index['287'][:content])
+    new_docs = {}
+    1000.times {|i| new_docs[i.to_s] = {:id => i, :content => "Hash(#{i})"}}
+    index.batch_update(new_docs)
+    assert_equal(1000, index.size)
+    assert_equal("Hash(78)", index['78'][:content])
+  end
   def test_index_multi_key
     index = Index.new(:analyzer => WhiteSpaceAnalyzer.new,
                       :key => [:id, :table])
@@ -555,19 +644,23 @@ class IndexTest < Test::Unit::TestCase
     index.close
   end
+  # this test has been corrected to work as intended
+  # it now fails the same way on both 1.8 and 1.9 -- sds
   def test_auto_flush
     fs_path = File.expand_path(File.join(File.dirname(__FILE__), '../../temp/fsdir'))
     Dir[File.join(fs_path, "*")].each {|path| begin File.delete(path) rescue nil end}
-    data = %q(one two three four five six seven eight nine ten eleven twelve)
+    data = %w(one two three four five six seven eight nine ten eleven twelve)
     index1 = Index.new(:path => fs_path, :auto_flush => true, :key => :id)
-    index1 << "zero"
+    index1 << {:id => 0, :content => "zero"}
     index2 = Index.new(:path => fs_path, :auto_flush => true)
     begin
+      n = 1
       data.each do |datum|
-        index1 << {:id => datum[0], :content => datum}
-        index2 << {:id => datum[0], :content => datum}
+        index1 << {:id => n, :content => datum}
+        index2 << {:id => n, :content => datum}
+        n += 1
       end
       5.times do |i|
         index1.delete(i)
@@ -593,9 +686,9 @@ class IndexTest < Test::Unit::TestCase
     # Note: Adding keywords to either field1 or field2 gets rid of the error
-    index << {:field1, ''}
-    index << {:field2, ''}
-    index << {:field3, 'foo bar baz'}
+    index << {:field1 => ''}
+    index << {:field2 => ''}
+    index << {:field3 => 'foo bar baz'}
     index.flush
     index.close
@@ -644,7 +737,7 @@ class IndexTest < Test::Unit::TestCase
   end
   def test_wildcard
-    i = nil
+    j = nil
     Ferret::I.new do |i|
       i << "one"
       assert_equal(1, i.search("*").total_hits)
@@ -654,8 +747,9 @@ class IndexTest < Test::Unit::TestCase
       assert_equal(3, i.search("*").total_hits)
       assert_equal(3, i.search("id:*").total_hits)
       assert_equal(2, i.search('id:?*').total_hits)
+      j = i
     end
-    assert_raise(StandardError) {i.close}
+    assert_raise(StandardError) {j.close}
   end
   def check_highlight(index, q, excerpt_length, num_excerpts, expected, field = :field)
@@ -759,4 +853,15 @@ class IndexTest < Test::Unit::TestCase
     index.query_delete('id:one')
     assert_equal(20, index.size)
   end
+  def test_query_update_delete_more_than_ten
+    index = Ferret::I.new
+    20.times {|i| index << {:id => i, :find => 'match', :change => 'one'} }
+    assert_equal(20, index.search('find:match').total_hits)
+    index.query_update('find:match', {:change => 'two'})
+    assert_equal(20, index.search('find:match AND change:two').total_hits)
+    index.query_delete('find:match')
+    assert_equal(0, index.size)
+  end
 end

data/test/unit/index/tc_index_reader.rb CHANGED

@@ -191,10 +191,10 @@ module IndexReaderCommon
   def do_test_term_vectors()
     expected_tv = TermVector.new(:body,
       [
-        TVTerm.new("word1", [2, 4, 7]),
-        TVTerm.new("word2", [3]),
-        TVTerm.new("word3", [0, 5, 8, 9]),
-        TVTerm.new("word4", [1, 6])
+        TVTerm.new("word1", 3, [2, 4, 7]),
+        TVTerm.new("word2", 1, [3]),
+        TVTerm.new("word3", 4, [0, 5, 8, 9]),
+        TVTerm.new("word4", 2, [1, 6])
       ],
       [*(0...10)].collect {|i| TVOffsets.new(i*6, (i+1)*6 - 1)})
@@ -209,13 +209,13 @@ module IndexReaderCommon
     tv = tvs[:author]
     assert_equal(:author, tv.field)
-    assert_equal([TVTerm.new("Leo", [0]), TVTerm.new("Tolstoy", [1])], tv.terms)
+    assert_equal([TVTerm.new("Leo", 1, [0]), TVTerm.new("Tolstoy", 1, [1])], tv.terms)
     assert(tv.offsets.nil?)
     tv = tvs[:title]
     assert_equal(:title, tv.field)
-    assert_equal([TVTerm.new("War And Peace", nil)], tv.terms)
+    assert_equal([TVTerm.new("War And Peace", 1, nil)], tv.terms)
     assert_equal([TVOffsets.new(0, 13)], tv.offsets)
   end
@@ -254,19 +254,19 @@ module IndexReaderCommon
     norms = @ir.norms(:text)
-    assert_equal(202, norms[ 3])
-    assert_equal( 20, norms[25])
-    assert_equal(200, norms[50])
-    assert_equal(155, norms[63])
+    assert_equal(202, norms.bytes.to_a[ 3])
+    assert_equal( 20, norms.bytes.to_a[25])
+    assert_equal(200, norms.bytes.to_a[50])
+    assert_equal(155, norms.bytes.to_a[63])
     norms = @ir.norms(:title)
-    assert_equal(1, norms[3])
+    assert_equal(1, norms.bytes.to_a[3])
     norms = @ir.norms(:body)
-    assert_equal(12, norms[3])
+    assert_equal(12, norms.bytes.to_a[3])
     norms = @ir.norms(:author)
-    assert_equal(145, norms[3])
+    assert_equal(145, norms.bytes.to_a[3])
     norms = @ir.norms(:year)
     # TODO: this returns two possible results depending on whether it is
@@ -277,10 +277,10 @@ module IndexReaderCommon
     norms = " " * 164
     @ir.get_norms_into(:text, norms, 100)
-    assert_equal(202, norms[103])
-    assert_equal( 20, norms[125])
-    assert_equal(200, norms[150])
-    assert_equal(155, norms[163])
+    assert_equal(202, norms.bytes.to_a[103])
+    assert_equal( 20, norms.bytes.to_a[125])
+    assert_equal(200, norms.bytes.to_a[150])
+    assert_equal(155, norms.bytes.to_a[163])
     @ir.commit()
@@ -290,10 +290,10 @@ module IndexReaderCommon
     norms = " " * 164
     ir2.get_norms_into(:text, norms, 100)
-    assert_equal(202, norms[103])
-    assert_equal( 20, norms[125])
-    assert_equal(200, norms[150])
-    assert_equal(155, norms[163])
+    assert_equal(202, norms.bytes.to_a[103])
+    assert_equal( 20, norms.bytes.to_a[125])
+    assert_equal(200, norms.bytes.to_a[150])
+    assert_equal(155, norms.bytes.to_a[163])
     ir2.close()
   end
@@ -608,10 +608,10 @@ class IndexReaderTest < Test::Unit::TestCase
   def do_test_term_vectors(ir)
     expected_tv = TermVector.new(:body,
       [
-        TVTerm.new("word1", [2, 4, 7]),
-        TVTerm.new("word2", [3]),
-        TVTerm.new("word3", [0, 5, 8, 9]),
-        TVTerm.new("word4", [1, 6])
+        TVTerm.new("word1", 3, [2, 4, 7]),
+        TVTerm.new("word2", 1, [3]),
+        TVTerm.new("word3", 4, [0, 5, 8, 9]),
+        TVTerm.new("word4", 2, [1, 6])
       ],
       [*(0...10)].collect {|i| TVOffsets.new(i*6, (i+1)*6 - 1)})
@@ -626,13 +626,13 @@ class IndexReaderTest < Test::Unit::TestCase
     tv = tvs[:author]
     assert_equal(:author, tv.field)
-    assert_equal([TVTerm.new("Leo", [0]), TVTerm.new("Tolstoy", [1])], tv.terms)
+    assert_equal([TVTerm.new("Leo", 1, [0]), TVTerm.new("Tolstoy", 1, [1])], tv.terms)
     assert(tv.offsets.nil?)
     tv = tvs[:title]
     assert_equal(:title, tv.field)
-    assert_equal([TVTerm.new("War And Peace", nil)], tv.terms)
+    assert_equal([TVTerm.new("War And Peace", 1, nil)], tv.terms)
     assert_equal([TVOffsets.new(0, 13)], tv.offsets)
   end

data/test/unit/index/tc_index_writer.rb CHANGED

@@ -1,3 +1,5 @@
+# encoding: utf-8
 require File.dirname(__FILE__) + "/../../test_helper"
@@ -57,6 +59,14 @@ class IndexWriterTest < Test::Unit::TestCase
     iw.close()
   end
+  def test_adding_long_url
+      iw = IndexWriter.new(:dir => @dir,
+                           :default_field => 'content')
+      iw << {:content => "http://" + 'x' * 255}
+      # The following line will cause a segfault prior to 0.11.6
+      iw << {:content => "http://" + 'x' * 1_000_000}
+  end
   private
   WORDS = [

data/test/unit/index/th_doc.rb CHANGED

@@ -281,32 +281,49 @@ module IndexTestHelper
   def self.prepare_search_docs
     i = 1
     [
-      ["20050930", "cat1/",             "word1"                               ],
-      ["20051001", "cat1/sub1",         "word1 word2 the quick brown fox"     ],
-      ["20051002", "cat1/sub1/subsub1", "word1 word3"                         ],
-      ["20051003", "cat1/sub2",         "word1 word3"                         ],
-      ["20051004", "cat1/sub2/subsub2", "word1 word2"                         ],
-      ["20051005", "cat2/sub1",         "word1"                               ],
-      ["20051006", "cat2/sub1",         "word1 word3"                         ],
-      ["20051007", "cat2/sub1",         "word1"                               ],
-      ["20051008", "cat2/sub1",         "word1 word2 word3 the fast brown fox"],
-      ["20051009", "cat3/sub1",         "word1"                               ],
-      ["20051010", "cat3/sub1",         "word1"                               ],
-      ["20051011", "cat3/sub1",         "word1 word3 the quick red fox"       ],
-      ["20051012", "cat3/sub1",         "word1"                               ],
-      ["20051013", "cat1/sub2",         "word1"                               ],
-      ["20051014", "cat1/sub1",         "word1 word3 the quick hairy fox"     ],
-      ["20051015", "cat1/sub2/subsub1", "word1"                               ],
-      ["20051016", "cat1/sub1/subsub2",
-        "word1 the quick fox is brown and hairy and a little red"             ],
-      ["20051017", "cat1/",
-        "word1 the brown fox is quick and red"                                ]
-    ].map do |date, category, field|
+      ["20050930", "cat1/",             0.123,
+        "word1"                                                             ],
+      ["20051001", "cat1/sub1",         0.954,
+        "word1 word2 the quick brown fox"                                   ],
+      ["20051002", "cat1/sub1/subsub1", 908.125,
+        "word1 word3"                                                       ],
+      ["20051003", "cat1/sub2",         3999,
+        "word1 word3"                                                       ],
+      ["20051004", "cat1/sub2/subsub2", "+.3412",
+        "word1 word2"                                                       ],
+      ["20051005", "cat2/sub1",         -1.298,
+        "word1"                                                             ],
+      ["20051006", "cat2/sub1",         "2",
+        "word1 word3"                                                       ],
+      ["20051007", "cat2/sub1",         "+8.894",
+        "word1"                                                             ],
+      ["20051008", "cat2/sub1",         "+21235.2135",
+        "word1 word2 word3 the fast brown fox"                              ],
+      ["20051009", "cat3/sub1",         "10.0",
+        "word1"                                                             ],
+      ["20051010", "cat3/sub1",         1,
+        "word1"                                                             ],
+      ["20051011", "cat3/sub1",         -12518419,
+        "word1 word3 the quick red fox"                                     ],
+      ["20051012", "cat3/sub1",         "10",
+        "word1"                                                             ],
+      ["20051013", "cat1/sub2",         "15682954",
+        "word1"                                                             ],
+      ["20051014", "cat1/sub1",         "91239",
+        "word1 word3 the quick hairy fox"                                   ],
+      ["20051015", "cat1/sub2/subsub1", "-.89321",
+        "word1"                                                             ],
+      ["20051016", "cat1/sub1/subsub2", -89,
+        "word1 the quick fox is brown and hairy and a little red"           ],
+      ["20051017", "cat1/",             "-1.0",
+        "word1 the brown fox is quick and red"                              ]
+    ].map do |date, category, number, field|
       doc = Ferret::Document.new(i)
       i += 1
       doc[:date] = date
       doc[:category] = category
       doc[:field] = field
+      doc[:number] = number
       doc
     end
   end

data/test/unit/search/tc_filter.rb CHANGED

@@ -1,4 +1,5 @@
 require File.dirname(__FILE__) + "/../../test_helper"
+require 'date'
 class FilterTest < Test::Unit::TestCase
@@ -39,16 +40,6 @@ class FilterTest < Test::Unit::TestCase
     end
   end
-  def test_filter_proc
-    searcher = Searcher.new(@dir)
-    q = MatchAllQuery.new()
-    filter_proc = lambda {|doc, score, s| (s[doc][:int] % 2) == 0}
-    top_docs = searcher.search(q, :filter_proc => filter_proc)
-    top_docs.hits.each do |hit|
-      assert_equal(0, searcher[hit.doc][:int] % 2)
-    end
-  end
   def test_range_filter
     searcher = Searcher.new(@dir)
     q = MatchAllQuery.new()
@@ -132,4 +123,34 @@ class FilterTest < Test::Unit::TestCase
     filt = CustomFilter.new
     do_test_top_docs(searcher, q, [0, 2, 4], filt)
   end
+  def test_filter_proc
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    filter_proc = lambda {|doc, score, s| (s[doc][:int] % 2) == 0}
+    top_docs = searcher.search(q, :filter_proc => filter_proc)
+    top_docs.hits.each do |hit|
+      assert_equal(0, searcher[hit.doc][:int] % 2)
+    end
+  end
+  def test_score_modifying_filter_proc
+    searcher = Searcher.new(@dir)
+    q = MatchAllQuery.new()
+    start_date = Date.parse('2008-02-08')
+    date_half_life_50 = lambda do |doc, score, s|
+      days = (start_date - Date.parse(s[doc][:date], '%Y%m%d')).to_i
+      1.0 / (2.0 ** (days.to_f / 50.0))
+    end
+    top_docs = searcher.search(q, :filter_proc => date_half_life_50)
+    docs = top_docs.hits.collect {|hit| hit.doc}
+    assert_equal(docs, [2,4,9,8,6,3,5,1,7,0])
+    rev_date_half_life_50 = lambda do |doc, score, s|
+      days = (start_date - Date.parse(s[doc][:date], '%Y%m%d')).to_i
+      1.0 - 1.0 / (2.0 ** (days.to_f / 50.0))
+    end
+    top_docs = searcher.search(q, :filter_proc => rev_date_half_life_50)
+    docs = top_docs.hits.collect {|hit| hit.doc}
+    assert_equal(docs, [0,7,1,3,5,6,8,9,2,4])
+  end
 end

data/test/unit/search/tc_index_searcher.rb CHANGED

@@ -50,6 +50,12 @@ class SearcherTest < Test::Unit::TestCase
       assert(score_doc.score.approx_eql?(@searcher.explain(query, score_doc.doc).score),
         "Scores(#{score_doc.score} != #{@searcher.explain(query, score_doc.doc).score})")
     end
+    assert_equal(expected.sort, @searcher.scan(query))
+    if expected.size > 5
+        assert_equal(expected[0...5], @searcher.scan(query, :limit => 5))
+        assert_equal(expected[5..-1], @searcher.scan(query, :start_doc => expected[5]))
+    end
   end
   def test_get_doc()