RubyGems - ferret - Versions diffs - 0.1.3 → 0.1.4 - Mend

ferret 0.1.3 → 0.1.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (57) hide show

data/Rakefile +1 -1
data/TODO +3 -0
data/ext/dummy.exe +0 -0
data/lib/ferret.rb +1 -1
data/lib/ferret/analysis/token.rb +6 -0
data/lib/ferret/analysis/tokenizers.rb +5 -5
data/lib/ferret/document/document.rb +10 -13
data/lib/ferret/index/compound_file_io.rb +12 -9
data/lib/ferret/index/field_infos.rb +0 -6
data/lib/ferret/index/index.rb +220 -102
data/lib/ferret/index/index_reader.rb +22 -2
data/lib/ferret/index/index_writer.rb +55 -14
data/lib/ferret/index/multi_reader.rb +279 -279
data/lib/ferret/index/segment_infos.rb +3 -3
data/lib/ferret/index/segment_merger.rb +7 -6
data/lib/ferret/index/segment_reader.rb +23 -7
data/lib/ferret/index/segment_term_enum.rb +6 -7
data/lib/ferret/index/term_buffer.rb +3 -5
data/lib/ferret/index/term_doc_enum.rb +7 -2
data/lib/ferret/index/term_infos_io.rb +15 -8
data/lib/ferret/query_parser/query_parser.tab.rb +49 -45
data/lib/ferret/search/boolean_query.rb +3 -4
data/lib/ferret/search/boolean_scorer.rb +11 -11
data/lib/ferret/search/caching_wrapper_filter.rb +1 -1
data/lib/ferret/search/disjunction_sum_scorer.rb +9 -7
data/lib/ferret/search/field_cache.rb +1 -2
data/lib/ferret/search/field_sorted_hit_queue.rb +1 -1
data/lib/ferret/search/fuzzy_term_enum.rb +64 -58
data/lib/ferret/search/index_searcher.rb +16 -9
data/lib/ferret/search/prefix_query.rb +7 -0
data/lib/ferret/search/query_filter.rb +1 -1
data/lib/ferret/search/term_scorer.rb +5 -1
data/lib/ferret/search/top_docs.rb +12 -0
data/lib/ferret/store/buffered_index_io.rb +5 -6
data/lib/ferret/store/fs_store.rb +47 -33
data/lib/ferret/store/ram_store.rb +2 -2
data/lib/ferret/utils.rb +1 -0
data/lib/ferret/utils/bit_vector.rb +20 -2
data/lib/ferret/utils/thread_local.rb +28 -0
data/lib/ferret/utils/weak_key_hash.rb +11 -2
data/test/benchmark/tb_rw_vint.rb +1 -1
data/test/functional/thread_safety_index_test.rb +81 -0
data/test/functional/thread_safety_test.rb +137 -0
data/test/test_all.rb +3 -7
data/test/test_helper.rb +2 -1
data/test/unit/index/tc_compound_file_io.rb +2 -2
data/test/unit/index/tc_index.rb +128 -6
data/test/unit/index/tc_index_reader.rb +1 -1
data/test/unit/index/tc_segment_infos.rb +1 -1
data/test/unit/index/th_doc.rb +1 -1
data/test/unit/search/tc_index_searcher.rb +6 -0
data/test/unit/store/tc_fs_store.rb +3 -3
data/test/unit/utils/tc_bit_vector.rb +8 -0
data/test/unit/utils/tc_thread.rb +61 -0
data/test/unit/utils/tc_weak_key_hash.rb +2 -2
data/test/utils/number_to_spoken.rb +132 -0
metadata +7 -2

data/test/unit/index/tc_index_reader.rb CHANGED Viewed

@@ -597,7 +597,7 @@ class IndexReaderTest < Test::Unit::TestCase
   def test_ir_read_while_optimizing_on_disk()
     dpath = File.join(File.dirname(__FILE__),
                        '../../temp/fsdir')
-    fs_dir = Ferret::Store::FSDirectory.get_directory(dpath, true)
+    fs_dir = Ferret::Store::FSDirectory.new(dpath, true)
     iw = IndexWriter.new(fs_dir, :analyzer => WhiteSpaceAnalyzer.new(), :create => true)
     docs = IndexTestHelper.prepare_ir_test_docs()

data/test/unit/index/tc_segment_infos.rb CHANGED Viewed

@@ -63,7 +63,7 @@ class SegmentInfoTest < Test::Unit::TestCase
     assert_equal(si.name, "seg1")
     @dir.close()
     @dpath = File.dirname(__FILE__) + '/../../temp/fsdir'
-    @dir = Ferret::Store::FSDirectory.get_directory(@dpath, true)
+    @dir = Ferret::Store::FSDirectory.new(@dpath, true)
     si.name = "seg2"
     si.doc_count += 2
     si.directory = @dir

data/test/unit/index/th_doc.rb CHANGED Viewed

@@ -234,7 +234,7 @@ module IndexTestHelper
       doc.boost = i+1
       fields.each_pair do |field, text|
-        doc << Field.new(field, text, Field::Store::NO, Field::Index::TOKENIZED, Field::TermVector::NO, i+1)
+        doc << Field.new(field, text, Field::Store::YES, Field::Index::TOKENIZED, Field::TermVector::NO, false)
       end
       docs << doc
     end

data/test/unit/search/tc_index_searcher.rb CHANGED Viewed

@@ -46,6 +46,12 @@ class IndexSearcherTest < Test::Unit::TestCase
     end
   end
+  def test_get_doc()
+    assert_equal(18, @is.max_doc)
+    assert_equal("20050930", @is.doc(0).values(:date))
+    assert_equal("cat1/sub2/subsub2", @is.doc(4)[:cat])
+  end
   def test_term_query
     tq = TermQuery.new(Term.new("field", "word2"));
     tq.boost = 100

data/test/unit/store/tc_fs_store.rb CHANGED Viewed

@@ -26,7 +26,7 @@ class FSStoreTest < Test::Unit::TestCase
   def setup
     @dpath = File.join(File.dirname(__FILE__),
                        '../../temp/fsdir')
-    @dir = FSDirectory.get_directory(@dpath, true)
+    @dir = FSDirectory.new(@dpath, true)
   end
   def teardown
@@ -39,12 +39,12 @@ class FSStoreTest < Test::Unit::TestCase
                          '/../../temp/cachetest')
     assert(! FSDirectory.directory_cache[dir_path],
            "this directory should not be cached yet")
-    @dir1 = FSDirectory.get_directory(dir_path, true)
+    @dir1 = FSDirectory.new(dir_path, true)
     assert(FSDirectory.directory_cache[dir_path],
            "this directory should now be cached")
     assert_equal(@dir1.ref_count, 1,
                  "There is one reference so the refcount should now be 1")
-    @dir2 = FSDirectory.get_directory(dir_path, true)
+    @dir2 = FSDirectory.new(dir_path, true)
     assert(@dir1 === @dir2,
            "The directory should be cached so the same directory object should have been returned")
     assert_equal(@dir1.ref_count, 2,

data/test/unit/utils/tc_bit_vector.rb CHANGED Viewed

@@ -4,6 +4,14 @@ require File.dirname(__FILE__) + "/../../test_helper"
 class BitVectorTest < Test::Unit::TestCase
   include Ferret::Utils
+  def test_bignum_conversion()
+    j = 256
+    10.times do
+      j *= j
+      assert_equal(j, BitVector.string_to_bignum(BitVector.bignum_to_string(j)))
+    end
+  end
   def test_bv()
     bv = BitVector.new
     assert_equal(0, bv.count)

data/test/unit/utils/tc_thread.rb ADDED Viewed

@@ -0,0 +1,61 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+require 'thread'
+class ThreadTest < Test::Unit::TestCase
+  include Ferret::Utils
+  NUM_THREADS = 100
+  def test_basic_get_and_set()
+    Thread.current.clear_local
+    b = "hello"
+    Thread.current.set_local(b, "dave")
+    assert_equal("dave", Thread.current.get_local(b))
+  end
+  def test_objects_die
+    Thread.current.clear_local
+    a = []
+    10.times {|i| a[i] = "#{i}"; Thread.current.set_local(a[i], i) }
+    10.times {|i| assert_equal(i, Thread.current.get_local(a[i])) }
+    assert_equal(10, Thread.current.local_size)
+    GC.start
+    assert_equal(10, Thread.current.local_size)
+    10.times {|i| a[i] = nil; }
+    #puts w
+    # this is a hack to get the GC to collect the last ref created above
+    x = WeakKeyHash.new()
+    10.times {|i| a[i] = "#{i}"; x[a[i]] = i }
+    assert_equal(10, Thread.current.local_size)
+    GC.start
+    assert(0, Thread.current.local_size)
+  end
+  class ThreadTester
+    def initialize(val)
+      Thread.current.set_local(self, val)
+    end
+    def inc
+      val = Thread.current.get_local(self) + 1
+      Thread.current.set_local(self, val)
+      return val
+    end
+  end
+  def single_thread
+    tt = ThreadTester.new(start = rand(10000000))
+    ((start+1)..start+11).each {|i| assert_equal(i, tt.inc) }
+  end
+  def test_threads_dont_share
+    threads = []
+    NUM_THREADS.times do
+      threads << Thread.new { single_thread }
+    end
+    threads.each {|t| t.join}
+  end
+end

data/test/unit/utils/tc_weak_key_hash.rb CHANGED Viewed

@@ -4,11 +4,12 @@ require File.dirname(__FILE__) + "/../../test_helper"
 class WeakKeyHashTest < Test::Unit::TestCase
   include Ferret::Utils
-  def test_marshalling()
+  def test_objects_are_destroyed()
     w = WeakKeyHash.new()
     a = []
     10.times {|i| a[i] = "#{i}"; w[a[i]] = i }
     10.times {|i| assert_equal(i, w[a[i]]) }
+    assert_equal(10, w.size)
     10.times {|i| a[i] = nil; }
     #puts w
@@ -16,7 +17,6 @@ class WeakKeyHashTest < Test::Unit::TestCase
     x = WeakKeyHash.new()
     10.times {|i| a[i] = "#{i}"; x[a[i]] = i }
-    assert_equal(10, w.size)
     GC.start
     #puts w.size
     #puts w

data/test/utils/number_to_spoken.rb ADDED Viewed

@@ -0,0 +1,132 @@
+# Author: Matthew D Moss
+#
+# Writtern for ruby quiz #25
+#
+class JapaneseTranslator
+    # My knowledge of counting Japanese is limited, so this may not
+    # be entirely correct; in particular, I don't know what rules
+    # to follow after 'hyaku man' (1,000,000).
+    # I also combine a digit with its group, such as 'gohyaku' rather
+    # than 'go hyaku'; I just like reading it better that way.
+    DIGITS = %w(zero ichi ni san yon go roku nana hachi kyu)
+    GROUPS = %w(nothingtoseeheremovealong ju hyaku sen)
+    MAN = 10000
+    def to_spoken(val)
+        case val <=> 0
+        when -1
+            '- ' + to_spoken(-val)
+        when 0
+            DIGITS[0]
+        else
+            group(val, 0)
+        end
+    end
+    private
+    def group(val, level)
+        if val >= MAN
+            group(val / MAN, 0) + 'man ' + group(val % MAN, 0)
+        else
+            case val
+            when 0
+                ''
+            when 1
+                level == 0 ? DIGITS[val] : GROUPS[level]
+            when 2...10
+                DIGITS[val] + (GROUPS[level] if level > 0).to_s
+            else
+                group(val / 10, level+1) + ' ' + group(val % 10, level)
+            end
+        end
+    end
+end
+class USEnglishTranslator
+    # Formal, US English. Optional 'and'. Will not produce things
+    # such as 'twelve hundred' but rather 'one thousand two hundred'.
+    # The use of 'and' is incomplete; it is sometimes missed.
+    DIGITS = %w(zero one two three four five six seven eight nine)
+    TEENS  = %w(ten eleven twelve thirteen fourteen fifteen sixteen
+                seventeen eighteen nineteen)
+    TENS   = %w(hello world twenty thirty forty fifty sixty seventy
+                eighty ninety)
+    GROUPS = %w(thousand million billion trillion quadrillion
+                quintillion sextillion septillion octillion nonillion
+                decillion)
+    K = 1000
+    def initialize(conjunction = true)
+        @conjunction = conjunction
+    end
+    def to_spoken(val)
+        case val <=> 0
+        when -1
+            'negative ' + to_spoken(-val)
+        when 0
+            DIGITS[0]
+        else
+            group(val, 0).flatten.join(' ')
+        end
+    end
+    private
+    def group(val, level)
+        x = group(val / K, level + 1) << GROUPS[level] if val >= K
+        x.to_a << under_1000(val % K, level)
+    end
+    def under_1000(val, level)
+        x = [DIGITS[val / 100]] << 'hundred' if val >= 100
+        x.to_a << under_100(val % 100, (level == 0 and not x.nil?))
+    end
+    def under_100(val, junction)
+        x = [('and' if @conjunction and junction)]    # wyf?
+        case val
+        when 0
+            []
+        when 1...10
+            x << DIGITS[val]
+        when 10...20
+            x << TEENS[val - 10]
+        else
+            d = val % 10
+            x << (TENS[val / 10] + ('-' + DIGITS[d] if d != 0).to_s)
+        end
+    end
+end
+class Integer
+    def to_spoken(translator = USEnglishTranslator.new)
+        translator.to_spoken(self).squeeze(' ').strip
+    end
+end
+if $0 == __FILE__
+    SAMPLES = [ 0, 1, 2, 5, 10, 11, 14, 18, 20, 21, 29, 33, 42, 50, 87, 99,
+                100, 101, 110, 167, 199, 200, 201, 276, 300, 314, 500, 610,
+                1000, 1039, 1347, 2309, 3098, 23501, 32767, 70000, 5480283,
+                2435489238, 234100090000, -42, -2001 ]
+    TRANSLATORS = { 'US English' => USEnglishTranslator.new,
+                    'Japanese'   => JapaneseTranslator.new }
+    # main
+    TRANSLATORS.each do |lang, translator|
+        puts
+        puts lang
+        puts '-' * lang.length
+        SAMPLES.each do |val|
+            puts "%12d => %s" % [val, val.to_spoken(translator)]
+        end
+    end
+end

metadata CHANGED Viewed

@@ -3,8 +3,8 @@ rubygems_version: 0.8.11
 specification_version: 1
 name: ferret
 version: !ruby/object:Gem::Version
-  version: 0.1.3
-date: 2005-10-25 00:00:00 +09:00
+  version: 0.1.4
+date: 2005-11-01 00:00:00 +09:00
 summary: Ruby indexing library.
 require_paths:
   - lib
@@ -164,6 +164,7 @@ files:
   - lib/ferret/utils/string_helper.rb
   - lib/ferret/utils/number_tools.rb
   - lib/ferret/utils/date_tools.rb
+  - lib/ferret/utils/thread_local.rb
   - test/test_helper.rb
   - test/test_all.rb
   - test/unit/ts_document.rb
@@ -180,6 +181,7 @@ files:
   - test/unit/utils/tc_date_tools.rb
   - test/unit/utils/tc_parameter.rb
   - test/unit/utils/tc_weak_key_hash.rb
+  - test/unit/utils/tc_thread.rb
   - test/unit/analysis/tc_lower_case_tokenizer.rb
   - test/unit/analysis/tc_lower_case_filter.rb
   - test/unit/analysis/tc_porter_stem_filter.rb
@@ -230,6 +232,9 @@ files:
   - test/longrunning/tm_store.rb
   - test/benchmark/tb_rw_vint.rb
   - test/benchmark/tb_ram_store.rb
+  - test/functional/thread_safety_index_test.rb
+  - test/functional/thread_safety_test.rb
+  - test/utils/number_to_spoken.rb
   - test/unit/analysis/data/wordfile
   - rake_utils/code_statistics.rb
 test_files: []