RubyGems - ferret - Versions diffs - 0.1.1 → 0.1.2 - Mend

ferret 0.1.1 → 0.1.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (35) hide show

data/README +1 -1
data/TODO +4 -1
data/TUTORIAL +9 -1
data/ext/ferret.c +28 -3
data/ext/ferret.h +24 -24
data/ext/index_io.c +13 -28
data/ext/ram_directory.c +11 -11
data/ext/segment_merge_queue.c +2 -2
data/ext/string_helper.c +1 -1
data/ext/term.c +19 -13
data/ext/term_buffer.c +3 -3
data/lib/ferret.rb +1 -1
data/lib/ferret/analysis/standard_tokenizer.rb +1 -1
data/lib/ferret/analysis/token.rb +8 -0
data/lib/ferret/analysis/tokenizers.rb +6 -6
data/lib/ferret/index/index.rb +120 -2
data/lib/ferret/index/index_writer.rb +7 -4
data/lib/ferret/index/multi_reader.rb +1 -1
data/lib/ferret/index/segment_reader.rb +1 -1
data/lib/ferret/query_parser.rb +25 -17
data/lib/ferret/query_parser/query_parser.tab.rb +292 -208
data/lib/ferret/search/range_query.rb +2 -2
data/test/test_helper.rb +7 -0
data/test/unit/index/tc_index.rb +10 -5
data/test/unit/index/tc_multiple_term_doc_pos_enum.rb +4 -1
data/test/unit/query_parser/tc_query_parser.rb +43 -15
data/test/unit/store/tm_store.rb +2 -2
data/test/unit/ts_analysis.rb +1 -15
data/test/unit/ts_document.rb +2 -4
data/test/unit/ts_index.rb +2 -18
data/test/unit/ts_query_parser.rb +2 -3
data/test/unit/ts_search.rb +2 -10
data/test/unit/ts_store.rb +1 -5
data/test/unit/ts_utils.rb +1 -9
metadata +2 -2

data/lib/ferret/search/range_query.rb CHANGED

@@ -96,7 +96,7 @@ module Ferret::Search
         buffer << (@include_lower ? "[" : "{")
         buffer << @lower_term
       else
-        buffer << "|"
+        buffer << "<"
       end
       buffer << " " if @upper_term and @lower_term
@@ -105,7 +105,7 @@ module Ferret::Search
         buffer << @upper_term
         buffer << (@include_upper ? "]" : "}")
       else
-        buffer << "|"
+        buffer << ">"
       end
       if boost() != 1.0

data/test/test_helper.rb CHANGED

@@ -4,3 +4,10 @@ $:.unshift File.join(File.dirname(__FILE__), '../ext')
 require 'test/unit'
 require 'ferret'
 require 'test/unit/index/th_doc'
+def load_test_dir(dir)
+  dir = File.join(File.dirname(__FILE__), dir)
+  Dir.foreach(dir) do |file|
+    require File.join(dir, file) if file =~ /^t[mcs]_.*\.rb$/
+  end
+end

data/test/unit/index/tc_index.rb CHANGED

@@ -72,14 +72,14 @@ class IndexTest < Test::Unit::TestCase
   def do_test_index_with_doc_array(index)
     data = [
-      {"def_field" => "one two", :id => "me"},
-      {"def_field" => "one", :field2 => "three"},
+      {"def_field" => "one two multi", :id => "me"},
+      {"def_field" => "one", :field2 => "three multi"},
       {"def_field" => "two"},
       {"def_field" => "one", :field2 => "four"},
       {"def_field" => "one two"},
       {"def_field" => "two", :field2 => "three", "field3" => "four"},
-      {"def_field" => "one"},
-      {"def_field" => "two", :field2 => "three", "field3" => "five"}
+      {"def_field" => "one multi2"},
+      {"def_field" => "two", :field2 => "three multi2", "field3" => "five multi"}
     ]
     data.each {|doc| index << doc }
     q = "one AND two"
@@ -90,6 +90,10 @@ class IndexTest < Test::Unit::TestCase
     check_results(index, q, [0, 1, 3, 4, 6, 7])
     q = "two AND (field3:f*)"
     check_results(index, q, [5, 7])
+    q = "*:(multi OR multi2)"
+    check_results(index, q, [0, 1, 6, 7])
+    q = "field2|field3:(multi OR multi2)"
+    check_results(index, q, [1, 7])
     doc = index[5]
     assert_equal("three", index[5]["field2"])
     assert(!index.has_deletions?)
@@ -99,6 +103,7 @@ class IndexTest < Test::Unit::TestCase
     assert(index.has_deletions?)
     assert(index.deleted?(5))
     assert_equal(7, index.size)
+    q = "two AND (field3:f*)"
     check_results(index, q, [7])
     doc["field2"] = "dave"
     index << doc
@@ -114,7 +119,7 @@ class IndexTest < Test::Unit::TestCase
     assert(! index.deleted?(7))
     t = Term.new("field2", "four")
     assert_equal("one", index[t]["def_field"])
-    assert_equal("one two", index["me"]["def_field"])
+    assert_equal("one two multi", index["me"]["def_field"])
     index.delete("me")
     assert(index.deleted?(0))
   end

data/test/unit/index/tc_multiple_term_doc_pos_enum.rb CHANGED

@@ -1,12 +1,15 @@
 require File.dirname(__FILE__) + "/../../test_helper"
 class MultipleTermDocPosEnumTest < Test::Unit::TestCase
+  include Ferret::Index
   include Ferret::Search
   include Ferret::Analysis
   def setup()
     @dir = Ferret::Store::RAMDirectory.new()
-    iw = IndexWriter.new(@dir, WhiteSpaceAnalyzer.new(), true, false)
+    iw = IndexWriter.new(@dir,
+                         :analyzer => WhiteSpaceAnalyzer.new(),
+                         :create_if_missing => true)
     @documents = IndexTestHelper.prepare_search_docs()
     @documents.each { |doc| iw << doc }
     iw.close()

data/test/unit/query_parser/tc_query_parser.rb CHANGED

@@ -2,12 +2,8 @@ require File.dirname(__FILE__) + "/../../test_helper"
 class QueryParserTest < Test::Unit::TestCase
-  def setup()
-    @parser = Ferret::QueryParser.new("xxx")
-  end
   def test_strings()
+    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2", "f3"])
     pairs = [
       ['word', 'word'],
       ['field:word', 'field:word'],
@@ -24,14 +20,14 @@ class QueryParserTest < Test::Unit::TestCase
       ['{aaa bbb]', '{aaa bbb]'],
       ['field:[aaa bbb}', 'field:[aaa bbb}'],
       ['{aaa bbb}', '{aaa bbb}'],
-      ['{aaa|', '{aaa|'],
-      ['[aaa|', '[aaa|'],
-      ['field:|aaa}', 'field:|aaa}'],
-      ['|aaa]', '|aaa]'],
-      ['>aaa', '{aaa|'],
-      ['>=aaa', '[aaa|'],
-      ['<aaa', '|aaa}'],
-      ['field:<=aaa', 'field:|aaa]'],
+      ['{aaa>', '{aaa>'],
+      ['[aaa>', '[aaa>'],
+      ['field:<aaa}', 'field:<aaa}'],
+      ['<aaa]', '<aaa]'],
+      ['>aaa', '{aaa>'],
+      ['>=aaa', '[aaa>'],
+      ['<aaa', '<aaa}'],
+      ['field:<=aaa', 'field:<aaa]'],
       ['REQ one REQ two', '+one +two'],
       ['REQ one two', '+one two'],
       ['one REQ two', 'one +two'],
@@ -73,12 +69,44 @@ class QueryParserTest < Test::Unit::TestCase
       ['asdf?*?asd*dsf?asfd*asdf?', 'asdf?*?asd*dsf?asfd*asdf?'],
       ['field:a* AND field:(b*)', '+field:a* +field:b*'],
       ['field:abc~ AND field:(b*)', '+field:abc~0.5 +field:b*'],
-      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0']
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['*:xxx', 'f1:xxx f2:xxx f3:xxx'],
+      ['f1|f2:xxx', 'f1:xxx f2:xxx'],
+      ['*:asd~0.2', 'f1:asd~0.2 f2:asd~0.2 f3:asd~0.2'],
+      ['f1|f2:asd~0.2', 'f1:asd~0.2 f2:asd~0.2'],
+      ['*:a?d*^20.0', '(f1:a?d* f2:a?d* f3:a?d*)^20.0'],
+      ['f1|f2:a?d*^20.0', '(f1:a?d* f2:a?d*)^20.0'],
+      ['*:"asdf <> xxx|yyy"', 'f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy" f3:"asdf <> xxx|yyy"'],
+      ['f1|f2:"asdf <> xxx|yyy"', 'f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy"'],
+      ['*:[bbb xxx]', 'f1:[bbb xxx] f2:[bbb xxx] f3:[bbb xxx]'],
+      ['f1|f2:[bbb xxx]', 'f1:[bbb xxx] f2:[bbb xxx]'],
+      ['*:(xxx AND bbb)', '+(f1:xxx f2:xxx f3:xxx) +(f1:bbb f2:bbb f3:bbb)'],
+      ['f1|f2:(xxx AND bbb)', '+(f1:xxx f2:xxx) +(f1:bbb f2:bbb)'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['"onewordphrase"', 'onewordphrase']
     ]
+    pairs.each do |pair|
+      assert_equal(pair[1], parser.parse(pair[0]).to_s(parser.default_field))
+    end
+  end
+  def test_qp_with_standard_analyzer()
+    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2", "f3"],
+                                     :analyzer => Ferret::Analysis::StandardAnalyzer.new)
+    pairs = [
+    ['key:1234', 'key:1234'],
+      ['key:(1234)', 'key:1234']
+    ]
     pairs.each do |pair|
-      assert_equal(pair[1], @parser.parse(pair[0]).to_s(@parser.default_field))
+      assert_equal(pair[1], parser.parse(pair[0]).to_s(parser.default_field))
     end
   end
 end

data/test/unit/store/tm_store.rb CHANGED

@@ -95,13 +95,13 @@ module StoreTest
   end
   def test_rw_utf8_strings
-    text = '�� ������'
+    text = '³³ ÄÄÄÄÄÄ 道德經'
     ostream = @dir.create_output("rw_utf8_strings.test")
     ostream.write_string(text)
     ostream.write_string(text*100)
     ostream.close
     istream = @dir.open_input("rw_utf8_strings.test")
-    assert_equal(text, istream.read_string, "Short string test failed")
+    assert_equal(text, x = istream.read_string, "Short string test failed")
     assert_equal(text*100, istream.read_string, "Short string test failed")
     istream.close
   end

data/test/unit/ts_analysis.rb CHANGED

@@ -1,16 +1,2 @@
-$:.unshift File.dirname(__FILE__)
 require File.join(File.dirname(__FILE__), "../test_helper.rb")
-require 'analysis/tc_letter_tokenizer'
-require 'analysis/tc_white_space_tokenizer'
-require 'analysis/tc_lower_case_tokenizer'
-require 'analysis/tc_word_list_loader'
-require 'analysis/tc_lower_case_filter'
-require 'analysis/tc_stop_filter'
-require 'analysis/tc_porter_stem_filter'
-require 'analysis/tc_analyzer'
-require 'analysis/tc_stop_analyzer'
-require 'analysis/tc_white_space_analyzer'
-require 'analysis/tc_per_field_analyzer_wrapper'
-require 'analysis/tc_standard_tokenizer'
-require 'analysis/tc_standard_analyzer'
+load_test_dir('unit/analysis')

data/test/unit/ts_document.rb CHANGED

@@ -1,4 +1,2 @@
-$:.unshift File.dirname(__FILE__)
-require 'document/tc_field.rb'
-require 'document/tc_document.rb'
+require File.join(File.dirname(__FILE__), "../test_helper.rb")
+load_test_dir('unit/document')

data/test/unit/ts_index.rb CHANGED

@@ -1,18 +1,2 @@
-$:.unshift File.dirname(__FILE__)
-require 'index/tc_compound_file_io.rb'
-require 'index/tc_field_infos.rb'
-require 'index/tc_fields_io.rb'
-require 'index/tc_index_writer.rb'
-require 'index/tc_index_reader.rb'
-require 'index/tc_segment_infos.rb'
-require 'index/tc_segment_term_docs.rb'
-require 'index/tc_segment_term_enum.rb'
-require 'index/tc_segment_term_vector.rb'
-require 'index/tc_term.rb'
-require 'index/tc_term_buffer.rb'
-require 'index/tc_term_info.rb'
-require 'index/tc_term_infos_io.rb'
-require 'index/tc_term_vector_offset_info.rb'
-require 'index/tc_term_vectors_io.rb'
-require 'index/tc_index.rb'
+require File.join(File.dirname(__FILE__), "../test_helper.rb")
+load_test_dir('unit/index')

data/test/unit/ts_query_parser.rb CHANGED

@@ -1,3 +1,2 @@
-$:.unshift File.dirname(__FILE__)
-require 'query_parser/tc_query_parser.rb'
+require File.join(File.dirname(__FILE__), "../test_helper.rb")
+load_test_dir('unit/query_parser')

data/test/unit/ts_search.rb CHANGED

@@ -1,10 +1,2 @@
-$:.unshift File.dirname(__FILE__)
-require 'search/tc_similarity.rb'
-require 'search/tc_index_searcher.rb'
-require 'search/tc_fuzzy_query.rb'
-require 'search/tc_sort_field.rb'
-require 'search/tc_sort.rb'
-require 'search/tc_search_and_sort.rb'
-require 'search/tc_filter.rb'
-require 'search/tc_spans.rb'
+require File.join(File.dirname(__FILE__), "../test_helper.rb")
+load_test_dir('unit/search')

data/test/unit/ts_store.rb CHANGED

@@ -1,6 +1,2 @@
-$:.unshift File.dirname(__FILE__)
 require File.join(File.dirname(__FILE__), "../test_helper.rb")
-require 'store/tc_fs_store'
-require 'store/tc_ram_store'
+load_test_dir('unit/store')

data/test/unit/ts_utils.rb CHANGED

@@ -1,10 +1,2 @@
-$:.unshift File.dirname(__FILE__)
 require File.join(File.dirname(__FILE__), "../test_helper.rb")
-require 'utils/tc_string_helper'
-require 'utils/tc_priority_queue'
-require 'utils/tc_bit_vector'
-require 'utils/tc_date_tools.rb'
-require 'utils/tc_number_tools.rb'
-require 'utils/tc_parameter.rb'
-require 'utils/tc_weak_key_hash.rb'
+load_test_dir('unit/utils')

metadata CHANGED

@@ -3,8 +3,8 @@ rubygems_version: 0.8.11
 specification_version: 1
 name: ferret
 version: !ruby/object:Gem::Version
-  version: 0.1.1
-date: 2005-10-22 00:00:00 +09:00
+  version: 0.1.2
+date: 2005-10-25 00:00:00 +09:00
 summary: Ruby indexing library.
 require_paths:
   - lib