RubyGems - ferret - Versions diffs - 0.3.2 → 0.9.0 - Mend

ferret 0.3.2 → 0.9.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (141) hide show

data/CHANGELOG +9 -0
data/Rakefile +51 -25
data/ext/analysis.c +553 -0
data/ext/analysis.h +76 -0
data/ext/array.c +83 -0
data/ext/array.h +19 -0
data/ext/bitvector.c +164 -0
data/ext/bitvector.h +29 -0
data/ext/compound_io.c +335 -0
data/ext/document.c +336 -0
data/ext/document.h +87 -0
data/ext/ferret.c +88 -47
data/ext/ferret.h +43 -109
data/ext/field.c +395 -0
data/ext/filter.c +103 -0
data/ext/fs_store.c +352 -0
data/ext/global.c +219 -0
data/ext/global.h +73 -0
data/ext/hash.c +446 -0
data/ext/hash.h +80 -0
data/ext/hashset.c +141 -0
data/ext/hashset.h +37 -0
data/ext/helper.c +11 -0
data/ext/helper.h +5 -0
data/ext/inc/lang.h +41 -0
data/ext/ind.c +389 -0
data/ext/index.h +884 -0
data/ext/index_io.c +269 -415
data/ext/index_rw.c +2543 -0
data/ext/lang.c +31 -0
data/ext/lang.h +41 -0
data/ext/priorityqueue.c +228 -0
data/ext/priorityqueue.h +44 -0
data/ext/q_boolean.c +1331 -0
data/ext/q_const_score.c +154 -0
data/ext/q_fuzzy.c +287 -0
data/ext/q_match_all.c +142 -0
data/ext/q_multi_phrase.c +343 -0
data/ext/q_parser.c +2180 -0
data/ext/q_phrase.c +657 -0
data/ext/q_prefix.c +75 -0
data/ext/q_range.c +247 -0
data/ext/q_span.c +1566 -0
data/ext/q_term.c +308 -0
data/ext/q_wildcard.c +146 -0
data/ext/r_analysis.c +255 -0
data/ext/r_doc.c +578 -0
data/ext/r_index_io.c +996 -0
data/ext/r_qparser.c +158 -0
data/ext/r_search.c +2321 -0
data/ext/r_store.c +263 -0
data/ext/r_term.c +219 -0
data/ext/ram_store.c +447 -0
data/ext/search.c +524 -0
data/ext/search.h +1065 -0
data/ext/similarity.c +143 -39
data/ext/sort.c +661 -0
data/ext/store.c +35 -0
data/ext/store.h +152 -0
data/ext/term.c +704 -143
data/ext/termdocs.c +599 -0
data/ext/vector.c +594 -0
data/lib/ferret.rb +9 -10
data/lib/ferret/analysis/analyzers.rb +2 -2
data/lib/ferret/analysis/standard_tokenizer.rb +1 -1
data/lib/ferret/analysis/token.rb +14 -14
data/lib/ferret/analysis/token_filters.rb +3 -3
data/lib/ferret/document/field.rb +16 -17
data/lib/ferret/index/document_writer.rb +4 -4
data/lib/ferret/index/index.rb +39 -23
data/lib/ferret/index/index_writer.rb +2 -2
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +1 -8
data/lib/ferret/index/segment_term_vector.rb +4 -4
data/lib/ferret/index/term.rb +5 -1
data/lib/ferret/index/term_vector_offset_info.rb +6 -6
data/lib/ferret/index/term_vectors_io.rb +5 -5
data/lib/ferret/query_parser/query_parser.tab.rb +81 -77
data/lib/ferret/search.rb +1 -1
data/lib/ferret/search/boolean_query.rb +2 -1
data/lib/ferret/search/field_sorted_hit_queue.rb +3 -3
data/lib/ferret/search/fuzzy_query.rb +2 -1
data/lib/ferret/search/index_searcher.rb +3 -0
data/lib/ferret/search/{match_all_docs_query.rb → match_all_query.rb} +7 -7
data/lib/ferret/search/multi_phrase_query.rb +6 -5
data/lib/ferret/search/phrase_query.rb +3 -6
data/lib/ferret/search/prefix_query.rb +4 -4
data/lib/ferret/search/sort.rb +3 -1
data/lib/ferret/search/sort_field.rb +9 -9
data/lib/ferret/search/spans/near_spans_enum.rb +1 -1
data/lib/ferret/search/spans/span_near_query.rb +1 -1
data/lib/ferret/search/spans/span_weight.rb +1 -1
data/lib/ferret/search/spans/spans_enum.rb +7 -7
data/lib/ferret/store/fs_store.rb +10 -6
data/lib/ferret/store/ram_store.rb +3 -3
data/lib/rferret.rb +36 -0
data/test/functional/thread_safety_index_test.rb +2 -2
data/test/test_helper.rb +16 -2
data/test/unit/analysis/c_token.rb +25 -0
data/test/unit/analysis/tc_per_field_analyzer_wrapper.rb +1 -1
data/test/unit/analysis/tc_standard_analyzer.rb +1 -1
data/test/unit/document/{tc_document.rb → c_document.rb} +0 -0
data/test/unit/document/c_field.rb +98 -0
data/test/unit/document/tc_field.rb +0 -66
data/test/unit/index/{tc_index.rb → c_index.rb} +62 -6
data/test/unit/index/{tc_index_reader.rb → c_index_reader.rb} +51 -10
data/test/unit/index/{tc_index_writer.rb → c_index_writer.rb} +0 -4
data/test/unit/index/{tc_term.rb → c_term.rb} +1 -3
data/test/unit/index/{tc_term_vector_offset_info.rb → c_term_voi.rb} +5 -5
data/test/unit/index/tc_segment_term_vector.rb +2 -2
data/test/unit/index/tc_term_vectors_io.rb +4 -4
data/test/unit/query_parser/c_query_parser.rb +138 -0
data/test/unit/search/{tc_filter.rb → c_filter.rb} +24 -24
data/test/unit/search/{tc_fuzzy_query.rb → c_fuzzy_query.rb} +0 -0
data/test/unit/search/{tc_index_searcher.rb → c_index_searcher.rb} +9 -26
data/test/unit/search/{tc_search_and_sort.rb → c_search_and_sort.rb} +15 -15
data/test/unit/search/{tc_sort.rb → c_sort.rb} +2 -1
data/test/unit/search/c_sort_field.rb +27 -0
data/test/unit/search/{tc_spans.rb → c_spans.rb} +0 -0
data/test/unit/search/tc_sort_field.rb +7 -20
data/test/unit/store/c_fs_store.rb +76 -0
data/test/unit/store/c_ram_store.rb +35 -0
data/test/unit/store/m_store.rb +34 -0
data/test/unit/store/m_store_lock.rb +68 -0
data/test/unit/store/tc_fs_store.rb +0 -53
data/test/unit/store/tc_ram_store.rb +0 -20
data/test/unit/store/tm_store.rb +0 -30
data/test/unit/store/tm_store_lock.rb +0 -66
metadata +84 -31
data/ext/Makefile +0 -140
data/ext/ferret_ext.so +0 -0
data/ext/priority_queue.c +0 -232
data/ext/ram_directory.c +0 -321
data/ext/segment_merge_queue.c +0 -37
data/ext/segment_term_enum.c +0 -326
data/ext/string_helper.c +0 -42
data/ext/tags +0 -344
data/ext/term_buffer.c +0 -230
data/ext/term_infos_reader.c +0 -54
data/ext/terminfo.c +0 -160
data/ext/token.c +0 -93
data/ext/util.c +0 -12

data/test/unit/document/tc_field.rb CHANGED Viewed

@@ -25,70 +25,4 @@ class FieldTest < Test::Unit::TestCase
     assert_equal("WITH_OFFSETS", Field::TermVector::WITH_OFFSETS.to_s)
     assert_equal("WITH_POSITIONS_OFFSETS", Field::TermVector::WITH_POSITIONS_OFFSETS.to_s)
   end
-  def test_standard_field()
-    f = Field.new("name", "value", Field::Store::COMPRESS, Field::Index::TOKENIZED)
-    assert_equal("name", f.name)
-    assert_equal("value", f.data)
-    assert_equal(true, f.stored?)
-    assert_equal(true, f.compressed?)
-    assert_equal(true, f.indexed?)
-    assert_equal(true, f.tokenized?)
-    assert_equal(false, f.store_term_vector?)
-    assert_equal(false, f.store_offsets?)
-    assert_equal(false, f.store_positions?)
-    assert_equal(false, f.omit_norms?)
-    assert_equal(false, f.binary?)
-    assert_equal("stored/compressed,indexed,tokenized,<name:value>", f.to_s)
-  end
-  def test_set_store()
-    f = Field.new("name", nil, Field::Store::COMPRESS, Field::Index::TOKENIZED)
-    f.stored = Field::Store::NO
-    assert_equal(false, f.stored?)
-    assert_equal(false, f.compressed?)
-    assert_equal("indexed,tokenized,<name:>", f.to_s)
-  end
-  def test_set_index()
-    f = Field.new("name", "value", Field::Store::COMPRESS, Field::Index::TOKENIZED)
-    f.index = Field::Index::NO
-    assert_equal(false, f.indexed?)
-    assert_equal(false, f.tokenized?)
-    assert_equal(false, f.omit_norms?)
-    assert_equal("stored/compressed,<name:value>", f.to_s)
-    f.index = Field::Index::NO_NORMS
-    assert_equal(true, f.indexed?)
-    assert_equal(false, f.tokenized?)
-    assert_equal(true, f.omit_norms?)
-    assert_equal("stored/compressed,indexed,omit_norms,<name:value>", f.to_s)
-  end
-  def test_set_term_vector()
-    f = Field.new("name", "value", Field::Store::COMPRESS, Field::Index::TOKENIZED)
-    f.store_term_vector = Field::TermVector::WITH_POSITIONS_OFFSETS
-    assert_equal(true, f.store_term_vector?)
-    assert_equal(true, f.store_offsets?)
-    assert_equal(true, f.store_positions?)
-    assert_equal("stored/compressed,indexed,tokenized,store_term_vector,tv_offset,tv_position,<name:value>", f.to_s)
-  end
-  def test_new_binary_field()
-    tmp = []
-    256.times {|i| tmp[i] = i}
-    bin = tmp.pack("c*")
-    f = Field.new_binary_field("name", bin, Field::Store::YES)
-    assert_equal("name", f.name)
-    assert_equal(bin, f.data)
-    assert_equal(true, f.stored?)
-    assert_equal(false, f.compressed?)
-    assert_equal(false, f.indexed?)
-    assert_equal(false, f.tokenized?)
-    assert_equal(false, f.store_term_vector?)
-    assert_equal(false, f.store_offsets?)
-    assert_equal(false, f.store_positions?)
-    assert_equal(false, f.omit_norms?)
-    assert_equal(true, f.binary?)
-    assert_equal("stored/uncompressed,binary,<name:#{bin}>", f.to_s)
-  end
 end

data/test/unit/index/{tc_index.rb → c_index.rb} RENAMED Viewed

@@ -16,7 +16,10 @@ class IndexTest < Test::Unit::TestCase
   def check_results(index, query, expected)
     cnt = 0
+    #puts "#{query} - #{expected.inspect}"
+    #puts index.size
     index.search_each(query) do |doc, score|
+      #puts "doc-#{doc} score=#{score}"
       assert(expected.index(doc))
       cnt += 1
     end
@@ -136,7 +139,7 @@ class IndexTest < Test::Unit::TestCase
     do_test_index_with_hash(index)
     index.close
-    index = Index.new(:default_field => "def_field")
+    index = Index.new(:default_field => "def_field", :id_field => "id")
     do_test_index_with_doc_array(index)
     index.close
   end
@@ -144,7 +147,11 @@ class IndexTest < Test::Unit::TestCase
   def test_fs_index
     fs_path = File.expand_path(File.join(File.dirname(__FILE__), '../../temp/fsdir'))
     Dir[File.join(fs_path, "*")].each {|path| begin File.delete(path) rescue nil end}
-    assert_raise(Errno::ENOENT) {Index.new(:path => fs_path, :create_if_missing => false, :default_field => "def_field")}
+    assert_raise(StandardError) do
+      Index.new(:path => fs_path,
+                :create_if_missing => false,
+                :default_field => "def_field")
+    end
     index = Index.new(:path => fs_path, :default_field => "def_field")
     do_test_index_with_array(index)
     index.close
@@ -155,7 +162,9 @@ class IndexTest < Test::Unit::TestCase
     index.close
     Dir[File.join(fs_path, "*")].each {|path| begin File.delete(path) rescue nil end}
-    index = Index.new(:path => fs_path, :default_field => "def_field")
+    index = Index.new(:path => fs_path,
+                      :default_field => "def_field",
+                      :id_field => "id")
     do_test_index_with_doc_array(index)
     index.close
   end
@@ -317,12 +326,16 @@ class IndexTest < Test::Unit::TestCase
     index2 << "document 2"
     assert_equal(2, index2.size)
     assert_equal(2, index.size)
+    top_docs = index.search("content3")
+    assert_equal(0, top_docs.size)
     iw = IndexWriter.new(fs_path, :analyzer => WhiteSpaceAnalyzer.new())
     doc = Document.new
     doc << Field.new("f", "content3", Field::Store::YES, Field::Index::TOKENIZED)
     iw << doc
     iw.close()
+    top_docs = index.search("content3")
+    assert_equal(1, top_docs.size)
     assert_equal(3, index.size)
     assert_equal("content3", index[2]["f"])
     index.close
@@ -373,7 +386,8 @@ class IndexTest < Test::Unit::TestCase
       {:id => 9, :cat => "/cat2/subcat5", :content => "content9"},
     ]
     index = Index.new(:analyzer => WhiteSpaceAnalyzer.new,
-                      :default_field => :content)
+                      :default_field => :content,
+                      :id_field => :id)
     data.each { |doc| index << doc }
     assert_equal(10, index.size)
     assert_equal("content5", index["5"][:content])
@@ -449,6 +463,39 @@ class IndexTest < Test::Unit::TestCase
     index.close
   end
+  def test_index_multi_key_untokenized
+    data = [
+      {:id => 0, :table => "Product", :product => "tent"},
+      {:id => 0, :table => "location", :location => "first floor"},
+      {:id => 0, :table => "Product", :product => "super tent"},
+      {:id => 0, :table => "location", :location => "second floor"},
+      {:id => 1, :table => "Product", :product => "backback"},
+      {:id => 1, :table => "location", :location => "second floor"},
+      {:id => 1, :table => "location", :location => "first floor"},
+      {:id => 1, :table => "Product", :product => "rucksack"},
+      {:id => 1, :table => "Product", :product => "backpack"}
+    ]
+    index = Index.new(:analyzer => Analyzer.new,
+                      :key => ["id", "table"])
+    data.each do |dat|
+      doc = Document.new
+      dat.each_pair do |key, value|
+        if ([:id, :table].include?(key))
+          doc << Field.new(key, value, Field::Store::YES, Field::Index::UNTOKENIZED)
+        else
+          doc << Field.new(key, value, Field::Store::YES, Field::Index::TOKENIZED)
+        end
+      end
+      index << doc
+    end
+    assert_equal(4, index.size)
+    assert_equal("super tent", index[0][:product])
+    assert_equal("second floor", index[1][:location])
+    assert_equal("backpack", index[3][:product])
+    assert_equal("first floor", index[2][:location])
+    index.close
+  end
   def test_sortby_date
     data = [
       {:content => "one", :date => "20051023"},
@@ -459,7 +506,7 @@ class IndexTest < Test::Unit::TestCase
       {:content => "three", :date => "19790531"},
       {:content => "one", :date => "19770725"},
       {:content => "two", :date => "19751226"},
-      {:content => "three", :date => "19390912"}
+      {:content => "four", :date => "19390912"}
     ]
     index = Index.new(:analyzer => WhiteSpaceAnalyzer.new)
     data.each { |doc|
@@ -481,8 +528,17 @@ class IndexTest < Test::Unit::TestCase
     assert_equal("19390912", index[top_docs.score_docs[0].doc][:date])
     assert_equal("three four", index[top_docs.score_docs[0].doc][:content])
     assert_equal("19390912", index[top_docs.score_docs[1].doc][:date])
-    assert_equal("three", index[top_docs.score_docs[1].doc][:content])
+    assert_equal("four", index[top_docs.score_docs[1].doc][:content])
     assert_equal("19530315", index[top_docs.score_docs[2].doc][:date])
+    top_docs = index.search("one two three four",
+                            :sort => [:date, :content])
+    assert_equal("19390912", index[top_docs.score_docs[0].doc][:date])
+    assert_equal("four", index[top_docs.score_docs[0].doc][:content])
+    assert_equal("19390912", index[top_docs.score_docs[1].doc][:date])
+    assert_equal("three four", index[top_docs.score_docs[1].doc][:content])
+    assert_equal("19530315", index[top_docs.score_docs[2].doc][:date])
     index.close
   end

data/test/unit/index/{tc_index_reader.rb → c_index_reader.rb} RENAMED Viewed

@@ -15,6 +15,47 @@ module IndexReaderCommon
     do_test_get_doc()
+    do_test_term_enum()
+  end
+  def do_test_term_enum()
+    te = @ir.terms
+    assert(te.next?)
+    assert_equal(Term.new("author", "Leo"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.next?)
+    assert_equal(Term.new("author", "Tolstoy"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.next?)
+    assert_equal(Term.new("body", "And"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.skip_to(Term.new("body", "Not")))
+    assert_equal(Term.new("body", "Not"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.next?)
+    assert_equal(Term.new("body", "Random"), te.term)
+    assert_equal(16, te.doc_freq)
+    assert(te.skip_to(Term.new("text", "which")))
+    assert(Term.new("text", "which"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.next?)
+    assert_equal(Term.new("title", "War And Peace"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(!te.next?)
+    te.close
+    te = @ir.terms_from(Term.new("body", "Not"))
+    assert_equal(Term.new("body", "Not"), te.term)
+    assert_equal(1, te.doc_freq)
+    assert(te.next?)
+    assert_equal(Term.new("body", "Random"), te.term)
+    assert_equal(16, te.doc_freq)
+    te.close
   end
   def do_test_term_doc_enum()
@@ -155,7 +196,7 @@ module IndexReaderCommon
     assert_equal("body", tv.field)
     assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    assert_equal([3, 1, 4, 2], tv.term_frequencies)
+    assert_equal([3, 1, 4, 2], tv.freqs)
     assert_equal([[2, 4, 7], [3], [0, 5, 8, 9], [1,6]], tv.positions)
     assert_equal([[t(12,17), t(24,29), t(42,47)],
                   [t(18,23)],
@@ -489,15 +530,15 @@ class IndexReaderTest < Test::Unit::TestCase
     doc << Field.new("title", "this is the title DocField", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_POSITIONS_OFFSETS)
     doc << Field.new("author", "this is the author field", Field::Store::YES, Field::Index::UNTOKENIZED, Field::TermVector::WITH_POSITIONS_OFFSETS)
-    fis = FieldInfos.new()
-    fis << doc
-    assert_equal(4, fis.size)
+    #fis = FieldInfos.new()
+    #fis << doc
+    #assert_equal(4, fis.size)
-    fi = fis["tag"]
-    assert_equal(true, fi.indexed?)
-    assert_equal(true, fi.store_term_vector?)
-    assert_equal(true, fi.store_positions?)
-    assert_equal(true, fi.store_offsets?)
+    #fi = fis["tag"]
+    #assert_equal(true, fi.indexed?)
+    #assert_equal(true, fi.store_term_vector?)
+    #assert_equal(true, fi.store_positions?)
+    #assert_equal(true, fi.store_offsets?)
     iw << doc
     iw.close()
@@ -549,7 +590,7 @@ class IndexReaderTest < Test::Unit::TestCase
     assert_equal("body", tv.field)
     assert_equal(["word1", "word2", "word3", "word4"], tv.terms)
-    assert_equal([3, 1, 4, 2], tv.term_frequencies)
+    assert_equal([3, 1, 4, 2], tv.freqs)
     assert_equal([[2, 4, 7], [3], [0, 5, 8, 9], [1,6]], tv.positions)
     assert_equal([[t(12,17), t(24,29), t(42,47)],
                   [t(18,23)],

data/test/unit/index/{tc_index_writer.rb → c_index_writer.rb} RENAMED Viewed

@@ -30,8 +30,6 @@ class IndexWriterTest < Test::Unit::TestCase
   def test_add_document
     iw = IndexWriter.new(@dir, :analyzer => StandardAnalyzer.new(), :create => true)
     doc = IndexTestHelper.prepare_document()
-    infos = FieldInfos.new
-    infos << doc
     iw.add_document(doc)
     assert_equal(1, iw.doc_count)
     iw.close()
@@ -44,8 +42,6 @@ class IndexWriterTest < Test::Unit::TestCase
     iw.merge_factor = 3
     iw.min_merge_docs = 3
     docs = IndexTestHelper.prepare_book_list()
-    infos = FieldInfos.new
-    infos << docs[0]
     docs.each_with_index do |doc, i|
       #puts "Index doc " + i.to_s
       iw.add_document(doc)

data/test/unit/index/{tc_term.rb → c_term.rb} RENAMED Viewed

@@ -1,6 +1,5 @@
 require File.dirname(__FILE__) + "/../../test_helper"
 class TermTest < Test::Unit::TestCase
   include Ferret::Index
   def test_term()
@@ -16,7 +15,6 @@ class TermTest < Test::Unit::TestCase
     assert(term1 == term4)
     assert(term1.eql?(term4))
     term4.set!("field3", "text3")
-    assert(term1 != term4)
+    assert_not_equal(term1, term4)
   end
 end

data/test/unit/index/{tc_term_vector_offset_info.rb → c_term_voi.rb} RENAMED Viewed

@@ -5,14 +5,14 @@ class TermVectorOffsetInfoTest < Test::Unit::TestCase
   include Ferret::Index
   def test_tvoi()
     t1 = TermVectorOffsetInfo.new(1, 3)
-    assert_equal(t1.start_offset, 1)
-    assert_equal(t1.end_offset, 3)
+    assert_equal(t1.start, 1)
+    assert_equal(t1.end, 3)
     t2 = TermVectorOffsetInfo.new(1, 3)
     assert(t1 == t2)
-    t2.start_offset = 2
+    t2.start = 2
     assert(t1 != t2)
-    t2.start_offset = 1
-    t2.end_offset = 1
+    t2.start = 1
+    t2.end = 1
     assert(t1 != t2)
   end
 end

data/test/unit/index/tc_segment_term_vector.rb CHANGED Viewed

@@ -17,7 +17,7 @@ class SegmentTermVectorTest < Test::Unit::TestCase
   def test_index_of()
     assert_equal(0, @stv.index_of("Apples"))
-    assert_equal(4, @stv.term_frequencies[@stv.index_of("Apples")])
+    assert_equal(4, @stv.freqs[@stv.index_of("Apples")])
   end
   def test_indexes_of()
@@ -56,7 +56,7 @@ class SegmentTermVectorWithPosOffsetsTest < Test::Unit::TestCase
   def test_index_of()
     assert_equal(0, @stv.index_of("Apples"))
-    assert_equal(4, @stv.term_frequencies[@stv.index_of("Apples")])
+    assert_equal(4, @stv.freqs[@stv.index_of("Apples")])
   end
   def test_indexes_of()

data/test/unit/index/tc_term_vectors_io.rb CHANGED Viewed

@@ -33,12 +33,12 @@ class TermVectorsIOTest < Test::Unit::TestCase
     assert_equal(2, tv.size)
     assert_equal("text1", tv.terms[0])
-    assert_equal(1, tv.term_frequencies[0])
+    assert_equal(1, tv.freqs[0])
     assert_equal(1, tv.positions[0][0])
     assert_equal(t(0,4), tv.offsets[0][0])
     assert_equal("text2", tv.terms[1])
-    assert_equal(2, tv.term_frequencies[1])
+    assert_equal(2, tv.freqs[1])
     assert_equal(3, tv.positions[1][0])
     assert_equal(t(5,10), tv.offsets[1][0])
     assert_equal(4, tv.positions[1][1])
@@ -77,7 +77,7 @@ class TermVectorsIOTest < Test::Unit::TestCase
     assert_equal(2, tv.size)
     assert_equal("word1", tv.terms[0])
-    assert_equal(3, tv.term_frequencies[0])
+    assert_equal(3, tv.freqs[0])
     assert_equal(1, tv.positions[0][0])
     assert_equal(5, tv.positions[0][1])
     assert_equal(8, tv.positions[0][2])
@@ -86,7 +86,7 @@ class TermVectorsIOTest < Test::Unit::TestCase
     assert_equal(t(45,50), tv.offsets[0][2])
     assert_equal("word2", tv.terms[1])
-    assert_equal(2, tv.term_frequencies[1])
+    assert_equal(2, tv.freqs[1])
     assert_equal(2, tv.positions[1][0])
     assert_equal(9, tv.positions[1][1])
     assert_equal(t(6,11), tv.offsets[1][0])

data/test/unit/query_parser/c_query_parser.rb ADDED Viewed

@@ -0,0 +1,138 @@
+require File.dirname(__FILE__) + "/../../test_helper"
+class QueryParserTest < Test::Unit::TestCase
+  def test_strings()
+    parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "field", "f1", "f2"])
+    pairs = [
+      ['', ''],
+      ['word', 'word'],
+      ['field:word', 'field:word'],
+      ['"word1 word2 word3"', '"word word word"'],
+      ['"word1 2342 word3"', '"word word"'],
+      ['field:"one two three"', 'field:"one two three"'],
+      ['field:"one 222 three"', 'field:"one three"'],
+      ['field:"one <> three"', 'field:"one <> three"'],
+      ['field:"one <> three <>"', 'field:"one <> three"'],
+      ['field:"one <> <> <> three <>"', 'field:"one <> <> <> three"'],
+      ['field:"one <> <> <> three|four|five <>"', 'field:"one <> <> <> three|four|five"'],
+      ['field:"one|two three|four|five six|seven"', 'field:"one|two three|four|five six|seven"'],
+      ['field:"testing|trucks"', 'field:testing field:trucks'],
+      ['[aaa bbb]', '[aaa bbb]'],
+      ['{aaa bbb]', '{aaa bbb]'],
+      ['field:[aaa bbb}', 'field:[aaa bbb}'],
+      ['{aaa bbb}', '{aaa bbb}'],
+      ['{aaa>', '{aaa>'],
+      ['[aaa>', '[aaa>'],
+      ['field:<aaa}', 'field:<aaa}'],
+      ['<aaa]', '<aaa]'],
+      ['>aaa', '{aaa>'],
+      ['>=aaa', '[aaa>'],
+      ['<aaa', '<aaa}'],
+      ['field:<=aaa', 'field:<aaa]'],
+      ['REQ one REQ two', '+one +two'],
+      ['REQ one two', '+one two'],
+      ['one REQ two', 'one +two'],
+      ['+one +two', '+one +two'],
+      ['+one two', '+one two'],
+      ['one +two', 'one +two'],
+      ['-one -two', '-one -two'],
+      ['-one two', '-one two'],
+      ['one -two', 'one -two'],
+      ['!one !two', '-one -two'],
+      ['!one two', '-one two'],
+      ['one !two', 'one -two'],
+      ['NOT one NOT two', '-one -two'],
+      ['NOT one two', '-one two'],
+      ['one NOT two', 'one -two'],
+      ['one two', 'one two'],
+      ['one OR two', 'one two'],
+      ['one AND two', '+one +two'],
+      ['one two AND three', 'one two +three'],
+      ['one two OR three', 'one two three'],
+      ['one (two AND three)', 'one (+two +three)'],
+      ['one AND (two OR three)', '+one +(two three)'],
+      ['field:(one AND (two OR three))', '+field:one +(field:two field:three)'],
+      ['one AND (two OR [aaa vvv})', '+one +(two [aaa vvv})'],
+      ['one AND (f1:two OR f2:three) AND four', '+one +(f1:two f2:three) +four'],
+      ['one^1.23', 'one^1.23'],
+      ['(one AND two)^100.23', '(+one +two)^100.23'],
+      ['field:(one AND two)^100.23', '(+field:one +field:two)^100.23'],
+      ['field:(one AND [aaa bbb]^23.3)^100.23', '(+field:one +field:[aaa bbb]^23.3)^100.23'],
+      ['(REQ field:"one two three")^23', 'field:"one two three"^23.0'],
+      ['asdf~0.2', 'asdf~0.2'],
+      ['field:asdf~0.2', 'field:asdf~0.2'],
+      ['asdf~0.2^100.0', 'asdf~0.2^100.0'],
+      ['field:asdf~0.2^0.1', 'field:asdf~0.2^0.1'],
+      ['field:"asdf <> asdf|asdf"~4', 'field:"asdf <> asdf|asdf"~4'],
+      ['"one two three four five"~5', '"one two three four five"~5'],
+      ['ab?de', 'ab?de'],
+      ['ab*de', 'ab*de'],
+      ['asdf?*?asd*dsf?asfd*asdf?', 'asdf?*?asd*dsf?asfd*asdf?'],
+      ['field:a* AND field:(b*)', '+field:a* +field:b*'],
+      ['field:abc~ AND field:(b*)', '+field:abc~ +field:b*'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['*:xxx', 'xxx field:xxx f1:xxx f2:xxx'],
+      ['f1|f2:xxx', 'f1:xxx f2:xxx'],
+      ['*:asd~0.2', 'asd~0.2 field:asd~0.2 f1:asd~0.2 f2:asd~0.2'],
+      ['f1|f2:asd~0.2', 'f1:asd~0.2 f2:asd~0.2'],
+      ['*:a?d*^20.0', '(a?d* field:a?d* f1:a?d* f2:a?d*)^20.0'],
+      ['f1|f2:a?d*^20.0', '(f1:a?d* f2:a?d*)^20.0'],
+      ['*:"asdf <> xxx|yyy"', '"asdf <> xxx|yyy" field:"asdf <> xxx|yyy" f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy"'],
+      ['f1|f2:"asdf <> xxx|yyy"', 'f1:"asdf <> xxx|yyy" f2:"asdf <> xxx|yyy"'],
+      ['*:[bbb xxx]', '[bbb xxx] field:[bbb xxx] f1:[bbb xxx] f2:[bbb xxx]'],
+      ['f1|f2:[bbb xxx]', 'f1:[bbb xxx] f2:[bbb xxx]'],
+      ['*:(xxx AND bbb)', '+(xxx field:xxx f1:xxx f2:xxx) +(bbb field:bbb f1:bbb f2:bbb)'],
+      ['f1|f2:(xxx AND bbb)', '+(f1:xxx f2:xxx) +(f1:bbb f2:bbb)'],
+      ['asdf?*?asd*dsf?asfd*asdf?^20.0', 'asdf?*?asd*dsf?asfd*asdf?^20.0'],
+      ['"onewordphrase"', 'onewordphrase']
+    ]
+    pairs.each do |query_str, expected|
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+  def test_qp_with_standard_analyzer()
+    parser = Ferret::QueryParser.new("xxx", :fields => ["xxx", "key"],
+                                     :analyzer => Ferret::Analysis::StandardAnalyzer.new)
+    pairs = [
+      ['key:1234', 'key:1234'],
+      ['key:(1234)', 'key:1234']
+    ]
+    pairs.each do |query_str, expected|
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+  def do_test_query_parse_exception_raised(str)
+    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2", "f3"])
+    assert_raise(Ferret::QueryParser::QueryParseException) do
+      parser.parse(str)
+    end
+  end
+  def test_bad_queries
+    parser = Ferret::QueryParser.new("xxx", :fields => ["f1", "f2"],
+                                            :handle_parse_errors => true)
+    pairs = [
+      ['::*word', 'word'],
+      ['()*&)(*^&*(', ''],
+      ['()*&one)(*two(*&"', '"one two"']
+    ]
+    pairs.each do |query_str, expected|
+      do_test_query_parse_exception_raised(query_str)
+      assert_equal(expected, parser.parse(query_str).to_s("xxx"))
+    end
+  end
+end