RubyGems - ferret - Versions diffs - 0.1.0 - Mend

ferret 0.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (202) hide show

data/MIT-LICENSE +20 -0
data/README +109 -0
data/Rakefile +275 -0
data/TODO +9 -0
data/TUTORIAL +197 -0
data/ext/extconf.rb +3 -0
data/ext/ferret.c +23 -0
data/ext/ferret.h +85 -0
data/ext/index_io.c +543 -0
data/ext/priority_queue.c +227 -0
data/ext/ram_directory.c +316 -0
data/ext/segment_merge_queue.c +41 -0
data/ext/string_helper.c +42 -0
data/ext/tags +240 -0
data/ext/term.c +261 -0
data/ext/term_buffer.c +299 -0
data/ext/util.c +12 -0
data/lib/ferret.rb +41 -0
data/lib/ferret/analysis.rb +11 -0
data/lib/ferret/analysis/analyzers.rb +93 -0
data/lib/ferret/analysis/standard_tokenizer.rb +65 -0
data/lib/ferret/analysis/token.rb +79 -0
data/lib/ferret/analysis/token_filters.rb +86 -0
data/lib/ferret/analysis/token_stream.rb +26 -0
data/lib/ferret/analysis/tokenizers.rb +107 -0
data/lib/ferret/analysis/word_list_loader.rb +27 -0
data/lib/ferret/document.rb +2 -0
data/lib/ferret/document/document.rb +152 -0
data/lib/ferret/document/field.rb +304 -0
data/lib/ferret/index.rb +26 -0
data/lib/ferret/index/compound_file_io.rb +343 -0
data/lib/ferret/index/document_writer.rb +288 -0
data/lib/ferret/index/field_infos.rb +259 -0
data/lib/ferret/index/fields_io.rb +175 -0
data/lib/ferret/index/index.rb +228 -0
data/lib/ferret/index/index_file_names.rb +33 -0
data/lib/ferret/index/index_reader.rb +462 -0
data/lib/ferret/index/index_writer.rb +488 -0
data/lib/ferret/index/multi_reader.rb +363 -0
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +105 -0
data/lib/ferret/index/segment_infos.rb +130 -0
data/lib/ferret/index/segment_merge_info.rb +47 -0
data/lib/ferret/index/segment_merge_queue.rb +16 -0
data/lib/ferret/index/segment_merger.rb +337 -0
data/lib/ferret/index/segment_reader.rb +380 -0
data/lib/ferret/index/segment_term_enum.rb +178 -0
data/lib/ferret/index/segment_term_vector.rb +58 -0
data/lib/ferret/index/term.rb +49 -0
data/lib/ferret/index/term_buffer.rb +88 -0
data/lib/ferret/index/term_doc_enum.rb +283 -0
data/lib/ferret/index/term_enum.rb +52 -0
data/lib/ferret/index/term_info.rb +41 -0
data/lib/ferret/index/term_infos_io.rb +312 -0
data/lib/ferret/index/term_vector_offset_info.rb +20 -0
data/lib/ferret/index/term_vectors_io.rb +552 -0
data/lib/ferret/query_parser.rb +274 -0
data/lib/ferret/query_parser/query_parser.tab.rb +819 -0
data/lib/ferret/search.rb +49 -0
data/lib/ferret/search/boolean_clause.rb +100 -0
data/lib/ferret/search/boolean_query.rb +303 -0
data/lib/ferret/search/boolean_scorer.rb +294 -0
data/lib/ferret/search/caching_wrapper_filter.rb +40 -0
data/lib/ferret/search/conjunction_scorer.rb +99 -0
data/lib/ferret/search/disjunction_sum_scorer.rb +203 -0
data/lib/ferret/search/exact_phrase_scorer.rb +32 -0
data/lib/ferret/search/explanation.rb +41 -0
data/lib/ferret/search/field_cache.rb +216 -0
data/lib/ferret/search/field_doc.rb +31 -0
data/lib/ferret/search/field_sorted_hit_queue.rb +184 -0
data/lib/ferret/search/filter.rb +11 -0
data/lib/ferret/search/filtered_query.rb +130 -0
data/lib/ferret/search/filtered_term_enum.rb +79 -0
data/lib/ferret/search/fuzzy_query.rb +153 -0
data/lib/ferret/search/fuzzy_term_enum.rb +244 -0
data/lib/ferret/search/hit_collector.rb +34 -0
data/lib/ferret/search/hit_queue.rb +11 -0
data/lib/ferret/search/index_searcher.rb +173 -0
data/lib/ferret/search/match_all_docs_query.rb +104 -0
data/lib/ferret/search/multi_phrase_query.rb +204 -0
data/lib/ferret/search/multi_term_query.rb +65 -0
data/lib/ferret/search/non_matching_scorer.rb +22 -0
data/lib/ferret/search/phrase_positions.rb +55 -0
data/lib/ferret/search/phrase_query.rb +217 -0
data/lib/ferret/search/phrase_scorer.rb +153 -0
data/lib/ferret/search/prefix_query.rb +47 -0
data/lib/ferret/search/query.rb +111 -0
data/lib/ferret/search/query_filter.rb +51 -0
data/lib/ferret/search/range_filter.rb +103 -0
data/lib/ferret/search/range_query.rb +139 -0
data/lib/ferret/search/req_excl_scorer.rb +125 -0
data/lib/ferret/search/req_opt_sum_scorer.rb +70 -0
data/lib/ferret/search/score_doc.rb +38 -0
data/lib/ferret/search/score_doc_comparator.rb +114 -0
data/lib/ferret/search/scorer.rb +91 -0
data/lib/ferret/search/similarity.rb +278 -0
data/lib/ferret/search/sloppy_phrase_scorer.rb +47 -0
data/lib/ferret/search/sort.rb +105 -0
data/lib/ferret/search/sort_comparator.rb +60 -0
data/lib/ferret/search/sort_field.rb +87 -0
data/lib/ferret/search/spans.rb +12 -0
data/lib/ferret/search/spans/near_spans_enum.rb +304 -0
data/lib/ferret/search/spans/span_first_query.rb +79 -0
data/lib/ferret/search/spans/span_near_query.rb +108 -0
data/lib/ferret/search/spans/span_not_query.rb +130 -0
data/lib/ferret/search/spans/span_or_query.rb +176 -0
data/lib/ferret/search/spans/span_query.rb +25 -0
data/lib/ferret/search/spans/span_scorer.rb +74 -0
data/lib/ferret/search/spans/span_term_query.rb +105 -0
data/lib/ferret/search/spans/span_weight.rb +84 -0
data/lib/ferret/search/spans/spans_enum.rb +44 -0
data/lib/ferret/search/term_query.rb +128 -0
data/lib/ferret/search/term_scorer.rb +181 -0
data/lib/ferret/search/top_docs.rb +24 -0
data/lib/ferret/search/top_field_docs.rb +17 -0
data/lib/ferret/search/weight.rb +54 -0
data/lib/ferret/search/wildcard_query.rb +26 -0
data/lib/ferret/search/wildcard_term_enum.rb +61 -0
data/lib/ferret/stemmers.rb +1 -0
data/lib/ferret/stemmers/porter_stemmer.rb +218 -0
data/lib/ferret/store.rb +5 -0
data/lib/ferret/store/buffered_index_io.rb +191 -0
data/lib/ferret/store/directory.rb +139 -0
data/lib/ferret/store/fs_store.rb +338 -0
data/lib/ferret/store/index_io.rb +259 -0
data/lib/ferret/store/ram_store.rb +282 -0
data/lib/ferret/utils.rb +7 -0
data/lib/ferret/utils/bit_vector.rb +105 -0
data/lib/ferret/utils/date_tools.rb +138 -0
data/lib/ferret/utils/number_tools.rb +91 -0
data/lib/ferret/utils/parameter.rb +41 -0
data/lib/ferret/utils/priority_queue.rb +120 -0
data/lib/ferret/utils/string_helper.rb +47 -0
data/lib/ferret/utils/weak_key_hash.rb +51 -0
data/rake_utils/code_statistics.rb +106 -0
data/setup.rb +1551 -0
data/test/benchmark/tb_ram_store.rb +76 -0
data/test/benchmark/tb_rw_vint.rb +26 -0
data/test/longrunning/tc_numbertools.rb +60 -0
data/test/longrunning/tm_store.rb +19 -0
data/test/test_all.rb +9 -0
data/test/test_helper.rb +6 -0
data/test/unit/analysis/tc_analyzer.rb +21 -0
data/test/unit/analysis/tc_letter_tokenizer.rb +20 -0
data/test/unit/analysis/tc_lower_case_filter.rb +20 -0
data/test/unit/analysis/tc_lower_case_tokenizer.rb +27 -0
data/test/unit/analysis/tc_per_field_analyzer_wrapper.rb +39 -0
data/test/unit/analysis/tc_porter_stem_filter.rb +16 -0
data/test/unit/analysis/tc_standard_analyzer.rb +20 -0
data/test/unit/analysis/tc_standard_tokenizer.rb +20 -0
data/test/unit/analysis/tc_stop_analyzer.rb +20 -0
data/test/unit/analysis/tc_stop_filter.rb +14 -0
data/test/unit/analysis/tc_white_space_analyzer.rb +21 -0
data/test/unit/analysis/tc_white_space_tokenizer.rb +20 -0
data/test/unit/analysis/tc_word_list_loader.rb +32 -0
data/test/unit/document/tc_document.rb +47 -0
data/test/unit/document/tc_field.rb +80 -0
data/test/unit/index/tc_compound_file_io.rb +107 -0
data/test/unit/index/tc_field_infos.rb +119 -0
data/test/unit/index/tc_fields_io.rb +167 -0
data/test/unit/index/tc_index.rb +140 -0
data/test/unit/index/tc_index_reader.rb +622 -0
data/test/unit/index/tc_index_writer.rb +57 -0
data/test/unit/index/tc_multiple_term_doc_pos_enum.rb +80 -0
data/test/unit/index/tc_segment_infos.rb +74 -0
data/test/unit/index/tc_segment_term_docs.rb +17 -0
data/test/unit/index/tc_segment_term_enum.rb +60 -0
data/test/unit/index/tc_segment_term_vector.rb +71 -0
data/test/unit/index/tc_term.rb +22 -0
data/test/unit/index/tc_term_buffer.rb +57 -0
data/test/unit/index/tc_term_info.rb +19 -0
data/test/unit/index/tc_term_infos_io.rb +192 -0
data/test/unit/index/tc_term_vector_offset_info.rb +18 -0
data/test/unit/index/tc_term_vectors_io.rb +108 -0
data/test/unit/index/th_doc.rb +244 -0
data/test/unit/query_parser/tc_query_parser.rb +84 -0
data/test/unit/search/tc_filter.rb +113 -0
data/test/unit/search/tc_fuzzy_query.rb +136 -0
data/test/unit/search/tc_index_searcher.rb +188 -0
data/test/unit/search/tc_search_and_sort.rb +98 -0
data/test/unit/search/tc_similarity.rb +37 -0
data/test/unit/search/tc_sort.rb +48 -0
data/test/unit/search/tc_sort_field.rb +27 -0
data/test/unit/search/tc_spans.rb +153 -0
data/test/unit/store/tc_fs_store.rb +84 -0
data/test/unit/store/tc_ram_store.rb +35 -0
data/test/unit/store/tm_store.rb +180 -0
data/test/unit/store/tm_store_lock.rb +68 -0
data/test/unit/ts_analysis.rb +16 -0
data/test/unit/ts_document.rb +4 -0
data/test/unit/ts_index.rb +18 -0
data/test/unit/ts_query_parser.rb +3 -0
data/test/unit/ts_search.rb +10 -0
data/test/unit/ts_store.rb +6 -0
data/test/unit/ts_utils.rb +10 -0
data/test/unit/utils/tc_bit_vector.rb +65 -0
data/test/unit/utils/tc_date_tools.rb +50 -0
data/test/unit/utils/tc_number_tools.rb +59 -0
data/test/unit/utils/tc_parameter.rb +40 -0
data/test/unit/utils/tc_priority_queue.rb +62 -0
data/test/unit/utils/tc_string_helper.rb +21 -0
data/test/unit/utils/tc_weak_key_hash.rb +25 -0
metadata +251 -0

data/ext/term_buffer.c ADDED

@@ -0,0 +1,299 @@
+#include "ferret.h"
+ID field_name;
+/****************************************************************************
+ *
+ * TermBuffer Methods
+ *
+ ****************************************************************************/
+void
+frt_termbuffer_free(void *p)
+{
+	TermBuffer *tb;
+	tb = (TermBuffer *)p;
+	free((void *)(tb->text));
+	free((void *)(tb->field));
+	free(p);
+}
+static VALUE
+frt_termbuffer_alloc(VALUE klass)
+{
+	TermBuffer *tb;
+	tb = (TermBuffer *)ALLOC(TermBuffer);
+	tb->text = NULL;
+	tb->field = NULL;
+	tb->tlen = 0;
+	tb->flen = 0;
+	VALUE rbuffer = Data_Wrap_Struct(klass, NULL, frt_termbuffer_free, tb);
+	return rbuffer;
+}
+static VALUE
+frt_termbuffer_init(VALUE self)
+{
+	rb_iv_set(self, "@term", Qnil);
+  return Qnil;
+}
+static VALUE
+frt_termbuffer_get_text_length(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+  return INT2FIX(tb->tlen);
+}
+static VALUE
+frt_termbuffer_get_text(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+  return rb_str_new(tb->text, tb->tlen);
+}
+static VALUE
+frt_termbuffer_get_field_name(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+  return rb_str_new(tb->field, tb->flen);
+}
+static VALUE
+frt_termbuffer_reset(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+	tb->field = NULL;
+	tb->text = NULL;
+	tb->tlen = 0;
+	tb->flen = 0;
+	return Qnil;
+}
+static VALUE
+frt_termbuffer_to_term(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+	if(tb->field == NULL) {
+		return Qnil;
+  } else {
+    VALUE field = rb_str_new(tb->field, tb->flen);
+    VALUE text = rb_str_new(tb->text, tb->tlen);
+    return rb_funcall(cTerm, frt_newobj, 2, field, text);
+	}
+}
+int
+frt_termbuffer_compare_to_int(VALUE self, VALUE rother)
+{
+	int comp, size, my_len, o_len;
+	TermBuffer *tb, *other;
+	Data_Get_Struct(self, TermBuffer, tb);
+	Data_Get_Struct(rother, TermBuffer, other);
+	my_len = tb->flen;
+	o_len = other->flen;
+	size = my_len >= o_len ? o_len : my_len;
+	comp = memcmp(tb->field, other->field, size);
+	if(comp == 0){
+		if(my_len == o_len) {
+			my_len = tb->tlen;
+			o_len = other->tlen;
+			size = my_len >= o_len ? o_len : my_len;
+			comp = memcmp(tb->text, other->text, size);
+			if(comp == 0 && my_len != o_len)
+				comp = my_len > o_len ? 1 : -1;
+		} else {
+			comp = my_len > o_len ? 1 : -1;
+    }
+	}
+	return comp;
+}
+VALUE
+frt_termbuffer_lt(VALUE self, VALUE rother)
+{
+  return frt_termbuffer_compare_to_int(self, rother) < 0 ? Qtrue : Qfalse;
+}
+VALUE
+frt_termbuffer_gt(VALUE self, VALUE rother)
+{
+  return frt_termbuffer_compare_to_int(self, rother) > 0 ? Qtrue : Qfalse;
+}
+VALUE
+frt_termbuffer_le(VALUE self, VALUE rother)
+{
+  return frt_termbuffer_compare_to_int(self, rother) <= 0 ? Qtrue : Qfalse;
+}
+VALUE
+frt_termbuffer_ge(VALUE self, VALUE rother)
+{
+  return frt_termbuffer_compare_to_int(self, rother) >= 0 ? Qtrue : Qfalse;
+}
+VALUE
+frt_termbuffer_eq(VALUE self, VALUE rother)
+{
+  if (rother == Qnil)
+    return Qfalse;
+  return frt_termbuffer_compare_to_int(self, rother) == 0 ? Qtrue : Qfalse;
+}
+static VALUE
+frt_termbuffer_compare_to(VALUE self, VALUE rother)
+{
+	return INT2FIX(frt_termbuffer_compare_to_int(self, rother));
+}
+static VALUE
+frt_termbuffer_set_term(VALUE self, VALUE rterm)
+{
+	TermBuffer *tb;
+  Term *term;
+	int tlen, flen;
+	Data_Get_Struct(self, TermBuffer, tb);
+	Data_Get_Struct(rterm, Term, term);
+	tlen = term->tlen;
+	flen = term->flen;
+	if(tb->field == NULL){
+		tb->field = (char *)ALLOC_N(char, flen+1);
+		tb->text = (char *)ALLOC_N(char, tlen+1);
+	} else {
+		REALLOC_N(tb->text, char, tlen+1);
+		REALLOC_N(tb->field, char, flen+1);
+	}
+	tb->flen = flen;
+	tb->tlen = tlen;
+	MEMCPY(tb->text, term->text, char, tlen);
+	MEMCPY(tb->field, term->field, char, flen);
+	return Qnil;
+}
+static VALUE
+frt_termbuffer_init_copy(VALUE self, VALUE rother)
+{
+	TermBuffer *tb, *other;
+	int tlen, flen;
+	Data_Get_Struct(self, TermBuffer, tb);
+	Data_Get_Struct(rother, TermBuffer, other);
+	tlen = other->tlen;
+	flen = other->flen;
+	if(tb->field == NULL){
+		tb->field = (char *)ALLOC_N(char, flen+1);
+		tb->text = (char *)ALLOC_N(char, tlen+1);
+	} else {
+		REALLOC_N(tb->text, char, tlen+1);
+		REALLOC_N(tb->field, char, flen+1);
+	}
+	tb->flen = flen;
+	tb->tlen = tlen;
+	MEMCPY(tb->text, other->text, char, tlen);
+	MEMCPY(tb->field, other->field, char, flen);
+	return Qnil;
+}
+static VALUE
+frt_termbuffer_read(VALUE self, VALUE input, VALUE info)
+{
+	TermBuffer *tb;
+	int tlen, flen, start, length;
+	VALUE field, fnum;
+	Data_Get_Struct(self, TermBuffer, tb);
+	start = frt_read_vint(input);
+	length = frt_read_vint(input);
+	tlen = start + length;
+	if(tb->field == NULL){
+		tb->text = (char *)ALLOC_N(char, tlen+1);
+	} else {
+		REALLOC_N(tb->text, char, tlen+1);
+	}
+	frt_read_chars(input, tb->text, start, length);
+  fnum = INT2FIX(frt_read_vint(input));
+  field = rb_funcall(info, field_name, 1, fnum);
+  flen = RSTRING(field)->len;
+  REALLOC_N(tb->field, char, flen+1);
+  MEMCPY(tb->field, RSTRING(field)->ptr, char, flen);
+  tb->flen = flen;
+  tb->tlen = tlen;
+	return Qnil;
+}
+static VALUE
+frt_termbuffer_hash(VALUE self)
+{
+	TermBuffer *tb;
+	Data_Get_Struct(self, TermBuffer, tb);
+  return INT2FIX(frt_hash(tb->text, tb->tlen) +
+      frt_hash(tb->field, tb->flen));
+}
+/****************************************************************************
+ *
+ * Init Function
+ *
+ ****************************************************************************/
+void
+Init_term_buffer(void) {
+  // IDs
+	field_name = rb_intern("name");
+	// TermBuffer
+	cTermBuffer = rb_define_class_under(mIndex, "TermBuffer", rb_cObject);
+	rb_define_alloc_func(cTermBuffer, frt_termbuffer_alloc);
+	rb_include_module(cTermBuffer, rb_mComparable);
+  // Methods
+	rb_define_method(cTermBuffer, "initialize", frt_termbuffer_init, 0);
+	rb_define_method(cTermBuffer, "initialize_copy", frt_termbuffer_init_copy, 1);
+	rb_define_method(cTermBuffer, "text", frt_termbuffer_get_text, 0);
+	rb_define_method(cTermBuffer, "field", frt_termbuffer_get_field_name, 0);
+	rb_define_method(cTermBuffer, "text_length", frt_termbuffer_get_text_length, 0);
+	rb_define_method(cTermBuffer, "<=>", frt_termbuffer_compare_to, 1);
+	rb_define_method(cTermBuffer, "<", frt_termbuffer_lt, 1);
+	rb_define_method(cTermBuffer, ">", frt_termbuffer_gt, 1);
+	rb_define_method(cTermBuffer, "<=", frt_termbuffer_le, 1);
+	rb_define_method(cTermBuffer, ">=", frt_termbuffer_ge, 1);
+	rb_define_method(cTermBuffer, "eql?", frt_termbuffer_eq, 1);
+	rb_define_method(cTermBuffer, "==", frt_termbuffer_eq, 1);
+	rb_define_method(cTermBuffer, "hash", frt_termbuffer_hash, 0);
+	rb_define_method(cTermBuffer, "read", frt_termbuffer_read, 2);
+	rb_define_method(cTermBuffer, "reset", frt_termbuffer_reset, 0);
+	rb_define_method(cTermBuffer, "to_term", frt_termbuffer_to_term, 0);
+	rb_define_method(cTermBuffer, "term", frt_termbuffer_to_term, 0);
+	rb_define_method(cTermBuffer, "term=", frt_termbuffer_set_term, 1);
+	rb_define_method(cTermBuffer, "set!", frt_termbuffer_init_copy, 1);
+	rb_define_method(cTermBuffer, "text_str", frt_termbuffer_get_text, 0);
+}

data/ext/util.c ADDED

@@ -0,0 +1,12 @@
+int
+frt_hash(register char *p, register int len)
+{
+  register int key = 0;
+  while (len--) {
+    key = key*65599 + *p;
+    p++;
+  }
+  key = key + (key>>5);
+  return key;
+}

data/lib/ferret.rb ADDED

@@ -0,0 +1,41 @@
+#--
+# Copyright (c) 2005 David Balmain
+#
+# Permission is hereby granted, free of charge, to any person obtaining
+# a copy of this software and associated documentation files (the
+# "Software"), to deal in the Software without restriction, including
+# without limitation the rights to use, copy, modify, merge, publish,
+# distribute, sublicense, and/or sell copies of the Software, and to
+# permit persons to whom the Software is furnished to do so, subject to
+# the following conditions:
+#
+# The above copyright notice and this permission notice shall be
+# included in all copies or substantial portions of the Software.
+#
+# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+# EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+# MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+# NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+# LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+# OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+# WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
+#++
+# :include: ../TUTORIAL
+module Ferret
+  VERSION = '0.1.0'
+end
+require 'ferret/utils'
+require 'ferret/document'
+require 'ferret/stemmers'
+require 'ferret/analysis'
+require 'ferret/store'
+require 'ferret/index'
+require 'ferret/search'
+require 'ferret/query_parser'
+# try and load the C extension but it isn't necessary.
+begin
+  require 'ferret_ext'
+rescue Exception => e
+end

data/lib/ferret/analysis.rb ADDED

@@ -0,0 +1,11 @@
+# Documentation for Analysis
+module Ferret::Analysis
+end
+require 'ferret/analysis/token'
+require 'ferret/analysis/token_stream'
+require 'ferret/analysis/tokenizers'
+require 'ferret/analysis/standard_tokenizer'
+require 'ferret/analysis/token_filters'
+require 'ferret/analysis/word_list_loader'
+require 'ferret/analysis/analyzers'

data/lib/ferret/analysis/analyzers.rb ADDED

@@ -0,0 +1,93 @@
+module Ferret::Analysis
+  # An Analyzer builds TokenStreams, which analyze text.  It thus represents
+  # a policy for extracting index terms from text.
+  #
+  # Typical implementations first build a Tokenizer, which breaks the stream
+  # of characters from the Reader into raw Tokens. One or more TokenFilter s
+  # may then be applied to the output of the Tokenizer.
+  #
+  # The default Analyzer just creates a LowerCaseTokenizer which converts
+  # all text to lowercase tokens. See LowerCaseTokenizer for more details.
+  class Analyzer
+    # Creates a TokenStream which tokenizes all the text in the provided
+    # Reader. Override to allow Analyzer to choose strategy based on
+    # document and/or field.
+    # string:: the string representing the text in the field
+    # field:: name of the field. Not required.
+    def token_stream(field, string)
+      return LowerCaseTokenizer.new(string)
+    end
+  end
+  # An Analyzer that uses WhiteSpaceTokenizer.
+  class WhiteSpaceAnalyzer < Analyzer
+    def token_stream(field, string)
+      return WhiteSpaceTokenizer.new(string)
+    end
+  end
+  # Filters LetterTokenizer with LowerCaseFilter and StopFilter.
+  class StopAnalyzer < Analyzer
+    # An array containing some common English words that are not usually useful
+    # for searching.
+    ENGLISH_STOP_WORDS = [
+      "a", "an", "and", "are", "as", "at", "be", "but", "by",
+      "for", "if", "in", "into", "is", "it",
+      "no", "not", "of", "on", "or", "s", "such",
+      "t", "that", "the", "their", "then", "there", "these",
+      "they", "this", "to", "was", "will", "with"
+    ]
+    # Builds an analyzer which removes words in the provided array.
+    def initialize(stop_words = ENGLISH_STOP_WORDS)
+      @stop_words = stop_words
+    end
+    # Filters LowerCaseTokenizer with StopFilter.
+    def token_stream(field, string)
+      return StopFilter.new(LowerCaseTokenizer.new(string), @stop_words)
+    end
+  end
+  # An Analyzer that filters LetterTokenizer with LowerCaseFilter.
+  class StandardAnalyzer < StopAnalyzer
+    def token_stream(field, string)
+      return StopFilter.new(LowerCaseFilter.new(StandardTokenizer.new(string)), @stop_words)
+    end
+  end
+  # This analyzer is used to facilitate scenarios where different
+  # fields require different analysis techniques.  Use #add_analyzer
+  # to add a non-default analyzer on a field name basis.
+  # See tc_per_field_analyzer_wrapper for example usage.
+  class PerFieldAnalyzerWrapper < Analyzer
+    # Constructs with default analyzer.
+    #
+    # default_analyzer:: Any fields not specifically defined to use a
+    #                    different analyzer will use the one provided here.
+    def initialize(default_analyzer)
+      @default_analyzer = default_analyzer
+      @analyzers = {}
+    end
+    # Defines an analyzer to use for the specified field.
+    #
+    # field:: field name requiring a non-default analyzer.
+    # analyzer:: non-default analyzer to use for field
+    def add_analyzer(field, analyzer)
+      @analyzers[field] = analyzer
+    end
+    def token_stream(field, string)
+      analyzer = @analyzers[field]
+      if (analyzer == nil)
+        analyzer = @default_analyzer;
+      end
+      return analyzer.token_stream(field, string)
+    end
+  end
+end