RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/ext/w32_io.c DELETED Viewed

@@ -1,150 +0,0 @@
-#ifdef WIN32
-#include "global.h"
-#include "store.h"
-#include <stdio.h>
-#include <io.h>
-#include <errno.h>
-#include <string.h>
-/**
- * Create a filepath for a file in the store using the operating systems
- * default file seperator.
- */
-char *join_path(char *buf, const char *base, const char *filename)
-{
-  sprintf(buf, "%s\\%s", base, filename);
-  return buf;
-}
-bool exists(char *path)
-{
-  int fd = _open(path, 0);
-  if (fd < 0) {
-    if (errno != ENOENT) {
-      RAISE(IO_ERROR, strerror(errno));
-    }
-    return false;
-  }
-  _close(fd);
-  return true;
-}
-int fcount(char *path)
-{
-  char buf[MAX_FILE_PATH];
-  struct _finddata_t fd;
-  intptr_t d;
-  int cnt = 0;
-  join_path(buf, path, "*");
-  if ((d = _findfirst(buf, &fd)) < 0) {
-    RAISE(IO_ERROR, strerror(errno));
-  }
-  do {
-    if (fd.name[0] != '.') {
-      cnt++;
-    }
-  } while (_findnext(d, &fd) == 0);
-  _findclose(d);
-  return cnt;
-}
-void dir_each(char *path, void (*func)(char *fname, void *arg), void *arg)
-{
-  char buf[MAX_FILE_PATH];
-  struct _finddata_t fd;
-  intptr_t d;
-  join_path(buf, path, "*");
-  if ((d = _findfirst(buf, &fd)) < 0) {
-    RAISE(IO_ERROR, strerror(errno));
-  }
-  while (_findnext(d, &fd) == 0) {
-    if (fd.name[0] != '.' && !file_is_lock(fd.name)) {
-      func(fd.name, arg);
-    }
-  }
-  _findclose(d);
-}
-/**
- * Clear all the locks in the store.
- *
- * @param store the store to clear the locks from
- * @throws IO_ERROR if there is an error opening the directory
- */
-void fs_clear_locks(Store *store)
-{
-  char buf[MAX_FILE_PATH];
-  struct _finddata_t fd;
-  intptr_t d;
-  join_path(buf, store->dir.path, "*");
-  if ((d = _findfirst(buf, &fd)) < 0) {
-    RAISE(IO_ERROR, strerror(errno));
-  }
-  while (_findnext(d, &fd) == 0) {
-    if (file_is_lock(fd.name)) {
-      remove(join_path(buf, store->dir.path, fd.name));
-    }
-  }
-  _findclose(d);
-}
-/**
- * Clear all files from the store except the lock files.
- *
- * @param store the store to clear all the files from
- * @throws IO_ERROR if there is an error deleting the files
- */
-void fs_clear(Store *store)
-{
-  char buf[MAX_FILE_PATH];
-  struct _finddata_t fd;
-  intptr_t d;
-  join_path(buf, store->dir.path, "*");
-  if ((d = _findfirst(buf, &fd)) < 0) {
-    RAISE(IO_ERROR, strerror(errno));
-  }
-  while (_findnext(d, &fd) == 0) {
-    if (fd.name[0] != '.' && !file_is_lock(fd.name)) {
-      remove(join_path(buf, store->dir.path, fd.name));
-    }
-  }
-  _findclose(d);
-}
-/**
- * Clear all files from the store including the lock files.
- *
- * @param store the store to clear all the files from
- * @throws IO_ERROR if there is an error deleting the files
- */
-void fs_clear_all(Store *store)
-{
-  char buf[MAX_FILE_PATH];
-  struct _finddata_t fd;
-  intptr_t d;
-  join_path(buf, store->dir.path, "*");
-  if ((d = _findfirst(buf, &fd)) < 0) {
-    RAISE(IO_ERROR, strerror(errno));
-  }
-  while (_findnext(d, &fd) == 0) {
-    if (fd.name[0] != '.') {
-      remove(join_path(buf, store->dir.path, fd.name));
-    }
-  }
-  _findclose(d);
-}
-#endif

data/lib/ferret/analysis.rb DELETED Viewed

@@ -1,11 +0,0 @@
-# Documentation for Analysis
-module Ferret::Analysis
-end
-require 'ferret/analysis/token'
-require 'ferret/analysis/token_stream'
-require 'ferret/analysis/tokenizers'
-require 'ferret/analysis/standard_tokenizer'
-require 'ferret/analysis/token_filters'
-require 'ferret/analysis/word_list_loader'
-require 'ferret/analysis/analyzers'

data/lib/ferret/analysis/analyzers.rb DELETED Viewed

@@ -1,112 +0,0 @@
-module Ferret::Analysis
-  # An Analyzer builds TokenStreams, which analyze text.  It thus represents
-  # a policy for extracting index terms from text.
-  #
-  # Typical implementations first build a Tokenizer, which breaks the stream
-  # of characters from the Reader into raw Tokens. One or more TokenFilter s
-  # may then be applied to the output of the Tokenizer.
-  #
-  # The default Analyzer just creates a LowerCaseTokenizer which converts
-  # all text to lowercase tokens. See LowerCaseTokenizer for more details.
-  class Analyzer
-    # Creates a TokenStream which tokenizes all the text in the provided
-    # Reader. Override to allow Analyzer to choose strategy based on
-    # document and/or field.
-    # string:: the string representing the text in the field
-    # field:: name of the field. Not required.
-    def token_stream(field, string)
-      return LowerCaseTokenizer.new(string)
-    end
-    # Invoked before indexing a Field instance if
-    # terms have already been added to that field.  This allows custom
-    # analyzers to place an automatic position increment gap between
-    # Field instances using the same field name.  The default value
-    # position increment gap is 0.  With a 0 position increment gap and
-    # the typical default token position increment of 1, all terms in a field,
-    # including across Field instances, are in successive positions, allowing
-    # exact PhraseQuery matches, for instance, across Field instance boundaries.
-    #
-    # field_name::             Field name being indexed.
-    # pos_inc_gap:: added to the next token emitted from
-    #                          #token_stream(String,Reader)
-    #
-    def pos_inc_gap(field_name)
-      return 0
-    end
-  end
-  # An Analyzer that uses WhiteSpaceTokenizer.
-  class WhiteSpaceAnalyzer < Analyzer
-    def token_stream(field, string)
-      return WhiteSpaceTokenizer.new(string)
-    end
-  end
-  # Filters LetterTokenizer with LowerCaseFilter and StopFilter.
-  class StopAnalyzer < Analyzer
-    # An array containing some common English words that are not usually useful
-    # for searching.
-    ENGLISH_STOP_WORDS = [
-      "a", "an", "and", "are", "as", "at", "be", "but", "by", "for", "if",
-      "in", "into", "is", "it", "no", "not", "of", "on", "or", "s", "such",
-      "t", "that", "the", "their", "then", "there", "these",
-      "they", "this", "to", "was", "will", "with"
-    ]
-    # Builds an analyzer which removes words in the provided array.
-    def initialize(stop_words = ENGLISH_STOP_WORDS)
-      @stop_words = stop_words
-    end
-    # Filters LowerCaseTokenizer with StopFilter.
-    def token_stream(field, string)
-      return StopFilter.new(LowerCaseTokenizer.new(string), @stop_words)
-    end
-  end
-  # An Analyzer that filters LetterTokenizer with LowerCaseFilter.
-  # This analyzer subclasses the StopAnalyzer so you can add your own
-  # stoplist the same way. See StopAnalyzer.
-  class StandardAnalyzer < StopAnalyzer
-    def token_stream(field, string)
-      return StopFilter.new(LowerCaseFilter.new(StandardTokenizer.new(string)), @stop_words)
-    end
-  end
-  # This analyzer is used to facilitate scenarios where different
-  # fields require different analysis techniques.  Use #add_analyzer
-  # to add a non-default analyzer on a field name basis.
-  # See tc_per_field_analyzer_wrapper for example usage.
-  class PerFieldAnalyzerWrapper < Analyzer
-    # Constructs with default analyzer.
-    #
-    # default_analyzer:: Any fields not specifically defined to use a
-    #                    different analyzer will use the one provided here.
-    def initialize(default_analyzer)
-      @default_analyzer = default_analyzer
-      @analyzers = {}
-    end
-    # Defines an analyzer to use for the specified field.
-    #
-    # field:: field name requiring a non-default analyzer.
-    # analyzer:: non-default analyzer to use for field
-    def add_analyzer(field, analyzer)
-      @analyzers[field] = analyzer
-    end
-    def token_stream(field, string)
-      analyzer = @analyzers[field]
-      if (analyzer == nil)
-        analyzer = @default_analyzer
-      end
-      return analyzer.token_stream(field, string)
-    end
-  end
-end

data/lib/ferret/analysis/standard_tokenizer.rb DELETED Viewed

@@ -1,71 +0,0 @@
-if __FILE__ == $0
-  module Ferret
-  end
-  $:.unshift File.dirname(__FILE__)
-  require 'token_stream'
-  require 'tokenizers'
-  require 'token'
-end
-module Ferret::Analysis
-  # The standard tokenizer is an advanced tokenizer which tokenizes morst
-  # words correctly as well as tokenizing things like email addresses, web
-  # addresses, phone numbers, etc.
-  class StandardTokenizer < RegExpTokenizer
-    ALPHA      = /[[:alpha:]_-]+/
-    APOSTROPHE = /#{ALPHA}('#{ALPHA})+/
-    ACRONYM    = /#{ALPHA}\.(#{ALPHA}\.)+/
-    P          = /[_\/.,-]/
-    HASDIGIT   = /\w*\d\w*/
-    TOKEN_RE   = /#{ALPHA}+(('#{ALPHA}+)+
-                              |\.(#{ALPHA}\.)+
-                              |(@|\&)\w+([-.]\w+)*
-                              |:\/\/\w+([-.\/]\w+)*
-                              )
-                 |\w+(([\-._]\w+)*\@\w+([-.]\w+)+
-                     |#{P}#{HASDIGIT}(#{P}\w+#{P}#{HASDIGIT})*(#{P}\w+)?
-                     |(\.\w+)+
-                     |
-                     )
-                 /x
-    ACRONYM_WORD    = /^#{ACRONYM}$/
-    APOSTROPHE_WORD = /^#{APOSTROPHE}$/
-    DOT             = /\./
-    APOSTROPHE_S    = /'[sS]$/
-    protected
-      # Collects only characters which are not spaces tabs or carraige returns
-      def token_re()
-        #/#{NUM}|#{EMAIL}|#{ACRONYM}\w*|#{C0MPANY}|#{APOSTROPHE}|\w+/
-        # This is a simplified version of the original Lucene standard
-        # tokenizer.  I think it works better. I hope so anyway. Any way to
-        # do this more neatly?
-        TOKEN_RE
-      end
-      # stem the 's and remove the '.'s from acronyms
-      def normalize(str)
-        if str =~ ACRONYM_WORD
-          str.gsub!(DOT, '')
-        elsif str =~ APOSTROPHE_WORD
-          str.gsub!(APOSTROPHE_S, '')
-        end
-        str
-      end
-  end
-end
-# Add this so we can play around with the standard tokenizer
-if __FILE__ == $0
-  st = "\033[7m"
-  en = "\033[m"
-  $stdin.each do |line|
-    stk = Ferret::Analysis::StandardTokenizer.new(line)
-    while tk = stk.next()
-      puts "    <" + tk.text + "> from " + tk.start_offset.to_s + " to " + tk.end_offset.to_s
-    end
-  end
-end

data/lib/ferret/analysis/token.rb DELETED Viewed

@@ -1,100 +0,0 @@
-module Ferret::Analysis
-  # A Token is an occurence of a term from the text of a field.  It consists
-  # of a term's text, the start and end offset of the term in the text of the
-  # field, and a type string.
-  #
-  # The start and end offsets permit applications to re-associate a token with
-  # its source text, e.g., to display highlighted query terms in a document
-  # browser, or to show matching text fragments in a KWIC (KeyWord In Context)
-  # display, etc.
-  #
-  # The type is an interned string, assigned by a lexical analyzer (a.k.a.
-  # tokenizer), naming the lexical or syntactic class that the token belongs
-  # to.  For example an end of sentence marker token might be implemented with
-  # type "eos".  The default token type is "word".
-  #
-  # start_offset:: is the position of the first character corresponding to
-  #                this token in the source text
-  # end_offset:: is equal to one greater than the position of the last
-  #              character corresponding of this token Note that the
-  #              difference between @end_offset and @start_offset may not be
-  #              equal to @text.length(), as the term text may have been
-  #              altered by a stemmer or some other filter.
-  class Token
-    include Comparable
-    attr_accessor :text
-    attr_reader :pos_inc, :start_offset, :end_offset, :type
-    # Constructs a Token with the given term text, and start & end offsets.
-    # The type defaults to "word."
-    def initialize(txt, so, eo, pos_inc=1, typ="word")
-      @text = txt
-      @start_offset = so
-      @end_offset = eo
-      @type = typ # lexical type
-      @pos_inc = pos_inc
-    end
-    def set!(txt, so, eo)
-      @text = txt
-      @start_offset = so
-      @end_offset = eo
-      self
-    end
-    def eql?(o)
-      return (o.instance_of?(Token) and @start_offset == o.start_offset and
-              @end_offset == o.end_offset and @text == o.text)
-    end
-    alias :== :eql?
-    # Tokens are sorted by the position in the text at which they occur, ie
-    # the start_offset. If two tokens have the same start offset, (see
-    # pos_inc=) then, they are sorted by the end_offset and then
-    # lexically by the token text.
-    def <=>(o)
-      r = @start_offset <=> o.start_offset
-      return r if r != 0
-      r = @end_offset <=> o.end_offset
-      return r if r != 0
-      r = @text <=> o.text
-      return r
-    end
-    # Set the position increment.  This determines the position of this token
-    # relative to the previous Token in a TokenStream, used in phrase
-    # searching.
-    #
-    # The default value is one.
-    #
-    # Some common uses for this are:
-    #
-    # * Set it to zero to put multiple terms in the same position.  This is
-    #   useful if, e.g., a word has multiple stems.  Searches for phrases
-    #   including either stem will match.  In this case, all but the first
-    #   stem's increment should be set to zero: the increment of the first
-    #   instance should be one.  Repeating a token with an increment of zero
-    #   can also be used to boost the scores of matches on that token.
-    #
-    # * Set it to values greater than one to inhibit exact phrase matches.
-    #   If, for example, one does not want phrases to match across removed
-    #   stop words, then one could build a stop word filter that removes stop
-    #   words and also sets the increment to the number of stop words removed
-    #   before each non-stop word.  Then exact phrase queries will only match
-    #   when the terms occur with no intervening stop words.
-    def pos_inc=(pos_inc)
-      if (pos_inc < 0)
-        raise ArgumentError, "Increment must be zero or greater: " + pos_inc
-      end
-      @pos_inc = pos_inc
-    end
-    # Returns a string representation of the token with all the attributes.
-    def to_s
-      buf = "#{text}:#{start_offset}->#{end_offset}"
-      buf << "(pos_inc=#{@pos_inc})" if (@pos_inc != 1)
-      buf << "(type=#{@type})" if (@type != "word")
-      buf
-    end
-  end
-end