RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/lib/ferret/number_tools.rb ADDED Viewed

@@ -0,0 +1,157 @@
+require 'date'
+require 'time'
+class Float
+  # Return true if the float is within +precision+ of the other value +o+. This
+  # is used to accomodate for floating point errors.
+  #
+  # o::         value to compare with
+  # precision:: the precision to use in the comparison.
+  # return::    true if the match is within +precision+
+  def =~(o, precision = 0.0000000001)
+    return (1 - self/o).abs < precision
+  end
+end
+# Provides support for converting integers to Strings, and back again. The
+# strings are structured so that lexicographic sorting order is preserved.
+#
+# That is, if integer1 is less than integer2 for any two integers integer1 and
+# integer2, then integer1.to_s_lex is lexicographically less than
+# integer2.to_s_lex. (Similarly for "greater than" and "equals".)
+#
+# This class handles numbers between - 10 ** 10,000 and 10 ** 10,000
+# which should cover all practical numbers. If you need bigger numbers,
+# increase Integer::LEN_STR_SIZE.
+class Integer
+  # LEN_SIZE of 4 should handle most numbers that can practically be held in
+  # memory.
+  LEN_STR_SIZE = 4
+  NEG_LEN_MASK = 10 ** LEN_STR_SIZE
+  LEN_STR_TEMPLATE = "%0#{LEN_STR_SIZE}d"
+  # Convert the number to a lexicographically sortable string. This string will
+  # use printable characters only but will not be human readable.
+  def to_s_lex
+    if (self >= 0)
+      num_str = self.to_s
+      len_str = LEN_STR_TEMPLATE % num_str.size
+      return len_str + num_str
+    else
+      num = self * -1
+      num_str = num.to_s
+      num_len = num_str.size
+      len_str = LEN_STR_TEMPLATE % (NEG_LEN_MASK - num_len)
+      num = (10 ** num_str.size) - num
+      return "-#{len_str}%0#{num_len}d" % num
+    end
+  end
+  # Convert the number to a lexicographically sortable string by padding with
+  # 0s. You should make sure that you set the width to a number large enough to
+  # accomodate all possible values. Also note that this method will not work
+  # with negative numbers. That is negative numbers will sort in the opposite
+  # direction as positive numbers. If you have very large numbers or a mix of
+  # positive and negative numbers you should use the Integer#to_s_lex method
+  #
+  # width::  number of characters in the string returned. Default is 10. So
+  #          123.to_s_pad(5) => 00123 and -123.to_s_pad(5) => -0123
+  # return:: padding string representation of the number.
+  def to_s_pad(width = 10)
+    "%#{width}d" % self
+  end
+end
+class Date
+  # Convert the Date to a lexicographically sortable string with the required
+  # precision. The format used is %Y%m%d
+  #
+  # precision:: the precision required in the string version of the date. The
+  #             options are :year, :month and :day
+  # return::    a lexicographically sortable string representing the date
+  def to_s_lex(precision = :day)
+    self.strftime(Time::LEX_FORMAT[precision])
+  end
+end
+class DateTime
+  # Convert the DateTime to a lexicographically sortable string with the
+  # required precision. The format used is %Y%m%d %H:%M:%S.
+  #
+  # precision:: the precision required in the string version of the date. The
+  #             options are :year, :month, :day, :hour, :minute and :second
+  # return::    a lexicographically sortable string representing the date
+  def to_s_lex(precision = :day)
+    self.strftime(Time::LEX_FORMAT[precision])
+  end
+end
+class Time
+  LEX_FORMAT = {
+      :year        => "%Y",
+      :month       => "%Y-%m",
+      :day         => "%Y-%m-%d",
+      :hour        => "%Y-%m-%d %H",
+      :minute      => "%Y-%m-%d %H:%M",
+      :second      => "%Y-%m-%d %H:%M:%S",
+      :millisecond => "%Y-%m-%d %H:%M:%S"
+  }
+  # Convert the Time to a lexicographically sortable string with the required
+  # precision. The format used is %Y%m%d %H:%M:%S.
+  #
+  # precision:: the precision required in the string version of the time. The
+  #             options are :year, :month, :day, :hour, :minute and :second
+  # return::    a lexicographically sortable string representing the date
+  def to_s_lex(precision = :day)
+    self.strftime(LEX_FORMAT[precision])
+  end
+end
+class String
+  # Convert a string to an integer. This method will only work on strings that
+  # were previously created with Integer#to_s_lex, otherwise the result will be
+  # unpredictable.
+  def to_i_lex
+    if (self[0] == ?-)
+      return self[(Integer::LEN_STR_SIZE + 1)..-1].to_i -
+        10 ** (self.size - Integer::LEN_STR_SIZE - 1)
+    else
+      return self[Integer::LEN_STR_SIZE..-1].to_i
+    end
+  end
+  # Convert a string to a Time. This method will only work on strings that
+  # match the format %Y%m%d %H%M%S, otherwise the result will be unpredictable.
+  def to_time_lex
+    vals = []
+    self.gsub(/(?:^|[- :])(\d+)/) {vals << $1.to_i; $&}
+    Time.mktime(*vals)
+  end
+  # Convert a string to a Date. This method will only work on strings that
+  # match the format %Y%m%d %H%M%S, otherwise the result will be unpredictable.
+  def to_date_lex
+    return Date.strptime(self + "-02-01", "%Y-%m-%d")
+  end
+  # Convert a string to a DateTime. This method will only work on strings that
+  # match the format %Y%m%d %H%M%S, otherwise the result will be unpredictable.
+  def to_date_time_lex
+    return DateTime.strptime(self + "-01-01", "%Y-%m-%d %H:%M:%S")
+  end
+  private
+  def get_lex_format(len)
+    case len
+    when  0.. 3: ""
+    when  4.. 5: "%Y"
+    when  6.. 7: "%Y%m"
+    when  8.. 9: "%Y%m%d"
+    when 10..11: "%Y%m%d%H"
+    when 12..13: "%Y%m%d%H%M"
+    else "%Y%m%d%H%M%S"
+    end
+  end
+end

data/lib/ferret_version.rb ADDED Viewed

@@ -0,0 +1,3 @@
+module Ferret
+  VERSION = '0.9.4'
+end

data/test/test_helper.rb CHANGED Viewed

@@ -9,20 +9,12 @@ class Float
 end
 require 'test/unit'
-require 'unit/index/th_doc'
-if $ferret_pure_ruby
-  require 'rferret'
-else
-  require 'ferret'
-end
+require 'ferret'
+require 'unit/index/th_doc' if (defined?(IndexTestHelper).nil?)
 def load_test_dir(dir)
-  dir = File.join(File.dirname(__FILE__), dir)
-  Dir.foreach(dir) do |file|
-    if $ferret_pure_ruby
-      require File.join(dir, file) if file =~ /^r?t[mcs]_.*\.rb$/
-    else
-      require File.join(dir, file) if file =~ /^c?t[mcs]_.*\.rb$/
-    end
+  Dir[File.join(File.dirname(__FILE__), dir, "t[scm]*.rb")].each do |file|
+    require file
   end
 end

data/test/unit/analysis/tc_analyzer.rb CHANGED Viewed

@@ -3,10 +3,11 @@ require File.dirname(__FILE__) + "/../../test_helper"
 class AnalyzerTest < Test::Unit::TestCase
   include Ferret::Analysis
-  def test_analyzer()
+  def test_c_analyzer()
     input = 'DBalmain@gmail.com is My E-Mail 523@#$ ADDRESS. 23#@$'
     a = Analyzer.new()
     t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
     assert_equal(Token.new("dbalmain", 0, 8), t.next())
     assert_equal(Token.new("gmail", 9, 14), t.next())
     assert_equal(Token.new("com", 15, 18), t.next())
@@ -16,5 +17,516 @@ class AnalyzerTest < Test::Unit::TestCase
     assert_equal(Token.new("mail", 27, 31), t.next())
     assert_equal(Token.new("address", 39, 46), t.next())
     assert(! t.next())
+    assert_equal(Token.new("dbalmain", 0, 8), t2.next())
+    assert_equal(Token.new("gmail", 9, 14), t2.next())
+    assert_equal(Token.new("com", 15, 18), t2.next())
+    assert_equal(Token.new("is", 19, 21), t2.next())
+    assert_equal(Token.new("my", 22, 24), t2.next())
+    assert_equal(Token.new("e", 25, 26), t2.next())
+    assert_equal(Token.new("mail", 27, 31), t2.next())
+    assert_equal(Token.new("address", 39, 46), t2.next())
+    assert(! t2.next())
+    a = Analyzer.new(false)
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new("DBalmain", 0, 8), t.next())
+    assert_equal(Token.new("gmail", 9, 14), t.next())
+    assert_equal(Token.new("com", 15, 18), t.next())
+    assert_equal(Token.new("is", 19, 21), t.next())
+    assert_equal(Token.new("My", 22, 24), t.next())
+    assert_equal(Token.new("E", 25, 26), t.next())
+    assert_equal(Token.new("Mail", 27, 31), t.next())
+    assert_equal(Token.new("ADDRESS", 39, 46), t.next())
+    assert(! t.next())
+  end
+end
+class AsciiLetterAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_letter_analyzer()
+    input = 'DBalmain@gmail.com is My E-Mail 523@#$ ADDRESS. 23#@$'
+    a = AsciiLetterAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new("dbalmain", 0, 8), t.next())
+    assert_equal(Token.new("gmail", 9, 14), t.next())
+    assert_equal(Token.new("com", 15, 18), t.next())
+    assert_equal(Token.new("is", 19, 21), t.next())
+    assert_equal(Token.new("my", 22, 24), t.next())
+    assert_equal(Token.new("e", 25, 26), t.next())
+    assert_equal(Token.new("mail", 27, 31), t.next())
+    assert_equal(Token.new("address", 39, 46), t.next())
+    assert(! t.next())
+    assert_equal(Token.new("dbalmain", 0, 8), t2.next())
+    assert_equal(Token.new("gmail", 9, 14), t2.next())
+    assert_equal(Token.new("com", 15, 18), t2.next())
+    assert_equal(Token.new("is", 19, 21), t2.next())
+    assert_equal(Token.new("my", 22, 24), t2.next())
+    assert_equal(Token.new("e", 25, 26), t2.next())
+    assert_equal(Token.new("mail", 27, 31), t2.next())
+    assert_equal(Token.new("address", 39, 46), t2.next())
+    assert(! t2.next())
+    a = AsciiLetterAnalyzer.new(false)
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new("DBalmain", 0, 8), t.next())
+    assert_equal(Token.new("gmail", 9, 14), t.next())
+    assert_equal(Token.new("com", 15, 18), t.next())
+    assert_equal(Token.new("is", 19, 21), t.next())
+    assert_equal(Token.new("My", 22, 24), t.next())
+    assert_equal(Token.new("E", 25, 26), t.next())
+    assert_equal(Token.new("Mail", 27, 31), t.next())
+    assert_equal(Token.new("ADDRESS", 39, 46), t.next())
+    assert(! t.next())
+  end
+end
+class LetterAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_letter_analyzer()
+    Ferret.locale = ""
+    input = 'DBalmän@gmail.com is My e-mail 52   #$ address. 23#@$ ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ'
+    a = LetterAnalyzer.new(false)
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new("DBalmän", 0, 8), t.next)
+    assert_equal(Token.new("gmail", 9, 14), t.next)
+    assert_equal(Token.new("com", 15, 18), t.next)
+    assert_equal(Token.new("is", 19, 21), t.next)
+    assert_equal(Token.new("My", 22, 24), t.next)
+    assert_equal(Token.new("e", 25, 26), t.next)
+    assert_equal(Token.new("mail", 27, 31), t.next)
+    assert_equal(Token.new("address", 40, 47), t.next)
+    assert_equal(Token.new("ÁÄGÇ", 55, 62), t.next)
+    assert_equal(Token.new("ÊËÌ", 64, 70), t.next)
+    assert_equal(Token.new("ÚØÃ", 72, 78), t.next)
+    assert_equal(Token.new("ÖÎÍ", 80, 86), t.next)
+    assert(! t.next())
+    assert_equal(Token.new("DBalmän", 0, 8), t2.next)
+    assert_equal(Token.new("gmail", 9, 14), t2.next)
+    assert_equal(Token.new("com", 15, 18), t2.next)
+    assert_equal(Token.new("is", 19, 21), t2.next)
+    assert_equal(Token.new("My", 22, 24), t2.next)
+    assert_equal(Token.new("e", 25, 26), t2.next)
+    assert_equal(Token.new("mail", 27, 31), t2.next)
+    assert_equal(Token.new("address", 40, 47), t2.next)
+    assert_equal(Token.new("ÁÄGÇ", 55, 62), t2.next)
+    assert_equal(Token.new("ÊËÌ", 64, 70), t2.next)
+    assert_equal(Token.new("ÚØÃ", 72, 78), t2.next)
+    assert_equal(Token.new("ÖÎÍ", 80, 86), t2.next)
+    assert(! t2.next())
+    a = LetterAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new("dbalmän", 0, 8), t.next)
+    assert_equal(Token.new("gmail", 9, 14), t.next)
+    assert_equal(Token.new("com", 15, 18), t.next)
+    assert_equal(Token.new("is", 19, 21), t.next)
+    assert_equal(Token.new("my", 22, 24), t.next)
+    assert_equal(Token.new("e", 25, 26), t.next)
+    assert_equal(Token.new("mail", 27, 31), t.next)
+    assert_equal(Token.new("address", 40, 47), t.next)
+    assert_equal(Token.new("áägç", 55, 62), t.next)
+    assert_equal(Token.new("êëì", 64, 70), t.next)
+    assert_equal(Token.new("úøã", 72, 78), t.next)
+    assert_equal(Token.new("öîí", 80, 86), t.next)
+    assert(! t.next())
+  end
+end
+class AsciiWhiteSpaceAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_white_space_analyzer()
+    input = 'DBalmain@gmail.com is My E-Mail 52   #$ ADDRESS. 23#@$'
+    a = AsciiWhiteSpaceAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('DBalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('E-Mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('ADDRESS.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert(! t.next())
+    assert_equal(Token.new('DBalmain@gmail.com', 0, 18), t2.next)
+    assert_equal(Token.new('is', 19, 21), t2.next)
+    assert_equal(Token.new('My', 22, 24), t2.next)
+    assert_equal(Token.new('E-Mail', 25, 31), t2.next)
+    assert_equal(Token.new('52', 32, 34), t2.next)
+    assert_equal(Token.new('#$', 37, 39), t2.next)
+    assert_equal(Token.new('ADDRESS.', 40, 48), t2.next)
+    assert_equal(Token.new('23#@$', 49, 54), t2.next)
+    assert(! t2.next())
+    a = AsciiWhiteSpaceAnalyzer.new(true)
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('address.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert(! t.next())
+  end
+end
+class WhiteSpaceAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_white_space_analyzer()
+    input = 'DBalmän@gmail.com is My e-mail 52   #$ address. 23#@$ ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ'
+    a = WhiteSpaceAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('DBalmän@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('address.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert_equal(Token.new('ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ', 55, 86), t.next)
+    assert(! t.next())
+    assert_equal(Token.new('DBalmän@gmail.com', 0, 18), t2.next)
+    assert_equal(Token.new('is', 19, 21), t2.next)
+    assert_equal(Token.new('My', 22, 24), t2.next)
+    assert_equal(Token.new('e-mail', 25, 31), t2.next)
+    assert_equal(Token.new('52', 32, 34), t2.next)
+    assert_equal(Token.new('#$', 37, 39), t2.next)
+    assert_equal(Token.new('address.', 40, 48), t2.next)
+    assert_equal(Token.new('23#@$', 49, 54), t2.next)
+    assert_equal(Token.new('ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ', 55, 86), t2.next)
+    assert(! t2.next())
+    a = WhiteSpaceAnalyzer.new(true)
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmän@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('address.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert_equal(Token.new('áägç®êëì¯úøã¬öîí', 55, 86), t.next)
+    assert(! t.next())
+  end
+end
+class AsciiStandardAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_standard_analyzer()
+    input = 'DBalmain@gmail.com is My e-mail 52   #$ Address. 23#@$ http://www.google.com/results/ T.N.T. 123-1235-ASD-1234'
+    a = AsciiStandardAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t.next)
+    assert_equal(Token.new('tnt', 86, 91), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t.next)
+    assert(! t.next())
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t2.next)
+    assert_equal(Token.new('e-mail', 25, 31), t2.next)
+    assert_equal(Token.new('52', 32, 34), t2.next)
+    assert_equal(Token.new('address', 40, 47), t2.next)
+    assert_equal(Token.new('23', 49, 51), t2.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t2.next)
+    assert_equal(Token.new('tnt', 86, 91), t2.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t2.next)
+    assert(! t2.next())
+    a = AsciiStandardAnalyzer.new(false)
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('DBalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('Address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t.next)
+    assert_equal(Token.new('TNT', 86, 91), t.next)
+    assert_equal(Token.new('123-1235-ASD-1234', 93, 110), t.next)
+    assert(! t.next())
+  end
+end
+class StandardAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_standard_analyzer()
+    input = 'DBalmán@gmail.com is My e-mail and the Address. 23#@$ http://www.google.com/results/ T.N.T. 123-1235-ASD-1234 23#@$ ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ'
+    a = StandardAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmán@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t.next)
+    assert_equal(Token.new('tnt', 86, 91), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t.next)
+    assert_equal(Token.new('23', 111, 113), t.next)
+    assert_equal(Token.new('áägç', 117, 124), t.next)
+    assert_equal(Token.new('êëì', 126, 132), t.next)
+    assert_equal(Token.new('úøã', 134, 140), t.next)
+    assert_equal(Token.new('öîí', 142, 148), t.next)
+    assert(! t.next())
+    assert_equal(Token.new('dbalmán@gmail.com', 0, 18), t2.next)
+    assert_equal(Token.new('e-mail', 25, 31), t2.next)
+    assert_equal(Token.new('address', 40, 47), t2.next)
+    assert_equal(Token.new('23', 49, 51), t2.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t2.next)
+    assert_equal(Token.new('tnt', 86, 91), t2.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t2.next)
+    assert_equal(Token.new('23', 111, 113), t2.next)
+    assert_equal(Token.new('áägç', 117, 124), t2.next)
+    assert_equal(Token.new('êëì', 126, 132), t2.next)
+    assert_equal(Token.new('úøã', 134, 140), t2.next)
+    assert_equal(Token.new('öîí', 142, 148), t2.next)
+    assert(! t2.next())
+    a = StandardAnalyzer.new(nil, false)
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new('DBalmán@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('Address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t.next)
+    assert_equal(Token.new('TNT', 86, 91), t.next)
+    assert_equal(Token.new('123-1235-ASD-1234', 93, 110), t.next)
+    assert_equal(Token.new('23', 111, 113), t.next)
+    assert_equal(Token.new('ÁÄGÇ', 117, 124), t.next)
+    assert_equal(Token.new('ÊËÌ', 126, 132), t.next)
+    assert_equal(Token.new('ÚØÃ', 134, 140), t.next)
+    assert_equal(Token.new('ÖÎÍ', 142, 148), t.next)
+    assert(! t.next())
+    a = StandardAnalyzer.new(["e-mail", "23", "tnt"])
+    t = a.token_stream("fieldname", input)
+    t2 = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmán@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('and', 32, 35), t.next)
+    assert_equal(Token.new('the', 36, 39), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t.next)
+    assert_equal(Token.new('áägç', 117, 124), t.next)
+    assert_equal(Token.new('êëì', 126, 132), t.next)
+    assert_equal(Token.new('úøã', 134, 140), t.next)
+    assert_equal(Token.new('öîí', 142, 148), t.next)
+    assert(! t.next())
+    assert_equal(Token.new('dbalmán@gmail.com', 0, 18), t2.next)
+    assert_equal(Token.new('is', 19, 21), t2.next)
+    assert_equal(Token.new('my', 22, 24), t2.next)
+    assert_equal(Token.new('and', 32, 35), t2.next)
+    assert_equal(Token.new('the', 36, 39), t2.next)
+    assert_equal(Token.new('address', 40, 47), t2.next)
+    assert_equal(Token.new('www.google.com/results', 55, 84), t2.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t2.next)
+    assert_equal(Token.new('áägç', 117, 124), t2.next)
+    assert_equal(Token.new('êëì', 126, 132), t2.next)
+    assert_equal(Token.new('úøã', 134, 140), t2.next)
+    assert_equal(Token.new('öîí', 142, 148), t2.next)
+    assert(! t2.next())
+  end
+end
+class PerFieldAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_c_per_field_analyzer()
+    input = 'DBalmain@gmail.com is My e-mail 52   #$ address. 23#@$'
+    pfa = PerFieldAnalyzer.new(StandardAnalyzer.new())
+    pfa['white'] = WhiteSpaceAnalyzer.new(false)
+    pfa['white_l'] = WhiteSpaceAnalyzer.new(true)
+    pfa['letter'] = LetterAnalyzer.new(false)
+    pfa.add_field('letter', LetterAnalyzer.new(true))
+    pfa.add_field('letter_u', LetterAnalyzer.new(false))
+    t = pfa.token_stream('white', input)
+    assert_equal(Token.new('DBalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('address.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert(! t.next())
+    t = pfa.token_stream('white_l', input)
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('#$', 37, 39), t.next)
+    assert_equal(Token.new('address.', 40, 48), t.next)
+    assert_equal(Token.new('23#@$', 49, 54), t.next)
+    assert(! t.next())
+    t = pfa.token_stream('letter_u', input)
+    assert_equal(Token.new('DBalmain', 0, 8), t.next)
+    assert_equal(Token.new('gmail', 9, 14), t.next)
+    assert_equal(Token.new('com', 15, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('e', 25, 26), t.next)
+    assert_equal(Token.new('mail', 27, 31), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert(! t.next())
+    t = pfa.token_stream('letter', input)
+    assert_equal(Token.new('dbalmain', 0, 8), t.next)
+    assert_equal(Token.new('gmail', 9, 14), t.next)
+    assert_equal(Token.new('com', 15, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e', 25, 26), t.next)
+    assert_equal(Token.new('mail', 27, 31), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert(! t.next())
+    t = pfa.token_stream('XXX', input) # should use default StandardAnalzyer
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert(! t.next())
+  end
+end
+class RegExpAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_reg_exp_analyzer()
+    input = 'DBalmain@gmail.com is My e-mail 52   #$ Address. 23#@$ http://www.google.com/RESULT_3.html T.N.T. 123-1235-ASD-1234 23 Rob\'s'
+    a = RegExpAnalyzer.new()
+    t = a.token_stream('XXX', input)
+    t2 = a.token_stream('XXX', "one_Two three")
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('http://www.google.com/result_3.html', 55, 90), t.next)
+    assert_equal(Token.new('t.n.t.', 91, 97), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 98, 115), t.next)
+    assert_equal(Token.new('23', 116, 118), t.next)
+    assert_equal(Token.new('rob\'s', 119, 124), t.next)
+    assert(! t.next())
+    t = t2
+    assert_equal(Token.new("one_two", 0, 7), t.next())
+    assert_equal(Token.new("three", 8, 13), t.next())
+    assert(! t.next())
+    a = RegExpAnalyzer.new(/\w{2,}/, false)
+    t = a.token_stream('XXX', input)
+    t2 = a.token_stream('XXX', "one Two three")
+    assert_equal(Token.new('DBalmain', 0, 8), t.next)
+    assert_equal(Token.new('gmail', 9, 14), t.next)
+    assert_equal(Token.new('com', 15, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('My', 22, 24), t.next)
+    assert_equal(Token.new('mail', 27, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('Address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('http', 55, 59), t.next)
+    assert_equal(Token.new('www', 62, 65), t.next)
+    assert_equal(Token.new('google', 66, 72), t.next)
+    assert_equal(Token.new('com', 73, 76), t.next)
+    assert_equal(Token.new('RESULT_3', 77, 85), t.next)
+    assert_equal(Token.new('html', 86, 90), t.next)
+    assert_equal(Token.new('123', 98, 101), t.next)
+    assert_equal(Token.new('1235', 102, 106), t.next)
+    assert_equal(Token.new('ASD', 107, 110), t.next)
+    assert_equal(Token.new('1234', 111, 115), t.next)
+    assert_equal(Token.new('23', 116, 118), t.next)
+    assert_equal(Token.new('Rob', 119, 122), t.next)
+    assert(! t.next())
+    assert_equal(Token.new("one", 0, 3), t2.next())
+    assert_equal(Token.new("Two", 4, 7), t2.next())
+    assert_equal(Token.new("three", 8, 13), t2.next())
+    assert(! t2.next())
+    a = RegExpAnalyzer.new() do |str|
+      if str =~ /^[[:alpha:]]\.([[:alpha:]]\.)+$/
+        str.gsub!(/\./, '')
+      elsif str =~ /'[sS]$/
+        str.gsub!(/'[sS]$/, '')
+      end
+      str
+    end
+    t = a.token_stream('XXX', input)
+    t2 = a.token_stream('XXX', "one's don't T.N.T.")
+    assert_equal(Token.new('dbalmain@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('is', 19, 21), t.next)
+    assert_equal(Token.new('my', 22, 24), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('52', 32, 34), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('http://www.google.com/result_3.html', 55, 90), t.next)
+    assert_equal(Token.new('tnt', 91, 97), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 98, 115), t.next)
+    assert_equal(Token.new('23', 116, 118), t.next)
+    assert_equal(Token.new('rob', 119, 124), t.next)
+    assert(! t.next())
+    assert_equal(Token.new("one", 0, 5), t2.next())
+    assert_equal(Token.new("don't", 6, 11), t2.next())
+    assert_equal(Token.new("tnt", 12, 18), t2.next())
+    assert(! t2.next())
+  end
+end
+module Ferret::Analysis
+  class StemmingStandardAnalyzer < StandardAnalyzer
+    def token_stream(field, text)
+      StemFilter.new(super)
+    end
+  end
+end
+class CustomAnalyzerTest < Test::Unit::TestCase
+  include Ferret::Analysis
+  def test_custom_filter()
+    input = 'DBalmán@gmail.com is My e-mail and the Address. 23#@$ http://www.google.com/results/ T.N.T. 123-1235-ASD-1234 23#@$ ÁÄGÇ®ÊËÌ¯ÚØÃ¬ÖÎÍ'
+    a = StemmingStandardAnalyzer.new()
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new('dbalmán@gmail.com', 0, 18), t.next)
+    assert_equal(Token.new('e-mail', 25, 31), t.next)
+    assert_equal(Token.new('address', 40, 47), t.next)
+    assert_equal(Token.new('23', 49, 51), t.next)
+    assert_equal(Token.new('www.google.com/result', 55, 84), t.next)
+    assert_equal(Token.new('tnt', 86, 91), t.next)
+    assert_equal(Token.new('123-1235-asd-1234', 93, 110), t.next)
+    assert_equal(Token.new('23', 111, 113), t.next)
+    assert_equal(Token.new('áägç', 117, 124), t.next)
+    assert_equal(Token.new('êëì', 126, 132), t.next)
+    assert_equal(Token.new('úøã', 134, 140), t.next)
+    assert_equal(Token.new('öîí', 142, 148), t.next)
+    assert(! t.next())
+    input = "Debate Debates DEBATED DEBating Debater";
+    t = a.token_stream("fieldname", input)
+    assert_equal(Token.new("debat", 0, 6), t.next)
+    assert_equal(Token.new("debat", 7, 14), t.next)
+    assert_equal(Token.new("debat", 15, 22), t.next)
+    assert_equal(Token.new("debat", 23, 31), t.next)
+    assert_equal(Token.new("debat", 32, 39), t.next)
+    assert(! t.next())
+    input = "Dêbate dêbates DÊBATED DÊBATing dêbater";
+    t = StemFilter.new(LowerCaseFilter.new(LetterTokenizer.new(input)), :english)
+    assert_equal(Token.new("dêbate", 0, 7), t.next)
+    assert_equal(Token.new("dêbate", 8, 16), t.next)
+    assert_equal(Token.new("dêbate", 17, 25), t.next)
+    assert_equal(Token.new("dêbate", 26, 35), t.next)
+    assert_equal(Token.new("dêbater", 36, 44), t.next)
+    assert(! t.next())
   end
 end