RubyGems - ferret - Versions diffs - 0.9.0 → 0.9.1 - Mend

ferret 0.9.0 → 0.9.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (187) hide show

data/Rakefile +23 -5
data/TODO +2 -1
data/ext/analysis.c +838 -177
data/ext/analysis.h +55 -7
data/ext/api.c +69 -0
data/ext/api.h +27 -0
data/ext/array.c +8 -5
data/ext/compound_io.c +132 -96
data/ext/document.c +58 -28
data/ext/except.c +59 -0
data/ext/except.h +88 -0
data/ext/ferret.c +47 -3
data/ext/ferret.h +3 -0
data/ext/field.c +15 -9
data/ext/filter.c +1 -1
data/ext/fs_store.c +215 -34
data/ext/global.c +72 -3
data/ext/global.h +4 -3
data/ext/hash.c +44 -3
data/ext/hash.h +9 -0
data/ext/header.h +58 -0
data/ext/inc/except.h +88 -0
data/ext/inc/lang.h +23 -13
data/ext/ind.c +16 -10
data/ext/index.h +2 -22
data/ext/index_io.c +3 -11
data/ext/index_rw.c +245 -193
data/ext/lang.h +23 -13
data/ext/libstemmer.c +92 -0
data/ext/libstemmer.h +79 -0
data/ext/modules.h +162 -0
data/ext/q_boolean.c +34 -21
data/ext/q_const_score.c +6 -12
data/ext/q_filtered_query.c +206 -0
data/ext/q_fuzzy.c +18 -15
data/ext/q_match_all.c +3 -7
data/ext/q_multi_phrase.c +10 -14
data/ext/q_parser.c +29 -2
data/ext/q_phrase.c +14 -21
data/ext/q_prefix.c +15 -12
data/ext/q_range.c +30 -28
data/ext/q_span.c +13 -21
data/ext/q_term.c +17 -26
data/ext/r_analysis.c +693 -21
data/ext/r_doc.c +11 -12
data/ext/r_index_io.c +4 -1
data/ext/r_qparser.c +21 -2
data/ext/r_search.c +285 -18
data/ext/ram_store.c +5 -2
data/ext/search.c +11 -17
data/ext/search.h +21 -45
data/ext/similarity.h +67 -0
data/ext/sort.c +30 -25
data/ext/stem_ISO_8859_1_danish.c +338 -0
data/ext/stem_ISO_8859_1_danish.h +16 -0
data/ext/stem_ISO_8859_1_dutch.c +635 -0
data/ext/stem_ISO_8859_1_dutch.h +16 -0
data/ext/stem_ISO_8859_1_english.c +1156 -0
data/ext/stem_ISO_8859_1_english.h +16 -0
data/ext/stem_ISO_8859_1_finnish.c +792 -0
data/ext/stem_ISO_8859_1_finnish.h +16 -0
data/ext/stem_ISO_8859_1_french.c +1276 -0
data/ext/stem_ISO_8859_1_french.h +16 -0
data/ext/stem_ISO_8859_1_german.c +512 -0
data/ext/stem_ISO_8859_1_german.h +16 -0
data/ext/stem_ISO_8859_1_italian.c +1091 -0
data/ext/stem_ISO_8859_1_italian.h +16 -0
data/ext/stem_ISO_8859_1_norwegian.c +296 -0
data/ext/stem_ISO_8859_1_norwegian.h +16 -0
data/ext/stem_ISO_8859_1_porter.c +776 -0
data/ext/stem_ISO_8859_1_porter.h +16 -0
data/ext/stem_ISO_8859_1_portuguese.c +1035 -0
data/ext/stem_ISO_8859_1_portuguese.h +16 -0
data/ext/stem_ISO_8859_1_spanish.c +1119 -0
data/ext/stem_ISO_8859_1_spanish.h +16 -0
data/ext/stem_ISO_8859_1_swedish.c +307 -0
data/ext/stem_ISO_8859_1_swedish.h +16 -0
data/ext/stem_KOI8_R_russian.c +701 -0
data/ext/stem_KOI8_R_russian.h +16 -0
data/ext/stem_UTF_8_danish.c +344 -0
data/ext/stem_UTF_8_danish.h +16 -0
data/ext/stem_UTF_8_dutch.c +653 -0
data/ext/stem_UTF_8_dutch.h +16 -0
data/ext/stem_UTF_8_english.c +1176 -0
data/ext/stem_UTF_8_english.h +16 -0
data/ext/stem_UTF_8_finnish.c +808 -0
data/ext/stem_UTF_8_finnish.h +16 -0
data/ext/stem_UTF_8_french.c +1296 -0
data/ext/stem_UTF_8_french.h +16 -0
data/ext/stem_UTF_8_german.c +526 -0
data/ext/stem_UTF_8_german.h +16 -0
data/ext/stem_UTF_8_italian.c +1113 -0
data/ext/stem_UTF_8_italian.h +16 -0
data/ext/stem_UTF_8_norwegian.c +302 -0
data/ext/stem_UTF_8_norwegian.h +16 -0
data/ext/stem_UTF_8_porter.c +794 -0
data/ext/stem_UTF_8_porter.h +16 -0
data/ext/stem_UTF_8_portuguese.c +1055 -0
data/ext/stem_UTF_8_portuguese.h +16 -0
data/ext/stem_UTF_8_russian.c +709 -0
data/ext/stem_UTF_8_russian.h +16 -0
data/ext/stem_UTF_8_spanish.c +1137 -0
data/ext/stem_UTF_8_spanish.h +16 -0
data/ext/stem_UTF_8_swedish.c +313 -0
data/ext/stem_UTF_8_swedish.h +16 -0
data/ext/stopwords.c +325 -0
data/ext/store.c +34 -2
data/ext/tags +2953 -0
data/ext/term.c +21 -15
data/ext/termdocs.c +5 -3
data/ext/utilities.c +446 -0
data/ext/vector.c +27 -13
data/lib/ferret/document/document.rb +1 -1
data/lib/ferret/index/index.rb +44 -6
data/lib/ferret/query_parser/query_parser.tab.rb +7 -3
data/lib/rferret.rb +2 -1
data/test/test_helper.rb +2 -2
data/test/unit/analysis/ctc_analyzer.rb +401 -0
data/test/unit/analysis/ctc_tokenstream.rb +423 -0
data/test/unit/analysis/{tc_letter_tokenizer.rb → rtc_letter_tokenizer.rb} +0 -0
data/test/unit/analysis/{tc_lower_case_filter.rb → rtc_lower_case_filter.rb} +0 -0
data/test/unit/analysis/{tc_lower_case_tokenizer.rb → rtc_lower_case_tokenizer.rb} +0 -0
data/test/unit/analysis/{tc_per_field_analyzer_wrapper.rb → rtc_per_field_analyzer_wrapper.rb} +0 -0
data/test/unit/analysis/{tc_porter_stem_filter.rb → rtc_porter_stem_filter.rb} +0 -0
data/test/unit/analysis/{tc_standard_analyzer.rb → rtc_standard_analyzer.rb} +0 -0
data/test/unit/analysis/{tc_standard_tokenizer.rb → rtc_standard_tokenizer.rb} +0 -0
data/test/unit/analysis/{tc_stop_analyzer.rb → rtc_stop_analyzer.rb} +0 -0
data/test/unit/analysis/{tc_stop_filter.rb → rtc_stop_filter.rb} +0 -0
data/test/unit/analysis/{tc_white_space_analyzer.rb → rtc_white_space_analyzer.rb} +0 -0
data/test/unit/analysis/{tc_white_space_tokenizer.rb → rtc_white_space_tokenizer.rb} +0 -0
data/test/unit/analysis/{tc_word_list_loader.rb → rtc_word_list_loader.rb} +0 -0
data/test/unit/analysis/tc_analyzer.rb +1 -2
data/test/unit/analysis/{c_token.rb → tc_token.rb} +0 -0
data/test/unit/document/rtc_field.rb +28 -0
data/test/unit/document/{c_document.rb → tc_document.rb} +0 -0
data/test/unit/document/tc_field.rb +82 -12
data/test/unit/index/{tc_compound_file_io.rb → rtc_compound_file_io.rb} +0 -0
data/test/unit/index/{tc_field_infos.rb → rtc_field_infos.rb} +0 -0
data/test/unit/index/{tc_fields_io.rb → rtc_fields_io.rb} +0 -0
data/test/unit/index/{tc_multiple_term_doc_pos_enum.rb → rtc_multiple_term_doc_pos_enum.rb} +0 -0
data/test/unit/index/{tc_segment_infos.rb → rtc_segment_infos.rb} +0 -0
data/test/unit/index/{tc_segment_term_docs.rb → rtc_segment_term_docs.rb} +0 -0
data/test/unit/index/{tc_segment_term_enum.rb → rtc_segment_term_enum.rb} +0 -0
data/test/unit/index/{tc_segment_term_vector.rb → rtc_segment_term_vector.rb} +0 -0
data/test/unit/index/{tc_term_buffer.rb → rtc_term_buffer.rb} +0 -0
data/test/unit/index/{tc_term_info.rb → rtc_term_info.rb} +0 -0
data/test/unit/index/{tc_term_infos_io.rb → rtc_term_infos_io.rb} +0 -0
data/test/unit/index/{tc_term_vectors_io.rb → rtc_term_vectors_io.rb} +0 -0
data/test/unit/index/{c_index.rb → tc_index.rb} +26 -6
data/test/unit/index/{c_index_reader.rb → tc_index_reader.rb} +0 -0
data/test/unit/index/{c_index_writer.rb → tc_index_writer.rb} +0 -0
data/test/unit/index/{c_term.rb → tc_term.rb} +0 -0
data/test/unit/index/{c_term_voi.rb → tc_term_voi.rb} +0 -0
data/test/unit/query_parser/{c_query_parser.rb → rtc_query_parser.rb} +14 -14
data/test/unit/query_parser/tc_query_parser.rb +24 -16
data/test/unit/search/{tc_similarity.rb → rtc_similarity.rb} +0 -0
data/test/unit/search/rtc_sort_field.rb +14 -0
data/test/unit/search/{c_filter.rb → tc_filter.rb} +11 -11
data/test/unit/search/{c_fuzzy_query.rb → tc_fuzzy_query.rb} +0 -0
data/test/unit/search/{c_index_searcher.rb → tc_index_searcher.rb} +0 -0
data/test/unit/search/{c_search_and_sort.rb → tc_search_and_sort.rb} +0 -0
data/test/unit/search/{c_sort.rb → tc_sort.rb} +0 -0
data/test/unit/search/tc_sort_field.rb +20 -7
data/test/unit/search/{c_spans.rb → tc_spans.rb} +0 -0
data/test/unit/store/rtc_fs_store.rb +62 -0
data/test/unit/store/rtc_ram_store.rb +15 -0
data/test/unit/store/rtm_store.rb +150 -0
data/test/unit/store/rtm_store_lock.rb +2 -0
data/test/unit/store/tc_fs_store.rb +54 -40
data/test/unit/store/tc_ram_store.rb +20 -0
data/test/unit/store/tm_store.rb +30 -146
data/test/unit/store/tm_store_lock.rb +66 -0
data/test/unit/utils/{tc_bit_vector.rb → rtc_bit_vector.rb} +0 -0
data/test/unit/utils/{tc_date_tools.rb → rtc_date_tools.rb} +0 -0
data/test/unit/utils/{tc_number_tools.rb → rtc_number_tools.rb} +0 -0
data/test/unit/utils/{tc_parameter.rb → rtc_parameter.rb} +0 -0
data/test/unit/utils/{tc_priority_queue.rb → rtc_priority_queue.rb} +0 -0
data/test/unit/utils/{tc_string_helper.rb → rtc_string_helper.rb} +0 -0
data/test/unit/utils/{tc_thread.rb → rtc_thread.rb} +0 -0
data/test/unit/utils/{tc_weak_key_hash.rb → rtc_weak_key_hash.rb} +0 -0
metadata +360 -289
data/test/unit/document/c_field.rb +0 -98
data/test/unit/search/c_sort_field.rb +0 -27
data/test/unit/store/c_fs_store.rb +0 -76
data/test/unit/store/c_ram_store.rb +0 -35
data/test/unit/store/m_store.rb +0 -34
data/test/unit/store/m_store_lock.rb +0 -68

data/Rakefile CHANGED

@@ -1,6 +1,6 @@
 $:. << 'lib'
 # Some parts of this Rakefile where taken from Jim Weirich's Rakefile for
-# Rake. Other parts where stolen from the David Heinemeier Hansson's Rails
+# Rake. Other parts where taken from the David Heinemeier Hansson's Rails
 # Rakefile. Both are under MIT-LICENSE. Thanks to both for their excellent
 # projects.
@@ -32,12 +32,13 @@ end
 $VERBOSE = nil
 EXT = "ferret_ext.so"
-EXT_SRC = FileList["src/*/*.[ch]"]
+EXT_SRC = FileList["src/**/*.[ch]"]
 EXT_SRC_DEST = EXT_SRC.map {|fn| File.join("ext", File.basename(fn))}
 SRC = (FileList["ext/*.[ch]"] + EXT_SRC_DEST).uniq
 CLEAN.include(FileList['**/*.o', 'InstalledFiles', '.config'])
-CLOBBER.include(FileList['**/*.so'], 'ext/Makefile')
+CLOBBER.include(FileList['**/*.so'], 'ext/Makefile', EXT_SRC_DEST)
 task :default => :all_tests
 desc "Run all tests"
@@ -57,7 +58,7 @@ end
 desc "run unit tests in test/unit for C ferret"
 Rake::TestTask.new("test_cunits" => :ext) do |t|
   t.libs << "test/unit"
-  t.pattern = 'test/unit/t[cs]_*.rb'
+  t.pattern = 'test/unit/ts_*.rb'
   t.verbose = true
 end
@@ -102,6 +103,15 @@ EXT_SRC.each do |fn|
   dest_fn = File.join("ext", File.basename(fn))
   file dest_fn => fn do |t|
     cp fn, dest_fn
+    if fn =~ /stemmer/
+      # flatten the directory structure for lib_stemmer
+      open(dest_fn) do |in_f|
+        open(dest_fn + ".out", "w") do |out_f|
+          in_f.each {|line| out_f.write(line.sub(/(#include ["<])[.a-z_\/]*\//) {"#{$1}"})}
+        end
+      end
+      mv dest_fn + ".out", dest_fn
+    end
   end
 end
@@ -110,9 +120,17 @@ task :ext => ["ext/#{EXT}"] + SRC
 file "ext/#{EXT}" => ["ext/Makefile"] do
   cp "ext/inc/lang.h", "ext/lang.h"
+  cp "ext/inc/except.h", "ext/except.h"
   sh "cd ext; make"
 end
+file "ext/lang.h" => ["ext/inc/lang.h"] do
+  cp "ext/inc/lang.h", "ext/lang.h"
+end
+file "ext/except.h" => ["ext/inc/except.h"] do
+  cp "ext/inc/except.h", "ext/except.h"
+end
 file "ext/Makefile" => SRC do
   sh "cd ext; ruby extconf.rb"
 end
@@ -220,7 +238,7 @@ task :repackage => EXT_SRC_DEST
 task :package => EXT_SRC_DEST
 task :tag => [:prerelease]
 task :update_version => [:prerelease]
-task :release => [:tag, :update_version, :package] do
+task :release do #=> [:tag, :update_version, :package] do
   announce
   announce "**************************************************************"
   announce "* Release #{PKG_VERSION} Complete."

data/TODO CHANGED

@@ -4,11 +4,12 @@ Send suggestions for this list to mailto:dbalmain@gmail.com
 === To Do
-* Add the ability to persist an in memory index to Ferret::Index::Index
 * Make a dll for people on Windows
+* pure ruby ConstantScoreQuery
 === Done
+* Add the ability to persist an in memory index to Ferret::Index::Index
 * Add UTF-8 support
 * Multi Field Query
 * Test threading

data/ext/analysis.c CHANGED

@@ -1,7 +1,16 @@
 #include <analysis.h>
 #include <string.h>
 #include <ctype.h>
-#include <hash.h>
+#include <wctype.h>
+#include <wchar.h>
+#include "hash.h"
+#include "libstemmer.h"
+/****************************************************************************
+ *
+ * Token
+ *
+ ****************************************************************************/
 Token *tk_create()
 {
@@ -24,6 +33,11 @@ inline Token *tk_set(Token *tk, char *text, int tlen, int start, int end, int po
   return tk;
 }
+inline Token *tk_set_ts(Token *tk, char *start, char *end, char *text, int pos_inc)
+{
+  return tk_set(tk, start, end - start, start - text, end - text, pos_inc);
+}
 inline Token *tk_set_no_len(Token *tk, char *text, int start, int end, int pos_inc)
 {
   return tk_set(tk, text, strlen(text), start, end, pos_inc);
@@ -31,11 +45,8 @@ inline Token *tk_set_no_len(Token *tk, char *text, int start, int end, int pos_i
 int tk_eq(Token *tk1, Token *tk2)
 {
-  if (strcmp((char *)tk1->text, (char *)tk2->text) == 0 &&
-      tk1->start == tk2->start && tk1->end == tk2->end)
-    return true;
-  else
-    return false;
+  return (strcmp((char *)tk1->text, (char *)tk2->text) == 0 &&
+      tk1->start == tk2->start && tk1->end == tk2->end);
 }
 int tk_cmp(Token *tk1, Token *tk2)
@@ -57,46 +68,152 @@ int tk_cmp(Token *tk1, Token *tk2)
   return cmp;
 }
+/****************************************************************************
+ *
+ * TokenStream
+ *
+ ****************************************************************************/
 void ts_standard_destroy(void *p)
 {
   TokenStream *ts = (TokenStream *)p;
   tk_destroy(ts->token);
-  free(p);
+  free(ts);
 }
 void ts_reset(TokenStream *ts, char *text)
 {
-  ts->text = text;
-  ts->pos = 0;
+  ts->t = ts->text = text;
 }
 TokenStream *ts_create()
 {
   TokenStream *ts = ALLOC(TokenStream);
-  ts->pos = -1;
   ts->text = NULL;
   ts->token = tk_create();
   ts->destroy = &ts_standard_destroy;
   ts->reset = &ts_reset;
+  ts->sub_ts = NULL;
+  ts->clone_i = NULL;
   return ts;
 }
+TokenStream *ts_clone(TokenStream *orig_ts)
+{
+  TokenStream *ts = ALLOC(TokenStream);
+  memcpy(ts, orig_ts, sizeof(TokenStream));
+  if (orig_ts->token) {
+    ts->token = ALLOC(Token);
+    memcpy(ts->token, orig_ts->token, sizeof(Token));
+  }
+  if (orig_ts->sub_ts) ts->sub_ts = ts_clone(orig_ts->sub_ts);
+  if (orig_ts->clone_i) orig_ts->clone_i(orig_ts, ts);
+  return ts;
+}
+/* * Multi-byte TokenStream * */
+static char * const ENC_ERR_MSG = "Error decoding input string. "
+                          "Check that you have the locale set correctly";
+#define MB_NEXT_CHAR \
+  if ((i = mbrtowc(&wchr, t, MB_CUR_MAX, (mbstate_t *)ts->data)) < 0)\
+    RAISE(IO_ERROR, ENC_ERR_MSG)
+inline Token *w_tk_set(Token *tk, wchar_t *text, int start, int end, int pos_inc)
+{
+  tk->text[wcstombs(tk->text, text, MAX_WORD_SIZE - 1)] = '\0';
+  tk->start = start;
+  tk->end = end;
+  tk->pos_inc = pos_inc;
+  return tk;
+}
+void mb_ts_standard_destroy(void *p)
+{
+  TokenStream *ts = (TokenStream *)p;
+  tk_destroy(ts->token);
+  free(ts->data);
+  free(ts);
+}
+void mb_ts_reset(TokenStream *ts, char *text)
+{
+  ZEROSET(ts->data, mbstate_t, 1);
+  ts_reset(ts, text);
+}
+void mb_ts_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+{
+  new_ts->data = ALLOC(mbstate_t);
+  memcpy(new_ts->data, orig_ts->data, sizeof(mbstate_t));
+}
+TokenStream *mb_ts_create()
+{
+  TokenStream *ts = ALLOC(TokenStream);
+  ts->data = ALLOC(mbstate_t);
+  ts->text = NULL;
+  ts->token = tk_create();
+  ts->destroy = &mb_ts_standard_destroy;
+  ts->reset = &mb_ts_reset;
+  ts->clone_i = &mb_ts_clone_i;
+  ts->sub_ts = NULL;
+  return ts;
+}
+/****************************************************************************
+ *
+ * Analyzer
+ *
+ ****************************************************************************/
+void a_standard_destroy(void *p)
+{
+  Analyzer *a = (Analyzer *)p;
+  ts_destroy(a->current_ts);
+  free(p);
+}
+TokenStream *a_standard_get_ts(Analyzer *a, char *field, char *text)
+{
+  a->current_ts->reset(a->current_ts, text);
+  return a->current_ts;
+}
+Analyzer *analyzer_create(void *data, TokenStream *ts, void (*destroy)(void *),
+    TokenStream *(*get_ts)(Analyzer *a, char *field, char *text))
+{
+  Analyzer *a = ALLOC(Analyzer);
+  a->data = data;
+  a->current_ts = ts;
+  a->destroy = (destroy ? destroy : &a_standard_destroy);
+  a->get_ts = (get_ts ? get_ts : &a_standard_get_ts);
+  return a;
+}
+/****************************************************************************
+ *
+ * Whitespace
+ *
+ ****************************************************************************/
+/*
+ * WhitespaceTokenizer
+ */
 Token *wst_next(TokenStream *ts)
 {
-  int i = ts->pos;
-  int start, end;
-  char *text = ts->text;
+  char *t = ts->t;
+  char *start;
-  while (text[i] != '\0' && isspace(text[i]))
-    i++;
-  if (text[i] == '\0')
-    return NULL;
+  while (*t != '\0' && isspace(*t)) t++;
-  start = i;
-  while (text[i] != '\0' && !isspace(text[i]))
-    i++;
-  ts->pos = end = i;
-  tk_set(ts->token, text+start, end-start, start, end, 1);
+  if (*t == '\0') return NULL;
+  start = t;
+  while (*t != '\0' && !isspace(*t)) t++;
+  ts->t = t;
+  tk_set_ts(ts->token, start, t, ts->text, 1);
   return ts->token;
 }
@@ -107,22 +224,121 @@ TokenStream *whitespace_tokenizer_create()
   return ts;
 }
+/*
+ * Multi-byte WhitespaceTokenizer
+ */
+Token *mb_wst_next(TokenStream *ts)
+{
+  int i;
+  char *start;
+  char *t = ts->t;
+  wchar_t wchr;
+  MB_NEXT_CHAR;
+  while (wchr != 0 && iswspace(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  if (wchr == 0) return NULL;
+  start = t;
+  t += i;
+  MB_NEXT_CHAR;
+  while (wchr != 0 && !iswspace(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  tk_set_ts(ts->token, start, t, ts->text, 1);
+  ts->t = t;
+  return ts->token;
+}
+/*
+ * Lowercasing Multi-byte WhitespaceTokenizer
+ */
+Token *mb_wst_next_lc(TokenStream *ts)
+{
+  int i;
+  char *start;
+  char *t = ts->t;
+  wchar_t wchr;
+  wchar_t wbuf[MAX_WORD_SIZE+1], *w, *w_end;
+  w = wbuf;
+  w_end = &wbuf[MAX_WORD_SIZE];
+  MB_NEXT_CHAR;
+  while (wchr != 0 && iswspace(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  if (wchr == 0) return NULL;
+  start = t;
+  t += i;
+  *w++ = towlower(wchr);
+  MB_NEXT_CHAR;
+  while (wchr != 0 && !iswspace(wchr)) {
+    if (w < w_end) *w++ = towlower(wchr);
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  *w = 0;
+  w_tk_set(ts->token, wbuf, start - ts->text, t - ts->text, 1);
+  ts->t = t;
+  return ts->token;
+}
+TokenStream *mb_whitespace_tokenizer_create(bool lowercase)
+{
+  TokenStream *ts = mb_ts_create();
+  ts->next = lowercase ? &mb_wst_next_lc : &mb_wst_next;
+  return ts;
+}
+/*
+ * WhitespaceAnalyzers
+ */
+Analyzer *whitespace_analyzer_create(bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = lowercase_filter_create(whitespace_tokenizer_create());
+  } else {
+    ts = whitespace_tokenizer_create();
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *mb_whitespace_analyzer_create(bool lowercase)
+{
+  return analyzer_create(NULL, mb_whitespace_tokenizer_create(lowercase),
+      NULL, NULL);
+}
+/****************************************************************************
+ *
+ * Letter
+ *
+ ****************************************************************************/
+/*
+ * LetterTokenizer
+ */
 Token *lt_next(TokenStream *ts)
 {
-  int i = ts->pos;
-  int start, end;
-  char *text = ts->text;
+  char *start;
+  char *t = ts->t;
-  while (text[i] != '\0' && !isalpha(text[i]))
-    i++;
-  if (text[i] == '\0')
-    return NULL;
+  while (*t != '\0' && !isalpha(*t)) t++;
-  start = i;
-  while (text[i] != '\0' && isalpha(text[i]))
-    i++;
-  ts->pos = end = i;
-  tk_set(ts->token, text+start, end-start, start, end, 1);
+  if (*t == '\0') return NULL;
+  start = t;
+  while (*t != '\0' && isalpha(*t)) t++;
+  tk_set_ts(ts->token, start, t, ts->text, 1);
+  ts->t = t;
   return ts->token;
 }
@@ -133,54 +349,174 @@ TokenStream *letter_tokenizer_create()
   return ts;
 }
-void a_standard_destroy(void *p)
+/*
+ * Multi-byte LetterTokenizer
+ */
+Token *mb_lt_next(TokenStream *ts)
 {
-  Analyzer *a = (Analyzer *)p;
-  ts_destroy(a->current_ts);
-  free(p);
+  int i;
+  char *start;
+  char *t = ts->t;
+  wchar_t wchr;
+  MB_NEXT_CHAR;
+  while (wchr != 0 && !iswalpha(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  if (wchr == 0) return NULL;
+  start = t;
+  t += i;
+  MB_NEXT_CHAR;
+  while (wchr != 0 && iswalpha(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  tk_set_ts(ts->token, start, t, ts->text, 1);
+  ts->t = t;
+  return ts->token;
 }
-TokenStream *a_standard_get_ts(Analyzer *a, char *field, char *text)
+/*
+ * Lowercasing Multi-byte LetterTokenizer
+ */
+Token *mb_lt_next_lc(TokenStream *ts)
 {
-  a->current_ts->reset(a->current_ts, text);
-  return a->current_ts;
+  int i;
+  char *start;
+  char *t = ts->t;
+  wchar_t wchr;
+  wchar_t wbuf[MAX_WORD_SIZE+1], *w, *w_end;
+  w = wbuf;
+  w_end = &wbuf[MAX_WORD_SIZE];
+  MB_NEXT_CHAR;
+  while (wchr != 0 && !iswalpha(wchr)) {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  if (wchr == 0) return NULL;
+  start = t;
+  t += i;
+  *w++ = towlower(wchr);
+  MB_NEXT_CHAR;
+  while (wchr != 0 && iswalpha(wchr)) {
+    if (w < w_end) *w++ = towlower(wchr);
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  *w = 0;
+  w_tk_set(ts->token, wbuf, start - ts->text, t - ts->text, 1);
+  ts->t = t;
+  return ts->token;
 }
-Analyzer *whitespace_analyzer_create()
+TokenStream *mb_letter_tokenizer_create(bool lowercase)
 {
-  Analyzer *a = ALLOC(Analyzer);
-  a->data = NULL;
-  a->current_ts = whitespace_tokenizer_create();
-  a->destroy = &a_standard_destroy;
-  a->get_ts = &a_standard_get_ts;
-  return a;
+  TokenStream *ts = mb_ts_create();
+  ts->next = lowercase ? &mb_lt_next_lc : &mb_lt_next;
+  return ts;
 }
-int std_get_alpha(char *input, char *token)
+/*
+ * LetterAnalyzers
+ */
+Analyzer *letter_analyzer_create(bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = lowercase_filter_create(letter_tokenizer_create());
+  } else {
+    ts = letter_tokenizer_create();
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *mb_letter_analyzer_create(bool lowercase)
+{
+  return analyzer_create(NULL,
+      mb_letter_tokenizer_create(lowercase), NULL, NULL);
+}
+/****************************************************************************
+ *
+ * Standard
+ *
+ ****************************************************************************/
+/*
+ * StandardTokenizer
+ */
+int std_get_alpha(TokenStream *ts, char *token)
 {
   int i = 0;
-  while (input[i] != '\0' && isalpha(input[i])) {
-    token[i] = input[i];
+  char *t = ts->t;
+  while (t[i] != '\0' && isalpha(t[i])) {
+    if (i < MAX_WORD_SIZE) token[i] = t[i];
     i++;
   }
   return i;
 }
-int std_get_alnum(char *input, char *token)
+int mb_std_get_alpha(TokenStream *ts, char *token)
+{
+  char *t = ts->t;
+  wchar_t w;
+  int i;
+  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  while (w != 0 && iswalpha(w)) {
+    t += i;
+    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  }
+  i = t - ts->t;
+  if (i > MAX_WORD_SIZE) i = MAX_WORD_SIZE - 1;
+  memcpy(token, ts->t, i);
+  return i;
+}
+int std_get_alnum(TokenStream *ts, char *token)
 {
   int i = 0;
-  while (input[i] != '\0' && isalnum(input[i])) {
-    token[i] = input[i];
+  char *t = ts->t;
+  while (t[i] != '\0' && isalnum(t[i])) {
+    if (i < MAX_WORD_SIZE) token[i] = t[i];
     i++;
   }
   return i;
 }
+int mb_std_get_alnum(char *text, char *token, TokenStream *ts)
+{
+  char *t = ts->t;
+  wchar_t w;
+  int i;
+  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  while (w != 0 && iswalnum(w)) {
+    t += i;
+    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  }
+  i = t - ts->t;
+  if (i > MAX_WORD_SIZE) i = MAX_WORD_SIZE - 1;
+  memcpy(token, ts->t, i);
+  return i;
+}
 int isnumpunc(char c)
 {
   return (c == '.' || c == ',' || c == '\\' || c == '/' || c == '_' || c == '-');
 }
+int w_isnumpunc(wchar_t c)
+{
+  return (c == L'.' || c == L',' || c == L'\\' || c == L'/' || c == L'_' || c == L'-');
+}
 int isurlpunc(char c)
 {
   return (c == '.' || c == '/' || c == '-' || c == '_');
@@ -201,11 +537,23 @@ int isurlxatc(char c)
   return (c == '.' || c == '/' || c == '-' || c == '_' || c == '@' || isalnum(c));
 }
-int isstdtokchar(char c)
+bool std_is_tok_char(char *c)
 {
-  if (isspace(c)) return false; // most common so check first.
-  if (isalnum(c) || isnumpunc(c) || c == '&' ||
-      c == '@' || c == '\'' || c == ':')
+  if (isspace(*c)) return false; // most common so check first.
+  if (isalnum(*c) || isnumpunc(*c) || *c == '&' ||
+      *c == '@' || *c == '\'' || *c == ':')
+    return true;
+  return false;
+}
+bool w_std_is_tok_char(char *t)
+{
+  wchar_t c;
+  if ((mbtowc(&c, t, MB_CUR_MAX)) < 0)
+    RAISE(IO_ERROR, ENC_ERR_MSG);
+  if (iswspace(c)) return false; // most common so check first.
+  if (iswalnum(c) || w_isnumpunc(c) || c == L'&' ||
+      c == L'@' || c == L'\'' || c == L':')
     return true;
   return false;
 }
@@ -246,22 +594,34 @@ int std_get_number(char *input)
 int std_get_apostrophe(char *input)
 {
-  int i = 0;
+  char *t = input;
-  while (isalpha(input[i]) || input[i] == '\'')
-    i++;
+  while (isalpha(*t) || *t == '\'')
+    t++;
-  return i;
+  return t - input;
 }
-int std_get_url(char *input, char *token)
+int mb_std_get_apostrophe(char *input)
 {
-  int i = 0;
+  char *t = input;
+  wchar_t w;
+  int i;
+  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  while (iswalpha(w) || w == L'\'') {
+    t += i;
+    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  }
+  return t - input;
+}
+int std_get_url(char *input, char *token, int i)
+{
   while (isurlc(input[i])) {
     if (isurlpunc(input[i]) && isurlpunc(input[i-1]))
       break; // can't have to puncs in a row
-    token[i] = input[i];
+    if (i < MAX_WORD_SIZE) token[i] = input[i];
     i++;
   }
@@ -282,148 +642,229 @@ int std_get_company_name(char *input)
   return i;
 }
+int mb_std_get_company_name(char *input, TokenStream *ts)
+{
+  char *t = input;
+  wchar_t wchr;
+  int i;
+  MB_NEXT_CHAR;
+  while (iswalpha(wchr) || wchr == L'@' || wchr == L'&') {
+    t += i;
+    MB_NEXT_CHAR;
+  }
+  return t - input;
+}
+bool std_advance_to_start(TokenStream *ts)
+{
+  char *t = ts->t;
+  while (*t != '\0' && !isalnum(*t)) t++;
+  ts->t = t;
+  return (*t != '\0');
+}
+bool mb_std_advance_to_start(TokenStream *ts)
+{
+  int i;
+  wchar_t w;
+  if ((i = mbtowc(&w, ts->t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  while (w != 0 && !iswalnum(w)) {
+    ts->t += i;
+    if ((i = mbtowc(&w, ts->t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
+  }
+  return (w != 0);
+}
+typedef struct StandardTokenizer {
+  bool (*advance_to_start)(TokenStream *ts);
+  bool (*is_tok_char)(char *c);
+  int (*get_alpha)(TokenStream *ts, char *token);
+  int (*get_apostrophe)(char *input);
+} StandardTokenizer;
 Token *std_next(TokenStream *ts)
 {
-  int i = ts->pos, j;
-  int start;
-  char *text = ts->text;
+  StandardTokenizer *std_tz = (StandardTokenizer *)ts->data;
+  char *s;
+  char *t;
+  char *start = NULL;
+  char *num_end = NULL;
   char token[MAX_WORD_SIZE];
   int token_i = 0;
   int len;
-  int num_end = 0;
-  int is_acronym;
-  int seen_at_symbol;
+  bool is_acronym;
+  bool seen_at_symbol;
-  while (text[i] != '\0' && !isalnum(text[i]))
-    i++;
-  if (text[i] == '\0')
-    return NULL;
-  start = i;
-  if (isdigit(text[i])) {
-    i += std_get_number(text + i);
-    ts->pos = i;
-    tk_set(ts->token, text+start, i - start, start, ts->pos, 1);
+  if (!std_tz->advance_to_start(ts)) return NULL;
+  start = t = ts->t;
+  if (isdigit(*t)) {
+    t += std_get_number(t);
+    ts->t = t;
+    tk_set_ts(ts->token, start, t, ts->text, 1);
   } else {
-    token_i = std_get_alpha(text + i, token);
-    i += token_i;
+    token_i = std_tz->get_alpha(ts, token);
+    t += token_i;
-    if (!isstdtokchar(text[i])) {
+    if (!std_tz->is_tok_char(t)) {
       // very common case, ie a plain word, so check and return
-      tk_set(ts->token, text+start, i-start, start, i, 1);
-      ts->pos = i;
+      tk_set_ts(ts->token, start, t, ts->text, 1);
+      ts->t = t;
       return ts->token;
     }
-    if (text[i] == '\'') { // apostrophe case.
-      i += std_get_apostrophe(text + i);
-      ts->pos = i;
-      len = i - start;
+    if (*t == '\'') { // apostrophe case.
+      t += std_tz->get_apostrophe(t);
+      ts->t = t;
+      len = t - start;
       // strip possesive
-      if ((text[i-1] == 's' || text[i-1] == 'S') && text[i-2] == '\'')
-        len -= 2;
-      tk_set(ts->token, text+start, len, start, i, 1);
+      if ((t[-1] == 's' || t[-1] == 'S') && t[-2] == '\'') t -= 2;
+      tk_set_ts(ts->token, start, t, ts->text, 1);
       return ts->token;
     }
-    if (text[i] == '&') { // apostrophe case.
-      i += std_get_company_name(text + i);
-      ts->pos = i;
-      tk_set(ts->token, text+start, i - start, start, i, 1);
+    if (*t == '&') { // apostrophe case.
+      t += std_get_company_name(t);
+      ts->t = t;
+      tk_set_ts(ts->token, start, t, ts->text, 1);
       return ts->token;
     }
-    if (isdigit(text[i]) || isnumpunc(text[i])) { // possibly a number
-      num_end = start + std_get_number(text + start);
-      if (!isstdtokchar(text[num_end])) { // we won't find a longer token
-        ts->pos = num_end;
-        tk_set(ts->token, text+start, num_end-start, start, ts->pos, 1);
+    if (isdigit(*t) || isnumpunc(*t)) { // possibly a number
+      num_end = start + std_get_number(start);
+      if (!std_tz->is_tok_char(num_end)) { // we won't find a longer token
+        ts->t = num_end;
+        tk_set_ts(ts->token, start, num_end, ts->text, 1);
         return ts->token;
       }
       // else there may be a longer token so check
     }
-    if (text[i] == ':' && text[i+1] == '/' && text[i+2] == '/') {
+    if (t[0] == ':' && t[1] == '/' && t[2] == '/') {
       // check for a known url start
       token[token_i] = '\0';
-      i += 3;
-      while (text[i] == '/') i++;
-      if (isalpha(text[i]) &&
-          (strcmp(token, "ftp") == 0 ||
-           strcmp(token, "http") == 0 ||
-           strcmp(token, "https") == 0 ||
-           strcmp(token, "file") == 0)) {
-        len = std_get_url(text + i, token); // dispose of first part of the URL
+      t += 3;
+      while (*t == '/') t++;
+      if (isalpha(*t) &&
+          (memcmp(token, "ftp", 3) == 0 ||
+           memcmp(token, "http", 4) == 0 ||
+           memcmp(token, "https", 5) == 0 ||
+           memcmp(token, "file", 4) == 0)) {
+        len = std_get_url(t, token, 0); // dispose of first part of the URL
       } else { //still treat as url but keep the first part
-        token_i = i - start;
-        memcpy(token, text + start, token_i * sizeof(char));
-        len = token_i + std_get_url(text + i, token + token_i); // keep start
+        token_i = t - start;
+        memcpy(token, start, token_i * sizeof(char));
+        len = token_i + std_get_url(t, token, token_i); // keep start
       }
-      ts->pos = i + len;
+      ts->t = t + len;
       token[len] = 0;
-      tk_set(ts->token, token, len, start, ts->pos, 1);
+      tk_set(ts->token, token, len, start - ts->text, ts->t - ts->text, 1);
       return ts->token;
     }
-    // now see how int a url we can find.
+    // now see how long a url we can find.
     is_acronym = true;
     seen_at_symbol = false;
-    while (isurlxatc(text[i])) {
-      if (is_acronym && !isalpha(text[i]) && (text[i] != '.')) {
+    while (isurlxatc(*t)) {
+      if (is_acronym && !isalpha(*t) && (*t != '.')) {
         is_acronym = false;
       }
-      if (isurlxatpunc(text[i]) && isurlxatpunc(text[i-1]))
-        break; // can't have to punctuation characters in a row
-      if (text[i] == '@') {
-        if (seen_at_symbol)
+      if (isurlxatpunc(*t) && isurlxatpunc(t[-1])) {
+        break; // can't have two punctuation characters in a row
+      }
+      if (*t == '@') {
+        if (seen_at_symbol) {
           break; // we can only have one @ symbol
-        else
+        } else {
           seen_at_symbol = true;
+        }
       }
-      i++;
+      t++;
     }
-    while (isurlxatpunc(text[i-1])) i--; // strip trailing punctuation
-    if (i > num_end) {
-      ts->pos = i;
+    while (isurlxatpunc(t[-1])) t--; // strip trailing punctuation
+    if (t > num_end) {
+      ts->t = t;
       if (is_acronym) { // check that it is one letter followed by one '.'
-        for (j = start; j < i-1; j++) {
-          if (isalpha(text[j]) && (text[j+1] != '.')) is_acronym = false;
+        for (s = start; s < t-1; s++) {
+          if (isalpha(*s) && (s[1] != '.')) is_acronym = false;
         }
       }
       if (is_acronym) {// strip '.'s
-        for (j = start + token_i; j < i; j++) {
-          if (text[j] != '.') {
-            token[token_i] = text[j];
+        for (s = start + token_i; s < t; s++) {
+          if (*s != '.') {
+            token[token_i] = *s;
             token_i++;
           }
         }
-        tk_set(ts->token, token, token_i, start, ts->pos, 1);
+        tk_set(ts->token, token, token_i, start - ts->text, t - ts->text, 1);
       } else { // just return the url as is
-        tk_set(ts->token, text+start, i-start, start, ts->pos, 1);
+        tk_set_ts(ts->token, start, t, ts->text, 1);
       }
     } else { // return the number
-      ts->pos = num_end;
-      tk_set(ts->token, text+start, num_end-start, start, ts->pos, 1);
+      ts->t = num_end;
+      tk_set_ts(ts->token, start, num_end, ts->text, 1);
     }
   }
   return ts->token;
 }
+void std_ts_destroy(void *p)
+{
+  TokenStream *ts = (TokenStream *)p;
+  free(ts->data);
+  ts_standard_destroy(ts);
+}
+void std_ts_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+{
+  new_ts->data = ALLOC(StandardTokenizer);
+  memcpy(new_ts->data, orig_ts->data, sizeof(StandardTokenizer));
+}
 TokenStream *standard_tokenizer_create()
 {
   TokenStream *ts = ts_create();
+  StandardTokenizer *std_tz = ALLOC(StandardTokenizer);
+  std_tz->advance_to_start = &std_advance_to_start;
+  std_tz->get_alpha = &std_get_alpha;
+  std_tz->is_tok_char = &std_is_tok_char;
+  std_tz->get_apostrophe = &std_get_apostrophe;
+  ts->data = std_tz;
+  ts->destroy = &std_ts_destroy;
+  ts->clone_i = &std_ts_clone_i;
   ts->next = &std_next;
   return ts;
 }
-const char *ENGLISH_STOP_WORDS[] = {
-  "a", "an", "and", "are", "as", "at", "be", "but", "by",
-  "for", "if", "in", "into", "is", "it",
-  "no", "not", "of", "on", "or", "s", "such",
-  "t", "that", "the", "their", "then", "there", "these",
-  "they", "this", "to", "was", "will", "with"
-};
+TokenStream *mb_standard_tokenizer_create()
+{
+  TokenStream *ts = ts_create();
+  StandardTokenizer *std_tz = ALLOC(StandardTokenizer);
+  std_tz->advance_to_start = &mb_std_advance_to_start;
+  std_tz->get_alpha = &mb_std_get_alpha;
+  std_tz->is_tok_char = &w_std_is_tok_char;
+  std_tz->get_apostrophe = &mb_std_get_apostrophe;
+  ts->data = std_tz;
+  ts->destroy = &std_ts_destroy;
+  ts->clone_i = &std_ts_clone_i;
+  ts->next = &std_next;
+  return ts;
+}
 void filter_reset(TokenStream *ts, char *text)
 {
@@ -432,10 +873,10 @@ void filter_reset(TokenStream *ts, char *text)
 void filter_destroy(void *p)
 {
-  TokenStream *ts = (TokenStream *)p;
-  ts->sub_ts->destroy(ts->sub_ts);
-  if (ts->token != NULL) tk_destroy(ts->token);
-  free(ts);
+  TokenStream *tf = (TokenStream *)p;
+  if (tf->destroy_sub) tf->sub_ts->destroy(tf->sub_ts);
+  if (tf->token != NULL) tk_destroy(tf->token);
+  free(tf);
 }
 void sf_destroy(void *p)
@@ -445,40 +886,109 @@ void sf_destroy(void *p)
   filter_destroy(p);
 }
-Token *sf_next(TokenStream *ts)
+void sf_clone_i_i(void *key, void *value, void *arg)
+{
+  HshTable *wordtable = (HshTable *)arg;
+  char *w = estrdup(key);
+  h_set(wordtable, w, w);
+}
+void sf_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+{
+  new_ts->data = h_new_str(&free, NULL);
+  h_each(orig_ts->data, &sf_clone_i_i, new_ts->data);
+}
+Token *sf_next(TokenStream *tf)
 {
   int pos_inc = 1;
-  HshTable *words = (HshTable *)ts->data;
-  Token *tk = ts->sub_ts->next(ts->sub_ts);
+  HshTable *words = (HshTable *)tf->data;
+  Token *tk = tf->sub_ts->next(tf->sub_ts);
   while ((tk != NULL) && (h_get(words, tk->text) != NULL)) {
-    tk = ts->sub_ts->next(ts->sub_ts);
+    tk = tf->sub_ts->next(tf->sub_ts);
     pos_inc++;
   }
   if (tk != NULL) tk->pos_inc = pos_inc;
   return tk;
 }
-TokenStream *stop_filter_create_with_words(TokenStream *ts, char **words, int len)
+TokenStream *stop_filter_create_with_words_len(TokenStream *ts,
+    const char **words, int len)
 {
   int i;
+  char *w;
   TokenStream *tf = ALLOC(TokenStream);
   tf->sub_ts = ts;
-  HshTable *wordtable = h_new_str(NULL, NULL);
+  tf->destroy_sub = true;
+  HshTable *wordtable = h_new_str(&free, NULL);
   for (i = 0; i < len; i++) {
-    h_set(wordtable, words[i], words[i]);
+    w = estrdup(words[i]);
+    h_set(wordtable, w, w);
+  }
+  tf->data = wordtable;
+  tf->token = NULL;
+  tf->next = &sf_next;
+  tf->reset = &filter_reset;
+  tf->destroy = &sf_destroy;
+  tf->clone_i = &sf_clone_i;
+  return tf;
+}
+TokenStream *stop_filter_create_with_words(TokenStream *ts, const char **words)
+{
+  char *w;
+  TokenStream *tf = ALLOC(TokenStream);
+  tf->sub_ts = ts;
+  tf->destroy_sub = true;
+  HshTable *wordtable = h_new_str(&free, NULL);
+  while (*words) {
+    w = estrdup(*words);
+    h_set(wordtable, w, w);
+    words++;
   }
   tf->data = wordtable;
   tf->token = NULL;
   tf->next = &sf_next;
   tf->reset = &filter_reset;
   tf->destroy = &sf_destroy;
+  tf->clone_i = &sf_clone_i;
   return tf;
 }
 TokenStream *stop_filter_create(TokenStream *ts)
 {
-  return stop_filter_create_with_words(ts,
-      (char **)ENGLISH_STOP_WORDS, NELEMS(ENGLISH_STOP_WORDS));
+  return stop_filter_create_with_words(ts, FULL_ENGLISH_STOP_WORDS);
+}
+Token *mb_lcf_next(TokenStream *ts)
+{
+  wchar_t wbuf[MAX_WORD_SIZE], *w;
+  //mbstate_t state = {0};
+  int i;
+  Token *tk = ts->sub_ts->next(ts->sub_ts);
+  if (tk == NULL) return tk;
+  i = mbstowcs(wbuf, tk->text, MAX_WORD_SIZE);
+  w = wbuf;
+  while (*w != 0) {
+    *w = towlower(*w);
+    w++;
+  }
+  wcstombs(tk->text, wbuf, MAX_WORD_SIZE);
+  return tk;
+}
+TokenStream *mb_lowercase_filter_create(TokenStream *ts)
+{
+  TokenStream *tf = ALLOC(TokenStream);
+  tf->token = NULL;
+  tf->next = &mb_lcf_next;
+  tf->reset = &filter_reset;
+  tf->destroy = &filter_destroy;
+  tf->sub_ts = ts;
+  tf->destroy_sub = true;
+  tf->clone_i = NULL;
+  return tf;
 }
 Token *lcf_next(TokenStream *ts)
@@ -501,48 +1011,199 @@ TokenStream *lowercase_filter_create(TokenStream *ts)
   tf->reset = &filter_reset;
   tf->destroy = &filter_destroy;
   tf->sub_ts = ts;
+  tf->destroy_sub = true;
+  tf->clone_i = NULL;
   return tf;
 }
-Analyzer *letter_analyzer_create()
+typedef struct StemFilter {
+  struct sb_stemmer *stemmer;
+  char *algorithm;
+  char *charenc;
+} StemFilter;
+void stemf_destroy(void *p)
 {
-  Analyzer *a = ALLOC(Analyzer);
-  a->data = NULL;
-  a->current_ts = lowercase_filter_create(letter_tokenizer_create());
-  a->destroy = &a_standard_destroy;
-  a->get_ts = &a_standard_get_ts;
-  return a;
+  TokenStream *ts = (TokenStream *)p;
+  StemFilter *stemf = (StemFilter *)ts->data;
+  sb_stemmer_delete(stemf->stemmer);
+  free(stemf->algorithm);
+  free(stemf->charenc);
+  free(stemf);
+  filter_destroy(ts);
 }
+Token *stemf_next(TokenStream *ts)
+{
+  int len;
+  const sb_symbol *stemmed;
+  struct sb_stemmer *stemmer = ((StemFilter *)ts->data)->stemmer;
+  Token *tk = ts->sub_ts->next(ts->sub_ts);
+  if (tk == NULL) return tk;
+  stemmed = sb_stemmer_stem(stemmer, (sb_symbol *)tk->text, strlen(tk->text));
+  len = sb_stemmer_length(stemmer);
+  if (len >= MAX_WORD_SIZE) len = MAX_WORD_SIZE - 1;
+  memcpy(tk->text, stemmed, len);
+  tk->text[len] = '\0';
+  return tk;
+}
-Analyzer *standard_analyzer_create_with_words(char **words, int len)
+void stemf_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
 {
-  Analyzer *a = ALLOC(Analyzer);
-  a->data = NULL;
-  a->current_ts =
-    stop_filter_create_with_words(
+  StemFilter *orig_stemf = (StemFilter *)orig_ts->data;
+  StemFilter *stemf = ALLOC(StemFilter);
+  stemf->stemmer = sb_stemmer_new(orig_stemf->algorithm, orig_stemf->charenc);
+  stemf->algorithm = orig_stemf->algorithm ? estrdup(orig_stemf->algorithm) : NULL;
+  stemf->charenc = orig_stemf->charenc ? estrdup(orig_stemf->charenc) : NULL;
+  new_ts->data = stemf;
+}
+TokenStream *stem_filter_create(TokenStream *ts, const char * algorithm,
+    const char * charenc)
+{
+  TokenStream *tf = ALLOC(TokenStream);
+  StemFilter *stemf = ALLOC(StemFilter);
+  stemf->stemmer = sb_stemmer_new(algorithm, charenc);
+  stemf->algorithm = algorithm ? estrdup(algorithm) : NULL;
+  stemf->charenc = charenc ? estrdup(charenc) : NULL;
+  tf->data = stemf;
+  tf->token = NULL;
+  tf->next = &stemf_next;
+  tf->reset = &filter_reset;
+  tf->destroy = &stemf_destroy;
+  tf->clone_i = &stemf_clone_i;
+  tf->sub_ts = ts;
+  tf->destroy_sub = true;
+  return tf;
+}
+Analyzer *standard_analyzer_create_with_words_len(
+    const char **words, int len, bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = stop_filter_create_with_words_len(
         lowercase_filter_create(standard_tokenizer_create()), words, len);
-  a->destroy = &a_standard_destroy;
-  a->get_ts = &a_standard_get_ts;
-  return a;
+  } else {
+    ts = stop_filter_create_with_words_len(
+        standard_tokenizer_create(), words, len);
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *standard_analyzer_create_with_words(const char **words, bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = stop_filter_create_with_words(
+        lowercase_filter_create(standard_tokenizer_create()), words);
+  } else {
+    ts = stop_filter_create_with_words(
+        standard_tokenizer_create(), words);
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *mb_standard_analyzer_create_with_words_len(
+    const char **words, int len, bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = stop_filter_create_with_words_len(
+      mb_lowercase_filter_create(mb_standard_tokenizer_create()), words, len);
+  } else {
+    ts = stop_filter_create_with_words_len(
+        mb_standard_tokenizer_create(), words, len);
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *mb_standard_analyzer_create_with_words(
+    const char **words, bool lowercase)
+{
+  TokenStream *ts;
+  if (lowercase) {
+    ts = stop_filter_create_with_words(
+      mb_lowercase_filter_create(mb_standard_tokenizer_create()), words);
+  } else {
+    ts = stop_filter_create_with_words(mb_standard_tokenizer_create(), words);
+  }
+  return analyzer_create(NULL, ts, NULL, NULL);
+}
+Analyzer *standard_analyzer_create(bool lowercase)
+{
+  return standard_analyzer_create_with_words(FULL_ENGLISH_STOP_WORDS, lowercase);
+}
+Analyzer *mb_standard_analyzer_create(bool lowercase)
+{
+  return mb_standard_analyzer_create_with_words(FULL_ENGLISH_STOP_WORDS, lowercase);
+}
+/****************************************************************************
+ *
+ * PerFieldAnalyzer
+ *
+ ****************************************************************************/
+typedef struct PerFieldAnalyzer {
+  HshTable *dict;
+  Analyzer *def;
+  bool destroy_subs : 1;
+} PerFieldAnalyzer;
+void pfa_destroy(void *p)
+{
+  Analyzer *self = (Analyzer *)p;
+  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
+  h_destroy(pfa->dict);
+  if (pfa->destroy_subs) a_destroy(pfa->def);
+  free(pfa);
+  free(self);
+}
+TokenStream *pfa_get_ts(Analyzer *self, char *field, char *text)
+{
+  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
+  Analyzer *a = h_get(pfa->dict, field);
+  if (a == NULL) a = pfa->def;
+  return a_get_ts(a, field, text);
+}
+void pfa_sub_a_destroy(void *p)
+{
+  Analyzer *a = (Analyzer *)p;
+  a->destroy(a);
+}
+void pfa_add_field(Analyzer *self, char *field, Analyzer *analyzer)
+{
+  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
+  h_set(pfa->dict, estrdup(field), analyzer);
 }
-Analyzer *standard_analyzer_create()
+Analyzer *per_field_analyzer_create(Analyzer *def, bool destroy_subs)
 {
-  return standard_analyzer_create_with_words(
-        (char **)ENGLISH_STOP_WORDS, NELEMS(ENGLISH_STOP_WORDS));
+  PerFieldAnalyzer *pfa = ALLOC(PerFieldAnalyzer);
+  pfa->def = def;
+  pfa->destroy_subs = destroy_subs;
+  pfa->dict = destroy_subs ? h_new_str(&free, &pfa_sub_a_destroy)
+                           : h_new_str(&free, NULL);
+  return analyzer_create(pfa, NULL, &pfa_destroy, &pfa_get_ts);
 }
 #ifdef ALONE
 int main(int argc, char **argv)
 {
   char buf[10000];
-  Analyzer *a = standard_analyzer_create();
+  Analyzer *a = standard_analyzer_create(true);
   TokenStream *ts;
   Token *tk;
   while (fgets(buf, 9999, stdin) != NULL) {
     ts = a->get_ts(a, "hello", buf);
-    ts->pos = 0;
     while ((tk = ts->next(ts)) != NULL) {
       printf("<%s:%ld:%ld> ", tk->text, tk->start, tk->end);
     }