RubyGems - ferret - Versions diffs - 0.9.6 → 0.10.0 - Mend

ferret 0.9.6 → 0.10.0

Files changed (295) hide show

data/MIT-LICENSE +1 -1
data/README +12 -24
data/Rakefile +38 -54
data/TODO +14 -17
data/ext/analysis.c +982 -823
data/ext/analysis.h +133 -76
data/ext/array.c +96 -58
data/ext/array.h +40 -13
data/ext/bitvector.c +476 -118
data/ext/bitvector.h +264 -22
data/ext/compound_io.c +217 -229
data/ext/defines.h +49 -0
data/ext/document.c +107 -317
data/ext/document.h +31 -65
data/ext/except.c +81 -36
data/ext/except.h +117 -55
data/ext/extconf.rb +2 -9
data/ext/ferret.c +211 -104
data/ext/ferret.h +22 -11
data/ext/filter.c +97 -82
data/ext/fs_store.c +348 -367
data/ext/global.c +226 -188
data/ext/global.h +44 -26
data/ext/hash.c +474 -391
data/ext/hash.h +441 -68
data/ext/hashset.c +124 -96
data/ext/hashset.h +169 -20
data/ext/helper.c +56 -5
data/ext/helper.h +7 -0
data/ext/inc/lang.h +29 -49
data/ext/inc/threading.h +31 -0
data/ext/ind.c +288 -278
data/ext/ind.h +68 -0
data/ext/index.c +5688 -0
data/ext/index.h +663 -616
data/ext/lang.h +29 -49
data/ext/libstemmer.c +3 -3
data/ext/mem_pool.c +84 -0
data/ext/mem_pool.h +35 -0
data/ext/posh.c +1006 -0
data/ext/posh.h +1007 -0
data/ext/priorityqueue.c +117 -194
data/ext/priorityqueue.h +135 -39
data/ext/q_boolean.c +1305 -1108
data/ext/q_const_score.c +106 -93
data/ext/q_filtered_query.c +138 -135
data/ext/q_fuzzy.c +206 -242
data/ext/q_match_all.c +94 -80
data/ext/q_multi_term.c +663 -0
data/ext/q_parser.c +667 -593
data/ext/q_phrase.c +992 -555
data/ext/q_prefix.c +72 -61
data/ext/q_range.c +235 -210
data/ext/q_span.c +1480 -1166
data/ext/q_term.c +273 -246
data/ext/q_wildcard.c +127 -114
data/ext/r_analysis.c +1720 -711
data/ext/r_index.c +3049 -0
data/ext/r_qparser.c +433 -146
data/ext/r_search.c +2934 -1993
data/ext/r_store.c +372 -143
data/ext/r_utils.c +941 -0
data/ext/ram_store.c +330 -326
data/ext/search.c +1291 -668
data/ext/search.h +403 -702
data/ext/similarity.c +91 -113
data/ext/similarity.h +45 -30
data/ext/sort.c +721 -484
data/ext/stopwords.c +361 -273
data/ext/store.c +556 -58
data/ext/store.h +706 -126
data/ext/tags +3578 -2780
data/ext/term_vectors.c +352 -0
data/ext/threading.h +31 -0
data/ext/win32.h +54 -0
data/lib/ferret.rb +5 -17
data/lib/ferret/document.rb +130 -2
data/lib/ferret/index.rb +577 -26
data/lib/ferret/number_tools.rb +157 -0
data/lib/ferret_version.rb +3 -0
data/test/test_helper.rb +5 -13
data/test/unit/analysis/tc_analyzer.rb +513 -1
data/test/unit/analysis/{ctc_tokenstream.rb → tc_token_stream.rb} +23 -0
data/test/unit/index/tc_index.rb +183 -240
data/test/unit/index/tc_index_reader.rb +312 -479
data/test/unit/index/tc_index_writer.rb +397 -13
data/test/unit/index/th_doc.rb +269 -206
data/test/unit/query_parser/tc_query_parser.rb +40 -33
data/test/unit/search/tc_filter.rb +59 -71
data/test/unit/search/tc_fuzzy_query.rb +24 -16
data/test/unit/search/tc_index_searcher.rb +23 -201
data/test/unit/search/tc_multi_searcher.rb +78 -226
data/test/unit/search/tc_search_and_sort.rb +93 -81
data/test/unit/search/tc_sort.rb +23 -23
data/test/unit/search/tc_sort_field.rb +7 -7
data/test/unit/search/tc_spans.rb +51 -47
data/test/unit/search/tm_searcher.rb +339 -0
data/test/unit/store/tc_fs_store.rb +1 -1
data/test/unit/store/tm_store_lock.rb +3 -3
data/test/unit/tc_document.rb +81 -0
data/test/unit/ts_analysis.rb +1 -1
data/test/unit/ts_utils.rb +1 -1
data/test/unit/utils/tc_bit_vector.rb +288 -0
data/test/unit/utils/tc_number_tools.rb +117 -0
data/test/unit/utils/tc_priority_queue.rb +106 -0
metadata +140 -301
data/CHANGELOG +0 -9
data/ext/dummy.exe +0 -0
data/ext/field.c +0 -408
data/ext/frtio.h +0 -13
data/ext/inc/except.h +0 -90
data/ext/index_io.c +0 -382
data/ext/index_rw.c +0 -2658
data/ext/lang.c +0 -41
data/ext/nix_io.c +0 -134
data/ext/q_multi_phrase.c +0 -380
data/ext/r_doc.c +0 -582
data/ext/r_index_io.c +0 -1021
data/ext/r_term.c +0 -219
data/ext/term.c +0 -820
data/ext/termdocs.c +0 -611
data/ext/vector.c +0 -637
data/ext/w32_io.c +0 -150
data/lib/ferret/analysis.rb +0 -11
data/lib/ferret/analysis/analyzers.rb +0 -112
data/lib/ferret/analysis/standard_tokenizer.rb +0 -71
data/lib/ferret/analysis/token.rb +0 -100
data/lib/ferret/analysis/token_filters.rb +0 -86
data/lib/ferret/analysis/token_stream.rb +0 -26
data/lib/ferret/analysis/tokenizers.rb +0 -112
data/lib/ferret/analysis/word_list_loader.rb +0 -27
data/lib/ferret/document/document.rb +0 -152
data/lib/ferret/document/field.rb +0 -312
data/lib/ferret/index/compound_file_io.rb +0 -338
data/lib/ferret/index/document_writer.rb +0 -289
data/lib/ferret/index/field_infos.rb +0 -279
data/lib/ferret/index/fields_io.rb +0 -181
data/lib/ferret/index/index.rb +0 -675
data/lib/ferret/index/index_file_names.rb +0 -33
data/lib/ferret/index/index_reader.rb +0 -503
data/lib/ferret/index/index_writer.rb +0 -534
data/lib/ferret/index/multi_reader.rb +0 -377
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +0 -98
data/lib/ferret/index/segment_infos.rb +0 -130
data/lib/ferret/index/segment_merge_info.rb +0 -49
data/lib/ferret/index/segment_merge_queue.rb +0 -16
data/lib/ferret/index/segment_merger.rb +0 -358
data/lib/ferret/index/segment_reader.rb +0 -412
data/lib/ferret/index/segment_term_enum.rb +0 -169
data/lib/ferret/index/segment_term_vector.rb +0 -58
data/lib/ferret/index/term.rb +0 -53
data/lib/ferret/index/term_buffer.rb +0 -83
data/lib/ferret/index/term_doc_enum.rb +0 -291
data/lib/ferret/index/term_enum.rb +0 -52
data/lib/ferret/index/term_info.rb +0 -37
data/lib/ferret/index/term_infos_io.rb +0 -321
data/lib/ferret/index/term_vector_offset_info.rb +0 -20
data/lib/ferret/index/term_vectors_io.rb +0 -553
data/lib/ferret/query_parser.rb +0 -312
data/lib/ferret/query_parser/query_parser.tab.rb +0 -928
data/lib/ferret/search.rb +0 -50
data/lib/ferret/search/boolean_clause.rb +0 -100
data/lib/ferret/search/boolean_query.rb +0 -299
data/lib/ferret/search/boolean_scorer.rb +0 -294
data/lib/ferret/search/caching_wrapper_filter.rb +0 -40
data/lib/ferret/search/conjunction_scorer.rb +0 -99
data/lib/ferret/search/disjunction_sum_scorer.rb +0 -205
data/lib/ferret/search/exact_phrase_scorer.rb +0 -32
data/lib/ferret/search/explanation.rb +0 -41
data/lib/ferret/search/field_cache.rb +0 -215
data/lib/ferret/search/field_doc.rb +0 -31
data/lib/ferret/search/field_sorted_hit_queue.rb +0 -184
data/lib/ferret/search/filter.rb +0 -11
data/lib/ferret/search/filtered_query.rb +0 -130
data/lib/ferret/search/filtered_term_enum.rb +0 -79
data/lib/ferret/search/fuzzy_query.rb +0 -154
data/lib/ferret/search/fuzzy_term_enum.rb +0 -247
data/lib/ferret/search/hit_collector.rb +0 -34
data/lib/ferret/search/hit_queue.rb +0 -11
data/lib/ferret/search/index_searcher.rb +0 -200
data/lib/ferret/search/match_all_query.rb +0 -104
data/lib/ferret/search/multi_phrase_query.rb +0 -216
data/lib/ferret/search/multi_searcher.rb +0 -261
data/lib/ferret/search/multi_term_query.rb +0 -65
data/lib/ferret/search/non_matching_scorer.rb +0 -22
data/lib/ferret/search/phrase_positions.rb +0 -55
data/lib/ferret/search/phrase_query.rb +0 -214
data/lib/ferret/search/phrase_scorer.rb +0 -152
data/lib/ferret/search/prefix_query.rb +0 -54
data/lib/ferret/search/query.rb +0 -140
data/lib/ferret/search/query_filter.rb +0 -51
data/lib/ferret/search/range_filter.rb +0 -103
data/lib/ferret/search/range_query.rb +0 -139
data/lib/ferret/search/req_excl_scorer.rb +0 -125
data/lib/ferret/search/req_opt_sum_scorer.rb +0 -70
data/lib/ferret/search/score_doc.rb +0 -38
data/lib/ferret/search/score_doc_comparator.rb +0 -114
data/lib/ferret/search/scorer.rb +0 -91
data/lib/ferret/search/similarity.rb +0 -278
data/lib/ferret/search/sloppy_phrase_scorer.rb +0 -47
data/lib/ferret/search/sort.rb +0 -112
data/lib/ferret/search/sort_comparator.rb +0 -60
data/lib/ferret/search/sort_field.rb +0 -91
data/lib/ferret/search/spans.rb +0 -12
data/lib/ferret/search/spans/near_spans_enum.rb +0 -304
data/lib/ferret/search/spans/span_first_query.rb +0 -79
data/lib/ferret/search/spans/span_near_query.rb +0 -108
data/lib/ferret/search/spans/span_not_query.rb +0 -130
data/lib/ferret/search/spans/span_or_query.rb +0 -176
data/lib/ferret/search/spans/span_query.rb +0 -25
data/lib/ferret/search/spans/span_scorer.rb +0 -74
data/lib/ferret/search/spans/span_term_query.rb +0 -105
data/lib/ferret/search/spans/span_weight.rb +0 -84
data/lib/ferret/search/spans/spans_enum.rb +0 -44
data/lib/ferret/search/term_query.rb +0 -128
data/lib/ferret/search/term_scorer.rb +0 -183
data/lib/ferret/search/top_docs.rb +0 -36
data/lib/ferret/search/top_field_docs.rb +0 -17
data/lib/ferret/search/weight.rb +0 -54
data/lib/ferret/search/wildcard_query.rb +0 -26
data/lib/ferret/search/wildcard_term_enum.rb +0 -61
data/lib/ferret/stemmers.rb +0 -1
data/lib/ferret/stemmers/porter_stemmer.rb +0 -218
data/lib/ferret/store.rb +0 -5
data/lib/ferret/store/buffered_index_io.rb +0 -190
data/lib/ferret/store/directory.rb +0 -141
data/lib/ferret/store/fs_store.rb +0 -381
data/lib/ferret/store/index_io.rb +0 -245
data/lib/ferret/store/ram_store.rb +0 -286
data/lib/ferret/utils.rb +0 -8
data/lib/ferret/utils/bit_vector.rb +0 -123
data/lib/ferret/utils/date_tools.rb +0 -138
data/lib/ferret/utils/number_tools.rb +0 -91
data/lib/ferret/utils/parameter.rb +0 -41
data/lib/ferret/utils/priority_queue.rb +0 -120
data/lib/ferret/utils/string_helper.rb +0 -47
data/lib/ferret/utils/thread_local.rb +0 -28
data/lib/ferret/utils/weak_key_hash.rb +0 -60
data/lib/rferret.rb +0 -37
data/rake_utils/code_statistics.rb +0 -106
data/test/benchmark/tb_ram_store.rb +0 -76
data/test/benchmark/tb_rw_vint.rb +0 -26
data/test/functional/thread_safety_index_test.rb +0 -81
data/test/functional/thread_safety_test.rb +0 -137
data/test/longrunning/tc_numbertools.rb +0 -60
data/test/longrunning/tm_store.rb +0 -19
data/test/unit/analysis/ctc_analyzer.rb +0 -532
data/test/unit/analysis/data/wordfile +0 -6
data/test/unit/analysis/rtc_letter_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_lower_case_filter.rb +0 -20
data/test/unit/analysis/rtc_lower_case_tokenizer.rb +0 -27
data/test/unit/analysis/rtc_per_field_analyzer_wrapper.rb +0 -39
data/test/unit/analysis/rtc_porter_stem_filter.rb +0 -16
data/test/unit/analysis/rtc_standard_analyzer.rb +0 -20
data/test/unit/analysis/rtc_standard_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_stop_analyzer.rb +0 -20
data/test/unit/analysis/rtc_stop_filter.rb +0 -14
data/test/unit/analysis/rtc_white_space_analyzer.rb +0 -21
data/test/unit/analysis/rtc_white_space_tokenizer.rb +0 -20
data/test/unit/analysis/rtc_word_list_loader.rb +0 -32
data/test/unit/analysis/tc_token.rb +0 -25
data/test/unit/document/rtc_field.rb +0 -28
data/test/unit/document/tc_document.rb +0 -47
data/test/unit/document/tc_field.rb +0 -98
data/test/unit/index/rtc_compound_file_io.rb +0 -107
data/test/unit/index/rtc_field_infos.rb +0 -127
data/test/unit/index/rtc_fields_io.rb +0 -167
data/test/unit/index/rtc_multiple_term_doc_pos_enum.rb +0 -83
data/test/unit/index/rtc_segment_infos.rb +0 -74
data/test/unit/index/rtc_segment_term_docs.rb +0 -17
data/test/unit/index/rtc_segment_term_enum.rb +0 -60
data/test/unit/index/rtc_segment_term_vector.rb +0 -71
data/test/unit/index/rtc_term_buffer.rb +0 -57
data/test/unit/index/rtc_term_info.rb +0 -19
data/test/unit/index/rtc_term_infos_io.rb +0 -192
data/test/unit/index/rtc_term_vectors_io.rb +0 -108
data/test/unit/index/tc_term.rb +0 -27
data/test/unit/index/tc_term_voi.rb +0 -18
data/test/unit/search/rtc_similarity.rb +0 -37
data/test/unit/search/rtc_sort_field.rb +0 -14
data/test/unit/search/tc_multi_searcher2.rb +0 -126
data/test/unit/store/rtc_fs_store.rb +0 -62
data/test/unit/store/rtc_ram_store.rb +0 -15
data/test/unit/store/rtm_store.rb +0 -150
data/test/unit/store/rtm_store_lock.rb +0 -2
data/test/unit/ts_document.rb +0 -2
data/test/unit/utils/rtc_bit_vector.rb +0 -73
data/test/unit/utils/rtc_date_tools.rb +0 -50
data/test/unit/utils/rtc_number_tools.rb +0 -59
data/test/unit/utils/rtc_parameter.rb +0 -40
data/test/unit/utils/rtc_priority_queue.rb +0 -62
data/test/unit/utils/rtc_string_helper.rb +0 -21
data/test/unit/utils/rtc_thread.rb +0 -61
data/test/unit/utils/rtc_weak_key_hash.rb +0 -25
data/test/utils/number_to_spoken.rb +0 -132

data/MIT-LICENSE CHANGED Viewed

@@ -1,4 +1,4 @@
-Copyright (c) 2005 David Balmain
+Copyright (c) 2005-2006 David Balmain
 Permission is hereby granted, free of charge, to any person obtaining
 a copy of this software and associated documentation files (the

data/README CHANGED Viewed

@@ -8,7 +8,7 @@ search for things in them later.
 == Requirements
 * Ruby 1.8
-* (C compiler to build the extension but not required to use Ferret)
+* C compiler to build the extension. Tested with gcc, VC6 and VC2005
 == Installation
@@ -26,7 +26,7 @@ Run the following;
   $ rake ext
   $ ruby setup.rb config
   $ ruby setup.rb setup
-  # sudo ruby setup.rb install
+  # ruby setup.rb install
 These simple steps install ferret in the default location of Ruby libraries.
 You can also install files into your favorite directory by supplying setup.rb
@@ -53,10 +53,8 @@ documentation.
   abilities of Ferret to present your data the best way you see fit.
 * Ferret::Document: to find out how to create documents. This part of Ferret
-  is relatively straightforward. The main thing that we haven't gone into here
-  is the use of term vectors. These allow you to store and retrieve the
-  positions and offsets of the data which can be very useful in document
-  comparison amoung other things.  == More information
+  is relatively straightforward. If you know how Strings, Hashes and Arrays work
+  Ferret then you'll be able to create Documents.
 * Ferret::QueryParser: if you want to find out more about what you can do with
   Ferret's Query Parser, this is the place to look. The query parser is one
@@ -71,17 +69,8 @@ documentation.
 === Performance
-Currently Ferret is an order of magnitude slower than Java Lucene which can be
-quite a pain at times. I have written some basic C extensions which may or may
-not have installed when you installed Ferret. These double the speed but still
-leave it a lot slower than the Java version. I have, however, ported the
-indexing part of Java Lucene to C and it is an order of magnitude faster then
-the Java version. Once I'm pretty certain that the API of Ferret has settled
-and won't be changing much, I'll intergrate my C version. So expect to see
-Ferret running faster than Java Lucene some time in the future. If you'd like
-to try cferret and test my claims, let me know (if you haven't already found
-it in my subversion repository). It's not currently portable and will probably
-only run on linux.
+We are unaware of any alternatives that can out-perform Ferret while still
+matching it in features.
 == Contact
@@ -89,17 +78,16 @@ For bug reports and patches I have set up Trac here;
   http://ferret.davebalmain.com/trac
-Queries, discussion etc should be addressed to the forum or mailing lists hosted
-at;
+Queries, discussion etc should be addressed to the mailing lists here;
   http://rubyforge.org/projects/ferret/
-Alternatively you could create a new page for discussion on the wiki at my Trac
-page above. Or, if you're shy, please feel free to email me directly at dbalmain@gmail.com
+Alternatively you could create a new page for discussion on the Ferret wiki;
-Of course, since Ferret is almost a straight port of Java Lucene,
-everything said about Lucene at http://jakarta.apache.org/lucene/ should
-be true about Ferret. Apart from the bits about it being in Java.
+  http://ferret.davebalmain.com/trac
+Of course, since Ferret was ported from Apache Lucene, most of what you can
+do with Lucene you can also do with Ferret.
 == Authors

data/Rakefile CHANGED Viewed

@@ -8,8 +8,7 @@ require 'rake'
 require 'rake/testtask'
 require 'rake/rdoctask'
 require 'rake/clean'
-require 'rake_utils/code_statistics'
-require 'lib/rferret'
+require 'ferret_version'
 begin
   require 'rubygems'
@@ -29,18 +28,18 @@ def announce(msg='')
   STDERR.puts msg
 end
-$VERBOSE = nil
 EXT = "ferret_ext.so"
-EXT_SRC = FileList["src/**/*.[ch]"]
-if (/mswin/ =~ RUBY_PLATFORM)
-  EXT_SRC.delete('src/io/nix_io.c')
-end
+EXT_SRC = FileList["../c/src/*.[c]", "../c/include/*.h",
+                   "../c/lib/libstemmer_c/src_c/*.[ch]",
+                   "../c/lib/libstemmer_c/runtime/*.[ch]",
+                   "../c/lib/libstemmer_c/libstemmer/*.[ch]",
+                   "../c/lib/libstemmer_c/include/libstemmer.h"]
 EXT_SRC_DEST = EXT_SRC.map {|fn| File.join("ext", File.basename(fn))}
 SRC = (FileList["ext/*.[ch]"] + EXT_SRC_DEST).uniq
-CLEAN.include(FileList['**/*.o', '**/*.obj', 'InstalledFiles', '.config'])
+CLEAN.include(FileList['**/*.o', '**/*.obj', 'InstalledFiles',
+                       '.config', 'ext/cferret.c'])
 CLOBBER.include(FileList['**/*.so'], 'ext/Makefile', EXT_SRC_DEST)
 POLISH = Rake::FileList.new.include(FileList['**/*.so'], 'ext/Makefile')
@@ -49,69 +48,53 @@ task :polish => [:clean] do
   POLISH.each { |fn| rm_r fn rescue nil }
 end
+desc "Run tests with Valgrind"
+task :valgrind do
+  sh "valgrind --gen-suppressions=yes --suppressions=ferret_valgrind.supp " +
+     "--leak-check=yes --show-reachable=yes -v ruby test/test_all.rb"
+  #sh "valgrind --suppressions=ferret_valgrind.supp " +
+  #   "--leak-check=yes --show-reachable=yes -v ruby test/unit/index/tc_index_reader.rb"
+end
 task :default => :test_all
-desc "Run all tests"
-task :test_all => [ :test_runits, :test_cunits, :test_functional ]
+#task :default => :ext do
+#  sh "ruby test/unit/index/tc_index.rb"
+#end
-desc "Generate API documentation, and show coding stats"
-task :doc => [ :stats, :appdoc ]
+desc "Run all tests"
+task :test_all => [ :test_units ]
-desc "run unit tests in test/unit for pure ruby ferret"
-Rake::TestTask.new("test_runits" => :parsers) do |t|
-  t.ruby_opts = ["-r 'lib/rferret'"]
-  t.libs << "test/unit"
-  t.pattern = 'test/unit/ts_*.rb'
-  t.verbose = true
-end
-desc "run unit tests in test/unit for C ferret"
-Rake::TestTask.new("test_cunits" => :ext) do |t|
-  t.libs << "test/unit"
-  t.pattern = 'test/unit/ts_*.rb'
-  t.verbose = true
-end
+desc "Generate API documentation"
+task :doc => [ :appdoc ]
 desc "run unit tests in test/unit"
-Rake::TestTask.new("test_long") do |t|
-  t.libs << "test"
+Rake::TestTask.new("test_units" => :ext) do |t|
   t.libs << "test/unit"
-  t.test_files = FileList["test/longrunning/tm_store.rb"]
   t.pattern = 'test/unit/t[cs]_*.rb'
+  #t.pattern = 'test/unit/search/tc_index_searcher.rb'
   t.verbose = true
 end
-desc "run funtional tests in test/funtional"
-Rake::TestTask.new("test_functional") do |t|
-  t.libs << "test"
-  t.pattern = 'test/funtional/tc_*.rb'
-  t.verbose = true
-end
-desc "Report code statistics (KLOCS, etc) from application"
-task :stats do
-  CodeStatistics.new(
-                      ["Ferret", "lib/ferret"],
-                      ["Units", "test/unit"],
-                      ["Units-extended", "test/longrunning"]
-                    ).to_s
-end
 desc "Generate documentation for the application"
 rd = Rake::RDocTask.new("appdoc") do |rdoc|
   rdoc.rdoc_dir = 'doc/api'
   rdoc.title    = "Ferret Search Library Documentation"
-  rdoc.options << '--line-numbers --inline-source'
+  rdoc.options << '--line-numbers'
+  rdoc.options << '--inline-source'
+  rdoc.options << '--charset=utf-8'
   rdoc.rdoc_files.include('README')
   rdoc.rdoc_files.include('TODO')
   rdoc.rdoc_files.include('TUTORIAL')
   rdoc.rdoc_files.include('MIT-LICENSE')
   rdoc.rdoc_files.include('lib/**/*.rb')
+  rdoc.rdoc_files.include('ext/r_*.c')
+  rdoc.rdoc_files.include('ext/ferret.c')
 end
 EXT_SRC.each do |fn|
   dest_fn = File.join("ext", File.basename(fn))
   file dest_fn => fn do |t|
-    cp fn, dest_fn
+    ln_s File.join("..", fn), dest_fn
     if fn =~ /stemmer/
       # flatten the directory structure for lib_stemmer
       open(dest_fn) do |in_f|
@@ -129,7 +112,7 @@ task :ext => ["ext/#{EXT}"] + SRC
 file "ext/#{EXT}" => ["ext/Makefile"] do
   cp "ext/inc/lang.h", "ext/lang.h"
-  cp "ext/inc/except.h", "ext/except.h"
+  cp "ext/inc/threading.h", "ext/threading.h"
   cd "ext"
   if (/mswin/ =~ RUBY_PLATFORM) and ENV['make'].nil?
     sh "nmake"
@@ -140,10 +123,12 @@ file "ext/#{EXT}" => ["ext/Makefile"] do
 end
 file "ext/lang.h" => ["ext/inc/lang.h"] do
+  rm_f "ext/lang.h"
   cp "ext/inc/lang.h", "ext/lang.h"
 end
-file "ext/except.h" => ["ext/inc/except.h"] do
-  cp "ext/inc/except.h", "ext/except.h"
+file "ext/threading.h" => ["ext/inc/threading.h"] do
+  rm_f "ext/threading.h"
+  cp "ext/inc/threading.h", "ext/threading.h"
 end
 file "ext/Makefile" => SRC do
@@ -175,7 +160,6 @@ PKG_FILES = FileList[
   'Rakefile'
 ]
 PKG_FILES.exclude('**/*.o')
-PKG_FILES.include('ext/termdocs.c')
 PKG_FILES.exclude('**/Makefile')
 PKG_FILES.exclude('ext/ferret_ext.so')
@@ -213,6 +197,7 @@ else
     s.require_path = 'lib'                         # Use these for libraries.
     s.autorequire = 'ferret'
     #s.bindir = "bin"                               # Use these for applications.
     #s.executables = ["rake"]
     #s.default_executable = "rake"
@@ -319,11 +304,10 @@ task :update_version => [:prerelease] do
   else
     announce "Updating Ferret version to #{PKG_VERSION}"
     reversion("lib/ferret.rb")
-    reversion("lib/rferret.rb")
     if ENV['RELTEST']
       announce "Release Task Testing, skipping commiting of new version"
     else
-      sh %{svn ci -m "Updated to version #{PKG_VERSION}" lib/rferret.rb}
+      sh %{svn ci -m "Updated to version #{PKG_VERSION}" lib/ferret.rb}
     end
   end
 end

data/TODO CHANGED Viewed

@@ -1,17 +1,14 @@
-= Ferret Project -- To Do List
-Send suggestions for this list to mailto:dbalmain@gmail.com
-=== To Do
-* Make a dll for people on Windows
-* fix rb_obj_as_string to StringValue()
-* pure ruby ConstantScoreQuery
-=== Done
-* Add the ability to persist an in memory index to Ferret::Index::Index
-* Add UTF-8 support
-* Multi Field Query
-* Test threading
-* Compile a proper dummy executable
+= TODO
+* user defined sorting
+* add field compression
+* Fix highlighting to work for compressed fields
+* Fix highlighting to work for external fields
+* Add Ferret::Index::Index
+= Done
+* Add string Sort descripter
+* fix memory bug
+* add MultiReader interface
+* add lexicographical sort (byte sort)
+* Add highlighting

data/ext/analysis.c CHANGED Viewed

@@ -1,90 +1,95 @@
 #include "analysis.h"
 #include "hash.h"
-#include "libstemmer.h"
+#include <libstemmer.h>
 #include <string.h>
 #include <ctype.h>
 #include <wctype.h>
 #include <wchar.h>
 /****************************************************************************
  *
  * Token
  *
  ****************************************************************************/
-Token *tk_create()
+inline Token *tk_set(Token *tk,
+                     char *text, int tlen, int start, int end, int pos_inc)
 {
-  return ALLOC(Token);
-}
-void tk_destroy(void *p)
-{
-  free(p);
+    if (tlen >= MAX_WORD_SIZE) {
+        tlen = MAX_WORD_SIZE - 1;
+    }
+    memcpy(tk->text, text, sizeof(char) * tlen);
+    tk->text[tlen] = '\0';
+    tk->len = tlen;
+    tk->start = start;
+    tk->end = end;
+    tk->pos_inc = pos_inc;
+    return tk;
 }
-inline Token *tk_set(Token *tk,
-					 char *text,
-					 int tlen,
-					 int start,
-					 int end,
-					 int pos_inc)
+inline Token *tk_set_ts(Token *tk,
+                        char *start, char *end, char *text, int pos_inc)
 {
-  if (tlen >= MAX_WORD_SIZE) {
-    tlen = MAX_WORD_SIZE - 1;
-  }
-  memcpy(tk->text, text, sizeof(char) * tlen);
-  tk->text[tlen] = '\0';
-  tk->start = start;
-  tk->end = end;
-  tk->pos_inc = pos_inc;
-  return tk;
+    return tk_set(tk, start, (int)(end - start),
+                  (int)(start - text), (int)(end - text), pos_inc);
 }
-inline Token *tk_set_ts(Token *tk,
-						char *start,
-						char *end,
-						char *text,
-						int pos_inc)
+inline Token *tk_set_no_len(Token *tk,
+                            char *text, int start, int end, int pos_inc)
 {
-  return tk_set(tk, start, (int)(end - start),
-	  (int)(start - text), (int)(end - text), pos_inc);
+    return tk_set(tk, text, (int)strlen(text), start, end, pos_inc);
 }
-inline Token *tk_set_no_len(Token *tk,
-							char *text,
-							int start,
-							int end,
-							int pos_inc)
+inline Token *w_tk_set(Token *tk, wchar_t *text, int start, int end,
+                       int pos_inc)
 {
-  return tk_set(tk, text, (int)strlen(text), start, end, pos_inc);
+    int len = wcstombs(tk->text, text, MAX_WORD_SIZE - 1);
+    tk->text[len] = '\0';
+    tk->len = len;
+    tk->start = start;
+    tk->end = end;
+    tk->pos_inc = pos_inc;
+    return tk;
 }
 int tk_eq(Token *tk1, Token *tk2)
 {
-  return (strcmp((char *)tk1->text, (char *)tk2->text) == 0 &&
-      tk1->start == tk2->start && tk1->end == tk2->end);
+    return (strcmp((char *)tk1->text, (char *)tk2->text) == 0 &&
+            tk1->start == tk2->start && tk1->end == tk2->end);
 }
 int tk_cmp(Token *tk1, Token *tk2)
 {
-  int cmp;
-  if (tk1->start > tk2->start) {
-    cmp = 1;
-  } else if (tk1->start < tk2->start) {
-    cmp = -1;
-  } else {
-    if (tk1->end > tk2->end) {
-      cmp = 1;
-    } else if (tk1->end < tk2->end) {
-      cmp = -1;
-    } else {
-      cmp = strcmp((char *)tk1->text, (char *)tk2->text);
+    int cmp;
+    if (tk1->start > tk2->start) {
+        cmp = 1;
+    }
+    else if (tk1->start < tk2->start) {
+        cmp = -1;
     }
-  }
-  return cmp;
+    else {
+        if (tk1->end > tk2->end) {
+            cmp = 1;
+        }
+        else if (tk1->end < tk2->end) {
+            cmp = -1;
+        }
+        else {
+            cmp = strcmp((char *)tk1->text, (char *)tk2->text);
+        }
+    }
+    return cmp;
+}
+void tk_destroy(void *p)
+{
+    free(p);
 }
+Token *tk_new()
+{
+    return ALLOC(Token);
+}
 /****************************************************************************
  *
@@ -92,92 +97,94 @@ int tk_cmp(Token *tk1, Token *tk2)
  *
  ****************************************************************************/
-void ts_deref(void *p)
+void ts_deref(TokenStream *ts)
 {
-  TokenStream *ts = (TokenStream *)p;
-  if (--ts->ref_cnt <= 0) ts->destroy(ts);
+    if (--ts->ref_cnt <= 0) {
+        ts->destroy_i(ts);
+    }
 }
-void ts_standard_destroy(TokenStream *ts)
+static TokenStream *ts_reset(TokenStream *ts, char *text)
 {
-  tk_destroy(ts->token);
-  free(ts);
+    ts->t = ts->text = text;
+    return ts;
 }
-void ts_reset(TokenStream *ts, char *text)
+TokenStream *ts_clone_size(TokenStream *orig_ts, size_t size)
 {
-  ts->t = ts->text = text;
+    TokenStream *ts = (TokenStream *)ecalloc(size);
+    memcpy(ts, orig_ts, size);
+    ts->ref_cnt = 1;
+    return ts;
 }
-TokenStream *ts_create()
+TokenStream *ts_new_i(size_t size)
 {
-  TokenStream *ts = ALLOC_AND_ZERO_N(TokenStream, 1);
-  ts->token = tk_create();
-  ts->destroy = &ts_standard_destroy;
-  ts->reset = &ts_reset;
-  ts->ref_cnt = 1;
-  return ts;
+    TokenStream *ts = ecalloc(size);
+    ts->destroy_i = (void (*)(TokenStream *))&free;
+    ts->reset = &ts_reset;
+    ts->ref_cnt = 1;
+    return ts;
 }
-TokenStream *ts_clone(TokenStream *orig_ts)
+/****************************************************************************
+ * CachedTokenStream
+ ****************************************************************************/
+#define CTS(token_stream) ((CachedTokenStream *)(token_stream))
+static TokenStream *cts_clone_i(TokenStream *orig_ts)
 {
-  TokenStream *ts = ALLOC(TokenStream);
-  memcpy(ts, orig_ts, sizeof(TokenStream));
-  if (orig_ts->token) {
-    ts->token = ALLOC(Token);
-    memcpy(ts->token, orig_ts->token, sizeof(Token));
-  }
-  if (orig_ts->sub_ts) ts->sub_ts = ts_clone(orig_ts->sub_ts);
-  if (orig_ts->clone_i) orig_ts->clone_i(orig_ts, ts);
-  ts->ref_cnt = 1;
-  return ts;
+    return ts_clone_size(orig_ts, sizeof(CachedTokenStream));
 }
-/* * Multi-byte TokenStream * */
-static char * const ENC_ERR_MSG = "Error decoding input string. "
-                          "Check that you have the locale set correctly";
-#define MB_NEXT_CHAR \
-  if ((i = (int)mbrtowc(&wchr, t, MB_CUR_MAX, (mbstate_t *)ts->data)) < 0)\
-    RAISE(IO_ERROR, ENC_ERR_MSG)
-inline Token *w_tk_set(Token *tk, wchar_t *text, int start, int end, int pos_inc)
+static TokenStream *cts_new()
 {
-  tk->text[wcstombs(tk->text, text, MAX_WORD_SIZE - 1)] = '\0';
-  tk->start = start;
-  tk->end = end;
-  tk->pos_inc = pos_inc;
-  return tk;
+    TokenStream *ts = ts_new(CachedTokenStream);
+    ts->clone_i = &cts_clone_i;
+    return ts;
 }
-void mb_ts_standard_destroy(TokenStream *ts)
+/* * Multi-byte TokenStream * */
+#define MBTS(token_stream) ((MultiByteTokenStream *)(token_stream))
+inline int mb_next_char(wchar_t *wchr, const char *s, mbstate_t *state)
 {
-  tk_destroy(ts->token);
-  free(ts->data);
-  free(ts);
+    int num_bytes;
+    if ((num_bytes = (int)mbrtowc(wchr, s, MB_CUR_MAX, state)) < 0) {
+        const char *t = s;
+        do {
+            t++;
+            ZEROSET(state, mbstate_t);
+            num_bytes = (int)mbrtowc(wchr, t, MB_CUR_MAX, state);
+        } while ((num_bytes < 0) && (*wchr != 0) && (*t != 0));
+        num_bytes += t - s;
+    }
+    return num_bytes;
 }
-void mb_ts_reset(TokenStream *ts, char *text)
+static TokenStream *mb_ts_reset(TokenStream *ts, char *text)
 {
-  ZEROSET(ts->data, mbstate_t, 1);
-  ts_reset(ts, text);
+    ZEROSET(&(MBTS(ts)->state), mbstate_t);
+    ts_reset(ts, text);
+    return ts;
 }
-void mb_ts_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+static TokenStream *mb_ts_clone_i(TokenStream *orig_ts)
 {
-  new_ts->data = ALLOC(mbstate_t);
-  memcpy(new_ts->data, orig_ts->data, sizeof(mbstate_t));
+    return ts_clone_size(orig_ts, sizeof(MultiByteTokenStream));
 }
-TokenStream *mb_ts_create()
+TokenStream *mb_ts_new()
 {
-  TokenStream *ts = ALLOC_AND_ZERO_N(TokenStream, 1);
-  ts->data = ALLOC(mbstate_t);
-  ts->token = tk_create();
-  ts->destroy = &mb_ts_standard_destroy;
-  ts->reset = &mb_ts_reset;
-  ts->clone_i = &mb_ts_clone_i;
-  ts->ref_cnt = 1;
-  return ts;
+    TokenStream *ts = ts_new(MultiByteTokenStream);
+    ts->reset = &mb_ts_reset;
+    ts->clone_i = &mb_ts_clone_i;
+    ts->ref_cnt = 1;
+    return ts;
 }
 /****************************************************************************
@@ -186,35 +193,40 @@ TokenStream *mb_ts_create()
  *
  ****************************************************************************/
-void a_deref(void *p)
+void a_deref(Analyzer *a)
 {
-  Analyzer *a = (Analyzer *)p;
-  if (--a->ref_cnt <= 0) a->destroy(a);
+    if (--a->ref_cnt <= 0) {
+        a->destroy_i(a);
+    }
 }
-void a_standard_destroy(Analyzer *a)
+static void a_standard_destroy_i(Analyzer *a)
 {
-  if (a->current_ts) ts_deref(a->current_ts);
-  free(a);
+    if (a->current_ts) {
+        ts_deref(a->current_ts);
+    }
+    free(a);
 }
-TokenStream *a_standard_get_ts(Analyzer *a, char *field, char *text)
+static TokenStream *a_standard_get_ts(Analyzer *a, char *field, char *text)
 {
-  a->current_ts->reset(a->current_ts, text);
-  return a->current_ts;
+    TokenStream *ts;
+    (void)field;
+    ts = ts_clone(a->current_ts);
+    return ts->reset(ts, text);
 }
-Analyzer *analyzer_create(void *data, TokenStream *ts,
-    void (*destroy)(Analyzer *a),
-    TokenStream *(*get_ts)(Analyzer *a, char *field, char *text))
+Analyzer *analyzer_new(TokenStream *ts,
+                       void (*destroy_i)(Analyzer *a),
+                       TokenStream *(*get_ts)(Analyzer *a, char *field,
+                                              char *text))
 {
-  Analyzer *a = ALLOC(Analyzer);
-  a->data = data;
-  a->current_ts = ts;
-  a->destroy = (destroy ? destroy : &a_standard_destroy);
-  a->get_ts = (get_ts ? get_ts : &a_standard_get_ts);
-  a->ref_cnt = 1;
-  return a;
+    Analyzer *a = ALLOC(Analyzer);
+    a->current_ts = ts;
+    a->destroy_i = (destroy_i ? destroy_i : &a_standard_destroy_i);
+    a->get_ts = (get_ts ? get_ts : &a_standard_get_ts);
+    a->ref_cnt = 1;
+    return a;
 }
 /****************************************************************************
@@ -226,120 +238,132 @@ Analyzer *analyzer_create(void *data, TokenStream *ts,
 /*
  * WhitespaceTokenizer
  */
-Token *wst_next(TokenStream *ts)
+static Token *wst_next(TokenStream *ts)
 {
-  char *t = ts->t;
-  char *start;
+    char *t = ts->t;
+    char *start;
-  while (*t != '\0' && isspace(*t)) t++;
+    while (*t != '\0' && isspace(*t)) {
+        t++;
+    }
-  if (*t == '\0') return NULL;
+    if (*t == '\0') {
+        return NULL;
+    }
-  start = t;
-  while (*t != '\0' && !isspace(*t)) t++;
+    start = t;
+    while (*t != '\0' && !isspace(*t)) {
+        t++;
+    }
-  ts->t = t;
-  tk_set_ts(ts->token, start, t, ts->text, 1);
-  return ts->token;
+    ts->t = t;
+    return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
 }
-TokenStream *whitespace_tokenizer_create()
+TokenStream *whitespace_tokenizer_new()
 {
-  TokenStream *ts = ts_create();
-  ts->next = &wst_next;
-  return ts;
+    TokenStream *ts = cts_new();
+    ts->next = &wst_next;
+    return ts;
 }
 /*
  * Multi-byte WhitespaceTokenizer
  */
-Token *mb_wst_next(TokenStream *ts)
-{
-  int i;
-  char *start;
-  char *t = ts->t;
-  wchar_t wchr;
+static Token *mb_wst_next(TokenStream *ts)
+{
+    int i;
+    char *start;
+    char *t = ts->t;
+    wchar_t wchr;
+    mbstate_t *state = &(MBTS(ts)->state);
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && iswspace(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    if (wchr == 0) {
+        return NULL;
+    }
-  MB_NEXT_CHAR;
-  while (wchr != 0 && iswspace(wchr)) {
+    start = t;
     t += i;
-    MB_NEXT_CHAR;
-  }
-  if (wchr == 0) return NULL;
-  start = t;
-  t += i;
-  MB_NEXT_CHAR;
-  while (wchr != 0 && !iswspace(wchr)) {
-    t += i;
-    MB_NEXT_CHAR;
-  }
-  tk_set_ts(ts->token, start, t, ts->text, 1);
-  ts->t = t;
-  return ts->token;
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && !iswspace(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    ts->t = t;
+    return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
 }
 /*
  * Lowercasing Multi-byte WhitespaceTokenizer
  */
-Token *mb_wst_next_lc(TokenStream *ts)
-{
-  int i;
-  char *start;
-  char *t = ts->t;
-  wchar_t wchr;
-  wchar_t wbuf[MAX_WORD_SIZE+1], *w, *w_end;
-  w = wbuf;
-  w_end = &wbuf[MAX_WORD_SIZE];
+static Token *mb_wst_next_lc(TokenStream *ts)
+{
+    int i;
+    char *start;
+    char *t = ts->t;
+    wchar_t wchr;
+    wchar_t wbuf[MAX_WORD_SIZE + 1], *w, *w_end;
+    mbstate_t *state = &(MBTS(ts)->state);
+    w = wbuf;
+    w_end = &wbuf[MAX_WORD_SIZE];
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && iswspace(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    if (wchr == 0) {
+        return NULL;
+    }
-  MB_NEXT_CHAR;
-  while (wchr != 0 && iswspace(wchr)) {
+    start = t;
     t += i;
-    MB_NEXT_CHAR;
-  }
-  if (wchr == 0) return NULL;
-  start = t;
-  t += i;
-  *w++ = towlower(wchr);
-  MB_NEXT_CHAR;
-  while (wchr != 0 && !iswspace(wchr)) {
-    if (w < w_end) *w++ = towlower(wchr);
-    t += i;
-    MB_NEXT_CHAR;
-  }
-  *w = 0;
-  w_tk_set(ts->token, wbuf, (int)(start - ts->text), (int)(t - ts->text), 1);
-  ts->t = t;
-  return ts->token;
+    *w++ = towlower(wchr);
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && !iswspace(wchr)) {
+        if (w < w_end) {
+            *w++ = towlower(wchr);
+        }
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    *w = 0;
+    ts->t = t;
+    return w_tk_set(&(CTS(ts)->token), wbuf, (int)(start - ts->text),
+                    (int)(t - ts->text), 1);
 }
-TokenStream *mb_whitespace_tokenizer_create(bool lowercase)
+TokenStream *mb_whitespace_tokenizer_new(bool lowercase)
 {
-  TokenStream *ts = mb_ts_create();
-  ts->next = lowercase ? &mb_wst_next_lc : &mb_wst_next;
-  return ts;
+    TokenStream *ts = mb_ts_new();
+    ts->next = lowercase ? &mb_wst_next_lc : &mb_wst_next;
+    return ts;
 }
 /*
  * WhitespaceAnalyzers
  */
-Analyzer *whitespace_analyzer_create(bool lowercase)
+Analyzer *whitespace_analyzer_new(bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = lowercase_filter_create(whitespace_tokenizer_create());
-  } else {
-    ts = whitespace_tokenizer_create();
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = lowercase_filter_new(whitespace_tokenizer_new());
+    }
+    else {
+        ts = whitespace_tokenizer_new();
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *mb_whitespace_analyzer_create(bool lowercase)
+Analyzer *mb_whitespace_analyzer_new(bool lowercase)
 {
-  return analyzer_create(NULL, mb_whitespace_tokenizer_create(lowercase),
-      NULL, NULL);
+    return analyzer_new(mb_whitespace_tokenizer_new(lowercase), NULL, NULL);
 }
 /****************************************************************************
@@ -353,26 +377,31 @@ Analyzer *mb_whitespace_analyzer_create(bool lowercase)
  */
 Token *lt_next(TokenStream *ts)
 {
-  char *start;
-  char *t = ts->t;
+    char *start;
+    char *t = ts->t;
-  while (*t != '\0' && !isalpha(*t)) t++;
+    while (*t != '\0' && !isalpha(*t)) {
+        t++;
+    }
-  if (*t == '\0') return NULL;
+    if (*t == '\0') {
+        return NULL;
+    }
-  start = t;
-  while (*t != '\0' && isalpha(*t)) t++;
+    start = t;
+    while (*t != '\0' && isalpha(*t)) {
+        t++;
+    }
-  tk_set_ts(ts->token, start, t, ts->text, 1);
-  ts->t = t;
-  return ts->token;
+    ts->t = t;
+    return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
 }
-TokenStream *letter_tokenizer_create()
+TokenStream *letter_tokenizer_new()
 {
-  TokenStream *ts = ts_create();
-  ts->next = &lt_next;
-  return ts;
+    TokenStream *ts = cts_new();
+    ts->next = &lt_next;
+    return ts;
 }
 /*
@@ -380,28 +409,31 @@ TokenStream *letter_tokenizer_create()
  */
 Token *mb_lt_next(TokenStream *ts)
 {
-  int i;
-  char *start;
-  char *t = ts->t;
-  wchar_t wchr;
+    int i;
+    char *start;
+    char *t = ts->t;
+    wchar_t wchr;
+    mbstate_t *state = &(MBTS(ts)->state);
-  MB_NEXT_CHAR;
-  while (wchr != 0 && !iswalpha(wchr)) {
-    t += i;
-    MB_NEXT_CHAR;
-  }
-  if (wchr == 0) return NULL;
-  start = t;
-  t += i;
-  MB_NEXT_CHAR;
-  while (wchr != 0 && iswalpha(wchr)) {
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && !iswalpha(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    if (wchr == 0) {
+        return NULL;
+    }
+    start = t;
     t += i;
-    MB_NEXT_CHAR;
-  }
-  tk_set_ts(ts->token, start, t, ts->text, 1);
-  ts->t = t;
-  return ts->token;
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && iswalpha(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    ts->t = t;
+    return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
 }
 /*
@@ -409,62 +441,67 @@ Token *mb_lt_next(TokenStream *ts)
  */
 Token *mb_lt_next_lc(TokenStream *ts)
 {
-  int i;
-  char *start;
-  char *t = ts->t;
-  wchar_t wchr;
-  wchar_t wbuf[MAX_WORD_SIZE+1], *w, *w_end;
+    int i;
+    char *start;
+    char *t = ts->t;
+    wchar_t wchr;
+    wchar_t wbuf[MAX_WORD_SIZE + 1], *w, *w_end;
+    mbstate_t *state = &(MBTS(ts)->state);
-  w = wbuf;
-  w_end = &wbuf[MAX_WORD_SIZE];
+    w = wbuf;
+    w_end = &wbuf[MAX_WORD_SIZE];
-  MB_NEXT_CHAR;
-  while (wchr != 0 && !iswalpha(wchr)) {
-    t += i;
-    MB_NEXT_CHAR;
-  }
-  if (wchr == 0) return NULL;
-  start = t;
-  t += i;
-  *w++ = towlower(wchr);
-  MB_NEXT_CHAR;
-  while (wchr != 0 && iswalpha(wchr)) {
-    if (w < w_end) *w++ = towlower(wchr);
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && !iswalpha(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    if (wchr == 0) {
+        return NULL;
+    }
+    start = t;
     t += i;
-    MB_NEXT_CHAR;
-  }
-  *w = 0;
-  w_tk_set(ts->token, wbuf, (int)(start - ts->text), (int)(t - ts->text), 1);
-  ts->t = t;
-  return ts->token;
+    *w++ = towlower(wchr);
+    i = mb_next_char(&wchr, t, state);
+    while (wchr != 0 && iswalpha(wchr)) {
+        if (w < w_end) {
+            *w++ = towlower(wchr);
+        }
+        t += i;
+        i = mb_next_char(&wchr, t, state);
+    }
+    *w = 0;
+    ts->t = t;
+    return w_tk_set(&(CTS(ts)->token), wbuf, (int)(start - ts->text),
+                    (int)(t - ts->text), 1);
 }
-TokenStream *mb_letter_tokenizer_create(bool lowercase)
+TokenStream *mb_letter_tokenizer_new(bool lowercase)
 {
-  TokenStream *ts = mb_ts_create();
-  ts->next = lowercase ? &mb_lt_next_lc : &mb_lt_next;
-  return ts;
+    TokenStream *ts = mb_ts_new();
+    ts->next = lowercase ? &mb_lt_next_lc : &mb_lt_next;
+    return ts;
 }
 /*
  * LetterAnalyzers
  */
-Analyzer *letter_analyzer_create(bool lowercase)
+Analyzer *letter_analyzer_new(bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = lowercase_filter_create(letter_tokenizer_create());
-  } else {
-    ts = letter_tokenizer_create();
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = lowercase_filter_new(letter_tokenizer_new());
+    }
+    else {
+        ts = letter_tokenizer_new();
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *mb_letter_analyzer_create(bool lowercase)
+Analyzer *mb_letter_analyzer_new(bool lowercase)
 {
-  return analyzer_create(NULL,
-      mb_letter_tokenizer_create(lowercase), NULL, NULL);
+    return analyzer_new(mb_letter_tokenizer_new(lowercase), NULL, NULL);
 }
 /****************************************************************************
@@ -473,115 +510,146 @@ Analyzer *mb_letter_analyzer_create(bool lowercase)
  *
  ****************************************************************************/
+#define STDTS(token_stream) ((StandardTokenizer *)(token_stream))
 /*
  * StandardTokenizer
  */
-int std_get_alpha(TokenStream *ts, char *token)
+static int std_get_alpha(TokenStream *ts, char *token)
 {
-  int i = 0;
-  char *t = ts->t;
-  while (t[i] != '\0' && isalpha(t[i])) {
-    if (i < MAX_WORD_SIZE) token[i] = t[i];
-    i++;
-  }
-  return i;
+    int i = 0;
+    char *t = ts->t;
+    while (t[i] != '\0' && isalpha(t[i])) {
+        if (i < MAX_WORD_SIZE) {
+            token[i] = t[i];
+        }
+        i++;
+    }
+    return i;
 }
-int mb_std_get_alpha(TokenStream *ts, char *token)
+static int mb_std_get_alpha(TokenStream *ts, char *token)
 {
-  char *t = ts->t;
-  wchar_t w;
-  int i;
-  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  while (w != 0 && iswalpha(w)) {
-    t += i;
-    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  }
+    char *t = ts->t;
+    wchar_t wchr;
+    int i;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
+    i = mb_next_char(&wchr, t, &state);
-  i = (int)(t - ts->t);
-  if (i > MAX_WORD_SIZE) i = MAX_WORD_SIZE - 1;
-  memcpy(token, ts->t, i);
-  return i;
+    while (wchr != 0 && iswalpha(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, &state);
+    }
+    i = (int)(t - ts->t);
+    if (i > MAX_WORD_SIZE) {
+        i = MAX_WORD_SIZE - 1;
+    }
+    memcpy(token, ts->t, i);
+    return i;
 }
-int std_get_alnum(TokenStream *ts, char *token)
+/*
+static int std_get_alnum(TokenStream *ts, char *token)
 {
-  int i = 0;
-  char *t = ts->t;
-  while (t[i] != '\0' && isalnum(t[i])) {
-    if (i < MAX_WORD_SIZE) token[i] = t[i];
-    i++;
-  }
-  return i;
+    int i = 0;
+    char *t = ts->t;
+    while (t[i] != '\0' && isalnum(t[i])) {
+        if (i < MAX_WORD_SIZE) {
+            token[i] = t[i];
+        }
+        i++;
+    }
+    return i;
 }
-int mb_std_get_alnum(char *text, char *token, TokenStream *ts)
+static int mb_std_get_alnum(TokenStream *ts, char *token)
 {
-  char *t = ts->t;
-  wchar_t w;
-  int i;
-  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  while (w != 0 && iswalnum(w)) {
-    t += i;
-    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  }
+    char *t = ts->t;
+    wchar_t wchr;
+    int i;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
-  i = (int)(t - ts->t);
-  if (i > MAX_WORD_SIZE) i = MAX_WORD_SIZE - 1;
-  memcpy(token, ts->t, i);
-  return i;
+    i = mb_next_char(&wchr, t, &state);
+    while (wchr != 0 && iswalnum(wchr)) {
+        t += i;
+        i = mb_next_char(&wchr, t, &state);
+    }
+    i = (int)(t - ts->t);
+    if (i > MAX_WORD_SIZE) {
+        i = MAX_WORD_SIZE - 1;
+    }
+    memcpy(token, ts->t, i);
+    return i;
 }
+*/
-int isnumpunc(char c)
+static int isnumpunc(char c)
 {
-  return (c == '.' || c == ',' || c == '\\' || c == '/' || c == '_' || c == '-');
+    return (c == '.' || c == ',' || c == '\\' || c == '/' || c == '_'
+            || c == '-');
 }
-int w_isnumpunc(wchar_t c)
+static int w_isnumpunc(wchar_t c)
 {
-  return (c == L'.' || c == L',' || c == L'\\' || c == L'/' || c == L'_' || c == L'-');
+    return (c == L'.' || c == L',' || c == L'\\' || c == L'/' || c == L'_'
+            || c == L'-');
 }
-int isurlpunc(char c)
+static int isurlpunc(char c)
 {
-  return (c == '.' || c == '/' || c == '-' || c == '_');
+    return (c == '.' || c == '/' || c == '-' || c == '_');
 }
-int isurlc(char c)
+static int isurlc(char c)
 {
-  return (c == '.' || c == '/' || c == '-' || c == '_' || isalnum(c));
+    return (c == '.' || c == '/' || c == '-' || c == '_' || isalnum(c));
 }
-int isurlxatpunc(char c)
+static int isurlxatpunc(char c)
 {
-  return (c == '.' || c == '/' || c == '-' || c == '_' || c == '@');
+    return (c == '.' || c == '/' || c == '-' || c == '_' || c == '@');
 }
-int isurlxatc(char c)
+static int isurlxatc(char c)
 {
-  return (c == '.' || c == '/' || c == '-' || c == '_' || c == '@' || isalnum(c));
+    return (c == '.' || c == '/' || c == '-' || c == '_' || c == '@'
+            || isalnum(c));
 }
-bool std_is_tok_char(char *c)
+static bool std_is_tok_char(char *c)
 {
-  if (isspace(*c)) return false; // most common so check first.
-  if (isalnum(*c) || isnumpunc(*c) || *c == '&' ||
-      *c == '@' || *c == '\'' || *c == ':')
-    return true;
-  return false;
+    if (isspace(*c)) {
+        return false;           /* most common so check first. */
+    }
+    if (isalnum(*c) || isnumpunc(*c) || *c == '&' ||
+        *c == '@' || *c == '\'' || *c == ':') {
+        return true;
+    }
+    return false;
 }
-bool w_std_is_tok_char(char *t)
+static bool mb_std_is_tok_char(char *t)
 {
-  wchar_t c;
-  if ((mbtowc(&c, t, MB_CUR_MAX)) < 0)
-    RAISE(IO_ERROR, ENC_ERR_MSG);
-  if (iswspace(c)) return false; // most common so check first.
-  if (iswalnum(c) || w_isnumpunc(c) || c == L'&' ||
-      c == L'@' || c == L'\'' || c == L':')
-    return true;
-  return false;
+    wchar_t c;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
+    if (((int)mbrtowc(&c, t, MB_CUR_MAX, &state)) < 0) {
+        /* error which we can handle next time round. For now just return
+         * false so that we can return a token */
+        return false;
+    }
+    if (iswspace(c)) {
+        return false;           /* most common so check first. */
+    }
+    if (iswalnum(c) || w_isnumpunc(c) || c == L'&' || c == L'@' || c == L'\''
+        || c == L':') {
+        return true;
+    }
+    return false;
 }
 /* (alnum)((punc)(alnum))+ where every second sequence of alnum must contain at
@@ -589,583 +657,669 @@ bool w_std_is_tok_char(char *t)
  * (alnum) = [a-zA-Z0-9]
  * (punc) = [_\/.,-]
  */
-int std_get_number(char *input)
-{
-  int i = 0;
-  int count = 0;
-  int last_seen_digit = 2;
-  int seen_digit = false;
-  while (last_seen_digit >= 0) {
-    while ((input[i] != '\0') && isalnum(input[i])) {
-      if ((last_seen_digit < 2) && isdigit(input[i])) last_seen_digit = 2;
-      if ((seen_digit == false) && isdigit(input[i])) seen_digit = true;
-      i++;
-    }
-    last_seen_digit--;
-    if (!isnumpunc(input[i]) || !isalnum(input[i+1])) {
-      if (last_seen_digit >= 0)
+static int std_get_number(char *input)
+{
+    int i = 0;
+    int count = 0;
+    int last_seen_digit = 2;
+    int seen_digit = false;
+    while (last_seen_digit >= 0) {
+        while ((input[i] != '\0') && isalnum(input[i])) {
+            if ((last_seen_digit < 2) && isdigit(input[i])) {
+                last_seen_digit = 2;
+            }
+            if ((seen_digit == false) && isdigit(input[i])) {
+                seen_digit = true;
+            }
+            i++;
+        }
+        last_seen_digit--;
+        if (!isnumpunc(input[i]) || !isalnum(input[i + 1])) {
+            if (last_seen_digit >= 0) {
+                count = i;
+            }
+            break;
+        }
         count = i;
-      break;
-    }
-    count = i;
-    i++;
-  }
-  if (seen_digit)
-    return count;
-  else
-    return 0;
+        i++;
+    }
+    if (seen_digit) {
+        return count;
+    }
+    else {
+        return 0;
+    }
 }
-int std_get_apostrophe(char *input)
+static int std_get_apostrophe(char *input)
 {
-  char *t = input;
+    char *t = input;
-  while (isalpha(*t) || *t == '\'')
-    t++;
+    while (isalpha(*t) || *t == '\'') {
+        t++;
+    }
-  return (int)(t - input);
+    return (int)(t - input);
 }
-int mb_std_get_apostrophe(char *input)
+static int mb_std_get_apostrophe(char *input)
 {
-  char *t = input;
-  wchar_t w;
-  int i;
+    char *t = input;
+    wchar_t wchr;
+    int i;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
-  if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  while (iswalpha(w) || w == L'\'') {
-    t += i;
-    if ((i = mbtowc(&w, t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  }
-  return (int)(t - input);
+    i = mb_next_char(&wchr, t, &state);
+    while (iswalpha(wchr) || wchr == L'\'') {
+        t += i;
+        i = mb_next_char(&wchr, t, &state);
+    }
+    return (int)(t - input);
 }
-int std_get_url(char *input, char *token, int i)
+static int std_get_url(char *input, char *token, int i)
 {
-  while (isurlc(input[i])) {
-    if (isurlpunc(input[i]) && isurlpunc(input[i-1]))
-      break; // can't have to puncs in a row
-    if (i < MAX_WORD_SIZE) token[i] = input[i];
-    i++;
-  }
+    while (isurlc(input[i])) {
+        if (isurlpunc(input[i]) && isurlpunc(input[i - 1])) {
+            break;              /* can't have to puncs in a row */
+        }
+        if (i < MAX_WORD_SIZE) {
+            token[i] = input[i];
+        }
+        i++;
+    }
-  //strip trailing puncs
-  while (isurlpunc(input[i-1])) i--;
+    /* strip trailing puncs */
+    while (isurlpunc(input[i - 1])) {
+        i--;
+    }
-  return i;
+    return i;
 }
 /* Company names can contain '@' and '&' like AT&T and Excite@Home. Let's
- */
-int std_get_company_name(char *input)
+*/
+static int std_get_company_name(char *input)
 {
-  int i = 0;
-  while (isalpha(input[i]) || input[i] == '@' || input[i] == '&')
-    i++;
+    int i = 0;
+    while (isalpha(input[i]) || input[i] == '@' || input[i] == '&') {
+        i++;
+    }
-  return i;
+    return i;
 }
-int mb_std_get_company_name(char *input, TokenStream *ts)
+/*
+static int mb_std_get_company_name(char *input, TokenStream *ts)
 {
-  char *t = input;
-  wchar_t wchr;
-  int i;
+    char *t = input;
+    wchar_t wchr;
+    int i;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
-  MB_NEXT_CHAR;
-  while (iswalpha(wchr) || wchr == L'@' || wchr == L'&') {
-    t += i;
-    MB_NEXT_CHAR;
-  }
+    i = mb_next_char(&wchr, t, &state);
+    while (iswalpha(wchr) || wchr == L'@' || wchr == L'&') {
+        t += i;
+        i = mb_next_char(&wchr, t, &state);
+    }
-  return (int)(t - input);
+    return (int)(t - input);
 }
+*/
-bool std_advance_to_start(TokenStream *ts)
+static bool std_advance_to_start(TokenStream *ts)
 {
-  char *t = ts->t;
-  while (*t != '\0' && !isalnum(*t)) t++;
+    char *t = ts->t;
+    while (*t != '\0' && !isalnum(*t)) {
+        t++;
+    }
-  ts->t = t;
+    ts->t = t;
-  return (*t != '\0');
+    return (*t != '\0');
 }
-bool mb_std_advance_to_start(TokenStream *ts)
+static bool mb_std_advance_to_start(TokenStream *ts)
 {
-  int i;
-  wchar_t w;
+    int i;
+    wchar_t wchr;
+    mbstate_t state; ZEROSET(&state, mbstate_t);
-  if ((i = mbtowc(&w, ts->t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  while (w != 0 && !iswalnum(w)) {
-    ts->t += i;
-    if ((i = mbtowc(&w, ts->t, MB_CUR_MAX)) < 0) RAISE(IO_ERROR, ENC_ERR_MSG);
-  }
+    i = mb_next_char(&wchr, ts->t, &state);
-  return (w != 0);
-}
+    while (wchr != 0 && !iswalnum(wchr)) {
+        ts->t += i;
+        i = mb_next_char(&wchr, ts->t, &state);
+    }
-typedef struct StandardTokenizer {
-  bool (*advance_to_start)(TokenStream *ts);
-  bool (*is_tok_char)(char *c);
-  int (*get_alpha)(TokenStream *ts, char *token);
-  int (*get_apostrophe)(char *input);
-} StandardTokenizer;
+    return (wchr != 0);
+}
-Token *std_next(TokenStream *ts)
+static Token *std_next(TokenStream *ts)
 {
-  StandardTokenizer *std_tz = (StandardTokenizer *)ts->data;
-  char *s;
-  char *t;
-  char *start = NULL;
-  char *num_end = NULL;
-  char token[MAX_WORD_SIZE];
-  int token_i = 0;
-  int len;
-  bool is_acronym;
-  bool seen_at_symbol;
+    StandardTokenizer *std_tz = STDTS(ts);
+    char *s;
+    char *t;
+    char *start = NULL;
+    char *num_end = NULL;
+    char token[MAX_WORD_SIZE];
+    int token_i = 0;
+    int len;
+    bool is_acronym;
+    bool seen_at_symbol;
-  if (!std_tz->advance_to_start(ts)) return NULL;
-  start = t = ts->t;
-  if (isdigit(*t)) {
-    t += std_get_number(t);
-    ts->t = t;
-    tk_set_ts(ts->token, start, t, ts->text, 1);
-  } else {
-    token_i = std_tz->get_alpha(ts, token);
-    t += token_i;
-    if (!std_tz->is_tok_char(t)) {
-      // very common case, ie a plain word, so check and return
-      tk_set_ts(ts->token, start, t, ts->text, 1);
-      ts->t = t;
-      return ts->token;
-    }
-    if (*t == '\'') { // apostrophe case.
-      t += std_tz->get_apostrophe(t);
-      ts->t = t;
-      len = (int)(t - start);
-      // strip possesive
-      if ((t[-1] == 's' || t[-1] == 'S') && t[-2] == '\'') t -= 2;
-      tk_set_ts(ts->token, start, t, ts->text, 1);
-      return ts->token;
-    }
-    if (*t == '&') { // apostrophe case.
-      t += std_get_company_name(t);
-      ts->t = t;
-      tk_set_ts(ts->token, start, t, ts->text, 1);
-      return ts->token;
-    }
-    if (isdigit(*t) || isnumpunc(*t)) { // possibly a number
-      num_end = start + std_get_number(start);
-      if (!std_tz->is_tok_char(num_end)) { // we won't find a longer token
-        ts->t = num_end;
-        tk_set_ts(ts->token, start, num_end, ts->text, 1);
-        return ts->token;
-      }
-      // else there may be a longer token so check
-    }
-    if (t[0] == ':' && t[1] == '/' && t[2] == '/') {
-      // check for a known url start
-      token[token_i] = '\0';
-      t += 3;
-      while (*t == '/') t++;
-      if (isalpha(*t) &&
-          (memcmp(token, "ftp", 3) == 0 ||
-           memcmp(token, "http", 4) == 0 ||
-           memcmp(token, "https", 5) == 0 ||
-           memcmp(token, "file", 4) == 0)) {
-        len = std_get_url(t, token, 0); // dispose of first part of the URL
-      } else { //still treat as url but keep the first part
-        token_i = (int)(t - start);
-        memcpy(token, start, token_i * sizeof(char));
-        len = token_i + std_get_url(t, token, token_i); // keep start
-      }
-      ts->t = t + len;
-      token[len] = 0;
-      tk_set(ts->token, token, len, (int)(start - ts->text),
-		  (int)(ts->t - ts->text), 1);
-      return ts->token;
-    }
-    // now see how long a url we can find.
-    is_acronym = true;
-    seen_at_symbol = false;
-    while (isurlxatc(*t)) {
-      if (is_acronym && !isalpha(*t) && (*t != '.')) {
-        is_acronym = false;
-      }
-      if (isurlxatpunc(*t) && isurlxatpunc(t[-1])) {
-        break; // can't have two punctuation characters in a row
-      }
-      if (*t == '@') {
-        if (seen_at_symbol) {
-          break; // we can only have one @ symbol
-        } else {
-          seen_at_symbol = true;
-        }
-      }
-      t++;
+    if (!std_tz->advance_to_start(ts)) {
+        return NULL;
     }
-    while (isurlxatpunc(t[-1])) t--; // strip trailing punctuation
-    if (t > num_end) {
-      ts->t = t;
+    start = t = ts->t;
+    if (isdigit(*t)) {
+        t += std_get_number(t);
+        ts->t = t;
+        tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
+    }
+    else {
+        token_i = std_tz->get_alpha(ts, token);
+        t += token_i;
+        if (!std_tz->is_tok_char(t)) {
+            /* very common case, ie a plain word, so check and return */
+            ts->t = t;
+            return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
+        }
+        if (*t == '\'') {       /* apostrophe case. */
+            t += std_tz->get_apostrophe(t);
+            ts->t = t;
+            len = (int)(t - start);
+            /* strip possesive */
+            if ((t[-1] == 's' || t[-1] == 'S') && t[-2] == '\'') {
+                t -= 2;
+            }
-      if (is_acronym) { // check that it is one letter followed by one '.'
-        for (s = start; s < t-1; s++) {
-          if (isalpha(*s) && (s[1] != '.')) is_acronym = false;
+            return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
         }
-      }
-      if (is_acronym) {// strip '.'s
-        for (s = start + token_i; s < t; s++) {
-          if (*s != '.') {
-            token[token_i] = *s;
-            token_i++;
-          }
+        if (*t == '&') {        /* apostrophe case. */
+            t += std_get_company_name(t);
+            ts->t = t;
+            return tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
+        }
+        if (isdigit(*t) || isnumpunc(*t)) {      /* possibly a number */
+            num_end = start + std_get_number(start);
+            if (!std_tz->is_tok_char(num_end)) { /* won't find a longer token */
+                ts->t = num_end;
+                return tk_set_ts(&(CTS(ts)->token), start, num_end, ts->text, 1);
+            }
+            /* else there may be a longer token so check */
+        }
+        if (t[0] == ':' && t[1] == '/' && t[2] == '/') {
+            /* check for a known url start */
+            token[token_i] = '\0';
+            t += 3;
+            while (*t == '/') {
+                t++;
+            }
+            if (isalpha(*t) &&
+                (memcmp(token, "ftp", 3) == 0 ||
+                 memcmp(token, "http", 4) == 0 ||
+                 memcmp(token, "https", 5) == 0 ||
+                 memcmp(token, "file", 4) == 0)) {
+                len = std_get_url(t, token, 0); /* dispose of first part of the URL */
+            }
+            else {              /* still treat as url but keep the first part */
+                token_i = (int)(t - start);
+                memcpy(token, start, token_i * sizeof(char));
+                len = token_i + std_get_url(t, token, token_i); /* keep start */
+            }
+            ts->t = t + len;
+            token[len] = 0;
+            return tk_set(&(CTS(ts)->token), token, len, (int)(start - ts->text),
+                   (int)(ts->t - ts->text), 1);
+        }
+        /* now see how long a url we can find. */
+        is_acronym = true;
+        seen_at_symbol = false;
+        while (isurlxatc(*t)) {
+            if (is_acronym && !isalpha(*t) && (*t != '.')) {
+                is_acronym = false;
+            }
+            if (isurlxatpunc(*t) && isurlxatpunc(t[-1])) {
+                break; /* can't have two punctuation characters in a row */
+            }
+            if (*t == '@') {
+                if (seen_at_symbol) {
+                    break; /* we can only have one @ symbol */
+                }
+                else {
+                    seen_at_symbol = true;
+                }
+            }
+            t++;
+        }
+        while (isurlxatpunc(t[-1])) {
+            t--;                /* strip trailing punctuation */
+        }
+        if (t > num_end) {
+            ts->t = t;
+            if (is_acronym) {   /* check it is one letter followed by one '.' */
+                for (s = start; s < t - 1; s++) {
+                    if (isalpha(*s) && (s[1] != '.'))
+                        is_acronym = false;
+                }
+            }
+            if (is_acronym) {   /* strip '.'s */
+                for (s = start + token_i; s < t; s++) {
+                    if (*s != '.') {
+                        token[token_i] = *s;
+                        token_i++;
+                    }
+                }
+                tk_set(&(CTS(ts)->token), token, token_i,
+                       (int)(start - ts->text),
+                       (int)(t - ts->text), 1);
+            }
+            else { /* just return the url as is */
+                tk_set_ts(&(CTS(ts)->token), start, t, ts->text, 1);
+            }
+        }
+        else {                  /* return the number */
+            ts->t = num_end;
+            tk_set_ts(&(CTS(ts)->token), start, num_end, ts->text, 1);
         }
-        tk_set(ts->token, token, token_i, (int)(start - ts->text),
-			(int)(t - ts->text), 1);
-      } else { // just return the url as is
-        tk_set_ts(ts->token, start, t, ts->text, 1);
-      }
-    } else { // return the number
-      ts->t = num_end;
-      tk_set_ts(ts->token, start, num_end, ts->text, 1);
     }
-  }
-  return ts->token;
+    return &(CTS(ts)->token);
 }
-void std_ts_destroy(TokenStream *ts)
+static TokenStream *std_ts_clone_i(TokenStream *orig_ts)
 {
-  free(ts->data);
-  ts_standard_destroy(ts);
+    return ts_clone_size(orig_ts, sizeof(StandardTokenizer));
 }
-void std_ts_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+static TokenStream *std_ts_new()
 {
-  new_ts->data = ALLOC(StandardTokenizer);
-  memcpy(new_ts->data, orig_ts->data, sizeof(StandardTokenizer));
+    TokenStream *ts = ts_new(StandardTokenizer);
+    ts->clone_i     = &std_ts_clone_i;
+    ts->next        = &std_next;
+    return ts;
 }
-TokenStream *standard_tokenizer_create()
+TokenStream *standard_tokenizer_new()
 {
-  TokenStream *ts = ts_create();
+    TokenStream *ts = std_ts_new();
-  StandardTokenizer *std_tz = ALLOC(StandardTokenizer);
-  std_tz->advance_to_start = &std_advance_to_start;
-  std_tz->get_alpha = &std_get_alpha;
-  std_tz->is_tok_char = &std_is_tok_char;
-  std_tz->get_apostrophe = &std_get_apostrophe;
+    STDTS(ts)->advance_to_start = &std_advance_to_start;
+    STDTS(ts)->get_alpha        = &std_get_alpha;
+    STDTS(ts)->is_tok_char      = &std_is_tok_char;
+    STDTS(ts)->get_apostrophe   = &std_get_apostrophe;
-  ts->data = std_tz;
-  ts->destroy = &std_ts_destroy;
-  ts->clone_i = &std_ts_clone_i;
-  ts->next = &std_next;
-  return ts;
+    return ts;
 }
-TokenStream *mb_standard_tokenizer_create()
+TokenStream *mb_standard_tokenizer_new()
 {
-  TokenStream *ts = ts_create();
+    TokenStream *ts = std_ts_new();
-  StandardTokenizer *std_tz = ALLOC(StandardTokenizer);
-  std_tz->advance_to_start = &mb_std_advance_to_start;
-  std_tz->get_alpha = &mb_std_get_alpha;
-  std_tz->is_tok_char = &w_std_is_tok_char;
-  std_tz->get_apostrophe = &mb_std_get_apostrophe;
+    STDTS(ts)->advance_to_start = &mb_std_advance_to_start;
+    STDTS(ts)->get_alpha        = &mb_std_get_alpha;
+    STDTS(ts)->is_tok_char      = &mb_std_is_tok_char;
+    STDTS(ts)->get_apostrophe   = &mb_std_get_apostrophe;
-  ts->data = std_tz;
-  ts->destroy = &std_ts_destroy;
-  ts->clone_i = &std_ts_clone_i;
-  ts->next = &std_next;
-  return ts;
+    return ts;
 }
-void filter_reset(TokenStream *ts, char *text)
+/****************************************************************************
+ *
+ * Filters
+ *
+ ****************************************************************************/
+#define TkFilt(filter) ((TokenFilter *)(filter))
+TokenStream *filter_clone_size(TokenStream *ts, size_t size)
 {
-  ts->sub_ts->reset(ts->sub_ts, text);
+    TokenStream *ts_new = ts_clone_size(ts, size);
+    TkFilt(ts_new)->sub_ts = TkFilt(ts)->sub_ts->clone_i(TkFilt(ts)->sub_ts);
+    return ts_new;
 }
-void filter_destroy(TokenStream *tf)
+static TokenStream *filter_clone_i(TokenStream *ts)
 {
-  ts_deref(tf->sub_ts);
-  if (tf->token != NULL) tk_destroy(tf->token);
-  free(tf);
+    return filter_clone_size(ts, sizeof(TokenFilter));
 }
-void sf_destroy(TokenStream *tf)
+static TokenStream *filter_reset(TokenStream *ts, char *text)
+{
+    TkFilt(ts)->sub_ts->reset(TkFilt(ts)->sub_ts, text);
+    return ts;
+}
+static void filter_destroy_i(TokenStream *ts)
+{
+    ts_deref(TkFilt(ts)->sub_ts);
+    free(ts);
+}
+#define tf_new(type, sub) tf_new_i(sizeof(type), sub)
+TokenStream *tf_new_i(size_t size, TokenStream *sub_ts)
+{
+    TokenStream *ts     = (TokenStream *)ecalloc(size);
+    TkFilt(ts)->sub_ts  = sub_ts;
+    ts->clone_i         = &filter_clone_i;
+    ts->destroy_i       = &filter_destroy_i;
+    ts->reset           = &filter_reset;
+    ts->ref_cnt         = 1;
+    return ts;
+}
+/****************************************************************************
+ * StopFilter
+ ****************************************************************************/
+#define StopFilt(filter) ((StopFilter *)(filter))
+static void sf_destroy_i(TokenStream *ts)
 {
-  HshTable *words = (HshTable *)tf->data;
-  h_destroy(words);
-  filter_destroy(tf);
+    h_destroy(StopFilt(ts)->words);
+    filter_destroy_i(ts);
 }
-void sf_clone_i_i(void *key, void *value, void *arg)
+static void sf_clone_i_i(void *key, void *value, void *arg)
 {
-  HshTable *wordtable = (HshTable *)arg;
-  char *w = estrdup(key);
-  h_set(wordtable, w, w);
+    HashTable *word_table = (HashTable *)arg;
+    char *word = estrdup(key);
+    (void)value;
+    h_set(word_table, word, word);
 }
-void sf_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+static TokenStream *sf_clone_i(TokenStream *orig_ts)
 {
-  new_ts->data = h_new_str(&free, NULL);
-  h_each(orig_ts->data, &sf_clone_i_i, new_ts->data);
+    TokenStream *new_ts = filter_clone_size(orig_ts, sizeof(StopFilter));
+    StopFilt(new_ts)->words = h_new_str(&free, NULL);
+    h_each(StopFilt(orig_ts)->words, &sf_clone_i_i, StopFilt(new_ts)->words);
+    return new_ts;
 }
-Token *sf_next(TokenStream *tf)
+static Token *sf_next(TokenStream *ts)
 {
-  int pos_inc = 1;
-  HshTable *words = (HshTable *)tf->data;
-  Token *tk = tf->sub_ts->next(tf->sub_ts);
-  while ((tk != NULL) && (h_get(words, tk->text) != NULL)) {
-    tk = tf->sub_ts->next(tf->sub_ts);
-    pos_inc++;
-  }
-  if (tk != NULL) tk->pos_inc = pos_inc;
-  return tk;
+    int pos_inc = 1;
+    HashTable *words = StopFilt(ts)->words;
+    TokenFilter *tf = TkFilt(ts);
+    Token *tk = tf->sub_ts->next(tf->sub_ts);
+    while ((tk != NULL) && (h_get(words, tk->text) != NULL)) {
+        tk = tf->sub_ts->next(tf->sub_ts);
+        pos_inc++;
+    }
+    if (tk != NULL) {
+        tk->pos_inc = pos_inc;
+    }
+    return tk;
 }
-TokenStream *stop_filter_create_with_words_len(TokenStream *ts,
-    const char **words, int len)
+TokenStream *stop_filter_new_with_words_len(TokenStream *sub_ts,
+                                            const char **words, int len)
 {
-  int i;
-  char *w;
-  HshTable *wordtable = h_new_str(&free, (free_ft)NULL);
-  TokenStream *tf = ALLOC(TokenStream);
-  tf->sub_ts = ts;
+    int i;
+    char *word;
+    HashTable *word_table = h_new_str(&free, (free_ft) NULL);
+    TokenStream *ts = tf_new(StopFilter, sub_ts);
-  for (i = 0; i < len; i++) {
-    w = estrdup(words[i]);
-    h_set(wordtable, w, w);
-  }
-  tf->data = wordtable;
-  tf->token = NULL;
-  tf->next = &sf_next;
-  tf->reset = &filter_reset;
-  tf->destroy = &sf_destroy;
-  tf->clone_i = &sf_clone_i;
-  tf->ref_cnt = 1;
-  return tf;
+    for (i = 0; i < len; i++) {
+        word = estrdup(words[i]);
+        h_set(word_table, word, word);
+    }
+    StopFilt(ts)->words = word_table;
+    ts->next            = &sf_next;
+    ts->destroy_i       = &sf_destroy_i;
+    ts->clone_i         = &sf_clone_i;
+    return ts;
 }
-TokenStream *stop_filter_create_with_words(TokenStream *ts, const char **words)
+TokenStream *stop_filter_new_with_words(TokenStream *sub_ts,
+                                        const char **words)
 {
-  char *w;
-  HshTable *wordtable = h_new_str(&free, (free_ft)NULL);
-  TokenStream *tf = ALLOC(TokenStream);
-  tf->sub_ts = ts;
-  while (*words) {
-    w = estrdup(*words);
-    h_set(wordtable, w, w);
-    words++;
-  }
-  tf->data = wordtable;
-  tf->token = NULL;
-  tf->next = &sf_next;
-  tf->reset = &filter_reset;
-  tf->destroy = &sf_destroy;
-  tf->clone_i = &sf_clone_i;
-  tf->ref_cnt = 1;
-  return tf;
+    char *word;
+    HashTable *word_table = h_new_str(&free, (free_ft) NULL);
+    TokenStream *ts = tf_new(StopFilter, sub_ts);
+    while (*words) {
+        word = estrdup(*words);
+        h_set(word_table, word, word);
+        words++;
+    }
+    StopFilt(ts)->words = word_table;
+    ts->next            = &sf_next;
+    ts->destroy_i       = &sf_destroy_i;
+    ts->clone_i         = &sf_clone_i;
+    return ts;
 }
-TokenStream *stop_filter_create(TokenStream *ts)
+TokenStream *stop_filter_new(TokenStream *ts)
 {
-  return stop_filter_create_with_words(ts, FULL_ENGLISH_STOP_WORDS);
+    return stop_filter_new_with_words(ts, FULL_ENGLISH_STOP_WORDS);
 }
+/****************************************************************************
+ * LowerCaseFilter
+ ****************************************************************************/
 Token *mb_lcf_next(TokenStream *ts)
 {
-  wchar_t wbuf[MAX_WORD_SIZE], *w;
-  //mbstate_t state = {0};
-  int i;
-  Token *tk = ts->sub_ts->next(ts->sub_ts);
-  if (tk == NULL) return tk;
+    wchar_t wbuf[MAX_WORD_SIZE], *wchr;
+    Token *tk = TkFilt(ts)->sub_ts->next(TkFilt(ts)->sub_ts);
-  i = (int)mbstowcs(wbuf, tk->text, MAX_WORD_SIZE);
-  w = wbuf;
-  while (*w != 0) {
-    *w = towlower(*w);
-    w++;
-  }
-  wcstombs(tk->text, wbuf, MAX_WORD_SIZE);
-  return tk;
+    if (tk == NULL) {
+        return tk;
+    }
+    mbstowcs(wbuf, tk->text, MAX_WORD_SIZE);
+    wchr = wbuf;
+    while (*wchr != 0) {
+        *wchr = towlower(*wchr);
+        wchr++;
+    }
+    tk->len = wcstombs(tk->text, wbuf, MAX_WORD_SIZE);
+    tk->text[tk->len] = '\0';
+    return tk;
 }
-TokenStream *mb_lowercase_filter_create(TokenStream *ts)
+TokenStream *mb_lowercase_filter_new(TokenStream *sub_ts)
 {
-  TokenStream *tf = ALLOC(TokenStream);
-  tf->token = NULL;
-  tf->next = &mb_lcf_next;
-  tf->reset = &filter_reset;
-  tf->destroy = &filter_destroy;
-  tf->sub_ts = ts;
-  tf->clone_i = NULL;
-  tf->ref_cnt = 1;
-  return tf;
+    TokenStream *ts = tf_new(TokenFilter, sub_ts);
+    ts->next = &mb_lcf_next;
+    return ts;
 }
 Token *lcf_next(TokenStream *ts)
 {
-  int i = 0;
-  Token *tk = ts->sub_ts->next(ts->sub_ts);
-  if (tk == NULL) return tk;
-  while (tk->text[i] != '\0') {
-    tk->text[i] = tolower(tk->text[i]);
-    i++;
-  }
-  return tk;
+    int i = 0;
+    Token *tk = TkFilt(ts)->sub_ts->next(TkFilt(ts)->sub_ts);
+    if (tk == NULL) {
+        return tk;
+    }
+    while (tk->text[i] != '\0') {
+        tk->text[i] = tolower(tk->text[i]);
+        i++;
+    }
+    return tk;
 }
-TokenStream *lowercase_filter_create(TokenStream *ts)
+TokenStream *lowercase_filter_new(TokenStream *sub_ts)
 {
-  TokenStream *tf = ALLOC(TokenStream);
-  tf->token = NULL;
-  tf->next = &lcf_next;
-  tf->reset = &filter_reset;
-  tf->destroy = &filter_destroy;
-  tf->sub_ts = ts;
-  tf->clone_i = NULL;
-  tf->ref_cnt = 1;
-  return tf;
+    TokenStream *ts = tf_new(TokenFilter, sub_ts);
+    ts->next = &lcf_next;
+    return ts;
 }
-typedef struct StemFilter {
-  struct sb_stemmer *stemmer;
-  char *algorithm;
-  char *charenc;
-} StemFilter;
+/****************************************************************************
+ * StemFilter
+ ****************************************************************************/
+#define StemFilt(filter) ((StemFilter *)(filter))
-void stemf_destroy(TokenStream *tf)
+void stemf_destroy_i(TokenStream *ts)
 {
-  StemFilter *stemf = (StemFilter *)tf->data;
-  sb_stemmer_delete(stemf->stemmer);
-  free(stemf->algorithm);
-  free(stemf->charenc);
-  free(stemf);
-  filter_destroy(tf);
+    sb_stemmer_delete(StemFilt(ts)->stemmer);
+    free(StemFilt(ts)->algorithm);
+    free(StemFilt(ts)->charenc);
+    filter_destroy_i(ts);
 }
 Token *stemf_next(TokenStream *ts)
 {
-  int len;
-  const sb_symbol *stemmed;
-  struct sb_stemmer *stemmer = ((StemFilter *)ts->data)->stemmer;
-  Token *tk = ts->sub_ts->next(ts->sub_ts);
-  if (tk == NULL) return tk;
-  stemmed = sb_stemmer_stem(stemmer, (sb_symbol *)tk->text, (int)strlen(tk->text));
-  len = sb_stemmer_length(stemmer);
-  if (len >= MAX_WORD_SIZE) len = MAX_WORD_SIZE - 1;
-  memcpy(tk->text, stemmed, len);
-  tk->text[len] = '\0';
-  return tk;
+    int len;
+    const sb_symbol *stemmed;
+    struct sb_stemmer *stemmer = StemFilt(ts)->stemmer;
+    TokenFilter *tf = TkFilt(ts);
+    Token *tk = tf->sub_ts->next(tf->sub_ts);
+    if (tk == NULL) {
+        return tk;
+    }
+    stemmed = sb_stemmer_stem(stemmer, (sb_symbol *)tk->text, tk->len);
+    len = sb_stemmer_length(stemmer);
+    if (len >= MAX_WORD_SIZE) {
+        len = MAX_WORD_SIZE - 1;
+    }
+    memcpy(tk->text, stemmed, len);
+    tk->text[len] = '\0';
+    tk->len = len;
+    return tk;
 }
-void stemf_clone_i(TokenStream *orig_ts, TokenStream *new_ts)
+TokenStream *stemf_clone_i(TokenStream *orig_ts)
 {
-  StemFilter *orig_stemf = (StemFilter *)orig_ts->data;
-  StemFilter *stemf = ALLOC(StemFilter);
-  stemf->stemmer = sb_stemmer_new(orig_stemf->algorithm, orig_stemf->charenc);
-  stemf->algorithm = orig_stemf->algorithm ? estrdup(orig_stemf->algorithm) : NULL;
-  stemf->charenc = orig_stemf->charenc ? estrdup(orig_stemf->charenc) : NULL;
-  new_ts->data = stemf;
+    TokenStream *new_ts      = filter_clone_size(orig_ts, sizeof(StemFilter));
+    StemFilter *stemf        = StemFilt(new_ts);
+    StemFilter *orig_stemf   = StemFilt(orig_ts);
+    stemf->stemmer =
+        sb_stemmer_new(orig_stemf->algorithm, orig_stemf->charenc);
+    stemf->algorithm =
+        orig_stemf->algorithm ? estrdup(orig_stemf->algorithm) : NULL;
+    stemf->charenc =
+        orig_stemf->charenc ? estrdup(orig_stemf->charenc) : NULL;
+    return new_ts;
 }
-TokenStream *stem_filter_create(TokenStream *ts, const char * algorithm,
-    const char * charenc)
+TokenStream *stem_filter_new(TokenStream *ts, const char *algorithm,
+                             const char *charenc)
 {
-  TokenStream *tf = ALLOC(TokenStream);
-  StemFilter *stemf = ALLOC(StemFilter);
-  stemf->stemmer = sb_stemmer_new(algorithm, charenc);
-  stemf->algorithm = algorithm ? estrdup(algorithm) : NULL;
-  stemf->charenc = charenc ? estrdup(charenc) : NULL;
-  tf->data = stemf;
+    TokenStream *tf = tf_new(StemFilter, ts);
+    StemFilt(tf)->stemmer   = sb_stemmer_new(algorithm, charenc);
+    StemFilt(tf)->algorithm = algorithm ? estrdup(algorithm) : NULL;
+    StemFilt(tf)->charenc   = charenc ? estrdup(charenc) : NULL;
-  tf->token = NULL;
-  tf->next = &stemf_next;
-  tf->reset = &filter_reset;
-  tf->destroy = &stemf_destroy;
-  tf->clone_i = &stemf_clone_i;
-  tf->sub_ts = ts;
-  tf->ref_cnt = 1;
-  return tf;
+    tf->next = &stemf_next;
+    tf->destroy_i = &stemf_destroy_i;
+    tf->clone_i = &stemf_clone_i;
+    return tf;
 }
-Analyzer *standard_analyzer_create_with_words_len(
-    const char **words, int len, bool lowercase)
+/****************************************************************************
+ *
+ * Analyzers
+ *
+ ****************************************************************************/
+/****************************************************************************
+ * Standard
+ ****************************************************************************/
+Analyzer *standard_analyzer_new_with_words_len(const char **words, int len,
+                                               bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = stop_filter_create_with_words_len(
-        lowercase_filter_create(standard_tokenizer_create()), words, len);
-  } else {
-    ts = stop_filter_create_with_words_len(
-        standard_tokenizer_create(), words, len);
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = stop_filter_new_with_words_len(lowercase_filter_new
+                                            (standard_tokenizer_new()),
+                                            words, len);
+    }
+    else {
+        ts = stop_filter_new_with_words_len(standard_tokenizer_new(),
+                                            words, len);
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *standard_analyzer_create_with_words(const char **words, bool lowercase)
+Analyzer *standard_analyzer_new_with_words(const char **words,
+                                           bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = stop_filter_create_with_words(
-        lowercase_filter_create(standard_tokenizer_create()), words);
-  } else {
-    ts = stop_filter_create_with_words(
-        standard_tokenizer_create(), words);
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = stop_filter_new_with_words(lowercase_filter_new
+                                        (standard_tokenizer_new()),
+                                        words);
+    }
+    else {
+        ts = stop_filter_new_with_words(standard_tokenizer_new(),
+                                        words);
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *mb_standard_analyzer_create_with_words_len(
-    const char **words, int len, bool lowercase)
+Analyzer *mb_standard_analyzer_new_with_words_len(const char **words,
+                                                  int len, bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = stop_filter_create_with_words_len(
-      mb_lowercase_filter_create(mb_standard_tokenizer_create()), words, len);
-  } else {
-    ts = stop_filter_create_with_words_len(
-        mb_standard_tokenizer_create(), words, len);
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = stop_filter_new_with_words_len(mb_lowercase_filter_new
+                                            (mb_standard_tokenizer_new
+                                             ()), words, len);
+    }
+    else {
+        ts = stop_filter_new_with_words_len(mb_standard_tokenizer_new(),
+                                            words, len);
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *mb_standard_analyzer_create_with_words(
-    const char **words, bool lowercase)
+Analyzer *mb_standard_analyzer_new_with_words(const char **words,
+                                              bool lowercase)
 {
-  TokenStream *ts;
-  if (lowercase) {
-    ts = stop_filter_create_with_words(
-      mb_lowercase_filter_create(mb_standard_tokenizer_create()), words);
-  } else {
-    ts = stop_filter_create_with_words(mb_standard_tokenizer_create(), words);
-  }
-  return analyzer_create(NULL, ts, NULL, NULL);
+    TokenStream *ts;
+    if (lowercase) {
+        ts = stop_filter_new_with_words(mb_lowercase_filter_new
+                                        (mb_standard_tokenizer_new()),
+                                        words);
+    }
+    else {
+        ts = stop_filter_new_with_words(mb_standard_tokenizer_new(),
+                                        words);
+    }
+    return analyzer_new(ts, NULL, NULL);
 }
-Analyzer *standard_analyzer_create(bool lowercase)
+Analyzer *standard_analyzer_new(bool lowercase)
 {
-  return standard_analyzer_create_with_words(FULL_ENGLISH_STOP_WORDS, lowercase);
+    return standard_analyzer_new_with_words(FULL_ENGLISH_STOP_WORDS,
+                                            lowercase);
 }
-Analyzer *mb_standard_analyzer_create(bool lowercase)
+Analyzer *mb_standard_analyzer_new(bool lowercase)
 {
-  return mb_standard_analyzer_create_with_words(FULL_ENGLISH_STOP_WORDS, lowercase);
+    return mb_standard_analyzer_new_with_words(FULL_ENGLISH_STOP_WORDS,
+                                               lowercase);
 }
 /****************************************************************************
@@ -1174,58 +1328,63 @@ Analyzer *mb_standard_analyzer_create(bool lowercase)
  *
  ****************************************************************************/
-void pfa_destroy(Analyzer *self)
+#define PFA(analyzer) ((PerFieldAnalyzer *)(analyzer))
+void pfa_destroy_i(Analyzer *self)
 {
-  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
-  h_destroy(pfa->dict);
+    h_destroy(PFA(self)->dict);
-  a_deref(pfa->def);
-  free(pfa);
-  free(self);
+    a_deref(PFA(self)->default_a);
+    free(self);
 }
 TokenStream *pfa_get_ts(Analyzer *self, char *field, char *text)
 {
-  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
-  Analyzer *a = h_get(pfa->dict, field);
-  if (a == NULL) a = pfa->def;
-  return a_get_ts(a, field, text);
+    Analyzer *a = h_get(PFA(self)->dict, field);
+    if (a == NULL) {
+        a = PFA(self)->default_a;
+    }
+    return a_get_ts(a, field, text);
 }
-void pfa_sub_a_destroy(void *p)
+void pfa_sub_a_destroy_i(void *p)
 {
-  Analyzer *a = (Analyzer *)p;
-  a_deref(a);
+    Analyzer *a = (Analyzer *) p;
+    a_deref(a);
 }
 void pfa_add_field(Analyzer *self, char *field, Analyzer *analyzer)
 {
-  PerFieldAnalyzer *pfa = (PerFieldAnalyzer *)self->data;
-  h_set(pfa->dict, estrdup(field), analyzer);
+    h_set(PFA(self)->dict, estrdup(field), analyzer);
 }
-Analyzer *per_field_analyzer_create(Analyzer *def)
+Analyzer *per_field_analyzer_new(Analyzer *default_a)
 {
-  PerFieldAnalyzer *pfa = ALLOC(PerFieldAnalyzer);
-  pfa->def = def;
-  pfa->dict = h_new_str(&free, &pfa_sub_a_destroy);
-  return analyzer_create(pfa, NULL, &pfa_destroy, &pfa_get_ts);
+    Analyzer *a = (Analyzer *)ecalloc(sizeof(PerFieldAnalyzer));
+    PFA(a)->default_a = default_a;
+    PFA(a)->dict = h_new_str(&free, &pfa_sub_a_destroy_i);
+    a->destroy_i = &pfa_destroy_i;
+    a->get_ts    = pfa_get_ts;
+    return a;
 }
 #ifdef ALONE
 int main(int argc, char **argv)
 {
-  char buf[10000];
-  Analyzer *a = standard_analyzer_create(true);
-  TokenStream *ts;
-  Token *tk;
-  while (fgets(buf, 9999, stdin) != NULL) {
-    ts = a->get_ts(a, "hello", buf);
-    while ((tk = ts->next(ts)) != NULL) {
-      printf("<%s:%ld:%ld> ", tk->text, tk->start, tk->end);
-    }
-    printf("\n");
-  }
-  return 0;
+    char buf[10000];
+    Analyzer *a = standard_analyzer_new(true);
+    TokenStream *ts;
+    Token *tk;
+    while (fgets(buf, 9999, stdin) != NULL) {
+        ts = a_get_ts(a, "hello", buf);
+        while ((tk = ts->next(ts)) != NULL) {
+            printf("<%s:%ld:%ld> ", tk->text, tk->start, tk->end);
+        }
+        printf("\n");
+        ts_deref(ts);
+    }
+    return 0;
 }
 #endif