RubyGems - ferret - Versions diffs - 0.11.6 → 0.11.8.4 - Mend

ferret 0.11.6 → 0.11.8.4

Files changed (185) hide show

data/README +10 -22
data/RELEASE_CHANGES +137 -0
data/RELEASE_NOTES +60 -0
data/Rakefile +379 -274
data/TODO +100 -8
data/bin/ferret-browser +0 -0
data/ext/BZLIB_blocksort.c +1094 -0
data/ext/BZLIB_bzlib.c +1578 -0
data/ext/BZLIB_compress.c +672 -0
data/ext/BZLIB_crctable.c +104 -0
data/ext/BZLIB_decompress.c +626 -0
data/ext/BZLIB_huffman.c +205 -0
data/ext/BZLIB_randtable.c +84 -0
data/ext/{api.c → STEMMER_api.c} +7 -10
data/ext/{libstemmer.c → STEMMER_libstemmer.c} +3 -2
data/ext/{stem_ISO_8859_1_danish.c → STEMMER_stem_ISO_8859_1_danish.c} +123 -124
data/ext/{stem_ISO_8859_1_dutch.c → STEMMER_stem_ISO_8859_1_dutch.c} +177 -188
data/ext/STEMMER_stem_ISO_8859_1_english.c +1117 -0
data/ext/{stem_ISO_8859_1_finnish.c → STEMMER_stem_ISO_8859_1_finnish.c} +276 -306
data/ext/STEMMER_stem_ISO_8859_1_french.c +1246 -0
data/ext/{stem_ISO_8859_1_german.c → STEMMER_stem_ISO_8859_1_german.c} +161 -170
data/ext/STEMMER_stem_ISO_8859_1_hungarian.c +1230 -0
data/ext/STEMMER_stem_ISO_8859_1_italian.c +1065 -0
data/ext/STEMMER_stem_ISO_8859_1_norwegian.c +297 -0
data/ext/{stem_ISO_8859_1_porter.c → STEMMER_stem_ISO_8859_1_porter.c} +263 -290
data/ext/{stem_ISO_8859_1_portuguese.c → STEMMER_stem_ISO_8859_1_portuguese.c} +362 -380
data/ext/STEMMER_stem_ISO_8859_1_spanish.c +1093 -0
data/ext/STEMMER_stem_ISO_8859_1_swedish.c +307 -0
data/ext/STEMMER_stem_ISO_8859_2_romanian.c +998 -0
data/ext/{stem_KOI8_R_russian.c → STEMMER_stem_KOI8_R_russian.c} +244 -245
data/ext/STEMMER_stem_UTF_8_danish.c +339 -0
data/ext/{stem_UTF_8_dutch.c → STEMMER_stem_UTF_8_dutch.c} +192 -211
data/ext/STEMMER_stem_UTF_8_english.c +1125 -0
data/ext/{stem_UTF_8_finnish.c → STEMMER_stem_UTF_8_finnish.c} +284 -324
data/ext/STEMMER_stem_UTF_8_french.c +1256 -0
data/ext/{stem_UTF_8_german.c → STEMMER_stem_UTF_8_german.c} +170 -187
data/ext/STEMMER_stem_UTF_8_hungarian.c +1234 -0
data/ext/STEMMER_stem_UTF_8_italian.c +1073 -0
data/ext/STEMMER_stem_UTF_8_norwegian.c +299 -0
data/ext/{stem_UTF_8_porter.c → STEMMER_stem_UTF_8_porter.c} +271 -310
data/ext/STEMMER_stem_UTF_8_portuguese.c +1023 -0
data/ext/STEMMER_stem_UTF_8_romanian.c +1004 -0
data/ext/STEMMER_stem_UTF_8_russian.c +694 -0
data/ext/STEMMER_stem_UTF_8_spanish.c +1097 -0
data/ext/STEMMER_stem_UTF_8_swedish.c +309 -0
data/ext/STEMMER_stem_UTF_8_turkish.c +2205 -0
data/ext/{utilities.c → STEMMER_utilities.c} +100 -68
data/ext/analysis.c +276 -121
data/ext/analysis.h +190 -143
data/ext/api.h +3 -4
data/ext/array.c +5 -3
data/ext/array.h +52 -43
data/ext/bitvector.c +38 -482
data/ext/bitvector.h +446 -124
data/ext/bzlib.h +282 -0
data/ext/bzlib_private.h +503 -0
data/ext/compound_io.c +23 -22
data/ext/config.h +21 -11
data/ext/document.c +43 -40
data/ext/document.h +31 -21
data/ext/except.c +20 -38
data/ext/except.h +89 -76
data/ext/extconf.rb +3 -2
data/ext/ferret.c +49 -35
data/ext/ferret.h +14 -11
data/ext/field_index.c +262 -0
data/ext/field_index.h +52 -0
data/ext/filter.c +11 -10
data/ext/fs_store.c +65 -47
data/ext/global.c +245 -165
data/ext/global.h +252 -54
data/ext/hash.c +200 -243
data/ext/hash.h +205 -163
data/ext/hashset.c +118 -96
data/ext/hashset.h +110 -82
data/ext/header.h +19 -19
data/ext/helper.c +11 -10
data/ext/helper.h +14 -6
data/ext/index.c +745 -366
data/ext/index.h +503 -529
data/ext/internal.h +1020 -0
data/ext/lang.c +10 -0
data/ext/lang.h +35 -15
data/ext/mempool.c +5 -4
data/ext/mempool.h +30 -22
data/ext/modules.h +35 -7
data/ext/multimapper.c +43 -2
data/ext/multimapper.h +32 -23
data/ext/posh.c +0 -0
data/ext/posh.h +4 -38
data/ext/priorityqueue.c +10 -12
data/ext/priorityqueue.h +33 -21
data/ext/q_boolean.c +22 -9
data/ext/q_const_score.c +3 -2
data/ext/q_filtered_query.c +15 -12
data/ext/q_fuzzy.c +147 -135
data/ext/q_match_all.c +3 -2
data/ext/q_multi_term.c +28 -32
data/ext/q_parser.c +451 -173
data/ext/q_phrase.c +158 -79
data/ext/q_prefix.c +16 -18
data/ext/q_range.c +363 -31
data/ext/q_span.c +130 -141
data/ext/q_term.c +21 -21
data/ext/q_wildcard.c +19 -23
data/ext/r_analysis.c +369 -242
data/ext/r_index.c +421 -434
data/ext/r_qparser.c +142 -92
data/ext/r_search.c +790 -407
data/ext/r_store.c +44 -44
data/ext/r_utils.c +264 -96
data/ext/ram_store.c +29 -23
data/ext/scanner.c +895 -0
data/ext/scanner.h +36 -0
data/ext/scanner_mb.c +6701 -0
data/ext/scanner_utf8.c +4415 -0
data/ext/search.c +210 -87
data/ext/search.h +556 -488
data/ext/similarity.c +17 -16
data/ext/similarity.h +51 -44
data/ext/sort.c +157 -354
data/ext/stem_ISO_8859_1_hungarian.h +16 -0
data/ext/stem_ISO_8859_2_romanian.h +16 -0
data/ext/stem_UTF_8_hungarian.h +16 -0
data/ext/stem_UTF_8_romanian.h +16 -0
data/ext/stem_UTF_8_turkish.h +16 -0
data/ext/stopwords.c +287 -278
data/ext/store.c +57 -51
data/ext/store.h +308 -286
data/ext/symbol.c +10 -0
data/ext/symbol.h +23 -0
data/ext/term_vectors.c +14 -293
data/ext/threading.h +22 -22
data/ext/win32.h +12 -4
data/lib/ferret.rb +2 -1
data/lib/ferret/browser.rb +1 -1
data/lib/ferret/field_symbol.rb +94 -0
data/lib/ferret/index.rb +221 -34
data/lib/ferret/number_tools.rb +6 -6
data/lib/ferret/version.rb +3 -0
data/test/{unit → long_running}/largefile/tc_largefile.rb +1 -1
data/test/test_helper.rb +7 -2
data/test/test_installed.rb +1 -0
data/test/threading/thread_safety_index_test.rb +10 -1
data/test/threading/thread_safety_read_write_test.rb +4 -7
data/test/threading/thread_safety_test.rb +0 -0
data/test/unit/analysis/tc_analyzer.rb +29 -27
data/test/unit/analysis/tc_token_stream.rb +23 -16
data/test/unit/index/tc_index.rb +116 -11
data/test/unit/index/tc_index_reader.rb +27 -27
data/test/unit/index/tc_index_writer.rb +10 -0
data/test/unit/index/th_doc.rb +38 -21
data/test/unit/search/tc_filter.rb +31 -10
data/test/unit/search/tc_index_searcher.rb +6 -0
data/test/unit/search/tm_searcher.rb +53 -1
data/test/unit/store/tc_fs_store.rb +40 -2
data/test/unit/store/tc_ram_store.rb +0 -0
data/test/unit/store/tm_store.rb +0 -0
data/test/unit/store/tm_store_lock.rb +7 -6
data/test/unit/tc_field_symbol.rb +26 -0
data/test/unit/ts_analysis.rb +0 -0
data/test/unit/ts_index.rb +0 -0
data/test/unit/ts_store.rb +0 -0
data/test/unit/ts_utils.rb +0 -0
data/test/unit/utils/tc_number_tools.rb +0 -0
data/test/utils/content_generator.rb +226 -0
metadata +262 -221
data/ext/inc/lang.h +0 -48
data/ext/inc/threading.h +0 -31
data/ext/stem_ISO_8859_1_english.c +0 -1156
data/ext/stem_ISO_8859_1_french.c +0 -1276
data/ext/stem_ISO_8859_1_italian.c +0 -1091
data/ext/stem_ISO_8859_1_norwegian.c +0 -296
data/ext/stem_ISO_8859_1_spanish.c +0 -1119
data/ext/stem_ISO_8859_1_swedish.c +0 -307
data/ext/stem_UTF_8_danish.c +0 -344
data/ext/stem_UTF_8_english.c +0 -1176
data/ext/stem_UTF_8_french.c +0 -1296
data/ext/stem_UTF_8_italian.c +0 -1113
data/ext/stem_UTF_8_norwegian.c +0 -302
data/ext/stem_UTF_8_portuguese.c +0 -1055
data/ext/stem_UTF_8_russian.c +0 -709
data/ext/stem_UTF_8_spanish.c +0 -1137
data/ext/stem_UTF_8_swedish.c +0 -313
data/lib/ferret_version.rb +0 -3

data/ext/q_fuzzy.c CHANGED

@@ -1,21 +1,41 @@
 #include <string.h>
 #include "search.h"
 #include "helper.h"
+#include "internal.h"
 /****************************************************************************
  *
  * FuzzyStuff
  *
- * The main method here is the fuzq_score method which scores a term against
- * another term. The other methods all act in support.
+ * The main method here is the fuzq_score_mn method which scores a term
+ * against another term. The other methods all act in support.
+ *
+ * To learn more about the fuzzy scoring algorithm see;
+ *
+ *     http://en.wikipedia.org/wiki/Levenshtein_distance
  *
  ****************************************************************************/
-static INLINE int fuzq_calculate_max_distance(FuzzyQuery *fuzq, int m)
+/**
+ * Calculate the maximum nomber of allowed edits (or maximum edit distance)
+ * for a word to be a match.
+ *
+ * Note that fuzq->text_len and m are both the lengths text *after* the prefix
+ * so `MIN(fuzq->text_len, m) + fuzq->pre_len)` actually gets the byte length
+ * of the shorter string out of the query string and the index term being
+ * compared.
+ */
+static INLINE int fuzq_calculate_max_distance(FuzzyQuery *fuzq, int m)
 {
     return (int)((1.0 - fuzq->min_sim) * (MIN(fuzq->text_len, m) + fuzq->pre_len));
 }
+/**
+ * The max-distance formula gets used a lot - it needs to be calculated for
+ * every possible match in the index - so we cache the results for all
+ * lengths up to the TYPICAL_LONGEST_WORD limit. For words longer than this we
+ * calculate the value live.
+ */
 static void fuzq_initialize_max_distances(FuzzyQuery *fuzq)
 {
     int i;
@@ -24,10 +44,79 @@ static void fuzq_initialize_max_distances(FuzzyQuery *fuzq)
     }
 }
+/**
+ * Return the cached max-distance value if the word is within the
+ * TYPICAL_LONGEST_WORD limit.
+ */
 static INLINE int fuzq_get_max_distance(FuzzyQuery *fuzq, int m)
 {
-    return (m < TYPICAL_LONGEST_WORD) ? fuzq->max_distances[m]
-        : fuzq_calculate_max_distance(fuzq, m);
+    if (m < TYPICAL_LONGEST_WORD)
+        return fuzq->max_distances[m];
+    return fuzq_calculate_max_distance(fuzq, m);
+}
+/**
+ * Calculate the similarity score for the +target+ against the query.
+ *
+ * @params fuzq The Fuzzy Query
+ * @params target *the term to compare against minus the prefix
+ * @params m the string length of +target+
+ * @params n the string length of the query string minus length of the prefix
+ */
+static INLINE float fuzq_score_mn(FuzzyQuery *fuzq,
+                                  const char *target,
+                                  const int m, const int n)
+{
+    int i, j, prune;
+    int *d_curr, *d_prev;
+    const char *text = fuzq->text;
+    const int max_distance = fuzq_get_max_distance(fuzq, m);
+    /* Just adding the characters of m to n or vice-versa results in
+     * too many edits for example "pre" length is 3 and "prefixes"
+     * length is 8. We can see that given this optimal circumstance,
+     * the edit distance cannot be less than 5 which is 8-3 or more
+     * precisesly Math.abs(3-8). If our maximum edit distance is 4,
+     * then we can discard this word without looking at it. */
+    if (max_distance < ABS(m-n)) {
+        return 0.0f;
+    }
+    d_curr = fuzq->da;
+    d_prev = d_curr + n + 1;
+    /* init array */
+    for (j = 0; j <= n; j++) {
+        d_curr[j] = j;
+    }
+    /* start computing edit distance */
+    for (i = 0; i < m;) {
+        char s_i = target[i];
+        /* swap d_current into d_prev */
+        int *d_tmp = d_prev;
+        d_prev = d_curr;
+        d_curr = d_tmp;
+        prune = (d_curr[0] = ++i) > max_distance;
+        for (j = 0; j < n; j++) {
+            d_curr[j + 1] = (s_i == text[j])
+                ? min3(d_prev[j + 1] + 1, d_curr[j] + 1, d_prev[j])
+                : min3(d_prev[j + 1], d_curr[j], d_prev[j]) + 1;
+            if (prune && d_curr[j + 1] <= max_distance) {
+                prune = false;
+            }
+        }
+        if (prune) {
+            return 0.0f;
+        }
+    }
+    /* this will return less than 0.0 when the edit distance is greater
+     * than the number of characters in the shorter word.  but this was
+     * the formula that was previously used in FuzzyTermEnum, so it has
+     * not been changed (even though min_sim must be greater than 0.0) */
+    return 1.0f - ((float)d_curr[n] / (float) (fuzq->pre_len + min2(n, m)));
 }
 /**
@@ -41,76 +130,15 @@ float fuzq_score(FuzzyQuery *fuzq, const char *target)
     const int m = (int)strlen(target);
     const int n = fuzq->text_len;
-    if (n == 0)  {
-        /* we don't have anything to compare.  That means if we just add
-         * the letters for m we get the new word */
-        return fuzq->pre_len == 0 ? 0.0f : 1.0f - ((float) m / fuzq->pre_len);
-    }
-    else if (m == 0) {
-        return fuzq->pre_len == 0 ? 0.0f : 1.0f - ((float) n / fuzq->pre_len);
-    }
-    else {
-        int i, j, prune;
-        int *d_curr, *d_prev;
-        const char *text = fuzq->text;
-        const int max_distance = fuzq_get_max_distance(fuzq, m);
-        /*
-         printf("n%dm%dmd%ddiff%d<%s><%s>\n", n, m, max_distance, m-n,
-               fuzq->text, target);
-         */
-        if (max_distance < ((m > n) ? (m-n) : (n-m))) { /* abs */
-            /* Just adding the characters of m to n or vice-versa results in
-             * too many edits for example "pre" length is 3 and "prefixes"
-             * length is 8. We can see that given this optimal circumstance,
-             * the edit distance cannot be less than 5 which is 8-3 or more
-             * precisesly Math.abs(3-8). If our maximum edit distance is 4,
-             * then we can discard this word without looking at it. */
+    /* we don't have anything to compare.  That means if we just add
+     * the letters for m we get the new word */
+    if (m == 0 || n == 0) {
+        if (fuzq->pre_len == 0)
             return 0.0f;
-        }
-        d_curr = fuzq->da;
-        d_prev = d_curr + n + 1;
-        /* init array */
-        for (j = 0; j <= n; j++) {
-            d_curr[j] = j;
-        }
-        /* start computing edit distance */
-        for (i = 0; i < m;) {
-           char s_i = target[i];
-           /* swap d_current into d_prev */
-           int *d_tmp = d_prev;
-           d_prev = d_curr;
-           d_curr = d_tmp;
-           prune = (d_curr[0] = ++i) > max_distance;
-           for (j = 0; j < n; j++) {
-               d_curr[j + 1] = (s_i == text[j])
-                   ? min3(d_prev[j + 1] + 1, d_curr[j] + 1, d_prev[j])
-                   : min3(d_prev[j + 1], d_curr[j], d_prev[j]) + 1;
-               if (prune && d_curr[j + 1] <= max_distance) {
-                   prune = false;
-               }
-           }
-           if (prune) {
-               return 0.0f;
-           }
-        }
-        /*
-        printf("<%f, d_curr[n] = %d min_len = %d>",
-               1.0f - ((float)d_curr[m] / (float) (fuzq->pre_len + min2(n, m))),
-               d_curr[m], fuzq->pre_len + min2(n, m));
-               */
-        /* this will return less than 0.0 when the edit distance is greater
-         * than the number of characters in the shorter word.  but this was
-         * the formula that was previously used in FuzzyTermEnum, so it has
-         * not been changed (even though min_sim must be greater than 0.0) */
-        return 1.0f - ((float)d_curr[n] / (float) (fuzq->pre_len + min2(n, m)));
+        return 1.0f - ((float) (m+n) / fuzq->pre_len);
     }
+    return fuzq_score_mn(fuzq, target, m, n);
 }
 /****************************************************************************
@@ -121,22 +149,18 @@ float fuzq_score(FuzzyQuery *fuzq, const char *target)
 #define FzQ(query) ((FuzzyQuery *)(query))
-static char *fuzq_to_s(Query *self, const char *curr_field)
+static char *fuzq_to_s(Query *self, Symbol curr_field)
 {
     char *buffer, *bptr;
     char *term = FzQ(self)->term;
-    char *field = FzQ(self)->field;
-    int tlen = (int)strlen(term);
-    int flen = (int)strlen(field);
-    bptr = buffer = ALLOC_N(char, tlen + flen + 70);
-    if (strcmp(curr_field, field) != 0) {
-        sprintf(bptr, "%s:", field);
-        bptr += flen + 1;
+    Symbol field = FzQ(self)->field;
+    bptr = buffer = ALLOC_N(char, strlen(term) + sym_len(field) + 70);
+    if (curr_field != field) {
+        bptr += sprintf(bptr, "%s:", S(field));
     }
-    sprintf(bptr, "%s~", term);
-    bptr += tlen + 1;
+    bptr += sprintf(bptr, "%s~", term);
     if (FzQ(self)->min_sim != 0.5) {
         dbl_to_s(bptr, FzQ(self)->min_sim);
         bptr += strlen(bptr);
@@ -155,77 +179,65 @@ static Query *fuzq_rewrite(Query *self, IndexReader *ir)
     Query *q;
     FuzzyQuery *fuzq = FzQ(self);
+    int pre_len = fuzq->pre_len;
+    char *prefix = NULL;
     const char *term = fuzq->term;
-    const char *field = fuzq->field;
-    const int field_num = fis_get_field_num(ir->fis, field);
+    const int field_num = fis_get_field_num(ir->fis, fuzq->field);
+    TermEnum *te;
     if (field_num < 0) {
-        q = bq_new(true);
+        return bq_new(true);
     }
-    else if (fuzq->pre_len >= (int)strlen(term)) {
-        q = tq_new(field, term);
+    if (fuzq->pre_len >= (int)strlen(term)) {
+        return tq_new(fuzq->field, term);
     }
-    else {
-        TermEnum *te;
-        char *prefix = NULL;
-        int pre_len = fuzq->pre_len;
-        q = multi_tq_new_conf(fuzq->field, MTQMaxTerms(self), fuzq->min_sim);
-        if (pre_len > 0) {
-            prefix = ALLOC_N(char, pre_len + 1);
-            strncpy(prefix, term, pre_len);
-            prefix[pre_len] = '\0';
-            te = ir->terms_from(ir, field_num, prefix);
-        }
-        else {
-            te = ir->terms(ir, field_num);
-        }
-        fuzq->scale_factor = (float)(1.0 / (1.0 - fuzq->min_sim));
-        fuzq->text = term + pre_len;
-        fuzq->text_len = (int)strlen(fuzq->text);
-        fuzq->da = REALLOC_N(fuzq->da, int, fuzq->text_len * 2 + 2);
-        fuzq_initialize_max_distances(fuzq);
-        if (te) {
-            const char *curr_term = te->curr_term;
-            const char *curr_suffix = curr_term + pre_len;
-            float score = 0.0;
+    q = multi_tq_new_conf(fuzq->field, MTQMaxTerms(self), fuzq->min_sim);
+    if (pre_len > 0) {
+        prefix = ALLOC_N(char, pre_len + 1);
+        strncpy(prefix, term, pre_len);
+        prefix[pre_len] = '\0';
+        te = ir->terms_from(ir, field_num, prefix);
+    }
+    else {
+        te = ir->terms(ir, field_num);
+    }
+    assert(NULL != te);
-            do {
-                if ((prefix && strncmp(curr_term, prefix, pre_len) != 0)) {
-                    break;
-                }
+    fuzq->scale_factor = (float)(1.0 / (1.0 - fuzq->min_sim));
+    fuzq->text = term + pre_len;
+    fuzq->text_len = (int)strlen(fuzq->text);
+    fuzq->da = REALLOC_N(fuzq->da, int, fuzq->text_len * 2 + 2);
+    fuzq_initialize_max_distances(fuzq);
-                score = fuzq_score(fuzq, curr_suffix);
-                /*
-                 printf("%s:%s:%f < %f\n", curr_term, term, score, min_score);
-                 */
-                multi_tq_add_term_boost(q, curr_term, score);
+    do {
+        const char *curr_term = te->curr_term;
+        const char *curr_suffix = curr_term + pre_len;
+        float score = 0.0;
-            } while (te->next(te) != NULL);
+        if (prefix && strncmp(curr_term, prefix, pre_len) != 0)
+            break;
-            te->close(te);
-        }
-        free(prefix);
-    }
+        score = fuzq_score(fuzq, curr_suffix);
+        multi_tq_add_term_boost(q, curr_term, score);
+    } while (te->next(te) != NULL);
+    te->close(te);
+    if (prefix) free(prefix);
     return q;
 }
 static void fuzq_destroy(Query *self)
 {
     free(FzQ(self)->term);
-    free(FzQ(self)->field);
     free(FzQ(self)->da);
     q_destroy_i(self);
 }
 static unsigned long fuzq_hash(Query *self)
 {
-    return str_hash(FzQ(self)->term) ^ str_hash(FzQ(self)->field)
+    return str_hash(FzQ(self)->term) ^ sym_hash(FzQ(self)->field)
         ^ float2int(FzQ(self)->min_sim) ^ FzQ(self)->pre_len;
 }
@@ -235,17 +247,17 @@ static int fuzq_eq(Query *self, Query *o)
     FuzzyQuery *fq2 = FzQ(o);
     return (strcmp(fq1->term, fq2->term) == 0)
-        && (strcmp(fq1->field, fq2->field) == 0)
+        && (fq1->field == fq2->field)
         && (fq1->pre_len == fq2->pre_len)
         && (fq1->min_sim == fq2->min_sim);
 }
-Query *fuzq_new_conf(const char *field, const char *term,
+Query *fuzq_new_conf(Symbol field, const char *term,
                      float min_sim, int pre_len, int max_terms)
 {
     Query *self = q_new(FuzzyQuery);
-    FzQ(self)->field      = estrdup(field);
+    FzQ(self)->field      = field;
     FzQ(self)->term       = estrdup(term);
     FzQ(self)->pre_len    = pre_len ? pre_len : DEF_PRE_LEN;
     FzQ(self)->min_sim    = min_sim ? min_sim : DEF_MIN_SIM;
@@ -262,7 +274,7 @@ Query *fuzq_new_conf(const char *field, const char *term,
     return self;
 }
-Query *fuzq_new(const char *field, const char *term)
+Query *fuzq_new(Symbol field, const char *term)
 {
     return fuzq_new_conf(field, term, 0.0f, 0, 0);
 }

data/ext/q_match_all.c CHANGED

@@ -1,5 +1,6 @@
 #include "search.h"
 #include <string.h>
+#include "internal.h"
 /***************************************************************************
  *
@@ -110,9 +111,9 @@ static Weight *maw_new(Query *query, Searcher *searcher)
  *
  ***************************************************************************/
-char *maq_to_s(Query *self, const char *field)
+static char *maq_to_s(Query *self, Symbol default_field)
 {
-    (void)field;
+    (void)default_field;
     if (self->boost == 1.0) {
         return estrdup("*");
     } else {

data/ext/q_multi_term.c CHANGED

@@ -1,7 +1,8 @@
 #include <string.h>
 #include "search.h"
-#include "priorityqueue.h"
 #include "helper.h"
+#include "symbol.h"
+#include "internal.h"
 #define MTQ(query) ((MultiTermQuery *)(query))
@@ -141,7 +142,7 @@ static TermDocEnumWrapper *tdew_new(const char *term, TermDocEnum *tde,
 typedef struct MultiTermScorer
 {
     Scorer                super;
-    const char           *field;
+    Symbol                field;
     uchar                *norms;
     Weight               *weight;
     TermDocEnumWrapper  **tdew_a;
@@ -176,7 +177,7 @@ static bool multi_tsc_next(Scorer *self)
         }
         mtsc->tdew_pq = tdew_pq;
     }
     tdew = (TermDocEnumWrapper *)pq_top(tdew_pq);
     if (tdew == NULL) {
         return false;
@@ -259,7 +260,7 @@ static Explanation *multi_tsc_explain(Scorer *self, int doc_num)
             expl_add_detail(expl,
                 expl_new(sim_tf(self->similarity, (float)freq) * tdew->boost,
                          "tf(term_freq(%s:%s)=%d)^%f",
-                         mtsc->field, tdew->term, freq, tdew->boost));
+                         S(mtsc->field), tdew->term, freq, tdew->boost));
             total_score += sim_tf(self->similarity, (float)freq) * tdew->boost;
@@ -294,7 +295,7 @@ static void multi_tsc_destroy(Scorer *self)
     scorer_destroy_i(self);
 }
-static Scorer *multi_tsc_new(Weight *weight, const char *field,
+static Scorer *multi_tsc_new(Weight *weight, Symbol field,
                              TermDocEnumWrapper **tdew_a, int tdew_cnt,
                              uchar *norms)
 {
@@ -367,7 +368,7 @@ static Scorer *multi_tw_scorer(Weight *self, IndexReader *ir)
     return multi_tsc;
 }
-Explanation *multi_tw_explain(Weight *self, IndexReader *ir, int doc_num)
+static Explanation *multi_tw_explain(Weight *self, IndexReader *ir, int doc_num)
 {
     Explanation *expl;
     Explanation *idf_expl1;
@@ -383,19 +384,20 @@ Explanation *multi_tw_explain(Weight *self, IndexReader *ir, int doc_num)
     char *query_str;
     MultiTermQuery *mtq = MTQ(self->query);
-    const char *field = mtq->field;
+    const char *field = S(mtq->field);
     PriorityQueue *bt_pq = mtq->boosted_terms;
     int i;
     int total_doc_freqs = 0;
     char *doc_freqs = NULL;
     size_t len = 0, pos = 0;
-    const int field_num = fis_get_field_num(ir->fis, field);
+    const int field_num = fis_get_field_num(ir->fis, mtq->field);
     if (field_num < 0) {
-        return expl_new(0.0, "field \"%s\" does not exist in the index", field);
+        return expl_new(0.0, "field \"%s\" does not exist in the index",
+                        field);
     }
-    query_str = self->query->to_s(self->query, "");
+    query_str = self->query->to_s(self->query, NULL);
     expl = expl_new(0.0, "weight(%s in %d), product of:", query_str, doc_num);
@@ -407,8 +409,7 @@ Explanation *multi_tw_explain(Weight *self, IndexReader *ir, int doc_num)
     for (i = bt_pq->size; i > 0; i--) {
         char *term = ((BoostedTerm *)bt_pq->heap[i])->term;
         int doc_freq = ir->doc_freq(ir, field_num, term);
-        sprintf(doc_freqs + pos, "(%s=%d) + ", term, doc_freq);
-        pos += strlen(doc_freqs + pos);
+        pos += sprintf(doc_freqs + pos, "(%s=%d) + ", term, doc_freq);
         total_doc_freqs += doc_freq;
     }
     pos -= 2; /* remove " + " from the end */
@@ -476,7 +477,6 @@ static Weight *multi_tw_new(Query *query, Searcher *searcher)
     int i;
     int doc_freq         = 0;
     Weight *self         = w_new(Weight, query);
-    const char *field    = MTQ(query)->field;
     PriorityQueue *bt_pq = MTQ(query)->boosted_terms;
     self->scorer         = &multi_tw_scorer;
@@ -488,7 +488,7 @@ static Weight *multi_tw_new(Query *query, Searcher *searcher)
     self->idf            = 0.0;
     for (i = bt_pq->size; i > 0; i--) {
-        doc_freq += searcher->doc_freq(searcher, field,
+        doc_freq += searcher->doc_freq(searcher, MTQ(query)->field,
                                        ((BoostedTerm *)bt_pq->heap[i])->term);
     }
     self->idf += sim_idf(self->similarity, doc_freq,
@@ -502,13 +502,13 @@ static Weight *multi_tw_new(Query *query, Searcher *searcher)
  * MultiTermQuery
  ***************************************************************************/
-static char *multi_tq_to_s(Query *self, const char *curr_field)
+static char *multi_tq_to_s(Query *self, Symbol default_field)
 {
     int i;
     PriorityQueue *boosted_terms = MTQ(self)->boosted_terms, *bt_pq_clone;
     BoostedTerm *bt;
     char *buffer, *bptr;
-    char *field = MTQ(self)->field;
+    const char *field = S(MTQ(self)->field);
     int flen = (int)strlen(field);
     int tlen = 0;
@@ -519,16 +519,14 @@ static char *multi_tq_to_s(Query *self, const char *curr_field)
     bptr = buffer = ALLOC_N(char, tlen + flen + 35);
-    if (strcmp(curr_field, field) != 0) {
-        sprintf(bptr, "%s:", field);
-        bptr += flen + 1;
+    if (default_field != MTQ(self)->field) {
+        bptr += sprintf(bptr, "%s:", field);
     }
     *(bptr++) = '"';
     bt_pq_clone = pq_clone(boosted_terms);
     while ((bt = (BoostedTerm *)pq_pop(bt_pq_clone)) != NULL) {
-        sprintf(bptr, "%s", bt->term);
-        bptr += (int)strlen(bptr);
+        bptr += sprintf(bptr, "%s", bt->term);
         if (bt->boost != 1.0) {
             *bptr = '^';
@@ -545,7 +543,7 @@ static char *multi_tq_to_s(Query *self, const char *curr_field)
     }
     bptr[-1] =  '"'; /* delete last '|' char */
     bptr[ 0] = '\0';
     if (self->boost != 1.0) {
         *bptr = '^';
         dbl_to_s(++bptr, self->boost);
@@ -556,7 +554,6 @@ static char *multi_tq_to_s(Query *self, const char *curr_field)
 static void multi_tq_destroy_i(Query *self)
 {
-    free(MTQ(self)->field);
     pq_destroy(MTQ(self)->boosted_terms);
     q_destroy_i(self);
 }
@@ -564,18 +561,17 @@ static void multi_tq_destroy_i(Query *self)
 static void multi_tq_extract_terms(Query *self, HashSet *terms)
 {
     int i;
-    char *field = MTQ(self)->field;
     PriorityQueue *boosted_terms = MTQ(self)->boosted_terms;
     for (i = boosted_terms->size; i > 0; i--) {
         BoostedTerm *bt = (BoostedTerm *)boosted_terms->heap[i];
-        hs_add(terms, term_new(field, bt->term));
+        hs_add(terms, term_new(MTQ(self)->field, bt->term));
     }
 }
 static unsigned long multi_tq_hash(Query *self)
 {
     int i;
-    unsigned long hash = str_hash(MTQ(self)->field);
+    unsigned long hash = sym_hash(MTQ(self)->field);
     PriorityQueue *boosted_terms = MTQ(self)->boosted_terms;
     for (i = boosted_terms->size; i > 0; i--) {
         BoostedTerm *bt = (BoostedTerm *)boosted_terms->heap[i];
@@ -590,7 +586,7 @@ static int multi_tq_eq(Query *self, Query *o)
     PriorityQueue *boosted_terms1 = MTQ(self)->boosted_terms;
     PriorityQueue *boosted_terms2 = MTQ(o)->boosted_terms;
-    if (strcmp(MTQ(self)->field, MTQ(o)->field) != 0
+    if ((MTQ(self)->field != MTQ(o)->field)
         || boosted_terms1->size != boosted_terms2->size) {
         return false;
     }
@@ -607,7 +603,7 @@ static int multi_tq_eq(Query *self, Query *o)
 static MatchVector *multi_tq_get_matchv_i(Query *self, MatchVector *mv,
                                           TermVector *tv)
 {
-    if (strcmp(tv->field, MTQ(self)->field) == 0) {
+    if (tv->field == MTQ(self)->field) {
         int i;
         PriorityQueue *boosted_terms = MTQ(self)->boosted_terms;
         for (i = boosted_terms->size; i > 0; i--) {
@@ -625,7 +621,7 @@ static MatchVector *multi_tq_get_matchv_i(Query *self, MatchVector *mv,
     return mv;
 }
-Query *multi_tq_new_conf(const char *field, int max_terms, float min_boost)
+Query *multi_tq_new_conf(Symbol field, int max_terms, float min_boost)
 {
     Query *self;
@@ -636,7 +632,7 @@ Query *multi_tq_new_conf(const char *field, int max_terms, float min_boost)
     self                     = q_new(MultiTermQuery);
-    MTQ(self)->field         = estrdup(field);
+    MTQ(self)->field         = field;
     MTQ(self)->boosted_terms = pq_new(max_terms,
                                       (lt_ft)&boosted_term_less_than,
                                       (free_ft)&boosted_term_destroy);
@@ -654,7 +650,7 @@ Query *multi_tq_new_conf(const char *field, int max_terms, float min_boost)
     return self;
 }
-Query *multi_tq_new(const char *field)
+Query *multi_tq_new(Symbol field)
 {
     return multi_tq_new_conf(field, MULTI_TERM_QUERY_MAX_TERMS, 0.0);
 }