RubyGems - ferret - Versions diffs - 0.3.2 → 0.9.0 - Mend

ferret 0.3.2 → 0.9.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (141) hide show

data/CHANGELOG +9 -0
data/Rakefile +51 -25
data/ext/analysis.c +553 -0
data/ext/analysis.h +76 -0
data/ext/array.c +83 -0
data/ext/array.h +19 -0
data/ext/bitvector.c +164 -0
data/ext/bitvector.h +29 -0
data/ext/compound_io.c +335 -0
data/ext/document.c +336 -0
data/ext/document.h +87 -0
data/ext/ferret.c +88 -47
data/ext/ferret.h +43 -109
data/ext/field.c +395 -0
data/ext/filter.c +103 -0
data/ext/fs_store.c +352 -0
data/ext/global.c +219 -0
data/ext/global.h +73 -0
data/ext/hash.c +446 -0
data/ext/hash.h +80 -0
data/ext/hashset.c +141 -0
data/ext/hashset.h +37 -0
data/ext/helper.c +11 -0
data/ext/helper.h +5 -0
data/ext/inc/lang.h +41 -0
data/ext/ind.c +389 -0
data/ext/index.h +884 -0
data/ext/index_io.c +269 -415
data/ext/index_rw.c +2543 -0
data/ext/lang.c +31 -0
data/ext/lang.h +41 -0
data/ext/priorityqueue.c +228 -0
data/ext/priorityqueue.h +44 -0
data/ext/q_boolean.c +1331 -0
data/ext/q_const_score.c +154 -0
data/ext/q_fuzzy.c +287 -0
data/ext/q_match_all.c +142 -0
data/ext/q_multi_phrase.c +343 -0
data/ext/q_parser.c +2180 -0
data/ext/q_phrase.c +657 -0
data/ext/q_prefix.c +75 -0
data/ext/q_range.c +247 -0
data/ext/q_span.c +1566 -0
data/ext/q_term.c +308 -0
data/ext/q_wildcard.c +146 -0
data/ext/r_analysis.c +255 -0
data/ext/r_doc.c +578 -0
data/ext/r_index_io.c +996 -0
data/ext/r_qparser.c +158 -0
data/ext/r_search.c +2321 -0
data/ext/r_store.c +263 -0
data/ext/r_term.c +219 -0
data/ext/ram_store.c +447 -0
data/ext/search.c +524 -0
data/ext/search.h +1065 -0
data/ext/similarity.c +143 -39
data/ext/sort.c +661 -0
data/ext/store.c +35 -0
data/ext/store.h +152 -0
data/ext/term.c +704 -143
data/ext/termdocs.c +599 -0
data/ext/vector.c +594 -0
data/lib/ferret.rb +9 -10
data/lib/ferret/analysis/analyzers.rb +2 -2
data/lib/ferret/analysis/standard_tokenizer.rb +1 -1
data/lib/ferret/analysis/token.rb +14 -14
data/lib/ferret/analysis/token_filters.rb +3 -3
data/lib/ferret/document/field.rb +16 -17
data/lib/ferret/index/document_writer.rb +4 -4
data/lib/ferret/index/index.rb +39 -23
data/lib/ferret/index/index_writer.rb +2 -2
data/lib/ferret/index/multiple_term_doc_pos_enum.rb +1 -8
data/lib/ferret/index/segment_term_vector.rb +4 -4
data/lib/ferret/index/term.rb +5 -1
data/lib/ferret/index/term_vector_offset_info.rb +6 -6
data/lib/ferret/index/term_vectors_io.rb +5 -5
data/lib/ferret/query_parser/query_parser.tab.rb +81 -77
data/lib/ferret/search.rb +1 -1
data/lib/ferret/search/boolean_query.rb +2 -1
data/lib/ferret/search/field_sorted_hit_queue.rb +3 -3
data/lib/ferret/search/fuzzy_query.rb +2 -1
data/lib/ferret/search/index_searcher.rb +3 -0
data/lib/ferret/search/{match_all_docs_query.rb → match_all_query.rb} +7 -7
data/lib/ferret/search/multi_phrase_query.rb +6 -5
data/lib/ferret/search/phrase_query.rb +3 -6
data/lib/ferret/search/prefix_query.rb +4 -4
data/lib/ferret/search/sort.rb +3 -1
data/lib/ferret/search/sort_field.rb +9 -9
data/lib/ferret/search/spans/near_spans_enum.rb +1 -1
data/lib/ferret/search/spans/span_near_query.rb +1 -1
data/lib/ferret/search/spans/span_weight.rb +1 -1
data/lib/ferret/search/spans/spans_enum.rb +7 -7
data/lib/ferret/store/fs_store.rb +10 -6
data/lib/ferret/store/ram_store.rb +3 -3
data/lib/rferret.rb +36 -0
data/test/functional/thread_safety_index_test.rb +2 -2
data/test/test_helper.rb +16 -2
data/test/unit/analysis/c_token.rb +25 -0
data/test/unit/analysis/tc_per_field_analyzer_wrapper.rb +1 -1
data/test/unit/analysis/tc_standard_analyzer.rb +1 -1
data/test/unit/document/{tc_document.rb → c_document.rb} +0 -0
data/test/unit/document/c_field.rb +98 -0
data/test/unit/document/tc_field.rb +0 -66
data/test/unit/index/{tc_index.rb → c_index.rb} +62 -6
data/test/unit/index/{tc_index_reader.rb → c_index_reader.rb} +51 -10
data/test/unit/index/{tc_index_writer.rb → c_index_writer.rb} +0 -4
data/test/unit/index/{tc_term.rb → c_term.rb} +1 -3
data/test/unit/index/{tc_term_vector_offset_info.rb → c_term_voi.rb} +5 -5
data/test/unit/index/tc_segment_term_vector.rb +2 -2
data/test/unit/index/tc_term_vectors_io.rb +4 -4
data/test/unit/query_parser/c_query_parser.rb +138 -0
data/test/unit/search/{tc_filter.rb → c_filter.rb} +24 -24
data/test/unit/search/{tc_fuzzy_query.rb → c_fuzzy_query.rb} +0 -0
data/test/unit/search/{tc_index_searcher.rb → c_index_searcher.rb} +9 -26
data/test/unit/search/{tc_search_and_sort.rb → c_search_and_sort.rb} +15 -15
data/test/unit/search/{tc_sort.rb → c_sort.rb} +2 -1
data/test/unit/search/c_sort_field.rb +27 -0
data/test/unit/search/{tc_spans.rb → c_spans.rb} +0 -0
data/test/unit/search/tc_sort_field.rb +7 -20
data/test/unit/store/c_fs_store.rb +76 -0
data/test/unit/store/c_ram_store.rb +35 -0
data/test/unit/store/m_store.rb +34 -0
data/test/unit/store/m_store_lock.rb +68 -0
data/test/unit/store/tc_fs_store.rb +0 -53
data/test/unit/store/tc_ram_store.rb +0 -20
data/test/unit/store/tm_store.rb +0 -30
data/test/unit/store/tm_store_lock.rb +0 -66
metadata +84 -31
data/ext/Makefile +0 -140
data/ext/ferret_ext.so +0 -0
data/ext/priority_queue.c +0 -232
data/ext/ram_directory.c +0 -321
data/ext/segment_merge_queue.c +0 -37
data/ext/segment_term_enum.c +0 -326
data/ext/string_helper.c +0 -42
data/ext/tags +0 -344
data/ext/term_buffer.c +0 -230
data/ext/term_infos_reader.c +0 -54
data/ext/terminfo.c +0 -160
data/ext/token.c +0 -93
data/ext/util.c +0 -12

data/ext/q_phrase.c ADDED Viewed

@@ -0,0 +1,657 @@
+#include <string.h>
+#include "search.h"
+/***************************************************************************
+ *
+ * PhraseWeight
+ *
+ ***************************************************************************/
+Scorer *phw_scorer(Weight *self, IndexReader *ir)
+{
+  Scorer *phsc;
+  PhraseQuery *phq = (PhraseQuery *)self->query->data;
+  int i;
+  if (phq->t_cnt == 0) return NULL; // optimize zero-term case
+  TermDocEnum **tps = ALLOC_N(TermDocEnum *, phq->t_cnt);
+  for (i = 0; i < phq->t_cnt; i++) {
+    tps[i] = ir_term_positions_for(ir, phq->terms[i]);
+    if (tps[i] == NULL) {
+      // free everything we just created and return NULL
+      int j;
+      for (j = 0; j < i; j++) {
+        tps[i]->close(tps[i]);
+      }
+      free(tps);
+      return NULL;
+    }
+  }
+  if (phq->slop == 0) {       // optimize exact case
+    phsc = exact_phrase_scorer_create(self, tps, phq->positions, phq->t_cnt,
+                                      self->similarity,
+                                      ir->get_norms(ir, phq->field));
+  } else {
+    phsc = sloppy_phrase_scorer_create(self, tps, phq->positions, phq->t_cnt,
+                                       self->similarity,
+                                       phq->slop,
+                                       ir->get_norms(ir, phq->field));
+  }
+  free(tps);
+  return phsc;
+}
+Explanation *phw_explain(Weight *self, IndexReader *ir, int doc_num)
+{
+  char *query_str = self->query->to_s(self->query, "");
+  PhraseQuery *phq = (PhraseQuery *)self->query->data;
+  int i;
+  char *doc_freqs = NULL;
+  int len = 0, pos = 0;
+  Explanation *expl = expl_create(0.0,
+      epstrdup("weight(%s in %d), product of:",
+        strlen(query_str) + 20,
+        query_str, doc_num));
+  for (i = 0; i < phq->t_cnt; i++) {
+    len += strlen(phq->terms[i]->text) + 30;
+  }
+  doc_freqs = ALLOC_N(char, len);
+  for (i = 0; i < phq->t_cnt; i++) {
+    Term *term = phq->terms[i];
+    sprintf(doc_freqs + pos, "%s=%d, ", term->text, ir->doc_freq(ir, term));
+    pos += strlen(doc_freqs + pos);
+  }
+  pos -= 2; // remove ", " from the end
+  doc_freqs[pos] = 0;
+  Explanation *idf_expl1 = expl_create(self->idf,
+      epstrdup("idf(%s:<%s>)", strlen(phq->field) + pos, phq->field, doc_freqs));
+  Explanation *idf_expl2 = expl_create(self->idf,
+      epstrdup("idf(%s:<%s>)", strlen(phq->field) + pos, phq->field, doc_freqs));
+  free(doc_freqs);
+  // explain query weight
+  Explanation *query_expl = expl_create(0.0,
+      epstrdup("query_weight(%s), product of:", strlen(query_str), query_str));
+  if (self->query->boost != 1.0) {
+    expl_add_detail(query_expl, expl_create(self->query->boost, estrdup("boost")));
+  }
+  expl_add_detail(query_expl, idf_expl1);
+  Explanation *qnorm_expl = expl_create(self->qnorm, estrdup("query_norm"));
+  expl_add_detail(query_expl, qnorm_expl);
+  query_expl->value = self->query->boost * self->idf * self->qnorm;
+  expl_add_detail(expl, query_expl);
+  // explain field weight
+  Explanation *field_expl = expl_create(0.0,
+      epstrdup("field_weight(%s in %d), product of:",
+        strlen(query_str) + 20, query_str, doc_num));
+  free(query_str);
+  Scorer *scorer = self->scorer(self, ir);
+  Explanation *tf_expl = scorer->explain(scorer, doc_num);
+  scorer->destroy(scorer);
+  expl_add_detail(field_expl, tf_expl);
+  expl_add_detail(field_expl, idf_expl2);
+  uchar *field_norms = ir->get_norms(ir, phq->field);
+  float field_norm = (field_norms != NULL)
+    ? sim_decode_norm(self->similarity, field_norms[doc_num])
+    : 0.0;
+  Explanation *field_norm_expl = expl_create(field_norm,
+    epstrdup("field_norm(field=%s, doc=%d)",
+        strlen(phq->field) + 20, phq->field, doc_num));
+  expl_add_detail(field_expl, field_norm_expl);
+  field_expl->value = tf_expl->value * self->idf * field_norm;
+  // combine them
+  if (query_expl->value == 1.0) {
+    expl_destoy(expl);
+    return field_expl;
+  } else {
+    expl->value = (query_expl->value * field_expl->value);
+    expl_add_detail(expl, field_expl);
+    return expl;
+  }
+}
+char *phw_to_s(Weight *self)
+{
+  char dbuf[32];
+  dbl_to_s(dbuf, self->value);
+  return epstrdup("PhraseWeight(%s)", strlen(dbuf), dbuf);
+}
+Weight *phw_create(Query *query, Searcher *searcher)
+{
+  PhraseQuery *phq = (PhraseQuery *)query->data;
+  Weight *self = ALLOC(Weight);
+  ZEROSET(self, Weight, 1);
+  self->get_query = &w_get_query;
+  self->get_value = &w_get_value;
+  self->normalize = &w_normalize;
+  self->scorer    = &phw_scorer;
+  self->explain   = &phw_explain;
+  self->to_s      = &phw_to_s;
+  self->destroy   = &free;
+  self->sum_of_squared_weights = &w_sum_of_squared_weights;
+  self->similarity = query->get_similarity(query, searcher);
+  self->query = query;
+  self->value = query->boost;
+  self->idf = sim_idf_phrase(self->similarity, phq->terms, phq->t_cnt, searcher);
+  return self;
+}
+/***************************************************************************
+ *
+ * PhraseQuery
+ *
+ ***************************************************************************/
+#define GET_PHQ PhraseQuery *phq = (PhraseQuery *)self->data
+void phq_extract_terms(Query *self, Array *terms)
+{
+  GET_PHQ;
+  int i;
+  for (i = 0; i < phq->t_cnt; i++) {
+    ary_append(terms, phq->terms[i]);
+  }
+}
+char *phq_to_s(Query *self, char *field)
+{
+  GET_PHQ;
+  int i, j, buf_index = 0, len = 0, pos, last_pos = -1;
+  char *buffer;
+  if (!phq->t_cnt) return NULL;
+  len = strlen(phq->field) + 1;
+  for (i = 0; i < phq->t_cnt; i++) {
+    len += strlen(phq->terms[i]->text) + 1;
+  }
+  // add space for extra characters and boost and slop
+  len += 100 + 3 * phq->positions[phq->t_cnt - 1];
+  buffer = ALLOC_N(char, len);
+  if (strcmp(field, phq->field) != 0) {
+    len = strlen(phq->field);
+    memcpy(buffer, phq->field, len);
+    buffer[len] = ':';
+    buf_index += len + 1;
+  }
+  buffer[buf_index++] = '"';
+  for (i = 0; i < phq->t_cnt; i++) {
+    Term *term = phq->terms[i];
+    pos = phq->positions[i];
+    for (j = last_pos; j < pos - 1; j++) {
+      memcpy(buffer + buf_index, "<> ", 3);
+      buf_index += 3;
+    }
+    last_pos = pos;
+    len = strlen(term->text);
+    memcpy(buffer + buf_index, term->text, len);
+    buf_index += len;
+    buffer[buf_index++] = ' ';
+  }
+  if (buffer[buf_index-1] == ' ') buf_index--;
+  buffer[buf_index++] = '"';
+  buffer[buf_index] = 0;
+  if (phq->slop != 0) {
+    sprintf(buffer + buf_index, "~%d", phq->slop);
+    buf_index += strlen(buffer + buf_index);
+  }
+  if (self->boost != 1.0) {
+    char dbuf[32];
+    dbl_to_s(dbuf, self->boost);
+    sprintf(buffer + buf_index, "^%s", dbuf);
+  }
+  return buffer;
+}
+void phq_destroy(void *p)
+{
+  Query *self = (Query *)p;
+  GET_PHQ;
+  int i;
+  if (self->destroy_all) {
+    for (i = 0; i < phq->t_cnt; i++) {
+      term_destroy(phq->terms[i]);
+    }
+  }
+  free(phq->terms);
+  free(phq->positions);
+  free(phq);
+  q_destroy(self);
+}
+Query *phq_rewrite(Query *self, IndexReader *ir)
+{
+  GET_PHQ;
+  if (phq->t_cnt == 1) { // optimize one-term case
+    Term *term = phq->terms[0];
+    Query *tq = tq_create(term_clone(term));
+    tq->boost = self->boost;
+    if (self->rewritten) self->rewritten->destroy(self->rewritten);
+    return self->rewritten = tq;
+  } else {
+    return self;
+  }
+}
+void phq_add_term(Query *self, Term *term, int pos_inc)
+{
+  GET_PHQ;
+  int position, index = phq->t_cnt;
+  if (index >= phq->t_capa) {
+    phq->t_capa *= 2;
+    REALLOC_N(phq->terms, Term *, phq->t_capa);
+    REALLOC_N(phq->positions, int, phq->t_capa);
+  }
+  if (index == 0) {
+    position = 0;
+    phq->field = term->field;
+  } else {
+    position = phq->positions[index - 1] + pos_inc;
+    if (strcmp(term->field, phq->field) != 0) {
+      eprintf(ARG_ERROR, "All phrase terms must be in the same field. Current phrase is %s, tried to add %s\n", phq->field, term->field);
+    }
+  }
+  phq->terms[index] = term;
+  phq->positions[index] = position;
+  phq->t_cnt++;
+}
+Query *phq_create()
+{
+  Query *self = q_create();
+  PhraseQuery *phq = ALLOC(PhraseQuery);
+  ZEROSET(phq, PhraseQuery, 1);
+  phq->t_capa = PHQ_INIT_CAPA;
+  phq->terms = ALLOC_N(Term *, PHQ_INIT_CAPA);
+  phq->positions = ALLOC_N(int, PHQ_INIT_CAPA);
+  self->data = phq;
+  self->create_weight = &phw_create;
+  self->extract_terms = &phq_extract_terms;
+  self->to_s = &phq_to_s;
+  self->destroy = &phq_destroy;
+  self->rewrite = &phq_rewrite;
+  self->type = PHRASE_QUERY;
+  return self;
+}
+/***************************************************************************
+ *
+ * PhraseScorer
+ *
+ ***************************************************************************/
+/***************************************************************************
+ * PhrasePosition
+ ***************************************************************************/
+bool pp_next(PhrasePosition *self)
+{
+  TermDocEnum *tpe = self->tpe;
+  if (!tpe->next(tpe)) {
+    tpe->close(tpe); // close stream
+    self->tpe = NULL;
+    self->doc = INT_MAX;   // sentinel value
+    return false;
+  }
+  self->doc = tpe->doc_num(tpe);
+  self->position = 0;
+  return true;
+}
+bool pp_skip_to(PhrasePosition *self, int doc_num)
+{
+  TermDocEnum *tpe = self->tpe;
+  if (!tpe->skip_to(tpe, doc_num)) {
+    tpe->close(tpe); // close stream
+    self->tpe = NULL;
+    self->doc = INT_MAX;   // sentinel value
+    return false;
+  }
+  self->doc = tpe->doc_num(tpe);
+  self->position = 0;
+  return true;
+}
+bool pp_next_position(PhrasePosition *self)
+{
+  TermDocEnum *tpe = self->tpe;
+  self->count -= 1;
+  if (self->count >= 0) {// read subsequent pos's
+    self->position = tpe->next_position(tpe) - self->offset;
+    return true;
+  } else {
+    return false;
+  }
+}
+bool pp_first_position(PhrasePosition *self)
+{
+  TermDocEnum *tpe = self->tpe;
+  self->count = tpe->freq(tpe); // read first pos
+  return pp_next_position(self);
+}
+char *pp_to_s(PhrasePosition *self)
+{
+  return epstrdup("pp->(doc => %d, position => %d)", 40, self->doc, self->position);
+}
+inline int pp_cmp(const void *const p1, const void *const p2)
+{
+  PhrasePosition *pp1 = *(PhrasePosition **)p1;
+  PhrasePosition *pp2 = *(PhrasePosition **)p2;
+  int cmp = pp1->doc - pp2->doc;
+  if (cmp == 0) {
+    return pp1->position - pp2->position;
+  } else {
+    return cmp;
+  }
+}
+bool pp_less_than(void *p1, void *p2)
+{
+  PhrasePosition *pp1 = (PhrasePosition *)p1;
+  PhrasePosition *pp2 = (PhrasePosition *)p2;
+  if (pp1->doc == pp2->doc) {
+    return pp1->position < pp2->position;
+  } else {
+    return pp1->doc < pp2->doc;
+  }
+}
+void pp_destroy(void *p)
+{
+  PhrasePosition *pp = (PhrasePosition *)p;
+  if (pp->tpe) pp->tpe->close(pp->tpe);
+  free(pp);
+}
+PhrasePosition *pp_create(TermDocEnum *tpe, int offset)
+{
+  PhrasePosition *self = ALLOC(PhrasePosition);
+  self->tpe = tpe;
+  self->count = self->doc = self->position = -1;
+  self->offset = offset;
+  return self;
+}
+/***************************************************************************
+ * PhraseScorer
+ ***************************************************************************/
+#define GET_PHSC PhraseScorer *phsc = (PhraseScorer *)self->data;
+void phsc_init(PhraseScorer *phsc)
+{
+  int i;
+  for (i = phsc->pp_cnt - 1; i >= 0; i--) {
+    if (!(phsc->more = pp_next(phsc->phrase_pos[i]))) break;
+  }
+  if (phsc->more) {
+    qsort(phsc->phrase_pos, phsc->pp_cnt, sizeof(PhrasePosition *), &pp_cmp);
+    phsc->pp_first = 0;
+    phsc->pp_last = phsc->pp_cnt - 1;
+  }
+}
+#define FIRST_TO_LAST() \
+      last = first;\
+      phsc->pp_last = phsc->pp_first;\
+      phsc->pp_first = (phsc->pp_first + 1) % phsc->pp_cnt;\
+      first = phsc->phrase_pos[phsc->pp_first];
+bool phsc_do_next(Scorer *self)
+{
+  GET_PHSC;
+  PhrasePosition *first = phsc->phrase_pos[phsc->pp_first];
+  PhrasePosition *last = phsc->phrase_pos[phsc->pp_last];
+  while (phsc->more) {
+    while (phsc->more && first->doc < last->doc) {   // find doc w/ all the terms
+      phsc->more = pp_skip_to(first, last->doc); // skip first upto last
+      FIRST_TO_LAST();                               // and move it to the end
+    }
+    if (phsc->more) {
+      // found a doc with all of the terms
+      phsc->freq = phsc->phrase_freq(self);  // check for phrase
+      if (phsc->freq == 0.0) {               // no match
+        first = phsc->phrase_pos[phsc->pp_first];
+        last = phsc->phrase_pos[phsc->pp_last];
+        phsc->more = pp_next(last);          // trigger further scanning
+      } else {
+        self->doc = first->doc;
+        return true;                         // found a match
+      }
+    }
+  }
+  return false;
+}
+float phsc_score(Scorer *self)
+{
+  GET_PHSC;
+  float raw = sim_tf(self->similarity, phsc->freq) * phsc->value; // raw score
+  // normalize
+  return raw * sim_decode_norm(self->similarity,
+      phsc->norms[phsc->phrase_pos[phsc->pp_first]->doc]);
+}
+bool phsc_next(Scorer *self)
+{
+  GET_PHSC;
+  if (phsc->first_time) {
+    phsc_init(phsc);
+    phsc->first_time = false;
+  } else if (phsc->more) {
+    phsc->more = pp_next(phsc->phrase_pos[phsc->pp_last]); // trigger further scanning
+  }
+  return phsc_do_next(self);
+}
+bool phsc_skip_to(Scorer *self, int doc_num)
+{
+  GET_PHSC;
+  int i;
+  for (i = phsc->pp_cnt - 1; i >= 0; i--) {
+    if (!(phsc->more = pp_skip_to(phsc->phrase_pos[i], doc_num))) break;
+  }
+  if (phsc->more) {
+    qsort(phsc->phrase_pos, phsc->pp_cnt, sizeof(PhrasePosition *), &pp_cmp);
+    phsc->pp_first = 0;
+    phsc->pp_last = phsc->pp_cnt - 1;
+  }
+  return phsc_do_next(self);
+}
+Explanation *phsc_explain(Scorer *self, int doc_num)
+{
+  char dbuf[32];
+  GET_PHSC;
+  while (phsc_next(self) && self->doc < doc_num)
+    ;
+  float phrase_freq = (self->doc == doc_num) ? phsc->freq : 0.0;
+  dbl_to_s(dbuf, phrase_freq);
+  return expl_create(sim_tf(self->similarity, phrase_freq),
+      epstrdup("tf(phrase_freq=%s)", strlen(dbuf), dbuf));
+}
+void phsc_destroy(void *p)
+{
+  Scorer *self = (Scorer *)p;
+  GET_PHSC;
+  int i;
+  for (i = phsc->pp_cnt - 1; i >= 0; i--) {
+    pp_destroy(phsc->phrase_pos[i]);
+  }
+  free(phsc->phrase_pos);
+  scorer_destroy(self);
+}
+Scorer *phsc_create(Weight *weight, TermDocEnum **term_pos_enum,
+    int *positions, int t_cnt, Similarity *similarity, uchar *norms)
+{
+  int i;
+  Scorer *self = scorer_create(similarity);
+  PhraseScorer *phsc = ALLOC(PhraseScorer);
+  ZEROSET(phsc, PhraseScorer, 1);
+  phsc->weight = weight;
+  phsc->norms = norms;
+  phsc->value = weight->value;
+  phsc->phrase_pos = ALLOC_N(PhrasePosition *, t_cnt);
+  for (i = 0; i < t_cnt; i++) {
+    phsc->phrase_pos[i] = pp_create(term_pos_enum[i], positions[i]);
+  }
+  phsc->pp_first = 0;
+  phsc->pp_last = t_cnt - 1;
+  phsc->pp_cnt = t_cnt;
+  phsc->slop = 0;
+  phsc->first_time = true;
+  phsc->more = true;
+  self->data = phsc;
+  self->score = &phsc_score;
+  self->next = &phsc_next;
+  self->skip_to = &phsc_skip_to;
+  self->explain = &phsc_explain;
+  self->destroy = &phsc_destroy;
+  return self;
+}
+/***************************************************************************
+ * ExactPhraseScorer
+ ***************************************************************************/
+float ephsc_phrase_freq(Scorer *self)
+{
+  GET_PHSC;
+  // sort list with pq
+  int i;
+  float freq = 0.0;
+  PhrasePosition *first;
+  PhrasePosition *last;
+  for (i = phsc->pp_cnt - 1; i >= 0; i--) {
+    pp_first_position(phsc->phrase_pos[i]);
+  }
+  qsort(phsc->phrase_pos, phsc->pp_cnt, sizeof(PhrasePosition *), &pp_cmp);
+  phsc->pp_first = 0;
+  phsc->pp_last = phsc->pp_cnt - 1;
+  first = phsc->phrase_pos[0];
+  last = phsc->phrase_pos[phsc->pp_last];
+  do { // find position w/ all terms
+    while (first->position < last->position) { // scan forward in first
+      do {
+        if (! pp_next_position(first)) return freq;
+      } while (first->position < last->position);
+      FIRST_TO_LAST();
+    }
+    freq += 1.0; // all equal: a match
+  } while (pp_next_position(last));
+  return freq;
+}
+Scorer *exact_phrase_scorer_create(Weight *weight, TermDocEnum **term_pos_enum,
+    int *positions, int t_cnt, Similarity *similarity, uchar *norms)
+{
+  Scorer *self =
+    phsc_create(weight, term_pos_enum, positions, t_cnt, similarity, norms);
+  GET_PHSC;
+  phsc->phrase_freq = &ephsc_phrase_freq;
+  return self;
+}
+/***************************************************************************
+ * SloppyPhraseScorer
+ ***************************************************************************/
+float sphsc_phrase_freq(Scorer *self)
+{
+  GET_PHSC;
+  PhrasePosition *pp;
+  PriorityQueue *pq = pq_create(phsc->pp_cnt, &pp_less_than);
+  int last_pos = 0, pos, next_pos, start, match_length, i;
+  bool done = false;
+  float freq = 0.0;
+  for (i = phsc->pp_cnt - 1; i >= 0; i--) {
+    pp = phsc->phrase_pos[i];
+    pp_first_position(pp);
+    if (pp->position > last_pos) last_pos = pp->position;
+    pq_push(pq, pp);
+  }
+  do {
+    pp = pq_pop(pq);
+    pos = start = pp->position;
+    next_pos = ((PhrasePosition *)pq_top(pq))->position;
+    while (pos <= next_pos) {
+      start = pos;       // advance pp to min window
+      if (!pp_next_position(pp)) {
+        done = true;     // ran out of a term -- done
+        break;
+      }
+      pos = pp->position;
+    }
+    match_length = last_pos - start;
+    if (match_length <= phsc->slop) {
+      freq += sim_sloppy_freq(self->similarity, match_length); // score match
+    }
+    if (pp->position > last_pos) {
+      last_pos = pp->position;
+    }
+    pq_push(pq, pp); // restore pq
+  } while (!done);
+  pq_destroy(pq);
+  return freq;
+}
+Scorer *sloppy_phrase_scorer_create(Weight *weight, TermDocEnum **term_pos_enum,
+    int *positions, int t_cnt, Similarity *similarity, int slop, uchar *norms)
+{
+  Scorer *self =
+    phsc_create(weight, term_pos_enum, positions, t_cnt, similarity, norms);
+  GET_PHSC;
+  phsc->slop = slop;
+  phsc->phrase_freq = &sphsc_phrase_freq;
+  return self;
+}