RubyGems - ruby-stemmer-dimelo - Versions diffs - 0.9.3.dimelo1 - Mend

ruby-stemmer-dimelo 0.9.3.dimelo1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (95) hide show

checksums.yaml +7 -0
data/MIT-LICENSE +21 -0
data/README.rdoc +117 -0
data/Rakefile +70 -0
data/VERSION +1 -0
data/ext/lingua/extconf.rb +40 -0
data/ext/lingua/stemmer.c +115 -0
data/lib/lingua/stemmer.rb +60 -0
data/libstemmer_c/MANIFEST +72 -0
data/libstemmer_c/Makefile +9 -0
data/libstemmer_c/Makefile.windows +15 -0
data/libstemmer_c/README +125 -0
data/libstemmer_c/examples/stemwords.c +209 -0
data/libstemmer_c/include/libstemmer.h +79 -0
data/libstemmer_c/libstemmer/libstemmer.c +93 -0
data/libstemmer_c/libstemmer/libstemmer_utf8.c +93 -0
data/libstemmer_c/libstemmer/modules.h +195 -0
data/libstemmer_c/libstemmer/modules.txt +51 -0
data/libstemmer_c/libstemmer/modules_utf8.h +123 -0
data/libstemmer_c/libstemmer/modules_utf8.txt +50 -0
data/libstemmer_c/mkinc.mak +86 -0
data/libstemmer_c/mkinc_utf8.mak +54 -0
data/libstemmer_c/runtime/api.c +66 -0
data/libstemmer_c/runtime/api.h +26 -0
data/libstemmer_c/runtime/header.h +58 -0
data/libstemmer_c/runtime/utilities.c +478 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_danish.c +337 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_danish.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_dutch.c +624 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_dutch.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_english.c +1117 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_english.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_finnish.c +762 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_finnish.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_french.c +1230 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_french.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_german.c +503 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_german.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_hungarian.c +1230 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_hungarian.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_italian.c +1065 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_italian.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_latin.c +443 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_latin.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_norwegian.c +297 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_norwegian.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_porter.c +749 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_porter.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_portuguese.c +1017 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_portuguese.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_spanish.c +1093 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_spanish.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_swedish.c +307 -0
data/libstemmer_c/src_c/stem_ISO_8859_1_swedish.h +16 -0
data/libstemmer_c/src_c/stem_ISO_8859_2_romanian.c +998 -0
data/libstemmer_c/src_c/stem_ISO_8859_2_romanian.h +16 -0
data/libstemmer_c/src_c/stem_KOI8_R_russian.c +700 -0
data/libstemmer_c/src_c/stem_KOI8_R_russian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_danish.c +339 -0
data/libstemmer_c/src_c/stem_UTF_8_danish.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_dutch.c +634 -0
data/libstemmer_c/src_c/stem_UTF_8_dutch.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_english.c +1125 -0
data/libstemmer_c/src_c/stem_UTF_8_english.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_finnish.c +768 -0
data/libstemmer_c/src_c/stem_UTF_8_finnish.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_french.c +1230 -0
data/libstemmer_c/src_c/stem_UTF_8_french.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_german.c +509 -0
data/libstemmer_c/src_c/stem_UTF_8_german.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_hungarian.c +1234 -0
data/libstemmer_c/src_c/stem_UTF_8_hungarian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_italian.c +1073 -0
data/libstemmer_c/src_c/stem_UTF_8_italian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_latin.c +443 -0
data/libstemmer_c/src_c/stem_UTF_8_latin.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_norwegian.c +299 -0
data/libstemmer_c/src_c/stem_UTF_8_norwegian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_porter.c +755 -0
data/libstemmer_c/src_c/stem_UTF_8_porter.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_portuguese.c +1023 -0
data/libstemmer_c/src_c/stem_UTF_8_portuguese.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_romanian.c +1004 -0
data/libstemmer_c/src_c/stem_UTF_8_romanian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_russian.c +694 -0
data/libstemmer_c/src_c/stem_UTF_8_russian.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_spanish.c +1097 -0
data/libstemmer_c/src_c/stem_UTF_8_spanish.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_swedish.c +309 -0
data/libstemmer_c/src_c/stem_UTF_8_swedish.h +16 -0
data/libstemmer_c/src_c/stem_UTF_8_turkish.c +2205 -0
data/libstemmer_c/src_c/stem_UTF_8_turkish.h +16 -0
data/test/helper.rb +3 -0
data/test/lingua/test_stemmer.rb +99 -0
metadata +141 -0

data/libstemmer_c/libstemmer/modules_utf8.txt ADDED Viewed

@@ -0,0 +1,50 @@
+# This file contains a list of stemmers to include in the distribution.
+# The format is a set of space separated lines - on each line:
+#  First item is name of stemmer.
+#  Second item is comma separated list of character sets.
+#  Third item is comma separated list of names to refer to the stemmer by.
+#
+# Lines starting with a #, or blank lines, are ignored.
+# List all the main algorithms for each language, in UTF-8.
+latin           UTF_8                   latin
+danish          UTF_8                   danish,da,dan
+dutch           UTF_8                   dutch,nl,dut,nld
+english         UTF_8                   english,en,eng
+finnish         UTF_8                   finnish,fi,fin
+french          UTF_8                   french,fr,fre,fra
+german          UTF_8                   german,de,ger,deu
+hungarian       UTF_8                   hungarian,hu,hun
+italian         UTF_8                   italian,it,ita
+norwegian       UTF_8                   norwegian,no,nor
+portuguese      UTF_8                   portuguese,pt,por
+romanian        UTF_8                   romanian,ro,rum,ron
+russian         UTF_8                   russian,ru,rus
+spanish         UTF_8                   spanish,es,esl,spa
+swedish         UTF_8                   swedish,sv,swe
+turkish         UTF_8                   turkish,tr,tur
+# Also include the traditional porter algorithm for english.
+# The porter algorithm is included in the libstemmer distribution to assist
+# with backwards compatibility, but for new systems the english algorithm
+# should be used in preference.
+porter          UTF_8                   porter
+# Some other stemmers in the snowball project are not included in the standard
+# distribution. To compile a libstemmer with them in, add them to this list,
+# and regenerate the distribution. (You will need a full source checkout for
+# this.) They are included in the snowball website as curiosities, but are not
+# intended for general use, and use of them is is not fully supported.  These
+# algorithms are:
+#
+# german2          - This is a slight modification of the german stemmer.
+#german2          UTF_8                   german2
+#
+# kraaij_pohlmann  - This is a different dutch stemmer.
+#kraaij_pohlmann  UTF_8                   kraaij_pohlmann
+#
+# lovins           - This is an english stemmer, but fairly outdated, and
+#                    only really applicable to a restricted type of input text
+#                    (keywords in academic publications).
+#lovins           UTF_8                   lovins

data/libstemmer_c/mkinc.mak ADDED Viewed

@@ -0,0 +1,86 @@
+# libstemmer/mkinc.mak: List of stemming module source files
+#
+# This file is generated by mkmodules.pl from a list of module names.
+# Do not edit manually.
+#
+# Modules included by this file are: latin, danish, dutch, english, finnish, french,
+# german, hungarian, italian, norwegian, porter, portuguese, romanian,
+# russian, spanish, swedish, turkish
+snowball_sources= \
+  src_c/stem_ISO_8859_1_latin.c \
+  src_c/stem_UTF_8_latin.c \
+  src_c/stem_ISO_8859_1_danish.c \
+  src_c/stem_UTF_8_danish.c \
+  src_c/stem_ISO_8859_1_dutch.c \
+  src_c/stem_UTF_8_dutch.c \
+  src_c/stem_ISO_8859_1_english.c \
+  src_c/stem_UTF_8_english.c \
+  src_c/stem_ISO_8859_1_finnish.c \
+  src_c/stem_UTF_8_finnish.c \
+  src_c/stem_ISO_8859_1_french.c \
+  src_c/stem_UTF_8_french.c \
+  src_c/stem_ISO_8859_1_german.c \
+  src_c/stem_UTF_8_german.c \
+  src_c/stem_ISO_8859_1_hungarian.c \
+  src_c/stem_UTF_8_hungarian.c \
+  src_c/stem_ISO_8859_1_italian.c \
+  src_c/stem_UTF_8_italian.c \
+  src_c/stem_ISO_8859_1_norwegian.c \
+  src_c/stem_UTF_8_norwegian.c \
+  src_c/stem_ISO_8859_1_porter.c \
+  src_c/stem_UTF_8_porter.c \
+  src_c/stem_ISO_8859_1_portuguese.c \
+  src_c/stem_UTF_8_portuguese.c \
+  src_c/stem_ISO_8859_2_romanian.c \
+  src_c/stem_UTF_8_romanian.c \
+  src_c/stem_KOI8_R_russian.c \
+  src_c/stem_UTF_8_russian.c \
+  src_c/stem_ISO_8859_1_spanish.c \
+  src_c/stem_UTF_8_spanish.c \
+  src_c/stem_ISO_8859_1_swedish.c \
+  src_c/stem_UTF_8_swedish.c \
+  src_c/stem_UTF_8_turkish.c \
+  runtime/api.c \
+  runtime/utilities.c \
+  libstemmer/libstemmer.c
+snowball_headers= \
+  src_c/stem_ISO_8859_1_latin.h \
+  src_c/stem_UTF_8_latin.h \
+  src_c/stem_ISO_8859_1_danish.h \
+  src_c/stem_UTF_8_danish.h \
+  src_c/stem_ISO_8859_1_dutch.h \
+  src_c/stem_UTF_8_dutch.h \
+  src_c/stem_ISO_8859_1_english.h \
+  src_c/stem_UTF_8_english.h \
+  src_c/stem_ISO_8859_1_finnish.h \
+  src_c/stem_UTF_8_finnish.h \
+  src_c/stem_ISO_8859_1_french.h \
+  src_c/stem_UTF_8_french.h \
+  src_c/stem_ISO_8859_1_german.h \
+  src_c/stem_UTF_8_german.h \
+  src_c/stem_ISO_8859_1_hungarian.h \
+  src_c/stem_UTF_8_hungarian.h \
+  src_c/stem_ISO_8859_1_italian.h \
+  src_c/stem_UTF_8_italian.h \
+  src_c/stem_ISO_8859_1_norwegian.h \
+  src_c/stem_UTF_8_norwegian.h \
+  src_c/stem_ISO_8859_1_porter.h \
+  src_c/stem_UTF_8_porter.h \
+  src_c/stem_ISO_8859_1_portuguese.h \
+  src_c/stem_UTF_8_portuguese.h \
+  src_c/stem_ISO_8859_2_romanian.h \
+  src_c/stem_UTF_8_romanian.h \
+  src_c/stem_KOI8_R_russian.h \
+  src_c/stem_UTF_8_russian.h \
+  src_c/stem_ISO_8859_1_spanish.h \
+  src_c/stem_UTF_8_spanish.h \
+  src_c/stem_ISO_8859_1_swedish.h \
+  src_c/stem_UTF_8_swedish.h \
+  src_c/stem_UTF_8_turkish.h \
+  include/libstemmer.h \
+  libstemmer/modules.h \
+  runtime/api.h \
+  runtime/header.h

data/libstemmer_c/mkinc_utf8.mak ADDED Viewed

@@ -0,0 +1,54 @@
+# libstemmer/mkinc_utf8.mak: List of stemming module source files
+#
+# This file is generated by mkmodules.pl from a list of module names.
+# Do not edit manually.
+#
+# Modules included by this file are: danish, dutch, english, finnish, french,
+# german, hungarian, italian, norwegian, porter, portuguese, romanian,
+# russian, spanish, swedish, turkish
+snowball_sources= \
+  src_c/stem_UTF_8_latin.c \
+  src_c/stem_UTF_8_danish.c \
+  src_c/stem_UTF_8_dutch.c \
+  src_c/stem_UTF_8_english.c \
+  src_c/stem_UTF_8_finnish.c \
+  src_c/stem_UTF_8_french.c \
+  src_c/stem_UTF_8_german.c \
+  src_c/stem_UTF_8_hungarian.c \
+  src_c/stem_UTF_8_italian.c \
+  src_c/stem_UTF_8_norwegian.c \
+  src_c/stem_UTF_8_porter.c \
+  src_c/stem_UTF_8_portuguese.c \
+  src_c/stem_UTF_8_romanian.c \
+  src_c/stem_UTF_8_russian.c \
+  src_c/stem_UTF_8_spanish.c \
+  src_c/stem_UTF_8_swedish.c \
+  src_c/stem_UTF_8_turkish.c \
+  runtime/api.c \
+  runtime/utilities.c \
+  libstemmer/libstemmer_utf8.c
+snowball_headers= \
+  src_c/stem_UTF_8_latin.h \
+  src_c/stem_UTF_8_danish.h \
+  src_c/stem_UTF_8_dutch.h \
+  src_c/stem_UTF_8_english.h \
+  src_c/stem_UTF_8_finnish.h \
+  src_c/stem_UTF_8_french.h \
+  src_c/stem_UTF_8_german.h \
+  src_c/stem_UTF_8_hungarian.h \
+  src_c/stem_UTF_8_italian.h \
+  src_c/stem_UTF_8_norwegian.h \
+  src_c/stem_UTF_8_porter.h \
+  src_c/stem_UTF_8_portuguese.h \
+  src_c/stem_UTF_8_romanian.h \
+  src_c/stem_UTF_8_russian.h \
+  src_c/stem_UTF_8_spanish.h \
+  src_c/stem_UTF_8_swedish.h \
+  src_c/stem_UTF_8_turkish.h \
+  include/libstemmer.h \
+  libstemmer/modules_utf8.h \
+  runtime/api.h \
+  runtime/header.h

data/libstemmer_c/runtime/api.c ADDED Viewed

@@ -0,0 +1,66 @@
+#include <stdlib.h> /* for calloc, free */
+#include "header.h"
+extern struct SN_env * SN_create_env(int S_size, int I_size, int B_size)
+{
+    struct SN_env * z = (struct SN_env *) calloc(1, sizeof(struct SN_env));
+    if (z == NULL) return NULL;
+    z->p = create_s();
+    if (z->p == NULL) goto error;
+    if (S_size)
+    {
+        int i;
+        z->S = (symbol * *) calloc(S_size, sizeof(symbol *));
+        if (z->S == NULL) goto error;
+        for (i = 0; i < S_size; i++)
+        {
+            z->S[i] = create_s();
+            if (z->S[i] == NULL) goto error;
+        }
+    }
+    if (I_size)
+    {
+        z->I = (int *) calloc(I_size, sizeof(int));
+        if (z->I == NULL) goto error;
+    }
+    if (B_size)
+    {
+        z->B = (unsigned char *) calloc(B_size, sizeof(unsigned char));
+        if (z->B == NULL) goto error;
+    }
+    return z;
+error:
+    SN_close_env(z, S_size);
+    return NULL;
+}
+extern void SN_close_env(struct SN_env * z, int S_size)
+{
+    if (z == NULL) return;
+    if (S_size)
+    {
+        int i;
+        for (i = 0; i < S_size; i++)
+        {
+            lose_s(z->S[i]);
+        }
+        free(z->S);
+    }
+    free(z->I);
+    free(z->B);
+    if (z->p) lose_s(z->p);
+    free(z);
+}
+extern int SN_set_current(struct SN_env * z, int size, const symbol * s)
+{
+    int err = replace_s(z, 0, z->l, size, s, NULL);
+    z->c = 0;
+    return err;
+}

data/libstemmer_c/runtime/api.h ADDED Viewed

@@ -0,0 +1,26 @@
+typedef unsigned char symbol;
+/* Or replace 'char' above with 'short' for 16 bit characters.
+   More precisely, replace 'char' with whatever type guarantees the
+   character width you need. Note however that sizeof(symbol) should divide
+   HEAD, defined in header.h as 2*sizeof(int), without remainder, otherwise
+   there is an alignment problem. In the unlikely event of a problem here,
+   consult Martin Porter.
+*/
+struct SN_env {
+    symbol * p;
+    int c; int l; int lb; int bra; int ket;
+    symbol * * S;
+    int * I;
+    unsigned char * B;
+};
+extern struct SN_env * SN_create_env(int S_size, int I_size, int B_size);
+extern void SN_close_env(struct SN_env * z, int S_size);
+extern int SN_set_current(struct SN_env * z, int size, const symbol * s);

data/libstemmer_c/runtime/header.h ADDED Viewed

@@ -0,0 +1,58 @@
+#include <limits.h>
+#include "api.h"
+#define MAXINT INT_MAX
+#define MININT INT_MIN
+#define HEAD 2*sizeof(int)
+#define SIZE(p)        ((int *)(p))[-1]
+#define SET_SIZE(p, n) ((int *)(p))[-1] = n
+#define CAPACITY(p)    ((int *)(p))[-2]
+struct among
+{   int s_size;     /* number of chars in string */
+    const symbol * s;       /* search string */
+    int substring_i;/* index to longest matching substring */
+    int result;     /* result of the lookup */
+    int (* function)(struct SN_env *);
+};
+extern symbol * create_s(void);
+extern void lose_s(symbol * p);
+extern int skip_utf8(const symbol * p, int c, int lb, int l, int n);
+extern int in_grouping_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int in_grouping_b_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int out_grouping_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int out_grouping_b_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int in_grouping(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int in_grouping_b(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int out_grouping(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int out_grouping_b(struct SN_env * z, const unsigned char * s, int min, int max, int repeat);
+extern int eq_s(struct SN_env * z, int s_size, const symbol * s);
+extern int eq_s_b(struct SN_env * z, int s_size, const symbol * s);
+extern int eq_v(struct SN_env * z, const symbol * p);
+extern int eq_v_b(struct SN_env * z, const symbol * p);
+extern int find_among(struct SN_env * z, const struct among * v, int v_size);
+extern int find_among_b(struct SN_env * z, const struct among * v, int v_size);
+extern int replace_s(struct SN_env * z, int c_bra, int c_ket, int s_size, const symbol * s, int * adjustment);
+extern int slice_from_s(struct SN_env * z, int s_size, const symbol * s);
+extern int slice_from_v(struct SN_env * z, const symbol * p);
+extern int slice_del(struct SN_env * z);
+extern int insert_s(struct SN_env * z, int bra, int ket, int s_size, const symbol * s);
+extern int insert_v(struct SN_env * z, int bra, int ket, const symbol * p);
+extern symbol * slice_to(struct SN_env * z, symbol * p);
+extern symbol * assign_to(struct SN_env * z, symbol * p);
+extern void debug(struct SN_env * z, int number, int line_count);

data/libstemmer_c/runtime/utilities.c ADDED Viewed

@@ -0,0 +1,478 @@
+#include <stdio.h>
+#include <stdlib.h>
+#include <string.h>
+#include "header.h"
+#define unless(C) if(!(C))
+#define CREATE_SIZE 1
+extern symbol * create_s(void) {
+    symbol * p;
+    void * mem = malloc(HEAD + (CREATE_SIZE + 1) * sizeof(symbol));
+    if (mem == NULL) return NULL;
+    p = (symbol *) (HEAD + (char *) mem);
+    CAPACITY(p) = CREATE_SIZE;
+    SET_SIZE(p, CREATE_SIZE);
+    return p;
+}
+extern void lose_s(symbol * p) {
+    if (p == NULL) return;
+    free((char *) p - HEAD);
+}
+/*
+   new_p = skip_utf8(p, c, lb, l, n); skips n characters forwards from p + c
+   if n +ve, or n characters backwards from p + c - 1 if n -ve. new_p is the new
+   position, or 0 on failure.
+   -- used to implement hop and next in the utf8 case.
+*/
+extern int skip_utf8(const symbol * p, int c, int lb, int l, int n) {
+    int b;
+    if (n >= 0) {
+        for (; n > 0; n--) {
+            if (c >= l) return -1;
+            b = p[c++];
+            if (b >= 0xC0) {   /* 1100 0000 */
+                while (c < l) {
+                    b = p[c];
+                    if (b >= 0xC0 || b < 0x80) break;
+                    /* break unless b is 10------ */
+                    c++;
+                }
+            }
+        }
+    } else {
+        for (; n < 0; n++) {
+            if (c <= lb) return -1;
+            b = p[--c];
+            if (b >= 0x80) {   /* 1000 0000 */
+                while (c > lb) {
+                    b = p[c];
+                    if (b >= 0xC0) break; /* 1100 0000 */
+                    c--;
+                }
+            }
+        }
+    }
+    return c;
+}
+/* Code for character groupings: utf8 cases */
+static int get_utf8(const symbol * p, int c, int l, int * slot) {
+    int b0, b1;
+    if (c >= l) return 0;
+    b0 = p[c++];
+    if (b0 < 0xC0 || c == l) {   /* 1100 0000 */
+        * slot = b0; return 1;
+    }
+    b1 = p[c++];
+    if (b0 < 0xE0 || c == l) {   /* 1110 0000 */
+        * slot = (b0 & 0x1F) << 6 | (b1 & 0x3F); return 2;
+    }
+    * slot = (b0 & 0xF) << 12 | (b1 & 0x3F) << 6 | (p[c] & 0x3F); return 3;
+}
+static int get_b_utf8(const symbol * p, int c, int lb, int * slot) {
+    int b0, b1;
+    if (c <= lb) return 0;
+    b0 = p[--c];
+    if (b0 < 0x80 || c == lb) {   /* 1000 0000 */
+        * slot = b0; return 1;
+    }
+    b1 = p[--c];
+    if (b1 >= 0xC0 || c == lb) {   /* 1100 0000 */
+        * slot = (b1 & 0x1F) << 6 | (b0 & 0x3F); return 2;
+    }
+    * slot = (p[c] & 0xF) << 12 | (b1 & 0x3F) << 6 | (b0 & 0x3F); return 3;
+}
+extern int in_grouping_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	int w = get_utf8(z->p, z->c, z->l, & ch);
+	unless (w) return -1;
+	if (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return w;
+	z->c += w;
+    } while (repeat);
+    return 0;
+}
+extern int in_grouping_b_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	int w = get_b_utf8(z->p, z->c, z->lb, & ch);
+	unless (w) return -1;
+	if (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return w;
+	z->c -= w;
+    } while (repeat);
+    return 0;
+}
+extern int out_grouping_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	int w = get_utf8(z->p, z->c, z->l, & ch);
+	unless (w) return -1;
+	unless (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return w;
+	z->c += w;
+    } while (repeat);
+    return 0;
+}
+extern int out_grouping_b_U(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	int w = get_b_utf8(z->p, z->c, z->lb, & ch);
+	unless (w) return -1;
+	unless (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return w;
+	z->c -= w;
+    } while (repeat);
+    return 0;
+}
+/* Code for character groupings: non-utf8 cases */
+extern int in_grouping(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	if (z->c >= z->l) return -1;
+	ch = z->p[z->c];
+	if (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return 1;
+	z->c++;
+    } while (repeat);
+    return 0;
+}
+extern int in_grouping_b(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	if (z->c <= z->lb) return -1;
+	ch = z->p[z->c - 1];
+	if (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return 1;
+	z->c--;
+    } while (repeat);
+    return 0;
+}
+extern int out_grouping(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	if (z->c >= z->l) return -1;
+	ch = z->p[z->c];
+	unless (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return 1;
+	z->c++;
+    } while (repeat);
+    return 0;
+}
+extern int out_grouping_b(struct SN_env * z, const unsigned char * s, int min, int max, int repeat) {
+    do {
+	int ch;
+	if (z->c <= z->lb) return -1;
+	ch = z->p[z->c - 1];
+	unless (ch > max || (ch -= min) < 0 || (s[ch >> 3] & (0X1 << (ch & 0X7))) == 0)
+	    return 1;
+	z->c--;
+    } while (repeat);
+    return 0;
+}
+extern int eq_s(struct SN_env * z, int s_size, const symbol * s) {
+    if (z->l - z->c < s_size || memcmp(z->p + z->c, s, s_size * sizeof(symbol)) != 0) return 0;
+    z->c += s_size; return 1;
+}
+extern int eq_s_b(struct SN_env * z, int s_size, const symbol * s) {
+    if (z->c - z->lb < s_size || memcmp(z->p + z->c - s_size, s, s_size * sizeof(symbol)) != 0) return 0;
+    z->c -= s_size; return 1;
+}
+extern int eq_v(struct SN_env * z, const symbol * p) {
+    return eq_s(z, SIZE(p), p);
+}
+extern int eq_v_b(struct SN_env * z, const symbol * p) {
+    return eq_s_b(z, SIZE(p), p);
+}
+extern int find_among(struct SN_env * z, const struct among * v, int v_size) {
+    int i = 0;
+    int j = v_size;
+    int c = z->c; int l = z->l;
+    symbol * q = z->p + c;
+    const struct among * w;
+    int common_i = 0;
+    int common_j = 0;
+    int first_key_inspected = 0;
+    while(1) {
+        int k = i + ((j - i) >> 1);
+        int diff = 0;
+        int common = common_i < common_j ? common_i : common_j; /* smaller */
+        w = v + k;
+        {
+            int i2; for (i2 = common; i2 < w->s_size; i2++) {
+                if (c + common == l) { diff = -1; break; }
+                diff = q[common] - w->s[i2];
+                if (diff != 0) break;
+                common++;
+            }
+        }
+        if (diff < 0) { j = k; common_j = common; }
+                 else { i = k; common_i = common; }
+        if (j - i <= 1) {
+            if (i > 0) break; /* v->s has been inspected */
+            if (j == i) break; /* only one item in v */
+            /* - but now we need to go round once more to get
+               v->s inspected. This looks messy, but is actually
+               the optimal approach.  */
+            if (first_key_inspected) break;
+            first_key_inspected = 1;
+        }
+    }
+    while(1) {
+        w = v + i;
+        if (common_i >= w->s_size) {
+            z->c = c + w->s_size;
+            if (w->function == 0) return w->result;
+            {
+                int res = w->function(z);
+                z->c = c + w->s_size;
+                if (res) return w->result;
+            }
+        }
+        i = w->substring_i;
+        if (i < 0) return 0;
+    }
+}
+/* find_among_b is for backwards processing. Same comments apply */
+extern int find_among_b(struct SN_env * z, const struct among * v, int v_size) {
+    int i = 0;
+    int j = v_size;
+    int c = z->c; int lb = z->lb;
+    symbol * q = z->p + c - 1;
+    const struct among * w;
+    int common_i = 0;
+    int common_j = 0;
+    int first_key_inspected = 0;
+    while(1) {
+        int k = i + ((j - i) >> 1);
+        int diff = 0;
+        int common = common_i < common_j ? common_i : common_j;
+        w = v + k;
+        {
+            int i2; for (i2 = w->s_size - 1 - common; i2 >= 0; i2--) {
+                if (c - common == lb) { diff = -1; break; }
+                diff = q[- common] - w->s[i2];
+                if (diff != 0) break;
+                common++;
+            }
+        }
+        if (diff < 0) { j = k; common_j = common; }
+                 else { i = k; common_i = common; }
+        if (j - i <= 1) {
+            if (i > 0) break;
+            if (j == i) break;
+            if (first_key_inspected) break;
+            first_key_inspected = 1;
+        }
+    }
+    while(1) {
+        w = v + i;
+        if (common_i >= w->s_size) {
+            z->c = c - w->s_size;
+            if (w->function == 0) return w->result;
+            {
+                int res = w->function(z);
+                z->c = c - w->s_size;
+                if (res) return w->result;
+            }
+        }
+        i = w->substring_i;
+        if (i < 0) return 0;
+    }
+}
+/* Increase the size of the buffer pointed to by p to at least n symbols.
+ * If insufficient memory, returns NULL and frees the old buffer.
+ */
+static symbol * increase_size(symbol * p, int n) {
+    symbol * q;
+    int new_size = n + 20;
+    void * mem = realloc((char *) p - HEAD,
+                         HEAD + (new_size + 1) * sizeof(symbol));
+    if (mem == NULL) {
+        lose_s(p);
+        return NULL;
+    }
+    q = (symbol *) (HEAD + (char *)mem);
+    CAPACITY(q) = new_size;
+    return q;
+}
+/* to replace symbols between c_bra and c_ket in z->p by the
+   s_size symbols at s.
+   Returns 0 on success, -1 on error.
+   Also, frees z->p (and sets it to NULL) on error.
+*/
+extern int replace_s(struct SN_env * z, int c_bra, int c_ket, int s_size, const symbol * s, int * adjptr)
+{
+    int adjustment;
+    int len;
+    if (z->p == NULL) {
+        z->p = create_s();
+        if (z->p == NULL) return -1;
+    }
+    adjustment = s_size - (c_ket - c_bra);
+    len = SIZE(z->p);
+    if (adjustment != 0) {
+        if (adjustment + len > CAPACITY(z->p)) {
+            z->p = increase_size(z->p, adjustment + len);
+            if (z->p == NULL) return -1;
+        }
+        memmove(z->p + c_ket + adjustment,
+                z->p + c_ket,
+                (len - c_ket) * sizeof(symbol));
+        SET_SIZE(z->p, adjustment + len);
+        z->l += adjustment;
+        if (z->c >= c_ket)
+            z->c += adjustment;
+        else
+            if (z->c > c_bra)
+                z->c = c_bra;
+    }
+    unless (s_size == 0) memmove(z->p + c_bra, s, s_size * sizeof(symbol));
+    if (adjptr != NULL)
+        *adjptr = adjustment;
+    return 0;
+}
+static int slice_check(struct SN_env * z) {
+    if (z->bra < 0 ||
+        z->bra > z->ket ||
+        z->ket > z->l ||
+        z->p == NULL ||
+        z->l > SIZE(z->p)) /* this line could be removed */
+    {
+#if 0
+        fprintf(stderr, "faulty slice operation:\n");
+        debug(z, -1, 0);
+#endif
+        return -1;
+    }
+    return 0;
+}
+extern int slice_from_s(struct SN_env * z, int s_size, const symbol * s) {
+    if (slice_check(z)) return -1;
+    return replace_s(z, z->bra, z->ket, s_size, s, NULL);
+}
+extern int slice_from_v(struct SN_env * z, const symbol * p) {
+    return slice_from_s(z, SIZE(p), p);
+}
+extern int slice_del(struct SN_env * z) {
+    return slice_from_s(z, 0, 0);
+}
+extern int insert_s(struct SN_env * z, int bra, int ket, int s_size, const symbol * s) {
+    int adjustment;
+    if (replace_s(z, bra, ket, s_size, s, &adjustment))
+        return -1;
+    if (bra <= z->bra) z->bra += adjustment;
+    if (bra <= z->ket) z->ket += adjustment;
+    return 0;
+}
+extern int insert_v(struct SN_env * z, int bra, int ket, const symbol * p) {
+    int adjustment;
+    if (replace_s(z, bra, ket, SIZE(p), p, &adjustment))
+        return -1;
+    if (bra <= z->bra) z->bra += adjustment;
+    if (bra <= z->ket) z->ket += adjustment;
+    return 0;
+}
+extern symbol * slice_to(struct SN_env * z, symbol * p) {
+    if (slice_check(z)) {
+        lose_s(p);
+        return NULL;
+    }
+    {
+        int len = z->ket - z->bra;
+        if (CAPACITY(p) < len) {
+            p = increase_size(p, len);
+            if (p == NULL)
+                return NULL;
+        }
+        memmove(p, z->p + z->bra, len * sizeof(symbol));
+        SET_SIZE(p, len);
+    }
+    return p;
+}
+extern symbol * assign_to(struct SN_env * z, symbol * p) {
+    int len = z->l;
+    if (CAPACITY(p) < len) {
+        p = increase_size(p, len);
+        if (p == NULL)
+            return NULL;
+    }
+    memmove(p, z->p, len * sizeof(symbol));
+    SET_SIZE(p, len);
+    return p;
+}
+#if 0
+extern void debug(struct SN_env * z, int number, int line_count) {
+    int i;
+    int limit = SIZE(z->p);
+    /*if (number >= 0) printf("%3d (line %4d): '", number, line_count);*/
+    if (number >= 0) printf("%3d (line %4d): [%d]'", number, line_count,limit);
+    for (i = 0; i <= limit; i++) {
+        if (z->lb == i) printf("{");
+        if (z->bra == i) printf("[");
+        if (z->c == i) printf("|");
+        if (z->ket == i) printf("]");
+        if (z->l == i) printf("}");
+        if (i < limit)
+        {   int ch = z->p[i];
+            if (ch == 0) ch = '#';
+            printf("%c", ch);
+        }
+    }
+    printf("'\n");
+}
+#endif