RubyGems - nokogumbo - Versions diffs - 1.3.0 → 1.5.0 - Mend

nokogumbo 1.3.0 → 1.5.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (35) hide show

checksums.yaml +7 -0
data/README.md +8 -2
data/ext/nokogumboc/extconf.rb +18 -6
data/ext/nokogumboc/nokogumbo.c +102 -42
data/gumbo-parser/src/attribute.c +1 -1
data/gumbo-parser/src/char_ref.c +37 -67
data/gumbo-parser/src/char_ref.h +3 -4
data/gumbo-parser/src/char_ref.rl +6 -1
data/gumbo-parser/src/error.c +51 -51
data/gumbo-parser/src/error.h +7 -9
data/gumbo-parser/src/gumbo.h +45 -181
data/gumbo-parser/src/parser.c +1439 -1172
data/gumbo-parser/src/string_buffer.c +14 -10
data/gumbo-parser/src/string_buffer.h +9 -6
data/gumbo-parser/src/string_piece.c +5 -6
data/gumbo-parser/src/string_piece.h +2 -3
data/gumbo-parser/src/tag.c +36 -166
data/gumbo-parser/src/tag.in +150 -0
data/gumbo-parser/src/tag_enum.h +153 -0
data/gumbo-parser/src/tag_gperf.h +105 -0
data/gumbo-parser/src/tag_sizes.h +4 -0
data/gumbo-parser/src/tag_strings.h +153 -0
data/gumbo-parser/src/token_type.h +1 -0
data/gumbo-parser/src/tokenizer.c +278 -361
data/gumbo-parser/src/tokenizer.h +2 -2
data/gumbo-parser/src/utf8.c +53 -52
data/gumbo-parser/src/utf8.h +1 -2
data/gumbo-parser/src/util.c +1 -1
data/gumbo-parser/src/util.h +0 -2
data/gumbo-parser/src/vector.c +17 -17
data/gumbo-parser/src/vector.h +6 -8
data/gumbo-parser/visualc/include/strings.h +2 -1
data/lib/nokogumbo.rb +8 -8
data/test-nokogumbo.rb +190 -0
metadata +19 -17

data/gumbo-parser/src/tag_enum.h ADDED

@@ -0,0 +1,153 @@
+// Generated via `gentags.py src/tag.in`.
+// Do not edit; edit src/tag.in instead.
+// clang-format off
+GUMBO_TAG_HTML,
+GUMBO_TAG_HEAD,
+GUMBO_TAG_TITLE,
+GUMBO_TAG_BASE,
+GUMBO_TAG_LINK,
+GUMBO_TAG_META,
+GUMBO_TAG_STYLE,
+GUMBO_TAG_SCRIPT,
+GUMBO_TAG_NOSCRIPT,
+GUMBO_TAG_TEMPLATE,
+GUMBO_TAG_BODY,
+GUMBO_TAG_ARTICLE,
+GUMBO_TAG_SECTION,
+GUMBO_TAG_NAV,
+GUMBO_TAG_ASIDE,
+GUMBO_TAG_H1,
+GUMBO_TAG_H2,
+GUMBO_TAG_H3,
+GUMBO_TAG_H4,
+GUMBO_TAG_H5,
+GUMBO_TAG_H6,
+GUMBO_TAG_HGROUP,
+GUMBO_TAG_HEADER,
+GUMBO_TAG_FOOTER,
+GUMBO_TAG_ADDRESS,
+GUMBO_TAG_P,
+GUMBO_TAG_HR,
+GUMBO_TAG_PRE,
+GUMBO_TAG_BLOCKQUOTE,
+GUMBO_TAG_OL,
+GUMBO_TAG_UL,
+GUMBO_TAG_LI,
+GUMBO_TAG_DL,
+GUMBO_TAG_DT,
+GUMBO_TAG_DD,
+GUMBO_TAG_FIGURE,
+GUMBO_TAG_FIGCAPTION,
+GUMBO_TAG_MAIN,
+GUMBO_TAG_DIV,
+GUMBO_TAG_A,
+GUMBO_TAG_EM,
+GUMBO_TAG_STRONG,
+GUMBO_TAG_SMALL,
+GUMBO_TAG_S,
+GUMBO_TAG_CITE,
+GUMBO_TAG_Q,
+GUMBO_TAG_DFN,
+GUMBO_TAG_ABBR,
+GUMBO_TAG_DATA,
+GUMBO_TAG_TIME,
+GUMBO_TAG_CODE,
+GUMBO_TAG_VAR,
+GUMBO_TAG_SAMP,
+GUMBO_TAG_KBD,
+GUMBO_TAG_SUB,
+GUMBO_TAG_SUP,
+GUMBO_TAG_I,
+GUMBO_TAG_B,
+GUMBO_TAG_U,
+GUMBO_TAG_MARK,
+GUMBO_TAG_RUBY,
+GUMBO_TAG_RT,
+GUMBO_TAG_RP,
+GUMBO_TAG_BDI,
+GUMBO_TAG_BDO,
+GUMBO_TAG_SPAN,
+GUMBO_TAG_BR,
+GUMBO_TAG_WBR,
+GUMBO_TAG_INS,
+GUMBO_TAG_DEL,
+GUMBO_TAG_IMAGE,
+GUMBO_TAG_IMG,
+GUMBO_TAG_IFRAME,
+GUMBO_TAG_EMBED,
+GUMBO_TAG_OBJECT,
+GUMBO_TAG_PARAM,
+GUMBO_TAG_VIDEO,
+GUMBO_TAG_AUDIO,
+GUMBO_TAG_SOURCE,
+GUMBO_TAG_TRACK,
+GUMBO_TAG_CANVAS,
+GUMBO_TAG_MAP,
+GUMBO_TAG_AREA,
+GUMBO_TAG_MATH,
+GUMBO_TAG_MI,
+GUMBO_TAG_MO,
+GUMBO_TAG_MN,
+GUMBO_TAG_MS,
+GUMBO_TAG_MTEXT,
+GUMBO_TAG_MGLYPH,
+GUMBO_TAG_MALIGNMARK,
+GUMBO_TAG_ANNOTATION_XML,
+GUMBO_TAG_SVG,
+GUMBO_TAG_FOREIGNOBJECT,
+GUMBO_TAG_DESC,
+GUMBO_TAG_TABLE,
+GUMBO_TAG_CAPTION,
+GUMBO_TAG_COLGROUP,
+GUMBO_TAG_COL,
+GUMBO_TAG_TBODY,
+GUMBO_TAG_THEAD,
+GUMBO_TAG_TFOOT,
+GUMBO_TAG_TR,
+GUMBO_TAG_TD,
+GUMBO_TAG_TH,
+GUMBO_TAG_FORM,
+GUMBO_TAG_FIELDSET,
+GUMBO_TAG_LEGEND,
+GUMBO_TAG_LABEL,
+GUMBO_TAG_INPUT,
+GUMBO_TAG_BUTTON,
+GUMBO_TAG_SELECT,
+GUMBO_TAG_DATALIST,
+GUMBO_TAG_OPTGROUP,
+GUMBO_TAG_OPTION,
+GUMBO_TAG_TEXTAREA,
+GUMBO_TAG_KEYGEN,
+GUMBO_TAG_OUTPUT,
+GUMBO_TAG_PROGRESS,
+GUMBO_TAG_METER,
+GUMBO_TAG_DETAILS,
+GUMBO_TAG_SUMMARY,
+GUMBO_TAG_MENU,
+GUMBO_TAG_MENUITEM,
+GUMBO_TAG_APPLET,
+GUMBO_TAG_ACRONYM,
+GUMBO_TAG_BGSOUND,
+GUMBO_TAG_DIR,
+GUMBO_TAG_FRAME,
+GUMBO_TAG_FRAMESET,
+GUMBO_TAG_NOFRAMES,
+GUMBO_TAG_ISINDEX,
+GUMBO_TAG_LISTING,
+GUMBO_TAG_XMP,
+GUMBO_TAG_NEXTID,
+GUMBO_TAG_NOEMBED,
+GUMBO_TAG_PLAINTEXT,
+GUMBO_TAG_RB,
+GUMBO_TAG_STRIKE,
+GUMBO_TAG_BASEFONT,
+GUMBO_TAG_BIG,
+GUMBO_TAG_BLINK,
+GUMBO_TAG_CENTER,
+GUMBO_TAG_FONT,
+GUMBO_TAG_MARQUEE,
+GUMBO_TAG_MULTICOL,
+GUMBO_TAG_NOBR,
+GUMBO_TAG_SPACER,
+GUMBO_TAG_TT,
+GUMBO_TAG_RTC,

data/gumbo-parser/src/tag_gperf.h ADDED

@@ -0,0 +1,105 @@
+static unsigned int tag_hash(
+    register const char *str, register unsigned int len) {
+  static unsigned short asso_values[] = {296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 6, 4, 3, 1, 1, 0,
+      1, 0, 0, 296, 296, 296, 296, 296, 296, 296, 22, 73, 151, 4, 13, 59, 65, 2,
+      69, 0, 134, 9, 16, 52, 55, 28, 101, 0, 1, 6, 63, 126, 104, 93, 124, 296,
+      296, 296, 296, 296, 296, 296, 22, 73, 151, 4, 13, 59, 65, 2, 69, 0, 134,
+      9, 16, 52, 55, 28, 101, 0, 1, 6, 63, 126, 104, 93, 124, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296,
+      296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296, 296};
+  register unsigned int hval = len;
+  switch (hval) {
+    default:
+      hval += asso_values[(unsigned char) str[1] + 3];
+    /*FALLTHROUGH*/
+    case 1:
+      hval += asso_values[(unsigned char) str[0]];
+      break;
+  }
+  return hval + asso_values[(unsigned char) str[len - 1]];
+}
+static const unsigned char kGumboTagMap[] = {GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_S, GUMBO_TAG_H6, GUMBO_TAG_H5, GUMBO_TAG_H4,
+    GUMBO_TAG_H3, GUMBO_TAG_SPACER, GUMBO_TAG_H2, GUMBO_TAG_HEADER,
+    GUMBO_TAG_H1, GUMBO_TAG_HEAD, GUMBO_TAG_LAST, GUMBO_TAG_DETAILS,
+    GUMBO_TAG_SELECT, GUMBO_TAG_DIR, GUMBO_TAG_LAST, GUMBO_TAG_DEL,
+    GUMBO_TAG_LAST, GUMBO_TAG_SOURCE, GUMBO_TAG_LEGEND, GUMBO_TAG_DATALIST,
+    GUMBO_TAG_METER, GUMBO_TAG_MGLYPH, GUMBO_TAG_LAST, GUMBO_TAG_MATH,
+    GUMBO_TAG_LABEL, GUMBO_TAG_TABLE, GUMBO_TAG_TEMPLATE, GUMBO_TAG_LAST,
+    GUMBO_TAG_RP, GUMBO_TAG_TIME, GUMBO_TAG_TITLE, GUMBO_TAG_DATA,
+    GUMBO_TAG_APPLET, GUMBO_TAG_HGROUP, GUMBO_TAG_SAMP, GUMBO_TAG_TEXTAREA,
+    GUMBO_TAG_ABBR, GUMBO_TAG_MARQUEE, GUMBO_TAG_LAST, GUMBO_TAG_MENUITEM,
+    GUMBO_TAG_SMALL, GUMBO_TAG_META, GUMBO_TAG_A, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_EMBED,
+    GUMBO_TAG_MAP, GUMBO_TAG_LAST, GUMBO_TAG_PARAM, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_NOBR, GUMBO_TAG_P, GUMBO_TAG_SPAN, GUMBO_TAG_EM,
+    GUMBO_TAG_LAST, GUMBO_TAG_NOFRAMES, GUMBO_TAG_SECTION, GUMBO_TAG_NOEMBED,
+    GUMBO_TAG_NEXTID, GUMBO_TAG_FOOTER, GUMBO_TAG_NOSCRIPT, GUMBO_TAG_HR,
+    GUMBO_TAG_LAST, GUMBO_TAG_FONT, GUMBO_TAG_DL, GUMBO_TAG_TR,
+    GUMBO_TAG_SCRIPT, GUMBO_TAG_MO, GUMBO_TAG_LAST, GUMBO_TAG_DD,
+    GUMBO_TAG_MAIN, GUMBO_TAG_TD, GUMBO_TAG_FOREIGNOBJECT, GUMBO_TAG_FORM,
+    GUMBO_TAG_OBJECT, GUMBO_TAG_LAST, GUMBO_TAG_FIELDSET, GUMBO_TAG_LAST,
+    GUMBO_TAG_BGSOUND, GUMBO_TAG_MENU, GUMBO_TAG_TFOOT, GUMBO_TAG_FIGURE,
+    GUMBO_TAG_RB, GUMBO_TAG_LI, GUMBO_TAG_LISTING, GUMBO_TAG_BASEFONT,
+    GUMBO_TAG_OPTGROUP, GUMBO_TAG_LAST, GUMBO_TAG_BASE, GUMBO_TAG_ADDRESS,
+    GUMBO_TAG_MI, GUMBO_TAG_LAST, GUMBO_TAG_PLAINTEXT, GUMBO_TAG_LAST,
+    GUMBO_TAG_PROGRESS, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_ACRONYM, GUMBO_TAG_ARTICLE, GUMBO_TAG_LAST, GUMBO_TAG_PRE,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_AREA,
+    GUMBO_TAG_RT, GUMBO_TAG_LAST, GUMBO_TAG_OPTION, GUMBO_TAG_IMAGE,
+    GUMBO_TAG_DT, GUMBO_TAG_LAST, GUMBO_TAG_TT, GUMBO_TAG_HTML, GUMBO_TAG_WBR,
+    GUMBO_TAG_OL, GUMBO_TAG_LAST, GUMBO_TAG_STYLE, GUMBO_TAG_STRIKE,
+    GUMBO_TAG_SUP, GUMBO_TAG_MULTICOL, GUMBO_TAG_U, GUMBO_TAG_DFN, GUMBO_TAG_UL,
+    GUMBO_TAG_FIGCAPTION, GUMBO_TAG_MTEXT, GUMBO_TAG_LAST, GUMBO_TAG_VAR,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_FRAMESET, GUMBO_TAG_LAST,
+    GUMBO_TAG_BR, GUMBO_TAG_I, GUMBO_TAG_FRAME, GUMBO_TAG_LAST, GUMBO_TAG_DIV,
+    GUMBO_TAG_LAST, GUMBO_TAG_TH, GUMBO_TAG_MS, GUMBO_TAG_ANNOTATION_XML,
+    GUMBO_TAG_B, GUMBO_TAG_TBODY, GUMBO_TAG_THEAD, GUMBO_TAG_BIG,
+    GUMBO_TAG_BLOCKQUOTE, GUMBO_TAG_XMP, GUMBO_TAG_LAST, GUMBO_TAG_KBD,
+    GUMBO_TAG_LAST, GUMBO_TAG_LINK, GUMBO_TAG_IFRAME, GUMBO_TAG_MARK,
+    GUMBO_TAG_CENTER, GUMBO_TAG_OUTPUT, GUMBO_TAG_DESC, GUMBO_TAG_CANVAS,
+    GUMBO_TAG_COL, GUMBO_TAG_MALIGNMARK, GUMBO_TAG_IMG, GUMBO_TAG_ASIDE,
+    GUMBO_TAG_LAST, GUMBO_TAG_CODE, GUMBO_TAG_LAST, GUMBO_TAG_SUB, GUMBO_TAG_MN,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_INS, GUMBO_TAG_AUDIO,
+    GUMBO_TAG_STRONG, GUMBO_TAG_CITE, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_INPUT, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_NAV, GUMBO_TAG_LAST, GUMBO_TAG_COLGROUP,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_SVG, GUMBO_TAG_KEYGEN, GUMBO_TAG_VIDEO,
+    GUMBO_TAG_BDO, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_BODY, GUMBO_TAG_LAST, GUMBO_TAG_Q, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_TRACK,
+    GUMBO_TAG_LAST, GUMBO_TAG_BDI, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_CAPTION, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_RUBY, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_BUTTON,
+    GUMBO_TAG_SUMMARY, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_RTC, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_BLINK, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_LAST,
+    GUMBO_TAG_LAST, GUMBO_TAG_LAST, GUMBO_TAG_ISINDEX};

data/gumbo-parser/src/tag_sizes.h ADDED

@@ -0,0 +1,4 @@
+// Generated via `gentags.py src/tag.in`.
+// Do not edit; edit src/tag.in instead.
+// clang-format off
+4, 4, 5, 4, 4, 4, 5, 6, 8, 8, 4, 7, 7, 3, 5, 2, 2, 2, 2, 2, 2, 6, 6, 6, 7, 1, 2, 3, 10, 2, 2, 2, 2, 2, 2, 6, 10, 4, 3, 1, 2, 6, 5, 1, 4, 1, 3, 4, 4, 4, 4, 3, 4, 3, 3, 3, 1, 1, 1, 4, 4, 2, 2, 3, 3, 4, 2, 3, 3, 3, 5, 3, 6, 5, 6, 5, 5, 5, 6, 5, 6, 3, 4, 4, 2, 2, 2, 2, 5, 6, 10, 14, 3, 13, 4, 5, 7, 8, 3, 5, 5, 5, 2, 2, 2, 4, 8, 6, 5, 5, 6, 6, 8, 8, 6, 8, 6, 6, 8, 5, 7, 7, 4, 8, 6, 7, 7, 3, 5, 8, 8, 7, 7, 3, 6, 7, 9, 2, 6, 8, 3, 5, 6, 4, 7, 8, 4, 6, 2, 3,

data/gumbo-parser/src/tag_strings.h ADDED

@@ -0,0 +1,153 @@
+// Generated via `gentags.py src/tag.in`.
+// Do not edit; edit src/tag.in instead.
+// clang-format off
+"html",
+"head",
+"title",
+"base",
+"link",
+"meta",
+"style",
+"script",
+"noscript",
+"template",
+"body",
+"article",
+"section",
+"nav",
+"aside",
+"h1",
+"h2",
+"h3",
+"h4",
+"h5",
+"h6",
+"hgroup",
+"header",
+"footer",
+"address",
+"p",
+"hr",
+"pre",
+"blockquote",
+"ol",
+"ul",
+"li",
+"dl",
+"dt",
+"dd",
+"figure",
+"figcaption",
+"main",
+"div",
+"a",
+"em",
+"strong",
+"small",
+"s",
+"cite",
+"q",
+"dfn",
+"abbr",
+"data",
+"time",
+"code",
+"var",
+"samp",
+"kbd",
+"sub",
+"sup",
+"i",
+"b",
+"u",
+"mark",
+"ruby",
+"rt",
+"rp",
+"bdi",
+"bdo",
+"span",
+"br",
+"wbr",
+"ins",
+"del",
+"image",
+"img",
+"iframe",
+"embed",
+"object",
+"param",
+"video",
+"audio",
+"source",
+"track",
+"canvas",
+"map",
+"area",
+"math",
+"mi",
+"mo",
+"mn",
+"ms",
+"mtext",
+"mglyph",
+"malignmark",
+"annotation-xml",
+"svg",
+"foreignobject",
+"desc",
+"table",
+"caption",
+"colgroup",
+"col",
+"tbody",
+"thead",
+"tfoot",
+"tr",
+"td",
+"th",
+"form",
+"fieldset",
+"legend",
+"label",
+"input",
+"button",
+"select",
+"datalist",
+"optgroup",
+"option",
+"textarea",
+"keygen",
+"output",
+"progress",
+"meter",
+"details",
+"summary",
+"menu",
+"menuitem",
+"applet",
+"acronym",
+"bgsound",
+"dir",
+"frame",
+"frameset",
+"noframes",
+"isindex",
+"listing",
+"xmp",
+"nextid",
+"noembed",
+"plaintext",
+"rb",
+"strike",
+"basefont",
+"big",
+"blink",
+"center",
+"font",
+"marquee",
+"multicol",
+"nobr",
+"spacer",
+"tt",
+"rtc",

data/gumbo-parser/src/token_type.h CHANGED

@@ -29,6 +29,7 @@ typedef enum {
   GUMBO_TOKEN_COMMENT,
   GUMBO_TOKEN_WHITESPACE,
   GUMBO_TOKEN_CHARACTER,
+  GUMBO_TOKEN_CDATA,
   GUMBO_TOKEN_NULL,
   GUMBO_TOKEN_EOF
 } GumboTokenType;

data/gumbo-parser/src/tokenizer.c CHANGED

@@ -42,7 +42,6 @@
 // prevents parse error position from being messed up by possible mark/resets in
 // temporary buffer manipulation.
 #include "tokenizer.h"
 #include <assert.h>
@@ -64,13 +63,13 @@
 // Compared against _script_data_buffer to determine if we're in double-escaped
 // script mode.
-const GumboStringPiece kScriptTag = { "script", 6 };
+const GumboStringPiece kScriptTag = {"script", 6};
 // An enum for the return value of each individual state.
 typedef enum {
-  RETURN_ERROR,         // Return false (error) from the tokenizer.
-  RETURN_SUCCESS,       // Return true (success) from the tokenizer.
-  NEXT_CHAR             // Proceed to the next character and continue lexing.
+  RETURN_ERROR,    // Return false (error) from the tokenizer.
+  RETURN_SUCCESS,  // Return true (success) from the tokenizer.
+  NEXT_CHAR        // Proceed to the next character and continue lexing.
 } StateResult;
 // This is a struct containing state necessary to build up a tag token,
@@ -136,6 +135,10 @@ typedef struct GumboInternalTokenizerState {
   // markup declaration state.
   bool _is_current_node_foreign;
+  // A flag indicating whether the tokenizer is in a CDATA section.  If so, then
+  // text tokens emitted will be GUMBO_TOKEN_CDATA.
+  bool _is_in_cdata;
   // Certain states (notably character references) may emit two character tokens
   // at once, but the contract for lex() fills in only one token at a time.  The
   // extra character is buffered here, and then this is checked on entry to
@@ -196,7 +199,8 @@ typedef struct GumboInternalTokenizerState {
 } GumboTokenizerState;
 // Adds an ERR_UNEXPECTED_CODE_POINT parse error to the parser's error struct.
-static void tokenizer_add_parse_error(GumboParser* parser, GumboErrorType type) {
+static void tokenizer_add_parse_error(
+    GumboParser* parser, GumboErrorType type) {
   GumboError* error = gumbo_add_error(parser);
   if (!error) {
     return;
@@ -315,7 +319,11 @@ static int ensure_lowercase(int c) {
   return c >= 'A' && c <= 'Z' ? c + 0x20 : c;
 }
-static GumboTokenType get_char_token_type(int c) {
+static GumboTokenType get_char_token_type(bool is_in_cdata, int c) {
+  if (is_in_cdata && c > 0) {
+    return GUMBO_TOKEN_CDATA;
+  }
   switch (c) {
     case '\t':
     case '\n':
@@ -348,12 +356,10 @@ static void clear_temporary_buffer(GumboParser* parser) {
   GumboTokenizerState* tokenizer = parser->_tokenizer_state;
   assert(!tokenizer->_temporary_buffer_emit);
   utf8iterator_mark(&tokenizer->_input);
-  gumbo_string_buffer_destroy(parser, &tokenizer->_temporary_buffer);
-  gumbo_string_buffer_init(parser, &tokenizer->_temporary_buffer);
+  gumbo_string_buffer_clear(parser, &tokenizer->_temporary_buffer);
   // The temporary buffer and script data buffer are the same object in the
   // spec, so the script data buffer should be cleared as well.
-  gumbo_string_buffer_destroy(parser, &tokenizer->_script_data_buffer);
-  gumbo_string_buffer_init(parser, &tokenizer->_script_data_buffer);
+  gumbo_string_buffer_clear(parser, &tokenizer->_script_data_buffer);
 }
 // Appends a codepoint to the temporary buffer.
@@ -366,15 +372,14 @@ static void append_char_to_temporary_buffer(
 // Checks to see if the temporary buffer equals a certain string.
 // Make sure this remains side-effect free; it's used in assertions.
 #ifndef NDEBUG
-static bool temporary_buffer_equals(
-    GumboParser* parser, const char* text) {
+static bool temporary_buffer_equals(GumboParser* parser, const char* text) {
   GumboStringBuffer* buffer = &parser->_tokenizer_state->_temporary_buffer;
   // TODO(jdtang): See if the extra strlen is a performance problem, and replace
   // it with an explicit sizeof(literal) if necessary.  I don't think it will
   // be, as this is only used in a couple of rare states.
   int text_len = strlen(text);
   return text_len == buffer->length &&
-      memcmp(buffer->data, text, text_len) == 0;
+         memcmp(buffer->data, text, text_len) == 0;
 }
 #endif
@@ -475,7 +480,7 @@ static void finish_doctype_system_id(GumboParser* parser) {
 // Writes a single specified character to the output token.
 static void emit_char(GumboParser* parser, int c, GumboToken* output) {
-  output->type = get_char_token_type(c);
+  output->type = get_char_token_type(parser->_tokenizer_state->_is_in_cdata, c);
   output->v.character = c;
   finish_token(parser, output);
 }
@@ -531,8 +536,8 @@ static StateResult emit_current_tag(GumboParser* parser, GumboToken* output) {
     output->v.start_tag.is_self_closing = tag_state->_is_self_closing;
     tag_state->_last_start_tag = tag_state->_tag;
     mark_tag_state_as_empty(tag_state);
-    gumbo_debug("Emitted start tag %s.\n",
-               gumbo_normalized_tagname(tag_state->_tag));
+    gumbo_debug(
+        "Emitted start tag %s.\n", gumbo_normalized_tagname(tag_state->_tag));
   } else {
     output->type = GUMBO_TOKEN_END_TAG;
     output->v.end_tag = tag_state->_tag;
@@ -540,17 +545,18 @@ static StateResult emit_current_tag(GumboParser* parser, GumboToken* output) {
     // token, but it's still initialized as normal, so it must be manually
     // deallocated.  There may also be attributes to destroy, in certain broken
     // cases like </div</th> (the "th" is an attribute there).
-    for (int i = 0; i < tag_state->_attributes.length; ++i) {
+    for (unsigned int i = 0; i < tag_state->_attributes.length; ++i) {
       gumbo_destroy_attribute(parser, tag_state->_attributes.data[i]);
     }
     gumbo_parser_deallocate(parser, tag_state->_attributes.data);
     mark_tag_state_as_empty(tag_state);
-    gumbo_debug("Emitted end tag %s.\n",
-               gumbo_normalized_tagname(tag_state->_tag));
+    gumbo_debug(
+        "Emitted end tag %s.\n", gumbo_normalized_tagname(tag_state->_tag));
   }
   gumbo_string_buffer_destroy(parser, &tag_state->_buffer);
   finish_token(parser, output);
-  gumbo_debug("Original text = %.*s.\n", output->original_text.length, output->original_text.data);
+  gumbo_debug("Original text = %.*s.\n", output->original_text.length,
+      output->original_text.data);
   assert(output->original_text.length >= 2);
   assert(output->original_text.data[0] == '<');
   assert(output->original_text.data[output->original_text.length - 1] == '>');
@@ -563,7 +569,7 @@ static StateResult emit_current_tag(GumboParser* parser, GumboToken* output) {
 // avoid a memory leak.
 static void abandon_current_tag(GumboParser* parser) {
   GumboTagState* tag_state = &parser->_tokenizer_state->_tag_state;
-  for (int i = 0; i < tag_state->_attributes.length; ++i) {
+  for (unsigned int i = 0; i < tag_state->_attributes.length; ++i) {
     gumbo_destroy_attribute(parser, tag_state->_attributes.data[i]);
   }
   gumbo_parser_deallocate(parser, tag_state->_attributes.data);
@@ -575,9 +581,8 @@ static void abandon_current_tag(GumboParser* parser) {
 // Wraps the consume_char_ref function to handle its output and make the
 // appropriate TokenizerState modifications.  Returns RETURN_ERROR if a parse
 // error occurred, RETURN_SUCCESS otherwise.
-static StateResult emit_char_ref(
-    GumboParser* parser, int additional_allowed_char,
-    bool is_in_attribute, GumboToken* output) {
+static StateResult emit_char_ref(GumboParser* parser,
+    int additional_allowed_char, bool is_in_attribute, GumboToken* output) {
   GumboTokenizerState* tokenizer = parser->_tokenizer_state;
   OneOrTwoCodepoints char_ref;
   bool status = consume_char_ref(
@@ -641,8 +646,7 @@ static bool maybe_emit_from_temporary_buffer(
 // _temporary_buffer_emit, and then (if the temporary buffer is non-empty) emits
 // the first character in it.  It returns true if a character was emitted, false
 // otherwise.
-static bool emit_temporary_buffer(
-    GumboParser* parser, GumboToken* output) {
+static bool emit_temporary_buffer(GumboParser* parser, GumboToken* output) {
   GumboTokenizerState* tokenizer = parser->_tokenizer_state;
   assert(tokenizer->_temporary_buffer.data);
   utf8iterator_reset(&tokenizer->_input);
@@ -655,8 +659,8 @@ static bool emit_temporary_buffer(
 // start point; the only time you would *not* want to pass true for this
 // parameter is if you want the original_text to include character (like an
 // opening quote) that doesn't appear in the value.
-static void append_char_to_tag_buffer(GumboParser* parser, int codepoint,
-                                      bool reinitilize_position_on_first) {
+static void append_char_to_tag_buffer(
+    GumboParser* parser, int codepoint, bool reinitilize_position_on_first) {
   GumboStringBuffer* buffer = &parser->_tokenizer_state->_tag_state._buffer;
   if (buffer->length == 0 && reinitilize_position_on_first) {
     reset_tag_buffer_start_point(parser);
@@ -689,7 +693,11 @@ static void start_new_tag(GumboParser* parser, bool is_start_tag) {
   gumbo_string_buffer_append_codepoint(parser, c, &tag_state->_buffer);
   assert(tag_state->_attributes.data == NULL);
-  gumbo_vector_init(parser, 4, &tag_state->_attributes);
+  // Initial size chosen by statistical analysis of a corpus of 60k webpages.
+  // 99.5% of elements have 0 attributes, 93% of the remainder have 1.  These
+  // numbers are a bit higher for more modern websites (eg. ~45% = 0, ~40% = 1
+  // for the HTML5 Spec), but still have basically 99% of nodes with <= 2 attrs.
+  gumbo_vector_init(parser, 1, &tag_state->_attributes);
   tag_state->_drop_next_attr_value = false;
   tag_state->_is_start_tag = is_start_tag;
   tag_state->_is_self_closing = false;
@@ -709,16 +717,15 @@ static void copy_over_tag_buffer(GumboParser* parser, const char** output) {
 // * The start_pos GumboSourcePosition with the start position of the tag
 // buffer.
 // * The end_pos GumboSourcePosition with the current source position.
-static void copy_over_original_tag_text(
-    GumboParser* parser, GumboStringPiece* original_text,
-    GumboSourcePosition* start_pos, GumboSourcePosition* end_pos) {
+static void copy_over_original_tag_text(GumboParser* parser,
+    GumboStringPiece* original_text, GumboSourcePosition* start_pos,
+    GumboSourcePosition* end_pos) {
   GumboTokenizerState* tokenizer = parser->_tokenizer_state;
   GumboTagState* tag_state = &tokenizer->_tag_state;
   original_text->data = tag_state->_original_text;
-  original_text->length =
-      utf8iterator_get_char_pointer(&tokenizer->_input) -
-      tag_state->_original_text;
+  original_text->length = utf8iterator_get_char_pointer(&tokenizer->_input) -
+                          tag_state->_original_text;
   if (original_text->data[original_text->length - 1] == '\r') {
     // Since \r is skipped by the UTF-8 iterator, it can sometimes end up
     // appended to the end of original text even when it's really the first part
@@ -743,16 +750,14 @@ static void finish_tag_name(GumboParser* parser) {
   GumboTokenizerState* tokenizer = parser->_tokenizer_state;
   GumboTagState* tag_state = &tokenizer->_tag_state;
-  const char* temp;
-  copy_over_tag_buffer(parser, &temp);
-  tag_state->_tag = gumbo_tag_enum(temp);
+  tag_state->_tag =
+      gumbo_tagn_enum(tag_state->_buffer.data, tag_state->_buffer.length);
   reinitialize_tag_buffer(parser);
-  gumbo_parser_deallocate(parser, (void*) temp);
 }
 // Adds an ERR_DUPLICATE_ATTR parse error to the parser's error struct.
 static void add_duplicate_attr_error(GumboParser* parser, const char* attr_name,
-                                     int original_index, int new_index) {
+    int original_index, int new_index) {
   GumboError* error = gumbo_add_error(parser);
   if (!error) {
     return;
@@ -782,14 +787,13 @@ static bool finish_attribute_name(GumboParser* parser) {
   assert(tag_state->_attributes.capacity);
   GumboVector* /* GumboAttribute* */ attributes = &tag_state->_attributes;
-  for (int i = 0; i < attributes->length; ++i) {
+  for (unsigned int i = 0; i < attributes->length; ++i) {
     GumboAttribute* attr = attributes->data[i];
     if (strlen(attr->name) == tag_state->_buffer.length &&
         memcmp(attr->name, tag_state->_buffer.data,
-               tag_state->_buffer.length) == 0) {
+            tag_state->_buffer.length) == 0) {
       // Identical attribute; bail.
-      add_duplicate_attr_error(
-          parser, attr->name, i, attributes->length);
+      add_duplicate_attr_error(parser, attr->name, i, attributes->length);
       tag_state->_drop_next_attr_value = true;
       return false;
     }
@@ -798,11 +802,11 @@ static bool finish_attribute_name(GumboParser* parser) {
   GumboAttribute* attr = gumbo_parser_allocate(parser, sizeof(GumboAttribute));
   attr->attr_namespace = GUMBO_ATTR_NAMESPACE_NONE;
   copy_over_tag_buffer(parser, &attr->name);
-  copy_over_original_tag_text(parser, &attr->original_name,
-                              &attr->name_start, &attr->name_end);
+  copy_over_original_tag_text(
+      parser, &attr->original_name, &attr->name_start, &attr->name_end);
   attr->value = gumbo_copy_stringz(parser, "");
-  copy_over_original_tag_text(parser, &attr->original_value,
-                              &attr->name_start, &attr->name_end);
+  copy_over_original_tag_text(
+      parser, &attr->original_value, &attr->name_start, &attr->name_end);
   gumbo_vector_add(parser, attr, attributes);
   reinitialize_tag_buffer(parser);
   return true;
@@ -824,8 +828,8 @@ static void finish_attribute_value(GumboParser* parser) {
       tag_state->_attributes.data[tag_state->_attributes.length - 1];
   gumbo_parser_deallocate(parser, (void*) attr->value);
   copy_over_tag_buffer(parser, &attr->value);
-  copy_over_original_tag_text(parser, &attr->original_value,
-                              &attr->value_start, &attr->value_end);
+  copy_over_original_tag_text(
+      parser, &attr->original_value, &attr->value_start, &attr->value_end);
   reinitialize_tag_buffer(parser);
 }
@@ -833,13 +837,9 @@ static void finish_attribute_value(GumboParser* parser) {
 static bool is_appropriate_end_tag(GumboParser* parser) {
   GumboTagState* tag_state = &parser->_tokenizer_state->_tag_state;
   assert(!tag_state->_is_start_tag);
-  // Null terminate the current string buffer, so it can be passed to
-  // gumbo_tag_enum, but don't increment the length in case we need to dump the
-  // buffer as character tokens.
-  gumbo_string_buffer_append_codepoint(parser, '\0', &tag_state->_buffer);
-  --tag_state->_buffer.length;
   return tag_state->_last_start_tag != GUMBO_TAG_LAST &&
-      tag_state->_last_start_tag == gumbo_tag_enum(tag_state->_buffer.data);
+         tag_state->_last_start_tag == gumbo_tagn_enum(tag_state->_buffer.data,
+                                           tag_state->_buffer.length);
 }
 void gumbo_tokenizer_state_init(
@@ -850,6 +850,7 @@ void gumbo_tokenizer_state_init(
   gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
   tokenizer->_reconsume_current_input = false;
   tokenizer->_is_current_node_foreign = false;
+  tokenizer->_is_in_cdata = false;
   tokenizer->_tag_state._last_start_tag = GUMBO_TAG_LAST;
   tokenizer->_buffered_emit_char = kGumboNoChar;
@@ -883,15 +884,14 @@ void gumbo_tokenizer_set_is_current_node_foreign(
     GumboParser* parser, bool is_foreign) {
   if (is_foreign != parser->_tokenizer_state->_is_current_node_foreign) {
     gumbo_debug("Toggling is_current_node_foreign to %s.\n",
-                is_foreign ? "true" : "false");
+        is_foreign ? "true" : "false");
   }
   parser->_tokenizer_state->_is_current_node_foreign = is_foreign;
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#data-state
-static StateResult handle_data_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_data_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '&':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_CHAR_REF_IN_DATA);
@@ -915,17 +915,15 @@ static StateResult handle_data_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#character-reference-in-data-state
-static StateResult handle_char_ref_in_data_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_char_ref_in_data_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
   return emit_char_ref(parser, ' ', false, output);
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#rcdata-state
-static StateResult handle_rcdata_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rcdata_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '&':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_CHAR_REF_IN_RCDATA);
@@ -946,17 +944,15 @@ static StateResult handle_rcdata_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#character-reference-in-rcdata-state
-static StateResult handle_char_ref_in_rcdata_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_char_ref_in_rcdata_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   gumbo_tokenizer_set_state(parser, GUMBO_LEX_RCDATA);
   return emit_char_ref(parser, ' ', false, output);
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#rawtext-state
-static StateResult handle_rawtext_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rawtext_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '<':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_RAWTEXT_LT);
@@ -973,9 +969,8 @@ static StateResult handle_rawtext_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-state
-static StateResult handle_script_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '<':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_LT);
@@ -992,9 +987,8 @@ static StateResult handle_script_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#plaintext-state
-static StateResult handle_plaintext_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_plaintext_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\0':
       return emit_replacement_char(parser, output);
@@ -1006,9 +1000,8 @@ static StateResult handle_plaintext_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#tag-open-state
-static StateResult handle_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "<"));
   switch (c) {
     case '!':
@@ -1040,9 +1033,8 @@ static StateResult handle_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#end-tag-open-state
-static StateResult handle_end_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_end_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "</"));
   switch (c) {
     case '>':
@@ -1068,9 +1060,8 @@ static StateResult handle_end_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#tag-name-state
-static StateResult handle_tag_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_tag_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1103,9 +1094,8 @@ static StateResult handle_tag_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#rcdata-less-than-sign-state
-static StateResult handle_rcdata_lt_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rcdata_lt_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "<"));
   if (c == '/') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_RCDATA_END_TAG_OPEN);
@@ -1119,9 +1109,8 @@ static StateResult handle_rcdata_lt_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#rcdata-end-tag-open-state
-static StateResult handle_rcdata_end_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rcdata_end_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "</"));
   if (is_alpha(c)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_RCDATA_END_TAG_NAME);
@@ -1136,9 +1125,8 @@ static StateResult handle_rcdata_end_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#rcdata-end-tag-name-state
-static StateResult handle_rcdata_end_tag_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rcdata_end_tag_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(tokenizer->_temporary_buffer.length >= 2);
   if (is_alpha(c)) {
     append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
@@ -1169,9 +1157,8 @@ static StateResult handle_rcdata_end_tag_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#rawtext-less-than-sign-state
-static StateResult handle_rawtext_lt_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rawtext_lt_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "<"));
   if (c == '/') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_RAWTEXT_END_TAG_OPEN);
@@ -1185,9 +1172,8 @@ static StateResult handle_rawtext_lt_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#rawtext-end-tag-open-state
-static StateResult handle_rawtext_end_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rawtext_end_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "</"));
   if (is_alpha(c)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_RAWTEXT_END_TAG_NAME);
@@ -1201,12 +1187,11 @@ static StateResult handle_rawtext_end_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#rawtext-end-tag-name-state
-static StateResult handle_rawtext_end_tag_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_rawtext_end_tag_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(tokenizer->_temporary_buffer.length >= 2);
   gumbo_debug("Last end tag: %*s\n", (int) tokenizer->_tag_state._buffer.length,
-             tokenizer->_tag_state._buffer.data);
+      tokenizer->_tag_state._buffer.data);
   if (is_alpha(c)) {
     append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
     append_char_to_temporary_buffer(parser, c);
@@ -1237,9 +1222,8 @@ static StateResult handle_rawtext_end_tag_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-less-than-sign-state
-static StateResult handle_script_lt_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_lt_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "<"));
   if (c == '/') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_END_TAG_OPEN);
@@ -1257,9 +1241,8 @@ static StateResult handle_script_lt_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-end-tag-open-state
-static StateResult handle_script_end_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_end_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "</"));
   if (is_alpha(c)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_END_TAG_NAME);
@@ -1273,9 +1256,8 @@ static StateResult handle_script_end_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-end-tag-name-state
-static StateResult handle_script_end_tag_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_end_tag_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(tokenizer->_temporary_buffer.length >= 2);
   if (is_alpha(c)) {
     append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
@@ -1306,9 +1288,8 @@ static StateResult handle_script_end_tag_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escape-start-state
-static StateResult handle_script_escaped_start_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_start_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (c == '-') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_ESCAPED_START_DASH);
     return emit_current_char(parser, output);
@@ -1320,9 +1301,8 @@ static StateResult handle_script_escaped_start_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escape-start-dash-state
-static StateResult handle_script_escaped_start_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_start_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (c == '-') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_ESCAPED_DASH_DASH);
     return emit_current_char(parser, output);
@@ -1334,9 +1314,8 @@ static StateResult handle_script_escaped_start_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-state
-static StateResult handle_script_escaped_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_ESCAPED_DASH);
@@ -1357,9 +1336,8 @@ static StateResult handle_script_escaped_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-dash-state
-static StateResult handle_script_escaped_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_ESCAPED_DASH_DASH);
@@ -1383,9 +1361,8 @@ static StateResult handle_script_escaped_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-dash-dash-state
-static StateResult handle_script_escaped_dash_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_dash_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       return emit_current_char(parser, output);
@@ -1411,9 +1388,8 @@ static StateResult handle_script_escaped_dash_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-less-than-sign-state
-static StateResult handle_script_escaped_lt_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_lt_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "<"));
   assert(!tokenizer->_script_data_buffer.length);
   if (c == '/') {
@@ -1433,9 +1409,8 @@ static StateResult handle_script_escaped_lt_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-end-tag-open-state
-static StateResult handle_script_escaped_end_tag_open_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_end_tag_open_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(temporary_buffer_equals(parser, "</"));
   if (is_alpha(c)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_ESCAPED_END_TAG_NAME);
@@ -1449,9 +1424,8 @@ static StateResult handle_script_escaped_end_tag_open_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-escaped-end-tag-name-state
-static StateResult handle_script_escaped_end_tag_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_escaped_end_tag_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(tokenizer->_temporary_buffer.length >= 2);
   if (is_alpha(c)) {
     append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
@@ -1482,9 +1456,8 @@ static StateResult handle_script_escaped_end_tag_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escape-start-state
-static StateResult handle_script_double_escaped_start_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_double_escaped_start_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1492,9 +1465,11 @@ static StateResult handle_script_double_escaped_start_state(
     case ' ':
     case '/':
     case '>':
-      gumbo_tokenizer_set_state(parser, gumbo_string_equals(
-          &kScriptTag, (GumboStringPiece*) &tokenizer->_script_data_buffer)
-          ? GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED : GUMBO_LEX_SCRIPT_ESCAPED);
+      gumbo_tokenizer_set_state(
+          parser, gumbo_string_equals(&kScriptTag,
+                      (GumboStringPiece*) &tokenizer->_script_data_buffer)
+                      ? GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED
+                      : GUMBO_LEX_SCRIPT_ESCAPED);
       return emit_current_char(parser, output);
     default:
       if (is_alpha(c)) {
@@ -1510,9 +1485,8 @@ static StateResult handle_script_double_escaped_start_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escaped-state
-static StateResult handle_script_double_escaped_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_double_escaped_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED_DASH);
@@ -1532,9 +1506,8 @@ static StateResult handle_script_double_escaped_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escaped-dash-state
-static StateResult handle_script_double_escaped_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_double_escaped_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(
@@ -1558,8 +1531,8 @@ static StateResult handle_script_double_escaped_dash_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escaped-dash-dash-state
 static StateResult handle_script_double_escaped_dash_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '-':
       return emit_current_char(parser, output);
@@ -1583,26 +1556,22 @@ static StateResult handle_script_double_escaped_dash_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escaped-less-than-sign-state
-static StateResult handle_script_double_escaped_lt_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_double_escaped_lt_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (c == '/') {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED_END);
-    gumbo_string_buffer_destroy(parser, &tokenizer->_script_data_buffer);
-    gumbo_string_buffer_init(parser, &tokenizer->_script_data_buffer);
+    gumbo_string_buffer_clear(parser, &tokenizer->_script_data_buffer);
     return emit_current_char(parser, output);
   } else {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED);
     tokenizer->_reconsume_current_input = true;
     return NEXT_CHAR;
   }
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#script-data-double-escape-end-state
-static StateResult handle_script_double_escaped_end_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_script_double_escaped_end_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1610,9 +1579,11 @@ static StateResult handle_script_double_escaped_end_state(
     case ' ':
     case '/':
     case '>':
-      gumbo_tokenizer_set_state(parser, gumbo_string_equals(
-          &kScriptTag, (GumboStringPiece*) &tokenizer->_script_data_buffer)
-          ? GUMBO_LEX_SCRIPT_ESCAPED : GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED);
+      gumbo_tokenizer_set_state(
+          parser, gumbo_string_equals(&kScriptTag,
+                      (GumboStringPiece*) &tokenizer->_script_data_buffer)
+                      ? GUMBO_LEX_SCRIPT_ESCAPED
+                      : GUMBO_LEX_SCRIPT_DOUBLE_ESCAPED);
       return emit_current_char(parser, output);
     default:
       if (is_alpha(c)) {
@@ -1628,9 +1599,8 @@ static StateResult handle_script_double_escaped_end_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#before-attribute-name-state
-static StateResult handle_before_attr_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_before_attr_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1658,7 +1628,7 @@ static StateResult handle_before_attr_name_state(
     case '<':
     case '=':
       tokenizer_add_parse_error(parser, GUMBO_ERR_ATTR_NAME_INVALID);
-      // Fall through.
+    // Fall through.
     default:
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_ATTR_NAME);
       append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
@@ -1667,9 +1637,8 @@ static StateResult handle_before_attr_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#attribute-name-state
-static StateResult handle_attr_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_attr_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1703,7 +1672,7 @@ static StateResult handle_attr_name_state(
     case '\'':
     case '<':
       tokenizer_add_parse_error(parser, GUMBO_ERR_ATTR_NAME_INVALID);
-      // Fall through.
+    // Fall through.
     default:
       append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
       return NEXT_CHAR;
@@ -1711,9 +1680,8 @@ static StateResult handle_attr_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#after-attribute-name-state
-static StateResult handle_after_attr_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_after_attr_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1743,7 +1711,7 @@ static StateResult handle_after_attr_name_state(
     case '\'':
     case '<':
       tokenizer_add_parse_error(parser, GUMBO_ERR_ATTR_NAME_INVALID);
-      // Fall through.
+    // Fall through.
     default:
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_ATTR_NAME);
       append_char_to_tag_buffer(parser, ensure_lowercase(c), true);
@@ -1752,9 +1720,8 @@ static StateResult handle_after_attr_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#before-attribute-value-state
-static StateResult handle_before_attr_value_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_before_attr_value_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1793,7 +1760,7 @@ static StateResult handle_before_attr_value_state(
     case '=':
     case '`':
       tokenizer_add_parse_error(parser, GUMBO_ERR_ATTR_UNQUOTED_EQUALS);
-      // Fall through.
+    // Fall through.
     default:
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_ATTR_VALUE_UNQUOTED);
       append_char_to_tag_buffer(parser, c, true);
@@ -1802,9 +1769,8 @@ static StateResult handle_before_attr_value_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#attribute-value-double-quoted-state
-static StateResult handle_attr_value_double_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_attr_value_double_quoted_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '"':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_ATTR_VALUE_QUOTED);
@@ -1831,9 +1797,8 @@ static StateResult handle_attr_value_double_quoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#attribute-value-single-quoted-state
-static StateResult handle_attr_value_single_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_attr_value_single_quoted_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\'':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_ATTR_VALUE_QUOTED);
@@ -1860,9 +1825,8 @@ static StateResult handle_attr_value_single_quoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#attribute-value-unquoted-state
-static StateResult handle_attr_value_unquoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_attr_value_unquoted_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -1896,7 +1860,7 @@ static StateResult handle_attr_value_unquoted_state(
     case '\'':
     case '`':
       tokenizer_add_parse_error(parser, GUMBO_ERR_ATTR_UNQUOTED_EQUALS);
-      // Fall through.
+    // Fall through.
     default:
       append_char_to_tag_buffer(parser, c, true);
       return NEXT_CHAR;
@@ -1904,9 +1868,8 @@ static StateResult handle_attr_value_unquoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#character-reference-in-attribute-value-state
-static StateResult handle_char_ref_in_attr_value_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_char_ref_in_attr_value_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   OneOrTwoCodepoints char_ref;
   int allowed_char;
   bool is_unquoted = false;
@@ -1947,9 +1910,8 @@ static StateResult handle_char_ref_in_attr_value_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#after-attribute-value-quoted-state
-static StateResult handle_after_attr_value_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_after_attr_value_quoted_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   finish_attribute_value(parser);
   switch (c) {
     case '\t':
@@ -1979,9 +1941,8 @@ static StateResult handle_after_attr_value_quoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#self-closing-start-tag-state
-static StateResult handle_self_closing_start_tag_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_self_closing_start_tag_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '>':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
@@ -2001,9 +1962,8 @@ static StateResult handle_self_closing_start_tag_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#bogus-comment-state
-static StateResult handle_bogus_comment_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_bogus_comment_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   while (c != '>' && c != -1) {
     if (c == '\0') {
       c = 0xFFFD;
@@ -2017,15 +1977,14 @@ static StateResult handle_bogus_comment_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#markup-declaration-open-state
-static StateResult handle_markup_declaration_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_markup_declaration_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (utf8iterator_maybe_consume_match(
-      &tokenizer->_input, "--", sizeof("--") - 1, true)) {
+          &tokenizer->_input, "--", sizeof("--") - 1, true)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_START);
     tokenizer->_reconsume_current_input = true;
   } else if (utf8iterator_maybe_consume_match(
-      &tokenizer->_input, "DOCTYPE", sizeof("DOCTYPE") - 1, false)) {
+                 &tokenizer->_input, "DOCTYPE", sizeof("DOCTYPE") - 1, false)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_DOCTYPE);
     tokenizer->_reconsume_current_input = true;
     // If we get here, we know we'll eventually emit a doctype token, so now is
@@ -2039,8 +1998,9 @@ static StateResult handle_markup_declaration_state(
         gumbo_copy_stringz(parser, "");
   } else if (tokenizer->_is_current_node_foreign &&
              utf8iterator_maybe_consume_match(
-                &tokenizer->_input, "[CDATA[", sizeof("[CDATA[") - 1, true)) {
+                 &tokenizer->_input, "[CDATA[", sizeof("[CDATA[") - 1, true)) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_CDATA);
+    tokenizer->_is_in_cdata = true;
     tokenizer->_reconsume_current_input = true;
   } else {
     tokenizer_add_parse_error(parser, GUMBO_ERR_DASHES_OR_DOCTYPE);
@@ -2052,9 +2012,8 @@ static StateResult handle_markup_declaration_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-start-state
-static StateResult handle_comment_start_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_start_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_START_DASH);
@@ -2082,9 +2041,8 @@ static StateResult handle_comment_start_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-start-dash-state
-static StateResult handle_comment_start_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_start_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_END);
@@ -2114,9 +2072,8 @@ static StateResult handle_comment_start_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-state
-static StateResult handle_comment_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_END_DASH);
@@ -2137,9 +2094,8 @@ static StateResult handle_comment_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-end-dash-state
-static StateResult handle_comment_end_dash_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_end_dash_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_END);
@@ -2164,9 +2120,8 @@ static StateResult handle_comment_end_dash_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-end-state
-static StateResult handle_comment_end_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_end_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '>':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
@@ -2179,11 +2134,13 @@ static StateResult handle_comment_end_state(
       append_char_to_temporary_buffer(parser, kUtf8ReplacementChar);
       return NEXT_CHAR;
     case '!':
-      tokenizer_add_parse_error(parser, GUMBO_ERR_COMMENT_BANG_AFTER_DOUBLE_DASH);
+      tokenizer_add_parse_error(
+          parser, GUMBO_ERR_COMMENT_BANG_AFTER_DOUBLE_DASH);
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_END_BANG);
       return NEXT_CHAR;
     case '-':
-      tokenizer_add_parse_error(parser, GUMBO_ERR_COMMENT_DASH_AFTER_DOUBLE_DASH);
+      tokenizer_add_parse_error(
+          parser, GUMBO_ERR_COMMENT_DASH_AFTER_DOUBLE_DASH);
       append_char_to_temporary_buffer(parser, '-');
       return NEXT_CHAR;
     case -1:
@@ -2202,9 +2159,8 @@ static StateResult handle_comment_end_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#comment-end-bang-state
-static StateResult handle_comment_end_bang_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_comment_end_bang_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '-':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_COMMENT_END_DASH);
@@ -2239,9 +2195,8 @@ static StateResult handle_comment_end_bang_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#doctype-state
-static StateResult handle_doctype_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_doctype_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   assert(!tokenizer->_temporary_buffer.length);
   switch (c) {
     case '\t':
@@ -2266,9 +2221,8 @@ static StateResult handle_doctype_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#before-doctype-name-state
-static StateResult handle_before_doctype_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_before_doctype_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2302,9 +2256,8 @@ static StateResult handle_before_doctype_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete5/tokenization.html#doctype-name-state
-static StateResult handle_doctype_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_doctype_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2312,14 +2265,12 @@ static StateResult handle_doctype_name_state(
     case ' ':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_DOCTYPE_NAME);
       gumbo_parser_deallocate(parser, (void*) tokenizer->_doc_type_state.name);
-      finish_temporary_buffer(
-          parser, &tokenizer->_doc_type_state.name);
+      finish_temporary_buffer(parser, &tokenizer->_doc_type_state.name);
       return NEXT_CHAR;
     case '>':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
       gumbo_parser_deallocate(parser, (void*) tokenizer->_doc_type_state.name);
-      finish_temporary_buffer(
-          parser, &tokenizer->_doc_type_state.name);
+      finish_temporary_buffer(parser, &tokenizer->_doc_type_state.name);
       emit_doctype(parser, output);
       return RETURN_SUCCESS;
     case '\0':
@@ -2331,8 +2282,7 @@ static StateResult handle_doctype_name_state(
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
       tokenizer->_doc_type_state.force_quirks = true;
       gumbo_parser_deallocate(parser, (void*) tokenizer->_doc_type_state.name);
-      finish_temporary_buffer(
-          parser, &tokenizer->_doc_type_state.name);
+      finish_temporary_buffer(parser, &tokenizer->_doc_type_state.name);
       emit_doctype(parser, output);
       return RETURN_ERROR;
     default:
@@ -2344,9 +2294,8 @@ static StateResult handle_doctype_name_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#after-doctype-name-state
-static StateResult handle_after_doctype_name_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_after_doctype_name_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2365,17 +2314,18 @@ static StateResult handle_after_doctype_name_state(
       return RETURN_ERROR;
     default:
       if (utf8iterator_maybe_consume_match(
-          &tokenizer->_input, "PUBLIC", sizeof("PUBLIC") - 1, false)) {
+              &tokenizer->_input, "PUBLIC", sizeof("PUBLIC") - 1, false)) {
         gumbo_tokenizer_set_state(
             parser, GUMBO_LEX_AFTER_DOCTYPE_PUBLIC_KEYWORD);
         tokenizer->_reconsume_current_input = true;
-      } else if (utf8iterator_maybe_consume_match(
-          &tokenizer->_input, "SYSTEM", sizeof("SYSTEM") - 1, false)) {
+      } else if (utf8iterator_maybe_consume_match(&tokenizer->_input, "SYSTEM",
+                     sizeof("SYSTEM") - 1, false)) {
         gumbo_tokenizer_set_state(
             parser, GUMBO_LEX_AFTER_DOCTYPE_SYSTEM_KEYWORD);
         tokenizer->_reconsume_current_input = true;
       } else {
-        tokenizer_add_parse_error(parser, GUMBO_ERR_DOCTYPE_SPACE_OR_RIGHT_BRACKET);
+        tokenizer_add_parse_error(
+            parser, GUMBO_ERR_DOCTYPE_SPACE_OR_RIGHT_BRACKET);
         gumbo_tokenizer_set_state(parser, GUMBO_LEX_BOGUS_DOCTYPE);
         tokenizer->_doc_type_state.force_quirks = true;
       }
@@ -2385,15 +2335,14 @@ static StateResult handle_after_doctype_name_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#after-doctype-public-keyword-state
 static StateResult handle_after_doctype_public_keyword_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
     case '\f':
     case ' ':
-      gumbo_tokenizer_set_state(
-          parser, GUMBO_LEX_BEFORE_DOCTYPE_PUBLIC_ID);
+      gumbo_tokenizer_set_state(parser, GUMBO_LEX_BEFORE_DOCTYPE_PUBLIC_ID);
       return NEXT_CHAR;
     case '"':
       tokenizer_add_parse_error(parser, GUMBO_ERR_DOCTYPE_INVALID);
@@ -2429,9 +2378,8 @@ static StateResult handle_after_doctype_public_keyword_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#before-doctype-public-identifier-state
-static StateResult handle_before_doctype_public_id_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_before_doctype_public_id_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2471,8 +2419,8 @@ static StateResult handle_before_doctype_public_id_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#doctype-public-identifier-(double-quoted)-state
 static StateResult handle_doctype_public_id_double_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '"':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_DOCTYPE_PUBLIC_ID);
@@ -2504,8 +2452,8 @@ static StateResult handle_doctype_public_id_double_quoted_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#doctype-public-identifier-(single-quoted)-state
 static StateResult handle_doctype_public_id_single_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '\'':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_DOCTYPE_PUBLIC_ID);
@@ -2536,9 +2484,8 @@ static StateResult handle_doctype_public_id_single_quoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#after-doctype-public-identifier-state
-static StateResult handle_after_doctype_public_id_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_after_doctype_public_id_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2568,7 +2515,8 @@ static StateResult handle_after_doctype_public_id_state(
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
       tokenizer->_reconsume_current_input = true;
       tokenizer->_doc_type_state.force_quirks = true;
-      return NEXT_CHAR;
+      emit_doctype(parser, output);
+      return RETURN_ERROR;
     default:
       tokenizer_add_parse_error(parser, GUMBO_ERR_DOCTYPE_INVALID);
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_BOGUS_DOCTYPE);
@@ -2579,8 +2527,8 @@ static StateResult handle_after_doctype_public_id_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#between-doctype-public-and-system-identifiers-state
 static StateResult handle_between_doctype_public_system_id_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2618,8 +2566,8 @@ static StateResult handle_between_doctype_public_system_id_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#after-doctype-system-keyword-state
 static StateResult handle_after_doctype_system_keyword_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2660,9 +2608,8 @@ static StateResult handle_after_doctype_system_keyword_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#before-doctype-system-identifier-state
-static StateResult handle_before_doctype_system_id_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_before_doctype_system_id_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2701,8 +2648,8 @@ static StateResult handle_before_doctype_system_id_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#doctype-system-identifier-(double-quoted)-state
 static StateResult handle_doctype_system_id_double_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '"':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_DOCTYPE_SYSTEM_ID);
@@ -2734,8 +2681,8 @@ static StateResult handle_doctype_system_id_double_quoted_state(
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#doctype-system-identifier-(single-quoted)-state
 static StateResult handle_doctype_system_id_single_quoted_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+    GumboParser* parser, GumboTokenizerState* tokenizer, int c,
+    GumboToken* output) {
   switch (c) {
     case '\'':
       gumbo_tokenizer_set_state(parser, GUMBO_LEX_AFTER_DOCTYPE_SYSTEM_ID);
@@ -2766,9 +2713,8 @@ static StateResult handle_doctype_system_id_single_quoted_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#after-doctype-system-identifier-state
-static StateResult handle_after_doctype_system_id_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_after_doctype_system_id_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   switch (c) {
     case '\t':
     case '\n':
@@ -2793,9 +2739,8 @@ static StateResult handle_after_doctype_system_id_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#bogus-doctype-state
-static StateResult handle_bogus_doctype_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_bogus_doctype_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (c == '>' || c == -1) {
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
     emit_doctype(parser, output);
@@ -2805,14 +2750,14 @@ static StateResult handle_bogus_doctype_state(
 }
 // http://www.whatwg.org/specs/web-apps/current-work/complete.html#cdata-section-state
-static StateResult handle_cdata_state(
-    GumboParser* parser, GumboTokenizerState* tokenizer,
-    int c, GumboToken* output) {
+static StateResult handle_cdata_state(GumboParser* parser,
+    GumboTokenizerState* tokenizer, int c, GumboToken* output) {
   if (c == -1 || utf8iterator_maybe_consume_match(
-      &tokenizer->_input, "]]>", sizeof("]]>") - 1, true)) {
+                     &tokenizer->_input, "]]>", sizeof("]]>") - 1, true)) {
     tokenizer->_reconsume_current_input = true;
     reset_token_start_point(tokenizer);
     gumbo_tokenizer_set_state(parser, GUMBO_LEX_DATA);
+    tokenizer->_is_in_cdata = false;
     return NEXT_CHAR;
   } else {
     return emit_current_char(parser, output);
@@ -2822,76 +2767,47 @@ static StateResult handle_cdata_state(
 typedef StateResult (*GumboLexerStateFunction)(
     GumboParser*, GumboTokenizerState*, int, GumboToken*);
-static GumboLexerStateFunction dispatch_table[] = {
-  handle_data_state,
-  handle_char_ref_in_data_state,
-  handle_rcdata_state,
-  handle_char_ref_in_rcdata_state,
-  handle_rawtext_state,
-  handle_script_state,
-  handle_plaintext_state,
-  handle_tag_open_state,
-  handle_end_tag_open_state,
-  handle_tag_name_state,
-  handle_rcdata_lt_state,
-  handle_rcdata_end_tag_open_state,
-  handle_rcdata_end_tag_name_state,
-  handle_rawtext_lt_state,
-  handle_rawtext_end_tag_open_state,
-  handle_rawtext_end_tag_name_state,
-  handle_script_lt_state,
-  handle_script_end_tag_open_state,
-  handle_script_end_tag_name_state,
-  handle_script_escaped_start_state,
-  handle_script_escaped_start_dash_state,
-  handle_script_escaped_state,
-  handle_script_escaped_dash_state,
-  handle_script_escaped_dash_dash_state,
-  handle_script_escaped_lt_state,
-  handle_script_escaped_end_tag_open_state,
-  handle_script_escaped_end_tag_name_state,
-  handle_script_double_escaped_start_state,
-  handle_script_double_escaped_state,
-  handle_script_double_escaped_dash_state,
-  handle_script_double_escaped_dash_dash_state,
-  handle_script_double_escaped_lt_state,
-  handle_script_double_escaped_end_state,
-  handle_before_attr_name_state,
-  handle_attr_name_state,
-  handle_after_attr_name_state,
-  handle_before_attr_value_state,
-  handle_attr_value_double_quoted_state,
-  handle_attr_value_single_quoted_state,
-  handle_attr_value_unquoted_state,
-  handle_char_ref_in_attr_value_state,
-  handle_after_attr_value_quoted_state,
-  handle_self_closing_start_tag_state,
-  handle_bogus_comment_state,
-  handle_markup_declaration_state,
-  handle_comment_start_state,
-  handle_comment_start_dash_state,
-  handle_comment_state,
-  handle_comment_end_dash_state,
-  handle_comment_end_state,
-  handle_comment_end_bang_state,
-  handle_doctype_state,
-  handle_before_doctype_name_state,
-  handle_doctype_name_state,
-  handle_after_doctype_name_state,
-  handle_after_doctype_public_keyword_state,
-  handle_before_doctype_public_id_state,
-  handle_doctype_public_id_double_quoted_state,
-  handle_doctype_public_id_single_quoted_state,
-  handle_after_doctype_public_id_state,
-  handle_between_doctype_public_system_id_state,
-  handle_after_doctype_system_keyword_state,
-  handle_before_doctype_system_id_state,
-  handle_doctype_system_id_double_quoted_state,
-  handle_doctype_system_id_single_quoted_state,
-  handle_after_doctype_system_id_state,
-  handle_bogus_doctype_state,
-  handle_cdata_state
-};
+static GumboLexerStateFunction dispatch_table[] = {handle_data_state,
+    handle_char_ref_in_data_state, handle_rcdata_state,
+    handle_char_ref_in_rcdata_state, handle_rawtext_state, handle_script_state,
+    handle_plaintext_state, handle_tag_open_state, handle_end_tag_open_state,
+    handle_tag_name_state, handle_rcdata_lt_state,
+    handle_rcdata_end_tag_open_state, handle_rcdata_end_tag_name_state,
+    handle_rawtext_lt_state, handle_rawtext_end_tag_open_state,
+    handle_rawtext_end_tag_name_state, handle_script_lt_state,
+    handle_script_end_tag_open_state, handle_script_end_tag_name_state,
+    handle_script_escaped_start_state, handle_script_escaped_start_dash_state,
+    handle_script_escaped_state, handle_script_escaped_dash_state,
+    handle_script_escaped_dash_dash_state, handle_script_escaped_lt_state,
+    handle_script_escaped_end_tag_open_state,
+    handle_script_escaped_end_tag_name_state,
+    handle_script_double_escaped_start_state,
+    handle_script_double_escaped_state, handle_script_double_escaped_dash_state,
+    handle_script_double_escaped_dash_dash_state,
+    handle_script_double_escaped_lt_state,
+    handle_script_double_escaped_end_state, handle_before_attr_name_state,
+    handle_attr_name_state, handle_after_attr_name_state,
+    handle_before_attr_value_state, handle_attr_value_double_quoted_state,
+    handle_attr_value_single_quoted_state, handle_attr_value_unquoted_state,
+    handle_char_ref_in_attr_value_state, handle_after_attr_value_quoted_state,
+    handle_self_closing_start_tag_state, handle_bogus_comment_state,
+    handle_markup_declaration_state, handle_comment_start_state,
+    handle_comment_start_dash_state, handle_comment_state,
+    handle_comment_end_dash_state, handle_comment_end_state,
+    handle_comment_end_bang_state, handle_doctype_state,
+    handle_before_doctype_name_state, handle_doctype_name_state,
+    handle_after_doctype_name_state, handle_after_doctype_public_keyword_state,
+    handle_before_doctype_public_id_state,
+    handle_doctype_public_id_double_quoted_state,
+    handle_doctype_public_id_single_quoted_state,
+    handle_after_doctype_public_id_state,
+    handle_between_doctype_public_system_id_state,
+    handle_after_doctype_system_keyword_state,
+    handle_before_doctype_system_id_state,
+    handle_doctype_system_id_double_quoted_state,
+    handle_doctype_system_id_single_quoted_state,
+    handle_after_doctype_system_id_state, handle_bogus_doctype_state,
+    handle_cdata_state};
 bool gumbo_lex(GumboParser* parser, GumboToken* output) {
   // Because of the spec requirements that...
@@ -2929,7 +2845,8 @@ bool gumbo_lex(GumboParser* parser, GumboToken* output) {
     assert(!tokenizer->_temporary_buffer_emit);
     assert(tokenizer->_buffered_emit_char == kGumboNoChar);
     int c = utf8iterator_current(&tokenizer->_input);
-    gumbo_debug("Lexing character '%c' in state %d.\n", c, tokenizer->_state);
+    gumbo_debug(
+        "Lexing character '%c' (%d) in state %d.\n", c, c, tokenizer->_state);
     StateResult result =
         dispatch_table[tokenizer->_state](parser, tokenizer, c, output);
     // We need to clear reconsume_current_input before returning to prevent
@@ -2939,7 +2856,7 @@ bool gumbo_lex(GumboParser* parser, GumboToken* output) {
     if (result == RETURN_SUCCESS) {
       return true;
-    } else if(result == RETURN_ERROR) {
+    } else if (result == RETURN_ERROR) {
       return false;
     }
@@ -2961,7 +2878,7 @@ void gumbo_token_destroy(GumboParser* parser, GumboToken* token) {
           parser, (void*) token->v.doc_type.system_identifier);
       return;
     case GUMBO_TOKEN_START_TAG:
-      for (int i = 0; i < token->v.start_tag.attributes.length; ++i) {
+      for (unsigned int i = 0; i < token->v.start_tag.attributes.length; ++i) {
         GumboAttribute* attr = token->v.start_tag.attributes.data[i];
         if (attr) {
           // May have been nulled out if this token was merged with another.