npm - @livekit/agents - Versions diffs - 0.4.6 → 0.5.1 - Mend

@livekit/agents 0.4.6 → 0.5.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (214) hide show

package/README.md +17 -0
package/dist/audio.cjs +77 -0
package/dist/audio.cjs.map +1 -0
package/dist/audio.js +48 -37
package/dist/audio.js.map +1 -1
package/dist/cli.cjs +131 -0
package/dist/cli.cjs.map +1 -0
package/dist/cli.js +96 -122
package/dist/cli.js.map +1 -1
package/dist/generator.cjs +36 -0
package/dist/generator.cjs.map +1 -0
package/dist/generator.js +8 -22
package/dist/generator.js.map +1 -1
package/dist/http_server.cjs +72 -0
package/dist/http_server.cjs.map +1 -0
package/dist/http_server.d.ts +1 -1
package/dist/http_server.js +44 -47
package/dist/http_server.js.map +1 -1
package/dist/index.cjs +78 -0
package/dist/index.cjs.map +1 -0
package/dist/index.js +26 -28
package/dist/index.js.map +1 -1
package/dist/ipc/job_executor.cjs +33 -0
package/dist/ipc/job_executor.cjs.map +1 -0
package/dist/ipc/job_executor.js +7 -4
package/dist/ipc/job_executor.js.map +1 -1
package/dist/ipc/job_main.cjs +147 -0
package/dist/ipc/job_main.cjs.map +1 -0
package/dist/ipc/job_main.d.ts +1 -1
package/dist/ipc/job_main.js +103 -103
package/dist/ipc/job_main.js.map +1 -1
package/dist/ipc/message.cjs +17 -0
package/dist/ipc/message.cjs.map +1 -0
package/dist/ipc/message.js +0 -1
package/dist/ipc/message.js.map +1 -1
package/dist/ipc/proc_job_executor.cjs +174 -0
package/dist/ipc/proc_job_executor.cjs.map +1 -0
package/dist/ipc/proc_job_executor.js +130 -126
package/dist/ipc/proc_job_executor.js.map +1 -1
package/dist/ipc/proc_pool.cjs +126 -0
package/dist/ipc/proc_pool.cjs.map +1 -0
package/dist/ipc/proc_pool.js +93 -96
package/dist/ipc/proc_pool.js.map +1 -1
package/dist/job.cjs +230 -0
package/dist/job.cjs.map +1 -0
package/dist/job.d.ts +6 -1
package/dist/job.d.ts.map +1 -1
package/dist/job.js +195 -198
package/dist/job.js.map +1 -1
package/dist/llm/chat_context.cjs +131 -0
package/dist/llm/chat_context.cjs.map +1 -0
package/dist/llm/chat_context.js +98 -86
package/dist/llm/chat_context.js.map +1 -1
package/dist/llm/function_context.cjs +103 -0
package/dist/llm/function_context.cjs.map +1 -0
package/dist/llm/function_context.js +72 -81
package/dist/llm/function_context.js.map +1 -1
package/dist/llm/function_context.test.cjs +218 -0
package/dist/llm/function_context.test.cjs.map +1 -0
package/dist/llm/function_context.test.js +209 -210
package/dist/llm/function_context.test.js.map +1 -1
package/dist/llm/index.cjs +43 -0
package/dist/llm/index.cjs.map +1 -0
package/dist/llm/index.js +22 -6
package/dist/llm/index.js.map +1 -1
package/dist/llm/llm.cjs +76 -0
package/dist/llm/llm.cjs.map +1 -0
package/dist/llm/llm.js +48 -42
package/dist/llm/llm.js.map +1 -1
package/dist/log.cjs +57 -0
package/dist/log.cjs.map +1 -0
package/dist/log.js +27 -26
package/dist/log.js.map +1 -1
package/dist/multimodal/agent_playout.cjs +228 -0
package/dist/multimodal/agent_playout.cjs.map +1 -0
package/dist/multimodal/agent_playout.d.ts +1 -1
package/dist/multimodal/agent_playout.js +193 -180
package/dist/multimodal/agent_playout.js.map +1 -1
package/dist/multimodal/index.cjs +25 -0
package/dist/multimodal/index.cjs.map +1 -0
package/dist/multimodal/index.js +2 -5
package/dist/multimodal/index.js.map +1 -1
package/dist/multimodal/multimodal_agent.cjs +404 -0
package/dist/multimodal/multimodal_agent.cjs.map +1 -0
package/dist/multimodal/multimodal_agent.d.ts +1 -1
package/dist/multimodal/multimodal_agent.js +351 -330
package/dist/multimodal/multimodal_agent.js.map +1 -1
package/dist/pipeline/agent_output.cjs +172 -0
package/dist/pipeline/agent_output.cjs.map +1 -0
package/dist/pipeline/agent_output.js +136 -138
package/dist/pipeline/agent_output.js.map +1 -1
package/dist/pipeline/agent_playout.cjs +169 -0
package/dist/pipeline/agent_playout.cjs.map +1 -0
package/dist/pipeline/agent_playout.js +126 -136
package/dist/pipeline/agent_playout.js.map +1 -1
package/dist/pipeline/human_input.cjs +158 -0
package/dist/pipeline/human_input.cjs.map +1 -0
package/dist/pipeline/human_input.js +124 -125
package/dist/pipeline/human_input.js.map +1 -1
package/dist/pipeline/index.cjs +31 -0
package/dist/pipeline/index.cjs.map +1 -0
package/dist/pipeline/index.js +8 -4
package/dist/pipeline/index.js.map +1 -1
package/dist/pipeline/pipeline_agent.cjs +642 -0
package/dist/pipeline/pipeline_agent.cjs.map +1 -0
package/dist/pipeline/pipeline_agent.js +595 -651
package/dist/pipeline/pipeline_agent.js.map +1 -1
package/dist/pipeline/speech_handle.cjs +128 -0
package/dist/pipeline/speech_handle.cjs.map +1 -0
package/dist/pipeline/speech_handle.js +102 -100
package/dist/pipeline/speech_handle.js.map +1 -1
package/dist/plugin.cjs +46 -0
package/dist/plugin.cjs.map +1 -0
package/dist/plugin.js +20 -20
package/dist/plugin.js.map +1 -1
package/dist/stt/index.cjs +38 -0
package/dist/stt/index.cjs.map +1 -0
package/dist/stt/index.js +13 -5
package/dist/stt/index.js.map +1 -1
package/dist/stt/stream_adapter.cjs +87 -0
package/dist/stt/stream_adapter.cjs.map +1 -0
package/dist/stt/stream_adapter.js +58 -55
package/dist/stt/stream_adapter.js.map +1 -1
package/dist/stt/stt.cjs +98 -0
package/dist/stt/stt.cjs.map +1 -0
package/dist/stt/stt.js +63 -98
package/dist/stt/stt.js.map +1 -1
package/dist/tokenize/basic/basic.cjs +98 -0
package/dist/tokenize/basic/basic.cjs.map +1 -0
package/dist/tokenize/basic/basic.d.ts +1 -1
package/dist/tokenize/basic/basic.d.ts.map +1 -1
package/dist/tokenize/basic/basic.js +56 -45
package/dist/tokenize/basic/basic.js.map +1 -1
package/dist/tokenize/basic/hyphenator.cjs +425 -0
package/dist/tokenize/basic/hyphenator.cjs.map +1 -0
package/dist/tokenize/basic/hyphenator.js +66 -82
package/dist/tokenize/basic/hyphenator.js.map +1 -1
package/dist/tokenize/basic/index.cjs +35 -0
package/dist/tokenize/basic/index.cjs.map +1 -0
package/dist/tokenize/basic/index.js +7 -4
package/dist/tokenize/basic/index.js.map +1 -1
package/dist/tokenize/basic/paragraph.cjs +57 -0
package/dist/tokenize/basic/paragraph.cjs.map +1 -0
package/dist/tokenize/basic/paragraph.js +30 -35
package/dist/tokenize/basic/paragraph.js.map +1 -1
package/dist/tokenize/basic/sentence.cjs +89 -0
package/dist/tokenize/basic/sentence.cjs.map +1 -0
package/dist/tokenize/basic/sentence.d.ts.map +1 -1
package/dist/tokenize/basic/sentence.js +62 -57
package/dist/tokenize/basic/sentence.js.map +1 -1
package/dist/tokenize/basic/word.cjs +44 -0
package/dist/tokenize/basic/word.cjs.map +1 -0
package/dist/tokenize/basic/word.js +17 -20
package/dist/tokenize/basic/word.js.map +1 -1
package/dist/tokenize/index.cjs +55 -0
package/dist/tokenize/index.cjs.map +1 -0
package/dist/tokenize/index.js +18 -7
package/dist/tokenize/index.js.map +1 -1
package/dist/tokenize/token_stream.cjs +164 -0
package/dist/tokenize/token_stream.cjs.map +1 -0
package/dist/tokenize/token_stream.js +133 -139
package/dist/tokenize/token_stream.js.map +1 -1
package/dist/tokenize/tokenizer.cjs +184 -0
package/dist/tokenize/tokenizer.cjs.map +1 -0
package/dist/tokenize/tokenizer.js +138 -99
package/dist/tokenize/tokenizer.js.map +1 -1
package/dist/tokenize/tokenizer.test.cjs +220 -0
package/dist/tokenize/tokenizer.test.cjs.map +1 -0
package/dist/tokenize/tokenizer.test.d.ts +2 -0
package/dist/tokenize/tokenizer.test.d.ts.map +1 -0
package/dist/tokenize/tokenizer.test.js +219 -0
package/dist/tokenize/tokenizer.test.js.map +1 -0
package/dist/transcription.cjs +131 -0
package/dist/transcription.cjs.map +1 -0
package/dist/transcription.js +99 -96
package/dist/transcription.js.map +1 -1
package/dist/tts/index.cjs +38 -0
package/dist/tts/index.cjs.map +1 -0
package/dist/tts/index.js +13 -5
package/dist/tts/index.js.map +1 -1
package/dist/tts/stream_adapter.cjs +78 -0
package/dist/tts/stream_adapter.cjs.map +1 -0
package/dist/tts/stream_adapter.js +50 -47
package/dist/tts/stream_adapter.js.map +1 -1
package/dist/tts/tts.cjs +127 -0
package/dist/tts/tts.cjs.map +1 -0
package/dist/tts/tts.js +90 -120
package/dist/tts/tts.js.map +1 -1
package/dist/utils.cjs +284 -0
package/dist/utils.cjs.map +1 -0
package/dist/utils.js +242 -247
package/dist/utils.js.map +1 -1
package/dist/vad.cjs +92 -0
package/dist/vad.cjs.map +1 -0
package/dist/vad.js +57 -52
package/dist/vad.js.map +1 -1
package/dist/version.cjs +29 -0
package/dist/version.cjs.map +1 -0
package/dist/version.js +4 -4
package/dist/version.js.map +1 -1
package/dist/worker.cjs +577 -0
package/dist/worker.cjs.map +1 -0
package/dist/worker.d.ts +1 -1
package/dist/worker.d.ts.map +1 -1
package/dist/worker.js +512 -484
package/dist/worker.js.map +1 -1
package/package.json +18 -8
package/src/ipc/job_main.ts +66 -64
package/src/job.ts +3 -2
package/src/pipeline/pipeline_agent.ts +23 -23
package/src/tokenize/basic/basic.ts +1 -1
package/src/tokenize/basic/sentence.ts +14 -8
package/src/tokenize/tokenizer.test.ts +255 -0
package/src/worker.ts +1 -0

package/dist/tokenize/basic/sentence.js CHANGED Viewed

@@ -1,60 +1,65 @@
-// SPDX-FileCopyrightText: 2024 LiveKit, Inc.
-//
-// SPDX-License-Identifier: Apache-2.0
-/**
- * Split the text into sentences.
- */
-export const splitSentences = (text, minLength = 20) => {
-    const alphabets = /([A-Za-z])/g;
-    const prefixes = /(Mr|St|Mrs|Ms|Dr)[.]/g;
-    const suffixes = /(Inc|Ltd|Jr|Sr|Co)/g;
-    const starters = /(Mr|Mrs|Ms|Dr|Prof|Capt|Cpt|Lt|He\s|She\s|It\s|They\s|Their\s|Our\s|We\s|But\s|However\s|That\s|This\s|Wherever)/g;
-    const acronyms = /([A-Z][.][A-Z][.](?:[A-Z][.])?)/g;
-    const websites = /[.](com|net|org|io|gov|edu|me)/g;
-    const digits = /([0-9])/g;
-    const dots = /\.{2,}/g;
-    text = text.replaceAll('\n', ' ');
-    text = text.replaceAll(prefixes, '$1<prd>');
-    text = text.replaceAll(websites, '<prd>$2');
-    text = text.replaceAll(new RegExp(`${digits}[.]${digits}`, 'g'), '$1<prd>$2');
-    text = text.replaceAll(dots, (match) => '<prd>'.repeat(match.length));
-    text = text.replaceAll('Ph.D.', 'Ph<prd>D<prd>');
-    text = text.replaceAll(new RegExp(`\s${alphabets}[.]`, 'g'), '$1<prd>');
-    text = text.replaceAll(new RegExp(`${acronyms} ${starters}`, 'g'), '$1<stop> $2');
-    text = text.replaceAll(new RegExp(`${alphabets}[.]${alphabets}[.]${alphabets}[.]`, 'g'), '$1<prd>$2<prd>$3<prd>');
-    text = text.replaceAll(new RegExp(`${alphabets}[.]${alphabets}[.]`, 'g'), '$1<prd>$2<prd>');
-    text = text.replaceAll(new RegExp(` ${suffixes}[.] ${starters}`, 'g'), '$1<stop> $2');
-    text = text.replaceAll(new RegExp(` ${suffixes}[.]`, 'g'), '$1<prd>');
-    text = text.replaceAll(new RegExp(` ${alphabets}[.]`, 'g'), '$1<prd>');
-    text = text.replaceAll('.”', '”.');
-    text = text.replaceAll('."', '".');
-    text = text.replaceAll('!"', '"!');
-    text = text.replaceAll('?"', '"?');
-    text = text.replaceAll('.', '.<stop>');
-    text = text.replaceAll('?', '?<stop>');
-    text = text.replaceAll('!', '!<stop>');
-    text = text.replaceAll('<prd>', '.');
-    const split = text.split('<stop>');
-    text = text.replaceAll('<stop>', '');
-    const sentences = [];
-    let buf = '';
-    let start = 0;
-    let end = 0;
-    for (const match of split) {
-        const sentence = match.trim();
-        if (!sentence)
-            continue;
-        buf += ' ' + sentence;
-        end += match.length;
-        if (buf.length > minLength) {
-            sentences.push([buf.slice(1), start, end]);
-            start = end;
-            buf = '';
-        }
+const splitSentences = (text, minLength = 20) => {
+  const alphabets = /([A-Za-z])/g;
+  const prefixes = /(Mr|St|Mrs|Ms|Dr)[.]/g;
+  const suffixes = /(Inc|Ltd|Jr|Sr|Co)/g;
+  const starters = /(Mr|Mrs|Ms|Dr|Prof|Capt|Cpt|Lt|He\s|She\s|It\s|They\s|Their\s|Our\s|We\s|But\s|However\s|That\s|This\s|Wherever)/g;
+  const acronyms = /([A-Z][.][A-Z][.](?:[A-Z][.])?)/g;
+  const websites = /[.](com|net|org|io|gov|edu|me)/g;
+  const digits = /([0-9])/g;
+  const dots = /\.{2,}/g;
+  text = text.replaceAll("\n", " ");
+  text = text.replaceAll(prefixes, "$1<prd>");
+  text = text.replaceAll(websites, "<prd>$2");
+  text = text.replaceAll(new RegExp(`${digits.source}[.]${digits.source}`, "g"), "$1<prd>$2");
+  text = text.replaceAll(dots, (match) => "<prd>".repeat(match.length));
+  text = text.replaceAll("Ph.D.", "Ph<prd>D<prd>");
+  text = text.replaceAll(new RegExp(`\\s${alphabets.source}[.] `, "g"), " $1<prd> ");
+  text = text.replaceAll(new RegExp(`${acronyms.source} ${starters.source}`, "g"), "$1<stop> $2");
+  text = text.replaceAll(
+    new RegExp(`${alphabets.source}[.]${alphabets.source}[.]${alphabets.source}[.]`, "g"),
+    "$1<prd>$2<prd>$3<prd>"
+  );
+  text = text.replaceAll(
+    new RegExp(`${alphabets.source}[.]${alphabets.source}[.]`, "g"),
+    "$1<prd>$2<prd>"
+  );
+  text = text.replaceAll(
+    new RegExp(` ${suffixes.source}[.] ${starters.source}`, "g"),
+    "$1<stop> $2"
+  );
+  text = text.replaceAll(new RegExp(` ${suffixes.source}[.]`, "g"), "$1<prd>");
+  text = text.replaceAll(new RegExp(` ${alphabets.source}[.]`, "g"), "$1<prd>");
+  text = text.replaceAll(".\u201D", "\u201D.");
+  text = text.replaceAll('."', '".');
+  text = text.replaceAll('!"', '"!');
+  text = text.replaceAll('?"', '"?');
+  text = text.replaceAll(".", ".<stop>");
+  text = text.replaceAll("?", "?<stop>");
+  text = text.replaceAll("!", "!<stop>");
+  text = text.replaceAll("<prd>", ".");
+  const split = text.split("<stop>");
+  text = text.replaceAll("<stop>", "");
+  const sentences = [];
+  let buf = "";
+  let start = 0;
+  let end = 0;
+  for (const match of split) {
+    const sentence = match.trim();
+    if (!sentence) continue;
+    buf += " " + sentence;
+    end += match.length;
+    if (buf.length > minLength) {
+      sentences.push([buf.slice(1), start, end]);
+      start = end;
+      buf = "";
     }
-    if (buf) {
-        sentences.push([buf.slice(1), start, text.length - 1]);
-    }
-    return sentences;
+  }
+  if (buf) {
+    sentences.push([buf.slice(1), start, text.length - 1]);
+  }
+  return sentences;
+};
+export {
+  splitSentences
 };
 //# sourceMappingURL=sentence.js.map

package/dist/tokenize/basic/sentence.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"~~file":"sentence.js","sourceRoot":"","~~sources":["../../../src/tokenize/basic/sentence.ts"],"~~names~~":[],"~~mappings"~~:~~"AAAA~~,~~6CAA6C;AAC7C~~,~~EAAE;AACF~~,~~sCAAsC;AAEtC;;GAEG;AACH~~,~~MAAM~~,~~CAAC~~,~~MAAM~~,~~cAAc~~,~~GAAG~~,~~CAAC~~,~~IAAY~~,~~EAAE~~,~~SAAS~~,~~GAAG~~,~~EAAE~~,~~EAA8B~~,~~EAAE;IACzF~~,~~MAAM~~,~~SAAS~~,~~GAAG~~,~~aAAa~~,~~CAAC;IAChC~~,~~MAAM~~,~~QAAQ~~,~~GAAG~~,~~uBAAuB~~,~~CAAC;IACzC~~,~~MAAM~~,~~QAAQ~~,~~GAAG~~,~~qBAAqB~~,~~CAAC;IACvC~~,MAAM,~~QAAQ~~,~~GACZ,mHAAmH,~~CAAC~~;IACtH~~,~~MAAM~~,~~QAAQ~~,~~GAAG~~,~~kCAAkC~~,~~CAAC~~;~~IACpD~~,~~MAAM~~,~~QAAQ~~,~~GAAG~~,~~iCAAiC,CAAC~~;~~IACnD~~,~~MAAM~~,~~MAAM~~,~~GAAG~~,~~UAAU,CAAC~~;~~IAC1B~~,~~MAAM~~,~~IAAI~~,~~GAAG~~,SAAS~~,CAAC~~;~~IAEvB~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU~~,~~CAAC~~,~~IAAI,EAAE,~~GAAG~~,CAAC,CAAC~~;~~IAClC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,~~UAAU,~~CAAC,QAAQ,EAAE,~~SAAS~~,CAAC,CAAC~~;~~IAC5C~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,~~UAAU,~~CAAC,QAAQ,EAAE,~~SAAS~~,CAAC,CAAC~~;~~IAC5C~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,UAAU,CAAC,~~IAAI,~~MAAM~~,~~CAAC,~~GAAG,MAAM,MAAM,MAAM,~~EAAE~~,~~EAAE~~,GAAG,~~CAAC,EAAE,~~WAAW,~~CAAC~~,~~CAAC;IAC9E~~,~~IAAI~~,~~GAAG~~,~~IAAI,~~CAAC,UAAU,~~CAAC~~,~~IAAI,EAAE,CAAC,KAAK,EAAE,EAAE,CAAC,~~OAAO,~~CAAC,~~MAAM,~~CAAC,KAAK,CAAC,~~MAAM,CAAC~~,CAAC,CAAC~~;~~IACtE~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,OAAO,EAAE,~~eAAe~~,CAAC,CAAC~~;~~IACjD~~,~~IAAI~~,~~GAAG,IAAI,CAAC,UAAU,CAAC,IAAI,MAAM,CAAC,~~KAAK,~~SAAS~~,~~KAAK,EAAE,GAAG,CAAC,EAAE,SAAS,CAAC,CAAC;IACxE,~~IAAI,~~GAAG~~,~~IAAI~~,~~CAAC,~~UAAU,~~CAAC,IAAI,~~MAAM,~~CAAC~~,GAAG,~~QAAQ,IAAI,QAAQ,EAAE,EAAE,~~GAAG,~~CAAC,EAAE,aAAa,CAAC,CAAC~~;~~IAClF~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,UAAU,CACpB,~~IAAI,~~MAAM~~,~~CAAC,~~GAAG,SAAS,MAAM,SAAS,MAAM,~~SAAS~~,~~KAAK~~,~~EAAE,~~GAAG,~~CAAC~~,~~EAChE~~,~~uBAAuB~~,~~CACxB~~,~~CAAC;IACF,~~IAAI,GAAG,~~IAAI,CAAC,~~UAAU,~~CAAC~~,~~IAAI,~~MAAM,~~CAAC~~,~~GAAG~~,~~SAAS,~~MAAM,~~SAAS~~,~~KAAK~~,~~EAAE~~,GAAG,~~CAAC~~,~~EAAE~~,~~gBAAgB~~,~~CAAC,CAAC~~;~~IAC5F~~,IAAI,GAAG,~~IAAI,CAAC,~~UAAU,~~CAAC~~,~~IAAI,~~MAAM,~~CAAC~~,~~IAAI~~,~~QAAQ,~~OAAO,~~QAAQ,EAAE,EAAE,~~GAAG,~~CAAC~~,~~EAAE~~,~~aAAa~~,~~CAAC,CAAC~~;~~IACtF~~,IAAI,~~GAAG~~,IAAI,~~CAAC~~,~~UAAU~~,~~CAAC~~,~~IAAI~~,MAAM,~~CAAC,~~IAAI,~~QAAQ,KAAK,EAAE,~~GAAG,~~CAAC~~,~~EAAE,SAAS,CAAC,CAAC~~;~~IACtE~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,UAAU,CAAC,~~IAAI,~~MAAM~~,~~CAAC,~~IAAI,SAAS,~~KAAK~~,~~EAAE~~,GAAG,~~CAAC~~,~~EAAE,~~SAAS~~,CAAC,CAAC~~;~~IACvE~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,UAAU,CAAC,~~IAAI,~~EAAE~~,IAAI,~~CAAC~~,~~CAAC;IACnC~~,~~IAAI~~,GAAG,~~IAAI~~,~~CAAC~~,~~UAAU~~,~~CAAC~~,~~IAAI~~,~~EAAE~~,~~IAAI~~,~~CAAC~~,~~CAAC;IACnC~~,~~IAAI~~,~~GAAG~~,IAAI,~~CAAC~~,~~UAAU~~,~~CAAC~~,~~IAAI~~,~~EAAE,~~IAAI~~,CAAC,CAAC~~;~~IACnC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,~~IAAI~~,EAAE,IAAI,CAAC,CAAC~~;~~IACnC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,GAAG,EAAE,~~SAAS~~,CAAC,CAAC~~;~~IACvC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,GAAG,EAAE,~~SAAS~~,CAAC,CAAC~~;~~IACvC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,GAAG,EAAE,~~SAAS~~,CAAC,CAAC~~;~~IACvC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC~~,~~UAAU,CAAC,OAAO,EAAE,~~GAAG~~,CAAC,CAAC~~;~~IAErC~~,~~MAAM~~,~~KAAK~~,~~GAAG,IAAI,CAAC,~~KAAK,~~CAAC~~,QAAQ~~,CAAC,CAAC~~;~~IACnC~~,~~IAAI~~,~~GAAG~~,~~IAAI~~,~~CAAC,~~UAAU,~~CAAC,QAAQ,~~EAAE,~~EAAE~~,~~CAAC~~,CAAC;~~IAErC~~,MAAM,~~SAAS~~,~~GAA+B,EAAE,CAAC~~;~~IACjD~~,~~IAAI~~,~~GAAG,GAAG,EAAE,CAAC~~;~~IACb~~,~~IAAI~~,~~KAAK~~,~~GAAG,CAAC,CAAC~~;~~IACd~~,~~IAAI~~,~~GAAG~~,~~GAAG,CAAC,CAAC;IACZ,KAAK,~~MAAM,KAAK~~,IAAI,KAAK,EAAE,CAAC~~;~~QAC1B~~,~~MAAM~~,~~QAAQ,GAAG,KAAK,~~CAAC,~~IAAI~~,~~EAAE~~,~~CAAC~~;~~QAC9B~~,~~IAAI~~,~~CAAC,QAAQ~~;~~YAAE~~,~~SAAS;QAExB~~,~~GAAG,~~IAAI,~~GAAG~~,~~GAAG,QAAQ,CAAC~~;~~QACtB~~,~~GAAG~~,~~IAAI,~~KAAK,CAAC,~~MAAM,CAAC;QACpB,~~IAAI,~~GAAG,CAAC,~~MAAM,~~GAAG,SAAS,EAAE,~~CAAC~~;YAC3B~~,~~SAAS,CAAC,IAAI,CAAC,CAAC,~~GAAG,~~CAAC~~,~~KAAK,CAAC,CAAC,CAAC,EAAE,KAAK,EAAE,~~GAAG,CAAC~~,CAAC,CAAC~~;~~YAC3C~~,~~KAAK,GAAG,GAAG,CAAC~~;~~YACZ~~,~~GAAG,GAAG,EAAE,CAAC~~;~~QACX~~,~~CAAC~~;~~IACH~~,~~CAAC~~;~~IAED~~,~~IAAI~~,~~GAAG~~,~~EAAE~~,~~CAAC;QACR~~,~~SAAS,~~CAAC,IAAI,~~CAAC~~,CAAC,GAAG,~~CAAC~~,KAAK,~~CAAC~~,CAAC,CAAC~~,EAAE,KAAK,EAAE,IAAI,CAAC,MAAM,GAAG,CAAC,CAAC,CAAC,CAAC~~;~~IACzD~~,~~CAAC~~;~~IAED~~,~~OAAO,SAAS,CAAC~~;~~AACnB~~,~~CAAC,CAAC~~"}
1	+ {"version":3,"sources":["../../../src/tokenize/basic/sentence.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\n\n/*\n Split the text into sentences.\n */\nexport const splitSentences = (text: string, minLength = 20): [string, number, number][] => {\n const alphabets = /([A-Za-z])/g;\n const prefixes = /(Mr\|St\|Mrs\|Ms\|Dr)[.]/g;\n const suffixes = /(Inc\|Ltd\|Jr\|Sr\|Co)/g;\n const starters =\n /(Mr\|Mrs\|Ms\|Dr\|Prof\|Capt\|Cpt\|Lt\|He\\s\|She\\s\|It\\s\|They\\s\|Their\\s\|Our\\s\|We\\s\|But\\s\|However\\s\|That\\s\|This\\s\|Wherever)/g;\n const acronyms = /([A-Z][.][A-Z][.](?:[A-Z][.])?)/g;\n const websites = /[.](com\|net\|org\|io\|gov\|edu\|me)/g;\n const digits = /([0-9])/g;\n const dots = /\\.{2,}/g;\n\n text = text.replaceAll('\\n', ' ');\n text = text.replaceAll(prefixes, '$1<prd>');\n text = text.replaceAll(websites, '<prd>$2');\n text = text.replaceAll(new RegExp(`${digits.source}[.]${digits.source}`, 'g'), '$1<prd>$2');\n text = text.replaceAll(dots, (match) => '<prd>'.repeat(match.length));\n text = text.replaceAll('Ph.D.', 'Ph<prd>D<prd>');\n text = text.replaceAll(new RegExp(`\\\\s${alphabets.source}[.] `, 'g'), ' $1<prd> ');\n text = text.replaceAll(new RegExp(`${acronyms.source} ${starters.source}`, 'g'), '$1<stop> $2');\n text = text.replaceAll(\n new RegExp(`${alphabets.source}[.]${alphabets.source}[.]${alphabets.source}[.]`, 'g'),\n '$1<prd>$2<prd>$3<prd>',\n );\n text = text.replaceAll(\n new RegExp(`${alphabets.source}[.]${alphabets.source}[.]`, 'g'),\n '$1<prd>$2<prd>',\n );\n text = text.replaceAll(\n new RegExp(` ${suffixes.source}[.] ${starters.source}`, 'g'),\n '$1<stop> $2',\n );\n text = text.replaceAll(new RegExp(` ${suffixes.source}[.]`, 'g'), '$1<prd>');\n text = text.replaceAll(new RegExp(` ${alphabets.source}[.]`, 'g'), '$1<prd>');\n text = text.replaceAll('.”', '”.');\n text = text.replaceAll('.\"', '\".');\n text = text.replaceAll('!\"', '\"!');\n text = text.replaceAll('?\"', '\"?');\n text = text.replaceAll('.', '.<stop>');\n text = text.replaceAll('?', '?<stop>');\n text = text.replaceAll('!', '!<stop>');\n text = text.replaceAll('<prd>', '.');\n\n const split = text.split('<stop>');\n text = text.replaceAll('<stop>', '');\n\n const sentences: [string, number, number][] = [];\n let buf = '';\n let start = 0;\n let end = 0;\n for (const match of split) {\n const sentence = match.trim();\n if (!sentence) continue;\n\n buf += ' ' + sentence;\n end += match.length;\n if (buf.length > minLength) {\n sentences.push([buf.slice(1), start, end]);\n start = end;\n buf = '';\n }\n }\n\n if (buf) {\n sentences.push([buf.slice(1), start, text.length - 1]);\n }\n\n return sentences;\n};\n"],"mappings":"AAOO,MAAM,iBAAiB,CAAC,MAAc,YAAY,OAAmC;AAC1F,QAAM,YAAY;AAClB,QAAM,WAAW;AACjB,QAAM,WAAW;AACjB,QAAM,WACJ;AACF,QAAM,WAAW;AACjB,QAAM,WAAW;AACjB,QAAM,SAAS;AACf,QAAM,OAAO;AAEb,SAAO,KAAK,WAAW,MAAM,GAAG;AAChC,SAAO,KAAK,WAAW,UAAU,SAAS;AAC1C,SAAO,KAAK,WAAW,UAAU,SAAS;AAC1C,SAAO,KAAK,WAAW,IAAI,OAAO,GAAG,OAAO,MAAM,MAAM,OAAO,MAAM,IAAI,GAAG,GAAG,WAAW;AAC1F,SAAO,KAAK,WAAW,MAAM,CAAC,UAAU,QAAQ,OAAO,MAAM,MAAM,CAAC;AACpE,SAAO,KAAK,WAAW,SAAS,eAAe;AAC/C,SAAO,KAAK,WAAW,IAAI,OAAO,MAAM,UAAU,MAAM,QAAQ,GAAG,GAAG,WAAW;AACjF,SAAO,KAAK,WAAW,IAAI,OAAO,GAAG,SAAS,MAAM,IAAI,SAAS,MAAM,IAAI,GAAG,GAAG,aAAa;AAC9F,SAAO,KAAK;AAAA,IACV,IAAI,OAAO,GAAG,UAAU,MAAM,MAAM,UAAU,MAAM,MAAM,UAAU,MAAM,OAAO,GAAG;AAAA,IACpF;AAAA,EACF;AACA,SAAO,KAAK;AAAA,IACV,IAAI,OAAO,GAAG,UAAU,MAAM,MAAM,UAAU,MAAM,OAAO,GAAG;AAAA,IAC9D;AAAA,EACF;AACA,SAAO,KAAK;AAAA,IACV,IAAI,OAAO,IAAI,SAAS,MAAM,OAAO,SAAS,MAAM,IAAI,GAAG;AAAA,IAC3D;AAAA,EACF;AACA,SAAO,KAAK,WAAW,IAAI,OAAO,IAAI,SAAS,MAAM,OAAO,GAAG,GAAG,SAAS;AAC3E,SAAO,KAAK,WAAW,IAAI,OAAO,IAAI,UAAU,MAAM,OAAO,GAAG,GAAG,SAAS;AAC5E,SAAO,KAAK,WAAW,WAAM,SAAI;AACjC,SAAO,KAAK,WAAW,MAAM,IAAI;AACjC,SAAO,KAAK,WAAW,MAAM,IAAI;AACjC,SAAO,KAAK,WAAW,MAAM,IAAI;AACjC,SAAO,KAAK,WAAW,KAAK,SAAS;AACrC,SAAO,KAAK,WAAW,KAAK,SAAS;AACrC,SAAO,KAAK,WAAW,KAAK,SAAS;AACrC,SAAO,KAAK,WAAW,SAAS,GAAG;AAEnC,QAAM,QAAQ,KAAK,MAAM,QAAQ;AACjC,SAAO,KAAK,WAAW,UAAU,EAAE;AAEnC,QAAM,YAAwC,CAAC;AAC/C,MAAI,MAAM;AACV,MAAI,QAAQ;AACZ,MAAI,MAAM;AACV,aAAW,SAAS,OAAO;AACzB,UAAM,WAAW,MAAM,KAAK;AAC5B,QAAI,CAAC,SAAU;AAEf,WAAO,MAAM;AACb,WAAO,MAAM;AACb,QAAI,IAAI,SAAS,WAAW;AAC1B,gBAAU,KAAK,CAAC,IAAI,MAAM,CAAC,GAAG,OAAO,GAAG,CAAC;AACzC,cAAQ;AACR,YAAM;AAAA,IACR;AAAA,EACF;AAEA,MAAI,KAAK;AACP,cAAU,KAAK,CAAC,IAAI,MAAM,CAAC,GAAG,OAAO,KAAK,SAAS,CAAC,CAAC;AAAA,EACvD;AAEA,SAAO;AACT;","names":[]}

package/dist/tokenize/basic/word.cjs ADDED Viewed

@@ -0,0 +1,44 @@
+"use strict";
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+var word_exports = {};
+__export(word_exports, {
+  splitWords: () => splitWords
+});
+module.exports = __toCommonJS(word_exports);
+var import_tokenizer = require("../tokenizer.cjs");
+const splitWords = (text, ignorePunctuation = true) => {
+  const re = /\S+/g;
+  const words = [];
+  let arr;
+  while ((arr = re.exec(text)) !== null) {
+    let word = arr[0];
+    const start = arr.index;
+    const end = start + word.length;
+    if (ignorePunctuation) {
+      word = word.replace(new RegExp(`[${import_tokenizer.PUNCTUATIONS.join("")}]`, "g"), "");
+    }
+    words.push([word, start, end]);
+  }
+  return words;
+};
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  splitWords
+});
+//# sourceMappingURL=word.cjs.map

package/dist/tokenize/basic/word.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../../../src/tokenize/basic/word.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\nimport { PUNCTUATIONS } from '../tokenizer.js';\n\n/**\n * Split the text into words.\n */\nexport const splitWords = (text: string, ignorePunctuation = true): [string, number, number][] => {\n const re = /\\S+/g;\n const words: [string, number, number][] = [];\n\n let arr;\n while ((arr = re.exec(text)) !== null) {\n let word = arr[0];\n const start = arr.index;\n const end = start + word.length;\n\n if (ignorePunctuation) {\n word = word.replace(new RegExp(`[${PUNCTUATIONS.join('')}]`, 'g'), '');\n }\n\n words.push([word, start, end]);\n }\n\n return words;\n};\n"],"mappings":";;;;;;;;;;;;;;;;;;AAAA;AAAA;AAAA;AAAA;AAAA;AAGA,uBAA6B;AAKtB,MAAM,aAAa,CAAC,MAAc,oBAAoB,SAAqC;AAChG,QAAM,KAAK;AACX,QAAM,QAAoC,CAAC;AAE3C,MAAI;AACJ,UAAQ,MAAM,GAAG,KAAK,IAAI,OAAO,MAAM;AACrC,QAAI,OAAO,IAAI,CAAC;AAChB,UAAM,QAAQ,IAAI;AAClB,UAAM,MAAM,QAAQ,KAAK;AAEzB,QAAI,mBAAmB;AACrB,aAAO,KAAK,QAAQ,IAAI,OAAO,IAAI,8BAAa,KAAK,EAAE,CAAC,KAAK,GAAG,GAAG,EAAE;AAAA,IACvE;AAEA,UAAM,KAAK,CAAC,MAAM,OAAO,GAAG,CAAC;AAAA,EAC/B;AAEA,SAAO;AACT;","names":[]}

package/dist/tokenize/basic/word.js CHANGED Viewed

@@ -1,23 +1,20 @@
-// SPDX-FileCopyrightText: 2024 LiveKit, Inc.
-//
-// SPDX-License-Identifier: Apache-2.0
-import { PUNCTUATIONS } from '../tokenizer.js';
-/**
- * Split the text into words.
- */
-export const splitWords = (text, ignorePunctuation = true) => {
-    const re = /\S+/g;
-    const words = [];
-    let arr;
-    while ((arr = re.exec(text)) !== null) {
-        let word = arr[0];
-        const start = arr.index;
-        const end = start + word.length;
-        if (ignorePunctuation) {
-            word = word.replace(new RegExp(`[${PUNCTUATIONS.join('')}]`, 'g'), '');
-        }
-        words.push([word, start, end]);
+import { PUNCTUATIONS } from "../tokenizer.js";
+const splitWords = (text, ignorePunctuation = true) => {
+  const re = /\S+/g;
+  const words = [];
+  let arr;
+  while ((arr = re.exec(text)) !== null) {
+    let word = arr[0];
+    const start = arr.index;
+    const end = start + word.length;
+    if (ignorePunctuation) {
+      word = word.replace(new RegExp(`[${PUNCTUATIONS.join("")}]`, "g"), "");
     }
-    return words;
+    words.push([word, start, end]);
+  }
+  return words;
+};
+export {
+  splitWords
 };
 //# sourceMappingURL=word.js.map

package/dist/tokenize/basic/word.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"~~file":"word.js","sourceRoot":"","~~sources":["../../../src/tokenize/basic/word.ts"],"~~names~~":[],"~~mappings"~~:~~"AAAA~~,~~6CAA6C;AAC7C~~,~~EAAE;AACF~~,~~sCAAsC;AACtC~~,~~OAAO~~,~~EAAE~~,~~YAAY~~,~~EAAE~~,~~MAAM~~,~~iBAAiB~~,~~CAAC;AAE/C;;GAEG;AACH~~,~~MAAM~~,~~CAAC~~,MAAM,~~UAAU~~,~~GAAG,~~CAAC,~~IAAY~~,~~EAAE~~,~~iBAAiB,GAAG,IAAI,EAA8B,EAAE~~;~~IAC/F~~,~~MAAM~~,~~EAAE,GAAG,MAAM,CAAC~~;~~IAClB~~,~~MAAM~~,~~KAAK~~,~~GAA+B,EAAE,~~CAAC;~~IAE7C~~,~~IAAI,GAAG,CAAC~~;~~IACR~~,~~OAAO~~,~~CAAC~~,GAAG,~~GAAG~~,~~EAAE,CAAC,~~IAAI,~~CAAC~~,~~IAAI~~,~~CAAC~~,~~CAAC~~,~~KAAK,~~IAAI,~~EAAE,~~CAAC;~~QACtC~~,~~IAAI~~,IAAI,~~GAAG~~,~~GAAG,CAAC,CAAC,CAAC,CAAC;QAClB,~~MAAM,~~KAAK~~,~~GAAG,GAAG,CAAC,~~KAAK~~,CAAC~~;~~QACxB~~,~~MAAM~~,~~GAAG~~,~~GAAG~~,KAAK,~~GAAG~~,IAAI,~~CAAC,MAAM,CAAC;QAEhC,IAAI,iBAAiB,EAAE,CAAC;YACtB,IAAI,GAAG,IAAI,CAAC,~~OAAO,~~CAAC,~~IAAI,~~MAAM~~,~~CAAC~~,~~IAAI~~,~~YAAY,~~CAAC,~~IAAI~~,~~CAAC,EAAE,CAAC,~~GAAG,~~EAAE,~~GAAG,~~CAAC,~~EAAE~~,EAAE,CAAC,CAAC~~;~~QACzE~~,~~CAAC~~;~~QAED~~,KAAK,CAAC,~~IAAI~~,~~CAAC~~,~~CAAC,IAAI,EAAE,KAAK,EAAE,~~GAAG,CAAC~~,CAAC,CAAC~~;~~IACjC~~,~~CAAC~~;~~IAED~~,~~OAAO,KAAK,CAAC~~;~~AACf~~,~~CAAC,CAAC~~"}
1	+ {"version":3,"sources":["../../../src/tokenize/basic/word.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\nimport { PUNCTUATIONS } from '../tokenizer.js';\n\n/*\n Split the text into words.\n */\nexport const splitWords = (text: string, ignorePunctuation = true): [string, number, number][] => {\n const re = /\\S+/g;\n const words: [string, number, number][] = [];\n\n let arr;\n while ((arr = re.exec(text)) !== null) {\n let word = arr[0];\n const start = arr.index;\n const end = start + word.length;\n\n if (ignorePunctuation) {\n word = word.replace(new RegExp(`[${PUNCTUATIONS.join('')}]`, 'g'), '');\n }\n\n words.push([word, start, end]);\n }\n\n return words;\n};\n"],"mappings":"AAGA,SAAS,oBAAoB;AAKtB,MAAM,aAAa,CAAC,MAAc,oBAAoB,SAAqC;AAChG,QAAM,KAAK;AACX,QAAM,QAAoC,CAAC;AAE3C,MAAI;AACJ,UAAQ,MAAM,GAAG,KAAK,IAAI,OAAO,MAAM;AACrC,QAAI,OAAO,IAAI,CAAC;AAChB,UAAM,QAAQ,IAAI;AAClB,UAAM,MAAM,QAAQ,KAAK;AAEzB,QAAI,mBAAmB;AACrB,aAAO,KAAK,QAAQ,IAAI,OAAO,IAAI,aAAa,KAAK,EAAE,CAAC,KAAK,GAAG,GAAG,EAAE;AAAA,IACvE;AAEA,UAAM,KAAK,CAAC,MAAM,OAAO,GAAG,CAAC;AAAA,EAC/B;AAEA,SAAO;AACT;","names":[]}

package/dist/tokenize/index.cjs ADDED Viewed

@@ -0,0 +1,55 @@
+"use strict";
+var __create = Object.create;
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __getProtoOf = Object.getPrototypeOf;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toESM = (mod, isNodeMode, target) => (target = mod != null ? __create(__getProtoOf(mod)) : {}, __copyProps(
+  // If the importer is in node compatibility mode or this is not an ESM
+  // file that has been converted to a CommonJS file using a Babel-
+  // compatible transform (i.e. "__esModule" has not been set), then set
+  // "default" to the CommonJS "module.exports" for node compatibility.
+  isNodeMode || !mod || !mod.__esModule ? __defProp(target, "default", { value: mod, enumerable: true }) : target,
+  mod
+));
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+var tokenize_exports = {};
+__export(tokenize_exports, {
+  BufferedSentenceStream: () => import_token_stream.BufferedSentenceStream,
+  BufferedTokenStream: () => import_token_stream.BufferedTokenStream,
+  BufferedWordStream: () => import_token_stream.BufferedWordStream,
+  SentenceStream: () => import_tokenizer.SentenceStream,
+  SentenceTokenizer: () => import_tokenizer.SentenceTokenizer,
+  WordStream: () => import_tokenizer.WordStream,
+  WordTokenizer: () => import_tokenizer.WordTokenizer,
+  basic: () => basic
+});
+module.exports = __toCommonJS(tokenize_exports);
+var basic = __toESM(require("./basic/index.cjs"), 1);
+var import_tokenizer = require("./tokenizer.cjs");
+var import_token_stream = require("./token_stream.cjs");
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  BufferedSentenceStream,
+  BufferedTokenStream,
+  BufferedWordStream,
+  SentenceStream,
+  SentenceTokenizer,
+  WordStream,
+  WordTokenizer,
+  basic
+});
+//# sourceMappingURL=index.cjs.map

package/dist/tokenize/index.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../../src/tokenize/index.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\nimport * as basic from './basic/index.js';\n\nexport {\n type TokenData,\n SentenceTokenizer,\n SentenceStream,\n WordTokenizer,\n WordStream,\n} from './tokenizer.js';\n\nexport { BufferedSentenceStream, BufferedTokenStream, BufferedWordStream } from './token_stream.js';\n\nexport { basic };\n"],"mappings":";;;;;;;;;;;;;;;;;;;;;;;;;;;;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAGA,YAAuB;AAEvB,uBAMO;AAEP,0BAAgF;","names":[]}

package/dist/tokenize/index.js CHANGED Viewed

@@ -1,8 +1,19 @@
-// SPDX-FileCopyrightText: 2024 LiveKit, Inc.
-//
-// SPDX-License-Identifier: Apache-2.0
-import * as basic from './basic/index.js';
-export { SentenceTokenizer, SentenceStream, WordTokenizer, WordStream, } from './tokenizer.js';
-export { BufferedSentenceStream, BufferedTokenStream, BufferedWordStream } from './token_stream.js';
-export { basic };
+import * as basic from "./basic/index.js";
+import {
+  SentenceTokenizer,
+  SentenceStream,
+  WordTokenizer,
+  WordStream
+} from "./tokenizer.js";
+import { BufferedSentenceStream, BufferedTokenStream, BufferedWordStream } from "./token_stream.js";
+export {
+  BufferedSentenceStream,
+  BufferedTokenStream,
+  BufferedWordStream,
+  SentenceStream,
+  SentenceTokenizer,
+  WordStream,
+  WordTokenizer,
+  basic
+};
 //# sourceMappingURL=index.js.map

package/dist/tokenize/index.js.map CHANGED Viewed

	@@ -1 +1 @@
1	- {"version":3,"~~file":"index.js","sourceRoot":"","~~sources":["../../src/tokenize/index.ts"],"~~names~~":[],"mappings":"AAAA,~~6CAA6C~~;~~AAC7C~~,~~EAAE~~;~~AACF~~,~~sCAAsC~~;~~AACtC~~,~~OAAO,KAAK,KAAK,MAAM,kBAAkB,CAAC~~;~~AAE1C~~,~~OAAO,EAEL,iBAAiB,EACjB,cAAc,EACd,aAAa,EACb,UAAU,GACX,MAAM,gBAAgB,CAAC~~;~~AAExB~~,~~OAAO~~,~~EAAE~~,~~sBAAsB~~,~~EAAE,mBAAmB,EAAE,kBAAkB,EAAE,MAAM,mBAAmB,CAAC~~;~~AAEpG~~,~~OAAO,EAAE,KAAK,EAAE,CAAC~~"}
1	+ {"version":3,"sources":["../../src/tokenize/index.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\nimport * as basic from './basic/index.js';\n\nexport {\n type TokenData,\n SentenceTokenizer,\n SentenceStream,\n WordTokenizer,\n WordStream,\n} from './tokenizer.js';\n\nexport { BufferedSentenceStream, BufferedTokenStream, BufferedWordStream } from './token_stream.js';\n\nexport { basic };\n"],"mappings":"AAGA,YAAY,WAAW;AAEvB;AAAA,EAEE;AAAA,EACA;AAAA,EACA;AAAA,EACA;AAAA,OACK;AAEP,SAAS,wBAAwB,qBAAqB,0BAA0B;","names":[]}

package/dist/tokenize/token_stream.cjs ADDED Viewed

@@ -0,0 +1,164 @@
+"use strict";
+var __defProp = Object.defineProperty;
+var __getOwnPropDesc = Object.getOwnPropertyDescriptor;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __hasOwnProp = Object.prototype.hasOwnProperty;
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+var __copyProps = (to, from, except, desc) => {
+  if (from && typeof from === "object" || typeof from === "function") {
+    for (let key of __getOwnPropNames(from))
+      if (!__hasOwnProp.call(to, key) && key !== except)
+        __defProp(to, key, { get: () => from[key], enumerable: !(desc = __getOwnPropDesc(from, key)) || desc.enumerable });
+  }
+  return to;
+};
+var __toCommonJS = (mod) => __copyProps(__defProp({}, "__esModule", { value: true }), mod);
+var token_stream_exports = {};
+__export(token_stream_exports, {
+  BufferedSentenceStream: () => BufferedSentenceStream,
+  BufferedTokenStream: () => BufferedTokenStream,
+  BufferedWordStream: () => BufferedWordStream
+});
+module.exports = __toCommonJS(token_stream_exports);
+var import_node_crypto = require("node:crypto");
+var import_utils = require("../utils.cjs");
+var import_tokenizer = require("./tokenizer.cjs");
+class BufferedTokenStream {
+  queue = new import_utils.AsyncIterableQueue();
+  closed = false;
+  #func;
+  #minTokenLength;
+  #minContextLength;
+  #bufTokens = [];
+  #inBuf = "";
+  #outBuf = "";
+  #currentSegmentId;
+  constructor(func, minTokenLength, minContextLength) {
+    this.#func = func;
+    this.#minTokenLength = minTokenLength;
+    this.#minContextLength = minContextLength;
+    this.#currentSegmentId = (0, import_node_crypto.randomUUID)();
+  }
+  /** Push a string of text into the token stream */
+  pushText(text) {
+    if (this.closed) {
+      throw new Error("Stream is closed");
+    }
+    this.#inBuf += text;
+    if (this.#inBuf.length < this.#minContextLength) return;
+    while (true) {
+      const tokens = this.#func(this.#inBuf);
+      if (tokens.length <= 1) break;
+      if (this.#outBuf) this.#outBuf += " ";
+      const tok = tokens.shift();
+      let tokText = tok;
+      if (tok.length > 1 && typeof tok[1] === "number") {
+        tokText = tok[0];
+      }
+      this.#outBuf += tokText;
+      if (this.#outBuf.length >= this.#minTokenLength) {
+        this.queue.put({ token: this.#outBuf, segmentId: this.#currentSegmentId });
+        this.#outBuf = "";
+      }
+      if (typeof tok !== "string") {
+        this.#inBuf = this.#inBuf.slice(tok[2]);
+      } else {
+        this.#inBuf = this.#inBuf.slice(Math.max(0, this.#inBuf.indexOf(tok)) + tok.length).trimStart();
+      }
+    }
+  }
+  /** Flush the stream, causing it to process all pending text */
+  flush() {
+    if (this.closed) {
+      throw new Error("Stream is closed");
+    }
+    if (this.#inBuf || this.#outBuf) {
+      const tokens = this.#func(this.#inBuf);
+      if (tokens) {
+        if (this.#outBuf) this.#outBuf += " ";
+        if (typeof tokens[0] !== "string") {
+          this.#outBuf += tokens.map((tok) => tok[0]).join(" ");
+        } else {
+          this.#outBuf += tokens.join(" ");
+        }
+      }
+      if (this.#outBuf) {
+        this.queue.put({ token: this.#outBuf, segmentId: this.#currentSegmentId });
+      }
+      this.#currentSegmentId = (0, import_node_crypto.randomUUID)();
+    }
+    this.#inBuf = "";
+    this.#outBuf = "";
+  }
+  /** Mark the input as ended and forbid additional pushes */
+  endInput() {
+    if (this.closed) {
+      throw new Error("Stream is closed");
+    }
+    this.flush();
+    this.close();
+  }
+  next() {
+    return this.queue.next();
+  }
+  /** Close both the input and output of the token stream */
+  close() {
+    this.queue.close();
+    this.closed = true;
+  }
+  [Symbol.asyncIterator]() {
+    return this;
+  }
+}
+class BufferedSentenceStream extends import_tokenizer.SentenceStream {
+  #stream;
+  constructor(func, minTokenLength, minContextLength) {
+    super();
+    this.#stream = new BufferedTokenStream(func, minTokenLength, minContextLength);
+  }
+  pushText(text) {
+    this.#stream.pushText(text);
+  }
+  flush() {
+    this.#stream.flush();
+  }
+  close() {
+    super.close();
+    this.#stream.close();
+  }
+  next() {
+    return this.#stream.next();
+  }
+}
+class BufferedWordStream extends import_tokenizer.WordStream {
+  #stream;
+  constructor(func, minTokenLength, minContextLength) {
+    super();
+    this.#stream = new BufferedTokenStream(func, minTokenLength, minContextLength);
+  }
+  pushText(text) {
+    this.#stream.pushText(text);
+  }
+  flush() {
+    this.#stream.flush();
+  }
+  endInput() {
+    this.#stream.endInput();
+  }
+  close() {
+    this.#stream.close();
+  }
+  next() {
+    return this.#stream.next();
+  }
+}
+// Annotate the CommonJS export names for ESM import in node:
+0 && (module.exports = {
+  BufferedSentenceStream,
+  BufferedTokenStream,
+  BufferedWordStream
+});
+//# sourceMappingURL=token_stream.cjs.map

package/dist/tokenize/token_stream.cjs.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"sources":["../../src/tokenize/token_stream.ts"],"sourcesContent":["// SPDX-FileCopyrightText: 2024 LiveKit, Inc.\n//\n// SPDX-License-Identifier: Apache-2.0\nimport { randomUUID } from 'node:crypto';\nimport { AsyncIterableQueue } from '../utils.js';\nimport type { TokenData } from './tokenizer.js';\nimport { SentenceStream, WordStream } from './tokenizer.js';\n\ntype TokenizeFunc = (x: string) => string[] | [string, number, number][];\n\nexport class BufferedTokenStream implements AsyncIterableIterator<TokenData> {\n protected queue = new AsyncIterableQueue<TokenData>();\n protected closed = false;\n\n #func: TokenizeFunc;\n #minTokenLength: number;\n #minContextLength: number;\n #bufTokens: string[] = [];\n #inBuf = '';\n #outBuf = '';\n #currentSegmentId: string;\n\n constructor(func: TokenizeFunc, minTokenLength: number, minContextLength: number) {\n this.#func = func;\n this.#minTokenLength = minTokenLength;\n this.#minContextLength = minContextLength;\n\n this.#currentSegmentId = randomUUID();\n }\n\n /** Push a string of text into the token stream */\n pushText(text: string) {\n if (this.closed) {\n throw new Error('Stream is closed');\n }\n\n this.#inBuf += text;\n if (this.#inBuf.length < this.#minContextLength) return;\n\n while (true) {\n const tokens = this.#func(this.#inBuf);\n if (tokens.length <= 1) break;\n\n if (this.#outBuf) this.#outBuf += ' ';\n\n const tok = tokens.shift()!;\n let tokText = tok as string;\n if (tok.length > 1 && typeof tok[1] === 'number') {\n tokText = tok[0];\n }\n\n this.#outBuf += tokText;\n if (this.#outBuf.length >= this.#minTokenLength) {\n this.queue.put({ token: this.#outBuf, segmentId: this.#currentSegmentId });\n this.#outBuf = '';\n }\n\n if (typeof tok! !== 'string') {\n this.#inBuf = this.#inBuf.slice(tok![2]);\n } else {\n this.#inBuf = this.#inBuf\n .slice(Math.max(0, this.#inBuf.indexOf(tok)) + tok.length)\n .trimStart();\n }\n }\n }\n\n /** Flush the stream, causing it to process all pending text */\n flush() {\n if (this.closed) {\n throw new Error('Stream is closed');\n }\n\n if (this.#inBuf || this.#outBuf) {\n const tokens = this.#func(this.#inBuf);\n if (tokens) {\n if (this.#outBuf) this.#outBuf += ' ';\n\n if (typeof tokens[0] !== 'string') {\n this.#outBuf += tokens.map((tok) => tok[0]).join(' ');\n } else {\n this.#outBuf += tokens.join(' ');\n }\n }\n\n if (this.#outBuf) {\n this.queue.put({ token: this.#outBuf, segmentId: this.#currentSegmentId });\n }\n\n this.#currentSegmentId = randomUUID();\n }\n\n this.#inBuf = '';\n this.#outBuf = '';\n }\n\n /** Mark the input as ended and forbid additional pushes */\n endInput() {\n if (this.closed) {\n throw new Error('Stream is closed');\n }\n this.flush();\n this.close();\n }\n\n next(): Promise<IteratorResult<TokenData>> {\n return this.queue.next();\n }\n\n /** Close both the input and output of the token stream */\n close() {\n this.queue.close();\n this.closed = true;\n }\n\n [Symbol.asyncIterator](): BufferedTokenStream {\n return this;\n }\n}\n\nexport class BufferedSentenceStream extends SentenceStream {\n #stream: BufferedTokenStream;\n\n constructor(func: TokenizeFunc, minTokenLength: number, minContextLength: number) {\n super();\n this.#stream = new BufferedTokenStream(func, minTokenLength, minContextLength);\n }\n\n pushText(text: string) {\n this.#stream.pushText(text);\n }\n\n flush() {\n this.#stream.flush();\n }\n\n close() {\n super.close();\n this.#stream.close();\n }\n\n next(): Promise<IteratorResult<TokenData>> {\n return this.#stream.next();\n }\n}\n\nexport class BufferedWordStream extends WordStream {\n #stream: BufferedTokenStream;\n\n constructor(func: TokenizeFunc, minTokenLength: number, minContextLength: number) {\n super();\n this.#stream = new BufferedTokenStream(func, minTokenLength, minContextLength);\n }\n\n pushText(text: string) {\n this.#stream.pushText(text);\n }\n\n flush() {\n this.#stream.flush();\n }\n\n endInput() {\n this.#stream.endInput();\n }\n\n close() {\n this.#stream.close();\n }\n\n next(): Promise<IteratorResult<TokenData>> {\n return this.#stream.next();\n }\n}\n"],"mappings":";;;;;;;;;;;;;;;;;;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAAA;AAGA,yBAA2B;AAC3B,mBAAmC;AAEnC,uBAA2C;AAIpC,MAAM,oBAAgE;AAAA,EACjE,QAAQ,IAAI,gCAA8B;AAAA,EAC1C,SAAS;AAAA,EAEnB;AAAA,EACA;AAAA,EACA;AAAA,EACA,aAAuB,CAAC;AAAA,EACxB,SAAS;AAAA,EACT,UAAU;AAAA,EACV;AAAA,EAEA,YAAY,MAAoB,gBAAwB,kBAA0B;AAChF,SAAK,QAAQ;AACb,SAAK,kBAAkB;AACvB,SAAK,oBAAoB;AAEzB,SAAK,wBAAoB,+BAAW;AAAA,EACtC;AAAA;AAAA,EAGA,SAAS,MAAc;AACrB,QAAI,KAAK,QAAQ;AACf,YAAM,IAAI,MAAM,kBAAkB;AAAA,IACpC;AAEA,SAAK,UAAU;AACf,QAAI,KAAK,OAAO,SAAS,KAAK,kBAAmB;AAEjD,WAAO,MAAM;AACX,YAAM,SAAS,KAAK,MAAM,KAAK,MAAM;AACrC,UAAI,OAAO,UAAU,EAAG;AAExB,UAAI,KAAK,QAAS,MAAK,WAAW;AAElC,YAAM,MAAM,OAAO,MAAM;AACzB,UAAI,UAAU;AACd,UAAI,IAAI,SAAS,KAAK,OAAO,IAAI,CAAC,MAAM,UAAU;AAChD,kBAAU,IAAI,CAAC;AAAA,MACjB;AAEA,WAAK,WAAW;AAChB,UAAI,KAAK,QAAQ,UAAU,KAAK,iBAAiB;AAC/C,aAAK,MAAM,IAAI,EAAE,OAAO,KAAK,SAAS,WAAW,KAAK,kBAAkB,CAAC;AACzE,aAAK,UAAU;AAAA,MACjB;AAEA,UAAI,OAAO,QAAS,UAAU;AAC5B,aAAK,SAAS,KAAK,OAAO,MAAM,IAAK,CAAC,CAAC;AAAA,MACzC,OAAO;AACL,aAAK,SAAS,KAAK,OAChB,MAAM,KAAK,IAAI,GAAG,KAAK,OAAO,QAAQ,GAAG,CAAC,IAAI,IAAI,MAAM,EACxD,UAAU;AAAA,MACf;AAAA,IACF;AAAA,EACF;AAAA;AAAA,EAGA,QAAQ;AACN,QAAI,KAAK,QAAQ;AACf,YAAM,IAAI,MAAM,kBAAkB;AAAA,IACpC;AAEA,QAAI,KAAK,UAAU,KAAK,SAAS;AAC/B,YAAM,SAAS,KAAK,MAAM,KAAK,MAAM;AACrC,UAAI,QAAQ;AACV,YAAI,KAAK,QAAS,MAAK,WAAW;AAElC,YAAI,OAAO,OAAO,CAAC,MAAM,UAAU;AACjC,eAAK,WAAW,OAAO,IAAI,CAAC,QAAQ,IAAI,CAAC,CAAC,EAAE,KAAK,GAAG;AAAA,QACtD,OAAO;AACL,eAAK,WAAW,OAAO,KAAK,GAAG;AAAA,QACjC;AAAA,MACF;AAEA,UAAI,KAAK,SAAS;AAChB,aAAK,MAAM,IAAI,EAAE,OAAO,KAAK,SAAS,WAAW,KAAK,kBAAkB,CAAC;AAAA,MAC3E;AAEA,WAAK,wBAAoB,+BAAW;AAAA,IACtC;AAEA,SAAK,SAAS;AACd,SAAK,UAAU;AAAA,EACjB;AAAA;AAAA,EAGA,WAAW;AACT,QAAI,KAAK,QAAQ;AACf,YAAM,IAAI,MAAM,kBAAkB;AAAA,IACpC;AACA,SAAK,MAAM;AACX,SAAK,MAAM;AAAA,EACb;AAAA,EAEA,OAA2C;AACzC,WAAO,KAAK,MAAM,KAAK;AAAA,EACzB;AAAA;AAAA,EAGA,QAAQ;AACN,SAAK,MAAM,MAAM;AACjB,SAAK,SAAS;AAAA,EAChB;AAAA,EAEA,CAAC,OAAO,aAAa,IAAyB;AAC5C,WAAO;AAAA,EACT;AACF;AAEO,MAAM,+BAA+B,gCAAe;AAAA,EACzD;AAAA,EAEA,YAAY,MAAoB,gBAAwB,kBAA0B;AAChF,UAAM;AACN,SAAK,UAAU,IAAI,oBAAoB,MAAM,gBAAgB,gBAAgB;AAAA,EAC/E;AAAA,EAEA,SAAS,MAAc;AACrB,SAAK,QAAQ,SAAS,IAAI;AAAA,EAC5B;AAAA,EAEA,QAAQ;AACN,SAAK,QAAQ,MAAM;AAAA,EACrB;AAAA,EAEA,QAAQ;AACN,UAAM,MAAM;AACZ,SAAK,QAAQ,MAAM;AAAA,EACrB;AAAA,EAEA,OAA2C;AACzC,WAAO,KAAK,QAAQ,KAAK;AAAA,EAC3B;AACF;AAEO,MAAM,2BAA2B,4BAAW;AAAA,EACjD;AAAA,EAEA,YAAY,MAAoB,gBAAwB,kBAA0B;AAChF,UAAM;AACN,SAAK,UAAU,IAAI,oBAAoB,MAAM,gBAAgB,gBAAgB;AAAA,EAC/E;AAAA,EAEA,SAAS,MAAc;AACrB,SAAK,QAAQ,SAAS,IAAI;AAAA,EAC5B;AAAA,EAEA,QAAQ;AACN,SAAK,QAAQ,MAAM;AAAA,EACrB;AAAA,EAEA,WAAW;AACT,SAAK,QAAQ,SAAS;AAAA,EACxB;AAAA,EAEA,QAAQ;AACN,SAAK,QAAQ,MAAM;AAAA,EACrB;AAAA,EAEA,OAA2C;AACzC,WAAO,KAAK,QAAQ,KAAK;AAAA,EAC3B;AACF;","names":[]}