npm - @utterance/core - Versions diffs - 0.0.3 → 0.0.4 - Mend

@utterance/core 0.0.3 → 0.0.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/dist/index.cjs CHANGED Viewed

@@ -373,7 +373,7 @@ var FeatureExtractor = class {
 };
 // src/types.ts
-var MODEL_CDN_URL = "https://pub-46a5feb0029246bcbc93fab6162cff94.r2.dev/v0.0.2/utterance-v1.onnx";
+var MODEL_CDN_URL = "https://pub-46a5feb0029246bcbc93fab6162cff94.r2.dev/v2/utterance-v2.onnx";
 var DEFAULT_OPTIONS = {
   sensitivity: 0.5,
   pauseTolerance: 1500,
@@ -485,7 +485,7 @@ var ONNXModel = class {
       } else if (path === "bundled") {
         try {
           const getUrl = new Function("p", "b", "return new URL(p, b).href");
-          const href = getUrl("../../models/utterance-v1.onnx", import_meta.url);
+          const href = getUrl("../../models/utterance-v2.onnx", import_meta.url);
           const response = await fetch(href);
           if (response.ok) {
             modelSource = await response.arrayBuffer();
@@ -571,6 +571,25 @@ var ONNXModel = class {
       const dstIdx = i * FEATURE_DIM;
       input.set(this.frameBuffer.subarray(srcIdx, srcIdx + FEATURE_DIM), dstIdx);
     }
+    for (let f = 0; f < 14; f++) {
+      let sum = 0;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        sum += input[i * FEATURE_DIM + f];
+      }
+      const mean = sum / CONTEXT_FRAMES;
+      let varSum = 0;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        const d = input[i * FEATURE_DIM + f] - mean;
+        varSum += d * d;
+      }
+      const std = Math.sqrt(varSum / CONTEXT_FRAMES) || 1;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        input[i * FEATURE_DIM + f] = (input[i * FEATURE_DIM + f] - mean) / std;
+      }
+    }
+    for (let i = 0; i < CONTEXT_FRAMES; i++) {
+      input[i * FEATURE_DIM + 14] /= 500;
+    }
     const tensor = new ort.Tensor("float32", input, [1, CONTEXT_FRAMES, FEATURE_DIM]);
     const results = await session.run({ input: tensor });
     const output = results.output;
@@ -618,6 +637,7 @@ var TurnDetector = class {
   state = "idle";
   pauseStart = 0;
   speakStart = 0;
+  interruptFired = false;
   sensitivity;
   pauseTolerance;
   constructor(sensitivity = 0.5, pauseTolerance = 1500) {
@@ -647,6 +667,7 @@ var TurnDetector = class {
     const threshold = this.sensitivity;
     switch (label) {
       case "speaking":
+        this.interruptFired = false;
         if (this.state !== "speaking") {
           this.state = "speaking";
           this.speakStart = timestamp;
@@ -682,7 +703,8 @@ var TurnDetector = class {
         }
         break;
       case "interrupt_intent":
-        if (confidence >= threshold) {
+        if (confidence >= threshold && !this.interruptFired) {
+          this.interruptFired = true;
           this.emit("interrupt", { timestamp });
         }
         break;
@@ -695,6 +717,7 @@ var TurnDetector = class {
     this.state = "idle";
     this.pauseStart = 0;
     this.speakStart = 0;
+    this.interruptFired = false;
   }
   emit(event, payload) {
     this.listeners.get(event)?.forEach((fn) => fn(payload));

package/dist/index.js CHANGED Viewed

@@ -337,7 +337,7 @@ var FeatureExtractor = class {
 };
 // src/types.ts
-var MODEL_CDN_URL = "https://pub-46a5feb0029246bcbc93fab6162cff94.r2.dev/v0.0.2/utterance-v1.onnx";
+var MODEL_CDN_URL = "https://pub-46a5feb0029246bcbc93fab6162cff94.r2.dev/v2/utterance-v2.onnx";
 var DEFAULT_OPTIONS = {
   sensitivity: 0.5,
   pauseTolerance: 1500,
@@ -448,7 +448,7 @@ var ONNXModel = class {
       } else if (path === "bundled") {
         try {
           const getUrl = new Function("p", "b", "return new URL(p, b).href");
-          const href = getUrl("../../models/utterance-v1.onnx", import.meta.url);
+          const href = getUrl("../../models/utterance-v2.onnx", import.meta.url);
           const response = await fetch(href);
           if (response.ok) {
             modelSource = await response.arrayBuffer();
@@ -534,6 +534,25 @@ var ONNXModel = class {
       const dstIdx = i * FEATURE_DIM;
       input.set(this.frameBuffer.subarray(srcIdx, srcIdx + FEATURE_DIM), dstIdx);
     }
+    for (let f = 0; f < 14; f++) {
+      let sum = 0;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        sum += input[i * FEATURE_DIM + f];
+      }
+      const mean = sum / CONTEXT_FRAMES;
+      let varSum = 0;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        const d = input[i * FEATURE_DIM + f] - mean;
+        varSum += d * d;
+      }
+      const std = Math.sqrt(varSum / CONTEXT_FRAMES) || 1;
+      for (let i = 0; i < CONTEXT_FRAMES; i++) {
+        input[i * FEATURE_DIM + f] = (input[i * FEATURE_DIM + f] - mean) / std;
+      }
+    }
+    for (let i = 0; i < CONTEXT_FRAMES; i++) {
+      input[i * FEATURE_DIM + 14] /= 500;
+    }
     const tensor = new ort.Tensor("float32", input, [1, CONTEXT_FRAMES, FEATURE_DIM]);
     const results = await session.run({ input: tensor });
     const output = results.output;
@@ -581,6 +600,7 @@ var TurnDetector = class {
   state = "idle";
   pauseStart = 0;
   speakStart = 0;
+  interruptFired = false;
   sensitivity;
   pauseTolerance;
   constructor(sensitivity = 0.5, pauseTolerance = 1500) {
@@ -610,6 +630,7 @@ var TurnDetector = class {
     const threshold = this.sensitivity;
     switch (label) {
       case "speaking":
+        this.interruptFired = false;
         if (this.state !== "speaking") {
           this.state = "speaking";
           this.speakStart = timestamp;
@@ -645,7 +666,8 @@ var TurnDetector = class {
         }
         break;
       case "interrupt_intent":
-        if (confidence >= threshold) {
+        if (confidence >= threshold && !this.interruptFired) {
+          this.interruptFired = true;
           this.emit("interrupt", { timestamp });
         }
         break;
@@ -658,6 +680,7 @@ var TurnDetector = class {
     this.state = "idle";
     this.pauseStart = 0;
     this.speakStart = 0;
+    this.interruptFired = false;
   }
   emit(event, payload) {
     this.listeners.get(event)?.forEach((fn) => fn(payload));

package/models/utterance-v2.onnx ADDED Viewed

Binary file

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@utterance/core",
-  "version": "0.0.3",
+  "version": "0.0.4",
   "description": "Client-side semantic endpointing. Know when they're done talking.",
   "type": "module",
   "main": "dist/index.cjs",
@@ -56,6 +56,8 @@
   "devDependencies": {
     "@eslint/js": "^9.0.0",
     "@tailwindcss/postcss": "^4.2.0",
+    "@types/d3-scale": "^4.0.9",
+    "@types/d3-shape": "^3.1.8",
     "@types/mdx": "^2.0.13",
     "@types/node": "^22.0.0",
     "@types/react": "^19.2.14",
@@ -79,6 +81,8 @@
     "@utterance/core": "^0.0.2",
     "class-variance-authority": "^0.7.1",
     "clsx": "^2.1.1",
+    "d3-scale": "^4.0.2",
+    "d3-shape": "^3.2.0",
     "fumadocs-core": "^16.6.3",
     "fumadocs-mdx": "^14.2.7",
     "fumadocs-ui": "^16.6.3",

package/models/.gitkeep DELETED Viewed

File without changes

package/models/utterance-v1.onnx DELETED Viewed

Binary file