npm - @volley/recognition-client-sdk - Versions diffs - 0.1.621 → 0.1.670 - Mend

@volley/recognition-client-sdk 0.1.621 → 0.1.670

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/dist/browser.bundled.d.ts +36 -3
package/dist/index.bundled.d.ts +88 -49
package/dist/index.d.ts +1 -1
package/dist/index.d.ts.map +1 -1
package/dist/index.js +53 -11
package/dist/index.js.map +3 -3
package/dist/recog-client-sdk.browser.js +29 -10
package/dist/recog-client-sdk.browser.js.map +3 -3
package/dist/vgf-recognition-mapper.d.ts.map +1 -1
package/dist/vgf-recognition-state.d.ts +6 -0
package/dist/vgf-recognition-state.d.ts.map +1 -1
package/package.json +3 -3
package/src/index.spec.ts +11 -0
package/src/index.ts +4 -0
package/src/recognition-client.ts +8 -8
package/src/utils/message-handler.ts +1 -1
package/src/vgf-recognition-mapper.ts +19 -1
package/src/vgf-recognition-state.ts +4 -0

package/dist/browser.bundled.d.ts CHANGED Viewed

@@ -12,11 +12,14 @@ declare enum RecognitionProvider {
     DEEPGRAM = "deepgram",
     ELEVENLABS = "elevenlabs",
     FIREWORKS = "fireworks",
+    GLADIA = "gladia",
     GOOGLE = "google",
     GEMINI_BATCH = "gemini-batch",
     OPENAI_BATCH = "openai-batch",
+    SELF_SERVE_VLLM = "self-serve-vllm",
     OPENAI_REALTIME = "openai-realtime",
     MISTRAL_VOXTRAL = "mistral-voxtral",
+    CARTESIA = "cartesia",
     DASHSCOPE = "dashscope",
     TEST_ASR_PROVIDER_QUOTA = "test-asr-provider-quota",
     TEST_ASR_STREAMING = "test-asr-streaming"
@@ -67,6 +70,13 @@ declare enum FireworksModel {
     WHISPER_V3 = "whisper-v3",
     WHISPER_V3_TURBO = "whisper-v3-turbo"
 }
+/**
+ * Gladia Solaria realtime transcription models
+ * @see https://docs.gladia.io/api-reference/v2/live/init
+ */
+declare enum GladiaModel {
+    SOLARIA_1 = "solaria-1"
+}
 /**
  * ElevenLabs Scribe models for speech-to-text
  * @see https://elevenlabs.io/blog/introducing-scribe-v2-realtime
@@ -74,8 +84,7 @@ declare enum FireworksModel {
  * @see https://elevenlabs.io/docs/api-reference/speech-to-text/convert
  */
 declare enum ElevenLabsModel {
-    SCRIBE_V2_REALTIME = "scribe_v2_realtime",
-    SCRIBE_V1 = "scribe_v1"
+    SCRIBE_V2_REALTIME = "scribe_v2_realtime"
 }
 /**
  * OpenAI Realtime API transcription models
@@ -94,6 +103,14 @@ declare enum OpenAIRealtimeModel {
 declare enum MistralVoxtralModel {
     VOXTRAL_MINI_REALTIME_2602 = "voxtral-mini-transcribe-realtime-2602"
 }
+/**
+ * Cartesia Ink-Whisper Realtime transcription models
+ * @see https://docs.cartesia.ai/build-with-cartesia/stt-models
+ */
+declare enum CartesiaModel {
+    INK_WHISPER = "ink-whisper",
+    INK_WHISPER_20250604 = "ink-whisper-2025-06-04"
+}
 /**
  * DashScope Qwen-ASR Realtime transcription models
  * @see https://www.alibabacloud.com/help/en/model-studio/qwen-real-time-speech-recognition
@@ -102,10 +119,17 @@ declare enum DashScopeModel {
     QWEN3_ASR_FLASH_REALTIME_2602 = "qwen3-asr-flash-realtime-2026-02-10",
     QWEN3_ASR_FLASH_REALTIME = "qwen3-asr-flash-realtime"
 }
+/**
+ * Self-serve vLLM batch transcription models
+ * Backed by recognition-inference / RunPod `/transcribe`
+ */
+declare enum SelfServeVllmModel {
+    QWEN3_ASR_1_7B = "qwen3-asr-1.7b"
+}
 /**
  * Type alias for any model from any provider
  */
-type RecognitionModel = DeepgramModel | GoogleModel | FireworksModel | ElevenLabsModel | OpenAIRealtimeModel | MistralVoxtralModel | DashScopeModel | string;
+type RecognitionModel = DeepgramModel | GoogleModel | FireworksModel | GladiaModel | ElevenLabsModel | OpenAIRealtimeModel | MistralVoxtralModel | CartesiaModel | DashScopeModel | SelfServeVllmModel | string;
 /**
  * Audio encoding types
@@ -260,6 +284,7 @@ declare const TranscriptionResultSchemaV1: z.ZodObject<{
     voiceStart: z.ZodOptional<z.ZodNumber>;
     voiceDuration: z.ZodOptional<z.ZodNumber>;
     voiceEnd: z.ZodOptional<z.ZodNumber>;
+    lastNonSilence: z.ZodOptional<z.ZodNumber>;
     startTimestamp: z.ZodOptional<z.ZodNumber>;
     endTimestamp: z.ZodOptional<z.ZodNumber>;
     receivedAtMs: z.ZodOptional<z.ZodNumber>;
@@ -278,6 +303,7 @@ declare const TranscriptionResultSchemaV1: z.ZodObject<{
     voiceStart?: number | undefined;
     voiceDuration?: number | undefined;
     voiceEnd?: number | undefined;
+    lastNonSilence?: number | undefined;
     startTimestamp?: number | undefined;
     endTimestamp?: number | undefined;
     receivedAtMs?: number | undefined;
@@ -296,6 +322,7 @@ declare const TranscriptionResultSchemaV1: z.ZodObject<{
     voiceStart?: number | undefined;
     voiceDuration?: number | undefined;
     voiceEnd?: number | undefined;
+    lastNonSilence?: number | undefined;
     startTimestamp?: number | undefined;
     endTimestamp?: number | undefined;
     receivedAtMs?: number | undefined;
@@ -366,6 +393,8 @@ declare const MetadataResultSchemaV1: z.ZodObject<{
     rawAudioTimeMs: z.ZodOptional<z.ZodNumber>;
     costInUSD: z.ZodOptional<z.ZodDefault<z.ZodNumber>>;
     apiType: z.ZodOptional<z.ZodNativeEnum<typeof ASRApiType>>;
+    provider: z.ZodOptional<z.ZodString>;
+    model: z.ZodOptional<z.ZodString>;
     asrConfig: z.ZodOptional<z.ZodString>;
     rawAsrMetadata: z.ZodOptional<z.ZodString>;
     transcriptOutcome: z.ZodOptional<z.ZodNativeEnum<typeof TranscriptOutcomeType>>;
@@ -420,6 +449,8 @@ declare const MetadataResultSchemaV1: z.ZodObject<{
     rawAudioTimeMs?: number | undefined;
     costInUSD?: number | undefined;
     apiType?: ASRApiType | undefined;
+    provider?: string | undefined;
+    model?: string | undefined;
     asrConfig?: string | undefined;
     rawAsrMetadata?: string | undefined;
     transcriptOutcome?: TranscriptOutcomeType | undefined;
@@ -450,6 +481,8 @@ declare const MetadataResultSchemaV1: z.ZodObject<{
     rawAudioTimeMs?: number | undefined;
     costInUSD?: number | undefined;
     apiType?: ASRApiType | undefined;
+    provider?: string | undefined;
+    model?: string | undefined;
     asrConfig?: string | undefined;
     rawAsrMetadata?: string | undefined;
     transcriptOutcome?: TranscriptOutcomeType | undefined;