npm - ai - Versions diffs - 6.0.0-beta.45 → 6.0.0-beta.47 - Mend

ai 6.0.0-beta.45 → 6.0.0-beta.47

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,18 @@
 # ai
+## 6.0.0-beta.47
+### Patch Changes
+- c62ecf0: feat(ai): add support for v2 specs in transcription and speech models
+## 6.0.0-beta.46
+### Patch Changes
+- Updated dependencies [0a2ff8a]
+  - @ai-sdk/gateway@2.0.0-beta.30
 ## 6.0.0-beta.45
 ### Patch Changes

package/dist/index.d.mts CHANGED Viewed

@@ -3,7 +3,7 @@ import * as _ai_sdk_provider_utils from '@ai-sdk/provider-utils';
 import { Tool, InferToolInput, InferToolOutput, AssistantModelMessage, ToolModelMessage, ReasoningPart, ModelMessage, FlexibleSchema, InferSchema, SystemModelMessage, UserModelMessage, ProviderOptions, IdGenerator, ToolCall, DataContent, Resolvable, FetchFunction } from '@ai-sdk/provider-utils';
 export { AssistantContent, AssistantModelMessage, DataContent, FilePart, FlexibleSchema, IdGenerator, ImagePart, InferSchema, InferToolInput, InferToolOutput, ModelMessage, Schema, SystemModelMessage, TextPart, Tool, ToolApprovalRequest, ToolApprovalResponse, ToolCallOptions, ToolCallPart, ToolContent, ToolExecuteFunction, ToolModelMessage, ToolResultPart, UserContent, UserModelMessage, asSchema, createIdGenerator, dynamicTool, generateId, jsonSchema, parseJsonEventStream, tool, zodSchema } from '@ai-sdk/provider-utils';
 import * as _ai_sdk_provider from '@ai-sdk/provider';
-import { EmbeddingModelV3, EmbeddingModelV2, EmbeddingModelV3Embedding, ImageModelV3, ImageModelV3CallWarning, ImageModelV3ProviderMetadata, JSONValue as JSONValue$1, LanguageModelV3, LanguageModelV2, LanguageModelV3FinishReason, LanguageModelV3CallWarning, LanguageModelV3Source, LanguageModelV3Middleware, SharedV3ProviderMetadata, SpeechModelV3, SpeechModelV3CallWarning, TranscriptionModelV3, TranscriptionModelV3CallWarning, LanguageModelV3Usage, LanguageModelV3CallOptions, AISDKError, LanguageModelV3ToolCall, JSONSchema7, JSONParseError, TypeValidationError, ProviderV3, ProviderV2, NoSuchModelError, JSONObject } from '@ai-sdk/provider';
+import { EmbeddingModelV3, EmbeddingModelV2, EmbeddingModelV3Embedding, ImageModelV3, ImageModelV3CallWarning, ImageModelV3ProviderMetadata, JSONValue as JSONValue$1, LanguageModelV3, LanguageModelV2, LanguageModelV3FinishReason, LanguageModelV3CallWarning, LanguageModelV3Source, LanguageModelV3Middleware, SharedV3ProviderMetadata, SpeechModelV3, SpeechModelV2, SpeechModelV3CallWarning, TranscriptionModelV3, TranscriptionModelV2, TranscriptionModelV3CallWarning, LanguageModelV3Usage, LanguageModelV3CallOptions, AISDKError, LanguageModelV3ToolCall, JSONSchema7, JSONParseError, TypeValidationError, ProviderV3, ProviderV2, NoSuchModelError, JSONObject } from '@ai-sdk/provider';
 export { AISDKError, APICallError, EmptyResponseBodyError, InvalidPromptError, InvalidResponseDataError, JSONParseError, JSONSchema7, LoadAPIKeyError, NoContentGeneratedError, NoSuchModelError, TooManyEmbeddingValuesForCallError, TypeValidationError, UnsupportedFunctionalityError } from '@ai-sdk/provider';
 import { ServerResponse } from 'node:http';
 import { AttributeValue, Tracer } from '@opentelemetry/api';
@@ -164,7 +164,7 @@ type ProviderMetadata = SharedV3ProviderMetadata;
 /**
 Speech model that is used by the AI SDK Core functions.
   */
-type SpeechModel = SpeechModelV3;
+type SpeechModel = string | SpeechModelV3 | SpeechModelV2;
 /**
 Warning from the model provider for this call. The call will proceed, but e.g.
 some settings might not be supported, which can lead to suboptimal results.
@@ -193,7 +193,7 @@ type SpeechModelResponseMetadata = {
 /**
 Transcription model that is used by the AI SDK Core functions.
   */
-type TranscriptionModel = TranscriptionModelV3;
+type TranscriptionModel = string | TranscriptionModelV3 | TranscriptionModelV2;
 /**
 Warning from the model provider for this call. The call will proceed, but e.g.
 some settings might not be supported, which can lead to suboptimal results.
@@ -3691,7 +3691,7 @@ declare function generateSpeech({ model, text, voice, outputFormat, instructions
     /**
   The speech model to use.
        */
-    model: SpeechModelV3;
+    model: SpeechModel;
     /**
   The text to convert to speech.
      */
@@ -4149,7 +4149,7 @@ declare function transcribe({ model, audio, providerOptions, maxRetries: maxRetr
     /**
   The transcription model to use.
        */
-    model: TranscriptionModelV3;
+    model: TranscriptionModel;
     /**
   The audio data to transcribe.
      */

package/dist/index.d.ts CHANGED Viewed

@@ -3,7 +3,7 @@ import * as _ai_sdk_provider_utils from '@ai-sdk/provider-utils';
 import { Tool, InferToolInput, InferToolOutput, AssistantModelMessage, ToolModelMessage, ReasoningPart, ModelMessage, FlexibleSchema, InferSchema, SystemModelMessage, UserModelMessage, ProviderOptions, IdGenerator, ToolCall, DataContent, Resolvable, FetchFunction } from '@ai-sdk/provider-utils';
 export { AssistantContent, AssistantModelMessage, DataContent, FilePart, FlexibleSchema, IdGenerator, ImagePart, InferSchema, InferToolInput, InferToolOutput, ModelMessage, Schema, SystemModelMessage, TextPart, Tool, ToolApprovalRequest, ToolApprovalResponse, ToolCallOptions, ToolCallPart, ToolContent, ToolExecuteFunction, ToolModelMessage, ToolResultPart, UserContent, UserModelMessage, asSchema, createIdGenerator, dynamicTool, generateId, jsonSchema, parseJsonEventStream, tool, zodSchema } from '@ai-sdk/provider-utils';
 import * as _ai_sdk_provider from '@ai-sdk/provider';
-import { EmbeddingModelV3, EmbeddingModelV2, EmbeddingModelV3Embedding, ImageModelV3, ImageModelV3CallWarning, ImageModelV3ProviderMetadata, JSONValue as JSONValue$1, LanguageModelV3, LanguageModelV2, LanguageModelV3FinishReason, LanguageModelV3CallWarning, LanguageModelV3Source, LanguageModelV3Middleware, SharedV3ProviderMetadata, SpeechModelV3, SpeechModelV3CallWarning, TranscriptionModelV3, TranscriptionModelV3CallWarning, LanguageModelV3Usage, LanguageModelV3CallOptions, AISDKError, LanguageModelV3ToolCall, JSONSchema7, JSONParseError, TypeValidationError, ProviderV3, ProviderV2, NoSuchModelError, JSONObject } from '@ai-sdk/provider';
+import { EmbeddingModelV3, EmbeddingModelV2, EmbeddingModelV3Embedding, ImageModelV3, ImageModelV3CallWarning, ImageModelV3ProviderMetadata, JSONValue as JSONValue$1, LanguageModelV3, LanguageModelV2, LanguageModelV3FinishReason, LanguageModelV3CallWarning, LanguageModelV3Source, LanguageModelV3Middleware, SharedV3ProviderMetadata, SpeechModelV3, SpeechModelV2, SpeechModelV3CallWarning, TranscriptionModelV3, TranscriptionModelV2, TranscriptionModelV3CallWarning, LanguageModelV3Usage, LanguageModelV3CallOptions, AISDKError, LanguageModelV3ToolCall, JSONSchema7, JSONParseError, TypeValidationError, ProviderV3, ProviderV2, NoSuchModelError, JSONObject } from '@ai-sdk/provider';
 export { AISDKError, APICallError, EmptyResponseBodyError, InvalidPromptError, InvalidResponseDataError, JSONParseError, JSONSchema7, LoadAPIKeyError, NoContentGeneratedError, NoSuchModelError, TooManyEmbeddingValuesForCallError, TypeValidationError, UnsupportedFunctionalityError } from '@ai-sdk/provider';
 import { ServerResponse } from 'node:http';
 import { AttributeValue, Tracer } from '@opentelemetry/api';
@@ -164,7 +164,7 @@ type ProviderMetadata = SharedV3ProviderMetadata;
 /**
 Speech model that is used by the AI SDK Core functions.
   */
-type SpeechModel = SpeechModelV3;
+type SpeechModel = string | SpeechModelV3 | SpeechModelV2;
 /**
 Warning from the model provider for this call. The call will proceed, but e.g.
 some settings might not be supported, which can lead to suboptimal results.
@@ -193,7 +193,7 @@ type SpeechModelResponseMetadata = {
 /**
 Transcription model that is used by the AI SDK Core functions.
   */
-type TranscriptionModel = TranscriptionModelV3;
+type TranscriptionModel = string | TranscriptionModelV3 | TranscriptionModelV2;
 /**
 Warning from the model provider for this call. The call will proceed, but e.g.
 some settings might not be supported, which can lead to suboptimal results.
@@ -3691,7 +3691,7 @@ declare function generateSpeech({ model, text, voice, outputFormat, instructions
     /**
   The speech model to use.
        */
-    model: SpeechModelV3;
+    model: SpeechModel;
     /**
   The text to convert to speech.
      */
@@ -4149,7 +4149,7 @@ declare function transcribe({ model, audio, providerOptions, maxRetries: maxRetr
     /**
   The transcription model to use.
        */
-    model: TranscriptionModelV3;
+    model: TranscriptionModel;
     /**
   The audio data to transcribe.
      */

package/dist/index.js CHANGED Viewed

@@ -581,6 +581,24 @@ function transformToV3EmbeddingModel(model) {
     }
   });
 }
+function transformToV3TranscriptionModel(model) {
+  return new Proxy(model, {
+    get(target, prop) {
+      if (prop === "specificationVersion")
+        return "v3";
+      return target[prop];
+    }
+  });
+}
+function transformToV3SpeechModel(model) {
+  return new Proxy(model, {
+    get(target, prop) {
+      if (prop === "specificationVersion")
+        return "v3";
+      return target[prop];
+    }
+  });
+}
 function resolveLanguageModel(model) {
   if (typeof model !== "string") {
     if (model.specificationVersion !== "v3" && model.specificationVersion !== "v2") {
@@ -617,6 +635,42 @@ function resolveEmbeddingModel(model) {
     model
   );
 }
+function resolveTranscriptionModel(model) {
+  var _a17, _b;
+  if (typeof model !== "string") {
+    if (model.specificationVersion !== "v3" && model.specificationVersion !== "v2") {
+      const unsupportedModel = model;
+      throw new UnsupportedModelVersionError({
+        version: unsupportedModel.specificationVersion,
+        provider: unsupportedModel.provider,
+        modelId: unsupportedModel.modelId
+      });
+    }
+    if (model.specificationVersion === "v2") {
+      return transformToV3TranscriptionModel(model);
+    }
+    return model;
+  }
+  return (_b = (_a17 = getGlobalProvider()).transcriptionModel) == null ? void 0 : _b.call(_a17, model);
+}
+function resolveSpeechModel(model) {
+  var _a17, _b;
+  if (typeof model !== "string") {
+    if (model.specificationVersion !== "v3" && model.specificationVersion !== "v2") {
+      const unsupportedModel = model;
+      throw new UnsupportedModelVersionError({
+        version: unsupportedModel.specificationVersion,
+        provider: unsupportedModel.provider,
+        modelId: unsupportedModel.modelId
+      });
+    }
+    if (model.specificationVersion === "v2") {
+      return transformToV3SpeechModel(model);
+    }
+    return model;
+  }
+  return (_b = (_a17 = getGlobalProvider()).speechModel) == null ? void 0 : _b.call(_a17, model);
+}
 function getGlobalProvider() {
   var _a17;
   return (_a17 = globalThis.AI_SDK_DEFAULT_PROVIDER) != null ? _a17 : import_gateway.gateway;
@@ -814,7 +868,7 @@ function detectMediaType({
 var import_provider_utils2 = require("@ai-sdk/provider-utils");
 // src/version.ts
-var VERSION = true ? "6.0.0-beta.45" : "0.0.0-test";
+var VERSION = true ? "6.0.0-beta.47" : "0.0.0-test";
 // src/util/download/download.ts
 var download = async ({ url }) => {
@@ -8327,12 +8381,9 @@ async function generateSpeech({
   headers
 }) {
   var _a17;
-  if (model.specificationVersion !== "v3") {
-    throw new UnsupportedModelVersionError({
-      version: model.specificationVersion,
-      provider: model.provider,
-      modelId: model.modelId
-    });
+  const resolvedModel = resolveSpeechModel(model);
+  if (!resolvedModel) {
+    throw new Error("Model could not be resolved");
   }
   const headersWithUserAgent = (0, import_provider_utils25.withUserAgentSuffix)(
     headers != null ? headers : {},
@@ -8343,7 +8394,7 @@ async function generateSpeech({
     abortSignal
   });
   const result = await retry(
-    () => model.doGenerate({
+    () => resolvedModel.doGenerate({
       text: text2,
       voice,
       outputFormat,
@@ -9746,12 +9797,9 @@ async function transcribe({
   abortSignal,
   headers
 }) {
-  if (model.specificationVersion !== "v3") {
-    throw new UnsupportedModelVersionError({
-      version: model.specificationVersion,
-      provider: model.provider,
-      modelId: model.modelId
-    });
+  const resolvedModel = resolveTranscriptionModel(model);
+  if (!resolvedModel) {
+    throw new Error("Model could not be resolved");
   }
   const { retry } = prepareRetries({
     maxRetries: maxRetriesArg,
@@ -9765,7 +9813,7 @@ async function transcribe({
   const result = await retry(
     () => {
       var _a17;
-      return model.doGenerate({
+      return resolvedModel.doGenerate({
         audio: audioData,
         abortSignal,
         headers: headersWithUserAgent,