npm - @ai-sdk/openai - Versions diffs - 1.3.9 → 1.3.11 - Mend

@ai-sdk/openai 1.3.9 → 1.3.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/CHANGELOG.md +16 -0
package/dist/index.d.mts +8 -2
package/dist/index.d.ts +8 -2
package/dist/index.js +133 -22
package/dist/index.js.map +1 -1
package/dist/index.mjs +135 -19
package/dist/index.mjs.map +1 -1
package/internal/dist/index.d.mts +50 -22
package/internal/dist/index.d.ts +50 -22
package/internal/dist/index.js +234 -129
package/internal/dist/index.js.map +1 -1
package/internal/dist/index.mjs +234 -125
package/internal/dist/index.mjs.map +1 -1
package/package.json +3 -3

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,21 @@
 # @ai-sdk/openai
+## 1.3.11
+### Patch Changes
+- beef951: feat: add speech with experimental_generateSpeech
+- Updated dependencies [beef951]
+  - @ai-sdk/provider@1.1.3
+  - @ai-sdk/provider-utils@2.2.7
+## 1.3.10
+### Patch Changes
+- dbe53e7: adding support for gpt-4o-search-preview and handling unsupported parameters
+- 84ffaba: fix: propagate openai transcription fixes
 ## 1.3.9
 ### Patch Changes

package/dist/index.d.mts CHANGED Viewed

@@ -1,8 +1,8 @@
-import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1 } from '@ai-sdk/provider';
+import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1, SpeechModelV1 } from '@ai-sdk/provider';
 import { FetchFunction } from '@ai-sdk/provider-utils';
 import { z } from 'zod';
-type OpenAIChatModelId = 'o1' | 'o1-2024-12-17' | 'o1-mini' | 'o1-mini-2024-09-12' | 'o1-preview' | 'o1-preview-2024-09-12' | 'o3-mini' | 'o3-mini-2025-01-31' | 'gpt-4o' | 'gpt-4o-2024-05-13' | 'gpt-4o-2024-08-06' | 'gpt-4o-2024-11-20' | 'gpt-4o-audio-preview' | 'gpt-4o-audio-preview-2024-10-01' | 'gpt-4o-audio-preview-2024-12-17' | 'gpt-4o-mini' | 'gpt-4o-mini-2024-07-18' | 'gpt-4-turbo' | 'gpt-4-turbo-2024-04-09' | 'gpt-4-turbo-preview' | 'gpt-4-0125-preview' | 'gpt-4-1106-preview' | 'gpt-4' | 'gpt-4-0613' | 'gpt-4.5-preview' | 'gpt-4.5-preview-2025-02-27' | 'gpt-3.5-turbo-0125' | 'gpt-3.5-turbo' | 'gpt-3.5-turbo-1106' | 'chatgpt-4o-latest' | (string & {});
+type OpenAIChatModelId = 'o1' | 'o1-2024-12-17' | 'o1-mini' | 'o1-mini-2024-09-12' | 'o1-preview' | 'o1-preview-2024-09-12' | 'o3-mini' | 'o3-mini-2025-01-31' | 'gpt-4o' | 'gpt-4o-2024-05-13' | 'gpt-4o-2024-08-06' | 'gpt-4o-2024-11-20' | 'gpt-4o-audio-preview' | 'gpt-4o-audio-preview-2024-10-01' | 'gpt-4o-audio-preview-2024-12-17' | 'gpt-4o-search-preview' | 'gpt-4o-search-preview-2025-03-11' | 'gpt-4o-mini' | 'gpt-4o-mini-2024-07-18' | 'gpt-4-turbo' | 'gpt-4-turbo-2024-04-09' | 'gpt-4-turbo-preview' | 'gpt-4-0125-preview' | 'gpt-4-1106-preview' | 'gpt-4' | 'gpt-4-0613' | 'gpt-4.5-preview' | 'gpt-4.5-preview-2025-02-27' | 'gpt-3.5-turbo-0125' | 'gpt-3.5-turbo' | 'gpt-3.5-turbo-1106' | 'chatgpt-4o-latest' | (string & {});
 interface OpenAIChatSettings {
     /**
   Modify the likelihood of specified tokens appearing in the completion.
@@ -203,6 +203,8 @@ declare const openaiTools: {
     webSearchPreview: typeof webSearchPreviewTool;
 };
+type OpenAISpeechModelId = 'tts-1' | 'tts-1-hd' | 'gpt-4o-mini-tts' | (string & {});
 interface OpenAIProvider extends ProviderV1 {
     (modelId: 'gpt-3.5-turbo-instruct', settings?: OpenAICompletionSettings): OpenAICompletionLanguageModel;
     (modelId: OpenAIChatModelId, settings?: OpenAIChatSettings): LanguageModelV1;
@@ -250,6 +252,10 @@ interface OpenAIProvider extends ProviderV1 {
      */
     transcription(modelId: OpenAITranscriptionModelId): TranscriptionModelV1;
     /**
+  Creates a model for speech generation.
+     */
+    speech(modelId: OpenAISpeechModelId): SpeechModelV1;
+    /**
   OpenAI-specific tools.
      */
     tools: typeof openaiTools;

package/dist/index.d.ts CHANGED Viewed

@@ -1,8 +1,8 @@
-import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1 } from '@ai-sdk/provider';
+import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1, SpeechModelV1 } from '@ai-sdk/provider';
 import { FetchFunction } from '@ai-sdk/provider-utils';
 import { z } from 'zod';
-type OpenAIChatModelId = 'o1' | 'o1-2024-12-17' | 'o1-mini' | 'o1-mini-2024-09-12' | 'o1-preview' | 'o1-preview-2024-09-12' | 'o3-mini' | 'o3-mini-2025-01-31' | 'gpt-4o' | 'gpt-4o-2024-05-13' | 'gpt-4o-2024-08-06' | 'gpt-4o-2024-11-20' | 'gpt-4o-audio-preview' | 'gpt-4o-audio-preview-2024-10-01' | 'gpt-4o-audio-preview-2024-12-17' | 'gpt-4o-mini' | 'gpt-4o-mini-2024-07-18' | 'gpt-4-turbo' | 'gpt-4-turbo-2024-04-09' | 'gpt-4-turbo-preview' | 'gpt-4-0125-preview' | 'gpt-4-1106-preview' | 'gpt-4' | 'gpt-4-0613' | 'gpt-4.5-preview' | 'gpt-4.5-preview-2025-02-27' | 'gpt-3.5-turbo-0125' | 'gpt-3.5-turbo' | 'gpt-3.5-turbo-1106' | 'chatgpt-4o-latest' | (string & {});
+type OpenAIChatModelId = 'o1' | 'o1-2024-12-17' | 'o1-mini' | 'o1-mini-2024-09-12' | 'o1-preview' | 'o1-preview-2024-09-12' | 'o3-mini' | 'o3-mini-2025-01-31' | 'gpt-4o' | 'gpt-4o-2024-05-13' | 'gpt-4o-2024-08-06' | 'gpt-4o-2024-11-20' | 'gpt-4o-audio-preview' | 'gpt-4o-audio-preview-2024-10-01' | 'gpt-4o-audio-preview-2024-12-17' | 'gpt-4o-search-preview' | 'gpt-4o-search-preview-2025-03-11' | 'gpt-4o-mini' | 'gpt-4o-mini-2024-07-18' | 'gpt-4-turbo' | 'gpt-4-turbo-2024-04-09' | 'gpt-4-turbo-preview' | 'gpt-4-0125-preview' | 'gpt-4-1106-preview' | 'gpt-4' | 'gpt-4-0613' | 'gpt-4.5-preview' | 'gpt-4.5-preview-2025-02-27' | 'gpt-3.5-turbo-0125' | 'gpt-3.5-turbo' | 'gpt-3.5-turbo-1106' | 'chatgpt-4o-latest' | (string & {});
 interface OpenAIChatSettings {
     /**
   Modify the likelihood of specified tokens appearing in the completion.
@@ -203,6 +203,8 @@ declare const openaiTools: {
     webSearchPreview: typeof webSearchPreviewTool;
 };
+type OpenAISpeechModelId = 'tts-1' | 'tts-1-hd' | 'gpt-4o-mini-tts' | (string & {});
 interface OpenAIProvider extends ProviderV1 {
     (modelId: 'gpt-3.5-turbo-instruct', settings?: OpenAICompletionSettings): OpenAICompletionLanguageModel;
     (modelId: OpenAIChatModelId, settings?: OpenAIChatSettings): LanguageModelV1;
@@ -250,6 +252,10 @@ interface OpenAIProvider extends ProviderV1 {
      */
     transcription(modelId: OpenAITranscriptionModelId): TranscriptionModelV1;
     /**
+  Creates a model for speech generation.
+     */
+    speech(modelId: OpenAISpeechModelId): SpeechModelV1;
+    /**
   OpenAI-specific tools.
      */
     tools: typeof openaiTools;

package/dist/index.js CHANGED Viewed

@@ -26,7 +26,7 @@ __export(src_exports, {
 module.exports = __toCommonJS(src_exports);
 // src/openai-provider.ts
-var import_provider_utils10 = require("@ai-sdk/provider-utils");
+var import_provider_utils11 = require("@ai-sdk/provider-utils");
 // src/openai-chat-language-model.ts
 var import_provider3 = require("@ai-sdk/provider");
@@ -536,6 +536,15 @@ var OpenAIChatLanguageModel = class {
         }
         baseArgs.max_tokens = void 0;
       }
+    } else if (this.modelId.startsWith("gpt-4o-search-preview")) {
+      if (baseArgs.temperature != null) {
+        baseArgs.temperature = void 0;
+        warnings.push({
+          type: "unsupported-setting",
+          setting: "temperature",
+          details: "temperature is not supported for the gpt-4o-search-preview model and has been removed."
+        });
+      }
     }
     switch (type) {
       case "regular": {
@@ -1604,18 +1613,12 @@ var openaiImageResponseSchema = import_zod5.z.object({
 // src/openai-transcription-model.ts
 var import_provider_utils7 = require("@ai-sdk/provider-utils");
 var import_zod6 = require("zod");
-var OpenAIProviderOptionsSchema = import_zod6.z.object({
-  include: import_zod6.z.array(import_zod6.z.string()).optional().describe(
-    "Additional information to include in the transcription response."
-  ),
-  language: import_zod6.z.string().optional().describe("The language of the input audio in ISO-639-1 format."),
-  prompt: import_zod6.z.string().optional().describe(
-    "An optional text to guide the model's style or continue a previous audio segment."
-  ),
-  temperature: import_zod6.z.number().min(0).max(1).optional().default(0).describe("The sampling temperature, between 0 and 1."),
-  timestampGranularities: import_zod6.z.array(import_zod6.z.enum(["word", "segment"])).optional().default(["segment"]).describe(
-    "The timestamp granularities to populate for this transcription."
-  )
+var openAIProviderOptionsSchema = import_zod6.z.object({
+  include: import_zod6.z.array(import_zod6.z.string()).nullish(),
+  language: import_zod6.z.string().nullish(),
+  prompt: import_zod6.z.string().nullish(),
+  temperature: import_zod6.z.number().min(0).max(1).nullish().default(0),
+  timestampGranularities: import_zod6.z.array(import_zod6.z.enum(["word", "segment"])).nullish().default(["segment"])
 });
 var languageMap = {
   afrikaans: "af",
@@ -1690,11 +1693,12 @@ var OpenAITranscriptionModel = class {
     mediaType,
     providerOptions
   }) {
+    var _a, _b, _c, _d, _e;
     const warnings = [];
     const openAIOptions = (0, import_provider_utils7.parseProviderOptions)({
       provider: "openai",
       providerOptions,
-      schema: OpenAIProviderOptionsSchema
+      schema: openAIProviderOptionsSchema
     });
     const formData = new FormData();
     const blob = audio instanceof Uint8Array ? new Blob([audio]) : new Blob([(0, import_provider_utils7.convertBase64ToUint8Array)(audio)]);
@@ -1702,16 +1706,16 @@ var OpenAITranscriptionModel = class {
     formData.append("file", new File([blob], "audio", { type: mediaType }));
     if (openAIOptions) {
       const transcriptionModelOptions = {
-        include: openAIOptions.include,
-        language: openAIOptions.language,
-        prompt: openAIOptions.prompt,
-        temperature: openAIOptions.temperature,
-        timestamp_granularities: openAIOptions.timestampGranularities
+        include: (_a = openAIOptions.include) != null ? _a : void 0,
+        language: (_b = openAIOptions.language) != null ? _b : void 0,
+        prompt: (_c = openAIOptions.prompt) != null ? _c : void 0,
+        temperature: (_d = openAIOptions.temperature) != null ? _d : void 0,
+        timestamp_granularities: (_e = openAIOptions.timestampGranularities) != null ? _e : void 0
       };
       for (const key in transcriptionModelOptions) {
         const value = transcriptionModelOptions[key];
         if (value !== void 0) {
-          formData.append(key, value);
+          formData.append(key, String(value));
         }
       }
     }
@@ -2590,14 +2594,113 @@ var openaiTools = {
   webSearchPreview: webSearchPreviewTool
 };
+// src/openai-speech-model.ts
+var import_provider_utils10 = require("@ai-sdk/provider-utils");
+var import_zod9 = require("zod");
+var OpenAIProviderOptionsSchema = import_zod9.z.object({
+  instructions: import_zod9.z.string().nullish(),
+  speed: import_zod9.z.number().min(0.25).max(4).default(1).nullish()
+});
+var OpenAISpeechModel = class {
+  constructor(modelId, config) {
+    this.modelId = modelId;
+    this.config = config;
+    this.specificationVersion = "v1";
+  }
+  get provider() {
+    return this.config.provider;
+  }
+  getArgs({
+    text,
+    voice = "alloy",
+    outputFormat = "mp3",
+    speed,
+    instructions,
+    providerOptions
+  }) {
+    const warnings = [];
+    const openAIOptions = (0, import_provider_utils10.parseProviderOptions)({
+      provider: "openai",
+      providerOptions,
+      schema: OpenAIProviderOptionsSchema
+    });
+    const requestBody = {
+      model: this.modelId,
+      input: text,
+      voice,
+      response_format: "mp3",
+      speed,
+      instructions
+    };
+    if (outputFormat) {
+      if (["mp3", "opus", "aac", "flac", "wav", "pcm"].includes(outputFormat)) {
+        requestBody.response_format = outputFormat;
+      } else {
+        warnings.push({
+          type: "unsupported-setting",
+          setting: "outputFormat",
+          details: `Unsupported output format: ${outputFormat}. Using mp3 instead.`
+        });
+      }
+    }
+    if (openAIOptions) {
+      const speechModelOptions = {};
+      for (const key in speechModelOptions) {
+        const value = speechModelOptions[key];
+        if (value !== void 0) {
+          requestBody[key] = value;
+        }
+      }
+    }
+    return {
+      requestBody,
+      warnings
+    };
+  }
+  async doGenerate(options) {
+    var _a, _b, _c;
+    const currentDate = (_c = (_b = (_a = this.config._internal) == null ? void 0 : _a.currentDate) == null ? void 0 : _b.call(_a)) != null ? _c : /* @__PURE__ */ new Date();
+    const { requestBody, warnings } = this.getArgs(options);
+    const {
+      value: audio,
+      responseHeaders,
+      rawValue: rawResponse
+    } = await (0, import_provider_utils10.postJsonToApi)({
+      url: this.config.url({
+        path: "/audio/speech",
+        modelId: this.modelId
+      }),
+      headers: (0, import_provider_utils10.combineHeaders)(this.config.headers(), options.headers),
+      body: requestBody,
+      failedResponseHandler: openaiFailedResponseHandler,
+      successfulResponseHandler: (0, import_provider_utils10.createBinaryResponseHandler)(),
+      abortSignal: options.abortSignal,
+      fetch: this.config.fetch
+    });
+    return {
+      audio,
+      warnings,
+      request: {
+        body: JSON.stringify(requestBody)
+      },
+      response: {
+        timestamp: currentDate,
+        modelId: this.modelId,
+        headers: responseHeaders,
+        body: rawResponse
+      }
+    };
+  }
+};
 // src/openai-provider.ts
 function createOpenAI(options = {}) {
   var _a, _b, _c;
-  const baseURL = (_a = (0, import_provider_utils10.withoutTrailingSlash)(options.baseURL)) != null ? _a : "https://api.openai.com/v1";
+  const baseURL = (_a = (0, import_provider_utils11.withoutTrailingSlash)(options.baseURL)) != null ? _a : "https://api.openai.com/v1";
   const compatibility = (_b = options.compatibility) != null ? _b : "compatible";
   const providerName = (_c = options.name) != null ? _c : "openai";
   const getHeaders = () => ({
-    Authorization: `Bearer ${(0, import_provider_utils10.loadApiKey)({
+    Authorization: `Bearer ${(0, import_provider_utils11.loadApiKey)({
       apiKey: options.apiKey,
       environmentVariableName: "OPENAI_API_KEY",
       description: "OpenAI"
@@ -2638,6 +2741,12 @@ function createOpenAI(options = {}) {
     headers: getHeaders,
     fetch: options.fetch
   });
+  const createSpeechModel = (modelId) => new OpenAISpeechModel(modelId, {
+    provider: `${providerName}.speech`,
+    url: ({ path }) => `${baseURL}${path}`,
+    headers: getHeaders,
+    fetch: options.fetch
+  });
   const createLanguageModel = (modelId, settings) => {
     if (new.target) {
       throw new Error(
@@ -2674,6 +2783,8 @@ function createOpenAI(options = {}) {
   provider.imageModel = createImageModel;
   provider.transcription = createTranscriptionModel;
   provider.transcriptionModel = createTranscriptionModel;
+  provider.speech = createSpeechModel;
+  provider.speechModel = createSpeechModel;
   provider.tools = openaiTools;
   return provider;
 }