npm - @ai-sdk/openai - Versions diffs - 1.3.10 → 1.3.11 - Mend

@ai-sdk/openai 1.3.10 → 1.3.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/CHANGELOG.md +9 -0
package/dist/index.d.mts +7 -1
package/dist/index.d.ts +7 -1
package/dist/index.js +112 -5
package/dist/index.js.map +1 -1
package/dist/index.mjs +114 -2
package/dist/index.mjs.map +1 -1
package/internal/dist/index.d.mts +34 -6
package/internal/dist/index.d.ts +34 -6
package/internal/dist/index.js +213 -112
package/internal/dist/index.js.map +1 -1
package/internal/dist/index.mjs +213 -108
package/internal/dist/index.mjs.map +1 -1
package/package.json +3 -3

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,14 @@
 # @ai-sdk/openai
+## 1.3.11
+### Patch Changes
+- beef951: feat: add speech with experimental_generateSpeech
+- Updated dependencies [beef951]
+  - @ai-sdk/provider@1.1.3
+  - @ai-sdk/provider-utils@2.2.7
 ## 1.3.10
 ### Patch Changes

package/dist/index.d.mts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1 } from '@ai-sdk/provider';
+import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1, SpeechModelV1 } from '@ai-sdk/provider';
 import { FetchFunction } from '@ai-sdk/provider-utils';
 import { z } from 'zod';
@@ -203,6 +203,8 @@ declare const openaiTools: {
     webSearchPreview: typeof webSearchPreviewTool;
 };
+type OpenAISpeechModelId = 'tts-1' | 'tts-1-hd' | 'gpt-4o-mini-tts' | (string & {});
 interface OpenAIProvider extends ProviderV1 {
     (modelId: 'gpt-3.5-turbo-instruct', settings?: OpenAICompletionSettings): OpenAICompletionLanguageModel;
     (modelId: OpenAIChatModelId, settings?: OpenAIChatSettings): LanguageModelV1;
@@ -250,6 +252,10 @@ interface OpenAIProvider extends ProviderV1 {
      */
     transcription(modelId: OpenAITranscriptionModelId): TranscriptionModelV1;
     /**
+  Creates a model for speech generation.
+     */
+    speech(modelId: OpenAISpeechModelId): SpeechModelV1;
+    /**
   OpenAI-specific tools.
      */
     tools: typeof openaiTools;

package/dist/index.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1 } from '@ai-sdk/provider';
+import { LanguageModelV1, ProviderV1, EmbeddingModelV1, ImageModelV1, TranscriptionModelV1, SpeechModelV1 } from '@ai-sdk/provider';
 import { FetchFunction } from '@ai-sdk/provider-utils';
 import { z } from 'zod';
@@ -203,6 +203,8 @@ declare const openaiTools: {
     webSearchPreview: typeof webSearchPreviewTool;
 };
+type OpenAISpeechModelId = 'tts-1' | 'tts-1-hd' | 'gpt-4o-mini-tts' | (string & {});
 interface OpenAIProvider extends ProviderV1 {
     (modelId: 'gpt-3.5-turbo-instruct', settings?: OpenAICompletionSettings): OpenAICompletionLanguageModel;
     (modelId: OpenAIChatModelId, settings?: OpenAIChatSettings): LanguageModelV1;
@@ -250,6 +252,10 @@ interface OpenAIProvider extends ProviderV1 {
      */
     transcription(modelId: OpenAITranscriptionModelId): TranscriptionModelV1;
     /**
+  Creates a model for speech generation.
+     */
+    speech(modelId: OpenAISpeechModelId): SpeechModelV1;
+    /**
   OpenAI-specific tools.
      */
     tools: typeof openaiTools;

package/dist/index.js CHANGED Viewed

@@ -26,7 +26,7 @@ __export(src_exports, {
 module.exports = __toCommonJS(src_exports);
 // src/openai-provider.ts
-var import_provider_utils10 = require("@ai-sdk/provider-utils");
+var import_provider_utils11 = require("@ai-sdk/provider-utils");
 // src/openai-chat-language-model.ts
 var import_provider3 = require("@ai-sdk/provider");
@@ -1613,7 +1613,7 @@ var openaiImageResponseSchema = import_zod5.z.object({
 // src/openai-transcription-model.ts
 var import_provider_utils7 = require("@ai-sdk/provider-utils");
 var import_zod6 = require("zod");
-var OpenAIProviderOptionsSchema = import_zod6.z.object({
+var openAIProviderOptionsSchema = import_zod6.z.object({
   include: import_zod6.z.array(import_zod6.z.string()).nullish(),
   language: import_zod6.z.string().nullish(),
   prompt: import_zod6.z.string().nullish(),
@@ -1698,7 +1698,7 @@ var OpenAITranscriptionModel = class {
     const openAIOptions = (0, import_provider_utils7.parseProviderOptions)({
       provider: "openai",
       providerOptions,
-      schema: OpenAIProviderOptionsSchema
+      schema: openAIProviderOptionsSchema
     });
     const formData = new FormData();
     const blob = audio instanceof Uint8Array ? new Blob([audio]) : new Blob([(0, import_provider_utils7.convertBase64ToUint8Array)(audio)]);
@@ -2594,14 +2594,113 @@ var openaiTools = {
   webSearchPreview: webSearchPreviewTool
 };
+// src/openai-speech-model.ts
+var import_provider_utils10 = require("@ai-sdk/provider-utils");
+var import_zod9 = require("zod");
+var OpenAIProviderOptionsSchema = import_zod9.z.object({
+  instructions: import_zod9.z.string().nullish(),
+  speed: import_zod9.z.number().min(0.25).max(4).default(1).nullish()
+});
+var OpenAISpeechModel = class {
+  constructor(modelId, config) {
+    this.modelId = modelId;
+    this.config = config;
+    this.specificationVersion = "v1";
+  }
+  get provider() {
+    return this.config.provider;
+  }
+  getArgs({
+    text,
+    voice = "alloy",
+    outputFormat = "mp3",
+    speed,
+    instructions,
+    providerOptions
+  }) {
+    const warnings = [];
+    const openAIOptions = (0, import_provider_utils10.parseProviderOptions)({
+      provider: "openai",
+      providerOptions,
+      schema: OpenAIProviderOptionsSchema
+    });
+    const requestBody = {
+      model: this.modelId,
+      input: text,
+      voice,
+      response_format: "mp3",
+      speed,
+      instructions
+    };
+    if (outputFormat) {
+      if (["mp3", "opus", "aac", "flac", "wav", "pcm"].includes(outputFormat)) {
+        requestBody.response_format = outputFormat;
+      } else {
+        warnings.push({
+          type: "unsupported-setting",
+          setting: "outputFormat",
+          details: `Unsupported output format: ${outputFormat}. Using mp3 instead.`
+        });
+      }
+    }
+    if (openAIOptions) {
+      const speechModelOptions = {};
+      for (const key in speechModelOptions) {
+        const value = speechModelOptions[key];
+        if (value !== void 0) {
+          requestBody[key] = value;
+        }
+      }
+    }
+    return {
+      requestBody,
+      warnings
+    };
+  }
+  async doGenerate(options) {
+    var _a, _b, _c;
+    const currentDate = (_c = (_b = (_a = this.config._internal) == null ? void 0 : _a.currentDate) == null ? void 0 : _b.call(_a)) != null ? _c : /* @__PURE__ */ new Date();
+    const { requestBody, warnings } = this.getArgs(options);
+    const {
+      value: audio,
+      responseHeaders,
+      rawValue: rawResponse
+    } = await (0, import_provider_utils10.postJsonToApi)({
+      url: this.config.url({
+        path: "/audio/speech",
+        modelId: this.modelId
+      }),
+      headers: (0, import_provider_utils10.combineHeaders)(this.config.headers(), options.headers),
+      body: requestBody,
+      failedResponseHandler: openaiFailedResponseHandler,
+      successfulResponseHandler: (0, import_provider_utils10.createBinaryResponseHandler)(),
+      abortSignal: options.abortSignal,
+      fetch: this.config.fetch
+    });
+    return {
+      audio,
+      warnings,
+      request: {
+        body: JSON.stringify(requestBody)
+      },
+      response: {
+        timestamp: currentDate,
+        modelId: this.modelId,
+        headers: responseHeaders,
+        body: rawResponse
+      }
+    };
+  }
+};
 // src/openai-provider.ts
 function createOpenAI(options = {}) {
   var _a, _b, _c;
-  const baseURL = (_a = (0, import_provider_utils10.withoutTrailingSlash)(options.baseURL)) != null ? _a : "https://api.openai.com/v1";
+  const baseURL = (_a = (0, import_provider_utils11.withoutTrailingSlash)(options.baseURL)) != null ? _a : "https://api.openai.com/v1";
   const compatibility = (_b = options.compatibility) != null ? _b : "compatible";
   const providerName = (_c = options.name) != null ? _c : "openai";
   const getHeaders = () => ({
-    Authorization: `Bearer ${(0, import_provider_utils10.loadApiKey)({
+    Authorization: `Bearer ${(0, import_provider_utils11.loadApiKey)({
       apiKey: options.apiKey,
       environmentVariableName: "OPENAI_API_KEY",
       description: "OpenAI"
@@ -2642,6 +2741,12 @@ function createOpenAI(options = {}) {
     headers: getHeaders,
     fetch: options.fetch
   });
+  const createSpeechModel = (modelId) => new OpenAISpeechModel(modelId, {
+    provider: `${providerName}.speech`,
+    url: ({ path }) => `${baseURL}${path}`,
+    headers: getHeaders,
+    fetch: options.fetch
+  });
   const createLanguageModel = (modelId, settings) => {
     if (new.target) {
       throw new Error(
@@ -2678,6 +2783,8 @@ function createOpenAI(options = {}) {
   provider.imageModel = createImageModel;
   provider.transcription = createTranscriptionModel;
   provider.transcriptionModel = createTranscriptionModel;
+  provider.speech = createSpeechModel;
+  provider.speechModel = createSpeechModel;
   provider.tools = openaiTools;
   return provider;
 }