npm - @ai-sdk/openai - Versions diffs - 1.3.7 → 1.3.8 - Mend

@ai-sdk/openai 1.3.7 → 1.3.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/CHANGELOG.md +9 -0
package/dist/index.d.mts +7 -1
package/dist/index.d.ts +7 -1
package/dist/index.js +302 -115
package/dist/index.js.map +1 -1
package/dist/index.mjs +300 -107
package/dist/index.mjs.map +1 -1
package/internal/dist/index.d.mts +67 -2
package/internal/dist/index.d.ts +67 -2
package/internal/dist/index.js +291 -110
package/internal/dist/index.js.map +1 -1
package/internal/dist/index.mjs +291 -105
package/internal/dist/index.mjs.map +1 -1
package/package.json +3 -3

package/dist/index.mjs CHANGED Viewed

@@ -1611,16 +1611,201 @@ var openaiImageResponseSchema = z5.object({
   data: z5.array(z5.object({ b64_json: z5.string() }))
 });
-// src/responses/openai-responses-language-model.ts
+// src/openai-transcription-model.ts
 import {
   combineHeaders as combineHeaders5,
-  createEventSourceResponseHandler as createEventSourceResponseHandler3,
+  convertBase64ToUint8Array,
   createJsonResponseHandler as createJsonResponseHandler5,
-  generateId as generateId2,
   parseProviderOptions,
-  postJsonToApi as postJsonToApi5
+  postFormDataToApi
 } from "@ai-sdk/provider-utils";
 import { z as z6 } from "zod";
+var OpenAIProviderOptionsSchema = z6.object({
+  include: z6.array(z6.string()).optional().describe(
+    "Additional information to include in the transcription response."
+  ),
+  language: z6.string().optional().describe("The language of the input audio in ISO-639-1 format."),
+  prompt: z6.string().optional().describe(
+    "An optional text to guide the model's style or continue a previous audio segment."
+  ),
+  temperature: z6.number().min(0).max(1).optional().default(0).describe("The sampling temperature, between 0 and 1."),
+  timestampGranularities: z6.array(z6.enum(["word", "segment"])).optional().default(["segment"]).describe(
+    "The timestamp granularities to populate for this transcription."
+  )
+});
+var languageMap = {
+  afrikaans: "af",
+  arabic: "ar",
+  armenian: "hy",
+  azerbaijani: "az",
+  belarusian: "be",
+  bosnian: "bs",
+  bulgarian: "bg",
+  catalan: "ca",
+  chinese: "zh",
+  croatian: "hr",
+  czech: "cs",
+  danish: "da",
+  dutch: "nl",
+  english: "en",
+  estonian: "et",
+  finnish: "fi",
+  french: "fr",
+  galician: "gl",
+  german: "de",
+  greek: "el",
+  hebrew: "he",
+  hindi: "hi",
+  hungarian: "hu",
+  icelandic: "is",
+  indonesian: "id",
+  italian: "it",
+  japanese: "ja",
+  kannada: "kn",
+  kazakh: "kk",
+  korean: "ko",
+  latvian: "lv",
+  lithuanian: "lt",
+  macedonian: "mk",
+  malay: "ms",
+  marathi: "mr",
+  maori: "mi",
+  nepali: "ne",
+  norwegian: "no",
+  persian: "fa",
+  polish: "pl",
+  portuguese: "pt",
+  romanian: "ro",
+  russian: "ru",
+  serbian: "sr",
+  slovak: "sk",
+  slovenian: "sl",
+  spanish: "es",
+  swahili: "sw",
+  swedish: "sv",
+  tagalog: "tl",
+  tamil: "ta",
+  thai: "th",
+  turkish: "tr",
+  ukrainian: "uk",
+  urdu: "ur",
+  vietnamese: "vi",
+  welsh: "cy"
+};
+var OpenAITranscriptionModel = class {
+  constructor(modelId, config) {
+    this.modelId = modelId;
+    this.config = config;
+    this.specificationVersion = "v1";
+  }
+  get provider() {
+    return this.config.provider;
+  }
+  getArgs({
+    audio,
+    mimeType,
+    providerOptions
+  }) {
+    const warnings = [];
+    const openAIOptions = parseProviderOptions({
+      provider: "openai",
+      providerOptions,
+      schema: OpenAIProviderOptionsSchema
+    });
+    const formData = new FormData();
+    const blob = audio instanceof Uint8Array ? new Blob([audio]) : new Blob([convertBase64ToUint8Array(audio)]);
+    formData.append("model", this.modelId);
+    formData.append("file", new File([blob], "audio", { type: mimeType }));
+    if (openAIOptions) {
+      const transcriptionModelOptions = {
+        include: openAIOptions.include,
+        language: openAIOptions.language,
+        prompt: openAIOptions.prompt,
+        temperature: openAIOptions.temperature,
+        timestamp_granularities: openAIOptions.timestampGranularities
+      };
+      for (const key in transcriptionModelOptions) {
+        const value = transcriptionModelOptions[key];
+        if (value !== void 0) {
+          formData.append(key, value);
+        }
+      }
+    }
+    return {
+      formData,
+      warnings
+    };
+  }
+  async doGenerate(options) {
+    var _a, _b, _c;
+    const currentDate = (_c = (_b = (_a = this.config._internal) == null ? void 0 : _a.currentDate) == null ? void 0 : _b.call(_a)) != null ? _c : /* @__PURE__ */ new Date();
+    const { formData, warnings } = this.getArgs(options);
+    const { value: response, responseHeaders } = await postFormDataToApi({
+      url: this.config.url({
+        path: "/audio/transcriptions",
+        modelId: this.modelId
+      }),
+      headers: combineHeaders5(this.config.headers(), options.headers),
+      formData,
+      failedResponseHandler: openaiFailedResponseHandler,
+      successfulResponseHandler: createJsonResponseHandler5(
+        openaiTranscriptionResponseSchema
+      ),
+      abortSignal: options.abortSignal,
+      fetch: this.config.fetch
+    });
+    let language;
+    if (response.language && response.language in languageMap) {
+      language = languageMap[response.language];
+    }
+    return {
+      text: response.text,
+      segments: response.words.map((word) => ({
+        text: word.word,
+        startSecond: word.start,
+        endSecond: word.end
+      })),
+      language,
+      durationInSeconds: response.duration,
+      warnings,
+      response: {
+        timestamp: currentDate,
+        modelId: this.modelId,
+        headers: responseHeaders,
+        body: response
+      },
+      // When using format `verbose_json` on `whisper-1`, OpenAI includes the things like `task` and enhanced `segments` information.
+      providerMetadata: {
+        openai: {
+          transcript: response
+        }
+      }
+    };
+  }
+};
+var openaiTranscriptionResponseSchema = z6.object({
+  text: z6.string(),
+  language: z6.string().optional(),
+  duration: z6.number().optional(),
+  words: z6.array(
+    z6.object({
+      word: z6.string(),
+      start: z6.number(),
+      end: z6.number()
+    })
+  )
+});
+// src/responses/openai-responses-language-model.ts
+import {
+  combineHeaders as combineHeaders6,
+  createEventSourceResponseHandler as createEventSourceResponseHandler3,
+  createJsonResponseHandler as createJsonResponseHandler6,
+  generateId as generateId2,
+  parseProviderOptions as parseProviderOptions2,
+  postJsonToApi as postJsonToApi5
+} from "@ai-sdk/provider-utils";
+import { z as z7 } from "zod";
 // src/responses/convert-to-openai-responses-messages.ts
 import {
@@ -1911,7 +2096,7 @@ var OpenAIResponsesLanguageModel = class {
       systemMessageMode: modelConfig.systemMessageMode
     });
     warnings.push(...messageWarnings);
-    const openaiOptions = parseProviderOptions({
+    const openaiOptions = parseProviderOptions2({
       provider: "openai",
       providerOptions: providerMetadata,
       schema: openaiResponsesProviderOptionsSchema
@@ -2036,53 +2221,53 @@ var OpenAIResponsesLanguageModel = class {
         path: "/responses",
         modelId: this.modelId
       }),
-      headers: combineHeaders5(this.config.headers(), options.headers),
+      headers: combineHeaders6(this.config.headers(), options.headers),
       body,
       failedResponseHandler: openaiFailedResponseHandler,
-      successfulResponseHandler: createJsonResponseHandler5(
-        z6.object({
-          id: z6.string(),
-          created_at: z6.number(),
-          model: z6.string(),
-          output: z6.array(
-            z6.discriminatedUnion("type", [
-              z6.object({
-                type: z6.literal("message"),
-                role: z6.literal("assistant"),
-                content: z6.array(
-                  z6.object({
-                    type: z6.literal("output_text"),
-                    text: z6.string(),
-                    annotations: z6.array(
-                      z6.object({
-                        type: z6.literal("url_citation"),
-                        start_index: z6.number(),
-                        end_index: z6.number(),
-                        url: z6.string(),
-                        title: z6.string()
+      successfulResponseHandler: createJsonResponseHandler6(
+        z7.object({
+          id: z7.string(),
+          created_at: z7.number(),
+          model: z7.string(),
+          output: z7.array(
+            z7.discriminatedUnion("type", [
+              z7.object({
+                type: z7.literal("message"),
+                role: z7.literal("assistant"),
+                content: z7.array(
+                  z7.object({
+                    type: z7.literal("output_text"),
+                    text: z7.string(),
+                    annotations: z7.array(
+                      z7.object({
+                        type: z7.literal("url_citation"),
+                        start_index: z7.number(),
+                        end_index: z7.number(),
+                        url: z7.string(),
+                        title: z7.string()
                       })
                     )
                   })
                 )
               }),
-              z6.object({
-                type: z6.literal("function_call"),
-                call_id: z6.string(),
-                name: z6.string(),
-                arguments: z6.string()
+              z7.object({
+                type: z7.literal("function_call"),
+                call_id: z7.string(),
+                name: z7.string(),
+                arguments: z7.string()
               }),
-              z6.object({
-                type: z6.literal("web_search_call")
+              z7.object({
+                type: z7.literal("web_search_call")
               }),
-              z6.object({
-                type: z6.literal("computer_call")
+              z7.object({
+                type: z7.literal("computer_call")
               }),
-              z6.object({
-                type: z6.literal("reasoning")
+              z7.object({
+                type: z7.literal("reasoning")
               })
             ])
           ),
-          incomplete_details: z6.object({ reason: z6.string() }).nullable(),
+          incomplete_details: z7.object({ reason: z7.string() }).nullable(),
           usage: usageSchema
         })
       ),
@@ -2151,7 +2336,7 @@ var OpenAIResponsesLanguageModel = class {
         path: "/responses",
         modelId: this.modelId
       }),
-      headers: combineHeaders5(this.config.headers(), options.headers),
+      headers: combineHeaders6(this.config.headers(), options.headers),
       body: {
         ...body,
         stream: true
@@ -2280,79 +2465,79 @@ var OpenAIResponsesLanguageModel = class {
     };
   }
 };
-var usageSchema = z6.object({
-  input_tokens: z6.number(),
-  input_tokens_details: z6.object({ cached_tokens: z6.number().nullish() }).nullish(),
-  output_tokens: z6.number(),
-  output_tokens_details: z6.object({ reasoning_tokens: z6.number().nullish() }).nullish()
+var usageSchema = z7.object({
+  input_tokens: z7.number(),
+  input_tokens_details: z7.object({ cached_tokens: z7.number().nullish() }).nullish(),
+  output_tokens: z7.number(),
+  output_tokens_details: z7.object({ reasoning_tokens: z7.number().nullish() }).nullish()
 });
-var textDeltaChunkSchema = z6.object({
-  type: z6.literal("response.output_text.delta"),
-  delta: z6.string()
+var textDeltaChunkSchema = z7.object({
+  type: z7.literal("response.output_text.delta"),
+  delta: z7.string()
 });
-var responseFinishedChunkSchema = z6.object({
-  type: z6.enum(["response.completed", "response.incomplete"]),
-  response: z6.object({
-    incomplete_details: z6.object({ reason: z6.string() }).nullish(),
+var responseFinishedChunkSchema = z7.object({
+  type: z7.enum(["response.completed", "response.incomplete"]),
+  response: z7.object({
+    incomplete_details: z7.object({ reason: z7.string() }).nullish(),
     usage: usageSchema
   })
 });
-var responseCreatedChunkSchema = z6.object({
-  type: z6.literal("response.created"),
-  response: z6.object({
-    id: z6.string(),
-    created_at: z6.number(),
-    model: z6.string()
+var responseCreatedChunkSchema = z7.object({
+  type: z7.literal("response.created"),
+  response: z7.object({
+    id: z7.string(),
+    created_at: z7.number(),
+    model: z7.string()
   })
 });
-var responseOutputItemDoneSchema = z6.object({
-  type: z6.literal("response.output_item.done"),
-  output_index: z6.number(),
-  item: z6.discriminatedUnion("type", [
-    z6.object({
-      type: z6.literal("message")
+var responseOutputItemDoneSchema = z7.object({
+  type: z7.literal("response.output_item.done"),
+  output_index: z7.number(),
+  item: z7.discriminatedUnion("type", [
+    z7.object({
+      type: z7.literal("message")
     }),
-    z6.object({
-      type: z6.literal("function_call"),
-      id: z6.string(),
-      call_id: z6.string(),
-      name: z6.string(),
-      arguments: z6.string(),
-      status: z6.literal("completed")
+    z7.object({
+      type: z7.literal("function_call"),
+      id: z7.string(),
+      call_id: z7.string(),
+      name: z7.string(),
+      arguments: z7.string(),
+      status: z7.literal("completed")
     })
   ])
 });
-var responseFunctionCallArgumentsDeltaSchema = z6.object({
-  type: z6.literal("response.function_call_arguments.delta"),
-  item_id: z6.string(),
-  output_index: z6.number(),
-  delta: z6.string()
+var responseFunctionCallArgumentsDeltaSchema = z7.object({
+  type: z7.literal("response.function_call_arguments.delta"),
+  item_id: z7.string(),
+  output_index: z7.number(),
+  delta: z7.string()
 });
-var responseOutputItemAddedSchema = z6.object({
-  type: z6.literal("response.output_item.added"),
-  output_index: z6.number(),
-  item: z6.discriminatedUnion("type", [
-    z6.object({
-      type: z6.literal("message")
+var responseOutputItemAddedSchema = z7.object({
+  type: z7.literal("response.output_item.added"),
+  output_index: z7.number(),
+  item: z7.discriminatedUnion("type", [
+    z7.object({
+      type: z7.literal("message")
     }),
-    z6.object({
-      type: z6.literal("function_call"),
-      id: z6.string(),
-      call_id: z6.string(),
-      name: z6.string(),
-      arguments: z6.string()
+    z7.object({
+      type: z7.literal("function_call"),
+      id: z7.string(),
+      call_id: z7.string(),
+      name: z7.string(),
+      arguments: z7.string()
     })
   ])
 });
-var responseAnnotationAddedSchema = z6.object({
-  type: z6.literal("response.output_text.annotation.added"),
-  annotation: z6.object({
-    type: z6.literal("url_citation"),
-    url: z6.string(),
-    title: z6.string()
+var responseAnnotationAddedSchema = z7.object({
+  type: z7.literal("response.output_text.annotation.added"),
+  annotation: z7.object({
+    type: z7.literal("url_citation"),
+    url: z7.string(),
+    title: z7.string()
   })
 });
-var openaiResponsesChunkSchema = z6.union([
+var openaiResponsesChunkSchema = z7.union([
   textDeltaChunkSchema,
   responseFinishedChunkSchema,
   responseCreatedChunkSchema,
@@ -2360,7 +2545,7 @@ var openaiResponsesChunkSchema = z6.union([
   responseFunctionCallArgumentsDeltaSchema,
   responseOutputItemAddedSchema,
   responseAnnotationAddedSchema,
-  z6.object({ type: z6.string() }).passthrough()
+  z7.object({ type: z7.string() }).passthrough()
   // fallback for unknown chunks
 ]);
 function isTextDeltaChunk(chunk) {
@@ -2405,20 +2590,20 @@ function getResponsesModelConfig(modelId) {
     requiredAutoTruncation: false
   };
 }
-var openaiResponsesProviderOptionsSchema = z6.object({
-  metadata: z6.any().nullish(),
-  parallelToolCalls: z6.boolean().nullish(),
-  previousResponseId: z6.string().nullish(),
-  store: z6.boolean().nullish(),
-  user: z6.string().nullish(),
-  reasoningEffort: z6.string().nullish(),
-  strictSchemas: z6.boolean().nullish(),
-  instructions: z6.string().nullish()
+var openaiResponsesProviderOptionsSchema = z7.object({
+  metadata: z7.any().nullish(),
+  parallelToolCalls: z7.boolean().nullish(),
+  previousResponseId: z7.string().nullish(),
+  store: z7.boolean().nullish(),
+  user: z7.string().nullish(),
+  reasoningEffort: z7.string().nullish(),
+  strictSchemas: z7.boolean().nullish(),
+  instructions: z7.string().nullish()
 });
 // src/openai-tools.ts
-import { z as z7 } from "zod";
-var WebSearchPreviewParameters = z7.object({});
+import { z as z8 } from "zod";
+var WebSearchPreviewParameters = z8.object({});
 function webSearchPreviewTool({
   searchContextSize,
   userLocation
@@ -2479,6 +2664,12 @@ function createOpenAI(options = {}) {
     headers: getHeaders,
     fetch: options.fetch
   });
+  const createTranscriptionModel = (modelId) => new OpenAITranscriptionModel(modelId, {
+    provider: `${providerName}.transcription`,
+    url: ({ path }) => `${baseURL}${path}`,
+    headers: getHeaders,
+    fetch: options.fetch
+  });
   const createLanguageModel = (modelId, settings) => {
     if (new.target) {
       throw new Error(
@@ -2513,6 +2704,8 @@ function createOpenAI(options = {}) {
   provider.textEmbeddingModel = createEmbeddingModel;
   provider.image = createImageModel;
   provider.imageModel = createImageModel;
+  provider.transcription = createTranscriptionModel;
+  provider.transcriptionModel = createTranscriptionModel;
   provider.tools = openaiTools;
   return provider;
 }