npm - @aigne/gemini - Versions diffs - 0.13.5 → 0.14.0-beta - Mend

@aigne/gemini 0.13.5 → 0.14.0-beta

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

package/CHANGELOG.md +18 -0
package/lib/cjs/gemini-image-model.d.ts +2 -2
package/lib/cjs/gemini-image-model.js +22 -9
package/lib/dts/gemini-image-model.d.ts +2 -2
package/lib/esm/gemini-image-model.d.ts +2 -2
package/lib/esm/gemini-image-model.js +24 -11
package/package.json +5 -5

package/CHANGELOG.md CHANGED Viewed

@@ -1,5 +1,23 @@
 # Changelog
+## [0.14.0-beta](https://github.com/AIGNE-io/aigne-framework/compare/gemini-v0.13.5...gemini-v0.14.0-beta) (2025-09-22)
+### Features
+* improve image model architecture and file handling ([#527](https://github.com/AIGNE-io/aigne-framework/issues/527)) ([4db50aa](https://github.com/AIGNE-io/aigne-framework/commit/4db50aa0387a1a0f045ca11aaa61613e36ca7597))
+### Dependencies
+* The following workspace dependencies were updated
+  * dependencies
+    * @aigne/openai bumped to 0.16.0-beta
+    * @aigne/platform-helpers bumped to 0.6.3-beta
+  * devDependencies
+    * @aigne/core bumped to 1.61.0-beta
+    * @aigne/test-utils bumped to 0.5.53-beta
 ## [0.13.5](https://github.com/AIGNE-io/aigne-framework/compare/gemini-v0.13.4...gemini-v0.13.5) (2025-09-18)

package/lib/cjs/gemini-image-model.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
+import { type AgentInvokeOptions, ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
 import { type GenerateContentConfig, type GenerateImagesConfig, GoogleGenAI } from "@google/genai";
 export interface GeminiImageModelInput extends ImageModelInput, GenerateImagesConfig, GenerateContentConfig {
 }
@@ -28,7 +28,7 @@ export declare class GeminiImageModel extends ImageModel<GeminiImageModelInput,
      * @param input The input to process
      * @returns The generated response
      */
-    process(input: GeminiImageModelInput): Promise<ImageModelOutput>;
+    process(input: GeminiImageModelInput, options: AgentInvokeOptions): Promise<ImageModelOutput>;
     private generateImageByImagenModel;
     private generateImageByGeminiModel;
 }

package/lib/cjs/gemini-image-model.js CHANGED Viewed

@@ -52,7 +52,7 @@ class GeminiImageModel extends core_1.ImageModel {
      * @param input The input to process
      * @returns The generated response
      */
-    async process(input) {
+    async process(input, options) {
         const model = input.model || this.credential.model;
         const responseFormat = input.responseFormat || "base64";
         if (responseFormat === "url") {
@@ -61,7 +61,7 @@ class GeminiImageModel extends core_1.ImageModel {
         if (model.includes("imagen")) {
             return this.generateImageByImagenModel(input);
         }
-        return this.generateImageByGeminiModel(input);
+        return this.generateImageByGeminiModel(input, options);
     }
     async generateImageByImagenModel(input) {
         const model = input.model || this.credential.model;
@@ -89,7 +89,9 @@ class GeminiImageModel extends core_1.ImageModel {
         });
         return {
             images: response.generatedImages
-                ?.map(({ image }) => (image?.imageBytes ? { base64: image.imageBytes } : undefined))
+                ?.map(({ image }) => image?.imageBytes
+                ? { type: "file", data: image.imageBytes, mimeType: image.mimeType }
+                : undefined)
                 .filter(type_utils_js_1.isNonNullable) || [],
             usage: {
                 inputTokens: 0,
@@ -98,7 +100,7 @@ class GeminiImageModel extends core_1.ImageModel {
             model,
         };
     }
-    async generateImageByGeminiModel(input) {
+    async generateImageByGeminiModel(input, options) {
         const model = input.model || this.credential.model;
         const mergedInput = { ...this.modelOptions, ...input };
         const inputKeys = [
@@ -131,24 +133,35 @@ class GeminiImageModel extends core_1.ImageModel {
             "topK",
             "topP",
         ];
+        const images = await Promise.all((0, type_utils_js_1.flat)(input.image).map(async (image) => {
+            const { data, mimeType } = await this.transformFileOutput(core_1.FileOutputType.file, image, options);
+            return { inlineData: { data, mimeType } };
+        }));
         const response = await this.client.models.generateContent({
             model: model,
-            contents: input.prompt,
+            contents: [{ text: input.prompt }, ...images],
             config: {
-                responseModalities: [genai_1.Modality.TEXT, genai_1.Modality.IMAGE],
+                responseModalities: [genai_1.Modality.IMAGE],
                 candidateCount: input.n || 1,
                 ...(0, type_utils_js_1.pick)(mergedInput, inputKeys),
             },
         });
         const allImages = (response.candidates ?? [])
             .flatMap((candidate) => candidate.content?.parts ?? [])
-            .map((part) => (part.inlineData?.data ? { base64: part.inlineData?.data } : null))
+            .map((part) => part.inlineData?.data
+            ? {
+                type: "file",
+                data: part.inlineData.data,
+                filename: part.inlineData.displayName,
+                mimeType: part.inlineData.mimeType,
+            }
+            : null)
             .filter(type_utils_js_1.isNonNullable);
         return {
             images: allImages,
             usage: {
-                inputTokens: 0,
-                outputTokens: 0,
+                inputTokens: response.usageMetadata?.promptTokenCount || 0,
+                outputTokens: response.usageMetadata?.candidatesTokenCount || 0,
             },
             model,
         };

package/lib/dts/gemini-image-model.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
+import { type AgentInvokeOptions, ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
 import { type GenerateContentConfig, type GenerateImagesConfig, GoogleGenAI } from "@google/genai";
 export interface GeminiImageModelInput extends ImageModelInput, GenerateImagesConfig, GenerateContentConfig {
 }
@@ -28,7 +28,7 @@ export declare class GeminiImageModel extends ImageModel<GeminiImageModelInput,
      * @param input The input to process
      * @returns The generated response
      */
-    process(input: GeminiImageModelInput): Promise<ImageModelOutput>;
+    process(input: GeminiImageModelInput, options: AgentInvokeOptions): Promise<ImageModelOutput>;
     private generateImageByImagenModel;
     private generateImageByGeminiModel;
 }

package/lib/esm/gemini-image-model.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import { ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
+import { type AgentInvokeOptions, ImageModel, type ImageModelInput, type ImageModelOptions, type ImageModelOutput } from "@aigne/core";
 import { type GenerateContentConfig, type GenerateImagesConfig, GoogleGenAI } from "@google/genai";
 export interface GeminiImageModelInput extends ImageModelInput, GenerateImagesConfig, GenerateContentConfig {
 }
@@ -28,7 +28,7 @@ export declare class GeminiImageModel extends ImageModel<GeminiImageModelInput,
      * @param input The input to process
      * @returns The generated response
      */
-    process(input: GeminiImageModelInput): Promise<ImageModelOutput>;
+    process(input: GeminiImageModelInput, options: AgentInvokeOptions): Promise<ImageModelOutput>;
     private generateImageByImagenModel;
     private generateImageByGeminiModel;
 }

package/lib/esm/gemini-image-model.js CHANGED Viewed

@@ -1,5 +1,5 @@
-import { ImageModel, imageModelInputSchema, } from "@aigne/core";
-import { checkArguments, isNonNullable, pick } from "@aigne/core/utils/type-utils.js";
+import { FileOutputType, ImageModel, imageModelInputSchema, } from "@aigne/core";
+import { checkArguments, flat, isNonNullable, pick } from "@aigne/core/utils/type-utils.js";
 import { GoogleGenAI, Modality, } from "@google/genai";
 import { z } from "zod";
 const DEFAULT_MODEL = "imagen-4.0-generate-001";
@@ -49,7 +49,7 @@ export class GeminiImageModel extends ImageModel {
      * @param input The input to process
      * @returns The generated response
      */
-    async process(input) {
+    async process(input, options) {
         const model = input.model || this.credential.model;
         const responseFormat = input.responseFormat || "base64";
         if (responseFormat === "url") {
@@ -58,7 +58,7 @@ export class GeminiImageModel extends ImageModel {
         if (model.includes("imagen")) {
             return this.generateImageByImagenModel(input);
         }
-        return this.generateImageByGeminiModel(input);
+        return this.generateImageByGeminiModel(input, options);
     }
     async generateImageByImagenModel(input) {
         const model = input.model || this.credential.model;
@@ -86,7 +86,9 @@ export class GeminiImageModel extends ImageModel {
         });
         return {
             images: response.generatedImages
-                ?.map(({ image }) => (image?.imageBytes ? { base64: image.imageBytes } : undefined))
+                ?.map(({ image }) => image?.imageBytes
+                ? { type: "file", data: image.imageBytes, mimeType: image.mimeType }
+                : undefined)
                 .filter(isNonNullable) || [],
             usage: {
                 inputTokens: 0,
@@ -95,7 +97,7 @@ export class GeminiImageModel extends ImageModel {
             model,
         };
     }
-    async generateImageByGeminiModel(input) {
+    async generateImageByGeminiModel(input, options) {
         const model = input.model || this.credential.model;
         const mergedInput = { ...this.modelOptions, ...input };
         const inputKeys = [
@@ -128,24 +130,35 @@ export class GeminiImageModel extends ImageModel {
             "topK",
             "topP",
         ];
+        const images = await Promise.all(flat(input.image).map(async (image) => {
+            const { data, mimeType } = await this.transformFileOutput(FileOutputType.file, image, options);
+            return { inlineData: { data, mimeType } };
+        }));
         const response = await this.client.models.generateContent({
             model: model,
-            contents: input.prompt,
+            contents: [{ text: input.prompt }, ...images],
             config: {
-                responseModalities: [Modality.TEXT, Modality.IMAGE],
+                responseModalities: [Modality.IMAGE],
                 candidateCount: input.n || 1,
                 ...pick(mergedInput, inputKeys),
             },
         });
         const allImages = (response.candidates ?? [])
             .flatMap((candidate) => candidate.content?.parts ?? [])
-            .map((part) => (part.inlineData?.data ? { base64: part.inlineData?.data } : null))
+            .map((part) => part.inlineData?.data
+            ? {
+                type: "file",
+                data: part.inlineData.data,
+                filename: part.inlineData.displayName,
+                mimeType: part.inlineData.mimeType,
+            }
+            : null)
             .filter(isNonNullable);
         return {
             images: allImages,
             usage: {
-                inputTokens: 0,
-                outputTokens: 0,
+                inputTokens: response.usageMetadata?.promptTokenCount || 0,
+                outputTokens: response.usageMetadata?.candidatesTokenCount || 0,
             },
             model,
         };

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@aigne/gemini",
-  "version": "0.13.5",
+  "version": "0.14.0-beta",
   "description": "AIGNE Gemini SDK for integrating with Google's Gemini AI models",
   "publishConfig": {
     "access": "public"
@@ -38,8 +38,8 @@
     "@google/genai": "^1.20.0",
     "uuid": "^13.0.0",
     "zod": "^3.25.67",
-    "@aigne/openai": "^0.15.4",
-    "@aigne/platform-helpers": "^0.6.2"
+    "@aigne/platform-helpers": "^0.6.3-beta",
+    "@aigne/openai": "^0.16.0-beta"
   },
   "devDependencies": {
     "@types/bun": "^1.2.22",
@@ -47,8 +47,8 @@
     "npm-run-all": "^4.1.5",
     "rimraf": "^6.0.1",
     "typescript": "^5.9.2",
-    "@aigne/test-utils": "^0.5.52",
-    "@aigne/core": "^1.60.3"
+    "@aigne/test-utils": "^0.5.53-beta",
+    "@aigne/core": "^1.61.0-beta"
   },
   "scripts": {
     "lint": "tsc --noEmit",