npm - ai-world-sdk - Versions diffs - 1.0.10 → 1.0.11 - Mend

ai-world-sdk 1.0.10 → 1.0.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

package/README.md +35 -10
package/dist/__tests__/example.test.js +61 -50
package/dist/gemini-image-generation.d.ts +1 -23
package/dist/gemini-image-generation.js +4 -50
package/package.json +1 -1

package/README.md CHANGED Viewed

@@ -248,8 +248,8 @@ const result3 = await aihubmixClient.generate({
   response_modalities: ['IMAGE'],
 });
-// 图像编辑（使用文本提示编辑图片）
-const editResult = await client.edit({
+// 单图输入（文本 + 单张图片，实现编辑效果）
+const editResult = await client.generate({
   prompt: 'Add a small wizard hat on the cat\'s head',
   image: 'data:image/png;base64,iVBORw0KGgo...', // base64 编码的图片数据或 data URL
   model: 'gemini-2.5-flash-image',
@@ -283,6 +283,7 @@ const secondResponse = await client.chat({
 |------|------|------|--------|
 | `prompt` | `string` | 图像生成提示词（必需） | - |
 | `model` | `string` | 模型名称 | `gemini-2.0-flash-exp-image-generation` |
+| `image` | `string \| string[]` | 输入图片（base64 或 data URL）。可以是单个图片或图片数组（多图输入） | - |
 | `aspect_ratio` | `string` | 宽高比 | - |
 | `image_size` | `string` | 图片大小（仅 gemini-3-pro-image-preview） | - |
 | `number_of_images` | `number` | 生成图片数量 | `1` |
@@ -290,6 +291,10 @@ const secondResponse = await client.chat({
 | `temperature` | `number` | 温度参数 | `0.7` |
 | `max_output_tokens` | `number` | 最大输出 token 数 | `1000` |
+**多图输入限制：**
+- `gemini-2.5-flash-image`: 最多支持 3 张输入图片
+- `gemini-3-pro-image-preview`: 最多支持 14 张输入图片（其中最多 5 张高保真图片）
 **支持的宽高比：** `1:1`, `2:3`, `3:2`, `3:4`, `4:3`, `4:5`, `5:4`, `9:16`, `16:9`, `21:9`
 **Provider 说明：**
@@ -304,11 +309,7 @@ const secondResponse = await client.chat({
 | `gemini-2.5-flash-image` | 1024px | 快速、高效、成本低 | 日常使用、批量生成 |
 | `gemini-3-pro-image-preview` | 1K/2K/4K | 专业级、高分辨率、高级功能 | 专业设计、高分辨率需求 |
-**图像编辑和多轮修改：**
-- **`edit()`** - 图像编辑：使用文本提示编辑图片，支持添加、移除或修改元素
-  - 需要提供输入图片（base64 编码或 data URL）
-  - 适用于单次编辑操作
+**多轮图片修改：**
 - **`chat()`** - 多轮图片修改：通过对话迭代式优化图片
   - 首次调用创建新的聊天会话，返回 `chat_id`
@@ -664,7 +665,7 @@ import { GeminiImageGenerationClient } from 'ai-world-sdk';
 const client = new GeminiImageGenerationClient({});
-// 使用 Gemini 2.5 Flash（快速模型）
+// 1. 文生图（仅文本提示）
 const result = await client.generate({
   prompt: 'A beautiful sunset over the ocean',
   model: 'gemini-2.5-flash-image',
@@ -677,8 +678,32 @@ if (result.text) {
   console.log('图像描述:', result.text);
 }
-// 使用 Gemini 3 Pro（专业模型，支持高分辨率）
+// 2. 单图输入（文本 + 单张图片）
 const result2 = await client.generate({
+  prompt: 'Create a picture of my cat eating a nano-banana in a fancy restaurant',
+  image: 'data:image/png;base64,iVBORw0KGgo...', // base64 编码的图片或 data URL
+  model: 'gemini-2.5-flash-image',
+  aspect_ratio: '16:9',
+});
+// 3. 多图输入（文本 + 多张图片）
+// gemini-2.5-flash-image 最多支持 3 张图片
+// gemini-3-pro-image-preview 最多支持 14 张图片
+const result3 = await client.generate({
+  prompt: 'An office group photo of these people, they are making funny faces.',
+  image: [
+    'data:image/png;base64,iVBORw0KGgo...', // 第一张图片
+    'data:image/png;base64,iVBORw0KGgo...', // 第二张图片
+    'data:image/png;base64,iVBORw0KGgo...', // 第三张图片
+  ],
+  model: 'gemini-3-pro-image-preview',
+  aspect_ratio: '5:4',
+  image_size: '2K',
+  response_modalities: ['IMAGE'],
+});
+// 4. 使用 Gemini 3 Pro（专业模型，支持高分辨率）
+const result4 = await client.generate({
   prompt: 'A futuristic city at night',
   model: 'gemini-3-pro-image-preview',
   aspect_ratio: '21:9', // 超宽屏
@@ -686,7 +711,7 @@ const result2 = await client.generate({
   response_modalities: ['IMAGE'], // 仅返回图片
 });
-console.log('4K 图像:', result2.data[0]?.b64_json ? 'Base64 编码' : result2.data[0]?.url);
+console.log('4K 图像:', result4.data[0]?.b64_json ? 'Base64 编码' : result4.data[0]?.url);
 ```
 ### 视频生成工作流

package/dist/__tests__/example.test.js CHANGED Viewed

@@ -557,7 +557,7 @@ describe("Langchain SDK Tests", () => {
         expect(Array.isArray(message.content)).toBe(true);
         console.log("✅ HumanMessage with array content 测试成功");
     });
-    test("GeminiImageGenerationClient - 基础图像生成", async () => {
+    test("GeminiImageGenerationClient - 基础图像生成（文生图）", async () => {
         const imageClient = new index_1.GeminiImageGenerationClient({});
         const result = await imageClient.generate({
             prompt: 'A beautiful sunset over the ocean',
@@ -577,13 +577,72 @@ describe("Langchain SDK Tests", () => {
             expect(item).toBeDefined();
             expect(item.url || item.b64_json).toBeDefined();
         });
-        console.log("✅ GeminiImageGenerationClient 基础测试成功");
+        console.log("✅ GeminiImageGenerationClient 基础测试成功（文生图）");
         console.log(`生成图像数量: ${result.data.length}`);
         console.log("图像 URL:", result.data[0]?.url || ("Base64 编码" + result.data[0]?.b64_json));
         if (result.text) {
             console.log("图像描述:", result.text);
         }
     }, 120000);
+    test("GeminiImageGenerationClient - 单图输入图像生成", async () => {
+        const imageClient = new index_1.GeminiImageGenerationClient({});
+        // 先生成一张基础图片
+        const baseResult = await imageClient.generate({
+            prompt: 'A photorealistic picture of a fluffy ginger cat sitting on a wooden floor',
+            model: 'gemini-2.5-flash-image',
+            aspect_ratio: '1:1',
+            response_modalities: ['IMAGE'],
+        });
+        expect(baseResult.data.length).toBeGreaterThan(0);
+        const baseImage = baseResult.data[0]?.b64_json || baseResult.data[0]?.url;
+        expect(baseImage).toBeDefined();
+        // 使用生成的图片作为输入
+        const result = await imageClient.generate({
+            prompt: 'Using the provided image of my cat, please add a small, knitted wizard hat on its head',
+            image: baseImage,
+            model: 'gemini-2.5-flash-image',
+            aspect_ratio: '1:1',
+            response_modalities: ['IMAGE'],
+        });
+        expect(result).toBeDefined();
+        expect(result.data).toBeDefined();
+        expect(result.data.length).toBeGreaterThan(0);
+        console.log("✅ GeminiImageGenerationClient 单图输入测试成功");
+    }, 120000);
+    test("GeminiImageGenerationClient - 多图输入图像生成", async () => {
+        const imageClient = new index_1.GeminiImageGenerationClient({});
+        // 先生成两张基础图片
+        const baseResult1 = await imageClient.generate({
+            prompt: 'A professional headshot of a woman with brown hair and blue eyes',
+            model: 'gemini-2.5-flash-image',
+            aspect_ratio: '1:1',
+            response_modalities: ['IMAGE'],
+        });
+        const baseResult2 = await imageClient.generate({
+            prompt: 'A simple, modern logo with the letters G and A in a white circle',
+            model: 'gemini-2.5-flash-image',
+            aspect_ratio: '1:1',
+            response_modalities: ['IMAGE'],
+        });
+        expect(baseResult1.data.length).toBeGreaterThan(0);
+        expect(baseResult2.data.length).toBeGreaterThan(0);
+        const image1 = baseResult1.data[0]?.b64_json || baseResult1.data[0]?.url;
+        const image2 = baseResult2.data[0]?.b64_json || baseResult2.data[0]?.url;
+        expect(image1).toBeDefined();
+        expect(image2).toBeDefined();
+        // 使用多张图片作为输入（gemini-2.5-flash-image 最多支持 3 张）
+        const result = await imageClient.generate({
+            prompt: 'Take the first image of the woman and add the logo from the second image onto her black t-shirt',
+            image: [image1, image2],
+            model: 'gemini-2.5-flash-image',
+            aspect_ratio: '1:1',
+            response_modalities: ['IMAGE'],
+        });
+        expect(result).toBeDefined();
+        expect(result.data).toBeDefined();
+        expect(result.data.length).toBeGreaterThan(0);
+        console.log("✅ GeminiImageGenerationClient 多图输入测试成功");
+    }, 180000);
     test("GeminiImageGenerationClient - 使用 aihubmix provider", async () => {
         const imageClient = new index_1.GeminiImageGenerationClient({
             provider: "aihubmix",
@@ -613,54 +672,6 @@ describe("Langchain SDK Tests", () => {
             console.log("图像描述:", result.text);
         }
     }, 120000);
-    test("GeminiImageGenerationClient - 图像编辑", async () => {
-        const imageClient = new index_1.GeminiImageGenerationClient({});
-        // 首先生成一张基础图片
-        const generateResult = await imageClient.generate({
-            prompt: 'A simple red apple on a white background',
-            model: 'gemini-2.5-flash-image',
-            aspect_ratio: '1:1',
-            response_modalities: ['IMAGE'],
-        });
-        expect(generateResult).toBeDefined();
-        expect(generateResult.data).toBeDefined();
-        expect(generateResult.data.length).toBeGreaterThan(0);
-        // 获取第一张图片的 base64 数据
-        const firstImage = generateResult.data[0];
-        expect(firstImage).toBeDefined();
-        // 提取 base64 数据（优先使用 b64_json，否则从 text 中提取）
-        let base64Image;
-        if (firstImage.b64_json) {
-            base64Image = firstImage.b64_json;
-        }
-        else if (firstImage.text && firstImage.text.startsWith('data:')) {
-            // 从 data URL 中提取 base64 部分
-            base64Image = firstImage.text.split(',')[1];
-        }
-        else {
-            throw new Error('无法获取图片的 base64 数据');
-        }
-        expect(base64Image).toBeDefined();
-        // 使用编辑功能添加元素
-        const editResult = await imageClient.edit({
-            prompt: 'Add a small green leaf on top of the apple',
-            image: base64Image, // 直接使用 base64 字符串
-            model: 'gemini-2.5-flash-image',
-            aspect_ratio: '1:1',
-            response_modalities: ['IMAGE'],
-        });
-        expect(editResult).toBeDefined();
-        expect(editResult.created).toBeDefined();
-        expect(editResult.data).toBeDefined();
-        expect(Array.isArray(editResult.data)).toBe(true);
-        expect(editResult.data.length).toBeGreaterThan(0);
-        editResult.data.forEach((item) => {
-            expect(item).toBeDefined();
-            expect(item.url || item.b64_json).toBeDefined();
-        });
-        console.log("✅ GeminiImageGenerationClient 图像编辑测试成功");
-        console.log(`编辑后图像数量: ${editResult.data.length}`);
-    }, 180000);
     test("GeminiImageGenerationClient - 多轮图片修改", async () => {
         const imageClient = new index_1.GeminiImageGenerationClient({});
         // 第一轮：创建初始图片

package/dist/gemini-image-generation.d.ts CHANGED Viewed

@@ -10,6 +10,7 @@ export interface GeminiImageGenerationConfig {
 export interface GeminiImageGenerationRequest {
     prompt: string;
     model?: string;
+    image?: string | string[];
     number_of_images?: number;
     aspect_ratio?: "1:1" | "2:3" | "3:2" | "3:4" | "4:3" | "4:5" | "5:4" | "9:16" | "16:9" | "21:9";
     image_size?: "1K" | "2K" | "4K";
@@ -28,16 +29,6 @@ export interface GeminiImageGenerationResponse {
     data: GeminiImageData[];
     text?: string;
 }
-export interface GeminiImageEditRequest {
-    prompt: string;
-    image: string;
-    model?: string;
-    provider?: "aihubmix" | "gemini";
-    aspect_ratio?: "1:1" | "2:3" | "3:2" | "3:4" | "4:3" | "4:5" | "5:4" | "9:16" | "16:9" | "21:9";
-    image_size?: "1K" | "2K" | "4K";
-    response_modalities?: ("TEXT" | "IMAGE")[];
-    user?: string;
-}
 export interface GeminiImageChatRequest {
     message: string;
     chat_id?: string;
@@ -69,19 +60,6 @@ export declare class GeminiImageGenerationClient {
      * - number_of_images: 生成图片数量（1-4）
      */
     generate(request: GeminiImageGenerationRequest): Promise<GeminiImageGenerationResponse>;
-    /**
-     * Edit images
-     * 编辑图像
-     *
-     * 使用文本提示编辑图片，支持添加、移除或修改元素
-     *
-     * 支持的参数：
-     * - image: base64 编码的图片数据，或 data URL（如 data:image/png;base64,...）
-     * - aspect_ratio: 宽高比
-     * - image_size: 图片大小（仅 gemini-3-pro-image-preview）
-     * - response_modalities: 响应模态
-     */
-    edit(request: GeminiImageEditRequest): Promise<GeminiImageGenerationResponse>;
     /**
      * Chat with images (multi-turn image editing)
      * 图像多轮对话（用于多轮图片修改）

package/dist/gemini-image-generation.js CHANGED Viewed

@@ -41,6 +41,10 @@ class GeminiImageGenerationClient {
             model: request.model || "gemini-2.0-flash-exp-image-generation",
             number_of_images: request.number_of_images || 1,
         };
+        // 添加图片输入参数（单图或多图）
+        if (request.image) {
+            requestBody.image = request.image;
+        }
         // 添加可选参数
         if (request.aspect_ratio) {
             requestBody.aspect_ratio = request.aspect_ratio;
@@ -76,56 +80,6 @@ class GeminiImageGenerationClient {
         (0, log_1.logResponse)(response.status, response.statusText, response.headers, data);
         return data;
     }
-    /**
-     * Edit images
-     * 编辑图像
-     *
-     * 使用文本提示编辑图片，支持添加、移除或修改元素
-     *
-     * 支持的参数：
-     * - image: base64 编码的图片数据，或 data URL（如 data:image/png;base64,...）
-     * - aspect_ratio: 宽高比
-     * - image_size: 图片大小（仅 gemini-3-pro-image-preview）
-     * - response_modalities: 响应模态
-     */
-    async edit(request) {
-        const requestBody = {
-            prompt: request.prompt,
-            image: request.image,
-            model: request.model || "gemini-2.5-flash-image",
-        };
-        // 添加可选参数
-        if (request.aspect_ratio) {
-            requestBody.aspect_ratio = request.aspect_ratio;
-        }
-        if (request.image_size) {
-            requestBody.image_size = request.image_size;
-        }
-        if (request.response_modalities) {
-            requestBody.response_modalities = request.response_modalities;
-        }
-        if (request.user) {
-            requestBody.user = request.user;
-        }
-        if (request.provider) {
-            requestBody.provider = request.provider;
-        }
-        const url = `${config_1.sdkConfig.getServerUrl()}/api/gemini-image-proxy/edit`;
-        (0, log_1.logRequest)("POST", url, this.headers, { ...requestBody, image: "[base64 data]" });
-        const response = await fetch(url, {
-            method: "POST",
-            headers: this.headers,
-            body: JSON.stringify(requestBody),
-        });
-        if (!response.ok) {
-            const errorText = await response.text();
-            (0, log_1.logResponse)(response.status, response.statusText, response.headers, errorText);
-            throw new Error(`Gemini image edit API error: ${response.status} ${errorText}`);
-        }
-        const data = (await response.json());
-        (0, log_1.logResponse)(response.status, response.statusText, response.headers, data);
-        return data;
-    }
     /**
      * Chat with images (multi-turn image editing)
      * 图像多轮对话（用于多轮图片修改）

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "ai-world-sdk",
-  "version": "1.0.10",
+  "version": "1.0.11",
   "description": "TypeScript SDK for AI World Platform - Chat Models, Image Generation, and Video Generation",
   "main": "dist/index.js",
   "types": "dist/index.d.ts",