npm - squidclaw - Versions diffs - 0.8.2 → 0.8.3 - Mend

squidclaw 0.8.2 → 0.8.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/lib/tools/image-gen.js CHANGED Viewed

@@ -1,6 +1,6 @@
 /**
  * 🦑 Image Generation Tool
- * Supports: OpenAI DALL-E, Google Gemini/Imagen
+ * Supports: OpenAI DALL-E 3, Google Gemini Flash Image
  */
 import { logger } from '../core/logger.js';
@@ -13,13 +13,14 @@ export class ImageGenTool {
   async generate(prompt, provider) {
     const providers = this.config.ai?.providers || {};
-    // Auto-select provider
     if (!provider) {
       if (providers.openai?.key) provider = 'openai';
       else if (providers.google?.key) provider = 'google';
       else throw new Error('No image generation API key configured');
     }
+    logger.info('image-gen', `Generating with ${provider}: ${prompt.slice(0, 80)}...`);
     if (provider === 'openai') return this.generateOpenAI(prompt, providers.openai.key);
     if (provider === 'google') return this.generateGemini(prompt, providers.google.key);
     throw new Error('Unsupported provider: ' + provider);
@@ -37,52 +38,30 @@ export class ImageGenTool {
   }
   async generateGemini(prompt, apiKey) {
-    // Gemini Imagen 3 via generateImages endpoint
-    const res = await fetch(`https://generativelanguage.googleapis.com/v1beta/models/imagen-3.0-generate-002:predict?key=${apiKey}`, {
+    // Try gemini-2.5-flash-image (native image generation)
+    const res = await fetch(`https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-image:generateContent?key=${apiKey}`, {
       method: 'POST',
       headers: { 'Content-Type': 'application/json' },
       body: JSON.stringify({
-        instances: [{ prompt }],
-        parameters: { sampleCount: 1, aspectRatio: '1:1' },
+        contents: [{ parts: [{ text: `Generate an image: ${prompt}` }] }],
+        generationConfig: { responseModalities: ['TEXT', 'IMAGE'] },
       }),
     });
     const data = await res.json();
-    if (data.error) {
-      // Fallback: use Gemini 2.0 Flash native image generation
-      return this.generateGeminiFlash(prompt, apiKey);
-    }
-    if (data.predictions?.[0]?.bytesBase64Encoded) {
-      return { base64: data.predictions[0].bytesBase64Encoded, mimeType: 'image/png' };
+    if (data.error) {
+      logger.error('image-gen', `Gemini error: ${data.error.message}`);
+      throw new Error(data.error.message);
     }
-    // Fallback to Gemini Flash
-    return this.generateGeminiFlash(prompt, apiKey);
-  }
-  async generateGeminiFlash(prompt, apiKey) {
-    const res = await fetch(`https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp:generateContent?key=${apiKey}`, {
-      method: 'POST',
-      headers: { 'Content-Type': 'application/json' },
-      body: JSON.stringify({
-        contents: [{ parts: [{ text: `Generate an image: ${prompt}` }] }],
-        generationConfig: { responseModalities: ['TEXT', 'IMAGE'] },
-      }),
-    });
-    const data = await res.json();
-    if (data.error) throw new Error(data.error.message);
-    // Find image part in response
     const parts = data.candidates?.[0]?.content?.parts || [];
     for (const part of parts) {
       if (part.inlineData) {
+        logger.info('image-gen', `Image generated! ${part.inlineData.mimeType}, ${part.inlineData.data?.length} bytes`);
         return { base64: part.inlineData.data, mimeType: part.inlineData.mimeType || 'image/png' };
       }
     }
-    // Text-only response
     const text = parts.find(p => p.text)?.text;
     throw new Error(text || 'Gemini could not generate an image');
   }

package/lib/tools/router.js CHANGED Viewed

@@ -86,22 +86,23 @@ export class ToolRouter {
           break;
         case 'imagine':
-      case 'draw':
-      case 'image': {
-        try {
-          const { ImageGenTool } = await import('./image-gen.js');
-          const gen = new ImageGenTool(this.config);
-          const result = await gen.generate(args);
-          if (result.url) {
-            return { toolUsed: true, toolName: 'image', toolResult: result.url, imageUrl: result.url };
-          } else if (result.base64) {
-            return { toolUsed: true, toolName: 'image', toolResult: '[Image generated]', imageBase64: result.base64, mimeType: result.mimeType };
+        case 'draw':
+        case 'image': {
+          try {
+            const { ImageGenTool } = await import('./image-gen.js');
+            const gen = new ImageGenTool(this.config);
+            const imgResult = await gen.generate(toolArg);
+            if (imgResult.url) {
+              return { toolUsed: true, toolName: 'image', toolResult: imgResult.url, imageUrl: imgResult.url, cleanResponse };
+            } else if (imgResult.base64) {
+              return { toolUsed: true, toolName: 'image', toolResult: '[Image generated]', imageBase64: imgResult.base64, mimeType: imgResult.mimeType, cleanResponse };
+            }
+          } catch (err) {
+            toolResult = 'Image generation failed: ' + err.message;
           }
-        } catch (err) {
-          return { toolUsed: true, toolName: 'image', toolResult: 'Image generation failed: ' + err.message };
+          break;
         }
-      }
-      case 'read':
+        case 'read':
           const page = await this.browser.readPage(toolArg, 3000);
           toolResult = `Title: ${page.title}\n\n${page.content}`;
           break;

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "squidclaw",
-  "version": "0.8.2",
+  "version": "0.8.3",
   "description": "\ud83e\udd91 AI agent platform \u2014 human-like agents for WhatsApp, Telegram & more",
   "main": "lib/engine.js",
   "bin": {