npm - @f5xc-salesdemos/xcsh - Versions diffs - 15.2.0 → 15.3.0 - Mend

@f5xc-salesdemos/xcsh 15.2.0 → 15.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/package.json +7 -7
package/src/config/settings-schema.ts +36 -2
package/src/modes/components/settings-defs.ts +12 -1
package/src/prompts/system/system-prompt.md +6 -0
package/src/sdk.ts +41 -8
package/src/tools/gemini-image.ts +111 -4

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
 	"type": "module",
 	"name": "@f5xc-salesdemos/xcsh",
-	"version": "15.2.0",
+	"version": "15.3.0",
 	"description": "Coding agent CLI with read, bash, edit, write tools and session management",
 	"homepage": "https://github.com/f5xc-salesdemos/xcsh",
 	"author": "Can Boluk",
@@ -46,12 +46,12 @@
 	"dependencies": {
 		"@agentclientprotocol/sdk": "0.16.1",
 		"@mozilla/readability": "^0.6",
-		"@f5xc-salesdemos/xcsh-stats": "15.2.0",
-		"@f5xc-salesdemos/pi-agent-core": "15.2.0",
-		"@f5xc-salesdemos/pi-ai": "15.2.0",
-		"@f5xc-salesdemos/pi-natives": "15.2.0",
-		"@f5xc-salesdemos/pi-tui": "15.2.0",
-		"@f5xc-salesdemos/pi-utils": "15.2.0",
+		"@f5xc-salesdemos/xcsh-stats": "15.3.0",
+		"@f5xc-salesdemos/pi-agent-core": "15.3.0",
+		"@f5xc-salesdemos/pi-ai": "15.3.0",
+		"@f5xc-salesdemos/pi-natives": "15.3.0",
+		"@f5xc-salesdemos/pi-tui": "15.3.0",
+		"@f5xc-salesdemos/pi-utils": "15.3.0",
 		"@sinclair/typebox": "^0.34",
 		"@xterm/headless": "^6.0",
 		"ajv": "^8.18",

package/src/config/settings-schema.ts CHANGED Viewed

@@ -1287,6 +1287,16 @@ export const SETTINGS_SCHEMA = {
 		},
 	},
+	"generate_image.enabled": {
+		type: "boolean",
+		default: true,
+		ui: {
+			tab: "tools",
+			label: "Generate Image",
+			description: "Enable the generate_image tool for AI-powered image and diagram generation",
+		},
+	},
 	"checkpoint.enabled": {
 		type: "boolean",
 		default: false,
@@ -1615,12 +1625,36 @@ export const SETTINGS_SCHEMA = {
 	},
 	"providers.image": {
 		type: "enum",
-		values: ["auto", "gemini", "openrouter"] as const,
+		values: ["auto", "gemini", "openrouter", "openai"] as const,
 		default: "auto",
 		ui: {
 			tab: "providers",
 			label: "Image Provider",
-			description: "Provider for image generation tool",
+			description: "Provider for image generation tool (auto detects from available API keys)",
+			submenu: true,
+		},
+	},
+	"providers.imageSize": {
+		type: "enum",
+		values: ["1024x1024", "1536x1024", "1024x1536"] as const,
+		default: "1536x1024",
+		ui: {
+			tab: "providers",
+			label: "Image Size",
+			description: "Default image dimensions for generation (landscape, square, or portrait)",
+			submenu: true,
+		},
+	},
+	"providers.imageQuality": {
+		type: "enum",
+		values: ["low", "medium", "high"] as const,
+		default: "high",
+		ui: {
+			tab: "providers",
+			label: "Image Quality",
+			description: "Rendering quality for generated images (higher = slower but more detailed)",
 			submenu: true,
 		},
 	},

package/src/modes/components/settings-defs.ts CHANGED Viewed

@@ -337,10 +337,21 @@ const OPTION_PROVIDERS: Partial<Record<SettingPath, OptionProvider>> = {
 		{ value: "parallel", label: "Parallel", description: "Requires PARALLEL_API_KEY" },
 	],
 	"providers.image": [
-		{ value: "auto", label: "Auto", description: "Priority: OpenRouter > Gemini" },
+		{ value: "auto", label: "Auto", description: "Auto-detect from available API keys" },
+		{ value: "openai", label: "OpenAI", description: "gpt-image-1 via LITELLM_API_KEY or OPENAI_API_KEY" },
 		{ value: "gemini", label: "Gemini", description: "Requires GEMINI_API_KEY" },
 		{ value: "openrouter", label: "OpenRouter", description: "Requires OPENROUTER_API_KEY" },
 	],
+	"providers.imageSize": [
+		{ value: "1024x1024", label: "1024x1024", description: "Square" },
+		{ value: "1536x1024", label: "1536x1024", description: "Landscape (default)" },
+		{ value: "1024x1536", label: "1024x1536", description: "Portrait" },
+	],
+	"providers.imageQuality": [
+		{ value: "low", label: "Low", description: "Fastest generation, lower detail" },
+		{ value: "medium", label: "Medium", description: "Balanced speed and quality" },
+		{ value: "high", label: "High", description: "Best quality, slower generation (default)" },
+	],
 	"providers.kimiApiFormat": [
 		{ value: "openai", label: "OpenAI", description: "api.kimi.com" },
 		{ value: "anthropic", label: "Anthropic", description: "api.moonshot.ai" },

package/src/prompts/system/system-prompt.md CHANGED Viewed

@@ -281,7 +281,13 @@ Don't open a file hoping. Hope is not a strategy.
 ### Image inspection
 - For image understanding tasks: **MUST** use `inspect_image` over `read` to avoid overloading main session context.
 - Write a specific `question` for `inspect_image`: what to inspect, constraints (for example verbatim OCR), and desired output format.
+- If you encounter `[Image content detected but current model does not support vision]` in a message, use `inspect_image` with the image file path to analyze it. Do not ask the user to describe the image — analyze it yourself via the tool.
 {{/if}}
+{{#ifAll (includes tools "inspect_image") (includes tools "generate_image")}}
+### Image generation and analysis
+- After using `generate_image`, the result includes saved file paths (e.g. `/tmp/xcsh-image-*.png`). To analyze or describe the generated image, chain `inspect_image` using that file path.
+- Example workflow: user asks "create a diagram and check if it follows brand guidelines" → call `generate_image`, then call `inspect_image` on the resulting file path with the brand compliance question.
+{{/ifAll}}
 {{SECTION_SEPERATOR "Rules"}}

package/src/sdk.ts CHANGED Viewed

@@ -672,7 +672,12 @@ export async function createAgentSession(options: CreateAgentSessionOptions = {}
 	}
 	const imageProvider = settings.get("providers.image");
-	if (imageProvider === "auto" || imageProvider === "gemini" || imageProvider === "openrouter") {
+	if (
+		imageProvider === "auto" ||
+		imageProvider === "gemini" ||
+		imageProvider === "openrouter" ||
+		imageProvider === "openai"
+	) {
 		setPreferredImageProvider(imageProvider);
 	}
@@ -1034,10 +1039,12 @@ export async function createAgentSession(options: CreateAgentSessionOptions = {}
 		}
 	}
-	// Add Gemini image tools if GEMINI_API_KEY (or GOOGLE_API_KEY) is available
-	const geminiImageTools = await logger.time("getGeminiImageTools", getGeminiImageTools);
-	if (geminiImageTools.length > 0) {
-		customTools.push(...(geminiImageTools as unknown as CustomTool[]));
+	// Add image generation tools if an image API key is available and the tool is enabled
+	if (settings.get("generate_image.enabled")) {
+		const geminiImageTools = await logger.time("getGeminiImageTools", getGeminiImageTools);
+		if (geminiImageTools.length > 0) {
+			customTools.push(...(geminiImageTools as unknown as CustomTool[]));
+		}
 	}
 	// Add web search tools
@@ -1435,11 +1442,37 @@ export async function createAgentSession(options: CreateAgentSessionOptions = {}
 		});
 	};
-	// Final convertToLlm: chain block-images filter with secret obfuscation
+	// Replace unsupported image content with actionable warnings when model lacks vision
+	const convertToLlmWithImageRouting = (messages: Message[]): Message[] => {
+		const currentModel = agent?.state?.model;
+		if (!currentModel || currentModel.input.includes("image")) return messages;
+		return messages.map(msg => {
+			if (msg.role !== "user" && msg.role !== "toolResult") return msg;
+			const content = msg.content;
+			if (!Array.isArray(content)) return msg;
+			const hasImages = content.some(c => c.type === "image");
+			if (!hasImages) return msg;
+			const filtered = content.map(c =>
+				c.type === "image"
+					? {
+							type: "text" as const,
+							text: "[Image content detected but current model does not support vision. Use the inspect_image tool to analyze this image, or ask the user to switch to a vision-capable model.]",
+						}
+					: c,
+			);
+			return { ...msg, content: filtered };
+		});
+	};
+	// Final convertToLlm: chain block-images filter → image routing warnings → secret obfuscation
 	const convertToLlmFinal = (messages: AgentMessage[]): Message[] => {
 		const converted = convertToLlmWithBlockImages(messages);
-		if (!obfuscator?.hasSecrets()) return converted;
-		return obfuscateMessages(obfuscator, converted);
+		const routed = convertToLlmWithImageRouting(converted);
+		if (!obfuscator?.hasSecrets()) return routed;
+		return obfuscateMessages(obfuscator, routed);
 	};
 	const transformContext = extensionRunner
 		? async (messages: AgentMessage[], _signal?: AbortSignal) => {

package/src/tools/gemini-image.ts CHANGED Viewed

@@ -20,6 +20,9 @@ import { resolveReadPath } from "./path-utils";
 const DEFAULT_MODEL = "gemini-3-pro-image-preview";
 const DEFAULT_OPENROUTER_MODEL = "google/gemini-3-pro-image-preview";
 const DEFAULT_ANTIGRAVITY_MODEL = "gemini-3-pro-image";
+const DEFAULT_OPENAI_IMAGE_MODEL = "gpt-image-1";
+const DEFAULT_OPENAI_IMAGE_SIZE = "1536x1024";
+const DEFAULT_OPENAI_IMAGE_QUALITY = "high";
 const IMAGE_TIMEOUT = 3 * 60 * 1000; // 3 minutes
 const MAX_IMAGE_SIZE = 35 * 1024 * 1024;
@@ -27,7 +30,7 @@ const ANTIGRAVITY_ENDPOINT = "https://daily-cloudcode-pa.sandbox.googleapis.com"
 const IMAGE_SYSTEM_INSTRUCTION =
 	"You are an AI image generator. Generate images based on user descriptions. Focus on creating high-quality, visually appealing images that match the user's request.";
-type ImageProvider = "antigravity" | "gemini" | "openrouter";
+type ImageProvider = "antigravity" | "gemini" | "openrouter" | "openai";
 interface ImageApiKey {
 	provider: ImageProvider;
 	apiKey: string;
@@ -207,6 +210,21 @@ interface OpenRouterResponse {
 	choices?: OpenRouterChoice[];
 }
+interface OpenAIImageResponseData {
+	b64_json: string;
+	revised_prompt?: string | null;
+}
+interface OpenAIImageResponse {
+	created: number;
+	data: OpenAIImageResponseData[];
+	usage?: {
+		total_tokens: number;
+		input_tokens: number;
+		output_tokens: number;
+	};
+}
 interface AntigravityRequest {
 	project: string;
 	model: string;
@@ -396,9 +414,13 @@ async function findImageApiKey(modelRegistry?: ModelRegistry): Promise<ImageApiK
 		const openRouterKey = getEnvApiKey("openrouter");
 		if (openRouterKey) return { provider: "openrouter", apiKey: openRouterKey };
 		// Fall through to auto-detect if preferred provider key not found
+	} else if (preferredImageProvider === "openai") {
+		const openaiKey = getEnvApiKey("litellm") ?? getEnvApiKey("openai");
+		if (openaiKey) return { provider: "openai", apiKey: openaiKey };
+		// Fall through to auto-detect if preferred provider key not found
 	}
-	// Auto-detect: Antigravity takes priority, then OpenRouter, then Gemini
+	// Auto-detect: Antigravity takes priority, then OpenRouter, then OpenAI, then Gemini
 	if (modelRegistry) {
 		const antigravity = await findAntigravityCredentials(modelRegistry);
 		if (antigravity) return antigravity;
@@ -407,6 +429,9 @@ async function findImageApiKey(modelRegistry?: ModelRegistry): Promise<ImageApiK
 	const openRouterKey = getEnvApiKey("openrouter");
 	if (openRouterKey) return { provider: "openrouter", apiKey: openRouterKey };
+	const openaiKey = getEnvApiKey("litellm") ?? getEnvApiKey("openai");
+	if (openaiKey) return { provider: "openai", apiKey: openaiKey };
 	const geminiKey = getEnvApiKey("google");
 	if (geminiKey) return { provider: "gemini", apiKey: geminiKey };
@@ -614,7 +639,7 @@ export const geminiImageTool: CustomTool<typeof geminiImageSchema, GeminiImageTo
 			const apiKey = await findImageApiKey(ctx.modelRegistry);
 			if (!apiKey) {
 				throw new Error(
-					"No image API credentials found. Login with google-antigravity, or set OPENROUTER_API_KEY, GEMINI_API_KEY, or GOOGLE_API_KEY.",
+					"No image API credentials found. Set LITELLM_API_KEY, OPENAI_API_KEY, OPENROUTER_API_KEY, GEMINI_API_KEY, or GOOGLE_API_KEY.",
 				);
 			}
@@ -624,7 +649,9 @@ export const geminiImageTool: CustomTool<typeof geminiImageSchema, GeminiImageTo
 					? DEFAULT_ANTIGRAVITY_MODEL
 					: provider === "openrouter"
 						? DEFAULT_OPENROUTER_MODEL
-						: DEFAULT_MODEL;
+						: provider === "openai"
+							? DEFAULT_OPENAI_IMAGE_MODEL
+							: DEFAULT_MODEL;
 			const resolvedModel = provider === "openrouter" ? resolveOpenRouterModel(model) : model;
 			const cwd = ctx.sessionManager.getCwd();
@@ -786,6 +813,86 @@ export const geminiImageTool: CustomTool<typeof geminiImageSchema, GeminiImageTo
 				};
 			}
+			if (provider === "openai") {
+				const openaiPrompt = assemblePrompt(params);
+				const size = params.image_size ?? ctx.settings?.get("providers.imageSize") ?? DEFAULT_OPENAI_IMAGE_SIZE;
+				const quality = ctx.settings?.get("providers.imageQuality") ?? DEFAULT_OPENAI_IMAGE_QUALITY;
+				const baseUrl = $env.LITELLM_BASE_URL ?? $env.OPENAI_BASE_URL ?? "https://api.openai.com";
+				const requestBody = {
+					model: DEFAULT_OPENAI_IMAGE_MODEL,
+					prompt: openaiPrompt,
+					n: 1,
+					size,
+					quality,
+				};
+				const response = await fetch(`${baseUrl}/openai/v1/images/generations`, {
+					method: "POST",
+					headers: {
+						Authorization: `Bearer ${apiKey.apiKey}`,
+						"Content-Type": "application/json",
+					},
+					body: JSON.stringify(requestBody),
+					signal: requestSignal,
+				});
+				const rawText = await response.text();
+				if (!response.ok) {
+					let message = rawText;
+					try {
+						const parsed = JSON.parse(rawText) as { error?: { message?: string } };
+						message = parsed.error?.message ?? message;
+					} catch {
+						// Keep raw text.
+					}
+					throw new Error(`OpenAI image request failed (${response.status}): ${message}`);
+				}
+				const data = JSON.parse(rawText) as OpenAIImageResponse;
+				const b64 = data.data?.[0]?.b64_json;
+				if (!b64) {
+					return {
+						content: [{ type: "text", text: "No image data returned from OpenAI." }],
+						details: {
+							provider,
+							model: DEFAULT_OPENAI_IMAGE_MODEL,
+							imageCount: 0,
+							imagePaths: [],
+							images: [],
+						},
+					};
+				}
+				const image: InlineImageData = { data: b64, mimeType: "image/png" };
+				const imagePaths = await saveImagesToTemp([image]);
+				const revisedPrompt = data.data[0]?.revised_prompt ?? undefined;
+				return {
+					content: [
+						{
+							type: "text",
+							text: buildResponseSummary(provider, DEFAULT_OPENAI_IMAGE_MODEL, imagePaths, revisedPrompt),
+						},
+					],
+					details: {
+						provider,
+						model: DEFAULT_OPENAI_IMAGE_MODEL,
+						imageCount: 1,
+						imagePaths,
+						images: [image],
+						responseText: revisedPrompt,
+						usage: data.usage
+							? {
+									promptTokenCount: data.usage.input_tokens,
+									candidatesTokenCount: data.usage.output_tokens,
+									totalTokenCount: data.usage.total_tokens,
+								}
+							: undefined,
+					},
+				};
+			}
 			const parts = [] as Array<{ text?: string; inlineData?: InlineImageData }>;
 			for (const image of resolvedImages) {
 				parts.push({ inlineData: image });