npm - niahere - Versions diffs - 0.2.89 → 0.2.90 - Mend

niahere 0.2.89 → 0.2.90

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/package.json +1 -1
package/skills/image-generation/SKILL.md +53 -24
package/skills/image-generation/scripts/generate_image.py +116 -61

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "niahere",
-  "version": "0.2.89",
+  "version": "0.2.90",
   "description": "A personal AI assistant daemon — chat, scheduled jobs, persona system, extensible via skills.",
   "type": "module",
   "scripts": {

package/skills/image-generation/SKILL.md CHANGED Viewed

@@ -14,12 +14,14 @@ General-purpose image generation skill supporting **OpenAI** (default) and **Gem
 ## Setup
 API keys in `~/.niahere/config.yaml`:
 ```yaml
 openai_api_key: sk-...
 gemini_api_key: AIza...
 ```
 Or set via CLI or environment variables:
 ```bash
 nia config set openai_api_key sk-...
 nia config set gemini_api_key AIza...
@@ -29,25 +31,39 @@ Keys are resolved in order: `--api-key` flag > env var (`$OPENAI_API_KEY` / `$GE
 ## Providers & Models
-| Provider | Default Model | Alternatives |
-|----------|--------------|--------------|
-| **OpenAI** (default) | `gpt-image-1.5` | `gpt-image-1`, `gpt-image-1-mini` |
-| **Gemini** | `gemini-3.1-flash-image-preview` | `gemini-3-pro-image-preview`, `gemini-2.5-flash-image` |
+| Provider             | Default Model                                    | Alternatives                                                                  |
+| -------------------- | ------------------------------------------------ | ----------------------------------------------------------------------------- |
+| **OpenAI** (default) | `gpt-image-2`                                    | `gpt-image-1.5`, `gpt-image-1-mini`                                           |
+| **Gemini**           | `gemini-3.1-flash-image-preview` (Nano Banana 2) | `gemini-3-pro-image-preview` (Nano Banana Pro), `gemini-2.5-flash-image` (GA) |
+`gpt-image-2` (Apr 2026) is the current OpenAI flagship — native reasoning, up to 16 reference images, native 2K. `dall-e-2`/`dall-e-3` were shut off on the API on May 12, 2026.
-Note: `dall-e-2` and `dall-e-3` are deprecated (EOL May 2026). Use `gpt-image-1.5` instead.
+## Per-image pricing (May 2026)
+| Model                            | Price                                                                                |
+| -------------------------------- | ------------------------------------------------------------------------------------ |
+| `gpt-image-2`                    | ~$0.006 (low) → $0.053 (medium 1024) → $0.35 (high 4K). Token-based; Batch API −50%. |
+| `gpt-image-1.5`                  | ~20% cheaper than gpt-image-1 across tiers                                           |
+| `gpt-image-1`                    | low $0.011, medium $0.042, high $0.167 (1024²)                                       |
+| `gemini-3-pro-image-preview`     | $0.134 (1K/2K), $0.24 (4K)                                                           |
+| `gemini-3.1-flash-image-preview` | $0.045 (512), $0.067 (1K), $0.101 (2K), $0.151 (4K)                                  |
+| `gemini-2.5-flash-image`         | $0.039 standard, $0.0195 batch                                                       |
 ## Quick Reference
 ```bash
-SCRIPT="/Users/aman/.shared/skills/image-generation/scripts/generate_image.py"
+SCRIPT="$(dirname "$0")/scripts/generate_image.py"   # or the absolute path under your skills dir
-# Basic generation (OpenAI, default)
+# Basic generation (OpenAI gpt-image-2, default)
 python3 $SCRIPT --prompt "A sunset over mountains"
 # High quality
 python3 $SCRIPT --prompt "Oil painting of a forest" --quality high
-# With aspect ratio
+# 2K output (OpenAI gpt-image-2; Gemini 2K via --resolution)
+python3 $SCRIPT --prompt "Detailed cityscape" --resolution 2K
+# Aspect ratio
 python3 $SCRIPT --prompt "Portrait photo" --aspect-ratio 3:4
 # With reference image (OpenAI edit mode)
@@ -56,6 +72,10 @@ python3 $SCRIPT --prompt "Add a rainbow to this scene" --reference photo.png
 # Gemini provider
 python3 $SCRIPT --provider gemini --prompt "Watercolor sunset" --aspect-ratio 16:9
+# Gemini 4K (use Pro — 3.1 Flash currently ignores 2K/4K and returns ~1K)
+python3 $SCRIPT --provider gemini --model gemini-3-pro-image-preview \
+  --prompt "Cinematic landscape" --resolution 4K --aspect-ratio 16:9
 # Gemini with reference
 python3 $SCRIPT --provider gemini --reference face.png \
   --prompt "Same person sitting in a cafe, natural lighting" --aspect-ratio 9:16
@@ -66,17 +86,24 @@ python3 $SCRIPT --prompt "A cat" --output /path/to/output/
 ## Aspect Ratios
-| Use Case | Ratio | Notes |
-|----------|-------|-------|
-| Square / social | `1:1` | Default |
-| Portrait | `3:4` or `2:3` | Vertical |
-| Landscape | `4:3` or `16:9` | Wide |
-| Phone / story | `9:16` | Vertical tall |
-| Ultrawide | `21:9` | Cinematic |
+| Use Case        | Ratio           | Notes         |
+| --------------- | --------------- | ------------- |
+| Square / social | `1:1`           | Default       |
+| Portrait        | `3:4` or `2:3`  | Vertical      |
+| Landscape       | `4:3` or `16:9` | Wide          |
+| Phone / story   | `9:16`          | Vertical tall |
+| Ultrawide       | `21:9`          | Cinematic     |
+OpenAI maps ratios to closest supported size. At `--resolution 1K` (default): `1024x1024`, `1024x1536`, `1536x1024`. At `--resolution 2K`: `2048x2048`, `1536x2048`, `2048x1536` (gpt-image-2 only; dims must be multiples of 16, max ~2048).
+## Resolution (`--resolution`)
-OpenAI maps ratios to closest supported size (`1024x1024`, `1024x1536`, `1536x1024`).
+- OpenAI: `1K` (default) or `2K` (gpt-image-2 only).
+- Gemini: `1K` (default), `2K`, or `4K`. **Caveat:** `gemini-3.1-flash-image-preview` currently ignores 2K/4K and returns ~1K — use `gemini-3-pro-image-preview` for true 2K/4K.
-## OpenAI Quality (gpt-image-1 only)
+## OpenAI Quality (`--quality`)
+Applies to all `gpt-image-*` models.
 - `auto` (default) — let the model decide
 - `high` — best quality, slower
@@ -100,6 +127,7 @@ For photorealistic results, use structured JSON prompts covering separate concer
 ```
 Key principles:
 1. **Separate concerns** — one aspect per block
 2. **Specify camera** — lens mm and aperture drive realism
 3. **Light direction** — "soft light from upper right" > "good lighting"
@@ -108,13 +136,14 @@ Key principles:
 ## Provider Selection Guide
-| Need | Use |
-|------|-----|
-| General image gen, highest quality | OpenAI `gpt-image-1.5` |
-| Budget-friendly | OpenAI `gpt-image-1-mini` |
-| Reference-based identity (same face) | Gemini (better at preserving identity from reference) |
-| Image editing / inpainting | OpenAI edit mode (`--reference`) |
-| Free tier / no OpenAI key | Gemini |
+| Need                                 | Use                                                          |
+| ------------------------------------ | ------------------------------------------------------------ |
+| General image gen, highest quality   | OpenAI `gpt-image-2`                                         |
+| Budget-friendly                      | OpenAI `gpt-image-1-mini` or Gemini `gemini-2.5-flash-image` |
+| Reference-based identity (same face) | Gemini (better at preserving identity from reference)        |
+| Image editing / inpainting           | OpenAI edit mode (`--reference`)                             |
+| 4K output                            | Gemini `gemini-3-pro-image-preview` (`--resolution 4K`)      |
+| Free tier / no OpenAI key            | Gemini                                                       |
 ## Combining with Bella

package/skills/image-generation/scripts/generate_image.py CHANGED Viewed

@@ -3,21 +3,25 @@
 General-purpose image generation using OpenAI (default) or Gemini.
 Supports:
-  - OpenAI: gpt-image-1.5 (default), gpt-image-1, gpt-image-1-mini
+  - OpenAI: gpt-image-2 (default), gpt-image-1.5, gpt-image-1-mini
   - Gemini: gemini-3.1-flash-image-preview (default), gemini-3-pro-image-preview, gemini-2.5-flash-image
 Usage:
   # OpenAI (default)
   python3 generate_image.py --prompt "A sunset over mountains"
+  # OpenAI 2K output (gpt-image-2 only)
+  python3 generate_image.py --prompt "Detailed cityscape" --resolution 2K
   # OpenAI with reference image (edit mode)
   python3 generate_image.py --prompt "Add a hot air balloon" --reference photo.png
   # Gemini
   python3 generate_image.py --provider gemini --prompt "A sunset over mountains"
-  # Gemini with reference image
-  python3 generate_image.py --provider gemini --prompt "Same person in a cafe" --reference face.png
+  # Gemini Pro at 4K
+  python3 generate_image.py --provider gemini --model gemini-3-pro-image-preview \\
+    --prompt "Cinematic landscape" --resolution 4K --aspect-ratio 16:9
 """
 from __future__ import annotations
@@ -40,17 +44,26 @@ NIA_CONFIG = NIA_HOME / "config.yaml"
 TIMESTAMP_FORMAT = "%Y%m%d_%H%M%S"
 # --- Provider defaults ---
-OPENAI_DEFAULT_MODEL = "gpt-image-1.5"
+OPENAI_DEFAULT_MODEL = "gpt-image-2"
 GEMINI_DEFAULT_MODEL = "gemini-3.1-flash-image-preview"
 DEFAULT_ASPECT_RATIO = "1:1"
 ALLOWED_ASPECT_RATIOS = (
-    "1:1", "3:4", "4:3", "9:16", "16:9",
-    "2:3", "3:2", "4:5", "5:4", "21:9",
+    "1:1",
+    "3:4",
+    "4:3",
+    "9:16",
+    "16:9",
+    "2:3",
+    "3:2",
+    "4:5",
+    "5:4",
+    "21:9",
 )
-# OpenAI size mappings (closest match for aspect ratio)
-OPENAI_SIZE_MAP = {
+# OpenAI size mappings per resolution (closest match for aspect ratio).
+# 2K caps at 2048; dims must be multiples of 16. gpt-image-2 only.
+OPENAI_SIZE_MAP_1K = {
     "1:1": "1024x1024",
     "3:4": "1024x1536",
     "4:3": "1536x1024",
@@ -62,10 +75,25 @@ OPENAI_SIZE_MAP = {
     "5:4": "1536x1024",
     "21:9": "1536x1024",
 }
+OPENAI_SIZE_MAP_2K = {
+    "1:1": "2048x2048",
+    "3:4": "1536x2048",
+    "4:3": "2048x1536",
+    "9:16": "1536x2048",
+    "16:9": "2048x1536",
+    "2:3": "1536x2048",
+    "3:2": "2048x1536",
+    "4:5": "1536x2048",
+    "5:4": "2048x1536",
+    "21:9": "2048x1536",
+}
-# OpenAI quality options
+# OpenAI quality options (applies to all gpt-image-* models)
 OPENAI_QUALITIES = ("auto", "high", "medium", "low")
+# Resolution choices. OpenAI: 1K|2K (2K requires gpt-image-2). Gemini: 1K|2K|4K.
+ALLOWED_RESOLUTIONS = ("1K", "2K", "4K")
 def safe_mime(path: str) -> str:
     mime, _ = mimetypes.guess_type(path)
@@ -92,6 +120,7 @@ def read_config_key(key: str) -> str:
         return ""
     try:
         import importlib
         yaml = importlib.import_module("yaml")
         with NIA_CONFIG.open("r") as f:
             config = yaml.safe_load(f)
@@ -110,10 +139,7 @@ def resolve_api_key(provider: str, cli_key: str | None) -> str:
         return cli_key
     if provider == "openai":
-        return (
-            os.environ.get("OPENAI_API_KEY", "")
-            or read_config_key("openai_api_key")
-        )
+        return os.environ.get("OPENAI_API_KEY", "") or read_config_key("openai_api_key")
     else:
         return (
             os.environ.get("GEMINI_API_KEY", "")
@@ -124,6 +150,7 @@ def resolve_api_key(provider: str, cli_key: str | None) -> str:
 # --- OpenAI Generation ---
 def generate_openai(
     api_key: str,
     prompt: str,
@@ -139,18 +166,15 @@ def generate_openai(
     return _openai_generate(api_key, prompt, model, size, quality, n)
-def _openai_generate(
-    api_key: str, prompt: str, model: str, size: str, quality: str, n: int
-) -> tuple[bytes, str]:
+def _openai_generate(api_key: str, prompt: str, model: str, size: str, quality: str, n: int) -> tuple[bytes, str]:
     url = "https://api.openai.com/v1/images/generations"
     payload: dict = {
         "model": model,
         "prompt": prompt,
         "n": n,
         "size": size,
-        "response_format": "b64_json",
     }
-    if model == "gpt-image-1":
+    if model.startswith("gpt-image-"):
         payload["quality"] = quality
     req = urllib.request.Request(
@@ -166,8 +190,7 @@ def _openai_generate(
 def _openai_edit(
-    api_key: str, prompt: str, reference_path: str, model: str, size: str,
-    quality: str, n: int
+    api_key: str, prompt: str, reference_path: str, model: str, size: str, quality: str, n: int
 ) -> tuple[bytes, str]:
     """Use OpenAI images/edits endpoint with a reference image."""
     import io
@@ -184,9 +207,7 @@ def _openai_edit(
         filename = Path(filepath).name
         mime = safe_mime(filepath)
         body.write(f"--{boundary}\r\n".encode())
-        body.write(
-            f'Content-Disposition: form-data; name="{name}"; filename="{filename}"\r\n'.encode()
-        )
+        body.write(f'Content-Disposition: form-data; name="{name}"; filename="{filename}"\r\n'.encode())
         body.write(f"Content-Type: {mime}\r\n\r\n".encode())
         with open(filepath, "rb") as f:
             body.write(f.read())
@@ -197,7 +218,7 @@ def _openai_edit(
     add_field("model", model)
     add_field("n", str(n))
     add_field("size", size)
-    if model == "gpt-image-1":
+    if model.startswith("gpt-image-"):
         add_field("quality", quality)
     body.write(f"--{boundary}--\r\n".encode())
@@ -220,9 +241,7 @@ def _openai_request(req: urllib.request.Request) -> tuple[bytes, str]:
             response = json.loads(resp.read().decode("utf-8"))
     except urllib.error.HTTPError as e:
         detail = e.read().decode("utf-8", errors="ignore")
-        raise RuntimeError(
-            f"OpenAI API error (HTTP {e.code}): {detail or e.reason}"
-        ) from e
+        raise RuntimeError(f"OpenAI API error (HTTP {e.code}): {detail or e.reason}") from e
     data_list = response.get("data", [])
     if not data_list:
@@ -237,33 +256,40 @@ def _openai_request(req: urllib.request.Request) -> tuple[bytes, str]:
 # --- Gemini Generation ---
 def generate_gemini(
     api_key: str,
     prompt: str,
     model: str,
     aspect_ratio: str,
+    resolution: str = "1K",
     reference_path: str | None = None,
 ) -> tuple[bytes, str]:
     """Generate image via Gemini API."""
-    url = (
-        "https://generativelanguage.googleapis.com/"
-        f"v1beta/models/{model}:generateContent?key={api_key}"
-    )
+    url = f"https://generativelanguage.googleapis.com/v1beta/models/{model}:generateContent?key={api_key}"
     parts: list[dict] = []
     if reference_path and Path(reference_path).is_file():
-        parts.append({
-            "inlineData": {
-                "mimeType": safe_mime(reference_path),
-                "data": encode_file(reference_path),
+        parts.append(
+            {
+                "inlineData": {
+                    "mimeType": safe_mime(reference_path),
+                    "data": encode_file(reference_path),
+                }
             }
-        })
+        )
     parts.append({"text": prompt})
+    image_config: dict = {"aspectRatio": aspect_ratio}
+    if resolution and resolution != "1K":
+        # gemini-3.1-flash-image-preview currently ignores this and returns ~1K (Google bug);
+        # gemini-3-pro-image-preview honors it. Send anyway so it works once Flash is fixed.
+        image_config["imageSize"] = resolution
     payload = {
         "contents": [{"parts": parts}],
         "generationConfig": {
-            "imageConfig": {"aspectRatio": aspect_ratio},
+            "imageConfig": image_config,
             "responseModalities": ["TEXT", "IMAGE"],
         },
     }
@@ -280,9 +306,7 @@ def generate_gemini(
             response = json.loads(resp.read().decode("utf-8"))
     except urllib.error.HTTPError as e:
         detail = e.read().decode("utf-8", errors="ignore")
-        raise RuntimeError(
-            f"Gemini API error (HTTP {e.code}): {detail or e.reason}"
-        ) from e
+        raise RuntimeError(f"Gemini API error (HTTP {e.code}): {detail or e.reason}") from e
     candidates = response.get("candidates", [])
     if not candidates:
@@ -298,13 +322,12 @@ def generate_gemini(
         if mime and img_data:
             return base64.b64decode(img_data), mime
-    raise RuntimeError(
-        f"No image in Gemini response: {json.dumps(response, indent=2)}"
-    )
+    raise RuntimeError(f"No image in Gemini response: {json.dumps(response, indent=2)}")
 # --- CLI ---
 def main() -> None:
     parser = argparse.ArgumentParser(
         description="Generate images using OpenAI (default) or Gemini.",
@@ -319,39 +342,58 @@ Examples:
         """,
     )
     parser.add_argument(
-        "--provider", choices=["openai", "gemini"], default="openai",
+        "--provider",
+        choices=["openai", "gemini"],
+        default="openai",
         help="Image generation provider. Default: openai.",
     )
     parser.add_argument(
-        "--prompt", required=True,
+        "--prompt",
+        required=True,
         help="Text prompt describing the image to generate.",
     )
     parser.add_argument(
-        "--reference", default=None,
+        "--reference",
+        default=None,
         help="Path to a reference image. OpenAI uses edit mode; Gemini includes it as context.",
     )
     parser.add_argument(
-        "--model", default=None,
+        "--model",
+        default=None,
         help=f"Model override. Defaults: OpenAI={OPENAI_DEFAULT_MODEL}, Gemini={GEMINI_DEFAULT_MODEL}.",
     )
     parser.add_argument(
-        "--aspect-ratio", default=DEFAULT_ASPECT_RATIO, choices=ALLOWED_ASPECT_RATIOS,
+        "--aspect-ratio",
+        default=DEFAULT_ASPECT_RATIO,
+        choices=ALLOWED_ASPECT_RATIOS,
         help=f"Aspect ratio. Default: {DEFAULT_ASPECT_RATIO}.",
     )
     parser.add_argument(
-        "--quality", default="auto", choices=OPENAI_QUALITIES,
-        help="OpenAI quality (gpt-image-1 only). Default: auto.",
+        "--quality",
+        default="auto",
+        choices=OPENAI_QUALITIES,
+        help="OpenAI quality (all gpt-image-* models). Default: auto.",
+    )
+    parser.add_argument(
+        "--resolution",
+        default="1K",
+        choices=ALLOWED_RESOLUTIONS,
+        help="Output resolution. OpenAI: 1K|2K (2K needs gpt-image-2). Gemini: 1K|2K|4K (2K/4K reliable on Pro only). Default: 1K.",
     )
     parser.add_argument(
-        "--n", type=int, default=1,
+        "--n",
+        type=int,
+        default=1,
         help="Number of images (OpenAI only). Default: 1.",
     )
     parser.add_argument(
-        "--output", default=None,
+        "--output",
+        default=None,
         help="Output path. Directory = timestamped file. Default: /tmp/.",
     )
     parser.add_argument(
-        "--api-key", default=None,
+        "--api-key",
+        default=None,
         help="API key override. Otherwise reads from env var or ~/.niahere/config.yaml.",
     )
     args = parser.parse_args()
@@ -364,8 +406,7 @@ Examples:
         config_key = "openai_api_key" if provider == "openai" else "gemini_api_key"
         env_var = "OPENAI_API_KEY" if provider == "openai" else "GEMINI_API_KEY"
         raise SystemExit(
-            f"Missing API key. Provide --api-key, set {env_var} in environment, "
-            f"or add {config_key} to {NIA_CONFIG}."
+            f"Missing API key. Provide --api-key, set {env_var} in environment, or add {config_key} to {NIA_CONFIG}."
         )
     if args.reference and not Path(args.reference).expanduser().is_file():
@@ -375,15 +416,29 @@ Examples:
     try:
         if provider == "openai":
-            size = OPENAI_SIZE_MAP.get(args.aspect_ratio, "1024x1024")
+            if args.resolution == "4K":
+                raise SystemExit("OpenAI does not support 4K via this script — use --provider gemini --resolution 4K.")
+            if args.resolution == "2K" and model != "gpt-image-2":
+                raise SystemExit(f"2K is only supported on gpt-image-2 (got --model {model}).")
+            size_map = OPENAI_SIZE_MAP_2K if args.resolution == "2K" else OPENAI_SIZE_MAP_1K
+            size = size_map.get(args.aspect_ratio, size_map["1:1"])
             image_data, mime = generate_openai(
-                api_key=api_key, prompt=args.prompt, model=model,
-                size=size, quality=args.quality, reference_path=ref, n=args.n,
+                api_key=api_key,
+                prompt=args.prompt,
+                model=model,
+                size=size,
+                quality=args.quality,
+                reference_path=ref,
+                n=args.n,
             )
         else:
             image_data, mime = generate_gemini(
-                api_key=api_key, prompt=args.prompt, model=model,
-                aspect_ratio=args.aspect_ratio, reference_path=ref,
+                api_key=api_key,
+                prompt=args.prompt,
+                model=model,
+                aspect_ratio=args.aspect_ratio,
+                resolution=args.resolution,
+                reference_path=ref,
             )
         ext = ".png" if "png" in mime else ".jpg"
@@ -391,7 +446,7 @@ Examples:
         out.parent.mkdir(parents=True, exist_ok=True)
         out.write_bytes(image_data)
         print(f"Saved: {out}")
-        print(f"Provider: {provider} | Model: {model} | Size/Ratio: {args.aspect_ratio}")
+        print(f"Provider: {provider} | Model: {model} | Ratio: {args.aspect_ratio} | Resolution: {args.resolution}")
     except Exception as exc:
         print(f"Error: {exc}", file=sys.stderr)
         raise SystemExit(1) from exc