npm - @akshayram1/omnibrowser-agent - Versions diffs - 0.2.6 → 0.2.26 - Mend

@akshayram1/omnibrowser-agent 0.2.6 → 0.2.26

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (23) hide show

package/README.md +219 -110
package/dist/background.js +24 -5
package/dist/background.js.map +2 -2
package/dist/content.js +120 -4
package/dist/content.js.map +3 -3
package/dist/lib.js +264 -58
package/dist/lib.js.map +3 -3
package/dist/popup.html +7 -1
package/dist/popup.js +19 -1
package/dist/popup.js.map +2 -2
package/dist/types/core/prompt.d.ts +3 -0
package/dist/types/core/webllm-bridge.d.ts +33 -0
package/dist/types/lib/index.d.ts +2 -0
package/dist/types/shared/contracts.d.ts +4 -0
package/dist/types/shared/parse-action.d.ts +2 -1
package/docs/EMBEDDING.md +3 -14
package/docs/ROADMAP.md +8 -13
package/docs/arch.md +220 -0
package/index.html +1204 -198
package/package.json +1 -1
package/plan.md +114 -0
package/styles.css +654 -293
package/vercel.json +7 -2

package/README.md CHANGED Viewed

@@ -1,183 +1,292 @@
 # omnibrowser-agent
+[![npm](https://img.shields.io/npm/v/@akshayram1/omnibrowser-agent)](https://www.npmjs.com/package/@akshayram1/omnibrowser-agent)
 [![License: MIT](https://img.shields.io/badge/License-MIT-blue.svg)](LICENSE)
-[![Version](https://img.shields.io/badge/version-0.2.2-green.svg)](package.json)
-Local-first open-source browser AI operator using in-browser planning and page actions.
-## Why this project
-- Privacy-first: run agent logic in browser
-- No per-request cloud token costs
-- Dual delivery:
-  - Browser extension mode
-  - Embeddable library mode for web apps
-- Hybrid control modes:
-  - Autonomous
-  - Human-approved
-## Stack
-- MV3 browser extension runtime
-- TypeScript + esbuild
-- Pluggable planner bridges: WebLLM (local, in-browser)
+Local-first browser AI operator. Plans and executes DOM actions entirely in the browser — no API keys, no cloud costs, no data leaving your machine.
+[Live Demo](https://omnibrowser-agent.vercel.app/examples/chatbot/) · [Embedding Guide](docs/EMBEDDING.md) · [Architecture](docs/arch.md) · [Deployment](docs/DEPLOYMENT.md) · [Roadmap](docs/ROADMAP.md)
+---
+## Architecture
+```mermaid
+flowchart TB
+    subgraph DELIVERY["Delivery Layer"]
+        EXT["🧩 Chrome Extension\npopup + background worker"]
+        LIB["📦 npm Library\ncreateBrowserAgent()"]
+    end
+    subgraph ORCHESTRATION["Orchestration"]
+        BG["background/index.ts\nSession & tick loop"]
+        BA["BrowserAgent class\nrunLoop() / resume() / stop()"]
+    end
+    subgraph CORE["Core  (src/core/)"]
+        PL["planner.ts\nheuristicPlan() / webllm bridge\nplanNextAction()"]
+        OB["observer.ts\ncollectSnapshot()\nDOM candidates + visibility filter"]
+        EX["executor.ts\nexecuteAction()\nclick / type / navigate\nscroll / focus / wait"]
+    end
+    subgraph SHARED["Shared  (src/shared/)"]
+        CT["contracts.ts\nAgentAction · PageSnapshot\nAgentSession · PlannerResult"]
+        SF["safety.ts\nassessRisk()\nsafe / review / blocked"]
+        PA["parse-action.ts\nparseAction()\nparsePlannerResult()"]
+    end
+    subgraph OUTCOMES["Action Outcomes"]
+        direction LR
+        OK["✅ safe → execute"]
+        RV["⚠️ review → needs approval"]
+        BL["🚫 blocked → stop"]
+    end
+    subgraph PLANNERS["Planner Modes"]
+        direction LR
+        HP["Heuristic\nzero deps · offline\nregex patterns"]
+        WL["WebLLM\non-device · WebGPU\nwindow.__browserAgentWebLLM"]
+    end
+    EXT --> BG
+    LIB --> BA
+    BG -. "chrome.tabs.sendMessage" .-> CORE
+    BA --> CORE
+    PL --> OB
+    PL --> SHARED
+    OB --> SHARED
+    EX --> SHARED
+    SF --> OUTCOMES
+    PL --> PLANNERS
+```
-## Project structure
+---
-- `src/background` session orchestration
-- `src/content` page observer/planner/executor
-- `src/popup` control panel
-- `src/lib` embeddable runtime API
-- `src/shared` contracts and safety
+## How it works — one tick
-## Quick start
+```
+goal + history + memory
+        │
+        ▼
+observer.collectSnapshot()  ──→  PageSnapshot (url, title, candidates[])
+        │
+        ▼
+planner.planNextAction()    ──→  PlannerResult { action, evaluation?, memory?, nextGoal? }
+        │
+        ▼
+safety.assessRisk(action)   ──→  safe | review | blocked
+        │
+   ┌────┴─────────────────────┐
+blocked             review (human-approved mode)
+   │                          │
+  stop              pause → user approves → resume
+                              │
+                         safe / approved
+                              │
+                              ▼
+             executor.executeAction(action)  ──→  result string
+                              │
+                              ▼
+                   session.history.push(result)
+                   → next tick
+```
-1. Install dependencies:
+The planner uses a **reflection loop** before each action: it evaluates what happened last step, maintains working memory across steps, and states its next goal — giving the agent much better multi-step reasoning.
-```bash
-npm install
-```
+---
-2. Build extension:
+## Install
 ```bash
-npm run build
+npm install @akshayram1/omnibrowser-agent
 ```
-3. Load extension in Chromium:
-- Open `chrome://extensions`
-- Enable Developer Mode
-- Click **Load unpacked**
-- Select `dist`
+---
-## How to use
-1. Open a target website tab
-2. Open extension popup
-3. Enter goal (for example: `search contact John Doe in CRM and open profile`)
-4. Select mode/planner
-5. Click Start
-6. If mode is `human-approved`, click **Approve pending action** on review steps
-## Use as a web library
+## Quick start
 ```ts
 import { createBrowserAgent } from "@akshayram1/omnibrowser-agent";
 const agent = createBrowserAgent({
-  goal: "Open CRM and find customer John Smith",
-  mode: "human-approved",
-  planner: { kind: "heuristic" }
+  goal: "Search for contact Jane Doe and open her profile",
+  mode: "human-approved",        // or "autonomous"
+  planner: { kind: "heuristic" } // or "webllm"
 }, {
-  onStep: (result) => console.log(result.message),
-  onApprovalRequired: (action) => console.log("Needs approval:", action),
-  onDone: (result) => console.log("Done:", result.message),
-  onMaxStepsReached: (session) => console.log("Max steps hit", session.history)
+  onStep:             (result, session) => console.log(result.message),
+  onApprovalRequired: (action, session) => console.log("Review:", action),
+  onDone:             (result, session) => console.log("Done:", result.message),
+  onError:            (err,    session) => console.error(err),
+  onMaxStepsReached:  (session)         => console.log("Max steps hit"),
 });
 await agent.start();
-// Resume after approval:
+// After onApprovalRequired fires:
 await agent.resume();
-// Inspect state at any time:
-console.log(agent.isRunning, agent.hasPendingAction);
-// Stop at any time:
+// Cancel at any time:
 agent.stop();
 ```
-### Supported actions
+---
+## Planner modes
+| Mode | Description | When to use |
+|---|---|---|
+| `heuristic` | Zero-dependency regex planner. Works fully offline. | Simple, predictable goals — navigate, fill, click |
+| `webllm` | On-device LLM via WebGPU. Fully private, no API calls. | Open-ended, multi-step, language-heavy goals |
+### WebLLM with a custom system prompt
+```ts
+const agent = createBrowserAgent({
+  goal: "Fill the checkout form",
+  planner: {
+    kind: "webllm",
+    systemPrompt: "You are a careful checkout assistant. Never submit before all required fields are filled."
+  }
+});
+```
+See [docs/EMBEDDING.md](docs/EMBEDDING.md) for the full WebLLM bridge wiring guide.
+### Recommended WebLLM models
+- `Llama-3.2-1B-Instruct-q4f16_1-MLC` — fast, ~600 MB
+- `Llama-3.2-3B-Instruct-q4f16_1-MLC` — better quality, ~1.5 GB
+- `Phi-3.5-mini-instruct-q4f16_1-MLC` — strong quality, ~2 GB
+- `Mistral-7B-Instruct-v0.3-q4f16_1-MLC` — balanced quality, ~4.1 GB
+- `Qwen2.5-7B-Instruct-q4f16_1-MLC` — strongest quality, ~4.3 GB
+- `Llama-3.1-8B-Instruct-q4f16_1-MLC` — strong reasoning, ~4.8 GB
+Model availability can vary by WebLLM release/build; if one fails to load, use a smaller fallback like `Llama-3.2-1B-Instruct-q4f16_1-MLC`.
-| Action     | Description                              |
-|------------|------------------------------------------|
-| `click`    | Click an element by CSS selector         |
-| `type`     | Type text into an input or textarea      |
-| `navigate` | Navigate to a URL                        |
-| `extract`  | Extract text from an element             |
-| `scroll`   | Scroll a container or the page           |
-| `focus`    | Focus an element (useful for dropdowns)  |
-| `wait`     | Pause for a given number of milliseconds |
-| `done`     | Signal task completion                   |
+---
+## Agent modes
+| Mode | Behaviour |
+|---|---|
+| `autonomous` | All `safe` and `review` actions execute without pause |
+| `human-approved` | `review`-rated actions pause and emit `onApprovalRequired` — call `resume()` to continue |
-### AbortSignal support
+---
+## Supported actions
+| Action | Description | Risk |
+|---|---|---|
+| `navigate` | Navigate to a URL (http/https only) | safe |
+| `click` | Click an element by CSS selector | safe / review |
+| `type` | Type text into an input or textarea | safe / review |
+| `scroll` | Scroll a container or the page | safe |
+| `focus` | Focus an element | safe |
+| `wait` | Pause for N milliseconds | safe |
+| `extract` | Extract text from an element | review |
+| `done` | Signal task completion | safe |
+---
+## AbortSignal support
 ```ts
 const controller = new AbortController();
 const agent = createBrowserAgent({ goal: "...", signal: controller.signal });
 agent.start();
-// Cancel from outside:
-controller.abort();
+controller.abort(); // cancel from outside
 ```
-See full integration guide in `docs/EMBEDDING.md`.
+---
-## Example site (embedded usage)
+## Chrome Extension
-1. Build library assets:
+1. Build:
 ```bash
 npm run build
 ```
-2. Serve the repository root (required for browser ESM import paths):
+2. Open `chrome://extensions`, enable **Developer Mode**, click **Load unpacked**, select `dist/`.
-```bash
-python3 -m http.server 4173
-```
+3. Open any tab, enter a goal in the popup, pick a mode, and click **Start**.
-3. Open:
+See [docs/DEPLOYMENT.md](docs/DEPLOYMENT.md) for publishing and CI pipeline details.
-- `http://localhost:4173/examples/simple-site/`
+---
-The example uses `createBrowserAgent` from `dist/lib.js` and includes UI buttons for start/approve/stop.
-It is preconfigured to use `webllm` planner mode and loads `@mlc-ai/web-llm` from CDN in the example page.
+## Project structure
+```
+src/
+├── background/      Extension service worker — session management
+├── content/         Extension content script — runs in page context
+├── core/            Shared engine (planner, observer, executor)
+│   ├── planner.ts
+│   ├── observer.ts
+│   └── executor.ts
+├── lib/             npm library entry — BrowserAgent class
+│   └── index.ts
+├── popup/           Extension popup UI
+└── shared/          Types, safety, and parse utilities
+    ├── contracts.ts
+    ├── safety.ts
+    └── parse-action.ts
+```
+---
 ## Changelog
+### v0.2.6
+- Reflection-before-action pattern (`evaluation → memory → next_goal → action`) — agent reasons about each step before acting
+- Working memory carried across ticks for better multi-step goals
+- `parsePlannerResult()` exported from the library
+- `systemPrompt` option in `PlannerConfig` — pass your own prompt without rewriting the bridge
+- Thought bubble (💭) messages in the live demo chat showing the agent's next intent
+### v0.2.4 — v0.2.5
+- CI pipeline: auto version bump on push to main
+- Removed page-agent dependency — reflection pattern implemented natively
+- Chatbot demo redesign: right-aligned user messages, typing indicator, tab navigation (CRM + Task Manager)
+- `parsePlannerResult()` and `PlannerResult` type exported from library
 ### v0.2.2
-- SDK/extension separation: core logic moved to `src/core/` shared between extension and npm library
+- SDK/extension separation: core logic in `src/core/` shared between extension and npm library
 - 22 unit tests across planner and safety modules
 - Action verification in executor (disabled-check, value-verify, empty-check)
 - `CandidateElement.label` from associated `<label>` elements
 - Retry loop with `lastError` fed back to planner on failure
-- `parseAction` utility exported from the library
 ### v0.2.0
-- **New actions**: `scroll` and `focus`
-- **Smarter safety**: risk assessment now checks element label/text rather than CSS selector strings
-- **Improved heuristic planner**: handles navigate, fill, click, and search goal patterns with regex matching
-- **Better page observation**: filters hidden/invisible elements, includes `placeholder` in candidate data, captures up to 60 candidates
-- **Library API**: added `resume()`, `isRunning` and `hasPendingAction` getters, `onMaxStepsReached` event, and `AbortSignal` support
-- **Executor**: uses `InputEvent` for proper framework compatibility, added keyboard event dispatch
-- **License**: added author name
+- New actions: `scroll` and `focus`
+- Smarter safety: risk assessment checks element label/text
+- Improved heuristic planner with regex pattern matching
+- Better page observation: filters invisible elements, up to 60 candidates
+- Library API: `resume()`, `isRunning`, `hasPendingAction`, `onMaxStepsReached`, `AbortSignal`
 ### v0.1.0
-- Extension runtime loop
-- Shared action contracts
-- Heuristic + WebLLM planner switch
-- Human-approved mode
-## Planner modes
-| Mode | Description |
-|---|---|
-| `heuristic` | Zero-dependency regex-based planner. Works offline. Good for simple, predictable goals. |
-| `webllm` | Delegates to a local WebLLM bridge on `window.__browserAgentWebLLM`. Fully private, no API calls, runs on-device via WebGPU. |
+- Extension runtime loop, shared action contracts, heuristic + WebLLM planner, human-approved mode
-## Notes
+---
-- Local inference has no API usage charges, but uses device CPU/GPU/memory.
-- `webllm` mode expects a bridge implementation attached to `window.__browserAgentWebLLM`. See `docs/EMBEDDING.md` for a complete example.
+## Docs
-## Roadmap
+- [Embedding Guide](docs/EMBEDDING.md) — integrate into any web app
+- [Architecture](docs/arch.md) — layer-by-layer breakdown
+- [Deployment](docs/DEPLOYMENT.md) — npm publish, Vercel, Chrome extension, CI
+- [Roadmap](docs/ROADMAP.md) — planned features
-See [docs/ROADMAP.md](docs/ROADMAP.md).
+---
 ## License

package/dist/background.js CHANGED Viewed

@@ -1,14 +1,29 @@
 // src/background/index.ts
 var sessions = /* @__PURE__ */ new Map();
-function makeSession(tabId, goal, mode, plannerKind) {
+function normalizePlannerConfig(rawPlanner) {
+  if (typeof rawPlanner === "string" && (rawPlanner === "heuristic" || rawPlanner === "webllm")) {
+    return { kind: rawPlanner };
+  }
+  if (typeof rawPlanner === "object" && rawPlanner !== null) {
+    const record = rawPlanner;
+    const kind = record.kind;
+    if (kind === "heuristic" || kind === "webllm") {
+      return {
+        kind,
+        modelId: typeof record.modelId === "string" && record.modelId.trim() ? record.modelId : void 0,
+        systemPrompt: typeof record.systemPrompt === "string" && record.systemPrompt.trim() ? record.systemPrompt : void 0
+      };
+    }
+  }
+  return { kind: "heuristic" };
+}
+function makeSession(tabId, goal, mode, planner) {
   return {
     id: crypto.randomUUID(),
     tabId,
     goal,
     mode,
-    planner: {
-      kind: plannerKind
-    },
+    planner,
     history: [],
     isRunning: true
   };
@@ -23,6 +38,10 @@ async function tick(tabId) {
     session
   });
   session.history.push(result.message);
+  if (result.reflection?.memory !== void 0) {
+    session.memory = result.reflection.memory;
+  }
+  session.lastError = result.status === "error" ? result.message : void 0;
   if (result.status === "needs_approval") {
     session.pendingAction = result.action;
     session.isRunning = false;
@@ -37,7 +56,7 @@ async function tick(tabId) {
 }
 chrome.runtime.onMessage.addListener((message, _sender, sendResponse) => {
   if (message.type === "START_AGENT") {
-    const session = makeSession(message.tabId, message.goal, message.mode, message.planner);
+    const session = makeSession(message.tabId, message.goal, message.mode, normalizePlannerConfig(message.planner));
     sessions.set(message.tabId, session);
     tick(message.tabId).catch((error) => {
       const failed = sessions.get(message.tabId);

package/dist/background.js.map CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "version": 3,
   "sources": ["../src/background/index.ts"],
-  "sourcesContent": ["import type { AgentMode, AgentSession, PlannerKind } from \"../shared/contracts\";\n\nconst sessions = new Map<number, AgentSession>();\n\nfunction makeSession(tabId: number, goal: string, mode: AgentMode, plannerKind: PlannerKind): AgentSession {\n  return {\n    id: crypto.randomUUID(),\n    tabId: tabId,\n    goal,\n    mode,\n    planner: {\n      kind: plannerKind\n    },\n    history: [],\n    isRunning: true\n  };\n}\n\nasync function tick(tabId: number) {\n  const session = sessions.get(tabId);\n  if (!session || !session.isRunning) {\n    return;\n  }\n\n  const result = await chrome.tabs.sendMessage(tabId, {\n    type: \"AGENT_TICK\",\n    session\n  });\n\n  session.history.push(result.message);\n\n  if (result.status === \"needs_approval\") {\n    session.pendingAction = result.action;\n    session.isRunning = false;\n    return;\n  }\n\n  session.pendingAction = undefined;\n\n  if ([\"done\", \"blocked\", \"error\"].includes(result.status)) {\n    session.isRunning = false;\n    return;\n  }\n\n  setTimeout(() => tick(tabId), 600);\n}\n\nchrome.runtime.onMessage.addListener((message, _sender, sendResponse) => {\n  if (message.type === \"START_AGENT\") {\n    const session = makeSession(message.tabId, message.goal, message.mode, message.planner);\n    sessions.set(message.tabId, session);\n    tick(message.tabId).catch((error) => {\n      const failed = sessions.get(message.tabId);\n      if (failed) {\n        failed.history.push(`Error: ${String(error)}`);\n        failed.isRunning = false;\n      }\n    });\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"APPROVE_ACTION\") {\n    const session = sessions.get(message.tabId);\n    if (!session) {\n      sendResponse({ ok: false, error: \"No active session\" });\n      return true;\n    }\n\n    session.isRunning = true;\n    tick(message.tabId).catch((error) => {\n      session.history.push(`Error: ${String(error)}`);\n      session.isRunning = false;\n    });\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"STOP_AGENT\") {\n    const session = sessions.get(message.tabId);\n    if (session) {\n      session.isRunning = false;\n    }\n    chrome.tabs.sendMessage(message.tabId, { type: \"AGENT_STOP\" }).catch(() => undefined);\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"GET_STATUS\") {\n    const lines = Array.from(sessions.values()).map(\n      (session) =>\n        `${session.isRunning ? \"RUNNING\" : \"IDLE\"} ${session.tabId}: ${session.goal.slice(0, 45)}${session.goal.length > 45 ? \"...\" : \"\"}`\n    );\n\n    sendResponse({ status: lines.length > 0 ? lines.join(\"\\n\") : \"Idle\" });\n    return true;\n  }\n\n  return false;\n});\n"],
-  "mappings": ";AAEA,IAAM,WAAW,oBAAI,IAA0B;AAE/C,SAAS,YAAY,OAAe,MAAc,MAAiB,aAAwC;AACzG,SAAO;AAAA,IACL,IAAI,OAAO,WAAW;AAAA,IACtB;AAAA,IACA;AAAA,IACA;AAAA,IACA,SAAS;AAAA,MACP,MAAM;AAAA,IACR;AAAA,IACA,SAAS,CAAC;AAAA,IACV,WAAW;AAAA,EACb;AACF;AAEA,eAAe,KAAK,OAAe;AACjC,QAAM,UAAU,SAAS,IAAI,KAAK;AAClC,MAAI,CAAC,WAAW,CAAC,QAAQ,WAAW;AAClC;AAAA,EACF;AAEA,QAAM,SAAS,MAAM,OAAO,KAAK,YAAY,OAAO;AAAA,IAClD,MAAM;AAAA,IACN;AAAA,EACF,CAAC;AAED,UAAQ,QAAQ,KAAK,OAAO,OAAO;AAEnC,MAAI,OAAO,WAAW,kBAAkB;AACtC,YAAQ,gBAAgB,OAAO;AAC/B,YAAQ,YAAY;AACpB;AAAA,EACF;AAEA,UAAQ,gBAAgB;AAExB,MAAI,CAAC,QAAQ,WAAW,OAAO,EAAE,SAAS,OAAO,MAAM,GAAG;AACxD,YAAQ,YAAY;AACpB;AAAA,EACF;AAEA,aAAW,MAAM,KAAK,KAAK,GAAG,GAAG;AACnC;AAEA,OAAO,QAAQ,UAAU,YAAY,CAAC,SAAS,SAAS,iBAAiB;AACvE,MAAI,QAAQ,SAAS,eAAe;AAClC,UAAM,UAAU,YAAY,QAAQ,OAAO,QAAQ,MAAM,QAAQ,MAAM,QAAQ,OAAO;AACtF,aAAS,IAAI,QAAQ,OAAO,OAAO;AACnC,SAAK,QAAQ,KAAK,EAAE,MAAM,CAAC,UAAU;AACnC,YAAM,SAAS,SAAS,IAAI,QAAQ,KAAK;AACzC,UAAI,QAAQ;AACV,eAAO,QAAQ,KAAK,UAAU,OAAO,KAAK,CAAC,EAAE;AAC7C,eAAO,YAAY;AAAA,MACrB;AAAA,IACF,CAAC;AACD,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,kBAAkB;AACrC,UAAM,UAAU,SAAS,IAAI,QAAQ,KAAK;AAC1C,QAAI,CAAC,SAAS;AACZ,mBAAa,EAAE,IAAI,OAAO,OAAO,oBAAoB,CAAC;AACtD,aAAO;AAAA,IACT;AAEA,YAAQ,YAAY;AACpB,SAAK,QAAQ,KAAK,EAAE,MAAM,CAAC,UAAU;AACnC,cAAQ,QAAQ,KAAK,UAAU,OAAO,KAAK,CAAC,EAAE;AAC9C,cAAQ,YAAY;AAAA,IACtB,CAAC;AACD,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,cAAc;AACjC,UAAM,UAAU,SAAS,IAAI,QAAQ,KAAK;AAC1C,QAAI,SAAS;AACX,cAAQ,YAAY;AAAA,IACtB;AACA,WAAO,KAAK,YAAY,QAAQ,OAAO,EAAE,MAAM,aAAa,CAAC,EAAE,MAAM,MAAM,MAAS;AACpF,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,cAAc;AACjC,UAAM,QAAQ,MAAM,KAAK,SAAS,OAAO,CAAC,EAAE;AAAA,MAC1C,CAAC,YACC,GAAG,QAAQ,YAAY,YAAY,MAAM,IAAI,QAAQ,KAAK,KAAK,QAAQ,KAAK,MAAM,GAAG,EAAE,CAAC,GAAG,QAAQ,KAAK,SAAS,KAAK,QAAQ,EAAE;AAAA,IACpI;AAEA,iBAAa,EAAE,QAAQ,MAAM,SAAS,IAAI,MAAM,KAAK,IAAI,IAAI,OAAO,CAAC;AACrE,WAAO;AAAA,EACT;AAEA,SAAO;AACT,CAAC;",
+  "sourcesContent": ["import type { AgentMode, AgentSession, PlannerConfig } from \"../shared/contracts\";\n\nconst sessions = new Map<number, AgentSession>();\n\nfunction normalizePlannerConfig(rawPlanner: unknown): PlannerConfig {\n  if (typeof rawPlanner === \"string\" && (rawPlanner === \"heuristic\" || rawPlanner === \"webllm\")) {\n    return { kind: rawPlanner };\n  }\n\n  if (typeof rawPlanner === \"object\" && rawPlanner !== null) {\n    const record = rawPlanner as Record<string, unknown>;\n    const kind = record.kind;\n    if (kind === \"heuristic\" || kind === \"webllm\") {\n      return {\n        kind,\n        modelId: typeof record.modelId === \"string\" && record.modelId.trim() ? record.modelId : undefined,\n        systemPrompt: typeof record.systemPrompt === \"string\" && record.systemPrompt.trim() ? record.systemPrompt : undefined\n      };\n    }\n  }\n\n  return { kind: \"heuristic\" };\n}\n\nfunction makeSession(tabId: number, goal: string, mode: AgentMode, planner: PlannerConfig): AgentSession {\n  return {\n    id: crypto.randomUUID(),\n    tabId: tabId,\n    goal,\n    mode,\n    planner,\n    history: [],\n    isRunning: true\n  };\n}\n\nasync function tick(tabId: number) {\n  const session = sessions.get(tabId);\n  if (!session || !session.isRunning) {\n    return;\n  }\n\n  const result = await chrome.tabs.sendMessage(tabId, {\n    type: \"AGENT_TICK\",\n    session\n  });\n\n  session.history.push(result.message);\n  if (result.reflection?.memory !== undefined) {\n    session.memory = result.reflection.memory;\n  }\n  session.lastError = result.status === \"error\" ? result.message : undefined;\n\n  if (result.status === \"needs_approval\") {\n    session.pendingAction = result.action;\n    session.isRunning = false;\n    return;\n  }\n\n  session.pendingAction = undefined;\n\n  if ([\"done\", \"blocked\", \"error\"].includes(result.status)) {\n    session.isRunning = false;\n    return;\n  }\n\n  setTimeout(() => tick(tabId), 600);\n}\n\nchrome.runtime.onMessage.addListener((message, _sender, sendResponse) => {\n  if (message.type === \"START_AGENT\") {\n    const session = makeSession(message.tabId, message.goal, message.mode, normalizePlannerConfig(message.planner));\n    sessions.set(message.tabId, session);\n    tick(message.tabId).catch((error) => {\n      const failed = sessions.get(message.tabId);\n      if (failed) {\n        failed.history.push(`Error: ${String(error)}`);\n        failed.isRunning = false;\n      }\n    });\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"APPROVE_ACTION\") {\n    const session = sessions.get(message.tabId);\n    if (!session) {\n      sendResponse({ ok: false, error: \"No active session\" });\n      return true;\n    }\n\n    session.isRunning = true;\n    tick(message.tabId).catch((error) => {\n      session.history.push(`Error: ${String(error)}`);\n      session.isRunning = false;\n    });\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"STOP_AGENT\") {\n    const session = sessions.get(message.tabId);\n    if (session) {\n      session.isRunning = false;\n    }\n    chrome.tabs.sendMessage(message.tabId, { type: \"AGENT_STOP\" }).catch(() => undefined);\n    sendResponse({ ok: true });\n    return true;\n  }\n\n  if (message.type === \"GET_STATUS\") {\n    const lines = Array.from(sessions.values()).map(\n      (session) =>\n        `${session.isRunning ? \"RUNNING\" : \"IDLE\"} ${session.tabId}: ${session.goal.slice(0, 45)}${session.goal.length > 45 ? \"...\" : \"\"}`\n    );\n\n    sendResponse({ status: lines.length > 0 ? lines.join(\"\\n\") : \"Idle\" });\n    return true;\n  }\n\n  return false;\n});\n"],
+  "mappings": ";AAEA,IAAM,WAAW,oBAAI,IAA0B;AAE/C,SAAS,uBAAuB,YAAoC;AAClE,MAAI,OAAO,eAAe,aAAa,eAAe,eAAe,eAAe,WAAW;AAC7F,WAAO,EAAE,MAAM,WAAW;AAAA,EAC5B;AAEA,MAAI,OAAO,eAAe,YAAY,eAAe,MAAM;AACzD,UAAM,SAAS;AACf,UAAM,OAAO,OAAO;AACpB,QAAI,SAAS,eAAe,SAAS,UAAU;AAC7C,aAAO;AAAA,QACL;AAAA,QACA,SAAS,OAAO,OAAO,YAAY,YAAY,OAAO,QAAQ,KAAK,IAAI,OAAO,UAAU;AAAA,QACxF,cAAc,OAAO,OAAO,iBAAiB,YAAY,OAAO,aAAa,KAAK,IAAI,OAAO,eAAe;AAAA,MAC9G;AAAA,IACF;AAAA,EACF;AAEA,SAAO,EAAE,MAAM,YAAY;AAC7B;AAEA,SAAS,YAAY,OAAe,MAAc,MAAiB,SAAsC;AACvG,SAAO;AAAA,IACL,IAAI,OAAO,WAAW;AAAA,IACtB;AAAA,IACA;AAAA,IACA;AAAA,IACA;AAAA,IACA,SAAS,CAAC;AAAA,IACV,WAAW;AAAA,EACb;AACF;AAEA,eAAe,KAAK,OAAe;AACjC,QAAM,UAAU,SAAS,IAAI,KAAK;AAClC,MAAI,CAAC,WAAW,CAAC,QAAQ,WAAW;AAClC;AAAA,EACF;AAEA,QAAM,SAAS,MAAM,OAAO,KAAK,YAAY,OAAO;AAAA,IAClD,MAAM;AAAA,IACN;AAAA,EACF,CAAC;AAED,UAAQ,QAAQ,KAAK,OAAO,OAAO;AACnC,MAAI,OAAO,YAAY,WAAW,QAAW;AAC3C,YAAQ,SAAS,OAAO,WAAW;AAAA,EACrC;AACA,UAAQ,YAAY,OAAO,WAAW,UAAU,OAAO,UAAU;AAEjE,MAAI,OAAO,WAAW,kBAAkB;AACtC,YAAQ,gBAAgB,OAAO;AAC/B,YAAQ,YAAY;AACpB;AAAA,EACF;AAEA,UAAQ,gBAAgB;AAExB,MAAI,CAAC,QAAQ,WAAW,OAAO,EAAE,SAAS,OAAO,MAAM,GAAG;AACxD,YAAQ,YAAY;AACpB;AAAA,EACF;AAEA,aAAW,MAAM,KAAK,KAAK,GAAG,GAAG;AACnC;AAEA,OAAO,QAAQ,UAAU,YAAY,CAAC,SAAS,SAAS,iBAAiB;AACvE,MAAI,QAAQ,SAAS,eAAe;AAClC,UAAM,UAAU,YAAY,QAAQ,OAAO,QAAQ,MAAM,QAAQ,MAAM,uBAAuB,QAAQ,OAAO,CAAC;AAC9G,aAAS,IAAI,QAAQ,OAAO,OAAO;AACnC,SAAK,QAAQ,KAAK,EAAE,MAAM,CAAC,UAAU;AACnC,YAAM,SAAS,SAAS,IAAI,QAAQ,KAAK;AACzC,UAAI,QAAQ;AACV,eAAO,QAAQ,KAAK,UAAU,OAAO,KAAK,CAAC,EAAE;AAC7C,eAAO,YAAY;AAAA,MACrB;AAAA,IACF,CAAC;AACD,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,kBAAkB;AACrC,UAAM,UAAU,SAAS,IAAI,QAAQ,KAAK;AAC1C,QAAI,CAAC,SAAS;AACZ,mBAAa,EAAE,IAAI,OAAO,OAAO,oBAAoB,CAAC;AACtD,aAAO;AAAA,IACT;AAEA,YAAQ,YAAY;AACpB,SAAK,QAAQ,KAAK,EAAE,MAAM,CAAC,UAAU;AACnC,cAAQ,QAAQ,KAAK,UAAU,OAAO,KAAK,CAAC,EAAE;AAC9C,cAAQ,YAAY;AAAA,IACtB,CAAC;AACD,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,cAAc;AACjC,UAAM,UAAU,SAAS,IAAI,QAAQ,KAAK;AAC1C,QAAI,SAAS;AACX,cAAQ,YAAY;AAAA,IACtB;AACA,WAAO,KAAK,YAAY,QAAQ,OAAO,EAAE,MAAM,aAAa,CAAC,EAAE,MAAM,MAAM,MAAS;AACpF,iBAAa,EAAE,IAAI,KAAK,CAAC;AACzB,WAAO;AAAA,EACT;AAEA,MAAI,QAAQ,SAAS,cAAc;AACjC,UAAM,QAAQ,MAAM,KAAK,SAAS,OAAO,CAAC,EAAE;AAAA,MAC1C,CAAC,YACC,GAAG,QAAQ,YAAY,YAAY,MAAM,IAAI,QAAQ,KAAK,KAAK,QAAQ,KAAK,MAAM,GAAG,EAAE,CAAC,GAAG,QAAQ,KAAK,SAAS,KAAK,QAAQ,EAAE;AAAA,IACpI;AAEA,iBAAa,EAAE,QAAQ,MAAM,SAAS,IAAI,MAAM,KAAK,IAAI,IAAI,OAAO,CAAC;AACrE,WAAO;AAAA,EACT;AAEA,SAAO;AACT,CAAC;",
   "names": []
 }

package/dist/content.js CHANGED Viewed

@@ -1,3 +1,86 @@
+var __defProp = Object.defineProperty;
+var __getOwnPropNames = Object.getOwnPropertyNames;
+var __esm = (fn, res) => function __init() {
+  return fn && (res = (0, fn[__getOwnPropNames(fn)[0]])(fn = 0)), res;
+};
+var __export = (target, all) => {
+  for (var name in all)
+    __defProp(target, name, { get: all[name], enumerable: true });
+};
+// src/shared/parse-action.ts
+var parse_action_exports = {};
+__export(parse_action_exports, {
+  parseAction: () => parseAction,
+  parsePlannerResult: () => parsePlannerResult
+});
+function parseAction(raw) {
+  const fenceMatch = raw.match(/```(?:json)?\s*([\s\S]*?)```/);
+  const candidate = fenceMatch ? fenceMatch[1].trim() : raw.trim();
+  const objectMatch = candidate.match(/\{[\s\S]*\}/);
+  if (!objectMatch) {
+    return { type: "done", reason: `No JSON object found in: ${raw.slice(0, 120)}` };
+  }
+  let parsed;
+  try {
+    parsed = JSON.parse(objectMatch[0]);
+  } catch {
+    return { type: "done", reason: `JSON parse error for: ${objectMatch[0].slice(0, 120)}` };
+  }
+  if (typeof parsed !== "object" || parsed === null || Array.isArray(parsed)) {
+    return { type: "done", reason: "Parsed value is not an object" };
+  }
+  const obj = parsed;
+  if (typeof obj.type !== "string" || !VALID_TYPES.has(obj.type)) {
+    return { type: "done", reason: `Unknown or missing action type: ${String(obj.type)}` };
+  }
+  return obj;
+}
+function parsePlannerResult(raw) {
+  const fenceMatch = raw.match(/```(?:json)?\s*([\s\S]*?)```/);
+  const candidate = fenceMatch ? fenceMatch[1].trim() : raw.trim();
+  const objectMatch = candidate.match(/\{[\s\S]*\}/);
+  if (!objectMatch) {
+    return { action: { type: "done", reason: `No JSON found in: ${raw.slice(0, 120)}` } };
+  }
+  let parsed;
+  try {
+    parsed = JSON.parse(objectMatch[0]);
+  } catch {
+    return { action: { type: "done", reason: `JSON parse error: ${objectMatch[0].slice(0, 120)}` } };
+  }
+  if (typeof parsed !== "object" || parsed === null || Array.isArray(parsed)) {
+    return { action: { type: "done", reason: "Parsed value is not an object" } };
+  }
+  const obj = parsed;
+  if (typeof obj.action === "object" && obj.action !== null) {
+    const action = parseAction(JSON.stringify(obj.action));
+    return {
+      action,
+      evaluation: typeof obj.evaluation === "string" ? obj.evaluation : void 0,
+      memory: typeof obj.memory === "string" ? obj.memory : void 0,
+      nextGoal: typeof obj.nextGoal === "string" ? obj.nextGoal : typeof obj.next_goal === "string" ? obj.next_goal : void 0
+    };
+  }
+  return { action: parseAction(objectMatch[0]) };
+}
+var VALID_TYPES;
+var init_parse_action = __esm({
+  "src/shared/parse-action.ts"() {
+    "use strict";
+    VALID_TYPES = /* @__PURE__ */ new Set([
+      "click",
+      "type",
+      "navigate",
+      "extract",
+      "scroll",
+      "focus",
+      "wait",
+      "done"
+    ]);
+  }
+});
 // src/shared/safety.ts
 var RISKY_KEYWORDS = /\b(delete|remove|pay|purchase|submit|confirm|checkout|transfer|withdraw|send)\b/i;
 function elementTextRisky(text) {
@@ -253,6 +336,18 @@ function toPlannerResult(raw) {
   }
   return { action: raw };
 }
+async function parsePlannerText(raw) {
+  const parser = await Promise.resolve().then(() => (init_parse_action(), parse_action_exports));
+  return parser.parsePlannerResult(raw);
+}
+async function normalizeBridgeResponse(raw) {
+  if (typeof raw === "string") {
+    const parsed = await parsePlannerText(raw);
+    const parseFailed = parsed.action.type === "done" && /(No JSON|JSON parse error|Parsed value is not an object|Unknown or missing action type)/.test(parsed.action.reason);
+    return { result: parsed, parseFailed, rawText: raw };
+  }
+  return { result: toPlannerResult(raw), parseFailed: false };
+}
 async function planNextAction(config, input) {
   if (config.kind === "heuristic") {
     return { action: heuristicPlan(input) };
@@ -266,8 +361,25 @@ async function planNextAction(config, input) {
       }
     };
   }
-  const raw = await bridge.plan(input, config.modelId);
-  return toPlannerResult(raw);
+  const plannerInput = { ...input, systemPrompt: config.systemPrompt };
+  const firstAttempt = await normalizeBridgeResponse(await bridge.plan(plannerInput, config.modelId));
+  if (!firstAttempt.parseFailed) {
+    return firstAttempt.result;
+  }
+  if (bridge.retryInvalidJson && firstAttempt.rawText) {
+    const retryAttempt = await normalizeBridgeResponse(
+      await bridge.retryInvalidJson(plannerInput, firstAttempt.rawText, config.modelId)
+    );
+    if (!retryAttempt.parseFailed) {
+      return retryAttempt.result;
+    }
+  }
+  return {
+    action: {
+      type: "done",
+      reason: "WebLLM output could not be parsed after retry."
+    }
+  };
 }
 // src/content/index.ts
@@ -293,8 +405,12 @@ async function runTick(session) {
   if (action.type === "done") {
     return { status: "done", action, message: action.reason, reflection };
   }
-  const message = await executeAction(action);
-  return { status: "executed", action, message, reflection };
+  try {
+    const message = await executeAction(action);
+    return { status: "executed", action, message, reflection };
+  } catch (error) {
+    return { status: "error", action, message: String(error), reflection };
+  }
 }
 async function executePendingAction(session) {
   if (!session.pendingAction) {