npm - browse-agent-cli - Versions diffs - 0.0.4 → 0.0.6 - Mend

browse-agent-cli 0.0.4 → 0.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

package/README.md +4 -0
package/dist/cli.js +16 -1
package/package.json +1 -1
package/skills/SKILL.md +9 -9
package/skills/references/cli.md +2 -0
package/skills/references/examples.md +30 -30

package/README.md CHANGED Viewed

@@ -36,6 +36,9 @@ browse-agent setup
 # Launch browser session
 browse-agent launch
+# Start only background service (do not launch browser)
+browse-agent launch --server-only
 # Navigate and extract
 browse-agent navigate "https://example.com"
 browse-agent get-content --format text
@@ -109,6 +112,7 @@ import {
 - `--browser <name>`: `chrome | chromium | edge | brave`
 - `--headless`
+- `--server-only`
 - `--port <number>`
 - `--servicePort <number>`
 - `--timeout <ms>`

package/dist/cli.js CHANGED Viewed

@@ -77,6 +77,10 @@ function parseArgs(argv) {
 			flags.headless = true;
 			continue;
 		}
+		if (arg === "--server-only") {
+			flags["server-only"] = true;
+			continue;
+		}
 		if (arg === "--all") {
 			flags.all = true;
 			continue;
@@ -129,6 +133,7 @@ Feature commands (require launch first):
 Options:
   --browser <name>       Browser: chrome | chromium | edge | brave (default: chrome)
   --headless             Run in headless mode
+  --server-only          Start background service only, skip browser launch
   --port <number>        WebSocket port for browser-agent (default: 9315)
   --servicePort <number> Local service port (default: 9316)
   --tabId <id>           Target tab ID (from navigate or tabs list output)
@@ -142,6 +147,7 @@ Options:
 Examples:
   browse-agent setup
   browse-agent launch --browser edge --headless
+  browse-agent launch --server-only
   browse-agent navigate https://example.com
   browse-agent get-content --format text
   browse-agent get-dom "h1" --property innerText
@@ -154,7 +160,7 @@ Examples:
 `.trim());
 }
 function resolveSkillSourceDir() {
-	return join(dirname(fileURLToPath(import.meta.url)), "..", "skill");
+	return join(dirname(fileURLToPath(import.meta.url)), "..", "skills");
 }
 function isNonEmptyDirectory(path) {
 	if (!existsSync(path)) return false;
@@ -299,6 +305,15 @@ try {
 		case "launch": {
 			const service = await ensureServiceRunning(flags);
 			const servicePort = service.servicePort;
+			if (flags["server-only"] === true) {
+				const status = await requestService(servicePort, "/status", "GET");
+				console.log(JSON.stringify({
+					servicePort,
+					mode: "server-only",
+					...status
+				}, null, 2));
+				break;
+			}
 			if (!service.newlyStarted) {
 				const status = await requestService(servicePort, "/status", "GET");
 				if (status.running === true) {

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "browse-agent-cli",
-  "version": "0.0.4",
+  "version": "0.0.6",
   "type": "module",
   "description": "TypeScript CLI for browse-agent",
   "main": "./dist/cli.js",

package/skills/SKILL.md CHANGED Viewed

@@ -28,7 +28,7 @@ Browse **interactively** — one command per step. Observe each result before de
 ### Step 1: Launch Browser
 ```bash
-browse-agent launch 2>/dev/null
+browse-agent launch
 ```
 Returns session info as JSON. The browser stays open until you close it.
@@ -39,22 +39,22 @@ Run each command separately. Read the output, then decide the next action:
 ```bash
 # Open a page — returns { tabId, url, title }
-browse-agent navigate "https://example.com" 2>/dev/null
+browse-agent navigate "https://example.com"
 # Read the page content — returns { content, url, title }
-browse-agent get-content --format text 2>/dev/null
+browse-agent get-content --format text
 # Specify a tab by ID (from navigate output) — use --tabId with any feature command
-browse-agent get-content --format text --tabId 123 2>/dev/null
+browse-agent get-content --format text --tabId 123
 # Query specific elements — returns { result }
-browse-agent get-dom "h1" --property innerText 2>/dev/null
+browse-agent get-dom "h1" --property innerText
 # Run JavaScript — returns { result }
-browse-agent evaluate "document.title" 2>/dev/null
+browse-agent evaluate "document.title"
 # Take a screenshot — returns { data (base64), format, width, height }
-browse-agent screenshot visible 2>/dev/null
+browse-agent screenshot visible
 ```
 **Key principle**: Each command outputs JSON to stdout. Use `--tabId <id>` to target a specific tab (ID comes from `navigate` or `tabs list` output). Parse the output, reason about it, then choose the next command. Don't pre-plan the entire interaction.
@@ -62,7 +62,7 @@ browse-agent screenshot visible 2>/dev/null
 ### Step 3: Close Browser
 ```bash
-browse-agent close 2>/dev/null
+browse-agent close
 ```
 ### Typical Interaction Flow
@@ -108,7 +108,7 @@ await browse(async (agent) => {
 });
 ```
-Run with: `node _browse_task.mjs 2>/dev/null`
+Run with: `node _browse_task.mjs`
 For full API and script examples, see [API Reference](./references/api.md) and [Examples](./references/examples.md).

package/skills/references/cli.md CHANGED Viewed

@@ -16,6 +16,7 @@ browse-agent setup --global
 # Launch browser
 browse-agent launch
 browse-agent launch --browser edge --headless
+browse-agent launch --server-only
 # Check connection
 browse-agent connect
@@ -67,6 +68,7 @@ browse-agent tabs close 123
 | `--global` | setup, clear | Use global installation (`~/.browse-agent/`) |
 | `--browser <name>` | launch | Browser: `chrome` \| `chromium` \| `edge` \| `brave` |
 | `--headless` | launch | Run in headless mode |
+| `--server-only` | launch | Start service only, skip browser launch |
 | `--port <number>` | launch, connect, feature cmds | WebSocket port (default: 9315) |
 | `--tabId <id>` | all feature cmds | Target a specific tab (ID from `navigate` or `tabs list`) |
 | `--format <type>` | get-content, screenshot | Content format (`text`/`html`) or screenshot format (`png`/`jpeg`) |

package/skills/references/examples.md CHANGED Viewed

@@ -6,79 +6,79 @@
 ```bash
 # 1. Launch browser
-browse-agent launch 2>/dev/null
+browse-agent launch
 # 2. Navigate to page
-browse-agent navigate "https://example.com" 2>/dev/null
+browse-agent navigate "https://example.com"
 # 3. Read content — decide next step based on output
-browse-agent get-content --format text 2>/dev/null
+browse-agent get-content --format text
 # 4. Done — close browser
-browse-agent close 2>/dev/null
+browse-agent close
 ```
 ### Find Specific Content on a Page
 ```bash
-browse-agent launch 2>/dev/null
-browse-agent navigate "https://news.ycombinator.com" 2>/dev/null
+browse-agent launch
+browse-agent navigate "https://news.ycombinator.com"
 # First, read the page to understand structure
-browse-agent get-content --format text 2>/dev/null
+browse-agent get-content --format text
 # Then query specific elements based on what you found
-browse-agent get-dom ".titleline > a" --property innerText --all 2>/dev/null
+browse-agent get-dom ".titleline > a" --property innerText --all
-browse-agent close 2>/dev/null
+browse-agent close
 ```
 ### Screenshot and Inspect
 ```bash
-browse-agent launch 2>/dev/null
-browse-agent navigate "https://example.com" 2>/dev/null
+browse-agent launch
+browse-agent navigate "https://example.com"
 # Take a screenshot to see the page visually
-browse-agent screenshot visible 2>/dev/null
+browse-agent screenshot visible
 # Run JS to count elements, check state, etc.
-browse-agent evaluate "document.querySelectorAll('a').length" 2>/dev/null
+browse-agent evaluate "document.querySelectorAll('a').length"
-browse-agent close 2>/dev/null
+browse-agent close
 ```
 ### Multi-Page Exploration
 ```bash
-browse-agent launch 2>/dev/null
+browse-agent launch
 # Visit first page
-browse-agent navigate "https://example.com" 2>/dev/null
-browse-agent get-content --format text 2>/dev/null
+browse-agent navigate "https://example.com"
+browse-agent get-content --format text
 # Visit second page (based on what you found)
-browse-agent navigate "https://example.org" 2>/dev/null
-browse-agent get-content --format text 2>/dev/null
+browse-agent navigate "https://example.org"
+browse-agent get-content --format text
 # Manage tabs
-browse-agent tabs list 2>/dev/null
-browse-agent tabs close 123 2>/dev/null
+browse-agent tabs list
+browse-agent tabs close 123
-browse-agent close 2>/dev/null
+browse-agent close
 ```
 ### Use Logged-in Browser Profile
 ```bash
 # Launch with user's default browser profile (preserves cookies/sessions)
-browse-agent launch --browser chrome 2>/dev/null
+browse-agent launch --browser chrome
 # ⚠ Close all Chrome windows first!
-USE_USER_PROFILE=true browse-agent launch 2>/dev/null
-browse-agent navigate "https://github.com/notifications" 2>/dev/null
-browse-agent get-content --format text 2>/dev/null
-browse-agent close 2>/dev/null
+USE_USER_PROFILE=true browse-agent launch
+browse-agent navigate "https://github.com/notifications"
+browse-agent get-content --format text
+browse-agent close
 ```
 ## One-Shot Script Examples
@@ -173,13 +173,13 @@ await browse(async (agent) => {
 ```bash
 # Use user's default Chrome profile (keeps login sessions)
-USE_USER_PROFILE=true node _browse_task.mjs 2>/dev/null
+USE_USER_PROFILE=true node _browse_task.mjs
 # Use Edge with user profile
-BROWSER=edge USE_USER_PROFILE=true node _browse_task.mjs 2>/dev/null
+BROWSER=edge USE_USER_PROFILE=true node _browse_task.mjs
 # Custom executable path
-CHROME_PATH=/path/to/browser node _browse_task.mjs 2>/dev/null
+CHROME_PATH=/path/to/browser node _browse_task.mjs
 ```
 ### Options via Code