npm - @kritchoff/agent-browser - Versions diffs - 0.9.2 - Mend

@kritchoff/agent-browser 0.9.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (88) hide show

package/LICENSE +201 -0
package/README.md +903 -0
package/README.sdk.md +77 -0
package/bin/agent-browser-linux-x64 +0 -0
package/bin/agent-browser.js +109 -0
package/dist/actions.d.ts +17 -0
package/dist/actions.d.ts.map +1 -0
package/dist/actions.js +1427 -0
package/dist/actions.js.map +1 -0
package/dist/browser.d.ts +474 -0
package/dist/browser.d.ts.map +1 -0
package/dist/browser.js +1566 -0
package/dist/browser.js.map +1 -0
package/dist/cdp-client.d.ts +103 -0
package/dist/cdp-client.d.ts.map +1 -0
package/dist/cdp-client.js +223 -0
package/dist/cdp-client.js.map +1 -0
package/dist/daemon.d.ts +60 -0
package/dist/daemon.d.ts.map +1 -0
package/dist/daemon.js +401 -0
package/dist/daemon.js.map +1 -0
package/dist/dualmode-config.d.ts +37 -0
package/dist/dualmode-config.d.ts.map +1 -0
package/dist/dualmode-config.js +44 -0
package/dist/dualmode-config.js.map +1 -0
package/dist/dualmode-fetcher.d.ts +60 -0
package/dist/dualmode-fetcher.d.ts.map +1 -0
package/dist/dualmode-fetcher.js +449 -0
package/dist/dualmode-fetcher.js.map +1 -0
package/dist/dualmode-types.d.ts +183 -0
package/dist/dualmode-types.d.ts.map +1 -0
package/dist/dualmode-types.js +8 -0
package/dist/dualmode-types.js.map +1 -0
package/dist/ios-actions.d.ts +11 -0
package/dist/ios-actions.d.ts.map +1 -0
package/dist/ios-actions.js +228 -0
package/dist/ios-actions.js.map +1 -0
package/dist/ios-manager.d.ts +266 -0
package/dist/ios-manager.d.ts.map +1 -0
package/dist/ios-manager.js +1073 -0
package/dist/ios-manager.js.map +1 -0
package/dist/protocol.d.ts +26 -0
package/dist/protocol.d.ts.map +1 -0
package/dist/protocol.js +832 -0
package/dist/protocol.js.map +1 -0
package/dist/snapshot.d.ts +83 -0
package/dist/snapshot.d.ts.map +1 -0
package/dist/snapshot.js +653 -0
package/dist/snapshot.js.map +1 -0
package/dist/stream-server.d.ts +117 -0
package/dist/stream-server.d.ts.map +1 -0
package/dist/stream-server.js +305 -0
package/dist/stream-server.js.map +1 -0
package/dist/types.d.ts +742 -0
package/dist/types.d.ts.map +1 -0
package/dist/types.js +2 -0
package/dist/types.js.map +1 -0
package/docker-compose.sdk.yml +45 -0
package/package.json +85 -0
package/scripts/benchmark.sh +80 -0
package/scripts/build-all-platforms.sh +68 -0
package/scripts/check-version-sync.js +39 -0
package/scripts/copy-native.js +36 -0
package/scripts/fast_reset.sh +108 -0
package/scripts/postinstall.js +235 -0
package/scripts/publish_images.sh +55 -0
package/scripts/snapshot_manager.sh +293 -0
package/scripts/start-android-agent.sh +49 -0
package/scripts/sync-version.js +69 -0
package/scripts/vaccine-run +26 -0
package/sdk.sh +153 -0
package/skills/agent-browser/SKILL.md +217 -0
package/skills/agent-browser/references/authentication.md +202 -0
package/skills/agent-browser/references/commands.md +259 -0
package/skills/agent-browser/references/proxy-support.md +188 -0
package/skills/agent-browser/references/session-management.md +193 -0
package/skills/agent-browser/references/snapshot-refs.md +194 -0
package/skills/agent-browser/references/video-recording.md +173 -0
package/skills/agent-browser/templates/authenticated-session.sh +97 -0
package/skills/agent-browser/templates/capture-workflow.sh +69 -0
package/skills/agent-browser/templates/form-automation.sh +62 -0
package/skills/skill-creator/LICENSE.txt +202 -0
package/skills/skill-creator/SKILL.md +356 -0
package/skills/skill-creator/references/output-patterns.md +82 -0
package/skills/skill-creator/references/workflows.md +28 -0
package/skills/skill-creator/scripts/init_skill.py +303 -0
package/skills/skill-creator/scripts/package_skill.py +113 -0
package/skills/skill-creator/scripts/quick_validate.py +95 -0

package/skills/agent-browser/references/snapshot-refs.md ADDED Viewed

@@ -0,0 +1,194 @@
+# Snapshot and Refs
+Compact element references that reduce context usage dramatically for AI agents.
+**Related**: [commands.md](commands.md) for full command reference, [SKILL.md](../SKILL.md) for quick start.
+## Contents
+- [How Refs Work](#how-refs-work)
+- [Snapshot Command](#the-snapshot-command)
+- [Using Refs](#using-refs)
+- [Ref Lifecycle](#ref-lifecycle)
+- [Best Practices](#best-practices)
+- [Ref Notation Details](#ref-notation-details)
+- [Troubleshooting](#troubleshooting)
+## How Refs Work
+Traditional approach:
+```
+Full DOM/HTML → AI parses → CSS selector → Action (~3000-5000 tokens)
+```
+agent-browser approach:
+```
+Compact snapshot → @refs assigned → Direct interaction (~200-400 tokens)
+```
+## The Snapshot Command
+```bash
+# Basic snapshot (shows page structure)
+agent-browser snapshot
+# Interactive snapshot (-i flag) - RECOMMENDED
+agent-browser snapshot -i
+```
+### Snapshot Output Format
+```
+Page: Example Site - Home
+URL: https://example.com
+@e1 [header]
+  @e2 [nav]
+    @e3 [a] "Home"
+    @e4 [a] "Products"
+    @e5 [a] "About"
+  @e6 [button] "Sign In"
+@e7 [main]
+  @e8 [h1] "Welcome"
+  @e9 [form]
+    @e10 [input type="email"] placeholder="Email"
+    @e11 [input type="password"] placeholder="Password"
+    @e12 [button type="submit"] "Log In"
+@e13 [footer]
+  @e14 [a] "Privacy Policy"
+```
+## Using Refs
+Once you have refs, interact directly:
+```bash
+# Click the "Sign In" button
+agent-browser click @e6
+# Fill email input
+agent-browser fill @e10 "user@example.com"
+# Fill password
+agent-browser fill @e11 "password123"
+# Submit the form
+agent-browser click @e12
+```
+## Ref Lifecycle
+**IMPORTANT**: Refs are invalidated when the page changes!
+```bash
+# Get initial snapshot
+agent-browser snapshot -i
+# @e1 [button] "Next"
+# Click triggers page change
+agent-browser click @e1
+# MUST re-snapshot to get new refs!
+agent-browser snapshot -i
+# @e1 [h1] "Page 2"  ← Different element now!
+```
+## Best Practices
+### 1. Always Snapshot Before Interacting
+```bash
+# CORRECT
+agent-browser open https://example.com
+agent-browser snapshot -i          # Get refs first
+agent-browser click @e1            # Use ref
+# WRONG
+agent-browser open https://example.com
+agent-browser click @e1            # Ref doesn't exist yet!
+```
+### 2. Re-Snapshot After Navigation
+```bash
+agent-browser click @e5            # Navigates to new page
+agent-browser snapshot -i          # Get new refs
+agent-browser click @e1            # Use new refs
+```
+### 3. Re-Snapshot After Dynamic Changes
+```bash
+agent-browser click @e1            # Opens dropdown
+agent-browser snapshot -i          # See dropdown items
+agent-browser click @e7            # Select item
+```
+### 4. Snapshot Specific Regions
+For complex pages, snapshot specific areas:
+```bash
+# Snapshot just the form
+agent-browser snapshot @e9
+```
+## Ref Notation Details
+```
+@e1 [tag type="value"] "text content" placeholder="hint"
+│    │   │             │               │
+│    │   │             │               └─ Additional attributes
+│    │   │             └─ Visible text
+│    │   └─ Key attributes shown
+│    └─ HTML tag name
+└─ Unique ref ID
+```
+### Common Patterns
+```
+@e1 [button] "Submit"                    # Button with text
+@e2 [input type="email"]                 # Email input
+@e3 [input type="password"]              # Password input
+@e4 [a href="/page"] "Link Text"         # Anchor link
+@e5 [select]                             # Dropdown
+@e6 [textarea] placeholder="Message"     # Text area
+@e7 [div class="modal"]                  # Container (when relevant)
+@e8 [img alt="Logo"]                     # Image
+@e9 [checkbox] checked                   # Checked checkbox
+@e10 [radio] selected                    # Selected radio
+```
+## Troubleshooting
+### "Ref not found" Error
+```bash
+# Ref may have changed - re-snapshot
+agent-browser snapshot -i
+```
+### Element Not Visible in Snapshot
+```bash
+# Scroll to reveal element
+agent-browser scroll --bottom
+agent-browser snapshot -i
+# Or wait for dynamic content
+agent-browser wait 1000
+agent-browser snapshot -i
+```
+### Too Many Elements
+```bash
+# Snapshot specific container
+agent-browser snapshot @e5
+# Or use get text for content-only extraction
+agent-browser get text @e5
+```

package/skills/agent-browser/references/video-recording.md ADDED Viewed

@@ -0,0 +1,173 @@
+# Video Recording
+Capture browser automation as video for debugging, documentation, or verification.
+**Related**: [commands.md](commands.md) for full command reference, [SKILL.md](../SKILL.md) for quick start.
+## Contents
+- [Basic Recording](#basic-recording)
+- [Recording Commands](#recording-commands)
+- [Use Cases](#use-cases)
+- [Best Practices](#best-practices)
+- [Output Format](#output-format)
+- [Limitations](#limitations)
+## Basic Recording
+```bash
+# Start recording
+agent-browser record start ./demo.webm
+# Perform actions
+agent-browser open https://example.com
+agent-browser snapshot -i
+agent-browser click @e1
+agent-browser fill @e2 "test input"
+# Stop and save
+agent-browser record stop
+```
+## Recording Commands
+```bash
+# Start recording to file
+agent-browser record start ./output.webm
+# Stop current recording
+agent-browser record stop
+# Restart with new file (stops current + starts new)
+agent-browser record restart ./take2.webm
+```
+## Use Cases
+### Debugging Failed Automation
+```bash
+#!/bin/bash
+# Record automation for debugging
+agent-browser record start ./debug-$(date +%Y%m%d-%H%M%S).webm
+# Run your automation
+agent-browser open https://app.example.com
+agent-browser snapshot -i
+agent-browser click @e1 || {
+    echo "Click failed - check recording"
+    agent-browser record stop
+    exit 1
+}
+agent-browser record stop
+```
+### Documentation Generation
+```bash
+#!/bin/bash
+# Record workflow for documentation
+agent-browser record start ./docs/how-to-login.webm
+agent-browser open https://app.example.com/login
+agent-browser wait 1000  # Pause for visibility
+agent-browser snapshot -i
+agent-browser fill @e1 "demo@example.com"
+agent-browser wait 500
+agent-browser fill @e2 "password"
+agent-browser wait 500
+agent-browser click @e3
+agent-browser wait --load networkidle
+agent-browser wait 1000  # Show result
+agent-browser record stop
+```
+### CI/CD Test Evidence
+```bash
+#!/bin/bash
+# Record E2E test runs for CI artifacts
+TEST_NAME="${1:-e2e-test}"
+RECORDING_DIR="./test-recordings"
+mkdir -p "$RECORDING_DIR"
+agent-browser record start "$RECORDING_DIR/$TEST_NAME-$(date +%s).webm"
+# Run test
+if run_e2e_test; then
+    echo "Test passed"
+else
+    echo "Test failed - recording saved"
+fi
+agent-browser record stop
+```
+## Best Practices
+### 1. Add Pauses for Clarity
+```bash
+# Slow down for human viewing
+agent-browser click @e1
+agent-browser wait 500  # Let viewer see result
+```
+### 2. Use Descriptive Filenames
+```bash
+# Include context in filename
+agent-browser record start ./recordings/login-flow-2024-01-15.webm
+agent-browser record start ./recordings/checkout-test-run-42.webm
+```
+### 3. Handle Recording in Error Cases
+```bash
+#!/bin/bash
+set -e
+cleanup() {
+    agent-browser record stop 2>/dev/null || true
+    agent-browser close 2>/dev/null || true
+}
+trap cleanup EXIT
+agent-browser record start ./automation.webm
+# ... automation steps ...
+```
+### 4. Combine with Screenshots
+```bash
+# Record video AND capture key frames
+agent-browser record start ./flow.webm
+agent-browser open https://example.com
+agent-browser screenshot ./screenshots/step1-homepage.png
+agent-browser click @e1
+agent-browser screenshot ./screenshots/step2-after-click.png
+agent-browser record stop
+```
+## Output Format
+- Default format: WebM (VP8/VP9 codec)
+- Compatible with all modern browsers and video players
+- Compressed but high quality
+## Limitations
+- Recording adds slight overhead to automation
+- Large recordings can consume significant disk space
+- Some headless environments may have codec limitations

package/skills/agent-browser/templates/authenticated-session.sh ADDED Viewed

@@ -0,0 +1,97 @@
+#!/bin/bash
+# Template: Authenticated Session Workflow
+# Purpose: Login once, save state, reuse for subsequent runs
+# Usage: ./authenticated-session.sh <login-url> [state-file]
+#
+# Environment variables:
+#   APP_USERNAME - Login username/email
+#   APP_PASSWORD - Login password
+#
+# Two modes:
+#   1. Discovery mode (default): Shows form structure so you can identify refs
+#   2. Login mode: Performs actual login after you update the refs
+#
+# Setup steps:
+#   1. Run once to see form structure (discovery mode)
+#   2. Update refs in LOGIN FLOW section below
+#   3. Set APP_USERNAME and APP_PASSWORD
+#   4. Delete the DISCOVERY section
+set -euo pipefail
+LOGIN_URL="${1:?Usage: $0 <login-url> [state-file]}"
+STATE_FILE="${2:-./auth-state.json}"
+echo "Authentication workflow: $LOGIN_URL"
+# ================================================================
+# SAVED STATE: Skip login if valid saved state exists
+# ================================================================
+if [[ -f "$STATE_FILE" ]]; then
+    echo "Loading saved state from $STATE_FILE..."
+    agent-browser state load "$STATE_FILE"
+    agent-browser open "$LOGIN_URL"
+    agent-browser wait --load networkidle
+    CURRENT_URL=$(agent-browser get url)
+    if [[ "$CURRENT_URL" != *"login"* ]] && [[ "$CURRENT_URL" != *"signin"* ]]; then
+        echo "Session restored successfully"
+        agent-browser snapshot -i
+        exit 0
+    fi
+    echo "Session expired, performing fresh login..."
+    rm -f "$STATE_FILE"
+fi
+# ================================================================
+# DISCOVERY MODE: Shows form structure (delete after setup)
+# ================================================================
+echo "Opening login page..."
+agent-browser open "$LOGIN_URL"
+agent-browser wait --load networkidle
+echo ""
+echo "Login form structure:"
+echo "---"
+agent-browser snapshot -i
+echo "---"
+echo ""
+echo "Next steps:"
+echo "  1. Note the refs: username=@e?, password=@e?, submit=@e?"
+echo "  2. Update the LOGIN FLOW section below with your refs"
+echo "  3. Set: export APP_USERNAME='...' APP_PASSWORD='...'"
+echo "  4. Delete this DISCOVERY MODE section"
+echo ""
+agent-browser close
+exit 0
+# ================================================================
+# LOGIN FLOW: Uncomment and customize after discovery
+# ================================================================
+# : "${APP_USERNAME:?Set APP_USERNAME environment variable}"
+# : "${APP_PASSWORD:?Set APP_PASSWORD environment variable}"
+#
+# agent-browser open "$LOGIN_URL"
+# agent-browser wait --load networkidle
+# agent-browser snapshot -i
+#
+# # Fill credentials (update refs to match your form)
+# agent-browser fill @e1 "$APP_USERNAME"
+# agent-browser fill @e2 "$APP_PASSWORD"
+# agent-browser click @e3
+# agent-browser wait --load networkidle
+#
+# # Verify login succeeded
+# FINAL_URL=$(agent-browser get url)
+# if [[ "$FINAL_URL" == *"login"* ]] || [[ "$FINAL_URL" == *"signin"* ]]; then
+#     echo "Login failed - still on login page"
+#     agent-browser screenshot /tmp/login-failed.png
+#     agent-browser close
+#     exit 1
+# fi
+#
+# # Save state for future runs
+# echo "Saving state to $STATE_FILE"
+# agent-browser state save "$STATE_FILE"
+# echo "Login successful"
+# agent-browser snapshot -i

package/skills/agent-browser/templates/capture-workflow.sh ADDED Viewed

@@ -0,0 +1,69 @@
+#!/bin/bash
+# Template: Content Capture Workflow
+# Purpose: Extract content from web pages (text, screenshots, PDF)
+# Usage: ./capture-workflow.sh <url> [output-dir]
+#
+# Outputs:
+#   - page-full.png: Full page screenshot
+#   - page-structure.txt: Page element structure with refs
+#   - page-text.txt: All text content
+#   - page.pdf: PDF version
+#
+# Optional: Load auth state for protected pages
+set -euo pipefail
+TARGET_URL="${1:?Usage: $0 <url> [output-dir]}"
+OUTPUT_DIR="${2:-.}"
+echo "Capturing: $TARGET_URL"
+mkdir -p "$OUTPUT_DIR"
+# Optional: Load authentication state
+# if [[ -f "./auth-state.json" ]]; then
+#     echo "Loading authentication state..."
+#     agent-browser state load "./auth-state.json"
+# fi
+# Navigate to target
+agent-browser open "$TARGET_URL"
+agent-browser wait --load networkidle
+# Get metadata
+TITLE=$(agent-browser get title)
+URL=$(agent-browser get url)
+echo "Title: $TITLE"
+echo "URL: $URL"
+# Capture full page screenshot
+agent-browser screenshot --full "$OUTPUT_DIR/page-full.png"
+echo "Saved: $OUTPUT_DIR/page-full.png"
+# Get page structure with refs
+agent-browser snapshot -i > "$OUTPUT_DIR/page-structure.txt"
+echo "Saved: $OUTPUT_DIR/page-structure.txt"
+# Extract all text content
+agent-browser get text body > "$OUTPUT_DIR/page-text.txt"
+echo "Saved: $OUTPUT_DIR/page-text.txt"
+# Save as PDF
+agent-browser pdf "$OUTPUT_DIR/page.pdf"
+echo "Saved: $OUTPUT_DIR/page.pdf"
+# Optional: Extract specific elements using refs from structure
+# agent-browser get text @e5 > "$OUTPUT_DIR/main-content.txt"
+# Optional: Handle infinite scroll pages
+# for i in {1..5}; do
+#     agent-browser scroll down 1000
+#     agent-browser wait 1000
+# done
+# agent-browser screenshot --full "$OUTPUT_DIR/page-scrolled.png"
+# Cleanup
+agent-browser close
+echo ""
+echo "Capture complete:"
+ls -la "$OUTPUT_DIR"

package/skills/agent-browser/templates/form-automation.sh ADDED Viewed

@@ -0,0 +1,62 @@
+#!/bin/bash
+# Template: Form Automation Workflow
+# Purpose: Fill and submit web forms with validation
+# Usage: ./form-automation.sh <form-url>
+#
+# This template demonstrates the snapshot-interact-verify pattern:
+# 1. Navigate to form
+# 2. Snapshot to get element refs
+# 3. Fill fields using refs
+# 4. Submit and verify result
+#
+# Customize: Update the refs (@e1, @e2, etc.) based on your form's snapshot output
+set -euo pipefail
+FORM_URL="${1:?Usage: $0 <form-url>}"
+echo "Form automation: $FORM_URL"
+# Step 1: Navigate to form
+agent-browser open "$FORM_URL"
+agent-browser wait --load networkidle
+# Step 2: Snapshot to discover form elements
+echo ""
+echo "Form structure:"
+agent-browser snapshot -i
+# Step 3: Fill form fields (customize these refs based on snapshot output)
+#
+# Common field types:
+#   agent-browser fill @e1 "John Doe"           # Text input
+#   agent-browser fill @e2 "user@example.com"   # Email input
+#   agent-browser fill @e3 "SecureP@ss123"      # Password input
+#   agent-browser select @e4 "Option Value"     # Dropdown
+#   agent-browser check @e5                     # Checkbox
+#   agent-browser click @e6                     # Radio button
+#   agent-browser fill @e7 "Multi-line text"   # Textarea
+#   agent-browser upload @e8 /path/to/file.pdf # File upload
+#
+# Uncomment and modify:
+# agent-browser fill @e1 "Test User"
+# agent-browser fill @e2 "test@example.com"
+# agent-browser click @e3  # Submit button
+# Step 4: Wait for submission
+# agent-browser wait --load networkidle
+# agent-browser wait --url "**/success"  # Or wait for redirect
+# Step 5: Verify result
+echo ""
+echo "Result:"
+agent-browser get url
+agent-browser snapshot -i
+# Optional: Capture evidence
+agent-browser screenshot /tmp/form-result.png
+echo "Screenshot saved: /tmp/form-result.png"
+# Cleanup
+agent-browser close
+echo "Done"