npm - @plaited/acp-harness - Versions diffs - 0.2.6 → 0.3.1 - Mend

@plaited/acp-harness 0.2.6 → 0.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (57) hide show

package/LICENSE +1 -1
package/README.md +120 -16
package/bin/cli.ts +105 -636
package/bin/tests/cli.spec.ts +218 -51
package/package.json +20 -4
package/src/acp-client.ts +5 -4
package/src/acp-transport.ts +14 -7
package/src/adapter-check.ts +542 -0
package/src/adapter-scaffold.ts +934 -0
package/src/balance.ts +232 -0
package/src/calibrate.ts +300 -0
package/src/capture.ts +457 -0
package/src/constants.ts +94 -0
package/src/grader-loader.ts +174 -0
package/src/harness.ts +35 -0
package/src/schemas-cli.ts +239 -0
package/src/schemas.ts +567 -0
package/src/summarize.ts +245 -0
package/src/tests/adapter-check.spec.ts +70 -0
package/src/tests/adapter-scaffold.spec.ts +112 -0
package/src/tests/fixtures/grader-bad-module.ts +5 -0
package/src/tests/fixtures/grader-exec-fail.py +9 -0
package/src/tests/fixtures/grader-exec-invalid.py +6 -0
package/src/tests/fixtures/grader-exec.py +29 -0
package/src/tests/fixtures/grader-module.ts +14 -0
package/src/tests/grader-loader.spec.ts +153 -0
package/src/trials.ts +395 -0
package/src/validate-refs.ts +188 -0
package/.claude/rules/accuracy.md +0 -43
package/.claude/rules/bun-apis.md +0 -80
package/.claude/rules/code-review.md +0 -254
package/.claude/rules/git-workflow.md +0 -37
package/.claude/rules/github.md +0 -154
package/.claude/rules/testing.md +0 -172
package/.claude/skills/acp-harness/SKILL.md +0 -310
package/.claude/skills/acp-harness/assets/Dockerfile.acp +0 -25
package/.claude/skills/acp-harness/assets/docker-compose.acp.yml +0 -19
package/.claude/skills/acp-harness/references/downstream.md +0 -288
package/.claude/skills/acp-harness/references/output-formats.md +0 -221
package/.claude-plugin/marketplace.json +0 -15
package/.claude-plugin/plugin.json +0 -16
package/.github/CODEOWNERS +0 -6
package/.github/workflows/ci.yml +0 -63
package/.github/workflows/publish.yml +0 -146
package/.mcp.json +0 -20
package/CLAUDE.md +0 -92
package/Dockerfile.test +0 -23
package/biome.json +0 -96
package/bun.lock +0 -513
package/docker-compose.test.yml +0 -21
package/scripts/bun-test-wrapper.sh +0 -46
package/src/acp.constants.ts +0 -56
package/src/acp.schemas.ts +0 -161
package/src/acp.types.ts +0 -28
package/src/tests/fixtures/.claude/settings.local.json +0 -8
package/src/tests/fixtures/.claude/skills/greeting/SKILL.md +0 -17
package/tsconfig.json +0 -32

package/LICENSE CHANGED Viewed

@@ -1,6 +1,6 @@
 ISC License
-Copyright (c) 2025 Plaited
+Copyright (c) 2026 Plaited Labs
 Permission to use, copy, modify, and/or distribute this software for any
 purpose with or without fee is hereby granted, provided that the above

package/README.md CHANGED Viewed

@@ -10,37 +10,63 @@ CLI tool for capturing agent trajectories from ACP-compatible agents. Execute pr
 ```bash
 # Run without installing
-bunx @plaited/acp-harness prompts.jsonl -o results.jsonl
+bunx @plaited/acp-harness capture prompts.jsonl bunx claude-code-acp -o results.jsonl
 # Or install globally
 bun add -g @plaited/acp-harness
-acp-harness prompts.jsonl -o results.jsonl
+acp-harness capture prompts.jsonl bunx claude-code-acp -o results.jsonl
 ```
 **Prerequisite:** Install an ACP adapter and set your API key:
 ```bash
-npm install -g @zed-industries/claude-code-acp
+npm install -g @anthropic-ai/claude-code-acp
 export ANTHROPIC_API_KEY=sk-...
 ```
-## Usage
+## Commands
+| Command | Purpose |
+|---------|---------|
+| `capture` | Trajectory capture (full JSONL) |
+| `trials` | Multi-run with pass@k metrics |
+| `summarize` | Derive compact views from results |
+| `calibrate` | Sample failures for review |
+| `validate-refs` | Check reference solutions |
+| `balance` | Analyze test set coverage |
+| `schemas` | Export JSON schemas |
+### capture
+Capture full trajectories from an ACP agent:
 ```bash
-acp-harness <prompts.jsonl> [options]
+acp-harness capture <prompts.jsonl> <command> [args...] [options]
 Options:
-  --cmd, --command  ACP agent command (default: "claude-code-acp")
   -o, --output      Output file (default: stdout)
   -c, --cwd         Working directory for agent
   -t, --timeout     Request timeout in ms (default: 60000)
-  -f, --format      Output format: summary, judge (default: summary)
+  -g, --grader      Path to grader (.ts/.js module or executable script)
   --progress        Show progress to stderr
   --append          Append to output file
   --mcp-server      MCP server config JSON (repeatable)
   -h, --help        Show help
 ```
+### trials
+Run multiple trials per prompt for pass@k analysis:
+```bash
+acp-harness trials <prompts.jsonl> <command> [args...] [options]
+Options:
+  -k                Number of trials per prompt (default: 3)
+  -g, --grader      Path to grader (computes pass@k/pass^k metrics)
+  ...               (same as capture)
+```
 ## Input Format
 ```jsonl
@@ -48,16 +74,94 @@ Options:
 {"id":"test-002","input":"Fix the TypeScript error","metadata":{"category":"bugfix"}}
 ```
-## Output
+## Output Format
+The harness outputs full trajectory JSONL (`CaptureResult` schema):
+```jsonl
+{
+  "id": "test-001",
+  "input": "Create a primary button",
+  "output": "Here's a button component...",
+  "expected": "should contain <button>",
+  "trajectory": [...],
+  "metadata": {"category": "ui", "agent": "bunx claude-code-acp"},
+  "timing": {"start": 1234567890, "end": 1234567900},
+  "toolErrors": false,
+  "score": {"pass": true, "score": 1.0, "reasoning": "Contains expected"}
+}
+```
+Key fields:
+- `toolErrors`: Boolean indicating if any tool calls failed
+- `score`: Grader result (only if `--grader` provided)
+- `trajectory`: Full execution trace (thoughts, messages, tool calls, plans)
+## Graders
+Graders score agent outputs. The harness supports two types:
+### TypeScript/JavaScript Graders
+Export a `grade` function:
+```typescript
+import type { Grader } from '@plaited/acp-harness/schemas'
+export const grade: Grader = async ({ input, output, expected, trajectory }) => {
+  const pass = output.toLowerCase().includes(expected?.toLowerCase() ?? '')
+  return {
+    pass,
+    score: pass ? 1.0 : 0.0,
+    reasoning: pass ? 'Contains expected answer' : 'Missing expected answer'
+  }
+}
+```
+```bash
+acp-harness capture prompts.jsonl bunx claude-code-acp --grader ./grader.ts
+```
+### Polyglot Graders (Python, etc.)
+Any executable script using stdin/stdout JSON protocol:
+```python
+#!/usr/bin/env python3
+import json
+import sys
+data = json.load(sys.stdin)
+output = data["output"].lower()
+expected = (data.get("expected") or "").lower()
+pass_result = expected in output if expected else True
+print(json.dumps({
+    "pass": pass_result,
+    "score": 1.0 if pass_result else 0.0,
+    "reasoning": "Contains expected" if pass_result else "Missing expected"
+}))
+```
+```bash
+chmod +x grader.py
+acp-harness capture prompts.jsonl bunx claude-code-acp --grader ./grader.py
+```
-The harness captures trajectories and outputs structured JSONL. **You provide the scoring logic.**
+**Protocol:**
+- Input (stdin): `{"input": "...", "output": "...", "expected": "...", "trajectory": [...]}`
+- Output (stdout): `{"pass": true, "score": 1.0, "reasoning": "..."}`
+## Downstream Integration
 ```bash
-# Capture trajectories
-acp-harness prompts.jsonl -o results.jsonl
+# Filter failures
+cat results.jsonl | jq 'select(.score.pass == false)'
+# Extract tool usage patterns
+cat results.jsonl | jq '.trajectory[] | select(.type == "tool_call") | .name'
-# Score with your tools
-cat results.jsonl | jq 'select(.status == "failed")'
+# Use with your scoring pipeline
 cat results.jsonl | your-scoring-script.ts
 ```
@@ -69,10 +173,10 @@ This package includes an **acp-harness skill** for AI coding agents with complet
 - Output format schemas
 - Integration patterns (Braintrust, jq, custom scorers)
-**Install via Claude Code:**
+**Other AI coding agents:**
 ```bash
-/plugin marketplace add plaited/marketplace
+curl -fsSL https://raw.githubusercontent.com/plaited/marketplace/main/install.sh | bash -s -- --agent <agent-name> --plugin development-skills
 ```
 ## Development
@@ -86,7 +190,7 @@ bun test             # Run unit tests
 ## Requirements
 - **Runtime:** Bun >= 1.2.9
-- **ACP Adapter:** `@zed-industries/claude-code-acp` or compatible
+- **ACP Adapter:** `@anthropic-ai/claude-code-acp` or compatible
 - **API Key:** `ANTHROPIC_API_KEY` environment variable
 ## License