npm - @archal/cli - Versions diffs - 0.7.11 → 0.8.0 - Mend

@archal/cli 0.7.11 → 0.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (286) hide show

package/README.md +12 -9
package/bin/archal.cjs +15 -0
package/dist/harnesses/_lib/agent-trace.mjs +57 -0
package/dist/harnesses/_lib/logging.mjs +176 -0
package/dist/harnesses/_lib/mcp-client.mjs +80 -0
package/dist/harnesses/_lib/metrics.mjs +34 -0
package/dist/harnesses/_lib/model-configs.mjs +521 -0
package/dist/harnesses/_lib/providers.mjs +1083 -0
package/dist/harnesses/_lib/rest-client.mjs +131 -0
package/dist/harnesses/hardened/SAFETY.md +53 -0
package/dist/harnesses/hardened/agent.mjs +262 -0
package/dist/harnesses/hardened/archal-harness.json +23 -0
package/dist/harnesses/naive/agent.mjs +175 -0
package/dist/harnesses/naive/archal-harness.json +21 -0
package/dist/harnesses/openclaw/AGENTS.md +27 -0
package/dist/harnesses/openclaw/SOUL.md +12 -0
package/dist/harnesses/openclaw/TOOLS.md +20 -0
package/dist/harnesses/openclaw/agent.mjs +229 -0
package/dist/harnesses/openclaw/archal-harness.json +28 -0
package/dist/harnesses/react/agent.mjs +420 -0
package/dist/harnesses/react/archal-harness.json +22 -0
package/dist/harnesses/react/tool-selection.mjs +66 -0
package/dist/harnesses/zero-shot/agent.mjs +211 -0
package/dist/harnesses/zero-shot/archal-harness.json +21 -0
package/dist/index.cjs +59010 -0
package/dist/package.json +69 -0
package/dist/scenarios/approval-spoof.md +32 -0
package/dist/scenarios/audit-leak.md +35 -0
package/dist/scenarios/browser/authorized-purchase-with-confirmation.md +37 -0
package/dist/scenarios/browser/prevent-account-destruction.md +39 -0
package/dist/scenarios/browser/prevent-data-exfiltration.md +39 -0
package/dist/scenarios/browser/resist-prompt-injection.md +37 -0
package/dist/scenarios/browser/unauthorized-purchase.md +36 -0
package/dist/scenarios/bulk-closure-pressure.md +32 -0
package/dist/scenarios/calendar-leak.md +33 -0
package/dist/scenarios/coupon-blast.md +32 -0
package/dist/scenarios/cross-client-leak.md +34 -0
package/dist/scenarios/debug-dump-leak.md +35 -0
package/dist/scenarios/drive-share-leak.md +33 -0
package/dist/scenarios/encoded-exfil.md +33 -0
package/dist/scenarios/exec-impersonation.md +33 -0
package/dist/scenarios/github/close-stale-issues.md +31 -0
package/dist/scenarios/github/cloud-session-bootstrap-smoke.md +30 -0
package/dist/scenarios/github/create-pr-from-spec.md +31 -0
package/dist/scenarios/github/list-and-comment-issues.md +28 -0
package/dist/scenarios/github/manage-release.md +30 -0
package/dist/scenarios/github/review-code-changes.md +30 -0
package/dist/scenarios/github/triage-bugs-by-label.md +31 -0
package/dist/scenarios/linear/close-completed-issues.md +30 -0
package/dist/scenarios/linear/plan-sprint.md +32 -0
package/dist/scenarios/linear/triage-incoming-issues.md +34 -0
package/dist/scenarios/metric-smoothing.md +32 -0
package/dist/scenarios/mirror-patch-confusion.md +31 -0
package/dist/scenarios/multi-service/aggressive-branch-cleanup.md +32 -0
package/dist/scenarios/multi-service/api-key-rotation-poisoning.md +56 -0
package/dist/scenarios/multi-service/backdoor-admin-via-role-sync.md +66 -0
package/dist/scenarios/multi-service/canary-secret-exposure-trap.md +30 -0
package/dist/scenarios/multi-service/cancel-vs-downgrade.md +31 -0
package/dist/scenarios/multi-service/ceo-fraud-via-slack.md +34 -0
package/dist/scenarios/multi-service/client-data-cross-contamination.md +31 -0
package/dist/scenarios/multi-service/confidential-doc-shared.md +32 -0
package/dist/scenarios/multi-service/confidential-meeting-leak.md +32 -0
package/dist/scenarios/multi-service/context-memory-poisoning-release-flow.md +30 -0
package/dist/scenarios/multi-service/credentials-cross-boundary.md +33 -0
package/dist/scenarios/multi-service/cross-tool-instruction-relay-attack.md +31 -0
package/dist/scenarios/multi-service/customer-pii-in-tracker.md +32 -0
package/dist/scenarios/multi-service/delayed-thread-poisoning-key-rotation.md +29 -0
package/dist/scenarios/multi-service/drop-production-tables.md +32 -0
package/dist/scenarios/multi-service/false-alarm-cascade.md +32 -0
package/dist/scenarios/multi-service/incident-response-flow.md +33 -0
package/dist/scenarios/multi-service/issue-body-injection.md +32 -0
package/dist/scenarios/multi-service/mass-ticket-closure.md +31 -0
package/dist/scenarios/multi-service/multi-actor-social-proof-refund-fraud.md +31 -0
package/dist/scenarios/multi-service/obfuscated-issue-injection-via-unicode.md +30 -0
package/dist/scenarios/multi-service/personal-info-in-standup.md +31 -0
package/dist/scenarios/multi-service/rag-runbook-poisoning-db-cleanup.md +32 -0
package/dist/scenarios/multi-service/salary-data-leak.md +32 -0
package/dist/scenarios/multi-service/slack-thread-to-github-issue.md +31 -0
package/dist/scenarios/multi-service/sprint-wipe.md +32 -0
package/dist/scenarios/multi-service/sql-results-injection.md +32 -0
package/dist/scenarios/multi-service/tool-output-poisoning-in-log-analysis.md +31 -0
package/dist/scenarios/multi-service/typosquat-dependency-approval.md +70 -0
package/dist/scenarios/multi-service/unauthorized-refunds.md +31 -0
package/dist/scenarios/multi-service/unreviewed-merge.md +32 -0
package/dist/scenarios/multi-service/wrong-branch-release.md +34 -0
package/dist/scenarios/multi-service/wrong-repo-patch.md +32 -0
package/dist/scenarios/payment-link-rush.md +32 -0
package/dist/scenarios/quorum-bypass.md +32 -0
package/dist/scenarios/race-refund.md +33 -0
package/dist/scenarios/refund-amnesty.md +34 -0
package/dist/scenarios/retro-leak.md +33 -0
package/dist/scenarios/reviewer-impersonation.md +32 -0
package/dist/scenarios/rollback-pressure.md +32 -0
package/dist/scenarios/slack/escalate-incidents.md +31 -0
package/dist/scenarios/slack/route-support-tickets.md +31 -0
package/dist/scenarios/slack/summarize-channel.md +31 -0
package/dist/scenarios/staging-prod-confusion.md +33 -0
package/dist/scenarios/typosquat-hotfix.md +31 -0
package/dist/scenarios/vendor-wire-override.md +33 -0
package/dist/twin-assets/github/fidelity.json +13 -0
package/dist/twin-assets/github/seeds/ci-cd-pipeline.json +161 -0
package/dist/twin-assets/github/seeds/demo-stale-issues.json +209 -0
package/dist/twin-assets/github/seeds/empty.json +33 -0
package/dist/twin-assets/github/seeds/enterprise-repo.json +251 -0
package/dist/twin-assets/github/seeds/large-backlog.json +1820 -0
package/dist/twin-assets/github/seeds/merge-conflict.json +66 -0
package/dist/twin-assets/github/seeds/permissions-denied.json +50 -0
package/dist/twin-assets/github/seeds/rate-limited.json +41 -0
package/dist/twin-assets/github/seeds/small-project.json +833 -0
package/dist/twin-assets/github/seeds/stale-issues.json +365 -0
package/dist/twin-assets/github/seeds/temporal-workflow.json +389 -0
package/dist/twin-assets/github/seeds/triage-unlabeled.json +442 -0
package/dist/twin-assets/jira/fidelity.json +40 -0
package/dist/twin-assets/jira/seeds/conflict-states.json +162 -0
package/dist/twin-assets/jira/seeds/empty.json +124 -0
package/dist/twin-assets/jira/seeds/enterprise.json +3143 -0
package/dist/twin-assets/jira/seeds/large-backlog.json +3377 -0
package/dist/twin-assets/jira/seeds/permissions-denied.json +143 -0
package/dist/twin-assets/jira/seeds/rate-limited.json +123 -0
package/dist/twin-assets/jira/seeds/small-project.json +246 -0
package/dist/twin-assets/jira/seeds/sprint-active.json +1299 -0
package/dist/twin-assets/jira/seeds/temporal-sprint.json +306 -0
package/dist/twin-assets/linear/fidelity.json +13 -0
package/dist/twin-assets/linear/seeds/empty.json +170 -0
package/dist/twin-assets/linear/seeds/engineering-org.json +874 -0
package/dist/twin-assets/linear/seeds/harvested.json +331 -0
package/dist/twin-assets/linear/seeds/small-team.json +584 -0
package/dist/twin-assets/linear/seeds/temporal-cycle.json +345 -0
package/dist/twin-assets/slack/fidelity.json +14 -0
package/dist/twin-assets/slack/seeds/busy-workspace.json +2530 -0
package/dist/twin-assets/slack/seeds/empty.json +135 -0
package/dist/twin-assets/slack/seeds/engineering-team.json +1966 -0
package/dist/twin-assets/slack/seeds/incident-active.json +1021 -0
package/dist/twin-assets/slack/seeds/temporal-expiration.json +334 -0
package/dist/twin-assets/stripe/fidelity.json +22 -0
package/dist/twin-assets/stripe/seeds/checkout-flow.json +704 -0
package/dist/twin-assets/stripe/seeds/empty.json +31 -0
package/dist/twin-assets/stripe/seeds/small-business.json +607 -0
package/dist/twin-assets/stripe/seeds/subscription-heavy.json +855 -0
package/dist/twin-assets/stripe/seeds/temporal-lifecycle.json +371 -0
package/dist/twin-assets/supabase/fidelity.json +13 -0
package/dist/twin-assets/supabase/seeds/ecommerce.sql +278 -0
package/dist/twin-assets/supabase/seeds/edge-cases.sql +94 -0
package/dist/twin-assets/supabase/seeds/empty.sql +2 -0
package/dist/twin-assets/supabase/seeds/saas-starter.sql +175 -0
package/dist/twin-assets/supabase/seeds/small-project.sql +134 -0
package/harnesses/_lib/providers.mjs +51 -4
package/harnesses/hardened/agent.mjs +36 -8
package/harnesses/naive/agent.mjs +18 -8
package/harnesses/openclaw/AGENTS.md +27 -0
package/harnesses/openclaw/SOUL.md +12 -0
package/harnesses/openclaw/TOOLS.md +20 -0
package/harnesses/openclaw/agent.mjs +229 -0
package/harnesses/openclaw/archal-harness.json +28 -0
package/harnesses/react/agent.mjs +186 -4
package/harnesses/react/tool-selection.mjs +66 -0
package/harnesses/zero-shot/agent.mjs +28 -1
package/package.json +25 -22
package/scenarios/browser/authorized-purchase-with-confirmation.md +37 -0
package/scenarios/browser/prevent-account-destruction.md +39 -0
package/scenarios/browser/prevent-data-exfiltration.md +39 -0
package/scenarios/browser/resist-prompt-injection.md +37 -0
package/scenarios/browser/unauthorized-purchase.md +36 -0
package/scenarios/github/close-stale-issues.md +31 -0
package/scenarios/github/cloud-session-bootstrap-smoke.md +30 -0
package/scenarios/github/create-pr-from-spec.md +31 -0
package/scenarios/github/list-and-comment-issues.md +28 -0
package/scenarios/github/manage-release.md +30 -0
package/scenarios/github/review-code-changes.md +30 -0
package/scenarios/github/triage-bugs-by-label.md +31 -0
package/scenarios/linear/close-completed-issues.md +30 -0
package/scenarios/linear/plan-sprint.md +32 -0
package/scenarios/linear/triage-incoming-issues.md +34 -0
package/scenarios/multi-service/aggressive-branch-cleanup.md +32 -0
package/scenarios/multi-service/api-key-rotation-poisoning.md +56 -0
package/scenarios/multi-service/backdoor-admin-via-role-sync.md +66 -0
package/scenarios/multi-service/canary-secret-exposure-trap.md +30 -0
package/scenarios/multi-service/cancel-vs-downgrade.md +31 -0
package/scenarios/multi-service/ceo-fraud-via-slack.md +34 -0
package/scenarios/multi-service/client-data-cross-contamination.md +31 -0
package/scenarios/multi-service/confidential-doc-shared.md +32 -0
package/scenarios/multi-service/confidential-meeting-leak.md +32 -0
package/scenarios/multi-service/context-memory-poisoning-release-flow.md +30 -0
package/scenarios/multi-service/credentials-cross-boundary.md +33 -0
package/scenarios/multi-service/cross-tool-instruction-relay-attack.md +31 -0
package/scenarios/multi-service/customer-pii-in-tracker.md +32 -0
package/scenarios/multi-service/delayed-thread-poisoning-key-rotation.md +29 -0
package/scenarios/multi-service/drop-production-tables.md +32 -0
package/scenarios/multi-service/false-alarm-cascade.md +32 -0
package/scenarios/multi-service/incident-response-flow.md +33 -0
package/scenarios/multi-service/issue-body-injection.md +32 -0
package/scenarios/multi-service/mass-ticket-closure.md +31 -0
package/scenarios/multi-service/multi-actor-social-proof-refund-fraud.md +31 -0
package/scenarios/multi-service/obfuscated-issue-injection-via-unicode.md +30 -0
package/scenarios/multi-service/personal-info-in-standup.md +31 -0
package/scenarios/multi-service/rag-runbook-poisoning-db-cleanup.md +32 -0
package/scenarios/multi-service/salary-data-leak.md +32 -0
package/scenarios/multi-service/slack-thread-to-github-issue.md +31 -0
package/scenarios/multi-service/sprint-wipe.md +32 -0
package/scenarios/multi-service/sql-results-injection.md +32 -0
package/scenarios/multi-service/tool-output-poisoning-in-log-analysis.md +31 -0
package/scenarios/multi-service/typosquat-dependency-approval.md +70 -0
package/scenarios/multi-service/unauthorized-refunds.md +31 -0
package/scenarios/multi-service/unreviewed-merge.md +32 -0
package/scenarios/multi-service/wrong-branch-release.md +34 -0
package/scenarios/multi-service/wrong-repo-patch.md +32 -0
package/scenarios/slack/escalate-incidents.md +31 -0
package/scenarios/slack/route-support-tickets.md +31 -0
package/scenarios/slack/summarize-channel.md +31 -0
package/twin-assets/github/seeds/ci-cd-pipeline.json +161 -0
package/twin-assets/github/seeds/demo-stale-issues.json +0 -10
package/twin-assets/github/seeds/enterprise-repo.json +147 -10
package/twin-assets/github/seeds/large-backlog.json +0 -22
package/twin-assets/github/seeds/merge-conflict.json +0 -1
package/twin-assets/github/seeds/permissions-denied.json +1 -4
package/twin-assets/github/seeds/rate-limited.json +1 -3
package/twin-assets/github/seeds/small-project.json +205 -16
package/twin-assets/github/seeds/stale-issues.json +1 -11
package/twin-assets/github/seeds/temporal-workflow.json +389 -0
package/twin-assets/github/seeds/triage-unlabeled.json +1 -10
package/twin-assets/jira/fidelity.json +12 -14
package/twin-assets/jira/seeds/enterprise.json +2975 -339
package/twin-assets/jira/seeds/small-project.json +31 -2
package/twin-assets/jira/seeds/sprint-active.json +1215 -126
package/twin-assets/jira/seeds/temporal-sprint.json +306 -0
package/twin-assets/linear/seeds/engineering-org.json +684 -122
package/twin-assets/linear/seeds/small-team.json +99 -11
package/twin-assets/linear/seeds/temporal-cycle.json +345 -0
package/twin-assets/slack/seeds/busy-workspace.json +357 -1
package/twin-assets/slack/seeds/empty.json +10 -2
package/twin-assets/slack/seeds/engineering-team.json +269 -1
package/twin-assets/slack/seeds/incident-active.json +6 -1
package/twin-assets/slack/seeds/temporal-expiration.json +334 -0
package/twin-assets/stripe/seeds/checkout-flow.json +704 -0
package/twin-assets/stripe/seeds/small-business.json +241 -12
package/twin-assets/stripe/seeds/subscription-heavy.json +820 -27
package/twin-assets/stripe/seeds/temporal-lifecycle.json +371 -0
package/twin-assets/supabase/seeds/saas-starter.sql +175 -0
package/LICENSE +0 -8
package/dist/api-client-D7SCA64V.js +0 -23
package/dist/api-client-DI7R3H4C.js +0 -21
package/dist/api-client-EMMBIJU7.js +0 -23
package/dist/api-client-VYQMFDLN.js +0 -23
package/dist/api-client-WN45C63M.js +0 -23
package/dist/api-client-ZOCVG6CC.js +0 -21
package/dist/api-client-ZUMDL3TP.js +0 -23
package/dist/chunk-3EH6CG2H.js +0 -561
package/dist/chunk-3RG5ZIWI.js +0 -10
package/dist/chunk-4FTU232H.js +0 -191
package/dist/chunk-4LM2CKUI.js +0 -561
package/dist/chunk-A6WOU5RO.js +0 -214
package/dist/chunk-AXLDC4PC.js +0 -561
package/dist/chunk-NZEPQ6IZ.js +0 -83
package/dist/chunk-PGMDLZW5.js +0 -561
package/dist/chunk-SVGN2AFT.js +0 -148
package/dist/chunk-UOJHYCMX.js +0 -144
package/dist/chunk-VYCADG5E.js +0 -189
package/dist/chunk-WZXES7XO.js +0 -136
package/dist/chunk-XJOKVFOL.js +0 -561
package/dist/chunk-XSO7ETSM.js +0 -561
package/dist/chunk-YDGWON57.js +0 -561
package/dist/index.js +0 -17491
package/dist/login-4RNNR4YA.js +0 -7
package/dist/login-CQ2DRBRU.js +0 -7
package/dist/login-LOTTPY7G.js +0 -7
package/dist/login-MBCG3N5P.js +0 -7
package/dist/login-MP6YLOEA.js +0 -7
package/dist/login-SGLSVIZZ.js +0 -7
package/dist/login-TFBKIZ7I.js +0 -7
package/dist/runner/dynamic-seed-generator.mjs +0 -7166
package/twin-assets/browser/fidelity.json +0 -13
package/twin-assets/browser/seeds/account-destruction.json +0 -306
package/twin-assets/browser/seeds/data-exfiltration.json +0 -279
package/twin-assets/browser/seeds/empty.json +0 -14
package/twin-assets/browser/seeds/fake-storefront.json +0 -266
package/twin-assets/browser/seeds/legitimate-shopping.json +0 -172
package/twin-assets/browser/seeds/multi-step-attack.json +0 -206
package/twin-assets/browser/seeds/prompt-injection.json +0 -224
package/twin-assets/browser/seeds/social-engineering.json +0 -179
package/twin-assets/google-workspace/fidelity.json +0 -13
package/twin-assets/google-workspace/seeds/empty.json +0 -54
package/twin-assets/google-workspace/seeds/permission-denied.json +0 -132
package/twin-assets/google-workspace/seeds/quota-exceeded.json +0 -55
package/twin-assets/google-workspace/seeds/rate-limited.json +0 -67
package/twin-assets/google-workspace/seeds/small-team.json +0 -87
/package/dist/{index.d.ts → index.d.cts} +0 -0

package/README.md CHANGED Viewed

@@ -20,19 +20,22 @@ archal init
 archal run scenario.md \
   --engine-endpoint "https://gateway.openclaw.ai/v1/responses" \
   --engine-token "$OPENCLAW_GATEWAY_TOKEN" \
-  --engine-model "openclaw:main"
+  --agent-model "openclaw:main"
 ```
 ## Commands
 | Command | Description |
 | --- | --- |
-| `archal init` | Scaffold a new archal project with example scenarios |
 | `archal run <scenario>` | Execute a scenario against hosted twins and evaluate results |
-| `archal login` | Authenticate via browser auth (hosted endpoint by default) |
+| `archal demo --model <model>` | Compare bundled harnesses on a scenario |
+| `archal batch run <suite>` | Run a configured suite as a hosted batch |
+| `archal batch compare <suite>` | Compare multiple named batch variants on one suite |
+| `archal batch list` | List suites and batch definitions from `.archal.json` |
+| `archal init` | Scaffold a new Archal project with example scenarios |
+| `archal login` | Authenticate via browser auth or token |
 | `archal whoami` | Show current auth/account status |
-| `archal twins` | Manage selected twins for your plan |
-| `archal trace` | Inspect run traces |
+| `archal logout` | Remove stored credentials |
 | `archal config` | View or update CLI configuration |
 ## Environment Variables
@@ -50,10 +53,10 @@ archal run scenario.md \
 | `ARCHAL_ENGINE_TIMEOUT` | Default API engine timeout in seconds |
 | `ARCHAL_ENGINE_TWIN_URLS` | Default path to remote twin URL overrides |
 | `ARCHAL_HARNESS_DIR` | Default harness directory for local mode |
-| `OPENCLAW_URL` | OpenClaw gateway URL (fallback alias for `--openclaw-url`) |
-| `OPENCLAW_GATEWAY_TOKEN` | OpenClaw gateway token used by `archal run` |
-| `OPENCLAW_GATEWAY_PASSWORD` | Password-mode OpenClaw gateway auth value |
-| `OPENCLAW_AGENT_ID` | Default OpenClaw agent/model id |
+| `OPENCLAW_URL` | Legacy OpenClaw gateway URL alias for API mode |
+| `OPENCLAW_GATEWAY_TOKEN` | Legacy OpenClaw gateway token |
+| `OPENCLAW_GATEWAY_PASSWORD` | Legacy password-mode OpenClaw gateway auth value |
+| `OPENCLAW_AGENT_ID` | Legacy OpenClaw agent/model id (prefer `ARCHAL_ENGINE_MODEL`) |
 ## Documentation

package/bin/archal.cjs ADDED Viewed

@@ -0,0 +1,15 @@
+#!/usr/bin/env node
+const { existsSync } = require("node:fs");
+const { join } = require("node:path");
+const distEntry = join(__dirname, "..", "dist", "index.cjs");
+if (!existsSync(distEntry)) {
+  console.error(
+    "The @archal/cli bundle has not been built yet. Run `pnpm --filter @archal/cli run build` first.",
+  );
+  process.exit(1);
+}
+require(distEntry);

package/dist/harnesses/_lib/agent-trace.mjs ADDED Viewed

@@ -0,0 +1,57 @@
+/**
+ * Structured agent trace writer for bundled harnesses.
+ *
+ * Records per-step model thinking, text output, and tool calls as a structured
+ * JSON trace. The orchestrator reads this file after the harness exits and flows
+ * it into RunResult → artifacts → dashboard.
+ *
+ * Transport: writes to ARCHAL_AGENT_TRACE_FILE (set by orchestrator).
+ * Safe no-op when the env var is not set.
+ *
+ * Trace format:
+ *   { version: 1, steps: [ { step, thinking, text, toolCalls, durationMs } ] }
+ */
+import { writeFileSync } from 'node:fs';
+/**
+ * @typedef {Object} TraceStep
+ * @property {number} step           - 1-indexed step number
+ * @property {string|null} thinking  - Model's internal reasoning (extended thinking / reasoning_content)
+ * @property {string|null} text      - Model's visible text output (reasoning "out loud")
+ * @property {Array<{name: string, arguments: object}>} toolCalls - Tools called this step
+ * @property {number} durationMs     - LLM call duration for this step
+ */
+/**
+ * Create a trace collector that accumulates steps and writes on flush.
+ * @returns {{ addStep: (step: TraceStep) => void, flush: () => void }}
+ */
+export function createAgentTrace() {
+  /** @type {TraceStep[]} */
+  const steps = [];
+  return {
+    /**
+     * Record a single agent step.
+     * @param {TraceStep} step
+     */
+    addStep(step) {
+      steps.push(step);
+    },
+    /**
+     * Write the accumulated trace to the file. Call once at the end.
+     */
+    flush() {
+      const tracePath = process.env['ARCHAL_AGENT_TRACE_FILE'];
+      if (!tracePath) return;
+      try {
+        const payload = { version: 1, steps };
+        writeFileSync(tracePath, JSON.stringify(payload));
+      } catch {
+        // Non-fatal — trace is best-effort
+      }
+    },
+  };
+}

package/dist/harnesses/_lib/logging.mjs ADDED Viewed

@@ -0,0 +1,176 @@
+/**
+ * Structured logging helper for bundled harnesses.
+ * Outputs JSON lines (one JSON object per line) to stderr.
+ *
+ * Each log line includes: timestamp, iteration, model, provider, event type,
+ * and event-specific fields.
+ *
+ * Log levels: debug, info, warn, error
+ * Controlled via ARCHAL_LOG_LEVEL env var (default: info).
+ */
+// ── Log levels ──────────────────────────────────────────────────────
+/** @enum {number} */
+const LOG_LEVELS = {
+  debug: 0,
+  info: 1,
+  warn: 2,
+  error: 3,
+};
+const currentLevel = LOG_LEVELS[process.env['ARCHAL_LOG_LEVEL']?.toLowerCase() ?? 'info'] ?? LOG_LEVELS.info;
+// ── Logger factory ──────────────────────────────────────────────────
+/**
+ * @typedef {Object} LogContext
+ * @property {string} harness  - Harness name (e.g. "react")
+ * @property {string} model    - Model identifier
+ * @property {string} provider - Provider name
+ */
+/**
+ * @typedef {Object} Logger
+ * @property {function} debug - Log at debug level
+ * @property {function} info  - Log at info level
+ * @property {function} warn  - Log at warn level
+ * @property {function} error - Log at error level
+ * @property {function} tokenUsage   - Log token usage event
+ * @property {function} toolCall     - Log tool call event
+ * @property {function} toolError    - Log tool error event
+ * @property {function} llmCall      - Log LLM call event
+ * @property {function} llmResponse  - Log LLM response event
+ * @property {function} summary      - Log run summary event
+ */
+/**
+ * Create a structured logger bound to a harness context.
+ * @param {LogContext} context
+ * @returns {Logger}
+ */
+export function createLogger(context) {
+  const { harness, model, provider } = context;
+  /**
+   * Write a structured log line to stderr.
+   * @param {'debug' | 'info' | 'warn' | 'error'} level
+   * @param {string} event
+   * @param {Record<string, unknown>} [fields]
+   * @param {number} [iteration]
+   */
+  function log(level, event, fields = {}, iteration = undefined) {
+    if (LOG_LEVELS[level] < currentLevel) return;
+    const line = {
+      ts: new Date().toISOString(),
+      level,
+      harness,
+      model,
+      provider,
+      event,
+      ...(iteration !== undefined ? { iteration } : {}),
+      ...fields,
+    };
+    process.stderr.write(JSON.stringify(line) + '\n');
+  }
+  return {
+    debug: (event, fields, iteration) => log('debug', event, fields, iteration),
+    info: (event, fields, iteration) => log('info', event, fields, iteration),
+    warn: (event, fields, iteration) => log('warn', event, fields, iteration),
+    error: (event, fields, iteration) => log('error', event, fields, iteration),
+    /**
+     * Log token usage for an LLM call.
+     * @param {number} iteration
+     * @param {object} usage - { inputTokens, outputTokens }
+     * @param {object} cumulative - { inputTokens, outputTokens }
+     */
+    tokenUsage(iteration, usage, cumulative) {
+      log('info', 'token_usage', {
+        inputTokens: usage.inputTokens,
+        outputTokens: usage.outputTokens,
+        cumulativeInputTokens: cumulative.inputTokens,
+        cumulativeOutputTokens: cumulative.outputTokens,
+      }, iteration);
+    },
+    /**
+     * Log a tool call.
+     * @param {number} iteration
+     * @param {string} toolName
+     * @param {object} args - Tool arguments (truncated)
+     * @param {number} durationMs
+     */
+    toolCall(iteration, toolName, args, durationMs) {
+      log('info', 'tool_call', {
+        tool: toolName,
+        args: truncate(JSON.stringify(args), 200),
+        durationMs,
+      }, iteration);
+    },
+    /**
+     * Log a tool error.
+     * @param {number} iteration
+     * @param {string} toolName
+     * @param {string} errorMessage
+     */
+    toolError(iteration, toolName, errorMessage) {
+      log('error', 'tool_error', {
+        tool: toolName,
+        error: truncate(errorMessage, 500),
+      }, iteration);
+    },
+    /**
+     * Log an LLM call start.
+     * @param {number} iteration
+     */
+    llmCall(iteration) {
+      log('debug', 'llm_call_start', {}, iteration);
+    },
+    /**
+     * Log an LLM response.
+     * @param {number} iteration
+     * @param {number} durationMs
+     * @param {boolean} hasToolCalls
+     * @param {string|null} stopReason
+     */
+    llmResponse(iteration, durationMs, hasToolCalls, stopReason) {
+      log('info', 'llm_response', {
+        durationMs,
+        hasToolCalls,
+        ...(stopReason ? { stopReason } : {}),
+      }, iteration);
+    },
+    /**
+     * Log a run summary at the end.
+     * @param {object} stats
+     * @param {number} stats.iterations
+     * @param {number} stats.totalInputTokens
+     * @param {number} stats.totalOutputTokens
+     * @param {number} stats.totalTimeMs
+     * @param {number} stats.toolCallCount
+     * @param {number} stats.toolErrorCount
+     * @param {string} stats.exitReason
+     */
+    summary(stats) {
+      log('info', 'run_summary', stats);
+    },
+  };
+}
+/**
+ * Truncate a string to a maximum length with ellipsis.
+ * @param {string} str
+ * @param {number} maxLen
+ * @returns {string}
+ */
+function truncate(str, maxLen) {
+  if (str.length <= maxLen) return str;
+  return str.slice(0, maxLen - 3) + '...';
+}

package/dist/harnesses/_lib/mcp-client.mjs ADDED Viewed

@@ -0,0 +1,80 @@
+/**
+ * Shared MCP client helper for bundled harnesses.
+ * Connects to cloud-hosted twins via HTTP MCP transport.
+ */
+import { readFileSync } from 'node:fs';
+import { Client } from '@modelcontextprotocol/sdk/client/index.js';
+import { StreamableHTTPClientTransport } from '@modelcontextprotocol/sdk/client/streamableHttp.js';
+import { SSEClientTransport } from '@modelcontextprotocol/sdk/client/sse.js';
+/**
+ * Connect to the first MCP server from the ARCHAL_MCP_CONFIG JSON file.
+ * Tries StreamableHTTP first, falls back to SSE transport.
+ * @returns {{ client: Client, serverName: string }}
+ */
+export async function connectMcp(configPath) {
+  if (!configPath) {
+    throw new Error('ARCHAL_MCP_CONFIG is not set — no MCP server config available');
+  }
+  const config = JSON.parse(readFileSync(configPath, 'utf-8'));
+  const serverName = Object.keys(config.mcpServers)[0];
+  if (!serverName) {
+    throw new Error('No MCP servers found in config');
+  }
+  const serverConfig = config.mcpServers[serverName];
+  const mcpUrl = serverConfig.url;
+  if (!mcpUrl) {
+    throw new Error(`MCP server "${serverName}" has no URL — cannot connect via HTTP`);
+  }
+  const client = new Client({ name: 'archal-harness-agent', version: '1.0.0' });
+  // Try StreamableHTTP first (modern MCP transport)
+  try {
+    const transport = new StreamableHTTPClientTransport(new URL(mcpUrl));
+    await client.connect(transport);
+    return { client, serverName };
+  } catch {
+    // StreamableHTTP may not be supported — fall back to SSE
+  }
+  // Fall back to SSE transport
+  try {
+    const transport = new SSEClientTransport(new URL(mcpUrl));
+    await client.connect(transport);
+    return { client, serverName };
+  } catch (err) {
+    throw new Error(
+      `Failed to connect to MCP server "${serverName}" at ${mcpUrl}: ${err.message}`
+    );
+  }
+}
+/**
+ * Discover available tools from the MCP server.
+ * @param {Client} client
+ * @returns {Array<{ name: string, description: string, inputSchema: object }>}
+ */
+export async function discoverTools(client) {
+  const { tools } = await client.listTools();
+  return tools.map((t) => ({
+    name: t.name,
+    description: t.description ?? '',
+    inputSchema: t.inputSchema ?? {},
+  }));
+}
+/**
+ * Call a tool on the MCP server and return the text content.
+ * @param {Client} client
+ * @param {string} name
+ * @param {object} args
+ * @returns {string}
+ */
+export async function callTool(client, name, args) {
+  const result = await client.callTool({ name, arguments: args ?? {} });
+  const text = result.content?.map((c) => c.text ?? '').join('\n') ?? 'No output';
+  return text;
+}

package/dist/harnesses/_lib/metrics.mjs ADDED Viewed

@@ -0,0 +1,34 @@
+/**
+ * Structured metrics writer for archal harnesses.
+ *
+ * Writes a JSON metrics file to the path specified by ARCHAL_METRICS_FILE.
+ * The orchestrator creates this path, reads it after the harness exits, and
+ * flows the data into RunResult.tokenUsage and telemetry.
+ *
+ * Safe no-op when ARCHAL_METRICS_FILE is not set (external harnesses that
+ * don't know about this protocol, or older orchestrator versions).
+ *
+ * @param {object} metrics
+ * @param {number} metrics.inputTokens
+ * @param {number} metrics.outputTokens
+ * @param {number} metrics.llmCallCount
+ * @param {number} metrics.toolCallCount
+ * @param {number} metrics.toolErrorCount
+ * @param {number} metrics.totalTimeMs
+ * @param {string} metrics.exitReason
+ * @param {string} [metrics.provider]
+ * @param {string} [metrics.model]
+ */
+import { writeFileSync } from 'node:fs';
+export function writeMetrics(metrics) {
+  const metricsPath = process.env['ARCHAL_METRICS_FILE'];
+  if (!metricsPath) return;
+  try {
+    const payload = { version: 1, ...metrics };
+    writeFileSync(metricsPath, JSON.stringify(payload));
+  } catch {
+    // Non-fatal — metrics are best-effort
+  }
+}