npm - @swarmclawai/swarmclaw - Versions diffs - 1.9.6 → 1.9.7 - Mend

@swarmclawai/swarmclaw 1.9.6 → 1.9.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (14) hide show

package/README.md +10 -0
package/package.json +2 -2
package/src/app/api/eval/baselines/route.ts +55 -0
package/src/app/api/eval/gate/route.ts +36 -0
package/src/cli/index.js +3 -0
package/src/components/quality/quality-workspace.tsx +191 -3
package/src/lib/server/eval/baseline.test.ts +111 -0
package/src/lib/server/eval/baseline.ts +274 -0
package/src/lib/server/eval/store.ts +47 -1
package/src/lib/server/eval/types.ts +50 -0
package/src/lib/server/session-tools/extension-creator.ts +2 -2
package/src/lib/server/tasks/task-checkout.ts +1 -1
package/src/types/extension.ts +3 -3
package/electron-dist/main.js +0 -218

package/README.md CHANGED Viewed

@@ -399,6 +399,16 @@ Operational docs: https://swarmclaw.ai/docs/observability
 ## Releases
+### v1.9.7 Highlights
+Bundled eval-gate release: approved baselines, regression checks, and Quality Center release gates for repeatable eval evidence.
+- **Eval regression baselines.** Operators can snapshot the latest scenario or suite score as an approved baseline with minimum score and regression allowance settings.
+- **Release gate API.** `/api/eval/gate` compares current eval evidence against thresholds and baselines, while `/api/eval/baselines` lists and updates approved baselines.
+- **CLI gate checks.** `swarmclaw eval gate`, `swarmclaw eval baselines`, and `swarmclaw eval baseline-set` expose the same release-gate workflow from automation.
+- **Quality Center gate panel.** Eval Lab now shows pass/warn/fail status, latest-run coverage, current score, baseline score, regression points, and actionable checks.
+- **Public-source hygiene.** Generic implementation comments now describe SwarmClaw behavior without naming internal comparison sources.
 ### v1.9.6 Highlights
 Bundled eval-environment release: validation preflights, deterministic eval workspaces, and clearer operator readiness before spending run budget.

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@swarmclawai/swarmclaw",
-  "version": "1.9.6",
+  "version": "1.9.7",
   "description": "Build and run autonomous AI agents with OpenClaw, Hermes, multiple model providers, orchestration, delegation, memory, skills, schedules, and chat connectors.",
   "main": "electron-dist/main.js",
   "license": "MIT",
@@ -87,7 +87,7 @@
     "test:cli": "node --test src/cli/*.test.js bin/*.test.js scripts/electron-after-pack.test.mjs scripts/ensure-sandbox-browser-image.test.mjs scripts/postinstall.test.mjs scripts/run-next-build.test.mjs scripts/run-next-typegen.test.mjs",
     "test:setup": "tsx --test src/app/api/setup/check-provider/route.test.ts src/lib/server/provider-model-discovery.test.ts src/components/auth/setup-wizard/utils.test.ts src/components/auth/setup-wizard/types.test.ts src/hooks/setup-done-detection.test.ts src/lib/setup-defaults.test.ts src/lib/server/storage-auth.test.ts src/lib/server/storage-auth-docker.test.ts",
     "test:openclaw": "tsx --test src/lib/openclaw/openclaw-agent-id.test.ts src/lib/openclaw/openclaw-endpoint.test.ts src/lib/server/agents/agent-runtime-config.test.ts src/lib/server/build-llm.test.ts src/lib/server/connectors/connector-routing.test.ts src/lib/server/connectors/openclaw.test.ts src/lib/server/connectors/swarmdock.test.ts src/lib/server/gateway/protocol.test.ts src/lib/server/gateways/gateway-topology.test.ts src/lib/server/llm-response-cache.test.ts src/lib/server/mcp-conformance.test.ts src/lib/server/openclaw/agent-resolver.test.ts src/lib/server/openclaw/deploy.test.ts src/lib/server/openclaw/skills-normalize.test.ts src/lib/server/session-tools/openclaw-nodes.test.ts src/lib/server/session-tools/swarmdock.test.ts src/lib/server/tasks/task-quality-gate.test.ts src/lib/server/tasks/task-validation.test.ts src/lib/server/tool-capability-policy.test.ts src/lib/providers/openai.test.ts src/lib/providers/openclaw-exports.test.ts src/app/api/gateways/topology-route.test.ts src/app/api/openclaw/dashboard-url/route.test.ts",
-    "test:runtime": "tsx --test src/lib/a2a/agent-card.test.ts src/lib/strip-internal-metadata.test.ts src/lib/provider-sets.test.ts src/lib/providers/opencode-cli.test.ts src/lib/providers/cli-provider-metadata.test.ts src/lib/providers/cli-utils.test.ts src/lib/providers/generic-cli.test.ts src/lib/server/agents/delegation-advisory.test.ts src/lib/server/cli-provider-readiness.test.ts src/lib/server/provider-health.test.ts src/lib/server/mcp-gateway-runtime.test.ts src/lib/server/mcp-connection-pool.test.ts src/lib/server/knowledge-sources.test.ts src/lib/server/extension-managed-resources.test.ts src/lib/server/eval/environment-plan.test.ts src/lib/server/chat-execution/chat-execution-grounding.test.ts src/lib/server/chat-execution/chat-turn-preparation.test.ts src/lib/server/chat-execution/iteration-timers.test.ts src/lib/server/chat-execution/post-stream-finalization.test.ts src/lib/server/chat-execution/reasoning-tag-scrubber.test.ts src/lib/server/chats/clear-undo-snapshots.test.ts src/lib/server/connectors/email.test.ts src/lib/server/protocols/protocol-service.test.ts src/lib/server/runtime/run-ledger.test.ts src/lib/server/runtime/queue-retry-policy.test.ts src/lib/server/runs/run-brief.test.ts src/lib/server/operations/operation-pulse.test.ts src/lib/server/artifacts/artifact-resolver.test.ts src/lib/server/observability/otel-config.test.ts src/lib/server/safe-parse-body.test.ts src/lib/server/missions/mission-templates.test.ts src/lib/server/sharing/share-link-repository.test.ts src/lib/server/sharing/share-resolver.test.ts src/lib/server/tasks/task-execution-workspace.test.ts src/lib/server/tasks/task-service.test.ts src/lib/server/session-tools/execute.test.ts src/lib/server/session-tools/manage-tasks.test.ts src/lib/app/view-constants.test.ts src/lib/quality/quality-summary.test.ts src/app/api/approvals/route.test.ts src/app/api/agents/agents-route.test.ts src/app/api/tasks/tasks-route.test.ts src/app/api/tasks/task-workspace-route.test.ts src/app/api/chats/chat-route.test.ts src/app/api/chats/clear-route.test.ts src/app/api/chats/compact-route.test.ts src/app/api/chats/context-status-route.test.ts src/app/api/connectors/connector-doctor-route.test.ts src/app/api/extensions/managed-resources/route.test.ts src/app/api/healthz/route.test.ts src/app/api/logs/route.test.ts src/app/api/portability/export/route.test.ts src/app/api/portability/import/route.test.ts src/app/api/providers/[id]/route.test.ts src/app/api/tts/route.test.ts",
+    "test:runtime": "tsx --test src/lib/a2a/agent-card.test.ts src/lib/strip-internal-metadata.test.ts src/lib/provider-sets.test.ts src/lib/providers/opencode-cli.test.ts src/lib/providers/cli-provider-metadata.test.ts src/lib/providers/cli-utils.test.ts src/lib/providers/generic-cli.test.ts src/lib/server/agents/delegation-advisory.test.ts src/lib/server/cli-provider-readiness.test.ts src/lib/server/provider-health.test.ts src/lib/server/mcp-gateway-runtime.test.ts src/lib/server/mcp-connection-pool.test.ts src/lib/server/knowledge-sources.test.ts src/lib/server/extension-managed-resources.test.ts src/lib/server/eval/baseline.test.ts src/lib/server/eval/environment-plan.test.ts src/lib/server/chat-execution/chat-execution-grounding.test.ts src/lib/server/chat-execution/chat-turn-preparation.test.ts src/lib/server/chat-execution/iteration-timers.test.ts src/lib/server/chat-execution/post-stream-finalization.test.ts src/lib/server/chat-execution/reasoning-tag-scrubber.test.ts src/lib/server/chats/clear-undo-snapshots.test.ts src/lib/server/connectors/email.test.ts src/lib/server/protocols/protocol-service.test.ts src/lib/server/runtime/run-ledger.test.ts src/lib/server/runtime/queue-retry-policy.test.ts src/lib/server/runs/run-brief.test.ts src/lib/server/operations/operation-pulse.test.ts src/lib/server/artifacts/artifact-resolver.test.ts src/lib/server/observability/otel-config.test.ts src/lib/server/safe-parse-body.test.ts src/lib/server/missions/mission-templates.test.ts src/lib/server/sharing/share-link-repository.test.ts src/lib/server/sharing/share-resolver.test.ts src/lib/server/tasks/task-execution-workspace.test.ts src/lib/server/tasks/task-service.test.ts src/lib/server/session-tools/execute.test.ts src/lib/server/session-tools/manage-tasks.test.ts src/lib/app/view-constants.test.ts src/lib/quality/quality-summary.test.ts src/app/api/approvals/route.test.ts src/app/api/agents/agents-route.test.ts src/app/api/tasks/tasks-route.test.ts src/app/api/tasks/task-workspace-route.test.ts src/app/api/chats/chat-route.test.ts src/app/api/chats/clear-route.test.ts src/app/api/chats/compact-route.test.ts src/app/api/chats/context-status-route.test.ts src/app/api/connectors/connector-doctor-route.test.ts src/app/api/extensions/managed-resources/route.test.ts src/app/api/healthz/route.test.ts src/app/api/logs/route.test.ts src/app/api/portability/export/route.test.ts src/app/api/portability/import/route.test.ts src/app/api/providers/[id]/route.test.ts src/app/api/tts/route.test.ts",
     "test:builder": "tsx --test src/features/protocols/builder/utils/nodes-to-template.test.ts src/features/protocols/builder/utils/template-to-nodes.test.ts src/features/protocols/builder/validators/dag-validator.test.ts",
     "test:e2e": "node --import tsx scripts/browser-e2e-smoke.ts",
     "test:mcp:conformance": "node --import tsx ./scripts/mcp-conformance-check.ts",

package/src/app/api/eval/baselines/route.ts ADDED Viewed

@@ -0,0 +1,55 @@
+import { NextResponse } from 'next/server'
+import { z } from 'zod'
+import { evaluateEvalGate, listEvalBaselinesForAgent, setEvalBaseline } from '@/lib/server/eval/baseline'
+import { errorMessage } from '@/lib/shared-utils'
+const BaselineSchema = z.object({
+  agentId: z.string().min(1),
+  scenarioId: z.string().min(1).nullable().optional(),
+  suite: z.string().min(1).nullable().optional(),
+  minPercent: z.number().min(0).max(100).nullable().optional(),
+  maxRegressionPoints: z.number().min(0).max(100).nullable().optional(),
+  label: z.string().max(160).nullable().optional(),
+  notes: z.string().max(1_000).nullable().optional(),
+})
+export async function GET(req: Request) {
+  try {
+    const { searchParams } = new URL(req.url)
+    const agentId = searchParams.get('agentId')
+    return NextResponse.json(listEvalBaselinesForAgent(agentId))
+  } catch (err: unknown) {
+    return NextResponse.json(
+      { error: errorMessage(err) },
+      { status: 500 },
+    )
+  }
+}
+export async function POST(req: Request) {
+  try {
+    const body: unknown = await req.json()
+    const parsed = BaselineSchema.safeParse(body)
+    if (!parsed.success) {
+      return NextResponse.json(
+        { error: parsed.error.issues.map((issue) => issue.message).join(', ') },
+        { status: 400 },
+      )
+    }
+    const baseline = setEvalBaseline(parsed.data)
+    const gate = evaluateEvalGate({
+      agentId: parsed.data.agentId,
+      scenarioId: parsed.data.scenarioId,
+      suite: parsed.data.suite,
+      minPercent: parsed.data.minPercent,
+      maxRegressionPoints: parsed.data.maxRegressionPoints,
+    })
+    return NextResponse.json({ baseline, gate })
+  } catch (err: unknown) {
+    return NextResponse.json(
+      { error: errorMessage(err) },
+      { status: 500 },
+    )
+  }
+}

package/src/app/api/eval/gate/route.ts ADDED Viewed

@@ -0,0 +1,36 @@
+import { NextResponse } from 'next/server'
+import { evaluateEvalGate } from '@/lib/server/eval/baseline'
+import { errorMessage } from '@/lib/shared-utils'
+function parseNumberParam(value: string | null): number | null {
+  if (value == null || value.trim() === '') return null
+  const parsed = Number(value)
+  return Number.isFinite(parsed) ? parsed : null
+}
+export async function GET(req: Request) {
+  try {
+    const { searchParams } = new URL(req.url)
+    const agentId = searchParams.get('agentId') || ''
+    if (!agentId) {
+      return NextResponse.json(
+        { error: 'agentId is required' },
+        { status: 400 },
+      )
+    }
+    const result = evaluateEvalGate({
+      agentId,
+      scenarioId: searchParams.get('scenarioId'),
+      suite: searchParams.get('suite'),
+      minPercent: parseNumberParam(searchParams.get('minPercent')),
+      maxRegressionPoints: parseNumberParam(searchParams.get('maxRegressionPoints')),
+    })
+    return NextResponse.json(result)
+  } catch (err: unknown) {
+    return NextResponse.json(
+      { error: errorMessage(err) },
+      { status: 500 },
+    )
+  }
+}

package/src/cli/index.js CHANGED Viewed

@@ -232,9 +232,12 @@ const COMMAND_GROUPS = [
       cmd('suites', 'GET', '/eval/suites', 'List available eval suites (core, swe-bench-lite, gaia-l1, ...)'),
       cmd('status', 'GET', '/eval/run', 'Get eval run status'),
       cmd('environment', 'GET', '/eval/environments', 'Preview validation environment readiness for an eval'),
+      cmd('baselines', 'GET', '/eval/baselines', 'List eval regression baselines'),
+      cmd('gate', 'GET', '/eval/gate', 'Check the latest eval score against thresholds and baseline'),
       cmd('run', 'POST', '/eval/run', 'Run an eval scenario against an agent', { expectsJsonBody: true }),
       cmd('suite', 'POST', '/eval/suite', 'Run a full eval suite against an agent (pass { suite: "swe-bench-lite" } in body)', { expectsJsonBody: true }),
       cmd('environment-prepare', 'POST', '/eval/environments', 'Prepare validation environment readiness for an eval', { expectsJsonBody: true }),
+      cmd('baseline-set', 'POST', '/eval/baselines', 'Set an eval regression baseline from latest completed runs', { expectsJsonBody: true }),
     ],
   },
   {

package/src/components/quality/quality-workspace.tsx CHANGED Viewed

@@ -17,7 +17,7 @@ import {
 } from '@/lib/quality/quality-summary'
 import { cn } from '@/lib/utils'
 import { useAppStore } from '@/stores/use-app-store'
-import type { EvalEnvironmentPlan, EvalRun, EvalSuiteResult } from '@/lib/server/eval/types'
+import type { EvalEnvironmentPlan, EvalGateResult, EvalRun, EvalSuiteResult } from '@/lib/server/eval/types'
 import type { Agent, ApprovalRequest, SessionRunRecord } from '@/types'
 type QualityTab = 'overview' | 'evals' | 'approvals' | 'runs'
@@ -117,6 +117,18 @@ function checkClass(level: 'info' | 'warn' | 'error'): string {
   return 'border-white/[0.06] bg-white/[0.025] text-text-3'
 }
+function gateStatusClass(status: EvalGateResult['status']): string {
+  if (status === 'pass') return 'border-emerald-500/25 bg-emerald-500/10 text-emerald-200'
+  if (status === 'warn') return 'border-amber-500/25 bg-amber-500/10 text-amber-200'
+  return 'border-rose-500/25 bg-rose-500/10 text-rose-200'
+}
+function gateCheckClass(status: EvalGateResult['status']): string {
+  if (status === 'fail') return 'border-rose-500/20 bg-rose-500/[0.05] text-rose-200'
+  if (status === 'warn') return 'border-amber-500/20 bg-amber-500/[0.05] text-amber-200'
+  return 'border-emerald-500/20 bg-emerald-500/[0.05] text-emerald-200'
+}
 function EvalEnvironmentPanel({ plan, loading, onRefresh }: {
   plan: EvalEnvironmentPlan | null
   loading: boolean
@@ -195,6 +207,115 @@ function EvalEnvironmentPanel({ plan, loading, onRefresh }: {
   )
 }
+function EvalGatePanel({
+  gate,
+  loading,
+  busy,
+  scope,
+  onScopeChange,
+  onRefresh,
+  onSetBaseline,
+}: {
+  gate: EvalGateResult | null
+  loading: boolean
+  busy: boolean
+  scope: 'scenario' | 'suite'
+  onScopeChange: (scope: 'scenario' | 'suite') => void
+  onRefresh: () => void
+  onSetBaseline: () => void
+}) {
+  return (
+    <div className="rounded-[12px] border border-white/[0.06] bg-white/[0.025] px-3 py-3">
+      <div className="flex items-start justify-between gap-3">
+        <div>
+          <div className="text-[13px] font-800 text-text">Regression gate</div>
+          <p className="mt-1 text-[11px] leading-relaxed text-text-3/65">
+            Compare latest eval evidence against thresholds and an approved baseline.
+          </p>
+        </div>
+        <button
+          type="button"
+          onClick={onRefresh}
+          disabled={loading}
+          className="shrink-0 rounded-[8px] border border-white/[0.08] px-2 py-1 text-[10px] font-800 text-text-2 transition-colors hover:bg-white/[0.06] disabled:opacity-40"
+        >
+          {loading ? 'Checking' : 'Refresh'}
+        </button>
+      </div>
+      <div className="mt-3 flex rounded-[10px] border border-white/[0.06] bg-white/[0.025] p-1">
+        {(['scenario', 'suite'] as const).map((item) => (
+          <button
+            key={item}
+            type="button"
+            onClick={() => onScopeChange(item)}
+            className={cn(
+              'flex-1 rounded-[8px] px-2 py-1.5 text-[10px] font-800 uppercase tracking-[0.08em] transition-colors',
+              scope === item ? 'bg-white/[0.1] text-text' : 'text-text-3 hover:bg-white/[0.05]',
+            )}
+          >
+            {item}
+          </button>
+        ))}
+      </div>
+      {!gate ? (
+        <div className="mt-3 text-[11px] text-text-3/60">{loading ? 'Checking gate...' : 'Run evals to build gate evidence.'}</div>
+      ) : (
+        <div className="mt-3 flex flex-col gap-3">
+          <div className="flex flex-wrap items-center gap-2">
+            <span className={cn('rounded-full border px-2 py-1 text-[10px] font-800 uppercase tracking-[0.08em]', gateStatusClass(gate.status))}>
+              {gate.status}
+            </span>
+            <span className="rounded-full bg-white/[0.05] px-2 py-1 text-[10px] font-700 text-text-3">
+              {gate.scope.label}
+            </span>
+            <span className="rounded-full bg-white/[0.05] px-2 py-1 text-[10px] font-700 text-text-3">
+              {gate.latestRuns.length}/{gate.scope.scenarioIds.length} latest runs
+            </span>
+          </div>
+          <div className="grid grid-cols-3 gap-2">
+            <div className="rounded-[10px] border border-white/[0.06] bg-white/[0.02] px-2 py-2">
+              <div className="text-[9px] font-800 uppercase tracking-[0.08em] text-text-3/50">Current</div>
+              <div className="mt-1 text-[14px] font-800 text-text">{formatPercent(gate.currentPercent)}</div>
+            </div>
+            <div className="rounded-[10px] border border-white/[0.06] bg-white/[0.02] px-2 py-2">
+              <div className="text-[9px] font-800 uppercase tracking-[0.08em] text-text-3/50">Baseline</div>
+              <div className="mt-1 text-[14px] font-800 text-text">{gate.baseline ? `${gate.baseline.baselinePercent}%` : 'none'}</div>
+            </div>
+            <div className="rounded-[10px] border border-white/[0.06] bg-white/[0.02] px-2 py-2">
+              <div className="text-[9px] font-800 uppercase tracking-[0.08em] text-text-3/50">Regression</div>
+              <div className="mt-1 text-[14px] font-800 text-text">{gate.regressionPoints == null ? 'n/a' : `${gate.regressionPoints}pt`}</div>
+            </div>
+          </div>
+          <div className="flex flex-col gap-1.5">
+            {gate.checks.slice(0, 4).map((check) => (
+              <div key={`${check.code}:${check.message}`} className={cn('rounded-[9px] border px-2.5 py-2 text-[11px] leading-relaxed', gateCheckClass(check.status))}>
+                <span className="font-800 uppercase tracking-[0.08em]">{check.status}</span>
+                <span className="ml-2">{check.message}</span>
+              </div>
+            ))}
+            {gate.checks.length > 4 && (
+              <div className="text-[10px] text-text-3/55">+{gate.checks.length - 4} more check{gate.checks.length - 4 === 1 ? '' : 's'}</div>
+            )}
+          </div>
+          <button
+            type="button"
+            onClick={onSetBaseline}
+            disabled={busy || gate.latestRuns.length === 0 || gate.checks.some((check) => check.code === 'missing_scope_runs')}
+            className="rounded-[9px] border border-white/[0.08] bg-white/[0.04] px-3 py-2 text-[11px] font-800 text-text-2 transition-colors hover:bg-white/[0.08] disabled:cursor-not-allowed disabled:opacity-40"
+          >
+            {busy ? 'Saving baseline' : gate.baseline ? 'Update baseline' : 'Set baseline'}
+          </button>
+        </div>
+      )}
+    </div>
+  )
+}
 export function QualityWorkspace() {
   const router = useRouter()
   const searchParams = useSearchParams()
@@ -219,6 +340,10 @@ export function QualityWorkspace() {
   const [evalBusy, setEvalBusy] = useState<string | null>(null)
   const [evalEnvironmentPlan, setEvalEnvironmentPlan] = useState<EvalEnvironmentPlan | null>(null)
   const [evalEnvironmentLoading, setEvalEnvironmentLoading] = useState(false)
+  const [evalGate, setEvalGate] = useState<EvalGateResult | null>(null)
+  const [evalGateScope, setEvalGateScope] = useState<'scenario' | 'suite'>('scenario')
+  const [evalGateLoading, setEvalGateLoading] = useState(false)
+  const [evalBaselineBusy, setEvalBaselineBusy] = useState(false)
   const [approvalBusy, setApprovalBusy] = useState<string | null>(null)
   useEffect(() => {
@@ -283,6 +408,30 @@ export function QualityWorkspace() {
     }
   }, [selectedAgentId, selectedScenarioId, selectedSuite])
+  const loadEvalGate = useCallback(async () => {
+    if (!selectedAgentId) {
+      setEvalGate(null)
+      return
+    }
+    if (evalGateScope === 'scenario' && !selectedScenarioId) {
+      setEvalGate(null)
+      return
+    }
+    const params = new URLSearchParams({ agentId: selectedAgentId })
+    if (evalGateScope === 'scenario') params.set('scenarioId', selectedScenarioId)
+    else params.set('suite', selectedSuite)
+    setEvalGateLoading(true)
+    try {
+      const gate = await api<EvalGateResult>('GET', `/eval/gate?${params.toString()}`)
+      setEvalGate(gate)
+    } catch (err) {
+      setEvalGate(null)
+      toast.error(err instanceof Error ? err.message : 'Unable to check eval gate')
+    } finally {
+      setEvalGateLoading(false)
+    }
+  }, [evalGateScope, selectedAgentId, selectedScenarioId, selectedSuite])
   useEffect(() => {
     void loadQualityData()
   }, [loadQualityData])
@@ -301,6 +450,10 @@ export function QualityWorkspace() {
     void loadEvalEnvironmentPlan()
   }, [loadEvalEnvironmentPlan])
+  useEffect(() => {
+    void loadEvalGate()
+  }, [loadEvalGate])
   useEffect(() => {
     if (!suites.some((suite) => suite.name === selectedSuite) && suites[0]) {
       setSelectedSuite(suites[0].name)
@@ -341,12 +494,13 @@ export function QualityWorkspace() {
       toast.success('Eval scenario completed')
       await loadQualityData({ silent: true })
       await loadEvalEnvironmentPlan()
+      await loadEvalGate()
     } catch (err) {
       toast.error(err instanceof Error ? err.message : 'Eval scenario failed')
     } finally {
       setEvalBusy(null)
     }
-  }, [evalEnvironmentPlan, loadEvalEnvironmentPlan, loadQualityData, selectedAgentId, selectedScenarioId])
+  }, [evalEnvironmentPlan, loadEvalEnvironmentPlan, loadEvalGate, loadQualityData, selectedAgentId, selectedScenarioId])
   const runSuite = useCallback(async (suiteName: string) => {
     if (!selectedAgentId) {
@@ -369,12 +523,37 @@ export function QualityWorkspace() {
       toast.success(`Suite completed at ${Math.round(result.percentage)}%`)
       await loadQualityData({ silent: true })
       await loadEvalEnvironmentPlan()
+      await loadEvalGate()
     } catch (err) {
       toast.error(err instanceof Error ? err.message : 'Eval suite failed')
     } finally {
       setEvalBusy(null)
     }
-  }, [evalEnvironmentPlan, loadEvalEnvironmentPlan, loadQualityData, selectedAgentId])
+  }, [evalEnvironmentPlan, loadEvalEnvironmentPlan, loadEvalGate, loadQualityData, selectedAgentId])
+  const setEvalBaseline = useCallback(async () => {
+    if (!selectedAgentId) {
+      toast.error('Choose an agent first')
+      return
+    }
+    if (evalGateScope === 'scenario' && !selectedScenarioId) {
+      toast.error('Choose a scenario first')
+      return
+    }
+    setEvalBaselineBusy(true)
+    try {
+      const body = evalGateScope === 'scenario'
+        ? { agentId: selectedAgentId, scenarioId: selectedScenarioId, minPercent: evalGate?.minPercent ?? 80, maxRegressionPoints: evalGate?.maxRegressionPoints ?? 5 }
+        : { agentId: selectedAgentId, suite: selectedSuite, minPercent: evalGate?.minPercent ?? 80, maxRegressionPoints: evalGate?.maxRegressionPoints ?? 5 }
+      const result = await api<{ gate: EvalGateResult }>('POST', '/eval/baselines', body)
+      setEvalGate(result.gate)
+      toast.success('Eval baseline saved')
+    } catch (err) {
+      toast.error(err instanceof Error ? err.message : 'Unable to save eval baseline')
+    } finally {
+      setEvalBaselineBusy(false)
+    }
+  }, [evalGate, evalGateScope, selectedAgentId, selectedScenarioId, selectedSuite])
   const actOnApproval = useCallback(async (approval: ApprovalRequest, approved: boolean) => {
     setApprovalBusy(approval.id)
@@ -600,6 +779,15 @@ export function QualityWorkspace() {
                     loading={evalEnvironmentLoading}
                     onRefresh={() => void loadEvalEnvironmentPlan({ refreshGateway: true })}
                   />
+                  <EvalGatePanel
+                    gate={evalGate}
+                    loading={evalGateLoading}
+                    busy={evalBaselineBusy}
+                    scope={evalGateScope}
+                    onScopeChange={setEvalGateScope}
+                    onRefresh={() => void loadEvalGate()}
+                    onSetBaseline={() => void setEvalBaseline()}
+                  />
                   <button
                     type="button"
                     onClick={() => openMissionTemplate('release-candidate-qa')}

package/src/lib/server/eval/baseline.test.ts ADDED Viewed

@@ -0,0 +1,111 @@
+import assert from 'node:assert/strict'
+import test from 'node:test'
+import {
+  evaluateEvalGate,
+  setEvalBaseline,
+} from './baseline'
+import type { EvalBaseline, EvalRun } from './types'
+function makeRun(overrides: Partial<EvalRun> = {}): EvalRun {
+  return {
+    id: 'run-1',
+    scenarioId: 'coding-prime',
+    agentId: 'agent-1',
+    status: 'completed',
+    startedAt: 1,
+    endedAt: 2,
+    score: 8,
+    maxScore: 10,
+    details: [],
+    ...overrides,
+  }
+}
+function depsFor(runs: EvalRun[], baseline: EvalBaseline | null = null, saved: EvalBaseline[] = []) {
+  return {
+    now: () => 123,
+    listRunsByAgent: (agentId: string) => runs.filter((run) => run.agentId === agentId),
+    getBaselineForScope: () => baseline,
+    saveBaseline: (next: EvalBaseline) => { saved.push(next) },
+  }
+}
+test('setEvalBaseline snapshots the latest scenario score and gate defaults', () => {
+  const saved: EvalBaseline[] = []
+  const baseline = setEvalBaseline(
+    {
+      agentId: 'agent-1',
+      scenarioId: 'coding-prime',
+      minPercent: 75,
+      maxRegressionPoints: 3,
+      label: 'Release candidate',
+    },
+    depsFor([
+      makeRun({ id: 'older', score: 4, startedAt: 1, endedAt: 2 }),
+      makeRun({ id: 'latest', score: 8, startedAt: 5, endedAt: 6 }),
+    ], null, saved),
+  )
+  assert.equal(saved.length, 1)
+  assert.equal(baseline.scope.type, 'scenario')
+  assert.equal(baseline.scope.id, 'coding-prime')
+  assert.equal(baseline.baselinePercent, 80)
+  assert.equal(baseline.minPercent, 75)
+  assert.equal(baseline.maxRegressionPoints, 3)
+  assert.deepEqual(baseline.runIds, ['latest'])
+})
+test('evaluateEvalGate warns until a baseline is approved', () => {
+  const gate = evaluateEvalGate(
+    { agentId: 'agent-1', scenarioId: 'coding-prime', minPercent: 70 },
+    depsFor([makeRun({ score: 8, maxScore: 10 })]),
+  )
+  assert.equal(gate.currentPercent, 80)
+  assert.equal(gate.status, 'warn')
+  assert.ok(gate.checks.some((check) => check.code === 'baseline_missing' && check.status === 'warn'))
+})
+test('evaluateEvalGate fails when regression exceeds the baseline allowance', () => {
+  const baseline = setEvalBaseline(
+    { agentId: 'agent-1', scenarioId: 'coding-prime', minPercent: 70, maxRegressionPoints: 2 },
+    depsFor([makeRun({ id: 'baseline', score: 9, maxScore: 10 })]),
+  )
+  const gate = evaluateEvalGate(
+    { agentId: 'agent-1', scenarioId: 'coding-prime' },
+    depsFor([makeRun({ id: 'current', score: 6, maxScore: 10, startedAt: 10, endedAt: 11 })], baseline),
+  )
+  assert.equal(gate.currentPercent, 60)
+  assert.equal(gate.regressionPoints, 30)
+  assert.equal(gate.status, 'fail')
+  assert.ok(gate.checks.some((check) => check.code === 'regression_limit_exceeded'))
+})
+test('evaluateEvalGate passes when score and regression checks pass', () => {
+  const baseline = setEvalBaseline(
+    { agentId: 'agent-1', scenarioId: 'coding-prime', minPercent: 70, maxRegressionPoints: 5 },
+    depsFor([makeRun({ id: 'baseline', score: 8, maxScore: 10 })]),
+  )
+  const gate = evaluateEvalGate(
+    { agentId: 'agent-1', scenarioId: 'coding-prime' },
+    depsFor([makeRun({ id: 'current', score: 8, maxScore: 10, startedAt: 10, endedAt: 11 })], baseline),
+  )
+  assert.equal(gate.status, 'pass')
+  assert.equal(gate.regressionPoints, 0)
+  assert.ok(gate.checks.some((check) => check.code === 'score_threshold_met'))
+})
+test('suite gates require latest runs for every scenario in scope before baselining', () => {
+  assert.throws(
+    () => setEvalBaseline(
+      { agentId: 'agent-1', suite: 'core' },
+      depsFor([makeRun({ scenarioId: 'coding-prime' })]),
+    ),
+    /Baseline requires latest runs for every scenario in scope/,
+  )
+})

package/src/lib/server/eval/baseline.ts ADDED Viewed

@@ -0,0 +1,274 @@
+import {
+  getEvalBaselineForScope,
+  listEvalBaselines,
+  listEvalRunsByAgent,
+  saveEvalBaseline,
+} from './store'
+import { getScenario, getSuiteScenarios } from './scenarios'
+import type {
+  EvalBaseline,
+  EvalGateCheck,
+  EvalGateResult,
+  EvalGateScope,
+  EvalGateScopeType,
+  EvalRun,
+} from './types'
+const DEFAULT_MIN_PERCENT = 80
+const DEFAULT_MAX_REGRESSION_POINTS = 5
+const MAX_LOOKBACK_RUNS = 1_000
+export interface EvalGateInput {
+  agentId: string
+  scenarioId?: string | null
+  suite?: string | null
+  minPercent?: number | null
+  maxRegressionPoints?: number | null
+}
+export interface SetEvalBaselineInput extends EvalGateInput {
+  label?: string | null
+  notes?: string | null
+}
+interface EvalGateDeps {
+  now?: () => number
+  listRunsByAgent?: (agentId: string, limit: number) => EvalRun[]
+  getBaselineForScope?: (agentId: string, scopeType: EvalGateScopeType, scopeId: string) => EvalBaseline | null
+  saveBaseline?: (baseline: EvalBaseline) => void
+  listBaselines?: (filters?: { agentId?: string; limit?: number }) => EvalBaseline[]
+}
+interface EvalAggregate {
+  runs: EvalRun[]
+  missingScenarioIds: string[]
+  score: number
+  maxScore: number
+  percent: number | null
+}
+function normalizePercent(value: number | null | undefined, fallback: number): number {
+  if (!Number.isFinite(value) || value == null) return fallback
+  return Math.max(0, Math.min(100, Math.round(value)))
+}
+function normalizeRegressionPoints(value: number | null | undefined, fallback: number): number {
+  if (!Number.isFinite(value) || value == null) return fallback
+  return Math.max(0, Math.round(value))
+}
+function scorePercent(score: number, maxScore: number): number | null {
+  if (!Number.isFinite(score) || !Number.isFinite(maxScore) || maxScore <= 0) return null
+  return Math.round((score / maxScore) * 100)
+}
+function maxScoreForScenario(scenarioId: string): number {
+  const scenario = getScenario(scenarioId)
+  return scenario?.scoringCriteria.reduce((sum, criterion) => sum + criterion.weight, 0) ?? 0
+}
+export function resolveEvalGateScope(input: Pick<EvalGateInput, 'scenarioId' | 'suite'>): EvalGateScope {
+  const scenarioId = input.scenarioId?.trim()
+  if (scenarioId) {
+    const scenario = getScenario(scenarioId)
+    if (!scenario) throw new Error(`Unknown eval scenario: ${scenarioId}`)
+    return {
+      type: 'scenario',
+      id: scenario.id,
+      label: scenario.name,
+      scenarioIds: [scenario.id],
+    }
+  }
+  const suite = input.suite?.trim() || 'core'
+  const scenarios = getSuiteScenarios(suite)
+  if (scenarios.length === 0) throw new Error(`Unknown or empty eval suite: ${suite}`)
+  return {
+    type: 'suite',
+    id: suite,
+    label: suite,
+    scenarioIds: scenarios.map((scenario) => scenario.id),
+  }
+}
+export function evalBaselineId(agentId: string, scope: EvalGateScope): string {
+  return `eval-baseline:${agentId}:${scope.type}:${scope.id}`
+}
+function latestRunsForScope(runs: EvalRun[], scope: EvalGateScope): EvalRun[] {
+  const scenarioSet = new Set(scope.scenarioIds)
+  const latest = new Map<string, EvalRun>()
+  for (const run of runs) {
+    if (!scenarioSet.has(run.scenarioId)) continue
+    if (run.status === 'pending' || run.status === 'running') continue
+    const previous = latest.get(run.scenarioId)
+    if (!previous || (run.endedAt ?? run.startedAt) > (previous.endedAt ?? previous.startedAt)) {
+      latest.set(run.scenarioId, run)
+    }
+  }
+  return scope.scenarioIds
+    .map((scenarioId) => latest.get(scenarioId))
+    .filter(Boolean) as EvalRun[]
+}
+function aggregateRuns(scope: EvalGateScope, runs: EvalRun[]): EvalAggregate {
+  const byScenario = new Map(runs.map((run) => [run.scenarioId, run]))
+  const missingScenarioIds = scope.scenarioIds.filter((scenarioId) => !byScenario.has(scenarioId))
+  const score = scope.scenarioIds.reduce((sum, scenarioId) => sum + (byScenario.get(scenarioId)?.score ?? 0), 0)
+  const maxScore = scope.scenarioIds.reduce((sum, scenarioId) => {
+    const runMaxScore = byScenario.get(scenarioId)?.maxScore
+    return sum + (Number.isFinite(runMaxScore) && runMaxScore != null ? runMaxScore : maxScoreForScenario(scenarioId))
+  }, 0)
+  return {
+    runs,
+    missingScenarioIds,
+    score,
+    maxScore,
+    percent: scorePercent(score, maxScore),
+  }
+}
+function statusFromChecks(checks: EvalGateCheck[]): EvalGateResult['status'] {
+  if (checks.some((check) => check.status === 'fail')) return 'fail'
+  if (checks.some((check) => check.status === 'warn')) return 'warn'
+  return 'pass'
+}
+export function listEvalBaselinesForAgent(agentId?: string | null, deps: EvalGateDeps = {}): EvalBaseline[] {
+  const list = deps.listBaselines || listEvalBaselines
+  return list({ agentId: agentId || undefined, limit: 200 })
+}
+export function setEvalBaseline(input: SetEvalBaselineInput, deps: EvalGateDeps = {}): EvalBaseline {
+  if (!input.agentId.trim()) throw new Error('agentId is required')
+  const now = deps.now?.() ?? Date.now()
+  const scope = resolveEvalGateScope(input)
+  const runs = latestRunsForScope(
+    (deps.listRunsByAgent || listEvalRunsByAgent)(input.agentId, MAX_LOOKBACK_RUNS),
+    scope,
+  )
+  const aggregate = aggregateRuns(scope, runs)
+  if (aggregate.runs.length === 0) {
+    throw new Error('Run the selected eval before setting a baseline.')
+  }
+  if (aggregate.missingScenarioIds.length > 0) {
+    throw new Error(`Baseline requires latest runs for every scenario in scope. Missing: ${aggregate.missingScenarioIds.join(', ')}`)
+  }
+  const existing = (deps.getBaselineForScope || getEvalBaselineForScope)(input.agentId, scope.type, scope.id)
+  const baseline: EvalBaseline = {
+    id: existing?.id || evalBaselineId(input.agentId, scope),
+    agentId: input.agentId,
+    scope,
+    baselineScore: aggregate.score,
+    baselineMaxScore: aggregate.maxScore,
+    baselinePercent: aggregate.percent ?? 0,
+    minPercent: normalizePercent(input.minPercent, aggregate.percent ?? DEFAULT_MIN_PERCENT),
+    maxRegressionPoints: normalizeRegressionPoints(input.maxRegressionPoints, existing?.maxRegressionPoints ?? DEFAULT_MAX_REGRESSION_POINTS),
+    runIds: aggregate.runs.map((run) => run.id),
+    label: input.label?.trim() || existing?.label || null,
+    notes: input.notes?.trim() || existing?.notes || null,
+    createdAt: existing?.createdAt || now,
+    updatedAt: now,
+  }
+  ;(deps.saveBaseline || saveEvalBaseline)(baseline)
+  return baseline
+}
+export function evaluateEvalGate(input: EvalGateInput, deps: EvalGateDeps = {}): EvalGateResult {
+  if (!input.agentId.trim()) throw new Error('agentId is required')
+  const generatedAt = deps.now?.() ?? Date.now()
+  const scope = resolveEvalGateScope(input)
+  const baseline = (deps.getBaselineForScope || getEvalBaselineForScope)(input.agentId, scope.type, scope.id)
+  const runs = latestRunsForScope(
+    (deps.listRunsByAgent || listEvalRunsByAgent)(input.agentId, MAX_LOOKBACK_RUNS),
+    scope,
+  )
+  const aggregate = aggregateRuns(scope, runs)
+  const minPercent = normalizePercent(input.minPercent, baseline?.minPercent ?? DEFAULT_MIN_PERCENT)
+  const maxRegressionPoints = normalizeRegressionPoints(input.maxRegressionPoints, baseline?.maxRegressionPoints ?? DEFAULT_MAX_REGRESSION_POINTS)
+  const regressionPoints = baseline && aggregate.percent != null
+    ? Math.max(0, baseline.baselinePercent - aggregate.percent)
+    : null
+  const checks: EvalGateCheck[] = []
+  if (aggregate.runs.length === 0) {
+    checks.push({
+      code: 'no_eval_runs',
+      status: 'fail',
+      message: 'No completed eval runs are available for this gate.',
+    })
+  }
+  if (aggregate.missingScenarioIds.length > 0) {
+    checks.push({
+      code: 'missing_scope_runs',
+      status: 'fail',
+      message: `${aggregate.missingScenarioIds.length} scenario${aggregate.missingScenarioIds.length === 1 ? '' : 's'} have no latest run in this gate.`,
+      detail: aggregate.missingScenarioIds.join(', '),
+    })
+  }
+  if (aggregate.runs.some((run) => run.status === 'failed')) {
+    checks.push({
+      code: 'failed_eval_run',
+      status: 'fail',
+      message: 'At least one latest eval run failed.',
+    })
+  }
+  if (aggregate.percent == null || aggregate.percent < minPercent) {
+    checks.push({
+      code: 'score_below_threshold',
+      status: 'fail',
+      message: `Current score is below the ${minPercent}% gate.`,
+      detail: aggregate.percent == null ? 'n/a' : `${aggregate.percent}%`,
+    })
+  } else {
+    checks.push({
+      code: 'score_threshold_met',
+      status: 'pass',
+      message: `Current score meets the ${minPercent}% gate.`,
+      detail: `${aggregate.percent}%`,
+    })
+  }
+  if (!baseline) {
+    checks.push({
+      code: 'baseline_missing',
+      status: 'warn',
+      message: 'No approved baseline is set for this gate.',
+    })
+  } else if (regressionPoints != null && regressionPoints > maxRegressionPoints) {
+    checks.push({
+      code: 'regression_limit_exceeded',
+      status: 'fail',
+      message: `Regression exceeds the ${maxRegressionPoints} point allowance.`,
+      detail: `${regressionPoints} points below baseline`,
+    })
+  } else if (regressionPoints != null) {
+    checks.push({
+      code: 'regression_within_limit',
+      status: 'pass',
+      message: `Regression is within the ${maxRegressionPoints} point allowance.`,
+      detail: `${regressionPoints} point${regressionPoints === 1 ? '' : 's'} below baseline`,
+    })
+  }
+  return {
+    agentId: input.agentId,
+    scope,
+    status: statusFromChecks(checks),
+    generatedAt,
+    baseline,
+    latestRuns: aggregate.runs,
+    currentScore: aggregate.score,
+    currentMaxScore: aggregate.maxScore,
+    currentPercent: aggregate.percent,
+    regressionPoints,
+    minPercent,
+    maxRegressionPoints,
+    checks,
+  }
+}

package/src/lib/server/eval/store.ts CHANGED Viewed

@@ -1,6 +1,6 @@
 import Database from 'better-sqlite3'
 import path from 'path'
-import type { EvalRun } from './types'
+import type { EvalBaseline, EvalRun } from './types'
 import { DATA_DIR } from '../data-dir'
 const DB_PATH = path.join(DATA_DIR, 'eval-runs.db')
@@ -15,6 +15,15 @@ function getDb(): Database.Database {
       id TEXT PRIMARY KEY,
       data TEXT NOT NULL
     )`)
+    db.exec(`CREATE TABLE IF NOT EXISTS eval_baselines (
+      id TEXT PRIMARY KEY,
+      agent_id TEXT NOT NULL,
+      scope_type TEXT NOT NULL,
+      scope_id TEXT NOT NULL,
+      data TEXT NOT NULL,
+      updated_at INTEGER NOT NULL
+    )`)
+    db.exec('CREATE INDEX IF NOT EXISTS idx_eval_baselines_agent ON eval_baselines(agent_id, scope_type, scope_id)')
   }
   return db
 }
@@ -36,3 +45,40 @@ export function listEvalRuns(limit = 50): EvalRun[] {
 export function listEvalRunsByAgent(agentId: string, limit = 50): EvalRun[] {
   return listEvalRuns(limit * 2).filter(r => r.agentId === agentId).slice(0, limit)
 }
+export function saveEvalBaseline(baseline: EvalBaseline): void {
+  getDb().prepare(`
+    INSERT OR REPLACE INTO eval_baselines (id, agent_id, scope_type, scope_id, data, updated_at)
+    VALUES (?, ?, ?, ?, ?, ?)
+  `).run(
+    baseline.id,
+    baseline.agentId,
+    baseline.scope.type,
+    baseline.scope.id,
+    JSON.stringify(baseline),
+    baseline.updatedAt,
+  )
+}
+export function getEvalBaseline(id: string): EvalBaseline | null {
+  const row = getDb().prepare('SELECT data FROM eval_baselines WHERE id = ?').get(id) as { data: string } | undefined
+  return row ? JSON.parse(row.data) as EvalBaseline : null
+}
+export function getEvalBaselineForScope(agentId: string, scopeType: EvalBaseline['scope']['type'], scopeId: string): EvalBaseline | null {
+  const row = getDb().prepare(`
+    SELECT data FROM eval_baselines
+    WHERE agent_id = ? AND scope_type = ? AND scope_id = ?
+    ORDER BY updated_at DESC
+    LIMIT 1
+  `).get(agentId, scopeType, scopeId) as { data: string } | undefined
+  return row ? JSON.parse(row.data) as EvalBaseline : null
+}
+export function listEvalBaselines(filters: { agentId?: string; limit?: number } = {}): EvalBaseline[] {
+  const limit = Math.max(1, Math.min(filters.limit ?? 100, 500))
+  const rows = filters.agentId
+    ? getDb().prepare('SELECT data FROM eval_baselines WHERE agent_id = ? ORDER BY updated_at DESC LIMIT ?').all(filters.agentId, limit) as { data: string }[]
+    : getDb().prepare('SELECT data FROM eval_baselines ORDER BY updated_at DESC LIMIT ?').all(limit) as { data: string }[]
+  return rows.map((row) => JSON.parse(row.data) as EvalBaseline)
+}

package/src/lib/server/eval/types.ts CHANGED Viewed

@@ -105,3 +105,53 @@ export interface EvalSuiteResult {
   runs: EvalRun[]
   completedAt: number
 }
+export type EvalGateScopeType = 'scenario' | 'suite'
+export interface EvalGateScope {
+  type: EvalGateScopeType
+  id: string
+  label: string
+  scenarioIds: string[]
+}
+export interface EvalBaseline {
+  id: string
+  agentId: string
+  scope: EvalGateScope
+  baselineScore: number
+  baselineMaxScore: number
+  baselinePercent: number
+  minPercent: number
+  maxRegressionPoints: number
+  runIds: string[]
+  label?: string | null
+  notes?: string | null
+  createdAt: number
+  updatedAt: number
+}
+export type EvalGateStatus = 'pass' | 'warn' | 'fail'
+export interface EvalGateCheck {
+  code: string
+  status: EvalGateStatus
+  message: string
+  detail?: string
+}
+export interface EvalGateResult {
+  agentId: string
+  scope: EvalGateScope
+  status: EvalGateStatus
+  generatedAt: number
+  baseline: EvalBaseline | null
+  latestRuns: EvalRun[]
+  currentScore: number
+  currentMaxScore: number
+  currentPercent: number | null
+  regressionPoints: number | null
+  minPercent: number
+  maxRegressionPoints: number
+  checks: EvalGateCheck[]
+}

package/src/lib/server/session-tools/extension-creator.ts CHANGED Viewed

@@ -138,7 +138,7 @@ module.exports = {
     }
   ],
-  // --- Managed Resources (Paperclip-compatible) ---
+  // --- Managed Resources ---
   managedResources: {
     agents: [
       {
@@ -211,7 +211,7 @@ Key rules:
 - Dependency installs are run by the extension manager inside a per-extension workspace using the selected package manager with scripts disabled.
 - Extension settings are declared through ui.settingsFields and stored per extension ID
 - Managed resources let an extension declare provisionable agents, schedules/routines, trusted local folders, gateway platforms, and setup checks. Operators reconcile them through Extensions > Managed Resources or /api/extensions/managed-resources.
-- Paperclip-compatible top-level agents, routines, and localFolders are also accepted; SwarmClaw reconciles routines as schedules when they include schedule timing.
+- Top-level agents, routines, and localFolders are also accepted; SwarmClaw reconciles routines as schedules when they include schedule timing.
 - Keep extensions focused: one clear purpose per extension
 `
     }

package/src/lib/server/tasks/task-checkout.ts CHANGED Viewed

@@ -6,7 +6,7 @@ import { loadTasks, saveTasks } from '@/lib/server/tasks/task-repository'
  * Atomically transition a task from queued → running with a checkout run ID.
  *
  * Uses a SQLite IMMEDIATE transaction to prevent two runners from starting the
- * same task concurrently (Paperclip-inspired atomic checkout pattern).
+ * same task concurrently.
  *
  * Returns the checked-out task on success, or null if the task was already
  * taken, missing, or no longer in queued status.

package/src/types/extension.ts CHANGED Viewed

@@ -362,10 +362,10 @@ export interface ExtensionSetupCheckDeclaration {
 export interface ExtensionManagedResources {
   agents?: ExtensionManagedAgentDeclaration[]
   schedules?: ExtensionManagedScheduleDeclaration[]
-  /** Paperclip-compatible alias. SwarmClaw reconciles routines as managed schedules. */
+  /** Routine alias. SwarmClaw reconciles routines as managed schedules. */
   routines?: ExtensionManagedScheduleDeclaration[]
   localFolders?: ExtensionManagedLocalFolderDeclaration[]
-  /** Hermes-style gateway/platform declaration metadata for setup and diagnostics surfaces. */
+  /** Gateway/platform declaration metadata for setup and diagnostics surfaces. */
   gatewayPlatforms?: ExtensionGatewayPlatformDeclaration[]
   setupChecks?: ExtensionSetupCheckDeclaration[]
 }
@@ -420,7 +420,7 @@ export interface Extension {
   providers?: ExtensionProviderDefinition[]
   connectors?: ExtensionConnectorDefinition[]
   managedResources?: ExtensionManagedResources
-  /** Paperclip-compatible top-level aliases. Prefer managedResources for new SwarmClaw extensions. */
+  /** Top-level managed-resource aliases. Prefer managedResources for new SwarmClaw extensions. */
   agents?: ExtensionManagedAgentDeclaration[]
   schedules?: ExtensionManagedScheduleDeclaration[]
   routines?: ExtensionManagedScheduleDeclaration[]

package/electron-dist/main.js DELETED Viewed

@@ -1,218 +0,0 @@
-"use strict";
-var __createBinding = (this && this.__createBinding) || (Object.create ? (function(o, m, k, k2) {
-    if (k2 === undefined) k2 = k;
-    var desc = Object.getOwnPropertyDescriptor(m, k);
-    if (!desc || ("get" in desc ? !m.__esModule : desc.writable || desc.configurable)) {
-      desc = { enumerable: true, get: function() { return m[k]; } };
-    }
-    Object.defineProperty(o, k2, desc);
-}) : (function(o, m, k, k2) {
-    if (k2 === undefined) k2 = k;
-    o[k2] = m[k];
-}));
-var __setModuleDefault = (this && this.__setModuleDefault) || (Object.create ? (function(o, v) {
-    Object.defineProperty(o, "default", { enumerable: true, value: v });
-}) : function(o, v) {
-    o["default"] = v;
-});
-var __importStar = (this && this.__importStar) || (function () {
-    var ownKeys = function(o) {
-        ownKeys = Object.getOwnPropertyNames || function (o) {
-            var ar = [];
-            for (var k in o) if (Object.prototype.hasOwnProperty.call(o, k)) ar[ar.length] = k;
-            return ar;
-        };
-        return ownKeys(o);
-    };
-    return function (mod) {
-        if (mod && mod.__esModule) return mod;
-        var result = {};
-        if (mod != null) for (var k = ownKeys(mod), i = 0; i < k.length; i++) if (k[i] !== "default") __createBinding(result, mod, k[i]);
-        __setModuleDefault(result, mod);
-        return result;
-    };
-})();
-var __importDefault = (this && this.__importDefault) || function (mod) {
-    return (mod && mod.__esModule) ? mod : { "default": mod };
-};
-Object.defineProperty(exports, "__esModule", { value: true });
-const electron_1 = require("electron");
-const node_fs_1 = __importDefault(require("node:fs"));
-const node_path_1 = __importDefault(require("node:path"));
-const paths_1 = require("./paths");
-const server_lifecycle_1 = require("./server-lifecycle");
-const menu_1 = require("./menu");
-const DEV_URL_DEFAULT = 'http://127.0.0.1:3456';
-const LOG_TAIL_BYTES = 1500;
-let mainWindow = null;
-let serverHandle = null;
-let serverLogFile = null;
-let isQuitting = false;
-const gotLock = electron_1.app.requestSingleInstanceLock();
-if (!gotLock) {
-    electron_1.app.quit();
-}
-else {
-    electron_1.app.on('second-instance', () => {
-        if (mainWindow) {
-            if (mainWindow.isMinimized())
-                mainWindow.restore();
-            mainWindow.focus();
-        }
-    });
-    electron_1.app.on('ready', () => void onReady());
-    electron_1.app.on('window-all-closed', () => {
-        if (process.platform !== 'darwin')
-            electron_1.app.quit();
-    });
-    electron_1.app.on('activate', () => {
-        if (mainWindow !== null)
-            return;
-        if (serverHandle) {
-            createMainWindow(serverHandle.url);
-        }
-        else if (!electron_1.app.isPackaged) {
-            createMainWindow(process.env.SWARMCLAW_DEV_URL || DEV_URL_DEFAULT);
-        }
-    });
-    electron_1.app.on('before-quit', () => {
-        isQuitting = true;
-    });
-    electron_1.app.on('will-quit', async (event) => {
-        if (!serverHandle)
-            return;
-        event.preventDefault();
-        try {
-            await serverHandle.stop();
-        }
-        finally {
-            serverHandle = null;
-            electron_1.app.exit(0);
-        }
-    });
-}
-async function onReady() {
-    const paths = (0, paths_1.resolveRuntimePaths)();
-    (0, menu_1.buildAppMenu)(paths, () => mainWindow);
-    const iconPath = resolveIconPath();
-    if (process.platform === 'darwin' && iconPath && electron_1.app.dock) {
-        const img = electron_1.nativeImage.createFromPath(iconPath);
-        if (!img.isEmpty())
-            electron_1.app.dock.setIcon(img);
-    }
-    if (!electron_1.app.isPackaged) {
-        const devUrl = process.env.SWARMCLAW_DEV_URL || DEV_URL_DEFAULT;
-        console.log(`[swarmclaw] dev mode, loading ${devUrl}`);
-        createMainWindow(devUrl);
-        return;
-    }
-    serverLogFile = node_path_1.default.join(electron_1.app.getPath('userData'), 'logs', 'server.log');
-    node_fs_1.default.mkdirSync(node_path_1.default.dirname(serverLogFile), { recursive: true });
-    try {
-        serverHandle = await (0, server_lifecycle_1.startEmbeddedServer)({
-            paths,
-            logFile: serverLogFile,
-            onStdout: (c) => process.stdout.write(`[swarmclaw] ${c}`),
-            onStderr: (c) => process.stderr.write(`[swarmclaw] ${c}`),
-            onExit: (code, signal) => {
-                if (!isQuitting) {
-                    console.error(`[swarmclaw] server exited unexpectedly (code=${code}, signal=${signal ?? 'none'})`);
-                    void showServerCrashDialog(code, signal);
-                }
-            },
-        });
-    }
-    catch (err) {
-        await showStartupFailureDialog(err, paths);
-        electron_1.app.exit(1);
-        return;
-    }
-    createMainWindow(serverHandle.url);
-    void Promise.resolve().then(() => __importStar(require('./updater'))).then((m) => m.initAutoUpdater());
-}
-function resolveIconPath() {
-    const candidate = electron_1.app.isPackaged
-        ? node_path_1.default.join(process.resourcesPath, 'icon.png')
-        : node_path_1.default.join(__dirname, '..', 'resources', 'icon.png');
-    return node_fs_1.default.existsSync(candidate) ? candidate : undefined;
-}
-function createMainWindow(startUrl) {
-    const iconPath = resolveIconPath();
-    mainWindow = new electron_1.BrowserWindow({
-        width: 1440,
-        height: 900,
-        minWidth: 1024,
-        minHeight: 640,
-        backgroundColor: '#0b0b0f',
-        show: true,
-        ...(iconPath ? { icon: iconPath } : {}),
-        webPreferences: {
-            contextIsolation: true,
-            nodeIntegration: false,
-            sandbox: false,
-        },
-    });
-    const wc = mainWindow.webContents;
-    if (!electron_1.app.isPackaged)
-        wc.openDevTools({ mode: 'detach' });
-    wc.on('did-start-loading', () => console.log('[swarmclaw] did-start-loading'));
-    wc.on('did-finish-load', () => console.log('[swarmclaw] did-finish-load'));
-    wc.on('did-fail-load', (_e, code, desc, url) => console.error(`[swarmclaw] did-fail-load code=${code} desc=${desc} url=${url}`));
-    wc.on('render-process-gone', (_e, details) => console.error(`[swarmclaw] render-process-gone reason=${details.reason}`));
-    wc.on('unresponsive', () => console.error('[swarmclaw] webContents unresponsive'));
-    mainWindow.on('closed', () => {
-        mainWindow = null;
-    });
-    mainWindow.webContents.setWindowOpenHandler(({ url }) => {
-        if (url.startsWith(startUrl))
-            return { action: 'allow' };
-        void electron_1.shell.openExternal(url);
-        return { action: 'deny' };
-    });
-    void mainWindow.loadURL(startUrl).catch((err) => {
-        console.error('[swarmclaw] loadURL rejected:', err);
-    });
-}
-async function showServerCrashDialog(code, signal) {
-    const buttons = serverLogFile ? ['Open Logs Folder', 'Quit'] : ['Quit'];
-    const quitButtonId = buttons.length - 1;
-    const detail = buildLogDetail(`code=${code ?? 'null'} signal=${signal ?? 'none'}`);
-    const res = await electron_1.dialog.showMessageBox({
-        type: 'error',
-        buttons,
-        defaultId: quitButtonId,
-        cancelId: quitButtonId,
-        title: 'SwarmClaw stopped',
-        message: 'The SwarmClaw server exited unexpectedly.',
-        detail,
-    });
-    if (serverLogFile && res.response === 0)
-        electron_1.shell.showItemInFolder(serverLogFile);
-    electron_1.app.exit(1);
-}
-async function showStartupFailureDialog(err, paths) {
-    const message = err instanceof Error ? err.message : String(err);
-    const base = `${message}\n\nStandalone entry: ${paths.standaloneEntry}\nData dir: ${paths.dataDir}`;
-    const detail = buildLogDetail(base);
-    const buttons = serverLogFile ? ['Open Logs Folder', 'Quit'] : ['Quit'];
-    const quitButtonId = buttons.length - 1;
-    const res = await electron_1.dialog.showMessageBox({
-        type: 'error',
-        buttons,
-        defaultId: quitButtonId,
-        cancelId: quitButtonId,
-        title: 'SwarmClaw failed to start',
-        message: 'The embedded server did not start.',
-        detail,
-    });
-    if (serverLogFile && res.response === 0)
-        electron_1.shell.showItemInFolder(serverLogFile);
-}
-function buildLogDetail(base) {
-    if (!serverLogFile)
-        return base;
-    const tail = (0, server_lifecycle_1.tailLogFile)(serverLogFile, LOG_TAIL_BYTES).trim();
-    if (!tail)
-        return `${base}\n\nLog file: ${serverLogFile}\n(no output captured yet)`;
-    return `${base}\n\nLog tail (${serverLogFile}):\n${tail}`;
-}