npm - vellum - Versions diffs - 0.2.0 → 0.2.2 - Mend

vellum 0.2.0 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (361) hide show

package/README.md +15 -2
package/bun.lock +5 -2
package/package.json +4 -2
package/scripts/capture-x-graphql.ts +562 -0
package/scripts/ipc/check-swift-decoder-drift.ts +2 -1
package/scripts/test.sh +5 -0
package/src/__tests__/__snapshots__/ipc-snapshot.test.ts.snap +161 -34
package/src/__tests__/account-registry.test.ts +2 -1
package/src/__tests__/agent-heartbeat-service.test.ts +250 -0
package/src/__tests__/app-bundler.test.ts +12 -33
package/src/__tests__/asset-materialize-tool.test.ts +16 -15
package/src/__tests__/asset-search-tool.test.ts +23 -22
package/src/__tests__/attachments-store.test.ts +56 -127
package/src/__tests__/browser-skill-baseline-tool-payload.test.ts +5 -4
package/src/__tests__/browser-skill-endstate.test.ts +5 -8
package/src/__tests__/call-bridge.test.ts +385 -0
package/src/__tests__/call-constants.test.ts +40 -0
package/src/__tests__/call-orchestrator.test.ts +454 -0
package/src/__tests__/call-recovery.test.ts +518 -0
package/src/__tests__/call-routes-http.test.ts +459 -0
package/src/__tests__/call-state-machine.test.ts +143 -0
package/src/__tests__/call-state.test.ts +133 -0
package/src/__tests__/call-store.test.ts +691 -0
package/src/__tests__/cli-discover.test.ts +1 -1
package/src/__tests__/commit-message-enrichment-service.test.ts +550 -0
package/src/__tests__/compaction.benchmark.test.ts +176 -0
package/src/__tests__/computer-use-tools.test.ts +250 -0
package/src/__tests__/config-schema.test.ts +348 -3
package/src/__tests__/conflict-store.test.ts +2 -1
package/src/__tests__/contacts-tools.test.ts +331 -0
package/src/__tests__/conversation-store.test.ts +30 -32
package/src/__tests__/credential-security-invariants.test.ts +4 -0
package/src/__tests__/date-context.test.ts +373 -0
package/src/__tests__/db-schedule-syntax-migration.test.ts +129 -0
package/src/__tests__/doordash-session.test.ts +9 -0
package/src/__tests__/fixtures/media-reuse-fixtures.ts +3 -3
package/src/__tests__/followup-tools.test.ts +303 -0
package/src/__tests__/handlers-twitter-config.test.ts +718 -0
package/src/__tests__/intent-routing.test.ts +64 -57
package/src/__tests__/ipc-roundtrip.benchmark.test.ts +237 -0
package/src/__tests__/ipc-snapshot.test.ts +96 -28
package/src/__tests__/llm-usage-store.test.ts +3 -8
package/src/__tests__/media-generate-image.test.ts +1 -1
package/src/__tests__/media-reuse-story.e2e.test.ts +7 -7
package/src/__tests__/memory-retrieval.benchmark.test.ts +430 -0
package/src/__tests__/parallel-tool.benchmark.test.ts +294 -0
package/src/__tests__/playbook-tools.test.ts +342 -0
package/src/__tests__/profile-compiler.test.ts +2 -1
package/src/__tests__/provider-streaming.benchmark.test.ts +773 -0
package/src/__tests__/recurrence-engine-rruleset.test.ts +78 -0
package/src/__tests__/recurrence-engine.test.ts +69 -0
package/src/__tests__/recurrence-types.test.ts +71 -0
package/src/__tests__/registry.test.ts +17 -10
package/src/__tests__/relay-server.test.ts +633 -0
package/src/__tests__/reminder-store.test.ts +6 -3
package/src/__tests__/reminder.test.ts +43 -77
package/src/__tests__/run-orchestrator-assistant-events.test.ts +222 -0
package/src/__tests__/run-orchestrator.test.ts +7 -7
package/src/__tests__/runtime-attachment-metadata.test.ts +19 -20
package/src/__tests__/runtime-runs-http.test.ts +5 -23
package/src/__tests__/runtime-runs.test.ts +11 -11
package/src/__tests__/schedule-store.test.ts +482 -0
package/src/__tests__/schedule-tools.test.ts +700 -0
package/src/__tests__/scheduler-recurrence.test.ts +329 -0
package/src/__tests__/server-history-render.test.ts +14 -13
package/src/__tests__/session-error.test.ts +28 -0
package/src/__tests__/session-init.benchmark.test.ts +462 -0
package/src/__tests__/session-queue.test.ts +89 -16
package/src/__tests__/session-runtime-assembly.test.ts +161 -0
package/src/__tests__/session-surfaces-task-progress.test.ts +104 -0
package/src/__tests__/signup-e2e.test.ts +2 -1
package/src/__tests__/skill-projection.benchmark.test.ts +328 -0
package/src/__tests__/skill-script-runner.test.ts +159 -0
package/src/__tests__/speaker-identification.test.ts +52 -0
package/src/__tests__/subagent-manager-notify.test.ts +42 -10
package/src/__tests__/subagent-tools.test.ts +141 -41
package/src/__tests__/task-compiler.test.ts +2 -1
package/src/__tests__/task-runner.test.ts +2 -1
package/src/__tests__/task-scheduler.test.ts +2 -1
package/src/__tests__/task-tools.test.ts +49 -56
package/src/__tests__/tool-audit-listener.test.ts +1 -0
package/src/__tests__/tool-domain-event-publisher.test.ts +2 -0
package/src/__tests__/tool-execution-pipeline.benchmark.test.ts +500 -0
package/src/__tests__/tool-executor.test.ts +13 -17
package/src/__tests__/turn-commit.test.ts +273 -2
package/src/__tests__/twilio-provider.test.ts +143 -0
package/src/__tests__/twilio-routes.test.ts +789 -0
package/src/__tests__/twitter-auth-handler.test.ts +581 -0
package/src/__tests__/view-image-tool.test.ts +217 -0
package/src/__tests__/workspace-git-service.test.ts +403 -0
package/src/__tests__/workspace-heartbeat-service.test.ts +141 -2
package/src/agent-heartbeat/agent-heartbeat-service.ts +155 -0
package/src/bundler/app-bundler.ts +35 -14
package/src/calls/call-bridge.ts +95 -0
package/src/calls/call-constants.ts +48 -0
package/src/calls/call-domain.ts +276 -0
package/src/calls/call-orchestrator.ts +390 -0
package/src/calls/call-recovery.ts +207 -0
package/src/calls/call-state-machine.ts +68 -0
package/src/calls/call-state.ts +64 -0
package/src/calls/call-store.ts +416 -0
package/src/calls/relay-server.ts +335 -0
package/src/calls/speaker-identification.ts +213 -0
package/src/calls/twilio-config.ts +34 -0
package/src/calls/twilio-provider.ts +173 -0
package/src/calls/twilio-routes.ts +250 -0
package/src/calls/types.ts +37 -0
package/src/calls/voice-provider.ts +14 -0
package/src/cli/config-commands.ts +334 -0
package/src/cli/core-commands.ts +776 -0
package/src/cli/doordash.ts +256 -25
package/src/cli/ipc-client.ts +82 -0
package/src/cli/map.ts +246 -0
package/src/cli/twitter.ts +575 -0
package/src/cli.ts +7 -5
package/src/commands/__tests__/cc-command-registry.test.ts +319 -0
package/src/commands/cc-command-registry.ts +209 -0
package/src/config/bundled-skills/contacts/SKILL.md +39 -0
package/src/config/bundled-skills/contacts/TOOLS.json +122 -0
package/src/config/bundled-skills/contacts/tools/contact-merge.ts +9 -0
package/src/config/bundled-skills/contacts/tools/contact-search.ts +9 -0
package/src/config/bundled-skills/contacts/tools/contact-upsert.ts +9 -0
package/src/config/bundled-skills/document/SKILL.md +18 -0
package/src/config/bundled-skills/document/TOOLS.json +53 -0
package/src/config/bundled-skills/document/tools/document-create.ts +9 -0
package/src/config/bundled-skills/document/tools/document-update.ts +9 -0
package/src/config/bundled-skills/doordash/SKILL.md +163 -0
package/src/config/bundled-skills/followups/SKILL.md +32 -0
package/src/config/bundled-skills/followups/TOOLS.json +100 -0
package/src/config/bundled-skills/followups/tools/followup-create.ts +9 -0
package/src/config/bundled-skills/followups/tools/followup-list.ts +9 -0
package/src/config/bundled-skills/followups/tools/followup-resolve.ts +9 -0
package/src/config/bundled-skills/image-studio/TOOLS.json +2 -2
package/src/config/bundled-skills/image-studio/tools/media-generate-image.ts +2 -24
package/src/config/bundled-skills/messaging/tools/messaging-analyze-style.ts +2 -1
package/src/config/bundled-skills/playbooks/SKILL.md +31 -0
package/src/config/bundled-skills/playbooks/TOOLS.json +126 -0
package/src/config/bundled-skills/playbooks/tools/playbook-create.ts +9 -0
package/src/config/bundled-skills/playbooks/tools/playbook-delete.ts +9 -0
package/src/config/bundled-skills/playbooks/tools/playbook-list.ts +9 -0
package/src/config/bundled-skills/playbooks/tools/playbook-update.ts +9 -0
package/src/config/bundled-skills/reminder/SKILL.md +20 -0
package/src/config/bundled-skills/reminder/TOOLS.json +67 -0
package/src/config/bundled-skills/reminder/tools/reminder-cancel.ts +9 -0
package/src/config/bundled-skills/reminder/tools/reminder-create.ts +9 -0
package/src/config/bundled-skills/reminder/tools/reminder-list.ts +9 -0
package/src/config/bundled-skills/schedule/SKILL.md +74 -0
package/src/config/bundled-skills/schedule/TOOLS.json +135 -0
package/src/config/bundled-skills/schedule/tools/schedule-create.ts +9 -0
package/src/config/bundled-skills/schedule/tools/schedule-delete.ts +9 -0
package/src/config/bundled-skills/schedule/tools/schedule-list.ts +9 -0
package/src/config/bundled-skills/schedule/tools/schedule-update.ts +9 -0
package/src/config/bundled-skills/subagent/SKILL.md +25 -0
package/src/config/bundled-skills/subagent/TOOLS.json +107 -0
package/src/config/bundled-skills/subagent/tools/subagent-abort.ts +9 -0
package/src/config/bundled-skills/subagent/tools/subagent-message.ts +9 -0
package/src/config/bundled-skills/subagent/tools/subagent-read.ts +9 -0
package/src/config/bundled-skills/subagent/tools/subagent-spawn.ts +9 -0
package/src/config/bundled-skills/subagent/tools/subagent-status.ts +9 -0
package/src/config/bundled-skills/tasks/SKILL.md +28 -0
package/src/config/bundled-skills/tasks/TOOLS.json +256 -0
package/src/config/bundled-skills/tasks/tools/task-delete.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-list-add.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-list-remove.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-list-show.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-list-update.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-list.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-run.ts +9 -0
package/src/config/bundled-skills/tasks/tools/task-save.ts +9 -0
package/src/config/bundled-skills/twitter/SKILL.md +134 -0
package/src/config/bundled-skills/watcher/SKILL.md +27 -0
package/src/config/bundled-skills/watcher/TOOLS.json +147 -0
package/src/config/bundled-skills/watcher/tools/watcher-create.ts +9 -0
package/src/config/bundled-skills/watcher/tools/watcher-delete.ts +9 -0
package/src/config/bundled-skills/watcher/tools/watcher-digest.ts +9 -0
package/src/config/bundled-skills/watcher/tools/watcher-list.ts +9 -0
package/src/config/bundled-skills/watcher/tools/watcher-update.ts +9 -0
package/src/config/defaults.ts +44 -0
package/src/config/loader.ts +4 -1
package/src/config/schema.ts +218 -1
package/src/config/system-prompt.ts +100 -6
package/src/config/templates/IDENTITY.md +7 -0
package/src/config/types.ts +5 -0
package/src/contacts/contact-store.ts +4 -4
package/src/daemon/assistant-attachments.ts +10 -0
package/src/daemon/classifier.ts +3 -1
package/src/daemon/computer-use-session.ts +3 -1
package/src/daemon/date-context.ts +136 -0
package/src/daemon/handlers/apps.ts +16 -1
package/src/daemon/handlers/browser.ts +54 -0
package/src/daemon/handlers/computer-use.ts +7 -1
package/src/daemon/handlers/config.ts +192 -4
package/src/daemon/handlers/diagnostics.ts +5 -1
package/src/daemon/handlers/documents.ts +18 -29
package/src/daemon/handlers/home-base.ts +5 -1
package/src/daemon/handlers/index.ts +40 -271
package/src/daemon/handlers/misc.ts +9 -1
package/src/daemon/handlers/publish.ts +6 -1
package/src/daemon/handlers/sessions.ts +65 -12
package/src/daemon/handlers/shared.ts +36 -1
package/src/daemon/handlers/signing.ts +37 -0
package/src/daemon/handlers/skills.ts +20 -6
package/src/daemon/handlers/subagents.ts +8 -3
package/src/daemon/handlers/twitter-auth.ts +169 -0
package/src/daemon/handlers/work-items.ts +495 -39
package/src/daemon/ipc-contract-inventory.json +40 -4
package/src/daemon/ipc-contract.ts +185 -37
package/src/daemon/ipc-protocol.ts +7 -2
package/src/daemon/lifecycle.ts +48 -5
package/src/daemon/main.ts +10 -4
package/src/daemon/ride-shotgun-handler.ts +74 -10
package/src/daemon/server.ts +144 -29
package/src/daemon/session-agent-loop.ts +887 -0
package/src/daemon/session-attachments.ts +28 -5
package/src/daemon/session-error.ts +24 -3
package/src/daemon/session-lifecycle.ts +147 -0
package/src/daemon/session-media-retry.ts +147 -0
package/src/daemon/session-messaging.ts +145 -0
package/src/daemon/session-notifiers.ts +164 -0
package/src/daemon/session-process.ts +2 -2
package/src/daemon/session-queue-manager.ts +1 -0
package/src/daemon/session-runtime-assembly.ts +52 -0
package/src/daemon/session-skill-tools.ts +124 -5
package/src/daemon/session-slash.ts +3 -0
package/src/daemon/session-surfaces.ts +77 -2
package/src/daemon/session-tool-setup.ts +222 -2
package/src/daemon/session-usage.ts +0 -2
package/src/daemon/session.ts +114 -1365
package/src/daemon/video-thumbnail.ts +60 -0
package/src/doordash/client.ts +121 -27
package/src/doordash/queries.ts +1 -2
package/src/export/formatter.ts +3 -1
package/src/followups/followup-store.ts +4 -2
package/src/followups/types.ts +6 -0
package/src/hooks/templates.ts +1 -1
package/src/index.ts +32 -1151
package/src/media/gemini-image-service.ts +1 -1
package/src/memory/attachments-store.ts +28 -83
package/src/memory/channel-delivery-store.ts +7 -21
package/src/memory/clarification-resolver.ts +6 -5
package/src/memory/contradiction-checker.ts +3 -2
package/src/memory/conversation-key-store.ts +10 -29
package/src/memory/conversation-store.ts +2 -1
package/src/memory/db.ts +362 -2
package/src/memory/entity-extractor.ts +6 -3
package/src/memory/items-extractor.ts +5 -4
package/src/memory/jobs-store.ts +3 -2
package/src/memory/llm-usage-store.ts +1 -2
package/src/memory/runs-store.ts +1 -2
package/src/memory/schema.ts +65 -2
package/src/messaging/style-analyzer.ts +3 -2
package/src/messaging/thread-summarizer.ts +8 -12
package/src/messaging/triage-engine.ts +4 -2
package/src/providers/openrouter/client.ts +20 -0
package/src/providers/registry.ts +8 -0
package/src/runtime/http-server.ts +277 -25
package/src/runtime/http-types.ts +0 -2
package/src/runtime/routes/attachment-routes.ts +5 -6
package/src/runtime/routes/call-routes.ts +140 -0
package/src/runtime/routes/channel-routes.ts +12 -19
package/src/runtime/routes/conversation-routes.ts +5 -9
package/src/runtime/routes/run-routes.ts +4 -8
package/src/runtime/run-orchestrator.ts +39 -6
package/src/schedule/recurrence-engine.ts +138 -0
package/src/schedule/recurrence-types.ts +67 -0
package/src/schedule/schedule-store.ts +102 -57
package/src/schedule/scheduler.ts +9 -6
package/src/security/oauth2.ts +29 -4
package/src/security/secret-allowlist.ts +46 -0
package/src/skills/clawhub.ts +1 -1
package/src/subagent/manager.ts +40 -8
package/src/swarm/backend-claude-code.ts +64 -9
package/src/swarm/worker-prompts.ts +2 -1
package/src/tasks/SPEC.md +34 -28
package/src/tasks/ephemeral-permissions.ts +16 -7
package/src/tasks/task-compiler.ts +5 -4
package/src/tasks/task-runner.ts +10 -5
package/src/tasks/task-scheduler.ts +1 -1
package/src/tasks/tool-sanitizer.ts +36 -0
package/src/tools/assets/search.ts +4 -4
package/src/tools/browser/api-map.ts +220 -0
package/src/tools/browser/auto-navigate.ts +270 -0
package/src/tools/browser/browser-execution.ts +2 -1
package/src/tools/browser/browser-manager.ts +2 -2
package/src/tools/browser/network-recorder.ts +5 -4
package/src/tools/browser/x-auto-navigate.ts +207 -0
package/src/tools/calls/call-end.ts +67 -0
package/src/tools/calls/call-start.ts +73 -0
package/src/tools/calls/call-status.ts +81 -0
package/src/tools/claude-code/claude-code.ts +77 -11
package/src/tools/contacts/contact-merge.ts +46 -78
package/src/tools/contacts/contact-search.ts +35 -79
package/src/tools/contacts/contact-upsert.ts +35 -108
package/src/tools/credentials/vault.ts +21 -5
package/src/tools/document/document-tool.ts +71 -144
package/src/tools/executor.ts +129 -10
package/src/tools/followups/followup_create.ts +46 -88
package/src/tools/followups/followup_list.ts +34 -74
package/src/tools/followups/followup_resolve.ts +31 -66
package/src/tools/host-terminal/cli-discover.ts +2 -1
package/src/tools/host-terminal/host-shell.ts +10 -0
package/src/tools/memory/handlers.ts +5 -4
package/src/tools/network/__tests__/web-search.test.ts +427 -0
package/src/tools/network/script-proxy/__tests__/logging.test.ts +248 -0
package/src/tools/network/script-proxy/__tests__/policy.test.ts +234 -0
package/src/tools/network/script-proxy/__tests__/router.test.ts +76 -0
package/src/tools/network/web-fetch.ts +18 -6
package/src/tools/playbooks/index.ts +4 -5
package/src/tools/playbooks/playbook-create.ts +3 -47
package/src/tools/playbooks/playbook-delete.ts +1 -25
package/src/tools/playbooks/playbook-list.ts +1 -28
package/src/tools/playbooks/playbook-update.ts +3 -51
package/src/tools/registry.ts +2 -4
package/src/tools/reminder/reminder.ts +5 -78
package/src/tools/schedule/create.ts +69 -74
package/src/tools/schedule/delete.ts +21 -47
package/src/tools/schedule/list.ts +55 -74
package/src/tools/schedule/update.ts +77 -84
package/src/tools/subagent/abort.ts +29 -58
package/src/tools/subagent/message.ts +30 -63
package/src/tools/subagent/read.ts +53 -84
package/src/tools/subagent/spawn.ts +43 -82
package/src/tools/subagent/status.ts +42 -71
package/src/tools/swarm/delegate.ts +2 -1
package/src/tools/tasks/index.ts +8 -6
package/src/tools/tasks/task-delete.ts +69 -56
package/src/tools/tasks/task-list.ts +31 -52
package/src/tools/tasks/task-run.ts +74 -102
package/src/tools/tasks/task-save.ts +33 -65
package/src/tools/tasks/work-item-enqueue.ts +192 -134
package/src/tools/tasks/work-item-list.ts +33 -78
package/src/tools/tasks/work-item-remove.ts +60 -0
package/src/tools/tasks/work-item-update.ts +114 -0
package/src/tools/terminal/backends/native.ts +3 -1
package/src/tools/tool-manifest.ts +20 -74
package/src/tools/types.ts +6 -0
package/src/tools/ui-surface/definitions.ts +6 -1
package/src/tools/watch/screen-watch.ts +3 -1
package/src/tools/watcher/create.ts +52 -98
package/src/tools/watcher/delete.ts +20 -46
package/src/tools/watcher/digest.ts +36 -70
package/src/tools/watcher/list.ts +49 -79
package/src/tools/watcher/update.ts +45 -91
package/src/twitter/client.ts +690 -0
package/src/twitter/session.ts +91 -0
package/src/usage/types.ts +0 -1
package/src/util/truncate.ts +6 -0
package/src/watcher/providers/slack.ts +2 -1
package/src/watcher/watcher-store.ts +3 -2
package/src/work-items/work-item-store.ts +236 -2
package/src/workspace/commit-message-enrichment-service.ts +284 -0
package/src/workspace/commit-message-provider.ts +95 -0
package/src/workspace/git-service.ts +272 -52
package/src/workspace/heartbeat-service.ts +70 -13
package/src/workspace/provider-commit-message-generator.ts +242 -0
package/src/workspace/turn-commit.ts +100 -51
package/src/tools/contacts/index.ts +0 -4
package/src/tools/document/index.ts +0 -5
package/src/tools/followups/index.ts +0 -3
package/src/tools/subagent/index.ts +0 -5
/package/src/__tests__/{memory-context-benchmark.test.ts → memory-context-benchmark.benchmark.test.ts} +0 -0

package/src/__tests__/tool-execution-pipeline.benchmark.test.ts ADDED Viewed

@@ -0,0 +1,500 @@
+/**
+ * Tool Execution Pipeline Benchmark
+ *
+ * Measures the overhead of each phase in the permission/security pipeline:
+ * 1. classifyRisk — risk classification
+ * 2. check — trust rule matching (both no-rule fallback and matched-rule paths)
+ * 3. scanText — secret scanning on output
+ * 4. ToolExecutor.execute() — full pipeline overhead with noop/slow tools
+ *
+ * Target ranges:
+ * - p50 pipeline overhead (classifyRisk + check) < 20ms for pre-approved tools
+ * - p95 pipeline overhead < 50ms
+ * - Overhead is constant regardless of tool execution time
+ * - Secret scanning < 5ms for short outputs (< 1KB)
+ * - Secret scanning < 50ms for large outputs (100KB)
+ * - ToolExecutor overhead < 20ms regardless of tool execution time
+ */
+import { describe, test, expect, beforeAll, afterAll, mock } from 'bun:test';
+import { mkdtempSync, rmSync } from 'node:fs';
+import { tmpdir } from 'node:os';
+import { join } from 'node:path';
+const testDir = mkdtempSync(join(tmpdir(), 'tool-pipeline-bench-'));
+// Local registry for ToolExecutor tests — the mock delegates to this map
+// so that registerTool/getTool/getAllTools work for our benchmark tools.
+const localRegistry = new Map<string, import('../tools/types.js').Tool>();
+// Mocks must precede imports of modules under test.
+mock.module('../util/platform.js', () => ({
+  getDataDir: () => testDir,
+  isMacOS: () => process.platform === 'darwin',
+  isLinux: () => process.platform === 'linux',
+  isWindows: () => process.platform === 'win32',
+  getSocketPath: () => join(testDir, 'test.sock'),
+  getPidPath: () => join(testDir, 'test.pid'),
+  getDbPath: () => join(testDir, 'test.db'),
+  getLogPath: () => join(testDir, 'test.log'),
+  ensureDataDir: () => {},
+  getHooksDir: () => join(testDir, 'hooks'),
+}));
+mock.module('../util/logger.js', () => ({
+  getLogger: () => new Proxy({} as Record<string, unknown>, {
+    get: () => () => {},
+  }),
+  isDebug: () => false,
+}));
+// Allow toggling between no-rule and matched-rule paths
+let mockRuleResponse: import('../permissions/types.js').TrustRule | null = null;
+mock.module('../permissions/trust-store.js', () => ({
+  addRule: () => {},
+  findHighestPriorityRule: () => mockRuleResponse,
+  clearCache: () => {},
+}));
+mock.module('../config/loader.js', () => ({
+  getConfig: () => ({
+    provider: 'mock-provider',
+    timeouts: { permissionTimeoutSec: 5, toolExecutionTimeoutSec: 120 },
+    permissions: { mode: 'legacy' },
+    skills: { load: { extraDirs: [] } },
+    secretDetection: { enabled: true, entropyThreshold: 4.0, action: 'warn' },
+    sandbox: { enabled: false },
+    contextWindow: {},
+    memory: {},
+  }),
+}));
+mock.module('../config/skills.js', () => ({
+  resolveSkillSelector: () => ({ skill: null }),
+  loadSkillCatalog: () => [],
+}));
+mock.module('../tools/registry.js', () => ({
+  getTool: (name: string) => localRegistry.get(name),
+  getAllTools: () => Array.from(localRegistry.values()),
+  registerTool: (tool: import('../tools/types.js').Tool) => { localRegistry.set(tool.name, tool); },
+}));
+mock.module('../hooks/manager.js', () => ({
+  getHookManager: () => ({
+    trigger: () => Promise.resolve({ blocked: false }),
+  }),
+}));
+import { classifyRisk, check } from '../permissions/checker.js';
+import { scanText, DEFAULT_ENTROPY_CONFIG } from '../security/secret-scanner.js';
+import { RiskLevel } from '../permissions/types.js';
+import { ToolExecutor } from '../tools/executor.js';
+import { PermissionPrompter } from '../permissions/prompter.js';
+import type { Tool, ToolContext, ToolExecutionResult } from '../tools/types.js';
+// ---------------------------------------------------------------------------
+// Helpers
+// ---------------------------------------------------------------------------
+function percentile(values: number[], p: number): number {
+  const sorted = [...values].sort((a, b) => a - b);
+  const idx = Math.ceil((p / 100) * sorted.length) - 1;
+  return sorted[Math.max(0, idx)];
+}
+async function benchmarkAsync<T>(
+  fn: () => Promise<T>,
+  iterations: number,
+): Promise<{ timings: number[]; results: T[] }> {
+  const timings: number[] = [];
+  const results: T[] = [];
+  for (let i = 0; i < iterations; i++) {
+    const start = performance.now();
+    const result = await fn();
+    timings.push(performance.now() - start);
+    results.push(result);
+  }
+  return { timings, results };
+}
+function benchmarkSync<T>(
+  fn: () => T,
+  iterations: number,
+): { timings: number[]; results: T[] } {
+  const timings: number[] = [];
+  const results: T[] = [];
+  for (let i = 0; i < iterations; i++) {
+    const start = performance.now();
+    const result = fn();
+    timings.push(performance.now() - start);
+    results.push(result);
+  }
+  return { timings, results };
+}
+function generateLargeOutput(sizeBytes: number): string {
+  // Generate realistic-looking tool output with varied content
+  const lines: string[] = [];
+  const words = [
+    'function', 'const', 'let', 'return', 'import', 'export',
+    'class', 'interface', 'type', 'async', 'await', 'Promise',
+    'string', 'number', 'boolean', 'undefined', 'null', 'void',
+  ];
+  let currentSize = 0;
+  while (currentSize < sizeBytes) {
+    const lineWords: string[] = [];
+    for (let w = 0; w < 10; w++) {
+      lineWords.push(words[Math.floor(Math.random() * words.length)]);
+    }
+    const line = lineWords.join(' ');
+    lines.push(line);
+    currentSize += line.length + 1; // +1 for newline
+  }
+  return lines.join('\n').slice(0, sizeBytes);
+}
+// ---------------------------------------------------------------------------
+// Benchmark suite
+// ---------------------------------------------------------------------------
+const ITERATIONS = 100;
+const WARMUP = 5;
+describe('Tool execution pipeline benchmark', () => {
+  // Warm up the parser/modules
+  beforeAll(async () => {
+    for (let i = 0; i < WARMUP; i++) {
+      await classifyRisk('file_read', { path: '/tmp/test.ts' }, '/tmp');
+      await check('file_read', { path: '/tmp/test.ts' }, '/tmp');
+      scanText('no secrets here');
+    }
+  });
+  afterAll(() => {
+    try {
+      rmSync(testDir, { recursive: true });
+    } catch {
+      // best effort cleanup
+    }
+  });
+  test('classifyRisk: low-risk tool (file_read) is fast', async () => {
+    const { timings } = await benchmarkAsync(
+      () => classifyRisk('file_read', { path: '/tmp/test.ts' }, '/tmp'),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    expect(p50).toBeLessThan(5);
+    expect(p95).toBeLessThan(10);
+  });
+  test('classifyRisk: bash command classification', async () => {
+    const { timings, results } = await benchmarkAsync(
+      () => classifyRisk('bash', { command: 'ls -la /tmp' }, '/tmp'),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    // Bash classification involves shell parsing so it is slower
+    expect(p50).toBeLessThan(15);
+    expect(p95).toBeLessThan(40);
+    // Verify correctness: ls should be low risk
+    expect(results[0]).toBe(RiskLevel.Low);
+  });
+  test('classifyRisk: medium-risk tool (file_write)', async () => {
+    const { timings, results } = await benchmarkAsync(
+      () => classifyRisk('file_write', { path: '/tmp/out.txt' }, '/tmp'),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    expect(p50).toBeLessThan(5);
+    expect(results[0]).toBe(RiskLevel.Medium);
+  });
+  test('check: full permission check for low-risk tool', async () => {
+    const { timings, results } = await benchmarkAsync(
+      () => check('file_read', { path: '/tmp/test.ts' }, '/tmp'),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    // Full check includes classifyRisk + trust rule lookup
+    expect(p50).toBeLessThan(10);
+    expect(p95).toBeLessThan(20);
+    // Low-risk with no matching rule should auto-allow
+    expect(results[0].decision).toBe('allow');
+  });
+  test('check: full permission check for bash command', async () => {
+    const { timings, results } = await benchmarkAsync(
+      () => check('bash', { command: 'git status' }, '/tmp'),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    // Bash involves shell parsing + trust rule lookup
+    expect(p50).toBeLessThan(20);
+    expect(p95).toBeLessThan(50);
+    // git status is low risk, should auto-allow
+    expect(results[0].decision).toBe('allow');
+  });
+  test('check: matched allow-rule path for medium-risk tool', async () => {
+    // Exercise the code path where findHighestPriorityRule returns a matching
+    // allow rule, rather than always falling through to the no-rule default.
+    mockRuleResponse = {
+      id: 'bench:allow-file_write',
+      tool: 'file_write',
+      pattern: '**',
+      scope: '/tmp',
+      decision: 'allow',
+      priority: 90,
+      createdAt: Date.now(),
+    };
+    try {
+      const { timings, results } = await benchmarkAsync(
+        () => check('file_write', { path: '/tmp/out.txt' }, '/tmp'),
+        ITERATIONS,
+      );
+      const p50 = percentile(timings, 50);
+      const p95 = percentile(timings, 95);
+      expect(p50).toBeLessThan(10);
+      expect(p95).toBeLessThan(20);
+      // Medium-risk with a matching allow rule should auto-allow
+      expect(results[0].decision).toBe('allow');
+      expect(results[0].matchedRule?.id).toBe('bench:allow-file_write');
+    } finally {
+      mockRuleResponse = null;
+    }
+  });
+  test('check: permission cost is stable across different input paths', async () => {
+    // Verify that the permission check cost doesn't vary with input path length/complexity.
+    // Actual tool-execution-time independence is tested in the ToolExecutor section below.
+    const shortPathTimings: number[] = [];
+    const longPathTimings: number[] = [];
+    for (let i = 0; i < ITERATIONS; i++) {
+      const start1 = performance.now();
+      await check('file_read', { path: '/tmp/fast.ts' }, '/tmp');
+      shortPathTimings.push(performance.now() - start1);
+      const start2 = performance.now();
+      await check('file_read', { path: '/tmp/slow-complex-deeply-nested-file.ts' }, '/tmp');
+      longPathTimings.push(performance.now() - start2);
+    }
+    const shortP50 = percentile(shortPathTimings, 50);
+    const longP50 = percentile(longPathTimings, 50);
+    // Permission check cost should be roughly the same regardless of path length
+    const ratio = Math.max(shortP50, longP50) / Math.max(Math.min(shortP50, longP50), 0.001);
+    expect(ratio).toBeLessThan(5);
+  });
+  test('scanText: short output (< 1KB) completes quickly', () => {
+    const shortOutput = 'Build succeeded. 42 tests passed, 0 failed.\nTime: 1.23s';
+    const { timings } = benchmarkSync(
+      () => scanText(shortOutput, DEFAULT_ENTROPY_CONFIG),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    expect(p50).toBeLessThan(5);
+    expect(p95).toBeLessThan(10);
+  });
+  test('scanText: large output (100KB) within budget', () => {
+    const largeOutput = generateLargeOutput(100 * 1024);
+    const { timings } = benchmarkSync(
+      () => scanText(largeOutput, DEFAULT_ENTROPY_CONFIG),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    expect(p50).toBeLessThan(50);
+    expect(p95).toBeLessThan(100);
+  });
+  test('scanText: output with secrets is detected without excessive overhead', () => {
+    // Build fake secrets programmatically to avoid pre-commit hook false positives
+    const fakeGhToken = 'ghp_' + 'A1b2C3d4E5f6G7h8I9j0K1l2M3n4O5p6Q7r8';
+    const fakeConnStr = 'postgres://' + 'user:s3cret@db.host.example.com:5432/mydb';
+    const outputWithSecrets = [
+      'Deploying to production...',
+      `Using API key: ${fakeGhToken}`,
+      `Connection: ${fakeConnStr}`,
+      'Build complete.',
+    ].join('\n');
+    const { timings, results } = benchmarkSync(
+      () => scanText(outputWithSecrets, DEFAULT_ENTROPY_CONFIG),
+      ITERATIONS,
+    );
+    const p50 = percentile(timings, 50);
+    expect(p50).toBeLessThan(5);
+    // Verify detection correctness
+    expect(results[0].length).toBeGreaterThanOrEqual(2);
+    const types = results[0].map((m) => m.type);
+    expect(types).toContain('GitHub Token');
+    expect(types).toContain('Database Connection String');
+  });
+  test('combined pipeline overhead (classifyRisk + check + scanText) stays under budget', async () => {
+    const timings: number[] = [];
+    for (let i = 0; i < ITERATIONS; i++) {
+      const start = performance.now();
+      // Phase 1: Risk classification
+      await classifyRisk('bash', { command: 'git diff HEAD' }, '/tmp');
+      // Phase 2: Permission check
+      await check('bash', { command: 'git diff HEAD' }, '/tmp');
+      // Phase 3: Secret scanning on output
+      scanText('diff --git a/file.ts b/file.ts\n+const x = 42;\n-const x = 41;', DEFAULT_ENTROPY_CONFIG);
+      timings.push(performance.now() - start);
+    }
+    const p50 = percentile(timings, 50);
+    const p95 = percentile(timings, 95);
+    // Combined pipeline overhead for a pre-approved tool
+    expect(p50).toBeLessThan(20);
+    expect(p95).toBeLessThan(50);
+  });
+  // -------------------------------------------------------------------------
+  // ToolExecutor end-to-end overhead benchmarks
+  // -------------------------------------------------------------------------
+  describe('ToolExecutor overhead', () => {
+    const SLEEP_MS = 50;
+    // Fewer iterations for slow-tool tests to avoid timeouts (50ms * 30 = 1.5s)
+    const SLOW_ITERATIONS = 30;
+    let executor: ToolExecutor;
+    const toolContext: ToolContext = {
+      workingDir: '/tmp',
+      sessionId: 'bench-session',
+      conversationId: 'bench-conv',
+    };
+    function makeTool(name: string, sleepMs: number): Tool {
+      return {
+        name,
+        description: `Benchmark tool (${sleepMs}ms)`,
+        category: 'benchmark',
+        defaultRiskLevel: RiskLevel.Low,
+        getDefinition: () => ({
+          name,
+          description: `Benchmark tool (${sleepMs}ms)`,
+          input_schema: { type: 'object' as const, properties: {} },
+        }),
+        execute: async (): Promise<ToolExecutionResult> => {
+          if (sleepMs > 0) {
+            await new Promise((r) => setTimeout(r, sleepMs));
+          }
+          return { content: 'ok', isError: false };
+        },
+      };
+    }
+    beforeAll(() => {
+      // Auto-allow prompter (never called for low-risk tools, but required by constructor)
+      const prompter = new PermissionPrompter(() => {});
+      executor = new ToolExecutor(prompter);
+      const noopTool = makeTool('bench_noop', 0);
+      const slowTool = makeTool('bench_slow', SLEEP_MS);
+      localRegistry.set(noopTool.name, noopTool);
+      localRegistry.set(slowTool.name, slowTool);
+    });
+    test('ToolExecutor with noop tool: pipeline overhead < 20ms', async () => {
+      // Warmup
+      for (let i = 0; i < WARMUP; i++) {
+        await executor.execute('bench_noop', {}, toolContext);
+      }
+      const { timings } = await benchmarkAsync(
+        () => executor.execute('bench_noop', {}, toolContext),
+        ITERATIONS,
+      );
+      const p50 = percentile(timings, 50);
+      const p95 = percentile(timings, 95);
+      // Full pipeline overhead for a noop tool should be minimal
+      expect(p50).toBeLessThan(20);
+      expect(p95).toBeLessThan(50);
+    });
+    test('ToolExecutor with slow tool (50ms): overhead is constant', async () => {
+      // Warmup
+      for (let i = 0; i < WARMUP; i++) {
+        await executor.execute('bench_slow', {}, toolContext);
+      }
+      const { timings } = await benchmarkAsync(
+        () => executor.execute('bench_slow', {}, toolContext),
+        SLOW_ITERATIONS,
+      );
+      const p50 = percentile(timings, 50);
+      // Total time should be ~50ms + overhead. Pipeline overhead (total - sleep)
+      // should be similar to the noop case.
+      expect(p50).toBeGreaterThanOrEqual(SLEEP_MS);
+      // Total should not exceed sleep + generous overhead budget
+      expect(p50).toBeLessThan(SLEEP_MS + 30);
+    }, 10_000);
+    test('overhead subtraction: slow tool overhead matches noop overhead', async () => {
+      // Run both tools and compare pipeline overhead
+      const noopTimings: number[] = [];
+      const slowTimings: number[] = [];
+      for (let i = 0; i < SLOW_ITERATIONS; i++) {
+        const s1 = performance.now();
+        await executor.execute('bench_noop', {}, toolContext);
+        noopTimings.push(performance.now() - s1);
+        const s2 = performance.now();
+        await executor.execute('bench_slow', {}, toolContext);
+        slowTimings.push(performance.now() - s2);
+      }
+      const noopP50 = percentile(noopTimings, 50);
+      const slowP50 = percentile(slowTimings, 50);
+      // Overhead = slow_duration - sleep_time. Should be close to noop_duration.
+      const slowOverhead = slowP50 - SLEEP_MS;
+      // The overhead portion of the slow tool should be within 10ms of the noop total
+      expect(Math.abs(slowOverhead - noopP50)).toBeLessThan(10);
+    }, 10_000);
+  });
+});

package/src/__tests__/tool-executor.test.ts CHANGED Viewed

@@ -993,20 +993,16 @@ describe('isSideEffectTool', () => {
       expect(isSideEffectTool('account_manage')).toBe(false);
     });
-    test('reminder create is a side-effect', () => {
-      expect(isSideEffectTool('reminder', { action: 'create' })).toBe(true);
+    test('reminder_create is a side-effect', () => {
+      expect(isSideEffectTool('reminder_create')).toBe(true);
     });
-    test('reminder cancel is a side-effect', () => {
-      expect(isSideEffectTool('reminder', { action: 'cancel' })).toBe(true);
+    test('reminder_cancel is a side-effect', () => {
+      expect(isSideEffectTool('reminder_cancel')).toBe(true);
     });
-    test('reminder list is NOT a side-effect', () => {
-      expect(isSideEffectTool('reminder', { action: 'list' })).toBe(false);
-    });
-    test('reminder without input is NOT a side-effect', () => {
-      expect(isSideEffectTool('reminder')).toBe(false);
+    test('reminder_list is NOT a side-effect', () => {
+      expect(isSideEffectTool('reminder_list')).toBe(false);
     });
     test('credential_store store is a side-effect', () => {
@@ -1262,7 +1258,7 @@ describe('ToolExecutor forcePromptSideEffects enforcement', () => {
       { name: 'document_create', input: { title: 'doc', content: 'body' } },
       { name: 'document_update', input: { id: 'doc-1', content: 'updated' } },
       { name: 'account_manage', input: { action: 'create', name: 'acct' } },
-      { name: 'reminder', input: { action: 'create', message: 'remind me' } },
+      { name: 'reminder_create', input: { fire_at: '2030-01-01T00:00:00Z', label: 'test', message: 'remind me' } },
       { name: 'credential_store', input: { action: 'store', name: 'api-key', value: 'secret' } },
     ];
@@ -1550,13 +1546,13 @@ describe('ToolExecutor forcePromptSideEffects enforcement', () => {
     expect(promptCalled).toBe(false);
   });
-  test('reminder create forces prompt in private thread', async () => {
+  test('reminder_create forces prompt in private thread', async () => {
     checkResultOverride = { decision: 'allow', reason: 'Matched trust rule' };
     const executor = new ToolExecutor(makeTrackingPrompter());
     const result = await executor.execute(
-      'reminder',
-      { action: 'create', message: 'test reminder' },
+      'reminder_create',
+      { fire_at: '2030-01-01T00:00:00Z', label: 'test', message: 'test reminder' },
       makeContext({ forcePromptSideEffects: true }),
     );
@@ -1564,13 +1560,13 @@ describe('ToolExecutor forcePromptSideEffects enforcement', () => {
     expect(promptCalled).toBe(true);
   });
-  test('reminder list does NOT force prompt in private thread', async () => {
+  test('reminder_list does NOT force prompt in private thread', async () => {
     checkResultOverride = { decision: 'allow', reason: 'Matched trust rule' };
     const executor = new ToolExecutor(makeTrackingPrompter());
     const result = await executor.execute(
-      'reminder',
-      { action: 'list' },
+      'reminder_list',
+      {},
       makeContext({ forcePromptSideEffects: true }),
     );