npm - vellum - Versions diffs - 0.2.13 → 0.2.14 - Mend

vellum 0.2.13 → 0.2.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/README.md +32 -0
package/bun.lock +2 -2
package/docs/skills.md +4 -4
package/package.json +2 -2
package/src/__tests__/__snapshots__/ipc-snapshot.test.ts.snap +213 -3
package/src/__tests__/app-git-history.test.ts +176 -0
package/src/__tests__/app-git-service.test.ts +169 -0
package/src/__tests__/assistant-events-sse-hardening.test.ts +315 -0
package/src/__tests__/browser-skill-baseline-tool-payload.test.ts +8 -8
package/src/__tests__/browser-skill-endstate.test.ts +6 -6
package/src/__tests__/call-bridge.test.ts +105 -13
package/src/__tests__/call-domain.test.ts +163 -0
package/src/__tests__/call-orchestrator.test.ts +113 -0
package/src/__tests__/call-routes-http.test.ts +246 -6
package/src/__tests__/channel-approval-routes.test.ts +438 -0
package/src/__tests__/channel-approval.test.ts +266 -0
package/src/__tests__/channel-approvals.test.ts +393 -0
package/src/__tests__/channel-delivery-store.test.ts +447 -0
package/src/__tests__/checker.test.ts +607 -1048
package/src/__tests__/cli.test.ts +1 -56
package/src/__tests__/config-schema.test.ts +137 -18
package/src/__tests__/conflict-intent-tokenization.test.ts +141 -0
package/src/__tests__/conflict-policy.test.ts +121 -0
package/src/__tests__/conflict-store.test.ts +2 -0
package/src/__tests__/contacts-tools.test.ts +3 -3
package/src/__tests__/contradiction-checker.test.ts +99 -1
package/src/__tests__/credential-security-invariants.test.ts +22 -6
package/src/__tests__/credential-vault-unit.test.ts +780 -0
package/src/__tests__/elevenlabs-client.test.ts +62 -0
package/src/__tests__/ephemeral-permissions.test.ts +73 -23
package/src/__tests__/filesystem-tools.test.ts +579 -0
package/src/__tests__/gateway-only-enforcement.test.ts +114 -4
package/src/__tests__/handlers-add-trust-rule-metadata.test.ts +202 -0
package/src/__tests__/handlers-cu-observation-blob.test.ts +2 -1
package/src/__tests__/handlers-ipc-blob-probe.test.ts +2 -1
package/src/__tests__/handlers-slack-config.test.ts +2 -1
package/src/__tests__/handlers-telegram-config.test.ts +855 -0
package/src/__tests__/handlers-twitter-config.test.ts +141 -1
package/src/__tests__/hooks-runner.test.ts +6 -2
package/src/__tests__/host-file-edit-tool.test.ts +124 -0
package/src/__tests__/host-file-read-tool.test.ts +62 -0
package/src/__tests__/host-file-write-tool.test.ts +59 -0
package/src/__tests__/host-shell-tool.test.ts +251 -0
package/src/__tests__/ingress-reconcile.test.ts +581 -0
package/src/__tests__/ipc-snapshot.test.ts +100 -41
package/src/__tests__/ipc-validate.test.ts +50 -0
package/src/__tests__/key-migration.test.ts +23 -0
package/src/__tests__/memory-regressions.test.ts +99 -0
package/src/__tests__/memory-retrieval.benchmark.test.ts +1 -1
package/src/__tests__/oauth-callback-registry.test.ts +11 -4
package/src/__tests__/playbook-execution.test.ts +502 -0
package/src/__tests__/playbook-tools.test.ts +4 -6
package/src/__tests__/public-ingress-urls.test.ts +34 -0
package/src/__tests__/qdrant-manager.test.ts +267 -0
package/src/__tests__/recurrence-engine-rruleset.test.ts +97 -0
package/src/__tests__/recurrence-engine.test.ts +9 -0
package/src/__tests__/recurrence-types.test.ts +8 -0
package/src/__tests__/registry.test.ts +1 -1
package/src/__tests__/runtime-runs.test.ts +1 -25
package/src/__tests__/schedule-store.test.ts +16 -14
package/src/__tests__/schedule-tools.test.ts +83 -0
package/src/__tests__/scheduler-recurrence.test.ts +111 -10
package/src/__tests__/secret-allowlist.test.ts +18 -17
package/src/__tests__/secret-ingress-handler.test.ts +11 -0
package/src/__tests__/secret-scanner.test.ts +43 -0
package/src/__tests__/session-conflict-gate.test.ts +442 -6
package/src/__tests__/session-init.benchmark.test.ts +3 -0
package/src/__tests__/session-process-bridge.test.ts +242 -0
package/src/__tests__/session-skill-tools.test.ts +1 -1
package/src/__tests__/shell-identity.test.ts +256 -0
package/src/__tests__/skill-projection.benchmark.test.ts +11 -1
package/src/__tests__/subagent-tools.test.ts +637 -54
package/src/__tests__/task-management-tools.test.ts +936 -0
package/src/__tests__/task-runner.test.ts +2 -2
package/src/__tests__/terminal-tools.test.ts +840 -0
package/src/__tests__/tool-executor-shell-integration.test.ts +301 -0
package/src/__tests__/tool-executor.test.ts +85 -151
package/src/__tests__/tool-permission-simulate-handler.test.ts +336 -0
package/src/__tests__/trust-store.test.ts +27 -453
package/src/__tests__/twilio-provider.test.ts +153 -3
package/src/__tests__/twilio-routes-elevenlabs.test.ts +375 -0
package/src/__tests__/twilio-routes-twiml.test.ts +4 -4
package/src/__tests__/twilio-routes.test.ts +17 -262
package/src/__tests__/twitter-auth-handler.test.ts +2 -1
package/src/__tests__/twitter-cli-error-shaping.test.ts +208 -0
package/src/__tests__/twitter-cli-routing.test.ts +252 -0
package/src/__tests__/twitter-oauth-client.test.ts +209 -0
package/src/__tests__/workspace-policy.test.ts +213 -0
package/src/calls/call-bridge.ts +92 -19
package/src/calls/call-domain.ts +157 -5
package/src/calls/call-orchestrator.ts +93 -7
package/src/calls/call-store.ts +6 -0
package/src/calls/elevenlabs-client.ts +8 -0
package/src/calls/elevenlabs-config.ts +7 -5
package/src/calls/twilio-provider.ts +91 -0
package/src/calls/twilio-routes.ts +32 -37
package/src/calls/types.ts +3 -1
package/src/calls/voice-quality.ts +29 -7
package/src/cli/twitter.ts +200 -21
package/src/cli.ts +1 -20
package/src/config/bundled-skills/contacts/tools/contact-merge.ts +52 -4
package/src/config/bundled-skills/contacts/tools/contact-search.ts +55 -4
package/src/config/bundled-skills/contacts/tools/contact-upsert.ts +61 -4
package/src/config/bundled-skills/messaging/SKILL.md +17 -2
package/src/config/bundled-skills/messaging/tools/messaging-reply.ts +4 -1
package/src/config/bundled-skills/messaging/tools/messaging-send.ts +5 -1
package/src/config/bundled-skills/messaging/tools/shared.ts +5 -0
package/src/config/bundled-skills/phone-calls/SKILL.md +142 -34
package/src/config/bundled-skills/playbooks/tools/playbook-create.ts +95 -6
package/src/config/bundled-skills/playbooks/tools/playbook-delete.ts +51 -6
package/src/config/bundled-skills/playbooks/tools/playbook-list.ts +73 -6
package/src/config/bundled-skills/playbooks/tools/playbook-update.ts +110 -6
package/src/config/bundled-skills/public-ingress/SKILL.md +22 -5
package/src/config/bundled-skills/twitter/SKILL.md +103 -17
package/src/config/defaults.ts +10 -4
package/src/config/schema.ts +80 -21
package/src/config/types.ts +1 -0
package/src/config/vellum-skills/telegram-setup/SKILL.md +56 -61
package/src/daemon/assistant-attachments.ts +4 -2
package/src/daemon/handlers/apps.ts +69 -0
package/src/daemon/handlers/config.ts +543 -24
package/src/daemon/handlers/index.ts +1 -0
package/src/daemon/handlers/sessions.ts +22 -6
package/src/daemon/handlers/shared.ts +2 -1
package/src/daemon/handlers/skills.ts +5 -20
package/src/daemon/ipc-contract-inventory.json +28 -0
package/src/daemon/ipc-contract.ts +168 -10
package/src/daemon/ipc-validate.ts +17 -0
package/src/daemon/lifecycle.ts +2 -0
package/src/daemon/server.ts +78 -72
package/src/daemon/session-attachments.ts +1 -1
package/src/daemon/session-conflict-gate.ts +62 -6
package/src/daemon/session-notifiers.ts +1 -1
package/src/daemon/session-process.ts +62 -3
package/src/daemon/session-tool-setup.ts +1 -2
package/src/daemon/tls-certs.ts +189 -0
package/src/daemon/video-thumbnail.ts +5 -3
package/src/hooks/manager.ts +5 -9
package/src/memory/app-git-service.ts +295 -0
package/src/memory/app-store.ts +21 -0
package/src/memory/conflict-intent.ts +47 -4
package/src/memory/conflict-policy.ts +73 -0
package/src/memory/conflict-store.ts +9 -1
package/src/memory/contradiction-checker.ts +28 -0
package/src/memory/conversation-key-store.ts +15 -0
package/src/memory/db.ts +81 -0
package/src/memory/embedding-local.ts +3 -13
package/src/memory/external-conversation-store.ts +234 -0
package/src/memory/job-handlers/conflict.ts +22 -2
package/src/memory/jobs-worker.ts +67 -28
package/src/memory/runs-store.ts +54 -7
package/src/memory/schema.ts +20 -0
package/src/messaging/provider.ts +9 -0
package/src/messaging/providers/telegram-bot/adapter.ts +162 -0
package/src/messaging/providers/telegram-bot/client.ts +104 -0
package/src/messaging/providers/telegram-bot/types.ts +15 -0
package/src/messaging/registry.ts +1 -0
package/src/permissions/checker.ts +48 -44
package/src/permissions/prompter.ts +0 -4
package/src/permissions/shell-identity.ts +227 -0
package/src/permissions/trust-store.ts +76 -53
package/src/permissions/types.ts +0 -19
package/src/permissions/workspace-policy.ts +114 -0
package/src/providers/retry.ts +12 -37
package/src/runtime/assistant-event-hub.ts +41 -4
package/src/runtime/channel-approval-parser.ts +60 -0
package/src/runtime/channel-approval-types.ts +71 -0
package/src/runtime/channel-approvals.ts +145 -0
package/src/runtime/gateway-client.ts +16 -0
package/src/runtime/http-server.ts +29 -9
package/src/runtime/routes/call-routes.ts +52 -2
package/src/runtime/routes/channel-routes.ts +296 -16
package/src/runtime/routes/events-routes.ts +97 -28
package/src/runtime/routes/run-routes.ts +2 -7
package/src/runtime/run-orchestrator.ts +0 -3
package/src/schedule/recurrence-engine.ts +26 -2
package/src/schedule/recurrence-types.ts +1 -1
package/src/schedule/schedule-store.ts +12 -3
package/src/security/secret-scanner.ts +7 -0
package/src/tasks/ephemeral-permissions.ts +0 -2
package/src/tasks/task-scheduler.ts +2 -1
package/src/tools/calls/call-start.ts +8 -0
package/src/tools/execution-target.ts +21 -0
package/src/tools/execution-timeout.ts +49 -0
package/src/tools/executor.ts +6 -135
package/src/tools/network/web-search.ts +9 -32
package/src/tools/policy-context.ts +29 -0
package/src/tools/schedule/update.ts +8 -1
package/src/tools/terminal/parser.ts +16 -18
package/src/tools/types.ts +4 -11
package/src/twitter/oauth-client.ts +102 -0
package/src/twitter/router.ts +101 -0
package/src/util/debounce.ts +88 -0
package/src/util/network-info.ts +47 -0
package/src/util/platform.ts +29 -4
package/src/util/promise-guard.ts +37 -0
package/src/util/retry.ts +98 -0
package/src/util/truncate.ts +1 -1
package/src/workspace/git-service.ts +129 -112
package/src/tools/contacts/contact-merge.ts +0 -55
package/src/tools/contacts/contact-search.ts +0 -58
package/src/tools/contacts/contact-upsert.ts +0 -64
package/src/tools/playbooks/index.ts +0 -4
package/src/tools/playbooks/playbook-create.ts +0 -96
package/src/tools/playbooks/playbook-delete.ts +0 -52
package/src/tools/playbooks/playbook-list.ts +0 -74
package/src/tools/playbooks/playbook-update.ts +0 -111

package/src/__tests__/session-process-bridge.test.ts ADDED Viewed

@@ -0,0 +1,242 @@
+import { describe, test, expect, beforeEach, mock } from 'bun:test';
+import { mkdtempSync } from 'node:fs';
+import { tmpdir } from 'node:os';
+import { join } from 'node:path';
+const testDir = mkdtempSync(join(tmpdir(), 'session-process-bridge-test-'));
+// ── Platform + logger mocks ─────────────────────────────────────────
+mock.module('../util/platform.js', () => ({
+  getDataDir: () => testDir,
+  isMacOS: () => process.platform === 'darwin',
+  isLinux: () => process.platform === 'linux',
+  isWindows: () => process.platform === 'win32',
+  getSocketPath: () => join(testDir, 'test.sock'),
+  getPidPath: () => join(testDir, 'test.pid'),
+  getDbPath: () => join(testDir, 'test.db'),
+  getLogPath: () => join(testDir, 'test.log'),
+  ensureDataDir: () => {},
+}));
+mock.module('../util/logger.js', () => ({
+  getLogger: () =>
+    new Proxy({} as Record<string, unknown>, {
+      get: () => () => {},
+    }),
+}));
+mock.module('../config/loader.js', () => ({
+  getConfig: () => ({
+    apiKeys: { anthropic: 'test-key' },
+    model: 'claude-sonnet-4-20250514',
+    provider: 'anthropic',
+    memory: { enabled: false },
+    calls: { enabled: false },
+  }),
+}));
+// ── Mock the call bridge ─────────────────────────────────────────────
+import type { CallBridgeResult } from '../calls/call-bridge.js';
+const mockTryRouteCallMessage = mock(
+  (_convId: string, _text: string, _msgId?: string): Promise<CallBridgeResult> =>
+    Promise.resolve({ handled: false, reason: 'no_active_call' }),
+);
+mock.module('../calls/call-bridge.js', () => ({
+  tryRouteCallMessage: (...args: [string, string, string?]) => mockTryRouteCallMessage(...args),
+}));
+// ── Mock slash resolution ────────────────────────────────────────────
+mock.module('./session-slash.js', () => ({
+  resolveSlash: (content: string) => ({ kind: 'passthrough' as const, content }),
+}));
+// ── Import after mocks ──────────────────────────────────────────────
+import type { ServerMessage } from '../daemon/ipc-protocol.js';
+import type { ProcessSessionContext } from '../daemon/session-process.js';
+import { processMessage, drainQueue } from '../daemon/session-process.js';
+import { MessageQueue } from '../daemon/session-queue-manager.js';
+// ── Session mock factory ─────────────────────────────────────────────
+function createMockSession(overrides?: Partial<ProcessSessionContext>): ProcessSessionContext {
+  return {
+    conversationId: 'test-conv',
+    messages: [],
+    processing: false,
+    abortController: null,
+    currentRequestId: undefined,
+    queue: new MessageQueue(),
+    traceEmitter: {
+      emit: () => {},
+    } as unknown as ProcessSessionContext['traceEmitter'],
+    persistUserMessage: mock((_content: string, _attachments: unknown[], _requestId?: string) => 'mock-msg-id'),
+    runAgentLoop: mock(async () => {}),
+    ...overrides,
+  };
+}
+// ── Tests ────────────────────────────────────────────────────────────
+describe('session-process bridge consumption', () => {
+  beforeEach(() => {
+    mockTryRouteCallMessage.mockReset();
+  });
+  // ── Direct processMessage path ───────────────────────────────
+  test('processMessage emits assistant_text_delta + message_complete when bridge consumes with userFacingText', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: true,
+      userFacingText: 'Instruction relayed to active call.',
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession();
+    await processMessage(session, 'ask about pricing', [], onEvent);
+    // Should have emitted text delta then message_complete
+    const textDelta = events.find((e) => e.type === 'assistant_text_delta');
+    expect(textDelta).toBeDefined();
+    expect((textDelta as { text: string }).text).toBe('Instruction relayed to active call.');
+    const complete = events.find((e) => e.type === 'message_complete');
+    expect(complete).toBeDefined();
+    // Should NOT have called runAgentLoop
+    expect(session.runAgentLoop).not.toHaveBeenCalled();
+  });
+  test('processMessage emits failure text when bridge consumes with failure userFacingText', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: true,
+      reason: 'instruction_relay_failed',
+      userFacingText: 'Failed to relay instruction to the active call.',
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession();
+    await processMessage(session, 'change the topic', [], onEvent);
+    const textDelta = events.find((e) => e.type === 'assistant_text_delta');
+    expect(textDelta).toBeDefined();
+    expect((textDelta as { text: string }).text).toBe('Failed to relay instruction to the active call.');
+    const complete = events.find((e) => e.type === 'message_complete');
+    expect(complete).toBeDefined();
+    // Only one message_complete
+    const completeCount = events.filter((e) => e.type === 'message_complete').length;
+    expect(completeCount).toBe(1);
+    expect(session.runAgentLoop).not.toHaveBeenCalled();
+  });
+  test('processMessage skips text delta when bridge consumes without userFacingText', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: true,
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession();
+    await processMessage(session, 'hello', [], onEvent);
+    const textDelta = events.find((e) => e.type === 'assistant_text_delta');
+    expect(textDelta).toBeUndefined();
+    const complete = events.find((e) => e.type === 'message_complete');
+    expect(complete).toBeDefined();
+    expect(session.runAgentLoop).not.toHaveBeenCalled();
+  });
+  test('processMessage falls through to agent loop when bridge does not consume', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: false,
+      reason: 'no_active_call',
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession();
+    await processMessage(session, 'normal message', [], onEvent);
+    expect(session.runAgentLoop).toHaveBeenCalled();
+  });
+  // ── Queued routeOrProcess path ───────────────────────────────
+  test('drainQueue emits assistant_text_delta + message_complete for bridge-consumed queued message', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: true,
+      userFacingText: 'Instruction relayed to active call.',
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession({ processing: true });
+    // Enqueue a message
+    session.queue.push({
+      content: 'ask about pricing',
+      attachments: [],
+      requestId: 'req-1',
+      onEvent,
+    });
+    drainQueue(session);
+    // Wait for async routeOrProcess
+    await new Promise((r) => setTimeout(r, 50));
+    const textDelta = events.find((e) => e.type === 'assistant_text_delta');
+    expect(textDelta).toBeDefined();
+    expect((textDelta as { text: string }).text).toBe('Instruction relayed to active call.');
+    // message_complete (from dequeue + bridge consumption — only one expected for this request)
+    const completeEvents = events.filter((e) => e.type === 'message_complete');
+    expect(completeEvents.length).toBe(1);
+    expect(session.runAgentLoop).not.toHaveBeenCalled();
+  });
+  test('drainQueue emits failure text for bridge-consumed queued message with relay failure', async () => {
+    mockTryRouteCallMessage.mockResolvedValue({
+      handled: true,
+      reason: 'instruction_relay_failed',
+      userFacingText: 'Failed to relay instruction to the active call.',
+    });
+    const events: ServerMessage[] = [];
+    const onEvent = (msg: ServerMessage) => events.push(msg);
+    const session = createMockSession({ processing: true });
+    session.queue.push({
+      content: 'change the topic',
+      attachments: [],
+      requestId: 'req-2',
+      onEvent,
+    });
+    drainQueue(session);
+    await new Promise((r) => setTimeout(r, 50));
+    const textDelta = events.find((e) => e.type === 'assistant_text_delta');
+    expect(textDelta).toBeDefined();
+    expect((textDelta as { text: string }).text).toBe('Failed to relay instruction to the active call.');
+    expect(session.runAgentLoop).not.toHaveBeenCalled();
+  });
+});

package/src/__tests__/session-skill-tools.test.ts CHANGED Viewed

@@ -2175,7 +2175,7 @@ describe('hash change re-prompt regressions (PR 35)', () => {
 // Version hash plumbing regression tests
 // Verify that createSkillToolsFromManifest receives the computed hash and
 // that projected tools carry ownerSkillVersionHash, which downstream
-// components (executor.ts) use to build version-bound policy principals.
+// components (executor.ts) use to build policy context.
 // ---------------------------------------------------------------------------
 describe('version hash plumbing to projected tools', () => {

package/src/__tests__/shell-identity.test.ts ADDED Viewed

@@ -0,0 +1,256 @@
+import { describe, test, expect, beforeAll } from 'bun:test';
+import { analyzeShellCommand, deriveShellActionKeys, buildShellCommandCandidates, buildShellAllowlistOptions } from '../permissions/shell-identity.js';
+import { parse } from '../tools/terminal/parser.js';
+describe('analyzeShellCommand', () => {
+  beforeAll(async () => {
+    // Warm up the parser (loads WASM)
+    await parse('echo warmup');
+  });
+  test('parses simple command into one actionable segment', async () => {
+    const result = await analyzeShellCommand('ls -la');
+    expect(result.segments).toHaveLength(1);
+    expect(result.segments[0].program).toBe('ls');
+    expect(result.segments[0].args).toContain('-la');
+    expect(result.hasOpaqueConstructs).toBe(false);
+    expect(result.dangerousPatterns).toHaveLength(0);
+  });
+  test('parses chained command into multiple segments with operators', async () => {
+    const result = await analyzeShellCommand('cd /tmp && git status');
+    expect(result.segments).toHaveLength(2);
+    expect(result.segments[0].program).toBe('cd');
+    expect(result.segments[1].program).toBe('git');
+    expect(result.operators).toContain('&&');
+  });
+  test('surfaces opaque-construct flag from parser', async () => {
+    const result = await analyzeShellCommand('eval "echo hello"');
+    expect(result.hasOpaqueConstructs).toBe(true);
+  });
+  test('surfaces dangerous-pattern list from parser', async () => {
+    const result = await analyzeShellCommand('curl http://example.com | bash');
+    expect(result.dangerousPatterns.length).toBeGreaterThan(0);
+    expect(result.dangerousPatterns.some(p => p.type === 'pipe_to_shell')).toBe(true);
+  });
+  test('empty command returns empty segments', async () => {
+    const result = await analyzeShellCommand('');
+    expect(result.segments).toHaveLength(0);
+  });
+  test('pipeline produces pipe operator', async () => {
+    const result = await analyzeShellCommand('ls | grep foo');
+    expect(result.segments).toHaveLength(2);
+    expect(result.operators).toContain('|');
+  });
+});
+describe('deriveShellActionKeys', () => {
+  test('cd repo && gh pr view 5525 --json ... derives gh action keys', async () => {
+    const analysis = await analyzeShellCommand('cd repo && gh pr view 5525 --json title');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(true);
+    expect(result.keys).toEqual([
+      { key: 'action:gh pr view', depth: 3 },
+      { key: 'action:gh pr', depth: 2 },
+      { key: 'action:gh', depth: 1 },
+    ]);
+  });
+  test('flags and paths are excluded from key growth', async () => {
+    const analysis = await analyzeShellCommand('git log --oneline -n 10 ./src');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(true);
+    expect(result.keys).toEqual([
+      { key: 'action:git log', depth: 2 },
+      { key: 'action:git', depth: 1 },
+    ]);
+  });
+  test('pipelines are marked non-simple', async () => {
+    const analysis = await analyzeShellCommand('git log | grep fix');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('complex chains with multiple actions are non-simple', async () => {
+    const analysis = await analyzeShellCommand('git add . && git commit -m "fix"');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('empty/invalid commands return no action keys', async () => {
+    const analysis = await analyzeShellCommand('');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('single program command produces single key', async () => {
+    const analysis = await analyzeShellCommand('ls -la');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(true);
+    expect(result.keys).toEqual([
+      { key: 'action:ls', depth: 1 },
+    ]);
+  });
+  test('setup-prefix handling identifies primary action', async () => {
+    const analysis = await analyzeShellCommand('export PATH="/usr/bin:$PATH" && npm install');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(true);
+    expect(result.keys).toEqual([
+      { key: 'action:npm install', depth: 2 },
+      { key: 'action:npm', depth: 1 },
+    ]);
+  });
+  test('OR chains (||) are marked non-simple', async () => {
+    const analysis = await analyzeShellCommand('cd repo || gh pr view 123');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('semicolon chains (;) are marked non-simple', async () => {
+    const analysis = await analyzeShellCommand('cd repo; gh pr view 123');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('newline-separated commands are marked non-simple', async () => {
+    const analysis = await analyzeShellCommand('cd repo\ngh pr view 123');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('background operator (&) chains are marked non-simple', async () => {
+    const analysis = await analyzeShellCommand('sleep 5 & echo done');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(false);
+    expect(result.keys).toHaveLength(0);
+  });
+  test('numeric arguments are excluded from keys', async () => {
+    const analysis = await analyzeShellCommand('gh pr view 5525');
+    const result = deriveShellActionKeys(analysis);
+    expect(result.isSimpleAction).toBe(true);
+    expect(result.keys).toEqual([
+      { key: 'action:gh pr view', depth: 3 },
+      { key: 'action:gh pr', depth: 2 },
+      { key: 'action:gh', depth: 1 },
+    ]);
+  });
+});
+describe('buildShellCommandCandidates', () => {
+  test('raw candidate is always present', async () => {
+    const candidates = await buildShellCommandCandidates('ls -la');
+    expect(candidates[0]).toBe('ls -la');
+  });
+  test('simple action adds canonical and action candidates', async () => {
+    const candidates = await buildShellCommandCandidates('cd repo && gh pr view 5525 --json title');
+    expect(candidates[0]).toBe('cd repo && gh pr view 5525 --json title');
+    // Should include the canonical primary command
+    expect(candidates).toContain('gh pr view 5525 --json title');
+    // Should include action keys
+    expect(candidates).toContain('action:gh pr view');
+    expect(candidates).toContain('action:gh pr');
+    expect(candidates).toContain('action:gh');
+  });
+  test('complex command returns raw-only', async () => {
+    const candidates = await buildShellCommandCandidates('git add . && git commit -m "fix"');
+    expect(candidates).toEqual(['git add . && git commit -m "fix"']);
+  });
+  test('pipeline returns raw-only', async () => {
+    const candidates = await buildShellCommandCandidates('git log | grep fix');
+    expect(candidates).toEqual(['git log | grep fix']);
+  });
+  test('candidate order is stable', async () => {
+    const c1 = await buildShellCommandCandidates('npm install express');
+    const c2 = await buildShellCommandCandidates('npm install express');
+    expect(c1).toEqual(c2);
+  });
+  test('empty command returns raw', async () => {
+    const candidates = await buildShellCommandCandidates('');
+    expect(candidates).toEqual(['']);
+  });
+  test('semicolon chain returns raw-only', async () => {
+    const candidates = await buildShellCommandCandidates('cd repo; gh pr view 123');
+    expect(candidates).toHaveLength(1);
+  });
+  test('deduplication preserves order', async () => {
+    // Single command — raw and canonical are the same
+    const candidates = await buildShellCommandCandidates('git status');
+    // raw is 'git status', canonical would also be 'git status' (same segment)
+    // so it should be deduped to just once
+    const gitStatusCount = candidates.filter(c => c === 'git status').length;
+    expect(gitStatusCount).toBe(1);
+  });
+});
+describe('buildShellAllowlistOptions — complex command restrictions', () => {
+  test('chain with && offers exact only', async () => {
+    const options = await buildShellAllowlistOptions('gh pr view 123 && rm -rf /');
+    expect(options).toHaveLength(1);
+    expect(options[0].pattern).toBe('gh pr view 123 && rm -rf /');
+    expect(options[0].description).toContain('compound');
+  });
+  test('pipeline offers exact only', async () => {
+    const options = await buildShellAllowlistOptions('cat file.txt | grep error | wc -l');
+    expect(options).toHaveLength(1);
+    expect(options[0].pattern).toBe('cat file.txt | grep error | wc -l');
+    expect(options[0].description).toContain('compound');
+  });
+  test('semicolon chain offers exact only', async () => {
+    const options = await buildShellAllowlistOptions('cd repo; gh pr view 123');
+    expect(options).toHaveLength(1);
+    expect(options[0].description).toContain('compound');
+  });
+  test('newline-separated commands offer exact only', async () => {
+    const options = await buildShellAllowlistOptions('cd repo\ngh pr view 123');
+    expect(options).toHaveLength(1);
+    expect(options[0].description).toContain('compound');
+  });
+  test('setup-prefix + single-action still gets action-key options', async () => {
+    const options = await buildShellAllowlistOptions('cd /repo && npm install express');
+    expect(options.length).toBeGreaterThan(1);
+    expect(options.some(o => o.pattern.startsWith('action:'))).toBe(true);
+  });
+  test('simple single command gets action-key options', async () => {
+    const options = await buildShellAllowlistOptions('npm install express');
+    expect(options.length).toBeGreaterThan(1);
+    expect(options[0].pattern).toBe('npm install express');
+    expect(options.some(o => o.pattern === 'action:npm install')).toBe(true);
+    expect(options.some(o => o.pattern === 'action:npm')).toBe(true);
+  });
+});

package/src/__tests__/skill-projection.benchmark.test.ts CHANGED Viewed

@@ -211,10 +211,12 @@ describe('Skill projection benchmark', () => {
     // Warm the cache
     const warmResult = projectSkillTools(history, { cache, previouslyActiveSkillIds: prevActive });
-    // Snapshot cache object references after warm-up
+    // Snapshot cache object references and cardinality after warm-up
     const derivedAfterWarm = cache.derived!;
     const entriesAfterWarm = cache.derived!.entries;
+    const entriesCountAfterWarm = cache.derived!.entries.length;
     const seenIdsAfterWarm = cache.derived!.seenIds;
+    const seenIdsSizeAfterWarm = cache.derived!.seenIds.size;
     // Second call with identical history — should hit cache fast path
     let cachedResult: ReturnType<typeof projectSkillTools> | undefined;
@@ -233,6 +235,9 @@ describe('Skill projection benchmark', () => {
     expect(cache.derived).toBe(derivedAfterWarm);
     expect(cache.derived!.entries).toBe(entriesAfterWarm);
     expect(cache.derived!.seenIds).toBe(seenIdsAfterWarm);
+    // Assert cardinality unchanged — catches in-place mutation (e.g., appended duplicates)
+    expect(cache.derived!.entries.length).toBe(entriesCountAfterWarm);
+    expect(cache.derived!.seenIds.size).toBe(seenIdsSizeAfterWarm);
     // Assert tool definitions are identical between warm and cached calls
     expect(cachedResult!.toolDefinitions.length).toBe(warmResult.toolDefinitions.length);
@@ -256,7 +261,9 @@ describe('Skill projection benchmark', () => {
     expect(cache.derived).toBeDefined();
     const snapshotDerived = cache.derived!;
     const snapshotEntries = cache.derived!.entries;
+    const snapshotEntriesCount = cache.derived!.entries.length;
     const snapshotSeenIds = cache.derived!.seenIds;
+    const snapshotSeenIdsSize = cache.derived!.seenIds.size;
     // Run multiple subsequent calls with unchanged history
     for (let i = 0; i < 5; i++) {
@@ -266,6 +273,9 @@ describe('Skill projection benchmark', () => {
       expect(cache.derived).toBe(snapshotDerived);
       expect(cache.derived!.entries).toBe(snapshotEntries);
       expect(cache.derived!.seenIds).toBe(snapshotSeenIds);
+      // Cardinality must be unchanged — guards against in-place mutation (e.g., growing entries while reusing same object)
+      expect(cache.derived!.entries.length).toBe(snapshotEntriesCount);
+      expect(cache.derived!.seenIds.size).toBe(snapshotSeenIdsSize);
       // Tool definitions must match the first call exactly
       expect(result.toolDefinitions.length).toBe(firstResult.toolDefinitions.length);