npm - outcome-cli - Versions diffs - 1.0.0 - Mend

outcome-cli 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (113) hide show

package/README.md +261 -0
package/package.json +95 -0
package/src/agents/README.md +139 -0
package/src/agents/adapters/anthropic.adapter.ts +166 -0
package/src/agents/adapters/dalle.adapter.ts +145 -0
package/src/agents/adapters/gemini.adapter.ts +134 -0
package/src/agents/adapters/imagen.adapter.ts +106 -0
package/src/agents/adapters/nano-banana.adapter.ts +129 -0
package/src/agents/adapters/openai.adapter.ts +165 -0
package/src/agents/adapters/veo.adapter.ts +130 -0
package/src/agents/agent.schema.property.test.ts +379 -0
package/src/agents/agent.schema.test.ts +148 -0
package/src/agents/agent.schema.ts +263 -0
package/src/agents/index.ts +60 -0
package/src/agents/registered-agent.schema.ts +356 -0
package/src/agents/registry.ts +97 -0
package/src/agents/tournament-configs.property.test.ts +266 -0
package/src/cli/README.md +145 -0
package/src/cli/commands/define.ts +79 -0
package/src/cli/commands/list.ts +46 -0
package/src/cli/commands/logs.ts +83 -0
package/src/cli/commands/run.ts +416 -0
package/src/cli/commands/verify.ts +110 -0
package/src/cli/index.ts +81 -0
package/src/config/README.md +128 -0
package/src/config/env.ts +262 -0
package/src/config/index.ts +19 -0
package/src/eval/README.md +318 -0
package/src/eval/ai-judge.test.ts +435 -0
package/src/eval/ai-judge.ts +368 -0
package/src/eval/code-validators.ts +414 -0
package/src/eval/evaluateOutcome.property.test.ts +1174 -0
package/src/eval/evaluateOutcome.ts +591 -0
package/src/eval/immigration-validators.ts +122 -0
package/src/eval/index.ts +90 -0
package/src/eval/judge-cache.ts +402 -0
package/src/eval/tournament-validators.property.test.ts +439 -0
package/src/eval/validators.property.test.ts +1118 -0
package/src/eval/validators.ts +1199 -0
package/src/eval/weighted-scorer.ts +285 -0
package/src/index.ts +17 -0
package/src/league/README.md +188 -0
package/src/league/health-check.ts +353 -0
package/src/league/index.ts +93 -0
package/src/league/killAgent.ts +151 -0
package/src/league/league.test.ts +1151 -0
package/src/league/runLeague.ts +843 -0
package/src/league/scoreAgent.ts +175 -0
package/src/modules/omnibridge/__tests__/.gitkeep +1 -0
package/src/modules/omnibridge/__tests__/auth-tunnel.property.test.ts +524 -0
package/src/modules/omnibridge/__tests__/deterministic-logger.property.test.ts +965 -0
package/src/modules/omnibridge/__tests__/ghost-api.property.test.ts +461 -0
package/src/modules/omnibridge/__tests__/omnibridge-integration.test.ts +542 -0
package/src/modules/omnibridge/__tests__/parallel-executor.property.test.ts +671 -0
package/src/modules/omnibridge/__tests__/semantic-normalizer.property.test.ts +521 -0
package/src/modules/omnibridge/__tests__/semantic-normalizer.test.ts +254 -0
package/src/modules/omnibridge/__tests__/session-vault.property.test.ts +367 -0
package/src/modules/omnibridge/__tests__/shadow-session.property.test.ts +523 -0
package/src/modules/omnibridge/__tests__/triangulation-engine.property.test.ts +292 -0
package/src/modules/omnibridge/__tests__/verification-engine.property.test.ts +769 -0
package/src/modules/omnibridge/api/.gitkeep +1 -0
package/src/modules/omnibridge/api/ghost-api.ts +1087 -0
package/src/modules/omnibridge/auth/.gitkeep +1 -0
package/src/modules/omnibridge/auth/auth-tunnel.ts +843 -0
package/src/modules/omnibridge/auth/session-vault.ts +577 -0
package/src/modules/omnibridge/core/.gitkeep +1 -0
package/src/modules/omnibridge/core/semantic-normalizer.ts +702 -0
package/src/modules/omnibridge/core/triangulation-engine.ts +530 -0
package/src/modules/omnibridge/core/types.ts +610 -0
package/src/modules/omnibridge/execution/.gitkeep +1 -0
package/src/modules/omnibridge/execution/deterministic-logger.ts +629 -0
package/src/modules/omnibridge/execution/parallel-executor.ts +542 -0
package/src/modules/omnibridge/execution/shadow-session.ts +794 -0
package/src/modules/omnibridge/index.ts +212 -0
package/src/modules/omnibridge/omnibridge.ts +510 -0
package/src/modules/omnibridge/verification/.gitkeep +1 -0
package/src/modules/omnibridge/verification/verification-engine.ts +783 -0
package/src/outcomes/README.md +75 -0
package/src/outcomes/acquire-pilot-customer.ts +297 -0
package/src/outcomes/code-delivery-outcomes.ts +89 -0
package/src/outcomes/code-outcomes.ts +256 -0
package/src/outcomes/code_review_battle.test.ts +135 -0
package/src/outcomes/code_review_battle.ts +135 -0
package/src/outcomes/cold_email_battle.ts +97 -0
package/src/outcomes/content_creation_battle.ts +160 -0
package/src/outcomes/f1_stem_opt_compliance.ts +61 -0
package/src/outcomes/index.ts +107 -0
package/src/outcomes/lead_gen_battle.test.ts +113 -0
package/src/outcomes/lead_gen_battle.ts +99 -0
package/src/outcomes/outcome.schema.property.test.ts +229 -0
package/src/outcomes/outcome.schema.ts +187 -0
package/src/outcomes/qualified_sales_interest.ts +118 -0
package/src/outcomes/swarm_planner.property.test.ts +370 -0
package/src/outcomes/swarm_planner.ts +96 -0
package/src/outcomes/web_extraction.ts +234 -0
package/src/runtime/README.md +220 -0
package/src/runtime/agentRunner.test.ts +341 -0
package/src/runtime/agentRunner.ts +746 -0
package/src/runtime/claudeAdapter.ts +232 -0
package/src/runtime/costTracker.ts +123 -0
package/src/runtime/index.ts +34 -0
package/src/runtime/modelAdapter.property.test.ts +305 -0
package/src/runtime/modelAdapter.ts +144 -0
package/src/runtime/openaiAdapter.ts +235 -0
package/src/utils/README.md +122 -0
package/src/utils/command-runner.ts +134 -0
package/src/utils/cost-guard.ts +379 -0
package/src/utils/errors.test.ts +290 -0
package/src/utils/errors.ts +442 -0
package/src/utils/index.ts +37 -0
package/src/utils/logger.test.ts +361 -0
package/src/utils/logger.ts +419 -0
package/src/utils/output-parsers.ts +216 -0

package/src/modules/omnibridge/__tests__/omnibridge-integration.test.ts ADDED Viewed

@@ -0,0 +1,542 @@
+/**
+ * OmniBridge Integration Tests
+ *
+ * End-to-end tests for OmniBridge WAIESL integration including:
+ * - Ghost-API flow
+ * - Competition flow with verification
+ * - Web league execution
+ *
+ * @module modules/omnibridge/__tests__/omnibridge-integration.test
+ * @see Requirements 7.1-7.6, 8.1-8.6
+ */
+import { describe, test, expect, beforeEach } from 'vitest';
+import {
+  OmniBridge,
+  createOmniBridge,
+  type GhostResponse,
+  type ActionLogEntry,
+} from '../index.js';
+import {
+  createWebExtractionOutcome,
+  type WebExtractionOutcome,
+} from '../../../outcomes/web_extraction.js';
+import { runWebLeagueMock } from '../../../league/runWebLeague.js';
+import type { AgentConfig } from '../../../agents/agent.schema.js';
+import type { Lead } from '../../../jobs/job.interface.js';
+describe('OmniBridge Integration', () => {
+  let omni: OmniBridge;
+  beforeEach(() => {
+    omni = createOmniBridge({ debug: true });
+  });
+  describe('Ghost-API Flow', () => {
+    test('defines goal and generates schema mapping', async () => {
+      const ghostApi = omni.getGhostApi();
+      const schema = await ghostApi.defineGoal({
+        name: 'fetch_invoices',
+        targetUrl: 'https://billing.example.com/invoices',
+        description: 'Fetch all unpaid invoices',
+      });
+      expect(schema).toBeDefined();
+      expect(schema.endpoint).toContain('fetch'); // Endpoint contains goal name parts
+      expect(typeof schema.estimatedActions).toBe('number');
+    });
+    test('executes goal and returns structured response', async () => {
+      const ghostApi = omni.getGhostApi();
+      // Define goal first
+      const schema = await ghostApi.defineGoal({
+        name: 'test_extraction',
+        targetUrl: 'https://example.com/data',
+        description: 'Extract test data',
+      });
+      // Execute using the returned endpoint
+      const response = await ghostApi.execute(schema.endpoint);
+      expect(response).toBeDefined();
+      expect(response.data).toBeDefined();
+      expect(response.metadata).toBeDefined();
+      expect(response.metadata.confidence).toBeGreaterThanOrEqual(0);
+      expect(response.metadata.confidence).toBeLessThanOrEqual(1);
+      expect(typeof response.metadata.executionTimeMs).toBe('number');
+      expect(typeof response.metadata.actionsPerformed).toBe('number');
+      expect(typeof response.verificationHash).toBe('string');
+    });
+    test('response includes all required metadata fields', async () => {
+      const ghostApi = omni.getGhostApi();
+      const schema = await ghostApi.defineGoal({
+        name: 'metadata_test',
+        targetUrl: 'https://example.com',
+        description: 'Test metadata fields',
+      });
+      const response = await ghostApi.execute(schema.endpoint);
+      // Verify Property 8: Ghost-API Response Conformance
+      expect(response.metadata).toHaveProperty('confidence');
+      expect(response.metadata).toHaveProperty('executionTimeMs');
+      expect(response.metadata).toHaveProperty('actionsPerformed');
+      expect(response.metadata).toHaveProperty('triangulationHeals');
+      expect(response).toHaveProperty('verificationHash');
+    });
+  });
+  describe('Competition Flow', () => {
+    test('creates competition with identical starting states', async () => {
+      const result = await omni.createCompetition('test-bounty', 5);
+      expect(result.competitionId).toBeDefined();
+      expect(result.sessionCount).toBe(5);
+      expect(result.identicalStartStates).toBe(true);
+      expect(result.competition).toBeDefined();
+      expect(result.competition.sessions).toHaveLength(5);
+    });
+    test('executes bounty with parallel agents', async () => {
+      const competition = await omni.createCompetition('parallel-test', 3, 'example.com');
+      const agentTasks = [
+        {
+          agentId: 'agent-1',
+          execute: async (): Promise<GhostResponse> => ({
+            data: { result: 'success' },
+            metadata: {
+              confidence: 0.95,
+              executionTimeMs: 100,
+              actionsPerformed: 5,
+              triangulationHeals: 0,
+            },
+            verificationHash: 'hash-1',
+          }),
+        },
+        {
+          agentId: 'agent-2',
+          execute: async (): Promise<GhostResponse> => ({
+            data: { result: 'success' },
+            metadata: {
+              confidence: 0.90,
+              executionTimeMs: 150,
+              actionsPerformed: 6,
+              triangulationHeals: 1,
+            },
+            verificationHash: 'hash-2',
+          }),
+        },
+        {
+          agentId: 'agent-3',
+          execute: async (): Promise<GhostResponse> => {
+            throw new Error('Agent failed');
+          },
+        },
+      ];
+      const result = await omni.executeBounty(
+        competition.competition,
+        {
+          targetUrl: 'https://example.com',
+          description: 'Test extraction',
+        },
+        agentTasks
+      );
+      // First successful agent wins (agent-1 or agent-2 depending on execution order)
+      expect(result.winnerId).toBeDefined();
+      expect(result.results).toHaveLength(3);
+      expect(result.executionTimeMs).toBeGreaterThanOrEqual(0);
+      // Check that at least one agent completed successfully
+      const completedAgents = result.results.filter(r => r.status === 'completed');
+      expect(completedAgents.length).toBeGreaterThanOrEqual(1);
+      // Check that agent-3 failed
+      const agent3Result = result.results.find(r => r.agentId === 'agent-3');
+      expect(agent3Result?.status).toBe('failed');
+    });
+    test('detects hallucinations in agent results', async () => {
+      const competition = await omni.createCompetition('hallucination-test', 2, 'example.com');
+      // Log some actions for agent-1
+      omni.logAction({
+        timestamp: Date.now(),
+        sessionId: 'session-0',
+        action: 'click',
+        intentId: 'ACTION_ID:SUBMIT',
+        result: 'success',
+      });
+      const agentTasks = [
+        {
+          agentId: 'agent-1',
+          execute: async (): Promise<GhostResponse> => ({
+            // Claims to have extracted 100 items but only clicked once
+            data: { items: Array(100).fill({ id: 'fake' }) },
+            metadata: {
+              confidence: 0.99,
+              executionTimeMs: 50,
+              actionsPerformed: 100, // Suspicious: claims 100 actions
+              triangulationHeals: 0,
+            },
+            verificationHash: 'suspicious-hash',
+          }),
+        },
+        {
+          agentId: 'agent-2',
+          execute: async (): Promise<GhostResponse> => ({
+            data: { items: [{ id: 'real' }] },
+            metadata: {
+              confidence: 0.85,
+              executionTimeMs: 200,
+              actionsPerformed: 3,
+              triangulationHeals: 0,
+            },
+            verificationHash: 'honest-hash',
+          }),
+        },
+      ];
+      const result = await omni.executeBounty(
+        competition.competition,
+        {
+          targetUrl: 'https://example.com',
+          description: 'Test hallucination detection',
+        },
+        agentTasks
+      );
+      // The system should process results (hallucination detection is internal)
+      expect(result).toBeDefined();
+      expect(result.results).toHaveLength(2);
+    });
+  });
+  describe('Verification Flow', () => {
+    test('generates cryptographic proof for session', () => {
+      const sessionId = 'proof-test-session';
+      // Log some actions
+      omni.logAction({
+        timestamp: Date.now(),
+        sessionId,
+        action: 'navigate',
+        intentId: 'NAV_ID:HOME',
+        result: 'success',
+      });
+      omni.logAction({
+        timestamp: Date.now() + 100,
+        sessionId,
+        action: 'click',
+        intentId: 'ACTION_ID:LOGIN',
+        result: 'success',
+      });
+      omni.logAction({
+        timestamp: Date.now() + 200,
+        sessionId,
+        action: 'extract',
+        intentId: 'DISPLAY_ID:DATA',
+        result: 'success',
+      });
+      const proof = omni.generateProof(sessionId);
+      expect(proof).toBeDefined();
+      expect(proof.sessionId).toBe(sessionId);
+      expect(proof.actionCount).toBe(3);
+      expect(typeof proof.hash).toBe('string');
+      expect(proof.hash.length).toBeGreaterThan(0);
+    });
+    test('compares action logs of two agents', () => {
+      const agentA = 'compare-agent-a';
+      const agentB = 'compare-agent-b';
+      // Agent A actions
+      omni.logAction({
+        timestamp: 1000,
+        sessionId: agentA,
+        action: 'navigate',
+        intentId: 'NAV_ID:START',
+        result: 'success',
+      });
+      omni.logAction({
+        timestamp: 1100,
+        sessionId: agentA,
+        action: 'click',
+        intentId: 'ACTION_ID:BUTTON_A',
+        result: 'success',
+      });
+      // Agent B actions (diverges at second action)
+      omni.logAction({
+        timestamp: 1000,
+        sessionId: agentB,
+        action: 'navigate',
+        intentId: 'NAV_ID:START',
+        result: 'success',
+      });
+      omni.logAction({
+        timestamp: 1100,
+        sessionId: agentB,
+        action: 'click',
+        intentId: 'ACTION_ID:BUTTON_B', // Different button
+        result: 'success',
+      });
+      const comparison = omni.compareAgents(agentA, agentB);
+      expect(comparison).toBeDefined();
+      expect(comparison.analysis).toBeDefined();
+      expect(comparison.analysis?.divergencePoint).toBeGreaterThanOrEqual(0);
+    });
+    test('calculates confidence score for results', () => {
+      const actionLog: ActionLogEntry[] = [
+        {
+          timestamp: Date.now(),
+          sessionId: 'confidence-test',
+          action: 'navigate',
+          intentId: 'NAV_ID:PAGE',
+          result: 'success',
+        },
+        {
+          timestamp: Date.now() + 100,
+          sessionId: 'confidence-test',
+          action: 'extract',
+          intentId: 'DISPLAY_ID:TABLE',
+          result: 'success',
+        },
+      ];
+      const claimedResult = {
+        data: [{ id: 1 }, { id: 2 }],
+      };
+      const confidenceResult = omni.calculateConfidence(claimedResult, actionLog);
+      expect(confidenceResult).toBeDefined();
+      expect(confidenceResult.score).toBeGreaterThanOrEqual(0);
+      expect(confidenceResult.score).toBeLessThanOrEqual(1);
+      expect(confidenceResult.isReliable).toBeDefined();
+    });
+  });
+  describe('Semantic Normalization', () => {
+    test('normalizes HTML to Intent Document', () => {
+      const html = `
+        <html>
+          <head><style>.btn { color: red; }</style></head>
+          <body>
+            <button aria-label="Submit Form" class="btn primary">Submit</button>
+            <input type="email" placeholder="Enter email" required />
+          </body>
+        </html>
+      `;
+      const document = omni.normalize(html);
+      expect(document).toBeDefined();
+      expect(document.elements).toBeDefined();
+      // Token reduction can be negative for very small HTML with lots of semantic content
+      expect(typeof document.tokenReduction).toBe('number');
+    });
+  });
+  describe('Capability Tokens', () => {
+    test('issues and revokes capability tokens', async () => {
+      // First store a session for the domain using RawSessionData format
+      const vault = omni.getSessionVault();
+      await vault.store('example.com', {
+        cookies: 'test-cookie-data',
+        localStorage: 'test-local-storage',
+        sessionStorage: 'test-session-storage',
+      });
+      const token = await omni.issueCapabilityToken('example.com', {
+        allowedActions: ['read', 'extract'],
+        blockedActions: ['delete', 'modify'],
+        maxExecutions: 10,
+        expiresAt: Date.now() + 3600000,
+      });
+      expect(token).toBeDefined();
+      expect(token.id).toBeDefined();
+      expect(token.domain).toBe('example.com');
+      expect(token.scope.allowedActions).toContain('read');
+      expect(token.scope.blockedActions).toContain('delete');
+      // Revoke the token
+      omni.revokeCapabilityToken(token.id);
+      // Token should be revoked (implementation detail)
+    });
+  });
+});
+describe('Web League Integration', () => {
+  const mockAgentConfigs: AgentConfig[] = [
+    {
+      id: 'test-agent-1',
+      name: 'Test Agent 1',
+      modelProvider: 'openai',
+      modelId: 'gpt-4',
+      prompt: 'You are a test agent for web extraction',
+      strategyDescription: 'Test strategy for web extraction',
+      toolAccess: ['web_extract', 'navigate'],
+      costCeiling: 1000,
+    },
+    {
+      id: 'test-agent-2',
+      name: 'Test Agent 2',
+      modelProvider: 'claude',
+      modelId: 'claude-3-sonnet',
+      prompt: 'You are a test agent for web extraction',
+      strategyDescription: 'Test strategy for web extraction',
+      toolAccess: ['web_extract', 'navigate'],
+      costCeiling: 1000,
+    },
+    {
+      id: 'test-agent-3',
+      name: 'Test Agent 3',
+      modelProvider: 'openai',
+      modelId: 'gpt-4-turbo',
+      prompt: 'You are a test agent for web extraction',
+      strategyDescription: 'Test strategy for web extraction',
+      toolAccess: ['web_extract', 'navigate'],
+      costCeiling: 1000,
+    },
+  ];
+  const mockLead: Lead = {
+    email: 'test@example.com',
+    company: 'Test Company',
+    companySize: 100,
+    role: 'Engineer',
+    previousInteractions: [],
+  };
+  const mockOutcome: WebExtractionOutcome = createWebExtractionOutcome({
+    name: 'test_extraction',
+    description: 'Test web extraction',
+    payoutAmount: 50,
+    targetUrl: 'https://example.com/data',
+    goalDescription: 'Extract test data from the page',
+    outputSchema: {
+      type: 'object',
+      properties: {
+        items: { type: 'array' },
+        count: { type: 'number' },
+      },
+    },
+  });
+  test('runs web league in mock mode', async () => {
+    const result = await runWebLeagueMock({
+      outcomeId: 'test_extraction',
+      agentCount: 3,
+      globalSpendCeiling: 50000,
+      agentConfigs: mockAgentConfigs,
+      outcome: mockOutcome,
+      lead: mockLead,
+    });
+    expect(result).toBeDefined();
+    expect(result.agents).toHaveLength(3);
+    expect(result.duration).toBeGreaterThan(0);
+    expect(typeof result.hallucinationsDetected).toBe('boolean');
+    expect(result.confidence).toBeGreaterThanOrEqual(0);
+  });
+  test('determines winner from parallel execution', async () => {
+    const result = await runWebLeagueMock({
+      outcomeId: 'winner_test',
+      agentCount: 2,
+      globalSpendCeiling: 50000,
+      agentConfigs: mockAgentConfigs.slice(0, 2),
+      outcome: mockOutcome,
+      lead: mockLead,
+    });
+    // In mock mode, we should have results
+    expect(result).toBeDefined();
+    expect(result.agents).toHaveLength(2);
+    // Check that at least one agent has a result
+    const agentsWithResults = result.agents.filter(a => a.response !== undefined);
+    expect(agentsWithResults.length).toBeGreaterThanOrEqual(0);
+  });
+  test('validates agent count configuration', async () => {
+    await expect(
+      runWebLeagueMock({
+        outcomeId: 'invalid_count',
+        agentCount: 0,
+        globalSpendCeiling: 50000,
+        agentConfigs: mockAgentConfigs,
+        outcome: mockOutcome,
+        lead: mockLead,
+      })
+    ).rejects.toThrow('Agent count must be positive');
+  });
+  test('validates agent configs availability', async () => {
+    await expect(
+      runWebLeagueMock({
+        outcomeId: 'not_enough_agents',
+        agentCount: 10,
+        globalSpendCeiling: 50000,
+        agentConfigs: mockAgentConfigs, // Only 3 configs
+        outcome: mockOutcome,
+        lead: mockLead,
+      })
+    ).rejects.toThrow('Not enough agent configs');
+  });
+  test('tracks action logs for each agent', async () => {
+    const result = await runWebLeagueMock({
+      outcomeId: 'action_log_test',
+      agentCount: 2,
+      globalSpendCeiling: 50000,
+      agentConfigs: mockAgentConfigs.slice(0, 2),
+      outcome: mockOutcome,
+      lead: mockLead,
+    });
+    // Each agent should have an action log
+    for (const agent of result.agents) {
+      expect(agent.actionLog).toBeDefined();
+      expect(Array.isArray(agent.actionLog)).toBe(true);
+    }
+  });
+  test('includes verification proof for winner', async () => {
+    const result = await runWebLeagueMock({
+      outcomeId: 'proof_test',
+      agentCount: 2,
+      globalSpendCeiling: 50000,
+      agentConfigs: mockAgentConfigs.slice(0, 2),
+      outcome: mockOutcome,
+      lead: mockLead,
+    });
+    if (result.winnerId) {
+      expect(result.winnerProof).toBeDefined();
+      const winner = result.agents.find(a => a.agentId === result.winnerId);
+      expect(winner?.proof).toBeDefined();
+    }
+  });
+});