npm - @peakinfer/cli - Versions diffs - 1.0.133 - Mend

@peakinfer/cli 1.0.133

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (367) hide show

package/.claude/settings.local.json +8 -0
package/.env.example +6 -0
package/.github/workflows/peakinfer.yml +64 -0
package/CHANGELOG.md +31 -0
package/LICENSE +190 -0
package/README.md +335 -0
package/data/inferencemax.json +274 -0
package/dist/agent-analyzer.d.ts +45 -0
package/dist/agent-analyzer.d.ts.map +1 -0
package/dist/agent-analyzer.js +374 -0
package/dist/agent-analyzer.js.map +1 -0
package/dist/agent.d.ts +76 -0
package/dist/agent.d.ts.map +1 -0
package/dist/agent.js +965 -0
package/dist/agent.js.map +1 -0
package/dist/agents/correlation-analyzer.d.ts +34 -0
package/dist/agents/correlation-analyzer.d.ts.map +1 -0
package/dist/agents/correlation-analyzer.js +261 -0
package/dist/agents/correlation-analyzer.js.map +1 -0
package/dist/agents/index.d.ts +91 -0
package/dist/agents/index.d.ts.map +1 -0
package/dist/agents/index.js +111 -0
package/dist/agents/index.js.map +1 -0
package/dist/agents/runtime-analyzer.d.ts +38 -0
package/dist/agents/runtime-analyzer.d.ts.map +1 -0
package/dist/agents/runtime-analyzer.js +244 -0
package/dist/agents/runtime-analyzer.js.map +1 -0
package/dist/analysis-types.d.ts +500 -0
package/dist/analysis-types.d.ts.map +1 -0
package/dist/analysis-types.js +11 -0
package/dist/analysis-types.js.map +1 -0
package/dist/analytics.d.ts +25 -0
package/dist/analytics.d.ts.map +1 -0
package/dist/analytics.js +94 -0
package/dist/analytics.js.map +1 -0
package/dist/analyzer.d.ts +48 -0
package/dist/analyzer.d.ts.map +1 -0
package/dist/analyzer.js +547 -0
package/dist/analyzer.js.map +1 -0
package/dist/artifacts.d.ts +44 -0
package/dist/artifacts.d.ts.map +1 -0
package/dist/artifacts.js +165 -0
package/dist/artifacts.js.map +1 -0
package/dist/benchmarks/index.d.ts +88 -0
package/dist/benchmarks/index.d.ts.map +1 -0
package/dist/benchmarks/index.js +205 -0
package/dist/benchmarks/index.js.map +1 -0
package/dist/cli.d.ts +3 -0
package/dist/cli.d.ts.map +1 -0
package/dist/cli.js +427 -0
package/dist/cli.js.map +1 -0
package/dist/commands/ci.d.ts +19 -0
package/dist/commands/ci.d.ts.map +1 -0
package/dist/commands/ci.js +253 -0
package/dist/commands/ci.js.map +1 -0
package/dist/commands/config.d.ts +16 -0
package/dist/commands/config.d.ts.map +1 -0
package/dist/commands/config.js +249 -0
package/dist/commands/config.js.map +1 -0
package/dist/commands/demo.d.ts +15 -0
package/dist/commands/demo.d.ts.map +1 -0
package/dist/commands/demo.js +106 -0
package/dist/commands/demo.js.map +1 -0
package/dist/commands/export.d.ts +14 -0
package/dist/commands/export.d.ts.map +1 -0
package/dist/commands/export.js +209 -0
package/dist/commands/export.js.map +1 -0
package/dist/commands/history.d.ts +15 -0
package/dist/commands/history.d.ts.map +1 -0
package/dist/commands/history.js +389 -0
package/dist/commands/history.js.map +1 -0
package/dist/commands/template.d.ts +14 -0
package/dist/commands/template.d.ts.map +1 -0
package/dist/commands/template.js +341 -0
package/dist/commands/template.js.map +1 -0
package/dist/commands/validate-map.d.ts +12 -0
package/dist/commands/validate-map.d.ts.map +1 -0
package/dist/commands/validate-map.js +274 -0
package/dist/commands/validate-map.js.map +1 -0
package/dist/commands/whatif.d.ts +17 -0
package/dist/commands/whatif.d.ts.map +1 -0
package/dist/commands/whatif.js +206 -0
package/dist/commands/whatif.js.map +1 -0
package/dist/comparison.d.ts +38 -0
package/dist/comparison.d.ts.map +1 -0
package/dist/comparison.js +223 -0
package/dist/comparison.js.map +1 -0
package/dist/config.d.ts +42 -0
package/dist/config.d.ts.map +1 -0
package/dist/config.js +158 -0
package/dist/config.js.map +1 -0
package/dist/connectors/helicone.d.ts +9 -0
package/dist/connectors/helicone.d.ts.map +1 -0
package/dist/connectors/helicone.js +106 -0
package/dist/connectors/helicone.js.map +1 -0
package/dist/connectors/index.d.ts +37 -0
package/dist/connectors/index.d.ts.map +1 -0
package/dist/connectors/index.js +65 -0
package/dist/connectors/index.js.map +1 -0
package/dist/connectors/langsmith.d.ts +9 -0
package/dist/connectors/langsmith.d.ts.map +1 -0
package/dist/connectors/langsmith.js +122 -0
package/dist/connectors/langsmith.js.map +1 -0
package/dist/connectors/types.d.ts +83 -0
package/dist/connectors/types.d.ts.map +1 -0
package/dist/connectors/types.js +98 -0
package/dist/connectors/types.js.map +1 -0
package/dist/cost-estimator.d.ts +46 -0
package/dist/cost-estimator.d.ts.map +1 -0
package/dist/cost-estimator.js +104 -0
package/dist/cost-estimator.js.map +1 -0
package/dist/costs.d.ts +57 -0
package/dist/costs.d.ts.map +1 -0
package/dist/costs.js +251 -0
package/dist/costs.js.map +1 -0
package/dist/counterfactuals.d.ts +29 -0
package/dist/counterfactuals.d.ts.map +1 -0
package/dist/counterfactuals.js +448 -0
package/dist/counterfactuals.js.map +1 -0
package/dist/enhancement-prompts.d.ts +41 -0
package/dist/enhancement-prompts.d.ts.map +1 -0
package/dist/enhancement-prompts.js +88 -0
package/dist/enhancement-prompts.js.map +1 -0
package/dist/envelopes.d.ts +20 -0
package/dist/envelopes.d.ts.map +1 -0
package/dist/envelopes.js +790 -0
package/dist/envelopes.js.map +1 -0
package/dist/format-normalizer.d.ts +71 -0
package/dist/format-normalizer.d.ts.map +1 -0
package/dist/format-normalizer.js +1331 -0
package/dist/format-normalizer.js.map +1 -0
package/dist/history.d.ts +79 -0
package/dist/history.d.ts.map +1 -0
package/dist/history.js +313 -0
package/dist/history.js.map +1 -0
package/dist/html.d.ts +11 -0
package/dist/html.d.ts.map +1 -0
package/dist/html.js +463 -0
package/dist/html.js.map +1 -0
package/dist/impact.d.ts +42 -0
package/dist/impact.d.ts.map +1 -0
package/dist/impact.js +443 -0
package/dist/impact.js.map +1 -0
package/dist/index.d.ts +26 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +34 -0
package/dist/index.js.map +1 -0
package/dist/insights.d.ts +5 -0
package/dist/insights.d.ts.map +1 -0
package/dist/insights.js +271 -0
package/dist/insights.js.map +1 -0
package/dist/joiner.d.ts +9 -0
package/dist/joiner.d.ts.map +1 -0
package/dist/joiner.js +247 -0
package/dist/joiner.js.map +1 -0
package/dist/orchestrator.d.ts +34 -0
package/dist/orchestrator.d.ts.map +1 -0
package/dist/orchestrator.js +827 -0
package/dist/orchestrator.js.map +1 -0
package/dist/pdf.d.ts +26 -0
package/dist/pdf.d.ts.map +1 -0
package/dist/pdf.js +84 -0
package/dist/pdf.js.map +1 -0
package/dist/prediction.d.ts +33 -0
package/dist/prediction.d.ts.map +1 -0
package/dist/prediction.js +316 -0
package/dist/prediction.js.map +1 -0
package/dist/prompts/loader.d.ts +38 -0
package/dist/prompts/loader.d.ts.map +1 -0
package/dist/prompts/loader.js +60 -0
package/dist/prompts/loader.js.map +1 -0
package/dist/renderer.d.ts +64 -0
package/dist/renderer.d.ts.map +1 -0
package/dist/renderer.js +923 -0
package/dist/renderer.js.map +1 -0
package/dist/runid.d.ts +57 -0
package/dist/runid.d.ts.map +1 -0
package/dist/runid.js +199 -0
package/dist/runid.js.map +1 -0
package/dist/runtime.d.ts +29 -0
package/dist/runtime.d.ts.map +1 -0
package/dist/runtime.js +366 -0
package/dist/runtime.js.map +1 -0
package/dist/scanner.d.ts +11 -0
package/dist/scanner.d.ts.map +1 -0
package/dist/scanner.js +426 -0
package/dist/scanner.js.map +1 -0
package/dist/templates.d.ts +120 -0
package/dist/templates.d.ts.map +1 -0
package/dist/templates.js +429 -0
package/dist/templates.js.map +1 -0
package/dist/tools/index.d.ts +153 -0
package/dist/tools/index.d.ts.map +1 -0
package/dist/tools/index.js +177 -0
package/dist/tools/index.js.map +1 -0
package/dist/types.d.ts +3647 -0
package/dist/types.d.ts.map +1 -0
package/dist/types.js +703 -0
package/dist/types.js.map +1 -0
package/dist/version.d.ts +7 -0
package/dist/version.d.ts.map +1 -0
package/dist/version.js +23 -0
package/dist/version.js.map +1 -0
package/docs/demo-guide.md +423 -0
package/docs/events-format.md +295 -0
package/docs/inferencemap-spec.md +344 -0
package/docs/migration-v2.md +293 -0
package/fixtures/demo/precomputed.json +142 -0
package/fixtures/demo-project/README.md +52 -0
package/fixtures/demo-project/ai-service.ts +65 -0
package/fixtures/demo-project/sample-events.jsonl +15 -0
package/fixtures/demo-project/src/ai-service.ts +128 -0
package/fixtures/demo-project/src/llm-client.ts +155 -0
package/package.json +65 -0
package/prompts/agent-analyzer.yaml +47 -0
package/prompts/ci-gate.yaml +98 -0
package/prompts/correlation-analyzer.yaml +178 -0
package/prompts/format-normalizer.yaml +46 -0
package/prompts/peak-performance.yaml +180 -0
package/prompts/pr-comment.yaml +111 -0
package/prompts/runtime-analyzer.yaml +189 -0
package/prompts/unified-analyzer.yaml +241 -0
package/schemas/inference-map.v0.1.json +215 -0
package/scripts/benchmark.ts +394 -0
package/scripts/demo-v1.5.sh +158 -0
package/scripts/sync-from-site.sh +197 -0
package/scripts/validate-sync.sh +178 -0
package/src/agent-analyzer.ts +481 -0
package/src/agent.ts +1232 -0
package/src/agents/correlation-analyzer.ts +353 -0
package/src/agents/index.ts +235 -0
package/src/agents/runtime-analyzer.ts +343 -0
package/src/analysis-types.ts +558 -0
package/src/analytics.ts +100 -0
package/src/analyzer.ts +692 -0
package/src/artifacts.ts +218 -0
package/src/benchmarks/index.ts +309 -0
package/src/cli.ts +503 -0
package/src/commands/ci.ts +336 -0
package/src/commands/config.ts +288 -0
package/src/commands/demo.ts +175 -0
package/src/commands/export.ts +297 -0
package/src/commands/history.ts +425 -0
package/src/commands/template.ts +385 -0
package/src/commands/validate-map.ts +324 -0
package/src/commands/whatif.ts +272 -0
package/src/comparison.ts +283 -0
package/src/config.ts +188 -0
package/src/connectors/helicone.ts +164 -0
package/src/connectors/index.ts +93 -0
package/src/connectors/langsmith.ts +179 -0
package/src/connectors/types.ts +180 -0
package/src/cost-estimator.ts +146 -0
package/src/costs.ts +347 -0
package/src/counterfactuals.ts +516 -0
package/src/enhancement-prompts.ts +118 -0
package/src/envelopes.ts +814 -0
package/src/format-normalizer.ts +1486 -0
package/src/history.ts +400 -0
package/src/html.ts +512 -0
package/src/impact.ts +522 -0
package/src/index.ts +83 -0
package/src/insights.ts +341 -0
package/src/joiner.ts +289 -0
package/src/orchestrator.ts +1015 -0
package/src/pdf.ts +110 -0
package/src/prediction.ts +392 -0
package/src/prompts/loader.ts +88 -0
package/src/renderer.ts +1045 -0
package/src/runid.ts +261 -0
package/src/runtime.ts +450 -0
package/src/scanner.ts +508 -0
package/src/templates.ts +561 -0
package/src/tools/index.ts +214 -0
package/src/types.ts +873 -0
package/src/version.ts +24 -0
package/templates/context-accumulation.yaml +23 -0
package/templates/cost-concentration.yaml +20 -0
package/templates/dead-code.yaml +20 -0
package/templates/latency-explainer.yaml +23 -0
package/templates/optimizations/ab-testing-framework.yaml +74 -0
package/templates/optimizations/api-gateway-optimization.yaml +81 -0
package/templates/optimizations/api-model-routing-strategy.yaml +126 -0
package/templates/optimizations/auto-scaling-optimization.yaml +85 -0
package/templates/optimizations/batch-utilization-diagnostic.yaml +142 -0
package/templates/optimizations/comprehensive-apm.yaml +76 -0
package/templates/optimizations/context-window-optimization.yaml +91 -0
package/templates/optimizations/cost-sensitive-batch-processing.yaml +77 -0
package/templates/optimizations/distributed-training-optimization.yaml +77 -0
package/templates/optimizations/document-analysis-edge.yaml +77 -0
package/templates/optimizations/document-pipeline-optimization.yaml +78 -0
package/templates/optimizations/domain-specific-distillation.yaml +78 -0
package/templates/optimizations/error-handling-optimization.yaml +76 -0
package/templates/optimizations/gptq-4bit-quantization.yaml +96 -0
package/templates/optimizations/long-context-memory-management.yaml +78 -0
package/templates/optimizations/max-tokens-optimization.yaml +76 -0
package/templates/optimizations/memory-bandwidth-optimization.yaml +73 -0
package/templates/optimizations/multi-framework-resilience.yaml +75 -0
package/templates/optimizations/multi-tenant-optimization.yaml +75 -0
package/templates/optimizations/prompt-caching-optimization.yaml +143 -0
package/templates/optimizations/pytorch-to-onnx-migration.yaml +109 -0
package/templates/optimizations/quality-monitoring.yaml +74 -0
package/templates/optimizations/realtime-budget-controls.yaml +74 -0
package/templates/optimizations/realtime-latency-optimization.yaml +74 -0
package/templates/optimizations/sglang-concurrency-optimization.yaml +78 -0
package/templates/optimizations/smart-model-routing.yaml +96 -0
package/templates/optimizations/streaming-batch-selection.yaml +167 -0
package/templates/optimizations/system-prompt-optimization.yaml +75 -0
package/templates/optimizations/tensorrt-llm-performance.yaml +77 -0
package/templates/optimizations/vllm-high-throughput-optimization.yaml +93 -0
package/templates/optimizations/vllm-migration-memory-bound.yaml +78 -0
package/templates/overpowered-extraction.yaml +32 -0
package/templates/overpowered-model.yaml +31 -0
package/templates/prompt-bloat.yaml +24 -0
package/templates/retry-explosion.yaml +28 -0
package/templates/schema/insight.schema.json +113 -0
package/templates/schema/optimization.schema.json +180 -0
package/templates/streaming-drift.yaml +30 -0
package/templates/throughput-gap.yaml +21 -0
package/templates/token-underutilization.yaml +28 -0
package/templates/untested-fallback.yaml +21 -0
package/tests/accuracy/drift-detection.test.ts +184 -0
package/tests/accuracy/false-positives.test.ts +166 -0
package/tests/accuracy/templates.test.ts +205 -0
package/tests/action/commands.test.ts +125 -0
package/tests/action/comments.test.ts +347 -0
package/tests/cli.test.ts +203 -0
package/tests/comparison.test.ts +309 -0
package/tests/correlation-analyzer.test.ts +534 -0
package/tests/counterfactuals.test.ts +347 -0
package/tests/fixtures/events/missing-id.jsonl +1 -0
package/tests/fixtures/events/missing-input.jsonl +1 -0
package/tests/fixtures/events/missing-latency.jsonl +1 -0
package/tests/fixtures/events/missing-model.jsonl +1 -0
package/tests/fixtures/events/missing-output.jsonl +1 -0
package/tests/fixtures/events/missing-provider.jsonl +1 -0
package/tests/fixtures/events/missing-ts.jsonl +1 -0
package/tests/fixtures/events/valid.csv +3 -0
package/tests/fixtures/events/valid.json +1 -0
package/tests/fixtures/events/valid.jsonl +2 -0
package/tests/fixtures/events/with-callsite.jsonl +1 -0
package/tests/fixtures/events/with-intent.jsonl +1 -0
package/tests/fixtures/events/wrong-type.jsonl +1 -0
package/tests/fixtures/repos/empty/.gitkeep +0 -0
package/tests/fixtures/repos/hybrid-router/router.py +35 -0
package/tests/fixtures/repos/saas-anthropic/agent.ts +27 -0
package/tests/fixtures/repos/saas-openai/assistant.js +33 -0
package/tests/fixtures/repos/saas-openai/client.py +26 -0
package/tests/fixtures/repos/self-hosted-vllm/inference.py +22 -0
package/tests/github-action.test.ts +292 -0
package/tests/insights.test.ts +878 -0
package/tests/joiner.test.ts +168 -0
package/tests/performance/action-latency.test.ts +132 -0
package/tests/performance/benchmark.test.ts +189 -0
package/tests/performance/cli-latency.test.ts +102 -0
package/tests/pr-comment.test.ts +313 -0
package/tests/prediction.test.ts +296 -0
package/tests/runtime-analyzer.test.ts +375 -0
package/tests/runtime.test.ts +205 -0
package/tests/scanner.test.ts +122 -0
package/tests/template-conformance.test.ts +526 -0
package/tests/unit/cost-calculator.test.ts +303 -0
package/tests/unit/credits.test.ts +180 -0
package/tests/unit/inference-map.test.ts +276 -0
package/tests/unit/schema.test.ts +300 -0
package/tsconfig.json +20 -0
package/vitest.config.ts +14 -0

package/src/impact.ts ADDED Viewed

@@ -0,0 +1,522 @@
+import type { Insight, ImpactEstimate, StackLayer, ImpactType, EffortLevel } from './types.js';
+// =============================================================================
+// CONSTANTS - Default Impact Estimates
+// =============================================================================
+// Model pricing per 1M tokens (input/output average)
+const MODEL_PRICING: Record<string, number> = {
+  'gpt-4': 45.0,
+  'gpt-4o': 7.5,
+  'gpt-4-turbo': 20.0,
+  'gpt-3.5-turbo': 1.0,
+  'gpt-4o-mini': 0.3,
+  'claude-3-opus': 37.5,
+  'claude-3-sonnet': 9.0,
+  'claude-3-haiku': 0.625,
+  'claude-3.5-sonnet': 9.0,
+  'gemini-pro': 0.5,
+  'gemini-1.5-pro': 3.5,
+  'gemini-1.5-flash': 0.35,
+};
+// Default impact estimates by optimization pattern
+interface PatternImpact {
+  layer: StackLayer;
+  impactType: ImpactType;
+  impactPercent: number;
+  effort: EffortLevel;
+  description: string;
+}
+const PATTERN_IMPACTS: Record<string, PatternImpact> = {
+  // Application Layer - Code Patterns
+  'model-downgrade': {
+    layer: 'application',
+    impactType: 'cost',
+    impactPercent: 70,
+    effort: 'low',
+    description: 'Use cheaper model for simple tasks',
+  },
+  'add-caching': {
+    layer: 'application',
+    impactType: 'cost',
+    impactPercent: 40,
+    effort: 'medium',
+    description: 'Cache repeated similar prompts',
+  },
+  'add-batching': {
+    layer: 'application',
+    impactType: 'throughput',
+    impactPercent: 60,
+    effort: 'medium',
+    description: 'Batch multiple requests together',
+  },
+  'enable-streaming': {
+    layer: 'application',
+    impactType: 'latency',
+    impactPercent: 70,
+    effort: 'low',
+    description: 'Enable streaming for better TTFT',
+  },
+  'add-retry': {
+    layer: 'application',
+    impactType: 'throughput',
+    impactPercent: 15,
+    effort: 'low',
+    description: 'Add retry with exponential backoff',
+  },
+  'connection-pooling': {
+    layer: 'application',
+    impactType: 'latency',
+    impactPercent: 20,
+    effort: 'low',
+    description: 'Reuse HTTP connections',
+  },
+  // Model Layer - Model Selection
+  'gpt4-to-gpt35': {
+    layer: 'model',
+    impactType: 'cost',
+    impactPercent: 97,
+    effort: 'low',
+    description: 'GPT-4 → GPT-3.5-turbo (45x cheaper)',
+  },
+  'gpt4-to-gpt4o-mini': {
+    layer: 'model',
+    impactType: 'cost',
+    impactPercent: 99,
+    effort: 'low',
+    description: 'GPT-4 → GPT-4o-mini (150x cheaper)',
+  },
+  'opus-to-haiku': {
+    layer: 'model',
+    impactType: 'cost',
+    impactPercent: 98,
+    effort: 'low',
+    description: 'Claude Opus → Haiku (60x cheaper)',
+  },
+  'sonnet-to-haiku': {
+    layer: 'model',
+    impactType: 'cost',
+    impactPercent: 93,
+    effort: 'low',
+    description: 'Claude Sonnet → Haiku (14x cheaper)',
+  },
+  // Runtime Layer - Inference Engines
+  'use-vllm': {
+    layer: 'runtime',
+    impactType: 'throughput',
+    impactPercent: 300,
+    effort: 'high',
+    description: 'Deploy with vLLM for 3-4x throughput',
+  },
+  'use-sglang': {
+    layer: 'runtime',
+    impactType: 'latency',
+    impactPercent: 50,
+    effort: 'high',
+    description: 'Use SGLang for optimized batching',
+  },
+  'use-tgi': {
+    layer: 'runtime',
+    impactType: 'throughput',
+    impactPercent: 200,
+    effort: 'high',
+    description: 'Deploy with TGI for 2-3x throughput',
+  },
+  'continuous-batching': {
+    layer: 'runtime',
+    impactType: 'throughput',
+    impactPercent: 150,
+    effort: 'medium',
+    description: 'Enable continuous batching',
+  },
+  'speculative-decoding': {
+    layer: 'runtime',
+    impactType: 'latency',
+    impactPercent: 40,
+    effort: 'high',
+    description: 'Use speculative decoding for faster generation',
+  },
+  // Hardware Layer - GPU/Hosting (v1.8: renamed from infrastructure)
+  'dedicated-gpu': {
+    layer: 'hardware',
+    impactType: 'cost',
+    impactPercent: 60,
+    effort: 'high',
+    description: 'Self-host on dedicated GPUs vs API',
+  },
+  'spot-instances': {
+    layer: 'hardware',
+    impactType: 'cost',
+    impactPercent: 70,
+    effort: 'medium',
+    description: 'Use spot/preemptible instances',
+  },
+  'regional-deployment': {
+    layer: 'hardware',
+    impactType: 'latency',
+    impactPercent: 30,
+    effort: 'low',
+    description: 'Deploy closer to users',
+  },
+  'autoscaling': {
+    layer: 'hardware',
+    impactType: 'cost',
+    impactPercent: 40,
+    effort: 'medium',
+    description: 'Implement autoscaling for variable load',
+  },
+};
+// =============================================================================
+// IMPACT DETECTION
+// =============================================================================
+/**
+ * Detect which optimization pattern an insight matches
+ */
+function detectPattern(insight: Insight): string | null {
+  const headline = insight.headline.toLowerCase();
+  const evidence = insight.evidence.toLowerCase();
+  const combined = `${headline} ${evidence}`;
+  // Model downgrade patterns
+  if (combined.includes('gpt-4') && (combined.includes('gpt-3.5') || combined.includes('cheaper'))) {
+    if (combined.includes('gpt-4o-mini') || combined.includes('mini')) {
+      return 'gpt4-to-gpt4o-mini';
+    }
+    return 'gpt4-to-gpt35';
+  }
+  if (combined.includes('opus') && combined.includes('haiku')) {
+    return 'opus-to-haiku';
+  }
+  if (combined.includes('sonnet') && combined.includes('haiku')) {
+    return 'sonnet-to-haiku';
+  }
+  if (combined.includes('expensive model') || combined.includes('overkill') ||
+      combined.includes('over-specification') || combined.includes('simple task')) {
+    return 'model-downgrade';
+  }
+  // Application patterns
+  if (combined.includes('streaming') && (combined.includes('enable') || combined.includes('missing') || combined.includes('no streaming'))) {
+    return 'enable-streaming';
+  }
+  if (combined.includes('batch') && (combined.includes('missing') || combined.includes('opportunity') || combined.includes('no batch'))) {
+    return 'add-batching';
+  }
+  if (combined.includes('cach') && (combined.includes('missing') || combined.includes('opportunity') || combined.includes('no cach'))) {
+    return 'add-caching';
+  }
+  if (combined.includes('retry') && (combined.includes('missing') || combined.includes('no retry'))) {
+    return 'add-retry';
+  }
+  if (combined.includes('connection') && combined.includes('pool')) {
+    return 'connection-pooling';
+  }
+  // Runtime patterns
+  if (combined.includes('vllm')) {
+    return 'use-vllm';
+  }
+  if (combined.includes('sglang')) {
+    return 'use-sglang';
+  }
+  if (combined.includes('tgi') || combined.includes('text generation inference')) {
+    return 'use-tgi';
+  }
+  if (combined.includes('continuous batch')) {
+    return 'continuous-batching';
+  }
+  if (combined.includes('speculative')) {
+    return 'speculative-decoding';
+  }
+  // Infrastructure patterns
+  if (combined.includes('dedicated') && combined.includes('gpu')) {
+    return 'dedicated-gpu';
+  }
+  if (combined.includes('spot') || combined.includes('preemptible')) {
+    return 'spot-instances';
+  }
+  if (combined.includes('region') && combined.includes('deploy')) {
+    return 'regional-deployment';
+  }
+  if (combined.includes('autoscal')) {
+    return 'autoscaling';
+  }
+  return null;
+}
+/**
+ * Estimate annual cost savings based on detected model usage
+ * Assumes 1M tokens/day as baseline
+ */
+function estimateAnnualSavings(
+  currentModel: string | null,
+  recommendedModel: string | null,
+  dailyTokensMillions: number = 1
+): number | undefined {
+  if (!currentModel || !recommendedModel) return undefined;
+  const currentPrice = MODEL_PRICING[currentModel.toLowerCase()] || MODEL_PRICING['gpt-4'];
+  const newPrice = MODEL_PRICING[recommendedModel.toLowerCase()] || MODEL_PRICING['gpt-3.5-turbo'];
+  const dailySavings = (currentPrice - newPrice) * dailyTokensMillions;
+  return Math.round(dailySavings * 365);
+}
+// =============================================================================
+// PUBLIC API
+// =============================================================================
+/**
+ * Estimate impact for a single insight
+ */
+export function estimateImpact(insight: Insight): ImpactEstimate | null {
+  const pattern = detectPattern(insight);
+  if (!pattern || !PATTERN_IMPACTS[pattern]) {
+    // Default estimate based on category
+    return getDefaultEstimate(insight);
+  }
+  const patternImpact = PATTERN_IMPACTS[pattern];
+  return {
+    layer: patternImpact.layer,
+    impactType: patternImpact.impactType,
+    estimatedImpactPercent: patternImpact.impactPercent,
+    effort: patternImpact.effort,
+    confidence: 0.7,
+    assumptions: patternImpact.description,
+  };
+}
+/**
+ * Get default impact estimate based on insight category
+ */
+function getDefaultEstimate(insight: Insight): ImpactEstimate | null {
+  const categoryDefaults: Record<string, Partial<ImpactEstimate>> = {
+    'cost': { layer: 'application', impactType: 'cost', estimatedImpactPercent: 20, effort: 'medium' },
+    'latency': { layer: 'application', impactType: 'latency', estimatedImpactPercent: 30, effort: 'medium' },
+    'throughput': { layer: 'application', impactType: 'throughput', estimatedImpactPercent: 25, effort: 'medium' },
+    'reliability': { layer: 'application', impactType: 'throughput', estimatedImpactPercent: 15, effort: 'low' },
+    'waste': { layer: 'application', impactType: 'cost', estimatedImpactPercent: 25, effort: 'low' },
+  };
+  const defaults = categoryDefaults[insight.category];
+  if (!defaults) return null;
+  return {
+    layer: defaults.layer as StackLayer,
+    impactType: defaults.impactType as ImpactType,
+    estimatedImpactPercent: defaults.estimatedImpactPercent || 20,
+    effort: defaults.effort as EffortLevel || 'medium',
+    confidence: 0.5,
+  };
+}
+/**
+ * Add impact estimates to all insights
+ */
+export function enrichInsightsWithImpact(insights: Insight[]): Insight[] {
+  return insights.map(insight => {
+    if (insight.impact) return insight; // Already has impact
+    const impact = estimateImpact(insight);
+    return impact ? { ...insight, impact } : insight;
+  });
+}
+/**
+ * Stack ranking summary
+ */
+export interface StackRanking {
+  layer: StackLayer;
+  totalImpactPercent: number;
+  insightCount: number;
+  avgEffort: EffortLevel;
+  topInsights: Insight[];
+}
+export interface ImpactSummary {
+  totalPotentialImpact: {
+    costReductionPercent: number;
+    latencyReductionPercent: number;
+    throughputGainPercent: number;
+  };
+  stackRanking: StackRanking[];
+  quickWins: Insight[]; // High impact, low effort
+  strategicChanges: Insight[]; // High impact, high effort
+  prioritizedList: Insight[]; // All insights sorted by impact
+}
+/**
+ * Generate comprehensive impact summary with stack ranking
+ */
+export function generateImpactSummary(insights: Insight[]): ImpactSummary {
+  const enriched = enrichInsightsWithImpact(insights);
+  // Calculate totals by impact type
+  const costInsights = enriched.filter(i => i.impact?.impactType === 'cost');
+  const latencyInsights = enriched.filter(i => i.impact?.impactType === 'latency');
+  const throughputInsights = enriched.filter(i => i.impact?.impactType === 'throughput');
+  const avgImpact = (items: Insight[]) => {
+    if (items.length === 0) return 0;
+    const total = items.reduce((sum, i) => sum + (i.impact?.estimatedImpactPercent || 0), 0);
+    return Math.round(total / items.length);
+  };
+  // Group by layer
+  const layerGroups = new Map<StackLayer, Insight[]>();
+  for (const insight of enriched) {
+    const layer = insight.impact?.layer || 'application';
+    const existing = layerGroups.get(layer) || [];
+    existing.push(insight);
+    layerGroups.set(layer, existing);
+  }
+  // Build stack ranking
+  const stackRanking: StackRanking[] = [];
+  const layerOrder: StackLayer[] = ['application', 'api', 'gateway', 'runtime', 'model', 'hardware'];
+  for (const layer of layerOrder) {
+    const layerInsights = layerGroups.get(layer) || [];
+    if (layerInsights.length === 0) continue;
+    const totalImpact = layerInsights.reduce(
+      (sum, i) => sum + (i.impact?.estimatedImpactPercent || 0), 0
+    );
+    // Calculate average effort
+    const effortScores = layerInsights.map(i => {
+      const e = i.impact?.effort || 'medium';
+      return e === 'low' ? 1 : e === 'medium' ? 2 : 3;
+    });
+    const avgEffortScore = effortScores.reduce((a, b) => a + b, 0) / effortScores.length;
+    const avgEffort: EffortLevel = avgEffortScore < 1.5 ? 'low' : avgEffortScore < 2.5 ? 'medium' : 'high';
+    stackRanking.push({
+      layer,
+      totalImpactPercent: totalImpact,
+      insightCount: layerInsights.length,
+      avgEffort,
+      topInsights: layerInsights
+        .sort((a, b) => (b.impact?.estimatedImpactPercent || 0) - (a.impact?.estimatedImpactPercent || 0))
+        .slice(0, 3),
+    });
+  }
+  // Sort stack ranking by total impact
+  stackRanking.sort((a, b) => b.totalImpactPercent - a.totalImpactPercent);
+  // Identify quick wins (high impact, low effort)
+  const quickWins = enriched
+    .filter(i => i.impact && i.impact.estimatedImpactPercent >= 40 && i.impact.effort === 'low')
+    .sort((a, b) => (b.impact?.estimatedImpactPercent || 0) - (a.impact?.estimatedImpactPercent || 0));
+  // Identify strategic changes (high impact, high effort)
+  const strategicChanges = enriched
+    .filter(i => i.impact && i.impact.estimatedImpactPercent >= 50 && i.impact.effort === 'high')
+    .sort((a, b) => (b.impact?.estimatedImpactPercent || 0) - (a.impact?.estimatedImpactPercent || 0));
+  // Prioritized list: sort by impact/effort ratio
+  const prioritizedList = [...enriched]
+    .filter(i => i.impact)
+    .sort((a, b) => {
+      const effortMultiplier = (e: EffortLevel | undefined) =>
+        e === 'low' ? 3 : e === 'medium' ? 2 : 1;
+      const scoreA = (a.impact?.estimatedImpactPercent || 0) * effortMultiplier(a.impact?.effort);
+      const scoreB = (b.impact?.estimatedImpactPercent || 0) * effortMultiplier(b.impact?.effort);
+      return scoreB - scoreA;
+    });
+  return {
+    totalPotentialImpact: {
+      costReductionPercent: avgImpact(costInsights),
+      latencyReductionPercent: avgImpact(latencyInsights),
+      throughputGainPercent: avgImpact(throughputInsights),
+    },
+    stackRanking,
+    quickWins,
+    strategicChanges,
+    prioritizedList,
+  };
+}
+/**
+ * Format impact summary as text for CLI output
+ * Julie Zhou design: "Headroom" terminology, intuitive metrics
+ *
+ * Key principle: Output should be understandable without narration
+ */
+export function formatImpactSummary(summary: ImpactSummary): string {
+  const lines: string[] = [];
+  // Stack ranking by layer - show avg improvement per layer
+  lines.push('\x1b[2mBy Layer\x1b[0m');
+  for (let i = 0; i < summary.stackRanking.length; i++) {
+    const rank = summary.stackRanking[i];
+    const layerName = rank.layer.charAt(0).toUpperCase() + rank.layer.slice(1);
+    const avgImpact = Math.round(rank.totalImpactPercent / rank.insightCount);
+    lines.push(`  ${i + 1}. ${layerName.padEnd(14)} ~${avgImpact}% avg  (${rank.insightCount} items)`);
+  }
+  // Quick wins - high value, low effort (actionable now)
+  // Deduplicate by templateId+headline to avoid repetitive suggestions
+  if (summary.quickWins.length > 0) {
+    const seen = new Set<string>();
+    const uniqueWins = summary.quickWins.filter(insight => {
+      const key = `${insight.templateId || ''}:${insight.headline}`;
+      if (seen.has(key)) return false;
+      seen.add(key);
+      return true;
+    }).slice(0, 3);
+    if (uniqueWins.length > 0) {
+      lines.push('');
+      lines.push('\x1b[2mQuick Wins\x1b[0m');
+      for (const insight of uniqueWins) {
+        const pct = insight.impact?.estimatedImpactPercent || 0;
+        const type = insight.impact?.impactType || 'improvement';
+        const typeLabel = type === 'cost' ? 'cost reduction' : type === 'latency' ? 'latency reduction' : type;
+        // Use assumptions if available (more actionable), otherwise headline
+        const recommendation = insight.impact?.assumptions || insight.headline;
+        lines.push(`  [!] ${recommendation} (${pct}% ${typeLabel})`);
+      }
+    }
+  }
+  // Strategic changes - high value, high effort
+  // Deduplicate similarly
+  if (summary.strategicChanges.length > 0) {
+    const seen = new Set<string>();
+    const uniqueStrategic = summary.strategicChanges.filter(insight => {
+      const key = `${insight.templateId || ''}:${insight.headline}`;
+      if (seen.has(key)) return false;
+      seen.add(key);
+      return true;
+    }).slice(0, 2);
+    if (uniqueStrategic.length > 0) {
+      lines.push('');
+      lines.push('\x1b[2mStrategic\x1b[0m');
+      for (const insight of uniqueStrategic) {
+        const pct = insight.impact?.estimatedImpactPercent || 0;
+        const type = insight.impact?.impactType || 'improvement';
+        const typeLabel = type === 'cost' ? 'cost reduction' : type === 'latency' ? 'latency reduction' : type;
+        const recommendation = insight.impact?.assumptions || insight.headline;
+        lines.push(`  [+] ${recommendation} (${pct}% ${typeLabel})`);
+      }
+    }
+  }
+  return lines.join('\n');
+}

package/src/index.ts ADDED Viewed

@@ -0,0 +1,83 @@
+/**
+ * PeakInfer - LLM Inference Performance Analysis
+ *
+ * @packageDocumentation
+ */
+// Version
+export { VERSION, VERSION_DISPLAY } from './version.js';
+// Core types
+export type {
+  Provider,
+  Callsite,
+  Patterns,
+  CallsitePatterns,
+  InferenceEvent,
+  RuntimeSummary,
+  JoinedOutput,
+  InferenceMap,
+  Insight,
+  InsightTemplate,
+  PerformanceEnvelope,
+  ScanResult,
+  ScannedFile,
+  ScanCandidate,
+} from './types.js';
+// Agent
+export { Agent, plan } from './agent.js';
+export type { AgentOptions, AgentCallbacks, AgentResults, PlanResult, ProgressPhase, ProgressData } from './agent.js';
+// Scanner
+export { scan } from './scanner.js';
+// Analyzer
+export { analyze, analyzeFile } from './analyzer.js';
+// Runtime parser
+export { parseEvents, aggregate } from './runtime.js';
+// Joiner
+export { join } from './joiner.js';
+// Templates
+export { loadTemplates } from './templates.js';
+// Insights
+export { evaluate } from './insights.js';
+// Costs
+export { loadPricing, getModelCost, calculateCost } from './costs.js';
+// Envelopes
+export { ENVELOPES, getEnvelope, getThroughputPercent } from './envelopes.js';
+// Renderer
+export { createRenderer } from './renderer.js';
+export type { Renderer, RendererOptions } from './renderer.js';
+// HTML
+export { generateHTML } from './html.js';
+export type { HTMLData } from './html.js';
+// Artifacts
+export {
+  saveArtifacts,
+  getOutputDir,
+  artifactsExist,
+  checkResumable,
+  loadArtifacts,
+  generateRunId,
+} from './artifacts.js';
+export type { ArtifactData, SaveOptions } from './artifacts.js';
+// Run Identity
+export {
+  getRunDir,
+  createManifest,
+  canResume,
+  loadManifest,
+  loadCachedArtifacts,
+} from './runid.js';
+export type { RunInputs, RunManifest, CachedArtifacts } from './runid.js';