npm - @peakinfer/cli - Versions diffs - 1.0.133 - Mend

@peakinfer/cli 1.0.133

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (367) hide show

package/.claude/settings.local.json +8 -0
package/.env.example +6 -0
package/.github/workflows/peakinfer.yml +64 -0
package/CHANGELOG.md +31 -0
package/LICENSE +190 -0
package/README.md +335 -0
package/data/inferencemax.json +274 -0
package/dist/agent-analyzer.d.ts +45 -0
package/dist/agent-analyzer.d.ts.map +1 -0
package/dist/agent-analyzer.js +374 -0
package/dist/agent-analyzer.js.map +1 -0
package/dist/agent.d.ts +76 -0
package/dist/agent.d.ts.map +1 -0
package/dist/agent.js +965 -0
package/dist/agent.js.map +1 -0
package/dist/agents/correlation-analyzer.d.ts +34 -0
package/dist/agents/correlation-analyzer.d.ts.map +1 -0
package/dist/agents/correlation-analyzer.js +261 -0
package/dist/agents/correlation-analyzer.js.map +1 -0
package/dist/agents/index.d.ts +91 -0
package/dist/agents/index.d.ts.map +1 -0
package/dist/agents/index.js +111 -0
package/dist/agents/index.js.map +1 -0
package/dist/agents/runtime-analyzer.d.ts +38 -0
package/dist/agents/runtime-analyzer.d.ts.map +1 -0
package/dist/agents/runtime-analyzer.js +244 -0
package/dist/agents/runtime-analyzer.js.map +1 -0
package/dist/analysis-types.d.ts +500 -0
package/dist/analysis-types.d.ts.map +1 -0
package/dist/analysis-types.js +11 -0
package/dist/analysis-types.js.map +1 -0
package/dist/analytics.d.ts +25 -0
package/dist/analytics.d.ts.map +1 -0
package/dist/analytics.js +94 -0
package/dist/analytics.js.map +1 -0
package/dist/analyzer.d.ts +48 -0
package/dist/analyzer.d.ts.map +1 -0
package/dist/analyzer.js +547 -0
package/dist/analyzer.js.map +1 -0
package/dist/artifacts.d.ts +44 -0
package/dist/artifacts.d.ts.map +1 -0
package/dist/artifacts.js +165 -0
package/dist/artifacts.js.map +1 -0
package/dist/benchmarks/index.d.ts +88 -0
package/dist/benchmarks/index.d.ts.map +1 -0
package/dist/benchmarks/index.js +205 -0
package/dist/benchmarks/index.js.map +1 -0
package/dist/cli.d.ts +3 -0
package/dist/cli.d.ts.map +1 -0
package/dist/cli.js +427 -0
package/dist/cli.js.map +1 -0
package/dist/commands/ci.d.ts +19 -0
package/dist/commands/ci.d.ts.map +1 -0
package/dist/commands/ci.js +253 -0
package/dist/commands/ci.js.map +1 -0
package/dist/commands/config.d.ts +16 -0
package/dist/commands/config.d.ts.map +1 -0
package/dist/commands/config.js +249 -0
package/dist/commands/config.js.map +1 -0
package/dist/commands/demo.d.ts +15 -0
package/dist/commands/demo.d.ts.map +1 -0
package/dist/commands/demo.js +106 -0
package/dist/commands/demo.js.map +1 -0
package/dist/commands/export.d.ts +14 -0
package/dist/commands/export.d.ts.map +1 -0
package/dist/commands/export.js +209 -0
package/dist/commands/export.js.map +1 -0
package/dist/commands/history.d.ts +15 -0
package/dist/commands/history.d.ts.map +1 -0
package/dist/commands/history.js +389 -0
package/dist/commands/history.js.map +1 -0
package/dist/commands/template.d.ts +14 -0
package/dist/commands/template.d.ts.map +1 -0
package/dist/commands/template.js +341 -0
package/dist/commands/template.js.map +1 -0
package/dist/commands/validate-map.d.ts +12 -0
package/dist/commands/validate-map.d.ts.map +1 -0
package/dist/commands/validate-map.js +274 -0
package/dist/commands/validate-map.js.map +1 -0
package/dist/commands/whatif.d.ts +17 -0
package/dist/commands/whatif.d.ts.map +1 -0
package/dist/commands/whatif.js +206 -0
package/dist/commands/whatif.js.map +1 -0
package/dist/comparison.d.ts +38 -0
package/dist/comparison.d.ts.map +1 -0
package/dist/comparison.js +223 -0
package/dist/comparison.js.map +1 -0
package/dist/config.d.ts +42 -0
package/dist/config.d.ts.map +1 -0
package/dist/config.js +158 -0
package/dist/config.js.map +1 -0
package/dist/connectors/helicone.d.ts +9 -0
package/dist/connectors/helicone.d.ts.map +1 -0
package/dist/connectors/helicone.js +106 -0
package/dist/connectors/helicone.js.map +1 -0
package/dist/connectors/index.d.ts +37 -0
package/dist/connectors/index.d.ts.map +1 -0
package/dist/connectors/index.js +65 -0
package/dist/connectors/index.js.map +1 -0
package/dist/connectors/langsmith.d.ts +9 -0
package/dist/connectors/langsmith.d.ts.map +1 -0
package/dist/connectors/langsmith.js +122 -0
package/dist/connectors/langsmith.js.map +1 -0
package/dist/connectors/types.d.ts +83 -0
package/dist/connectors/types.d.ts.map +1 -0
package/dist/connectors/types.js +98 -0
package/dist/connectors/types.js.map +1 -0
package/dist/cost-estimator.d.ts +46 -0
package/dist/cost-estimator.d.ts.map +1 -0
package/dist/cost-estimator.js +104 -0
package/dist/cost-estimator.js.map +1 -0
package/dist/costs.d.ts +57 -0
package/dist/costs.d.ts.map +1 -0
package/dist/costs.js +251 -0
package/dist/costs.js.map +1 -0
package/dist/counterfactuals.d.ts +29 -0
package/dist/counterfactuals.d.ts.map +1 -0
package/dist/counterfactuals.js +448 -0
package/dist/counterfactuals.js.map +1 -0
package/dist/enhancement-prompts.d.ts +41 -0
package/dist/enhancement-prompts.d.ts.map +1 -0
package/dist/enhancement-prompts.js +88 -0
package/dist/enhancement-prompts.js.map +1 -0
package/dist/envelopes.d.ts +20 -0
package/dist/envelopes.d.ts.map +1 -0
package/dist/envelopes.js +790 -0
package/dist/envelopes.js.map +1 -0
package/dist/format-normalizer.d.ts +71 -0
package/dist/format-normalizer.d.ts.map +1 -0
package/dist/format-normalizer.js +1331 -0
package/dist/format-normalizer.js.map +1 -0
package/dist/history.d.ts +79 -0
package/dist/history.d.ts.map +1 -0
package/dist/history.js +313 -0
package/dist/history.js.map +1 -0
package/dist/html.d.ts +11 -0
package/dist/html.d.ts.map +1 -0
package/dist/html.js +463 -0
package/dist/html.js.map +1 -0
package/dist/impact.d.ts +42 -0
package/dist/impact.d.ts.map +1 -0
package/dist/impact.js +443 -0
package/dist/impact.js.map +1 -0
package/dist/index.d.ts +26 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +34 -0
package/dist/index.js.map +1 -0
package/dist/insights.d.ts +5 -0
package/dist/insights.d.ts.map +1 -0
package/dist/insights.js +271 -0
package/dist/insights.js.map +1 -0
package/dist/joiner.d.ts +9 -0
package/dist/joiner.d.ts.map +1 -0
package/dist/joiner.js +247 -0
package/dist/joiner.js.map +1 -0
package/dist/orchestrator.d.ts +34 -0
package/dist/orchestrator.d.ts.map +1 -0
package/dist/orchestrator.js +827 -0
package/dist/orchestrator.js.map +1 -0
package/dist/pdf.d.ts +26 -0
package/dist/pdf.d.ts.map +1 -0
package/dist/pdf.js +84 -0
package/dist/pdf.js.map +1 -0
package/dist/prediction.d.ts +33 -0
package/dist/prediction.d.ts.map +1 -0
package/dist/prediction.js +316 -0
package/dist/prediction.js.map +1 -0
package/dist/prompts/loader.d.ts +38 -0
package/dist/prompts/loader.d.ts.map +1 -0
package/dist/prompts/loader.js +60 -0
package/dist/prompts/loader.js.map +1 -0
package/dist/renderer.d.ts +64 -0
package/dist/renderer.d.ts.map +1 -0
package/dist/renderer.js +923 -0
package/dist/renderer.js.map +1 -0
package/dist/runid.d.ts +57 -0
package/dist/runid.d.ts.map +1 -0
package/dist/runid.js +199 -0
package/dist/runid.js.map +1 -0
package/dist/runtime.d.ts +29 -0
package/dist/runtime.d.ts.map +1 -0
package/dist/runtime.js +366 -0
package/dist/runtime.js.map +1 -0
package/dist/scanner.d.ts +11 -0
package/dist/scanner.d.ts.map +1 -0
package/dist/scanner.js +426 -0
package/dist/scanner.js.map +1 -0
package/dist/templates.d.ts +120 -0
package/dist/templates.d.ts.map +1 -0
package/dist/templates.js +429 -0
package/dist/templates.js.map +1 -0
package/dist/tools/index.d.ts +153 -0
package/dist/tools/index.d.ts.map +1 -0
package/dist/tools/index.js +177 -0
package/dist/tools/index.js.map +1 -0
package/dist/types.d.ts +3647 -0
package/dist/types.d.ts.map +1 -0
package/dist/types.js +703 -0
package/dist/types.js.map +1 -0
package/dist/version.d.ts +7 -0
package/dist/version.d.ts.map +1 -0
package/dist/version.js +23 -0
package/dist/version.js.map +1 -0
package/docs/demo-guide.md +423 -0
package/docs/events-format.md +295 -0
package/docs/inferencemap-spec.md +344 -0
package/docs/migration-v2.md +293 -0
package/fixtures/demo/precomputed.json +142 -0
package/fixtures/demo-project/README.md +52 -0
package/fixtures/demo-project/ai-service.ts +65 -0
package/fixtures/demo-project/sample-events.jsonl +15 -0
package/fixtures/demo-project/src/ai-service.ts +128 -0
package/fixtures/demo-project/src/llm-client.ts +155 -0
package/package.json +65 -0
package/prompts/agent-analyzer.yaml +47 -0
package/prompts/ci-gate.yaml +98 -0
package/prompts/correlation-analyzer.yaml +178 -0
package/prompts/format-normalizer.yaml +46 -0
package/prompts/peak-performance.yaml +180 -0
package/prompts/pr-comment.yaml +111 -0
package/prompts/runtime-analyzer.yaml +189 -0
package/prompts/unified-analyzer.yaml +241 -0
package/schemas/inference-map.v0.1.json +215 -0
package/scripts/benchmark.ts +394 -0
package/scripts/demo-v1.5.sh +158 -0
package/scripts/sync-from-site.sh +197 -0
package/scripts/validate-sync.sh +178 -0
package/src/agent-analyzer.ts +481 -0
package/src/agent.ts +1232 -0
package/src/agents/correlation-analyzer.ts +353 -0
package/src/agents/index.ts +235 -0
package/src/agents/runtime-analyzer.ts +343 -0
package/src/analysis-types.ts +558 -0
package/src/analytics.ts +100 -0
package/src/analyzer.ts +692 -0
package/src/artifacts.ts +218 -0
package/src/benchmarks/index.ts +309 -0
package/src/cli.ts +503 -0
package/src/commands/ci.ts +336 -0
package/src/commands/config.ts +288 -0
package/src/commands/demo.ts +175 -0
package/src/commands/export.ts +297 -0
package/src/commands/history.ts +425 -0
package/src/commands/template.ts +385 -0
package/src/commands/validate-map.ts +324 -0
package/src/commands/whatif.ts +272 -0
package/src/comparison.ts +283 -0
package/src/config.ts +188 -0
package/src/connectors/helicone.ts +164 -0
package/src/connectors/index.ts +93 -0
package/src/connectors/langsmith.ts +179 -0
package/src/connectors/types.ts +180 -0
package/src/cost-estimator.ts +146 -0
package/src/costs.ts +347 -0
package/src/counterfactuals.ts +516 -0
package/src/enhancement-prompts.ts +118 -0
package/src/envelopes.ts +814 -0
package/src/format-normalizer.ts +1486 -0
package/src/history.ts +400 -0
package/src/html.ts +512 -0
package/src/impact.ts +522 -0
package/src/index.ts +83 -0
package/src/insights.ts +341 -0
package/src/joiner.ts +289 -0
package/src/orchestrator.ts +1015 -0
package/src/pdf.ts +110 -0
package/src/prediction.ts +392 -0
package/src/prompts/loader.ts +88 -0
package/src/renderer.ts +1045 -0
package/src/runid.ts +261 -0
package/src/runtime.ts +450 -0
package/src/scanner.ts +508 -0
package/src/templates.ts +561 -0
package/src/tools/index.ts +214 -0
package/src/types.ts +873 -0
package/src/version.ts +24 -0
package/templates/context-accumulation.yaml +23 -0
package/templates/cost-concentration.yaml +20 -0
package/templates/dead-code.yaml +20 -0
package/templates/latency-explainer.yaml +23 -0
package/templates/optimizations/ab-testing-framework.yaml +74 -0
package/templates/optimizations/api-gateway-optimization.yaml +81 -0
package/templates/optimizations/api-model-routing-strategy.yaml +126 -0
package/templates/optimizations/auto-scaling-optimization.yaml +85 -0
package/templates/optimizations/batch-utilization-diagnostic.yaml +142 -0
package/templates/optimizations/comprehensive-apm.yaml +76 -0
package/templates/optimizations/context-window-optimization.yaml +91 -0
package/templates/optimizations/cost-sensitive-batch-processing.yaml +77 -0
package/templates/optimizations/distributed-training-optimization.yaml +77 -0
package/templates/optimizations/document-analysis-edge.yaml +77 -0
package/templates/optimizations/document-pipeline-optimization.yaml +78 -0
package/templates/optimizations/domain-specific-distillation.yaml +78 -0
package/templates/optimizations/error-handling-optimization.yaml +76 -0
package/templates/optimizations/gptq-4bit-quantization.yaml +96 -0
package/templates/optimizations/long-context-memory-management.yaml +78 -0
package/templates/optimizations/max-tokens-optimization.yaml +76 -0
package/templates/optimizations/memory-bandwidth-optimization.yaml +73 -0
package/templates/optimizations/multi-framework-resilience.yaml +75 -0
package/templates/optimizations/multi-tenant-optimization.yaml +75 -0
package/templates/optimizations/prompt-caching-optimization.yaml +143 -0
package/templates/optimizations/pytorch-to-onnx-migration.yaml +109 -0
package/templates/optimizations/quality-monitoring.yaml +74 -0
package/templates/optimizations/realtime-budget-controls.yaml +74 -0
package/templates/optimizations/realtime-latency-optimization.yaml +74 -0
package/templates/optimizations/sglang-concurrency-optimization.yaml +78 -0
package/templates/optimizations/smart-model-routing.yaml +96 -0
package/templates/optimizations/streaming-batch-selection.yaml +167 -0
package/templates/optimizations/system-prompt-optimization.yaml +75 -0
package/templates/optimizations/tensorrt-llm-performance.yaml +77 -0
package/templates/optimizations/vllm-high-throughput-optimization.yaml +93 -0
package/templates/optimizations/vllm-migration-memory-bound.yaml +78 -0
package/templates/overpowered-extraction.yaml +32 -0
package/templates/overpowered-model.yaml +31 -0
package/templates/prompt-bloat.yaml +24 -0
package/templates/retry-explosion.yaml +28 -0
package/templates/schema/insight.schema.json +113 -0
package/templates/schema/optimization.schema.json +180 -0
package/templates/streaming-drift.yaml +30 -0
package/templates/throughput-gap.yaml +21 -0
package/templates/token-underutilization.yaml +28 -0
package/templates/untested-fallback.yaml +21 -0
package/tests/accuracy/drift-detection.test.ts +184 -0
package/tests/accuracy/false-positives.test.ts +166 -0
package/tests/accuracy/templates.test.ts +205 -0
package/tests/action/commands.test.ts +125 -0
package/tests/action/comments.test.ts +347 -0
package/tests/cli.test.ts +203 -0
package/tests/comparison.test.ts +309 -0
package/tests/correlation-analyzer.test.ts +534 -0
package/tests/counterfactuals.test.ts +347 -0
package/tests/fixtures/events/missing-id.jsonl +1 -0
package/tests/fixtures/events/missing-input.jsonl +1 -0
package/tests/fixtures/events/missing-latency.jsonl +1 -0
package/tests/fixtures/events/missing-model.jsonl +1 -0
package/tests/fixtures/events/missing-output.jsonl +1 -0
package/tests/fixtures/events/missing-provider.jsonl +1 -0
package/tests/fixtures/events/missing-ts.jsonl +1 -0
package/tests/fixtures/events/valid.csv +3 -0
package/tests/fixtures/events/valid.json +1 -0
package/tests/fixtures/events/valid.jsonl +2 -0
package/tests/fixtures/events/with-callsite.jsonl +1 -0
package/tests/fixtures/events/with-intent.jsonl +1 -0
package/tests/fixtures/events/wrong-type.jsonl +1 -0
package/tests/fixtures/repos/empty/.gitkeep +0 -0
package/tests/fixtures/repos/hybrid-router/router.py +35 -0
package/tests/fixtures/repos/saas-anthropic/agent.ts +27 -0
package/tests/fixtures/repos/saas-openai/assistant.js +33 -0
package/tests/fixtures/repos/saas-openai/client.py +26 -0
package/tests/fixtures/repos/self-hosted-vllm/inference.py +22 -0
package/tests/github-action.test.ts +292 -0
package/tests/insights.test.ts +878 -0
package/tests/joiner.test.ts +168 -0
package/tests/performance/action-latency.test.ts +132 -0
package/tests/performance/benchmark.test.ts +189 -0
package/tests/performance/cli-latency.test.ts +102 -0
package/tests/pr-comment.test.ts +313 -0
package/tests/prediction.test.ts +296 -0
package/tests/runtime-analyzer.test.ts +375 -0
package/tests/runtime.test.ts +205 -0
package/tests/scanner.test.ts +122 -0
package/tests/template-conformance.test.ts +526 -0
package/tests/unit/cost-calculator.test.ts +303 -0
package/tests/unit/credits.test.ts +180 -0
package/tests/unit/inference-map.test.ts +276 -0
package/tests/unit/schema.test.ts +300 -0
package/tsconfig.json +20 -0
package/vitest.config.ts +14 -0

package/data/inferencemax.json ADDED Viewed

@@ -0,0 +1,274 @@
+{
+  "version": "1.0",
+  "last_updated": "2025-12-28",
+  "source": "InferenceMAX Benchmark Suite",
+  "benchmarks": {
+    "gpt-4o:api:api": {
+      "model": "gpt-4o",
+      "provider": "openai",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 180,
+        "p50_latency_ms": 800,
+        "p95_latency_ms": 1200,
+        "p99_latency_ms": 1800,
+        "throughput_tps": 45,
+        "cost_per_1k_input": 0.005,
+        "cost_per_1k_output": 0.015
+      },
+      "notes": "OpenAI API baseline"
+    },
+    "gpt-4o-mini:api:api": {
+      "model": "gpt-4o-mini",
+      "provider": "openai",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 120,
+        "p50_latency_ms": 400,
+        "p95_latency_ms": 600,
+        "p99_latency_ms": 900,
+        "throughput_tps": 90,
+        "cost_per_1k_input": 0.00015,
+        "cost_per_1k_output": 0.0006
+      },
+      "notes": "OpenAI API baseline - mini model"
+    },
+    "gpt-4-turbo:api:api": {
+      "model": "gpt-4-turbo",
+      "provider": "openai",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 250,
+        "p50_latency_ms": 1200,
+        "p95_latency_ms": 2000,
+        "p99_latency_ms": 3000,
+        "throughput_tps": 30,
+        "cost_per_1k_input": 0.01,
+        "cost_per_1k_output": 0.03
+      },
+      "notes": "OpenAI API baseline - GPT-4 Turbo"
+    },
+    "claude-3-5-sonnet:api:api": {
+      "model": "claude-3-5-sonnet-20241022",
+      "provider": "anthropic",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 150,
+        "p50_latency_ms": 600,
+        "p95_latency_ms": 1000,
+        "p99_latency_ms": 1500,
+        "throughput_tps": 50,
+        "cost_per_1k_input": 0.003,
+        "cost_per_1k_output": 0.015
+      },
+      "notes": "Anthropic API baseline"
+    },
+    "claude-3-5-haiku:api:api": {
+      "model": "claude-3-5-haiku-20241022",
+      "provider": "anthropic",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 80,
+        "p50_latency_ms": 300,
+        "p95_latency_ms": 500,
+        "p99_latency_ms": 750,
+        "throughput_tps": 100,
+        "cost_per_1k_input": 0.001,
+        "cost_per_1k_output": 0.005
+      },
+      "notes": "Anthropic API baseline - Haiku"
+    },
+    "claude-3-opus:api:api": {
+      "model": "claude-3-opus-20240229",
+      "provider": "anthropic",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 300,
+        "p50_latency_ms": 1500,
+        "p95_latency_ms": 2500,
+        "p99_latency_ms": 4000,
+        "throughput_tps": 20,
+        "cost_per_1k_input": 0.015,
+        "cost_per_1k_output": 0.075
+      },
+      "notes": "Anthropic API baseline - Opus"
+    },
+    "gemini-2.0-flash:api:api": {
+      "model": "gemini-2.0-flash-exp",
+      "provider": "google",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 100,
+        "p50_latency_ms": 350,
+        "p95_latency_ms": 550,
+        "p99_latency_ms": 800,
+        "throughput_tps": 85,
+        "cost_per_1k_input": 0.00035,
+        "cost_per_1k_output": 0.0007
+      },
+      "notes": "Google API baseline - Gemini Flash"
+    },
+    "gemini-1.5-pro:api:api": {
+      "model": "gemini-1.5-pro",
+      "provider": "google",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 200,
+        "p50_latency_ms": 700,
+        "p95_latency_ms": 1100,
+        "p99_latency_ms": 1600,
+        "throughput_tps": 40,
+        "cost_per_1k_input": 0.00125,
+        "cost_per_1k_output": 0.005
+      },
+      "notes": "Google API baseline - Gemini Pro"
+    },
+    "llama-3.1-70b:vllm:h100": {
+      "model": "llama-3.1-70b-instruct",
+      "provider": "meta",
+      "framework": "vllm",
+      "hardware": "h100",
+      "metrics": {
+        "ttft_ms": 50,
+        "p50_latency_ms": 200,
+        "p95_latency_ms": 400,
+        "p99_latency_ms": 600,
+        "throughput_tps": 120,
+        "cost_per_1k_input": 0.0,
+        "cost_per_1k_output": 0.0
+      },
+      "optimal_config": {
+        "tensor_parallelism": 4,
+        "max_model_len": 8192,
+        "gpu_memory_utilization": 0.9
+      },
+      "notes": "Self-hosted on 4xH100"
+    },
+    "llama-3.1-70b:vllm:a100": {
+      "model": "llama-3.1-70b-instruct",
+      "provider": "meta",
+      "framework": "vllm",
+      "hardware": "a100",
+      "metrics": {
+        "ttft_ms": 80,
+        "p50_latency_ms": 350,
+        "p95_latency_ms": 600,
+        "p99_latency_ms": 900,
+        "throughput_tps": 70,
+        "cost_per_1k_input": 0.0,
+        "cost_per_1k_output": 0.0
+      },
+      "optimal_config": {
+        "tensor_parallelism": 4,
+        "max_model_len": 8192,
+        "gpu_memory_utilization": 0.9
+      },
+      "notes": "Self-hosted on 4xA100-80GB"
+    },
+    "llama-3.1-8b:vllm:a100": {
+      "model": "llama-3.1-8b-instruct",
+      "provider": "meta",
+      "framework": "vllm",
+      "hardware": "a100",
+      "metrics": {
+        "ttft_ms": 20,
+        "p50_latency_ms": 100,
+        "p95_latency_ms": 180,
+        "p99_latency_ms": 250,
+        "throughput_tps": 250,
+        "cost_per_1k_input": 0.0,
+        "cost_per_1k_output": 0.0
+      },
+      "optimal_config": {
+        "tensor_parallelism": 1,
+        "max_model_len": 8192,
+        "gpu_memory_utilization": 0.9
+      },
+      "notes": "Self-hosted on 1xA100-80GB"
+    },
+    "mistral-large:api:api": {
+      "model": "mistral-large-latest",
+      "provider": "mistral",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 160,
+        "p50_latency_ms": 550,
+        "p95_latency_ms": 900,
+        "p99_latency_ms": 1300,
+        "throughput_tps": 55,
+        "cost_per_1k_input": 0.004,
+        "cost_per_1k_output": 0.012
+      },
+      "notes": "Mistral API baseline"
+    },
+    "mixtral-8x7b:vllm:a100": {
+      "model": "mixtral-8x7b-instruct",
+      "provider": "mistral",
+      "framework": "vllm",
+      "hardware": "a100",
+      "metrics": {
+        "ttft_ms": 40,
+        "p50_latency_ms": 180,
+        "p95_latency_ms": 320,
+        "p99_latency_ms": 480,
+        "throughput_tps": 150,
+        "cost_per_1k_input": 0.0,
+        "cost_per_1k_output": 0.0
+      },
+      "optimal_config": {
+        "tensor_parallelism": 2,
+        "max_model_len": 32768,
+        "gpu_memory_utilization": 0.9
+      },
+      "notes": "Self-hosted on 2xA100-80GB"
+    },
+    "deepseek-v3:api:api": {
+      "model": "deepseek-chat",
+      "provider": "deepseek",
+      "framework": "api",
+      "hardware": "api",
+      "metrics": {
+        "ttft_ms": 120,
+        "p50_latency_ms": 450,
+        "p95_latency_ms": 750,
+        "p99_latency_ms": 1100,
+        "throughput_tps": 65,
+        "cost_per_1k_input": 0.00014,
+        "cost_per_1k_output": 0.00028
+      },
+      "notes": "DeepSeek API baseline"
+    }
+  },
+  "model_aliases": {
+    "gpt-4o": "gpt-4o:api:api",
+    "gpt-4o-mini": "gpt-4o-mini:api:api",
+    "gpt-4-turbo": "gpt-4-turbo:api:api",
+    "claude-3-5-sonnet": "claude-3-5-sonnet:api:api",
+    "claude-3.5-sonnet": "claude-3-5-sonnet:api:api",
+    "claude-3-5-haiku": "claude-3-5-haiku:api:api",
+    "claude-3.5-haiku": "claude-3-5-haiku:api:api",
+    "claude-3-opus": "claude-3-opus:api:api",
+    "gemini-2.0-flash": "gemini-2.0-flash:api:api",
+    "gemini-flash": "gemini-2.0-flash:api:api",
+    "gemini-1.5-pro": "gemini-1.5-pro:api:api",
+    "gemini-pro": "gemini-1.5-pro:api:api",
+    "llama-3.1-70b": "llama-3.1-70b:vllm:h100",
+    "llama-70b": "llama-3.1-70b:vllm:h100",
+    "llama-3.1-8b": "llama-3.1-8b:vllm:a100",
+    "llama-8b": "llama-3.1-8b:vllm:a100",
+    "mistral-large": "mistral-large:api:api",
+    "mixtral-8x7b": "mixtral-8x7b:vllm:a100",
+    "mixtral": "mixtral-8x7b:vllm:a100",
+    "deepseek-v3": "deepseek-v3:api:api",
+    "deepseek": "deepseek-v3:api:api"
+  }
+}

package/dist/agent-analyzer.d.ts ADDED Viewed

@@ -0,0 +1,45 @@
+/**
+ * Agent-based Semantic Analyzer for PeakInfer
+ *
+ * Uses Claude Agent SDK (per TDD v1.9.3) for multi-step code analysis:
+ * 1. Read source files
+ * 2. Extract patterns and variable assignments
+ * 3. Trace variable definitions to resolve model names
+ * 4. Identify actual LLM callsites (not client initialization)
+ *
+ * Architecture: Claude Agent SDK = Engine, TypeScript = Glue (per TDD §1)
+ */
+import 'dotenv/config';
+import type { ScanResult, Callsite, Patterns } from './types.js';
+interface AgentCallsite {
+    file: string;
+    line: number;
+    provider: string | null;
+    model: string | null;
+    framework: string | null;
+    patterns: Partial<Patterns>;
+    confidence: number;
+    reasoning: string;
+}
+interface AgentInsight {
+    severity: 'critical' | 'warning' | 'info';
+    category: string;
+    headline: string;
+    evidence: string;
+    location: string;
+    recommendation?: string;
+}
+interface AgentAnalysisResult {
+    callsites: AgentCallsite[];
+    insights: AgentInsight[];
+}
+export declare function analyzeWithAgent(scanResult: ScanResult, options?: {
+    verbose?: boolean;
+    maxIterations?: number;
+}): Promise<AgentAnalysisResult>;
+/**
+ * Convert agent results to standard Callsite format
+ */
+export declare function convertAgentCallsites(agentCallsites: AgentCallsite[]): Callsite[];
+export {};
+//# sourceMappingURL=agent-analyzer.d.ts.map

package/dist/agent-analyzer.d.ts.map ADDED Viewed

@@ -0,0 +1 @@

+ {"version":3,"file":"agent-analyzer.d.ts","sourceRoot":"","sources":["../src/agent-analyzer.ts"],"names":[],"mappings":"AAAA;;;;;;;;;;GAUG;AAEH,OAAO,eAAe,CAAC;AAMvB,OAAO,KAAK,EAAE,UAAU,EAAE,QAAQ,EAAY,QAAQ,EAAE,MAAM,YAAY,CAAC;AA4D3E,UAAU,aAAa;IACrB,IAAI,EAAE,MAAM,CAAC;IACb,IAAI,EAAE,MAAM,CAAC;IACb,QAAQ,EAAE,MAAM,GAAG,IAAI,CAAC;IACxB,KAAK,EAAE,MAAM,GAAG,IAAI,CAAC;IACrB,SAAS,EAAE,MAAM,GAAG,IAAI,CAAC;IACzB,QAAQ,EAAE,OAAO,CAAC,QAAQ,CAAC,CAAC;IAC5B,UAAU,EAAE,MAAM,CAAC;IACnB,SAAS,EAAE,MAAM,CAAC;CACnB;AAED,UAAU,YAAY;IACpB,QAAQ,EAAE,UAAU,GAAG,SAAS,GAAG,MAAM,CAAC;IAC1C,QAAQ,EAAE,MAAM,CAAC;IACjB,QAAQ,EAAE,MAAM,CAAC;IACjB,QAAQ,EAAE,MAAM,CAAC;IACjB,QAAQ,EAAE,MAAM,CAAC;IACjB,cAAc,CAAC,EAAE,MAAM,CAAC;CACzB;AAED,UAAU,mBAAmB;IAC3B,SAAS,EAAE,aAAa,EAAE,CAAC;IAC3B,QAAQ,EAAE,YAAY,EAAE,CAAC;CAC1B;AA0MD,wBAAsB,gBAAgB,CACpC,UAAU,EAAE,UAAU,EACtB,OAAO,GAAE;IAAE,OAAO,CAAC,EAAE,OAAO,CAAC;IAAC,aAAa,CAAC,EAAE,MAAM,CAAA;CAAO,GAC1D,OAAO,CAAC,mBAAmB,CAAC,CAiJ9B;AAcD;;GAEG;AACH,wBAAgB,qBAAqB,CAAC,cAAc,EAAE,aAAa,EAAE,GAAG,QAAQ,EAAE,CAYjF"}

package/dist/agent-analyzer.js ADDED Viewed

@@ -0,0 +1,374 @@
+/**
+ * Agent-based Semantic Analyzer for PeakInfer
+ *
+ * Uses Claude Agent SDK (per TDD v1.9.3) for multi-step code analysis:
+ * 1. Read source files
+ * 2. Extract patterns and variable assignments
+ * 3. Trace variable definitions to resolve model names
+ * 4. Identify actual LLM callsites (not client initialization)
+ *
+ * Architecture: Claude Agent SDK = Engine, TypeScript = Glue (per TDD §1)
+ */
+import 'dotenv/config';
+import { query, tool, createSdkMcpServer } from '@anthropic-ai/claude-agent-sdk';
+import { z } from 'zod';
+import { readFileSync, existsSync } from 'fs';
+import { join } from 'path';
+import { createHash } from 'crypto';
+import { loadPrompt, loadConfig, getConfiguredModel } from './templates.js';
+// Load agent system prompt from YAML (with hardcoded fallback)
+function getAgentSystemPrompt() {
+    const prompt = loadPrompt('agent-analyzer');
+    if (prompt) {
+        return prompt.prompt;
+    }
+    // Fallback to hardcoded prompt if YAML not available
+    return `You are an expert code analyst specializing in identifying LLM/AI inference points in source code.
+Your task is to analyze code and find ALL actual LLM inference points with accurate provider and model information.
+## CRITICAL RULES
+### What IS an inference point (DO report these):
+- client.chat.completions.create() - OpenAI API call
+- client.messages.create() - Anthropic API call
+- client.embeddings.create() - OpenAI embeddings call
+- predictor(question=...) - DSPy module invocation (after dspy.Predict/ChainOfThought)
+- chain.invoke() - LangChain invocation
+- llm.generate() - Direct generation calls
+### What is NOT an inference point (DO NOT report these):
+- Client initialization: openai.OpenAI(), anthropic.Anthropic()
+- Import statements
+- Variable assignments: model = "gpt-4o"
+- Class/function definitions
+- DSPy Predict/ChainOfThought creation (only report the invocation)
+### Model Extraction Rules:
+1. Look at the model= parameter in the function call
+2. Trace variables back to their definitions
+3. For DSPy: find dspy.LM("provider/model") and extract the model part
+4. Return the FULL exact model name (e.g., "gpt-4o-mini" not "gpt-4")
+### Framework Detection:
+- DSPy: look for dspy imports, dspy.Predict, dspy.ChainOfThought
+- LangChain: look for langchain imports, ChatOpenAI, LLMChain
+- LlamaIndex: look for llama_index imports
+## WORKFLOW
+1. Use search_pattern to find potential inference point locations
+2. Use read_file to examine the code in detail
+3. Use trace_variable to find where models/clients are defined
+4. Use report_callsites to report your findings
+Be thorough but precise. Only report actual inference points, not initialization or configuration.`;
+}
+// =============================================================================
+// MCP TOOLS USING CLAUDE AGENT SDK
+// =============================================================================
+/**
+ * Helper to create ToolResult from string
+ */
+function makeToolResult(text) {
+    return {
+        content: [{ type: 'text', text }],
+    };
+}
+/**
+ * Create MCP server with analysis tools using Claude Agent SDK
+ */
+function createAnalysisMcpServer(ctx) {
+    // Tool: read_file - Read source code file contents
+    const readFileTool = tool('read_file', 'Read the contents of a source code file. Use this to examine code in detail.', {
+        file_path: z.string().describe('Relative path to the file from project root'),
+    }, async ({ file_path }) => {
+        // Try from cache first
+        if (ctx.fileContents.has(file_path)) {
+            const content = ctx.fileContents.get(file_path);
+            const numbered = content.split('\n')
+                .map((line, i) => `${i + 1}: ${line}`)
+                .join('\n');
+            return makeToolResult(numbered.slice(0, 8000)); // Limit size
+        }
+        // Try reading from disk
+        const absPath = join(ctx.projectRoot, file_path);
+        if (existsSync(absPath)) {
+            try {
+                const content = readFileSync(absPath, 'utf-8');
+                const numbered = content.split('\n')
+                    .map((line, i) => `${i + 1}: ${line}`)
+                    .join('\n');
+                return makeToolResult(numbered.slice(0, 8000));
+            }
+            catch (e) {
+                return makeToolResult(`Error reading file: ${e}`);
+            }
+        }
+        return makeToolResult(`File not found: ${file_path}`);
+    });
+    // Tool: search_pattern - Search for regex patterns across files
+    const searchPatternTool = tool('search_pattern', 'Search for a regex pattern across all source files. Returns matching lines with file and line number.', {
+        pattern: z.string().describe('Regex pattern to search for (e.g., "dspy\\.LM\\(" or "model\\s*=")'),
+        file_filter: z.string().optional().describe('Optional glob pattern to filter files (e.g., "*.py" or "*.ts")'),
+    }, async ({ pattern, file_filter }) => {
+        const results = [];
+        const regex = new RegExp(pattern, 'gi');
+        for (const [filePath, content] of ctx.fileContents) {
+            // Apply file filter if provided
+            if (file_filter && !filePath.match(new RegExp(file_filter.replace('*', '.*')))) {
+                continue;
+            }
+            const lines = content.split('\n');
+            for (let i = 0; i < lines.length; i++) {
+                if (regex.test(lines[i])) {
+                    results.push(`${filePath}:${i + 1}: ${lines[i].trim().slice(0, 100)}`);
+                    if (results.length >= 20)
+                        break;
+                }
+            }
+            if (results.length >= 20)
+                break;
+        }
+        return makeToolResult(results.length > 0 ? results.join('\n') : 'No matches found');
+    });
+    // Tool: trace_variable - Find variable definitions and assignments
+    const traceVariableTool = tool('trace_variable', 'Find where a variable is defined or assigned in a file. Useful for tracing model names.', {
+        file_path: z.string().describe('File to search in'),
+        variable_name: z.string().describe('Variable name to trace (e.g., "model", "lm", "client")'),
+    }, async ({ file_path, variable_name }) => {
+        const content = ctx.fileContents.get(file_path);
+        if (!content) {
+            return makeToolResult(`File not found: ${file_path}`);
+        }
+        const results = [];
+        const lines = content.split('\n');
+        // Look for assignments and definitions
+        const patterns = [
+            new RegExp(`\\b${variable_name}\\s*=\\s*(.+)`, 'g'),
+            new RegExp(`\\bconst\\s+${variable_name}\\s*=\\s*(.+)`, 'g'),
+            new RegExp(`\\blet\\s+${variable_name}\\s*=\\s*(.+)`, 'g'),
+            new RegExp(`\\bvar\\s+${variable_name}\\s*=\\s*(.+)`, 'g'),
+            new RegExp(`\\bdef\\s+.*${variable_name}.*:`, 'g'),
+            new RegExp(`${variable_name}\\s*:\\s*(.+)`, 'g'),
+        ];
+        for (let i = 0; i < lines.length; i++) {
+            for (const p of patterns) {
+                if (p.test(lines[i])) {
+                    results.push(`Line ${i + 1}: ${lines[i].trim()}`);
+                    break;
+                }
+            }
+        }
+        return makeToolResult(results.length > 0
+            ? `Found ${results.length} references to "${variable_name}":\n${results.join('\n')}`
+            : `No definitions found for "${variable_name}"`);
+    });
+    // Tool: report_callsites - Report discovered LLM callsites
+    const reportCallsitesTool = tool('report_callsites', 'Report discovered LLM callsites. Call this when you have identified callsites with their details.', {
+        callsites: z.array(z.object({
+            file: z.string().describe('File path'),
+            line: z.number().describe('Line number of the actual inference call'),
+            provider: z.string().describe('Provider: openai, anthropic, google, etc.'),
+            model: z.string().optional().describe('Exact model name as found in code'),
+            framework: z.string().optional().describe('Framework: dspy, langchain, llamaindex, or null'),
+            reasoning: z.string().describe('Brief explanation of how you identified this'),
+        })).describe('Array of identified callsites'),
+    }, async ({ callsites }) => {
+        for (const cs of callsites) {
+            ctx.reportedCallsites.push({
+                file: cs.file,
+                line: cs.line,
+                provider: cs.provider || null,
+                model: cs.model || null,
+                framework: cs.framework || null,
+                patterns: {},
+                confidence: 0.9,
+                reasoning: cs.reasoning,
+            });
+        }
+        return makeToolResult(`Recorded ${callsites.length} callsites. Total: ${ctx.reportedCallsites.length}`);
+    });
+    // Create MCP server with all tools
+    return createSdkMcpServer({
+        name: 'peakinfer-analyzer',
+        version: '1.0.0',
+        tools: [readFileTool, searchPatternTool, traceVariableTool, reportCallsitesTool],
+    });
+}
+// =============================================================================
+// AGENT LOOP USING CLAUDE AGENT SDK
+// =============================================================================
+// AGENT_SYSTEM_PROMPT is now loaded from prompts/agent-analyzer.yaml via getAgentSystemPrompt()
+/**
+ * Extract text content from SDK messages
+ */
+function extractTextFromMessages(messages) {
+    let text = '';
+    for (const msg of messages) {
+        if (msg.type === 'assistant' && msg.message?.content) {
+            for (const block of msg.message.content) {
+                if (block.type === 'text') {
+                    text += block.text;
+                }
+            }
+        }
+    }
+    return text;
+}
+export async function analyzeWithAgent(scanResult, options = {}) {
+    // Load configuration
+    const config = loadConfig();
+    const { verbose = config.agent.verbose } = options;
+    // Check for API key
+    if (!process.env.ANTHROPIC_API_KEY) {
+        throw new Error('ANTHROPIC_API_KEY required for agent analysis');
+    }
+    // Build file contents map
+    const fileContents = new Map();
+    for (const file of scanResult.files) {
+        try {
+            const absPath = join(scanResult.root, file.path);
+            fileContents.set(file.path, readFileSync(absPath, 'utf-8'));
+        }
+        catch {
+            // Skip unreadable files
+        }
+    }
+    // Create tool context for shared state
+    const ctx = {
+        projectRoot: scanResult.root,
+        fileContents,
+        reportedCallsites: [],
+    };
+    // Create MCP server with analysis tools
+    const mcpServer = createAnalysisMcpServer(ctx);
+    // Build initial task with candidate info
+    const candidateInfo = scanResult.candidates
+        .map(c => `- ${c.file}:${c.line}: ${c.snippet}`)
+        .join('\n');
+    const fileList = scanResult.files.map(f => f.path).join('\n');
+    const prompt = `Analyze this codebase to identify all LLM inference callsites.
+## Files in project:
+${fileList}
+## Candidate locations (from regex scan):
+${candidateInfo}
+## Instructions:
+1. Start by examining the candidate files
+2. For each candidate, determine if it's a real callsite or false positive
+3. Look for callsites that the regex might have missed (especially framework calls)
+4. Trace variable assignments to find exact model names
+5. Report all confirmed callsites using the report_callsites tool
+Begin your analysis.`;
+    if (verbose) {
+        console.log('[agent] Starting Claude Agent SDK analysis...');
+    }
+    // Get model from config
+    const model = getConfiguredModel('agent', false);
+    try {
+        // Use Claude Agent SDK query() function with MCP server
+        const agentQuery = query({
+            prompt,
+            options: {
+                systemPrompt: getAgentSystemPrompt(),
+                model,
+                mcpServers: {
+                    'peakinfer-analyzer': mcpServer,
+                },
+                permissionMode: 'default',
+                cwd: scanResult.root,
+            },
+        });
+        // Collect all messages from the agent
+        const messages = [];
+        for await (const message of agentQuery) {
+            messages.push(message);
+            if (verbose && message.type === 'assistant') {
+                // Log tool usage for debugging
+                if (message.message?.content) {
+                    for (const block of message.message.content) {
+                        if (block.type === 'tool_use') {
+                            console.log(`[agent] Tool: ${block.name}`);
+                        }
+                    }
+                }
+            }
+        }
+        if (verbose) {
+            console.log('[agent] Analysis complete');
+            console.log(`[agent] Found ${ctx.reportedCallsites.length} callsites`);
+        }
+        return {
+            callsites: ctx.reportedCallsites,
+            insights: [],
+        };
+    }
+    catch (error) {
+        // If primary model fails, try fallback
+        const fallbackModel = getConfiguredModel('agent', true);
+        if (verbose) {
+            console.log(`[agent] ${model} failed, trying ${fallbackModel}`);
+        }
+        const agentQuery = query({
+            prompt,
+            options: {
+                systemPrompt: getAgentSystemPrompt(),
+                model: fallbackModel,
+                mcpServers: {
+                    'peakinfer-analyzer': mcpServer,
+                },
+                permissionMode: 'default',
+                cwd: scanResult.root,
+            },
+        });
+        for await (const message of agentQuery) {
+            if (verbose && message.type === 'assistant') {
+                if (message.message?.content) {
+                    for (const block of message.message.content) {
+                        if (block.type === 'tool_use') {
+                            console.log(`[agent] Tool: ${block.name}`);
+                        }
+                    }
+                }
+            }
+        }
+        if (verbose) {
+            console.log('[agent] Analysis complete (fallback)');
+        }
+        return {
+            callsites: ctx.reportedCallsites,
+            insights: [],
+        };
+    }
+}
+// =============================================================================
+// INTEGRATION HELPER
+// =============================================================================
+function generateCallsiteId(file, line) {
+    const hash = createHash('sha256')
+        .update(`${file}:${line}`)
+        .digest('hex')
+        .slice(0, 8);
+    return `cs_${hash}`;
+}
+/**
+ * Convert agent results to standard Callsite format
+ */
+export function convertAgentCallsites(agentCallsites) {
+    return agentCallsites.map(ac => ({
+        id: generateCallsiteId(ac.file, ac.line),
+        file: ac.file,
+        line: ac.line,
+        provider: ac.provider,
+        model: ac.model,
+        framework: ac.framework,
+        runtime: null,
+        patterns: ac.patterns,
+        confidence: ac.confidence,
+    }));
+}
+//# sourceMappingURL=agent-analyzer.js.map