npm - @peakinfer/cli - Versions diffs - 1.0.133 - Mend

@peakinfer/cli 1.0.133

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (367) hide show

package/.claude/settings.local.json +8 -0
package/.env.example +6 -0
package/.github/workflows/peakinfer.yml +64 -0
package/CHANGELOG.md +31 -0
package/LICENSE +190 -0
package/README.md +335 -0
package/data/inferencemax.json +274 -0
package/dist/agent-analyzer.d.ts +45 -0
package/dist/agent-analyzer.d.ts.map +1 -0
package/dist/agent-analyzer.js +374 -0
package/dist/agent-analyzer.js.map +1 -0
package/dist/agent.d.ts +76 -0
package/dist/agent.d.ts.map +1 -0
package/dist/agent.js +965 -0
package/dist/agent.js.map +1 -0
package/dist/agents/correlation-analyzer.d.ts +34 -0
package/dist/agents/correlation-analyzer.d.ts.map +1 -0
package/dist/agents/correlation-analyzer.js +261 -0
package/dist/agents/correlation-analyzer.js.map +1 -0
package/dist/agents/index.d.ts +91 -0
package/dist/agents/index.d.ts.map +1 -0
package/dist/agents/index.js +111 -0
package/dist/agents/index.js.map +1 -0
package/dist/agents/runtime-analyzer.d.ts +38 -0
package/dist/agents/runtime-analyzer.d.ts.map +1 -0
package/dist/agents/runtime-analyzer.js +244 -0
package/dist/agents/runtime-analyzer.js.map +1 -0
package/dist/analysis-types.d.ts +500 -0
package/dist/analysis-types.d.ts.map +1 -0
package/dist/analysis-types.js +11 -0
package/dist/analysis-types.js.map +1 -0
package/dist/analytics.d.ts +25 -0
package/dist/analytics.d.ts.map +1 -0
package/dist/analytics.js +94 -0
package/dist/analytics.js.map +1 -0
package/dist/analyzer.d.ts +48 -0
package/dist/analyzer.d.ts.map +1 -0
package/dist/analyzer.js +547 -0
package/dist/analyzer.js.map +1 -0
package/dist/artifacts.d.ts +44 -0
package/dist/artifacts.d.ts.map +1 -0
package/dist/artifacts.js +165 -0
package/dist/artifacts.js.map +1 -0
package/dist/benchmarks/index.d.ts +88 -0
package/dist/benchmarks/index.d.ts.map +1 -0
package/dist/benchmarks/index.js +205 -0
package/dist/benchmarks/index.js.map +1 -0
package/dist/cli.d.ts +3 -0
package/dist/cli.d.ts.map +1 -0
package/dist/cli.js +427 -0
package/dist/cli.js.map +1 -0
package/dist/commands/ci.d.ts +19 -0
package/dist/commands/ci.d.ts.map +1 -0
package/dist/commands/ci.js +253 -0
package/dist/commands/ci.js.map +1 -0
package/dist/commands/config.d.ts +16 -0
package/dist/commands/config.d.ts.map +1 -0
package/dist/commands/config.js +249 -0
package/dist/commands/config.js.map +1 -0
package/dist/commands/demo.d.ts +15 -0
package/dist/commands/demo.d.ts.map +1 -0
package/dist/commands/demo.js +106 -0
package/dist/commands/demo.js.map +1 -0
package/dist/commands/export.d.ts +14 -0
package/dist/commands/export.d.ts.map +1 -0
package/dist/commands/export.js +209 -0
package/dist/commands/export.js.map +1 -0
package/dist/commands/history.d.ts +15 -0
package/dist/commands/history.d.ts.map +1 -0
package/dist/commands/history.js +389 -0
package/dist/commands/history.js.map +1 -0
package/dist/commands/template.d.ts +14 -0
package/dist/commands/template.d.ts.map +1 -0
package/dist/commands/template.js +341 -0
package/dist/commands/template.js.map +1 -0
package/dist/commands/validate-map.d.ts +12 -0
package/dist/commands/validate-map.d.ts.map +1 -0
package/dist/commands/validate-map.js +274 -0
package/dist/commands/validate-map.js.map +1 -0
package/dist/commands/whatif.d.ts +17 -0
package/dist/commands/whatif.d.ts.map +1 -0
package/dist/commands/whatif.js +206 -0
package/dist/commands/whatif.js.map +1 -0
package/dist/comparison.d.ts +38 -0
package/dist/comparison.d.ts.map +1 -0
package/dist/comparison.js +223 -0
package/dist/comparison.js.map +1 -0
package/dist/config.d.ts +42 -0
package/dist/config.d.ts.map +1 -0
package/dist/config.js +158 -0
package/dist/config.js.map +1 -0
package/dist/connectors/helicone.d.ts +9 -0
package/dist/connectors/helicone.d.ts.map +1 -0
package/dist/connectors/helicone.js +106 -0
package/dist/connectors/helicone.js.map +1 -0
package/dist/connectors/index.d.ts +37 -0
package/dist/connectors/index.d.ts.map +1 -0
package/dist/connectors/index.js +65 -0
package/dist/connectors/index.js.map +1 -0
package/dist/connectors/langsmith.d.ts +9 -0
package/dist/connectors/langsmith.d.ts.map +1 -0
package/dist/connectors/langsmith.js +122 -0
package/dist/connectors/langsmith.js.map +1 -0
package/dist/connectors/types.d.ts +83 -0
package/dist/connectors/types.d.ts.map +1 -0
package/dist/connectors/types.js +98 -0
package/dist/connectors/types.js.map +1 -0
package/dist/cost-estimator.d.ts +46 -0
package/dist/cost-estimator.d.ts.map +1 -0
package/dist/cost-estimator.js +104 -0
package/dist/cost-estimator.js.map +1 -0
package/dist/costs.d.ts +57 -0
package/dist/costs.d.ts.map +1 -0
package/dist/costs.js +251 -0
package/dist/costs.js.map +1 -0
package/dist/counterfactuals.d.ts +29 -0
package/dist/counterfactuals.d.ts.map +1 -0
package/dist/counterfactuals.js +448 -0
package/dist/counterfactuals.js.map +1 -0
package/dist/enhancement-prompts.d.ts +41 -0
package/dist/enhancement-prompts.d.ts.map +1 -0
package/dist/enhancement-prompts.js +88 -0
package/dist/enhancement-prompts.js.map +1 -0
package/dist/envelopes.d.ts +20 -0
package/dist/envelopes.d.ts.map +1 -0
package/dist/envelopes.js +790 -0
package/dist/envelopes.js.map +1 -0
package/dist/format-normalizer.d.ts +71 -0
package/dist/format-normalizer.d.ts.map +1 -0
package/dist/format-normalizer.js +1331 -0
package/dist/format-normalizer.js.map +1 -0
package/dist/history.d.ts +79 -0
package/dist/history.d.ts.map +1 -0
package/dist/history.js +313 -0
package/dist/history.js.map +1 -0
package/dist/html.d.ts +11 -0
package/dist/html.d.ts.map +1 -0
package/dist/html.js +463 -0
package/dist/html.js.map +1 -0
package/dist/impact.d.ts +42 -0
package/dist/impact.d.ts.map +1 -0
package/dist/impact.js +443 -0
package/dist/impact.js.map +1 -0
package/dist/index.d.ts +26 -0
package/dist/index.d.ts.map +1 -0
package/dist/index.js +34 -0
package/dist/index.js.map +1 -0
package/dist/insights.d.ts +5 -0
package/dist/insights.d.ts.map +1 -0
package/dist/insights.js +271 -0
package/dist/insights.js.map +1 -0
package/dist/joiner.d.ts +9 -0
package/dist/joiner.d.ts.map +1 -0
package/dist/joiner.js +247 -0
package/dist/joiner.js.map +1 -0
package/dist/orchestrator.d.ts +34 -0
package/dist/orchestrator.d.ts.map +1 -0
package/dist/orchestrator.js +827 -0
package/dist/orchestrator.js.map +1 -0
package/dist/pdf.d.ts +26 -0
package/dist/pdf.d.ts.map +1 -0
package/dist/pdf.js +84 -0
package/dist/pdf.js.map +1 -0
package/dist/prediction.d.ts +33 -0
package/dist/prediction.d.ts.map +1 -0
package/dist/prediction.js +316 -0
package/dist/prediction.js.map +1 -0
package/dist/prompts/loader.d.ts +38 -0
package/dist/prompts/loader.d.ts.map +1 -0
package/dist/prompts/loader.js +60 -0
package/dist/prompts/loader.js.map +1 -0
package/dist/renderer.d.ts +64 -0
package/dist/renderer.d.ts.map +1 -0
package/dist/renderer.js +923 -0
package/dist/renderer.js.map +1 -0
package/dist/runid.d.ts +57 -0
package/dist/runid.d.ts.map +1 -0
package/dist/runid.js +199 -0
package/dist/runid.js.map +1 -0
package/dist/runtime.d.ts +29 -0
package/dist/runtime.d.ts.map +1 -0
package/dist/runtime.js +366 -0
package/dist/runtime.js.map +1 -0
package/dist/scanner.d.ts +11 -0
package/dist/scanner.d.ts.map +1 -0
package/dist/scanner.js +426 -0
package/dist/scanner.js.map +1 -0
package/dist/templates.d.ts +120 -0
package/dist/templates.d.ts.map +1 -0
package/dist/templates.js +429 -0
package/dist/templates.js.map +1 -0
package/dist/tools/index.d.ts +153 -0
package/dist/tools/index.d.ts.map +1 -0
package/dist/tools/index.js +177 -0
package/dist/tools/index.js.map +1 -0
package/dist/types.d.ts +3647 -0
package/dist/types.d.ts.map +1 -0
package/dist/types.js +703 -0
package/dist/types.js.map +1 -0
package/dist/version.d.ts +7 -0
package/dist/version.d.ts.map +1 -0
package/dist/version.js +23 -0
package/dist/version.js.map +1 -0
package/docs/demo-guide.md +423 -0
package/docs/events-format.md +295 -0
package/docs/inferencemap-spec.md +344 -0
package/docs/migration-v2.md +293 -0
package/fixtures/demo/precomputed.json +142 -0
package/fixtures/demo-project/README.md +52 -0
package/fixtures/demo-project/ai-service.ts +65 -0
package/fixtures/demo-project/sample-events.jsonl +15 -0
package/fixtures/demo-project/src/ai-service.ts +128 -0
package/fixtures/demo-project/src/llm-client.ts +155 -0
package/package.json +65 -0
package/prompts/agent-analyzer.yaml +47 -0
package/prompts/ci-gate.yaml +98 -0
package/prompts/correlation-analyzer.yaml +178 -0
package/prompts/format-normalizer.yaml +46 -0
package/prompts/peak-performance.yaml +180 -0
package/prompts/pr-comment.yaml +111 -0
package/prompts/runtime-analyzer.yaml +189 -0
package/prompts/unified-analyzer.yaml +241 -0
package/schemas/inference-map.v0.1.json +215 -0
package/scripts/benchmark.ts +394 -0
package/scripts/demo-v1.5.sh +158 -0
package/scripts/sync-from-site.sh +197 -0
package/scripts/validate-sync.sh +178 -0
package/src/agent-analyzer.ts +481 -0
package/src/agent.ts +1232 -0
package/src/agents/correlation-analyzer.ts +353 -0
package/src/agents/index.ts +235 -0
package/src/agents/runtime-analyzer.ts +343 -0
package/src/analysis-types.ts +558 -0
package/src/analytics.ts +100 -0
package/src/analyzer.ts +692 -0
package/src/artifacts.ts +218 -0
package/src/benchmarks/index.ts +309 -0
package/src/cli.ts +503 -0
package/src/commands/ci.ts +336 -0
package/src/commands/config.ts +288 -0
package/src/commands/demo.ts +175 -0
package/src/commands/export.ts +297 -0
package/src/commands/history.ts +425 -0
package/src/commands/template.ts +385 -0
package/src/commands/validate-map.ts +324 -0
package/src/commands/whatif.ts +272 -0
package/src/comparison.ts +283 -0
package/src/config.ts +188 -0
package/src/connectors/helicone.ts +164 -0
package/src/connectors/index.ts +93 -0
package/src/connectors/langsmith.ts +179 -0
package/src/connectors/types.ts +180 -0
package/src/cost-estimator.ts +146 -0
package/src/costs.ts +347 -0
package/src/counterfactuals.ts +516 -0
package/src/enhancement-prompts.ts +118 -0
package/src/envelopes.ts +814 -0
package/src/format-normalizer.ts +1486 -0
package/src/history.ts +400 -0
package/src/html.ts +512 -0
package/src/impact.ts +522 -0
package/src/index.ts +83 -0
package/src/insights.ts +341 -0
package/src/joiner.ts +289 -0
package/src/orchestrator.ts +1015 -0
package/src/pdf.ts +110 -0
package/src/prediction.ts +392 -0
package/src/prompts/loader.ts +88 -0
package/src/renderer.ts +1045 -0
package/src/runid.ts +261 -0
package/src/runtime.ts +450 -0
package/src/scanner.ts +508 -0
package/src/templates.ts +561 -0
package/src/tools/index.ts +214 -0
package/src/types.ts +873 -0
package/src/version.ts +24 -0
package/templates/context-accumulation.yaml +23 -0
package/templates/cost-concentration.yaml +20 -0
package/templates/dead-code.yaml +20 -0
package/templates/latency-explainer.yaml +23 -0
package/templates/optimizations/ab-testing-framework.yaml +74 -0
package/templates/optimizations/api-gateway-optimization.yaml +81 -0
package/templates/optimizations/api-model-routing-strategy.yaml +126 -0
package/templates/optimizations/auto-scaling-optimization.yaml +85 -0
package/templates/optimizations/batch-utilization-diagnostic.yaml +142 -0
package/templates/optimizations/comprehensive-apm.yaml +76 -0
package/templates/optimizations/context-window-optimization.yaml +91 -0
package/templates/optimizations/cost-sensitive-batch-processing.yaml +77 -0
package/templates/optimizations/distributed-training-optimization.yaml +77 -0
package/templates/optimizations/document-analysis-edge.yaml +77 -0
package/templates/optimizations/document-pipeline-optimization.yaml +78 -0
package/templates/optimizations/domain-specific-distillation.yaml +78 -0
package/templates/optimizations/error-handling-optimization.yaml +76 -0
package/templates/optimizations/gptq-4bit-quantization.yaml +96 -0
package/templates/optimizations/long-context-memory-management.yaml +78 -0
package/templates/optimizations/max-tokens-optimization.yaml +76 -0
package/templates/optimizations/memory-bandwidth-optimization.yaml +73 -0
package/templates/optimizations/multi-framework-resilience.yaml +75 -0
package/templates/optimizations/multi-tenant-optimization.yaml +75 -0
package/templates/optimizations/prompt-caching-optimization.yaml +143 -0
package/templates/optimizations/pytorch-to-onnx-migration.yaml +109 -0
package/templates/optimizations/quality-monitoring.yaml +74 -0
package/templates/optimizations/realtime-budget-controls.yaml +74 -0
package/templates/optimizations/realtime-latency-optimization.yaml +74 -0
package/templates/optimizations/sglang-concurrency-optimization.yaml +78 -0
package/templates/optimizations/smart-model-routing.yaml +96 -0
package/templates/optimizations/streaming-batch-selection.yaml +167 -0
package/templates/optimizations/system-prompt-optimization.yaml +75 -0
package/templates/optimizations/tensorrt-llm-performance.yaml +77 -0
package/templates/optimizations/vllm-high-throughput-optimization.yaml +93 -0
package/templates/optimizations/vllm-migration-memory-bound.yaml +78 -0
package/templates/overpowered-extraction.yaml +32 -0
package/templates/overpowered-model.yaml +31 -0
package/templates/prompt-bloat.yaml +24 -0
package/templates/retry-explosion.yaml +28 -0
package/templates/schema/insight.schema.json +113 -0
package/templates/schema/optimization.schema.json +180 -0
package/templates/streaming-drift.yaml +30 -0
package/templates/throughput-gap.yaml +21 -0
package/templates/token-underutilization.yaml +28 -0
package/templates/untested-fallback.yaml +21 -0
package/tests/accuracy/drift-detection.test.ts +184 -0
package/tests/accuracy/false-positives.test.ts +166 -0
package/tests/accuracy/templates.test.ts +205 -0
package/tests/action/commands.test.ts +125 -0
package/tests/action/comments.test.ts +347 -0
package/tests/cli.test.ts +203 -0
package/tests/comparison.test.ts +309 -0
package/tests/correlation-analyzer.test.ts +534 -0
package/tests/counterfactuals.test.ts +347 -0
package/tests/fixtures/events/missing-id.jsonl +1 -0
package/tests/fixtures/events/missing-input.jsonl +1 -0
package/tests/fixtures/events/missing-latency.jsonl +1 -0
package/tests/fixtures/events/missing-model.jsonl +1 -0
package/tests/fixtures/events/missing-output.jsonl +1 -0
package/tests/fixtures/events/missing-provider.jsonl +1 -0
package/tests/fixtures/events/missing-ts.jsonl +1 -0
package/tests/fixtures/events/valid.csv +3 -0
package/tests/fixtures/events/valid.json +1 -0
package/tests/fixtures/events/valid.jsonl +2 -0
package/tests/fixtures/events/with-callsite.jsonl +1 -0
package/tests/fixtures/events/with-intent.jsonl +1 -0
package/tests/fixtures/events/wrong-type.jsonl +1 -0
package/tests/fixtures/repos/empty/.gitkeep +0 -0
package/tests/fixtures/repos/hybrid-router/router.py +35 -0
package/tests/fixtures/repos/saas-anthropic/agent.ts +27 -0
package/tests/fixtures/repos/saas-openai/assistant.js +33 -0
package/tests/fixtures/repos/saas-openai/client.py +26 -0
package/tests/fixtures/repos/self-hosted-vllm/inference.py +22 -0
package/tests/github-action.test.ts +292 -0
package/tests/insights.test.ts +878 -0
package/tests/joiner.test.ts +168 -0
package/tests/performance/action-latency.test.ts +132 -0
package/tests/performance/benchmark.test.ts +189 -0
package/tests/performance/cli-latency.test.ts +102 -0
package/tests/pr-comment.test.ts +313 -0
package/tests/prediction.test.ts +296 -0
package/tests/runtime-analyzer.test.ts +375 -0
package/tests/runtime.test.ts +205 -0
package/tests/scanner.test.ts +122 -0
package/tests/template-conformance.test.ts +526 -0
package/tests/unit/cost-calculator.test.ts +303 -0
package/tests/unit/credits.test.ts +180 -0
package/tests/unit/inference-map.test.ts +276 -0
package/tests/unit/schema.test.ts +300 -0
package/tsconfig.json +20 -0
package/vitest.config.ts +14 -0

package/src/pdf.ts ADDED Viewed

@@ -0,0 +1,110 @@
+/**
+ * PDF Generation Module
+ * Converts HTML reports to well-formatted PDFs using Puppeteer
+ *
+ * Julie Zhou Design Principles:
+ * - "Reports exist to enable sharing, not exploration"
+ * - PDFs should be print-ready and professional
+ */
+import puppeteer from 'puppeteer';
+// =============================================================================
+// TYPES
+// =============================================================================
+export interface PDFOptions {
+  format?: 'A4' | 'Letter';
+  margin?: {
+    top?: string;
+    right?: string;
+    bottom?: string;
+    left?: string;
+  };
+  printBackground?: boolean;
+}
+// =============================================================================
+// PUBLIC API
+// =============================================================================
+/**
+ * Generate a PDF from HTML content
+ * @param htmlContent - The HTML string to convert
+ * @param outputPath - Where to save the PDF
+ * @param options - PDF formatting options
+ */
+export async function generatePDF(
+  htmlContent: string,
+  outputPath: string,
+  options: PDFOptions = {}
+): Promise<void> {
+  const browser = await puppeteer.launch({
+    headless: true,
+    args: ['--no-sandbox', '--disable-setuid-sandbox'],
+  });
+  try {
+    const page = await browser.newPage();
+    // Set content and wait for styles to load
+    await page.setContent(htmlContent, {
+      waitUntil: 'networkidle0',
+    });
+    // Expand all <details> elements - PDFs are static, so collapsible sections must be open
+    // Julie Zhou: "Reports exist to enable sharing, not exploration"
+    await page.evaluate(`
+      document.querySelectorAll('details').forEach(d => d.setAttribute('open', ''));
+    `);
+    // Add print-specific styles for better PDF rendering
+    await page.addStyleTag({
+      content: `
+        @media print {
+          body {
+            -webkit-print-color-adjust: exact !important;
+            print-color-adjust: exact !important;
+          }
+          .finding {
+            break-inside: avoid;
+          }
+          details {
+            break-inside: avoid;
+          }
+          section {
+            break-inside: avoid-page;
+          }
+        }
+      `,
+    });
+    // Generate PDF with professional formatting
+    await page.pdf({
+      path: outputPath,
+      format: options.format || 'A4',
+      margin: options.margin || {
+        top: '20mm',
+        right: '15mm',
+        bottom: '20mm',
+        left: '15mm',
+      },
+      printBackground: options.printBackground !== false,
+      displayHeaderFooter: true,
+      headerTemplate: `
+        <div style="font-size: 9px; color: #6b7280; width: 100%; text-align: center; padding: 5px 0;">
+          PeakInfer Report
+        </div>
+      `,
+      footerTemplate: `
+        <div style="font-size: 9px; color: #6b7280; width: 100%; display: flex; justify-content: space-between; padding: 5px 15mm;">
+          <span>Generated by PeakInfer</span>
+          <span>Page <span class="pageNumber"></span> of <span class="totalPages"></span></span>
+        </div>
+      `,
+    });
+  } finally {
+    await browser.close();
+  }
+}

package/src/prediction.ts ADDED Viewed

@@ -0,0 +1,392 @@
+/**
+ * Deploy-Time Prediction Module (v1.5)
+ *
+ * Generates latency predictions for inference points based on:
+ * - Model characteristics (from pricing/envelopes data)
+ * - Historical runtime data (if available)
+ * - Pattern detection (streaming, batching, caching)
+ *
+ * Surfaces potential performance risks before deployment
+ * to enable informed deployment decisions.
+ */
+import type {
+  Callsite,
+  InferenceMap,
+  RuntimeSummary,
+  PredictionResult,
+  InferencePointPrediction,
+  PredictionSummary,
+  PredictionFactor,
+  RiskLevel,
+  LatencyPercentiles,
+} from './types.js';
+import { listRuns, loadRun } from './history.js';
+// =============================================================================
+// CONSTANTS
+// =============================================================================
+// Model latency estimates (ms) - heuristic defaults
+const MODEL_LATENCY_ESTIMATES: Record<string, LatencyPercentiles> = {
+  // OpenAI models
+  'gpt-4': { p50: 2000, p95: 5000, p99: 8000 },
+  'gpt-4-turbo': { p50: 1500, p95: 4000, p99: 6000 },
+  'gpt-4o': { p50: 1000, p95: 2500, p99: 4000 },
+  'gpt-4o-mini': { p50: 500, p95: 1500, p99: 2500 },
+  'gpt-3.5-turbo': { p50: 500, p95: 1500, p99: 2500 },
+  'o1-preview': { p50: 5000, p95: 15000, p99: 30000 },
+  'o1-mini': { p50: 2000, p95: 6000, p99: 10000 },
+  // Anthropic models
+  'claude-3-opus': { p50: 3000, p95: 8000, p99: 15000 },
+  'claude-3-sonnet': { p50: 1500, p95: 4000, p99: 7000 },
+  'claude-3-haiku': { p50: 500, p95: 1500, p99: 2500 },
+  'claude-3.5-sonnet': { p50: 1200, p95: 3500, p99: 6000 },
+  // Google models
+  'gemini-pro': { p50: 1000, p95: 3000, p99: 5000 },
+  'gemini-1.5-pro': { p50: 1500, p95: 4000, p99: 7000 },
+  'gemini-1.5-flash': { p50: 300, p95: 800, p99: 1500 },
+  // Default for unknown models
+  'unknown': { p50: 1000, p95: 3000, p99: 5000 },
+};
+// Risk thresholds (p95 latency in ms)
+const RISK_THRESHOLDS = {
+  high: 5000,    // > 5s p95 = high risk
+  medium: 2000,  // > 2s p95 = medium risk
+  low: 500,      // > 500ms p95 = low risk
+};
+// =============================================================================
+// TYPES
+// =============================================================================
+export interface PredictOptions {
+  targetP95?: number;         // User-specified target p95 latency (ms)
+  includeHistorical?: boolean; // Include historical data if available
+}
+// =============================================================================
+// HELPERS
+// =============================================================================
+/**
+ * Get model latency estimate from known models or default.
+ */
+function getModelLatencyEstimate(model: string | null): LatencyPercentiles {
+  if (!model) return MODEL_LATENCY_ESTIMATES['unknown'];
+  // Try exact match first
+  const normalized = model.toLowerCase();
+  for (const [key, estimate] of Object.entries(MODEL_LATENCY_ESTIMATES)) {
+    if (normalized.includes(key.toLowerCase())) {
+      return estimate;
+    }
+  }
+  return MODEL_LATENCY_ESTIMATES['unknown'];
+}
+/**
+ * Calculate risk level based on p95 latency.
+ */
+function calculateRiskLevel(p95: number): RiskLevel {
+  if (p95 > RISK_THRESHOLDS.high) return 'high';
+  if (p95 > RISK_THRESHOLDS.medium) return 'medium';
+  if (p95 > RISK_THRESHOLDS.low) return 'low';
+  return 'neutral';
+}
+/**
+ * Calculate risk score (0-100) based on p95 latency.
+ */
+function calculateRiskScore(p95: number): number {
+  // Scale: 0ms = 0, 10000ms = 100
+  return Math.min(100, Math.round((p95 / 10000) * 100));
+}
+/**
+ * Generate prediction factors based on inference point patterns.
+ */
+function generateFactors(callsite: Callsite): PredictionFactor[] {
+  const factors: PredictionFactor[] = [];
+  // Model complexity factor
+  if (callsite.model) {
+    const isComplex = callsite.model.toLowerCase().includes('opus') ||
+                      callsite.model.toLowerCase().includes('gpt-4') ||
+                      callsite.model.toLowerCase().includes('o1');
+    factors.push({
+      name: 'Model complexity',
+      impact: isComplex ? 'negative' : 'positive',
+      description: isComplex
+        ? `${callsite.model} is a high-capability model with longer inference times`
+        : `${callsite.model} is optimized for speed`,
+      weight: 0.4,
+    });
+  }
+  // Streaming factor
+  if (callsite.patterns?.streaming) {
+    factors.push({
+      name: 'Streaming enabled',
+      impact: 'positive',
+      description: 'Streaming reduces perceived latency with incremental responses',
+      weight: 0.2,
+    });
+  } else {
+    factors.push({
+      name: 'No streaming',
+      impact: 'negative',
+      description: 'Synchronous requests block until complete response',
+      weight: 0.1,
+    });
+  }
+  // Batching factor
+  if (callsite.patterns?.batching) {
+    factors.push({
+      name: 'Batching enabled',
+      impact: 'positive',
+      description: 'Batching improves throughput and reduces per-request overhead',
+      weight: 0.2,
+    });
+  }
+  // Caching factor
+  if (callsite.patterns?.caching) {
+    factors.push({
+      name: 'Caching enabled',
+      impact: 'positive',
+      description: 'Cache hits bypass LLM entirely for near-zero latency',
+      weight: 0.3,
+    });
+  }
+  // Retry factor
+  if (callsite.patterns?.retries) {
+    factors.push({
+      name: 'Retry logic',
+      impact: 'neutral',
+      description: 'Retries improve reliability but may increase tail latency',
+      weight: 0.1,
+    });
+  }
+  // Provider factor
+  if (callsite.provider) {
+    const provider = callsite.provider.toLowerCase();
+    if (provider === 'openai' || provider === 'anthropic') {
+      factors.push({
+        name: 'Cloud provider',
+        impact: 'neutral',
+        description: `${callsite.provider} hosted service with variable latency`,
+        weight: 0.1,
+      });
+    } else if (['vllm', 'sglang', 'tgi', 'ollama'].includes(provider)) {
+      factors.push({
+        name: 'Self-hosted runtime',
+        impact: 'positive',
+        description: 'Self-hosted inference offers consistent, controllable latency',
+        weight: 0.2,
+      });
+    }
+  }
+  return factors;
+}
+/**
+ * Adjust latency estimate based on patterns.
+ */
+function adjustLatencyForPatterns(
+  base: LatencyPercentiles,
+  patterns: Callsite['patterns']
+): LatencyPercentiles {
+  let multiplier = 1.0;
+  // Streaming doesn't change total latency but improves UX
+  // We still report actual latency
+  // Batching can reduce per-request latency
+  if (patterns?.batching) {
+    multiplier *= 0.8;
+  }
+  // Caching dramatically reduces effective latency (assuming 50% hit rate)
+  if (patterns?.caching) {
+    multiplier *= 0.6;
+  }
+  return {
+    p50: Math.round(base.p50 * multiplier),
+    p95: Math.round(base.p95 * multiplier),
+    p99: Math.round(base.p99 * multiplier),
+  };
+}
+// =============================================================================
+// PUBLIC API
+// =============================================================================
+/**
+ * Generate predictions for inference points.
+ */
+export function generatePredictions(
+  inferenceMap: InferenceMap,
+  historicalRuns: number = 0,
+  options: PredictOptions = {}
+): PredictionResult {
+  const predictions: InferencePointPrediction[] = [];
+  for (const callsite of inferenceMap.callsites) {
+    // Get base latency estimate from model
+    const baseLatency = getModelLatencyEstimate(callsite.model);
+    // Adjust for patterns
+    const predictedLatency = adjustLatencyForPatterns(baseLatency, callsite.patterns);
+    // Generate factors
+    const factors = generateFactors(callsite);
+    // Calculate risk
+    const risk = calculateRiskLevel(predictedLatency.p95);
+    const riskScore = calculateRiskScore(predictedLatency.p95);
+    // Determine confidence
+    const hasModel = !!callsite.model;
+    const hasPatterns = Object.values(callsite.patterns || {}).some(v => v);
+    const confidence = hasModel && hasPatterns ? 'high' :
+                       hasModel || hasPatterns ? 'medium' : 'low';
+    predictions.push({
+      inferencePointId: callsite.id,
+      location: `${callsite.file}:${callsite.line}`,
+      provider: callsite.provider || undefined,
+      model: callsite.model || undefined,
+      predictedLatency,
+      risk,
+      riskScore,
+      factors,
+      confidence,
+      confidenceReason: confidence === 'low'
+        ? 'Limited information available for accurate prediction'
+        : confidence === 'medium'
+        ? 'Based on model characteristics'
+        : 'Based on model and pattern analysis',
+    });
+  }
+  // Calculate summary
+  const summary = calculateSummary(predictions, options.targetP95);
+  return {
+    predictions,
+    summary,
+    targetP95: options.targetP95,
+    generatedAt: new Date().toISOString(),
+    basedOnRuns: historicalRuns,
+  };
+}
+/**
+ * Calculate prediction summary.
+ */
+function calculateSummary(
+  predictions: InferencePointPrediction[],
+  targetP95?: number
+): PredictionSummary {
+  if (predictions.length === 0) {
+    return {
+      totalPoints: 0,
+      highRiskCount: 0,
+      mediumRiskCount: 0,
+      lowRiskCount: 0,
+      averageP95: 0,
+      worstP95: 0,
+    };
+  }
+  const p95Values = predictions.map(p => p.predictedLatency.p95);
+  const averageP95 = Math.round(p95Values.reduce((a, b) => a + b, 0) / p95Values.length);
+  const worstP95 = Math.max(...p95Values);
+  return {
+    totalPoints: predictions.length,
+    highRiskCount: predictions.filter(p => p.risk === 'high').length,
+    mediumRiskCount: predictions.filter(p => p.risk === 'medium').length,
+    lowRiskCount: predictions.filter(p => p.risk === 'low').length,
+    averageP95,
+    worstP95,
+    budgetExceeded: targetP95 ? worstP95 > targetP95 : undefined,
+  };
+}
+/**
+ * Generate predictions with historical context.
+ */
+export async function generatePredictionsWithHistory(
+  inferenceMap: InferenceMap,
+  path: string,
+  options: PredictOptions = {}
+): Promise<PredictionResult> {
+  // Get historical runs for context
+  const runs = listRuns(path);
+  const historicalCount = runs.length;
+  // Generate predictions
+  const result = generatePredictions(inferenceMap, historicalCount, options);
+  // If we have historical data with runtime info, we could enhance predictions
+  // For now, we use heuristic-based predictions
+  // Future: Use actual runtime data from historical runs
+  return result;
+}
+/**
+ * Format a prediction summary for display.
+ */
+export function formatPredictionSummary(result: PredictionResult): string {
+  const { summary, targetP95 } = result;
+  const lines: string[] = [];
+  lines.push(`Deploy-time prediction for ${summary.totalPoints} inference points`);
+  lines.push('');
+  // Risk breakdown
+  if (summary.highRiskCount > 0) {
+    lines.push(`  [!] ${summary.highRiskCount} high-risk (p95 > ${RISK_THRESHOLDS.high}ms)`);
+  }
+  if (summary.mediumRiskCount > 0) {
+    lines.push(`  [*] ${summary.mediumRiskCount} medium-risk (p95 > ${RISK_THRESHOLDS.medium}ms)`);
+  }
+  if (summary.lowRiskCount > 0) {
+    lines.push(`  [-] ${summary.lowRiskCount} low-risk`);
+  }
+  lines.push('');
+  lines.push(`  Average p95: ${summary.averageP95}ms`);
+  lines.push(`  Worst p95: ${summary.worstP95}ms`);
+  // Budget check
+  if (targetP95) {
+    if (summary.budgetExceeded) {
+      lines.push(`  [!] Budget exceeded: worst p95 ${summary.worstP95}ms > target ${targetP95}ms`);
+    } else {
+      lines.push(`  [OK] Within budget: worst p95 ${summary.worstP95}ms <= target ${targetP95}ms`);
+    }
+  }
+  return lines.join('\n');
+}
+/**
+ * Check if predictions have any high-risk items.
+ */
+export function hasHighRiskPredictions(result: PredictionResult): boolean {
+  return result.summary.highRiskCount > 0;
+}

package/src/prompts/loader.ts ADDED Viewed

@@ -0,0 +1,88 @@
+/**
+ * =============================================================================
+ * SYNC NOTE: This file is copied from peakinfer-site (SOURCE OF TRUTH)
+ * Source: peakinfer-site/lib/prompts/loader.ts
+ *
+ * DO NOT MODIFY THIS FILE DIRECTLY IN THE CLI REPO.
+ * All changes must be made in peakinfer-site first, then synced here.
+ * =============================================================================
+ */
+/**
+ * Prompt Loader
+ * Loads prompts from YAML config files for consistency with CLI
+ */
+import * as fs from 'fs';
+import * as path from 'path';
+import * as yaml from 'yaml';
+import { fileURLToPath } from 'url';
+export interface PromptConfig {
+  id: string;
+  name: string;
+  version: string;
+  description: string;
+  system: string;
+  user_template?: string;
+  input_schema?: Record<string, string>;
+  output_format?: unknown;
+  constraints?: string[];
+  defaults?: Record<string, unknown>;
+}
+/**
+ * Load a prompt config from YAML file
+ * Note: No caching - always reads fresh to ensure latest prompts are used
+ */
+export function loadPrompt(promptId: string): PromptConfig {
+  // Determine prompts directory path - works in ESM
+  const __filename = fileURLToPath(import.meta.url);
+  const __dirname = path.dirname(__filename);
+  // Go up from src/prompts to root, then into prompts/
+  const promptsDir = path.resolve(__dirname, '../../prompts');
+  const promptPath = path.join(promptsDir, `${promptId}.yaml`);
+  if (!fs.existsSync(promptPath)) {
+    throw new Error(`Prompt config not found: ${promptPath}`);
+  }
+  const content = fs.readFileSync(promptPath, 'utf-8');
+  const config = yaml.parse(content) as PromptConfig;
+  // Validate required fields
+  if (!config.id || !config.system) {
+    throw new Error(`Invalid prompt config: ${promptId} - missing required fields`);
+  }
+  return config;
+}
+/**
+ * Format user message using template
+ */
+export function formatUserMessage(
+  template: string,
+  variables: Record<string, string>
+): string {
+  let message = template;
+  for (const [key, value] of Object.entries(variables)) {
+    message = message.replace(new RegExp(`\\{\\{${key}\\}\\}`, 'g'), value);
+  }
+  return message;
+}
+/**
+ * Get the unified analyzer prompt
+ */
+export function getUnifiedAnalyzerPrompt(): {
+  system: string;
+  userTemplate: string;
+} {
+  const config = loadPrompt('unified-analyzer');
+  return {
+    system: config.system,
+    userTemplate: config.user_template || '',
+  };
+}