npm - @dotsetlabs/bellwether - Versions diffs - 0.10.0 - Mend

@dotsetlabs/bellwether 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (403) hide show

package/CHANGELOG.md +291 -0
package/LICENSE +21 -0
package/README.md +739 -0
package/dist/auth/credentials.d.ts +64 -0
package/dist/auth/credentials.js +218 -0
package/dist/auth/index.d.ts +6 -0
package/dist/auth/index.js +6 -0
package/dist/auth/keychain.d.ts +64 -0
package/dist/auth/keychain.js +268 -0
package/dist/baseline/ab-testing.d.ts +80 -0
package/dist/baseline/ab-testing.js +236 -0
package/dist/baseline/ai-compatibility-scorer.d.ts +95 -0
package/dist/baseline/ai-compatibility-scorer.js +606 -0
package/dist/baseline/calibration.d.ts +77 -0
package/dist/baseline/calibration.js +136 -0
package/dist/baseline/category-matching.d.ts +85 -0
package/dist/baseline/category-matching.js +289 -0
package/dist/baseline/change-impact-analyzer.d.ts +98 -0
package/dist/baseline/change-impact-analyzer.js +592 -0
package/dist/baseline/comparator.d.ts +64 -0
package/dist/baseline/comparator.js +916 -0
package/dist/baseline/confidence.d.ts +55 -0
package/dist/baseline/confidence.js +122 -0
package/dist/baseline/converter.d.ts +61 -0
package/dist/baseline/converter.js +585 -0
package/dist/baseline/dependency-analyzer.d.ts +89 -0
package/dist/baseline/dependency-analyzer.js +567 -0
package/dist/baseline/deprecation-tracker.d.ts +133 -0
package/dist/baseline/deprecation-tracker.js +322 -0
package/dist/baseline/diff.d.ts +55 -0
package/dist/baseline/diff.js +1584 -0
package/dist/baseline/documentation-scorer.d.ts +205 -0
package/dist/baseline/documentation-scorer.js +466 -0
package/dist/baseline/embeddings.d.ts +118 -0
package/dist/baseline/embeddings.js +251 -0
package/dist/baseline/error-analyzer.d.ts +198 -0
package/dist/baseline/error-analyzer.js +721 -0
package/dist/baseline/evaluation/evaluator.d.ts +42 -0
package/dist/baseline/evaluation/evaluator.js +323 -0
package/dist/baseline/evaluation/expanded-dataset.d.ts +45 -0
package/dist/baseline/evaluation/expanded-dataset.js +1164 -0
package/dist/baseline/evaluation/golden-dataset.d.ts +58 -0
package/dist/baseline/evaluation/golden-dataset.js +717 -0
package/dist/baseline/evaluation/index.d.ts +15 -0
package/dist/baseline/evaluation/index.js +15 -0
package/dist/baseline/evaluation/types.d.ts +186 -0
package/dist/baseline/evaluation/types.js +8 -0
package/dist/baseline/external-dependency-detector.d.ts +181 -0
package/dist/baseline/external-dependency-detector.js +524 -0
package/dist/baseline/golden-output.d.ts +162 -0
package/dist/baseline/golden-output.js +636 -0
package/dist/baseline/health-scorer.d.ts +174 -0
package/dist/baseline/health-scorer.js +451 -0
package/dist/baseline/incremental-checker.d.ts +97 -0
package/dist/baseline/incremental-checker.js +174 -0
package/dist/baseline/index.d.ts +31 -0
package/dist/baseline/index.js +42 -0
package/dist/baseline/migration-generator.d.ts +137 -0
package/dist/baseline/migration-generator.js +554 -0
package/dist/baseline/migrations.d.ts +60 -0
package/dist/baseline/migrations.js +197 -0
package/dist/baseline/performance-tracker.d.ts +214 -0
package/dist/baseline/performance-tracker.js +577 -0
package/dist/baseline/pr-comment-generator.d.ts +117 -0
package/dist/baseline/pr-comment-generator.js +546 -0
package/dist/baseline/response-fingerprint.d.ts +127 -0
package/dist/baseline/response-fingerprint.js +728 -0
package/dist/baseline/response-schema-tracker.d.ts +129 -0
package/dist/baseline/response-schema-tracker.js +420 -0
package/dist/baseline/risk-scorer.d.ts +54 -0
package/dist/baseline/risk-scorer.js +434 -0
package/dist/baseline/saver.d.ts +89 -0
package/dist/baseline/saver.js +554 -0
package/dist/baseline/scenario-generator.d.ts +151 -0
package/dist/baseline/scenario-generator.js +905 -0
package/dist/baseline/schema-compare.d.ts +86 -0
package/dist/baseline/schema-compare.js +557 -0
package/dist/baseline/schema-evolution.d.ts +189 -0
package/dist/baseline/schema-evolution.js +467 -0
package/dist/baseline/semantic.d.ts +203 -0
package/dist/baseline/semantic.js +908 -0
package/dist/baseline/synonyms.d.ts +60 -0
package/dist/baseline/synonyms.js +386 -0
package/dist/baseline/telemetry.d.ts +165 -0
package/dist/baseline/telemetry.js +294 -0
package/dist/baseline/test-pruner.d.ts +120 -0
package/dist/baseline/test-pruner.js +387 -0
package/dist/baseline/types.d.ts +449 -0
package/dist/baseline/types.js +5 -0
package/dist/baseline/version.d.ts +138 -0
package/dist/baseline/version.js +206 -0
package/dist/cache/index.d.ts +5 -0
package/dist/cache/index.js +5 -0
package/dist/cache/response-cache.d.ts +151 -0
package/dist/cache/response-cache.js +287 -0
package/dist/ci/index.d.ts +60 -0
package/dist/ci/index.js +342 -0
package/dist/cli/commands/auth.d.ts +12 -0
package/dist/cli/commands/auth.js +352 -0
package/dist/cli/commands/badge.d.ts +3 -0
package/dist/cli/commands/badge.js +74 -0
package/dist/cli/commands/baseline-accept.d.ts +15 -0
package/dist/cli/commands/baseline-accept.js +178 -0
package/dist/cli/commands/baseline-migrate.d.ts +12 -0
package/dist/cli/commands/baseline-migrate.js +164 -0
package/dist/cli/commands/baseline.d.ts +14 -0
package/dist/cli/commands/baseline.js +449 -0
package/dist/cli/commands/beta.d.ts +10 -0
package/dist/cli/commands/beta.js +231 -0
package/dist/cli/commands/check.d.ts +11 -0
package/dist/cli/commands/check.js +820 -0
package/dist/cli/commands/cloud/badge.d.ts +3 -0
package/dist/cli/commands/cloud/badge.js +74 -0
package/dist/cli/commands/cloud/diff.d.ts +6 -0
package/dist/cli/commands/cloud/diff.js +79 -0
package/dist/cli/commands/cloud/history.d.ts +6 -0
package/dist/cli/commands/cloud/history.js +102 -0
package/dist/cli/commands/cloud/link.d.ts +9 -0
package/dist/cli/commands/cloud/link.js +119 -0
package/dist/cli/commands/cloud/login.d.ts +7 -0
package/dist/cli/commands/cloud/login.js +499 -0
package/dist/cli/commands/cloud/projects.d.ts +6 -0
package/dist/cli/commands/cloud/projects.js +44 -0
package/dist/cli/commands/cloud/shared.d.ts +7 -0
package/dist/cli/commands/cloud/shared.js +42 -0
package/dist/cli/commands/cloud/teams.d.ts +8 -0
package/dist/cli/commands/cloud/teams.js +169 -0
package/dist/cli/commands/cloud/upload.d.ts +8 -0
package/dist/cli/commands/cloud/upload.js +181 -0
package/dist/cli/commands/contract.d.ts +11 -0
package/dist/cli/commands/contract.js +280 -0
package/dist/cli/commands/discover.d.ts +3 -0
package/dist/cli/commands/discover.js +82 -0
package/dist/cli/commands/eval.d.ts +9 -0
package/dist/cli/commands/eval.js +187 -0
package/dist/cli/commands/explore.d.ts +11 -0
package/dist/cli/commands/explore.js +437 -0
package/dist/cli/commands/feedback.d.ts +9 -0
package/dist/cli/commands/feedback.js +174 -0
package/dist/cli/commands/golden.d.ts +12 -0
package/dist/cli/commands/golden.js +407 -0
package/dist/cli/commands/history.d.ts +10 -0
package/dist/cli/commands/history.js +202 -0
package/dist/cli/commands/init.d.ts +9 -0
package/dist/cli/commands/init.js +219 -0
package/dist/cli/commands/interview.d.ts +3 -0
package/dist/cli/commands/interview.js +903 -0
package/dist/cli/commands/link.d.ts +10 -0
package/dist/cli/commands/link.js +169 -0
package/dist/cli/commands/login.d.ts +7 -0
package/dist/cli/commands/login.js +499 -0
package/dist/cli/commands/preset.d.ts +33 -0
package/dist/cli/commands/preset.js +297 -0
package/dist/cli/commands/profile.d.ts +33 -0
package/dist/cli/commands/profile.js +286 -0
package/dist/cli/commands/registry.d.ts +11 -0
package/dist/cli/commands/registry.js +146 -0
package/dist/cli/commands/shared.d.ts +79 -0
package/dist/cli/commands/shared.js +196 -0
package/dist/cli/commands/teams.d.ts +8 -0
package/dist/cli/commands/teams.js +169 -0
package/dist/cli/commands/test.d.ts +9 -0
package/dist/cli/commands/test.js +500 -0
package/dist/cli/commands/upload.d.ts +8 -0
package/dist/cli/commands/upload.js +223 -0
package/dist/cli/commands/validate-config.d.ts +6 -0
package/dist/cli/commands/validate-config.js +35 -0
package/dist/cli/commands/verify.d.ts +11 -0
package/dist/cli/commands/verify.js +283 -0
package/dist/cli/commands/watch.d.ts +12 -0
package/dist/cli/commands/watch.js +253 -0
package/dist/cli/index.d.ts +3 -0
package/dist/cli/index.js +178 -0
package/dist/cli/interactive.d.ts +47 -0
package/dist/cli/interactive.js +216 -0
package/dist/cli/output/terminal-reporter.d.ts +19 -0
package/dist/cli/output/terminal-reporter.js +104 -0
package/dist/cli/output.d.ts +226 -0
package/dist/cli/output.js +438 -0
package/dist/cli/utils/env.d.ts +5 -0
package/dist/cli/utils/env.js +14 -0
package/dist/cli/utils/progress.d.ts +59 -0
package/dist/cli/utils/progress.js +206 -0
package/dist/cli/utils/server-context.d.ts +10 -0
package/dist/cli/utils/server-context.js +36 -0
package/dist/cloud/auth.d.ts +144 -0
package/dist/cloud/auth.js +374 -0
package/dist/cloud/client.d.ts +24 -0
package/dist/cloud/client.js +65 -0
package/dist/cloud/http-client.d.ts +38 -0
package/dist/cloud/http-client.js +215 -0
package/dist/cloud/index.d.ts +23 -0
package/dist/cloud/index.js +25 -0
package/dist/cloud/mock-client.d.ts +107 -0
package/dist/cloud/mock-client.js +545 -0
package/dist/cloud/types.d.ts +515 -0
package/dist/cloud/types.js +15 -0
package/dist/config/defaults.d.ts +160 -0
package/dist/config/defaults.js +169 -0
package/dist/config/loader.d.ts +24 -0
package/dist/config/loader.js +122 -0
package/dist/config/template.d.ts +42 -0
package/dist/config/template.js +647 -0
package/dist/config/validator.d.ts +2112 -0
package/dist/config/validator.js +658 -0
package/dist/constants/cloud.d.ts +107 -0
package/dist/constants/cloud.js +110 -0
package/dist/constants/core.d.ts +521 -0
package/dist/constants/core.js +556 -0
package/dist/constants/testing.d.ts +1283 -0
package/dist/constants/testing.js +1568 -0
package/dist/constants.d.ts +10 -0
package/dist/constants.js +10 -0
package/dist/contract/index.d.ts +6 -0
package/dist/contract/index.js +5 -0
package/dist/contract/validator.d.ts +177 -0
package/dist/contract/validator.js +574 -0
package/dist/cost/index.d.ts +6 -0
package/dist/cost/index.js +5 -0
package/dist/cost/tracker.d.ts +134 -0
package/dist/cost/tracker.js +313 -0
package/dist/discovery/discovery.d.ts +16 -0
package/dist/discovery/discovery.js +173 -0
package/dist/discovery/types.d.ts +51 -0
package/dist/discovery/types.js +2 -0
package/dist/docs/agents.d.ts +3 -0
package/dist/docs/agents.js +995 -0
package/dist/docs/contract.d.ts +51 -0
package/dist/docs/contract.js +1681 -0
package/dist/docs/generator.d.ts +4 -0
package/dist/docs/generator.js +4 -0
package/dist/docs/html-reporter.d.ts +9 -0
package/dist/docs/html-reporter.js +757 -0
package/dist/docs/index.d.ts +10 -0
package/dist/docs/index.js +11 -0
package/dist/docs/junit-reporter.d.ts +18 -0
package/dist/docs/junit-reporter.js +210 -0
package/dist/docs/report.d.ts +14 -0
package/dist/docs/report.js +44 -0
package/dist/docs/sarif-reporter.d.ts +19 -0
package/dist/docs/sarif-reporter.js +335 -0
package/dist/docs/shared.d.ts +35 -0
package/dist/docs/shared.js +162 -0
package/dist/docs/templates.d.ts +12 -0
package/dist/docs/templates.js +76 -0
package/dist/errors/index.d.ts +6 -0
package/dist/errors/index.js +6 -0
package/dist/errors/retry.d.ts +92 -0
package/dist/errors/retry.js +323 -0
package/dist/errors/types.d.ts +321 -0
package/dist/errors/types.js +584 -0
package/dist/index.d.ts +32 -0
package/dist/index.js +32 -0
package/dist/interview/dependency-resolver.d.ts +11 -0
package/dist/interview/dependency-resolver.js +32 -0
package/dist/interview/interviewer.d.ts +232 -0
package/dist/interview/interviewer.js +1939 -0
package/dist/interview/mock-response-generator.d.ts +7 -0
package/dist/interview/mock-response-generator.js +102 -0
package/dist/interview/orchestrator.d.ts +237 -0
package/dist/interview/orchestrator.js +1296 -0
package/dist/interview/rate-limiter.d.ts +15 -0
package/dist/interview/rate-limiter.js +55 -0
package/dist/interview/response-validator.d.ts +10 -0
package/dist/interview/response-validator.js +132 -0
package/dist/interview/schema-inferrer.d.ts +8 -0
package/dist/interview/schema-inferrer.js +71 -0
package/dist/interview/schema-test-generator.d.ts +71 -0
package/dist/interview/schema-test-generator.js +834 -0
package/dist/interview/smart-value-generator.d.ts +155 -0
package/dist/interview/smart-value-generator.js +554 -0
package/dist/interview/stateful-test-runner.d.ts +19 -0
package/dist/interview/stateful-test-runner.js +106 -0
package/dist/interview/types.d.ts +561 -0
package/dist/interview/types.js +2 -0
package/dist/llm/anthropic.d.ts +41 -0
package/dist/llm/anthropic.js +355 -0
package/dist/llm/client.d.ts +123 -0
package/dist/llm/client.js +42 -0
package/dist/llm/factory.d.ts +38 -0
package/dist/llm/factory.js +145 -0
package/dist/llm/fallback.d.ts +140 -0
package/dist/llm/fallback.js +379 -0
package/dist/llm/index.d.ts +18 -0
package/dist/llm/index.js +15 -0
package/dist/llm/ollama.d.ts +37 -0
package/dist/llm/ollama.js +330 -0
package/dist/llm/openai.d.ts +25 -0
package/dist/llm/openai.js +320 -0
package/dist/llm/token-budget.d.ts +161 -0
package/dist/llm/token-budget.js +395 -0
package/dist/logging/logger.d.ts +70 -0
package/dist/logging/logger.js +130 -0
package/dist/metrics/collector.d.ts +106 -0
package/dist/metrics/collector.js +547 -0
package/dist/metrics/index.d.ts +7 -0
package/dist/metrics/index.js +7 -0
package/dist/metrics/prometheus.d.ts +20 -0
package/dist/metrics/prometheus.js +241 -0
package/dist/metrics/types.d.ts +209 -0
package/dist/metrics/types.js +5 -0
package/dist/persona/builtins.d.ts +54 -0
package/dist/persona/builtins.js +219 -0
package/dist/persona/index.d.ts +8 -0
package/dist/persona/index.js +8 -0
package/dist/persona/loader.d.ts +30 -0
package/dist/persona/loader.js +190 -0
package/dist/persona/types.d.ts +144 -0
package/dist/persona/types.js +5 -0
package/dist/persona/validation.d.ts +94 -0
package/dist/persona/validation.js +332 -0
package/dist/prompts/index.d.ts +5 -0
package/dist/prompts/index.js +5 -0
package/dist/prompts/templates.d.ts +180 -0
package/dist/prompts/templates.js +431 -0
package/dist/registry/client.d.ts +49 -0
package/dist/registry/client.js +191 -0
package/dist/registry/index.d.ts +7 -0
package/dist/registry/index.js +6 -0
package/dist/registry/types.d.ts +140 -0
package/dist/registry/types.js +6 -0
package/dist/scenarios/evaluator.d.ts +43 -0
package/dist/scenarios/evaluator.js +206 -0
package/dist/scenarios/index.d.ts +10 -0
package/dist/scenarios/index.js +9 -0
package/dist/scenarios/loader.d.ts +20 -0
package/dist/scenarios/loader.js +285 -0
package/dist/scenarios/types.d.ts +153 -0
package/dist/scenarios/types.js +8 -0
package/dist/security/index.d.ts +17 -0
package/dist/security/index.js +18 -0
package/dist/security/payloads.d.ts +61 -0
package/dist/security/payloads.js +268 -0
package/dist/security/security-tester.d.ts +42 -0
package/dist/security/security-tester.js +582 -0
package/dist/security/types.d.ts +166 -0
package/dist/security/types.js +8 -0
package/dist/transport/base-transport.d.ts +59 -0
package/dist/transport/base-transport.js +38 -0
package/dist/transport/http-transport.d.ts +67 -0
package/dist/transport/http-transport.js +238 -0
package/dist/transport/mcp-client.d.ts +141 -0
package/dist/transport/mcp-client.js +496 -0
package/dist/transport/sse-transport.d.ts +88 -0
package/dist/transport/sse-transport.js +316 -0
package/dist/transport/stdio-transport.d.ts +43 -0
package/dist/transport/stdio-transport.js +238 -0
package/dist/transport/types.d.ts +125 -0
package/dist/transport/types.js +16 -0
package/dist/utils/concurrency.d.ts +123 -0
package/dist/utils/concurrency.js +213 -0
package/dist/utils/formatters.d.ts +16 -0
package/dist/utils/formatters.js +37 -0
package/dist/utils/index.d.ts +8 -0
package/dist/utils/index.js +8 -0
package/dist/utils/jsonpath.d.ts +87 -0
package/dist/utils/jsonpath.js +326 -0
package/dist/utils/markdown.d.ts +113 -0
package/dist/utils/markdown.js +265 -0
package/dist/utils/network.d.ts +14 -0
package/dist/utils/network.js +17 -0
package/dist/utils/sanitize.d.ts +92 -0
package/dist/utils/sanitize.js +191 -0
package/dist/utils/semantic.d.ts +194 -0
package/dist/utils/semantic.js +1051 -0
package/dist/utils/smart-truncate.d.ts +94 -0
package/dist/utils/smart-truncate.js +361 -0
package/dist/utils/timeout.d.ts +153 -0
package/dist/utils/timeout.js +205 -0
package/dist/utils/yaml-parser.d.ts +58 -0
package/dist/utils/yaml-parser.js +86 -0
package/dist/validation/index.d.ts +32 -0
package/dist/validation/index.js +32 -0
package/dist/validation/semantic-test-generator.d.ts +50 -0
package/dist/validation/semantic-test-generator.js +176 -0
package/dist/validation/semantic-types.d.ts +66 -0
package/dist/validation/semantic-types.js +94 -0
package/dist/validation/semantic-validator.d.ts +38 -0
package/dist/validation/semantic-validator.js +340 -0
package/dist/verification/index.d.ts +6 -0
package/dist/verification/index.js +5 -0
package/dist/verification/types.d.ts +133 -0
package/dist/verification/types.js +5 -0
package/dist/verification/verifier.d.ts +30 -0
package/dist/verification/verifier.js +309 -0
package/dist/version.d.ts +19 -0
package/dist/version.js +48 -0
package/dist/workflow/auto-generator.d.ts +27 -0
package/dist/workflow/auto-generator.js +513 -0
package/dist/workflow/discovery.d.ts +40 -0
package/dist/workflow/discovery.js +195 -0
package/dist/workflow/executor.d.ts +82 -0
package/dist/workflow/executor.js +611 -0
package/dist/workflow/index.d.ts +10 -0
package/dist/workflow/index.js +10 -0
package/dist/workflow/loader.d.ts +24 -0
package/dist/workflow/loader.js +194 -0
package/dist/workflow/state-tracker.d.ts +98 -0
package/dist/workflow/state-tracker.js +424 -0
package/dist/workflow/types.d.ts +337 -0
package/dist/workflow/types.js +5 -0
package/package.json +94 -0
package/schemas/bellwether-check.schema.json +651 -0

package/dist/baseline/external-dependency-detector.js ADDED Viewed

@@ -0,0 +1,524 @@
+/**
+ * External Dependency Detection
+ *
+ * Detects and categorizes errors from known external services (Plaid, Stripe, AWS, etc.)
+ * to distinguish between:
+ * - Environment misconfiguration (missing credentials)
+ * - External API failures (service down, rate limited)
+ * - Actual code bugs
+ *
+ * This helps users understand whether test failures are due to their MCP server code
+ * or external factors beyond their control.
+ */
+import { EXTERNAL_DEPENDENCIES } from '../constants.js';
+// ==================== Detection Functions ====================
+/**
+ * Detect if an error message indicates an external dependency.
+ *
+ * @param errorMessage - The error message to analyze
+ * @param toolName - Optional tool name for context
+ * @param toolDescription - Optional tool description for context
+ * @returns External dependency info if detected, null otherwise
+ */
+export function detectExternalDependency(errorMessage, toolName, toolDescription) {
+    const matchedServices = [];
+    // Check each known service
+    for (const [serviceName, service] of Object.entries(EXTERNAL_DEPENDENCIES.SERVICES)) {
+        let confidence = 0;
+        const matchedPatterns = [];
+        let fromErrorMessage = false;
+        let fromToolName = false;
+        let fromDescription = false;
+        // Check error message patterns (highest weight - this is "confirmed" evidence)
+        for (const pattern of service.errorPatterns) {
+            if (pattern.test(errorMessage)) {
+                confidence += 0.5;
+                matchedPatterns.push(`error: ${pattern.source}`);
+                fromErrorMessage = true;
+            }
+        }
+        // Check tool name patterns (medium weight - this is "likely" evidence)
+        if (toolName) {
+            for (const pattern of service.toolPatterns) {
+                if (pattern.test(toolName)) {
+                    confidence += 0.3;
+                    matchedPatterns.push(`tool: ${pattern.source}`);
+                    fromToolName = true;
+                }
+            }
+        }
+        // Check tool description patterns (lower weight - this is "possible" evidence)
+        if (toolDescription) {
+            for (const pattern of service.toolPatterns) {
+                if (pattern.test(toolDescription)) {
+                    confidence += 0.2;
+                    matchedPatterns.push(`desc: ${pattern.source}`);
+                    fromDescription = true;
+                }
+            }
+        }
+        // Check for HTTP status codes in error message
+        const statusMatch = errorMessage.match(/status\s*(?:code)?\s*[:\s]?\s*(\d{3})/i);
+        if (statusMatch) {
+            const status = parseInt(statusMatch[1], 10);
+            if (service.statusCodes.includes(status)) {
+                confidence += 0.2;
+                matchedPatterns.push(`status: ${status}`);
+                fromErrorMessage = true; // Status code in error message is confirmed
+            }
+        }
+        if (confidence > 0) {
+            matchedServices.push({
+                serviceName: serviceName,
+                confidence: Math.min(confidence, 1),
+                matchedPatterns,
+                fromErrorMessage,
+                fromToolName,
+                fromDescription,
+            });
+        }
+    }
+    // Return the highest confidence match
+    if (matchedServices.length > 0) {
+        const best = matchedServices.sort((a, b) => b.confidence - a.confidence)[0];
+        const service = EXTERNAL_DEPENDENCIES.SERVICES[best.serviceName];
+        // Check if this is a transient error
+        const isTransient = isTransientError(errorMessage);
+        // Determine confidence level based on evidence sources
+        let confidenceLevel;
+        if (best.fromErrorMessage) {
+            // Error message matched - this is confirmed evidence
+            confidenceLevel = 'confirmed';
+        }
+        else if (best.fromToolName) {
+            // Only tool name/description matched - likely but not confirmed
+            confidenceLevel = 'likely';
+        }
+        else {
+            // Only weak evidence (description only)
+            confidenceLevel = 'possible';
+        }
+        return {
+            serviceName: best.serviceName,
+            displayName: service.name,
+            confidence: best.confidence,
+            confidenceLevel,
+            isTransient,
+            remediation: service.remediation,
+            matchedPatterns: best.matchedPatterns,
+            evidence: {
+                fromErrorMessage: best.fromErrorMessage,
+                fromToolName: best.fromToolName,
+                fromDescription: best.fromDescription,
+                actualErrorCount: best.fromErrorMessage ? 1 : 0, // Will be updated by caller
+            },
+        };
+    }
+    return null;
+}
+/**
+ * Detect external service dependencies based on tool name/description alone.
+ */
+export function detectExternalServiceFromTool(toolName, toolDescription) {
+    const matchedServices = [];
+    for (const [serviceName, service] of Object.entries(EXTERNAL_DEPENDENCIES.SERVICES)) {
+        let confidence = 0;
+        const matchedPatterns = [];
+        let fromToolName = false;
+        let fromDescription = false;
+        for (const pattern of service.toolPatterns) {
+            if (pattern.test(toolName)) {
+                confidence += 0.6;
+                matchedPatterns.push(`tool: ${pattern.source}`);
+                fromToolName = true;
+            }
+        }
+        if (toolDescription) {
+            for (const pattern of service.toolPatterns) {
+                if (pattern.test(toolDescription)) {
+                    confidence += 0.3;
+                    matchedPatterns.push(`desc: ${pattern.source}`);
+                    fromDescription = true;
+                }
+            }
+        }
+        if (confidence > 0) {
+            matchedServices.push({
+                serviceName: serviceName,
+                confidence: Math.min(confidence, 1),
+                matchedPatterns,
+                fromToolName,
+                fromDescription,
+            });
+        }
+    }
+    if (matchedServices.length === 0) {
+        return null;
+    }
+    const best = matchedServices.sort((a, b) => b.confidence - a.confidence)[0];
+    const service = EXTERNAL_DEPENDENCIES.SERVICES[best.serviceName];
+    const confidenceLevel = best.fromToolName ? 'likely' : 'possible';
+    return {
+        serviceName: best.serviceName,
+        displayName: service.name,
+        confidence: best.confidence,
+        confidenceLevel,
+        isTransient: false,
+        remediation: service.remediation,
+        matchedPatterns: best.matchedPatterns,
+        evidence: {
+            fromErrorMessage: false,
+            fromToolName: best.fromToolName,
+            fromDescription: best.fromDescription,
+            actualErrorCount: 0,
+        },
+    };
+}
+/**
+ * Determine whether an external service is configured.
+ */
+export function getExternalServiceStatus(serviceName, config) {
+    const service = EXTERNAL_DEPENDENCIES.SERVICES[serviceName];
+    const credentials = service.credentials;
+    const configService = config?.services?.[serviceName];
+    const enabled = configService?.enabled;
+    const missing = [];
+    const hasConfigValue = (key) => {
+        const value = configService?.sandboxCredentials?.[key];
+        if (!value)
+            return false;
+        return !/\$\{[^}]+\}/.test(value);
+    };
+    const hasEnvValue = (key) => {
+        const value = process.env[key];
+        return value !== undefined && value !== '';
+    };
+    const requiredEnv = credentials.requiredEnv ?? [];
+    const requiredKeys = credentials.requiredConfigKeys ?? [];
+    const hasSandboxConfig = !!(configService?.sandboxCredentials && Object.keys(configService.sandboxCredentials).length > 0);
+    const envRequirements = hasSandboxConfig ? [] : requiredEnv;
+    const configRequirements = hasSandboxConfig ? requiredKeys : [];
+    for (const envKey of envRequirements) {
+        if (!hasEnvValue(envKey)) {
+            missing.push(envKey);
+        }
+    }
+    for (const configKey of configRequirements) {
+        if (!hasConfigValue(configKey)) {
+            missing.push(configKey);
+        }
+    }
+    const configured = enabled === false ? false : missing.length === 0;
+    return {
+        service: serviceName,
+        configured,
+        missingCredentials: missing,
+        sandboxAvailable: credentials.sandboxAvailable,
+        mockAvailable: credentials.mockAvailable,
+    };
+}
+/**
+ * Categorize the source of an error.
+ *
+ * @param errorMessage - The error message to analyze
+ * @param toolName - Optional tool name for context
+ * @param toolDescription - Optional tool description for context
+ * @returns Analysis of the error source
+ */
+export function categorizeErrorSource(errorMessage, toolName, toolDescription) {
+    // First check for external dependency
+    const dependency = detectExternalDependency(errorMessage, toolName, toolDescription);
+    if (dependency && dependency.confidence >= 0.4) {
+        return {
+            source: 'external_dependency',
+            dependency,
+            isTransient: dependency.isTransient,
+            explanation: `Error from external service: ${dependency.displayName}`,
+            remediation: dependency.remediation,
+        };
+    }
+    // Check for environment/configuration issues
+    for (const pattern of EXTERNAL_DEPENDENCIES.ENVIRONMENT_PATTERNS) {
+        if (pattern.test(errorMessage)) {
+            return {
+                source: 'environment',
+                isTransient: false,
+                explanation: 'Error appears to be an environment or configuration issue',
+                remediation: 'Check environment variables and configuration files',
+            };
+        }
+    }
+    // Check for transient errors (could be external but unidentified service)
+    if (isTransientError(errorMessage)) {
+        return {
+            source: dependency ? 'external_dependency' : 'unknown',
+            dependency: dependency ?? undefined,
+            isTransient: true,
+            explanation: 'Error appears to be transient (timeout, connection issue)',
+            remediation: 'Consider retrying the operation or checking network connectivity',
+        };
+    }
+    // If we have a low-confidence dependency match, mention it
+    if (dependency) {
+        return {
+            source: 'external_dependency',
+            dependency,
+            isTransient: false,
+            explanation: `Possibly related to external service: ${dependency.displayName}`,
+            remediation: dependency.remediation,
+        };
+    }
+    // Check for patterns that suggest a code bug
+    const codeBugPatterns = [
+        /TypeError/i,
+        /ReferenceError/i,
+        /SyntaxError/i,
+        /undefined is not/i,
+        /null is not/i,
+        /cannot read propert/i,
+        /is not a function/i,
+        /is not defined/i,
+    ];
+    for (const pattern of codeBugPatterns) {
+        if (pattern.test(errorMessage)) {
+            return {
+                source: 'code_bug',
+                isTransient: false,
+                explanation: 'Error appears to be a code bug',
+                remediation: 'Review the MCP server implementation',
+            };
+        }
+    }
+    // Unknown source
+    return {
+        source: 'unknown',
+        isTransient: false,
+        explanation: 'Could not determine error source',
+        remediation: 'Review the error message and MCP server logs',
+    };
+}
+/**
+ * Check if an error appears to be transient (temporary).
+ *
+ * @param errorMessage - The error message to check
+ * @returns True if the error appears transient
+ */
+export function isTransientError(errorMessage) {
+    for (const pattern of EXTERNAL_DEPENDENCIES.TRANSIENT_PATTERNS) {
+        if (pattern.test(errorMessage)) {
+            return true;
+        }
+    }
+    return false;
+}
+/**
+ * Helper to compare confidence levels for priority.
+ */
+function confidenceLevelPriority(level) {
+    switch (level) {
+        case 'confirmed': return 3;
+        case 'likely': return 2;
+        case 'possible': return 1;
+    }
+}
+/**
+ * Analyze multiple error patterns and generate a summary.
+ *
+ * @param errors - Array of tool names and their error patterns
+ * @returns Summary of external dependencies
+ */
+export function analyzeExternalDependencies(errors) {
+    const services = new Map();
+    const affectedTools = new Map();
+    let totalExternalErrors = 0;
+    let totalEnvironmentErrors = 0;
+    let totalCodeBugErrors = 0;
+    let totalUnknownErrors = 0;
+    for (const { toolName, toolDescription, patterns } of errors) {
+        const toolServices = [];
+        for (const pattern of patterns) {
+            const analysis = categorizeErrorSource(pattern.example, toolName, toolDescription);
+            switch (analysis.source) {
+                case 'external_dependency':
+                    totalExternalErrors += pattern.count;
+                    if (analysis.dependency) {
+                        const { serviceName, displayName, isTransient, remediation, confidenceLevel } = analysis.dependency;
+                        toolServices.push(serviceName);
+                        const isConfirmed = confidenceLevel === 'confirmed';
+                        const existing = services.get(serviceName);
+                        if (existing) {
+                            existing.errorCount += pattern.count;
+                            if (isConfirmed) {
+                                existing.confirmedErrorCount += pattern.count;
+                            }
+                            if (!existing.tools.includes(toolName)) {
+                                existing.tools.push(toolName);
+                            }
+                            // Track confirmed vs detected tools separately
+                            if (isConfirmed && !existing.confirmedTools.includes(toolName)) {
+                                existing.confirmedTools.push(toolName);
+                            }
+                            else if (!isConfirmed && !existing.detectedTools.includes(toolName) && !existing.confirmedTools.includes(toolName)) {
+                                existing.detectedTools.push(toolName);
+                            }
+                            existing.hasTransientErrors = existing.hasTransientErrors || isTransient;
+                            // Update highest confidence level
+                            if (confidenceLevelPriority(confidenceLevel) > confidenceLevelPriority(existing.highestConfidenceLevel)) {
+                                existing.highestConfidenceLevel = confidenceLevel;
+                            }
+                        }
+                        else {
+                            services.set(serviceName, {
+                                displayName,
+                                errorCount: pattern.count,
+                                confirmedErrorCount: isConfirmed ? pattern.count : 0,
+                                confirmedTools: isConfirmed ? [toolName] : [],
+                                detectedTools: isConfirmed ? [] : [toolName],
+                                tools: [toolName],
+                                hasTransientErrors: isTransient,
+                                remediation,
+                                highestConfidenceLevel: confidenceLevel,
+                            });
+                        }
+                    }
+                    break;
+                case 'environment':
+                    totalEnvironmentErrors += pattern.count;
+                    break;
+                case 'code_bug':
+                    totalCodeBugErrors += pattern.count;
+                    break;
+                default:
+                    totalUnknownErrors += pattern.count;
+            }
+        }
+        if (toolServices.length > 0) {
+            // Deduplicate services for this tool
+            const uniqueServices = [...new Set(toolServices)];
+            affectedTools.set(toolName, uniqueServices);
+        }
+    }
+    return {
+        services,
+        totalExternalErrors,
+        totalEnvironmentErrors,
+        totalCodeBugErrors,
+        totalUnknownErrors,
+        affectedTools,
+    };
+}
+// ==================== Formatting Functions ====================
+/**
+ * Format external dependency summary for display.
+ *
+ * @param summary - The summary to format
+ * @param useColors - Whether to use ANSI colors
+ * @returns Formatted string
+ */
+export function formatExternalDependencySummary(summary, useColors = false) {
+    const lines = [];
+    const { cyan, yellow, dim } = useColors ? getColors() : getNoColors();
+    if (summary.services.size === 0) {
+        return dim('No external dependencies detected');
+    }
+    lines.push(cyan('External Dependencies Detected'));
+    lines.push('');
+    for (const [, service] of summary.services) {
+        const transientNote = service.hasTransientErrors ? ' (some errors may be transient)' : '';
+        lines.push(`  ${service.displayName}${transientNote}`);
+        lines.push(`    ${dim('Errors:')} ${service.errorCount}`);
+        lines.push(`    ${dim('Tools:')} ${service.tools.join(', ')}`);
+        lines.push(`    ${yellow('Fix:')} ${service.remediation}`);
+        lines.push('');
+    }
+    // Summary counts
+    const totalErrors = summary.totalExternalErrors +
+        summary.totalEnvironmentErrors +
+        summary.totalCodeBugErrors +
+        summary.totalUnknownErrors;
+    lines.push(dim('Error Classification:'));
+    lines.push(`  External Services: ${summary.totalExternalErrors}/${totalErrors}`);
+    lines.push(`  Environment Issues: ${summary.totalEnvironmentErrors}/${totalErrors}`);
+    lines.push(`  Code Bugs: ${summary.totalCodeBugErrors}/${totalErrors}`);
+    lines.push(`  Unknown: ${summary.totalUnknownErrors}/${totalErrors}`);
+    return lines.join('\n');
+}
+/**
+ * Generate markdown table for external dependencies.
+ *
+ * @param summary - The summary to format
+ * @returns Markdown string
+ */
+export function formatExternalDependenciesMarkdown(summary) {
+    if (summary.services.size === 0) {
+        return '';
+    }
+    const lines = [];
+    lines.push('### External Dependencies Detected');
+    lines.push('');
+    lines.push('| Service | Confidence | Errors | Confirmed Tools | Detected Tools | Recommendation |');
+    lines.push('|---------|------------|--------|-----------------|----------------|----------------|');
+    for (const [, service] of summary.services) {
+        // Show confidence level with visual indicator
+        const confidenceIcon = service.highestConfidenceLevel === 'confirmed' ? '✓' :
+            service.highestConfidenceLevel === 'likely' ? '~' : '?';
+        const confidenceLabel = `${confidenceIcon} ${service.highestConfidenceLevel}`;
+        // Format confirmed tools (from actual errors)
+        const confirmedTools = service.confirmedTools.length > 0
+            ? service.confirmedTools.map((t) => `\`${t}\``).join(', ')
+            : '-';
+        // Format detected tools (from name/description only - not confirmed by errors)
+        const detectedTools = service.detectedTools.length > 0
+            ? service.detectedTools.map((t) => `\`${t}\``).join(', ')
+            : '-';
+        // Show confirmed errors vs total
+        const errorDisplay = service.confirmedErrorCount > 0
+            ? `${service.confirmedErrorCount} confirmed`
+            : `${service.errorCount} (unconfirmed)`;
+        lines.push(`| ${service.displayName} | ${confidenceLabel} | ${errorDisplay} | ${confirmedTools} | ${detectedTools} | ${service.remediation} |`);
+    }
+    lines.push('');
+    // Add error classification summary
+    const totalErrors = summary.totalExternalErrors +
+        summary.totalEnvironmentErrors +
+        summary.totalCodeBugErrors +
+        summary.totalUnknownErrors;
+    if (totalErrors > 0) {
+        lines.push('**Error Classification:**');
+        lines.push('');
+        if (summary.totalExternalErrors > 0) {
+            const pct = Math.round((summary.totalExternalErrors / totalErrors) * 100);
+            lines.push(`- External Services: ${summary.totalExternalErrors} (${pct}%)`);
+        }
+        if (summary.totalEnvironmentErrors > 0) {
+            const pct = Math.round((summary.totalEnvironmentErrors / totalErrors) * 100);
+            lines.push(`- Environment Issues: ${summary.totalEnvironmentErrors} (${pct}%)`);
+        }
+        if (summary.totalCodeBugErrors > 0) {
+            const pct = Math.round((summary.totalCodeBugErrors / totalErrors) * 100);
+            lines.push(`- Code Bugs: ${summary.totalCodeBugErrors} (${pct}%)`);
+        }
+        if (summary.totalUnknownErrors > 0) {
+            const pct = Math.round((summary.totalUnknownErrors / totalErrors) * 100);
+            lines.push(`- Unclassified: ${summary.totalUnknownErrors} (${pct}%)`);
+        }
+        lines.push('');
+    }
+    return lines.join('\n');
+}
+function getColors() {
+    return {
+        cyan: (s) => `\x1b[36m${s}\x1b[0m`,
+        yellow: (s) => `\x1b[33m${s}\x1b[0m`,
+        dim: (s) => `\x1b[2m${s}\x1b[0m`,
+    };
+}
+function getNoColors() {
+    const identity = (s) => s;
+    return {
+        cyan: identity,
+        yellow: identity,
+        dim: identity,
+    };
+}
+//# sourceMappingURL=external-dependency-detector.js.map

package/dist/baseline/golden-output.d.ts ADDED Viewed

@@ -0,0 +1,162 @@
+/**
+ * Golden Output Testing - Capture and compare expected tool outputs.
+ *
+ * Golden outputs provide a reference for expected tool behavior,
+ * enabling detection of semantic changes that schema validation
+ * might miss (e.g., different category names, changed formats).
+ */
+import type { MCPToolCallResult } from '../transport/types.js';
+/**
+ * Comparison modes for golden output validation.
+ */
+export type GoldenComparisonMode = 'exact' | 'structural' | 'semantic';
+/**
+ * Content type of the golden output.
+ */
+export type GoldenContentType = 'json' | 'markdown' | 'text';
+/**
+ * Severity of golden output drift.
+ */
+export type GoldenDriftSeverity = 'none' | 'info' | 'warning' | 'breaking';
+/**
+ * A captured golden output for a tool.
+ */
+export interface GoldenOutput {
+    /** Tool name this golden output is for */
+    toolName: string;
+    /** When the golden output was captured */
+    capturedAt: string;
+    /** Input arguments used to generate this output */
+    inputArgs: Record<string, unknown>;
+    /** The captured output */
+    output: {
+        /** Raw output string */
+        raw: string;
+        /** Detected content type */
+        contentType: GoldenContentType;
+        /** Hash of the raw content for quick comparison */
+        contentHash: string;
+        /** Inferred JSON structure (if JSON content) */
+        structure?: Record<string, unknown>;
+        /** Extracted key-value pairs for semantic comparison */
+        keyValues?: Record<string, unknown>;
+    };
+    /** Tolerance configuration for comparisons */
+    tolerance: {
+        /** Comparison mode to use */
+        mode: GoldenComparisonMode;
+        /** JSONPath patterns for values that are allowed to change */
+        allowedDrift: string[];
+        /** Whether to normalize timestamps before comparison */
+        normalizeTimestamps?: boolean;
+        /** Whether to normalize UUIDs before comparison */
+        normalizeUuids?: boolean;
+    };
+    /** Optional description of what this golden output represents */
+    description?: string;
+    /** Schema version for future compatibility */
+    version: number;
+}
+/**
+ * Result of comparing current output against golden.
+ */
+export interface GoldenComparisonResult {
+    /** Tool name */
+    toolName: string;
+    /** Whether the comparison passed */
+    passed: boolean;
+    /** Drift severity (if any) */
+    severity: GoldenDriftSeverity;
+    /** Comparison mode used */
+    mode: GoldenComparisonMode;
+    /** When the golden was captured */
+    goldenCapturedAt: string;
+    /** Detected differences */
+    differences: GoldenDifference[];
+    /** Summary of the comparison */
+    summary: string;
+}
+/**
+ * A single difference between golden and current output.
+ */
+export interface GoldenDifference {
+    /** Type of difference */
+    type: 'added' | 'removed' | 'changed' | 'type_changed' | 'value_changed';
+    /** JSONPath or location of the difference */
+    path: string;
+    /** Expected value (from golden) */
+    expected?: unknown;
+    /** Actual value (from current) */
+    actual?: unknown;
+    /** Whether this difference is allowed by tolerance config */
+    allowed: boolean;
+    /** Description of the change */
+    description: string;
+}
+/**
+ * Options for saving a golden output.
+ */
+export interface GoldenSaveOptions {
+    /** Comparison mode to use for this golden */
+    mode?: GoldenComparisonMode;
+    /** JSONPath patterns for allowed drift */
+    allowedDrift?: string[];
+    /** Whether to normalize timestamps */
+    normalizeTimestamps?: boolean;
+    /** Whether to normalize UUIDs */
+    normalizeUuids?: boolean;
+    /** Description of the golden output */
+    description?: string;
+}
+/**
+ * Golden output storage/file structure.
+ */
+export interface GoldenOutputStore {
+    /** Schema version */
+    version: number;
+    /** All stored golden outputs */
+    outputs: GoldenOutput[];
+    /** When the store was last updated */
+    lastUpdated: string;
+}
+/**
+ * Get the path to the golden output store file.
+ */
+export declare function getGoldenStorePath(outputDir?: string): string;
+/**
+ * Load the golden output store from disk.
+ */
+export declare function loadGoldenStore(storePath: string): GoldenOutputStore;
+/**
+ * Save the golden output store to disk.
+ */
+export declare function saveGoldenStore(store: GoldenOutputStore, storePath: string): void;
+/**
+ * Create a golden output from a tool response.
+ */
+export declare function createGoldenOutput(toolName: string, inputArgs: Record<string, unknown>, response: MCPToolCallResult, options?: GoldenSaveOptions): GoldenOutput;
+/**
+ * Save a golden output to the store.
+ */
+export declare function saveGoldenOutput(golden: GoldenOutput, storePath: string): void;
+/**
+ * Get a golden output for a specific tool.
+ */
+export declare function getGoldenOutput(toolName: string, storePath: string, inputArgs?: Record<string, unknown>): GoldenOutput | undefined;
+/**
+ * List all golden outputs in the store.
+ */
+export declare function listGoldenOutputs(storePath: string): GoldenOutput[];
+/**
+ * Delete a golden output from the store.
+ */
+export declare function deleteGoldenOutput(toolName: string, storePath: string, inputArgs?: Record<string, unknown>): boolean;
+/**
+ * Compare current output against a golden output.
+ */
+export declare function compareWithGolden(golden: GoldenOutput, currentResponse: MCPToolCallResult): GoldenComparisonResult;
+/**
+ * Compare all golden outputs against current tool responses.
+ */
+export declare function compareAllGoldens(storePath: string, getToolResponse: (toolName: string, args: Record<string, unknown>) => Promise<MCPToolCallResult>): Promise<GoldenComparisonResult[]>;
+//# sourceMappingURL=golden-output.d.ts.map