npm - @veewo/gitnexus - Versions diffs - 1.5.0-rc.4 → 1.5.1 - Mend

@veewo/gitnexus 1.5.0-rc.4 → 1.5.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (175) hide show

package/dist/benchmark/agent-context/runner.js +3 -0
package/dist/benchmark/agent-context/runner.test.js +22 -0
package/dist/benchmark/agent-context/tool-runner.d.ts +7 -6
package/dist/benchmark/agent-safe-query-context/io.d.ts +2 -0
package/dist/benchmark/agent-safe-query-context/io.js +86 -0
package/dist/benchmark/agent-safe-query-context/io.test.d.ts +1 -0
package/dist/benchmark/agent-safe-query-context/io.test.js +13 -0
package/dist/benchmark/agent-safe-query-context/report.d.ts +57 -0
package/dist/benchmark/agent-safe-query-context/report.js +159 -0
package/dist/benchmark/agent-safe-query-context/report.test.d.ts +1 -0
package/dist/benchmark/agent-safe-query-context/report.test.js +362 -0
package/dist/benchmark/agent-safe-query-context/runner.d.ts +44 -0
package/dist/benchmark/agent-safe-query-context/runner.js +406 -0
package/dist/benchmark/agent-safe-query-context/runner.test.d.ts +1 -0
package/dist/benchmark/agent-safe-query-context/runner.test.js +290 -0
package/dist/benchmark/agent-safe-query-context/semantic-tuple.d.ts +20 -0
package/dist/benchmark/agent-safe-query-context/semantic-tuple.js +225 -0
package/dist/benchmark/agent-safe-query-context/semantic-tuple.test.d.ts +1 -0
package/dist/benchmark/agent-safe-query-context/semantic-tuple.test.js +122 -0
package/dist/benchmark/agent-safe-query-context/subagent-live.d.ts +47 -0
package/dist/benchmark/agent-safe-query-context/subagent-live.js +128 -0
package/dist/benchmark/agent-safe-query-context/subagent-live.test.d.ts +1 -0
package/dist/benchmark/agent-safe-query-context/subagent-live.test.js +155 -0
package/dist/benchmark/agent-safe-query-context/telemetry-tool.d.ts +9 -0
package/dist/benchmark/agent-safe-query-context/telemetry-tool.js +77 -0
package/dist/benchmark/agent-safe-query-context/types.d.ts +61 -0
package/dist/benchmark/agent-safe-query-context/types.js +8 -0
package/dist/benchmark/analyze-runner.d.ts +1 -1
package/dist/benchmark/analyze-runner.js +4 -3
package/dist/benchmark/analyze-runner.test.js +7 -0
package/dist/benchmark/runtime-poc/provenance-artifact.d.ts +47 -0
package/dist/benchmark/runtime-poc/provenance-artifact.js +89 -0
package/dist/benchmark/runtime-poc/runner.d.ts +31 -0
package/dist/benchmark/runtime-poc/runner.js +163 -0
package/dist/benchmark/u2-e2e/hydration-policy-repeatability-runner.d.ts +8 -0
package/dist/benchmark/u2-e2e/hydration-policy-repeatability-runner.js +21 -0
package/dist/benchmark/u2-e2e/phase2-runtime-claim-acceptance-runner.d.ts +0 -1
package/dist/benchmark/u2-e2e/phase2-runtime-claim-acceptance-runner.js +53 -51
package/dist/benchmark/u2-e2e/phase2-runtime-claim-acceptance-runner.test.js +0 -1
package/dist/benchmark/u2-e2e/phase5-rule-lab-acceptance-runner.d.ts +1 -1
package/dist/benchmark/u2-e2e/phase5-rule-lab-acceptance-runner.js +82 -18
package/dist/benchmark/u2-e2e/phase5-rule-lab-acceptance-runner.test.js +1 -2
package/dist/benchmark/u2-e2e/retrieval-runner.js +15 -7
package/dist/benchmark/u2-e2e/retrieval-runner.test.js +46 -0
package/dist/cli/ai-context.d.ts +0 -1
package/dist/cli/ai-context.js +5 -6
package/dist/cli/ai-context.test.js +8 -0
package/dist/cli/analyze-options.js +58 -34
package/dist/cli/analyze-options.test.js +57 -0
package/dist/cli/analyze-runtime-summary.js +2 -0
package/dist/cli/analyze-runtime-summary.test.js +12 -0
package/dist/cli/analyze-summary.d.ts +4 -0
package/dist/cli/analyze-summary.js +43 -0
package/dist/cli/analyze-summary.test.js +65 -1
package/dist/cli/analyze.d.ts +11 -0
package/dist/cli/analyze.js +34 -5
package/dist/cli/analyze.test.d.ts +1 -0
package/dist/cli/analyze.test.js +25 -0
package/dist/cli/benchmark-agent-context.js +1 -1
package/dist/cli/benchmark-agent-safe-query-context.d.ts +20 -0
package/dist/cli/benchmark-agent-safe-query-context.js +39 -0
package/dist/cli/benchmark-agent-safe-query-context.test.d.ts +1 -0
package/dist/cli/benchmark-agent-safe-query-context.test.js +271 -0
package/dist/cli/benchmark-unity.js +1 -1
package/dist/cli/benchmark-unity.test.js +5 -1
package/dist/cli/benchmark.d.ts +29 -0
package/dist/cli/benchmark.js +55 -0
package/dist/cli/index.js +27 -2
package/dist/cli/rule-lab.d.ts +3 -7
package/dist/cli/rule-lab.js +13 -22
package/dist/cli/rule-lab.test.js +23 -3
package/dist/cli/scope-manifest-config.d.ts +9 -0
package/dist/cli/scope-manifest-config.js +37 -0
package/dist/cli/setup.js +40 -41
package/dist/cli/setup.test.js +14 -14
package/dist/cli/sync-manifest.d.ts +27 -0
package/dist/cli/sync-manifest.js +200 -0
package/dist/cli/sync-manifest.test.d.ts +1 -0
package/dist/cli/sync-manifest.test.js +88 -0
package/dist/cli/tool.d.ts +2 -0
package/dist/cli/tool.js +2 -0
package/dist/core/config/unity-config.d.ts +1 -1
package/dist/core/config/unity-config.js +1 -1
package/dist/core/ingestion/call-processor.d.ts +2 -1
package/dist/core/ingestion/call-processor.js +28 -6
package/dist/core/ingestion/heritage-processor.d.ts +2 -1
package/dist/core/ingestion/heritage-processor.js +30 -7
package/dist/core/ingestion/import-processor.d.ts +2 -1
package/dist/core/ingestion/import-processor.js +28 -6
package/dist/core/ingestion/parsing-processor.d.ts +5 -3
package/dist/core/ingestion/parsing-processor.js +46 -13
package/dist/core/ingestion/pipeline.js +100 -19
package/dist/core/ingestion/unity-lifecycle-synthetic-calls.test.js +18 -20
package/dist/core/ingestion/unity-parity-seed.d.ts +2 -1
package/dist/core/ingestion/unity-parity-seed.js +8 -0
package/dist/core/ingestion/unity-resource-processor.d.ts +11 -0
package/dist/core/ingestion/unity-resource-processor.js +102 -0
package/dist/core/ingestion/unity-resource-processor.test.js +449 -0
package/dist/core/ingestion/unity-runtime-binding-rules.d.ts +16 -1
package/dist/core/ingestion/unity-runtime-binding-rules.js +193 -42
package/dist/core/ingestion/workers/parse-worker.d.ts +2 -0
package/dist/core/ingestion/workers/parse-worker.js +50 -6
package/dist/core/lbug/csv-generator.test.js +2 -2
package/dist/core/tree-sitter/csharp-define-profile.d.ts +6 -0
package/dist/core/tree-sitter/csharp-define-profile.js +43 -0
package/dist/core/tree-sitter/csharp-preproc-normalizer.d.ts +14 -0
package/dist/core/tree-sitter/csharp-preproc-normalizer.js +261 -0
package/dist/core/tree-sitter/parser-loader.d.ts +10 -0
package/dist/core/tree-sitter/parser-loader.js +19 -0
package/dist/core/unity/doc-contract.test.d.ts +1 -0
package/dist/core/unity/doc-contract.test.js +30 -0
package/dist/core/unity/prefab-source-scan.d.ts +25 -0
package/dist/core/unity/prefab-source-scan.js +152 -0
package/dist/core/unity/prefab-source-scan.test.d.ts +1 -0
package/dist/core/unity/prefab-source-scan.test.js +70 -0
package/dist/core/unity/scan-context.d.ts +12 -0
package/dist/core/unity/scan-context.js +50 -2
package/dist/core/unity/scan-context.test.js +74 -0
package/dist/mcp/local/agent-safe-response.d.ts +10 -0
package/dist/mcp/local/agent-safe-response.js +639 -0
package/dist/mcp/local/derived-process-reader.js +1 -1
package/dist/mcp/local/local-backend.d.ts +18 -1
package/dist/mcp/local/local-backend.js +319 -125
package/dist/mcp/local/process-confidence.d.ts +1 -2
package/dist/mcp/local/process-confidence.js +0 -3
package/dist/mcp/local/process-confidence.test.js +4 -2
package/dist/mcp/local/process-evidence.d.ts +1 -8
package/dist/mcp/local/process-evidence.js +1 -23
package/dist/mcp/local/process-evidence.test.js +2 -16
package/dist/mcp/local/process-ref.d.ts +1 -1
package/dist/mcp/local/runtime-chain-closure-evaluator.d.ts +33 -0
package/dist/mcp/local/runtime-chain-closure-evaluator.js +273 -0
package/dist/mcp/local/runtime-chain-graph-candidates.d.ts +23 -0
package/dist/mcp/local/runtime-chain-graph-candidates.js +131 -0
package/dist/mcp/local/runtime-chain-verify.d.ts +1 -1
package/dist/mcp/local/runtime-chain-verify.js +149 -138
package/dist/mcp/local/runtime-chain-verify.test.js +126 -68
package/dist/mcp/local/runtime-claim-rule-registry.d.ts +4 -0
package/dist/mcp/local/runtime-claim-rule-registry.js +4 -0
package/dist/mcp/local/runtime-claim-rule-registry.test.js +37 -4
package/dist/mcp/local/runtime-claim.d.ts +11 -0
package/dist/mcp/local/runtime-claim.js +28 -0
package/dist/mcp/local/unity-evidence-view.d.ts +1 -1
package/dist/mcp/local/unity-evidence-view.js +1 -1
package/dist/mcp/local/unity-evidence-view.test.js +22 -0
package/dist/mcp/tools.js +51 -21
package/dist/rule-lab/analyze.d.ts +2 -1
package/dist/rule-lab/analyze.js +94 -59
package/dist/rule-lab/analyze.test.js +238 -20
package/dist/rule-lab/curate.d.ts +2 -1
package/dist/rule-lab/curate.js +24 -3
package/dist/rule-lab/curate.test.js +65 -0
package/dist/rule-lab/curation-input-builder.d.ts +45 -0
package/dist/rule-lab/curation-input-builder.js +133 -0
package/dist/rule-lab/promote.js +80 -7
package/dist/rule-lab/promote.test.js +150 -0
package/dist/rule-lab/review-pack.d.ts +3 -0
package/dist/rule-lab/review-pack.js +41 -1
package/dist/rule-lab/review-pack.test.js +67 -0
package/dist/rule-lab/types.d.ts +29 -0
package/dist/types/pipeline.d.ts +16 -0
package/package.json +14 -13
package/scripts/check-sync-manifest-traceability.mjs +203 -0
package/scripts/run-node-tests.mjs +61 -0
package/scripts/tree-sitter-audit-classify.mjs +172 -0
package/skills/_shared/unity-rule-authoring-contract.md +64 -0
package/skills/_shared/unity-runtime-process-contract.md +16 -0
package/skills/gitnexus-cli.md +44 -4
package/skills/gitnexus-debugging.md +9 -0
package/skills/gitnexus-exploring.md +66 -18
package/skills/gitnexus-guide.md +42 -3
package/skills/gitnexus-impact-analysis.md +8 -0
package/skills/gitnexus-pr-review.md +8 -0
package/skills/gitnexus-refactoring.md +8 -0
package/skills/gitnexus-unity-rule-gen.md +66 -312

package/dist/benchmark/agent-safe-query-context/report.test.js ADDED Viewed

@@ -0,0 +1,362 @@
+import test from 'node:test';
+import assert from 'node:assert/strict';
+import { runAgentSafeQueryContextBenchmark } from './report.js';
+const fakeSuite = {
+    thresholds: {
+        workflowReplay: { maxSteps: 5 },
+        tokenReduction: {
+            weapon_powerup: 0.5,
+            reload: 0.4,
+        },
+    },
+    cases: {
+        weapon_powerup: {
+            label: 'weapon_powerup',
+            start_query: 'weapon powerup equip chain',
+            retry_query: '1_weapon_orb_key.asset WeaponPowerUp HoldPickup EquipWithEvent Equip',
+            proof_contexts: ['WeaponPowerUp'],
+            proof_cypher: 'MATCH () RETURN 1',
+            tool_plan: [{ tool: 'query', input: { query: 'weapon powerup equip chain' } }],
+            live_task: {
+                objective: 'Investigate WeaponPowerUp from the provided asset seed and report the best supported runtime relation.',
+                symbol_seed: 'WeaponPowerUp',
+                resource_seed: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset',
+            },
+            semantic_tuple: {
+                resource_anchor: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset',
+                symbol_anchor: 'WeaponPowerUp',
+                proof_edges: [
+                    'HoldPickup -> WeaponPowerUp.PickItUp',
+                    'EquipWithEvent -> WeaponPowerUp.Equip',
+                ],
+                closure_status: 'not_verified_full',
+            },
+        },
+        reload: {
+            label: 'reload',
+            start_query: 'reload getvalue checkreload',
+            retry_query: 'Gungraph_use/1_weapon_orb_key.asset ReloadBase GetValue CheckReload',
+            proof_contexts: ['ReloadBase'],
+            proof_cypher: 'MATCH () RETURN 1',
+            tool_plan: [{ tool: 'query', input: { query: 'reload getvalue checkreload' } }],
+            live_task: {
+                objective: 'Investigate ReloadBase from the provided graph asset seed and report the best supported reload relation.',
+                symbol_seed: 'ReloadBase',
+                resource_seed: 'Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset',
+            },
+            semantic_tuple: {
+                resource_anchor: 'Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset',
+                symbol_anchor: 'ReloadBase',
+                proof_edge: 'ReloadBase.GetValue -> ReloadBase.CheckReload',
+                closure_status: 'not_verified_full',
+            },
+        },
+    },
+};
+test('benchmark report includes explicit benchmark tracks', async () => {
+    const report = await runAgentSafeQueryContextBenchmark(fakeSuite, {
+        repo: 'neonspark-core',
+        subagentRunsDir: '/tmp/subagent-runs',
+    }, {
+        runner: {
+            query: async (input) => {
+                const queryText = String(input?.query || '');
+                if (/reload|ReloadBase|CheckReload/.test(queryText)) {
+                    return {
+                        candidates: [{ name: 'ReloadBase' }],
+                        resource_hints: [{ path: 'Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset' }],
+                    };
+                }
+                return {
+                    candidates: [{ name: 'WeaponPowerUp' }],
+                    resource_hints: [{ path: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset' }],
+                };
+            },
+            context: async (input) => ({ symbol: { name: String(input?.name || 'WeaponPowerUp') } }),
+            impact: async () => ({ impactedCount: 0 }),
+            cypher: async (input) => {
+                const queryText = String(input?.query || '');
+                if (queryText.includes('CheckReload') || queryText.includes('GetValue')) {
+                    return { row_count: 1, rows: [{ src: 'GetValue', dst: 'CheckReload' }] };
+                }
+                return {
+                    row_count: 2,
+                    rows: [
+                        { src: 'HoldPickup', dst: 'PickItUp' },
+                        { src: 'EquipWithEvent', dst: 'Equip' },
+                    ],
+                };
+            },
+            close: async () => { },
+        },
+        executeToolPlan: async (plan) => plan.map((step) => ({
+            tool: step.tool,
+            input: step.input,
+            output: {
+                anchor: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset',
+                symbol: 'WeaponPowerUp',
+                proof: 'HoldPickup -> WeaponPowerUp.PickItUp',
+            },
+        })),
+        loadSubagentLiveCaseResult: async (_runDir, benchmarkCase) => ({
+            prompt: 'Use only telemetry-tool.js\nFinal JSON schema:',
+            prompt_path: '/tmp/prompt.txt',
+            result_path: '/tmp/result.json',
+            telemetry_path: '/tmp/telemetry.jsonl',
+            final_result: {},
+            steps: [{
+                    tool: 'query',
+                    input: { query: benchmarkCase.start_query },
+                    output: { value: benchmarkCase.semantic_tuple.resource_anchor },
+                    durationMs: 1,
+                    totalTokensEst: 10,
+                    timestamp: '2026-04-08T00:00:00.000Z',
+                }],
+            semantic_tuple: benchmarkCase.semantic_tuple,
+            normalized_tuple_pass: true,
+            evidence_validation_pass: true,
+            failure_class: undefined,
+            semantic_tuple_pass: true,
+            tool_calls_to_completion: 1,
+            tokens_to_completion: 10,
+            stop_reason: 'semantic_tuple_satisfied',
+        }),
+    });
+    assert.equal(report.cases.weapon_powerup.semantic_tuple_pass, true);
+    assert.ok(report.same_script.tool_plan.weapon_powerup);
+    assert.ok(report.subagent_live.reload.steps);
+    assert.ok(report.token_summary.weapon_powerup);
+    assert.ok(report.call_summary.reload);
+    assert.ok(report.workflow_replay_full.weapon_powerup);
+    assert.ok(report.workflow_replay_slim.weapon_powerup);
+    assert.ok(report.same_script_full.reload);
+    assert.ok(report.same_script_slim.reload);
+    assert.ok(report.subagent_live.weapon_powerup);
+    assert.equal(report.workflow_replay_slim.weapon_powerup.semantic_tuple_pass, true);
+    assert.equal(typeof report.workflow_replay_slim.weapon_powerup.anchor_top1_pass, 'boolean');
+    assert.equal(typeof report.workflow_replay_slim.weapon_powerup.recommended_follow_up_hit, 'boolean');
+    assert.equal(typeof report.workflow_replay_slim.weapon_powerup.post_narrowing_anchor_pass, 'boolean');
+    assert.equal(typeof report.workflow_replay_slim.weapon_powerup.post_narrowing_follow_up_hit, 'boolean');
+    assert.equal(typeof report.workflow_replay_slim.weapon_powerup.ambiguity_detour_count, 'number');
+    assert.equal(report.workflow_replay_slim.reload.guid_invariance_pass, true);
+    assert.equal(report.workflow_replay_slim.weapon_powerup.live_tool_evidence_pass, true);
+    assert.equal(report.acceptance.pass, report.workflow_replay_slim.weapon_powerup.semantic_tuple_pass
+        && report.workflow_replay_slim.weapon_powerup.post_narrowing_anchor_pass
+        && report.workflow_replay_slim.weapon_powerup.post_narrowing_follow_up_hit
+        && report.workflow_replay_slim.weapon_powerup.guid_invariance_pass
+        && report.workflow_replay_slim.weapon_powerup.live_tool_evidence_pass
+        && report.workflow_replay_slim.weapon_powerup.freeze_ready
+        && report.workflow_replay_slim.weapon_powerup.tier_envelope.facts_present
+        && report.workflow_replay_slim.weapon_powerup.tier_envelope.closure_present
+        && report.workflow_replay_slim.weapon_powerup.tier_envelope.clues_present
+        && report.workflow_replay_slim.weapon_powerup.tier_envelope.semantic_order_pass
+        && !report.workflow_replay_slim.weapon_powerup.placeholder_leak_detected
+        && !report.workflow_replay_slim.weapon_powerup.heuristic_top_summary_detected
+        && report.workflow_replay_slim.reload.semantic_tuple_pass
+        && report.workflow_replay_slim.reload.post_narrowing_anchor_pass
+        && report.workflow_replay_slim.reload.post_narrowing_follow_up_hit
+        && report.workflow_replay_slim.reload.guid_invariance_pass
+        && report.workflow_replay_slim.reload.live_tool_evidence_pass
+        && report.workflow_replay_slim.reload.freeze_ready
+        && report.workflow_replay_slim.reload.tier_envelope.facts_present
+        && report.workflow_replay_slim.reload.tier_envelope.closure_present
+        && report.workflow_replay_slim.reload.tier_envelope.clues_present
+        && report.workflow_replay_slim.reload.tier_envelope.semantic_order_pass
+        && !report.workflow_replay_slim.reload.placeholder_leak_detected
+        && !report.workflow_replay_slim.reload.heuristic_top_summary_detected);
+    assert.equal(report.pass, report.acceptance.pass);
+});
+test('benchmark report enforces track split, acceptance source, prompt secrecy, and live scoring taxonomy', async () => {
+    const report = await runAgentSafeQueryContextBenchmark(fakeSuite, {
+        repo: 'neonspark-core',
+        subagentRunsDir: '/tmp/subagent-runs',
+    }, {
+        runner: {
+            query: async (input) => {
+                const queryText = String(input?.query || '');
+                if (/reload|ReloadBase|CheckReload/.test(queryText)) {
+                    return {
+                        candidates: [{ name: 'ReloadBase' }],
+                        resource_hints: [{ path: 'Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset' }],
+                    };
+                }
+                return {
+                    candidates: [{ name: 'WeaponPowerUp' }],
+                    resource_hints: [{ path: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset' }],
+                };
+            },
+            context: async (input) => ({ symbol: { name: String(input?.name || 'WeaponPowerUp') } }),
+            impact: async () => ({ impactedCount: 0 }),
+            cypher: async (input) => {
+                const queryText = String(input?.query || '');
+                if (queryText.includes('CheckReload') || queryText.includes('GetValue')) {
+                    return { row_count: 1, rows: [{ src: 'GetValue', dst: 'CheckReload' }] };
+                }
+                return {
+                    row_count: 2,
+                    rows: [
+                        { src: 'HoldPickup', dst: 'PickItUp' },
+                        { src: 'EquipWithEvent', dst: 'Equip' },
+                    ],
+                };
+            },
+            close: async () => { },
+        },
+        executeToolPlan: async (plan) => plan.map((step) => ({
+            tool: step.tool,
+            input: step.input,
+            output: {
+                anchor: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset',
+                symbol: 'WeaponPowerUp',
+                proof: 'HoldPickup -> WeaponPowerUp.PickItUp',
+            },
+        })),
+        loadSubagentLiveCaseResult: async (_runDir, benchmarkCase) => ({
+            prompt: 'Use only telemetry-tool.js\nFinal JSON schema:',
+            prompt_path: '/tmp/prompt.txt',
+            result_path: '/tmp/result.json',
+            telemetry_path: '/tmp/telemetry.jsonl',
+            final_result: {},
+            steps: [{
+                    tool: 'query',
+                    input: { query: benchmarkCase.start_query },
+                    output: { value: benchmarkCase.semantic_tuple.resource_anchor },
+                    durationMs: 1,
+                    totalTokensEst: 10,
+                    timestamp: '2026-04-08T00:00:00.000Z',
+                }],
+            semantic_tuple: benchmarkCase.semantic_tuple,
+            normalized_tuple_pass: true,
+            evidence_validation_pass: true,
+            failure_class: undefined,
+            semantic_tuple_pass: true,
+            tool_calls_to_completion: 1,
+            tokens_to_completion: 10,
+            stop_reason: 'semantic_tuple_satisfied',
+        }),
+    });
+    assert.equal(Object.keys(report.workflow_replay_full).length > 0, true);
+    assert.equal(Object.keys(report.workflow_replay_slim).length > 0, true);
+    assert.equal(Object.keys(report.same_script_full).length > 0, true);
+    assert.equal(Object.keys(report.same_script_slim).length > 0, true);
+    assert.equal(Object.keys(report.subagent_live).length > 0, true);
+    assert.deepEqual(report.acceptance.cases, {
+        weapon_powerup: report.workflow_replay_slim.weapon_powerup.semantic_tuple_pass
+            && report.workflow_replay_slim.weapon_powerup.post_narrowing_anchor_pass
+            && report.workflow_replay_slim.weapon_powerup.post_narrowing_follow_up_hit
+            && report.workflow_replay_slim.weapon_powerup.guid_invariance_pass
+            && report.workflow_replay_slim.weapon_powerup.live_tool_evidence_pass
+            && report.workflow_replay_slim.weapon_powerup.freeze_ready
+            && report.workflow_replay_slim.weapon_powerup.tier_envelope.facts_present
+            && report.workflow_replay_slim.weapon_powerup.tier_envelope.closure_present
+            && report.workflow_replay_slim.weapon_powerup.tier_envelope.clues_present
+            && report.workflow_replay_slim.weapon_powerup.tier_envelope.semantic_order_pass
+            && !report.workflow_replay_slim.weapon_powerup.placeholder_leak_detected
+            && !report.workflow_replay_slim.weapon_powerup.heuristic_top_summary_detected,
+        reload: report.workflow_replay_slim.reload.semantic_tuple_pass
+            && report.workflow_replay_slim.reload.post_narrowing_anchor_pass
+            && report.workflow_replay_slim.reload.post_narrowing_follow_up_hit
+            && report.workflow_replay_slim.reload.guid_invariance_pass
+            && report.workflow_replay_slim.reload.live_tool_evidence_pass
+            && report.workflow_replay_slim.reload.freeze_ready
+            && report.workflow_replay_slim.reload.tier_envelope.facts_present
+            && report.workflow_replay_slim.reload.tier_envelope.closure_present
+            && report.workflow_replay_slim.reload.tier_envelope.clues_present
+            && report.workflow_replay_slim.reload.tier_envelope.semantic_order_pass
+            && !report.workflow_replay_slim.reload.placeholder_leak_detected
+            && !report.workflow_replay_slim.reload.heuristic_top_summary_detected,
+    });
+    assert.equal(report.subagent_live.weapon_powerup.prompt.includes('HoldPickup -> WeaponPowerUp.PickItUp'), false);
+    assert.equal(report.subagent_live.reload.prompt.includes('ReloadBase.GetValue -> ReloadBase.CheckReload'), false);
+    for (const row of Object.values(report.subagent_live)) {
+        assert.equal(typeof row.normalized_tuple_pass, 'boolean');
+        assert.equal(typeof row.evidence_validation_pass, 'boolean');
+        if (!row.semantic_tuple_pass) {
+            assert.ok(row.failure_class);
+        }
+    }
+});
+test('acceptance fails when semantic tuple passes but placeholder leakage is detected', async () => {
+    const report = await runAgentSafeQueryContextBenchmark(fakeSuite, {
+        repo: 'neonspark-core',
+        subagentRunsDir: '/tmp/subagent-runs',
+    }, {
+        runner: {
+            query: async (input) => {
+                const queryText = String(input?.query || '');
+                if (/reload|ReloadBase|CheckReload/.test(queryText)) {
+                    return {
+                        summary: 'ReloadBase flow',
+                        decision: {
+                            primary_candidate: 'ReloadBase',
+                            recommended_follow_up: 'resource_path_prefix=Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset',
+                        },
+                        candidates: [{ name: 'ReloadBase' }],
+                        resource_hints: [{ target: 'Assets/NEON/Graphs/PlayerGun/Gungraph_use/1_weapon_orb_key.asset' }],
+                    };
+                }
+                return {
+                    summary: 'WeaponPowerUp flow',
+                    decision: {
+                        primary_candidate: 'WeaponPowerUp',
+                        recommended_follow_up: 'resource_path_prefix=Reload NEON.Game.Graph.Nodes.Reloads',
+                    },
+                    candidates: [{ name: 'WeaponPowerUp' }],
+                    resource_hints: [{ target: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset' }],
+                };
+            },
+            context: async (input) => ({ symbol: { name: String(input?.name || 'WeaponPowerUp') } }),
+            impact: async () => ({ impactedCount: 0 }),
+            cypher: async (input) => {
+                const queryText = String(input?.query || '');
+                if (queryText.includes('CheckReload') || queryText.includes('GetValue')) {
+                    return { row_count: 1, rows: [{ src: 'GetValue', dst: 'CheckReload' }] };
+                }
+                return {
+                    row_count: 2,
+                    rows: [
+                        { src: 'HoldPickup', dst: 'PickItUp' },
+                        { src: 'EquipWithEvent', dst: 'Equip' },
+                    ],
+                };
+            },
+            close: async () => { },
+        },
+        executeToolPlan: async (plan) => plan.map((step) => ({
+            tool: step.tool,
+            input: step.input,
+            output: {
+                anchor: 'Assets/NEON/DataAssets/Powerups/1_newWeapon/0_pick/法器_Orb/1_weapon_orb_key.asset',
+                symbol: 'WeaponPowerUp',
+                proof: 'HoldPickup -> WeaponPowerUp.PickItUp',
+            },
+        })),
+        loadSubagentLiveCaseResult: async (_runDir, benchmarkCase) => ({
+            prompt: 'Use only telemetry-tool.js\nFinal JSON schema:',
+            prompt_path: '/tmp/prompt.txt',
+            result_path: '/tmp/result.json',
+            telemetry_path: '/tmp/telemetry.jsonl',
+            final_result: {},
+            steps: [{
+                    tool: 'query',
+                    input: { query: benchmarkCase.start_query },
+                    output: { value: benchmarkCase.semantic_tuple.resource_anchor },
+                    durationMs: 1,
+                    totalTokensEst: 10,
+                    timestamp: '2026-04-08T00:00:00.000Z',
+                }],
+            semantic_tuple: benchmarkCase.semantic_tuple,
+            normalized_tuple_pass: true,
+            evidence_validation_pass: true,
+            failure_class: undefined,
+            semantic_tuple_pass: true,
+            tool_calls_to_completion: 1,
+            tokens_to_completion: 10,
+            stop_reason: 'semantic_tuple_satisfied',
+        }),
+    });
+    assert.equal(report.workflow_replay_slim.weapon_powerup.semantic_tuple_pass, true);
+    assert.equal(report.workflow_replay_slim.weapon_powerup.placeholder_leak_detected, true);
+    assert.equal(report.acceptance.cases.weapon_powerup, false);
+    assert.equal(report.acceptance.pass, false);
+});

package/dist/benchmark/agent-safe-query-context/runner.d.ts ADDED Viewed

@@ -0,0 +1,44 @@
+import type { AgentContextToolRunner } from '../agent-context/tool-runner.js';
+import type { AgentSafeBenchmarkCase, SemanticDriftMetrics, SemanticTuple } from './types.js';
+export interface WorkflowReplayStep {
+    tool: 'query' | 'context' | 'cypher';
+    input: Record<string, unknown>;
+    output: unknown;
+    durationMs: number;
+    totalTokensEst: number;
+}
+export interface WorkflowReplayResult extends SemanticDriftMetrics {
+    steps: WorkflowReplayStep[];
+    base: {
+        primary_candidate: string;
+        recommended_follow_up: string;
+    };
+    guid_variant: {
+        primary_candidate: string;
+        recommended_follow_up: string;
+    };
+    confirmed_chain: {
+        steps: string[];
+    };
+    semantic_tuple: SemanticTuple;
+    semantic_tuple_pass: boolean;
+    tool_calls_to_completion: number;
+    tokens_to_completion: number;
+    retry_breakdown: {
+        query_retry_count: number;
+        context_retry_count: number;
+        cypher_retry_count: number;
+    };
+    stop_reason: 'semantic_tuple_satisfied' | 'max_steps_reached';
+}
+export type WorkflowReplayResponseProfile = 'full' | 'slim';
+export declare function runWorkflowReplay(benchmarkCase: AgentSafeBenchmarkCase, runner: Pick<AgentContextToolRunner, 'query' | 'context' | 'cypher'>, options?: {
+    repo?: string;
+    maxSteps?: number;
+    responseProfile?: WorkflowReplayResponseProfile;
+}): Promise<WorkflowReplayResult>;
+export declare function runWorkflowReplayWithDefaultRunner(benchmarkCase: AgentSafeBenchmarkCase, options?: {
+    repo?: string;
+    maxSteps?: number;
+    responseProfile?: WorkflowReplayResponseProfile;
+}): Promise<WorkflowReplayResult>;