npm - @miller-tech/uap - Versions diffs - 1.20.23 → 1.20.24 - Mend

@miller-tech/uap 1.20.23 → 1.20.24

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

package/package.json +1 -1
package/tools/agents/scripts/anthropic_proxy.py +28 -0
package/tools/agents/tests/test_anthropic_proxy_streaming.py +42 -0

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@miller-tech/uap",
-  "version": "1.20.23",
+  "version": "1.20.24",
   "description": "Autonomous AI agent memory system with CLAUDE.md protocol enforcement",
   "type": "module",
   "main": "dist/index.js",

package/tools/agents/scripts/anthropic_proxy.py CHANGED Viewed

@@ -4581,6 +4581,34 @@ async def _apply_malformed_tool_guardrail(
         )
         current_issue = retry_issue
+    # Option 2 (PR #154): When retries exhaust during review phase, reset to
+    # bootstrap instead of returning guardrail fallback. This re-enables all
+    # tools (including previously excluded cycling ones) and gives the model
+    # a clean shot. The cycle detector will catch re-cycling if it recurs.
+    if monitor.tool_turn_phase == "review":
+        logger.warning(
+            "TOOL RESPONSE review-phase reset: session=%s retries exhausted in review "
+            "(kind=%s malformed=%d), resetting to bootstrap for fresh attempt",
+            session_id,
+            current_issue.kind or issue.kind,
+            monitor.malformed_tool_streak,
+        )
+        monitor.reset_tool_turn_state(reason="review_retry_exhausted")
+        monitor.malformed_tool_streak = 0
+        monitor.invalid_tool_call_streak = 0
+        # Return the best response we have — even if degraded — to keep
+        # the conversation moving rather than returning a guardrail stub.
+        degraded_text = _sanitize_tool_call_apology_text(
+            _openai_message_text(working_resp)
+        ).strip()
+        if degraded_text and not _looks_malformed_tool_payload(degraded_text):
+            return _build_safe_text_openai_response(
+                working_resp, degraded_text, finish_reason="tool_calls",
+            )
+        return _build_clean_guardrail_openai_response(
+            working_resp, finish_reason="tool_calls",
+        )
     logger.error(
         "TOOL RESPONSE issue persisted after retries (session=%s kind=%s malformed=%d invalid=%d required_miss=%d); returning clean guardrail response",
         session_id,

package/tools/agents/tests/test_anthropic_proxy_streaming.py CHANGED Viewed

@@ -4178,3 +4178,45 @@ class TestFinalizePingPongFix(unittest.TestCase):
             proxy.TOOL_CALL_GRAMMAR_TOOLS_COMPATIBLE = old_compat
             proxy.PROXY_TOOL_CALL_GRAMMAR = old_flag
             proxy.TOOL_CALL_GBNF = old_gbnf
+class TestReviewPhaseBootstrapReset(unittest.TestCase):
+    """Tests for bootstrap reset after exhausted retries in review phase (PR #154)."""
+    def _make_monitor_in_review(self):
+        m = proxy.SessionMonitor()
+        m.set_tool_turn_phase("review", reason="test")
+        m.malformed_tool_streak = 3
+        m.invalid_tool_call_streak = 0
+        return m
+    def _make_monitor_in_act(self):
+        m = proxy.SessionMonitor()
+        m.set_tool_turn_phase("act", reason="test")
+        m.malformed_tool_streak = 3
+        return m
+    def test_review_phase_resets_to_bootstrap(self):
+        """After retries exhaust in review, monitor resets to bootstrap."""
+        m = self._make_monitor_in_review()
+        self.assertEqual(m.tool_turn_phase, "review")
+        self.assertEqual(m.malformed_tool_streak, 3)
+        # Simulate what happens after retry exhaustion: the code checks
+        # monitor.tool_turn_phase == "review" and resets
+        if m.tool_turn_phase == "review":
+            m.reset_tool_turn_state(reason="review_retry_exhausted")
+            m.malformed_tool_streak = 0
+            m.invalid_tool_call_streak = 0
+        self.assertEqual(m.tool_turn_phase, "bootstrap")
+        self.assertEqual(m.malformed_tool_streak, 0)
+        self.assertEqual(m.tool_state_stagnation_streak, 0)
+        self.assertEqual(m.cycling_tool_names, [])
+    def test_act_phase_does_not_reset(self):
+        """In act phase, retries exhaustion should NOT trigger bootstrap reset."""
+        m = self._make_monitor_in_act()
+        # The bootstrap reset only triggers for review phase
+        self.assertNotEqual(m.tool_turn_phase, "review")
+        # In act phase, the normal guardrail fallback path runs instead