usestrix · mvanhorn · Jul 4, 2026 · greptile-apps · Jul 4, 2026 · mvanhorn
diff --git a/strix/core/execution.py b/strix/core/execution.py
@@ -4,6 +4,7 @@
 
 import asyncio
 import contextlib
+import json
 import logging
 import uuid
 from collections.abc import Callable
@@ -36,6 +37,7 @@
 StreamEventSink = Callable[[str, Any], None]
 
 _INPUT_REJECTION_CODES = frozenset({400, 404, 422})
+_TOOL_ARGUMENT_KEYS = frozenset({"action_input", "arguments", "input", "parameters", "params"})
 
 
 async def run_agent_loop(
@@ -62,7 +64,7 @@ async def run_agent_loop(
 
     if not (start_parked and interactive):
         if interactive:
-            result = await _run_cycle(
+            result = await _run_interactive_until_tool_continuation_settled(
                 agent,
                 coordinator,
                 agent_id,
@@ -71,7 +73,6 @@ async def run_agent_loop(
                 context=context,
                 max_turns=max_turns,
                 session=session,
-                interactive=interactive,
                 event_sink=event_sink,
                 hooks=hooks,
             )
@@ -103,7 +104,7 @@ async def run_agent_loop(
             raise BudgetExceededError("scan budget reached")
 
         await coordinator.consume_pending(agent_id)
-        result = await _run_cycle(
+        result = await _run_interactive_until_tool_continuation_settled(
             agent,
             coordinator,
             agent_id,
@@ -112,12 +113,73 @@ async def run_agent_loop(
             context=context,
             max_turns=max_turns,
             session=session,
-            interactive=interactive,
             event_sink=event_sink,
             hooks=hooks,
         )
 
 
+async def _run_interactive_until_tool_continuation_settled(
+    agent: Any,
+    coordinator: AgentCoordinator,
+    agent_id: str,
+    *,
+    input_data: Any,
+    run_config: RunConfig,
+    context: dict[str, Any],
+    max_turns: int,
+    session: Session | None,
+    event_sink: StreamEventSink | None,
+    hooks: RunHooks[dict[str, Any]] | None,
+) -> RunResultBase | None:
+    """Retry interactive turns when a model prints tool-call JSON as final text."""
+    result: RunResultBase | None = None
+    invalid_final_outputs = 0
+    invalid_final_output_limit = max(1, max_turns)
+
+    while True:
+        if coordinator.budget_stopped:
+            await coordinator.set_status(agent_id, "stopped")
+            raise BudgetExceededError("scan budget reached")
+
+        result = await _run_cycle(
+            agent,
+            coordinator,
+            agent_id,
+            input_data=input_data,
+            run_config=run_config,
+            context=context,
+            max_turns=max_turns,
+            session=session,
+            interactive=True,
+            event_sink=event_sink,
+            hooks=hooks,
+        )
+
+        status = await _agent_status(coordinator, agent_id)
+        if status != "waiting" or not _looks_like_unexecuted_tool_call(result):
+            return result
+
+        invalid_final_outputs += 1
+        logger.warning(
+            "agent %s produced tool-call-shaped final output in interactive mode; "
+            "forcing tool continuation (%d/%d): %s",
+            agent_id,
+            invalid_final_outputs,
+            invalid_final_output_limit,
+            _final_output_preview(result),
+        )
+
+        if invalid_final_outputs >= invalid_final_output_limit:
+            return result
+
+        input_data = await _append_interactive_tool_required_message(
+            session=session,
+            context=context,
+            attempt=invalid_final_outputs,
+            limit=invalid_final_output_limit,
+        )
+
+
 async def spawn_child_agent(
     *,
     coordinator: AgentCoordinator,
@@ -468,6 +530,72 @@ def _final_output_preview(result: RunResultBase | None) -> str:
     return text[:300]
 
 
+def _looks_like_unexecuted_tool_call(result: RunResultBase | None) -> bool:
+    final_output = getattr(result, "final_output", None)
+    if final_output is None:
+        return False
+    if isinstance(final_output, str):
+        parsed = _parse_json_final_output(final_output)
+        return parsed is not None and _is_tool_call_payload(parsed)
+    return _is_tool_call_payload(final_output)
+
+
+def _parse_json_final_output(text: str) -> Any | None:
+    stripped = text.strip()
+    if not stripped:
+        return None
+    if stripped.startswith("```"):
+        lines = stripped.splitlines()
+        if len(lines) >= 2 and lines[-1].strip() == "```":
+            stripped = "\n".join(lines[1:-1]).strip()
+    try:
+        return json.loads(stripped)
+    except (TypeError, ValueError):
+        return None
+
+
+def _is_tool_call_payload(payload: Any) -> bool:
+    if isinstance(payload, list):
+        return any(_is_tool_call_payload(item) for item in payload)
+    if not isinstance(payload, dict):
+        return False
+
+    tool_calls = payload.get("tool_calls")
+    if isinstance(tool_calls, list) and any(_is_tool_call_payload(item) for item in tool_calls):
+        return True
+
+    function = payload.get("function")
+    if isinstance(function, dict) and _is_tool_call_payload(function):
+        return True
+
+    tool_name = payload.get("action") or payload.get("tool") or payload.get("name")
+    return (
+        isinstance(tool_name, str)
+        and bool(tool_name.strip())
+        and any(key in payload for key in _TOOL_ARGUMENT_KEYS)
+    )
-    tool_name = payload.get("action") or payload.get("tool") or payload.get("name")
-    return (
-        isinstance(tool_name, str)
-        and bool(tool_name.strip())
-        and any(key in payload for key in _TOOL_ARGUMENT_KEYS)
-    )
+    tool_name = payload.get("action") or payload.get("tool")
+    return (
+        isinstance(tool_name, str)
+        and bool(tool_name.strip())
+        and any(key in payload for key in _TOOL_ARGUMENT_KEYS)
+    )
-    tool_name = payload.get("action") or payload.get("tool") or payload.get("name")
-    return (
-        isinstance(tool_name, str)
-        and bool(tool_name.strip())
-        and any(key in payload for key in _TOOL_ARGUMENT_KEYS)
-    )
+    tool_name = payload.get("action") or payload.get("tool")
+    return (
+        isinstance(tool_name, str)
+        and bool(tool_name.strip())
+        and any(key in payload for key in _TOOL_ARGUMENT_KEYS)
+    )
+
+
+async def _append_interactive_tool_required_message(
+    *,
+    session: Session | None,
+    context: dict[str, Any],
+    attempt: int,
+    limit: int,
+) -> list[dict[str, str]]:
+    finish_tool = "finish_scan" if context.get("parent_id") is None else "agent_finish"
+    message = (
+        "Your previous response looked like a tool call, but it was returned as plain text "
+        "instead of being executed. Plain-text tool-call JSON is not executed by Strix. "
+        "Continue immediately and call exactly one tool. "
+        f"If your work is complete, call {finish_tool}. "
+        "If you are blocked waiting for another agent, call wait_for_message. "
+        "Otherwise use the appropriate execution or planning tool. "
+        f"This is recovery attempt {attempt}/{limit}."
+    )
+    return await _append_tool_required_message(session=session, message=message)
+
+
 async def _append_noninteractive_tool_required_message(
     *,
     session: Session | None,
@@ -485,6 +613,14 @@ async def _append_noninteractive_tool_required_message(
         "Otherwise use the appropriate execution or planning tool. "
         f"This is recovery attempt {attempt}/{limit}."
     )
+    return await _append_tool_required_message(session=session, message=message)
+
+
+async def _append_tool_required_message(
+    *,
+    session: Session | None,
+    message: str,
+) -> list[dict[str, str]]:
     item = {"role": "user", "content": message}
     if session is None:
         return [item]