PyPI - klaude-code - Versions diffs - 1.2.6__py3-none-any.whl → 1.8.0__py3-none-any.whl - Mend

klaude-code 1.2.6py3-none-any.whl → 1.8.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (205) hide show

klaude_code/auth/__init__.py +24 -0
klaude_code/auth/codex/__init__.py +20 -0
klaude_code/auth/codex/exceptions.py +17 -0
klaude_code/auth/codex/jwt_utils.py +45 -0
klaude_code/auth/codex/oauth.py +229 -0
klaude_code/auth/codex/token_manager.py +84 -0
klaude_code/cli/auth_cmd.py +73 -0
klaude_code/cli/config_cmd.py +91 -0
klaude_code/cli/cost_cmd.py +338 -0
klaude_code/cli/debug.py +78 -0
klaude_code/cli/list_model.py +307 -0
klaude_code/cli/main.py +233 -134
klaude_code/cli/runtime.py +309 -117
klaude_code/{version.py → cli/self_update.py} +114 -5
klaude_code/cli/session_cmd.py +37 -21
klaude_code/command/__init__.py +88 -27
klaude_code/command/clear_cmd.py +8 -7
klaude_code/command/command_abc.py +31 -31
klaude_code/command/debug_cmd.py +79 -0
klaude_code/command/export_cmd.py +19 -53
klaude_code/command/export_online_cmd.py +154 -0
klaude_code/command/fork_session_cmd.py +267 -0
klaude_code/command/help_cmd.py +7 -8
klaude_code/command/model_cmd.py +60 -10
klaude_code/command/model_select.py +84 -0
klaude_code/command/prompt-jj-describe.md +32 -0
klaude_code/command/prompt_command.py +19 -11
klaude_code/command/refresh_cmd.py +8 -10
klaude_code/command/registry.py +139 -40
klaude_code/command/release_notes_cmd.py +84 -0
klaude_code/command/resume_cmd.py +111 -0
klaude_code/command/status_cmd.py +104 -60
klaude_code/command/terminal_setup_cmd.py +7 -9
klaude_code/command/thinking_cmd.py +98 -0
klaude_code/config/__init__.py +14 -6
klaude_code/config/assets/__init__.py +1 -0
klaude_code/config/assets/builtin_config.yaml +303 -0
klaude_code/config/builtin_config.py +38 -0
klaude_code/config/config.py +378 -109
klaude_code/config/select_model.py +117 -53
klaude_code/config/thinking.py +269 -0
klaude_code/{const/__init__.py → const.py} +50 -19
klaude_code/core/agent.py +20 -28
klaude_code/core/executor.py +327 -112
klaude_code/core/manager/__init__.py +2 -4
klaude_code/core/manager/llm_clients.py +1 -15
klaude_code/core/manager/llm_clients_builder.py +10 -11
klaude_code/core/manager/sub_agent_manager.py +37 -6
klaude_code/core/prompt.py +63 -44
klaude_code/core/prompts/prompt-claude-code.md +2 -13
klaude_code/core/prompts/prompt-codex-gpt-5-1-codex-max.md +117 -0
klaude_code/core/prompts/prompt-codex-gpt-5-2-codex.md +117 -0
klaude_code/core/prompts/prompt-codex.md +9 -42
klaude_code/core/prompts/prompt-minimal.md +12 -0
klaude_code/core/prompts/{prompt-subagent-explore.md → prompt-sub-agent-explore.md} +16 -3
klaude_code/core/prompts/{prompt-subagent-oracle.md → prompt-sub-agent-oracle.md} +1 -2
klaude_code/core/prompts/prompt-sub-agent-web.md +51 -0
klaude_code/core/reminders.py +283 -95
klaude_code/core/task.py +113 -75
klaude_code/core/tool/__init__.py +24 -31
klaude_code/core/tool/file/_utils.py +36 -0
klaude_code/core/tool/file/apply_patch.py +17 -25
klaude_code/core/tool/file/apply_patch_tool.py +57 -77
klaude_code/core/tool/file/diff_builder.py +151 -0
klaude_code/core/tool/file/edit_tool.py +50 -63
klaude_code/core/tool/file/move_tool.md +41 -0
klaude_code/core/tool/file/move_tool.py +435 -0
klaude_code/core/tool/file/read_tool.md +1 -1
klaude_code/core/tool/file/read_tool.py +86 -86
klaude_code/core/tool/file/write_tool.py +59 -69
klaude_code/core/tool/report_back_tool.py +84 -0
klaude_code/core/tool/shell/bash_tool.py +265 -22
klaude_code/core/tool/shell/command_safety.py +3 -6
klaude_code/core/tool/{memory → skill}/skill_tool.py +16 -26
klaude_code/core/tool/sub_agent_tool.py +13 -2
klaude_code/core/tool/todo/todo_write_tool.md +0 -157
klaude_code/core/tool/todo/todo_write_tool.py +1 -1
klaude_code/core/tool/todo/todo_write_tool_raw.md +182 -0
klaude_code/core/tool/todo/update_plan_tool.py +1 -1
klaude_code/core/tool/tool_abc.py +18 -0
klaude_code/core/tool/tool_context.py +27 -12
klaude_code/core/tool/tool_registry.py +7 -7
klaude_code/core/tool/tool_runner.py +44 -36
klaude_code/core/tool/truncation.py +29 -14
klaude_code/core/tool/web/mermaid_tool.md +43 -0
klaude_code/core/tool/web/mermaid_tool.py +2 -5
klaude_code/core/tool/web/web_fetch_tool.md +1 -1
klaude_code/core/tool/web/web_fetch_tool.py +112 -22
klaude_code/core/tool/web/web_search_tool.md +23 -0
klaude_code/core/tool/web/web_search_tool.py +130 -0
klaude_code/core/turn.py +168 -66
klaude_code/llm/__init__.py +2 -10
klaude_code/llm/anthropic/client.py +190 -178
klaude_code/llm/anthropic/input.py +39 -15
klaude_code/llm/bedrock/__init__.py +3 -0
klaude_code/llm/bedrock/client.py +60 -0
klaude_code/llm/client.py +7 -21
klaude_code/llm/codex/__init__.py +5 -0
klaude_code/llm/codex/client.py +149 -0
klaude_code/llm/google/__init__.py +3 -0
klaude_code/llm/google/client.py +309 -0
klaude_code/llm/google/input.py +215 -0
klaude_code/llm/input_common.py +3 -9
klaude_code/llm/openai_compatible/client.py +72 -164
klaude_code/llm/openai_compatible/input.py +6 -4
klaude_code/llm/openai_compatible/stream.py +273 -0
klaude_code/llm/openai_compatible/tool_call_accumulator.py +17 -1
klaude_code/llm/openrouter/client.py +89 -160
klaude_code/llm/openrouter/input.py +18 -30
klaude_code/llm/openrouter/reasoning.py +118 -0
klaude_code/llm/registry.py +39 -7
klaude_code/llm/responses/client.py +184 -171
klaude_code/llm/responses/input.py +20 -1
klaude_code/llm/usage.py +17 -12
klaude_code/protocol/commands.py +17 -1
klaude_code/protocol/events.py +31 -4
klaude_code/protocol/llm_param.py +13 -10
klaude_code/protocol/model.py +232 -29
klaude_code/protocol/op.py +90 -1
klaude_code/protocol/op_handler.py +35 -1
klaude_code/protocol/sub_agent/__init__.py +117 -0
klaude_code/protocol/sub_agent/explore.py +63 -0
klaude_code/protocol/sub_agent/oracle.py +91 -0
klaude_code/protocol/sub_agent/task.py +61 -0
klaude_code/protocol/sub_agent/web.py +79 -0
klaude_code/protocol/tools.py +4 -2
klaude_code/session/__init__.py +2 -2
klaude_code/session/codec.py +71 -0
klaude_code/session/export.py +293 -86
klaude_code/session/selector.py +89 -67
klaude_code/session/session.py +320 -309
klaude_code/session/store.py +220 -0
klaude_code/session/templates/export_session.html +595 -83
klaude_code/session/templates/mermaid_viewer.html +926 -0
klaude_code/skill/__init__.py +27 -0
klaude_code/skill/assets/deslop/SKILL.md +17 -0
klaude_code/skill/assets/dev-docs/SKILL.md +108 -0
klaude_code/skill/assets/handoff/SKILL.md +39 -0
klaude_code/skill/assets/jj-workspace/SKILL.md +20 -0
klaude_code/skill/assets/skill-creator/SKILL.md +139 -0
klaude_code/{core/tool/memory/skill_loader.py → skill/loader.py} +55 -15
klaude_code/skill/manager.py +70 -0
klaude_code/skill/system_skills.py +192 -0
klaude_code/trace/__init__.py +20 -2
klaude_code/trace/log.py +150 -5
klaude_code/ui/__init__.py +4 -9
klaude_code/ui/core/input.py +1 -1
klaude_code/ui/core/stage_manager.py +7 -7
klaude_code/ui/modes/debug/display.py +2 -1
klaude_code/ui/modes/repl/__init__.py +3 -48
klaude_code/ui/modes/repl/clipboard.py +5 -5
klaude_code/ui/modes/repl/completers.py +487 -123
klaude_code/ui/modes/repl/display.py +5 -4
klaude_code/ui/modes/repl/event_handler.py +370 -117
klaude_code/ui/modes/repl/input_prompt_toolkit.py +552 -105
klaude_code/ui/modes/repl/key_bindings.py +146 -23
klaude_code/ui/modes/repl/renderer.py +189 -99
klaude_code/ui/renderers/assistant.py +9 -2
klaude_code/ui/renderers/bash_syntax.py +178 -0
klaude_code/ui/renderers/common.py +78 -0
klaude_code/ui/renderers/developer.py +104 -48
klaude_code/ui/renderers/diffs.py +87 -6
klaude_code/ui/renderers/errors.py +11 -6
klaude_code/ui/renderers/mermaid_viewer.py +57 -0
klaude_code/ui/renderers/metadata.py +112 -76
klaude_code/ui/renderers/sub_agent.py +92 -7
klaude_code/ui/renderers/thinking.py +40 -18
klaude_code/ui/renderers/tools.py +405 -227
klaude_code/ui/renderers/user_input.py +73 -13
klaude_code/ui/rich/__init__.py +10 -1
klaude_code/ui/rich/cjk_wrap.py +228 -0
klaude_code/ui/rich/code_panel.py +131 -0
klaude_code/ui/rich/live.py +17 -0
klaude_code/ui/rich/markdown.py +305 -170
klaude_code/ui/rich/searchable_text.py +10 -13
klaude_code/ui/rich/status.py +190 -49
klaude_code/ui/rich/theme.py +135 -39
klaude_code/ui/terminal/__init__.py +55 -0
klaude_code/ui/terminal/color.py +1 -1
klaude_code/ui/terminal/control.py +13 -22
klaude_code/ui/terminal/notifier.py +44 -4
klaude_code/ui/terminal/selector.py +658 -0
klaude_code/ui/utils/common.py +0 -18
klaude_code-1.8.0.dist-info/METADATA +377 -0
klaude_code-1.8.0.dist-info/RECORD +219 -0
{klaude_code-1.2.6.dist-info → klaude_code-1.8.0.dist-info}/entry_points.txt +1 -0
klaude_code/command/diff_cmd.py +0 -138
klaude_code/command/prompt-dev-docs-update.md +0 -56
klaude_code/command/prompt-dev-docs.md +0 -46
klaude_code/config/list_model.py +0 -162
klaude_code/core/manager/agent_manager.py +0 -127
klaude_code/core/prompts/prompt-subagent-webfetch.md +0 -46
klaude_code/core/tool/file/multi_edit_tool.md +0 -42
klaude_code/core/tool/file/multi_edit_tool.py +0 -199
klaude_code/core/tool/memory/memory_tool.md +0 -16
klaude_code/core/tool/memory/memory_tool.py +0 -462
klaude_code/llm/openrouter/reasoning_handler.py +0 -209
klaude_code/protocol/sub_agent.py +0 -348
klaude_code/ui/utils/debouncer.py +0 -42
klaude_code-1.2.6.dist-info/METADATA +0 -178
klaude_code-1.2.6.dist-info/RECORD +0 -167
/klaude_code/core/prompts/{prompt-subagent.md → prompt-sub-agent.md} +0 -0
/klaude_code/core/tool/{memory → skill}/__init__.py +0 -0
/klaude_code/core/tool/{memory → skill}/skill_tool.md +0 -0
{klaude_code-1.2.6.dist-info → klaude_code-1.8.0.dist-info}/WHEEL +0 -0

klaude_code/llm/responses/client.py CHANGED Viewed

@@ -1,20 +1,181 @@
 import json
-import time
 from collections.abc import AsyncGenerator
-from typing import override
+from typing import TYPE_CHECKING, override
 import httpx
-from openai import AsyncAzureOpenAI, AsyncOpenAI, RateLimitError
+import openai
+from openai import AsyncAzureOpenAI, AsyncOpenAI
 from openai.types import responses
+from openai.types.responses.response_create_params import ResponseCreateParamsStreaming
-from klaude_code.llm.client import LLMClientABC, call_with_logged_payload
+from klaude_code.llm.client import LLMClientABC
 from klaude_code.llm.input_common import apply_config_defaults
 from klaude_code.llm.registry import register
 from klaude_code.llm.responses.input import convert_history_to_input, convert_tool_schema
-from klaude_code.llm.usage import calculate_cost
+from klaude_code.llm.usage import MetadataTracker
 from klaude_code.protocol import llm_param, model
 from klaude_code.trace import DebugType, log_debug
+if TYPE_CHECKING:
+    from openai import AsyncStream
+    from openai.types.responses import ResponseStreamEvent
+def build_payload(param: llm_param.LLMCallParameter) -> ResponseCreateParamsStreaming:
+    """Build OpenAI Responses API request parameters."""
+    inputs = convert_history_to_input(param.input, param.model)
+    tools = convert_tool_schema(param.tools)
+    payload: ResponseCreateParamsStreaming = {
+        "model": str(param.model),
+        "tool_choice": "auto",
+        "parallel_tool_calls": True,
+        "include": [
+            "reasoning.encrypted_content",
+        ],
+        "store": False,
+        "stream": True,
+        "temperature": param.temperature,
+        "max_output_tokens": param.max_tokens,
+        "input": inputs,
+        "instructions": param.system,
+        "tools": tools,
+        "prompt_cache_key": param.session_id or "",
+    }
+    if param.thinking and param.thinking.reasoning_effort:
+        payload["reasoning"] = {
+            "effort": param.thinking.reasoning_effort,
+            "summary": param.thinking.reasoning_summary,
+        }
+    if param.verbosity:
+        payload["text"] = {"verbosity": param.verbosity}
+    return payload
+async def parse_responses_stream(
+    stream: "AsyncStream[ResponseStreamEvent]",
+    param: llm_param.LLMCallParameter,
+    metadata_tracker: MetadataTracker,
+) -> AsyncGenerator[model.ConversationItem]:
+    """Parse OpenAI Responses API stream events into ConversationItems."""
+    response_id: str | None = None
+    try:
+        async for event in stream:
+            log_debug(
+                f"[{event.type}]",
+                event.model_dump_json(exclude_none=True),
+                style="blue",
+                debug_type=DebugType.LLM_STREAM,
+            )
+            match event:
+                case responses.ResponseCreatedEvent() as event:
+                    response_id = event.response.id
+                    yield model.StartItem(response_id=response_id)
+                case responses.ResponseReasoningSummaryTextDeltaEvent() as event:
+                    if event.delta:
+                        metadata_tracker.record_token()
+                        yield model.ReasoningTextDelta(
+                            content=event.delta,
+                            response_id=response_id,
+                        )
+                case responses.ResponseReasoningSummaryTextDoneEvent() as event:
+                    if event.text:
+                        yield model.ReasoningTextItem(
+                            content=event.text,
+                            response_id=response_id,
+                            model=str(param.model),
+                        )
+                case responses.ResponseTextDeltaEvent() as event:
+                    if event.delta:
+                        metadata_tracker.record_token()
+                    yield model.AssistantMessageDelta(content=event.delta, response_id=response_id)
+                case responses.ResponseOutputItemAddedEvent() as event:
+                    if isinstance(event.item, responses.ResponseFunctionToolCall):
+                        metadata_tracker.record_token()
+                        yield model.ToolCallStartItem(
+                            response_id=response_id,
+                            call_id=event.item.call_id,
+                            name=event.item.name,
+                        )
+                case responses.ResponseOutputItemDoneEvent() as event:
+                    match event.item:
+                        case responses.ResponseReasoningItem() as item:
+                            if item.encrypted_content:
+                                metadata_tracker.record_token()
+                                yield model.ReasoningEncryptedItem(
+                                    id=item.id,
+                                    encrypted_content=item.encrypted_content,
+                                    response_id=response_id,
+                                    model=str(param.model),
+                                )
+                        case responses.ResponseOutputMessage() as item:
+                            metadata_tracker.record_token()
+                            yield model.AssistantMessageItem(
+                                content="\n".join(
+                                    [
+                                        part.text
+                                        for part in item.content
+                                        if isinstance(part, responses.ResponseOutputText)
+                                    ]
+                                ),
+                                id=item.id,
+                                response_id=response_id,
+                            )
+                        case responses.ResponseFunctionToolCall() as item:
+                            metadata_tracker.record_token()
+                            yield model.ToolCallItem(
+                                name=item.name,
+                                arguments=item.arguments.strip(),
+                                call_id=item.call_id,
+                                id=item.id,
+                                response_id=response_id,
+                            )
+                        case _:
+                            pass
+                case responses.ResponseCompletedEvent() as event:
+                    error_reason: str | None = None
+                    if event.response.incomplete_details is not None:
+                        error_reason = event.response.incomplete_details.reason
+                    if event.response.usage is not None:
+                        metadata_tracker.set_usage(
+                            model.Usage(
+                                input_tokens=event.response.usage.input_tokens,
+                                output_tokens=event.response.usage.output_tokens,
+                                cached_tokens=event.response.usage.input_tokens_details.cached_tokens,
+                                reasoning_tokens=event.response.usage.output_tokens_details.reasoning_tokens,
+                                context_size=event.response.usage.total_tokens,
+                                context_limit=param.context_limit,
+                                max_tokens=param.max_tokens,
+                            )
+                        )
+                    metadata_tracker.set_model_name(str(param.model))
+                    metadata_tracker.set_response_id(response_id)
+                    yield metadata_tracker.finalize()
+                    if event.response.status != "completed":
+                        error_message = f"LLM response finished with status '{event.response.status}'"
+                        if error_reason:
+                            error_message = f"{error_message}: {error_reason}"
+                        log_debug(
+                            "[LLM status warning]",
+                            error_message,
+                            style="red",
+                            debug_type=DebugType.LLM_STREAM,
+                        )
+                        yield model.StreamErrorItem(error=error_message)
+                case _:
+                    log_debug(
+                        "[Unhandled stream event]",
+                        str(event),
+                        style="red",
+                        debug_type=DebugType.LLM_STREAM,
+                    )
+    except (openai.OpenAIError, httpx.HTTPError) as e:
+        yield model.StreamErrorItem(error=f"{e.__class__.__name__} {e!s}")
 @register(llm_param.LLMClientProtocol.RESPONSES)
 class ResponsesClient(LLMClientABC):
@@ -43,174 +204,26 @@ class ResponsesClient(LLMClientABC):
         return cls(config)
     @override
-    async def call(self, param: llm_param.LLMCallParameter) -> AsyncGenerator[model.ConversationItem, None]:
+    async def call(self, param: llm_param.LLMCallParameter) -> AsyncGenerator[model.ConversationItem]:
         param = apply_config_defaults(param, self.get_llm_config())
-        request_start_time = time.time()
-        first_token_time: float | None = None
-        last_token_time: float | None = None
-        response_id: str | None = None
-        inputs = convert_history_to_input(param.input, param.model)
-        tools = convert_tool_schema(param.tools)
-        parallel_tool_calls = True
-        stream = call_with_logged_payload(
-            self.client.responses.create,
-            model=str(param.model),
-            tool_choice="auto",
-            parallel_tool_calls=parallel_tool_calls,  # OpenAI's Codex is always False, we try to enable it here. It seems gpt-5-codex has bugs when parallel_tool_calls is True.
-            include=[
-                "reasoning.encrypted_content",
-            ],
-            store=param.store,
-            previous_response_id=param.previous_response_id,
-            stream=True,
-            temperature=param.temperature,
-            max_output_tokens=param.max_tokens,
-            input=inputs,
-            instructions=param.system,
-            tools=tools,
-            text={
-                "verbosity": param.verbosity,
-            },
-            reasoning={
-                "effort": param.thinking.reasoning_effort,
-                "summary": param.thinking.reasoning_summary,
-            }
-            if param.thinking and param.thinking.reasoning_effort
-            else None,
-            extra_headers={"extra": json.dumps({"session_id": param.session_id})},
-        )
-        try:
-            async for event in await stream:
-                log_debug(
-                    f"[{event.type}]",
-                    event.model_dump_json(exclude_none=True),
-                    style="blue",
-                    debug_type=DebugType.LLM_STREAM,
-                )
-                match event:
-                    case responses.ResponseCreatedEvent() as event:
-                        response_id = event.response.id
-                        yield model.StartItem(response_id=response_id)
-                    case responses.ResponseReasoningSummaryTextDoneEvent() as event:
-                        if event.text:
-                            yield model.ReasoningTextItem(
-                                content=event.text,
-                                response_id=response_id,
-                                model=str(param.model),
-                            )
-                    case responses.ResponseTextDeltaEvent() as event:
-                        if first_token_time is None:
-                            first_token_time = time.time()
-                        last_token_time = time.time()
-                        yield model.AssistantMessageDelta(content=event.delta, response_id=response_id)
-                    case responses.ResponseOutputItemAddedEvent() as event:
-                        if isinstance(event.item, responses.ResponseFunctionToolCall):
-                            yield model.ToolCallStartItem(
-                                response_id=response_id,
-                                call_id=event.item.call_id,
-                                name=event.item.name,
-                            )
-                    case responses.ResponseOutputItemDoneEvent() as event:
-                        match event.item:
-                            case responses.ResponseReasoningItem() as item:
-                                if item.encrypted_content:
-                                    yield model.ReasoningEncryptedItem(
-                                        id=item.id,
-                                        encrypted_content=item.encrypted_content,
-                                        response_id=response_id,
-                                        model=str(param.model),
-                                    )
-                            case responses.ResponseOutputMessage() as item:
-                                yield model.AssistantMessageItem(
-                                    content="\n".join(
-                                        [
-                                            part.text
-                                            for part in item.content
-                                            if isinstance(part, responses.ResponseOutputText)
-                                        ]
-                                    ),
-                                    id=item.id,
-                                    response_id=response_id,
-                                )
-                            case responses.ResponseFunctionToolCall() as item:
-                                if first_token_time is None:
-                                    first_token_time = time.time()
-                                last_token_time = time.time()
-                                yield model.ToolCallItem(
-                                    name=item.name,
-                                    arguments=item.arguments.strip(),
-                                    call_id=item.call_id,
-                                    id=item.id,
-                                    response_id=response_id,
-                                )
-                            case _:
-                                pass
-                    case responses.ResponseCompletedEvent() as event:
-                        usage: model.Usage | None = None
-                        error_reason: str | None = None
-                        if event.response.incomplete_details is not None:
-                            error_reason = event.response.incomplete_details.reason
-                        if event.response.usage is not None:
-                            total_tokens = event.response.usage.total_tokens
-                            context_usage_percent = (
-                                (total_tokens / param.context_limit) * 100 if param.context_limit else None
-                            )
-                            throughput_tps: float | None = None
-                            first_token_latency_ms: float | None = None
+        metadata_tracker = MetadataTracker(cost_config=self.get_llm_config().cost)
-                            if first_token_time is not None:
-                                first_token_latency_ms = (first_token_time - request_start_time) * 1000
+        payload = build_payload(param)
-                            if (
-                                first_token_time is not None
-                                and last_token_time is not None
-                                and event.response.usage.output_tokens > 0
-                            ):
-                                time_duration = last_token_time - first_token_time
-                                if time_duration >= 0.15:
-                                    throughput_tps = event.response.usage.output_tokens / time_duration
+        log_debug(
+            json.dumps(payload, ensure_ascii=False, default=str),
+            style="yellow",
+            debug_type=DebugType.LLM_PAYLOAD,
+        )
+        try:
+            stream = await self.client.responses.create(
+                **payload,
+                extra_headers={"extra": json.dumps({"session_id": param.session_id}, sort_keys=True)},
+            )
+        except (openai.OpenAIError, httpx.HTTPError) as e:
+            yield model.StreamErrorItem(error=f"{e.__class__.__name__} {e!s}")
+            return
-                            usage = model.Usage(
-                                input_tokens=event.response.usage.input_tokens,
-                                cached_tokens=event.response.usage.input_tokens_details.cached_tokens,
-                                reasoning_tokens=event.response.usage.output_tokens_details.reasoning_tokens,
-                                output_tokens=event.response.usage.output_tokens,
-                                total_tokens=total_tokens,
-                                context_usage_percent=context_usage_percent,
-                                throughput_tps=throughput_tps,
-                                first_token_latency_ms=first_token_latency_ms,
-                            )
-                            calculate_cost(usage, self._config.cost)
-                        yield model.ResponseMetadataItem(
-                            usage=usage,
-                            response_id=response_id,
-                            model_name=str(param.model),
-                            status=event.response.status,
-                            error_reason=error_reason,
-                        )
-                        if event.response.status != "completed":
-                            error_message = f"LLM response finished with status '{event.response.status}'"
-                            if error_reason:
-                                error_message = f"{error_message}: {error_reason}"
-                            log_debug(
-                                "[LLM status warning]",
-                                error_message,
-                                style="red",
-                                debug_type=DebugType.LLM_STREAM,
-                            )
-                            yield model.StreamErrorItem(error=error_message)
-                    case _:
-                        log_debug(
-                            "[Unhandled stream event]",
-                            str(event),
-                            style="red",
-                            debug_type=DebugType.LLM_STREAM,
-                        )
-        except RateLimitError as e:
-            yield model.StreamErrorItem(error=f"{e.__class__.__name__} {str(e)}")
+        async for item in parse_responses_stream(stream, param, metadata_tracker):
+            yield item

klaude_code/llm/responses/input.py CHANGED Viewed

@@ -1,5 +1,6 @@
 # pyright: reportReturnType=false
 # pyright: reportArgumentType=false
+# pyright: reportAssignmentType=false
 from typing import Any
@@ -34,7 +35,7 @@ def _build_tool_result_item(tool: model.ToolResultItem) -> responses.ResponseInp
         "call_id": tool.call_id,
         "output": content_parts,
     }
-    return item  # type: ignore[return-value]
+    return item
 def convert_history_to_input(
@@ -51,6 +52,7 @@ def convert_history_to_input(
     items: list[responses.ResponseInputItemParam] = []
     pending_reasoning_text: str | None = None
+    degraded_thinking_texts: list[str] = []
     for item in history:
         match item:
@@ -60,6 +62,9 @@ def convert_history_to_input(
                 # or we can choose to output it if the next item is NOT reasoning?
                 # For now, based on instructions, we pair them.
                 if model_name != item.model:
+                    # Cross-model: collect thinking text for degradation
+                    if item.content:
+                        degraded_thinking_texts.append(item.content)
                     continue
                 pending_reasoning_text = item.content
@@ -130,6 +135,20 @@ def convert_history_to_input(
                 # Other items may be Metadata
                 continue
+    # Cross-model: degrade thinking to plain text with <thinking> tags
+    if degraded_thinking_texts:
+        degraded_item: responses.ResponseInputItemParam = {
+            "type": "message",
+            "role": "assistant",
+            "content": [
+                {
+                    "type": "output_text",
+                    "text": "<thinking>\n" + "\n".join(degraded_thinking_texts) + "\n</thinking>",
+                }
+            ],
+        }
+        items.insert(0, degraded_item)
     return items

klaude_code/llm/usage.py CHANGED Viewed

@@ -14,6 +14,9 @@ def calculate_cost(usage: model.Usage, cost_config: llm_param.Cost | None) -> No
     if cost_config is None:
         return
+    # Set currency
+    usage.currency = cost_config.currency
     # Non-cached input tokens cost
     non_cached_input = usage.input_tokens - usage.cached_tokens
     usage.input_cost = (non_cached_input / 1_000_000) * cost_config.input
@@ -24,9 +27,6 @@ def calculate_cost(usage: model.Usage, cost_config: llm_param.Cost | None) -> No
     # Cache read cost
     usage.cache_read_cost = (usage.cached_tokens / 1_000_000) * cost_config.cache_read
-    # Total cost
-    usage.total_cost = usage.input_cost + usage.output_cost + usage.cache_read_cost
 class MetadataTracker:
     """Tracks timing and metadata for LLM responses."""
@@ -81,7 +81,7 @@ class MetadataTracker:
             ) * 1000
             if self._last_token_time is not None and self._metadata_item.usage.output_tokens > 0:
-                time_duration = self._last_token_time - self._first_token_time
+                time_duration = self._last_token_time - self._request_start_time
                 if time_duration >= 0.15:
                     self._metadata_item.usage.throughput_tps = self._metadata_item.usage.output_tokens / time_duration
@@ -92,18 +92,23 @@ class MetadataTracker:
         return self._metadata_item
-def convert_usage(usage: openai.types.CompletionUsage, context_limit: int | None = None) -> model.Usage:
-    """Convert OpenAI CompletionUsage to internal Usage model."""
-    total_tokens = usage.total_tokens
-    context_usage_percent = (total_tokens / context_limit) * 100 if context_limit else None
+def convert_usage(
+    usage: openai.types.CompletionUsage,
+    context_limit: int | None = None,
+    max_tokens: int | None = None,
+) -> model.Usage:
+    """Convert OpenAI CompletionUsage to internal Usage model.
+    context_token is set to total_tokens from the API response,
+    representing the actual context window usage for this turn.
+    """
     return model.Usage(
         input_tokens=usage.prompt_tokens,
         cached_tokens=(usage.prompt_tokens_details.cached_tokens if usage.prompt_tokens_details else 0) or 0,
         reasoning_tokens=(usage.completion_tokens_details.reasoning_tokens if usage.completion_tokens_details else 0)
         or 0,
         output_tokens=usage.completion_tokens,
-        total_tokens=total_tokens,
-        context_usage_percent=context_usage_percent,
-        throughput_tps=None,
-        first_token_latency_ms=None,
+        context_size=usage.total_tokens,
+        context_limit=context_limit,
+        max_tokens=max_tokens,
     )

klaude_code/protocol/commands.py CHANGED Viewed

@@ -1,9 +1,20 @@
+from dataclasses import dataclass
 from enum import Enum
+@dataclass(frozen=True, slots=True)
+class CommandInfo:
+    """Lightweight command metadata for UI purposes (no logic)."""
+    name: str
+    summary: str
+    support_addition_params: bool = False
+    placeholder: str = ""
 class CommandName(str, Enum):
     INIT = "init"
-    DIFF = "diff"
+    DEBUG = "debug"
     HELP = "help"
     MODEL = "model"
     COMPACT = "compact"
@@ -11,7 +22,12 @@ class CommandName(str, Enum):
     CLEAR = "clear"
     TERMINAL_SETUP = "terminal-setup"
     EXPORT = "export"
+    EXPORT_ONLINE = "export-online"
     STATUS = "status"
+    RELEASE_NOTES = "release-notes"
+    THINKING = "thinking"
+    FORK_SESSION = "fork-session"
+    RESUME = "resume"
     # PLAN and DOC are dynamically registered now, but kept here if needed for reference
     # or we can remove them if no code explicitly imports them.
     # PLAN = "plan"

klaude_code/protocol/events.py CHANGED Viewed

@@ -16,6 +16,7 @@ class EndEvent(BaseModel):
 class ErrorEvent(BaseModel):
     error_message: str
     can_retry: bool = False
+    session_id: str | None = None
 class TaskStartEvent(BaseModel):
@@ -26,6 +27,7 @@ class TaskStartEvent(BaseModel):
 class TaskFinishEvent(BaseModel):
     session_id: str
     task_result: str
+    has_structured_output: bool = False
 class TurnStartEvent(BaseModel):
@@ -54,6 +56,12 @@ class ThinkingEvent(BaseModel):
     content: str
+class ThinkingDeltaEvent(BaseModel):
+    session_id: str
+    response_id: str | None = None
+    content: str
 class AssistantMessageDeltaEvent(BaseModel):
     session_id: str
     response_id: str | None = None
@@ -79,7 +87,6 @@ class ToolCallEvent(BaseModel):
     tool_call_id: str
     tool_name: str
     arguments: str
-    is_replay: bool = False
 class ToolResultEvent(BaseModel):
@@ -90,16 +97,23 @@ class ToolResultEvent(BaseModel):
     result: str
     ui_extra: model.ToolResultUIExtra | None = None
     status: Literal["success", "error"]
-    is_replay: bool = False
+    task_metadata: model.TaskMetadata | None = None  # Sub-agent task metadata
 class ResponseMetadataEvent(BaseModel):
-    """Showing model name, usage tokens, task duration, and turn count."""
+    """Internal event for turn-level metadata. Not exposed to UI directly."""
     session_id: str
     metadata: model.ResponseMetadataItem
+class TaskMetadataEvent(BaseModel):
+    """Task-level aggregated metadata for UI display."""
+    session_id: str
+    metadata: model.TaskMetadataItem
 class UserMessageEvent(BaseModel):
     session_id: str
     content: str
@@ -120,16 +134,26 @@ class TodoChangeEvent(BaseModel):
     todos: list[model.TodoItem]
+class ContextUsageEvent(BaseModel):
+    """Real-time context usage update during task execution."""
+    session_id: str
+    context_percent: float  # Context usage percentage (0-100)
 HistoryItemEvent = (
     ThinkingEvent
+    | TaskStartEvent
+    | TaskFinishEvent
     | TurnStartEvent  # This event is used for UI to print new empty line
     | AssistantMessageEvent
     | ToolCallEvent
     | ToolResultEvent
     | UserMessageEvent
-    | ResponseMetadataEvent
+    | TaskMetadataEvent
     | InterruptEvent
     | DeveloperMessageEvent
+    | ErrorEvent
 )
@@ -144,11 +168,13 @@ Event = (
     TaskStartEvent
     | TaskFinishEvent
     | ThinkingEvent
+    | ThinkingDeltaEvent
     | AssistantMessageDeltaEvent
     | AssistantMessageEvent
     | ToolCallEvent
     | ToolResultEvent
     | ResponseMetadataEvent
+    | TaskMetadataEvent
     | ReplayHistoryEvent
     | ErrorEvent
     | EndEvent
@@ -160,4 +186,5 @@ Event = (
     | TurnStartEvent
     | TurnEndEvent
     | TurnToolCallStartEvent
+    | ContextUsageEvent
 )

klaude-code 1.2.6__py3-none-any.whl → 1.8.0__py3-none-any.whl

klaude-code 1.2.6py3-none-any.whl → 1.8.0py3-none-any.whl