npm - @xagent-ai/cli - Versions diffs - 1.2.2 → 1.3.0 - Mend

@xagent-ai/cli 1.2.2 → 1.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (568) hide show

package/.github/ISSUE_TEMPLATE/bug_report.md +38 -38
package/.github/ISSUE_TEMPLATE/feature_request.md +20 -20
package/.github/workflows/ci.yml +72 -0
package/.github/workflows/release.yml +109 -0
package/.gitmodules +3 -3
package/README.md +326 -280
package/README_CN.md +325 -279
package/dist/ai-client/factory.d.ts +52 -0
package/dist/ai-client/factory.d.ts.map +1 -0
package/dist/ai-client/factory.js +132 -0
package/dist/ai-client/factory.js.map +1 -0
package/dist/ai-client/index.d.ts +20 -0
package/dist/ai-client/index.d.ts.map +1 -0
package/dist/ai-client/index.js +49 -0
package/dist/ai-client/index.js.map +1 -0
package/dist/ai-client/providers/anthropic.d.ts +57 -0
package/dist/ai-client/providers/anthropic.d.ts.map +1 -0
package/dist/ai-client/providers/anthropic.js +400 -0
package/dist/ai-client/providers/anthropic.js.map +1 -0
package/dist/ai-client/providers/openai.d.ts +57 -0
package/dist/ai-client/providers/openai.d.ts.map +1 -0
package/dist/ai-client/providers/openai.js +286 -0
package/dist/ai-client/providers/openai.js.map +1 -0
package/dist/ai-client/providers/remote.d.ts +111 -0
package/dist/ai-client/providers/remote.d.ts.map +1 -0
package/dist/ai-client/providers/remote.js +351 -0
package/dist/ai-client/providers/remote.js.map +1 -0
package/dist/ai-client/registry.d.ts +51 -0
package/dist/ai-client/registry.d.ts.map +1 -0
package/dist/ai-client/registry.js +81 -0
package/dist/ai-client/registry.js.map +1 -0
package/dist/ai-client/types.d.ts +260 -0
package/dist/ai-client/types.d.ts.map +1 -0
package/dist/ai-client/types.js +73 -0
package/dist/ai-client/types.js.map +1 -0
package/dist/ai-client-factory.d.ts +62 -0
package/dist/ai-client-factory.d.ts.map +1 -0
package/dist/ai-client-factory.js +157 -0
package/dist/ai-client-factory.js.map +1 -0
package/dist/auth.d.ts +23 -1
package/dist/auth.d.ts.map +1 -1
package/dist/auth.js +160 -168
package/dist/auth.js.map +1 -1
package/dist/cancellation.d.ts +5 -4
package/dist/cancellation.d.ts.map +1 -1
package/dist/cancellation.js +55 -32
package/dist/cancellation.js.map +1 -1
package/dist/checkpoint.d.ts +1 -1
package/dist/checkpoint.d.ts.map +1 -1
package/dist/checkpoint.js +2 -2
package/dist/checkpoint.js.map +1 -1
package/dist/cli.js +626 -13
package/dist/cli.js.map +1 -1
package/dist/config.d.ts +10 -4
package/dist/config.d.ts.map +1 -1
package/dist/config.js +62 -25
package/dist/config.js.map +1 -1
package/dist/context-compressor.d.ts +81 -16
package/dist/context-compressor.d.ts.map +1 -1
package/dist/context-compressor.js +712 -153
package/dist/context-compressor.js.map +1 -1
package/dist/gui-subagent/action-parser/actionParser.d.ts.map +1 -1
package/dist/gui-subagent/action-parser/actionParser.js +4 -2
package/dist/gui-subagent/action-parser/actionParser.js.map +1 -1
package/dist/gui-subagent/agent/gui-agent.d.ts +29 -2
package/dist/gui-subagent/agent/gui-agent.d.ts.map +1 -1
package/dist/gui-subagent/agent/gui-agent.js +87 -45
package/dist/gui-subagent/agent/gui-agent.js.map +1 -1
package/dist/gui-subagent/index.d.ts +16 -1
package/dist/gui-subagent/index.d.ts.map +1 -1
package/dist/gui-subagent/index.js +4 -0
package/dist/gui-subagent/index.js.map +1 -1
package/dist/gui-subagent/operator/base-operator.d.ts.map +1 -1
package/dist/gui-subagent/operator/base-operator.js +0 -1
package/dist/gui-subagent/operator/base-operator.js.map +1 -1
package/dist/gui-subagent/operator/computer-operator.d.ts.map +1 -1
package/dist/gui-subagent/operator/computer-operator.js +29 -8
package/dist/gui-subagent/operator/computer-operator.js.map +1 -1
package/dist/gui-subagent/types/actions.d.ts +1 -1
package/dist/gui-subagent/types/actions.d.ts.map +1 -1
package/dist/gui-subagent/types/actions.js +0 -1
package/dist/gui-subagent/types/actions.js.map +1 -1
package/dist/gui-subagent/types/operator.d.ts +1 -1
package/dist/gui-subagent/types/operator.d.ts.map +1 -1
package/dist/index.d.ts +1 -2
package/dist/index.d.ts.map +1 -1
package/dist/index.js +1 -2
package/dist/index.js.map +1 -1
package/dist/input-processor.d.ts.map +1 -1
package/dist/input-processor.js +6 -3
package/dist/input-processor.js.map +1 -1
package/dist/mcp.d.ts +5 -0
package/dist/mcp.d.ts.map +1 -1
package/dist/mcp.js +81 -35
package/dist/mcp.js.map +1 -1
package/dist/ripgrep.d.ts +29 -0
package/dist/ripgrep.d.ts.map +1 -0
package/dist/ripgrep.js +292 -0
package/dist/ripgrep.js.map +1 -0
package/dist/session.d.ts +23 -7
package/dist/session.d.ts.map +1 -1
package/dist/session.js +624 -243
package/dist/session.js.map +1 -1
package/dist/shell.d.ts +33 -0
package/dist/shell.d.ts.map +1 -0
package/dist/shell.js +125 -0
package/dist/shell.js.map +1 -0
package/dist/skill-installer.d.ts +38 -0
package/dist/skill-installer.d.ts.map +1 -0
package/dist/skill-installer.js +447 -0
package/dist/skill-installer.js.map +1 -0
package/dist/skill-invoker.d.ts +7 -1
package/dist/skill-invoker.d.ts.map +1 -1
package/dist/skill-invoker.js +34 -13
package/dist/skill-invoker.js.map +1 -1
package/dist/skill-loader.d.ts +8 -3
package/dist/skill-loader.d.ts.map +1 -1
package/dist/skill-loader.js +46 -44
package/dist/skill-loader.js.map +1 -1
package/dist/skill-manager.d.ts +85 -0
package/dist/skill-manager.d.ts.map +1 -0
package/dist/skill-manager.js +340 -0
package/dist/skill-manager.js.map +1 -0
package/dist/slash-commands.d.ts +38 -1
package/dist/slash-commands.d.ts.map +1 -1
package/dist/slash-commands.js +912 -296
package/dist/slash-commands.js.map +1 -1
package/dist/smart-approval.d.ts.map +1 -1
package/dist/smart-approval.js +67 -55
package/dist/smart-approval.js.map +1 -1
package/dist/system-prompt-generator.d.ts +6 -0
package/dist/system-prompt-generator.d.ts.map +1 -1
package/dist/system-prompt-generator.js +84 -34
package/dist/system-prompt-generator.js.map +1 -1
package/dist/terminal.d.ts +28 -0
package/dist/terminal.d.ts.map +1 -0
package/dist/terminal.js +82 -0
package/dist/terminal.js.map +1 -0
package/dist/tools.d.ts +23 -7
package/dist/tools.d.ts.map +1 -1
package/dist/tools.js +797 -437
package/dist/tools.js.map +1 -1
package/dist/truncate.d.ts +55 -0
package/dist/truncate.d.ts.map +1 -0
package/dist/truncate.js +130 -0
package/dist/truncate.js.map +1 -0
package/dist/types.d.ts +27 -9
package/dist/types.d.ts.map +1 -1
package/dist/update.d.ts.map +1 -1
package/dist/update.js +17 -28
package/dist/update.js.map +1 -1
package/dist/workflow.d.ts +5 -1
package/dist/workflow.d.ts.map +1 -1
package/dist/workflow.js +60 -47
package/dist/workflow.js.map +1 -1
package/docs/architecture/mcp-integration-guide.md +304 -194
package/docs/architecture/overview.md +169 -169
package/docs/architecture/tool-system-design.md +134 -134
package/docs/cli/commands.md +349 -238
package/docs/smart-mode.md +281 -281
package/docs/third-party-models.md +439 -439
package/find-skills/SKILL.md +133 -0
package/package.json +89 -90
package/scripts/install-ripgrep.js +241 -0
package/src/ai-client/factory.ts +151 -0
package/src/ai-client/index.ts +61 -0
package/src/ai-client/providers/anthropic.ts +466 -0
package/src/ai-client/providers/openai.ts +342 -0
package/src/ai-client/providers/remote.ts +436 -0
package/src/ai-client/registry.ts +97 -0
package/src/ai-client/types.ts +345 -0
package/src/ai-client-factory.ts +204 -0
package/src/auth.ts +663 -614
package/src/cancellation.ts +205 -176
package/src/checkpoint.ts +219 -219
package/src/cli.ts +1406 -743
package/src/config.ts +341 -297
package/src/context-compressor.ts +982 -290
package/src/conversation.ts +288 -288
package/src/gui-subagent/action-parser/actionParser.ts +318 -315
package/src/gui-subagent/action-parser/constants.ts +14 -14
package/src/gui-subagent/action-parser/index.ts +8 -8
package/src/gui-subagent/action-parser/types.ts +31 -31
package/src/gui-subagent/agent/gui-agent.ts +1151 -1089
package/src/gui-subagent/agent/index.ts +5 -5
package/src/gui-subagent/index.ts +177 -163
package/src/gui-subagent/operator/base-operator.ts +244 -245
package/src/gui-subagent/operator/computer-operator.ts +540 -520
package/src/gui-subagent/operator/index.ts +6 -6
package/src/gui-subagent/types/actions.ts +260 -262
package/src/gui-subagent/types/index.ts +6 -6
package/src/gui-subagent/types/operator.ts +106 -106
package/src/gui-subagent/utils.ts +51 -51
package/src/index.ts +17 -18
package/src/input-processor.ts +6 -3
package/src/logger.ts +438 -438
package/src/mcp.ts +730 -682
package/src/memory.ts +344 -344
package/src/ripgrep.ts +368 -0
package/src/session-manager.ts +308 -308
package/src/session.ts +948 -386
package/src/shell.ts +133 -0
package/src/skill-installer.ts +518 -0
package/src/skill-invoker.ts +960 -935
package/src/skill-loader.ts +501 -496
package/src/skill-manager.ts +384 -0
package/src/slash-commands.ts +2181 -1389
package/src/smart-approval.ts +117 -73
package/src/system-prompt-generator.ts +89 -34
package/src/terminal.ts +96 -0
package/src/theme.ts +738 -738
package/src/tools.ts +1336 -773
package/src/truncate.ts +173 -0
package/src/types.ts +219 -198
package/src/update.ts +22 -32
package/src/workflow.ts +523 -508
package/tsconfig.json +22 -22
package/vitest.config.ts +19 -19
package/dist/ai-client.d.ts +0 -86
package/dist/ai-client.d.ts.map +0 -1
package/dist/ai-client.js +0 -1372
package/dist/ai-client.js.map +0 -1
package/dist/gui-subagent/operator/browser-operator.d.ts +0 -36
package/dist/gui-subagent/operator/browser-operator.d.ts.map +0 -1
package/dist/gui-subagent/operator/browser-operator.js +0 -306
package/dist/gui-subagent/operator/browser-operator.js.map +0 -1
package/dist/gui-subagent/operator/desktop-operator.d.ts +0 -55
package/dist/gui-subagent/operator/desktop-operator.d.ts.map +0 -1
package/dist/gui-subagent/operator/desktop-operator.js +0 -527
package/dist/gui-subagent/operator/desktop-operator.js.map +0 -1
package/dist/hook.d.ts +0 -73
package/dist/hook.d.ts.map +0 -1
package/dist/hook.js +0 -156
package/dist/hook.js.map +0 -1
package/dist/input-history.d.ts +0 -24
package/dist/input-history.d.ts.map +0 -1
package/dist/input-history.js +0 -94
package/dist/input-history.js.map +0 -1
package/dist/keyboard-manager.d.ts +0 -151
package/dist/keyboard-manager.d.ts.map +0 -1
package/dist/keyboard-manager.js +0 -396
package/dist/keyboard-manager.js.map +0 -1
package/dist/print-system-prompt.d.ts +0 -2
package/dist/print-system-prompt.d.ts.map +0 -1
package/dist/print-system-prompt.js +0 -40
package/dist/print-system-prompt.js.map +0 -1
package/dist/remote-ai-client.d.ts +0 -104
package/dist/remote-ai-client.d.ts.map +0 -1
package/dist/remote-ai-client.js +0 -552
package/dist/remote-ai-client.js.map +0 -1
package/dist/sdk-output-adapter.d.ts +0 -232
package/dist/sdk-output-adapter.d.ts.map +0 -1
package/dist/sdk-output-adapter.js +0 -636
package/dist/sdk-output-adapter.js.map +0 -1
package/dist/sdk-session-v2.d.ts +0 -13
package/dist/sdk-session-v2.d.ts.map +0 -1
package/dist/sdk-session-v2.js +0 -46
package/dist/sdk-session-v2.js.map +0 -1
package/dist/sdk-session.d.ts +0 -13
package/dist/sdk-session.d.ts.map +0 -1
package/dist/sdk-session.js +0 -48
package/dist/sdk-session.js.map +0 -1
package/dist/test-boundary-conditions.d.ts.map +0 -1
package/dist/test-boundary-conditions.js.map +0 -1
package/dist/test-cancellation-fix.d.ts.map +0 -1
package/dist/test-cancellation-fix.js.map +0 -1
package/dist/test-input-history.d.ts.map +0 -1
package/dist/test-input-history.js.map +0 -1
package/dist/test-interaction-flow.d.ts.map +0 -1
package/dist/test-interaction-flow.js.map +0 -1
package/dist/test-quick.d.ts.map +0 -1
package/dist/test-quick.js.map +0 -1
package/dist/test-user-interaction.d.ts.map +0 -1
package/dist/test-user-interaction.js.map +0 -1
package/dist/tools/edit-diff.d.ts +0 -32
package/dist/tools/edit-diff.d.ts.map +0 -1
package/dist/tools/edit-diff.js +0 -185
package/dist/tools/edit-diff.js.map +0 -1
package/dist/tools/edit.d.ts +0 -11
package/dist/tools/edit.d.ts.map +0 -1
package/dist/tools/edit.js +0 -129
package/dist/tools/edit.js.map +0 -1
package/dist/unified-session.d.ts +0 -42
package/dist/unified-session.d.ts.map +0 -1
package/dist/unified-session.js +0 -271
package/dist/unified-session.js.map +0 -1
package/skills/.claude-plugin/marketplace.json +0 -45
package/skills/README.md +0 -94
package/skills/THIRD_PARTY_NOTICES.md +0 -405
package/skills/skills/algorithmic-art/LICENSE.txt +0 -202
package/skills/skills/algorithmic-art/SKILL.md +0 -405
package/skills/skills/algorithmic-art/templates/generator_template.js +0 -223
package/skills/skills/algorithmic-art/templates/viewer.html +0 -599
package/skills/skills/brand-guidelines/LICENSE.txt +0 -202
package/skills/skills/brand-guidelines/SKILL.md +0 -73
package/skills/skills/canvas-design/LICENSE.txt +0 -202
package/skills/skills/canvas-design/SKILL.md +0 -130
package/skills/skills/canvas-design/canvas-fonts/ArsenalSC-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/ArsenalSC-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/BigShoulders-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/BigShoulders-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/BigShoulders-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Boldonse-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Boldonse-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/BricolageGrotesque-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/BricolageGrotesque-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/BricolageGrotesque-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/CrimsonPro-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/CrimsonPro-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/CrimsonPro-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/CrimsonPro-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/DMMono-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/DMMono-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/EricaOne-OFL.txt +0 -94
package/skills/skills/canvas-design/canvas-fonts/EricaOne-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/GeistMono-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/GeistMono-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/GeistMono-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Gloock-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Gloock-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexMono-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexMono-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/IBMPlexMono-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexSerif-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexSerif-BoldItalic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexSerif-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/IBMPlexSerif-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSans-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSans-BoldItalic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSans-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSans-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/InstrumentSans-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSerif-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/InstrumentSerif-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Italiana-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Italiana-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/JetBrainsMono-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/JetBrainsMono-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/JetBrainsMono-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Jura-Light.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Jura-Medium.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Jura-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/LibreBaskerville-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/LibreBaskerville-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Lora-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Lora-BoldItalic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Lora-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Lora-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Lora-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/NationalPark-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/NationalPark-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/NationalPark-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/NothingYouCouldDo-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/NothingYouCouldDo-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Outfit-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Outfit-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Outfit-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/PixelifySans-Medium.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/PixelifySans-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/PoiretOne-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/PoiretOne-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/RedHatMono-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/RedHatMono-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/RedHatMono-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Silkscreen-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Silkscreen-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/SmoochSans-Medium.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/SmoochSans-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Tektur-Medium.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/Tektur-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/Tektur-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/WorkSans-Bold.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/WorkSans-BoldItalic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/WorkSans-Italic.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/WorkSans-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/WorkSans-Regular.ttf +0 -0
package/skills/skills/canvas-design/canvas-fonts/YoungSerif-OFL.txt +0 -93
package/skills/skills/canvas-design/canvas-fonts/YoungSerif-Regular.ttf +0 -0
package/skills/skills/doc-coauthoring/SKILL.md +0 -375
package/skills/skills/docx/LICENSE.txt +0 -30
package/skills/skills/docx/SKILL.md +0 -197
package/skills/skills/docx/docx-js.md +0 -350
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-chart.xsd +0 -1499
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-chartDrawing.xsd +0 -146
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-diagram.xsd +0 -1085
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-lockedCanvas.xsd +0 -11
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-main.xsd +0 -3081
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-picture.xsd +0 -23
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-spreadsheetDrawing.xsd +0 -185
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/dml-wordprocessingDrawing.xsd +0 -287
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/pml.xsd +0 -1676
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-additionalCharacteristics.xsd +0 -28
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-bibliography.xsd +0 -144
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-commonSimpleTypes.xsd +0 -174
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-customXmlDataProperties.xsd +0 -25
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-customXmlSchemaProperties.xsd +0 -18
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesCustom.xsd +0 -59
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesExtended.xsd +0 -56
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesVariantTypes.xsd +0 -195
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-math.xsd +0 -582
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/shared-relationshipReference.xsd +0 -25
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/sml.xsd +0 -4439
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/vml-main.xsd +0 -570
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/vml-officeDrawing.xsd +0 -509
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/vml-presentationDrawing.xsd +0 -12
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/vml-spreadsheetDrawing.xsd +0 -108
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/vml-wordprocessingDrawing.xsd +0 -96
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/wml.xsd +0 -3646
package/skills/skills/docx/ooxml/schemas/ISO-IEC29500-4_2016/xml.xsd +0 -116
package/skills/skills/docx/ooxml/schemas/ecma/fouth-edition/opc-contentTypes.xsd +0 -42
package/skills/skills/docx/ooxml/schemas/ecma/fouth-edition/opc-coreProperties.xsd +0 -50
package/skills/skills/docx/ooxml/schemas/ecma/fouth-edition/opc-digSig.xsd +0 -49
package/skills/skills/docx/ooxml/schemas/ecma/fouth-edition/opc-relationships.xsd +0 -33
package/skills/skills/docx/ooxml/schemas/mce/mc.xsd +0 -75
package/skills/skills/docx/ooxml/schemas/microsoft/wml-2010.xsd +0 -560
package/skills/skills/docx/ooxml/schemas/microsoft/wml-2012.xsd +0 -67
package/skills/skills/docx/ooxml/schemas/microsoft/wml-2018.xsd +0 -14
package/skills/skills/docx/ooxml/schemas/microsoft/wml-cex-2018.xsd +0 -20
package/skills/skills/docx/ooxml/schemas/microsoft/wml-cid-2016.xsd +0 -13
package/skills/skills/docx/ooxml/schemas/microsoft/wml-sdtdatahash-2020.xsd +0 -4
package/skills/skills/docx/ooxml/schemas/microsoft/wml-symex-2015.xsd +0 -8
package/skills/skills/docx/ooxml/scripts/pack.py +0 -159
package/skills/skills/docx/ooxml/scripts/unpack.py +0 -29
package/skills/skills/docx/ooxml/scripts/validate.py +0 -69
package/skills/skills/docx/ooxml/scripts/validation/__init__.py +0 -15
package/skills/skills/docx/ooxml/scripts/validation/base.py +0 -951
package/skills/skills/docx/ooxml/scripts/validation/docx.py +0 -274
package/skills/skills/docx/ooxml/scripts/validation/pptx.py +0 -315
package/skills/skills/docx/ooxml/scripts/validation/redlining.py +0 -279
package/skills/skills/docx/ooxml.md +0 -610
package/skills/skills/docx/scripts/__init__.py +0 -1
package/skills/skills/docx/scripts/document.py +0 -1276
package/skills/skills/docx/scripts/templates/comments.xml +0 -3
package/skills/skills/docx/scripts/templates/commentsExtended.xml +0 -3
package/skills/skills/docx/scripts/templates/commentsExtensible.xml +0 -3
package/skills/skills/docx/scripts/templates/commentsIds.xml +0 -3
package/skills/skills/docx/scripts/templates/people.xml +0 -3
package/skills/skills/docx/scripts/utilities.py +0 -374
package/skills/skills/frontend-design/LICENSE.txt +0 -177
package/skills/skills/frontend-design/SKILL.md +0 -42
package/skills/skills/internal-comms/LICENSE.txt +0 -202
package/skills/skills/internal-comms/SKILL.md +0 -32
package/skills/skills/internal-comms/examples/3p-updates.md +0 -47
package/skills/skills/internal-comms/examples/company-newsletter.md +0 -65
package/skills/skills/internal-comms/examples/faq-answers.md +0 -30
package/skills/skills/internal-comms/examples/general-comms.md +0 -16
package/skills/skills/mcp-builder/LICENSE.txt +0 -202
package/skills/skills/mcp-builder/SKILL.md +0 -236
package/skills/skills/mcp-builder/reference/evaluation.md +0 -602
package/skills/skills/mcp-builder/reference/mcp_best_practices.md +0 -249
package/skills/skills/mcp-builder/reference/node_mcp_server.md +0 -970
package/skills/skills/mcp-builder/reference/python_mcp_server.md +0 -719
package/skills/skills/mcp-builder/scripts/connections.py +0 -151
package/skills/skills/mcp-builder/scripts/evaluation.py +0 -373
package/skills/skills/mcp-builder/scripts/example_evaluation.xml +0 -22
package/skills/skills/mcp-builder/scripts/requirements.txt +0 -2
package/skills/skills/pdf/LICENSE.txt +0 -30
package/skills/skills/pdf/SKILL.md +0 -294
package/skills/skills/pdf/forms.md +0 -205
package/skills/skills/pdf/reference.md +0 -612
package/skills/skills/pdf/scripts/check_bounding_boxes.py +0 -70
package/skills/skills/pdf/scripts/check_bounding_boxes_test.py +0 -226
package/skills/skills/pdf/scripts/check_fillable_fields.py +0 -12
package/skills/skills/pdf/scripts/convert_pdf_to_images.py +0 -35
package/skills/skills/pdf/scripts/create_validation_image.py +0 -41
package/skills/skills/pdf/scripts/extract_form_field_info.py +0 -152
package/skills/skills/pdf/scripts/fill_fillable_fields.py +0 -114
package/skills/skills/pdf/scripts/fill_pdf_form_with_annotations.py +0 -108
package/skills/skills/pptx/LICENSE.txt +0 -30
package/skills/skills/pptx/SKILL.md +0 -484
package/skills/skills/pptx/html2pptx.md +0 -625
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-chart.xsd +0 -1499
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-chartDrawing.xsd +0 -146
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-diagram.xsd +0 -1085
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-lockedCanvas.xsd +0 -11
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-main.xsd +0 -3081
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-picture.xsd +0 -23
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-spreadsheetDrawing.xsd +0 -185
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/dml-wordprocessingDrawing.xsd +0 -287
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/pml.xsd +0 -1676
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-additionalCharacteristics.xsd +0 -28
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-bibliography.xsd +0 -144
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-commonSimpleTypes.xsd +0 -174
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-customXmlDataProperties.xsd +0 -25
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-customXmlSchemaProperties.xsd +0 -18
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesCustom.xsd +0 -59
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesExtended.xsd +0 -56
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-documentPropertiesVariantTypes.xsd +0 -195
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-math.xsd +0 -582
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/shared-relationshipReference.xsd +0 -25
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/sml.xsd +0 -4439
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/vml-main.xsd +0 -570
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/vml-officeDrawing.xsd +0 -509
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/vml-presentationDrawing.xsd +0 -12
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/vml-spreadsheetDrawing.xsd +0 -108
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/vml-wordprocessingDrawing.xsd +0 -96
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/wml.xsd +0 -3646
package/skills/skills/pptx/ooxml/schemas/ISO-IEC29500-4_2016/xml.xsd +0 -116
package/skills/skills/pptx/ooxml/schemas/ecma/fouth-edition/opc-contentTypes.xsd +0 -42
package/skills/skills/pptx/ooxml/schemas/ecma/fouth-edition/opc-coreProperties.xsd +0 -50
package/skills/skills/pptx/ooxml/schemas/ecma/fouth-edition/opc-digSig.xsd +0 -49
package/skills/skills/pptx/ooxml/schemas/ecma/fouth-edition/opc-relationships.xsd +0 -33
package/skills/skills/pptx/ooxml/schemas/mce/mc.xsd +0 -75
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-2010.xsd +0 -560
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-2012.xsd +0 -67
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-2018.xsd +0 -14
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-cex-2018.xsd +0 -20
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-cid-2016.xsd +0 -13
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-sdtdatahash-2020.xsd +0 -4
package/skills/skills/pptx/ooxml/schemas/microsoft/wml-symex-2015.xsd +0 -8
package/skills/skills/pptx/ooxml/scripts/pack.py +0 -159
package/skills/skills/pptx/ooxml/scripts/unpack.py +0 -29
package/skills/skills/pptx/ooxml/scripts/validate.py +0 -69
package/skills/skills/pptx/ooxml/scripts/validation/__init__.py +0 -15
package/skills/skills/pptx/ooxml/scripts/validation/base.py +0 -951
package/skills/skills/pptx/ooxml/scripts/validation/docx.py +0 -274
package/skills/skills/pptx/ooxml/scripts/validation/pptx.py +0 -315
package/skills/skills/pptx/ooxml/scripts/validation/redlining.py +0 -279
package/skills/skills/pptx/ooxml.md +0 -427
package/skills/skills/pptx/scripts/html2pptx.js +0 -979
package/skills/skills/pptx/scripts/inventory.py +0 -1020
package/skills/skills/pptx/scripts/rearrange.py +0 -231
package/skills/skills/pptx/scripts/replace.py +0 -385
package/skills/skills/pptx/scripts/thumbnail.py +0 -450
package/skills/skills/skill-creator/LICENSE.txt +0 -202
package/skills/skills/skill-creator/SKILL.md +0 -356
package/skills/skills/skill-creator/references/output-patterns.md +0 -82
package/skills/skills/skill-creator/references/workflows.md +0 -28
package/skills/skills/skill-creator/scripts/init_skill.py +0 -303
package/skills/skills/skill-creator/scripts/package_skill.py +0 -110
package/skills/skills/skill-creator/scripts/quick_validate.py +0 -95
package/skills/skills/slack-gif-creator/LICENSE.txt +0 -202
package/skills/skills/slack-gif-creator/SKILL.md +0 -254
package/skills/skills/slack-gif-creator/core/easing.py +0 -234
package/skills/skills/slack-gif-creator/core/frame_composer.py +0 -176
package/skills/skills/slack-gif-creator/core/gif_builder.py +0 -269
package/skills/skills/slack-gif-creator/core/validators.py +0 -136
package/skills/skills/slack-gif-creator/requirements.txt +0 -4
package/skills/skills/theme-factory/LICENSE.txt +0 -202
package/skills/skills/theme-factory/SKILL.md +0 -59
package/skills/skills/theme-factory/theme-showcase.pdf +0 -0
package/skills/skills/theme-factory/themes/arctic-frost.md +0 -19
package/skills/skills/theme-factory/themes/botanical-garden.md +0 -19
package/skills/skills/theme-factory/themes/desert-rose.md +0 -19
package/skills/skills/theme-factory/themes/forest-canopy.md +0 -19
package/skills/skills/theme-factory/themes/golden-hour.md +0 -19
package/skills/skills/theme-factory/themes/midnight-galaxy.md +0 -19
package/skills/skills/theme-factory/themes/modern-minimalist.md +0 -19
package/skills/skills/theme-factory/themes/ocean-depths.md +0 -19
package/skills/skills/theme-factory/themes/sunset-boulevard.md +0 -19
package/skills/skills/theme-factory/themes/tech-innovation.md +0 -19
package/skills/skills/web-artifacts-builder/LICENSE.txt +0 -202
package/skills/skills/web-artifacts-builder/SKILL.md +0 -74
package/skills/skills/web-artifacts-builder/scripts/bundle-artifact.sh +0 -54
package/skills/skills/web-artifacts-builder/scripts/init-artifact.sh +0 -322
package/skills/skills/webapp-testing/LICENSE.txt +0 -202
package/skills/skills/webapp-testing/SKILL.md +0 -96
package/skills/skills/webapp-testing/examples/console_logging.py +0 -35
package/skills/skills/webapp-testing/examples/element_discovery.py +0 -40
package/skills/skills/webapp-testing/examples/static_html_automation.py +0 -33
package/skills/skills/webapp-testing/scripts/with_server.py +0 -106
package/skills/skills/xlsx/LICENSE.txt +0 -30
package/skills/skills/xlsx/SKILL.md +0 -289
package/skills/skills/xlsx/recalc.py +0 -178
package/skills/spec/agent-skills-spec.md +0 -3
package/skills/template/SKILL.md +0 -6
package/src/ai-client.ts +0 -1560
package/src/remote-ai-client.ts +0 -664

package/src/gui-subagent/agent/gui-agent.ts CHANGED Viewed

@@ -1,1089 +1,1151 @@
-/**
- * GUI Agent for xagent
- * Orchestrates desktop automation with AI-powered action execution
- * Based on UI-TARS architecture with computer control only
- *
- * This implementation is aligned with packages/ui-tars/sdk/src/GUIAgent.ts
- */
-import type {
-  ScreenContext,
-  ScreenshotOutput,
-  ExecuteParams,
-  ExecuteOutput,
-  PredictionParsed,
-} from '../types/operator.js';
-import type { Operator } from '../operator/base-operator.js';
-import { sleep, asyncRetry } from '../utils.js';
-import { actionParser } from '../action-parser/index.js';
-import { colors, icons, renderMarkdown } from '../../theme.js';
-import { getLogger } from '../../logger.js';
-/**
- * Helper function to truncate long text
- */
-function truncateText(text: string, maxLength: number = 200): string {
-  if (!text) return '';
-  return text.length > maxLength ? text.substring(0, maxLength) + '...' : text;
-}
-/**
- * Helper function to indent multiline text
- */
-function indentMultiline(text: string, indent: string): string {
-  return text.split('\n').map(line => indent + line).join('\n');
-}
-const guiLogger = getLogger();
-// UI-TARS Status Enum
-export enum GUIAgentStatus {
-  INIT = 'init',
-  RUNNING = 'running',
-  PAUSE = 'paused',
-  END = 'end',
-  ERROR = 'error',
-  USER_STOPPED = 'user_stopped',
-  CALL_USER = 'call_user',
-}
-/**
- * Remote VLM Caller callback function type
- * Inject this function externally to handle VLM calls, GUI Agent doesn't need to know VLM implementation details
- * Receives full messages array (same as local mode) for consistent behavior
- */
-export type RemoteVlmCaller = (messages: any[], systemPrompt: string) => Promise<string>;
-export interface GUIAgentConfig<T extends Operator> {
-  operator: T;
-  model?: string;
-  modelBaseUrl?: string;
-  modelApiKey?: string;
-  /**
-   * Externally injected VLM caller function
-   * If this function is provided, GUI Agent will use it to call VLM
-   * instead of directly calling modelBaseUrl/modelApiKey
-   * This allows GUI Agent to work with remote services without exposing any configuration
-   */
-  remoteVlmCaller?: RemoteVlmCaller;
-  /**
-   * Whether to use local mode
-   * If true, use model/modelBaseUrl/modelApiKey for VLM calls
-   * If false, use remoteVlmCaller for remote VLM calls
-   */
-  isLocalMode: boolean;
-  systemPrompt?: string;
-  loopIntervalInMs?: number;
-  maxLoopCount?: number;
-  logger?: any;
-  signal?: AbortSignal;
-  onData?: (data: GUIAgentData) => void;
-  onError?: (error: Error) => void;
-  showAIDebugInfo?: boolean;
-  retry?: {
-    screenshot?: {
-      maxRetries?: number;
-      onRetry?: (e: Error) => void;
-    };
-    model?: {
-      maxRetries?: number;
-      onRetry?: (e: Error) => void;
-    };
-    execute?: {
-      maxRetries?: number;
-      onRetry?: (e: Error) => void;
-    };
-  };
-}
-export interface GUIAgentData {
-  status: GUIAgentStatus;
-  conversations: Conversation[];
-  error?: string;
-  systemPrompt?: string;
-}
-export interface Conversation {
-  from: 'human' | 'assistant';
-  value: string;
-  screenshotBase64?: string;
-  screenshotContext?: {
-    size: { width: number; height: number };
-    mime?: string;
-    scaleFactor: number;
-  };
-  actionType?: string;
-  actionInputs?: Record<string, any>;
-  timing?: {
-    start: number;
-    end: number;
-    cost: number;
-  };
-  predictionParsed?: PredictionParsed[];
-}
-// UI-TARS constants (aligned with @ui-tars/shared/constants)
-const MAX_LOOP_COUNT = 100;
-const MAX_SNAPSHOT_ERR_CNT = 5;
-const MAX_STEP_RETRIES = 3; // Max retries for a single action step before giving up
-const IMAGE_PLACEHOLDER = '{{IMG_PLACEHOLDER_0}}';
-export class GUIAgent<T extends Operator> {
-  private operator: T;
-  private readonly model: string;
-  private readonly modelBaseUrl: string;
-  private readonly modelApiKey: string;
-  private readonly remoteVlmCaller?: RemoteVlmCaller;
-  private readonly isLocalMode: boolean;
-  private readonly systemPrompt: string;
-  private readonly loopIntervalInMs: number;
-  private readonly maxLoopCount: number;
-  private readonly logger: Console;
-  private readonly signal?: AbortSignal;
-  private readonly onData?: (data: GUIAgentData) => void;
-  private readonly onError?: (error: Error) => void;
-  private readonly showAIDebugInfo: boolean;
-  private readonly retry?: GUIAgentConfig<T>['retry'];
-  private isPaused = false;
-  private resumePromise: Promise<void> | null = null;
-  private resolveResume: (() => void) | null = null;
-  private isStopped = false;
-  constructor(config: GUIAgentConfig<T>) {
-    this.operator = config.operator;
-    this.model = config.model || '';
-    this.modelBaseUrl = config.modelBaseUrl || '';
-    this.modelApiKey = config.modelApiKey || '';
-    this.remoteVlmCaller = config.remoteVlmCaller;
-    this.isLocalMode = config.isLocalMode;
-    this.loopIntervalInMs = config.loopIntervalInMs || 0;
-    this.maxLoopCount = config.maxLoopCount || MAX_LOOP_COUNT;
-    this.logger = config.logger || guiLogger;
-    this.signal = config.signal;
-    this.onData = config.onData;
-    this.onError = config.onError;
-    this.showAIDebugInfo = config.showAIDebugInfo ?? false;
-    this.retry = config.retry;
-    this.systemPrompt = config.systemPrompt || this.buildSystemPrompt();
-  }
-  /**
-   * Display conversation results with formatting similar to session.ts (simplified)
-   */
-  private displayConversationResult(conversation: Conversation, iteration: number, indentLevel: number = 1): void {
-    const indent = '  '.repeat(indentLevel);
-    const innerIndent = '  '.repeat(indentLevel + 1);
-    const maxWidth = process.stdout.columns || 80;
-    if (conversation.from === 'assistant') {
-      // Display assistant response (action)
-      const content = conversation.value || '';
-      const timing = conversation.timing;
-      // Simplified: show step number and action
-      const actionSummary = content.replace(/Thought:[\s\S]*?Action:\s*/i, '').trim();
-      const actionType = conversation.predictionParsed?.[0]?.action_type || 'action';
-      console.log(`${indent}${colors.primaryBright(`[${iteration}]`)} ${colors.textMuted(actionType)}${timing ? colors.textDim(` (${timing.cost}ms)`) : ''}`);
-      // Optionally show action details on next line if verbose
-      if (this.showAIDebugInfo && actionSummary) {
-        const truncatedSummary = actionSummary.length > 60 ? actionSummary.substring(0, 60) + '...' : actionSummary;
-        console.log(`${innerIndent}${colors.textMuted(truncatedSummary)}`);
-      }
-    } else if (conversation.from === 'human' && conversation.screenshotBase64) {
-      // Show minimal indicator for screenshot
-      if (this.showAIDebugInfo) {
-        const timing = conversation.timing;
-        console.log(`${indent}${colors.textMuted(`${icons.loading} screenshot${timing ? ` (${timing.cost}ms)` : ''}`)}`);
-      }
-    }
-  }
-  /**
-   * Display status message
-   */
-  private displayStatus(data: GUIAgentData, iteration: number, indentLevel: number = 1): void {
-    const indent = '  '.repeat(indentLevel);
-    const status = data.status;
-    switch (status) {
-      case GUIAgentStatus.RUNNING:
-        console.log(`${indent}${colors.info(`${icons.loading} Step ${iteration}: Running...`)}`);
-        break;
-      case GUIAgentStatus.END:
-        // Handled by caller
-        break;
-      case GUIAgentStatus.ERROR:
-        if (data.error) {
-          console.log(`${indent}${colors.error(`${icons.cross} ${data.error}`)}`);
-        }
-        break;
-      case GUIAgentStatus.CALL_USER:
-        console.log(`${indent}${colors.warning(`${icons.warning} Needs user input`)}`);
-        break;
-      case GUIAgentStatus.USER_STOPPED:
-        console.log(`${indent}${colors.warning(`${icons.warning} Stopped`)}`);
-        break;
-      default:
-        break;
-    }
-  }
-  private buildSystemPrompt(): string {
-    return `You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.
-## Output Format
-\`
-Thought: ...
-Action: ...
-\`
-## Action Space
-click(point='<point>x1 y1</point>')
-left_double(point='<point>x1 y1</point>')
-right_single(point='<point>x1 y1</point>')
-drag(start_point='<point>x1 y1</point>', end_point='<point>x2 y2</point>')
-hotkey(key='ctrl c') # Split keys with a space and use lowercase. Also, do not use more than 3 keys in one hotkey action.
-type(content='xxx') # Use escape characters \', \", and \n in content part to ensure we can parse the content in normal python string format. If you want to submit your input, use \n at the end of content.
-scroll(point='<point>x1 y1</point>', direction='down or up or right or left') # Show more information on the \`direction\` side.
-open_url(url='https://xxx') # Open URL in browser
-wait() #Sleep for 5s and take a screenshot to check for any changes.
-finished(content='xxx') # Use escape characters \', \", and \n in content part to ensure we can parse the content in normal python string format.
-## Note
-- Use {language} in \`Thought\` part.
-- Write a small plan and finally summarize your next action (with its target element) in one sentence in \`Thought\` part.
-`;
-  }
-  async initialize(): Promise<void> {
-    await this.operator.doInitialize();
-  }
-  /**
-   * Run the GUI agent with a single instruction (UI-TARS style)
-   * All operations are determined by the GUI model
-   */
-  async run(instruction: string): Promise<GUIAgentData> {
-    const data: GUIAgentData = {
-      status: GUIAgentStatus.INIT,
-      conversations: [
-        {
-          from: 'human',
-          value: instruction,
-          timing: {
-            start: Date.now(),
-            end: Date.now(),
-            cost: 0,
-          },
-        },
-      ],
-    };
-    // Initialize operator for initial screenshot
-    try {
-      await this.operator.doInitialize();
-    } catch (initError) {
-      const errorMsg = initError instanceof Error ? initError.message : 'Unknown error';
-      this.logger.error(`[GUIAgent] Failed to initialize operator: ${errorMsg}`);
-      // Check if it's an RDP-related issue
-      if (errorMsg.includes('screen') || errorMsg.includes('capture') || errorMsg.includes('display')) {
-        data.status = GUIAgentStatus.ERROR;
-        data.error = 'Failed to initialize screen capture. This may be caused by:\n' +
-          '  1. Remote Desktop session disconnected or minimized\n' +
-          '  2. Display driver issues\n' +
-          'Suggestion: Ensure your display is active and try again.';
-      } else {
-        data.status = GUIAgentStatus.ERROR;
-        data.error = `Failed to initialize operator: ${errorMsg}`;
-      }
-      return data;
-    }
-    const currentTime = Date.now();
-    if (this.showAIDebugInfo) {
-      this.logger.debug('[GUIAgent] run:', {
-        systemPrompt: this.systemPrompt,
-        model: this.model,
-        maxLoopCount: this.maxLoopCount,
-      });
-    }
-    let loopCnt = 0;
-    let snapshotErrCnt = 0;
-    // Start running agent
-    data.status = GUIAgentStatus.RUNNING;
-    data.systemPrompt = this.systemPrompt;
-    console.log(`${colors.primaryBright(`${icons.rocket} GUI Agent started`)}`);
-    console.log('');
-    await this.onData?.({ ...data, conversations: [] });
-    try {
-      // eslint-disable-next-line no-constant-condition
-      while (true) {
-        if (this.showAIDebugInfo) {
-          this.logger.debug('[GUIAgent] loopCnt:', loopCnt);
-        }
-        // Check pause status
-        if (this.isPaused && this.resumePromise) {
-          data.status = GUIAgentStatus.PAUSE;
-          await this.onData?.({ ...data, conversations: [] });
-          await this.resumePromise;
-          data.status = GUIAgentStatus.RUNNING;
-          await this.onData?.({ ...data, conversations: [] });
-        }
-        // Check stop or aborted status
-        if (
-          this.isStopped ||
-          data.status !== GUIAgentStatus.RUNNING ||
-          this.signal?.aborted
-        ) {
-          if (this.signal?.aborted) {
-            data.status = GUIAgentStatus.USER_STOPPED;
-          }
-          break;
-        }
-        // Check loop limit
-        if (loopCnt >= this.maxLoopCount) {
-          data.status = GUIAgentStatus.ERROR;
-          data.error = `Has reached max loop count: ${loopCnt}`;
-          break;
-        }
-        // Check screenshot error limit
-        if (snapshotErrCnt >= MAX_SNAPSHOT_ERR_CNT) {
-          data.status = GUIAgentStatus.ERROR;
-          data.error = 'Screenshot failed too many times. Stopping task.';
-          break;
-        }
-        loopCnt += 1;
-        const start = Date.now();
-        // Take screenshot (single attempt - no retry to avoid infinite loops)
-        let snapshot: ScreenshotOutput;
-        try {
-          snapshot = await this.operator.doScreenshot();
-        } catch (screenshotError) {
-          const errorMsg = screenshotError instanceof Error ? screenshotError.message : 'Unknown error';
-          this.logger.warn(`[GUIAgent] Screenshot exception: ${errorMsg}`);
-          snapshotErrCnt += 1;
-          data.status = GUIAgentStatus.ERROR;
-          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
-          this.logger.error(`[GUIAgent] ${data.error}`);
-          await sleep(1000);
-          break;
-        }
-        // Check if screenshot returned failure status
-        if (snapshot.status === 'failed') {
-          const errorMsg = snapshot.errorMessage || 'Unknown error';
-          this.logger.warn(`[GUIAgent] Screenshot failed: ${errorMsg}`);
-          snapshotErrCnt += 1;
-          data.status = GUIAgentStatus.ERROR;
-          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
-          this.logger.error(`[GUIAgent] ${data.error}`);
-          await sleep(1000);
-          break;
-        }
-        // Check abort immediately after screenshot
-        if (this.signal?.aborted) {
-          data.status = GUIAgentStatus.USER_STOPPED;
-          break;
-        }
-        // Validate screenshot
-        const isValidImage = !!(snapshot?.base64);
-        if (!isValidImage) {
-          snapshotErrCnt += 1;
-          data.status = GUIAgentStatus.ERROR;
-          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
-          this.logger.error(`[GUIAgent] ${data.error}`);
-          await sleep(1000);
-          break;
-        }
-        // Reset error counter on successful screenshot
-        snapshotErrCnt = 0;
-        const end = Date.now();
-        // Get screen context
-        const screenContext = await this.operator.getScreenContext();
-        // Add screenshot to conversation
-        data.conversations.push({
-          from: 'human',
-          value: IMAGE_PLACEHOLDER,
-          screenshotBase64: snapshot.base64,
-          screenshotContext: {
-            size: {
-              width: screenContext.width,
-              height: screenContext.height,
-            },
-            scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
-          },
-          timing: {
-            start,
-            end,
-            cost: end - start,
-          },
-        });
-        await this.onData?.({
-          ...data,
-          conversations: data.conversations.slice(-1),
-        });
-        // Display screenshot notification
-        const latestScreenshot = data.conversations[data.conversations.length - 1];
-        if (latestScreenshot && latestScreenshot.from === 'human' && latestScreenshot.screenshotBase64) {
-          this.displayConversationResult(latestScreenshot, loopCnt);
-        }
-        // Build messages for model
-        const messages = this.buildModelMessages(data.conversations, data.systemPrompt);
-        // Check abort before model call
-        if (this.signal?.aborted) {
-          data.status = GUIAgentStatus.USER_STOPPED;
-          break;
-        }
-        // Invoke model with retry
-        let prediction: string;
-        let parsedPredictions: PredictionParsed[];
-        try {
-          const modelResult: { prediction: string; parsedPredictions: PredictionParsed[] } = await asyncRetry(
-            async (bail) => {
-              try {
-                const result = await this.callModelAPI(messages, screenContext, this.remoteVlmCaller!);
-                return result;
-              } catch (error: unknown) {
-                if (
-                  error instanceof Error &&
-                  (error.name === 'AbortError' ||
-                    error.message?.includes('aborted'))
-                ) {
-                  bail(error as Error);
-                  return { prediction: '', parsedPredictions: [] };
-                }
-                throw error;
-              }
-            },
-            {
-              retries: this.retry?.model?.maxRetries ?? 0,
-              minTimeout: 1000 * 30,
-              onRetry: this.retry?.model?.onRetry,
-            }
-          );
-          prediction = modelResult.prediction;
-          parsedPredictions = modelResult.parsedPredictions;
-        } catch (modelError) {
-          // Handle multimodal model API errors with specific error messages
-          data.status = GUIAgentStatus.ERROR;
-          const errorMsg = modelError instanceof Error ? modelError.message : String(modelError);
-          // Provide specific error message based on error type
-          if (errorMsg.includes('401') || errorMsg.includes('authentication') || errorMsg.includes('API key') || errorMsg.includes('api_key') || errorMsg.includes('Unauthorized') || errorMsg.includes('invalid_api_key')) {
-            data.error = '[Multimodal Model Authentication Failed] The guiSubagentApiKey configuration is invalid.\n' +
-              'Error details: HTTP 401 - API key is invalid or expired\n' +
-              'Suggested action: Please check the guiSubagentApiKey configuration in ~/.xagent/settings.json and ensure a valid API key is set';
-          } else if (errorMsg.includes('429') || errorMsg.includes('rate limit') || errorMsg.includes('too many requests')) {
-            data.error = '[Multimodal Model Rate Limit Exceeded] API requests exceed rate limit.\n' +
-              'Error details: HTTP 429 - Too Many Requests\n' +
-              'Suggested action: Please retry later, or check your API account quota settings. Wait a few minutes before retrying';
-          } else if (errorMsg.includes('network') || errorMsg.includes('fetch') || errorMsg.includes('connection') || errorMsg.includes('ECONNREFUSED')) {
-            data.error = '[Multimodal Model Network Error] Cannot connect to API service.\n' +
-              'Error details: Network connection failed. Possible causes:\n' +
-              '  1. Network connection is lost\n' +
-              '  2. The guiSubagentBaseUrl configuration is incorrect\n' +
-              '  3. API service endpoint is unreachable\n' +
-              'Suggested action: Please check the guiSubagentBaseUrl configuration in ~/.xagent/settings.json and ensure network connectivity';
-          } else if (errorMsg.includes('404') || errorMsg.includes('not found') || errorMsg.includes('model not found') || errorMsg.includes('InvalidEndpointOrModel.NotFound')) {
-            // Extract model name
-            const modelMatch = errorMsg.match(/model[:\s]+([^\s,"]+)|"model[:"]+([^",}]+)/i);
-            const modelName = modelMatch ? (modelMatch[1] || modelMatch[2]) : 'Unknown';
-            data.error = '[Multimodal Model Configuration Error] The model specified in guiSubagentModel does not exist or is not accessible.\n' +
-              'Error details: HTTP 404 - Model or Endpoint not found\n' +
-              'Configured model name: ' + modelName + '\n' +
-              'Suggested action: Please check the guiSubagentModel configuration in ~/.xagent/settings.json, remove or replace with a valid model name';
-          } else {
-            data.error = '[Multimodal Model API Call Failed]\n' +
-              'Error details: ' + errorMsg + '\n' +
-              'Please check the following configuration items:\n' +
-              '  - guiSubagentApiKey: API key\n' +
-              '  - guiSubagentBaseUrl: API service URL\n' +
-              '  - guiSubagentModel: Model name\n' +
-              'Config file location: ~/.xagent/settings.json';
-          }
-          break;
-        }
-        // Check abort immediately after model call
-        if (this.signal?.aborted) {
-          data.status = GUIAgentStatus.USER_STOPPED;
-          break;
-        }
-        if (!prediction) {
-          this.logger.warn('[GUIAgent] Warning: Empty response from model, retrying...');
-          continue;
-        }
-        if (this.showAIDebugInfo) {
-          this.logger.debug('[GUIAgent] Response:', prediction);
-          this.logger.debug('[GUIAgent] Parsed Predictions:', JSON.stringify(parsedPredictions));
-        }
-        const predictionSummary = this.getSummary(prediction);
-        data.conversations.push({
-          from: 'assistant',
-          value: predictionSummary,
-          timing: {
-            start,
-            end: Date.now(),
-            cost: Date.now() - start,
-          },
-          screenshotContext: {
-            size: {
-              width: screenContext.width,
-              height: screenContext.height,
-            },
-            scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
-          },
-          predictionParsed: parsedPredictions,
-        });
-        await this.onData?.({
-          ...data,
-          conversations: data.conversations.slice(-1),
-        });
-        // Display assistant response
-        const latestAssistant = data.conversations[data.conversations.length - 1];
-        if (latestAssistant && latestAssistant.from === 'assistant') {
-          this.displayConversationResult(latestAssistant, loopCnt);
-        }
-        // Check if we need to switch operator based on first action
-        // Execute actions
-        for (const parsedPrediction of parsedPredictions) {
-          const actionType = parsedPrediction.action_type;
-          if (this.showAIDebugInfo) {
-            this.logger.debug('[GUIAgent] Action:', actionType);
-          }
-          // Handle internal action spaces
-          if (actionType === 'error_env') {
-            data.status = GUIAgentStatus.ERROR;
-            data.error = 'Environment error';
-            break;
-          } else if (actionType === 'max_loop') {
-            data.status = GUIAgentStatus.ERROR;
-            data.error = 'Reached max loop';
-            break;
-          }
-          // Execute action with retry
-          if (!this.signal?.aborted && !this.isStopped) {
-            let stepRetryCount = 0;
-            let stepSuccess = false;
-            let lastErrorMsg = '';
-            this.logger.debug(`[GUIAgent] Executing action: ${actionType}, loopCnt: ${loopCnt}`);
-            while (stepRetryCount < MAX_STEP_RETRIES && !stepSuccess) {
-              try {
-                const executeResult = await this.operator.doExecute({
-                  prediction,
-                  parsedPrediction,
-                  screenWidth: screenContext.width,
-                  screenHeight: screenContext.height,
-                  scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
-                  factors: [1000, 1000], // Default factors
-                });
-                if (executeResult.status === 'end') {
-                  // 'finished' action or explicit end
-                  stepSuccess = true;
-                  break;
-                }
-                // Any other status (success, failed, etc.) is considered success
-                stepSuccess = true;
-                break;
-              } catch (executeError) {
-                stepRetryCount++;
-                lastErrorMsg = executeError instanceof Error ? executeError.message : 'Unknown error';
-                this.logger.warn(`[GUIAgent] Action failed ${stepRetryCount}/${MAX_STEP_RETRIES}: ${lastErrorMsg}`);
-                if (stepRetryCount < MAX_STEP_RETRIES) {
-                  await sleep(1000);
-                  // Take new screenshot for retry
-                  const retrySnapshot = await this.operator.doScreenshot();
-                  if (retrySnapshot?.base64) {
-                    data.conversations.push({
-                      from: 'human',
-                      value: IMAGE_PLACEHOLDER,
-                      screenshotBase64: retrySnapshot.base64,
-                      screenshotContext: {
-                        size: {
-                          width: screenContext.width,
-                          height: screenContext.height,
-                        },
-                        scaleFactor: retrySnapshot.scaleFactor ?? screenContext.scaleFactor,
-                      },
-                    });
-                  }
-                }
-              }
-            }
-            if (!stepSuccess) {
-              // All retries exhausted
-              this.logger.error(`[GUIAgent] Action failed after ${MAX_STEP_RETRIES} attempts: ${lastErrorMsg}`);
-              data.status = GUIAgentStatus.ERROR;
-              data.error = `Action failed after ${MAX_STEP_RETRIES} attempts: ${lastErrorMsg}`;
-              break;
-            }
-          }
-          // Check abort immediately after action execution
-          if (this.signal?.aborted) {
-            data.status = GUIAgentStatus.USER_STOPPED;
-            break;
-          }
-          // Handle special action types
-          if (actionType === 'call_user') {
-            data.status = GUIAgentStatus.CALL_USER;
-            break;
-          } else if (actionType === 'finished') {
-            data.status = GUIAgentStatus.END;
-            break;
-          }
-        }
-        // Check abort after action loop
-        if (this.signal?.aborted) {
-          data.status = GUIAgentStatus.USER_STOPPED;
-          break;
-        }
-        // Wait between iterations
-        if (this.loopIntervalInMs > 0) {
-          await sleep(this.loopIntervalInMs);
-        }
-      }
-    } catch (error) {
-      this.logger.error('[GUIAgent] Catch error', error);
-      if (
-        error instanceof Error &&
-        (error.name === 'AbortError' || error.message?.includes('aborted'))
-      ) {
-        data.status = GUIAgentStatus.USER_STOPPED;
-      } else {
-        data.status = GUIAgentStatus.ERROR;
-        data.error = error instanceof Error ? error.message : 'Unknown error';
-      }
-    } finally {
-      // Save final status
-      const finalStatus = data.status;
-      const finalError = data.error;
-      // Output error immediately if task failed
-      if (finalStatus === GUIAgentStatus.ERROR && finalError) {
-        console.log(`\n${colors.error('✖')} ${finalError}\n`);
-      }
-      // Call onData callback if set
-      // Note: Use Promise.resolve().then() to avoid modifying data in callback
-      const onDataCallback = this.onData;
-      if (onDataCallback) {
-        Promise.resolve().then(() => onDataCallback({ ...data, conversations: [] }));
-      }
-      // Call onError callback if status is error
-      if (finalStatus === GUIAgentStatus.ERROR && this.onError) {
-        this.onError(new Error(finalError || 'Unknown error occurred'));
-      }
-      if (this.showAIDebugInfo) {
-        this.logger.debug('[GUIAgent] Final status:', {
-          status: finalStatus,
-          loopCnt,
-          totalConversations: data.conversations.length,
-        });
-      }
-      // Ensure the returned status is correct (reassign)
-      this.logger.debug(`[GUIAgent] Finally: finalStatus=${finalStatus}, finalError=${finalError}, data.status=${data.status}, data.error=${data.error}`);
-      // Log final status (only visible when showAIDebugInfo is enabled)
-      this.logger.debug(`[GUIAgent] Final status: ${finalStatus}${finalError ? `, Error: ${finalError}` : ''}, Steps: ${loopCnt}`);
-      data.status = finalStatus;
-      data.error = finalError;
-    }
-    return data;
-  }
-  /**
-   * Build messages for the model API
-   */
-  private buildModelMessages(conversations: Conversation[], systemPrompt: string): any[] {
-    const messages: any[] = [];
-    // System prompt
-    messages.push({
-      role: 'system',
-      content: systemPrompt,
-    });
-    // Add conversation history
-    for (const conv of conversations) {
-      if (conv.from === 'human' && conv.screenshotBase64) {
-        messages.push({
-          role: 'user',
-          content: [
-            { type: 'text', text: conv.value },
-            {
-              type: 'image_url',
-              image_url: {
-                url: `data:image/png;base64,${conv.screenshotBase64}`,
-                detail: 'high',
-              },
-            },
-          ],
-        });
-      } else if (conv.from === 'assistant') {
-        messages.push({
-          role: 'assistant',
-          content: conv.value,
-        });
-      } else {
-        messages.push({
-          role: 'user',
-          content: conv.value,
-        });
-      }
-    }
-    return messages;
-  }
-  /**
-   * Extract image and prompt from messages for remote VLM calls
-   */
-  private extractImageAndPrompt(messages: any[]): { image: string; prompt: string } {
-    const lastUserMessage = messages[messages.length - 1];
-    let image = '';
-    let prompt = '';
-    if (lastUserMessage && Array.isArray(lastUserMessage.content)) {
-      const imageBlock = lastUserMessage.content.find((c: any) => c.type === 'image_url');
-      const textBlock = lastUserMessage.content.find((c: any) => c.type === 'text');
-      if (imageBlock) {
-        const imageUrl = imageBlock.image_url?.url || '';
-        if (imageUrl.startsWith('data:image')) {
-          image = imageUrl.split(',')[1] || '';
-        } else {
-          image = imageUrl;
-        }
-      }
-      prompt = textBlock?.text || '';
-    }
-    return { image, prompt };
-  }
-  /**
-   * Debug output for model request
-   */
-  private debugRequest(messages: any[], remoteVlmCaller?: RemoteVlmCaller): void {
-    console.log('\n╔══════════════════════════════════════════════════════════╗');
-    console.log('║               GUI MODEL REQUEST DEBUG                   ║');
-    console.log('╚══════════════════════════════════════════════════════════╝');
-    console.log(`📦 Model: ${remoteVlmCaller ? ((remoteVlmCaller as any).info?.model || 'remote') : this.model}`);
-    console.log(`🌐 Base URL: ${remoteVlmCaller ? ((remoteVlmCaller as any).info?.baseUrl || 'remote') : (this.modelBaseUrl || process.env.MODEL_BASE_URL || 'https://api.openai.com/v1')}`);
-    console.log(`💬 Messages: ${messages.length}`);
-    // Show system prompt if present
-    const systemMsg = messages.find((m: any) => m.role === 'system');
-    if (systemMsg) {
-      console.log('\n┌─────────────────────────────────────────────────────────────┐');
-      console.log('│ 🟫 SYSTEM                                                     │');
-      console.log('├─────────────────────────────────────────────────────────────┤');
-      const systemContent = typeof systemMsg.content === 'string'
-        ? systemMsg.content
-        : JSON.stringify(systemMsg.content);
-      const lines = systemContent.split('\n').slice(0, 15);
-      for (const line of lines) {
-        console.log('│ ' + line.slice(0, 62));
-      }
-      if (systemContent.split('\n').length > 15) {
-        console.log('│ ... (truncated)');
-      }
-      console.log('└─────────────────────────────────────────────────────────────┘');
-    }
-    // Show conversation messages
-    const roleColors: Record<string, string> = {
-      user: '👤 USER',
-      assistant: '🤖 ASSISTANT',
-    };
-    for (let i = 0; i < messages.length; i++) {
-      const msg = messages[i];
-      if (msg.role === 'system') continue;
-      const roleLabel = roleColors[msg.role] || `● ${msg.role.toUpperCase()}`;
-      console.log(`\n┌─────────────────────────────────────────────────────────────┐`);
-      console.log(`│ ${roleLabel} (${i + 1})                                           │`);
-      console.log('├─────────────────────────────────────────────────────────────┤');
-      if (typeof msg.content === 'string') {
-        const lines = msg.content.split('\n').slice(0, 20);
-        for (const line of lines) {
-          console.log('│ ' + line.slice(0, 62));
-        }
-        if (msg.content.split('\n').length > 20) {
-          console.log('│ ... (truncated)');
-        }
-      } else if (Array.isArray(msg.content)) {
-        const hasImage = msg.content.some((c: any) => c.type === 'image_url');
-        console.log('│ 📎 Content blocks: ' + msg.content.length);
-        if (hasImage) {
-          const imageBlock = msg.content.find((c: any) => c.type === 'image_url');
-          const imageSize = imageBlock?.image_url?.url?.length || 0;
-          console.log('│ 🖼️  Image size: ' + (imageSize / 1024).toFixed(2) + ' KB');
-        }
-        const textBlock = msg.content.find((c: any) => c.type === 'text');
-        if (textBlock?.text) {
-          const lines = textBlock.text.split('\n').slice(0, 10);
-          for (const line of lines) {
-            console.log('│ ' + line.slice(0, 62));
-          }
-        }
-      }
-      console.log('└─────────────────────────────────────────────────────────────┘');
-    }
-    console.log('\n📤 Sending request to model API...\n');
-  }
-  /**
-   * Debug output for model response
-   */
-  private debugResponse(content: string, usage?: any): void {
-    console.log('\n╔══════════════════════════════════════════════════════════╗');
-    console.log('║               GUI MODEL RESPONSE DEBUG                  ║');
-    console.log('╚══════════════════════════════════════════════════════════╝');
-    if (usage) {
-      console.log(`📊 Tokens: ${usage.prompt_tokens} (prompt) + ${usage.completion_tokens} (completion) = ${usage.total_tokens} (total)`);
-    }
-    console.log('\n┌─────────────────────────────────────────────────────────────┐');
-    console.log('│ 🤖 ASSISTANT                                                 │');
-    console.log('├─────────────────────────────────────────────────────────────┤');
-    console.log('│ 💬 CONTENT:');
-    console.log('│ ───────────────────────────────────────────────────────────');
-    const lines = content.split('\n').slice(0, 30);
-    for (const line of lines) {
-      console.log('│ ' + line.slice(0, 62));
-    }
-    if (content.split('\n').length > 30) {
-      console.log(`│ ... (${content.split('\n').length - 30} more lines)`);
-    }
-    console.log('│ ───────────────────────────────────────────────────────────');
-    console.log('└─────────────────────────────────────────────────────────────┘');
-    console.log('\n╔══════════════════════════════════════════════════════════╗');
-    console.log('║                    RESPONSE ENDED                        ║');
-    console.log('╚══════════════════════════════════════════════════════════╝\n');
-  }
-  /**
-   * Call local VLM API
-   */
-  private async callLocalVLM(
-    messages: any[],
-    screenContext: ScreenContext
-  ): Promise<{ prediction: string; parsedPredictions: PredictionParsed[] }> {
-    const baseUrl = this.modelBaseUrl || process.env.MODEL_BASE_URL || 'https://api.openai.com/v1';
-    const apiKey = this.modelApiKey || process.env.MODEL_API_KEY || '';
-    const requestBody = {
-      model: this.model,
-      messages,
-      max_tokens: 1024,
-      temperature: 0.1,
-    };
-    // Debug output for model input
-    if (this.showAIDebugInfo) {
-      this.debugRequest(messages);
-    }
-    let response;
-    try {
-      response = await fetch(`${baseUrl}/chat/completions`, {
-        method: 'POST',
-        headers: {
-          'Content-Type': 'application/json',
-          'Authorization': `Bearer ${apiKey}`,
-        },
-        body: JSON.stringify(requestBody),
-        signal: this.signal,
-      });
-    } catch (fetchError) {
-      throw fetchError;
-    }
-    // Handle non-200 responses
-    if (!response.ok) {
-      const errorText = await response.text();
-      throw new Error(`Model API error: ${errorText}`);
-    }
-    const result = await response.json() as { choices?: Array<{ message?: { content?: string } }>; usage?: any };
-    const content = result.choices?.[0]?.message?.content || '';
-    // Debug output for model response
-    if (this.showAIDebugInfo) {
-      this.debugResponse(content, result.usage);
-    }
-    const { parsed: parsedPredictions } = actionParser({
-      prediction: content,
-      factor: [1000, 1000],
-      screenContext: {
-        width: screenContext.width,
-        height: screenContext.height,
-      },
-    });
-    return {
-      prediction: content,
-      parsedPredictions,
-    };
-  }
-  /**
-   * Call the model API with debug logging
-   * Local mode: use model/modelBaseUrl/modelApiKey directly
-   * Remote mode: use remoteVlmCaller for VLM calls (now with full messages for consistent behavior)
-   */
-  private async callModelAPI(
-    messages: any[],
-    screenContext: ScreenContext,
-    remoteVlmCaller: RemoteVlmCaller
-  ): Promise<{ prediction: string; parsedPredictions: PredictionParsed[] }> {
-    // === LOCAL 模式 ===
-    if (this.isLocalMode) {
-      return this.callLocalVLM(messages, screenContext);
-    }
-    // === REMOTE 模式 ===
-    else {
-      // Debug output for model input
-      if (this.showAIDebugInfo) {
-        this.debugRequest(messages, remoteVlmCaller);
-      }
-      // Use externally injected VLM caller function with full messages (same as local mode)
-      const prediction = await remoteVlmCaller(messages, this.systemPrompt);
-      // Debug output for model response
-      if (this.showAIDebugInfo) {
-        this.debugResponse(prediction);
-      }
-      const { parsed: parsedPredictions } = actionParser({
-        prediction,
-        factor: [1000, 1000],
-        screenContext: {
-          width: screenContext.width,
-          height: screenContext.height,
-        },
-      });
-      return {
-        prediction,
-        parsedPredictions,
-      };
-    }
-  }
-  /**
-   * Get summary from prediction text
-   */
-  private getSummary(prediction: string): string {
-    // Extract the action part as summary
-    const actionMatch = prediction.match(/Action[:：]\s*([\s\S]+)$/i);
-    if (actionMatch) {
-      return actionMatch[1].trim();
-    }
-    return prediction.slice(0, 200);
-  }
-  pause(): void {
-    this.isPaused = true;
-    this.resumePromise = new Promise((resolve) => {
-      this.resolveResume = resolve;
-    });
-  }
-  resume(): void {
-    if (this.resolveResume) {
-      this.resolveResume();
-      this.resumePromise = null;
-      this.resolveResume = null;
-    }
-    this.isPaused = false;
-  }
-  stop(): void {
-    this.isStopped = true;
-  }
-  async cleanup(): Promise<void> {
-    this.logger.debug('Cleaning up GUI Agent...');
-    await this.operator.cleanup();
-    // Cleanup cancellation listener if attached
-    const cancelHandler = (this as any)._cancelHandler;
-    const cancellationManager = (this as any)._cancellationManager;
-    if (cancelHandler && cancellationManager) {
-      cancellationManager.off('cancelled', cancelHandler);
-      (this as any)._cancelHandler = undefined;
-      (this as any)._cancellationManager = undefined;
-    }
-  }
-}
-export { GUIAgentStatus as StatusEnum };
+/**
+ * GUI Agent for xagent
+ * Orchestrates desktop automation with AI-powered action execution
+ * Based on UI-TARS architecture with computer control only
+ *
+ * This implementation is aligned with packages/ui-tars/sdk/src/GUIAgent.ts
+ */
+import type {
+  ScreenContext,
+  ScreenshotOutput,
+  ExecuteParams,
+  ExecuteOutput,
+  PredictionParsed,
+} from '../types/operator.js';
+import type { Operator } from '../operator/base-operator.js';
+import { sleep, asyncRetry } from '../utils.js';
+import { actionParser } from '../action-parser/index.js';
+import { colors, icons, renderMarkdown } from '../../theme.js';
+import { getLogger } from '../../logger.js';
+/**
+ * Helper function to truncate long text
+ */
+function truncateText(text: string, maxLength: number = 200): string {
+  if (!text) return '';
+  return text.length > maxLength ? text.substring(0, maxLength) + '...' : text;
+}
+/**
+ * Helper function to indent multiline text
+ */
+function indentMultiline(text: string, indent: string): string {
+  return text.split('\n').map(line => indent + line).join('\n');
+}
+const guiLogger = getLogger();
+// UI-TARS Status Enum
+export enum GUIAgentStatus {
+  INIT = 'init',
+  RUNNING = 'running',
+  PAUSE = 'paused',
+  END = 'end',
+  ERROR = 'error',
+  USER_STOPPED = 'user_stopped',
+  CALL_LLM = 'call_llm',
+}
+/**
+ * Remote VLM Caller callback function type
+ * Inject this function externally to handle VLM calls, GUI Agent doesn't need to know VLM implementation details
+ * Receives full messages array (same as local mode) for consistent behavior
+ * @param messages - Full messages array
+ * @param systemPrompt - System prompt (for reference)
+ * @param taskId - Task identifier for backend tracking
+ * @param isFirstVlmCallRef - Reference object to track and update first VLM call state
+ */
+export type RemoteVlmCaller = (messages: any[], systemPrompt: string, taskId: string, isFirstVlmCallRef: { current: boolean }) => Promise<string>;
+export interface GUIAgentConfig<T extends Operator> {
+  operator: T;
+  model?: string;
+  modelBaseUrl?: string;
+  modelApiKey?: string;
+  /**
+   * Task identifier for VLM state tracking (begin vs continue)
+   */
+  taskId?: string;
+  /**
+   * Shared ref object to track first VLM call across createGUISubAgent calls
+   * Must be passed from outside to properly track VLM status across loop iterations
+   */
+  isFirstVlmCallRef?: { current: boolean };
+  /**
+   * Externally injected VLM caller function
+   * If this function is provided, GUI Agent will use it to call VLM
+   * instead of directly calling modelBaseUrl/modelApiKey
+   * This allows GUI Agent to work with remote services without exposing any configuration
+   */
+  remoteVlmCaller?: RemoteVlmCaller;
+  /**
+   * Whether to use local mode
+   * If true, use model/modelBaseUrl/modelApiKey for VLM calls
+   * If false, use remoteVlmCaller for remote VLM calls
+   */
+  isLocalMode: boolean;
+  systemPrompt?: string;
+  loopIntervalInMs?: number;
+  maxLoopCount?: number;
+  logger?: any;
+  signal?: AbortSignal;
+  onData?: (data: GUIAgentData) => void;
+  onError?: (error: Error) => void;
+  showAIDebugInfo?: boolean;
+  indentLevel?: number;
+  retry?: {
+    screenshot?: {
+      maxRetries?: number;
+      onRetry?: (e: Error) => void;
+    };
+    model?: {
+      maxRetries?: number;
+      onRetry?: (e: Error) => void;
+    };
+    execute?: {
+      maxRetries?: number;
+      onRetry?: (e: Error) => void;
+    };
+  };
+}
+export interface GUIAgentData {
+  status: GUIAgentStatus;
+  conversations: Conversation[];
+  error?: string;
+  systemPrompt?: string;
+}
+export interface Conversation {
+  from: 'human' | 'assistant';
+  value: string;
+  screenshotBase64?: string;
+  screenshotContext?: {
+    size: { width: number; height: number };
+    mime?: string;
+    scaleFactor: number;
+  };
+  actionType?: string;
+  actionInputs?: Record<string, any>;
+  timing?: {
+    start: number;
+    end: number;
+    cost: number;
+  };
+  predictionParsed?: PredictionParsed[];
+}
+// UI-TARS constants (aligned with @ui-tars/shared/constants)
+const MAX_LOOP_COUNT = 100;
+const MAX_SNAPSHOT_ERR_CNT = 5;
+const MAX_STEP_RETRIES = 3; // Max retries for a single action step before giving up
+const IMAGE_PLACEHOLDER = '{{IMG_PLACEHOLDER_0}}';
+export class GUIAgent<T extends Operator> {
+  private operator: T;
+  private readonly model: string;
+  private readonly modelBaseUrl: string;
+  private readonly modelApiKey: string;
+  private readonly taskId: string;
+  private readonly isFirstVlmCallRef?: { current: boolean };
+  private readonly remoteVlmCaller?: RemoteVlmCaller;
+  private readonly isLocalMode: boolean;
+  private readonly systemPrompt: string;
+  private readonly loopIntervalInMs: number;
+  private readonly maxLoopCount: number;
+  private readonly logger: Console;
+  private readonly signal?: AbortSignal;
+  private readonly onData?: (data: GUIAgentData) => void;
+  private readonly onError?: (error: Error) => void;
+  private readonly showAIDebugInfo: boolean;
+  private readonly indentLevel: number;
+  private readonly retry?: GUIAgentConfig<T>['retry'];
+  private isPaused = false;
+  private resumePromise: Promise<void> | null = null;
+  private resolveResume: (() => void) | null = null;
+  private isStopped = false;
+  private isFirstVlmCall = true;
+  constructor(config: GUIAgentConfig<T>) {
+    this.operator = config.operator;
+    this.model = config.model || '';
+    this.modelBaseUrl = config.modelBaseUrl || '';
+    this.modelApiKey = config.modelApiKey || '';
+    this.taskId = config.taskId || crypto.randomUUID();
+    this.isFirstVlmCallRef = config.isFirstVlmCallRef;
+    this.remoteVlmCaller = config.remoteVlmCaller;
+    this.isLocalMode = config.isLocalMode;
+    this.loopIntervalInMs = config.loopIntervalInMs || 0;
+    this.maxLoopCount = config.maxLoopCount || MAX_LOOP_COUNT;
+    this.logger = config.logger || guiLogger;
+    this.signal = config.signal;
+    this.onData = config.onData;
+    this.onError = config.onError;
+    this.showAIDebugInfo = config.showAIDebugInfo ?? false;
+    this.indentLevel = config.indentLevel ?? 1;
+    this.retry = config.retry;
+    this.systemPrompt = config.systemPrompt || this.buildSystemPrompt();
+  }
+  /**
+   * Set isFirstVlmCall to false after first VLM call
+   * Called by external code after remoteVlmCaller completes first call
+   */
+  public setIsFirstVlmCall(value: boolean): void {
+    this.isFirstVlmCall = value;
+  }
+  /**
+   * Display conversation results with formatting similar to session.ts (simplified)
+   */
+  private displayConversationResult(conversation: Conversation, iteration: number, indentLevel: number = 1): void {
+    const indent = '  '.repeat(indentLevel);
+    const innerIndent = '  '.repeat(indentLevel + 1);
+    const maxWidth = process.stdout.columns || 80;
+    if (conversation.from === 'assistant') {
+      // Display assistant response (action)
+      const content = conversation.value || '';
+      const timing = conversation.timing;
+      // Simplified: show step number and action
+      const actionSummary = content.replace(/Thought:[\s\S]*?Action:\s*/i, '').trim();
+      const actionType = conversation.predictionParsed?.[0]?.action_type || 'action';
+      console.log(`${indent}${colors.primaryBright(`[${iteration}]`)} ${colors.textMuted(actionType)}${timing ? colors.textDim(` (${timing.cost}ms)`) : ''}`);
+      // Optionally show action details on next line if verbose
+      if (this.showAIDebugInfo && actionSummary) {
+        const truncatedSummary = actionSummary.length > 60 ? actionSummary.substring(0, 60) + '...' : actionSummary;
+        console.log(`${innerIndent}${colors.textMuted(truncatedSummary)}`);
+      }
+    } else if (conversation.from === 'human' && conversation.screenshotBase64) {
+      // Show minimal indicator for screenshot
+      if (this.showAIDebugInfo) {
+        const timing = conversation.timing;
+        console.log(`${indent}${colors.textMuted(`${icons.loading} screenshot${timing ? ` (${timing.cost}ms)` : ''}`)}`);
+      }
+    }
+  }
+  /**
+   * Display status message
+   */
+  private displayStatus(data: GUIAgentData, iteration: number, indentLevel: number = 1): void {
+    const indent = '  '.repeat(indentLevel);
+    const status = data.status;
+    switch (status) {
+      case GUIAgentStatus.RUNNING:
+        console.log(`${indent}${colors.info(`${icons.loading} Step ${iteration}: Running...`)}`);
+        break;
+      case GUIAgentStatus.END:
+        // Handled by caller
+        break;
+      case GUIAgentStatus.ERROR:
+        if (data.error) {
+          console.log(`${indent}${colors.error(`${icons.cross} ${data.error}`)}`);
+        }
+        break;
+      case GUIAgentStatus.USER_STOPPED:
+        console.log(`${indent}${colors.warning(`${icons.warning} Stopped`)}`);
+        break;
+      default:
+        break;
+    }
+  }
+  private buildSystemPrompt(): string {
+    return `You are a GUI agent. You are given a task and your action history, with screenshots. You need to perform the next action to complete the task.
+## Output Format
+\`
+Thought: ...
+Action: ...
+\`
+## Action Space
+click(point='<point>x1 y1</point>')
+left_double(point='<point>x1 y1</point>')
+right_single(point='<point>x1 y1</point>')
+drag(start_point='<point>x1 y1</point>', end_point='<point>x2 y2</point>')
+hotkey(key='ctrl c') # Split keys with a space and use lowercase. Also, do not use more than 3 keys in one hotkey action.
+type(content='xxx') # Use escape characters \', \", and \n in content part to ensure we can parse the content in normal python string format. If you want to submit your input, use \n at the end of content.
+scroll(point='<point>x1 y1</point>', direction='down or up or right or left') # Show more information on the \`direction\` side.
+open_url(url='https://xxx') # Open URL in browser
+wait() #Sleep for 5s and take a screenshot to check for any changes.
+finished(content='xxx') # Use escape characters \', \", and \n in content part to ensure we can parse the content in normal python string format.
+## Note
+- Use {language} in \`Thought\` part.
+- Write a small plan and finally summarize your next action (with its target element) in one sentence in \`Thought\` part.
+`;
+  }
+  async initialize(): Promise<void> {
+    await this.operator.doInitialize();
+  }
+  /**
+   * Run the GUI agent with a single instruction (UI-TARS style)
+   * All operations are determined by the GUI model
+   */
+  async run(instruction: string): Promise<GUIAgentData> {
+    const data: GUIAgentData = {
+      status: GUIAgentStatus.INIT,
+      conversations: [
+        {
+          from: 'human',
+          value: instruction,
+          timing: {
+            start: Date.now(),
+            end: Date.now(),
+            cost: 0,
+          },
+        },
+      ],
+    };
+    // Initialize operator for initial screenshot
+    try {
+      await this.operator.doInitialize();
+    } catch (initError) {
+      const errorMsg = initError instanceof Error ? initError.message : 'Unknown error';
+      this.logger.error(`[GUIAgent] Failed to initialize operator: ${errorMsg}`);
+      // Check if it's an RDP-related issue
+      if (errorMsg.includes('screen') || errorMsg.includes('capture') || errorMsg.includes('display')) {
+        data.status = GUIAgentStatus.ERROR;
+        data.error = 'Failed to initialize screen capture. This may be caused by:\n' +
+          '  1. Remote Desktop session disconnected or minimized\n' +
+          '  2. Display driver issues\n' +
+          'Suggestion: Ensure your display is active and try again.';
+      } else {
+        data.status = GUIAgentStatus.ERROR;
+        data.error = `Failed to initialize operator: ${errorMsg}`;
+      }
+      return data;
+    }
+    const currentTime = Date.now();
+    if (this.showAIDebugInfo) {
+      this.logger.debug('[GUIAgent] run:', {
+        systemPrompt: this.systemPrompt,
+        model: this.model,
+        maxLoopCount: this.maxLoopCount,
+      });
+    }
+    let loopCnt = 0;
+    let snapshotErrCnt = 0;
+    // Start running agent
+    data.status = GUIAgentStatus.RUNNING;
+    data.systemPrompt = this.systemPrompt;
+    const indent = '  '.repeat(this.indentLevel);
+    console.log(`${indent}${colors.primaryBright(`${icons.rocket} GUI Agent started`)}`);
+    console.log('');
+    await this.onData?.({ ...data, conversations: [] });
+    try {
+      // eslint-disable-next-line no-constant-condition
+      while (true) {
+        if (this.showAIDebugInfo) {
+          this.logger.debug('[GUIAgent] loopCnt:', loopCnt);
+        }
+        // Check pause status
+        if (this.isPaused && this.resumePromise) {
+          data.status = GUIAgentStatus.PAUSE;
+          await this.onData?.({ ...data, conversations: [] });
+          await this.resumePromise;
+          data.status = GUIAgentStatus.RUNNING;
+          await this.onData?.({ ...data, conversations: [] });
+        }
+        // Check stop or aborted status
+        if (
+          this.isStopped ||
+          data.status !== GUIAgentStatus.RUNNING ||
+          this.signal?.aborted
+        ) {
+          if (this.signal?.aborted) {
+            data.status = GUIAgentStatus.USER_STOPPED;
+          }
+          break;
+        }
+        // Check loop limit
+        if (loopCnt >= this.maxLoopCount) {
+          data.status = GUIAgentStatus.ERROR;
+          data.error = `Has reached max loop count: ${loopCnt}`;
+          break;
+        }
+        // Check screenshot error limit
+        if (snapshotErrCnt >= MAX_SNAPSHOT_ERR_CNT) {
+          data.status = GUIAgentStatus.ERROR;
+          data.error = 'Screenshot failed too many times. Stopping task.';
+          break;
+        }
+        loopCnt += 1;
+        const start = Date.now();
+        // Take screenshot (single attempt - no retry to avoid infinite loops)
+        let snapshot: ScreenshotOutput;
+        try {
+          snapshot = await this.operator.doScreenshot();
+        } catch (screenshotError) {
+          const errorMsg = screenshotError instanceof Error ? screenshotError.message : 'Unknown error';
+          this.logger.warn(`[GUIAgent] Screenshot exception: ${errorMsg}`);
+          snapshotErrCnt += 1;
+          data.status = GUIAgentStatus.ERROR;
+          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
+          this.logger.error(`[GUIAgent] ${data.error}`);
+          await sleep(1000);
+          break;
+        }
+        // Check if screenshot returned failure status
+        if (snapshot.status === 'failed') {
+          const errorMsg = snapshot.errorMessage || 'Unknown error';
+          this.logger.warn(`[GUIAgent] Screenshot failed: ${errorMsg}`);
+          snapshotErrCnt += 1;
+          data.status = GUIAgentStatus.ERROR;
+          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
+          this.logger.error(`[GUIAgent] ${data.error}`);
+          await sleep(1000);
+          break;
+        }
+        // Check abort immediately after screenshot
+        if (this.signal?.aborted) {
+          data.status = GUIAgentStatus.USER_STOPPED;
+          break;
+        }
+        // Validate screenshot
+        const isValidImage = !!(snapshot?.base64);
+        if (!isValidImage) {
+          snapshotErrCnt += 1;
+          data.status = GUIAgentStatus.ERROR;
+          data.error = `Screenshot failed ${snapshotErrCnt} times. Stopping task.`;
+          this.logger.error(`[GUIAgent] ${data.error}`);
+          await sleep(1000);
+          break;
+        }
+        // Reset error counter on successful screenshot
+        snapshotErrCnt = 0;
+        const end = Date.now();
+        // Get screen context
+        const screenContext = await this.operator.getScreenContext();
+        // Add screenshot to conversation
+        data.conversations.push({
+          from: 'human',
+          value: IMAGE_PLACEHOLDER,
+          screenshotBase64: snapshot.base64,
+          screenshotContext: {
+            size: {
+              width: screenContext.width,
+              height: screenContext.height,
+            },
+            scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
+          },
+          timing: {
+            start,
+            end,
+            cost: end - start,
+          },
+        });
+        await this.onData?.({
+          ...data,
+          conversations: data.conversations.slice(-1),
+        });
+        // Display screenshot notification
+        const latestScreenshot = data.conversations[data.conversations.length - 1];
+        if (latestScreenshot && latestScreenshot.from === 'human' && latestScreenshot.screenshotBase64) {
+          this.displayConversationResult(latestScreenshot, loopCnt, this.indentLevel);
+        }
+        // Build messages for model
+        const messages = this.buildModelMessages(data.conversations, data.systemPrompt);
+        // Check abort before model call
+        if (this.signal?.aborted) {
+          data.status = GUIAgentStatus.USER_STOPPED;
+          break;
+        }
+        // Invoke model with retry
+        let prediction: string;
+        let parsedPredictions: PredictionParsed[];
+        try {
+          const modelResult: { prediction: string; parsedPredictions: PredictionParsed[] } = await asyncRetry(
+            async (bail) => {
+              try {
+                const result = await this.callModelAPI(messages, screenContext, this.remoteVlmCaller!);
+                return result;
+              } catch (error: unknown) {
+                const errorMsg = error instanceof Error ? error.message : String(error);
+                // 捕获各种 abort 相关的错误
+                if (
+                  error instanceof Error &&
+                  (error.name === 'AbortError' ||
+                    errorMsg.includes('aborted') ||
+                    errorMsg.includes('canceled') ||
+                    errorMsg.includes('cancelled') ||
+                    errorMsg === 'Operation was canceled' ||
+                    errorMsg === 'The operation was canceled' ||
+                    errorMsg === 'This operation was aborted')
+                ) {
+                  bail(error as Error);
+                  return { prediction: '', parsedPredictions: [] };
+                }
+                throw error;
+              }
+            },
+            {
+              retries: this.retry?.model?.maxRetries ?? 0,
+              minTimeout: 1000 * 30,
+              onRetry: this.retry?.model?.onRetry,
+            }
+          );
+          prediction = modelResult.prediction;
+          parsedPredictions = modelResult.parsedPredictions;
+        } catch (modelError) {
+          // 首先检查是否是取消/abort 错误
+          const errorMsg = modelError instanceof Error ? modelError.message : String(modelError);
+          const isAbortError =
+            modelError instanceof Error && (
+              modelError.name === 'AbortError' ||
+              errorMsg.includes('aborted') ||
+              errorMsg.includes('canceled') ||
+              errorMsg.includes('cancelled') ||
+              errorMsg === 'Operation was canceled' ||
+              errorMsg === 'The operation was canceled' ||
+              errorMsg === 'This operation was aborted'
+            );
+          if (isAbortError || this.signal?.aborted) {
+            data.status = GUIAgentStatus.USER_STOPPED;
+            data.conversations = data.conversations || [];
+            return data;
+          }
+          // Handle multimodal model API errors with specific error messages
+          data.status = GUIAgentStatus.ERROR;
+          if (errorMsg.includes('401') || errorMsg.includes('authentication') || errorMsg.includes('API key') || errorMsg.includes('api_key') || errorMsg.includes('Unauthorized') || errorMsg.includes('invalid_api_key')) {
+            data.error = '[Multimodal Model Authentication Failed] The guiSubagentApiKey configuration is invalid.\n' +
+              'Error details: HTTP 401 - API key is invalid or expired\n' +
+              'Suggested action: Please check the guiSubagentApiKey configuration in ~/.xagent/settings.json and ensure a valid API key is set';
+          } else if (errorMsg.includes('429') || errorMsg.includes('rate limit') || errorMsg.includes('too many requests')) {
+            data.error = '[Multimodal Model Rate Limit Exceeded] API requests exceed rate limit.\n' +
+              'Error details: HTTP 429 - Too Many Requests\n' +
+              'Suggested action: Please retry later, or check your API account quota settings. Wait a few minutes before retrying';
+          } else if (errorMsg.includes('network') || errorMsg.includes('fetch') || errorMsg.includes('connection') || errorMsg.includes('ECONNREFUSED')) {
+            data.error = '[Multimodal Model Network Error] Cannot connect to API service.\n' +
+              'Error details: Network connection failed. Possible causes:\n' +
+              '  1. Network connection is lost\n' +
+              '  2. The guiSubagentBaseUrl configuration is incorrect\n' +
+              '  3. API service endpoint is unreachable\n' +
+              'Suggested action: Please check the guiSubagentBaseUrl configuration in ~/.xagent/settings.json and ensure network connectivity';
+          } else if (errorMsg.includes('404') || errorMsg.includes('not found') || errorMsg.includes('model not found') || errorMsg.includes('InvalidEndpointOrModel.NotFound')) {
+            // Extract model name
+            const modelMatch = errorMsg.match(/model[:\s]+([^\s,"]+)|"model[:"]+([^",}]+)/i);
+            const modelName = modelMatch ? (modelMatch[1] || modelMatch[2]) : 'Unknown';
+            data.error = '[Multimodal Model Configuration Error] The model specified in guiSubagentModel does not exist or is not accessible.\n' +
+              'Error details: HTTP 404 - Model or Endpoint not found\n' +
+              'Configured model name: ' + modelName + '\n' +
+              'Suggested action: Please check the guiSubagentModel configuration in ~/.xagent/settings.json, remove or replace with a valid model name';
+          } else {
+            data.error = '[Multimodal Model API Call Failed]\n' +
+              'Error details: ' + errorMsg + '\n' +
+              'Please check the following configuration items:\n' +
+              '  - guiSubagentApiKey: API key\n' +
+              '  - guiSubagentBaseUrl: API service URL\n' +
+              '  - guiSubagentModel: Model name\n' +
+              'Config file location: ~/.xagent/settings.json';
+          }
+          break;
+        }
+        // Check abort immediately after model call
+        if (this.signal?.aborted) {
+          data.status = GUIAgentStatus.USER_STOPPED;
+          break;
+        }
+        if (!prediction) {
+          this.logger.warn('[GUIAgent] Warning: Empty response from model, retrying...');
+          continue;
+        }
+        if (this.showAIDebugInfo) {
+          this.logger.debug('[GUIAgent] Response:', prediction);
+          this.logger.debug('[GUIAgent] Parsed Predictions:', JSON.stringify(parsedPredictions));
+        }
+        const predictionSummary = this.getSummary(prediction);
+        data.conversations.push({
+          from: 'assistant',
+          value: predictionSummary,
+          timing: {
+            start,
+            end: Date.now(),
+            cost: Date.now() - start,
+          },
+          screenshotContext: {
+            size: {
+              width: screenContext.width,
+              height: screenContext.height,
+            },
+            scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
+          },
+          predictionParsed: parsedPredictions,
+        });
+        await this.onData?.({
+          ...data,
+          conversations: data.conversations.slice(-1),
+        });
+        // Display assistant response
+        const latestAssistant = data.conversations[data.conversations.length - 1];
+        if (latestAssistant && latestAssistant.from === 'assistant') {
+          this.displayConversationResult(latestAssistant, loopCnt, this.indentLevel);
+        }
+        // Check if we need to switch operator based on first action
+        // Execute actions
+        for (const parsedPrediction of parsedPredictions) {
+          const actionType = parsedPrediction.action_type;
+          if (this.showAIDebugInfo) {
+            this.logger.debug('[GUIAgent] Action:', actionType);
+          }
+          // Handle internal action spaces
+          if (actionType === 'error_env') {
+            data.status = GUIAgentStatus.ERROR;
+            data.error = 'Environment error';
+            break;
+          } else if (actionType === 'max_loop') {
+            data.status = GUIAgentStatus.ERROR;
+            data.error = 'Reached max loop';
+            break;
+          }
+          // Execute action with retry
+          if (!this.signal?.aborted && !this.isStopped) {
+            let stepRetryCount = 0;
+            let stepSuccess = false;
+            let lastErrorMsg = '';
+            this.logger.debug(`[GUIAgent] Executing action: ${actionType}, loopCnt: ${loopCnt}`);
+            while (stepRetryCount < MAX_STEP_RETRIES && !stepSuccess) {
+              try {
+                const executeResult = await this.operator.doExecute({
+                  prediction,
+                  parsedPrediction,
+                  screenWidth: screenContext.width,
+                  screenHeight: screenContext.height,
+                  scaleFactor: snapshot.scaleFactor ?? screenContext.scaleFactor,
+                  factors: [1000, 1000], // Default factors
+                });
+                if (executeResult.status === 'end') {
+                  // 'finished' action or explicit end
+                  stepSuccess = true;
+                  break;
+                } else if (executeResult.status === 'needs_input') {
+                  // Empty action - return to main agent for re-calling LLM
+                  this.logger.debug(`[GUIAgent] Empty action received, returning to main agent for LLM decision`);
+                  data.status = GUIAgentStatus.CALL_LLM;
+                  data.error = 'Empty action - main agent should re-call LLM to decide next step';
+                  stepSuccess = true;
+                  return data; // Return immediately with all results to main agent
+                }
+                // Any other status (success, failed, etc.) is considered success
+                stepSuccess = true;
+                break;
+              } catch (executeError) {
+                stepRetryCount++;
+                lastErrorMsg = executeError instanceof Error ? executeError.message : 'Unknown error';
+                this.logger.warn(`[GUIAgent] Action failed ${stepRetryCount}/${MAX_STEP_RETRIES}: ${lastErrorMsg}`);
+                if (stepRetryCount < MAX_STEP_RETRIES) {
+                  await sleep(1000);
+                  // Take new screenshot for retry
+                  const retrySnapshot = await this.operator.doScreenshot();
+                  if (retrySnapshot?.base64) {
+                    data.conversations.push({
+                      from: 'human',
+                      value: IMAGE_PLACEHOLDER,
+                      screenshotBase64: retrySnapshot.base64,
+                      screenshotContext: {
+                        size: {
+                          width: screenContext.width,
+                          height: screenContext.height,
+                        },
+                        scaleFactor: retrySnapshot.scaleFactor ?? screenContext.scaleFactor,
+                      },
+                    });
+                  }
+                }
+              }
+            }
+            if (!stepSuccess) {
+              // All retries exhausted
+              this.logger.error(`[GUIAgent] Action failed after ${MAX_STEP_RETRIES} attempts: ${lastErrorMsg}`);
+              data.status = GUIAgentStatus.ERROR;
+              data.error = `Action failed after ${MAX_STEP_RETRIES} attempts: ${lastErrorMsg}`;
+              break;
+            }
+          }
+          // Check abort immediately after action execution
+          if (this.signal?.aborted) {
+            data.status = GUIAgentStatus.USER_STOPPED;
+            break;
+          }
+          // Handle special action types
+          if (actionType === 'finished') {
+            data.status = GUIAgentStatus.END;
+            break;
+          }
+        }
+        // Check abort after action loop
+        if (this.signal?.aborted) {
+          data.status = GUIAgentStatus.USER_STOPPED;
+          break;
+        }
+        // Wait between iterations
+        if (this.loopIntervalInMs > 0) {
+          await sleep(this.loopIntervalInMs);
+        }
+      }
+    } catch (error) {
+      this.logger.error('[GUIAgent] Catch error', error);
+      if (
+        error instanceof Error &&
+        (error.name === 'AbortError' || error.message?.includes('aborted'))
+      ) {
+        data.status = GUIAgentStatus.USER_STOPPED;
+      } else {
+        data.status = GUIAgentStatus.ERROR;
+        data.error = error instanceof Error ? error.message : 'Unknown error';
+      }
+    } finally {
+      // Save final status
+      const finalStatus = data.status;
+      const finalError = data.error;
+      const indent = '  '.repeat(this.indentLevel);
+      // Output error immediately if task failed
+      if (finalStatus === GUIAgentStatus.ERROR && finalError) {
+        console.log(`\n${indent}${colors.error('✖')} ${finalError}\n`);
+      }
+      // Call onData callback if set
+      // Note: Use Promise.resolve().then() to avoid modifying data in callback
+      const onDataCallback = this.onData;
+      if (onDataCallback) {
+        Promise.resolve().then(() => onDataCallback({ ...data, conversations: [] }));
+      }
+      // Call onError callback if status is error
+      if (finalStatus === GUIAgentStatus.ERROR && this.onError) {
+        this.onError(new Error(finalError || 'Unknown error occurred'));
+      }
+      if (this.showAIDebugInfo) {
+        this.logger.debug('[GUIAgent] Final status:', {
+          status: finalStatus,
+          loopCnt,
+          totalConversations: data.conversations.length,
+        });
+      }
+      // Ensure the returned status is correct (reassign)
+      this.logger.debug(`[GUIAgent] Finally: finalStatus=${finalStatus}, finalError=${finalError}, data.status=${data.status}, data.error=${data.error}`);
+      // Log final status (only visible when showAIDebugInfo is enabled)
+      this.logger.debug(`[GUIAgent] Final status: ${finalStatus}${finalError ? `, Error: ${finalError}` : ''}, Steps: ${loopCnt}`);
+      data.status = finalStatus;
+      data.error = finalError;
+    }
+    return data;
+  }
+  /**
+   * Build messages for the model API
+   */
+  private buildModelMessages(conversations: Conversation[], systemPrompt: string): any[] {
+    const messages: any[] = [];
+    // System prompt
+    messages.push({
+      role: 'system',
+      content: systemPrompt,
+    });
+    // Add conversation history
+    for (const conv of conversations) {
+      if (conv.from === 'human' && conv.screenshotBase64) {
+        messages.push({
+          role: 'user',
+          content: [
+            { type: 'text', text: conv.value },
+            {
+              type: 'image_url',
+              image_url: {
+                url: `data:image/png;base64,${conv.screenshotBase64}`,
+                detail: 'high',
+              },
+            },
+          ],
+        });
+      } else if (conv.from === 'assistant') {
+        messages.push({
+          role: 'assistant',
+          content: conv.value,
+        });
+      } else {
+        messages.push({
+          role: 'user',
+          content: conv.value,
+        });
+      }
+    }
+    return messages;
+  }
+  /**
+   * Extract image and prompt from messages for remote VLM calls
+   */
+  private extractImageAndPrompt(messages: any[]): { image: string; prompt: string } {
+    const lastUserMessage = messages[messages.length - 1];
+    let image = '';
+    let prompt = '';
+    if (lastUserMessage && Array.isArray(lastUserMessage.content)) {
+      const imageBlock = lastUserMessage.content.find((c: any) => c.type === 'image_url');
+      const textBlock = lastUserMessage.content.find((c: any) => c.type === 'text');
+      if (imageBlock) {
+        const imageUrl = imageBlock.image_url?.url || '';
+        if (imageUrl.startsWith('data:image')) {
+          image = imageUrl.split(',')[1] || '';
+        } else {
+          image = imageUrl;
+        }
+      }
+      prompt = textBlock?.text || '';
+    }
+    return { image, prompt };
+  }
+  /**
+   * Debug output for model request
+   */
+  private debugRequest(messages: any[], remoteVlmCaller?: RemoteVlmCaller): void {
+    console.log('\n╔══════════════════════════════════════════════════════════╗');
+    console.log('║               GUI MODEL REQUEST DEBUG                   ║');
+    console.log('╚══════════════════════════════════════════════════════════╝');
+    console.log(`📦 Model: ${remoteVlmCaller ? ((remoteVlmCaller as any).info?.model || 'remote') : this.model}`);
+    console.log(`🌐 Base URL: ${remoteVlmCaller ? ((remoteVlmCaller as any).info?.baseUrl || 'remote') : (this.modelBaseUrl || process.env.MODEL_BASE_URL || 'https://api.openai.com/v1')}`);
+    console.log(`💬 Messages: ${messages.length}`);
+    // Show system prompt if present
+    const systemMsg = messages.find((m: any) => m.role === 'system');
+    if (systemMsg) {
+      console.log('\n┌─────────────────────────────────────────────────────────────┐');
+      console.log('│ 🟫 SYSTEM                                                     │');
+      console.log('├─────────────────────────────────────────────────────────────┤');
+      const systemContent = typeof systemMsg.content === 'string'
+        ? systemMsg.content
+        : JSON.stringify(systemMsg.content);
+      const lines = systemContent.split('\n').slice(0, 15);
+      for (const line of lines) {
+        console.log('│ ' + line.slice(0, 62));
+      }
+      if (systemContent.split('\n').length > 15) {
+        console.log('│ ... (truncated)');
+      }
+      console.log('└─────────────────────────────────────────────────────────────┘');
+    }
+    // Show conversation messages
+    const roleColors: Record<string, string> = {
+      user: '👤 USER',
+      assistant: '🤖 ASSISTANT',
+    };
+    for (let i = 0; i < messages.length; i++) {
+      const msg = messages[i];
+      if (msg.role === 'system') continue;
+      const roleLabel = roleColors[msg.role] || `● ${msg.role.toUpperCase()}`;
+      console.log(`\n┌─────────────────────────────────────────────────────────────┐`);
+      console.log(`│ ${roleLabel} (${i + 1})                                           │`);
+      console.log('├─────────────────────────────────────────────────────────────┤');
+      if (typeof msg.content === 'string') {
+        const lines = msg.content.split('\n').slice(0, 20);
+        for (const line of lines) {
+          console.log('│ ' + line.slice(0, 62));
+        }
+        if (msg.content.split('\n').length > 20) {
+          console.log('│ ... (truncated)');
+        }
+      } else if (Array.isArray(msg.content)) {
+        const hasImage = msg.content.some((c: any) => c.type === 'image_url');
+        console.log('│ 📎 Content blocks: ' + msg.content.length);
+        if (hasImage) {
+          const imageBlock = msg.content.find((c: any) => c.type === 'image_url');
+          const imageSize = imageBlock?.image_url?.url?.length || 0;
+          console.log('│ 🖼️  Image size: ' + (imageSize / 1024).toFixed(2) + ' KB');
+        }
+        const textBlock = msg.content.find((c: any) => c.type === 'text');
+        if (textBlock?.text) {
+          const lines = textBlock.text.split('\n').slice(0, 10);
+          for (const line of lines) {
+            console.log('│ ' + line.slice(0, 62));
+          }
+        }
+      }
+      console.log('└─────────────────────────────────────────────────────────────┘');
+    }
+    console.log('\n📤 Sending request to model API...\n');
+  }
+  /**
+   * Debug output for model response
+   */
+  private debugResponse(content: string, usage?: any): void {
+    console.log('\n╔══════════════════════════════════════════════════════════╗');
+    console.log('║               GUI MODEL RESPONSE DEBUG                  ║');
+    console.log('╚══════════════════════════════════════════════════════════╝');
+    if (usage) {
+      console.log(`📊 Tokens: ${usage.prompt_tokens} (prompt) + ${usage.completion_tokens} (completion) = ${usage.total_tokens} (total)`);
+    }
+    console.log('\n┌─────────────────────────────────────────────────────────────┐');
+    console.log('│ 🤖 ASSISTANT                                                 │');
+    console.log('├─────────────────────────────────────────────────────────────┤');
+    console.log('│ 💬 CONTENT:');
+    console.log('│ ───────────────────────────────────────────────────────────');
+    const lines = content.split('\n').slice(0, 30);
+    for (const line of lines) {
+      console.log('│ ' + line.slice(0, 62));
+    }
+    if (content.split('\n').length > 30) {
+      console.log(`│ ... (${content.split('\n').length - 30} more lines)`);
+    }
+    console.log('│ ───────────────────────────────────────────────────────────');
+    console.log('└─────────────────────────────────────────────────────────────┘');
+    console.log('\n╔══════════════════════════════════════════════════════════╗');
+    console.log('║                    RESPONSE ENDED                        ║');
+    console.log('╚══════════════════════════════════════════════════════════╝\n');
+  }
+  /**
+   * Call local VLM API
+   */
+  private async callLocalVLM(
+    messages: any[],
+    screenContext: ScreenContext
+  ): Promise<{ prediction: string; parsedPredictions: PredictionParsed[] }> {
+    const baseUrl = this.modelBaseUrl || process.env.MODEL_BASE_URL || 'https://api.openai.com/v1';
+    const apiKey = this.modelApiKey || process.env.MODEL_API_KEY || '';
+    const requestBody = {
+      model: this.model,
+      messages,
+      max_tokens: 1024,
+      temperature: 0.1,
+    };
+    // Debug output for model input
+    if (this.showAIDebugInfo) {
+      this.debugRequest(messages);
+    }
+    let response;
+    try {
+      response = await fetch(`${baseUrl}/chat/completions`, {
+        method: 'POST',
+        headers: {
+          'Content-Type': 'application/json',
+          'Authorization': `Bearer ${apiKey}`,
+        },
+        body: JSON.stringify(requestBody),
+        signal: this.signal,
+      });
+    } catch (fetchError) {
+      throw fetchError;
+    }
+    // Handle non-200 responses
+    if (!response.ok) {
+      const errorText = await response.text();
+      throw new Error(`Model API error: ${errorText}`);
+    }
+    const result = await response.json() as { choices?: Array<{ message?: { content?: string } }>; usage?: any };
+    const content = result.choices?.[0]?.message?.content || '';
+    // Debug output for model response
+    if (this.showAIDebugInfo) {
+      this.debugResponse(content, result.usage);
+    }
+    const { parsed: parsedPredictions } = actionParser({
+      prediction: content,
+      factor: [1000, 1000],
+      screenContext: {
+        width: screenContext.width,
+        height: screenContext.height,
+      },
+    });
+    return {
+      prediction: content,
+      parsedPredictions,
+    };
+  }
+  /**
+   * Call the model API with debug logging
+   * Local mode: use model/modelBaseUrl/modelApiKey directly
+   * Remote mode: use remoteVlmCaller for VLM calls (now with full messages for consistent behavior)
+   */
+  private async callModelAPI(
+    messages: any[],
+    screenContext: ScreenContext,
+    remoteVlmCaller: RemoteVlmCaller
+  ): Promise<{ prediction: string; parsedPredictions: PredictionParsed[] }> {
+    // === LOCAL 模式 ===
+    if (this.isLocalMode) {
+      return this.callLocalVLM(messages, screenContext);
+    }
+    // === REMOTE 模式 ===
+    else {
+      // Debug output for model input
+      if (this.showAIDebugInfo) {
+        this.debugRequest(messages, remoteVlmCaller);
+      }
+      // Use shared ref from config for tracking first VLM call across createGUISubAgent calls
+      // If no shared ref provided, fall back to local tracking
+      const isFirstVlmCallRef = this.isFirstVlmCallRef || { current: this.isFirstVlmCall };
+      // Pass taskId and isFirstVlmCallRef for proper status tracking
+      const prediction = await remoteVlmCaller(messages, this.systemPrompt, this.taskId, isFirstVlmCallRef);
+      // Mark subsequent calls as continue (update both local state and shared ref)
+      this.isFirstVlmCall = false;
+      isFirstVlmCallRef.current = false;
+      // Debug output for model response
+      if (this.showAIDebugInfo) {
+        this.debugResponse(prediction);
+      }
+      const { parsed: parsedPredictions } = actionParser({
+        prediction,
+        factor: [1000, 1000],
+        screenContext: {
+          width: screenContext.width,
+          height: screenContext.height,
+        },
+      });
+      return {
+        prediction,
+        parsedPredictions,
+      };
+    }
+  }
+  /**
+   * Get summary from prediction text
+   */
+  private getSummary(prediction: string): string {
+    // Extract the action part as summary
+    const actionMatch = prediction.match(/Action[:：]\s*([\s\S]+)$/i);
+    if (actionMatch) {
+      return actionMatch[1].trim();
+    }
+    return prediction.slice(0, 200);
+  }
+  pause(): void {
+    this.isPaused = true;
+    this.resumePromise = new Promise((resolve) => {
+      this.resolveResume = resolve;
+    });
+  }
+  resume(): void {
+    if (this.resolveResume) {
+      this.resolveResume();
+      this.resumePromise = null;
+      this.resolveResume = null;
+    }
+    this.isPaused = false;
+  }
+  stop(): void {
+    this.isStopped = true;
+  }
+  async cleanup(): Promise<void> {
+    this.logger.debug('Cleaning up GUI Agent...');
+    await this.operator.cleanup();
+    // Cleanup cancellation listener if attached
+    const cancelHandler = (this as any)._cancelHandler;
+    const cancellationManager = (this as any)._cancellationManager;
+    if (cancelHandler && cancellationManager) {
+      cancellationManager.off('cancelled', cancelHandler);
+      (this as any)._cancelHandler = undefined;
+      (this as any)._cancellationManager = undefined;
+    }
+  }
+}
+export { GUIAgentStatus as StatusEnum };