npm - @midscene/core - Versions diffs - 0.30.10 → 1.0.0 - Mend

@midscene/core 0.30.10 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (203) hide show

package/dist/es/agent/agent.mjs +233 -144
package/dist/es/agent/agent.mjs.map +1 -1
package/dist/es/agent/execution-session.mjs +41 -0
package/dist/es/agent/execution-session.mjs.map +1 -0
package/dist/es/agent/index.mjs +3 -3
package/dist/es/agent/task-builder.mjs +319 -0
package/dist/es/agent/task-builder.mjs.map +1 -0
package/dist/es/agent/task-cache.mjs +4 -4
package/dist/es/agent/task-cache.mjs.map +1 -1
package/dist/es/agent/tasks.mjs +197 -504
package/dist/es/agent/tasks.mjs.map +1 -1
package/dist/es/agent/ui-utils.mjs +54 -35
package/dist/es/agent/ui-utils.mjs.map +1 -1
package/dist/es/agent/utils.mjs +16 -58
package/dist/es/agent/utils.mjs.map +1 -1
package/dist/es/ai-model/conversation-history.mjs +25 -13
package/dist/es/ai-model/conversation-history.mjs.map +1 -1
package/dist/es/ai-model/index.mjs +4 -4
package/dist/es/ai-model/inspect.mjs +45 -54
package/dist/es/ai-model/inspect.mjs.map +1 -1
package/dist/es/ai-model/llm-planning.mjs +47 -65
package/dist/es/ai-model/llm-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/assertion.mjs.map +1 -1
package/dist/es/ai-model/prompt/common.mjs.map +1 -1
package/dist/es/ai-model/prompt/describe.mjs.map +1 -1
package/dist/es/ai-model/prompt/extraction.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-locator.mjs +11 -235
package/dist/es/ai-model/prompt/llm-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-planning.mjs +76 -322
package/dist/es/ai-model/prompt/llm-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-section-locator.mjs +15 -14
package/dist/es/ai-model/prompt/llm-section-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/order-sensitive-judge.mjs +35 -0
package/dist/es/ai-model/prompt/order-sensitive-judge.mjs.map +1 -0
package/dist/es/ai-model/prompt/playwright-generator.mjs +2 -2
package/dist/es/ai-model/prompt/playwright-generator.mjs.map +1 -1
package/dist/es/ai-model/prompt/ui-tars-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/ui-tars-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/util.mjs +3 -88
package/dist/es/ai-model/prompt/util.mjs.map +1 -1
package/dist/es/ai-model/prompt/yaml-generator.mjs +10 -10
package/dist/es/ai-model/prompt/yaml-generator.mjs.map +1 -1
package/dist/es/ai-model/service-caller/index.mjs +182 -274
package/dist/es/ai-model/service-caller/index.mjs.map +1 -1
package/dist/es/ai-model/ui-tars-planning.mjs +69 -8
package/dist/es/ai-model/ui-tars-planning.mjs.map +1 -1
package/dist/es/{ai-model/common.mjs → common.mjs} +18 -30
package/dist/es/common.mjs.map +1 -0
package/dist/es/device/device-options.mjs +0 -0
package/dist/es/device/index.mjs +29 -12
package/dist/es/device/index.mjs.map +1 -1
package/dist/es/index.mjs +5 -4
package/dist/es/index.mjs.map +1 -1
package/dist/es/report.mjs.map +1 -1
package/dist/es/{insight → service}/index.mjs +38 -51
package/dist/es/service/index.mjs.map +1 -0
package/dist/es/{insight → service}/utils.mjs +3 -3
package/dist/es/service/utils.mjs.map +1 -0
package/dist/es/task-runner.mjs +264 -0
package/dist/es/task-runner.mjs.map +1 -0
package/dist/es/tree.mjs +13 -2
package/dist/es/tree.mjs.map +1 -0
package/dist/es/types.mjs +18 -1
package/dist/es/types.mjs.map +1 -1
package/dist/es/utils.mjs +6 -7
package/dist/es/utils.mjs.map +1 -1
package/dist/es/yaml/builder.mjs.map +1 -1
package/dist/es/yaml/player.mjs +121 -98
package/dist/es/yaml/player.mjs.map +1 -1
package/dist/es/yaml/utils.mjs +1 -1
package/dist/es/yaml/utils.mjs.map +1 -1
package/dist/lib/agent/agent.js +231 -142
package/dist/lib/agent/agent.js.map +1 -1
package/dist/lib/agent/common.js +1 -1
package/dist/lib/agent/execution-session.js +75 -0
package/dist/lib/agent/execution-session.js.map +1 -0
package/dist/lib/agent/index.js +14 -14
package/dist/lib/agent/index.js.map +1 -1
package/dist/lib/agent/task-builder.js +356 -0
package/dist/lib/agent/task-builder.js.map +1 -0
package/dist/lib/agent/task-cache.js +8 -8
package/dist/lib/agent/task-cache.js.map +1 -1
package/dist/lib/agent/tasks.js +202 -506
package/dist/lib/agent/tasks.js.map +1 -1
package/dist/lib/agent/ui-utils.js +58 -36
package/dist/lib/agent/ui-utils.js.map +1 -1
package/dist/lib/agent/utils.js +26 -68
package/dist/lib/agent/utils.js.map +1 -1
package/dist/lib/ai-model/conversation-history.js +27 -15
package/dist/lib/ai-model/conversation-history.js.map +1 -1
package/dist/lib/ai-model/index.js +27 -27
package/dist/lib/ai-model/index.js.map +1 -1
package/dist/lib/ai-model/inspect.js +51 -57
package/dist/lib/ai-model/inspect.js.map +1 -1
package/dist/lib/ai-model/llm-planning.js +49 -67
package/dist/lib/ai-model/llm-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/assertion.js +2 -2
package/dist/lib/ai-model/prompt/assertion.js.map +1 -1
package/dist/lib/ai-model/prompt/common.js +2 -2
package/dist/lib/ai-model/prompt/common.js.map +1 -1
package/dist/lib/ai-model/prompt/describe.js +2 -2
package/dist/lib/ai-model/prompt/describe.js.map +1 -1
package/dist/lib/ai-model/prompt/extraction.js +2 -2
package/dist/lib/ai-model/prompt/extraction.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-locator.js +14 -241
package/dist/lib/ai-model/prompt/llm-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-planning.js +79 -328
package/dist/lib/ai-model/prompt/llm-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-section-locator.js +17 -16
package/dist/lib/ai-model/prompt/llm-section-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/order-sensitive-judge.js +72 -0
package/dist/lib/ai-model/prompt/order-sensitive-judge.js.map +1 -0
package/dist/lib/ai-model/prompt/playwright-generator.js +11 -11
package/dist/lib/ai-model/prompt/playwright-generator.js.map +1 -1
package/dist/lib/ai-model/prompt/ui-tars-locator.js +2 -2
package/dist/lib/ai-model/prompt/ui-tars-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/ui-tars-planning.js +2 -2
package/dist/lib/ai-model/prompt/ui-tars-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/util.js +7 -95
package/dist/lib/ai-model/prompt/util.js.map +1 -1
package/dist/lib/ai-model/prompt/yaml-generator.js +18 -18
package/dist/lib/ai-model/prompt/yaml-generator.js.map +1 -1
package/dist/lib/ai-model/service-caller/index.js +288 -401
package/dist/lib/ai-model/service-caller/index.js.map +1 -1
package/dist/lib/ai-model/ui-tars-planning.js +71 -10
package/dist/lib/ai-model/ui-tars-planning.js.map +1 -1
package/dist/lib/{ai-model/common.js → common.js} +40 -55
package/dist/lib/common.js.map +1 -0
package/dist/lib/device/device-options.js +20 -0
package/dist/lib/device/device-options.js.map +1 -0
package/dist/lib/device/index.js +63 -40
package/dist/lib/device/index.js.map +1 -1
package/dist/lib/image/index.js +5 -5
package/dist/lib/image/index.js.map +1 -1
package/dist/lib/index.js +24 -20
package/dist/lib/index.js.map +1 -1
package/dist/lib/report.js +2 -2
package/dist/lib/report.js.map +1 -1
package/dist/lib/{insight → service}/index.js +41 -54
package/dist/lib/service/index.js.map +1 -0
package/dist/lib/{insight → service}/utils.js +7 -7
package/dist/lib/service/utils.js.map +1 -0
package/dist/lib/task-runner.js +301 -0
package/dist/lib/task-runner.js.map +1 -0
package/dist/lib/tree.js +13 -4
package/dist/lib/tree.js.map +1 -1
package/dist/lib/types.js +31 -12
package/dist/lib/types.js.map +1 -1
package/dist/lib/utils.js +16 -17
package/dist/lib/utils.js.map +1 -1
package/dist/lib/yaml/builder.js +2 -2
package/dist/lib/yaml/builder.js.map +1 -1
package/dist/lib/yaml/index.js +16 -22
package/dist/lib/yaml/index.js.map +1 -1
package/dist/lib/yaml/player.js +123 -100
package/dist/lib/yaml/player.js.map +1 -1
package/dist/lib/yaml/utils.js +6 -6
package/dist/lib/yaml/utils.js.map +1 -1
package/dist/lib/yaml.js +1 -1
package/dist/lib/yaml.js.map +1 -1
package/dist/types/agent/agent.d.ts +62 -17
package/dist/types/agent/execution-session.d.ts +36 -0
package/dist/types/agent/index.d.ts +3 -2
package/dist/types/agent/task-builder.d.ts +35 -0
package/dist/types/agent/tasks.d.ts +32 -23
package/dist/types/agent/ui-utils.d.ts +9 -2
package/dist/types/agent/utils.d.ts +9 -35
package/dist/types/ai-model/conversation-history.d.ts +8 -4
package/dist/types/ai-model/index.d.ts +5 -5
package/dist/types/ai-model/inspect.d.ts +20 -12
package/dist/types/ai-model/llm-planning.d.ts +3 -1
package/dist/types/ai-model/prompt/llm-locator.d.ts +1 -6
package/dist/types/ai-model/prompt/llm-planning.d.ts +2 -3
package/dist/types/ai-model/prompt/llm-section-locator.d.ts +1 -3
package/dist/types/ai-model/prompt/order-sensitive-judge.d.ts +2 -0
package/dist/types/ai-model/prompt/util.d.ts +2 -34
package/dist/types/ai-model/service-caller/index.d.ts +2 -3
package/dist/types/ai-model/ui-tars-planning.d.ts +15 -2
package/dist/types/{ai-model/common.d.ts → common.d.ts} +6 -6
package/dist/types/device/device-options.d.ts +57 -0
package/dist/types/device/index.d.ts +55 -39
package/dist/types/index.d.ts +7 -6
package/dist/types/service/index.d.ts +26 -0
package/dist/types/service/utils.d.ts +2 -0
package/dist/types/task-runner.d.ts +49 -0
package/dist/types/tree.d.ts +4 -1
package/dist/types/types.d.ts +103 -66
package/dist/types/yaml/utils.d.ts +1 -1
package/dist/types/yaml.d.ts +68 -43
package/package.json +9 -12
package/dist/es/ai-model/action-executor.mjs +0 -129
package/dist/es/ai-model/action-executor.mjs.map +0 -1
package/dist/es/ai-model/common.mjs.map +0 -1
package/dist/es/insight/index.mjs.map +0 -1
package/dist/es/insight/utils.mjs.map +0 -1
package/dist/lib/ai-model/action-executor.js +0 -163
package/dist/lib/ai-model/action-executor.js.map +0 -1
package/dist/lib/ai-model/common.js.map +0 -1
package/dist/lib/insight/index.js.map +0 -1
package/dist/lib/insight/utils.js.map +0 -1
package/dist/types/ai-model/action-executor.d.ts +0 -19
package/dist/types/insight/index.d.ts +0 -31
package/dist/types/insight/utils.d.ts +0 -2

package/dist/es/ai-model/service-caller/index.mjs CHANGED Viewed

@@ -1,282 +1,207 @@
-import { AIResponseFormat } from "../../types.mjs";
-import { Anthropic } from "@anthropic-ai/sdk";
-import { DefaultAzureCredential, getBearerTokenProvider } from "@azure/identity";
-import { MIDSCENE_API_TYPE, MIDSCENE_LANGSMITH_DEBUG, OPENAI_MAX_TOKENS, globalConfigManager } from "@midscene/shared/env";
-import { parseBase64 } from "@midscene/shared/img";
+import { MIDSCENE_LANGFUSE_DEBUG, MIDSCENE_LANGSMITH_DEBUG, MIDSCENE_MODEL_MAX_TOKENS, OPENAI_MAX_TOKENS, globalConfigManager } from "@midscene/shared/env";
 import { getDebug } from "@midscene/shared/logger";
 import { assert, ifInBrowser } from "@midscene/shared/utils";
-import { HttpsProxyAgent } from "https-proxy-agent";
 import { jsonrepair } from "jsonrepair";
-import openai_0, { AzureOpenAI } from "openai";
-import { SocksProxyAgent } from "socks-proxy-agent";
-import { AIActionType } from "../common.mjs";
-import { assertSchema } from "../prompt/assertion.mjs";
-import { locatorSchema } from "../prompt/llm-locator.mjs";
-import { planSchema } from "../prompt/llm-planning.mjs";
+import openai_0 from "openai";
 async function createChatClient({ AIActionTypeValue, modelConfig }) {
-    const { socksProxy, httpProxy, modelName, openaiBaseURL, openaiApiKey, openaiExtraConfig, openaiUseAzureDeprecated, useAzureOpenai, azureOpenaiScope, azureOpenaiKey, azureOpenaiEndpoint, azureOpenaiApiVersion, azureOpenaiDeployment, azureExtraConfig, useAnthropicSdk, anthropicApiKey, modelDescription, uiTarsModelVersion: uiTarsVersion, vlMode } = modelConfig;
-    let openai;
+    const { socksProxy, httpProxy, modelName, openaiBaseURL, openaiApiKey, openaiExtraConfig, modelDescription, uiTarsModelVersion: uiTarsVersion, vlMode, createOpenAIClient, timeout } = modelConfig;
     let proxyAgent;
     const debugProxy = getDebug('ai:call:proxy');
+    const sanitizeProxyUrl = (url)=>{
+        try {
+            const parsed = new URL(url);
+            if (parsed.username) {
+                parsed.password = '****';
+                return parsed.href;
+            }
+            return url;
+        } catch  {
+            return url;
+        }
+    };
     if (httpProxy) {
-        debugProxy('using http proxy', httpProxy);
-        proxyAgent = new HttpsProxyAgent(httpProxy);
+        debugProxy('using http proxy', sanitizeProxyUrl(httpProxy));
+        if (ifInBrowser) console.warn('HTTP proxy is configured but not supported in browser environment');
+        else {
+            const moduleName = 'undici';
+            const { ProxyAgent } = await import(moduleName);
+            proxyAgent = new ProxyAgent({
+                uri: httpProxy
+            });
+        }
     } else if (socksProxy) {
-        debugProxy('using socks proxy', socksProxy);
-        proxyAgent = new SocksProxyAgent(socksProxy);
-    }
-    if (openaiUseAzureDeprecated) openai = new AzureOpenAI({
-        baseURL: openaiBaseURL,
-        apiKey: openaiApiKey,
-        httpAgent: proxyAgent,
-        ...openaiExtraConfig,
-        dangerouslyAllowBrowser: true
-    });
-    else if (useAzureOpenai) {
-        let tokenProvider;
-        if (azureOpenaiScope) {
-            assert(!ifInBrowser, 'Azure OpenAI is not supported in browser with Midscene.');
-            const credential = new DefaultAzureCredential();
-            tokenProvider = getBearerTokenProvider(credential, azureOpenaiScope);
-            openai = new AzureOpenAI({
-                azureADTokenProvider: tokenProvider,
-                endpoint: azureOpenaiEndpoint,
-                apiVersion: azureOpenaiApiVersion,
-                deployment: azureOpenaiDeployment,
-                ...openaiExtraConfig,
-                ...azureExtraConfig
+        debugProxy('using socks proxy', sanitizeProxyUrl(socksProxy));
+        if (ifInBrowser) console.warn('SOCKS proxy is configured but not supported in browser environment');
+        else try {
+            const moduleName = 'fetch-socks';
+            const { socksDispatcher } = await import(moduleName);
+            const proxyUrl = new URL(socksProxy);
+            if (!proxyUrl.hostname) throw new Error('SOCKS proxy URL must include a valid hostname');
+            const port = Number.parseInt(proxyUrl.port, 10);
+            if (!proxyUrl.port || Number.isNaN(port)) throw new Error('SOCKS proxy URL must include a valid port');
+            const protocol = proxyUrl.protocol.replace(':', '');
+            const socksType = 'socks4' === protocol ? 4 : 'socks5' === protocol ? 5 : 5;
+            proxyAgent = socksDispatcher({
+                type: socksType,
+                host: proxyUrl.hostname,
+                port,
+                ...proxyUrl.username ? {
+                    userId: decodeURIComponent(proxyUrl.username),
+                    password: decodeURIComponent(proxyUrl.password || '')
+                } : {}
             });
-        } else openai = new AzureOpenAI({
-            apiKey: azureOpenaiKey,
-            endpoint: azureOpenaiEndpoint,
-            apiVersion: azureOpenaiApiVersion,
-            deployment: azureOpenaiDeployment,
-            dangerouslyAllowBrowser: true,
-            ...openaiExtraConfig,
-            ...azureExtraConfig
-        });
-    } else if (!useAnthropicSdk) openai = new openai_0({
+            debugProxy('socks proxy configured successfully', {
+                type: socksType,
+                host: proxyUrl.hostname,
+                port: port
+            });
+        } catch (error) {
+            console.error('Failed to configure SOCKS proxy:', error);
+            throw new Error(`Invalid SOCKS proxy URL: ${socksProxy}. Expected format: socks4://host:port, socks5://host:port, or with authentication: socks5://user:pass@host:port`);
+        }
+    }
+    const openAIOptions = {
         baseURL: openaiBaseURL,
         apiKey: openaiApiKey,
-        httpAgent: proxyAgent,
+        ...proxyAgent ? {
+            fetchOptions: {
+                dispatcher: proxyAgent
+            }
+        } : {},
         ...openaiExtraConfig,
-        defaultHeaders: {
-            ...(null == openaiExtraConfig ? void 0 : openaiExtraConfig.defaultHeaders) || {},
-            [MIDSCENE_API_TYPE]: AIActionTypeValue.toString()
-        },
+        ...'number' == typeof timeout ? {
+            timeout
+        } : {},
         dangerouslyAllowBrowser: true
-    });
+    };
+    const baseOpenAI = new openai_0(openAIOptions);
+    let openai = baseOpenAI;
     if (openai && globalConfigManager.getEnvConfigInBoolean(MIDSCENE_LANGSMITH_DEBUG)) {
         if (ifInBrowser) throw new Error('langsmith is not supported in browser');
         console.log('DEBUGGING MODE: langsmith wrapper enabled');
-        const { wrapOpenAI } = await import("langsmith/wrappers");
+        const langsmithModule = 'langsmith/wrappers';
+        const { wrapOpenAI } = await import(langsmithModule);
         openai = wrapOpenAI(openai);
     }
-    if (void 0 !== openai) return {
+    if (openai && globalConfigManager.getEnvConfigInBoolean(MIDSCENE_LANGFUSE_DEBUG)) {
+        if (ifInBrowser) throw new Error('langfuse is not supported in browser');
+        console.log('DEBUGGING MODE: langfuse wrapper enabled');
+        const langfuseModule = 'langfuse';
+        const { observeOpenAI } = await import(langfuseModule);
+        openai = observeOpenAI(openai);
+    }
+    if (createOpenAIClient) {
+        const wrappedClient = await createOpenAIClient(baseOpenAI, openAIOptions);
+        if (wrappedClient) openai = wrappedClient;
+    }
+    return {
         completion: openai.chat.completions,
-        style: 'openai',
-        modelName,
-        modelDescription,
-        uiTarsVersion,
-        vlMode
-    };
-    if (useAnthropicSdk) openai = new Anthropic({
-        apiKey: anthropicApiKey,
-        httpAgent: proxyAgent,
-        dangerouslyAllowBrowser: true
-    });
-    if (void 0 !== openai && openai.messages) return {
-        completion: openai.messages,
-        style: 'anthropic',
         modelName,
         modelDescription,
         uiTarsVersion,
         vlMode
     };
-    throw new Error('Openai SDK or Anthropic SDK is not initialized');
 }
 async function callAI(messages, AIActionTypeValue, modelConfig, options) {
-    const { completion, style, modelName, modelDescription, uiTarsVersion, vlMode } = await createChatClient({
+    const { completion, modelName, modelDescription, uiTarsVersion, vlMode } = await createChatClient({
         AIActionTypeValue,
         modelConfig
     });
-    const responseFormat = getResponseFormat(modelName, AIActionTypeValue);
-    const maxTokens = globalConfigManager.getEnvConfigValue(OPENAI_MAX_TOKENS);
+    const maxTokens = globalConfigManager.getEnvConfigValue(MIDSCENE_MODEL_MAX_TOKENS) ?? globalConfigManager.getEnvConfigValue(OPENAI_MAX_TOKENS);
     const debugCall = getDebug('ai:call');
     const debugProfileStats = getDebug('ai:profile:stats');
     const debugProfileDetail = getDebug('ai:profile:detail');
     const startTime = Date.now();
-    const isStreaming = (null == options ? void 0 : options.stream) && (null == options ? void 0 : options.onChunk);
+    const isStreaming = options?.stream && options?.onChunk;
     let content;
     let accumulated = '';
     let usage;
     let timeCost;
+    const buildUsageInfo = (usageData)=>{
+        if (!usageData) return;
+        const cachedInputTokens = usageData?.prompt_tokens_details?.cached_tokens;
+        return {
+            prompt_tokens: usageData.prompt_tokens ?? 0,
+            completion_tokens: usageData.completion_tokens ?? 0,
+            total_tokens: usageData.total_tokens ?? 0,
+            cached_input: cachedInputTokens ?? 0,
+            time_cost: timeCost ?? 0,
+            model_name: modelName,
+            model_description: modelDescription,
+            intent: modelConfig.intent
+        };
+    };
     const commonConfig = {
-        temperature: 'vlm-ui-tars' === vlMode ? 0.0 : 0.1,
+        temperature: 'vlm-ui-tars' === vlMode ? 0.0 : void 0,
         stream: !!isStreaming,
-        max_tokens: 'number' == typeof maxTokens ? maxTokens : Number.parseInt(maxTokens || '2048', 10),
-        ...'qwen-vl' === vlMode || 'qwen3-vl' === vlMode ? {
+        max_tokens: 'number' == typeof maxTokens ? maxTokens : void 0,
+        ...'qwen2.5-vl' === vlMode ? {
             vl_high_resolution_images: true
         } : {}
     };
     try {
-        if ('openai' === style) {
-            debugCall(`sending ${isStreaming ? 'streaming ' : ''}request to ${modelName}`);
-            if (isStreaming) {
-                const stream = await completion.create({
-                    model: modelName,
-                    messages,
-                    response_format: responseFormat,
-                    ...commonConfig
-                }, {
-                    stream: true
-                });
-                for await (const chunk of stream){
-                    var _chunk_choices__delta, _chunk_choices_, _chunk_choices, _chunk_choices__delta1, _chunk_choices_1, _chunk_choices1, _chunk_choices_2, _chunk_choices2;
-                    const content = (null == (_chunk_choices = chunk.choices) ? void 0 : null == (_chunk_choices_ = _chunk_choices[0]) ? void 0 : null == (_chunk_choices__delta = _chunk_choices_.delta) ? void 0 : _chunk_choices__delta.content) || '';
-                    const reasoning_content = (null == (_chunk_choices1 = chunk.choices) ? void 0 : null == (_chunk_choices_1 = _chunk_choices1[0]) ? void 0 : null == (_chunk_choices__delta1 = _chunk_choices_1.delta) ? void 0 : _chunk_choices__delta1.reasoning_content) || '';
-                    if (chunk.usage) usage = chunk.usage;
-                    if (content || reasoning_content) {
-                        accumulated += content;
-                        const chunkData = {
-                            content,
-                            reasoning_content,
-                            accumulated,
-                            isComplete: false,
-                            usage: void 0
-                        };
-                        options.onChunk(chunkData);
-                    }
-                    if (null == (_chunk_choices2 = chunk.choices) ? void 0 : null == (_chunk_choices_2 = _chunk_choices2[0]) ? void 0 : _chunk_choices_2.finish_reason) {
-                        timeCost = Date.now() - startTime;
-                        if (!usage) {
-                            const estimatedTokens = Math.max(1, Math.floor(accumulated.length / 4));
-                            usage = {
-                                prompt_tokens: estimatedTokens,
-                                completion_tokens: estimatedTokens,
-                                total_tokens: 2 * estimatedTokens
-                            };
-                        }
-                        const finalChunk = {
-                            content: '',
-                            accumulated,
-                            reasoning_content: '',
-                            isComplete: true,
-                            usage: {
-                                prompt_tokens: usage.prompt_tokens ?? 0,
-                                completion_tokens: usage.completion_tokens ?? 0,
-                                total_tokens: usage.total_tokens ?? 0,
-                                time_cost: timeCost ?? 0,
-                                model_name: modelName,
-                                model_description: modelDescription,
-                                intent: modelConfig.intent
-                            }
-                        };
-                        options.onChunk(finalChunk);
-                        break;
-                    }
-                }
-                content = accumulated;
-                debugProfileStats(`streaming model, ${modelName}, mode, ${vlMode || 'default'}, cost-ms, ${timeCost}`);
-            } else {
-                var _result_usage, _result_usage1, _result_usage2;
-                const result = await completion.create({
-                    model: modelName,
-                    messages,
-                    response_format: responseFormat,
-                    ...commonConfig
-                });
-                timeCost = Date.now() - startTime;
-                debugProfileStats(`model, ${modelName}, mode, ${vlMode || 'default'}, ui-tars-version, ${uiTarsVersion}, prompt-tokens, ${(null == (_result_usage = result.usage) ? void 0 : _result_usage.prompt_tokens) || ''}, completion-tokens, ${(null == (_result_usage1 = result.usage) ? void 0 : _result_usage1.completion_tokens) || ''}, total-tokens, ${(null == (_result_usage2 = result.usage) ? void 0 : _result_usage2.total_tokens) || ''}, cost-ms, ${timeCost}, requestId, ${result._request_id || ''}`);
-                debugProfileDetail(`model usage detail: ${JSON.stringify(result.usage)}`);
-                assert(result.choices, `invalid response from LLM service: ${JSON.stringify(result)}`);
-                content = result.choices[0].message.content;
-                usage = result.usage;
-            }
-            debugCall(`response: ${content}`);
-            assert(content, 'empty content');
-        } else if ('anthropic' === style) {
-            const convertImageContent = (content)=>{
-                if ('image_url' === content.type) {
-                    const imgBase64 = content.image_url.url;
-                    assert(imgBase64, 'image_url is required');
-                    const { mimeType, body } = parseBase64(content.image_url.url);
-                    return {
-                        source: {
-                            type: 'base64',
-                            media_type: mimeType,
-                            data: body
-                        },
-                        type: 'image'
+        debugCall(`sending ${isStreaming ? 'streaming ' : ''}request to ${modelName}`);
+        if (isStreaming) {
+            const stream = await completion.create({
+                model: modelName,
+                messages,
+                ...commonConfig
+            }, {
+                stream: true
+            });
+            for await (const chunk of stream){
+                const content = chunk.choices?.[0]?.delta?.content || '';
+                const reasoning_content = chunk.choices?.[0]?.delta?.reasoning_content || '';
+                if (chunk.usage) usage = chunk.usage;
+                if (content || reasoning_content) {
+                    accumulated += content;
+                    const chunkData = {
+                        content,
+                        reasoning_content,
+                        accumulated,
+                        isComplete: false,
+                        usage: void 0
                     };
+                    options.onChunk(chunkData);
                 }
-                return content;
-            };
-            if (isStreaming) {
-                const stream = await completion.create({
-                    model: modelName,
-                    system: 'You are a versatile professional in software UI automation',
-                    messages: messages.map((m)=>({
-                            role: 'user',
-                            content: Array.isArray(m.content) ? m.content.map(convertImageContent) : m.content
-                        })),
-                    response_format: responseFormat,
-                    ...commonConfig
-                });
-                for await (const chunk of stream){
-                    var _chunk_delta;
-                    const content = (null == (_chunk_delta = chunk.delta) ? void 0 : _chunk_delta.text) || '';
-                    if (content) {
-                        accumulated += content;
-                        const chunkData = {
-                            content,
-                            accumulated,
-                            reasoning_content: '',
-                            isComplete: false,
-                            usage: void 0
-                        };
-                        options.onChunk(chunkData);
-                    }
-                    if ('message_stop' === chunk.type) {
-                        timeCost = Date.now() - startTime;
-                        const anthropicUsage = chunk.usage;
-                        const finalChunk = {
-                            content: '',
-                            accumulated,
-                            reasoning_content: '',
-                            isComplete: true,
-                            usage: anthropicUsage ? {
-                                prompt_tokens: anthropicUsage.input_tokens ?? 0,
-                                completion_tokens: anthropicUsage.output_tokens ?? 0,
-                                total_tokens: (anthropicUsage.input_tokens ?? 0) + (anthropicUsage.output_tokens ?? 0),
-                                time_cost: timeCost ?? 0,
-                                model_name: modelName,
-                                model_description: modelDescription,
-                                intent: modelConfig.intent
-                            } : void 0
+                if (chunk.choices?.[0]?.finish_reason) {
+                    timeCost = Date.now() - startTime;
+                    if (!usage) {
+                        const estimatedTokens = Math.max(1, Math.floor(accumulated.length / 4));
+                        usage = {
+                            prompt_tokens: estimatedTokens,
+                            completion_tokens: estimatedTokens,
+                            total_tokens: 2 * estimatedTokens
                         };
-                        options.onChunk(finalChunk);
-                        break;
                     }
+                    const finalChunk = {
+                        content: '',
+                        accumulated,
+                        reasoning_content: '',
+                        isComplete: true,
+                        usage: buildUsageInfo(usage)
+                    };
+                    options.onChunk(finalChunk);
+                    break;
                 }
-                content = accumulated;
-            } else {
-                const result = await completion.create({
-                    model: modelName,
-                    system: 'You are a versatile professional in software UI automation',
-                    messages: messages.map((m)=>({
-                            role: 'user',
-                            content: Array.isArray(m.content) ? m.content.map(convertImageContent) : m.content
-                        })),
-                    response_format: responseFormat,
-                    ...commonConfig
-                });
-                timeCost = Date.now() - startTime;
-                content = result.content[0].text;
-                usage = result.usage;
             }
-            assert(content, 'empty content');
+            content = accumulated;
+            debugProfileStats(`streaming model, ${modelName}, mode, ${vlMode || 'default'}, cost-ms, ${timeCost}`);
+        } else {
+            const result = await completion.create({
+                model: modelName,
+                messages,
+                ...commonConfig
+            });
+            timeCost = Date.now() - startTime;
+            debugProfileStats(`model, ${modelName}, mode, ${vlMode || 'default'}, ui-tars-version, ${uiTarsVersion}, prompt-tokens, ${result.usage?.prompt_tokens || ''}, completion-tokens, ${result.usage?.completion_tokens || ''}, total-tokens, ${result.usage?.total_tokens || ''}, cost-ms, ${timeCost}, requestId, ${result._request_id || ''}`);
+            debugProfileDetail(`model usage detail: ${JSON.stringify(result.usage)}`);
+            assert(result.choices, `invalid response from LLM service: ${JSON.stringify(result)}`);
+            content = result.choices[0].message.content;
+            usage = result.usage;
         }
+        debugCall(`response: ${content}`);
+        assert(content, 'empty content');
         if (isStreaming && !usage) {
             const estimatedTokens = Math.max(1, Math.floor((content || '').length / 4));
             usage = {
@@ -287,52 +212,17 @@ async function callAI(messages, AIActionTypeValue, modelConfig, options) {
         }
         return {
             content: content || '',
-            usage: usage ? {
-                prompt_tokens: usage.prompt_tokens ?? 0,
-                completion_tokens: usage.completion_tokens ?? 0,
-                total_tokens: usage.total_tokens ?? 0,
-                time_cost: timeCost ?? 0,
-                model_name: modelName,
-                model_description: modelDescription,
-                intent: modelConfig.intent
-            } : void 0,
+            usage: buildUsageInfo(usage),
             isStreamed: !!isStreaming
         };
     } catch (e) {
         console.error(' call AI error', e);
-        const newError = new Error(`failed to call ${isStreaming ? 'streaming ' : ''}AI model service: ${e.message}. Trouble shooting: https://midscenejs.com/model-provider.html`, {
+        const newError = new Error(`failed to call ${isStreaming ? 'streaming ' : ''}AI model service (${modelName}): ${e.message}. Trouble shooting: https://midscenejs.com/model-provider.html`, {
             cause: e
         });
         throw newError;
     }
 }
-const getResponseFormat = (modelName, AIActionTypeValue)=>{
-    let responseFormat;
-    if (modelName.includes('gpt-4')) switch(AIActionTypeValue){
-        case AIActionType.ASSERT:
-            responseFormat = assertSchema;
-            break;
-        case AIActionType.INSPECT_ELEMENT:
-            responseFormat = locatorSchema;
-            break;
-        case AIActionType.PLAN:
-            responseFormat = planSchema;
-            break;
-        case AIActionType.EXTRACT_DATA:
-        case AIActionType.DESCRIBE_ELEMENT:
-            responseFormat = {
-                type: AIResponseFormat.JSON
-            };
-            break;
-        case AIActionType.TEXT:
-            responseFormat = void 0;
-            break;
-    }
-    if ('gpt-4o-2024-05-13' === modelName && AIActionTypeValue !== AIActionType.TEXT) responseFormat = {
-        type: AIResponseFormat.JSON
-    };
-    return responseFormat;
-};
 async function callAIWithObjectResponse(messages, AIActionTypeValue, modelConfig) {
     const response = await callAI(messages, AIActionTypeValue, modelConfig);
     assert(response, 'empty response');
@@ -340,6 +230,7 @@ async function callAIWithObjectResponse(messages, AIActionTypeValue, modelConfig
     const jsonContent = safeParseJson(response.content, vlMode);
     return {
         content: jsonContent,
+        contentString: response.content,
         usage: response.usage
     };
 }
@@ -365,24 +256,41 @@ function preprocessDoubaoBboxJson(input) {
     if (input.includes('bbox')) while(/\d+\s+\d+/.test(input))input = input.replace(/(\d+)\s+(\d+)/g, '$1,$2');
     return input;
 }
+function normalizeJsonObject(obj) {
+    if (null == obj) return obj;
+    if (Array.isArray(obj)) return obj.map((item)=>normalizeJsonObject(item));
+    if ('object' == typeof obj) {
+        const normalized = {};
+        for (const [key, value] of Object.entries(obj)){
+            const trimmedKey = key.trim();
+            let normalizedValue = normalizeJsonObject(value);
+            if ('string' == typeof normalizedValue) normalizedValue = normalizedValue.trim();
+            normalized[trimmedKey] = normalizedValue;
+        }
+        return normalized;
+    }
+    if ('string' == typeof obj) return obj.trim();
+    return obj;
+}
 function safeParseJson(input, vlMode) {
     const cleanJsonString = extractJSONFromCodeBlock(input);
-    if (null == cleanJsonString ? void 0 : cleanJsonString.match(/\((\d+),(\d+)\)/)) {
-        var _cleanJsonString_match;
-        return null == (_cleanJsonString_match = cleanJsonString.match(/\((\d+),(\d+)\)/)) ? void 0 : _cleanJsonString_match.slice(1).map(Number);
-    }
+    if (cleanJsonString?.match(/\((\d+),(\d+)\)/)) return cleanJsonString.match(/\((\d+),(\d+)\)/)?.slice(1).map(Number);
+    let parsed;
     try {
-        return JSON.parse(cleanJsonString);
+        parsed = JSON.parse(cleanJsonString);
+        return normalizeJsonObject(parsed);
     } catch  {}
     try {
-        return JSON.parse(jsonrepair(cleanJsonString));
+        parsed = JSON.parse(jsonrepair(cleanJsonString));
+        return normalizeJsonObject(parsed);
     } catch (e) {}
     if ('doubao-vision' === vlMode || 'vlm-ui-tars' === vlMode) {
         const jsonString = preprocessDoubaoBboxJson(cleanJsonString);
-        return JSON.parse(jsonrepair(jsonString));
+        parsed = JSON.parse(jsonrepair(jsonString));
+        return normalizeJsonObject(parsed);
     }
     throw Error(`failed to parse json response: ${input}`);
 }
-export { callAI, callAIWithObjectResponse, callAIWithStringResponse, extractJSONFromCodeBlock, getResponseFormat, preprocessDoubaoBboxJson, safeParseJson };
+export { callAI, callAIWithObjectResponse, callAIWithStringResponse, extractJSONFromCodeBlock, preprocessDoubaoBboxJson, safeParseJson };
 //# sourceMappingURL=index.mjs.map