npm - @midscene/core - Versions diffs - 0.30.10 → 1.0.0 - Mend

@midscene/core 0.30.10 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (203) hide show

package/dist/es/agent/agent.mjs +233 -144
package/dist/es/agent/agent.mjs.map +1 -1
package/dist/es/agent/execution-session.mjs +41 -0
package/dist/es/agent/execution-session.mjs.map +1 -0
package/dist/es/agent/index.mjs +3 -3
package/dist/es/agent/task-builder.mjs +319 -0
package/dist/es/agent/task-builder.mjs.map +1 -0
package/dist/es/agent/task-cache.mjs +4 -4
package/dist/es/agent/task-cache.mjs.map +1 -1
package/dist/es/agent/tasks.mjs +197 -504
package/dist/es/agent/tasks.mjs.map +1 -1
package/dist/es/agent/ui-utils.mjs +54 -35
package/dist/es/agent/ui-utils.mjs.map +1 -1
package/dist/es/agent/utils.mjs +16 -58
package/dist/es/agent/utils.mjs.map +1 -1
package/dist/es/ai-model/conversation-history.mjs +25 -13
package/dist/es/ai-model/conversation-history.mjs.map +1 -1
package/dist/es/ai-model/index.mjs +4 -4
package/dist/es/ai-model/inspect.mjs +45 -54
package/dist/es/ai-model/inspect.mjs.map +1 -1
package/dist/es/ai-model/llm-planning.mjs +47 -65
package/dist/es/ai-model/llm-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/assertion.mjs.map +1 -1
package/dist/es/ai-model/prompt/common.mjs.map +1 -1
package/dist/es/ai-model/prompt/describe.mjs.map +1 -1
package/dist/es/ai-model/prompt/extraction.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-locator.mjs +11 -235
package/dist/es/ai-model/prompt/llm-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-planning.mjs +76 -322
package/dist/es/ai-model/prompt/llm-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/llm-section-locator.mjs +15 -14
package/dist/es/ai-model/prompt/llm-section-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/order-sensitive-judge.mjs +35 -0
package/dist/es/ai-model/prompt/order-sensitive-judge.mjs.map +1 -0
package/dist/es/ai-model/prompt/playwright-generator.mjs +2 -2
package/dist/es/ai-model/prompt/playwright-generator.mjs.map +1 -1
package/dist/es/ai-model/prompt/ui-tars-locator.mjs.map +1 -1
package/dist/es/ai-model/prompt/ui-tars-planning.mjs.map +1 -1
package/dist/es/ai-model/prompt/util.mjs +3 -88
package/dist/es/ai-model/prompt/util.mjs.map +1 -1
package/dist/es/ai-model/prompt/yaml-generator.mjs +10 -10
package/dist/es/ai-model/prompt/yaml-generator.mjs.map +1 -1
package/dist/es/ai-model/service-caller/index.mjs +182 -274
package/dist/es/ai-model/service-caller/index.mjs.map +1 -1
package/dist/es/ai-model/ui-tars-planning.mjs +69 -8
package/dist/es/ai-model/ui-tars-planning.mjs.map +1 -1
package/dist/es/{ai-model/common.mjs → common.mjs} +18 -30
package/dist/es/common.mjs.map +1 -0
package/dist/es/device/device-options.mjs +0 -0
package/dist/es/device/index.mjs +29 -12
package/dist/es/device/index.mjs.map +1 -1
package/dist/es/index.mjs +5 -4
package/dist/es/index.mjs.map +1 -1
package/dist/es/report.mjs.map +1 -1
package/dist/es/{insight → service}/index.mjs +38 -51
package/dist/es/service/index.mjs.map +1 -0
package/dist/es/{insight → service}/utils.mjs +3 -3
package/dist/es/service/utils.mjs.map +1 -0
package/dist/es/task-runner.mjs +264 -0
package/dist/es/task-runner.mjs.map +1 -0
package/dist/es/tree.mjs +13 -2
package/dist/es/tree.mjs.map +1 -0
package/dist/es/types.mjs +18 -1
package/dist/es/types.mjs.map +1 -1
package/dist/es/utils.mjs +6 -7
package/dist/es/utils.mjs.map +1 -1
package/dist/es/yaml/builder.mjs.map +1 -1
package/dist/es/yaml/player.mjs +121 -98
package/dist/es/yaml/player.mjs.map +1 -1
package/dist/es/yaml/utils.mjs +1 -1
package/dist/es/yaml/utils.mjs.map +1 -1
package/dist/lib/agent/agent.js +231 -142
package/dist/lib/agent/agent.js.map +1 -1
package/dist/lib/agent/common.js +1 -1
package/dist/lib/agent/execution-session.js +75 -0
package/dist/lib/agent/execution-session.js.map +1 -0
package/dist/lib/agent/index.js +14 -14
package/dist/lib/agent/index.js.map +1 -1
package/dist/lib/agent/task-builder.js +356 -0
package/dist/lib/agent/task-builder.js.map +1 -0
package/dist/lib/agent/task-cache.js +8 -8
package/dist/lib/agent/task-cache.js.map +1 -1
package/dist/lib/agent/tasks.js +202 -506
package/dist/lib/agent/tasks.js.map +1 -1
package/dist/lib/agent/ui-utils.js +58 -36
package/dist/lib/agent/ui-utils.js.map +1 -1
package/dist/lib/agent/utils.js +26 -68
package/dist/lib/agent/utils.js.map +1 -1
package/dist/lib/ai-model/conversation-history.js +27 -15
package/dist/lib/ai-model/conversation-history.js.map +1 -1
package/dist/lib/ai-model/index.js +27 -27
package/dist/lib/ai-model/index.js.map +1 -1
package/dist/lib/ai-model/inspect.js +51 -57
package/dist/lib/ai-model/inspect.js.map +1 -1
package/dist/lib/ai-model/llm-planning.js +49 -67
package/dist/lib/ai-model/llm-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/assertion.js +2 -2
package/dist/lib/ai-model/prompt/assertion.js.map +1 -1
package/dist/lib/ai-model/prompt/common.js +2 -2
package/dist/lib/ai-model/prompt/common.js.map +1 -1
package/dist/lib/ai-model/prompt/describe.js +2 -2
package/dist/lib/ai-model/prompt/describe.js.map +1 -1
package/dist/lib/ai-model/prompt/extraction.js +2 -2
package/dist/lib/ai-model/prompt/extraction.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-locator.js +14 -241
package/dist/lib/ai-model/prompt/llm-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-planning.js +79 -328
package/dist/lib/ai-model/prompt/llm-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/llm-section-locator.js +17 -16
package/dist/lib/ai-model/prompt/llm-section-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/order-sensitive-judge.js +72 -0
package/dist/lib/ai-model/prompt/order-sensitive-judge.js.map +1 -0
package/dist/lib/ai-model/prompt/playwright-generator.js +11 -11
package/dist/lib/ai-model/prompt/playwright-generator.js.map +1 -1
package/dist/lib/ai-model/prompt/ui-tars-locator.js +2 -2
package/dist/lib/ai-model/prompt/ui-tars-locator.js.map +1 -1
package/dist/lib/ai-model/prompt/ui-tars-planning.js +2 -2
package/dist/lib/ai-model/prompt/ui-tars-planning.js.map +1 -1
package/dist/lib/ai-model/prompt/util.js +7 -95
package/dist/lib/ai-model/prompt/util.js.map +1 -1
package/dist/lib/ai-model/prompt/yaml-generator.js +18 -18
package/dist/lib/ai-model/prompt/yaml-generator.js.map +1 -1
package/dist/lib/ai-model/service-caller/index.js +288 -401
package/dist/lib/ai-model/service-caller/index.js.map +1 -1
package/dist/lib/ai-model/ui-tars-planning.js +71 -10
package/dist/lib/ai-model/ui-tars-planning.js.map +1 -1
package/dist/lib/{ai-model/common.js → common.js} +40 -55
package/dist/lib/common.js.map +1 -0
package/dist/lib/device/device-options.js +20 -0
package/dist/lib/device/device-options.js.map +1 -0
package/dist/lib/device/index.js +63 -40
package/dist/lib/device/index.js.map +1 -1
package/dist/lib/image/index.js +5 -5
package/dist/lib/image/index.js.map +1 -1
package/dist/lib/index.js +24 -20
package/dist/lib/index.js.map +1 -1
package/dist/lib/report.js +2 -2
package/dist/lib/report.js.map +1 -1
package/dist/lib/{insight → service}/index.js +41 -54
package/dist/lib/service/index.js.map +1 -0
package/dist/lib/{insight → service}/utils.js +7 -7
package/dist/lib/service/utils.js.map +1 -0
package/dist/lib/task-runner.js +301 -0
package/dist/lib/task-runner.js.map +1 -0
package/dist/lib/tree.js +13 -4
package/dist/lib/tree.js.map +1 -1
package/dist/lib/types.js +31 -12
package/dist/lib/types.js.map +1 -1
package/dist/lib/utils.js +16 -17
package/dist/lib/utils.js.map +1 -1
package/dist/lib/yaml/builder.js +2 -2
package/dist/lib/yaml/builder.js.map +1 -1
package/dist/lib/yaml/index.js +16 -22
package/dist/lib/yaml/index.js.map +1 -1
package/dist/lib/yaml/player.js +123 -100
package/dist/lib/yaml/player.js.map +1 -1
package/dist/lib/yaml/utils.js +6 -6
package/dist/lib/yaml/utils.js.map +1 -1
package/dist/lib/yaml.js +1 -1
package/dist/lib/yaml.js.map +1 -1
package/dist/types/agent/agent.d.ts +62 -17
package/dist/types/agent/execution-session.d.ts +36 -0
package/dist/types/agent/index.d.ts +3 -2
package/dist/types/agent/task-builder.d.ts +35 -0
package/dist/types/agent/tasks.d.ts +32 -23
package/dist/types/agent/ui-utils.d.ts +9 -2
package/dist/types/agent/utils.d.ts +9 -35
package/dist/types/ai-model/conversation-history.d.ts +8 -4
package/dist/types/ai-model/index.d.ts +5 -5
package/dist/types/ai-model/inspect.d.ts +20 -12
package/dist/types/ai-model/llm-planning.d.ts +3 -1
package/dist/types/ai-model/prompt/llm-locator.d.ts +1 -6
package/dist/types/ai-model/prompt/llm-planning.d.ts +2 -3
package/dist/types/ai-model/prompt/llm-section-locator.d.ts +1 -3
package/dist/types/ai-model/prompt/order-sensitive-judge.d.ts +2 -0
package/dist/types/ai-model/prompt/util.d.ts +2 -34
package/dist/types/ai-model/service-caller/index.d.ts +2 -3
package/dist/types/ai-model/ui-tars-planning.d.ts +15 -2
package/dist/types/{ai-model/common.d.ts → common.d.ts} +6 -6
package/dist/types/device/device-options.d.ts +57 -0
package/dist/types/device/index.d.ts +55 -39
package/dist/types/index.d.ts +7 -6
package/dist/types/service/index.d.ts +26 -0
package/dist/types/service/utils.d.ts +2 -0
package/dist/types/task-runner.d.ts +49 -0
package/dist/types/tree.d.ts +4 -1
package/dist/types/types.d.ts +103 -66
package/dist/types/yaml/utils.d.ts +1 -1
package/dist/types/yaml.d.ts +68 -43
package/package.json +9 -12
package/dist/es/ai-model/action-executor.mjs +0 -129
package/dist/es/ai-model/action-executor.mjs.map +0 -1
package/dist/es/ai-model/common.mjs.map +0 -1
package/dist/es/insight/index.mjs.map +0 -1
package/dist/es/insight/utils.mjs.map +0 -1
package/dist/lib/ai-model/action-executor.js +0 -163
package/dist/lib/ai-model/action-executor.js.map +0 -1
package/dist/lib/ai-model/common.js.map +0 -1
package/dist/lib/insight/index.js.map +0 -1
package/dist/lib/insight/utils.js.map +0 -1
package/dist/types/ai-model/action-executor.d.ts +0 -19
package/dist/types/insight/index.d.ts +0 -31
package/dist/types/insight/utils.d.ts +0 -2

package/dist/types/types.d.ts CHANGED Viewed

@@ -1,8 +1,8 @@
 import type { NodeType } from '@midscene/shared/constants';
-import type { TModelConfigFn } from '@midscene/shared/env';
-import type { BaseElement, ElementTreeNode, Rect, Size } from '@midscene/shared/types';
+import type { CreateOpenAIClientFn, TModelConfig } from '@midscene/shared/env';
+import type { BaseElement, LocateResultElement, Rect, Size } from '@midscene/shared/types';
 import type { z } from 'zod';
-import type { TUserPrompt } from './ai-model/common';
+import type { TUserPrompt } from './common';
 import type { DetailedLocateParam, MidsceneYamlFlowItem } from './yaml';
 export type { ElementTreeNode, BaseElement, Rect, Size, Point, } from '@midscene/shared/types';
 export * from './yaml';
@@ -10,11 +10,13 @@ export type AIUsageInfo = Record<string, any> & {
     prompt_tokens: number | undefined;
     completion_tokens: number | undefined;
     total_tokens: number | undefined;
+    cached_input: number | undefined;
     time_cost: number | undefined;
     model_name: string | undefined;
     model_description: string | undefined;
     intent: string | undefined;
 };
+export type { LocateResultElement };
 /**
  * openai
  *
@@ -39,23 +41,11 @@ export type AISingleElementResponseByPosition = {
     text: string;
 };
 export type AISingleElementResponse = AISingleElementResponseById;
-export interface AIElementLocatorResponse {
-    elements: {
-        id: string;
-        reason?: string;
-        text?: string;
-        xpaths?: string[];
-    }[];
-    bbox?: [number, number, number, number];
-    isOrderSensitive?: boolean;
-    errors?: string[];
-}
 export interface AIElementCoordinatesResponse {
     bbox: [number, number, number, number];
-    isOrderSensitive?: boolean;
     errors?: string[];
 }
-export type AIElementResponse = AIElementLocatorResponse | AIElementCoordinatesResponse;
+export type AIElementResponse = AIElementCoordinatesResponse;
 export interface AIDataExtractionResponse<DataDemand> {
     data: DataDemand;
     errors?: string[];
@@ -91,35 +81,23 @@ export interface AgentDescribeElementAtPointResult {
 /**
  * context
  */
-export declare abstract class UIContext<ElementType extends BaseElement = BaseElement> {
+export declare abstract class UIContext {
     abstract screenshotBase64: string;
-    abstract tree: ElementTreeNode<ElementType>;
     abstract size: Size;
     abstract _isFrozen?: boolean;
 }
 export type EnsureObject<T> = {
     [K in keyof T]: any;
 };
-export type InsightAction = 'locate' | 'extract' | 'assert' | 'describe';
-export type InsightExtractParam = string | Record<string, string>;
+export type ServiceAction = 'locate' | 'extract' | 'assert' | 'describe';
+export type ServiceExtractParam = string | Record<string, string>;
 export type ElementCacheFeature = Record<string, unknown>;
-export type LocateResultElement = {
-    center: [number, number];
-    rect: Rect;
-    id: string;
-    indexId?: number;
-    xpaths: string[];
-    attributes: {
-        nodeType: NodeType;
-        [key: string]: string;
-    };
-    isOrderSensitive?: boolean;
-};
 export interface LocateResult {
     element: LocateResultElement | null;
     rect?: Rect;
 }
-export interface InsightTaskInfo {
+export type ThinkingLevel = 'off' | 'medium' | 'high';
+export interface ServiceTaskInfo {
     durationMs: number;
     formatResponse?: string;
     rawResponse?: string;
@@ -135,26 +113,38 @@ export interface ReportDumpWithAttributes {
     dumpString: string;
     attributes?: Record<string, any>;
 }
-export interface InsightDump extends DumpMeta {
+export interface ServiceDump extends DumpMeta {
     type: 'locate' | 'extract' | 'assert';
     logId: string;
     userQuery: {
         element?: TUserPrompt;
-        dataDemand?: InsightExtractParam;
+        dataDemand?: ServiceExtractParam;
         assertion?: TUserPrompt;
     };
-    matchedElement: BaseElement[];
+    matchedElement: LocateResultElement[];
     matchedRect?: Rect;
     deepThink?: boolean;
     data: any;
     assertionPass?: boolean;
     assertionThought?: string;
-    taskInfo: InsightTaskInfo;
+    taskInfo: ServiceTaskInfo;
     error?: string;
     output?: any;
 }
-export type PartialInsightDumpFromSDK = Omit<InsightDump, 'logTime' | 'logId' | 'model_name'>;
-export type DumpSubscriber = (dump: InsightDump) => Promise<void> | void;
+export type PartialServiceDumpFromSDK = Omit<ServiceDump, 'logTime' | 'logId' | 'model_name'>;
+export interface ServiceResultBase {
+    dump: ServiceDump;
+}
+export type LocateResultWithDump = LocateResult & ServiceResultBase;
+export interface ServiceExtractResult<T> extends ServiceResultBase {
+    data: T;
+    thought?: string;
+    usage?: AIUsageInfo;
+}
+export declare class ServiceError extends Error {
+    dump: ServiceDump;
+    constructor(message: string, dump: ServiceDump);
+}
 export interface LiteUISection {
     name: string;
     description: string;
@@ -162,7 +152,7 @@ export interface LiteUISection {
     textIds: string[];
 }
 export type ElementById = (id: string) => BaseElement | null;
-export type InsightAssertionResponse = AIAssertionResponse & {
+export type ServiceAssertionResponse = AIAssertionResponse & {
     usage?: AIUsageInfo;
 };
 /**
@@ -172,6 +162,7 @@ export type OnTaskStartTip = (tip: string) => Promise<void> | void;
 export interface AgentWaitForOpt {
     checkIntervalMs?: number;
     timeoutMs?: number;
+    [key: string]: unknown;
 }
 export interface AgentAssertOpt {
     keepRawResponse?: boolean;
@@ -181,33 +172,27 @@ export interface AgentAssertOpt {
  *
  */
 export interface PlanningLocateParam extends DetailedLocateParam {
-    id?: string;
     bbox?: [number, number, number, number];
 }
 export interface PlanningAction<ParamType = any> {
     thought?: string;
     type: string;
     param: ParamType;
-    locate?: PlanningLocateParam | null;
 }
-export interface PlanningAIResponse {
-    action?: PlanningAction;
-    actions?: PlanningAction[];
+export interface RawResponsePlanningAIResponse {
+    action: PlanningAction;
     more_actions_needed_by_instruction: boolean;
     log: string;
     sleep?: number;
     error?: string;
+}
+export interface PlanningAIResponse extends Omit<RawResponsePlanningAIResponse, 'action'> {
+    actions?: PlanningAction[];
     usage?: AIUsageInfo;
     rawResponse?: string;
     yamlFlow?: MidsceneYamlFlowItem[];
     yamlString?: string;
-}
-export type PlanningActionParamTap = null;
-export type PlanningActionParamHover = null;
-export type PlanningActionParamRightClick = null;
-export interface PlanningActionParamInputOrKeyPress {
-    value: string;
-    autoDismissKeyboard?: boolean;
+    error?: string;
 }
 export interface PlanningActionParamSleep {
     timeMs: number;
@@ -216,10 +201,10 @@ export interface PlanningActionParamError {
     thought: string;
 }
 export type PlanningActionParamWaitFor = AgentWaitForOpt & {};
-export interface AndroidLongPressParam {
+export interface LongPressParam {
     duration?: number;
 }
-export interface AndroidPullParam {
+export interface PullParam {
     direction: 'up' | 'down';
     distance?: number;
     duration?: number;
@@ -247,17 +232,18 @@ export interface ExecutionRecorderItem {
     screenshot?: string;
     timing?: string;
 }
-export type ExecutionTaskType = 'Planning' | 'Insight' | 'Action' | 'Assertion' | 'Log';
+export type ExecutionTaskType = 'Planning' | 'Insight' | 'Action Space' | 'Log';
 export interface ExecutorContext {
     task: ExecutionTask;
     element?: LocateResultElement | null;
+    uiContext?: UIContext;
 }
 export interface ExecutionTaskApply<Type extends ExecutionTaskType = any, TaskParam = any, TaskOutput = any, TaskLog = any> {
     type: Type;
     subType?: string;
+    subTask?: boolean;
     param?: TaskParam;
     thought?: string;
-    locate?: PlanningLocateParam | null;
     uiContext?: UIContext;
     executor: (param: TaskParam, context: ExecutorContext) => Promise<ExecutionTaskReturn<TaskOutput, TaskLog> | undefined | void> | undefined | void;
 }
@@ -288,17 +274,17 @@ export interface ExecutionDump extends DumpMeta {
     name: string;
     description?: string;
     tasks: ExecutionTask[];
-    aiActionContext?: string;
+    aiActContext?: string;
 }
 export type ExecutionTaskInsightLocateParam = PlanningLocateParam;
 export interface ExecutionTaskInsightLocateOutput {
     element: LocateResultElement | null;
 }
-export type ExecutionTaskInsightDump = InsightDump;
+export type ExecutionTaskInsightDump = ServiceDump;
 export type ExecutionTaskInsightLocateApply = ExecutionTaskApply<'Insight', ExecutionTaskInsightLocateParam, ExecutionTaskInsightLocateOutput, ExecutionTaskInsightDump>;
 export type ExecutionTaskInsightLocate = ExecutionTask<ExecutionTaskInsightLocateApply>;
 export interface ExecutionTaskInsightQueryParam {
-    dataDemand: InsightExtractParam;
+    dataDemand: ServiceExtractParam;
 }
 export interface ExecutionTaskInsightQueryOutput {
     data: any;
@@ -308,9 +294,9 @@ export type ExecutionTaskInsightQuery = ExecutionTask<ExecutionTaskInsightQueryA
 export interface ExecutionTaskInsightAssertionParam {
     assertion: string;
 }
-export type ExecutionTaskInsightAssertionApply = ExecutionTaskApply<'Insight', ExecutionTaskInsightAssertionParam, InsightAssertionResponse, ExecutionTaskInsightDump>;
+export type ExecutionTaskInsightAssertionApply = ExecutionTaskApply<'Insight', ExecutionTaskInsightAssertionParam, ServiceAssertionResponse, ExecutionTaskInsightDump>;
 export type ExecutionTaskInsightAssertion = ExecutionTask<ExecutionTaskInsightAssertionApply>;
-export type ExecutionTaskActionApply<ActionParam = any> = ExecutionTaskApply<'Action', ActionParam, void, void>;
+export type ExecutionTaskActionApply<ActionParam = any> = ExecutionTaskApply<'Action Space', ActionParam, void, void>;
 export type ExecutionTaskAction = ExecutionTask<ExecutionTaskActionApply>;
 export type ExecutionTaskLogApply<LogParam = {
     content: string;
@@ -318,8 +304,16 @@ export type ExecutionTaskLogApply<LogParam = {
 export type ExecutionTaskLog = ExecutionTask<ExecutionTaskLogApply>;
 export type ExecutionTaskPlanningApply = ExecutionTaskApply<'Planning', {
     userInstruction: string;
+    aiActContext?: string;
 }, PlanningAIResponse>;
 export type ExecutionTaskPlanning = ExecutionTask<ExecutionTaskPlanningApply>;
+export type ExecutionTaskPlanningLocateParam = PlanningLocateParam;
+export interface ExecutionTaskPlanningLocateOutput {
+    element: LocateResultElement | null;
+}
+export type ExecutionTaskPlanningDump = ServiceDump;
+export type ExecutionTaskPlanningLocateApply = ExecutionTaskApply<'Planning', ExecutionTaskPlanningLocateParam, ExecutionTaskPlanningLocateOutput, ExecutionTaskPlanningDump>;
+export type ExecutionTaskPlanningLocate = ExecutionTask<ExecutionTaskPlanningLocateApply>;
 export interface GroupedActionDump {
     sdkVersion: string;
     groupName: string;
@@ -359,13 +353,25 @@ export interface StreamingAIResponse {
     /** Whether the response was streamed */
     isStreamed: boolean;
 }
-export interface DeviceAction<T = any> {
+export interface DeviceAction<TParam = any, TReturn = any> {
     name: string;
     description?: string;
     interfaceAlias?: string;
-    paramSchema?: z.ZodType<T>;
-    call: (param: T, context: ExecutorContext) => Promise<void> | void;
+    paramSchema?: z.ZodType<TParam>;
+    call: (param: TParam, context: ExecutorContext) => Promise<TReturn> | TReturn;
+    delayAfterRunner?: number;
 }
+/**
+ * Type utilities for extracting types from DeviceAction definitions
+ */
+/**
+ * Extract parameter type from a DeviceAction
+ */
+export type ActionParam<Action extends DeviceAction<any, any>> = Action extends DeviceAction<infer P, any> ? P : never;
+/**
+ * Extract return type from a DeviceAction
+ */
+export type ActionReturn<Action extends DeviceAction<any, any>> = Action extends DeviceAction<any, infer R> ? R : never;
 /**
  * Web-specific types
  */
@@ -376,7 +382,7 @@ export interface WebElementInfo extends BaseElement {
         [key: string]: string;
     };
 }
-export type WebUIContext = UIContext<WebElementInfo>;
+export type WebUIContext = UIContext;
 /**
  * Agent
  */
@@ -393,11 +399,42 @@ export interface AgentOpt {
     generateReport?: boolean;
     autoPrintReportMsg?: boolean;
     onTaskStartTip?: OnTaskStartTip;
+    aiActContext?: string;
     aiActionContext?: string;
     reportFileName?: string;
-    modelConfig?: TModelConfigFn;
+    modelConfig?: TModelConfig;
     cache?: Cache;
+    /**
+     * Maximum number of replanning cycles for aiAct.
+     * Defaults to 20 (40 for `vlm-ui-tars`) when not provided.
+     * If omitted, the agent will also read `MIDSCENE_REPLANNING_CYCLE_LIMIT` for backward compatibility.
+     */
     replanningCycleLimit?: number;
+    /**
+     * Custom OpenAI client factory function
+     *
+     * If provided, this function will be called to create OpenAI client instances
+     * for each AI call, allowing you to:
+     * - Wrap clients with observability tools (langsmith, langfuse)
+     * - Use custom OpenAI-compatible clients
+     * - Apply different configurations based on intent
+     *
+     * @param config - Resolved model configuration
+     * @returns OpenAI client instance (original or wrapped)
+     *
+     * @example
+     * ```typescript
+     * createOpenAIClient: async (openai, opts) => {
+     *   // Wrap with langsmith for planning tasks
+     *   if (opts.baseURL?.includes('planning')) {
+     *     return wrapOpenAI(openai, { metadata: { task: 'planning' } });
+     *   }
+     *
+     *   return openai;
+     * }
+     * ```
+     */
+    createOpenAIClient?: CreateOpenAIClientFn;
 }
 export type TestStatus = 'passed' | 'failed' | 'timedOut' | 'skipped' | 'interrupted';
 export interface ReportFileWithAttributes {

package/dist/types/yaml/utils.d.ts CHANGED Viewed

@@ -1,4 +1,4 @@
-import type { TUserPrompt } from '../ai-model/common';
+import type { TUserPrompt } from '../common';
 import type { DetailedLocateParam, LocateOption, MidsceneYamlScript } from '../types';
 export declare function interpolateEnvVars(content: string): string;
 export declare function parseYamlScript(content: string, filePath?: string): MidsceneYamlScript;

package/dist/types/yaml.d.ts CHANGED Viewed

@@ -1,17 +1,18 @@
-import type { TUserPrompt } from './ai-model/common';
-import type { AgentOpt, Rect } from './types';
-import type { BaseElement, UIContext } from './types';
+import type { TUserPrompt } from './common';
+import type { AndroidDeviceOpt, IOSDeviceOpt } from './device';
+import type { AgentOpt, LocateResultElement, Rect } from './types';
+import type { UIContext } from './types';
 export interface LocateOption {
     prompt?: TUserPrompt;
     deepThink?: boolean;
     cacheable?: boolean;
     xpath?: string;
-    uiContext?: UIContext<BaseElement>;
+    uiContext?: UIContext;
 }
-export interface InsightExtractOption {
+export interface ServiceExtractOption {
     domIncluded?: boolean | 'visible-only';
     screenshotIncluded?: boolean;
-    doNotThrowError?: boolean;
+    [key: string]: unknown;
 }
 export interface ReferenceImage {
     base64: string;
@@ -21,11 +22,13 @@ export interface DetailedLocateParam extends LocateOption {
     prompt: TUserPrompt;
     referenceImage?: ReferenceImage;
 }
-export interface ScrollParam {
-    direction: 'down' | 'up' | 'right' | 'left';
-    scrollType: 'once' | 'untilBottom' | 'untilTop' | 'untilRight' | 'untilLeft';
-    distance?: null | number;
-}
+export type ActionScrollParam = {
+    direction?: 'down' | 'up' | 'right' | 'left';
+    scrollType?: 'singleAction' | 'scrollToBottom' | 'scrollToTop' | 'scrollToRight' | 'scrollToLeft';
+    distance?: number | null;
+    locate?: LocateResultElement;
+};
+export type ScrollParam = Omit<ActionScrollParam, 'locate'>;
 export interface MidsceneYamlScript {
     target?: MidsceneYamlScriptWebEnv;
     web?: MidsceneYamlScriptWebEnv;
@@ -41,7 +44,30 @@ export interface MidsceneYamlTask {
     flow: MidsceneYamlFlowItem[];
     continueOnError?: boolean;
 }
-export type MidsceneYamlScriptAgentOpt = Pick<AgentOpt, 'aiActionContext' | 'cache'>;
+/**
+ * Agent configuration options that can be specified in YAML scripts.
+ *
+ * This type includes serializable fields from AgentOpt, excluding non-serializable
+ * fields like functions and complex objects. All fields are optional.
+ *
+ * @remarks
+ * - testId priority: CLI parameter > YAML agent.testId > filename
+ * - These settings apply to all platforms (Web, Android, iOS, Generic Interface)
+ * - modelConfig is configured through environment variables, not in YAML
+ *
+ * @example
+ * ```yaml
+ * agent:
+ *   testId: "checkout-test"
+ *   groupName: "E2E Test Suite"
+ *   generateReport: true
+ *   replanningCycleLimit: 30
+ *   cache:
+ *     id: "checkout-cache"
+ *     strategy: "read-write"
+ * ```
+ */
+export type MidsceneYamlScriptAgentOpt = Pick<AgentOpt, 'testId' | 'groupName' | 'groupDescription' | 'generateReport' | 'autoPrintReportMsg' | 'reportFileName' | 'replanningCycleLimit' | 'aiActContext' | 'aiActionContext' | 'cache'>;
 export interface MidsceneYamlScriptConfig {
     output?: string;
     unstableLogContent?: boolean | string;
@@ -65,58 +91,56 @@ export interface MidsceneYamlScriptWebEnv extends MidsceneYamlScriptConfig, Mids
     };
     cookie?: string;
     forceSameTabNavigation?: boolean;
+    /**
+     * Custom Chrome launch arguments (Puppeteer only, not supported in bridge mode).
+     *
+     * Allows passing custom command-line arguments to Chrome/Chromium when launching the browser.
+     * This is useful for testing scenarios that require specific browser configurations.
+     *
+     * ⚠️ Security Warning: Some arguments (e.g., --no-sandbox, --disable-web-security) may
+     * reduce browser security. Use only in controlled testing environments.
+     *
+     * @example
+     * ```yaml
+     * web:
+     *   url: https://example.com
+     *   chromeArgs:
+     *     - '--disable-features=ThirdPartyCookiePhaseout'
+     *     - '--disable-features=SameSiteByDefaultCookies'
+     *     - '--window-size=1920,1080'
+     * ```
+     */
+    chromeArgs?: string[];
     bridgeMode?: false | 'newTabWithUrl' | 'currentTab';
     closeNewTabsAfterDisconnect?: boolean;
 }
-export interface MidsceneYamlScriptAndroidEnv extends MidsceneYamlScriptConfig {
+export interface MidsceneYamlScriptAndroidEnv extends MidsceneYamlScriptConfig, Omit<AndroidDeviceOpt, 'customActions'> {
     deviceId?: string;
     launch?: string;
 }
-export interface MidsceneYamlScriptIOSEnv extends MidsceneYamlScriptConfig {
-    wdaPort?: number;
-    wdaHost?: string;
-    autoDismissKeyboard?: boolean;
+export interface MidsceneYamlScriptIOSEnv extends MidsceneYamlScriptConfig, Omit<IOSDeviceOpt, 'customActions'> {
     launch?: string;
 }
 export type MidsceneYamlScriptEnv = MidsceneYamlScriptWebEnv | MidsceneYamlScriptAndroidEnv | MidsceneYamlScriptIOSEnv;
 export interface MidsceneYamlFlowItemAIAction {
-    ai?: string;
     aiAction?: string;
+    ai?: string;
+    aiAct?: string;
     aiActionProgressTips?: string[];
     cacheable?: boolean;
+    _deepThink?: boolean;
+    [key: string]: unknown;
 }
 export interface MidsceneYamlFlowItemAIAssert {
     aiAssert: string;
     errorMessage?: string;
     name?: string;
-}
-export interface MidsceneYamlFlowItemAIQuery extends InsightExtractOption {
-    aiQuery: string;
-    name?: string;
-}
-export interface MidsceneYamlFlowItemAINumber extends InsightExtractOption {
-    aiNumber: string;
-    name?: string;
-}
-export interface MidsceneYamlFlowItemAIString extends InsightExtractOption {
-    aiString: string;
-    name?: string;
-}
-export interface MidsceneYamlFlowItemAIAsk extends InsightExtractOption {
-    aiAsk: string;
-    name?: string;
-}
-export interface MidsceneYamlFlowItemAIBoolean extends InsightExtractOption {
-    aiBoolean: string;
-    name?: string;
-}
-export interface MidsceneYamlFlowItemAILocate extends LocateOption {
-    aiLocate: string;
-    name?: string;
+    [key: string]: unknown;
 }
 export interface MidsceneYamlFlowItemAIWaitFor {
     aiWaitFor: string;
     timeout?: number;
+    [key: string]: unknown;
 }
 export interface MidsceneYamlFlowItemEvaluateJavaScript {
     javascript: string;
@@ -127,9 +151,10 @@ export interface MidsceneYamlFlowItemSleep {
 }
 export interface MidsceneYamlFlowItemLogScreenshot {
     logScreenshot?: string;
+    recordToReport?: string;
     content?: string;
 }
-export type MidsceneYamlFlowItem = MidsceneYamlFlowItemAIAction | MidsceneYamlFlowItemAIAssert | MidsceneYamlFlowItemAIQuery | MidsceneYamlFlowItemAIWaitFor | MidsceneYamlFlowItemSleep | MidsceneYamlFlowItemLogScreenshot;
+export type MidsceneYamlFlowItem = MidsceneYamlFlowItemAIAction | MidsceneYamlFlowItemAIAssert | MidsceneYamlFlowItemAIWaitFor | MidsceneYamlFlowItemEvaluateJavaScript | MidsceneYamlFlowItemSleep | MidsceneYamlFlowItemLogScreenshot;
 export interface FreeFn {
     name: string;
     fn: () => void;

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@midscene/core",
   "description": "Automate browser actions, extract data, and perform assertions using AI. It offers JavaScript SDK, Chrome extension, and support for scripting in YAML. See https://midscenejs.com/ for details.",
-  "version": "0.30.10",
+  "version": "1.0.0",
   "repository": "https://github.com/web-infra-dev/midscene",
   "homepage": "https://midscenejs.com/",
   "main": "./dist/lib/index.js",
@@ -79,23 +79,20 @@
     }
   },
   "dependencies": {
-    "@anthropic-ai/sdk": "0.33.1",
-    "@azure/identity": "4.5.0",
     "@ui-tars/action-parser": "1.2.3",
+    "dayjs": "^1.11.11",
     "dotenv": "^16.4.5",
-    "https-proxy-agent": "7.0.2",
+    "fetch-socks": "^1.3.0",
+    "openai": "6.3.0",
+    "undici": "^6.0.0",
     "jsonrepair": "3.12.0",
-    "langsmith": "0.3.7",
-    "openai": "4.81.0",
-    "socks-proxy-agent": "8.0.4",
-    "zod": "3.24.3",
     "semver": "7.5.2",
     "js-yaml": "4.1.0",
-    "@midscene/recorder": "0.30.10",
-    "@midscene/shared": "0.30.10"
+    "zod": "3.24.3",
+    "@midscene/shared": "1.0.0"
   },
   "devDependencies": {
-    "@rslib/core": "^0.11.2",
+    "@rslib/core": "^0.18.3",
     "@types/node": "^18.0.0",
     "@types/node-fetch": "2.6.11",
     "@types/js-yaml": "4.0.9",
@@ -114,7 +111,7 @@
   "scripts": {
     "dev": "npm run build:watch",
     "build": "rslib build",
-    "build:watch": "USE_DEV_REPORT=1 rslib build --watch",
+    "build:watch": "USE_DEV_REPORT=1 rslib build --watch --no-clean",
     "test": "vitest --run",
     "test:u": "vitest --run -u",
     "test:ai": "AITEST=true npm run test",