npm - @midscene/core - Versions diffs - 0.28.11 → 0.28.12-beta-20250923080328.0 - Mend

@midscene/core 0.28.11 → 0.28.12-beta-20250923080328.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (32) hide show

package/dist/es/agent/agent.mjs +1 -1
package/dist/es/agent/agent.mjs.map +1 -1
package/dist/es/agent/tasks.mjs +19 -140
package/dist/es/agent/tasks.mjs.map +1 -1
package/dist/es/agent/utils.mjs +1 -1
package/dist/es/ai-model/conversation-history.mjs +58 -0
package/dist/es/ai-model/conversation-history.mjs.map +1 -0
package/dist/es/ai-model/index.mjs +2 -1
package/dist/es/ai-model/llm-planning.mjs +23 -3
package/dist/es/ai-model/llm-planning.mjs.map +1 -1
package/dist/es/ai-model/ui-tars-planning.mjs +26 -6
package/dist/es/ai-model/ui-tars-planning.mjs.map +1 -1
package/dist/es/utils.mjs +2 -2
package/dist/lib/agent/agent.js +1 -1
package/dist/lib/agent/agent.js.map +1 -1
package/dist/lib/agent/tasks.js +18 -139
package/dist/lib/agent/tasks.js.map +1 -1
package/dist/lib/agent/utils.js +1 -1
package/dist/lib/ai-model/conversation-history.js +92 -0
package/dist/lib/ai-model/conversation-history.js.map +1 -0
package/dist/lib/ai-model/index.js +6 -2
package/dist/lib/ai-model/llm-planning.js +23 -3
package/dist/lib/ai-model/llm-planning.js.map +1 -1
package/dist/lib/ai-model/ui-tars-planning.js +26 -6
package/dist/lib/ai-model/ui-tars-planning.js.map +1 -1
package/dist/lib/utils.js +2 -2
package/dist/types/agent/tasks.d.ts +3 -17
package/dist/types/ai-model/conversation-history.d.ts +18 -0
package/dist/types/ai-model/index.d.ts +1 -0
package/dist/types/ai-model/llm-planning.d.ts +2 -0
package/dist/types/ai-model/ui-tars-planning.d.ts +6 -18
package/package.json +3 -3

package/dist/types/agent/tasks.d.ts CHANGED Viewed

@@ -1,4 +1,3 @@
-import { type ChatCompletionMessageParam } from '../ai-model';
 import type { AbstractInterface } from '../device';
 import { type DetailedLocateParam, type ExecutionTaskApply, type ExecutionTaskProgressOptions, Executor, type Insight, type InsightExtractOption, type InsightExtractParam, type MidsceneYamlFlowItem, type PlanningAction, type PlanningActionParamWaitFor, type PlanningLocateParam, type TMultimodalPrompt, type TUserPrompt } from '../index';
 import { type IModelConfig } from '@midscene/shared/env';
@@ -13,7 +12,7 @@ export declare class TaskExecutor {
     interface: AbstractInterface;
     insight: Insight;
     taskCache?: TaskCache;
-    conversationHistory: ChatCompletionMessageParam[];
+    private conversationHistory;
     onTaskStartCallback?: ExecutionTaskProgressOptions['onTaskStart'];
     replanningCycleLimit?: number;
     get page(): AbstractInterface;
@@ -32,28 +31,15 @@ export declare class TaskExecutor {
     loadYamlFlowAsPlanning(userInstruction: string, yamlString: string): Promise<{
         executor: Executor;
     }>;
-    private planningTaskFromPrompt;
-    private planningTaskToGoal;
+    private createPlanningTask;
     runPlans(title: string, plans: PlanningAction[], modelConfig: IModelConfig): Promise<ExecutionResult>;
+    private getReplanningCycleLimit;
     action(userPrompt: string, modelConfig: IModelConfig, actionContext?: string): Promise<ExecutionResult<{
         yamlFlow?: MidsceneYamlFlowItem[];
     } | undefined>>;
-    actionToGoal(userPrompt: string, modelConfig: IModelConfig): Promise<ExecutionResult<{
-        yamlFlow?: MidsceneYamlFlowItem[];
-    } | undefined>>;
     private createTypeQueryTask;
     createTypeQueryExecution<T>(type: 'Query' | 'Boolean' | 'Number' | 'String' | 'Assert', demand: InsightExtractParam, modelConfig: IModelConfig, opt?: InsightExtractOption, multimodalPrompt?: TMultimodalPrompt): Promise<ExecutionResult<T>>;
     assert(assertion: TUserPrompt, modelConfig: IModelConfig, opt?: InsightExtractOption): Promise<ExecutionResult<boolean>>;
-    /**
-     * Append a message to the conversation history
-     * For user messages with images:
-     * - Keep max 4 user image messages in history
-     * - Remove oldest user image message when limit reached
-     * For assistant messages:
-     * - Simply append to history
-     * @param conversationHistory Message to append
-     */
-    private appendConversationHistory;
     private appendErrorPlan;
     waitFor(assertion: TUserPrompt, opt: PlanningActionParamWaitFor, modelConfig: IModelConfig): Promise<ExecutionResult<void>>;
 }

package/dist/types/ai-model/conversation-history.d.ts ADDED Viewed

@@ -0,0 +1,18 @@
+import type { ChatCompletionMessageParam } from 'openai/resources/index';
+export interface ConversationHistoryOptions {
+    maxUserImageMessages?: number;
+    initialMessages?: ChatCompletionMessageParam[];
+}
+export declare class ConversationHistory {
+    private readonly maxUserImageMessages;
+    private readonly messages;
+    constructor(options?: ConversationHistoryOptions);
+    append(message: ChatCompletionMessageParam): void;
+    seed(messages: ChatCompletionMessageParam[]): void;
+    reset(): void;
+    snapshot(): ChatCompletionMessageParam[];
+    get length(): number;
+    [Symbol.iterator](): IterableIterator<ChatCompletionMessageParam>;
+    toJSON(): ChatCompletionMessageParam[];
+    private pruneOldestUserMessageIfNecessary;
+}

package/dist/types/ai-model/index.d.ts CHANGED Viewed

@@ -8,5 +8,6 @@ export { AiLocateElement, AiExtractElementInfo, AiLocateSection, } from './inspe
 export { plan } from './llm-planning';
 export { adaptBboxToRect } from './common';
 export { vlmPlanning, resizeImageForUiTars } from './ui-tars-planning';
+export { ConversationHistory, type ConversationHistoryOptions, } from './conversation-history';
 export { AIActionType, type AIArgs } from './common';
 export { getMidsceneLocationSchema, type MidsceneLocationResultType, PointSchema, SizeSchema, RectSchema, TMultimodalPromptSchema, TUserPromptSchema, type TMultimodalPrompt, type TUserPrompt, findAllMidsceneLocatorField, dumpActionParam, loadActionParam, } from './common';

package/dist/types/ai-model/llm-planning.d.ts CHANGED Viewed

@@ -1,5 +1,6 @@
 import type { DeviceAction, InterfaceType, PlanningAIResponse, UIContext } from '../types';
 import type { IModelConfig } from '@midscene/shared/env';
+import type { ConversationHistory } from './conversation-history';
 export declare function plan(userInstruction: string, opts: {
     context: UIContext;
     interfaceType: InterfaceType;
@@ -7,4 +8,5 @@ export declare function plan(userInstruction: string, opts: {
     log?: string;
     actionContext?: string;
     modelConfig: IModelConfig;
+    conversationHistory?: ConversationHistory;
 }): Promise<PlanningAIResponse>;

package/dist/types/ai-model/ui-tars-planning.d.ts CHANGED Viewed

@@ -1,24 +1,12 @@
-import type { AIUsageInfo, MidsceneYamlFlowItem, PlanningAction, Size } from '../types';
+import type { PlanningAIResponse, Size, UIContext } from '../types';
 import { type IModelConfig, UITarsModelVersion } from '@midscene/shared/env';
-import { actionParser } from '@ui-tars/action-parser';
-import type { ChatCompletionMessageParam } from 'openai/resources/index';
+import type { ConversationHistory } from './conversation-history';
 type ActionType = 'click' | 'drag' | 'type' | 'hotkey' | 'finished' | 'scroll' | 'wait';
-export declare function vlmPlanning(options: {
-    userInstruction: string;
-    conversationHistory: ChatCompletionMessageParam[];
-    size: {
-        width: number;
-        height: number;
-    };
+export declare function vlmPlanning(userInstruction: string, options: {
+    conversationHistory: ConversationHistory;
+    context: UIContext;
     modelConfig: IModelConfig;
-}): Promise<{
-    actions: PlanningAction<any>[];
-    actionsFromModel: ReturnType<typeof actionParser>['parsed'];
-    action_summary: string;
-    yamlFlow?: MidsceneYamlFlowItem[];
-    usage?: AIUsageInfo;
-    rawResponse?: string;
-}>;
+}): Promise<PlanningAIResponse>;
 interface BaseAction {
     action_type: ActionType;
     action_inputs: Record<string, any>;

package/package.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "name": "@midscene/core",
   "description": "Automate browser actions, extract data, and perform assertions using AI. It offers JavaScript SDK, Chrome extension, and support for scripting in YAML. See https://midscenejs.com/ for details.",
-  "version": "0.28.11",
+  "version": "0.28.12-beta-20250923080328.0",
   "repository": "https://github.com/web-infra-dev/midscene",
   "homepage": "https://midscenejs.com/",
   "main": "./dist/lib/index.js",
@@ -87,8 +87,8 @@
     "zod": "3.24.3",
     "semver": "7.5.2",
     "js-yaml": "4.1.0",
-    "@midscene/recorder": "0.28.11",
-    "@midscene/shared": "0.28.11"
+    "@midscene/recorder": "0.28.12-beta-20250923080328.0",
+    "@midscene/shared": "0.28.12-beta-20250923080328.0"
   },
   "devDependencies": {
     "@microsoft/api-extractor": "^7.52.10",