ms-vite-plugin 1.4.10 → 1.4.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
@@ -131,6 +131,32 @@ const screenResults = appleOcr.recognize("screen", 0, 0, 1920, 1080);
131
131
  logi(`屏幕识别结果: ${JSON.stringify(screenResults)}`);
132
132
  ```
133
133
 
134
+ #### recognizeAbs
135
+
136
+ 执行 OCR 识别,并将结果坐标映射为原图/全屏绝对坐标。
137
+
138
+ 参数与 `recognize` 相同。传入裁剪区域时,返回坐标可直接用于全屏点击。
139
+
140
+ ```typescript
141
+ function recognizeAbs(
142
+ input: string,
143
+ x?: number,
144
+ y?: number,
145
+ ex?: number,
146
+ ey?: number,
147
+ languages?: string[],
148
+ ): OCRResult[];
149
+ ```
150
+
151
+ **示例:**
152
+
153
+ ```javascript
154
+ const absResults = appleOcr.recognizeAbs("screen", 100, 100, 500, 300);
155
+ if (absResults.length > 0) {
156
+ action.click(absResults[0].centerX, absResults[0].centerY);
157
+ }
158
+ ```
159
+
134
160
  ### 数字识别
135
161
 
136
162
  #### recognizeNumbers
@@ -179,6 +205,31 @@ numberResults.forEach((result, index) => {
179
205
  });
180
206
  ```
181
207
 
208
+ #### recognizeNumbersAbs
209
+
210
+ 执行数字 OCR 识别,并将结果坐标映射为原图/全屏绝对坐标。
211
+
212
+ 参数与 `recognizeNumbers` 相同。传入裁剪区域时,返回坐标可直接用于全屏点击。
213
+
214
+ ```typescript
215
+ function recognizeNumbersAbs(
216
+ input: string,
217
+ x?: number,
218
+ y?: number,
219
+ ex?: number,
220
+ ey?: number,
221
+ ): OCRResult[];
222
+ ```
223
+
224
+ **示例:**
225
+
226
+ ```javascript
227
+ const absNumberResults = appleOcr.recognizeNumbersAbs("screen", 100, 100, 500, 300);
228
+ if (absNumberResults.length > 0) {
229
+ action.click(absNumberResults[0].centerX, absNumberResults[0].centerY);
230
+ }
231
+ ```
232
+
182
233
  ### 文本查找
183
234
 
184
235
  #### findText
@@ -227,3 +278,30 @@ textResults.forEach((result, index) => {
227
278
  logi(`中心点: (${result.centerX}, ${result.centerY})`);
228
279
  });
229
280
  ```
281
+
282
+ #### findTextAbs
283
+
284
+ 查找目标文本,并将结果坐标映射为原图/全屏绝对坐标。
285
+
286
+ 参数与 `findText` 相同。传入裁剪区域时,返回坐标可直接用于全屏点击。
287
+
288
+ ```typescript
289
+ function findTextAbs(
290
+ input: string,
291
+ texts: string[],
292
+ x?: number,
293
+ y?: number,
294
+ ex?: number,
295
+ ey?: number,
296
+ languages?: string[],
297
+ ): OCRResult[];
298
+ ```
299
+
300
+ **示例:**
301
+
302
+ ```javascript
303
+ const absHits = appleOcr.findTextAbs("screen", ["确定"], 100, 100, 500, 400);
304
+ if (absHits.length > 0) {
305
+ action.click(absHits[0].centerX, absHits[0].centerY);
306
+ }
307
+ ```
@@ -391,6 +391,55 @@ if (getCpuAutoThrottle()) {
391
391
  }
392
392
  ```
393
393
 
394
+ ### setCpuThrottleDelay
395
+
396
+ 设置 CPU 限流单次 sleep 延迟范围(毫秒)。默认 `minMs=3`、`maxMs=30`。仅在 CPU 自动限流开启且触发限流时生效。
397
+
398
+ ```typescript
399
+ function setCpuThrottleDelay(minMs: number, maxMs: number): { minMs: number; maxMs: number };
400
+ ```
401
+
402
+ **参数:**
403
+
404
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
405
+ | -------- | -------- | -------- | ------ | ---------------------------------- |
406
+ | `minMs` | `number` | 是 | - | 最低延迟(毫秒) |
407
+ | `maxMs` | `number` | 是 | - | 最高延迟(毫秒);小于 minMs 时自动对齐 |
408
+
409
+ **返回值:**
410
+
411
+ | 类型 | 描述 |
412
+ | --------------------------------- | -------------------- |
413
+ | `{ minMs: number; maxMs: number }` | 实际生效的延迟范围 |
414
+
415
+ **示例:**
416
+
417
+ ```javascript
418
+ const delay = setCpuThrottleDelay(3, 30);
419
+ logi(`CPU 限流延迟: ${delay.minMs}~${delay.maxMs}ms`);
420
+ ```
421
+
422
+ ### getCpuThrottleDelay
423
+
424
+ 获取 CPU 限流延迟范围(毫秒)。
425
+
426
+ ```typescript
427
+ function getCpuThrottleDelay(): { minMs: number; maxMs: number };
428
+ ```
429
+
430
+ **返回值:**
431
+
432
+ | 类型 | 描述 |
433
+ | --------------------------------- | ------------------ |
434
+ | `{ minMs: number; maxMs: number }` | 当前最低与最高延迟 |
435
+
436
+ **示例:**
437
+
438
+ ```javascript
439
+ const delay = getCpuThrottleDelay();
440
+ logi(`CPU 限流延迟: ${delay.minMs}~${delay.maxMs}ms`);
441
+ ```
442
+
394
443
  ### setStopCallback
395
444
 
396
445
  设置停止回调函数(仅主线程调用)。
package/docs/api/node.md CHANGED
@@ -20,6 +20,7 @@
20
20
  ```typescript
21
21
  function createNodeSelector(params?: {
22
22
  maxDepth?: number; // 最大层级深度,默认 50
23
+ mode?: number; // 抓取模式:模式 1、模式 2,默认模式 1
23
24
  }): NodeSelector;
24
25
  ```
25
26
 
@@ -28,6 +29,7 @@ function createNodeSelector(params?: {
28
29
  | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
29
30
  | ---------- | ------ | -------- | ------ | --------------------------- |
30
31
  | `maxDepth` | number | 否 | 50 | 遍历的最大层级深度,默认 50 |
32
+ | `mode` | number | 否 | 1 | 抓取模式。模式 1、模式 2,默认模式 1 |
31
33
 
32
34
  **返回值:**
33
35
 
@@ -41,6 +43,7 @@ function createNodeSelector(params?: {
41
43
  // 创建选择器
42
44
  const selector = createNodeSelector({
43
45
  maxDepth: 20, // 最大20层深度
46
+ mode: 1, // 默认模式 1
44
47
  });
45
48
  ```
46
49
 
@@ -64,20 +64,23 @@ interface OCRResult {
64
64
  #### loadV5 - 初始化 PP-OCRv5 模型,这是使用 OCR 功能的前提。
65
65
 
66
66
  ```typescript
67
- function loadV5(maxSideLen?: number): boolean;
67
+ function loadV5(maxSideLen?: number, useGpu?: boolean): boolean;
68
68
  ```
69
69
 
70
70
  **参数:**
71
71
 
72
- | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
73
- | ------------ | ------ | -------- | ------ | -------------------------------- |
74
- | `maxSideLen` | number | 否 | 640 | 输入图像的最大边长,默认值为 640 |
72
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
73
+ | ------------ | ------- | -------- | ------ | ----------------------------------- |
74
+ | `maxSideLen` | number | 否 | 640 | 输入图像的最大边长,默认值为 640 |
75
+ | `useGpu` | boolean | 否 | false | 是否启用 GPU 加速 |
75
76
 
76
77
  **返回值:**
77
78
 
78
- | 类型 | 描述 |
79
- | ------- | ---------------- |
80
- | boolean | 是否成功加载模型 |
79
+ | 类型 | 描述 |
80
+ | ------- | ------------------------------------------ |
81
+ | boolean | 加载成功或模型已加载返回 `true`,否则返回 `false` |
82
+
83
+ 重复调用 `loadV5` 时,如果模型已经加载,会直接返回 `true`,不会重新加载或应用新的参数。需要更换加载参数时,先调用 `free()` 释放模型。
81
84
 
82
85
  **示例:**
83
86
 
@@ -119,7 +122,7 @@ function recognize(
119
122
 
120
123
  | 类型 | 描述 |
121
124
  | ------------- | --------------------------------------------------------------------------------- |
122
- | `OCRResult[]` | 识别结果数组,每个元素为 OCRResult 对象,包含文本内容、位置信息和置信度等详细数据 |
125
+ | `OCRResult[]` | 识别结果数组,坐标相对于裁剪区域 |
123
126
 
124
127
  **示例:**
125
128
 
@@ -137,7 +140,7 @@ fullScreenResults.forEach((result, index) => {
137
140
  logi(`文本 ${index + 1}: ${JSON.stringify(result)}`);
138
141
  });
139
142
 
140
- // 识别屏幕指定区域
143
+ // 识别屏幕指定区域(返回相对裁剪区域的坐标)
141
144
  const regionResults = paddleOcr.recognize("screen", 100, 100, 500, 300);
142
145
  logi(`指定区域识别结果: ${JSON.stringify(regionResults)}`);
143
146
 
@@ -163,6 +166,30 @@ const urlResults = paddleOcr.recognize(
163
166
  logi(`网络图片识别结果: ${JSON.stringify(urlResults)}`);
164
167
  ```
165
168
 
169
+ #### recognizeAbs - 执行 OCR 识别,并将结果坐标映射为原图/全屏绝对坐标。
170
+
171
+ 参数与 `recognize` 相同。传入裁剪区域时,返回坐标可直接用于全屏点击。
172
+
173
+ ```typescript
174
+ function recognizeAbs(
175
+ input: string,
176
+ x?: number,
177
+ y?: number,
178
+ ex?: number,
179
+ ey?: number,
180
+ confidenceThreshold?: number,
181
+ ): OCRResult[];
182
+ ```
183
+
184
+ **示例:**
185
+
186
+ ```javascript
187
+ const absResults = paddleOcr.recognizeAbs("screen", 100, 100, 500, 300);
188
+ if (absResults.length > 0) {
189
+ action.click(absResults[0].centerX, absResults[0].centerY);
190
+ }
191
+ ```
192
+
166
193
  #### findText - 在识别结果中查找目标文本并返回对应子串坐标。
167
194
 
168
195
  ```typescript
@@ -193,7 +220,7 @@ function findText(
193
220
 
194
221
  | 类型 | 描述 |
195
222
  | ------------- | ----------------------------------------------------------------------------------------------------------- |
196
- | `OCRResult[]` | 匹配结果数组。每个元素为命中的文本片段坐标信息,`text` 字段为命中的目标文本,其他字段包含位置和置信度等信息 |
223
+ | `OCRResult[]` | 匹配结果数组,坐标相对于裁剪区域 |
197
224
 
198
225
  **示例:**
199
226
 
@@ -224,11 +251,36 @@ if (hitResults.length > 0) {
224
251
  logi("未命中目标文本");
225
252
  }
226
253
 
227
- // 在指定区域查找目标文本
254
+ // 在指定区域查找目标文本(返回相对裁剪区域的坐标)
228
255
  const regionHits = paddleOcr.findText("screen", ["下一步"], 100, 100, 500, 400);
229
256
  logi(`区域命中数量: ${regionHits.length}`);
230
257
  ```
231
258
 
259
+ #### findTextAbs - 查找目标文本,并将结果坐标映射为原图/全屏绝对坐标。
260
+
261
+ 参数与 `findText` 相同。传入裁剪区域时,返回坐标可直接用于全屏点击。
262
+
263
+ ```typescript
264
+ function findTextAbs(
265
+ input: string,
266
+ targetTexts: string[],
267
+ x?: number,
268
+ y?: number,
269
+ ex?: number,
270
+ ey?: number,
271
+ confidenceThreshold?: number,
272
+ ): OCRResult[];
273
+ ```
274
+
275
+ **示例:**
276
+
277
+ ```javascript
278
+ const absHits = paddleOcr.findTextAbs("screen", ["确定"], 100, 100, 500, 400, 0.6);
279
+ if (absHits.length > 0) {
280
+ action.click(absHits[0].centerX, absHits[0].centerY);
281
+ }
282
+ ```
283
+
232
284
  ### 资源管理
233
285
 
234
286
  #### free - 释放 OCR 模型占用的内存资源。
package/docs/api/yolo.md CHANGED
@@ -67,19 +67,21 @@ interface YoloResult {
67
67
  function load(
68
68
  paramPath: string,
69
69
  binPath: string,
70
- nc: number,
71
- version?: number
70
+ nc?: number,
71
+ version?: number,
72
+ useGpu?: boolean
72
73
  ): string | null;
73
74
  ```
74
75
 
75
76
  **参数:**
76
77
 
77
- | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
78
- | ----------- | ------ | -------- | ------ | ------------------------------------------- |
79
- | `paramPath` | string | 是 | | NCNN 模型的 param 文件绝对路径 |
80
- | `binPath` | string | 是 | | NCNN 模型的 bin 文件绝对路径 |
81
- | `nc` | number | | | 模型的标签数量,可在标签集 data.yaml 中查看 |
82
- | `version` | number | 否 | 11 | YOLO 模型版本号(仅支持 8/11/26) |
78
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
79
+ | ----------- | ------- | -------- | ------ | ------------------------------------------- |
80
+ | `paramPath` | string | 是 | | NCNN 模型的 param 文件绝对路径 |
81
+ | `binPath` | string | 是 | | NCNN 模型的 bin 文件绝对路径 |
82
+ | `nc` | number | | 0 | 模型的标签数量;传 `0` 或省略时根据模型输出自动推断,显式传入但不匹配时检测返回空数组 |
83
+ | `version` | number | 否 | 11 | YOLO 模型版本号(仅支持 8/11/26) |
84
+ | `useGpu` | boolean | 否 | false | 是否启用 GPU 加速 |
83
85
 
84
86
  **返回值:**
85
87
 
@@ -94,24 +96,26 @@ function load(
94
96
  const modelId = yolo.load(
95
97
  "yolov8n_ncnn_model/model.ncnn.param",
96
98
  "yolov8n_ncnn_model/model.ncnn.bin",
97
- 80,
98
- 8
99
+ 0,
100
+ 8,
101
+ false
99
102
  );
100
103
  ```
101
104
 
102
105
  #### loadV11 - 加载 YOLOv11 模型(兼容 yolov8 模型),这是使用目标检测功能的前提。
103
106
 
104
107
  ```typescript
105
- function loadV11(paramPath: string, binPath: string, nc: number): string | null;
108
+ function loadV11(paramPath: string, binPath: string, nc?: number, useGpu?: boolean): string | null;
106
109
  ```
107
110
 
108
111
  **参数:**
109
112
 
110
- | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
111
- | ----------- | ------ | -------- | ------ | ------------------------------------------- |
112
- | `paramPath` | string | 是 | | NCNN 模型的 param 文件绝对路径 |
113
- | `binPath` | string | 是 | | NCNN 模型的 bin 文件绝对路径 |
114
- | `nc` | number | | | 模型的标签数量,可在标签集 data.yaml 中查看 |
113
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
114
+ | ----------- | ------- | -------- | ------ | ------------------------------------------- |
115
+ | `paramPath` | string | 是 | | NCNN 模型的 param 文件绝对路径 |
116
+ | `binPath` | string | 是 | | NCNN 模型的 bin 文件绝对路径 |
117
+ | `nc` | number | | 0 | 模型的标签数量;传 `0` 或省略时根据模型输出自动推断,显式传入但不匹配时检测返回空数组 |
118
+ | `useGpu` | boolean | 否 | false | 是否启用 GPU 加速 |
115
119
 
116
120
  **返回值:**
117
121
 
@@ -127,7 +131,8 @@ function loadV11(paramPath: string, binPath: string, nc: number): string | null;
127
131
  const modelId = yolo.loadV11(
128
132
  "yolo11n_ncnn_model/model.ncnn.param",
129
133
  "yolo11n_ncnn_model/model.ncnn.bin",
130
- 80 // COCO 数据集有 80 个类别
134
+ 0, // 自动根据模型输出推断类别数量
135
+ false
131
136
  );
132
137
 
133
138
  if (modelId) {
@@ -175,7 +180,7 @@ function detect(
175
180
  const modelId = yolo.loadV11(
176
181
  "/yolo11n_ncnn_model/model.ncnn.param",
177
182
  "/yolo11n_ncnn_model/model.ncnn.bin",
178
- 80
183
+ 0
179
184
  );
180
185
 
181
186
  if (!modelId) {
@@ -261,6 +266,41 @@ const fastResults = yolo.detect(
261
266
  logi(`快速检测结果: ${fastResults.length} 个物体`);
262
267
  ```
263
268
 
269
+ #### detectAbs - 对指定区域执行目标检测,并将结果坐标映射为原图/全屏绝对坐标。
270
+
271
+ ```typescript
272
+ function detectAbs(
273
+ modelId: string,
274
+ img: string,
275
+ x?: number,
276
+ y?: number,
277
+ ex?: number,
278
+ ey?: number,
279
+ targetSize?: number,
280
+ threshold?: number,
281
+ nmsThreshold?: number
282
+ ): YoloResult[];
283
+ ```
284
+
285
+ **示例:**
286
+
287
+ ```javascript
288
+ const absResults = yolo.detectAbs(
289
+ modelId,
290
+ "screen",
291
+ 100,
292
+ 100,
293
+ 500,
294
+ 400,
295
+ 640,
296
+ 0.4,
297
+ 0.5
298
+ );
299
+ if (absResults.length > 0) {
300
+ action.click(absResults[0].centerX, absResults[0].centerY);
301
+ }
302
+ ```
303
+
264
304
  ### 资源管理
265
305
 
266
306
  #### free - 释放指定模型的资源。
@@ -0,0 +1,272 @@
1
+ # YOLO 图像分类模块 (YoloCls)
2
+
3
+ YOLO 图像分类模块基于 YOLOv8-cls / YOLO11-cls / YOLO26-cls 分类模型和 NCNN 框架,提供整图分类、区域分类和模型资源管理能力。
4
+
5
+ ## 功能概览
6
+
7
+ - **模型管理**: 加载和释放 YOLOv8-cls / YOLO11-cls / YOLO26-cls NCNN 模型
8
+ - **图像分类**: 对屏幕截图、图片文件、HTTP 图片或图片 ID 执行整图分类
9
+ - **区域分类**: 先裁剪指定区域,再对裁剪结果执行分类
10
+ - **结果处理**: 返回 Ultralytics `Probs` 风格的完整概率、top1、top5 和对应置信度
11
+ - **资源控制**: 支持释放单个模型或释放全部已加载模型
12
+
13
+ ## 适用场景
14
+
15
+ - 判断当前屏幕或图片属于哪个业务类别
16
+ - 对截图中的固定区域进行状态识别
17
+ - 对自定义 YOLO-cls 模型导出的 NCNN 模型执行端侧推理
18
+
19
+ ## 数据结构
20
+
21
+ ### YoloClsProbs
22
+
23
+ YOLO 分类概率结果,字段命名与 Ultralytics `Probs` 保持一致。
24
+
25
+ ```typescript
26
+ interface YoloClsProbs {
27
+ data: number[]; // 所有类别概率,下标即类别 ID
28
+ top1: number | null; // 概率最高的类别 ID
29
+ top5: number[]; // 概率最高的 5 个类别 ID
30
+ top1conf: number | null; // top1 对应的概率
31
+ top5conf: number[]; // top5 对应的概率
32
+ }
33
+ ```
34
+
35
+ **字段说明:**
36
+
37
+ | 字段名 | 类型 | 描述 |
38
+ | ---------- | ---------------- | ---------------------------------------------------------- |
39
+ | `data` | `number[]` | 所有类别概率数组,下标即类别 ID |
40
+ | `top1` | `number \| null` | 概率最高的类别 ID;分类失败时为 `null` |
41
+ | `top5` | `number[]` | 概率最高的 5 个类别 ID,按概率从高到低排序 |
42
+ | `top1conf` | `number \| null` | `top1` 对应的概率;分类失败时为 `null` |
43
+ | `top5conf` | `number[]` | `top5` 对应的概率,顺序与 `top5` 一致 |
44
+
45
+ **结果说明:**
46
+
47
+ - `top1` 等于 `top5[0]`,`top1conf` 等于 `data[top1]`。
48
+ - 当模型类别数少于 5 时,`top5` 和 `top5conf` 的长度会小于 5。
49
+ - 分类失败时返回空结果:`data`、`top5`、`top5conf` 为空数组,`top1` 和 `top1conf` 为 `null`。
50
+
51
+ ## API 参考
52
+
53
+ ### 模型管理
54
+
55
+ #### load - 加载 YOLO 分类模型(支持 YOLOv8-cls / YOLO11-cls / YOLO26-cls)
56
+
57
+ 加载模型是使用图像分类能力的前提。支持 Ultralytics 官方 YOLOv8-cls、YOLO11-cls、YOLO26-cls 导出的 NCNN 分类模型,常见模型名使用 `-cls` 后缀,例如 `yolov8n-cls`、`yolo11n-cls`、`yolo26n-cls`。
58
+
59
+ ```typescript
60
+ function load(
61
+ paramPath: string,
62
+ binPath: string,
63
+ nc?: number,
64
+ useGpu?: boolean
65
+ ): string | null;
66
+ ```
67
+
68
+ **参数:**
69
+
70
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
71
+ | ----------- | ------- | -------- | ------ | -------------------------------------------------- |
72
+ | `paramPath` | string | 是 | | NCNN 模型的 param 文件路径 |
73
+ | `binPath` | string | 是 | | NCNN 模型的 bin 文件路径 |
74
+ | `nc` | number | 否 | 0 | 模型类别数量;传 `0` 或省略时按模型输出自动推断,显式传入但不匹配时分类返回空结果 |
75
+ | `useGpu` | boolean | 否 | false | 是否使用 GPU 推理 |
76
+
77
+ **返回值:**
78
+
79
+ | 类型 | 描述 |
80
+ | ---------------- | ----------------------------------------- |
81
+ | `string \| null` | 加载成功返回模型 ID 字符串,失败返回 null |
82
+
83
+ **示例:**
84
+
85
+ ```javascript
86
+ // 模型文件通常放在 res 目录
87
+ const modelId = yoloCls.load(
88
+ "yolo11n_cls_ncnn_model/model.ncnn.param",
89
+ "yolo11n_cls_ncnn_model/model.ncnn.bin",
90
+ 1000, // ImageNet 分类模型通常为 1000 类
91
+ false
92
+ );
93
+
94
+ if (modelId) {
95
+ logi(`YOLO 分类模型加载成功,ID: ${modelId}`);
96
+ } else {
97
+ logi("YOLO 分类模型加载失败,请检查模型文件路径和格式");
98
+ }
99
+ ```
100
+
101
+ ### 图像分类
102
+
103
+ #### classify - 对输入图像执行分类
104
+
105
+ 对整张输入图像执行分类,返回完整概率数组和 top1/top5 结果。
106
+
107
+ ```typescript
108
+ function classify(
109
+ modelId: string,
110
+ img: string,
111
+ targetSize?: number
112
+ ): YoloClsProbs;
113
+ ```
114
+
115
+ **参数:**
116
+
117
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
118
+ | ------------ | ------ | -------- | ------ | -------------------------------------------------------------------------------------------------------------------------------------------- |
119
+ | `modelId` | string | 是 | | 模型 ID(通过 `load` 获取) |
120
+ | `img` | string | 是 | | 图像输入源:<br>- `"screen"` - 使用当前屏幕截图<br>- `string` - 图片文件路径或 HTTP 图片地址<br>- `imageId` - 图片 ID(通过 image 模块获取) |
121
+ | `targetSize` | number | 否 | 224 | 分类输入大小,应与模型训练或导出时的输入尺寸一致 |
122
+
123
+ **返回值:**
124
+
125
+ | 类型 | 描述 |
126
+ | -------------- | --------------------------------------------------- |
127
+ | `YoloClsProbs` | Ultralytics `Probs` 风格分类结果,包含 top1/top5 等 |
128
+
129
+ **示例:**
130
+
131
+ ```javascript
132
+ const modelId = yoloCls.load(
133
+ "yolo11n_cls_ncnn_model/model.ncnn.param",
134
+ "yolo11n_cls_ncnn_model/model.ncnn.bin",
135
+ 1000,
136
+ false
137
+ );
138
+
139
+ if (!modelId) {
140
+ logi("模型加载失败");
141
+ return;
142
+ }
143
+
144
+ const probs = yoloCls.classify(
145
+ modelId,
146
+ "screen", // 使用当前屏幕
147
+ 224 // 分类模型常用输入尺寸
148
+ );
149
+
150
+ if (probs.top1 !== null) {
151
+ logi(`top1 类别ID: ${probs.top1}`);
152
+ logi(`top1 置信度: ${(probs.top1conf * 100).toFixed(2)}%`);
153
+ } else {
154
+ logi("分类失败或无有效结果");
155
+ }
156
+
157
+ for (let i = 0; i < probs.top5.length; i++) {
158
+ logi(
159
+ `top${i + 1}: 类别ID=${probs.top5[i]}, 置信度=${probs.top5conf[i].toFixed(4)}`
160
+ );
161
+ }
162
+
163
+ // 如需读取某个类别的原始概率,可直接访问 data[classId]
164
+ const classId = 0;
165
+ if (probs.data.length > classId) {
166
+ logi(`类别 ${classId} 概率: ${probs.data[classId].toFixed(4)}`);
167
+ }
168
+
169
+ yoloCls.free(modelId);
170
+ ```
171
+
172
+ #### classifyRegion - 对指定区域执行分类
173
+
174
+ 先从输入图像中裁剪指定区域,再对裁剪结果执行分类。适合只关心屏幕某个固定区域状态的场景。
175
+
176
+ ```typescript
177
+ function classifyRegion(
178
+ modelId: string,
179
+ img: string,
180
+ x?: number,
181
+ y?: number,
182
+ ex?: number,
183
+ ey?: number,
184
+ targetSize?: number
185
+ ): YoloClsProbs;
186
+ ```
187
+
188
+ **参数:**
189
+
190
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
191
+ | ------------ | ------ | -------- | ------ | -------------------------------------------------------------------------------------------------------------------------------------------- |
192
+ | `modelId` | string | 是 | | 模型 ID(通过 `load` 获取) |
193
+ | `img` | string | 是 | | 图像输入源:<br>- `"screen"` - 使用当前屏幕截图<br>- `string` - 图片文件路径或 HTTP 图片地址<br>- `imageId` - 图片 ID(通过 image 模块获取) |
194
+ | `x` | number | 否 | 0 | 裁剪区域左上角 x 坐标 |
195
+ | `y` | number | 否 | 0 | 裁剪区域左上角 y 坐标 |
196
+ | `ex` | number | 否 | 0 | 裁剪区域右下角 x 坐标 |
197
+ | `ey` | number | 否 | 0 | 裁剪区域右下角 y 坐标 |
198
+ | `targetSize` | number | 否 | 224 | 分类输入大小,应与模型训练或导出时的输入尺寸一致 |
199
+
200
+ **返回值:**
201
+
202
+ | 类型 | 描述 |
203
+ | -------------- | --------------------------------------------------- |
204
+ | `YoloClsProbs` | Ultralytics `Probs` 风格分类结果,包含 top1/top5 等 |
205
+
206
+ **示例:**
207
+
208
+ ```javascript
209
+ const regionProbs = yoloCls.classifyRegion(
210
+ modelId,
211
+ "screen",
212
+ 100,
213
+ 100,
214
+ 500,
215
+ 400,
216
+ 224
217
+ );
218
+
219
+ if (regionProbs.top1 !== null) {
220
+ logi(
221
+ `区域分类 top1=${regionProbs.top1}, 置信度=${regionProbs.top1conf.toFixed(4)}`
222
+ );
223
+ }
224
+ ```
225
+
226
+ ### 资源管理
227
+
228
+ #### free - 释放指定模型资源
229
+
230
+ 释放指定分类模型占用的资源。
231
+
232
+ ```typescript
233
+ function free(modelId: string): void;
234
+ ```
235
+
236
+ **参数:**
237
+
238
+ | 参数名 | 类型 | 是否必填 | 默认值 | 描述 |
239
+ | --------- | ------ | -------- | ------ | --------------- |
240
+ | `modelId` | string | 是 | | 要释放的模型 ID |
241
+
242
+ **示例:**
243
+
244
+ ```javascript
245
+ if (modelId) {
246
+ yoloCls.free(modelId);
247
+ logi(`YOLO 分类模型 ${modelId} 资源已释放`);
248
+ }
249
+ ```
250
+
251
+ #### freeAll - 释放所有模型资源
252
+
253
+ 释放所有已加载的 YOLO 分类模型资源。
254
+
255
+ ```typescript
256
+ function freeAll(): void;
257
+ ```
258
+
259
+ **示例:**
260
+
261
+ ```javascript
262
+ yoloCls.freeAll();
263
+ logi("所有 YOLO 分类模型资源已释放");
264
+ ```
265
+
266
+ ## 使用注意事项
267
+
268
+ - `targetSize` 默认值为 224,常见 YOLO-cls 模型使用该尺寸;自定义模型请填写训练或导出时使用的输入尺寸。
269
+ - `nc` 传 `0` 或省略时会根据模型输出自动推断类别数量;显式传入但和模型输出不匹配时返回空结果。
270
+ - `classifyRegion` 中 `x/y/ex/ey` 全部为 `0` 时表示不裁剪,直接对整张图分类。
271
+ - 裁剪区域必须位于图像范围内,并且 `ex > x`、`ey > y`。
272
+ - 分类结果中的类别 ID 需要结合训练时的类别列表解释;本模块只返回类别 ID 和概率。