tars-cli 0.1.2__tar.gz → 0.1.3__tar.gz
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- {tars_cli-0.1.2 → tars_cli-0.1.3}/PKG-INFO +56 -3
- {tars_cli-0.1.2 → tars_cli-0.1.3}/README.md +55 -2
- {tars_cli-0.1.2 → tars_cli-0.1.3}/pyproject.toml +1 -1
- tars_cli-0.1.3/tars_cli/__init__.py +1 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/auth_cmd.py +5 -1
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/eval_cmd.py +2 -3
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/plugin_cmd.py +2 -2
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/PKG-INFO +56 -3
- tars_cli-0.1.2/tars_cli/__init__.py +0 -1
- {tars_cli-0.1.2 → tars_cli-0.1.3}/setup.cfg +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/__main__.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/app.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/auth.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/client.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/__init__.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/dataset_cmd.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/commands/template_cmd.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/config.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/hints.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/output.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/utils/__init__.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/utils/polling.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli/utils/progress.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/SOURCES.txt +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/dependency_links.txt +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/entry_points.txt +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/requires.txt +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tars_cli.egg-info/top_level.txt +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tests/test_auth.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tests/test_client.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tests/test_config.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tests/test_hints.py +0 -0
- {tars_cli-0.1.2 → tars_cli-0.1.3}/tests/test_output.py +0 -0
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Metadata-Version: 2.4
|
|
2
2
|
Name: tars-cli
|
|
3
|
-
Version: 0.1.
|
|
3
|
+
Version: 0.1.3
|
|
4
4
|
Summary: tars 平台命令行工具
|
|
5
5
|
Requires-Python: >=3.11
|
|
6
6
|
Description-Content-Type: text/markdown
|
|
@@ -114,8 +114,14 @@ $ tars template download testcase-multi
|
|
|
114
114
|
|
|
115
115
|
### 数据集管理
|
|
116
116
|
|
|
117
|
+
> `--agent-name` 和 `--skill-name` 二选一,必须指定其中一个。`publish` 仅需版本 ID,无需指定目标。
|
|
118
|
+
>
|
|
119
|
+
> `--conversation-type`(简写 `-t`)支持 `single_turn`(默认)和 `multi_turn`,用于指定会话类型。
|
|
120
|
+
|
|
121
|
+
#### 按 Agent 生成 & 管理
|
|
122
|
+
|
|
117
123
|
```bash
|
|
118
|
-
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
124
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
119
125
|
正在创建数据集版本...
|
|
120
126
|
✓ 版本已创建: fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
121
127
|
正在生成评估计划...
|
|
@@ -125,20 +131,49 @@ $ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-
|
|
|
125
131
|
███████████████████████████████████████ 100%
|
|
126
132
|
✓ 测试用例生成完成 (15 条)
|
|
127
133
|
|
|
128
|
-
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
134
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
129
135
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
130
136
|
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
131
137
|
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
132
138
|
│ fbe88a2a-b830-4b1f... │ published│ 15 │ 2026-05-18 12:00 │
|
|
133
139
|
│ 35839ba6-824b-4581... │ draft │ 10 │ 2026-05-17 09:30 │
|
|
134
140
|
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
141
|
+
```
|
|
142
|
+
|
|
143
|
+
#### 按 Skill 生成 & 管理
|
|
144
|
+
|
|
145
|
+
```bash
|
|
146
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
147
|
+
正在创建数据集版本...
|
|
148
|
+
✓ 版本已创建: a1b2c3d4-e5f6-7890-abcd-ef1234567890
|
|
149
|
+
正在生成评估计划...
|
|
150
|
+
███████████████████████████████████████ 100%
|
|
151
|
+
✓ 评估计划生成完成
|
|
152
|
+
正在生成测试用例...
|
|
153
|
+
███████████████████████████████████████ 100%
|
|
154
|
+
✓ 测试用例生成完成 (8 条)
|
|
155
|
+
|
|
156
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
157
|
+
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
158
|
+
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
159
|
+
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
160
|
+
│ a1b2c3d4-e5f6-7890... │ published│ 8 │ 2026-05-18 14:00 │
|
|
161
|
+
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
162
|
+
```
|
|
163
|
+
|
|
164
|
+
#### 发布数据集版本
|
|
135
165
|
|
|
166
|
+
```bash
|
|
136
167
|
$ tars dataset publish fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
137
168
|
✓ 数据集版本已发布
|
|
138
169
|
```
|
|
139
170
|
|
|
140
171
|
### 评估
|
|
141
172
|
|
|
173
|
+
> `--agent-name` 和 `--skill-name` 二选一,可不传。`eval status` 仅需任务 ID。
|
|
174
|
+
|
|
175
|
+
#### 按 Agent 评估
|
|
176
|
+
|
|
142
177
|
```bash
|
|
143
178
|
$ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --dataset-version fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
144
179
|
正在创建评估任务...
|
|
@@ -155,7 +190,25 @@ $ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --d
|
|
|
155
190
|
总分: 0.75
|
|
156
191
|
阈值: 0.8
|
|
157
192
|
✗ 评估未通过:总分 0.75 低于阈值 0.8
|
|
193
|
+
```
|
|
194
|
+
|
|
195
|
+
#### 按 Skill 评估
|
|
158
196
|
|
|
197
|
+
```bash
|
|
198
|
+
$ tars eval run db22abf8-9706-43fb-926e-20c1b836616a --skill-name tickets --dataset-version 02412e94-2af5-4f82-ab3f-1a6b098be2b9
|
|
199
|
+
正在创建评估任务...
|
|
200
|
+
✓ 评估任务已创建: 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
201
|
+
正在执行评估...
|
|
202
|
+
███████████████████████████████████████ 100%
|
|
203
|
+
✓ 评估完成
|
|
204
|
+
总分: 0.82
|
|
205
|
+
通过: 10/12 (83%)
|
|
206
|
+
查看详情: https://your-tars-server.com/plugins/db22abf8-9706-43fb-926e-20c1b836616a/evaluation/6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
207
|
+
```
|
|
208
|
+
|
|
209
|
+
#### 查看评估状态
|
|
210
|
+
|
|
211
|
+
```bash
|
|
159
212
|
$ tars eval status 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
160
213
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━┳━━━━━━━━━┓
|
|
161
214
|
┃ Task ID ┃ Status ┃ Score ┃ Total ┃ Passed ┃ Failed ┃
|
|
@@ -94,8 +94,14 @@ $ tars template download testcase-multi
|
|
|
94
94
|
|
|
95
95
|
### 数据集管理
|
|
96
96
|
|
|
97
|
+
> `--agent-name` 和 `--skill-name` 二选一,必须指定其中一个。`publish` 仅需版本 ID,无需指定目标。
|
|
98
|
+
>
|
|
99
|
+
> `--conversation-type`(简写 `-t`)支持 `single_turn`(默认)和 `multi_turn`,用于指定会话类型。
|
|
100
|
+
|
|
101
|
+
#### 按 Agent 生成 & 管理
|
|
102
|
+
|
|
97
103
|
```bash
|
|
98
|
-
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
104
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
99
105
|
正在创建数据集版本...
|
|
100
106
|
✓ 版本已创建: fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
101
107
|
正在生成评估计划...
|
|
@@ -105,20 +111,49 @@ $ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-
|
|
|
105
111
|
███████████████████████████████████████ 100%
|
|
106
112
|
✓ 测试用例生成完成 (15 条)
|
|
107
113
|
|
|
108
|
-
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
114
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
109
115
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
110
116
|
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
111
117
|
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
112
118
|
│ fbe88a2a-b830-4b1f... │ published│ 15 │ 2026-05-18 12:00 │
|
|
113
119
|
│ 35839ba6-824b-4581... │ draft │ 10 │ 2026-05-17 09:30 │
|
|
114
120
|
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
121
|
+
```
|
|
122
|
+
|
|
123
|
+
#### 按 Skill 生成 & 管理
|
|
124
|
+
|
|
125
|
+
```bash
|
|
126
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
127
|
+
正在创建数据集版本...
|
|
128
|
+
✓ 版本已创建: a1b2c3d4-e5f6-7890-abcd-ef1234567890
|
|
129
|
+
正在生成评估计划...
|
|
130
|
+
███████████████████████████████████████ 100%
|
|
131
|
+
✓ 评估计划生成完成
|
|
132
|
+
正在生成测试用例...
|
|
133
|
+
███████████████████████████████████████ 100%
|
|
134
|
+
✓ 测试用例生成完成 (8 条)
|
|
135
|
+
|
|
136
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
137
|
+
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
138
|
+
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
139
|
+
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
140
|
+
│ a1b2c3d4-e5f6-7890... │ published│ 8 │ 2026-05-18 14:00 │
|
|
141
|
+
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
142
|
+
```
|
|
143
|
+
|
|
144
|
+
#### 发布数据集版本
|
|
115
145
|
|
|
146
|
+
```bash
|
|
116
147
|
$ tars dataset publish fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
117
148
|
✓ 数据集版本已发布
|
|
118
149
|
```
|
|
119
150
|
|
|
120
151
|
### 评估
|
|
121
152
|
|
|
153
|
+
> `--agent-name` 和 `--skill-name` 二选一,可不传。`eval status` 仅需任务 ID。
|
|
154
|
+
|
|
155
|
+
#### 按 Agent 评估
|
|
156
|
+
|
|
122
157
|
```bash
|
|
123
158
|
$ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --dataset-version fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
124
159
|
正在创建评估任务...
|
|
@@ -135,7 +170,25 @@ $ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --d
|
|
|
135
170
|
总分: 0.75
|
|
136
171
|
阈值: 0.8
|
|
137
172
|
✗ 评估未通过:总分 0.75 低于阈值 0.8
|
|
173
|
+
```
|
|
174
|
+
|
|
175
|
+
#### 按 Skill 评估
|
|
138
176
|
|
|
177
|
+
```bash
|
|
178
|
+
$ tars eval run db22abf8-9706-43fb-926e-20c1b836616a --skill-name tickets --dataset-version 02412e94-2af5-4f82-ab3f-1a6b098be2b9
|
|
179
|
+
正在创建评估任务...
|
|
180
|
+
✓ 评估任务已创建: 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
181
|
+
正在执行评估...
|
|
182
|
+
███████████████████████████████████████ 100%
|
|
183
|
+
✓ 评估完成
|
|
184
|
+
总分: 0.82
|
|
185
|
+
通过: 10/12 (83%)
|
|
186
|
+
查看详情: https://your-tars-server.com/plugins/db22abf8-9706-43fb-926e-20c1b836616a/evaluation/6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
187
|
+
```
|
|
188
|
+
|
|
189
|
+
#### 查看评估状态
|
|
190
|
+
|
|
191
|
+
```bash
|
|
139
192
|
$ tars eval status 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
140
193
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━┳━━━━━━━━━┓
|
|
141
194
|
┃ Task ID ┃ Status ┃ Score ┃ Total ┃ Passed ┃ Failed ┃
|
|
@@ -0,0 +1 @@
|
|
|
1
|
+
__version__ = "0.1.3"
|
|
@@ -28,7 +28,11 @@ def login(
|
|
|
28
28
|
try:
|
|
29
29
|
resp = client.post("/auth/login", json={"username": username, "password": password})
|
|
30
30
|
if resp.status_code != 200:
|
|
31
|
-
|
|
31
|
+
try:
|
|
32
|
+
detail = resp.json().get("detail", resp.text)
|
|
33
|
+
except Exception:
|
|
34
|
+
detail = resp.text or f"HTTP {resp.status_code}"
|
|
35
|
+
typer.echo(f"登录失败: {detail}", err=True)
|
|
32
36
|
raise typer.Exit(code=2)
|
|
33
37
|
|
|
34
38
|
data = resp.json()
|
|
@@ -39,9 +39,8 @@ def run(
|
|
|
39
39
|
client = TarsAPIClient(server_url=creds.server_url, credentials=creds, verbose=verbose)
|
|
40
40
|
try:
|
|
41
41
|
body: dict = {"dataset_version_id": dataset_version}
|
|
42
|
-
|
|
43
|
-
|
|
44
|
-
body["agent_name"] = target_name
|
|
42
|
+
if agent_name:
|
|
43
|
+
body["agent_name"] = agent_name
|
|
45
44
|
if skill_name and not agent_name:
|
|
46
45
|
body["evaluation_target_type"] = "skill"
|
|
47
46
|
body["skill_name"] = skill_name
|
|
@@ -30,12 +30,12 @@ def import_plugin(
|
|
|
30
30
|
client = TarsAPIClient(server_url=creds.server_url, credentials=creds, verbose=verbose)
|
|
31
31
|
try:
|
|
32
32
|
if _is_git_url(source):
|
|
33
|
-
resp = client.post("/plugins/import-git/validate", json={"
|
|
33
|
+
resp = client.post("/plugins/import-git/validate", json={"url": source})
|
|
34
34
|
if not resp.is_success:
|
|
35
35
|
typer.echo(f"Git URL 验证失败: {resp.text}", err=True)
|
|
36
36
|
raise typer.Exit(code=2)
|
|
37
37
|
|
|
38
|
-
resp = client.post("/plugins/import-git", json={"
|
|
38
|
+
resp = client.post("/plugins/import-git", json={"url": source})
|
|
39
39
|
else:
|
|
40
40
|
file_path = Path(source)
|
|
41
41
|
if not file_path.exists():
|
|
@@ -1,6 +1,6 @@
|
|
|
1
1
|
Metadata-Version: 2.4
|
|
2
2
|
Name: tars-cli
|
|
3
|
-
Version: 0.1.
|
|
3
|
+
Version: 0.1.3
|
|
4
4
|
Summary: tars 平台命令行工具
|
|
5
5
|
Requires-Python: >=3.11
|
|
6
6
|
Description-Content-Type: text/markdown
|
|
@@ -114,8 +114,14 @@ $ tars template download testcase-multi
|
|
|
114
114
|
|
|
115
115
|
### 数据集管理
|
|
116
116
|
|
|
117
|
+
> `--agent-name` 和 `--skill-name` 二选一,必须指定其中一个。`publish` 仅需版本 ID,无需指定目标。
|
|
118
|
+
>
|
|
119
|
+
> `--conversation-type`(简写 `-t`)支持 `single_turn`(默认)和 `multi_turn`,用于指定会话类型。
|
|
120
|
+
|
|
121
|
+
#### 按 Agent 生成 & 管理
|
|
122
|
+
|
|
117
123
|
```bash
|
|
118
|
-
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
124
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
119
125
|
正在创建数据集版本...
|
|
120
126
|
✓ 版本已创建: fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
121
127
|
正在生成评估计划...
|
|
@@ -125,20 +131,49 @@ $ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-
|
|
|
125
131
|
███████████████████████████████████████ 100%
|
|
126
132
|
✓ 测试用例生成完成 (15 条)
|
|
127
133
|
|
|
128
|
-
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval
|
|
134
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --conversation-type single_turn
|
|
129
135
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
130
136
|
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
131
137
|
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
132
138
|
│ fbe88a2a-b830-4b1f... │ published│ 15 │ 2026-05-18 12:00 │
|
|
133
139
|
│ 35839ba6-824b-4581... │ draft │ 10 │ 2026-05-17 09:30 │
|
|
134
140
|
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
141
|
+
```
|
|
142
|
+
|
|
143
|
+
#### 按 Skill 生成 & 管理
|
|
144
|
+
|
|
145
|
+
```bash
|
|
146
|
+
$ tars dataset generate 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
147
|
+
正在创建数据集版本...
|
|
148
|
+
✓ 版本已创建: a1b2c3d4-e5f6-7890-abcd-ef1234567890
|
|
149
|
+
正在生成评估计划...
|
|
150
|
+
███████████████████████████████████████ 100%
|
|
151
|
+
✓ 评估计划生成完成
|
|
152
|
+
正在生成测试用例...
|
|
153
|
+
███████████████████████████████████████ 100%
|
|
154
|
+
✓ 测试用例生成完成 (8 条)
|
|
155
|
+
|
|
156
|
+
$ tars dataset list 46a387de-f10b-4e6a-be0e-04f634f53915 --skill-name my-skill --conversation-type multi_turn
|
|
157
|
+
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━┓
|
|
158
|
+
┃ Version ID ┃ Status ┃ Cases ┃ Created At ┃
|
|
159
|
+
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━╇━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━┩
|
|
160
|
+
│ a1b2c3d4-e5f6-7890... │ published│ 8 │ 2026-05-18 14:00 │
|
|
161
|
+
└──────────────────────────────┴──────────┴────────┴────────────────────┘
|
|
162
|
+
```
|
|
163
|
+
|
|
164
|
+
#### 发布数据集版本
|
|
135
165
|
|
|
166
|
+
```bash
|
|
136
167
|
$ tars dataset publish fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
137
168
|
✓ 数据集版本已发布
|
|
138
169
|
```
|
|
139
170
|
|
|
140
171
|
### 评估
|
|
141
172
|
|
|
173
|
+
> `--agent-name` 和 `--skill-name` 二选一,可不传。`eval status` 仅需任务 ID。
|
|
174
|
+
|
|
175
|
+
#### 按 Agent 评估
|
|
176
|
+
|
|
142
177
|
```bash
|
|
143
178
|
$ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --dataset-version fbe88a2a-b830-4b1f-89d9-2ec6c158aaa2
|
|
144
179
|
正在创建评估任务...
|
|
@@ -155,7 +190,25 @@ $ tars eval run 46a387de-f10b-4e6a-be0e-04f634f53915 --agent-name agent-eval --d
|
|
|
155
190
|
总分: 0.75
|
|
156
191
|
阈值: 0.8
|
|
157
192
|
✗ 评估未通过:总分 0.75 低于阈值 0.8
|
|
193
|
+
```
|
|
194
|
+
|
|
195
|
+
#### 按 Skill 评估
|
|
158
196
|
|
|
197
|
+
```bash
|
|
198
|
+
$ tars eval run db22abf8-9706-43fb-926e-20c1b836616a --skill-name tickets --dataset-version 02412e94-2af5-4f82-ab3f-1a6b098be2b9
|
|
199
|
+
正在创建评估任务...
|
|
200
|
+
✓ 评估任务已创建: 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
201
|
+
正在执行评估...
|
|
202
|
+
███████████████████████████████████████ 100%
|
|
203
|
+
✓ 评估完成
|
|
204
|
+
总分: 0.82
|
|
205
|
+
通过: 10/12 (83%)
|
|
206
|
+
查看详情: https://your-tars-server.com/plugins/db22abf8-9706-43fb-926e-20c1b836616a/evaluation/6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
207
|
+
```
|
|
208
|
+
|
|
209
|
+
#### 查看评估状态
|
|
210
|
+
|
|
211
|
+
```bash
|
|
159
212
|
$ tars eval status 6612b197-6b3c-461b-a412-ae0176ea1b31
|
|
160
213
|
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━━━┳━━━━━━━┳━━━━━━━━━┳━━━━━━━━━┓
|
|
161
214
|
┃ Task ID ┃ Status ┃ Score ┃ Total ┃ Passed ┃ Failed ┃
|
|
@@ -1 +0,0 @@
|
|
|
1
|
-
__version__ = "0.1.0"
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|
|
File without changes
|