astron-eval 0.0.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/LICENSE +21 -0
- package/README.md +119 -0
- package/bin/astron-eval.mjs +111 -0
- package/package.json +24 -0
- package/skills/astron-eval/SKILL.md +60 -0
- package/skills/model-evaluation/SKILL.md +180 -0
- package/skills/model-evaluation/assets/dimensions//345/206/205/345/256/271/347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/206/205/345/256/271/347/262/276/347/241/256/347/273/264/345/272/246.json +19 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/346/227/205/346/270/270/345/207/272/350/241/214.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/210/233/346/204/217/346/200/247-/345/220/270/345/274/225/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//345/210/233/346/226/260/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/256/214/346/225/264/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/256/214/346/225/264/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/275/242/345/274/217/347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/277/240/350/257/232/345/272/246/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/214/207/344/273/244/351/201/265/345/276/252/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/226/207/346/234/254/345/267/256/345/274/202/345/272/246-TER/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/346/265/201/347/250/213/350/207/252/345/212/250/345/214/226.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//346/240/270/345/277/203/345/205/203/347/264/240/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/240/274/345/274/217/351/201/265/345/276/252/347/273/264/345/272/246.json +19 -0
- package/skills/model-evaluation/assets/dimensions//347/211/271/350/211/262/344/272/256/347/202/271/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/224/250/344/276/213/347/272/247/350/257/204/346/265/213/347/273/264/345/272/246/346/250/241/346/235/277.json +25 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-BERTScore/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-Cosine/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-ROUGE/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/345/205/263/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//347/262/276/347/241/256/346/200/247-BLUE/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/262/276/347/241/256/346/200/247-COMET/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/345/220/210/347/220/206/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/346/265/201/347/250/213/350/207/252/345/212/250/345/214/226.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/eval-judge.json +11 -0
- package/skills/model-evaluation/assets/experts/business-process-automation.json +71 -0
- package/skills/model-evaluation/assets/experts/content-generation.json +75 -0
- package/skills/model-evaluation/assets/experts/content-match.json +37 -0
- package/skills/model-evaluation/assets/experts/information-analysis.json +87 -0
- package/skills/model-evaluation/assets/experts/marketing-digital-human.json +27 -0
- package/skills/model-evaluation/assets/experts/personalized-planning.json +87 -0
- package/skills/model-evaluation/assets/experts/text-translation.json +103 -0
- package/skills/model-evaluation/assets/experts/tourism-travel.json +119 -0
- package/skills/model-evaluation/assets/templates/custom-dimension.template.json +30 -0
- package/skills/model-evaluation/eval-build.md +281 -0
- package/skills/model-evaluation/eval-execute.md +196 -0
- package/skills/model-evaluation/eval-init.md +237 -0
- package/skills/model-evaluation/processes/dimension-process.md +207 -0
- package/skills/model-evaluation/processes/evalset-create-process.md +184 -0
- package/skills/model-evaluation/processes/evalset-parse-process.md +171 -0
- package/skills/model-evaluation/processes/evalset-supplement-process.md +136 -0
- package/skills/model-evaluation/processes/keypoint-process.md +148 -0
- package/skills/model-evaluation/processes/python-env-process.md +113 -0
- package/skills/model-evaluation/references//344/270/255/351/227/264/344/272/247/347/211/251/350/257/264/346/230/216.md +340 -0
- package/skills/model-evaluation/references//345/206/205/347/275/256/346/250/241/346/235/277/350/257/264/346/230/216.md +149 -0
- package/skills/model-evaluation/references//350/204/232/346/234/254/345/256/232/344/271/211.md +274 -0
- package/skills/model-evaluation/references//350/256/244/350/257/201/346/234/215/345/212/241/346/216/245/345/217/243/350/257/264/346/230/216.md +271 -0
- package/skills/model-evaluation/references//350/257/204/346/265/213/346/234/215/345/212/241/346/216/245/345/217/243/350/257/264/346/230/216.md +455 -0
- package/skills/model-evaluation/references//350/257/204/346/265/213/347/273/264/345/272/246/350/257/264/346/230/216.md +171 -0
- package/skills/model-evaluation/scripts/cfg/eval-auth.cfg +16 -0
- package/skills/model-evaluation/scripts/cfg/eval-server.cfg +1 -0
- package/skills/model-evaluation/scripts/clients/__init__.py +33 -0
- package/skills/model-evaluation/scripts/clients/api_client.py +97 -0
- package/skills/model-evaluation/scripts/clients/auth_client.py +96 -0
- package/skills/model-evaluation/scripts/clients/http_client.py +199 -0
- package/skills/model-evaluation/scripts/clients/oauth_callback.py +397 -0
- package/skills/model-evaluation/scripts/clients/token_manager.py +53 -0
- package/skills/model-evaluation/scripts/eval_auth.py +588 -0
- package/skills/model-evaluation/scripts/eval_dimension.py +240 -0
- package/skills/model-evaluation/scripts/eval_set.py +410 -0
- package/skills/model-evaluation/scripts/eval_task.py +324 -0
- package/skills/model-evaluation/scripts/files/__init__.py +38 -0
- package/skills/model-evaluation/scripts/files/file_utils.py +330 -0
- package/skills/model-evaluation/scripts/files/streaming.py +245 -0
- package/skills/model-evaluation/scripts/utils/__init__.py +128 -0
- package/skills/model-evaluation/scripts/utils/constants.py +101 -0
- package/skills/model-evaluation/scripts/utils/datetime_utils.py +60 -0
- package/skills/model-evaluation/scripts/utils/errors.py +244 -0
- package/skills/model-evaluation/scripts/utils/keypoint_prompts.py +73 -0
- package/skills/skill-driven-eval/SKILL.md +456 -0
- package/skills/skill-driven-eval/agents/grader.md +144 -0
- package/skills/skill-driven-eval/eval-viewer/__init__.py +1 -0
- package/skills/skill-driven-eval/eval-viewer/generate_report.py +485 -0
- package/skills/skill-driven-eval/eval-viewer/viewer.html +767 -0
- package/skills/skill-driven-eval/references/schemas.md +282 -0
- package/skills/skill-driven-eval/scripts/__init__.py +1 -0
- package/skills/skill-driven-eval/scripts/__main__.py +70 -0
- package/skills/skill-driven-eval/scripts/aggregate_results.py +681 -0
- package/skills/skill-driven-eval/scripts/extract_transcript.py +294 -0
- package/skills/skill-driven-eval/scripts/test_aggregate.py +244 -0
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "创意性/吸引性",
|
|
3
|
+
"description": "结合对话场景评估助手的回答是否有吸引力、趣味性或新奇度,语言表达与创意能否抓住用户",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "创意性/吸引性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"func": "",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"weight": 0.25,
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "结合对话场景评估助手的回答是否有吸引力、趣味性或新奇度,语言表达与创意能否抓住用户。",
|
|
17
|
+
"instruct": "5分:内容有创意,具备吸引性/趣味性/新奇度等。\n1分:内容无创意,不具备吸引性/趣味性/新奇度等。\n\n特殊场景评分建议:\n - 表述常规或没有创意,1分。",
|
|
18
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
21
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "创新性",
|
|
3
|
+
"description": "是否提供新颖的洞察、独特的视角、创新的分析方法",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "创新性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "是否提供新颖的洞察、独特的视角、创新的分析方法。",
|
|
15
|
+
"instruct": "5分:有深度洞察,发现隐藏模式,提供独特视角。分析角度新颖,发现常人未注意的规律\n3分:有基本分析,创新点较常规。分析角度常规,无明显新意\n1分:仅罗列数据,无创新。仅做数据汇总,无分析或洞察",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.1
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "完整性",
|
|
3
|
+
"description": "是否覆盖用户问题的所有维度,是否遗漏关键分析点",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "完整性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "是否覆盖用户问题的所有维度,是否遗漏关键分析点。",
|
|
15
|
+
"instruct": "5分:完整覆盖用户所有分析维度,无遗漏。用户要求的所有分析点均被覆盖\n3分:覆盖主要分析维度,次要维度有遗漏。核心分析已完成,部分细节分析缺失\n1分:遗漏关键分析维度。用户明确要求的分析点缺失\n\n典型测试用例:\n用户:\"\"分析某产品的市场表现(用户、销量、评价、趋势)\"\"\n5分:覆盖用户群体、销量数据、用户评价、趋势预测4个维度\n1分:仅分析销量,遗漏其他3个维度",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.2
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "完整性",
|
|
3
|
+
"description": "大模型回复是否完整覆盖用户问题意图,包括用户明确提及的所有需求点(如时间、预算、偏好、人数等)",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "完整性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "大模型回复是否完整覆盖用户问题意图,包括用户明确提及的所有需求点(如时间、预算、偏好、人数等)。",
|
|
15
|
+
"instruct": "5分:回复内容覆盖用户所有意图,无任何信息缺失遗漏。所有用户明确提及的需求点均被覆盖\n3分:回复信息无关键意图信息缺失,但存在部分非关键意图信息缺失。核心需求已覆盖,但次要需求有遗漏(如具体酒店档次未说明)\n1分:回复信息出现关键信息缺失或用户意图覆盖度低于80%。遗漏核心需求(如预算限制未考虑、关键景点遗漏)\n\n特殊场景评分建议:\n用户说\"\"帮我规划3天北京行程,预算2000元,喜欢历史文化\"\",若回复未提及预算或预算超标 → 1分\n若用户需求包含时间/地点/预算/偏好4个要素,遗漏2个以上 → 1分",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.25
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "形式相关性",
|
|
3
|
+
"description": "助手响应内容的形式是否满足要求。注意:只关注助手响应内容的形式,忽略用户问题。其中,旅游行程攻略是指为旅行者定制的详细计划指南,旨在通过整合目的地信息如交通、住宿、景点、餐饮等优化行程安排,提升旅行体验,不能是视频脚本或景点清单",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "形式相关性",
|
|
6
|
+
"type": "llm-judge",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "助手响应内容的形式是否满足要求。注意:只关注助手响应内容的形式,忽略用户问题。\r\n其中,旅游行程攻略是指为旅行者定制的详细计划指南,旨在通过整合目的地信息如交通、住宿、景点、餐饮等优化行程安排,提升旅行体验,不能是视频脚本或景点清单。",
|
|
15
|
+
"instruct": "助手响应内容是否为旅游行程攻略,是通过,否不通过。",
|
|
16
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\r\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\r\n\r\n请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 准确把握当前的维度说明和评判标准等,区分是客观判断还是主观评分。\r\n 4. 以裁判的视角结合场景和评判维度对助手响应进行评判。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评分标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.1
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "忠诚度",
|
|
3
|
+
"description": "回复结果涉及到搜索带有溯源的标识的内容进行检测(如引用链接、来源标识等)。可以通过关键信息对比回复内容与溯源标记的原文,判断其一致性",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "忠诚度",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "回复结果涉及到搜索带有溯源的标识的内容进行检测(如引用链接、来源标识等)。可以通过关键信息对比回复内容与溯源标记的原文,判断其一致性。",
|
|
15
|
+
"instruct": "5分:完全溯源:\r\n- 涉及搜索数据项(景点/交通/住宿等)100%标注完整来源标识,如\"故宫官网2024/5\"+\"链接可访问\"),存在0信源不匹配情况。\r\n- 标注的信源与内容逻辑一致(如某景点门票价格标注'XX景区官网',而非其他无关平台)\r\n\r\n3分:部分脱节:\r\n>=60%的标注内容信源匹配(不匹配的情况如天气数据标注'百科'而非气象网站)\r\n\r\n1分:大部分错误:\r\n<60%的标注内容信源匹配,大部分>=40以上不匹配\r\n如\r\n- 高铁时刻表标注'旅游博主'而非12306\r\n- 标注与内容无关的来源(如餐饮数据标注交通网站)\r\n- 系统性格式错误(如混用'XX网/网友推荐/数据显示'等非标准表述)",
|
|
16
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\r\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\r\n\r\n请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 准确把握当前的维度说明和评判标准等,区分是客观判断还是主观评分。\r\n 4. 以裁判的视角结合场景和评判维度对助手响应进行评判。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评分标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.1
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "指令遵循",
|
|
3
|
+
"description": "是否遵循用户指令的具体要求,包括输出格式(JSON、表格等)、字段要求、特殊约束等",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "指令遵循",
|
|
6
|
+
"type": "llm-judge",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "是否遵循用户指令的具体要求,包括输出格式(JSON、表格等)、字段要求、特殊约束等。",
|
|
15
|
+
"instruct": "通过:严格遵循所有指令要求。格式、字段、约束均符合用户要求\n不通过:未遵循指令要求。格式错误、字段缺失、违反约束",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.2
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "文本差异度-TER",
|
|
3
|
+
"description": "用于通过翻译编辑率(Translation Edit Rate)计算生成文本与参考文本之间的编辑距离,即插入、删除、替换词语的比例,用于衡量两者在字面形式上的差异程度",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "文本差异度-TER",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "用于通过翻译编辑率(Translation Edit Rate)计算生成文本与参考文本之间的编辑距离,即插入、删除、替换词语的比例,用于衡量两者在字面形式上的差异程度。",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.03,
|
|
18
|
+
"func": "TER"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "有效性",
|
|
3
|
+
"description": "大模型回复在实际场景是否可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "有效性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "大模型回复在实际场景是否可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值。",
|
|
15
|
+
"instruct": "5分:完美满足用户实用需求,且提供精准、高价值回答。推荐方案可直接使用,无需调整,并提供了额外价值信息\n3分:能够解决用户问题,但需要部分调整。方案基本可行,但存在需要用户自行调整的地方\n1分:完全无效,无法在实际场景中应用。推荐不可用(如酒店已停业、景点已关闭)或完全偏离需求\n\n特殊场景评分建议:\n推荐内容被截断或未生成完 → 1分\n推荐内容包含大量与用户需求无关的冗余信息 → 1分",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.25
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "有效性",
|
|
3
|
+
"description": "分析结论是否基于数据、是否有实际价值、是否可指导决策",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "有效性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "分析结论是否基于数据、是否有实际价值、是否可指导决策。",
|
|
15
|
+
"instruct": "5分:结论有深度洞察,基于数据,可指导决策。提供新颖观点或发现隐藏模式,具有实际应用价值\n3分:结论基本合理,基于数据,但缺乏深度。有基础分析和总结,但无独特洞察\n1分:结论缺乏数据支撑或无实际价值。仅罗列数据无分析,或结论与数据无关\n\n典型测试用例:\n用户:\"\"分析某行业竞争格局\"\"\n5分:识别出关键竞争者、分析各自优势、预测未来趋势\n1分:仅列出公司名称和市场份额,无分析",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.25
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "有效性",
|
|
3
|
+
"description": "流程是否完整执行、是否达成用户预设目标、是否产出有效结果",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "有效性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "流程是否完整执行、是否达成用户预设目标、是否产出有效结果。",
|
|
15
|
+
"instruct": "5分:流程完整执行,完美达成目标,产出高质量结果。所有步骤成功执行,结果符合预期且可用\n3分:流程基本执行,达成部分目标。主要步骤成功,部分步骤失败但核心目标达成\n1分:流程执行失败或未达成目标。执行中断、报错或结果不可用\n0分:完全未执行。未调用任何工具或API",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.3
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "有效性",
|
|
3
|
+
"description": "助手响应内容在实际场景可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "有效性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"func": "",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"weight": 0.35,
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "助手响应内容在实际场景可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值。",
|
|
17
|
+
"instruct": "5分:完整覆盖用户问题的所有要点,内容完整且不冗余,提供精准和高价值的回答。\n3分:覆盖大部分核心要点,回答基本解决用户问题但不够精准。\n1分:几乎未覆盖核心要点,回答无效或无价值。\n\n特殊场景评分建议:\n - 当助手响应内容被截断或终止,只能1分。\n - 当助手响应内容存在大量与用户问题无关的冗余,导致整体内容不可用,1分。\n 其中,表情符号、脚标和标签等附加信息不作为冗余。",
|
|
18
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
21
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "核心元素",
|
|
3
|
+
"description": "助手响应内容中核心元素的覆盖情况。其中,核心元素包含交通、景点信息、行程规划、住宿安排、饮食推荐,共5个核心元素",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "核心元素",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "助手响应内容中核心元素的覆盖情况。\r\n其中,核心元素包含交通、景点信息、行程规划、住宿安排、饮食推荐,共5个核心元素。",
|
|
15
|
+
"instruct": "5分:包含交通、景点信息、行程规划、住宿安排和饮食推荐。\r\n4分:包含交通、景点信息、行程规划3个核心元素,另加住宿安排或者饮食推荐中任一个。\r\n3分:包含交通、景点信息、行程规划三项3个核心元素,对住宿安排和饮食推荐不做要求。\r\n2分:包含交通、景点信息、行程规划中任两个核心元素,对住宿安排和饮食推荐不做要求。\r\n1分:包含交通、景点信息、行程规划中3个元素中任一个,对住宿安排和饮食推荐不做要求。\r\n0分:内容不包含交通、景点信息、行程规划的元素。",
|
|
16
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\r\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\r\n\r\n请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 准确把握当前的维度说明和评判标准等,区分是客观判断还是主观评分。\r\n 4. 以裁判的视角结合场景和评判维度对助手响应进行评判。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评分标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.25
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,19 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "格式遵循",
|
|
3
|
+
"description": "大模型回复格式是否符合json",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "格式遵循",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "大模型回复格式是否符合json",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": ""
|
|
16
|
+
},
|
|
17
|
+
"func": "JSONFORMAT"
|
|
18
|
+
}
|
|
19
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "特色亮点",
|
|
3
|
+
"description": "评估助手响应内容是否体现出此行程的地域独特性带来的情感价值体验",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "特色亮点",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "评估助手响应内容是否体现出此行程的地域独特性带来的情感价值体验。",
|
|
15
|
+
"instruct": "5分:超强心动,非去不可:\r\n 行程规划中展现的目的地亮点直击用户渴望,引发用户强烈兴奋、期待或幸福感,是行程的'非去不可'理由。\r\n4分:很想体验,明显吸引力:\r\n 行程规划中展现的目的地亮点能够唤起用户的兴趣和向往,让用户眼前一亮,产生明显的愉悦想象,是行程的重要吸引力。\r\n3分:有点兴趣,轻微好感:\r\n 行程规划中展现的目的地亮点可以给用户带来好感或好奇,但情绪波动不大,属于'可接受但不惊艳'的程度。\r\n2分:有亮点但不够打动人心:\r\n 行程规划中展现的亮点能引发用户短暂注意,但缺乏深入的情感共鸣点,存在感薄弱。\r\n1分:亮点普通,可有可无:\r\n 行程规划中展现的亮点平平无奇,几乎无法引发用户情绪共鸣,感觉可有可无。\r\n0分:下头了!负面情绪:\r\n 行程规划中描述的亮点冗杂或无特色,引发用户无聊、困惑甚至反感等负面情绪,降低出行欲。\r\n\r\n特殊场景评分建议:\r\n - 当助手响应内容未生成完、被截断或被终止,只能1分。\r\n - 当助手响应内容表示已生成所需内容,但实际无具体内容时,只能1分。",
|
|
16
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\r\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\r\n\r\n请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 准确把握当前的维度说明和评判标准等,区分是客观判断还是主观评分。\r\n 4. 以裁判的视角结合场景和评判维度对助手响应进行评判。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评分标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.1
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,25 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "有效性(用例级)",
|
|
3
|
+
"description": "基于评测要点评估助手回复的有效性,适用于需要对每条用例定制评测关注点的场景",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "有效性",
|
|
6
|
+
"type": "llm-judge",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"func": "",
|
|
9
|
+
"params": {
|
|
10
|
+
"temperature": 0
|
|
11
|
+
},
|
|
12
|
+
"weight": 1,
|
|
13
|
+
"prompt": {
|
|
14
|
+
"role": "你是一名资深的AI助手响应质量评估专家,专注于评估助手回复对评测要点的响应有效性。你能够敏锐地识别回复是否真正解决了评测要点中指出的核心关切,对语义理解、问题解决、信息传递等场景有深入的理解。",
|
|
15
|
+
"definition": "有效性是指助手的回复是否有效响应了评测要点中提出的具体关注点。\n具体而言,有效性包含以下几个核心要素:\n1. 针对性响应: 回复是否直接回应了评测要点中指出的最关切的问题\n2. 完整性覆盖: 回复是否覆盖了评测要点中提到的所有关键要素\n3. 实质性内容: 回复是否提供了具体、可操作的信息或解决方案\n4. 逻辑一致性: 回复与用户问题和上下文是否逻辑一致\n",
|
|
16
|
+
"instruct": "通过: 有效响应\n- 回复覆盖了评测要点中的主要关注点\n- 关键关注点有针对性的回应\n- 提供了具体、可操作的信息或解决方案\n- 整体方向正确,与上下文一致\n- 即使存在轻微不足,但核心评测要点得到有效响应\n\n不通过: 无效响应\n- 回复完全偏离或未响应评测要点\n- 关键关注点完全没有回应或回应严重不足\n- 提供的信息与评测要点无关\n- 整体方向错误或逻辑混乱\n- 核心评测要点未被有效覆盖\n",
|
|
17
|
+
"step": "请严格按照以下步骤进行评测。\n第一步: 理解评测背景\n仔细阅读评测要点,理解该轮对话的具体评测关注点。通常会明确指出该轮对话的主要评测维度 (如需求挖掘、产品推荐、异议处理等)和具体的评估检查点。\n\n第二步: 分析上下文信息\n结合对话历史和当前问题,理解用户的真实需求和意图、对话的背景和场景,以及用户的情绪状态和关注重点。\n\n第三步: 评估助手回复\n仔细分析助手的当前轮的回复,判断是否直接回应了评测要点中的关注点,回复的完整性和针对性如何,是否提供了具体、有价值的信息,回复与问题的上下文的逻辑一致性。\n\n第四步: 对照判断标准\n将助手回复与判断标准逐一对照,检查是否覆盖了核心评测要点,评估每个要点的响应深度和有效性,识别任何严重遗漏或不足之处,确认回复是否偏题或包含无关内容。\n\n第五步: 给出判断和理由\n基于以上分析,给出\"通过\"或\"不通过\"的判断,明确说明判断依据,指出有效的方面和不足的方面,确保判断客观、公正。\n",
|
|
18
|
+
"body": {
|
|
19
|
+
"keypoint": true,
|
|
20
|
+
"context": true,
|
|
21
|
+
"history": true
|
|
22
|
+
}
|
|
23
|
+
}
|
|
24
|
+
}
|
|
25
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "相似度-BERTScore",
|
|
3
|
+
"description": "基于BERT模型的语义相似度,评估大模型回复内容与预期是否语义一致",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "相似度-BERTScore",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "基于BERT模型的语义相似度,评估大模型回复内容与预期是否语义一致",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.4,
|
|
18
|
+
"func": "BERTScore"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "相似度-Cosine",
|
|
3
|
+
"description": "用于基于句子嵌入计算余弦相似度,评估生成文本与参考文本在整体语义与主题层面的一致性,反映两者的'语义距离'高低",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "相似度-Cosine",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "用于基于句子嵌入计算余弦相似度,评估生成文本与参考文本在整体语义与主题层面的一致性,反映两者的'语义距离'高低。",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.2,
|
|
18
|
+
"func": "COSINE"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "相似度-ROUGE",
|
|
3
|
+
"description": "基于最长公共子序列,评估大模型回复内容与预期是否语义一致",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "相似度-ROUGE",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "基于最长公共子序列,评估大模型回复内容与预期是否语义一致",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.03,
|
|
18
|
+
"func": "ROUGE"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "相关性",
|
|
3
|
+
"description": "推荐内容是否与用户需求强相关,是否紧扣用户问题回答,避免推荐无关或不合适的内容",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "相关性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "推荐内容是否与用户需求强相关,是否紧扣用户问题回答,避免推荐无关或不合适的内容。",
|
|
15
|
+
"instruct": "5分:回复内容完全针对用户问题,无任何无关内容。每个推荐项都符合用户需求,无偏题\n3分:回复内容回答用户主要问题,但包含部分不必要或略微偏离的内容。大部分推荐相关,但存在少量不相关项(如预算有限时推荐高价商品)\n1分:回复内容与用户问题毫无关联,或完全误解问题意图。推荐完全不符合需求(如用户要求海滨度假却推荐山区)",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.15
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "相关性",
|
|
3
|
+
"description": "助手响应是否和用户问题强相关,是否紧扣用户问题回答",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "相关性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"func": "",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"weight": 0.2,
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "助手响应是否和用户问题强相关,是否紧扣用户问题回答。",
|
|
17
|
+
"instruct": "5分:内容紧扣核心主题和意图,每一部分都直接服务于主旨,无任何冗余或离题。\n3分:回答核心问题,但部分内容模糊、简略或有少量无关信息,需用户自行筛选。\n1分:内容完全偏离核心主题或意图。",
|
|
18
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
21
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "精确性-BLUE",
|
|
3
|
+
"description": "用于基于n-gram精确度的翻译质量评估,计算大模型回复内容与预期内容的重叠程度",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "精确性-BLUE",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "用于基于n-gram精确度的翻译质量评估,计算大模型回复内容与预期内容的重叠程度",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.04,
|
|
18
|
+
"func": "BLEU"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "精确性-COMET",
|
|
3
|
+
"description": "用于基于上下文感知模型的翻译质量评估,从语义正确性、表达流畅度和忠实性三个维度综合判断生成文本是否准确传达参考文本的含义",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "精确性-COMET",
|
|
6
|
+
"type": "builtin",
|
|
7
|
+
"params": {
|
|
8
|
+
"answer": "answer",
|
|
9
|
+
"reference": "reference"
|
|
10
|
+
},
|
|
11
|
+
"prompt": {
|
|
12
|
+
"role": "",
|
|
13
|
+
"definition": "用于基于上下文感知模型的翻译质量评估,从语义正确性、表达流畅度和忠实性三个维度综合判断生成文本是否准确传达参考文本的含义。",
|
|
14
|
+
"instruct": "",
|
|
15
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
16
|
+
},
|
|
17
|
+
"weight": 0.3,
|
|
18
|
+
"func": "COMET"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "逻辑合理性",
|
|
3
|
+
"description": "规划的行程需符合逻辑合理性,包括逻辑与行程合理性,如时间合理,路线可执行,行程整体闭环",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "逻辑合理性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "规划的行程需符合逻辑合理性,包括逻辑与行程合理性,如时间合理,路线可执行,行程整体闭环。",
|
|
15
|
+
"instruct": "必须先设置分数上限并做细节检查,然后在分数上限范围内依据标准进行评分。\r\n其中,分数上限仅为基础,具体得分必须严格根据后续细节检查和评分标准调整,可能降至1分或0分,但不能超过分数上限。\r\n具体步骤如下:\r\n1. 设置分数上限: \r\n - 如果用户没有指定出发点,检查助手响应内容是否包含抵达目的地的交通方式,如果不包含,判定分数上限为2分(出发缺失)\r\n - 如果用户明确指定具体出发点,但助手响应内容缺失从该具体出发点到目的地的交通安排,判定分数上限为2分(出发点不一致)\r\n - 检查助手响应内容是否提及返程(只要提及即可,不需要具体安排),如果没有提及,判定分数上限为2分(返程缺失)\r\n2. 细节检查:\r\n - 评估前先强制检查以下细节,供后续评分参考:\r\n 1. 时间安排:是否过于紧凑(如夜间长途接驳),是否存在冲突(如时间重叠)\r\n 2. 路线合理性:是否跳跃、绕路或折返导致效率低下\r\n 3. 整体逻辑:是否严重混乱(如虚构元素、关键节点冲突)\r\n 4. 可执行性:行程是否脱离实际(如无法实现的交通衔接)\r\n3. 在分数上限范围内依据标准进行评分:\r\n 5分:\r\n 逻辑严谨:行程逻辑完美,时间分配科学,节奏舒缓有序,兼顾兴趣与体力分配。\r\n 闭环完整:出发到返程均无缺失,全流程闭合,每日行程过渡自然(如首日抵达住宿地、末日返程前无空白期),关键节点全明确(如航班/车次、住宿地点)。\r\n 4分:\r\n 逻辑通顺:行程框架合理,偶有小绕路,时间较充实但局部稍紧凑。\r\n 闭环完整:出发到返程均无缺失,主要流程闭合(如首尾交通明确),但个别跨天衔接未细化(如抵达次日的行程起点未明确)。\r\n 3分:\r\n 逻辑可接受:行程基本可行(如存在绕行或折返),时间安排存在部分紧凑/宽松失衡(如前半程过松/后半程仓促)。\r\n 闭环有缺口:跨天衔接存在断层(如某日结束后未明确次日起点),但核心流程无问题,出发到返程均无缺失。\r\n 2分:\r\n 逻辑混乱:行程跳跃混乱,时间冲突频发(如夜间长途接驳失误),景点分布跳跃导致效率低下。\r\n 闭环断裂:行程存在明显断层(如某日完全空白或交通断档),核心环节缺失,出发缺失或返程缺失。\r\n 1分:\r\n 逻辑严重缺陷:行程严重不合理,关键节点冲突(如交通延误风险高),闭环完全缺失,出发缺失或返程缺失。\r\n 0分:\r\n 毫无逻辑可言,完全脱离实际,虚构拼凑,无法执行。",
|
|
16
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\r\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\r\n\r\n请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 准确把握当前的维度说明和评判标准等,区分是客观判断还是主观评分。\r\n 4. 以裁判的视角结合场景和评判维度对助手响应进行评判。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评分标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.15
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "逻辑连贯性",
|
|
3
|
+
"description": "规划的时间、路线、顺序是否合理可执行,是否存在时间冲突、距离不合理等问题",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "逻辑连贯性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "规划的时间、路线、顺序是否合理可执行,是否存在时间冲突、距离不合理等问题。",
|
|
15
|
+
"instruct": "5分:结构清晰,逻辑严谨,时间、路线安排科学合理。行程时间充裕,路线顺畅无绕路,顺序合理\n3分:主干逻辑通顺,部分内容逻辑断层,衔接生硬,用户调整后可使用:存在轻微时间紧张或少量绕路,但基本可行\n1分:结构不合理,存在明显逻辑冲突或时间冲突。时间冲突(同时安排两个活动)、距离不合理(往返千里)\n\n特殊场景评分建议:\n存在时间冲突(同一时间段安排两个活动)→ 1分\n路线严重不合理(绕路导致时间浪费)→ 1分\n行程未闭环(出发或返程缺失)→ 1分",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.15
|
|
19
|
+
}
|
|
20
|
+
}
|