astron-eval 0.0.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/LICENSE +21 -0
- package/README.md +119 -0
- package/bin/astron-eval.mjs +111 -0
- package/package.json +24 -0
- package/skills/astron-eval/SKILL.md +60 -0
- package/skills/model-evaluation/SKILL.md +180 -0
- package/skills/model-evaluation/assets/dimensions//345/206/205/345/256/271/347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/206/205/345/256/271/347/262/276/347/241/256/347/273/264/345/272/246.json +19 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246-/346/227/205/346/270/270/345/207/272/350/241/214.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/207/206/347/241/256/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/210/233/346/204/217/346/200/247-/345/220/270/345/274/225/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//345/210/233/346/226/260/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/256/214/346/225/264/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/256/214/346/225/264/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/275/242/345/274/217/347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//345/277/240/350/257/232/345/272/246/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/214/207/344/273/244/351/201/265/345/276/252/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/226/207/346/234/254/345/267/256/345/274/202/345/272/246-TER/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246-/346/265/201/347/250/213/350/207/252/345/212/250/345/214/226.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/234/211/346/225/210/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//346/240/270/345/277/203/345/205/203/347/264/240/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//346/240/274/345/274/217/351/201/265/345/276/252/347/273/264/345/272/246.json +19 -0
- package/skills/model-evaluation/assets/dimensions//347/211/271/350/211/262/344/272/256/347/202/271/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/224/250/344/276/213/347/272/247/350/257/204/346/265/213/347/273/264/345/272/246/346/250/241/346/235/277.json +25 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-BERTScore/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-Cosine/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/344/274/274/345/272/246-ROUGE/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/345/205/263/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/233/270/345/205/263/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/dimensions//347/262/276/347/241/256/346/200/247-BLUE/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//347/262/276/347/241/256/346/200/247-COMET/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/345/220/210/347/220/206/346/200/247/347/273/264/345/272/246.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/344/270/252/346/200/247/345/214/226/350/247/204/345/210/222.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/344/277/241/346/201/257/345/210/206/346/236/220.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246-/346/265/201/347/250/213/350/207/252/345/212/250/345/214/226.json +20 -0
- package/skills/model-evaluation/assets/dimensions//351/200/273/350/276/221/350/277/236/350/264/257/346/200/247/347/273/264/345/272/246.json +21 -0
- package/skills/model-evaluation/assets/eval-judge.json +11 -0
- package/skills/model-evaluation/assets/experts/business-process-automation.json +71 -0
- package/skills/model-evaluation/assets/experts/content-generation.json +75 -0
- package/skills/model-evaluation/assets/experts/content-match.json +37 -0
- package/skills/model-evaluation/assets/experts/information-analysis.json +87 -0
- package/skills/model-evaluation/assets/experts/marketing-digital-human.json +27 -0
- package/skills/model-evaluation/assets/experts/personalized-planning.json +87 -0
- package/skills/model-evaluation/assets/experts/text-translation.json +103 -0
- package/skills/model-evaluation/assets/experts/tourism-travel.json +119 -0
- package/skills/model-evaluation/assets/templates/custom-dimension.template.json +30 -0
- package/skills/model-evaluation/eval-build.md +281 -0
- package/skills/model-evaluation/eval-execute.md +196 -0
- package/skills/model-evaluation/eval-init.md +237 -0
- package/skills/model-evaluation/processes/dimension-process.md +207 -0
- package/skills/model-evaluation/processes/evalset-create-process.md +184 -0
- package/skills/model-evaluation/processes/evalset-parse-process.md +171 -0
- package/skills/model-evaluation/processes/evalset-supplement-process.md +136 -0
- package/skills/model-evaluation/processes/keypoint-process.md +148 -0
- package/skills/model-evaluation/processes/python-env-process.md +113 -0
- package/skills/model-evaluation/references//344/270/255/351/227/264/344/272/247/347/211/251/350/257/264/346/230/216.md +340 -0
- package/skills/model-evaluation/references//345/206/205/347/275/256/346/250/241/346/235/277/350/257/264/346/230/216.md +149 -0
- package/skills/model-evaluation/references//350/204/232/346/234/254/345/256/232/344/271/211.md +274 -0
- package/skills/model-evaluation/references//350/256/244/350/257/201/346/234/215/345/212/241/346/216/245/345/217/243/350/257/264/346/230/216.md +271 -0
- package/skills/model-evaluation/references//350/257/204/346/265/213/346/234/215/345/212/241/346/216/245/345/217/243/350/257/264/346/230/216.md +455 -0
- package/skills/model-evaluation/references//350/257/204/346/265/213/347/273/264/345/272/246/350/257/264/346/230/216.md +171 -0
- package/skills/model-evaluation/scripts/cfg/eval-auth.cfg +16 -0
- package/skills/model-evaluation/scripts/cfg/eval-server.cfg +1 -0
- package/skills/model-evaluation/scripts/clients/__init__.py +33 -0
- package/skills/model-evaluation/scripts/clients/api_client.py +97 -0
- package/skills/model-evaluation/scripts/clients/auth_client.py +96 -0
- package/skills/model-evaluation/scripts/clients/http_client.py +199 -0
- package/skills/model-evaluation/scripts/clients/oauth_callback.py +397 -0
- package/skills/model-evaluation/scripts/clients/token_manager.py +53 -0
- package/skills/model-evaluation/scripts/eval_auth.py +588 -0
- package/skills/model-evaluation/scripts/eval_dimension.py +240 -0
- package/skills/model-evaluation/scripts/eval_set.py +410 -0
- package/skills/model-evaluation/scripts/eval_task.py +324 -0
- package/skills/model-evaluation/scripts/files/__init__.py +38 -0
- package/skills/model-evaluation/scripts/files/file_utils.py +330 -0
- package/skills/model-evaluation/scripts/files/streaming.py +245 -0
- package/skills/model-evaluation/scripts/utils/__init__.py +128 -0
- package/skills/model-evaluation/scripts/utils/constants.py +101 -0
- package/skills/model-evaluation/scripts/utils/datetime_utils.py +60 -0
- package/skills/model-evaluation/scripts/utils/errors.py +244 -0
- package/skills/model-evaluation/scripts/utils/keypoint_prompts.py +73 -0
- package/skills/skill-driven-eval/SKILL.md +456 -0
- package/skills/skill-driven-eval/agents/grader.md +144 -0
- package/skills/skill-driven-eval/eval-viewer/__init__.py +1 -0
- package/skills/skill-driven-eval/eval-viewer/generate_report.py +485 -0
- package/skills/skill-driven-eval/eval-viewer/viewer.html +767 -0
- package/skills/skill-driven-eval/references/schemas.md +282 -0
- package/skills/skill-driven-eval/scripts/__init__.py +1 -0
- package/skills/skill-driven-eval/scripts/__main__.py +70 -0
- package/skills/skill-driven-eval/scripts/aggregate_results.py +681 -0
- package/skills/skill-driven-eval/scripts/extract_transcript.py +294 -0
- package/skills/skill-driven-eval/scripts/test_aggregate.py +244 -0
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "逻辑连贯性",
|
|
3
|
+
"description": "分析过程的逻辑性,结论的推理合理性,数据与结论之间的因果关系是否清晰",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "逻辑连贯性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "分析过程的逻辑性,结论的推理合理性,数据与结论之间的因果关系是否清晰。",
|
|
15
|
+
"instruct": "5分:分析过程逻辑严谨,论证充分,结论有充分数据支撑。每个结论都有数据支撑,推理链条清晰\n3分:主干逻辑通顺,部分论证不够充分。主要结论有支撑,但部分分析缺乏深度\n1分:逻辑混乱,结论缺乏数据支撑或存在前后矛盾。结论与数据不匹配,推理跳跃或错误\n\n典型测试用例:\n用户:\"\"分析某公司Q3财报\"\"\n5分:逐项分析收入/成本/利润变化,给出趋势判断和原因分析\n1分:仅罗列数据,或结论与数据矛盾(如\"\"收入下降但业绩优秀\"\")",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.2
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,20 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "逻辑连贯性",
|
|
3
|
+
"description": "多步骤流程编排的合理性,工具调用顺序是否符合逻辑,是否存在前后矛盾或循环依赖",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "逻辑连贯性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"params": {
|
|
9
|
+
"answer": "answer",
|
|
10
|
+
"reference": "reference"
|
|
11
|
+
},
|
|
12
|
+
"prompt": {
|
|
13
|
+
"role": "",
|
|
14
|
+
"definition": "多步骤流程编排的合理性,工具调用顺序是否符合逻辑,是否存在前后矛盾或循环依赖。",
|
|
15
|
+
"instruct": "5分:流程编排逻辑严谨,顺序合理,无冗余步骤。工具调用顺序符合业务逻辑,步骤简洁高效\n3分:主干逻辑通顺,存在少量冗余或顺序不够优化。流程基本合理,但存在可优化的地方\n1分:流程编排混乱,顺序错误或存在循环依赖。调用顺序不合理(如先更新后查询)、存在死循环\n\n典型测试用例:\n多步骤流程:用户要求\"\"查询用户信息并更新余额\"\"\n5分:先查询用户信息 → 验证用户存在 → 更新余额\n1分:先更新余额 → 查询用户信息(顺序错误)",
|
|
16
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
17
|
+
},
|
|
18
|
+
"weight": 0.2
|
|
19
|
+
}
|
|
20
|
+
}
|
|
@@ -0,0 +1,21 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "逻辑连贯性",
|
|
3
|
+
"description": "助手响应内容组织合理、推理逻辑合理、内容连贯且上下文衔接流畅",
|
|
4
|
+
"config": {
|
|
5
|
+
"name": "逻辑连贯性",
|
|
6
|
+
"type": "llm-score",
|
|
7
|
+
"judge_id": "",
|
|
8
|
+
"func": "",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"weight": 0.2,
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "助手响应内容组织合理、推理逻辑合理、内容连贯且上下文衔接流畅。",
|
|
17
|
+
"instruct": "5分:结构严谨,逻辑清晰,论证充分。\n3分:主干逻辑通顺,部分内容衔接生硬,逻辑断层,用户调整后可使用。\n1分:逻辑断裂,内容前后冲突,无合理结构。\n\n特殊场景评分建议:\n - 检测助手响应内容在时间线上的逻辑是否连贯,避免存在明显的时间冲突对用户理解造成困扰,否则评1分。\n 注意,以下情况不判定为时间线冲突\n (1)你自身认为的当前时间可能不准确,不作为参考依据。\n (2)'今日''现在'等相对时间宽容处理:不因出现'今天''现在'等模糊时间词判定冲突。\n (3)无关联时间冲突排除:若多个时间或日期在叙述中彼此独立、不构成因果或顺承关系(如多个不相关的标题、不同场景的回忆),不判定为冲突。",
|
|
18
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
}
|
|
20
|
+
}
|
|
21
|
+
}
|
|
@@ -0,0 +1,71 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "企业流程自动化",
|
|
3
|
+
"description": "聚焦工具调用准确性、多步编排能力、异常处理能力,评测模型在企业流程自动化中的执行成功率与稳定性。",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "准确性",
|
|
8
|
+
"type": "llm-score",
|
|
9
|
+
"judge_id": "",
|
|
10
|
+
"params": {
|
|
11
|
+
"answer": "answer",
|
|
12
|
+
"reference": "reference"
|
|
13
|
+
},
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "工具调用准确性:工具名称、参数值、调用顺序是否正确\n输出结果准确性:执行结果是否符合预期(SQL语句、判罚结果、生成内容等)",
|
|
17
|
+
"instruct": "5分:工具调用完全正确,输出结果完全准确。工具名称、参数、顺序均正确,结果符合预期\n3分:次要参数错误,但核心功能正确。工具名称和关键参数正确,次要参数有瑕疵,结果基本可用\n1分:工具名称错误或关键参数错误。调用了错误的工具或关键参数错误,导致执行失败或结果错误\n0分:API调用失败或未调用工具。无法执行任务\n\n典型测试用例:\nText2SQL场景:\n用户:\"\"查询销售额大于10000的产品\"\"\n期望SQL:SELECT * FROM products WHERE sales > 10000\n5分:生成正确的SQL并返回正确结果\n1分:SQL语法错误或查询结果错误",
|
|
18
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
},
|
|
20
|
+
"weight": 0.3
|
|
21
|
+
},
|
|
22
|
+
{
|
|
23
|
+
"name": "有效性",
|
|
24
|
+
"type": "llm-score",
|
|
25
|
+
"judge_id": "",
|
|
26
|
+
"params": {
|
|
27
|
+
"answer": "answer",
|
|
28
|
+
"reference": "reference"
|
|
29
|
+
},
|
|
30
|
+
"prompt": {
|
|
31
|
+
"role": "",
|
|
32
|
+
"definition": "流程是否完整执行、是否达成用户预设目标、是否产出有效结果。",
|
|
33
|
+
"instruct": "5分:流程完整执行,完美达成目标,产出高质量结果。所有步骤成功执行,结果符合预期且可用\n3分:流程基本执行,达成部分目标。主要步骤成功,部分步骤失败但核心目标达成\n1分:流程执行失败或未达成目标。执行中断、报错或结果不可用\n0分:完全未执行。未调用任何工具或API",
|
|
34
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
35
|
+
},
|
|
36
|
+
"weight": 0.3
|
|
37
|
+
},
|
|
38
|
+
{
|
|
39
|
+
"name": "逻辑连贯性",
|
|
40
|
+
"type": "llm-score",
|
|
41
|
+
"judge_id": "",
|
|
42
|
+
"params": {
|
|
43
|
+
"answer": "answer",
|
|
44
|
+
"reference": "reference"
|
|
45
|
+
},
|
|
46
|
+
"prompt": {
|
|
47
|
+
"role": "",
|
|
48
|
+
"definition": "多步骤流程编排的合理性,工具调用顺序是否符合逻辑,是否存在前后矛盾或循环依赖。",
|
|
49
|
+
"instruct": "5分:流程编排逻辑严谨,顺序合理,无冗余步骤。工具调用顺序符合业务逻辑,步骤简洁高效\n3分:主干逻辑通顺,存在少量冗余或顺序不够优化。流程基本合理,但存在可优化的地方\n1分:流程编排混乱,顺序错误或存在循环依赖。调用顺序不合理(如先更新后查询)、存在死循环\n\n典型测试用例:\n多步骤流程:用户要求\"\"查询用户信息并更新余额\"\"\n5分:先查询用户信息 → 验证用户存在 → 更新余额\n1分:先更新余额 → 查询用户信息(顺序错误)",
|
|
50
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
51
|
+
},
|
|
52
|
+
"weight": 0.2
|
|
53
|
+
},
|
|
54
|
+
{
|
|
55
|
+
"name": "指令遵循",
|
|
56
|
+
"type": "llm-judge",
|
|
57
|
+
"judge_id": "",
|
|
58
|
+
"params": {
|
|
59
|
+
"answer": "answer",
|
|
60
|
+
"reference": "reference"
|
|
61
|
+
},
|
|
62
|
+
"prompt": {
|
|
63
|
+
"role": "",
|
|
64
|
+
"definition": "是否遵循用户指令的具体要求,包括输出格式(JSON、表格等)、字段要求、特殊约束等。",
|
|
65
|
+
"instruct": "通过:严格遵循所有指令要求。格式、字段、约束均符合用户要求\n不通过:未遵循指令要求。格式错误、字段缺失、违反约束",
|
|
66
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
67
|
+
},
|
|
68
|
+
"weight": 0.2
|
|
69
|
+
}
|
|
70
|
+
]
|
|
71
|
+
}
|
|
@@ -0,0 +1,75 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "内容创造",
|
|
3
|
+
"description": "基于多维度指标,对模型生成的文本内容进行系统性检验与量化评估",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "相关性",
|
|
8
|
+
"type": "llm-score",
|
|
9
|
+
"judge_id": "",
|
|
10
|
+
"func": "",
|
|
11
|
+
"params": {
|
|
12
|
+
"answer": "answer",
|
|
13
|
+
"reference": "reference"
|
|
14
|
+
},
|
|
15
|
+
"weight": 0.2,
|
|
16
|
+
"prompt": {
|
|
17
|
+
"role": "",
|
|
18
|
+
"definition": "助手响应是否和用户问题强相关,是否紧扣用户问题回答。",
|
|
19
|
+
"instruct": "5分:内容紧扣核心主题和意图,每一部分都直接服务于主旨,无任何冗余或离题。\n3分:回答核心问题,但部分内容模糊、简略或有少量无关信息,需用户自行筛选。\n1分:内容完全偏离核心主题或意图。",
|
|
20
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
21
|
+
}
|
|
22
|
+
},
|
|
23
|
+
{
|
|
24
|
+
"name": "逻辑连贯性",
|
|
25
|
+
"type": "llm-score",
|
|
26
|
+
"judge_id": "",
|
|
27
|
+
"func": "",
|
|
28
|
+
"params": {
|
|
29
|
+
"answer": "answer",
|
|
30
|
+
"reference": "reference"
|
|
31
|
+
},
|
|
32
|
+
"weight": 0.2,
|
|
33
|
+
"prompt": {
|
|
34
|
+
"role": "",
|
|
35
|
+
"definition": "助手响应内容组织合理、推理逻辑合理、内容连贯且上下文衔接流畅。",
|
|
36
|
+
"instruct": "5分:结构严谨,逻辑清晰,论证充分。\n3分:主干逻辑通顺,部分内容衔接生硬,逻辑断层,用户调整后可使用。\n1分:逻辑断裂,内容前后冲突,无合理结构。\n\n特殊场景评分建议:\n - 检测助手响应内容在时间线上的逻辑是否连贯,避免存在明显的时间冲突对用户理解造成困扰,否则评1分。\n 注意,以下情况不判定为时间线冲突\n (1)你自身认为的当前时间可能不准确,不作为参考依据。\n (2)'今日''现在'等相对时间宽容处理:不因出现'今天''现在'等模糊时间词判定冲突。\n (3)无关联时间冲突排除:若多个时间或日期在叙述中彼此独立、不构成因果或顺承关系(如多个不相关的标题、不同场景的回忆),不判定为冲突。",
|
|
37
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
38
|
+
}
|
|
39
|
+
},
|
|
40
|
+
{
|
|
41
|
+
"name": "创意性/吸引性",
|
|
42
|
+
"type": "llm-score",
|
|
43
|
+
"judge_id": "",
|
|
44
|
+
"func": "",
|
|
45
|
+
"params": {
|
|
46
|
+
"answer": "answer",
|
|
47
|
+
"reference": "reference"
|
|
48
|
+
},
|
|
49
|
+
"weight": 0.25,
|
|
50
|
+
"prompt": {
|
|
51
|
+
"role": "",
|
|
52
|
+
"definition": "结合对话场景评估助手的回答是否有吸引力、趣味性或新奇度,语言表达与创意能否抓住用户。",
|
|
53
|
+
"instruct": "5分:内容有创意,具备吸引性/趣味性/新奇度等。\n1分:内容无创意,不具备吸引性/趣味性/新奇度等。\n\n特殊场景评分建议:\n - 表述常规或没有创意,1分。",
|
|
54
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
55
|
+
}
|
|
56
|
+
},
|
|
57
|
+
{
|
|
58
|
+
"name": "有效性",
|
|
59
|
+
"type": "llm-score",
|
|
60
|
+
"judge_id": "",
|
|
61
|
+
"func": "",
|
|
62
|
+
"params": {
|
|
63
|
+
"answer": "answer",
|
|
64
|
+
"reference": "reference"
|
|
65
|
+
},
|
|
66
|
+
"weight": 0.35,
|
|
67
|
+
"prompt": {
|
|
68
|
+
"role": "",
|
|
69
|
+
"definition": "助手响应内容在实际场景可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值。",
|
|
70
|
+
"instruct": "5分:完整覆盖用户问题的所有要点,内容完整且不冗余,提供精准和高价值的回答。\n3分:覆盖大部分核心要点,回答基本解决用户问题但不够精准。\n1分:几乎未覆盖核心要点,回答无效或无价值。\n\n特殊场景评分建议:\n - 当助手响应内容被截断或终止,只能1分。\n - 当助手响应内容存在大量与用户问题无关的冗余,导致整体内容不可用,1分。\n 其中,表情符号、脚标和标签等附加信息不作为冗余。",
|
|
71
|
+
"step": "注意,整个评判过程必须只考虑该评测维度,并严格遵循评分标准和评分建议进行评分。\n另外,整个评判过程必须忽略用户对字数的要求和限制,不考虑助手响应是否满足字数要求。\n\n请遵循下面的步骤进行评判:\n 1. 深入分析用户问题: 识别用户的具体诉求,评估问题意图的明确性,并检查是否存在明显错误。\n 2. 深入分析助手响应: 结合对话场景,全面评估助手响应的内容、逻辑和效果。\n 3. 深入理解维度说明和评判标准: 准确把握当前的评估点、关键要素、评分标准和评分建议。\n 4. 罗列潜在不足: 针对当前评测维度,尽可能详尽地列举助手响应中存在的任何不足之处,为后续评分提供充分依据。\n 5. 检查特殊场景:\n * 识别对话是否满足特殊场景评分建议中的特殊场景。\n * 如满足:\n * 取该特殊场景对应的建议分。\n * 如同时满足多个特殊场景:取所有适用建议分中的最低分。\n * 输出:先清晰陈述评分的依据(即满足的具体特殊场景及对应的建议分规则),再明确给出评分结果。\n 6. 常规评分(不满足特殊场景):\n * 严格依据评测维度的评估点和评分标准,评估助手响应的符合程度。\n * 输出: 先详细阐述评分的依据(对照评估点和标准,说明响应符合或不符合的具体表现),再明确给出评分结果。\n 7. 5分强制复核:\n * 无论通过步骤5还是步骤6,只要评分结果达到5分:\n * 你必须再次严格审视:评分依据与最终给出的5分结果是否完全符合评分标准且不存在任何逻辑矛盾。\n * 如发现任何不符或矛盾:\n * 必须依据标准重新评估。\n * 明确说明调整原因(指出原评分依据与标准的具体矛盾点或不足之处)。\n * 给出降低后的评分结果及其依据。\n 8. 输出内容和格式:\n * 评分结果只能是评分标准中列举的分数值。\n * 严格按照输出格式要求提供最终的输出内容。"
|
|
72
|
+
}
|
|
73
|
+
}
|
|
74
|
+
]
|
|
75
|
+
}
|
|
@@ -0,0 +1,37 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "内容匹配",
|
|
3
|
+
"description": "通过计算模型输出与真实标注文本之间的相似度(如 ROUGE、BLEU 等),评测其在标准问答、选择题、简答题等场景下的表现。",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "内容精确",
|
|
8
|
+
"type": "builtin",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"prompt": {
|
|
14
|
+
"role": "",
|
|
15
|
+
"definition": "大模型回复是否符合预期",
|
|
16
|
+
"instruct": "",
|
|
17
|
+
"step": ""
|
|
18
|
+
},
|
|
19
|
+
"func": "EQUAL"
|
|
20
|
+
},
|
|
21
|
+
{
|
|
22
|
+
"name": "格式遵循",
|
|
23
|
+
"type": "builtin",
|
|
24
|
+
"params": {
|
|
25
|
+
"answer": "answer",
|
|
26
|
+
"reference": "reference"
|
|
27
|
+
},
|
|
28
|
+
"prompt": {
|
|
29
|
+
"role": "",
|
|
30
|
+
"definition": "大模型回复格式是否符合json",
|
|
31
|
+
"instruct": "",
|
|
32
|
+
"step": ""
|
|
33
|
+
},
|
|
34
|
+
"func": "JSONFORMAT"
|
|
35
|
+
}
|
|
36
|
+
]
|
|
37
|
+
}
|
|
@@ -0,0 +1,87 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "信息聚合分析",
|
|
3
|
+
"description": "以信息收集完整性、数据准确性、分析深度与结论有效性为基础,衡量模型的信息聚合分析能力。",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "逻辑连贯性",
|
|
8
|
+
"type": "llm-score",
|
|
9
|
+
"judge_id": "",
|
|
10
|
+
"params": {
|
|
11
|
+
"answer": "answer",
|
|
12
|
+
"reference": "reference"
|
|
13
|
+
},
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "分析过程的逻辑性,结论的推理合理性,数据与结论之间的因果关系是否清晰。",
|
|
17
|
+
"instruct": "5分:分析过程逻辑严谨,论证充分,结论有充分数据支撑。每个结论都有数据支撑,推理链条清晰\n3分:主干逻辑通顺,部分论证不够充分。主要结论有支撑,但部分分析缺乏深度\n1分:逻辑混乱,结论缺乏数据支撑或存在前后矛盾。结论与数据不匹配,推理跳跃或错误\n\n典型测试用例:\n用户:\"\"分析某公司Q3财报\"\"\n5分:逐项分析收入/成本/利润变化,给出趋势判断和原因分析\n1分:仅罗列数据,或结论与数据矛盾(如\"\"收入下降但业绩优秀\"\")",
|
|
18
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
19
|
+
},
|
|
20
|
+
"weight": 0.2
|
|
21
|
+
},
|
|
22
|
+
{
|
|
23
|
+
"name": "准确性",
|
|
24
|
+
"type": "llm-score",
|
|
25
|
+
"judge_id": "",
|
|
26
|
+
"params": {
|
|
27
|
+
"answer": "answer",
|
|
28
|
+
"reference": "reference"
|
|
29
|
+
},
|
|
30
|
+
"prompt": {
|
|
31
|
+
"role": "",
|
|
32
|
+
"definition": "聚合的数据是否准确,引用的数据是否正确,是否存在虚构或错误数据。",
|
|
33
|
+
"instruct": "5分:完全准确,90%及以上数据正确。所有引用数据均正确,来源可靠\n3分:正确率在60%-90%之间(左闭右开)。大部分数据准确,存在少量次要数据错误\n1分:正确率低于60%。多数数据错误或关键数据错误",
|
|
34
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
35
|
+
},
|
|
36
|
+
"weight": 0.25
|
|
37
|
+
},
|
|
38
|
+
{
|
|
39
|
+
"name": "有效性",
|
|
40
|
+
"type": "llm-score",
|
|
41
|
+
"judge_id": "",
|
|
42
|
+
"params": {
|
|
43
|
+
"answer": "answer",
|
|
44
|
+
"reference": "reference"
|
|
45
|
+
},
|
|
46
|
+
"prompt": {
|
|
47
|
+
"role": "",
|
|
48
|
+
"definition": "分析结论是否基于数据、是否有实际价值、是否可指导决策。",
|
|
49
|
+
"instruct": "5分:结论有深度洞察,基于数据,可指导决策。提供新颖观点或发现隐藏模式,具有实际应用价值\n3分:结论基本合理,基于数据,但缺乏深度。有基础分析和总结,但无独特洞察\n1分:结论缺乏数据支撑或无实际价值。仅罗列数据无分析,或结论与数据无关\n\n典型测试用例:\n用户:\"\"分析某行业竞争格局\"\"\n5分:识别出关键竞争者、分析各自优势、预测未来趋势\n1分:仅列出公司名称和市场份额,无分析",
|
|
50
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
51
|
+
},
|
|
52
|
+
"weight": 0.25
|
|
53
|
+
},
|
|
54
|
+
{
|
|
55
|
+
"name": "完整性",
|
|
56
|
+
"type": "llm-score",
|
|
57
|
+
"judge_id": "",
|
|
58
|
+
"params": {
|
|
59
|
+
"answer": "answer",
|
|
60
|
+
"reference": "reference"
|
|
61
|
+
},
|
|
62
|
+
"prompt": {
|
|
63
|
+
"role": "",
|
|
64
|
+
"definition": "是否覆盖用户问题的所有维度,是否遗漏关键分析点。",
|
|
65
|
+
"instruct": "5分:完整覆盖用户所有分析维度,无遗漏。用户要求的所有分析点均被覆盖\n3分:覆盖主要分析维度,次要维度有遗漏。核心分析已完成,部分细节分析缺失\n1分:遗漏关键分析维度。用户明确要求的分析点缺失\n\n典型测试用例:\n用户:\"\"分析某产品的市场表现(用户、销量、评价、趋势)\"\"\n5分:覆盖用户群体、销量数据、用户评价、趋势预测4个维度\n1分:仅分析销量,遗漏其他3个维度",
|
|
66
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
67
|
+
},
|
|
68
|
+
"weight": 0.2
|
|
69
|
+
},
|
|
70
|
+
{
|
|
71
|
+
"name": "创新性",
|
|
72
|
+
"type": "llm-score",
|
|
73
|
+
"judge_id": "",
|
|
74
|
+
"params": {
|
|
75
|
+
"answer": "answer",
|
|
76
|
+
"reference": "reference"
|
|
77
|
+
},
|
|
78
|
+
"prompt": {
|
|
79
|
+
"role": "",
|
|
80
|
+
"definition": "是否提供新颖的洞察、独特的视角、创新的分析方法。",
|
|
81
|
+
"instruct": "5分:有深度洞察,发现隐藏模式,提供独特视角。分析角度新颖,发现常人未注意的规律\n3分:有基本分析,创新点较常规。分析角度常规,无明显新意\n1分:仅罗列数据,无创新。仅做数据汇总,无分析或洞察",
|
|
82
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。\n\n\n"
|
|
83
|
+
},
|
|
84
|
+
"weight": 0.1
|
|
85
|
+
}
|
|
86
|
+
]
|
|
87
|
+
}
|
|
@@ -0,0 +1,27 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "营销数字人评测",
|
|
3
|
+
"description": "虚拟人多轮对话有效性评测配置,本评测任务旨在评估虚拟人客服对用户问题的回复有效性。\n有效性是指助手的回复是否有效响应了评测要点中提出的具体关注点,即是否针对评测要点中明确提出的关注事项进行了恰当、有效的回复。\n",
|
|
4
|
+
"type": "定制用例级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "有效性",
|
|
8
|
+
"type": "llm-judge",
|
|
9
|
+
"judge_id": "",
|
|
10
|
+
"weight": 1,
|
|
11
|
+
"params": {
|
|
12
|
+
"temperature": 0
|
|
13
|
+
},
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "你是一名资深的客服对话质量评估专家,专注于评估虚拟客服对用户需求的响应有效性。你拥有丰富的客户服务经验,能够敏锐地识别客服回复是否真正解决了用户的核心关切。你对销售转化、用户需求挖掘、异议处理等客服场景有深入的理解。",
|
|
16
|
+
"definition": "有效性是指助手的回复是否有效响应了评测要点中提出的具体关注点。\n具体而言, 有效性包含以下几个核心要素:\n1. 针对性响应: 回复是否直接回应了评测要点中指出的最关切的问题\n2. 完整性覆盖: 回复是否覆盖了评测要点中提到的所有关键要素\n3. 实质性内容: 回复是否提供了具体、可操作的信息或解决方案\n4. 逻辑一致性: 回复与用户问题和上下文是否逻辑一致\n",
|
|
17
|
+
"instruct": "通过: 有效响应\n- 回复覆盖了评测要点中的主要关注点\n- 关键关注点有针对性的回应\n- 提供了具体、可操作的信息或解决方案\n- 整体方向正确,与上下文一致\n- 即使存在轻微不足,但核心评测要点得到有效响应\n\n不通过: 无效响应\n- 回复完全偏离或未响应评测要点\n- 关键关注点完全没有回应或回应严重不足\n- 提供的信息与评测要点无关\n- 整体方向错误或逻辑混乱\n- 核心评测要点未被有效覆盖\n",
|
|
18
|
+
"step": "请严格按照以下步骤进行评测。\n第一步: 理解评测背景\n仔细阅读评测要点,理解该轮对话的具体评测关注点。通常会明确指出该轮对话的主要评测维度 (如需求挖掘、产品推荐、异议处理等)和具体的评估检查点。\n\n第二步: 分析上下文信息\n结合对话历史和当前问题,理解用户的真实需求和意图、对话的背景和场景,以及用户的情绪状态和关注重点。\n\n第三步: 评估助手回复\n仔细分析助手的当前轮的回复,判断是否直接回应了评测要点中的关注点,回复的完整性和针对性如何,是否提供了具体、有价值的信息,回复与问题的上下文的逻辑一致性。\n\n第四步: 对照判断标准\n将助手回复与判断标准逐一对照,检查是否覆盖了核心评测要点,评估每个要点的响应深度和有效性,识别任何严重遗漏或不足之处,确认回复是否偏题或包含无关内容。\n\n第五步: 给出判断和理由\n基于以上分析,给出\"通过\"或\"不通过\"的判断,明确说明判断依据,指出有效的方面和不足的方面,确保判断客观、公正。\n",
|
|
19
|
+
"body": {
|
|
20
|
+
"keypoint": true,
|
|
21
|
+
"context": true,
|
|
22
|
+
"history": true
|
|
23
|
+
}
|
|
24
|
+
}
|
|
25
|
+
}
|
|
26
|
+
]
|
|
27
|
+
}
|
|
@@ -0,0 +1,87 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "个性化规划与推荐",
|
|
3
|
+
"description": "立足用户画像与任务目标,以匹配精准度、规划合理性、推荐可用性为核心,评测模型个性化规划与推荐能力。",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "完整性",
|
|
8
|
+
"type": "llm-score",
|
|
9
|
+
"judge_id": "",
|
|
10
|
+
"params": {
|
|
11
|
+
"answer": "answer",
|
|
12
|
+
"reference": "reference"
|
|
13
|
+
},
|
|
14
|
+
"prompt": {
|
|
15
|
+
"role": "",
|
|
16
|
+
"definition": "大模型回复是否完整覆盖用户问题意图,包括用户明确提及的所有需求点(如时间、预算、偏好、人数等)。",
|
|
17
|
+
"instruct": "5分:回复内容覆盖用户所有意图,无任何信息缺失遗漏。所有用户明确提及的需求点均被覆盖\n3分:回复信息无关键意图信息缺失,但存在部分非关键意图信息缺失。核心需求已覆盖,但次要需求有遗漏(如具体酒店档次未说明)\n1分:回复信息出现关键信息缺失或用户意图覆盖度低于80%。遗漏核心需求(如预算限制未考虑、关键景点遗漏)\n\n特殊场景评分建议:\n用户说\"\"帮我规划3天北京行程,预算2000元,喜欢历史文化\"\",若回复未提及预算或预算超标 → 1分\n若用户需求包含时间/地点/预算/偏好4个要素,遗漏2个以上 → 1分",
|
|
18
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
19
|
+
},
|
|
20
|
+
"weight": 0.25
|
|
21
|
+
},
|
|
22
|
+
{
|
|
23
|
+
"name": "有效性",
|
|
24
|
+
"type": "llm-score",
|
|
25
|
+
"judge_id": "",
|
|
26
|
+
"params": {
|
|
27
|
+
"answer": "answer",
|
|
28
|
+
"reference": "reference"
|
|
29
|
+
},
|
|
30
|
+
"prompt": {
|
|
31
|
+
"role": "",
|
|
32
|
+
"definition": "大模型回复在实际场景是否可以便捷、可靠和高效地解决问题,达成用户预设目标,并产生实际价值。",
|
|
33
|
+
"instruct": "5分:完美满足用户实用需求,且提供精准、高价值回答。推荐方案可直接使用,无需调整,并提供了额外价值信息\n3分:能够解决用户问题,但需要部分调整。方案基本可行,但存在需要用户自行调整的地方\n1分:完全无效,无法在实际场景中应用。推荐不可用(如酒店已停业、景点已关闭)或完全偏离需求\n\n特殊场景评分建议:\n推荐内容被截断或未生成完 → 1分\n推荐内容包含大量与用户需求无关的冗余信息 → 1分",
|
|
34
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
35
|
+
},
|
|
36
|
+
"weight": 0.25
|
|
37
|
+
},
|
|
38
|
+
{
|
|
39
|
+
"name": "准确性",
|
|
40
|
+
"type": "llm-score",
|
|
41
|
+
"judge_id": "",
|
|
42
|
+
"params": {
|
|
43
|
+
"answer": "answer",
|
|
44
|
+
"reference": "reference"
|
|
45
|
+
},
|
|
46
|
+
"prompt": {
|
|
47
|
+
"role": "",
|
|
48
|
+
"definition": "推荐项的信息是否精确可靠,包括价格、时间、可用性、联系方式等。需通过Agent联动外部数据源验证。",
|
|
49
|
+
"instruct": "5分:完全准确,90%及以上信息正确。所有关键信息(价格、时间、地点、状态)均准确无误\n3分:正确率在60%-90%之间(左闭右开)。大部分信息准确,存在少量次要信息错误\n1分:正确率低于60%。多数信息错误或关键信息错误(如价格错误、时间错误)",
|
|
50
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
51
|
+
},
|
|
52
|
+
"weight": 0.2
|
|
53
|
+
},
|
|
54
|
+
{
|
|
55
|
+
"name": "相关性",
|
|
56
|
+
"type": "llm-score",
|
|
57
|
+
"judge_id": "",
|
|
58
|
+
"params": {
|
|
59
|
+
"answer": "answer",
|
|
60
|
+
"reference": "reference"
|
|
61
|
+
},
|
|
62
|
+
"prompt": {
|
|
63
|
+
"role": "",
|
|
64
|
+
"definition": "推荐内容是否与用户需求强相关,是否紧扣用户问题回答,避免推荐无关或不合适的内容。",
|
|
65
|
+
"instruct": "5分:回复内容完全针对用户问题,无任何无关内容。每个推荐项都符合用户需求,无偏题\n3分:回复内容回答用户主要问题,但包含部分不必要或略微偏离的内容。大部分推荐相关,但存在少量不相关项(如预算有限时推荐高价商品)\n1分:回复内容与用户问题毫无关联,或完全误解问题意图。推荐完全不符合需求(如用户要求海滨度假却推荐山区)",
|
|
66
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
67
|
+
},
|
|
68
|
+
"weight": 0.15
|
|
69
|
+
},
|
|
70
|
+
{
|
|
71
|
+
"name": "逻辑连贯性",
|
|
72
|
+
"type": "llm-score",
|
|
73
|
+
"judge_id": "",
|
|
74
|
+
"params": {
|
|
75
|
+
"answer": "answer",
|
|
76
|
+
"reference": "reference"
|
|
77
|
+
},
|
|
78
|
+
"prompt": {
|
|
79
|
+
"role": "",
|
|
80
|
+
"definition": "规划的时间、路线、顺序是否合理可执行,是否存在时间冲突、距离不合理等问题。",
|
|
81
|
+
"instruct": "5分:结构清晰,逻辑严谨,时间、路线安排科学合理。行程时间充裕,路线顺畅无绕路,顺序合理\n3分:主干逻辑通顺,部分内容逻辑断层,衔接生硬,用户调整后可使用:存在轻微时间紧张或少量绕路,但基本可行\n1分:结构不合理,存在明显逻辑冲突或时间冲突。时间冲突(同时安排两个活动)、距离不合理(往返千里)\n\n特殊场景评分建议:\n存在时间冲突(同一时间段安排两个活动)→ 1分\n路线严重不合理(绕路导致时间浪费)→ 1分\n行程未闭环(出发或返程缺失)→ 1分",
|
|
82
|
+
"step": "请遵循下面的步骤进行评判:\n1. 深入分析用户问题,识别用户的具体诉求。\n2. 结合对话场景深入分析助手响应。\n3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\n4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\n5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\n6. 严格按照输出格式要求提供最终的输出内容。"
|
|
83
|
+
},
|
|
84
|
+
"weight": 0.15
|
|
85
|
+
}
|
|
86
|
+
]
|
|
87
|
+
}
|
|
@@ -0,0 +1,103 @@
|
|
|
1
|
+
{
|
|
2
|
+
"name": "文本翻译",
|
|
3
|
+
"description": "从相似度(BERTScore)、精确性(COMET)、语义相似度(Cosine)等维度评测模型的跨语言转化能力。",
|
|
4
|
+
"type": "通用维度级评测",
|
|
5
|
+
"evals": [
|
|
6
|
+
{
|
|
7
|
+
"name": "精确性-BLUE",
|
|
8
|
+
"type": "builtin",
|
|
9
|
+
"params": {
|
|
10
|
+
"answer": "answer",
|
|
11
|
+
"reference": "reference"
|
|
12
|
+
},
|
|
13
|
+
"prompt": {
|
|
14
|
+
"role": "",
|
|
15
|
+
"definition": "用于基于n-gram精确度的翻译质量评估,计算大模型回复内容与预期内容的重叠程度",
|
|
16
|
+
"instruct": "",
|
|
17
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
18
|
+
},
|
|
19
|
+
"weight": 0.04,
|
|
20
|
+
"func": "BLEU"
|
|
21
|
+
},
|
|
22
|
+
{
|
|
23
|
+
"name": "相似度-ROUGE",
|
|
24
|
+
"type": "builtin",
|
|
25
|
+
"params": {
|
|
26
|
+
"answer": "answer",
|
|
27
|
+
"reference": "reference"
|
|
28
|
+
},
|
|
29
|
+
"prompt": {
|
|
30
|
+
"role": "",
|
|
31
|
+
"definition": "基于最长公共子序列,评估大模型回复内容与预期是否语义一致",
|
|
32
|
+
"instruct": "",
|
|
33
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
34
|
+
},
|
|
35
|
+
"weight": 0.03,
|
|
36
|
+
"func": "ROUGE"
|
|
37
|
+
},
|
|
38
|
+
{
|
|
39
|
+
"name": "相似度-BERTScore",
|
|
40
|
+
"type": "builtin",
|
|
41
|
+
"params": {
|
|
42
|
+
"answer": "answer",
|
|
43
|
+
"reference": "reference"
|
|
44
|
+
},
|
|
45
|
+
"prompt": {
|
|
46
|
+
"role": "",
|
|
47
|
+
"definition": "基于BERT模型的语义相似度,评估大模型回复内容与预期是否语义一致",
|
|
48
|
+
"instruct": "",
|
|
49
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
50
|
+
},
|
|
51
|
+
"weight": 0.4,
|
|
52
|
+
"func": "BERTScore"
|
|
53
|
+
},
|
|
54
|
+
{
|
|
55
|
+
"name": "相似度-Cosine",
|
|
56
|
+
"type": "builtin",
|
|
57
|
+
"params": {
|
|
58
|
+
"answer": "answer",
|
|
59
|
+
"reference": "reference"
|
|
60
|
+
},
|
|
61
|
+
"prompt": {
|
|
62
|
+
"role": "",
|
|
63
|
+
"definition": "用于基于句子嵌入计算余弦相似度,评估生成文本与参考文本在整体语义与主题层面的一致性,反映两者的'语义距离'高低。",
|
|
64
|
+
"instruct": "",
|
|
65
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
66
|
+
},
|
|
67
|
+
"weight": 0.2,
|
|
68
|
+
"func": "COSINE"
|
|
69
|
+
},
|
|
70
|
+
{
|
|
71
|
+
"name": "精确性-COMET",
|
|
72
|
+
"type": "builtin",
|
|
73
|
+
"params": {
|
|
74
|
+
"answer": "answer",
|
|
75
|
+
"reference": "reference"
|
|
76
|
+
},
|
|
77
|
+
"prompt": {
|
|
78
|
+
"role": "",
|
|
79
|
+
"definition": "用于基于上下文感知模型的翻译质量评估,从语义正确性、表达流畅度和忠实性三个维度综合判断生成文本是否准确传达参考文本的含义。",
|
|
80
|
+
"instruct": "",
|
|
81
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
82
|
+
},
|
|
83
|
+
"weight": 0.3,
|
|
84
|
+
"func": "COMET"
|
|
85
|
+
},
|
|
86
|
+
{
|
|
87
|
+
"name": "文本差异度-TER",
|
|
88
|
+
"type": "builtin",
|
|
89
|
+
"params": {
|
|
90
|
+
"answer": "answer",
|
|
91
|
+
"reference": "reference"
|
|
92
|
+
},
|
|
93
|
+
"prompt": {
|
|
94
|
+
"role": "",
|
|
95
|
+
"definition": "用于通过翻译编辑率(Translation Edit Rate)计算生成文本与参考文本之间的编辑距离,即插入、删除、替换词语的比例,用于衡量两者在字面形式上的差异程度。",
|
|
96
|
+
"instruct": "",
|
|
97
|
+
"step": "请遵循下面的步骤进行评判:\r\n 1. 深入分析用户问题,识别用户的具体诉求。\r\n 2. 结合对话场景深入分析助手响应。\r\n 3. 深入理解评测维度,准确把握当前评测维度中的维度说明和评测标准等。\r\n 4. 以裁判的视角结合场景和评测维度对助手响应进行评测,评测过程只考虑该评测维度,并严格遵循评测标准。\r\n 5. 先清晰地陈述评判依据,再得出最终的评判结果。如果是评分方式,评判结果只能是评测标准中列举的分数值。\r\n 6. 严格按照输出格式要求提供最终的输出内容。"
|
|
98
|
+
},
|
|
99
|
+
"weight": 0.03,
|
|
100
|
+
"func": "TER"
|
|
101
|
+
}
|
|
102
|
+
]
|
|
103
|
+
}
|