githubEdit

ballot-check评估数据集生成

评估数据集是什么?

  • 评估数据集(测试集)是一组“题目 + 标准答案/参考答案 + 评分规则/选项”的集合。你可以用它来:做不同模型的对比评估,长期追踪效果变化。


测试集题目类型

一个好的模型评估数据集(测试集)是衡量模型真实能力的基石。在 Easy Dataset 中,评估集不仅仅是问题的集合,更是包含标准答案、考点标签和业务逻辑的综合知识库。为了全面考察模型能力,我们设计了五种题型:

  • 判断题:这是最直接的。考察模型对核心事实是否搞混。比如文档里说“温度不能超过 100 度”,题目问“温度是否可以达到 105 度?”,能有效检测幻觉。

  • 单选题:4个选项(A-D),单选答案 | 考察模型在干扰项下的知识提取和辨析能力。

  • 多选题:多个选项,答案为字母数组(如 ["A", "C"]) | 极具挑战性,漏掉一个信息点就选不对。

  • 简答题(短答案):提供标准短答案(20字以内),可测试模型获取核心知识点并精简表达的能力。如:2025 年美团的营收是多少亿?

  • 开放题(长答案):考察推理和总结能力。比如“根据文档描述,分析一下为什么会出现设备异响?”。这种题没有标准死答案,最考验模型的逻辑。


在任务配置中 支持配置各题目类型生成的比例(比如:我要 30% 的判断题用于测幻觉,70% 的简答题测理解):在 Easy Dataset 中,你可以通过多种方式生成和配置评估数据集(测试集):

  • 从领域文献中提取测试集

  • 从训练集添加或生成测试集变体

  • 导入自定义/平台内置测试集


从领域文献生成测试集

不管是 PDF 还是 Docx 格式的领域文献,系统支持直接导入。后台会把这些长文本切分成小块(Chunk),然后通过提示词工程,让大模型基于这些文本块自动生成题目。我们首先来到【数据源-文献处理】模块,导入一份小米 2025 Q3 季度的财报文档:

系统解析完成后,会对文档进行自动切块,为了保证后续在文本块上生成的测试集更符合主题,我们批量编辑文本块:在每个文本块的开头增加全局摘要信息:

然后,我们可以选择基于单个文本块生成测试集,或自动生成测试集(后台自动读取并处理未生成测试集的文本块),系统将根据我们前面在项目设置中设置的几种题目类型的比例自动生成测试题目(默认的题目类型判断题、单选题、多选题、简答题、开放题为 1:1:1:1:1)。

建议:

  • 先用 “单个生成” 跑通流程,确认题型质量与期望一致,在执行自动生成任务。

  • 比例配置先从保守开始:开放题比例不要太高(后续教师模型评估成本更高)


测试集管理

点击每个文本块上的 已生成测试题 标签,我们将跳转至【评估-评估数据集】模块,在这里你可以看到已经生成的所有数据集,你可以根据题目类型、题目内容和标签进行筛选:

点击单个题目,可以查看题目详情:

问题、选项、答案都可以自由编辑,你也可以对题目进行打标签、备注、删除等等:


从已有数据集添加和生成

在以前的项目中,你可能已经使用 Easy Dataset 生成过数据集(训练集),我们也支持直接从已有数据集上标注和生成测试集。下面我们来到【数据集-单论问答数据集】模块,可以看到之前生成过的数据集:

进入数据集详情页,我们可以直接将当前数据集添加到评估数据集(测试集),同时,系统给原数据集打上 Eval 标签(用于后续筛选/识别):

如果训练集太少或多样性不足,模型有时候会 “死记硬背”。我们也可以把一道现有的数据集题目自动改写生成评估集变体(比如换个问法,或者把选择题改成判断题),看看模型是不是真的理解了。

点击:【生成评估集变体】可以选择要生成的题目类型和数量:

在常规的思路中,一般我们要从所有数据集中划分出一定比例(如 15%)作为测试集。但是,在小规模的数据集上,如果直接划分出一定比例的测试集可能会导致原有的训练集数量和多样性不足,导致模型训练效果差。如果使用 Easy Dataset 生成的数据集,我们可以全部用于训练集,另外一部分测试集我们可以直接在现有的数据集上生成变体,或重新从文本块提取。这样既能保证训练集的多样性不会受到损失,还能保证有足够丰富的测试集来支撑最终模型效果的评估。


导入导出测试集

如果你已经有准备好的测试集,只是想使用 Easy Dataset 来做评估任务,可以到【评估-评估数据集】模块直接进行导入:

目前支持从 JSON、XLS、XLSX 几种类型的文件进行导入,需要将文件处理成规定格式:

你可以直接下载对应题型和文件类型的模版,然后按照模版进行补充:

另外,平台还内置了丰富的领域知识数据集,如果你想测试模型在特定领域下的表现,可以直接选择【导入内置数据集】并选择对应学科进行导入:

每个学科下都内置了几百道不同难度的题目(大部分为单选或多选题):

测试集处理完成后,我们也可以直接进行导出(支持自定义导出范围和格式),你可用于其他评估系统:


Last updated

Was this helpful?