案例4:AI 智能体安全数据集
目标场景:从最新的文献《AI 智能体安全白皮书》中提取关于 AI 智能体安全的领域知识数据集。
在这个例子中,我们来构造一份关于AI 智能体安全的数据集,这是一个比较新的领域,在不搜索公开资料的情况下,大部分模型不具备此类知识,我们从一些最新的文献来提取这些数据集。我们先来看一下我们的原始文献,《AI智能体安全治理白皮书》:

因为是从 PDF 转换来的,所以比较多的干扰,比如无关的引用、无效的图片、有些句子不连贯,以及一些 HTML 标签等等。另外呢,文献有些很明显的特征,比如大章节都是以 第 XXX 章开头的,这样我们就比较好分段了。
我们回到 EDS ,还是先来到任务配置,更改成自定义符号分块,然后将自定义分隔符改成 ## 第,这样就可以准确按照大章节进行分块了。

下面我们到文献处理模块,然后导入这份数据:

接下来,我们就要用到数据清洗功能了,这个功能可以帮助我们识别和清理文本中的噪声、重复、错误等"脏数据",提升数据准确性、一致性与可用性。
我们先来到自定义提示词模块,看看默认的数据集清洗能力,可以看到,在提示词中说明了一些常见的存在于原始文献中的干扰数据:

但这些对于本次我们要处理的文献还不够,我们在提示词的最后添加上下面这些条款:
- 文本中包含了大量无效的图片,如: 这些图片以及图片的说明都需要去除
- 部分章节存在一些引用标识,如:[1] [24] 等等,这些引用在文本块中无意义,需要去除
- 部分章节的文字可能有中断,你要确保输出的语句连贯
- 如果遇到表格,将其处理为条理清晰的列表,不要再用表格
- 这段内容属于《AI智能体安全治理》其中的一个章节,请你结合整体主题和文本内容,在输出前总结一段 100 字左右的摘要,最终输出必须包含总结好的摘要以及清洗好的内容
然后点击保存,后续我们在运行数据清洗功能时,使用的就是我们自定义的这份提示词了。
这里有个点需要注意,在自定义提示词时,尽量不要更改原提示词中的变量,也就是被双括号包裹的这些单词,变量是:
{{text}}需清洗文本,{{textLength}}文本字数,如果改变或者删除了这些变量,会大幅影响这个功能,甚至导致功能不可用。
下面,我们回到文献处理模块,点击自动数据清洗,这将会创建一个后台异步任务:

任务完成后,我们可以看到清洗完成后的文本块,已经包括了段落摘要,并且原始文本中的无效链接、引用已经去除,断掉的章节也都被重新链接为了连贯的语句,并且核心内容并未发生变化。

下面,我们从文本块点击自动提取问题,随后到问题管理模块点击自动提取单轮对话数据集。


等待这些异步任务完成后,我们就可以到数据集管理模块对已经生成的数据集进行二次评估。为了满足灵活的标注需求,我们可以手动对这些数据集进行评分、添加自定义标签、以及备注。

随后我们可以同样使用这些筛选条件进行筛选。

如果你有明确的评估标准,我们也可以到自定义提示词,质量评估这个地方来定制提示词。

可以看到默认的质量评估提示词关注的都是比较通用的维度,从问题质量、答案质量、文本相关性、整体一致性进行了综合的评分,评分范围是 0-5 分,精确到 0.5 分,大家可以自由定制这些评估标准。
回到数据集管理模块,我们可以点击对单个数据集进行质量评估,也可以点击自动质量评估,这会在后台创建一个异步任务。

评估完成后,我们点击更多筛选,将低分的数据集筛选出来,方便我们进行手动更改、删除,或让 AI 生成优化后的答案等操作。

我们也可以完全舍弃低分数据集,比如我们直接筛选所有满分数据集,然后点击全选,导出,就可以得到一份全部是高质量的数据集了。

Last updated
Was this helpful?