# 案例4：AI 智能体安全数据集

> 目标场景：从最新的文献《AI 智能体安全白皮书》中提取关于 AI 智能体安全的领域知识数据集。

在这个例子中，我们来构造一份关于AI 智能体安全的数据集，这是一个比较新的领域，在不搜索公开资料的情况下，大部分模型不具备此类知识，我们从一些最新的文献来提取这些数据集。我们先来看一下我们的原始文献，《AI智能体安全治理白皮书》：

![](https://files.mdnice.com/user/6267/f32ba1b3-3624-4a6d-ad64-92ddfc70d47b.png)

因为是从 PDF 转换来的，所以比较多的干扰，比如无关的引用、无效的图片、有些句子不连贯，以及一些 HTML 标签等等。另外呢，文献有些很明显的特征，比如大章节都是以 第 XXX 章开头的，这样我们就比较好分段了。

我们回到 EDS ，还是先来到任务配置，更改成自定义符号分块，然后将自定义分隔符改成 `## 第`，这样就可以准确按照大章节进行分块了。

![](https://files.mdnice.com/user/6267/400d3d02-e68c-4be3-baee-b405e528ab05.png)

下面我们到文献处理模块，然后导入这份数据：

![](https://files.mdnice.com/user/6267/1867badf-0ef8-446b-b74f-706b35e1a09a.png)

接下来，我们就要用到数据清洗功能了，这个功能可以帮助我们识别和清理文本中的噪声、重复、错误等"脏数据"，提升数据准确性、一致性与可用性。

我们先来到自定义提示词模块，看看默认的数据集清洗能力，可以看到，在提示词中说明了一些常见的存在于原始文献中的干扰数据：

![](https://files.mdnice.com/user/6267/89349f0c-7bb1-4730-b3d5-8246f88fc1a8.png)

但这些对于本次我们要处理的文献还不够，我们在提示词的最后添加上下面这些条款：

```markdown
- 文本中包含了大量无效的图片，如：![](images/xxx.png) 这些图片以及图片的说明都需要去除
- 部分章节存在一些引用标识，如：[1] [24] 等等，这些引用在文本块中无意义，需要去除
- 部分章节的文字可能有中断，你要确保输出的语句连贯
- 如果遇到表格，将其处理为条理清晰的列表，不要再用表格
- 这段内容属于《AI智能体安全治理》其中的一个章节，请你结合整体主题和文本内容，在输出前总结一段 100 字左右的摘要，最终输出必须包含总结好的摘要以及清洗好的内容
```

![](https://files.mdnice.com/user/6267/206c40c5-89f8-48e5-a528-43e3ee083e17.png)

然后点击保存，后续我们在运行数据清洗功能时，使用的就是我们自定义的这份提示词了。

> 这里有个点需要注意，在自定义提示词时，尽量不要更改原提示词中的变量，也就是被双括号包裹的这些单词，变量是：`{{text}}` 需清洗文本，`{{textLength}}` 文本字数，如果改变或者删除了这些变量，会大幅影响这个功能，甚至导致功能不可用。

下面，我们回到文献处理模块，点击自动数据清洗，这将会创建一个后台异步任务：

![](https://files.mdnice.com/user/6267/7ddcd6ea-aa72-405b-9569-4420c2c7c37a.png)

任务完成后，我们可以看到清洗完成后的文本块，已经包括了段落摘要，并且原始文本中的无效链接、引用已经去除，断掉的章节也都被重新链接为了连贯的语句，并且核心内容并未发生变化。

![](https://files.mdnice.com/user/6267/ea1e6f33-86b0-4c86-97a1-815c04dc8ad1.png)

下面，我们从文本块点击自动提取问题，随后到问题管理模块点击自动提取单轮对话数据集。

![](https://files.mdnice.com/user/6267/a3caa891-a22a-4fb1-bfdb-2fb76170af06.png)

![](https://files.mdnice.com/user/6267/4b688c52-0c1a-4103-a358-079d8e6138b4.png)

等待这些异步任务完成后，我们就可以到数据集管理模块对已经生成的数据集进行二次评估。为了满足灵活的标注需求，我们可以手动对这些数据集进行评分、添加自定义标签、以及备注。

![](https://files.mdnice.com/user/6267/79f42127-346f-4ee7-b16a-c7a05b796ef4.png)

随后我们可以同样使用这些筛选条件进行筛选。

![](https://files.mdnice.com/user/6267/85251923-7ae5-44e4-907d-073c078dec43.png)

如果你有明确的评估标准，我们也可以到自定义提示词，质量评估这个地方来定制提示词。

![](https://files.mdnice.com/user/6267/46e6e70b-b998-418a-859d-89b8cbb3fde3.png)

可以看到默认的质量评估提示词关注的都是比较通用的维度，从问题质量、答案质量、文本相关性、整体一致性进行了综合的评分，评分范围是 0-5 分，精确到 0.5 分，大家可以自由定制这些评估标准。

回到数据集管理模块，我们可以点击对单个数据集进行质量评估，也可以点击自动质量评估，这会在后台创建一个异步任务。

![](https://files.mdnice.com/user/6267/b15bfb1e-f880-443f-91a8-026d52310fcf.png)

评估完成后，我们点击更多筛选，将低分的数据集筛选出来，方便我们进行手动更改、删除，或让 AI 生成优化后的答案等操作。

![](https://files.mdnice.com/user/6267/4af7cfe4-7926-4bc7-bc5f-34ceb71ec4c6.png)

我们也可以完全舍弃低分数据集，比如我们直接筛选所有满分数据集，然后点击全选，导出，就可以得到一份全部是高质量的数据集了。

![](https://files.mdnice.com/user/6267/e7d094de-6843-4cec-84cb-cf8c0b047952.png)
