# 案例4：AI 智能体安全数据集

> 目标场景：从最新的文献《AI 智能体安全白皮书》中提取关于 AI 智能体安全的领域知识数据集。

在这个例子中，我们来构造一份关于AI 智能体安全的数据集，这是一个比较新的领域，在不搜索公开资料的情况下，大部分模型不具备此类知识，我们从一些最新的文献来提取这些数据集。我们先来看一下我们的原始文献，《AI智能体安全治理白皮书》：

![](https://files.mdnice.com/user/6267/f32ba1b3-3624-4a6d-ad64-92ddfc70d47b.png)

因为是从 PDF 转换来的，所以比较多的干扰，比如无关的引用、无效的图片、有些句子不连贯，以及一些 HTML 标签等等。另外呢，文献有些很明显的特征，比如大章节都是以 第 XXX 章开头的，这样我们就比较好分段了。

我们回到 EDS ，还是先来到任务配置，更改成自定义符号分块，然后将自定义分隔符改成 `## 第`，这样就可以准确按照大章节进行分块了。

![](https://files.mdnice.com/user/6267/400d3d02-e68c-4be3-baee-b405e528ab05.png)

下面我们到文献处理模块，然后导入这份数据：

![](https://files.mdnice.com/user/6267/1867badf-0ef8-446b-b74f-706b35e1a09a.png)

接下来，我们就要用到数据清洗功能了，这个功能可以帮助我们识别和清理文本中的噪声、重复、错误等"脏数据"，提升数据准确性、一致性与可用性。

我们先来到自定义提示词模块，看看默认的数据集清洗能力，可以看到，在提示词中说明了一些常见的存在于原始文献中的干扰数据：

![](https://files.mdnice.com/user/6267/89349f0c-7bb1-4730-b3d5-8246f88fc1a8.png)

但这些对于本次我们要处理的文献还不够，我们在提示词的最后添加上下面这些条款：

```markdown
- 文本中包含了大量无效的图片，如：![](images/xxx.png) 这些图片以及图片的说明都需要去除
- 部分章节存在一些引用标识，如：[1] [24] 等等，这些引用在文本块中无意义，需要去除
- 部分章节的文字可能有中断，你要确保输出的语句连贯
- 如果遇到表格，将其处理为条理清晰的列表，不要再用表格
- 这段内容属于《AI智能体安全治理》其中的一个章节，请你结合整体主题和文本内容，在输出前总结一段 100 字左右的摘要，最终输出必须包含总结好的摘要以及清洗好的内容
```

![](https://files.mdnice.com/user/6267/206c40c5-89f8-48e5-a528-43e3ee083e17.png)

然后点击保存，后续我们在运行数据清洗功能时，使用的就是我们自定义的这份提示词了。

> 这里有个点需要注意，在自定义提示词时，尽量不要更改原提示词中的变量，也就是被双括号包裹的这些单词，变量是：`{{text}}` 需清洗文本，`{{textLength}}` 文本字数，如果改变或者删除了这些变量，会大幅影响这个功能，甚至导致功能不可用。

下面，我们回到文献处理模块，点击自动数据清洗，这将会创建一个后台异步任务：

![](https://files.mdnice.com/user/6267/7ddcd6ea-aa72-405b-9569-4420c2c7c37a.png)

任务完成后，我们可以看到清洗完成后的文本块，已经包括了段落摘要，并且原始文本中的无效链接、引用已经去除，断掉的章节也都被重新链接为了连贯的语句，并且核心内容并未发生变化。

![](https://files.mdnice.com/user/6267/ea1e6f33-86b0-4c86-97a1-815c04dc8ad1.png)

下面，我们从文本块点击自动提取问题，随后到问题管理模块点击自动提取单轮对话数据集。

![](https://files.mdnice.com/user/6267/a3caa891-a22a-4fb1-bfdb-2fb76170af06.png)

![](https://files.mdnice.com/user/6267/4b688c52-0c1a-4103-a358-079d8e6138b4.png)

等待这些异步任务完成后，我们就可以到数据集管理模块对已经生成的数据集进行二次评估。为了满足灵活的标注需求，我们可以手动对这些数据集进行评分、添加自定义标签、以及备注。

![](https://files.mdnice.com/user/6267/79f42127-346f-4ee7-b16a-c7a05b796ef4.png)

随后我们可以同样使用这些筛选条件进行筛选。

![](https://files.mdnice.com/user/6267/85251923-7ae5-44e4-907d-073c078dec43.png)

如果你有明确的评估标准，我们也可以到自定义提示词，质量评估这个地方来定制提示词。

![](https://files.mdnice.com/user/6267/46e6e70b-b998-418a-859d-89b8cbb3fde3.png)

可以看到默认的质量评估提示词关注的都是比较通用的维度，从问题质量、答案质量、文本相关性、整体一致性进行了综合的评分，评分范围是 0-5 分，精确到 0.5 分，大家可以自由定制这些评估标准。

回到数据集管理模块，我们可以点击对单个数据集进行质量评估，也可以点击自动质量评估，这会在后台创建一个异步任务。

![](https://files.mdnice.com/user/6267/b15bfb1e-f880-443f-91a8-026d52310fcf.png)

评估完成后，我们点击更多筛选，将低分的数据集筛选出来，方便我们进行手动更改、删除，或让 AI 生成优化后的答案等操作。

![](https://files.mdnice.com/user/6267/4af7cfe4-7926-4bc7-bc5f-34ceb71ec4c6.png)

我们也可以完全舍弃低分数据集，比如我们直接筛选所有满分数据集，然后点击全选，导出，就可以得到一份全部是高质量的数据集了。

![](https://files.mdnice.com/user/6267/e7d094de-6843-4cec-84cb-cf8c0b047952.png)


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.easy-dataset.com/bo-ke/shi-zhan-an-li/an-li-4ai-zhi-neng-ti-an-quan-shu-ju-ji.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
