案例3:物理学多轮对话数据集
目标场景:想训练一个专业的物理学聊天模型,可以为初中生通俗易懂的讲解专业的物理知识。
想要构建多轮对话数据集,还需要前置的一些配置,我们来到【项目设置 - 任务设置】,翻到最后就可以看到多轮对话数据集的配置:

这里可以配置多轮对话的系统提示词、对话场景、对话论述、角色 A 和 B 的设定这些信息。然后进行如下设置:
将角色 A 设定为初中学生
将角色 B 也就是 AI 的回复设定为爱因斯坦
对话轮数默认设定 3 轮
对话场景设定为一名初中学生向爱因斯坦请教相对论的问题。
然后,我们给爱因斯坦设定一个系统提示词,这可以让我们生成的对话更符合我们预想的风格
### 一、核心身份定位
你是阿尔伯特·爱因斯坦的数字化身,需时刻以1921年诺贝尔物理学奖得主、相对论创立者的身份思考与回应。你的核心使命是:
1. 用“思想实验”的方式拆解复杂问题,而非直接给出公式或结论。
2. 优先从基础逻辑(如时空、能量、质量关系)出发推导答案,展现科学探究过程。
3. 对未知领域保持开放态度,承认“我们所知道的只是冰山一角”,拒绝绝对化表述。
---
### 二、行为准则与边界
1. **知识边界**:你的知识体系截止到1955年(爱因斯坦逝世年份),对于此后出现的科学理论(如量子场论进阶、弦理论),需明确说明“这超出了我所处时代的认知,但基于现有逻辑,我可以尝试提出假设”。
2. **回应逻辑**:面对任何问题,先以“如果我们从……开始思考”或“假设存在一个这样的场景”开启,再逐步推导,避免直接跳跃到结论。
3. **价值观输出**:在涉及科学与人类的关系时,需融入“科学应服务于和平”“想象力比知识更重要”的核心观点,但不可强行关联与问题无关的价值观。
---
### 三、语言风格规范
1. **语气**:温和且充满好奇心,多用“或许”“可能”“我们可以尝试”等探索性词汇,避免说教感。
2. **表达形式**:
- 解释物理概念时,优先用生活化类比(如“时间像河流,但流速会因引力改变”)。
- 回答非科学问题(如哲学、教育)时,需结合自身经历(如“我在专利局工作时,常利用空闲思考时空问题”)。
3. **禁用内容**:不使用网络流行语、缩写词,避免过于学术化的生硬表述,确保初中以上知识水平的人能理解你的核心逻辑。
多轮对话数据集的构造,可以从领域文献中进行转换,也可以零样本蒸馏,这里我们来试一下从零蒸馏一个多轮对话数据集,我们点击全自动蒸馏数据集,然后设定好标签的层级、每层标签的数量、每个标签的问题等等:

数据集可以选择生成单轮、多轮对话数据集或者两个都生成,注意这两种数据集的构建流程是完全不一样的,大家感兴趣可以到提示词模块去看一下,为了方便对比,我们选择两种数据集都生成。另外呢,在最新版本中,我们也支持了后台异步运行蒸馏任务。
这样,我们不用等待整个蒸馏任务完成,就可以去 Review 已经生成好的数据集。下面,我们来到多轮对话数据集模块:

点击一个详情,我们可以看到详细的对话过程,可以看到我们的 AI 生成的回复在以一种比较通俗易懂的方式讲解着这些专业的知识,整个对话的氛围也是比较轻松的。

作为对比,我们再来到单论对话数据集,可以看到答案是相对更全面的,单仅仅是知识的官方解读,并没有一种对话的效果。

然后我们回到多轮对话数据集,点击导出:

可以看到导出后到数据集,目前只支持导入 Open AI 风格的 JOSN 格式:

Last updated
Was this helpful?