案例3:物理学多轮对话数据集

目标场景:想训练一个专业的物理学聊天模型,可以为初中生通俗易懂的讲解专业的物理知识。

想要构建多轮对话数据集,还需要前置的一些配置,我们来到【项目设置 - 任务设置】,翻到最后就可以看到多轮对话数据集的配置:

这里可以配置多轮对话的系统提示词、对话场景、对话论述、角色 A 和 B 的设定这些信息。然后进行如下设置:

  • 将角色 A 设定为初中学生

  • 将角色 B 也就是 AI 的回复设定为爱因斯坦

  • 对话轮数默认设定 3 轮

  • 对话场景设定为一名初中学生向爱因斯坦请教相对论的问题。

然后,我们给爱因斯坦设定一个系统提示词,这可以让我们生成的对话更符合我们预想的风格

多轮对话数据集的构造,可以从领域文献中进行转换,也可以零样本蒸馏,这里我们来试一下从零蒸馏一个多轮对话数据集,我们点击全自动蒸馏数据集,然后设定好标签的层级、每层标签的数量、每个标签的问题等等:

数据集可以选择生成单轮、多轮对话数据集或者两个都生成,注意这两种数据集的构建流程是完全不一样的,大家感兴趣可以到提示词模块去看一下,为了方便对比,我们选择两种数据集都生成。另外呢,在最新版本中,我们也支持了后台异步运行蒸馏任务。

这样,我们不用等待整个蒸馏任务完成,就可以去 Review 已经生成好的数据集。下面,我们来到多轮对话数据集模块:

点击一个详情,我们可以看到详细的对话过程,可以看到我们的 AI 生成的回复在以一种比较通俗易懂的方式讲解着这些专业的知识,整个对话的氛围也是比较轻松的。

作为对比,我们再来到单论对话数据集,可以看到答案是相对更全面的,单仅仅是知识的官方解读,并没有一种对话的效果。

然后我们回到多轮对话数据集,点击导出:

可以看到导出后到数据集,目前只支持导入 Open AI 风格的 JOSN 格式:

Last updated

Was this helpful?