案例2:评论情感分类数据集
在刚刚的场景中,我们已经使用过问题模版了,这一个非常灵活的功能,它也可以用在文本数据集上,我们来具一个构造文本分类数据集的例子。
目标场景:现有一份微博评论数据,希望基于大模型分析评论是正面还是负面的,用于训练情感分类模型。
数据示例:使用固定的 -------- 分隔符进行分割:


在 EDS 中,我们首先要在任务设置中将分块策略改为 “自定义符号分块” (在自定义分隔符处输入:---------),这种策略会严格按照给定的分割符进行分块,并且会忽略分隔符,不受文本块的大小限制:

然后我们来到文献处理模块,导入这份配置:

然后我们将得到按照评论内容分割的文本块:

这时,我们来到问题管理,创建一个问题模版:
在问题中输入:“对评论进行情感分析”
提示词填写:“对评论进行情感分析,并将评论分为三类:正面、负面、中性”
定义三个标签:正面、负面、中性

然后我们看到 EDS 为每个文本块都创建了这个问题,我们点击自动提取数据集 - 单轮对话数据集:

然后我们在数据集详情可以看到对文本块(评论)的分析结果,答案只分布在了正面、负面、中性这三个标签内:

在导出数据集时,我们选择自定义格式,并勾选包含文本块:

然后我们就得到了一份评论情感分类数据集:

Last updated
Was this helpful?