更新日志
[1.6.0] 2025-10-30
生成图像问答(VQA)数据集(#130、#483、#537) → 支持上传图像文件,自动生成图像相关问题与答案,构建 VQA 数据集,适配视觉语言模型训练。
全自动蒸馏数据集后台异步任务(#432、#492、#495、#496) → 支持从触发蒸馏到生成数据集的全流程自动化,通过后台异步任务完成,无需手动干预,支持查看实时进度。
问题模版功能 → 可创建多种自定义问题类型(如“描述图像内容”“分析文本观点”),并应用于所有图像或文本块批量生成对应问题,提升问题生成的标准化与场景适配性。
支持更改蒸馏标签名称(#422) → 允许自定义蒸馏过程中生成的标签名称,适配不同场景下的标签管理需求。
🔧 修复
修复保存模型时 ModelId 更新错误的 Bug → 修正模型配置保存流程中 ModelId 字段同步异常的问题,确保模型标识唯一性。
修复数据集批量评估问题(#576) → 新增批量评估任务中断功能,支持手动终止正在执行的评估;优化评估算法,提升批量处理速度。
修复数据集快捷键导致输入中断(#578) → 调整快捷键触发逻辑,避免与文本输入操作冲突,确保输入过程不被意外打断。
修复大量数据集选择后导出失败(#578) → 优化导出任务分片机制,解决因数据量过大导致的内存溢出或连接超时问题。
修复平衡导出不生效(#561) → 修正平衡导出逻辑中样本分布计算错误,确保按预设比例导出不同类别数据。
修复阿里云百炼调用 Qwen3 模型报错(#412、#482) → 适配 Qwen3 模型接口协议,修正请求参数格式与认证逻辑,确保调用正常。
⚡ 优化
提升多轮对话数据集解析稳定性 → 增强对多轮对话格式(如 ShareGPT)的兼容解析,减少因格式变体导致的解析失败。
异步执行单个文本块操作(#530、#494) → 将“单个文本块生成问题”“AI 智能优化数据集”改为后台异步任务,执行时不阻塞前端其他操作。
文本块筛选增强(#541) → 支持按关键字搜索文本块内容,及按字数范围(如 100-500 字)筛选,快速定位目标文本。
模型配置支持 Top 参数控制(#517) → 模型配置页新增 Top 参数(如 Top-K/Top-P)设置,可调节生成内容的多样性与确定性。
按文本块名称筛选(#275) → 问题列表与数据集列表支持按关联文本块(文件)名称筛选,提升跨模块数据定位效率。
[1.5.1] 2025-10-19
🔧 修复
删除文件时领域树修订不准确 → 再次优化文件删除后领域树的更新逻辑,确保仅移除与删除文件强关联的节点,避免误删或残留无效节点,提升领域树结构准确性。
删除答案后问题状态未更新(#572) → 修复删除问题生成的答案后,问题管理中仍显示“已生成答案”状态的问题,确保状态与实际数据一致。
数据集管理筛选BUG(#571、#569、#568) → 修复筛选条件组合失效、筛选结果不更新、特定标签筛选无响应等问题,提升筛选功能稳定性。
Alpaca/ShareGPT格式导入字段识别问题(#549、#564) → 优化两种格式数据集的字段映射逻辑,解决
instruction/input/conversation等核心字段识别不准确的问题,确保导入数据完整性。
⚡ 优化
数据集导出支持选中项导出(#570) → 导出数据集时新增“仅导出选中项”选项,支持手动勾选特定数据集进行导出,提升批量操作灵活性。
数据集确认与编辑优化(#542)
新增“取消确认”功能:确认数据集后可随时撤销确认状态,避免误操作导致的不可逆影响。
数据集详情页支持直接编辑问题内容,无需跳转至单独页面,简化修改流程。
[1.5.0] 2025-09-29
⚠️ BreakChange(兼容性变更)
1.5.0 之前版本配置的自定义提示词将失效,升级后需重新配置核心提示词。
✨ 新功能
全量核心提示词开放自定义 → Easy Dataset 所有核心提示词(如问题生成、答案生产、数据清洗等)均开放配置,后续无需修改代码即可灵活调整,适配不同场景需求。
AI 数据集质量评估(#546) → 新增数据集质量自动评估功能,支持:
单个数据集即时评估(含相关性、准确性、完整性等维度);
批量数据集异步评估(后台任务处理,支持查看评估报告)。
多轮对话 SFT 数据集生成(#504) → 支持生成多轮对话格式的 SFT 数据集,两种生成方式:
基于文献内容提取多轮问答;
直接从大模型蒸馏多轮对话数据。
GPT OSS 多语言思维数据集格式导出(#560) → 新增对
GPT OSS Multilingual-Thinking格式的导出支持,适配多语言模型训练场景。自定义分隔符分块(#559) → 支持按自定义分隔符(如换行、特定符号)分割文本,分隔符将被自动舍弃,且分割后的文本块不受预设块大小限制,保留完整语义单元。
⚡ 优化
模型输出结构化稳定性提升 → 增加更多兼容解析逻辑,减少模型输出格式异常(如JSON解析失败、字段缺失),提升结构化数据生成的稳定性。
Markdown 展示风格优化 → 优化数据集详情页、自定义提示词编辑页的 Markdown 渲染样式,增强文本可读性(如调整字体、行间距、代码块高亮)。
🔧 修复
文献目录过大导致上下文溢出 → 优化文献目录处理逻辑,自动截断或分段处理超长大目录,避免模型上下文长度超限。
数据清洗异常内容引入(#504、#529) → 修复数据清洗过程中意外引入无关内容或思维链信息的问题,确保清洗后文本纯净度。
删除文件时领域树修订不准确 → 修正文件删除后领域树节点更新逻辑,确保仅移除与删除文件相关的节点,避免误删或残留无效节点。
[1.4.0] 2025-08-31
✨ 新功能
支持本地部署 MinerU 集成(#200、#245) → 可在任务设置中配置本地 MinerU 服务 URL,实现与本地部署的 MinerU 工具联动。
数据集增强管理功能(#81) → 新增数据集评分、自定义标签及备注功能,支持基于这些属性进行筛选查询。
文献内容清洗功能(#516) → 支持对原始文献内容进行预处理清洗,提升后续数据集生成质量;支持自定义数据清洗提示词,适配不同场景需求。
数据集导出选项扩展
支持导出时选择包含原始文本块(自定义格式)(#288、#185、#476、#464)
支持仅导出问题列表,适配轻量数据应用场景(#394)
文献格式支持扩展(#205) → 新增对 .epub 格式文献的上传与分析功能,拓宽文献处理范围。
数据集导入功能(#498) → 支持从本地文件导入已有数据集,快速复用外部数据资源。
⚡ 优化
数据集翻页体验优化(#497) → 翻页时自动保存 Markdown 标签的选中状态,避免重复操作。
数据集列表筛选增强(#275) → 支持筛选“是否为蒸馏数据集”,快速定位特定类型数据。
🔧 修复
超大数据集导出问题(#502) → 修复大规模数据集导出时的卡死问题,新增分批导出机制,提升稳定性。
项目间问题冲突(#509) → 修复不同项目中问题 DIFF 对比时出现的冲突异常,确保跨项目数据一致性。
[1.3.7] 2025-06-11
🔧 修复
视觉模型PDF处理客户端报错 → 解决视觉模型解析PDF时在客户端环境的兼容性报错,确保跨平台稳定运行。
NPM install Canvas模块编译失败 → 修复Canvas模块在不同系统环境下的编译异常,完善依赖安装流程。
部分推理模型思维链获取失败(#381) → 修正推理模型输出解析逻辑,确保思维链内容完整提取至问题关联字段。
批量生产GA并发数限制(#385) → 解除批量生成GA数据时最多同时处理10个任务的限制,支持自定义并发配置。
文件列表展示数量限制(#350) → 修复文件列表仅显示前10条的问题,支持完整展示所有上传文件。
⚡ 优化
文献处理异步化改造 → 重构文献处理流程为后台异步任务,支持实时查看处理进度条与状态日志。
GA提示词污染修复 → 清理提示词模板中的冗余字符与格式干扰,确保生成内容纯净度。
模型操作前置校验 → 未选择模型时自动禁用相关功能按钮,避免因参数缺失导致的非预期报错。
新建模型提示优化 → 新增输入提示文本,明确告知用户可自定义模型提供商(如OpenAI/本地部署)及模型名称。
Playground界面功能增强(#381) → 在交互测试界面新增思维链展示区域,实时可视化推理模型的思考过程。
🔧 修复
选择模型后刷新列表跨域问题 → 修复模型列表刷新时的跨域请求错误,确保不同域下模型数据正常加载。
上传 DOCX 文件处理超时 → 优化文件解析线程池配置,解决大文件处理时的超时异常。
删除文献时原始目录删除失败 → 修正文件系统操作逻辑,确保文献删除时关联的原始目录同步清理。
⚡ 优化
Docker 打包脚本 → 优化镜像构建流程,减少冗余依赖,提升打包效率。
数据蒸馏任务问题生成 → 问题生成时不再包含标签序号,适配无结构化格式需求。
数据集详情 Token 展示 → 在数据集详情页新增 Token 数量统计,直观显示文本长度(支持模型输入限制参考)。
✨ 新功能
GA(载体、受众)对的数据集增强 引入 “载体(Generator)- 受众(Audience)” 配对机制,根据数据应用场景生成针对性内容。 文档:https://docs.easy-dataset.com/jin-jie-shi-yong/mga-zeng-qiang-shu-ju-ji
🔧 修复
数据集确认/保存失败 → 修复因权限校验异常或网络波动导致的数据集保存失败问题,提升操作稳定性。
修改文本块后筛选条件失效 → 解决文本块内容更新后,筛选条件(如标签、状态)未同步刷新的问题。
硅基流动默认 API 错误 → 修正默认配置中硅基流动 API 地址及认证参数,确保模型调用正常。
导出自定义格式数据集丢失标签 → 恢复自定义格式导出时标签字段的正常提取,支持保留完整元数据。
⚡ 优化
Windows 安装路径自定义 → 安装程序新增路径选择功能,默认不再强制安装至 C 盘,支持用户指定安装目录。
Alpaca 数据集导出配置优化
字段选择:支持切换问题使用
instruction或input字段,适配不同模型训练需求。自定义指令:允许手动输入或修改 instruction 内容,提升数据生成灵活性。
🔧 修复
领域树视图下问题无法展示 → 修复领域树节点展开后问题列表空白的异常,确保层级结构正常渲染。
自定义视觉模型解析失效 → 恢复自定义视觉模型对 PDF/图片的解析功能,优化模型加载逻辑。
多文件文本块排序错乱 → 解决跨文件文本块混合排序时的顺序混乱问题。
新版本升级后数据库同步失败 → 修复升级过程中本地数据库与后台数据同步异常,确保版本迭代数据完整性。
🔧 修复
修复文本块待生成问题筛选失效的问题
修复文本块排序错乱的问题
修复上传文档后不等待接口响应直接刷新业务的问题
⚡ 优化
文本块查询时剔除包含“distill content”的无效文本块
✨ 新功能:后台异步任务
背景:原前端同步执行批量任务易受浏览器并发限制,导致页面卡顿。 优化:将任务迁移至后台异步处理,提升大规模数据操作效率。
支持的异步任务类型
自动提取问题:创建任务后,后台自动批量处理未生成问题的文本块,支持配置并发量。
自动生成数据集:后台自动为未生成答案的问题批量生成答案,释放前端资源。
交互改进
任务状态图标:右上角显示实时进度,点击查看任务详情、日志及异常处理选项。
✨ 新功能
新模块:蒸馏模块
无文献蒸馏模式:无需依赖现有文献,直接从大模型中蒸馏生成数据集 ,查看文档:https://docs.easy-dataset.com/jin-jie-shi-yong/images-and-media
数据集一键上传 Huggingface
支持将数据集直接推送至 Huggingface 平台,方便模型训练与共享
⚡ 优化
项目管理增强
支持删除待升级、升级失败状态的项目
新增“打开项目文件夹”功能,快速定位目标项目路径
领域树性能优化
问题节点改为按需加载,大幅提升领域树视图的查询速度
顶部导航栏样式
优化布局和视觉设计,提升操作便捷性
数据集详情页渲染
答案内容支持 Markdown 格式渲染,增强可读性
数据存储优化
数据集存储时不再包含关联文本块原始内容,节省约大量存储空间
🔧 修复
修复数据集优化过程中意外生成 COT 的问题
修复文本处理页上传时已移除文件仍被处理致报错的问题
⚡ 优化
将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验
随机取出问题中的问号(支持配置)
优化多项功能使用体验
✨ 新功能
领域树灵活管理模式
新增/删除文献时支持三种模式:
修订模式:仅修正新增/删除文献相关的领域树节点,最小化影响现有结构
完全重建模式:基于所有文献目录重新生成领域树(现有逻辑)
锁定模式:固定当前领域树,新增/删除文献不触发更新
多种文本分块策略
Markdown分块:根据文档标题自动分割,保持语义完整性(适用于结构化Markdown)
自定义分割符递归分块:按优先级递归尝试多级分隔符(可配置),适合复杂文档
自定义分割符固定长度分块:按指定分隔符切分后组合为固定长度(可配置)
Token分块:基于Token数量分块(非字符数),适配模型输入要求
程序代码智能分块:根据编程语言语法结构智能分割,避免语法断裂
可视化自定义分块
支持通过图形界面手动调整分块边界,实时预览分块效果
客户端工具增强
新增本地日志存储,可一键打开日志目录排查问题
新增清除缓存功能,支持清理历史日志和数据库备份文件
[1.3.0-beta.1] 2025-05-06
本次更新在修复系统问题的基础上,对存储方式进行了重大优化,将本地文件存储重构为本地数据库存储,为提升大量数据下的使用体验带来大幅改进。由于此次改动较大,特发布 beta 版本供大家体验。如果大家在使用本版本过程中遇到任何问题,欢迎通过 Issues 提交反馈,帮助我们进一步完善产品。
🔧 修复
修复数据集优化过程中意外生成 COT 的问题
修复了文本处理页上传时已移除文件仍被处理致报错的问题
⚡ 优化
将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验
随机取出问题中的问号(支持配置)
优化多项功能使用体验
✨ 新功能
客户端新增本地日志存储,可打开日志目录排查问题
客户端新增清除缓存功能,可清理历史日志文件和备份的数据库文件
[1.2.5] 2025-04-13
🔧 修复
修复第一次配置模型报错的问题
修复 Docker 打包镜像报错的问题
[1.2.4] 2025-04-12
⚡ 优化
使用 OPEN AI SDK 对模型交互接口进行重构,提升兼容性
✨ 新功能
支持视觉模型配置
支持使用自定义视觉模型解析 PDF,准确率更高
模型测试支持发送图片,对视觉模型进行测试
数据集详情页支持查看所属文本块
支持用户自己编辑文本块
支持下载和预览查看解析好的 Markdown 文件
[1.2.3] 2025-03-30
⚡ 优化
增强模型默认最大输出 Token 限制
去除更新失败弹窗
去除部分干扰错误日志输出
✨ 新功能
支持一键打开客户端数据目录
支持模型温度、最大生成 Token 数量配置
支持两种 PDF 文件解析(基础解析、MinerU 解析)
支持数据集导出 CSV 格式
[1.2.2] 2025-03-24
🔧 修复
修复领域树视图下无法选中问题、删除问题失败的 Bug
修复升级新版本链接可能不准确的问题
⚡ 优化
去除答案和思维链中多余的换行符
去除更新失败弹窗、更新下载最新安装包地址
✨ 新功能
文献管理支持已生成、未生成问题的筛选
[1.2.1] 2025-03-23
🔧 修复
修复文本块排序不准确的问题
⚡ 优化
下调默认并发量为 3 (解决触发部分模型限流问题)
优化问题生成提示词,提升问题生成质量
下调最小分割字符数为 100,上调最大分割字符数为 10000
当模型未按标准格式输出时,日志增加原始输出信息
✨ 新功能
支持编辑问题、自定义问题
支持数据集直接在 LLaMa Factory 中使用
支持配置用户自定义提示词
[1.1.6] 2025-03-19
🔧 修复
修复 extractThinkChain 报错的问题
修复 NPM 依赖弃用问题
修复问题筛选,全选联动的问题
⚡ 优化
优化上传多个文献时删除文献后重新构建领域树的操作
客户端打开后默认最大化,不再全屏
优化思维链内容,去除参考文献的话术
[1.1.5] 2025-03-18
🔧 修复
修复缓存导致的项目列表为空的问题
修复问题分割字数配置不生效的问题
修复部分特殊文件名导致的报错问题
修复部分 Loading 状态失效的问题
⚡ 优化
客户端内打开外部链接,默认跳转浏览器
继续优化数据集结果生成的成功率
大量问题下领域树展示性能优化
✨ 新功能
新建项目时可选择复用其他项目的模型配置
单个项目支持上传多个文件(共享领域树)
问题管理增加已生成/未生成数据集的筛选
支持 docx 类型文件上传
Last updated
Was this helpful?