更新日志

[1.6.0] 2025-10-30

  1. 生成图像问答(VQA)数据集(#130、#483、#537) → 支持上传图像文件,自动生成图像相关问题与答案,构建 VQA 数据集,适配视觉语言模型训练。

  2. 全自动蒸馏数据集后台异步任务(#432、#492、#495、#496) → 支持从触发蒸馏到生成数据集的全流程自动化,通过后台异步任务完成,无需手动干预,支持查看实时进度。

  3. 问题模版功能 → 可创建多种自定义问题类型(如“描述图像内容”“分析文本观点”),并应用于所有图像或文本块批量生成对应问题,提升问题生成的标准化与场景适配性。

  4. 支持更改蒸馏标签名称(#422) → 允许自定义蒸馏过程中生成的标签名称,适配不同场景下的标签管理需求。

🔧 修复

  1. 修复保存模型时 ModelId 更新错误的 Bug → 修正模型配置保存流程中 ModelId 字段同步异常的问题,确保模型标识唯一性。

  2. 修复数据集批量评估问题(#576) → 新增批量评估任务中断功能,支持手动终止正在执行的评估;优化评估算法,提升批量处理速度。

  3. 修复数据集快捷键导致输入中断(#578) → 调整快捷键触发逻辑,避免与文本输入操作冲突,确保输入过程不被意外打断。

  4. 修复大量数据集选择后导出失败(#578) → 优化导出任务分片机制,解决因数据量过大导致的内存溢出或连接超时问题。

  5. 修复平衡导出不生效(#561) → 修正平衡导出逻辑中样本分布计算错误,确保按预设比例导出不同类别数据。

  6. 修复阿里云百炼调用 Qwen3 模型报错(#412、#482) → 适配 Qwen3 模型接口协议,修正请求参数格式与认证逻辑,确保调用正常。

⚡ 优化

  1. 提升多轮对话数据集解析稳定性 → 增强对多轮对话格式(如 ShareGPT)的兼容解析,减少因格式变体导致的解析失败。

  2. 异步执行单个文本块操作(#530、#494) → 将“单个文本块生成问题”“AI 智能优化数据集”改为后台异步任务,执行时不阻塞前端其他操作。

  3. 文本块筛选增强(#541) → 支持按关键字搜索文本块内容,及按字数范围(如 100-500 字)筛选,快速定位目标文本。

  4. 模型配置支持 Top 参数控制(#517) → 模型配置页新增 Top 参数(如 Top-K/Top-P)设置,可调节生成内容的多样性与确定性。

  5. 按文本块名称筛选(#275) → 问题列表与数据集列表支持按关联文本块(文件)名称筛选,提升跨模块数据定位效率。


[1.5.1] 2025-10-19

🔧 修复

  1. 删除文件时领域树修订不准确 → 再次优化文件删除后领域树的更新逻辑,确保仅移除与删除文件强关联的节点,避免误删或残留无效节点,提升领域树结构准确性。

  2. 删除答案后问题状态未更新(#572) → 修复删除问题生成的答案后,问题管理中仍显示“已生成答案”状态的问题,确保状态与实际数据一致。

  3. 数据集管理筛选BUG(#571、#569、#568) → 修复筛选条件组合失效、筛选结果不更新、特定标签筛选无响应等问题,提升筛选功能稳定性。

  4. Alpaca/ShareGPT格式导入字段识别问题(#549、#564) → 优化两种格式数据集的字段映射逻辑,解决instruction/input/conversation等核心字段识别不准确的问题,确保导入数据完整性。

⚡ 优化

  1. 数据集导出支持选中项导出(#570) → 导出数据集时新增“仅导出选中项”选项,支持手动勾选特定数据集进行导出,提升批量操作灵活性。

  2. 数据集确认与编辑优化(#542)

    • 新增“取消确认”功能:确认数据集后可随时撤销确认状态,避免误操作导致的不可逆影响。

    • 数据集详情页支持直接编辑问题内容,无需跳转至单独页面,简化修改流程。


[1.5.0] 2025-09-29

⚠️ BreakChange(兼容性变更)

  • 1.5.0 之前版本配置的自定义提示词将失效,升级后需重新配置核心提示词。

✨ 新功能

  1. 全量核心提示词开放自定义 → Easy Dataset 所有核心提示词(如问题生成、答案生产、数据清洗等)均开放配置,后续无需修改代码即可灵活调整,适配不同场景需求。

  2. AI 数据集质量评估(#546) → 新增数据集质量自动评估功能,支持:

    • 单个数据集即时评估(含相关性、准确性、完整性等维度);

    • 批量数据集异步评估(后台任务处理,支持查看评估报告)。

  3. 多轮对话 SFT 数据集生成(#504) → 支持生成多轮对话格式的 SFT 数据集,两种生成方式:

    • 基于文献内容提取多轮问答;

    • 直接从大模型蒸馏多轮对话数据。

  4. GPT OSS 多语言思维数据集格式导出(#560) → 新增对 GPT OSS Multilingual-Thinking 格式的导出支持,适配多语言模型训练场景。

  5. 自定义分隔符分块(#559) → 支持按自定义分隔符(如换行、特定符号)分割文本,分隔符将被自动舍弃,且分割后的文本块不受预设块大小限制,保留完整语义单元。

⚡ 优化

  1. 模型输出结构化稳定性提升 → 增加更多兼容解析逻辑,减少模型输出格式异常(如JSON解析失败、字段缺失),提升结构化数据生成的稳定性。

  2. Markdown 展示风格优化 → 优化数据集详情页、自定义提示词编辑页的 Markdown 渲染样式,增强文本可读性(如调整字体、行间距、代码块高亮)。

🔧 修复

  1. 文献目录过大导致上下文溢出 → 优化文献目录处理逻辑,自动截断或分段处理超长大目录,避免模型上下文长度超限。

  2. 数据清洗异常内容引入(#504、#529) → 修复数据清洗过程中意外引入无关内容或思维链信息的问题,确保清洗后文本纯净度。

  3. 删除文件时领域树修订不准确 → 修正文件删除后领域树节点更新逻辑,确保仅移除与删除文件相关的节点,避免误删或残留无效节点。

[1.4.0] 2025-08-31

✨ 新功能

  1. 支持本地部署 MinerU 集成(#200、#245) → 可在任务设置中配置本地 MinerU 服务 URL,实现与本地部署的 MinerU 工具联动。

  2. 数据集增强管理功能(#81) → 新增数据集评分、自定义标签及备注功能,支持基于这些属性进行筛选查询。

  3. 文献内容清洗功能(#516) → 支持对原始文献内容进行预处理清洗,提升后续数据集生成质量;支持自定义数据清洗提示词,适配不同场景需求。

  4. 数据集导出选项扩展

    • 支持导出时选择包含原始文本块(自定义格式)(#288、#185、#476、#464)

    • 支持仅导出问题列表,适配轻量数据应用场景(#394)

  5. 文献格式支持扩展(#205) → 新增对 .epub 格式文献的上传与分析功能,拓宽文献处理范围。

  6. 数据集导入功能(#498) → 支持从本地文件导入已有数据集,快速复用外部数据资源。

⚡ 优化

  1. 数据集翻页体验优化(#497) → 翻页时自动保存 Markdown 标签的选中状态,避免重复操作。

  2. 数据集列表筛选增强(#275) → 支持筛选“是否为蒸馏数据集”,快速定位特定类型数据。

🔧 修复

  1. 超大数据集导出问题(#502) → 修复大规模数据集导出时的卡死问题,新增分批导出机制,提升稳定性。

  2. 项目间问题冲突(#509) → 修复不同项目中问题 DIFF 对比时出现的冲突异常,确保跨项目数据一致性。


[1.3.7] 2025-06-11

🔧 修复

  1. 视觉模型PDF处理客户端报错 → 解决视觉模型解析PDF时在客户端环境的兼容性报错,确保跨平台稳定运行。

  2. NPM install Canvas模块编译失败 → 修复Canvas模块在不同系统环境下的编译异常,完善依赖安装流程。

  3. 部分推理模型思维链获取失败(#381 → 修正推理模型输出解析逻辑,确保思维链内容完整提取至问题关联字段。

  4. 批量生产GA并发数限制(#385 → 解除批量生成GA数据时最多同时处理10个任务的限制,支持自定义并发配置。

  5. 文件列表展示数量限制(#350 → 修复文件列表仅显示前10条的问题,支持完整展示所有上传文件。

⚡ 优化

  1. 文献处理异步化改造 → 重构文献处理流程为后台异步任务,支持实时查看处理进度条与状态日志。

  2. GA提示词污染修复 → 清理提示词模板中的冗余字符与格式干扰,确保生成内容纯净度。

  3. 模型操作前置校验 → 未选择模型时自动禁用相关功能按钮,避免因参数缺失导致的非预期报错。

  4. 新建模型提示优化 → 新增输入提示文本,明确告知用户可自定义模型提供商(如OpenAI/本地部署)及模型名称。

  5. Playground界面功能增强(#381 → 在交互测试界面新增思维链展示区域,实时可视化推理模型的思考过程。


🔧 修复

  1. 选择模型后刷新列表跨域问题
→ 修复模型列表刷新时的跨域请求错误,确保不同域下模型数据正常加载。

  2. 上传 DOCX 文件处理超时
→ 优化文件解析线程池配置,解决大文件处理时的超时异常。

  3. 删除文献时原始目录删除失败
→ 修正文件系统操作逻辑,确保文献删除时关联的原始目录同步清理。

⚡ 优化

  1. Docker 打包脚本
→ 优化镜像构建流程,减少冗余依赖,提升打包效率。

  2. 数据蒸馏任务问题生成
→ 问题生成时不再包含标签序号,适配无结构化格式需求。

  3. 数据集详情 Token 展示
→ 在数据集详情页新增 Token 数量统计,直观显示文本长度(支持模型输入限制参考)。

✨ 新功能

  1. GA(载体、受众)对的数据集增强 引入 “载体(Generator)- 受众(Audience)” 配对机制,根据数据应用场景生成针对性内容。 文档:https://docs.easy-dataset.com/jin-jie-shi-yong/mga-zeng-qiang-shu-ju-ji


🔧 修复

  1. 数据集确认/保存失败 → 修复因权限校验异常或网络波动导致的数据集保存失败问题,提升操作稳定性。

  2. 修改文本块后筛选条件失效 → 解决文本块内容更新后,筛选条件(如标签、状态)未同步刷新的问题。

  3. 硅基流动默认 API 错误 → 修正默认配置中硅基流动 API 地址及认证参数,确保模型调用正常。

  4. 导出自定义格式数据集丢失标签 → 恢复自定义格式导出时标签字段的正常提取,支持保留完整元数据。

⚡ 优化

  1. Windows 安装路径自定义 → 安装程序新增路径选择功能,默认不再强制安装至 C 盘,支持用户指定安装目录。

  2. Alpaca 数据集导出配置优化

    • 字段选择:支持切换问题使用 instructioninput 字段,适配不同模型训练需求。

    • 自定义指令:允许手动输入或修改 instruction 内容,提升数据生成灵活性。

🔧 修复

  1. 领域树视图下问题无法展示 → 修复领域树节点展开后问题列表空白的异常,确保层级结构正常渲染。

  2. 自定义视觉模型解析失效 → 恢复自定义视觉模型对 PDF/图片的解析功能,优化模型加载逻辑。

  3. 多文件文本块排序错乱 → 解决跨文件文本块混合排序时的顺序混乱问题。

  4. 新版本升级后数据库同步失败 → 修复升级过程中本地数据库与后台数据同步异常,确保版本迭代数据完整性。


🔧 修复

  1. 修复文本块待生成问题筛选失效的问题

  2. 修复文本块排序错乱的问题

  3. 修复上传文档后不等待接口响应直接刷新业务的问题

⚡ 优化

  1. 文本块查询时剔除包含“distill content”的无效文本块

✨ 新功能:后台异步任务

背景:原前端同步执行批量任务易受浏览器并发限制,导致页面卡顿。 优化:将任务迁移至后台异步处理,提升大规模数据操作效率。

  1. 支持的异步任务类型

    • 自动提取问题:创建任务后,后台自动批量处理未生成问题的文本块,支持配置并发量。

    • 自动生成数据集:后台自动为未生成答案的问题批量生成答案,释放前端资源。

  2. 交互改进

    • 任务状态图标:右上角显示实时进度,点击查看任务详情、日志及异常处理选项。


✨ 新功能

  1. 新模块:蒸馏模块

  2. 数据集一键上传 Huggingface

    • 支持将数据集直接推送至 Huggingface 平台,方便模型训练与共享

⚡ 优化

  1. 项目管理增强

    • 支持删除待升级、升级失败状态的项目

    • 新增“打开项目文件夹”功能,快速定位目标项目路径

  2. 领域树性能优化

    • 问题节点改为按需加载,大幅提升领域树视图的查询速度

  3. 顶部导航栏样式

    • 优化布局和视觉设计,提升操作便捷性

  4. 数据集详情页渲染

    • 答案内容支持 Markdown 格式渲染,增强可读性

  5. 数据存储优化

    • 数据集存储时不再包含关联文本块原始内容,节省约大量存储空间


🔧 修复

  1. 修复数据集优化过程中意外生成 COT 的问题

  2. 修复文本处理页上传时已移除文件仍被处理致报错的问题

⚡ 优化

  1. 将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验

  2. 随机取出问题中的问号(支持配置)

  3. 优化多项功能使用体验

✨ 新功能

  1. 领域树灵活管理模式

    • 新增/删除文献时支持三种模式:

      • 修订模式:仅修正新增/删除文献相关的领域树节点,最小化影响现有结构

      • 完全重建模式:基于所有文献目录重新生成领域树(现有逻辑)

      • 锁定模式:固定当前领域树,新增/删除文献不触发更新

  2. 多种文本分块策略

    • Markdown分块:根据文档标题自动分割,保持语义完整性(适用于结构化Markdown)

    • 自定义分割符递归分块:按优先级递归尝试多级分隔符(可配置),适合复杂文档

    • 自定义分割符固定长度分块:按指定分隔符切分后组合为固定长度(可配置)

    • Token分块:基于Token数量分块(非字符数),适配模型输入要求

    • 程序代码智能分块:根据编程语言语法结构智能分割,避免语法断裂

  3. 可视化自定义分块

    • 支持通过图形界面手动调整分块边界,实时预览分块效果

  4. 客户端工具增强

    • 新增本地日志存储,可一键打开日志目录排查问题

    • 新增清除缓存功能,支持清理历史日志和数据库备份文件


[1.3.0-beta.1] 2025-05-06

本次更新在修复系统问题的基础上,对存储方式进行了重大优化,将本地文件存储重构为本地数据库存储,为提升大量数据下的使用体验带来大幅改进。由于此次改动较大,特发布 beta 版本供大家体验。如果大家在使用本版本过程中遇到任何问题,欢迎通过 Issues 提交反馈,帮助我们进一步完善产品。

🔧 修复

  1. 修复数据集优化过程中意外生成 COT 的问题

  2. 修复了文本处理页上传时已移除文件仍被处理致报错的问题

⚡ 优化

  1. 将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验

  2. 随机取出问题中的问号(支持配置)

  3. 优化多项功能使用体验

✨ 新功能

  1. 客户端新增本地日志存储,可打开日志目录排查问题

  2. 客户端新增清除缓存功能,可清理历史日志文件和备份的数据库文件


[1.2.5] 2025-04-13

🔧 修复

  1. 修复第一次配置模型报错的问题

  2. 修复 Docker 打包镜像报错的问题


[1.2.4] 2025-04-12

⚡ 优化

  1. 使用 OPEN AI SDK 对模型交互接口进行重构,提升兼容性

✨ 新功能

  1. 支持视觉模型配置

  2. 支持使用自定义视觉模型解析 PDF,准确率更高

  3. 模型测试支持发送图片,对视觉模型进行测试

  4. 数据集详情页支持查看所属文本块

  5. 支持用户自己编辑文本块

  6. 支持下载和预览查看解析好的 Markdown 文件


[1.2.3] 2025-03-30

⚡ 优化

  1. 增强模型默认最大输出 Token 限制

  2. 去除更新失败弹窗

  3. 去除部分干扰错误日志输出

✨ 新功能

  1. 支持一键打开客户端数据目录

  2. 支持模型温度、最大生成 Token 数量配置

  3. 支持两种 PDF 文件解析(基础解析、MinerU 解析)

  4. 支持数据集导出 CSV 格式


[1.2.2] 2025-03-24

🔧 修复

  1. 修复领域树视图下无法选中问题、删除问题失败的 Bug

  2. 修复升级新版本链接可能不准确的问题

⚡ 优化

  1. 去除答案和思维链中多余的换行符

  2. 去除更新失败弹窗、更新下载最新安装包地址

✨ 新功能

  1. 文献管理支持已生成、未生成问题的筛选


[1.2.1] 2025-03-23

🔧 修复

  1. 修复文本块排序不准确的问题

⚡ 优化

  1. 下调默认并发量为 3 (解决触发部分模型限流问题)

  2. 优化问题生成提示词,提升问题生成质量

  3. 下调最小分割字符数为 100,上调最大分割字符数为 10000

  4. 当模型未按标准格式输出时,日志增加原始输出信息

✨ 新功能

  1. 支持编辑问题、自定义问题

  2. 支持数据集直接在 LLaMa Factory 中使用

  3. 支持配置用户自定义提示词


[1.1.6] 2025-03-19

🔧 修复

  1. 修复 extractThinkChain 报错的问题

  2. 修复 NPM 依赖弃用问题

  3. 修复问题筛选,全选联动的问题

⚡ 优化

  1. 优化上传多个文献时删除文献后重新构建领域树的操作

  2. 客户端打开后默认最大化,不再全屏

  3. 优化思维链内容,去除参考文献的话术


[1.1.5] 2025-03-18

🔧 修复

  1. 修复缓存导致的项目列表为空的问题

  2. 修复问题分割字数配置不生效的问题

  3. 修复部分特殊文件名导致的报错问题

  4. 修复部分 Loading 状态失效的问题

⚡ 优化

  1. 客户端内打开外部链接,默认跳转浏览器

  2. 继续优化数据集结果生成的成功率

  3. 大量问题下领域树展示性能优化

✨ 新功能

  1. 新建项目时可选择复用其他项目的模型配置

  2. 单个项目支持上传多个文件(共享领域树)

  3. 问题管理增加已生成/未生成数据集的筛选

  4. 支持 docx 类型文件上传

Last updated

Was this helpful?