更新日志
[1.3.7] 2025-06-11
🔧 修复
视觉模型PDF处理客户端报错 → 解决视觉模型解析PDF时在客户端环境的兼容性报错,确保跨平台稳定运行。
NPM install Canvas模块编译失败 → 修复Canvas模块在不同系统环境下的编译异常,完善依赖安装流程。
部分推理模型思维链获取失败(#381) → 修正推理模型输出解析逻辑,确保思维链内容完整提取至问题关联字段。
批量生产GA并发数限制(#385) → 解除批量生成GA数据时最多同时处理10个任务的限制,支持自定义并发配置。
文件列表展示数量限制(#350) → 修复文件列表仅显示前10条的问题,支持完整展示所有上传文件。
⚡ 优化
文献处理异步化改造 → 重构文献处理流程为后台异步任务,支持实时查看处理进度条与状态日志。
GA提示词污染修复 → 清理提示词模板中的冗余字符与格式干扰,确保生成内容纯净度。
模型操作前置校验 → 未选择模型时自动禁用相关功能按钮,避免因参数缺失导致的非预期报错。
新建模型提示优化 → 新增输入提示文本,明确告知用户可自定义模型提供商(如OpenAI/本地部署)及模型名称。
Playground界面功能增强(#381) → 在交互测试界面新增思维链展示区域,实时可视化推理模型的思考过程。
🔧 修复
选择模型后刷新列表跨域问题 → 修复模型列表刷新时的跨域请求错误,确保不同域下模型数据正常加载。
上传 DOCX 文件处理超时 → 优化文件解析线程池配置,解决大文件处理时的超时异常。
删除文献时原始目录删除失败 → 修正文件系统操作逻辑,确保文献删除时关联的原始目录同步清理。
⚡ 优化
Docker 打包脚本 → 优化镜像构建流程,减少冗余依赖,提升打包效率。
数据蒸馏任务问题生成 → 问题生成时不再包含标签序号,适配无结构化格式需求。
数据集详情 Token 展示 → 在数据集详情页新增 Token 数量统计,直观显示文本长度(支持模型输入限制参考)。
✨ 新功能
GA(载体、受众)对的数据集增强 引入 “载体(Generator)- 受众(Audience)” 配对机制,根据数据应用场景生成针对性内容。 文档:https://docs.easy-dataset.com/jin-jie-shi-yong/mga-zeng-qiang-shu-ju-ji
🔧 修复
数据集确认/保存失败 → 修复因权限校验异常或网络波动导致的数据集保存失败问题,提升操作稳定性。
修改文本块后筛选条件失效 → 解决文本块内容更新后,筛选条件(如标签、状态)未同步刷新的问题。
硅基流动默认 API 错误 → 修正默认配置中硅基流动 API 地址及认证参数,确保模型调用正常。
导出自定义格式数据集丢失标签 → 恢复自定义格式导出时标签字段的正常提取,支持保留完整元数据。
⚡ 优化
Windows 安装路径自定义 → 安装程序新增路径选择功能,默认不再强制安装至 C 盘,支持用户指定安装目录。
Alpaca 数据集导出配置优化
字段选择:支持切换问题使用
instruction
或input
字段,适配不同模型训练需求。自定义指令:允许手动输入或修改 instruction 内容,提升数据生成灵活性。
🔧 修复
领域树视图下问题无法展示 → 修复领域树节点展开后问题列表空白的异常,确保层级结构正常渲染。
自定义视觉模型解析失效 → 恢复自定义视觉模型对 PDF/图片的解析功能,优化模型加载逻辑。
多文件文本块排序错乱 → 解决跨文件文本块混合排序时的顺序混乱问题。
新版本升级后数据库同步失败 → 修复升级过程中本地数据库与后台数据同步异常,确保版本迭代数据完整性。
🔧 修复
修复文本块待生成问题筛选失效的问题
修复文本块排序错乱的问题
修复上传文档后不等待接口响应直接刷新业务的问题
⚡ 优化
文本块查询时剔除包含“distill content”的无效文本块
✨ 新功能:后台异步任务
背景:原前端同步执行批量任务易受浏览器并发限制,导致页面卡顿。 优化:将任务迁移至后台异步处理,提升大规模数据操作效率。
支持的异步任务类型
自动提取问题:创建任务后,后台自动批量处理未生成问题的文本块,支持配置并发量。
自动生成数据集:后台自动为未生成答案的问题批量生成答案,释放前端资源。
交互改进
任务状态图标:右上角显示实时进度,点击查看任务详情、日志及异常处理选项。
✨ 新功能
新模块:蒸馏模块
无文献蒸馏模式:无需依赖现有文献,直接从大模型中蒸馏生成数据集 ,查看文档:https://docs.easy-dataset.com/jin-jie-shi-yong/images-and-media
数据集一键上传 Huggingface
支持将数据集直接推送至 Huggingface 平台,方便模型训练与共享
⚡ 优化
项目管理增强
支持删除待升级、升级失败状态的项目
新增“打开项目文件夹”功能,快速定位目标项目路径
领域树性能优化
问题节点改为按需加载,大幅提升领域树视图的查询速度
顶部导航栏样式
优化布局和视觉设计,提升操作便捷性
数据集详情页渲染
答案内容支持 Markdown 格式渲染,增强可读性
数据存储优化
数据集存储时不再包含关联文本块原始内容,节省约大量存储空间
🔧 修复
修复数据集优化过程中意外生成 COT 的问题
修复文本处理页上传时已移除文件仍被处理致报错的问题
⚡ 优化
将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验
随机取出问题中的问号(支持配置)
优化多项功能使用体验
✨ 新功能
领域树灵活管理模式
新增/删除文献时支持三种模式:
修订模式:仅修正新增/删除文献相关的领域树节点,最小化影响现有结构
完全重建模式:基于所有文献目录重新生成领域树(现有逻辑)
锁定模式:固定当前领域树,新增/删除文献不触发更新
多种文本分块策略
Markdown分块:根据文档标题自动分割,保持语义完整性(适用于结构化Markdown)
自定义分割符递归分块:按优先级递归尝试多级分隔符(可配置),适合复杂文档
自定义分割符固定长度分块:按指定分隔符切分后组合为固定长度(可配置)
Token分块:基于Token数量分块(非字符数),适配模型输入要求
程序代码智能分块:根据编程语言语法结构智能分割,避免语法断裂
可视化自定义分块
支持通过图形界面手动调整分块边界,实时预览分块效果
客户端工具增强
新增本地日志存储,可一键打开日志目录排查问题
新增清除缓存功能,支持清理历史日志和数据库备份文件
[1.3.0-beta.1] 2025-05-06
本次更新在修复系统问题的基础上,对存储方式进行了重大优化,将本地文件存储重构为本地数据库存储,为提升大量数据下的使用体验带来大幅改进。由于此次改动较大,特发布 beta 版本供大家体验。如果大家在使用本版本过程中遇到任何问题,欢迎通过 Issues 提交反馈,帮助我们进一步完善产品。
🔧 修复
修复数据集优化过程中意外生成 COT 的问题
修复了文本处理页上传时已移除文件仍被处理致报错的问题
⚡ 优化
将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验
随机取出问题中的问号(支持配置)
优化多项功能使用体验
✨ 新功能
客户端新增本地日志存储,可打开日志目录排查问题
客户端新增清除缓存功能,可清理历史日志文件和备份的数据库文件
[1.2.5] 2025-04-13
🔧 修复
修复第一次配置模型报错的问题
修复 Docker 打包镜像报错的问题
[1.2.4] 2025-04-12
⚡ 优化
使用 OPEN AI SDK 对模型交互接口进行重构,提升兼容性
✨ 新功能
支持视觉模型配置
支持使用自定义视觉模型解析 PDF,准确率更高
模型测试支持发送图片,对视觉模型进行测试
数据集详情页支持查看所属文本块
支持用户自己编辑文本块
支持下载和预览查看解析好的 Markdown 文件
[1.2.3] 2025-03-30
⚡ 优化
增强模型默认最大输出 Token 限制
去除更新失败弹窗
去除部分干扰错误日志输出
✨ 新功能
支持一键打开客户端数据目录
支持模型温度、最大生成 Token 数量配置
支持两种 PDF 文件解析(基础解析、MinerU 解析)
支持数据集导出 CSV 格式
[1.2.2] 2025-03-24
🔧 修复
修复领域树视图下无法选中问题、删除问题失败的 Bug
修复升级新版本链接可能不准确的问题
⚡ 优化
去除答案和思维链中多余的换行符
去除更新失败弹窗、更新下载最新安装包地址
✨ 新功能
文献管理支持已生成、未生成问题的筛选
[1.2.1] 2025-03-23
🔧 修复
修复文本块排序不准确的问题
⚡ 优化
下调默认并发量为 3 (解决触发部分模型限流问题)
优化问题生成提示词,提升问题生成质量
下调最小分割字符数为 100,上调最大分割字符数为 10000
当模型未按标准格式输出时,日志增加原始输出信息
✨ 新功能
支持编辑问题、自定义问题
支持数据集直接在 LLaMa Factory 中使用
支持配置用户自定义提示词
[1.1.6] 2025-03-19
🔧 修复
修复 extractThinkChain 报错的问题
修复 NPM 依赖弃用问题
修复问题筛选,全选联动的问题
⚡ 优化
优化上传多个文献时删除文献后重新构建领域树的操作
客户端打开后默认最大化,不再全屏
优化思维链内容,去除参考文献的话术
[1.1.5] 2025-03-18
🔧 修复
修复缓存导致的项目列表为空的问题
修复问题分割字数配置不生效的问题
修复部分特殊文件名导致的报错问题
修复部分 Loading 状态失效的问题
⚡ 优化
客户端内打开外部链接,默认跳转浏览器
继续优化数据集结果生成的成功率
大量问题下领域树展示性能优化
✨ 新功能
新建项目时可选择复用其他项目的模型配置
单个项目支持上传多个文件(共享领域树)
问题管理增加已生成/未生成数据集的筛选
支持 docx 类型文件上传
Last updated
Was this helpful?