更新日志

[1.3.7] 2025-06-11

🔧 修复

  1. 视觉模型PDF处理客户端报错 → 解决视觉模型解析PDF时在客户端环境的兼容性报错,确保跨平台稳定运行。

  2. NPM install Canvas模块编译失败 → 修复Canvas模块在不同系统环境下的编译异常,完善依赖安装流程。

  3. 部分推理模型思维链获取失败(#381 → 修正推理模型输出解析逻辑,确保思维链内容完整提取至问题关联字段。

  4. 批量生产GA并发数限制(#385 → 解除批量生成GA数据时最多同时处理10个任务的限制,支持自定义并发配置。

  5. 文件列表展示数量限制(#350 → 修复文件列表仅显示前10条的问题,支持完整展示所有上传文件。

⚡ 优化

  1. 文献处理异步化改造 → 重构文献处理流程为后台异步任务,支持实时查看处理进度条与状态日志。

  2. GA提示词污染修复 → 清理提示词模板中的冗余字符与格式干扰,确保生成内容纯净度。

  3. 模型操作前置校验 → 未选择模型时自动禁用相关功能按钮,避免因参数缺失导致的非预期报错。

  4. 新建模型提示优化 → 新增输入提示文本,明确告知用户可自定义模型提供商(如OpenAI/本地部署)及模型名称。

  5. Playground界面功能增强(#381 → 在交互测试界面新增思维链展示区域,实时可视化推理模型的思考过程。


🔧 修复

  1. 选择模型后刷新列表跨域问题
→ 修复模型列表刷新时的跨域请求错误,确保不同域下模型数据正常加载。

  2. 上传 DOCX 文件处理超时
→ 优化文件解析线程池配置,解决大文件处理时的超时异常。

  3. 删除文献时原始目录删除失败
→ 修正文件系统操作逻辑,确保文献删除时关联的原始目录同步清理。

⚡ 优化

  1. Docker 打包脚本
→ 优化镜像构建流程,减少冗余依赖,提升打包效率。

  2. 数据蒸馏任务问题生成
→ 问题生成时不再包含标签序号,适配无结构化格式需求。

  3. 数据集详情 Token 展示
→ 在数据集详情页新增 Token 数量统计,直观显示文本长度(支持模型输入限制参考)。

✨ 新功能

  1. GA(载体、受众)对的数据集增强 引入 “载体(Generator)- 受众(Audience)” 配对机制,根据数据应用场景生成针对性内容。 文档:https://docs.easy-dataset.com/jin-jie-shi-yong/mga-zeng-qiang-shu-ju-ji


🔧 修复

  1. 数据集确认/保存失败 → 修复因权限校验异常或网络波动导致的数据集保存失败问题,提升操作稳定性。

  2. 修改文本块后筛选条件失效 → 解决文本块内容更新后,筛选条件(如标签、状态)未同步刷新的问题。

  3. 硅基流动默认 API 错误 → 修正默认配置中硅基流动 API 地址及认证参数,确保模型调用正常。

  4. 导出自定义格式数据集丢失标签 → 恢复自定义格式导出时标签字段的正常提取,支持保留完整元数据。

⚡ 优化

  1. Windows 安装路径自定义 → 安装程序新增路径选择功能,默认不再强制安装至 C 盘,支持用户指定安装目录。

  2. Alpaca 数据集导出配置优化

    • 字段选择:支持切换问题使用 instructioninput 字段,适配不同模型训练需求。

    • 自定义指令:允许手动输入或修改 instruction 内容,提升数据生成灵活性。

🔧 修复

  1. 领域树视图下问题无法展示 → 修复领域树节点展开后问题列表空白的异常,确保层级结构正常渲染。

  2. 自定义视觉模型解析失效 → 恢复自定义视觉模型对 PDF/图片的解析功能,优化模型加载逻辑。

  3. 多文件文本块排序错乱 → 解决跨文件文本块混合排序时的顺序混乱问题。

  4. 新版本升级后数据库同步失败 → 修复升级过程中本地数据库与后台数据同步异常,确保版本迭代数据完整性。


🔧 修复

  1. 修复文本块待生成问题筛选失效的问题

  2. 修复文本块排序错乱的问题

  3. 修复上传文档后不等待接口响应直接刷新业务的问题

⚡ 优化

  1. 文本块查询时剔除包含“distill content”的无效文本块

✨ 新功能:后台异步任务

背景:原前端同步执行批量任务易受浏览器并发限制,导致页面卡顿。 优化:将任务迁移至后台异步处理,提升大规模数据操作效率。

  1. 支持的异步任务类型

    • 自动提取问题:创建任务后,后台自动批量处理未生成问题的文本块,支持配置并发量。

    • 自动生成数据集:后台自动为未生成答案的问题批量生成答案,释放前端资源。

  2. 交互改进

    • 任务状态图标:右上角显示实时进度,点击查看任务详情、日志及异常处理选项。


✨ 新功能

  1. 新模块:蒸馏模块

  2. 数据集一键上传 Huggingface

    • 支持将数据集直接推送至 Huggingface 平台,方便模型训练与共享

⚡ 优化

  1. 项目管理增强

    • 支持删除待升级、升级失败状态的项目

    • 新增“打开项目文件夹”功能,快速定位目标项目路径

  2. 领域树性能优化

    • 问题节点改为按需加载,大幅提升领域树视图的查询速度

  3. 顶部导航栏样式

    • 优化布局和视觉设计,提升操作便捷性

  4. 数据集详情页渲染

    • 答案内容支持 Markdown 格式渲染,增强可读性

  5. 数据存储优化

    • 数据集存储时不再包含关联文本块原始内容,节省约大量存储空间


🔧 修复

  1. 修复数据集优化过程中意外生成 COT 的问题

  2. 修复文本处理页上传时已移除文件仍被处理致报错的问题

⚡ 优化

  1. 将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验

  2. 随机取出问题中的问号(支持配置)

  3. 优化多项功能使用体验

✨ 新功能

  1. 领域树灵活管理模式

    • 新增/删除文献时支持三种模式:

      • 修订模式:仅修正新增/删除文献相关的领域树节点,最小化影响现有结构

      • 完全重建模式:基于所有文献目录重新生成领域树(现有逻辑)

      • 锁定模式:固定当前领域树,新增/删除文献不触发更新

  2. 多种文本分块策略

    • Markdown分块:根据文档标题自动分割,保持语义完整性(适用于结构化Markdown)

    • 自定义分割符递归分块:按优先级递归尝试多级分隔符(可配置),适合复杂文档

    • 自定义分割符固定长度分块:按指定分隔符切分后组合为固定长度(可配置)

    • Token分块:基于Token数量分块(非字符数),适配模型输入要求

    • 程序代码智能分块:根据编程语言语法结构智能分割,避免语法断裂

  3. 可视化自定义分块

    • 支持通过图形界面手动调整分块边界,实时预览分块效果

  4. 客户端工具增强

    • 新增本地日志存储,可一键打开日志目录排查问题

    • 新增清除缓存功能,支持清理历史日志和数据库备份文件


[1.3.0-beta.1] 2025-05-06

本次更新在修复系统问题的基础上,对存储方式进行了重大优化,将本地文件存储重构为本地数据库存储,为提升大量数据下的使用体验带来大幅改进。由于此次改动较大,特发布 beta 版本供大家体验。如果大家在使用本版本过程中遇到任何问题,欢迎通过 Issues 提交反馈,帮助我们进一步完善产品。

🔧 修复

  1. 修复数据集优化过程中意外生成 COT 的问题

  2. 修复了文本处理页上传时已移除文件仍被处理致报错的问题

⚡ 优化

  1. 将本地文件存储重构为本地数据库存储,大幅优化大量数据下的使用体验

  2. 随机取出问题中的问号(支持配置)

  3. 优化多项功能使用体验

✨ 新功能

  1. 客户端新增本地日志存储,可打开日志目录排查问题

  2. 客户端新增清除缓存功能,可清理历史日志文件和备份的数据库文件


[1.2.5] 2025-04-13

🔧 修复

  1. 修复第一次配置模型报错的问题

  2. 修复 Docker 打包镜像报错的问题


[1.2.4] 2025-04-12

⚡ 优化

  1. 使用 OPEN AI SDK 对模型交互接口进行重构,提升兼容性

✨ 新功能

  1. 支持视觉模型配置

  2. 支持使用自定义视觉模型解析 PDF,准确率更高

  3. 模型测试支持发送图片,对视觉模型进行测试

  4. 数据集详情页支持查看所属文本块

  5. 支持用户自己编辑文本块

  6. 支持下载和预览查看解析好的 Markdown 文件


[1.2.3] 2025-03-30

⚡ 优化

  1. 增强模型默认最大输出 Token 限制

  2. 去除更新失败弹窗

  3. 去除部分干扰错误日志输出

✨ 新功能

  1. 支持一键打开客户端数据目录

  2. 支持模型温度、最大生成 Token 数量配置

  3. 支持两种 PDF 文件解析(基础解析、MinerU 解析)

  4. 支持数据集导出 CSV 格式


[1.2.2] 2025-03-24

🔧 修复

  1. 修复领域树视图下无法选中问题、删除问题失败的 Bug

  2. 修复升级新版本链接可能不准确的问题

⚡ 优化

  1. 去除答案和思维链中多余的换行符

  2. 去除更新失败弹窗、更新下载最新安装包地址

✨ 新功能

  1. 文献管理支持已生成、未生成问题的筛选


[1.2.1] 2025-03-23

🔧 修复

  1. 修复文本块排序不准确的问题

⚡ 优化

  1. 下调默认并发量为 3 (解决触发部分模型限流问题)

  2. 优化问题生成提示词,提升问题生成质量

  3. 下调最小分割字符数为 100,上调最大分割字符数为 10000

  4. 当模型未按标准格式输出时,日志增加原始输出信息

✨ 新功能

  1. 支持编辑问题、自定义问题

  2. 支持数据集直接在 LLaMa Factory 中使用

  3. 支持配置用户自定义提示词


[1.1.6] 2025-03-19

🔧 修复

  1. 修复 extractThinkChain 报错的问题

  2. 修复 NPM 依赖弃用问题

  3. 修复问题筛选,全选联动的问题

⚡ 优化

  1. 优化上传多个文献时删除文献后重新构建领域树的操作

  2. 客户端打开后默认最大化,不再全屏

  3. 优化思维链内容,去除参考文献的话术


[1.1.5] 2025-03-18

🔧 修复

  1. 修复缓存导致的项目列表为空的问题

  2. 修复问题分割字数配置不生效的问题

  3. 修复部分特殊文件名导致的报错问题

  4. 修复部分 Loading 状态失效的问题

⚡ 优化

  1. 客户端内打开外部链接,默认跳转浏览器

  2. 继续优化数据集结果生成的成功率

  3. 大量问题下领域树展示性能优化

✨ 新功能

  1. 新建项目时可选择复用其他项目的模型配置

  2. 单个项目支持上传多个文件(共享领域树)

  3. 问题管理增加已生成/未生成数据集的筛选

  4. 支持 docx 类型文件上传

Last updated

Was this helpful?