Easy Dataset
Github
简体中文
简体中文
  • 产品简介
  • 安装和使用
  • 基础功能
    • 项目
      • 任务配置
      • 模型配置
      • 模型测试
    • 文献
      • 文献处理
      • 领域标签
  • 问题
    • 问题生成
    • 问题管理
  • 数据集
    • 数据集生成
    • 数据集管理
    • 数据集导出
    • 数据集广场
  • 评估
    • 微调效果评估
  • 进阶使用
    • 文本分块策略
    • 自定义提示词
    • 蒸馏数据集
  • 博客
    • 更新日志
    • 社区教程
  • 知识科普
  • 更多
    • 常见问题
    • 隐私协议
    • 联系我们
Powered by GitBook

Copyright © 2025 Easy Dataset

On this page
  • 文件类型
  • PDF 处理
  • 文本分块
  • 文献管理

Was this helpful?

Edit on GitHub
Export as PDF
  1. 基础功能
  2. 文献

文献处理

Previous文献Next领域标签

Last updated 6 days ago

Was this helpful?

此模块用于将多种格式的领域文献,处理为可供模型理解的数据结构。

文件类型

目前平台支持 Markdwon、PDF、DOCX、TXT 四种格式的文献处理:

模型对于具备良好结构划分的 Markdown 文献理解效果最好,建议大家优先上传 Markdwon 文件。

PDF 处理

由于 PDF 格式相对特殊,平台针对不同场景支持了四种不同的 PDF 处理方式,当上传的文献中含有 PDF 格式的文献时,会触发弹框:

基础解析

专注于快速识别简单 PDF 文件的关键轮廓,处理规整纯文本报告、简单说明文档等效率高,但无法精准解析含大量公式、图表等复杂内容的文件。

MinerU API 解析

MinerU 在线平台解析

自定义视觉模型解析

可以识别复杂的 PDF 文件,包括公式和图表。该方式要求在模型配置中添加视觉模型配置,通过自定义的视觉模型来实现对 PDF 文件的解析。可以根据具体需求定制解析规则和模型参数,以适应不同类型的复杂 PDF 文件。

当选择 MinerU API 解析、自定义视觉模型解析时,PDF 处理时间可能较长,请耐心等待:

可通过 「设置-任务设置」 配置自定义视觉模型的最大并发数量,及最多同时处理多少页 PDF,并发数量越大,处理速度也快,注意考虑模型提供商的并发量限制。

文本分块

在选择好文件和处理方式,点击上传前,注意一定要提前在右上角选择模型,否则会导致处理失败:

注意,这一步大家没必要选推理模型(比如 DeepSeek-R1),选择一个普通的问答模型比如豆包、千问都可以,在这一步推理模型并不会起到优势,而且会拖慢处理速度。

点击上传后,会将传入的文献进行了智能的文本分割,我们可以在分割列表里看到被拆分好的文本块,以及每个文本块的字数:

可以查看每个文本块的详情:

可以对每个文本块进行编辑:

文献管理

可以筛选指定文献已经生成的文本块:

可预览文献详情(转换为 Markdown),下载文献(Markdown),删除文献:

预览文献:

可通过 「设置 - 任务设置」 配置 MinerU API Key,调用 MinerU API 进行解析,可深度解析含公式、图表的复杂 PDF 文件,适用于学术论文、技术报告等场景,文件越复杂处理速度越慢。可以通过 申请 MinerU API Key(注意有效期为 14 天,过期需重新申配置)。

跳转至 MinerU 平台: ,用户可在此平台解析 PDF,并下载 Markdwon 文件,再回平台重新上传。

关于文本分块的原理,以及想自定义分块规则以适应不同的文献结构,可查看:《》 章节。

https://mineru.net/apiManage/token
https://mineru.net/OpenSourceTools/Extractor
自定义分块