[在线] MinerU - 免费开源文档解析神器

免费开源文档解析神器「MinerU」据介绍是一款将 PDF 等文档格式转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 自动从各种类型的文档中提取关键信息,例如合同、简历、财务报表等。

20250521-1

功能介绍

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为 LaTeX 格式
  • 自动识别并转换文档中的表格为 HTML 格式
  • 自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能
  • OCR 支持 84 种语言的检测与识别
  • 支持多种输出格式,如多模态与 NLP 的 Markdown、按阅读顺序排序的 JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括 layout 可视化、span 可视化等,便于高效确认输出效果与质检
  • 支持纯 CPU 环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
  • 兼容 Windows、Linux和 Mac 平台

下载地址

  • 项目地址:
    https://github.com/opendatalab/MinerU
  • 在线地址:
    https://mineru.net