[在线] MinerU - 免费开源文档解析神器
免费开源文档解析神器「MinerU」据介绍是一款将 PDF 等文档格式转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 自动从各种类型的文档中提取关键信息,例如合同、简历、财务报表等。

功能介绍
- 删除页眉、页脚、脚注、页码等元素,确保语义连贯
- 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片描述、表格、表格标题及脚注
- 自动识别并转换文档中的公式为 LaTeX 格式
- 自动识别并转换文档中的表格为 HTML 格式
- 自动检测扫描版 PDF 和乱码 PDF,并启用 OCR 功能
- OCR 支持 84 种语言的检测与识别
- 支持多种输出格式,如多模态与 NLP 的 Markdown、按阅读顺序排序的 JSON、含有丰富信息的中间格式等
- 支持多种可视化结果,包括 layout 可视化、span 可视化等,便于高效确认输出效果与质检
- 支持纯 CPU 环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速
- 兼容 Windows、Linux和 Mac 平台
下载地址
- 项目地址:
https://github.com/opendatalab/MinerU - 在线地址:
https://mineru.net
