mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

原创 ully AI工程化 2024年10月23日 08:04

阿里巴巴与人大联合推出的 mPLUG-DocOwl 1.5 模型，革新文档处理，实现无需 OCR 的文档理解。该模型直接理解文档、网页、表格和图表，特别擅长解析复杂商业报告和网页截图。它可以理解文档结构和文档内容，可以将表格和图表转换Markdown格式输出，并能够基于文档内容进行问答，能力表现强劲。

mPLUG-DocOwl 1.5 的核心优势在于其结构信息理解能力。它通过结构感知解析和多粒度文本定位任务，跨文档、网页、表格、图表和自然图像五大领域，实现高效文档理解。创新的 H-Reducer 模块有效编码结构信息，保持布局同时减少视觉特征长度，提升高分辨率图像处理效率。

在性能上，mPLUG-DocOwl 1.5 在10 项基准测试中领先，提升超过 7个百分点。其应用场景广泛，从文档解析到问答系统，前景广阔。

基于大模型的非OCR文档处理方案越来越多，开源的 mPLUG-DocOwl 1.5，又是一个新的选择，感兴趣的读者可以尝试，还可阅读阅读公众号内其它方案综合选择。

github：https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5

论文：https://arxiv.org/pdf/2403.12895