阿里巴巴与人大联合推出的 mPLUG-DocOwl 1.5 模型,革新文档处理,实现无需 OCR 的文档理解。该模型直接理解文档、网页、表格和图表,特别擅长解析复杂商业报告和网页截图。它可以理解文档结构和文档内容,可以将表格和图表转换Markdown格式输出,并能够基于文档内容进行问答,能力表现强劲。
mPLUG-DocOwl 1.5 的核心优势在于其结构信息理解能力。它通过结构感知解析和多粒度文本定位任务,跨文档、网页、表格、图表和自然图像五大领域,实现高效文档理解。创新的 H-Reducer 模块有效编码结构信息,保持布局同时减少视觉特征长度,提升高分辨率图像处理效率。
在性能上,mPLUG-DocOwl 1.5 在10 项基准测试中领先,提升超过 7个百分点。其应用场景广泛,从文档解析到问答系统,前景广阔。
基于大模型的非OCR文档处理方案越来越多,开源的 mPLUG-DocOwl 1.5,又是一个新的选择,感兴趣的读者可以尝试,还可阅读阅读公众号内其它方案综合选择。
github:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
论文:https://arxiv.org/pdf/2403.12895