多模态推理是一个涉及至少两种不同感知模态的复杂过程,其中最为常见的模态组合是视觉和语言。这两种模态的信息形式多样,可以是图片与文本的配对,也可以是视频与语音的结合。而基于知识图谱的多模态推理技术,巧妙地融合了知识图谱的结构化知识表示能力与多模态数据的丰富信息表示能力,可以从多样化的模态信息中挖掘并推断出新的知识和关系。如视觉问答(VQA),其中系统需要根据图片和文本问题给出准确答案;又如视觉常识推理(VCR),它要求系统在理解文本的基础上,结合图片信息进行逻辑推理。什么是知识图谱(Knowledge Graph)?知识图谱是一种结构化的知识库,它以图的形式表示和存储现实世界中的实体、概念及其相互关系。这些实体可以是具体的人、地点、事物,也可以是抽象的概念或思想。知识图谱的基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。KG = (E,R,T),KG表示知识图谱、E表示实体集合、R表示关系集合、T表示知识三元组集合。什么是基于知识图谱的推理(Multimodal Reasoning with Knowledge Graph)?基于知识图谱的推理是指利用知识图谱中已存在的事实和关系,借助逻辑、规则、统计或深度学习等手段,从已知的信息中推导出新的信息或关系的过程。知识图谱推理的目标是从有限的事实中推导出更多的知识,填补知识图谱中的空白或增强图谱的表达能力。基于知识图谱的推理通常依赖于神经网络模型来捕捉图谱中的结构信息,这些模型通过前向传播过程进行推理预测。例如,采用基于图神经网络(GNN)的推理方法,特别是基于注意力机制的图卷积神经网络(Graph Attention Network,GAT),该方法通过计算实体之间的相似度并为它们分配相应的权重,从而推断出实体之间的关系。什么是多模态推理(Multi-Modal Reasoning)?多模态推理是一种能够同时处理多种类型数据的推理方法,涉及至少两种不同的感知模态,如视觉和语言(图片和文本、视频和语音等),通过整合来自不同模态的数据来增强模型的理解能力和推理能力。
多模态推理突破了传统推理方法仅限于单一信息来源的限制,而是将文本、图像、音频等多种形式的数据融合在一起进行综合分析。
常见多模态推理有哪些?常见的多模态推理任务,如视觉问答(VQA)和视觉常识推理(VCR),要求机器结合视觉与语言信息,理解并回答问题,甚至基于常识进行推理,从而输出准确答案或解释答案的原因。一、视觉问答(Visual Question Answering,VQA)视觉问答指的是给机器一张图片和一个开放式的自然语言问题,要求机器输出自然语言答案。答案可以是短语、单词、(yes/no)或从几个可能的答案中选择正确答案。VQA是一个典型的多模态问题,融合了计算机视觉(CV)与自然语言处理(NLP)的技术,计算机需要同时学会理解图像和文字。为了回答某些复杂问题,计算机还需要了解常识,并基于常识进行推理(common sense resoning)。

二、视觉常识推理(Visual Commonsense Reasoning,VCR)
视觉常识推理需要在理解文本的基础上结合图片信息,基于常识进行推理。给定一张图片、图中一系列有标签的bounding box,VCR实际上包含两个子任务:{Q->A}根据问题选择答案;{QA->R}根据问题和答案进行推理,解释为什么选择该答案。
其中VCR数据集由大量的“图片-问答”对组成,主要考察模型对跨模态的语义理解和常识推理能力。
