基于图注意力网络的跨模态检索方法
发布时间:2021-02-09   浏览次数:121

随着互联网的持续普及,多媒体数据呈现爆炸式增长,如何有效地组织、管理和检索这些大规模多媒体信息已经成为当前的一个热门课题。尽管近年来该领域已经取得了很大的进步,但是跨模态检索仍然是一项困难的任务,因为它面临以下挑战。一方面,网络多媒体信息数据量大,语义类别多,内容复杂多样;另一方面,多媒体数据由于文本、图像等信息表达方式处于异构的特征空间中,他们之间的关联关系复杂多样。针对上述问题,近年来提出了许多基于关联学习思想的跨模态数据分析方法,期望将不同模态的数据通过函数映射到新的可比较的特征子空间中,然后在该子空间中对不同模态的数据进行后续分析,例如多模态分类、跨模态检索等。这些方法较好地解决了上述多模态数据的语义鸿沟问题,但大多数现有方法处理的多模态数据较为有限,并且数据内在分布比较简单。此外,当前的跨模态检索任务通常是将一种模态的数据(例如,图像)作为查询数据,另外一种模态的数据(例如,文本)作为目标数据进行相关检索任务。虽然简单易实现,但是传统的跨模态检索任务无法根据用户真正的需求对检索结果进行优化。为了解决该问题,我们提出了基于图注意力网络的跨模态检索方法。在该任务中,检索数据同时包含了文本以及图像两种不同模态的数据,其中文本描述了用户对于该图像期望的修改信息,如图1所示。具体的,首先将查询数据中的图像以及文本数据构建在一个异质图中,从而能够更好的学习数据间的高层语义关系。然后,利用多层图注意力网络对邻居特征进行聚合。最后,同时利用对抗损失以及三元组损失约束模型训练,实现个性化的跨模态检索。在3个公开数据集上的实验结果表明所提方法具有良好的效果。研究成果发表在国际会议ACM MM 2020上。


图1. 基于图注意力网络的跨模态检索方法