基于精化式图神经网络的视频检索
发布时间:2021-02-09   浏览次数:32

随着数字设备的普及和社交媒体的发展,视频已经成为人们通信、娱乐和公共生活中最流行的视觉媒体之一。据统计,目前视频占互联网流量的90%。未来十年内,全球数据量将增长50倍,其中视频占最高比例。面对海量的视频数据,研究高效的视频检索方法是非常有必要的。在爱奇艺、哔哩哔哩等主流的视频网站中,用户对视频的检索方法目前还是比较单一的,只能通过视频标题或标签作为关键词来进行视频检索,而这会导致检索精度非常依赖于视频标题和标签的准确和全面性。举例来说,如果用户想看“开车时看到路边草坪里有小狗在玩耍”的视频,此时若直接以此作为关键词很难搜索到想要的结果,因为几乎没人会把自己开车拍的视频起这类标题。或者我们尝试缩减句子,用“开车”、“路边”、“小狗”这组关键词来进行搜索,可结果也一样不如人意。这时一个很自然的想法就是,有没有一种检索方法可以根据用户的描述去找符合该描述的视频,并且不受视频标题的影响。这样的话,即使视频并没有取相关的标题,我们也能通过对视频内容的分析和理解来找到用户想要的视频。而这就是我们所研究的方向,即基于自然语言的视频检索方法。目前,基于自然语言的视频检索方法还存在许多困难和挑战,主要在于视频具有时间与空间上的复杂关系,并且与人类使用的复杂自然语言之间有着巨大的鸿沟。因此,为了更好的利用这种视频与文本内部和之间的复杂关系,我们提出了一个基于图神经网络的由粗到细的视频检索方法,通过建模视频-文本间的结构信息并进行推理,逐步优化检索结果。

具体来说,我们以视频和文本作为图网络的节点,用启发式的边特征来表征节点间的关系,通过捕获节点之间的结构关系来更新视频和文本的特征表示,并用一个打分网络对连接查询语句和视频节点的边特征进行打分,从而在每次更新后丢弃一些最不可能是检索结果的视频节点,以不断优化和缩小候选视频的范围。我们还提出了一个随机丢弃的聚焦损失来缓解样本类别不平衡的问题,如图1所示。我们的方法在3个流行的视频检索数据集上的实验结果都具有很好的效果。


图1. 基于精化式图神经网络的视频检索方法