基于时空图网络的视频精彩片段检测
发布时间:2021-02-09   浏览次数:55

随着视频应用的迸发,用户每天都会接触到大量的视频,浏览整个视频费时又乏味。如在综艺的录制中,通常会出现多个摄像头同时拍摄的情况,会留下大量的素材,因此也给视频的后期和剪辑带来非常多的不便。虽然视频剪辑师们在识别“精彩镜头”方面有着丰富的经验,但当素材量很大时,他们仍需要花费不少精力。视频精彩片段检测提取了能将视频的精华,从而很大地程度上缓解这种情况。 现有视频精彩片段检测方法存在两个问题。首先,大多数现有方法仅专注于学习视频的整体视觉表示,但忽略了视频中物体及其交互对精彩部分的影响。 其次,当前最好的方法通常采用成对排序损失的策略,没有使用全局信息。因此,我们提出了一个新颖的视频精彩部分框架,名为VH-GNN,构造一个对象感知图并从全局建模对象之间的关系。为了降低计算成本,我们将视频建模成两种类型的图: 1)空间图,用于捕获每一帧中物体的复杂相互作用,2)时间图: 获得每个帧的物体信息表示并捕获全局信息。在此基础上,我们设计了图神经网络操作来学习视频片段的表示及它们之间的关系。 此外,我们提出了多阶段损失来优化模型,在第一阶段,我们计算了每个视频片段的得分,并使用分类损失优化;然后,根据前一阶段的得分得到难分样本对,再使用成对排序损失对模型进行优化。如图1所示为VH-GNN算法的结构图,它主要由特征提取、空间图神经网络、时间图神经网络模块构成。


1. VH-GNN方法框架图

特征提取:使用预训练的ResNet50作为骨架函数,学习图片的特征,然后使用RPN网络和ROIPooling得到图片中物体的位置与特征。视频中空间图与时序图的构建:在每一帧内,我们构建了空间图,其中节点为视频中的物体,边为物体间两两之间的关系;为了考虑全局的信息,我们在帧间构建了时序图,时序图中每个节点为包含物体语义的信息与整个图像的信息,边为帧之间的关系。视频精彩片段的预测: 我们首先在空间图中应用图卷积操作,然后使用最大池化得到每帧图片含有物体语义的特征;然后将该特征作为时序图中节点的初始特征,在时序图上应用图卷积操作,将更新后节点的特征输入到一个全连接网络中,最终得到每帧图片精彩程度的得分。对于一个片段,我们计算其中关键帧的精彩程度的评价得分,作为这个片段精彩程度的得分。下图2展示了本方法提取出的视频精彩片段,其中颜色越深的部分代表其重要性程度越大。可以看出,我们的方法所选择出的片段大多为比较清晰且主体分明的。


2. VH-GNN方法的效果展示