情感知识驱动的视频精彩片段检测
发布时间:2021-02-09   浏览次数:21

视频精彩片段检测旨在根据用户的主要或者特别的兴趣来选择出视频中的一小部分帧片段,常规的精彩片段检测方法高度依赖大规模手动标记的训练数据,既费时又费力。为了解决这一问题,我们追溯到精彩片段检测任务的源头,发现用户对某一视频片段的兴趣很大程度上取决于于人类的主观情感。基于这一发现,介绍了一个情感知识驱动的视频检测框架来建模人类一般情感和推理视频片段精彩程度,如图1所示。首先,前端网络得到一个视频概念级别表示,这些概念被用来当作构建情感相关知识图谱的节点,节点之间的关系我们通过大型的外部知识图谱得到,然后我们采用双胞胎图卷积网络来建模节点之间在图中的依赖关系并沿边缘传播消息。最后,我们基于图卷积网络计算得到视频片段的情感感知表示,进一步用来预测高光得分。我们的框架,包括前端网络,图卷积层和精彩片段映射,都可以通过一个排序损失函数进行端到端的训练。在两个基准数据集上得到了目前最好的检测准确率。成果发表在国际期刊IEEE T-MM 2020上。


图1. 情感知识驱动的视频精彩片段检测方法