为了充分地利用二元空间的图像和文本信息,并从大量的图像和文本信息中学习跨模态互关系特征,课题组构建立了一个耦合深度学习模型。我们所构建的耦合深度学习模型由两个耦合的深度神经网络所构建。其中一个神经网络为深度卷积神经网络,用于学习图像特征;另一个神经网络用于学习以文本形式出现的标签(查询)信息,并采用普通的多层前向神经网络来构建特征学习模型。这两个网络将在最后一层进行信息耦合,通过一个连接层关联起来,并同时回归到类别标签信息。在项目研究中,所构建的耦合深度学习模型被进一步用于构建跨模态“查询-图像”相关度打分系统,以此来实现跨媒体图像检索。此时,跨模态耦合深度学习模型被视作为一个回归模型进行训练。针对“查询-图像”相关度打分任务,最后一层节点被当作打分节点,用于输出相关度分数。图1给出了我们所构建的学习模型的示意图。另外,针对网络文本等语义表达问题,课题组提出了一种基于训练集点击量加权的特征描述方法。最后,采用高斯过程将打分模型处理为一个排序学习问题,并利用训练集和测试集中的信息来预测“查询-图像”的相关度分数。基于我们所设计的方法,课题组参加了MSR-Bing Image Retrieval Challenge @ ACM MM 2014比赛。此次比赛的数据来自于Microsoft Bing搜索引擎所获得的实际数据,图像总数超过100万幅,查询总数超过1000万条,训练集的图像-查询对超过2000多万对,比赛具有较大的挑战性。在测试集上,我们的所得出的算法的归一化折损累积增益达到0.49646,排名第二(亚军),与第一名(冠军)仅相差0.0003。
成果于2014年发表于国际会议ACMMM。获得最佳论文奖
图1. 基于深度学习的回归模型结构
探索多视角数据不同视角之间内在的协调性和互补性,有助于理解和解决二元空间的数据关联问题。提出了互约束的潜在概率语义分析模型,应用于多视角数据的聚类问题。互约束的潜在概率语义分析模型将不同视角下的潜在概率语义分析模型通过两两的互约束项整合在一起。互约束项体现了如下内在约束:两两样本对在不同视角语义空间中的相似度应该尽量保持相互一致。以多视角(或多源)数据在语义表达空间的互补性与相容性为出发点,分别在非负矩阵分解和潜在主题模型的框架下,提出了基于部分共享子空间和部分共享潜在主题的统计模型。可用于构建新的紧致且具判别力的特征空间,在传统的数据分类和聚类任务进行了性能验证。进一步,借鉴多视角学习充分利用多视角关联挖掘潜在信息的思想,由此解决用户-产品的关联分析问题。我们基于充分利用多视角现有关联信息的思想,将社会关系信息和产品类别信息融入到子空间学习中辅助评分预测,其中用户子空间和产品子空间被作为两个不同视角,共同作用来决定用户与产品的关联特性。然后,基于多视角数据的相容互补特性给出一种领域敏感的评分预测方法,该方法挖掘了用户和产品视角的某种一致性,将相关用户和产品统一归入到所谓的用户-产品集团中,然后利用伪类标信息指导子空间学习。真实数据集上的实验验证了所提方法的有效性。思路如图2所示。
上述研究成果发表于国际会议WWW2013和TKDE2016上。获得最佳论文奖
图2. 多源多视角数据关联分析和表示