项目组提出了一种高效的针对特定任务的大规模数据集质量评估方法,细节如图1所示,。针对给定任务(例如:图片分类,本文分类等),该方法可对数据集内在质量和面向特定任务的上下文质量进行评估,并返回综合考虑各种质量结果的数据集排序。内在质量评估通过模式识别和神经网络等方式评估数据集中单个数据的准确性,精确性,客观性和来源可靠性。同时我们提出了两个上下文质量的评估维度,分别是任务相关性和内容多样性。当处理大规模数据集(如,数据量达百万)时,计算任务相关性和内容多样性的时间开销非常高,对此我们提出了一种基于采样的高效计算方法。在百万量级的图片数据集上验证,该方法在仅损失0.34%精度的情况下能节省约90%的计算时间。在得到所有质量维度的评估结果后,我们采用排序融合算法实现对数据集的综合排序。该文章被国际会议 Mobile Ad-hoc and Sensor Networks (MSN 2019)评选为会议唯一最佳论文。
图1. 数据集质量评估流程