该篇论文来自于“applied sciences”期刊,发表于2022年4月,论文名称《a few shot classification methods based on multiscale relational networks》。
文章中阐述了深度学习方法如何在图像分类中使用元学习从小样本量中学习和归纳,主要内容如下:在广泛的任务中训练学习,使深度学习方法能够使用先前的经验知识。但是,该方法受特征提取质量和测量方法支持集和目标集的选择的影响。因此,文章针对上述问题设计了一个多尺度关系网络(msrn)。实验结果表明,简单的msrn设计可以获得较高的性能。此外,它提高了数据集在较少样本下的准确性,缓解了过拟合的情况。但是,为了保证统一度量适用于所有任务,基于度量学习的小样本分类必须保证任务集的同源分布。
深度学习已经取得了显著的进展,但仍然严重依赖于大量带标签的数据。在缺乏数据的情况下,深度学习技术在新的样本集上表现不佳。受人类从少量样本中学习的能力的启发,研究人员越来越多地使用少量样本来研究机器的学习能力,这被称为小样本学习。因此,小学习已成为近年来一个重要的前沿研究热点。该文章采用多尺度关系网络(msrn)来改进特征提取和相似度度量过程。首先,介绍了用于训练和测试新msrn的两个数据集。然后,对msrn的设计进行了详细的说明。在构建msrn时,在特征提取器中加入多尺度特征,提高了提取特征的分类差异,其次,设计了支持集与目标集的多尺度特征组合。
图1.多尺度关系网络的结构
如上图1所示,与匹配网络一样,msrn采用四层卷积神经网络(cnn),去除全连接层作为特征提取器。对于由四层卷积组成的特征提取器,主要考虑24层或34层的特征。
msrn将支持集各类别样本的多尺度特征与目标集的多尺度特征相结合,求均值等同于提取原型网络中每一类支持集的中心点,最后,得到了一个具有多尺度特征的支持集原型。像关系网络一样,msrn使用网络来学习特征之间的相似性。度量学习器的具体结构如图2所示,由两个卷积模块和两个全连接层组成。第一层采用整流线性单元(relu)激活函数,第二层使用sigmoid激活函数。这两个激活函数是根据提高计算速度的能力和执行复杂决策的能力来选择的。
图2.多尺度关系网络度量学习器结构
msrn完成回归任务。因此,均方误差计算预测的分布距离和期望的概率分布,均方误差的具体计算公式如下:
其中φ代表特征提取器参数,φ代表测量学习器参数。argmin是指当以下公式达到最小值时,对φ和φ的值进行提取。nt = n × b表示目标集的图像样本总数。yn是支持集合中每个类别的标签。yj n为目标集图像样本的预测标签。同一匹配对的相似度为1,不同匹配对的相似度为0。msrn是端到端的可微结构。采用反向传播算法和自适应矩估计调整参数值。在训练过程中,在一个epoch(完成epoch不同任务训练后)结束后,计算验证集上的准确率,并记录最高结果。当连续30个epoch(或更多,根据特定条件进行调整)不是最优时,准确度被认为已经停止提高。在精度停止提高或开始下降之后,迭代可以停止。首先输出精度最高的模型,然后对模型进行的测试。精度计算公式如下:
其中,episode表示任务的数量,其中一个任务是带有少量样本的图像分类。nt表示目标集中的样本总数,yj n表示目标集样本的预测标签值,yj n表示目标集样本的标签值。b表示目标集中每种类型图像的值,即批号。n表示几个镜头图像分类任务中的样本类别。
本文选择了两个数据集,omniglot数据集和miniimagenet数据集,以评估和检查所提方法的性能和准确性。下面简要介绍这两个数据集。通过使用亚马逊的mechanical turk,麻省理工学院的brenden lake等人收集并发布了omniglot数据集,它包括50种国际语言,每种语言中的字母差别很大,如图3所示。因此,omniglot数据集由来自1623个类别的32460张图像组成。
图3.omniglot数据集样本
miniimagenet数据集由60,000张84 × 84 × 3彩色图像组成。由vinyals等人制作的数据集在每个类别中有100个类别和600个样本。数据集的分布与omniglot不同。图片类别包括动物、商品和遥感照片。
所有样本加工成28 × 28的尺寸。循环进行增强,随机选择1200、211和212作为训练集、验证集和测试集。结果表明,在5w1s实验中,当迭代次数为325000次时,该网络的准确率最高,达到99.76%。从图4可以看出,当迭代次数为时,在验证集上的5w1s实验中,msrn的准确率最高,达到99.72%。
图4.关系网络的5w1s精度和损失迭代曲线
因此,对于5w1s实验,msrn比关系网络更快地收敛到最高的精度。然而,验证集上的最高准确性略低于关系网络。训练后的模型在测试集上进行测试,结果如表1所示,置信区间为95%。在测试集上的5w1s实验中,msrn的准确率高于其他三种方法。
表1.omniglot数据集小样本分类的实验结果
在5w1s实验中,当迭代次数为120,000次时,该网络的准确率最高,达到50.67%。另一方面,该方法在15.5万次迭代中达到了50.87%的最高精度。因此,对于5w1s实验,关系网络达到最高精度的收敛速度要快于msrn。然而,在验证集上的最高精度略低于msrn。从图5可以看出,关系网络收敛到最高精度后,随着迭代次数的增加,精度缓慢下降,损失减小。然而,当多尺度关系网络收敛到最高精度时,损失接近收敛。随着迭代次数的增加,损失逐渐减小到收敛,精度趋于稳定。损失收敛后,精度随迭代次数的增加而缓慢下降。
图5.miniimagenet数据集上5w1s分类精度和损失迭代曲线
训练后的模型在测试集上进行测试,95%置信区间的结果如表2所示。在msrn测试中,5w1s实验的准确性高于其他三种方法。
表2.miniimagenet数据集上的20w5s分类结果
多尺度网络通过在大范围的任务上进行所提出的学习,可以有效地利用之前任务中的学习经验,实现从学习中学习。例如,该网络可以对它从未见过的图像进行分类,只需使用新类别的一小部分样本。与单一尺度相比,多尺度特征具有明显的分类差异。与固定测度相比,学习测度具有更大的灵活性。此外,多尺度特征比其他方法更能捕捉到差异特征。
文章中采用相对较浅的模型对多尺度特征进行提取和组合,局限于完成复杂信息的组合和筛选。所提出的网络是基于一种完善的方法,并以一种相对直接的方式构建成一个多尺度网络。这种结构意味着即使它是一种改进的方法,它仍然存在许多基础网络的缺点,如cnn和全连接层。假设它可以与其他网络或元网络相结合学习,在这种情况下,相信将会取得更重大的突破,得出丰富结论的能力将会更加强大。
撰稿人:李建平
审稿人:邱丽娜