小樣本圖像分類(lèi)研究綜述

2023-03-10 00:10:20安勝彪郭昱岐白宇王騰博

計(jì)算機(jī)與生活 2023年3期

安勝彪，郭昱岐，白宇，王騰博

河北科技大學(xué) 信息科學(xué)與工程學(xué)院，石家莊050018

大規(guī)模標(biāo)注數(shù)據(jù)集是深度學(xué)習(xí)成功的必要條件之一[1-4]。在現(xiàn)實(shí)世界的真實(shí)場(chǎng)景中，許多領(lǐng)域并不具有獲得大規(guī)模數(shù)據(jù)集的條件，這對(duì)于工作開(kāi)展十分不便。也有一些領(lǐng)域，涉及到隱私、成本、道德等問(wèn)題，也很難獲得高質(zhì)量數(shù)據(jù)。例如，在醫(yī)療診斷領(lǐng)域，醫(yī)學(xué)圖像的來(lái)源是病例，而病例會(huì)因?yàn)殡[私等問(wèn)題獲取難度較大；在半導(dǎo)體芯片缺陷檢測(cè)領(lǐng)域，會(huì)面臨半導(dǎo)體芯片的型號(hào)不同和缺陷數(shù)據(jù)較少等問(wèn)題。

為了解決諸多領(lǐng)域中數(shù)據(jù)有限和獲取難度較大的問(wèn)題，小樣本學(xué)習(xí)（few-shot learning，F(xiàn)SL）[5-8]方法被提出。小樣本學(xué)習(xí)是指在訓(xùn)練類(lèi)別樣本較少的情況下，進(jìn)行相關(guān)的學(xué)習(xí)任務(wù)。機(jī)器通過(guò)學(xué)習(xí)大量的基類(lèi)（base class）后，僅僅需要少量樣本就能快速學(xué)習(xí)到新類(lèi)（new class）。通常情況下，小樣本學(xué)習(xí)能夠利用類(lèi)別中的少量樣本，即一個(gè)或者幾個(gè)樣本進(jìn)行學(xué)習(xí)。例如，一個(gè)小朋友去動(dòng)物園并沒(méi)有見(jiàn)過(guò)“黃鶯”這個(gè)動(dòng)物，但是閱讀過(guò)有關(guān)動(dòng)物書(shū)籍，書(shū)籍上有“黃鶯”的信息，通過(guò)學(xué)習(xí)書(shū)上的內(nèi)容，小朋友就知道動(dòng)物園中哪個(gè)動(dòng)物是“黃鶯”。這是因?yàn)槿藗兛梢愿咝У乩靡酝南闰?yàn)知識(shí)，對(duì)現(xiàn)在的任務(wù)快速理解。人們這種快速理解新事物的能力，也是當(dāng)前深度學(xué)習(xí)難以具備的。本文針對(duì)小樣本圖像分類(lèi)問(wèn)題介紹小樣本學(xué)習(xí)的相關(guān)技術(shù)，主要是介紹小樣本圖像分類(lèi)。小樣本圖像分類(lèi)的最終目的是達(dá)到人類(lèi)的水平[9]。

小樣本圖像分類(lèi)問(wèn)題建模如圖1 所示。圖中將任務(wù)劃分為兩部分，訓(xùn)練集（training set）也叫作支持集（support set），其中分為N個(gè)數(shù)據(jù)類(lèi)別,每N個(gè)數(shù)據(jù)類(lèi)別包括K個(gè)樣本，簡(jiǎn)稱(chēng)為N-wayK-shot 問(wèn)題。測(cè)試集（test set）也叫作查詢(xún)集（query set），查詢(xún)集的類(lèi)別屬于支持集中的類(lèi)別。解決N-wayK-shot小樣本圖像分類(lèi)問(wèn)題，首先從輔助的數(shù)據(jù)集學(xué)習(xí)先驗(yàn)知識(shí)[10]，再在標(biāo)注有限的目標(biāo)數(shù)據(jù)集上利用已經(jīng)學(xué)習(xí)的先驗(yàn)知識(shí)進(jìn)行圖像分類(lèi)和預(yù)測(cè)。

圖1 小樣本圖像分類(lèi)示例Fig.1 Few-shot image classification example

目前已經(jīng)有一些關(guān)于小樣本學(xué)習(xí)各方面的綜述。趙凱琳等人[11]從基于模型微調(diào)、數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的三個(gè)方向來(lái)介紹小樣本學(xué)習(xí)的方法，并且進(jìn)行了歸納總結(jié)；劉春磊等人[12]將小樣本學(xué)習(xí)方法歸納為基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式，再按照改進(jìn)策略的不同進(jìn)行小樣本目標(biāo)檢測(cè)綜述介紹；張振偉等人[13]從基于度量學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、模型結(jié)構(gòu)、元學(xué)習(xí)等六方面對(duì)小樣本目標(biāo)檢測(cè)方法進(jìn)行了總結(jié)分析。綜合近些年小樣本學(xué)習(xí)發(fā)展，元學(xué)習(xí)、度量學(xué)習(xí)和數(shù)據(jù)增強(qiáng)等深度學(xué)習(xí)方法已經(jīng)逐漸成為解決小樣本圖像處理的主流方法。隨著無(wú)監(jiān)督學(xué)習(xí)[14]、半監(jiān)督學(xué)習(xí)[15]和主動(dòng)學(xué)習(xí)[16]的興起和發(fā)展，很多研究者也將其應(yīng)用到小樣本圖像分類(lèi)問(wèn)題中。與這些綜述[11-13]不同，本文首先將這些方法分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種范式，如圖2 所示，再按照各種情況的不同方法，從度量學(xué)習(xí)、元學(xué)習(xí)、偽標(biāo)注、對(duì)比學(xué)習(xí)等角度進(jìn)行歸納總結(jié)，對(duì)比分析了這些方法的性能表現(xiàn)，并總結(jié)了各自的核心思想以及使用領(lǐng)域。

圖2 小樣本圖像分類(lèi)方法Fig.2 Few-shot image classification methods

1 小樣本圖像分類(lèi)框架及其數(shù)據(jù)集介紹

1.1 符號(hào)和定義

在標(biāo)準(zhǔn)FSL 場(chǎng)景中，一般需要建立兩個(gè)數(shù)據(jù)集：一個(gè)帶有Cbase類(lèi)的基集和一個(gè)帶有Cnovel類(lèi)的新集，其中Cbase∩Cnovel=?。Cbase是一個(gè)輔助數(shù)據(jù)集，目的是通過(guò)遷移學(xué)習(xí)來(lái)訓(xùn)練分類(lèi)器。Cnovel是執(zhí)行任務(wù)分類(lèi)的數(shù)據(jù)集。訓(xùn)練通常在Cbase類(lèi)上進(jìn)行，其目標(biāo)是將學(xué)到的知識(shí)遷移到基于Cnovel構(gòu)建的新任務(wù)中。在測(cè)試期間，需要為每個(gè)任務(wù)都建立一個(gè)支持集S和一個(gè)查詢(xún)集Q。支持集S包含N個(gè)類(lèi)，每個(gè)類(lèi)有K個(gè)圖像。查詢(xún)集Q包括N×Q個(gè)未標(biāo)記的圖像。在大多數(shù)文獻(xiàn)中，N設(shè)置為5，K設(shè)置為1 或5。

1.2 小樣本圖像分類(lèi)方法

針對(duì)小樣本圖像分類(lèi)任務(wù)，現(xiàn)有的基于小樣本圖像分類(lèi)方法可以總結(jié)以下三類(lèi)：（1）元學(xué)習(xí)[17]；（2）度量學(xué)習(xí)[18]；（3）數(shù)據(jù)增強(qiáng)[19-25]。

1.2.1 元學(xué)習(xí)

元學(xué)習(xí)也稱(chēng)為learn to learn，利用以往的知識(shí)經(jīng)驗(yàn)指導(dǎo)新任務(wù)的學(xué)習(xí)，被廣泛應(yīng)用在小樣本學(xué)習(xí)中。元學(xué)習(xí)通過(guò)既有數(shù)據(jù)集和元學(xué)習(xí)器跨任務(wù)提取的元知識(shí)來(lái)解決新任務(wù)。具體來(lái)說(shuō)，元學(xué)習(xí)器逐步學(xué)習(xí)跨任務(wù)的通用信息（元知識(shí)），并且學(xué)習(xí)器使用特定于任務(wù)的信息將元學(xué)習(xí)器概括為新任務(wù)。

如圖3 所示，在小樣本學(xué)習(xí)中元學(xué)習(xí)將數(shù)據(jù)集劃分為訓(xùn)練任務(wù)和測(cè)試任務(wù)。在訓(xùn)練階段，通過(guò)對(duì)已有的數(shù)據(jù)進(jìn)行隨機(jī)采樣，區(qū)分出支持集和查詢(xún)集，從而構(gòu)造出多個(gè)不同的元任務(wù)。其中支持集用于訓(xùn)練，查詢(xún)集用于驗(yàn)證訓(xùn)練階段的分類(lèi)是否正確。之后，在測(cè)試階段，對(duì)訓(xùn)練階段未見(jiàn)過(guò)的小樣本數(shù)據(jù)集也做相同數(shù)據(jù)劃分，便可以在訓(xùn)練好的模型上直接對(duì)小樣本查詢(xún)集進(jìn)行判別。圖3 中，對(duì)于各種鳥(niǎo)類(lèi)的小樣本分類(lèi)問(wèn)題，可以利用已有的各種鳥(niǎo)類(lèi)數(shù)據(jù)，通過(guò)采樣構(gòu)造支持集和查詢(xún)集，訓(xùn)練小樣本模型。測(cè)試階段，對(duì)于黃雀和海鷗等未知鳥(niǎo)類(lèi)，用同樣的采樣方法區(qū)分出支持集和查詢(xún)集，之后提取圖像特征，并計(jì)算支持集和查詢(xún)集特征的距離或相似度。對(duì)于一個(gè)小樣本分類(lèi)任務(wù)，元學(xué)習(xí)不會(huì)直接學(xué)習(xí)如何做到這件事情，它要做的是去學(xué)習(xí)一些相似的任務(wù)，在這些任務(wù)中有足夠的知識(shí)或樣本來(lái)學(xué)習(xí)，當(dāng)學(xué)習(xí)了很多這樣的任務(wù)之后，元學(xué)習(xí)模型便學(xué)會(huì)了舉一反三，之后用這個(gè)分類(lèi)任務(wù)來(lái)測(cè)試元學(xué)習(xí)模型，只要模型在之前的訓(xùn)練中已經(jīng)具備了足夠好的舉一反三的能力，那么模型就可以完成任務(wù)。

圖3 通過(guò)元學(xué)習(xí)解決少鏡頭圖像分類(lèi)問(wèn)題Fig.3 Solving few-shot image classification via meta-learning

1.2.2 度量學(xué)習(xí)

度量學(xué)習(xí)是解決小樣本圖像分類(lèi)最常用也是很有效的方法之一。度量學(xué)習(xí)可以解釋為是一種空間映射的方法，能夠?qū)W習(xí)到某種特征空間。在小樣本圖像分類(lèi)中，可以理解為將數(shù)據(jù)轉(zhuǎn)換成特征向量。度量學(xué)習(xí)也指相似度學(xué)習(xí)，衡量在嵌入空間中兩個(gè)目標(biāo)特征或者多個(gè)相似度或者距離，相同的類(lèi)特征距離較近，反之不同的類(lèi)特征距離較遠(yuǎn)。

度量學(xué)習(xí)的小樣本圖像分類(lèi)方法，如圖4 所示。度量學(xué)習(xí)網(wǎng)絡(luò)主要由嵌入模塊f（特征提取器）和度量模塊g（分類(lèi)器）兩部分組成。首先將樣本分為支持集和測(cè)試集，將圖像輸入嵌入模塊f獲得特征，并且以一定的規(guī)則計(jì)算得到支持集圖像中每類(lèi)的中心特征，以這些中心特征作為支持集中各類(lèi)圖像的代表，再使用度量模塊g求得與查詢(xún)集中樣本最近的中心特征，將這個(gè)中心特征所屬的類(lèi)別標(biāo)簽作為該查詢(xún)集樣本的預(yù)測(cè)標(biāo)簽。最終根據(jù)相似度得分獲得分類(lèi)結(jié)果。

圖4 度量學(xué)習(xí)算法流程圖Fig.4 Metric learning algorithm flowchart

通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等方法來(lái)實(shí)現(xiàn)特征的提取。度量分類(lèi)器可以使用基于布雷格曼散度的歐氏距離、馬氏距離和余弦距離的固定度量方法或者基于深度神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)度量方式[26]。基于度量學(xué)習(xí)的小樣本圖像分類(lèi)方法的性能取決于兩方面：一方面是特征提取器和分類(lèi)器的性能；另一方面是特征與分類(lèi)器的匹配程度。因此，如何設(shè)計(jì)一個(gè)小樣本條件下表達(dá)能力強(qiáng)的特征提取器，并使提取的特征與分類(lèi)器的要求相匹配，對(duì)于提升網(wǎng)絡(luò)的分類(lèi)性能十分重要。

1.2.3 數(shù)據(jù)增強(qiáng)

數(shù)據(jù)增強(qiáng)又稱(chēng)為數(shù)據(jù)擴(kuò)充，通過(guò)增加既有數(shù)據(jù)的多樣性，而不是實(shí)際收集新數(shù)據(jù)來(lái)緩解數(shù)據(jù)稀缺問(wèn)題?；谠鰪V數(shù)據(jù)集，可以明顯降低過(guò)度擬合[27]的風(fēng)險(xiǎn)，有效地增強(qiáng)模型的泛化能力。數(shù)據(jù)增強(qiáng)方法可以分為基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充和基于深度生成模型的數(shù)據(jù)擴(kuò)充。

基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充：數(shù)據(jù)扭曲是一種通過(guò)基于現(xiàn)有數(shù)據(jù)執(zhí)行基本圖像操作來(lái)生成新樣本的方法。常用的變換技術(shù)包括裁剪、翻轉(zhuǎn)、過(guò)濾、旋轉(zhuǎn)和去噪。這些轉(zhuǎn)換較容易實(shí)現(xiàn)，以增加數(shù)據(jù)規(guī)模。然而，這些方法均無(wú)法生成新的語(yǔ)義信息來(lái)增加數(shù)據(jù)的多樣性，并且數(shù)據(jù)增強(qiáng)方法對(duì)提高模型性能的效果有限。因此，這種方法不能完全解決樣本限制問(wèn)題，通常被用作數(shù)據(jù)預(yù)處理的輔助技術(shù)。

基于深度生成模型的數(shù)據(jù)擴(kuò)充：深度生成模型可用于學(xué)習(xí)目標(biāo)圖像上豐富的概率分布，并生成具有變化的新樣本。生成對(duì)抗網(wǎng)絡(luò)（generative adversarial network，GAN）28]是生成模型中較有代表性的一類(lèi)，是由Goodfellow 等人于2014 年提出來(lái)的一種新穎的生成模型框架。GAN包含生成器（generator，G）和判別器（discriminator，D）兩個(gè)神經(jīng)網(wǎng)絡(luò)。訓(xùn)練G和D的過(guò)程可以看作是造假團(tuán)隊(duì)G與警察團(tuán)隊(duì)D之間的一種相互博弈。造假團(tuán)隊(duì)G的目標(biāo)是生成以假亂真的圖片，而警察團(tuán)隊(duì)D的目標(biāo)是判別圖片的真假。兩者通過(guò)不斷地對(duì)抗來(lái)提高自己的水平[29]。直到警察團(tuán)隊(duì)D無(wú)法判別圖像真假時(shí)，說(shuō)造假團(tuán)隊(duì)G能夠生成騙過(guò)警察團(tuán)隊(duì)D的圖像。

生成對(duì)抗網(wǎng)絡(luò)的基本模型如圖5 所示。

圖5 生成式對(duì)抗網(wǎng)絡(luò)Fig.5 Generative adversarial network

生成式對(duì)抗網(wǎng)絡(luò)巧妙地利用了博弈的思想，將圖像生成任務(wù)轉(zhuǎn)化為最大最小化目標(biāo)函數(shù)的優(yōu)化問(wèn)題。進(jìn)一步地，又轉(zhuǎn)化為兩個(gè)神經(jīng)網(wǎng)絡(luò)采取梯度下降方法交替訓(xùn)練的問(wèn)題。

無(wú)論是基于數(shù)據(jù)扭曲還是基于深度生成模型，數(shù)據(jù)增強(qiáng)的手段都是來(lái)增加小樣本數(shù)據(jù)，緩解小樣本分類(lèi)中因?yàn)槿狈?shù)據(jù)導(dǎo)致分類(lèi)率低的問(wèn)題。采用數(shù)據(jù)增強(qiáng)的思路來(lái)解決小樣本學(xué)習(xí)問(wèn)題是人們最常用、最簡(jiǎn)單的一種方式，并且這種方式相對(duì)來(lái)說(shuō)方式較為靈活，選擇也很多?；跀?shù)據(jù)增強(qiáng)的小樣本圖像分類(lèi)研究具有普遍通用性，是不可或缺的。

1.3 小樣本圖像分類(lèi)數(shù)據(jù)集

本節(jié)介紹了用于小樣本圖像分類(lèi)的公共數(shù)據(jù)集，如圖6 所示。下面列出了數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)和常用實(shí)驗(yàn)設(shè)置。

圖6 小樣本學(xué)習(xí)通用數(shù)據(jù)集Fig.6 Few-shot learning general dataset

Mini-ImageNet[30]：Mini-ImageNet數(shù)據(jù)集是另一個(gè)廣泛使用的數(shù)據(jù)集。它由ImageNet 中選擇的100個(gè)類(lèi)組成，每個(gè)類(lèi)有600 張圖像。該數(shù)據(jù)集最初由Vinyals 等人提出，但最近的研究遵循Ravi 和Larochelle 提供的實(shí)驗(yàn)設(shè)置，將100 個(gè)類(lèi)分為64 個(gè)基類(lèi)、16 個(gè)驗(yàn)證類(lèi)和20 個(gè)測(cè)試類(lèi)。

Tiered-ImageNet[31]：與Mini-ImageNet 一樣，它是ILSVRC-12的子集，但Tiered-ImageNet代表了ILSVRC-12 的更大子集（608 個(gè)類(lèi)，而Mini-ImageNet 則為100個(gè)類(lèi)）。類(lèi)似于將字符分組為字母的Omniglot，Tiered-ImageNet 將類(lèi)別分為與ImageNet 層次結(jié)構(gòu)中較高級(jí)別的節(jié)點(diǎn)相對(duì)應(yīng)的更廣泛的類(lèi)別，共有34 個(gè)大類(lèi)別，每個(gè)類(lèi)別包含10 到30 個(gè)小類(lèi)別。數(shù)據(jù)集分為20 個(gè)基類(lèi)、6 個(gè)驗(yàn)證類(lèi)和8 個(gè)測(cè)試類(lèi)。

CIFAR-FS[32]：CIFAR-Fewshot數(shù)據(jù)集建立在CIFAR-100 之上，包含100 個(gè)類(lèi)，每個(gè)類(lèi)600 張圖像。數(shù)據(jù)集劃分為64個(gè)基類(lèi)、16個(gè)驗(yàn)證類(lèi)和20個(gè)測(cè)試類(lèi)。

CUB-200[33]：CUB-200數(shù)據(jù)集全稱(chēng)為Caltech-UCSD Birds-200-2011 數(shù)據(jù)集。CUB 數(shù)據(jù)集是一個(gè)細(xì)粒度的鳥(niǎo)類(lèi)分類(lèi)數(shù)據(jù)集，共包含200 個(gè)類(lèi)別和11 788 張圖像。數(shù)據(jù)集通常分為100 個(gè)基類(lèi)、50 個(gè)驗(yàn)證類(lèi)和50 個(gè)測(cè)試類(lèi)。

Omniglot[34]：Omniglot數(shù)據(jù)集包含50個(gè)不同字母（語(yǔ)言的1 623 個(gè)不同手寫(xiě)字符）。每一個(gè)字符都是由20 個(gè)不同的人通過(guò)亞馬遜的Mechanical Turk在線繪制的。每個(gè)字符產(chǎn)生了20 幅圖像，相當(dāng)于1 623 個(gè)類(lèi)，每類(lèi)20 個(gè)樣本。在實(shí)驗(yàn)時(shí)，取1 200 個(gè)字符進(jìn)行訓(xùn)練，其余423 個(gè)字符進(jìn)行測(cè)試。此外，將每個(gè)圖像的大小調(diào)整為28×28 像素，并旋轉(zhuǎn)90°作為數(shù)據(jù)增強(qiáng)。

2 有監(jiān)督小樣本圖像分類(lèi)

2.1 基于元學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

元學(xué)習(xí)在處理小樣本問(wèn)題時(shí)包括元訓(xùn)練（metatraining）和元測(cè)試（meta-testing）兩個(gè)階段。在元訓(xùn)練階段，如圖7 所示，基礎(chǔ)學(xué)習(xí)器將面對(duì)元學(xué)習(xí)器提供的許多個(gè)獨(dú)立的監(jiān)督任務(wù)T，任務(wù)之間所包含樣本的類(lèi)別不完全相同。在每一個(gè)任務(wù)內(nèi)，從已有的基礎(chǔ)類(lèi)別集Cbase中隨機(jī)抽取N個(gè)類(lèi)別，從每類(lèi)樣本中抽取K個(gè)樣本（共N×K個(gè)樣本）組成支持集S作為基礎(chǔ)學(xué)習(xí)器的輸入，再?gòu)倪@N類(lèi)的剩余樣本中隨機(jī)抽取一批作為查詢(xún)集用于測(cè)試。

圖7 元學(xué)習(xí)訓(xùn)練思想Fig.7 Meta-learning training ideas

本節(jié)回顧了近年來(lái)用于小樣本圖像分類(lèi)的代表性有監(jiān)督元學(xué)習(xí)方法。調(diào)查研究發(fā)現(xiàn)，小樣本元學(xué)習(xí)的一個(gè)主流方法是梯度迭代，通過(guò)迭代，獲得合適的模型，因此眾多研究基于迭代的研究思路展開(kāi)。

MAML（multi-agent modeling language）由Finn等人[35]提出，將元學(xué)習(xí)應(yīng)用到小樣本圖像分類(lèi)。MAML的核心思想是梯度迭代。首先需要在源數(shù)據(jù)上將目標(biāo)設(shè)定好，每一個(gè)任務(wù)當(dāng)中的訓(xùn)練集只含有很少的標(biāo)注樣本信息，然后利用這些標(biāo)注樣本所訓(xùn)練的模型參數(shù)在測(cè)試集上面評(píng)估得到的監(jiān)督信息參數(shù)θ，并用監(jiān)督信息θ來(lái)訓(xùn)練原網(wǎng)絡(luò)，使得模型學(xué)習(xí)到適配特征。整個(gè)過(guò)程通過(guò)梯度迭代優(yōu)化，前一步迭代優(yōu)化訓(xùn)練得到的模型，將會(huì)作為當(dāng)前迭代優(yōu)化的初始模型。訓(xùn)練完成后的模型具有對(duì)新訓(xùn)練的學(xué)習(xí)域分布最敏感的參數(shù)。正是通過(guò)這種優(yōu)化方式，可以從多次迭代優(yōu)化任務(wù)中獲得最貼合新任務(wù)的模型參數(shù)，達(dá)到比較好的準(zhǔn)確率，并且對(duì)于學(xué)習(xí)相似任務(wù)的信息可以快速地泛化。Nichol 等人[36]提出的Reptile 模型基于MAML 模型，但Reptile 取消了內(nèi)層優(yōu)化僅更新一次的限制，梯度更新從二階轉(zhuǎn)化為一階，因此Reptile 有效節(jié)約了計(jì)算成本。針對(duì)MAML 的不足，Antoniou 等人[37]在2019 年提出MAML++模型。對(duì)于訓(xùn)練不穩(wěn)定問(wèn)題，Antoniou 等人提出多步損失優(yōu)化法，通過(guò)改善梯度傳播的方式緩解MAML 優(yōu)化過(guò)程中的不穩(wěn)定性。

Meta-Learner LSTM 是一種基于LSTM（long shortterm memory）的元學(xué)習(xí)模型，用于學(xué)習(xí)作用于另一個(gè)學(xué)習(xí)的最優(yōu)化算法。LSTM 的作者Larochelle 等人[38]發(fā)現(xiàn)了更新規(guī)則與一般的梯度下降算法更新規(guī)則非常類(lèi)似，因此將LSTM 更新規(guī)則的輸入替換為其他的一系列參數(shù)，用于更新Learner 的值。算法的主要貢獻(xiàn)是首次將序列優(yōu)化問(wèn)題進(jìn)行了規(guī)范化。使用LSTM 這樣的序列優(yōu)化模型，模型按照順序在不同的任務(wù)中交替訓(xùn)練，使得模型能夠通過(guò)少量樣例，從一個(gè)分類(lèi)任務(wù)快速遷移到另一個(gè)分類(lèi)任務(wù)中。但由于訓(xùn)練數(shù)據(jù)較少，LSTM 模型所需參數(shù)規(guī)模較大，算法實(shí)際在小樣本任務(wù)上的分類(lèi)效果并不是很好。

基于梯度的元學(xué)習(xí)技術(shù)在解決小樣本學(xué)習(xí)時(shí)具有廣泛的應(yīng)用性。然而，當(dāng)在極低數(shù)據(jù)狀態(tài)下對(duì)高維參數(shù)空間進(jìn)行操作時(shí)存在實(shí)際困難。潛在嵌入優(yōu)化將基于梯度的自適應(yīng)過(guò)程與模型參數(shù)的底層高維空間分離。因此，Rusu等人[39]在2019年提出了具有潛在嵌入優(yōu)化的元學(xué)習(xí)（latent embedding optimization，LEO）。LEO 通過(guò)學(xué)習(xí)模型參數(shù)的數(shù)據(jù)相關(guān)潛在生成表示，并在這個(gè)低維潛在空間中執(zhí)行基于梯度的元學(xué)習(xí)，可以繞過(guò)這些限制。

將元學(xué)習(xí)與遷移學(xué)習(xí)相結(jié)合來(lái)解決小樣本問(wèn)題也是眾多研究者思考的問(wèn)題，并且嘗試替換神經(jīng)網(wǎng)絡(luò)的深淺和長(zhǎng)度，用一些新的模型來(lái)替代卷積神經(jīng)網(wǎng)絡(luò)，也能取得不錯(cuò)的效果。

由于深度神經(jīng)網(wǎng)絡(luò)（deep neural networks，DNN）傾向于僅使用少數(shù)樣本進(jìn)行過(guò)擬合，因此元學(xué)習(xí)通常使用淺層神經(jīng)網(wǎng)絡(luò)（shallow neural networks，SNN），而限制了有效性。2019 年國(guó)內(nèi)Sun 等人[40]提出了一種新的元遷移學(xué)習(xí)（meta-transfer learning，MTL）進(jìn)行小樣本學(xué)習(xí)。MTL 使深度神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本學(xué)習(xí)任務(wù)，通過(guò)學(xué)習(xí)每個(gè)任務(wù)的DNN 權(quán)重的縮放和移位函數(shù)來(lái)實(shí)現(xiàn)遷移。

許多小樣本學(xué)習(xí)方法通過(guò)從已見(jiàn)類(lèi)中學(xué)習(xí)實(shí)例嵌入函數(shù)，并將該函數(shù)應(yīng)用于來(lái)自有限標(biāo)簽的未見(jiàn)類(lèi)。Ye 等人[41]于2020 年提出了使用Set-to-Set 函數(shù)嵌入自適應(yīng)的小樣本學(xué)習(xí)（few-shot embedding adaptation transformer，F(xiàn)EAT）。通過(guò)Set-to-Set 函數(shù)使實(shí)例嵌入適應(yīng)目標(biāo)分類(lèi)任務(wù)，從而產(chǎn)生特定于任務(wù)且具有區(qū)分性的嵌入。Ye等人憑經(jīng)驗(yàn)研究了這種集合到集合函數(shù)的各種實(shí)例，并觀察到Transformer是有效的。

許多用于小樣本學(xué)習(xí)的元學(xué)習(xí)方法依賴(lài)于簡(jiǎn)單的基礎(chǔ)學(xué)習(xí)器，例如最近鄰分類(lèi)器。但在小樣本情況下，經(jīng)過(guò)判別訓(xùn)練的線性預(yù)測(cè)器也可以提供更好的泛化能力。Lee 等人[42]在2019 年提出了具有可微凸優(yōu)化的元學(xué)習(xí)（MetaOptNet）。MetaOptNet 使用預(yù)測(cè)器作為基礎(chǔ)學(xué)習(xí)器來(lái)學(xué)習(xí)小樣本學(xué)習(xí)的表示，并表明在一系列小樣本分類(lèi)基準(zhǔn)中提供了特征大小和性能之間的更好權(quán)衡。

受自動(dòng)化機(jī)器學(xué)習(xí)（AutoML）取得成功的啟發(fā)，Zhang 等人[43]在2021 年提出為小樣本學(xué)習(xí)尋找一個(gè)好的適應(yīng)策略，稱(chēng)為Meta Navigator。Meta Navigator通過(guò)尋求更高級(jí)別的策略并提供自動(dòng)化選擇來(lái)解決小樣本學(xué)習(xí)限制的問(wèn)題，搜索系統(tǒng)建立在離散元學(xué)習(xí)策略的連續(xù)放松之上，其中每個(gè)候選策略都與一個(gè)可學(xué)習(xí)的策略選擇指標(biāo)相關(guān)聯(lián)。目標(biāo)是尋找適用于網(wǎng)絡(luò)不同階段的良好參數(shù)適應(yīng)策略，以進(jìn)行小樣本分類(lèi)。Zhang 等人還提出了一個(gè)搜索空間，涵蓋了許多流行的小樣本學(xué)習(xí)算法，并開(kāi)發(fā)了一種基于元學(xué)習(xí)的可微搜索和解碼算法，支持基于梯度的優(yōu)化。

通過(guò)對(duì)整個(gè)分類(lèi)進(jìn)行訓(xùn)練，即對(duì)整個(gè)標(biāo)簽集進(jìn)行分類(lèi)，可以獲得與許多元學(xué)習(xí)算法相當(dāng)甚至更好的嵌入。Chen等人[44]因此在2021年提出了元基線（Meta-Baseline），探索簡(jiǎn)單元學(xué)習(xí)的小樣本學(xué)習(xí)方法。Meta-Baseline 的所有單個(gè)組件都已在先前的工作中提出，但沒(méi)有一個(gè)工作將它們作為一個(gè)整體進(jìn)行研究。

2.2 基于度量學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

Snell 等人[45]在2017 年提出了原型網(wǎng)絡(luò)（prototypical network）。原型網(wǎng)絡(luò)的思想為每個(gè)類(lèi)別在向量空間中都存在一個(gè)原型（prototype），也稱(chēng)為類(lèi)別中心點(diǎn)。原型網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)將圖像映射成特征向量，對(duì)于同屬一個(gè)類(lèi)別的樣本，求得這一類(lèi)樣本向量的平均值作為該類(lèi)別的原型。通過(guò)不斷訓(xùn)練模型和最小化損失函數(shù)，使同一類(lèi)別的樣本距離更加接近，不同類(lèi)別的樣本更加遠(yuǎn)離，從而更新嵌入函數(shù)的參數(shù)。原型網(wǎng)絡(luò)思路架構(gòu)如圖8 所示，在原型網(wǎng)絡(luò)中f和g是參數(shù)共享的嵌入網(wǎng)絡(luò)，這種思路框架也是許多后續(xù)基于度量的小樣本學(xué)習(xí)方法的基石。

圖8 原型網(wǎng)絡(luò)樣例Fig.8 Prototypical network example

早期的小樣本度量學(xué)習(xí)方法，如孿生網(wǎng)絡(luò)（Siamese network）和匹配網(wǎng)絡(luò)（matching network），通過(guò)測(cè)量和比較查詢(xún)樣本與支持樣本的距離來(lái)對(duì)查詢(xún)樣本進(jìn)行分類(lèi)。孿生卷積神經(jīng)網(wǎng)絡(luò)（Siamese convolutional neural network）[46]是首個(gè)用于一次性圖像分類(lèi)的深度度量學(xué)習(xí)方法。孿生網(wǎng)絡(luò)首先在文獻(xiàn)[47]中引入，由兩個(gè)具有相同架構(gòu)和共享權(quán)重的子網(wǎng)絡(luò)組成。孿生神經(jīng)網(wǎng)絡(luò)可以提取兩個(gè)輸入圖片在同一分布域的特征，從而判斷兩個(gè)輸入圖片的相似性。匹配網(wǎng)絡(luò)[48]在整個(gè)支持集的上下文中使用不同的網(wǎng)絡(luò)對(duì)支持和查詢(xún)圖像進(jìn)行編碼，并且將情景訓(xùn)練引入小樣本分類(lèi)，支持圖像通過(guò)雙向LSTM 網(wǎng)絡(luò)嵌入。該網(wǎng)絡(luò)不僅考慮圖像本身，還考慮集合中的其他圖像；查詢(xún)圖像通過(guò)具有注意機(jī)制的LSTM 嵌入，以啟用對(duì)支持集的依賴(lài)。早期度量學(xué)習(xí)方法特征學(xué)習(xí)能力有限，魯棒性較差，無(wú)法達(dá)到理想的效果。這些方法為度量學(xué)習(xí)建立了理論基礎(chǔ)，近幾年度量學(xué)習(xí)方法在此基礎(chǔ)上取得了較好的效果。

很多研究者將度量學(xué)習(xí)下小樣本學(xué)習(xí)目光放在了特征問(wèn)題上，通過(guò)有效提取特征之間的關(guān)聯(lián)性，來(lái)提高小樣本圖像分類(lèi)的準(zhǔn)確率。

子空間是度量學(xué)習(xí)經(jīng)常用到的一種方法。Simon等人[49]在2020 年提出了深度子空間網(wǎng)絡(luò)（deep subspace networks，DSN）。引入小樣本構(gòu)建的動(dòng)態(tài)分類(lèi)器，為小樣本學(xué)習(xí)提供了一個(gè)框架。通過(guò)使用子空間來(lái)擴(kuò)展現(xiàn)有的動(dòng)態(tài)分類(lèi)器。子空間方法被用作動(dòng)態(tài)分類(lèi)器的中心塊，這種建模會(huì)導(dǎo)致對(duì)擾動(dòng)異常值的魯棒性。還引入了一個(gè)判別公式，在訓(xùn)練期間鼓勵(lì)子空間之間的最大區(qū)分，并在監(jiān)督和半監(jiān)督的小樣本分類(lèi)任務(wù)上產(chǎn)生較有競(jìng)爭(zhēng)力的結(jié)果。

Hou 等人[50]在2019 年提出了一種新穎的交叉注意網(wǎng)絡(luò)（cross attention network，CAN）來(lái)解決小樣本分類(lèi)問(wèn)題，CAN 引入交叉注意力模塊來(lái)處理看不見(jiàn)類(lèi)的問(wèn)題。該模塊為每一對(duì)類(lèi)特征和查詢(xún)樣本特征生成交叉注意力圖，以突出目標(biāo)對(duì)象區(qū)域，使提取的特征更具判別力。其次提出了一種轉(zhuǎn)導(dǎo)推理算法來(lái)緩解低數(shù)據(jù)問(wèn)題，該算法迭代地利用未標(biāo)記的查詢(xún)集來(lái)擴(kuò)充支持集，從而使類(lèi)特征更具代表性。

國(guó)內(nèi)Zhang 等人[51]也在2020 年提出了具有可微推土機(jī)距離和結(jié)構(gòu)化分類(lèi)器（deep earth mover’s distance，DeepEMD）的小樣本圖像分類(lèi)。地球移動(dòng)距（earth mover’s distance，EMD）可以作為度量來(lái)計(jì)算密集圖像表示之間的結(jié)構(gòu)距離，以確定圖像相關(guān)性。EMD 生成具有最小匹配成本的結(jié)構(gòu)元素之間的最佳匹配流，用于表示分類(lèi)的圖像距離。EMD中的最佳匹配流參數(shù)和特征嵌入中的參數(shù)以端到端的方式進(jìn)行訓(xùn)練。為了生成EMD 公式中元素的重要權(quán)重，Zhang 等人設(shè)計(jì)了一種交叉引用機(jī)制，可以有效地減少由雜亂的背景和較大的類(lèi)內(nèi)外觀變化造成的影響。

通過(guò)設(shè)計(jì)歸納偏差提出一種新穎的特征學(xué)習(xí)方法。Rizve 等人[52]在2021 年提出了小樣本學(xué)習(xí)不變和等變表示的互補(bǔ)優(yōu)勢(shì)，實(shí)現(xiàn)了輸入變換所需的特征，可以提供更好的區(qū)分。專(zhuān)注于轉(zhuǎn)換判別的特征對(duì)于類(lèi)判別不是最優(yōu)的，而是有助于學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)的等變屬性，從而獲得更好的可遷移性。

CAN、DSN、DeepEMD 和互補(bǔ)優(yōu)勢(shì)等方法從度量學(xué)習(xí)的特征角度入手，通過(guò)設(shè)計(jì)有效的特征學(xué)習(xí)方法，使得小樣本學(xué)習(xí)性能得以提升。也有眾多研究者從度量學(xué)習(xí)其他角度來(lái)解決小樣本圖像分類(lèi)問(wèn)題，如質(zhì)心、類(lèi)空間等方法，并同樣使得性能得到提升。

基于質(zhì)心的方法通過(guò)最近鄰規(guī)則實(shí)現(xiàn)了較好分類(lèi)性能。Liu 等人[53]認(rèn)為這些方法本質(zhì)上忽略了每類(lèi)分布，由于類(lèi)內(nèi)方差的多樣性，決策邊界是有偏差的。Liu 等人在2021 年提出了用于改進(jìn)小樣本分類(lèi)的類(lèi)度量尺度機(jī)制（class-wise metric scaling，CMS）。CMS 使得度量標(biāo)量在訓(xùn)練階段被設(shè)置為可學(xué)習(xí)的參數(shù)，有助于學(xué)習(xí)更具區(qū)分性和可轉(zhuǎn)移性的特征表示。CMS 構(gòu)建了一個(gè)凸優(yōu)化問(wèn)題來(lái)生成一個(gè)最優(yōu)標(biāo)量向量，以?xún)?yōu)化最近鄰決策。CMS 可以應(yīng)用于訓(xùn)練和測(cè)試階段，充分利用每類(lèi)分布之間的信息來(lái)解決小樣本問(wèn)題。

從基集類(lèi)空間的角度來(lái)看，研究者要么側(cè)重于通過(guò)常規(guī)預(yù)訓(xùn)練來(lái)利用全局視圖下的所有類(lèi)，要么更注重采用情節(jié)式的方法在局部視圖中對(duì)少數(shù)類(lèi)內(nèi)的元任務(wù)進(jìn)行訓(xùn)練。Zhou 等人[54]在2021 年提出小樣本分類(lèi)的雙目互學(xué)習(xí)（binocular mutual learning，BML）。BML 通過(guò)視圖內(nèi)和交叉視圖建模來(lái)實(shí)現(xiàn)全局視圖和局部視圖的兼容。全局視圖在整個(gè)類(lèi)空間中學(xué)習(xí)以捕捉豐富的類(lèi)間關(guān)系。同時(shí)，局部視圖在每一集的局部類(lèi)空間中學(xué)習(xí)，專(zhuān)注于正確匹配正對(duì)。此外，跨視圖交互進(jìn)一步促進(jìn)了協(xié)作學(xué)習(xí)和對(duì)有用知識(shí)的隱性探索。由于這兩個(gè)視圖捕獲了互補(bǔ)的信息，大大提高了分類(lèi)的準(zhǔn)確性。

選擇一個(gè)距離度量來(lái)直接計(jì)算查詢(xún)和支持圖像之間的距離以進(jìn)行分類(lèi)，然而這些方法中的大多數(shù)使用圖像級(jí)池表示進(jìn)行分類(lèi)，可能會(huì)失去相當(dāng)大的判別性局部線索，這些線索在類(lèi)之間享有良好的可轉(zhuǎn)移性。Wu 等人[55]在2021 年通過(guò)將自動(dòng)零件挖掘過(guò)程集成到FSL 的基于度量的模型中，提出了一個(gè)端到端的任務(wù)感知零件挖掘網(wǎng)絡(luò)（task-aware part mining network，TPMN）。TPMN 設(shè)計(jì)了一個(gè)元過(guò)濾器學(xué)習(xí)器，以元學(xué)習(xí)方式基于任務(wù)嵌入生成任務(wù)感知部分過(guò)濾器。任務(wù)感知部分過(guò)濾器可以適應(yīng)任何單個(gè)任務(wù)，并自動(dòng)挖掘與任務(wù)相關(guān)的本地部分，即使是看不見(jiàn)的任務(wù)。其次，提出了一種自適應(yīng)重要性生成器來(lái)識(shí)別關(guān)鍵的局部部分，并將自適應(yīng)重要性權(quán)重分配給不同的部分。

Singh 等人[56]在概率深度學(xué)習(xí)的啟發(fā)下，提出了一種新型的變異推理網(wǎng)絡(luò)TRIDENT，將圖像的表示解耦為語(yǔ)義和標(biāo)簽的潛在變量，同時(shí)以交織的方式推斷它們。為了誘導(dǎo)任務(wù)意識(shí)，作為T(mén)RIDENT 推理機(jī)制的一部分，使用一個(gè)新的內(nèi)置的基于注意力的反導(dǎo)特征提取模塊，以TRIDENT能夠全面看到一個(gè)任務(wù)中的所有圖像，在標(biāo)簽信息的推斷中誘發(fā)任務(wù)認(rèn)知。

He 等人[57]提出一種新的分層級(jí)聯(lián)變換器（hierarchically cascaded transformers，HCTransformers），通過(guò)光譜標(biāo)記池利用內(nèi)在的圖像結(jié)構(gòu)，并通過(guò)潛在的屬性代理優(yōu)化可學(xué)習(xí)參數(shù)。設(shè)計(jì)了一個(gè)由三個(gè)連續(xù)級(jí)聯(lián)的變換器組成的元特征提取器，每個(gè)變換器都在不同的語(yǔ)義層面對(duì)圖像區(qū)域的依賴(lài)性進(jìn)行建模。相同聚類(lèi)中標(biāo)記的特征被平均化，以生成新的標(biāo)記描述符，用于后續(xù)的轉(zhuǎn)化器。譜系標(biāo)記集合背后的動(dòng)機(jī)是將圖像分割層次帶入變換器。

表1 選取了Mini-ImageNet（test）、Tiered-Image-Net（test）和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考，因?yàn)槠渌麕讉€(gè)數(shù)據(jù)集使用較少，所以不做討論。由表1 可以看出，在每個(gè)數(shù)據(jù)集上面，5-shot準(zhǔn)確率均比1-shot 準(zhǔn)確率高10 個(gè)百分點(diǎn)左右，表明小樣本學(xué)習(xí)和常規(guī)的訓(xùn)練學(xué)習(xí)一樣，訓(xùn)練數(shù)據(jù)越多，學(xué)到的信息和特征越多，分類(lèi)的性能也越好。在Mini-Image-Net（test）上，最初在1-shot 與5-shot 上43.44%和60.60%的準(zhǔn)確率已經(jīng)提升到了74%和89%左右，不同模型方法通過(guò)不同的側(cè)重點(diǎn)改進(jìn)，均取得了較好的性能提升，但在此數(shù)據(jù)集上還有較大的提升空間。因?yàn)門(mén)iered-ImageNet（test）與Mini-ImageNet（test）都出自ImageNet 數(shù)據(jù)集，所以準(zhǔn)確率的提升和Mini-ImageNet（test）同樣明顯。但因?yàn)門(mén)iered-Image-Net（test）數(shù)據(jù)集中包含層次結(jié)構(gòu)較高級(jí)別的節(jié)點(diǎn)對(duì)應(yīng)更廣泛的類(lèi)別，所以最高準(zhǔn)確率在1-shot 和5-shot 上已經(jīng)達(dá)到79%和91%，但同樣有提升的空間，距離人的識(shí)別準(zhǔn)確率還有較大差距。CIFAR-FS 數(shù)據(jù)集與以上兩個(gè)數(shù)據(jù)集有一個(gè)顯著的區(qū)別在于，早期的有監(jiān)督小樣本學(xué)習(xí)更注重在Mini-ImageNet（test）和Tiered-ImageNet（test）上的性能表現(xiàn)，但在近幾年，研究者們開(kāi)始關(guān)注在CIFAR-FS 上的性能表現(xiàn)，并在1-shto 和5-shot 下達(dá)到了78%和90%的準(zhǔn)確率，較之前都有了35 個(gè)百分點(diǎn)的性能提升。同時(shí)通過(guò)調(diào)查發(fā)現(xiàn)，基于元學(xué)習(xí)和度量學(xué)習(xí)的小樣本學(xué)習(xí)準(zhǔn)確率均達(dá)到了較高的數(shù)值，且兩種方法通過(guò)相互結(jié)合，能夠進(jìn)一步提高實(shí)驗(yàn)結(jié)果。如表2 所示，通過(guò)對(duì)有監(jiān)督下小樣本圖像分類(lèi)方法的對(duì)比分析，發(fā)現(xiàn)各方法均有優(yōu)勢(shì)，但元學(xué)習(xí)器設(shè)計(jì)較為困難，而度量學(xué)習(xí)容易引入其他噪音參數(shù)。

表1 有監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 1 Accuracy comparison of supervised few-shot image classification methods 單位：%

表2 有監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 2 Comparative analysis of supervised few-shot image classification methods

3 基于半監(jiān)督小樣本圖像分類(lèi)

3.1 半監(jiān)督概念

獲取大量的有標(biāo)注數(shù)據(jù)集需要耗費(fèi)大量的人力物力，但是隨著深度學(xué)習(xí)的快速發(fā)展和手機(jī)、攝像機(jī)等收集圖像設(shè)備的迭代更新，每時(shí)每刻都有人將自己拍攝的圖片傳輸?shù)缴缃痪W(wǎng)絡(luò)當(dāng)中。另一方面，隨著智慧城市概念的提出，為了城市的安全和管理考慮，監(jiān)控系統(tǒng)已經(jīng)普及到全國(guó)各地所有的城市當(dāng)中，通過(guò)監(jiān)控每天都能獲得許多無(wú)標(biāo)記的圖片。雖然無(wú)標(biāo)注數(shù)據(jù)集沒(méi)有具體的類(lèi)別標(biāo)簽等人為標(biāo)注信息，但是無(wú)標(biāo)注信息本身就含有大量的有用的特征信息和語(yǔ)義結(jié)構(gòu)信息，因此一個(gè)很自然的想法就隨之誕生，如果同時(shí)依靠有限的標(biāo)注數(shù)據(jù)，同時(shí)能夠有效提取無(wú)標(biāo)注數(shù)據(jù)中自身含有的有用信息進(jìn)行學(xué)習(xí)，則可以大大促進(jìn)圖像分類(lèi)相關(guān)研究的發(fā)展。而關(guān)于小樣本學(xué)習(xí)下的半監(jiān)督學(xué)習(xí)，前期絕大多數(shù)都是在基于元學(xué)習(xí)的理論框架下發(fā)展的，近些年相關(guān)新的技術(shù)也被提出。下面根據(jù)半監(jiān)督的相關(guān)方法展開(kāi)討論。

3.2 基于半監(jiān)督的小樣本學(xué)習(xí)

如果只用少量的有標(biāo)注圖像進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練，則會(huì)造成深度模型的過(guò)擬合，無(wú)法學(xué)到泛化能力強(qiáng)的分類(lèi)模型，而充分利用無(wú)標(biāo)注樣本的結(jié)構(gòu)和語(yǔ)義信息可以幫助獲得更好的模型，如圖9 所示，相比于有監(jiān)督的圖像分類(lèi)任務(wù)，半監(jiān)督圖像分類(lèi)將會(huì)充分利用無(wú)標(biāo)注數(shù)據(jù)。因此本節(jié)研究的關(guān)鍵是如何依靠有限的標(biāo)注數(shù)據(jù)，同時(shí)利用大量的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行圖像識(shí)別模型的學(xué)習(xí)，即基于半監(jiān)督學(xué)習(xí)的圖像分類(lèi)。

圖9 有監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的對(duì)比Fig.9 Supervised learning vs semi-supervised learning

半監(jiān)督學(xué)習(xí)的關(guān)鍵是如何挖掘和利用無(wú)標(biāo)注樣本中包含的信息。為了利用無(wú)標(biāo)注樣本，現(xiàn)有的半監(jiān)督學(xué)習(xí)方法基本都遵循一個(gè)基于密度的聚類(lèi)假設(shè)：位于高密度區(qū)域的樣本可能屬于同一個(gè)類(lèi)簇。該假設(shè)還有一個(gè)等價(jià)的描述：分類(lèi)超平面不應(yīng)該越過(guò)高密度區(qū)域，而應(yīng)該位于低密度區(qū)域，即低密度可分假設(shè)，如圖10 所示。基于低密度可分假設(shè)，研究者提出了兩類(lèi)半監(jiān)督學(xué)習(xí)方法：第一類(lèi)是基于一致性正則的方法，主要約束模型對(duì)無(wú)標(biāo)注樣本經(jīng)過(guò)隨機(jī)擾動(dòng)后的分類(lèi)預(yù)測(cè)與對(duì)原始樣本的分類(lèi)預(yù)測(cè)具有一致性；第二類(lèi)是基于偽標(biāo)注的方法，該類(lèi)方法主要通過(guò)模型的分類(lèi)預(yù)測(cè)或鄰近的有標(biāo)注樣本為無(wú)標(biāo)注樣本產(chǎn)生偽標(biāo)簽。

圖10 低密度可分示意圖Fig.10 Low density separable schematic

3.2.1 一致性約束的方法

半監(jiān)督下基于一致性約束的方法主要基于低密度可分假設(shè)。分類(lèi)超平面應(yīng)該位于數(shù)據(jù)的低密度區(qū)域，而不應(yīng)穿過(guò)高密度區(qū)域；因?yàn)橄嗤?lèi)別的樣本更可能形成高密度，所以分類(lèi)超平面如果位于高密度區(qū)，則會(huì)將相同類(lèi)別的樣本劃分為不同的類(lèi)別。當(dāng)前基于半監(jiān)督學(xué)習(xí)的圖像識(shí)別算法基本都遵循該假設(shè)。為確保分類(lèi)超平面低密度可分，研究者提出了一致性約束的方法，其核心思想為約束每個(gè)訓(xùn)練樣本經(jīng)過(guò)數(shù)據(jù)擾動(dòng)之后，網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對(duì)應(yīng)的輸出一致。

基于密度圖的半監(jiān)督學(xué)習(xí)算法。通過(guò)構(gòu)建密度圖，每個(gè)樣本可以很容易獲得其鄰居信息。更重要的是，特征學(xué)習(xí)和標(biāo)簽傳播可以一起進(jìn)行端到端的訓(xùn)練，并且為了更好地利用密度信息，顯式地將密度信息有機(jī)地引入到特征學(xué)習(xí)和標(biāo)簽傳播的過(guò)程中。具體來(lái)說(shuō)，首先給定有標(biāo)注樣本和無(wú)標(biāo)注樣本來(lái)構(gòu)建密度圖，并且為圖中每個(gè)節(jié)點(diǎn)定義密度信息?；诿芏葓D進(jìn)行特征學(xué)習(xí)，提出聚合鄰居信息去增強(qiáng)目標(biāo)節(jié)點(diǎn)的特征。

Laine 等人[58]提出兩種使用一致性約束的半監(jiān)督圖像識(shí)別方法，即PI 模型（productivity index）和時(shí)序集成模型（temporal ensemble）。PI 模型將原始訓(xùn)練樣本和對(duì)應(yīng)的經(jīng)過(guò)數(shù)據(jù)擾動(dòng)的樣本一同輸入模型，然后約束模型對(duì)這兩種輸入的輸出具有一致性。不同于PI 模型需要將兩種訓(xùn)練樣本輸入模型，時(shí)序集成模型則提出保存每個(gè)訓(xùn)練樣本對(duì)應(yīng)的模型輸出的歷史均值，然后約束樣本對(duì)應(yīng)的當(dāng)前模型的輸出與歷史平均值具有一致性。PI 模型的特點(diǎn)是不需要保存每個(gè)樣本的歷史平均值，但模型需要前向計(jì)算兩次；時(shí)序集成模型不需要對(duì)每個(gè)樣本前向計(jì)算兩次，但需要保存所有訓(xùn)練樣本的歷史類(lèi)別預(yù)測(cè)均值，故具有較大的存儲(chǔ)開(kāi)銷(xiāo)。

Rodriguez 等人[59]提出密度峰假設(shè)，強(qiáng)調(diào)高密度的樣本更可能是類(lèi)簇的中心，同時(shí)高密度的樣本更能表征所屬類(lèi)簇的信息。相比于低密度的樣本，高密度的樣本具有更高的特征性，這對(duì)半監(jiān)督學(xué)習(xí)來(lái)說(shuō)是一個(gè)非常有價(jià)值的信息。但是當(dāng)前的半監(jiān)督學(xué)習(xí)方法并沒(méi)有像這樣顯式地利用密度信息或者深入地挖掘密度信息。對(duì)于一個(gè)半監(jiān)督學(xué)習(xí)算法來(lái)說(shuō)，特征學(xué)習(xí)和無(wú)標(biāo)注的偽標(biāo)注生成是其核心的兩部分。在進(jìn)行特征學(xué)習(xí)時(shí)，當(dāng)前的方法只利用了單個(gè)樣本自身的信息，而忽略了可以利用的鄰居信息，這些鄰居信息包含的類(lèi)簇和結(jié)構(gòu)信息可以幫助學(xué)習(xí)到更好的特征。

MeanTeacher[60]對(duì)時(shí)序集成模型進(jìn)行了改進(jìn)。不同于時(shí)序集成模型要求原始樣本的輸出與經(jīng)過(guò)隨機(jī)擾動(dòng)的樣本的輸出具有一致約束性，Mean Teacher 提出在訓(xùn)練過(guò)程中對(duì)模型的參數(shù)做歷史滑動(dòng)均勻，并維護(hù)對(duì)應(yīng)的模型，然后約束同一訓(xùn)練樣本，經(jīng)過(guò)當(dāng)前模型與歷史平均模型后的輸出具有一致性。

Liu 等人[61]在2018 年提出一種基于半監(jiān)督的元學(xué)習(xí)框架，通過(guò)情景訓(xùn)練的元學(xué)習(xí)，可以學(xué)習(xí)標(biāo)簽傳播網(wǎng)絡(luò)。從訓(xùn)練集中采樣的查詢(xún)示例可以用來(lái)模擬真實(shí)的測(cè)試集進(jìn)行跨導(dǎo)推理，稱(chēng)為跨導(dǎo)傳播網(wǎng)絡(luò)（transductive propagation network，TPN）。為解決圖像分類(lèi)數(shù)據(jù)低的問(wèn)題，TPN 用于對(duì)整個(gè)測(cè)試集進(jìn)行一次分類(lèi)，以緩解低數(shù)據(jù)問(wèn)題。通過(guò)學(xué)習(xí)利用數(shù)據(jù)中流形結(jié)構(gòu)的圖構(gòu)造模塊，以端到端的方式聯(lián)合學(xué)習(xí)嵌入圖形構(gòu)造的參數(shù)。

Yu 等人[62]的思考角度發(fā)生了轉(zhuǎn)變，將預(yù)訓(xùn)練模型遷移到小樣本學(xué)習(xí)。Yu 等人在2020 年提出了一種新的半監(jiān)督小樣本學(xué)習(xí)轉(zhuǎn)移學(xué)習(xí)框架Trans Match。TransMatch 充分利用標(biāo)記基類(lèi)數(shù)據(jù)和未標(biāo)記新類(lèi)數(shù)據(jù)中的輔助信息，顯著提高小樣本學(xué)習(xí)任務(wù)的準(zhǔn)確性。TransMatch 的最大創(chuàng)新點(diǎn)在于，以往的半監(jiān)督學(xué)習(xí)方法都基于元學(xué)習(xí)，而Yu 等人將目光放在基于遷移學(xué)習(xí)，并且取得成功。

大多數(shù)基于圖網(wǎng)絡(luò)的元學(xué)習(xí)方法對(duì)示例的實(shí)例級(jí)關(guān)系進(jìn)行建模。Yang 等人[63]進(jìn)一步擴(kuò)展這一想法，提出了分布傳播圖網(wǎng)絡(luò)（distribution propagation graph network，DPGN）。DPGN 傳達(dá)了每個(gè)小樣本學(xué)習(xí)任務(wù)中的分布級(jí)關(guān)系和實(shí)例級(jí)關(guān)系，為了結(jié)合所有示例的分布級(jí)關(guān)系和實(shí)例級(jí)關(guān)系，Yang 等人構(gòu)建了一個(gè)由點(diǎn)圖和分布圖組成的對(duì)偶完全圖網(wǎng)絡(luò)，每個(gè)節(jié)點(diǎn)代表一個(gè)示例來(lái)進(jìn)行實(shí)驗(yàn)，并取得了不錯(cuò)的效果。

3.2.2 基于偽標(biāo)注的方法

基于偽標(biāo)注的方法的核心思想是為無(wú)標(biāo)注樣本賦予“偽標(biāo)簽”，之后結(jié)合原始有標(biāo)注數(shù)據(jù)共同進(jìn)行有監(jiān)督的小樣本訓(xùn)練，因此該類(lèi)方法又被稱(chēng)為自監(jiān)督學(xué)習(xí)方法。該類(lèi)方法的關(guān)鍵是為無(wú)標(biāo)注樣本生成準(zhǔn)確的類(lèi)別標(biāo)簽，而不同的產(chǎn)生類(lèi)別標(biāo)簽的方法代表了不同的半監(jiān)督學(xué)習(xí)方式。

Li 等人[64]在2019 年提出一種基于半監(jiān)督的帶硬偽標(biāo)簽和軟偽標(biāo)簽的自我訓(xùn)練方法，利用稀缺的標(biāo)記數(shù)據(jù)和豐富的未標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí)，稱(chēng)為自學(xué)習(xí)訓(xùn)練（learning to self-train，LST）。LST 利用未標(biāo)記的數(shù)據(jù)，特別是元學(xué)習(xí)，來(lái)挑選和標(biāo)記此類(lèi)無(wú)監(jiān)督數(shù)據(jù)，以進(jìn)一步提高性能。在每個(gè)任務(wù)中，訓(xùn)練幾個(gè)鏡頭模型來(lái)預(yù)測(cè)未標(biāo)記數(shù)據(jù)的偽標(biāo)簽，在每個(gè)步驟中對(duì)標(biāo)記和偽標(biāo)記數(shù)據(jù)迭代自訓(xùn)練步驟，最后在下游任務(wù)中進(jìn)行微調(diào)。此外，此模型還提出軟加權(quán)網(wǎng)絡(luò)來(lái)優(yōu)化偽標(biāo)簽的自訓(xùn)練權(quán)重，以便網(wǎng)絡(luò)能夠更好地為梯度下降優(yōu)化做出更大的貢獻(xiàn)。

Huang 等人[65]在2020 年提出了一種用于半監(jiān)督小樣本學(xué)習(xí)的任務(wù)統(tǒng)一置信度估計(jì)方法PLCM（pseudoloss confidence metric）。PLCM 通過(guò)偽損失模型將不同任務(wù)的偽標(biāo)記數(shù)據(jù)映射到一個(gè)統(tǒng)一的度量空間，從而可以了解之前的偽損失分布。PLCM根據(jù)偽標(biāo)記數(shù)據(jù)偽丟失的分布分量置信度估計(jì)偽標(biāo)記數(shù)據(jù)的置信度。

以往利用元學(xué)習(xí)范式或數(shù)據(jù)增強(qiáng)中的新原理來(lái)緩解極度缺乏數(shù)據(jù)的問(wèn)題。Wang 等人[66]提出了一種簡(jiǎn)單的統(tǒng)計(jì)方法，稱(chēng)為實(shí)例可信度推斷（instance credibility inference，ICI），以利用未標(biāo)記實(shí)例的分布支持進(jìn)行小樣本學(xué)習(xí)。首先用標(biāo)記的少數(shù)樣本訓(xùn)練一個(gè)線性分類(lèi)器，并推斷未標(biāo)記數(shù)據(jù)的偽標(biāo)簽。為了衡量每個(gè)偽標(biāo)記實(shí)例的可信度，通過(guò)增加附帶參數(shù)的稀疏度來(lái)解決另一個(gè)線性回歸假設(shè)，并根據(jù)它們的稀疏度對(duì)偽標(biāo)記實(shí)例進(jìn)行排名，選擇最值得信賴(lài)的偽標(biāo)記實(shí)例與標(biāo)記實(shí)例一起重新訓(xùn)練線性分類(lèi)器。

Li 等人[67]在2021 年引入一種新的基線方法，通過(guò)迭代偽標(biāo)簽細(xì)化來(lái)減少噪聲，從而實(shí)現(xiàn)半監(jiān)督小樣本學(xué)習(xí)。半監(jiān)督小樣本學(xué)習(xí)基線方法是修改一個(gè)帶有偽標(biāo)簽細(xì)化（pseudo label refinement，PLAIN）的遷移學(xué)習(xí)框架。Li等人使用去噪網(wǎng)絡(luò)改進(jìn)了PLAIN，通過(guò)適應(yīng)新類(lèi)的知識(shí)來(lái)減少偽標(biāo)簽噪聲，并使用高斯混合模型（Gaussian mixture model，GMM）來(lái)學(xué)習(xí)干凈和有噪聲偽標(biāo)簽的分布，以獲得可靠的偽標(biāo)簽實(shí)例，產(chǎn)生了一種稱(chēng)為PLAIN++的高級(jí)小樣本學(xué)習(xí)方法。與PLAIN 相比，PLAIN++需要使用高置信度的偽標(biāo)記實(shí)例來(lái)訓(xùn)練去噪網(wǎng)絡(luò)。使用這個(gè)去噪網(wǎng)絡(luò)來(lái)評(píng)估GMM 偽標(biāo)簽的置信值，GMM 對(duì)干凈和有噪聲的偽標(biāo)簽樣本的分布進(jìn)行建模，以便可以選擇偽標(biāo)簽的η百分比來(lái)更新小樣本分類(lèi)器。此過(guò)程交替執(zhí)行，直到達(dá)到預(yù)定義的迭代次數(shù)。

表3 選取了Mini-ImageNet（test）、Tiered-Image-Net（test）和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考。由表3 可以看出，半監(jiān)督小樣本的研究對(duì)比于有監(jiān)督相對(duì)較少，但是同樣取得了不錯(cuò)的效果。同樣在每個(gè)數(shù)據(jù)集上面，5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet（test）上，最初在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了74%和82%左右，在此數(shù)據(jù)集上還有較大的提升空間。在Tiered-ImageNet（test）上同樣取得不錯(cuò)的效果，1-shot 和5-shot 上分別達(dá)到82%和88%的準(zhǔn)確率，相比較最初的TPN 有了將近20～30 個(gè)百分點(diǎn)的性能提升。CIFAR-FS 數(shù)據(jù)集在1-shto 和5-shot下達(dá)到了85%和88%的準(zhǔn)確率。如表4 所示，通過(guò)對(duì)半監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析，發(fā)現(xiàn)它們都各有優(yōu)勢(shì)，但一致性約束方法局限性各不相同，而偽標(biāo)注的方法優(yōu)勢(shì)在于充分利用偽標(biāo)簽，同時(shí)帶來(lái)偽標(biāo)簽不準(zhǔn)確的問(wèn)題。

表3 半監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 3 Accuracy comparison of semi-supervised few-shot image classification methods 單位：%

表4 半監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 4 Comparative analysis of semi-supervised few-shot image classification methods

4 基于無(wú)監(jiān)督學(xué)習(xí)的圖像分類(lèi)

4.1 無(wú)監(jiān)督概念

監(jiān)督學(xué)習(xí)依賴(lài)于人類(lèi)標(biāo)注信息，但是對(duì)于標(biāo)注信息的過(guò)度依賴(lài)具有局限性。例如，人工標(biāo)注的數(shù)據(jù)遠(yuǎn)遠(yuǎn)不如數(shù)據(jù)本身的內(nèi)部結(jié)構(gòu)豐富，在這種情況下進(jìn)行大量樣本的訓(xùn)練，得到的模型會(huì)比較脆弱；而且標(biāo)注的信息通常適用于特定的任務(wù)，并不具有泛化性能。

以自監(jiān)督為代表的無(wú)監(jiān)督學(xué)習(xí)成為解決這一難題的辦法，因?yàn)閳D像自身就可以為模型提供監(jiān)督信息。無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)核心用例是通過(guò)在無(wú)監(jiān)督表征的基礎(chǔ)上進(jìn)行訓(xùn)練[68-69]或?qū)λ鶎W(xué)模型進(jìn)行微調(diào)[70]，使下游任務(wù)的學(xué)習(xí)變得更好或更有效。小樣本下的圖像分類(lèi)問(wèn)題，通過(guò)利用無(wú)監(jiān)督學(xué)習(xí)的方法，結(jié)合元學(xué)習(xí)算法的框架，使用未標(biāo)記數(shù)據(jù)來(lái)生成少量任務(wù)，最終在目標(biāo)任務(wù)中生成需要的標(biāo)簽并進(jìn)行訓(xùn)練。

4.2 基于無(wú)監(jiān)督的小樣本學(xué)習(xí)

在下游任務(wù)中使用無(wú)監(jiān)督的表征與元學(xué)習(xí)密切相關(guān)，需要找到一種比從頭開(kāi)始學(xué)習(xí)更有效的學(xué)習(xí)程序。然而，與無(wú)監(jiān)督學(xué)習(xí)方法不同，元學(xué)習(xí)方法需要大量的、有標(biāo)簽的數(shù)據(jù)集和手工指定的任務(wù)分布。這些依賴(lài)性是廣泛使用這些方法進(jìn)行小樣本圖像分類(lèi)的主要障礙。

4.2.1 數(shù)據(jù)增強(qiáng)的方法

在只有原始的、無(wú)標(biāo)簽的觀察結(jié)果的情況下，模型的目標(biāo)是學(xué)習(xí)一個(gè)有用的先驗(yàn)。這樣，在元訓(xùn)練之后，當(dāng)遇到一個(gè)適度大小的指定任務(wù)的數(shù)據(jù)集時(shí)，模型可以轉(zhuǎn)移先前的經(jīng)驗(yàn)，有效地學(xué)習(xí)執(zhí)行新任務(wù)。許多無(wú)監(jiān)督學(xué)習(xí)工作基于重建、解纏結(jié)、預(yù)測(cè)和其他指標(biāo)開(kāi)發(fā)代理目標(biāo)。2018 年Hsu 等人[71]也提出了一種自動(dòng)構(gòu)建無(wú)監(jiān)督元學(xué)習(xí)任務(wù)的方法CACTUS（clustering to automatically construct tasks for unsupervised meta-learning)。利用無(wú)監(jiān)督嵌入為元學(xué)習(xí)算法提出任務(wù)，從而產(chǎn)生一種無(wú)監(jiān)督元學(xué)習(xí)算法，該算法對(duì)于指定的下游任務(wù)進(jìn)行預(yù)訓(xùn)練。使用基于嵌入的簡(jiǎn)單機(jī)制生成的任務(wù)的元學(xué)習(xí)，提高了這些表示在學(xué)習(xí)下游指定任務(wù)中的效果。針對(duì)數(shù)據(jù)集來(lái)說(shuō)，Hsu 等人實(shí)驗(yàn)的數(shù)據(jù)集的分布較均勻，但現(xiàn)實(shí)世界中的數(shù)據(jù)集分布無(wú)法這么均勻，因此聚類(lèi)的效果可能并不會(huì)很好，遷移性差。

分類(lèi)器的小樣本或一個(gè)樣本學(xué)習(xí)需要對(duì)學(xué)習(xí)的任務(wù)類(lèi)型有顯著的歸納偏差。獲得這一點(diǎn)的一種方法是對(duì)類(lèi)似于目標(biāo)任務(wù)的任務(wù)進(jìn)行元學(xué)習(xí)。Khodadadeh 等人[72]在2019 年提出了UMTRA（unsupervised meta-lear-ning for few-shot image classification），一種對(duì)分類(lèi)任務(wù)執(zhí)行無(wú)監(jiān)督、模型不可知元學(xué)習(xí)的算法。UMTRA 原理如圖11 所示，UMTRA 的元學(xué)習(xí)步驟是在未標(biāo)記圖像的平面集合上執(zhí)行的。雖然假設(shè)這些圖像可以分為一組不同的類(lèi)并且與目標(biāo)任務(wù)相關(guān)，但不需要關(guān)于類(lèi)或任何標(biāo)簽的明確信息。UMTRA使用隨機(jī)抽樣和增強(qiáng)來(lái)為元學(xué)習(xí)階段創(chuàng)建合成訓(xùn)練任務(wù)。只有在最終的目標(biāo)任務(wù)學(xué)習(xí)步驟中才需要標(biāo)簽，并且每個(gè)類(lèi)可以少至一個(gè)樣本。

圖11 UMTRA：基于數(shù)據(jù)增強(qiáng)的無(wú)監(jiān)督小樣本學(xué)習(xí)Fig.11 UMTRA:unsupervised few-shot learning based on data augmentation

Antoniou 等人[73]在2019 年提出了一種使用未標(biāo)記數(shù)據(jù)生成少量快照任務(wù)的方法，稱(chēng)為假設(shè)、增強(qiáng)和學(xué)習(xí)（assume，augment and learn，AAL）。AAL 假設(shè)給定支持集的聚類(lèi)來(lái)訓(xùn)練模型，擴(kuò)充支持集生成目標(biāo)集，并使用MAML 框架訓(xùn)練模型，以便模型能夠快速獲得支持集的知識(shí)，并在目標(biāo)集上很好地推廣。AAL 從未標(biāo)記的數(shù)據(jù)集中隨機(jī)標(biāo)記圖像的一個(gè)子集，以生成支持集，通過(guò)對(duì)支持集的圖像進(jìn)行數(shù)據(jù)擴(kuò)充，并重用支持集的標(biāo)簽，獲得了一個(gè)目標(biāo)集。由此產(chǎn)生的少量快照任務(wù)可用于訓(xùn)練任何標(biāo)準(zhǔn)元學(xué)習(xí)框架。

2019 年Ji 等人[74]提出了一種整合漸進(jìn)聚類(lèi)和情景訓(xùn)練的無(wú)監(jiān)督小樣本學(xué)習(xí)方法UFLST。UFLST 由兩個(gè)交替過(guò)程組成：漸進(jìn)聚類(lèi)和情景訓(xùn)練。前者生成用于構(gòu)建情景任務(wù)的偽標(biāo)記訓(xùn)練樣本；而后者使用生成的情景任務(wù)訓(xùn)練小樣本學(xué)習(xí)者，進(jìn)一步優(yōu)化數(shù)據(jù)的特征表示。這兩個(gè)過(guò)程相互促進(jìn)，最終產(chǎn)生一個(gè)高質(zhì)量的小樣本學(xué)習(xí)器。與以往的無(wú)監(jiān)督學(xué)習(xí)方法不同，UFLST 將無(wú)監(jiān)督學(xué)習(xí)和情景訓(xùn)練集成到一個(gè)統(tǒng)一的框架中，便于特征提取和模型迭代訓(xùn)練。

大多數(shù)以前的小樣本學(xué)習(xí)算法都是基于元學(xué)習(xí)，以假的小樣本任務(wù)作為訓(xùn)練樣本，其中需要大量的標(biāo)記基類(lèi)。訓(xùn)練后的模型也受到任務(wù)類(lèi)型的限制。2020 年Li 等人[75]提出一種通過(guò)對(duì)比自我監(jiān)督學(xué)習(xí)進(jìn)行小樣本圖像分類(lèi)的方法CSSL-FSL（contrastive self-supervised learning）。CSSL-FSL 提出了一種新的無(wú)監(jiān)督小樣本學(xué)習(xí)范式來(lái)修復(fù)缺陷，分兩個(gè)階段解決小樣本任務(wù)：通過(guò)對(duì)比自監(jiān)督學(xué)習(xí)對(duì)可遷移特征提取器進(jìn)行元訓(xùn)練，并使用圖形聚合、自蒸餾和流形增強(qiáng)訓(xùn)練分類(lèi)器。在第一階段，使用比較自監(jiān)督學(xué)習(xí)方法，對(duì)未標(biāo)記的圖像獲得具有良好泛化能力的特征提取器。在第二階段，元訓(xùn)練特征提取器用于從當(dāng)前任務(wù)的所有圖像中提取特征，并基于當(dāng)前任務(wù)定義的特定圖進(jìn)行特征聚合，以便查詢(xún)集的信息與查詢(xún)集的信息交互支持集。

Qin 等人[76]也在2020 年提出通過(guò)基于分布轉(zhuǎn)移的數(shù)據(jù)增強(qiáng)進(jìn)行無(wú)監(jiān)督的小樣本學(xué)習(xí)，開(kāi)發(fā)了一個(gè)新的框架ULDA。ULDA 在使用數(shù)據(jù)增強(qiáng)時(shí)會(huì)關(guān)注每個(gè)小樣本任務(wù)內(nèi)部的分布多樣性。Qin 等人強(qiáng)調(diào)了分布多樣性在基于增強(qiáng)的小樣本任務(wù)中的價(jià)值和重要性，這可以有效緩解過(guò)度擬合問(wèn)題，并使小樣本模型學(xué)習(xí)到更魯棒的特征表示。在ULDA 中，系統(tǒng)地研究了不同增強(qiáng)技術(shù)的效果，并建議通過(guò)多樣化地增強(qiáng)這兩個(gè)集合來(lái)增強(qiáng)每個(gè)小樣本任務(wù)中查詢(xún)集和支持集之間的分布多樣性。

Xu 等人[77]在2021 年使用聚類(lèi)嵌入方法和數(shù)據(jù)增強(qiáng)函數(shù)構(gòu)建任務(wù)，以滿足兩個(gè)關(guān)鍵的類(lèi)別區(qū)分要求，提出了一種使用聚類(lèi)和增強(qiáng)構(gòu)建無(wú)監(jiān)督元學(xué)習(xí)任務(wù)的算法CUMCA。為了減輕增強(qiáng)數(shù)據(jù)引入的偏差和弱多樣性問(wèn)題，CUMCA 提供了一個(gè)理論分析來(lái)解釋為什么外循環(huán)比內(nèi)循環(huán)對(duì)增強(qiáng)數(shù)據(jù)更敏感。其次，提出了一種新的數(shù)據(jù)增強(qiáng)方法Prior-Mixup，而不是像UMTRA 中那樣僅使用旋轉(zhuǎn)、水平翻轉(zhuǎn)和剪切等規(guī)范進(jìn)行圖像數(shù)據(jù)增強(qiáng)。Prior-Mixup 專(zhuān)為無(wú)監(jiān)督元學(xué)習(xí)而設(shè)計(jì)，以滿足良好元學(xué)習(xí)任務(wù)分布的多樣性要求。

Zhang 等人[78]在2021 年提出了一種用于無(wú)監(jiān)督小樣本學(xué)習(xí)和聚類(lèi)的自監(jiān)督深度學(xué)習(xí)框架UFLAC。UFLAC 可以被解釋為從學(xué)習(xí)的嵌入中反復(fù)發(fā)現(xiàn)新的類(lèi)別，并用自我監(jiān)督的信號(hào)訓(xùn)練一個(gè)新的嵌入函數(shù)來(lái)區(qū)分發(fā)現(xiàn)的類(lèi)別線索。在UFLAC 框架中，首先從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)類(lèi)別，再對(duì)之前的分區(qū)結(jié)果進(jìn)行后處理，以去除異常值并導(dǎo)出每個(gè)類(lèi)別的原型。然后使用先前選擇的數(shù)據(jù)和增強(qiáng)的虛擬數(shù)據(jù)構(gòu)建小樣本學(xué)習(xí)任務(wù)。最后，通過(guò)前面的步驟迭代訓(xùn)練網(wǎng)絡(luò)以學(xué)習(xí)最終表示。

Hiller 等人[79]將輸入樣本分割成斑塊，并通過(guò)視覺(jué)變換器的幫助對(duì)這些斑塊進(jìn)行編碼，能夠在整個(gè)圖像的局部區(qū)域之間建立語(yǔ)義上的對(duì)應(yīng)關(guān)系，并與它們各自的類(lèi)別無(wú)關(guān)，稱(chēng)為FewTURE。然后，通過(guò)推理時(shí)的在線優(yōu)化，為手頭的任務(wù)確定信息量最大的補(bǔ)丁嵌入，另外還提供圖像中“最重要的東西”的視覺(jué)可解釋性。該方法建立在通過(guò)遮蔽圖像建模對(duì)網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督訓(xùn)練的最新進(jìn)展上，以克服缺乏細(xì)粒度標(biāo)簽的問(wèn)題，并學(xué)習(xí)數(shù)據(jù)的更一般的統(tǒng)計(jì)結(jié)構(gòu)，同時(shí)避免圖像級(jí)別的負(fù)面注釋影響。

該類(lèi)方法的主要思想是將每個(gè)無(wú)標(biāo)注的圖像當(dāng)作獨(dú)立的類(lèi)別，然后針對(duì)每個(gè)樣本通過(guò)數(shù)據(jù)增強(qiáng)的方法生成對(duì)應(yīng)樣本的多個(gè)增強(qiáng)樣本，將原始樣本和增強(qiáng)生成的樣本作為同一類(lèi)，這樣就可以轉(zhuǎn)化為有監(jiān)督小樣本學(xué)習(xí)進(jìn)行求解。

4.2.2 對(duì)比學(xué)習(xí)的方法

對(duì)比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)方法的一種，不依靠標(biāo)注的數(shù)據(jù)，從無(wú)標(biāo)注圖像中自己學(xué)習(xí)知識(shí)。自監(jiān)督學(xué)習(xí)本身已經(jīng)在圖像領(lǐng)域里被探索了很久。對(duì)比學(xué)習(xí)則是典型的判別式自監(jiān)督學(xué)習(xí)，相對(duì)生成式自監(jiān)督學(xué)習(xí)，對(duì)比學(xué)習(xí)的任務(wù)難度要低一些。對(duì)比學(xué)習(xí)方法已有很多，有效地將對(duì)比學(xué)習(xí)與小樣本圖像分類(lèi)相互結(jié)合，也能取得不俗的效果。

由于訓(xùn)練圖像的數(shù)量有限，當(dāng)直接應(yīng)用于小樣本學(xué)習(xí)時(shí)，隨機(jī)圖像變換可能會(huì)效果較差，具有更多的噪聲和更少的概念相關(guān)信息，會(huì)導(dǎo)致無(wú)法學(xué)習(xí)細(xì)粒度結(jié)構(gòu)。為了有效改善小樣本學(xué)習(xí)環(huán)境下細(xì)粒度結(jié)構(gòu)學(xué)習(xí)，Luo 等人[80]在2021 年提出了用于基于度量元學(xué)習(xí)的視圖可學(xué)習(xí)對(duì)比學(xué)習(xí)方法（view-learnable contrastive learning，VLCL），將對(duì)比學(xué)習(xí)的隨機(jī)圖像變換替換為空間變換網(wǎng)絡(luò)（spatial transformation network，STN），這是一個(gè)允許對(duì)圖像進(jìn)行靈活空間操作的學(xué)習(xí)模塊，并開(kāi)發(fā)了一種學(xué)習(xí)到學(xué)習(xí)的算法來(lái)自適應(yīng)地生成同一圖像的不同視圖。

2021 年Liu 等人[81]提出通過(guò)對(duì)比學(xué)習(xí)來(lái)嵌入模型學(xué)習(xí)的方法Infopatch，并被擴(kuò)展用于小樣本學(xué)習(xí)的任務(wù)。InfoPatch 利用源類(lèi)信息構(gòu)建正負(fù)對(duì)的算法，對(duì)于每個(gè)查詢(xún)實(shí)例，可以使用所有支持實(shí)例構(gòu)造正例和負(fù)例。為了找到更多信息對(duì)來(lái)訓(xùn)練良好的嵌入，Liu 等人提出了生成困難實(shí)例的策略。直觀地說(shuō)，人類(lèi)只能依靠圖像的一部分來(lái)識(shí)別物體，即使是圖像的其他部分是不可觀察的。強(qiáng)制執(zhí)行這種直覺(jué)以幫助在FSL 中構(gòu)建對(duì)比學(xué)習(xí)算法。

對(duì)比學(xué)習(xí)提出通過(guò)帶有標(biāo)簽信息的自監(jiān)督表示學(xué)習(xí)來(lái)代替交叉熵?fù)p失。Lee 等人[82]也使用監(jiān)督對(duì)比學(xué)習(xí)來(lái)增強(qiáng)小樣本學(xué)習(xí)，稱(chēng)為SPTA。Lee 研究發(fā)現(xiàn)，在第一個(gè)訓(xùn)練階段，監(jiān)督對(duì)比損失而不是簡(jiǎn)單的交叉熵?fù)p失，大大提高了最終分類(lèi)的準(zhǔn)確性，尤其是在數(shù)據(jù)集不大的情況下。在小樣本學(xué)習(xí)的第一階段，將監(jiān)督對(duì)比學(xué)習(xí)應(yīng)用于預(yù)訓(xùn)練。特征提取器使用監(jiān)督對(duì)比損失進(jìn)行訓(xùn)練，然后進(jìn)行微調(diào)，而分類(lèi)器使用TIM 損失進(jìn)行適應(yīng)。

Lu 等人[83]認(rèn)為小樣本學(xué)習(xí)方法依賴(lài)于用大量的標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練，使得無(wú)法利用豐富的無(wú)標(biāo)記數(shù)據(jù)。從信息論的角度來(lái)看，提出了一種有效的無(wú)監(jiān)督FSL 方法UniSiam，通過(guò)自我監(jiān)督來(lái)學(xué)習(xí)表征。在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。與有監(jiān)督的預(yù)訓(xùn)練相比，自監(jiān)督的預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。它學(xué)習(xí)全面的表征，而不是關(guān)于基本類(lèi)別的最有鑒別力的表征。有監(jiān)督的預(yù)訓(xùn)練和自我監(jiān)督的預(yù)訓(xùn)練實(shí)際上是在最大化不同的相互信息目標(biāo)。自監(jiān)督預(yù)訓(xùn)練最大化了同一實(shí)例的增強(qiáng)視圖的表征之間的相互信息。

表5 選取了Mini-ImageNet（test）、Tiered-ImageNet（test）和Omniglot 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考。由表5 可以看出，無(wú)監(jiān)督小樣本的研究相比有監(jiān)督和半監(jiān)督發(fā)展較為緩慢，但對(duì)比學(xué)習(xí)下的SPTA 和InfoPatch 表現(xiàn)了較好的性能。同樣在每個(gè)數(shù)據(jù)集上，5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet（test）和Tiered-ImageNet（test）數(shù)據(jù)集上，在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了70%和80%左右，無(wú)監(jiān)督的小樣本學(xué)習(xí)在此數(shù)據(jù)集上還有較大的提升空間。Omniglot數(shù)據(jù)集在1-shot和5-shot上分別達(dá)到了94%和98%的準(zhǔn)確率，可提升空間較小。如表6 所示，通過(guò)無(wú)監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析，發(fā)現(xiàn)其核心在于充分利用數(shù)據(jù)增強(qiáng)的方法，實(shí)現(xiàn)方法各不相同，均取得了較好的實(shí)驗(yàn)結(jié)果。隨之而來(lái)的是數(shù)據(jù)增強(qiáng)手段帶來(lái)了缺陷，如引入噪聲等。

表5 無(wú)監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 5 Accuracy comparison of unsupervised few-shot image classification methods 單位：%

表6 無(wú)監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 6 Comparative analysis of unsupervised few-shot image classification methods

5 小樣本圖像分類(lèi)挑戰(zhàn)與未來(lái)方向

隨著計(jì)算機(jī)硬件以及深度學(xué)習(xí)算法的發(fā)展，基于深度學(xué)習(xí)的人工智能算法在各行各業(yè)起到至關(guān)重要的作用，但是在許多領(lǐng)域中樣本量很少或者標(biāo)記樣本很少，并且樣本的標(biāo)注耗費(fèi)大量的人力物力。近年來(lái)小樣本圖像分類(lèi)已經(jīng)得到越來(lái)越深入的研究和發(fā)展，且產(chǎn)生較好的效果，但是與人類(lèi)的準(zhǔn)確率相比仍然有不小的差距。下面列舉了一些當(dāng)下小樣本圖像分類(lèi)面臨的困難。

5.1 小樣本圖像分類(lèi)方法總結(jié)

小樣本圖像分類(lèi)各方法的機(jī)制以及優(yōu)缺點(diǎn)對(duì)比如表7 所示。有監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要有度量學(xué)習(xí)方法、元學(xué)習(xí)方法和數(shù)據(jù)增強(qiáng)方法。度量學(xué)習(xí)模擬樣本間距離分布，采用非參估計(jì)方法進(jìn)行分類(lèi)，優(yōu)勢(shì)是便于理解并且直觀，便于計(jì)算和公式化，但采用較為簡(jiǎn)單的距離來(lái)衡量相似度的方法準(zhǔn)確率會(huì)有所降低。元學(xué)習(xí)方法通過(guò)優(yōu)化模型的參數(shù)或?qū)W習(xí)算法來(lái)加速網(wǎng)絡(luò)學(xué)習(xí)，使模型具有學(xué)習(xí)能力，能夠?qū)W習(xí)到一些訓(xùn)練過(guò)程之外的知識(shí)，但元學(xué)習(xí)器設(shè)計(jì)困難，復(fù)雜度較高，泛化性也不理想。數(shù)據(jù)增強(qiáng)方法為小樣本圖像分類(lèi)數(shù)據(jù)集生成新數(shù)據(jù)，不需要對(duì)模型進(jìn)行調(diào)整，只需利用輔助數(shù)據(jù)或者輔助信息擴(kuò)充數(shù)據(jù)或增強(qiáng)特征，但在進(jìn)行數(shù)據(jù)增強(qiáng)時(shí)可能會(huì)引入噪聲數(shù)據(jù)或者特征，對(duì)分類(lèi)效果產(chǎn)生負(fù)面影響。半監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要有一致性約束方法和偽標(biāo)注方法。一致性約束方法基于低密度可分假設(shè)，相同類(lèi)別的樣本形成高密度，分類(lèi)超平面如果位于高密度區(qū)，會(huì)約束每個(gè)訓(xùn)練樣本經(jīng)過(guò)數(shù)據(jù)擾動(dòng)之后，網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對(duì)應(yīng)的輸出一致，需要保持所有訓(xùn)練樣本的歷史類(lèi)別預(yù)測(cè)值，故具有較大的存儲(chǔ)開(kāi)銷(xiāo)。偽標(biāo)注方法為無(wú)標(biāo)注樣本賦予“偽標(biāo)簽”，然后結(jié)合原始有標(biāo)注數(shù)據(jù)一起進(jìn)行有監(jiān)督訓(xùn)練，但會(huì)涉及到高計(jì)算復(fù)雜度的矩陣計(jì)算，同時(shí)不能與特征學(xué)習(xí)部分一起進(jìn)行端到端的訓(xùn)練。無(wú)監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要分為基于預(yù)置任務(wù)的無(wú)監(jiān)督和對(duì)比學(xué)習(xí)。預(yù)置任務(wù)下多數(shù)方法均為基于聚類(lèi)的思想，利用得到的特征進(jìn)行聚類(lèi)，轉(zhuǎn)化成有監(jiān)督小樣本問(wèn)題來(lái)解決，目標(biāo)樣本在特征空間里展示出很好的聚類(lèi)結(jié)果，只利用少量的標(biāo)注樣本即可獲得不錯(cuò)的分類(lèi)模型。普通的無(wú)監(jiān)督預(yù)訓(xùn)練獲得的特征的表達(dá)能力不夠好，無(wú)法形成更好的類(lèi)簇。對(duì)比學(xué)習(xí)方法通過(guò)自我監(jiān)督來(lái)學(xué)習(xí)表征，在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)，學(xué)習(xí)全面的表征，是較為新型且有效的方法，但有待進(jìn)一步研究擴(kuò)展。

表7 小樣本圖像分類(lèi)各方法機(jī)制及優(yōu)缺點(diǎn)對(duì)比Table 7 Comparison of mechanisms and advantages and disadvantages of few-shot image classification methods

5.2 小樣本圖像分類(lèi)挑戰(zhàn)

（1）深度學(xué)習(xí)的可解釋性

神經(jīng)網(wǎng)絡(luò)模型被廣泛地應(yīng)用到小樣本學(xué)習(xí)等領(lǐng)域，隨著大量研究者參與，特征提取等卷積神經(jīng)網(wǎng)絡(luò)模型日漸復(fù)雜。深度學(xué)習(xí)模型本身是一個(gè)黑盒模型，有許多結(jié)構(gòu)和特點(diǎn)：第一個(gè)特點(diǎn)就是神經(jīng)元多并且參數(shù)眾多；第二個(gè)特點(diǎn)是結(jié)構(gòu)分層，且隱含層眾多；第三個(gè)特點(diǎn)是神經(jīng)網(wǎng)絡(luò)的參數(shù)對(duì)應(yīng)的特征不是人工設(shè)計(jì)的，是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中自己進(jìn)行選擇的。研究者無(wú)法得知神經(jīng)網(wǎng)絡(luò)模型到底學(xué)習(xí)了什么，也不知道每一個(gè)參數(shù)的具體含義是什么，因此無(wú)法解釋整個(gè)模型的運(yùn)作機(jī)制，無(wú)法得出明確而有針對(duì)性的優(yōu)化方案來(lái)解決問(wèn)題，只能通過(guò)大量實(shí)驗(yàn)不斷地嘗試提高性能的方法。因此一個(gè)好的可解釋性工作對(duì)小樣本甚至任何研究方向都有指導(dǎo)作用。

（2）數(shù)據(jù)集的挑戰(zhàn)

現(xiàn)有的小樣本學(xué)習(xí)模型都需要在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練。圖像分類(lèi)任務(wù)中目前僅有ImageNet 作為預(yù)訓(xùn)練數(shù)據(jù)集，而文本分類(lèi)中缺少類(lèi)似的預(yù)訓(xùn)練數(shù)據(jù)集，導(dǎo)致很多小樣本圖像分類(lèi)方法缺少普適性，只適合在特定的數(shù)據(jù)集上發(fā)揮好的結(jié)果。在小樣本圖像分類(lèi)任務(wù)中Mini-ImageNet 和Omniglot 是兩個(gè)被廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集，最近的斯坦福犬[84]和CUB 細(xì)粒度分類(lèi)等數(shù)據(jù)集也開(kāi)始被人們用于測(cè)試，但并沒(méi)有ImageNet數(shù)據(jù)集使用廣泛。

（3）模型預(yù)訓(xùn)練的挑戰(zhàn)

在已有的小樣本學(xué)習(xí)方法中，不管是基于模型微調(diào)的方法還是基于遷移學(xué)習(xí)的方法，都需要在大量的非目標(biāo)數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練，致使小樣本學(xué)習(xí)一定程度上變成偽命題。因?yàn)槟Ｐ偷念A(yù)訓(xùn)練依舊需要大量標(biāo)注數(shù)據(jù)，從本質(zhì)上來(lái)看與小樣本學(xué)習(xí)的定義背道而馳。從根本上解決小樣本問(wèn)題，就要做到不依賴(lài)預(yù)訓(xùn)練模型，需研究利用其他先驗(yàn)知識(shí)而非模型預(yù)訓(xùn)練的方法。

（4）其他挑戰(zhàn)

在小樣本圖像分類(lèi)中，將各種基于深度學(xué)習(xí)的算法技術(shù)有效地結(jié)合起來(lái)，以產(chǎn)生更好的效果。例如，將元學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合，在進(jìn)行特征提取之前，通過(guò)元學(xué)習(xí)預(yù)處理數(shù)據(jù)，設(shè)置更加合理的支持集和查詢(xún)集。雖然已經(jīng)有研究者開(kāi)始嘗試，但是想實(shí)現(xiàn)這樣的效果卻十分困難，幾個(gè)學(xué)習(xí)算法的相互結(jié)合，有時(shí)候反而會(huì)導(dǎo)致小樣本學(xué)習(xí)的性能下降。

5.3 小樣本圖像分類(lèi)未來(lái)發(fā)展方向

通過(guò)對(duì)當(dāng)前小樣本圖像分類(lèi)研究進(jìn)展進(jìn)行總結(jié)，以展望未來(lái)小樣本學(xué)習(xí)的發(fā)展方向。

（1）在數(shù)據(jù)層面訓(xùn)練模型時(shí)嘗試?yán)闷渌闰?yàn)知識(shí)，或更好地利用無(wú)標(biāo)注數(shù)據(jù)。探索和發(fā)現(xiàn)不依賴(lài)模型預(yù)訓(xùn)練，使用先驗(yàn)知識(shí)就能取得較好結(jié)果的方法。雖然在諸多領(lǐng)域中標(biāo)注樣本數(shù)量較少，但在真實(shí)世界中存在大量無(wú)標(biāo)注數(shù)據(jù)，并蘊(yùn)含著大量信息，利用無(wú)標(biāo)注數(shù)據(jù)的信息訓(xùn)練模型值得更加深入研究。

（2）對(duì)度量學(xué)習(xí)提出更有效的神經(jīng)網(wǎng)絡(luò)度量方法。度量學(xué)習(xí)在小樣本學(xué)習(xí)中的應(yīng)用已經(jīng)相對(duì)成熟，但是基于距離函數(shù)的靜態(tài)度量方法改進(jìn)空間較少，使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行樣本相似度計(jì)算可能成為度量方法的主流。因此研究如何設(shè)計(jì)性能更好的神經(jīng)網(wǎng)絡(luò)度量算法，以提高實(shí)驗(yàn)的準(zhǔn)確率。在網(wǎng)絡(luò)上提取圖像特征時(shí)進(jìn)行更有針對(duì)性的處理，例如使得特征向量之間相互垂直，采用掩碼恢復(fù)等方式，以便于后面的相似度區(qū)分。

（3）元學(xué)習(xí)作為小樣本學(xué)習(xí)的熱點(diǎn)研究方向之一，元學(xué)習(xí)模型還繼續(xù)有待提升。如何設(shè)計(jì)元學(xué)習(xí)器使其學(xué)習(xí)到更多有用的信息或更有效的元知識(shí)，也將是今后一個(gè)重要的研究方向。

（4）對(duì)比學(xué)習(xí)通過(guò)自動(dòng)構(gòu)造相似實(shí)例和不相似實(shí)例，習(xí)得一個(gè)表示學(xué)習(xí)模型，通過(guò)此模型，使得相似的實(shí)例在投影空間中比較接近，而不相似的實(shí)例在投影空間中距離比較遠(yuǎn)。將對(duì)比學(xué)習(xí)與小樣本學(xué)習(xí)有效地結(jié)合來(lái)達(dá)到更好的性能，是值得研究發(fā)展的方向。

（5）隨著主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)框架的興起，可以考慮將這些先進(jìn)框架應(yīng)用到小樣本學(xué)習(xí)。主動(dòng)學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種主要研究范式，它專(zhuān)注于為未標(biāo)記的實(shí)例請(qǐng)求標(biāo)簽，從而最大限度地提高性能。主動(dòng)學(xué)習(xí)旨在使數(shù)據(jù)標(biāo)記成為學(xué)習(xí)過(guò)程的一部分，以便模型選擇樣本進(jìn)行標(biāo)記。

（6）通過(guò)注意力機(jī)制來(lái)提高小樣本圖像分類(lèi)準(zhǔn)確率。注意力機(jī)制的提出，實(shí)際上就是讓神經(jīng)網(wǎng)絡(luò)能夠模仿人類(lèi)，關(guān)注圖像中更加重要的特征信息，與小樣本學(xué)習(xí)的思想十分貼合。這種做法將神經(jīng)網(wǎng)絡(luò)原有的為圖像平均分配資源的方式，改為根據(jù)圖像的重要程度分配資源的方式。重要的信息權(quán)重高，不重要的信息權(quán)重低，從而能夠更快、更準(zhǔn)確地對(duì)圖像進(jìn)行分類(lèi)。

（7）嘗試更多小樣本學(xué)習(xí)方法的結(jié)合?，F(xiàn)有小樣本學(xué)習(xí)大多數(shù)基于某個(gè)方法的研究，今后可以嘗試將各個(gè)方法進(jìn)行結(jié)合，例如度量學(xué)習(xí)與元學(xué)習(xí)的結(jié)合、度量學(xué)習(xí)與注意力機(jī)制的結(jié)合或者元學(xué)習(xí)與對(duì)比學(xué)習(xí)等方法的結(jié)合，以達(dá)到更好的效果。

6 總結(jié)

本文首先介紹了小樣本學(xué)習(xí)的研究背景和問(wèn)題定義；然后介紹了用于小樣本學(xué)習(xí)的常用算法，以及小樣本圖像分類(lèi)在有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督下的技術(shù)發(fā)展；最后總結(jié)了小樣本圖像分類(lèi)的挑戰(zhàn)和未來(lái)發(fā)展方向。小樣本學(xué)習(xí)領(lǐng)域目前仍然具有很多值得研究者們?nèi)ネ黄频姆较?。小樣本學(xué)習(xí)在與常規(guī)學(xué)習(xí)相比較時(shí)，性能仍然存在一定的差距，因此還需要研究者們繼續(xù)探索。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放