亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小樣本圖像分類(lèi)研究綜述

        2023-03-10 00:10:20安勝彪郭昱岐白宇王騰博
        計(jì)算機(jī)與生活 2023年3期
        關(guān)鍵詞:度量分類(lèi)樣本

        安勝彪,郭昱岐,白宇,王騰博

        河北科技大學(xué) 信息科學(xué)與工程學(xué)院,石家莊050018

        大規(guī)模標(biāo)注數(shù)據(jù)集是深度學(xué)習(xí)成功的必要條件之一[1-4]。在現(xiàn)實(shí)世界的真實(shí)場(chǎng)景中,許多領(lǐng)域并不具有獲得大規(guī)模數(shù)據(jù)集的條件,這對(duì)于工作開(kāi)展十分不便。也有一些領(lǐng)域,涉及到隱私、成本、道德等問(wèn)題,也很難獲得高質(zhì)量數(shù)據(jù)。例如,在醫(yī)療診斷領(lǐng)域,醫(yī)學(xué)圖像的來(lái)源是病例,而病例會(huì)因?yàn)殡[私等問(wèn)題獲取難度較大;在半導(dǎo)體芯片缺陷檢測(cè)領(lǐng)域,會(huì)面臨半導(dǎo)體芯片的型號(hào)不同和缺陷數(shù)據(jù)較少等問(wèn)題。

        為了解決諸多領(lǐng)域中數(shù)據(jù)有限和獲取難度較大的問(wèn)題,小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)[5-8]方法被提出。小樣本學(xué)習(xí)是指在訓(xùn)練類(lèi)別樣本較少的情況下,進(jìn)行相關(guān)的學(xué)習(xí)任務(wù)。機(jī)器通過(guò)學(xué)習(xí)大量的基類(lèi)(base class)后,僅僅需要少量樣本就能快速學(xué)習(xí)到新類(lèi)(new class)。通常情況下,小樣本學(xué)習(xí)能夠利用類(lèi)別中的少量樣本,即一個(gè)或者幾個(gè)樣本進(jìn)行學(xué)習(xí)。例如,一個(gè)小朋友去動(dòng)物園并沒(méi)有見(jiàn)過(guò)“黃鶯”這個(gè)動(dòng)物,但是閱讀過(guò)有關(guān)動(dòng)物書(shū)籍,書(shū)籍上有“黃鶯”的信息,通過(guò)學(xué)習(xí)書(shū)上的內(nèi)容,小朋友就知道動(dòng)物園中哪個(gè)動(dòng)物是“黃鶯”。這是因?yàn)槿藗兛梢愿咝У乩靡酝南闰?yàn)知識(shí),對(duì)現(xiàn)在的任務(wù)快速理解。人們這種快速理解新事物的能力,也是當(dāng)前深度學(xué)習(xí)難以具備的。本文針對(duì)小樣本圖像分類(lèi)問(wèn)題介紹小樣本學(xué)習(xí)的相關(guān)技術(shù),主要是介紹小樣本圖像分類(lèi)。小樣本圖像分類(lèi)的最終目的是達(dá)到人類(lèi)的水平[9]。

        小樣本圖像分類(lèi)問(wèn)題建模如圖1 所示。圖中將任務(wù)劃分為兩部分,訓(xùn)練集(training set)也叫作支持集(support set),其中分為N個(gè)數(shù)據(jù)類(lèi)別,每N個(gè)數(shù)據(jù)類(lèi)別包括K個(gè)樣本,簡(jiǎn)稱(chēng)為N-wayK-shot 問(wèn)題。測(cè)試集(test set)也叫作查詢(xún)集(query set),查詢(xún)集的類(lèi)別屬于支持集中的類(lèi)別。解決N-wayK-shot小樣本圖像分類(lèi)問(wèn)題,首先從輔助的數(shù)據(jù)集學(xué)習(xí)先驗(yàn)知識(shí)[10],再在標(biāo)注有限的目標(biāo)數(shù)據(jù)集上利用已經(jīng)學(xué)習(xí)的先驗(yàn)知識(shí)進(jìn)行圖像分類(lèi)和預(yù)測(cè)。

        圖1 小樣本圖像分類(lèi)示例Fig.1 Few-shot image classification example

        目前已經(jīng)有一些關(guān)于小樣本學(xué)習(xí)各方面的綜述。趙凱琳等人[11]從基于模型微調(diào)、數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)的三個(gè)方向來(lái)介紹小樣本學(xué)習(xí)的方法,并且進(jìn)行了歸納總結(jié);劉春磊等人[12]將小樣本學(xué)習(xí)方法歸納為基于遷移學(xué)習(xí)的范式和基于元學(xué)習(xí)的范式,再按照改進(jìn)策略的不同進(jìn)行小樣本目標(biāo)檢測(cè)綜述介紹;張振偉等人[13]從基于度量學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、模型結(jié)構(gòu)、元學(xué)習(xí)等六方面對(duì)小樣本目標(biāo)檢測(cè)方法進(jìn)行了總結(jié)分析。綜合近些年小樣本學(xué)習(xí)發(fā)展,元學(xué)習(xí)、度量學(xué)習(xí)和數(shù)據(jù)增強(qiáng)等深度學(xué)習(xí)方法已經(jīng)逐漸成為解決小樣本圖像處理的主流方法。隨著無(wú)監(jiān)督學(xué)習(xí)[14]、半監(jiān)督學(xué)習(xí)[15]和主動(dòng)學(xué)習(xí)[16]的興起和發(fā)展,很多研究者也將其應(yīng)用到小樣本圖像分類(lèi)問(wèn)題中。與這些綜述[11-13]不同,本文首先將這些方法分為有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督三種范式,如圖2 所示,再按照各種情況的不同方法,從度量學(xué)習(xí)、元學(xué)習(xí)、偽標(biāo)注、對(duì)比學(xué)習(xí)等角度進(jìn)行歸納總結(jié),對(duì)比分析了這些方法的性能表現(xiàn),并總結(jié)了各自的核心思想以及使用領(lǐng)域。

        圖2 小樣本圖像分類(lèi)方法Fig.2 Few-shot image classification methods

        1 小樣本圖像分類(lèi)框架及其數(shù)據(jù)集介紹

        1.1 符號(hào)和定義

        在標(biāo)準(zhǔn)FSL 場(chǎng)景中,一般需要建立兩個(gè)數(shù)據(jù)集:一個(gè)帶有Cbase類(lèi)的基集和一個(gè)帶有Cnovel類(lèi)的新集,其中Cbase∩Cnovel=?。Cbase是一個(gè)輔助數(shù)據(jù)集,目的是通過(guò)遷移學(xué)習(xí)來(lái)訓(xùn)練分類(lèi)器。Cnovel是執(zhí)行任務(wù)分類(lèi)的數(shù)據(jù)集。訓(xùn)練通常在Cbase類(lèi)上進(jìn)行,其目標(biāo)是將學(xué)到的知識(shí)遷移到基于Cnovel構(gòu)建的新任務(wù)中。在測(cè)試期間,需要為每個(gè)任務(wù)都建立一個(gè)支持集S和一個(gè)查詢(xún)集Q。支持集S包含N個(gè)類(lèi),每個(gè)類(lèi)有K個(gè)圖像。查詢(xún)集Q包括N×Q個(gè)未標(biāo)記的圖像。在大多數(shù)文獻(xiàn)中,N設(shè)置為5,K設(shè)置為1 或5。

        1.2 小樣本圖像分類(lèi)方法

        針對(duì)小樣本圖像分類(lèi)任務(wù),現(xiàn)有的基于小樣本圖像分類(lèi)方法可以總結(jié)以下三類(lèi):(1)元學(xué)習(xí)[17];(2)度量學(xué)習(xí)[18];(3)數(shù)據(jù)增強(qiáng)[19-25]。

        1.2.1 元學(xué)習(xí)

        元學(xué)習(xí)也稱(chēng)為learn to learn,利用以往的知識(shí)經(jīng)驗(yàn)指導(dǎo)新任務(wù)的學(xué)習(xí),被廣泛應(yīng)用在小樣本學(xué)習(xí)中。元學(xué)習(xí)通過(guò)既有數(shù)據(jù)集和元學(xué)習(xí)器跨任務(wù)提取的元知識(shí)來(lái)解決新任務(wù)。具體來(lái)說(shuō),元學(xué)習(xí)器逐步學(xué)習(xí)跨任務(wù)的通用信息(元知識(shí)),并且學(xué)習(xí)器使用特定于任務(wù)的信息將元學(xué)習(xí)器概括為新任務(wù)。

        如圖3 所示,在小樣本學(xué)習(xí)中元學(xué)習(xí)將數(shù)據(jù)集劃分為訓(xùn)練任務(wù)和測(cè)試任務(wù)。在訓(xùn)練階段,通過(guò)對(duì)已有的數(shù)據(jù)進(jìn)行隨機(jī)采樣,區(qū)分出支持集和查詢(xún)集,從而構(gòu)造出多個(gè)不同的元任務(wù)。其中支持集用于訓(xùn)練,查詢(xún)集用于驗(yàn)證訓(xùn)練階段的分類(lèi)是否正確。之后,在測(cè)試階段,對(duì)訓(xùn)練階段未見(jiàn)過(guò)的小樣本數(shù)據(jù)集也做相同數(shù)據(jù)劃分,便可以在訓(xùn)練好的模型上直接對(duì)小樣本查詢(xún)集進(jìn)行判別。圖3 中,對(duì)于各種鳥(niǎo)類(lèi)的小樣本分類(lèi)問(wèn)題,可以利用已有的各種鳥(niǎo)類(lèi)數(shù)據(jù),通過(guò)采樣構(gòu)造支持集和查詢(xún)集,訓(xùn)練小樣本模型。測(cè)試階段,對(duì)于黃雀和海鷗等未知鳥(niǎo)類(lèi),用同樣的采樣方法區(qū)分出支持集和查詢(xún)集,之后提取圖像特征,并計(jì)算支持集和查詢(xún)集特征的距離或相似度。對(duì)于一個(gè)小樣本分類(lèi)任務(wù),元學(xué)習(xí)不會(huì)直接學(xué)習(xí)如何做到這件事情,它要做的是去學(xué)習(xí)一些相似的任務(wù),在這些任務(wù)中有足夠的知識(shí)或樣本來(lái)學(xué)習(xí),當(dāng)學(xué)習(xí)了很多這樣的任務(wù)之后,元學(xué)習(xí)模型便學(xué)會(huì)了舉一反三,之后用這個(gè)分類(lèi)任務(wù)來(lái)測(cè)試元學(xué)習(xí)模型,只要模型在之前的訓(xùn)練中已經(jīng)具備了足夠好的舉一反三的能力,那么模型就可以完成任務(wù)。

        圖3 通過(guò)元學(xué)習(xí)解決少鏡頭圖像分類(lèi)問(wèn)題Fig.3 Solving few-shot image classification via meta-learning

        1.2.2 度量學(xué)習(xí)

        度量學(xué)習(xí)是解決小樣本圖像分類(lèi)最常用也是很有效的方法之一。度量學(xué)習(xí)可以解釋為是一種空間映射的方法,能夠?qū)W習(xí)到某種特征空間。在小樣本圖像分類(lèi)中,可以理解為將數(shù)據(jù)轉(zhuǎn)換成特征向量。度量學(xué)習(xí)也指相似度學(xué)習(xí),衡量在嵌入空間中兩個(gè)目標(biāo)特征或者多個(gè)相似度或者距離,相同的類(lèi)特征距離較近,反之不同的類(lèi)特征距離較遠(yuǎn)。

        度量學(xué)習(xí)的小樣本圖像分類(lèi)方法,如圖4 所示。度量學(xué)習(xí)網(wǎng)絡(luò)主要由嵌入模塊f(特征提取器)和度量模塊g(分類(lèi)器)兩部分組成。首先將樣本分為支持集和測(cè)試集,將圖像輸入嵌入模塊f獲得特征,并且以一定的規(guī)則計(jì)算得到支持集圖像中每類(lèi)的中心特征,以這些中心特征作為支持集中各類(lèi)圖像的代表,再使用度量模塊g求得與查詢(xún)集中樣本最近的中心特征,將這個(gè)中心特征所屬的類(lèi)別標(biāo)簽作為該查詢(xún)集樣本的預(yù)測(cè)標(biāo)簽。最終根據(jù)相似度得分獲得分類(lèi)結(jié)果。

        圖4 度量學(xué)習(xí)算法流程圖Fig.4 Metric learning algorithm flowchart

        通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)等方法來(lái)實(shí)現(xiàn)特征的提取。度量分類(lèi)器可以使用基于布雷格曼散度的歐氏距離、馬氏距離和余弦距離的固定度量方法或者基于深度神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)度量方式[26]。基于度量學(xué)習(xí)的小樣本圖像分類(lèi)方法的性能取決于兩方面:一方面是特征提取器和分類(lèi)器的性能;另一方面是特征與分類(lèi)器的匹配程度。因此,如何設(shè)計(jì)一個(gè)小樣本條件下表達(dá)能力強(qiáng)的特征提取器,并使提取的特征與分類(lèi)器的要求相匹配,對(duì)于提升網(wǎng)絡(luò)的分類(lèi)性能十分重要。

        1.2.3 數(shù)據(jù)增強(qiáng)

        數(shù)據(jù)增強(qiáng)又稱(chēng)為數(shù)據(jù)擴(kuò)充,通過(guò)增加既有數(shù)據(jù)的多樣性,而不是實(shí)際收集新數(shù)據(jù)來(lái)緩解數(shù)據(jù)稀缺問(wèn)題?;谠鰪V數(shù)據(jù)集,可以明顯降低過(guò)度擬合[27]的風(fēng)險(xiǎn),有效地增強(qiáng)模型的泛化能力。數(shù)據(jù)增強(qiáng)方法可以分為基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充和基于深度生成模型的數(shù)據(jù)擴(kuò)充。

        基于數(shù)據(jù)扭曲的數(shù)據(jù)擴(kuò)充:數(shù)據(jù)扭曲是一種通過(guò)基于現(xiàn)有數(shù)據(jù)執(zhí)行基本圖像操作來(lái)生成新樣本的方法。常用的變換技術(shù)包括裁剪、翻轉(zhuǎn)、過(guò)濾、旋轉(zhuǎn)和去噪。這些轉(zhuǎn)換較容易實(shí)現(xiàn),以增加數(shù)據(jù)規(guī)模。然而,這些方法均無(wú)法生成新的語(yǔ)義信息來(lái)增加數(shù)據(jù)的多樣性,并且數(shù)據(jù)增強(qiáng)方法對(duì)提高模型性能的效果有限。因此,這種方法不能完全解決樣本限制問(wèn)題,通常被用作數(shù)據(jù)預(yù)處理的輔助技術(shù)。

        基于深度生成模型的數(shù)據(jù)擴(kuò)充:深度生成模型可用于學(xué)習(xí)目標(biāo)圖像上豐富的概率分布,并生成具有變化的新樣本。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)28]是生成模型中較有代表性的一類(lèi),是由Goodfellow 等人于2014 年提出來(lái)的一種新穎的生成模型框架。GAN包含生成器(generator,G)和判別器(discriminator,D)兩個(gè)神經(jīng)網(wǎng)絡(luò)。訓(xùn)練G和D的過(guò)程可以看作是造假團(tuán)隊(duì)G與警察團(tuán)隊(duì)D之間的一種相互博弈。造假團(tuán)隊(duì)G的目標(biāo)是生成以假亂真的圖片,而警察團(tuán)隊(duì)D的目標(biāo)是判別圖片的真假。兩者通過(guò)不斷地對(duì)抗來(lái)提高自己的水平[29]。直到警察團(tuán)隊(duì)D無(wú)法判別圖像真假時(shí),說(shuō)造假團(tuán)隊(duì)G能夠生成騙過(guò)警察團(tuán)隊(duì)D的圖像。

        生成對(duì)抗網(wǎng)絡(luò)的基本模型如圖5 所示。

        圖5 生成式對(duì)抗網(wǎng)絡(luò)Fig.5 Generative adversarial network

        生成式對(duì)抗網(wǎng)絡(luò)巧妙地利用了博弈的思想,將圖像生成任務(wù)轉(zhuǎn)化為最大最小化目標(biāo)函數(shù)的優(yōu)化問(wèn)題。進(jìn)一步地,又轉(zhuǎn)化為兩個(gè)神經(jīng)網(wǎng)絡(luò)采取梯度下降方法交替訓(xùn)練的問(wèn)題。

        無(wú)論是基于數(shù)據(jù)扭曲還是基于深度生成模型,數(shù)據(jù)增強(qiáng)的手段都是來(lái)增加小樣本數(shù)據(jù),緩解小樣本分類(lèi)中因?yàn)槿狈?shù)據(jù)導(dǎo)致分類(lèi)率低的問(wèn)題。采用數(shù)據(jù)增強(qiáng)的思路來(lái)解決小樣本學(xué)習(xí)問(wèn)題是人們最常用、最簡(jiǎn)單的一種方式,并且這種方式相對(duì)來(lái)說(shuō)方式較為靈活,選擇也很多?;跀?shù)據(jù)增強(qiáng)的小樣本圖像分類(lèi)研究具有普遍通用性,是不可或缺的。

        1.3 小樣本圖像分類(lèi)數(shù)據(jù)集

        本節(jié)介紹了用于小樣本圖像分類(lèi)的公共數(shù)據(jù)集,如圖6 所示。下面列出了數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)和常用實(shí)驗(yàn)設(shè)置。

        圖6 小樣本學(xué)習(xí)通用數(shù)據(jù)集Fig.6 Few-shot learning general dataset

        Mini-ImageNet[30]:Mini-ImageNet數(shù)據(jù)集是另一個(gè)廣泛使用的數(shù)據(jù)集。它由ImageNet 中選擇的100個(gè)類(lèi)組成,每個(gè)類(lèi)有600 張圖像。該數(shù)據(jù)集最初由Vinyals 等人提出,但最近的研究遵循Ravi 和Larochelle 提供的實(shí)驗(yàn)設(shè)置,將100 個(gè)類(lèi)分為64 個(gè)基類(lèi)、16 個(gè)驗(yàn)證類(lèi)和20 個(gè)測(cè)試類(lèi)。

        Tiered-ImageNet[31]:與Mini-ImageNet 一樣,它是ILSVRC-12的子集,但Tiered-ImageNet代表了ILSVRC-12 的更大子集(608 個(gè)類(lèi),而Mini-ImageNet 則為100個(gè)類(lèi))。類(lèi)似于將字符分組為字母的Omniglot,Tiered-ImageNet 將類(lèi)別分為與ImageNet 層次結(jié)構(gòu)中較高級(jí)別的節(jié)點(diǎn)相對(duì)應(yīng)的更廣泛的類(lèi)別,共有34 個(gè)大類(lèi)別,每個(gè)類(lèi)別包含10 到30 個(gè)小類(lèi)別。數(shù)據(jù)集分為20 個(gè)基類(lèi)、6 個(gè)驗(yàn)證類(lèi)和8 個(gè)測(cè)試類(lèi)。

        CIFAR-FS[32]:CIFAR-Fewshot數(shù)據(jù)集建立在CIFAR-100 之上,包含100 個(gè)類(lèi),每個(gè)類(lèi)600 張圖像。數(shù)據(jù)集劃分為64個(gè)基類(lèi)、16個(gè)驗(yàn)證類(lèi)和20個(gè)測(cè)試類(lèi)。

        CUB-200[33]:CUB-200數(shù)據(jù)集全稱(chēng)為Caltech-UCSD Birds-200-2011 數(shù)據(jù)集。CUB 數(shù)據(jù)集是一個(gè)細(xì)粒度的鳥(niǎo)類(lèi)分類(lèi)數(shù)據(jù)集,共包含200 個(gè)類(lèi)別和11 788 張圖像。數(shù)據(jù)集通常分為100 個(gè)基類(lèi)、50 個(gè)驗(yàn)證類(lèi)和50 個(gè)測(cè)試類(lèi)。

        Omniglot[34]:Omniglot數(shù)據(jù)集包含50個(gè)不同字母(語(yǔ)言的1 623 個(gè)不同手寫(xiě)字符)。每一個(gè)字符都是由20 個(gè)不同的人通過(guò)亞馬遜的Mechanical Turk在線繪制的。每個(gè)字符產(chǎn)生了20 幅圖像,相當(dāng)于1 623 個(gè)類(lèi),每類(lèi)20 個(gè)樣本。在實(shí)驗(yàn)時(shí),取1 200 個(gè)字符進(jìn)行訓(xùn)練,其余423 個(gè)字符進(jìn)行測(cè)試。此外,將每個(gè)圖像的大小調(diào)整為28×28 像素,并旋轉(zhuǎn)90°作為數(shù)據(jù)增強(qiáng)。

        2 有監(jiān)督小樣本圖像分類(lèi)

        2.1 基于元學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

        元學(xué)習(xí)在處理小樣本問(wèn)題時(shí)包括元訓(xùn)練(metatraining)和元測(cè)試(meta-testing)兩個(gè)階段。在元訓(xùn)練階段,如圖7 所示,基礎(chǔ)學(xué)習(xí)器將面對(duì)元學(xué)習(xí)器提供的許多個(gè)獨(dú)立的監(jiān)督任務(wù)T,任務(wù)之間所包含樣本的類(lèi)別不完全相同。在每一個(gè)任務(wù)內(nèi),從已有的基礎(chǔ)類(lèi)別集Cbase中隨機(jī)抽取N個(gè)類(lèi)別,從每類(lèi)樣本中抽取K個(gè)樣本(共N×K個(gè)樣本)組成支持集S作為基礎(chǔ)學(xué)習(xí)器的輸入,再?gòu)倪@N類(lèi)的剩余樣本中隨機(jī)抽取一批作為查詢(xún)集用于測(cè)試。

        圖7 元學(xué)習(xí)訓(xùn)練思想Fig.7 Meta-learning training ideas

        本節(jié)回顧了近年來(lái)用于小樣本圖像分類(lèi)的代表性有監(jiān)督元學(xué)習(xí)方法。調(diào)查研究發(fā)現(xiàn),小樣本元學(xué)習(xí)的一個(gè)主流方法是梯度迭代,通過(guò)迭代,獲得合適的模型,因此眾多研究基于迭代的研究思路展開(kāi)。

        MAML(multi-agent modeling language)由Finn等人[35]提出,將元學(xué)習(xí)應(yīng)用到小樣本圖像分類(lèi)。MAML的核心思想是梯度迭代。首先需要在源數(shù)據(jù)上將目標(biāo)設(shè)定好,每一個(gè)任務(wù)當(dāng)中的訓(xùn)練集只含有很少的標(biāo)注樣本信息,然后利用這些標(biāo)注樣本所訓(xùn)練的模型參數(shù)在測(cè)試集上面評(píng)估得到的監(jiān)督信息參數(shù)θ,并用監(jiān)督信息θ來(lái)訓(xùn)練原網(wǎng)絡(luò),使得模型學(xué)習(xí)到適配特征。整個(gè)過(guò)程通過(guò)梯度迭代優(yōu)化,前一步迭代優(yōu)化訓(xùn)練得到的模型,將會(huì)作為當(dāng)前迭代優(yōu)化的初始模型。訓(xùn)練完成后的模型具有對(duì)新訓(xùn)練的學(xué)習(xí)域分布最敏感的參數(shù)。正是通過(guò)這種優(yōu)化方式,可以從多次迭代優(yōu)化任務(wù)中獲得最貼合新任務(wù)的模型參數(shù),達(dá)到比較好的準(zhǔn)確率,并且對(duì)于學(xué)習(xí)相似任務(wù)的信息可以快速地泛化。Nichol 等人[36]提出的Reptile 模型基于MAML 模型,但Reptile 取消了內(nèi)層優(yōu)化僅更新一次的限制,梯度更新從二階轉(zhuǎn)化為一階,因此Reptile 有效節(jié)約了計(jì)算成本。針對(duì)MAML 的不足,Antoniou 等人[37]在2019 年提出MAML++模型。對(duì)于訓(xùn)練不穩(wěn)定問(wèn)題,Antoniou 等人提出多步損失優(yōu)化法,通過(guò)改善梯度傳播的方式緩解MAML 優(yōu)化過(guò)程中的不穩(wěn)定性。

        Meta-Learner LSTM 是一種基于LSTM(long shortterm memory)的元學(xué)習(xí)模型,用于學(xué)習(xí)作用于另一個(gè)學(xué)習(xí)的最優(yōu)化算法。LSTM 的作者Larochelle 等人[38]發(fā)現(xiàn)了更新規(guī)則與一般的梯度下降算法更新規(guī)則非常類(lèi)似,因此將LSTM 更新規(guī)則的輸入替換為其他的一系列參數(shù),用于更新Learner 的值。算法的主要貢獻(xiàn)是首次將序列優(yōu)化問(wèn)題進(jìn)行了規(guī)范化。使用LSTM 這樣的序列優(yōu)化模型,模型按照順序在不同的任務(wù)中交替訓(xùn)練,使得模型能夠通過(guò)少量樣例,從一個(gè)分類(lèi)任務(wù)快速遷移到另一個(gè)分類(lèi)任務(wù)中。但由于訓(xùn)練數(shù)據(jù)較少,LSTM 模型所需參數(shù)規(guī)模較大,算法實(shí)際在小樣本任務(wù)上的分類(lèi)效果并不是很好。

        基于梯度的元學(xué)習(xí)技術(shù)在解決小樣本學(xué)習(xí)時(shí)具有廣泛的應(yīng)用性。然而,當(dāng)在極低數(shù)據(jù)狀態(tài)下對(duì)高維參數(shù)空間進(jìn)行操作時(shí)存在實(shí)際困難。潛在嵌入優(yōu)化將基于梯度的自適應(yīng)過(guò)程與模型參數(shù)的底層高維空間分離。因此,Rusu等人[39]在2019年提出了具有潛在嵌入優(yōu)化的元學(xué)習(xí)(latent embedding optimization,LEO)。LEO 通過(guò)學(xué)習(xí)模型參數(shù)的數(shù)據(jù)相關(guān)潛在生成表示,并在這個(gè)低維潛在空間中執(zhí)行基于梯度的元學(xué)習(xí),可以繞過(guò)這些限制。

        將元學(xué)習(xí)與遷移學(xué)習(xí)相結(jié)合來(lái)解決小樣本問(wèn)題也是眾多研究者思考的問(wèn)題,并且嘗試替換神經(jīng)網(wǎng)絡(luò)的深淺和長(zhǎng)度,用一些新的模型來(lái)替代卷積神經(jīng)網(wǎng)絡(luò),也能取得不錯(cuò)的效果。

        由于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)傾向于僅使用少數(shù)樣本進(jìn)行過(guò)擬合,因此元學(xué)習(xí)通常使用淺層神經(jīng)網(wǎng)絡(luò)(shallow neural networks,SNN),而限制了有效性。2019 年國(guó)內(nèi)Sun 等人[40]提出了一種新的元遷移學(xué)習(xí)(meta-transfer learning,MTL)進(jìn)行小樣本學(xué)習(xí)。MTL 使深度神經(jīng)網(wǎng)絡(luò)適應(yīng)小樣本學(xué)習(xí)任務(wù),通過(guò)學(xué)習(xí)每個(gè)任務(wù)的DNN 權(quán)重的縮放和移位函數(shù)來(lái)實(shí)現(xiàn)遷移。

        許多小樣本學(xué)習(xí)方法通過(guò)從已見(jiàn)類(lèi)中學(xué)習(xí)實(shí)例嵌入函數(shù),并將該函數(shù)應(yīng)用于來(lái)自有限標(biāo)簽的未見(jiàn)類(lèi)。Ye 等人[41]于2020 年提出了使用Set-to-Set 函數(shù)嵌入自適應(yīng)的小樣本學(xué)習(xí)(few-shot embedding adaptation transformer,F(xiàn)EAT)。通過(guò)Set-to-Set 函數(shù)使實(shí)例嵌入適應(yīng)目標(biāo)分類(lèi)任務(wù),從而產(chǎn)生特定于任務(wù)且具有區(qū)分性的嵌入。Ye等人憑經(jīng)驗(yàn)研究了這種集合到集合函數(shù)的各種實(shí)例,并觀察到Transformer是有效的。

        許多用于小樣本學(xué)習(xí)的元學(xué)習(xí)方法依賴(lài)于簡(jiǎn)單的基礎(chǔ)學(xué)習(xí)器,例如最近鄰分類(lèi)器。但在小樣本情況下,經(jīng)過(guò)判別訓(xùn)練的線性預(yù)測(cè)器也可以提供更好的泛化能力。Lee 等人[42]在2019 年提出了具有可微凸優(yōu)化的元學(xué)習(xí)(MetaOptNet)。MetaOptNet 使用預(yù)測(cè)器作為基礎(chǔ)學(xué)習(xí)器來(lái)學(xué)習(xí)小樣本學(xué)習(xí)的表示,并表明在一系列小樣本分類(lèi)基準(zhǔn)中提供了特征大小和性能之間的更好權(quán)衡。

        受自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)取得成功的啟發(fā),Zhang 等人[43]在2021 年提出為小樣本學(xué)習(xí)尋找一個(gè)好的適應(yīng)策略,稱(chēng)為Meta Navigator。Meta Navigator通過(guò)尋求更高級(jí)別的策略并提供自動(dòng)化選擇來(lái)解決小樣本學(xué)習(xí)限制的問(wèn)題,搜索系統(tǒng)建立在離散元學(xué)習(xí)策略的連續(xù)放松之上,其中每個(gè)候選策略都與一個(gè)可學(xué)習(xí)的策略選擇指標(biāo)相關(guān)聯(lián)。目標(biāo)是尋找適用于網(wǎng)絡(luò)不同階段的良好參數(shù)適應(yīng)策略,以進(jìn)行小樣本分類(lèi)。Zhang 等人還提出了一個(gè)搜索空間,涵蓋了許多流行的小樣本學(xué)習(xí)算法,并開(kāi)發(fā)了一種基于元學(xué)習(xí)的可微搜索和解碼算法,支持基于梯度的優(yōu)化。

        通過(guò)對(duì)整個(gè)分類(lèi)進(jìn)行訓(xùn)練,即對(duì)整個(gè)標(biāo)簽集進(jìn)行分類(lèi),可以獲得與許多元學(xué)習(xí)算法相當(dāng)甚至更好的嵌入。Chen等人[44]因此在2021年提出了元基線(Meta-Baseline),探索簡(jiǎn)單元學(xué)習(xí)的小樣本學(xué)習(xí)方法。Meta-Baseline 的所有單個(gè)組件都已在先前的工作中提出,但沒(méi)有一個(gè)工作將它們作為一個(gè)整體進(jìn)行研究。

        2.2 基于度量學(xué)習(xí)的有監(jiān)督小樣本學(xué)習(xí)

        Snell 等人[45]在2017 年提出了原型網(wǎng)絡(luò)(prototypical network)。原型網(wǎng)絡(luò)的思想為每個(gè)類(lèi)別在向量空間中都存在一個(gè)原型(prototype),也稱(chēng)為類(lèi)別中心點(diǎn)。原型網(wǎng)絡(luò)使用深度神經(jīng)網(wǎng)絡(luò)將圖像映射成特征向量,對(duì)于同屬一個(gè)類(lèi)別的樣本,求得這一類(lèi)樣本向量的平均值作為該類(lèi)別的原型。通過(guò)不斷訓(xùn)練模型和最小化損失函數(shù),使同一類(lèi)別的樣本距離更加接近,不同類(lèi)別的樣本更加遠(yuǎn)離,從而更新嵌入函數(shù)的參數(shù)。原型網(wǎng)絡(luò)思路架構(gòu)如圖8 所示,在原型網(wǎng)絡(luò)中f和g是參數(shù)共享的嵌入網(wǎng)絡(luò),這種思路框架也是許多后續(xù)基于度量的小樣本學(xué)習(xí)方法的基石。

        圖8 原型網(wǎng)絡(luò)樣例Fig.8 Prototypical network example

        早期的小樣本度量學(xué)習(xí)方法,如孿生網(wǎng)絡(luò)(Siamese network)和匹配網(wǎng)絡(luò)(matching network),通過(guò)測(cè)量和比較查詢(xún)樣本與支持樣本的距離來(lái)對(duì)查詢(xún)樣本進(jìn)行分類(lèi)。孿生卷積神經(jīng)網(wǎng)絡(luò)(Siamese convolutional neural network)[46]是首個(gè)用于一次性圖像分類(lèi)的深度度量學(xué)習(xí)方法。孿生網(wǎng)絡(luò)首先在文獻(xiàn)[47]中引入,由兩個(gè)具有相同架構(gòu)和共享權(quán)重的子網(wǎng)絡(luò)組成。孿生神經(jīng)網(wǎng)絡(luò)可以提取兩個(gè)輸入圖片在同一分布域的特征,從而判斷兩個(gè)輸入圖片的相似性。匹配網(wǎng)絡(luò)[48]在整個(gè)支持集的上下文中使用不同的網(wǎng)絡(luò)對(duì)支持和查詢(xún)圖像進(jìn)行編碼,并且將情景訓(xùn)練引入小樣本分類(lèi),支持圖像通過(guò)雙向LSTM 網(wǎng)絡(luò)嵌入。該網(wǎng)絡(luò)不僅考慮圖像本身,還考慮集合中的其他圖像;查詢(xún)圖像通過(guò)具有注意機(jī)制的LSTM 嵌入,以啟用對(duì)支持集的依賴(lài)。早期度量學(xué)習(xí)方法特征學(xué)習(xí)能力有限,魯棒性較差,無(wú)法達(dá)到理想的效果。這些方法為度量學(xué)習(xí)建立了理論基礎(chǔ),近幾年度量學(xué)習(xí)方法在此基礎(chǔ)上取得了較好的效果。

        很多研究者將度量學(xué)習(xí)下小樣本學(xué)習(xí)目光放在了特征問(wèn)題上,通過(guò)有效提取特征之間的關(guān)聯(lián)性,來(lái)提高小樣本圖像分類(lèi)的準(zhǔn)確率。

        子空間是度量學(xué)習(xí)經(jīng)常用到的一種方法。Simon等人[49]在2020 年提出了深度子空間網(wǎng)絡(luò)(deep subspace networks,DSN)。引入小樣本構(gòu)建的動(dòng)態(tài)分類(lèi)器,為小樣本學(xué)習(xí)提供了一個(gè)框架。通過(guò)使用子空間來(lái)擴(kuò)展現(xiàn)有的動(dòng)態(tài)分類(lèi)器。子空間方法被用作動(dòng)態(tài)分類(lèi)器的中心塊,這種建模會(huì)導(dǎo)致對(duì)擾動(dòng)異常值的魯棒性。還引入了一個(gè)判別公式,在訓(xùn)練期間鼓勵(lì)子空間之間的最大區(qū)分,并在監(jiān)督和半監(jiān)督的小樣本分類(lèi)任務(wù)上產(chǎn)生較有競(jìng)爭(zhēng)力的結(jié)果。

        Hou 等人[50]在2019 年提出了一種新穎的交叉注意網(wǎng)絡(luò)(cross attention network,CAN)來(lái)解決小樣本分類(lèi)問(wèn)題,CAN 引入交叉注意力模塊來(lái)處理看不見(jiàn)類(lèi)的問(wèn)題。該模塊為每一對(duì)類(lèi)特征和查詢(xún)樣本特征生成交叉注意力圖,以突出目標(biāo)對(duì)象區(qū)域,使提取的特征更具判別力。其次提出了一種轉(zhuǎn)導(dǎo)推理算法來(lái)緩解低數(shù)據(jù)問(wèn)題,該算法迭代地利用未標(biāo)記的查詢(xún)集來(lái)擴(kuò)充支持集,從而使類(lèi)特征更具代表性。

        國(guó)內(nèi)Zhang 等人[51]也在2020 年提出了具有可微推土機(jī)距離和結(jié)構(gòu)化分類(lèi)器(deep earth mover’s distance,DeepEMD)的小樣本圖像分類(lèi)。地球移動(dòng)距(earth mover’s distance,EMD)可以作為度量來(lái)計(jì)算密集圖像表示之間的結(jié)構(gòu)距離,以確定圖像相關(guān)性。EMD 生成具有最小匹配成本的結(jié)構(gòu)元素之間的最佳匹配流,用于表示分類(lèi)的圖像距離。EMD中的最佳匹配流參數(shù)和特征嵌入中的參數(shù)以端到端的方式進(jìn)行訓(xùn)練。為了生成EMD 公式中元素的重要權(quán)重,Zhang 等人設(shè)計(jì)了一種交叉引用機(jī)制,可以有效地減少由雜亂的背景和較大的類(lèi)內(nèi)外觀變化造成的影響。

        通過(guò)設(shè)計(jì)歸納偏差提出一種新穎的特征學(xué)習(xí)方法。Rizve 等人[52]在2021 年提出了小樣本學(xué)習(xí)不變和等變表示的互補(bǔ)優(yōu)勢(shì),實(shí)現(xiàn)了輸入變換所需的特征,可以提供更好的區(qū)分。專(zhuān)注于轉(zhuǎn)換判別的特征對(duì)于類(lèi)判別不是最優(yōu)的,而是有助于學(xué)習(xí)數(shù)據(jù)結(jié)構(gòu)的等變屬性,從而獲得更好的可遷移性。

        CAN、DSN、DeepEMD 和互補(bǔ)優(yōu)勢(shì)等方法從度量學(xué)習(xí)的特征角度入手,通過(guò)設(shè)計(jì)有效的特征學(xué)習(xí)方法,使得小樣本學(xué)習(xí)性能得以提升。也有眾多研究者從度量學(xué)習(xí)其他角度來(lái)解決小樣本圖像分類(lèi)問(wèn)題,如質(zhì)心、類(lèi)空間等方法,并同樣使得性能得到提升。

        基于質(zhì)心的方法通過(guò)最近鄰規(guī)則實(shí)現(xiàn)了較好分類(lèi)性能。Liu 等人[53]認(rèn)為這些方法本質(zhì)上忽略了每類(lèi)分布,由于類(lèi)內(nèi)方差的多樣性,決策邊界是有偏差的。Liu 等人在2021 年提出了用于改進(jìn)小樣本分類(lèi)的類(lèi)度量尺度機(jī)制(class-wise metric scaling,CMS)。CMS 使得度量標(biāo)量在訓(xùn)練階段被設(shè)置為可學(xué)習(xí)的參數(shù),有助于學(xué)習(xí)更具區(qū)分性和可轉(zhuǎn)移性的特征表示。CMS 構(gòu)建了一個(gè)凸優(yōu)化問(wèn)題來(lái)生成一個(gè)最優(yōu)標(biāo)量向量,以?xún)?yōu)化最近鄰決策。CMS 可以應(yīng)用于訓(xùn)練和測(cè)試階段,充分利用每類(lèi)分布之間的信息來(lái)解決小樣本問(wèn)題。

        從基集類(lèi)空間的角度來(lái)看,研究者要么側(cè)重于通過(guò)常規(guī)預(yù)訓(xùn)練來(lái)利用全局視圖下的所有類(lèi),要么更注重采用情節(jié)式的方法在局部視圖中對(duì)少數(shù)類(lèi)內(nèi)的元任務(wù)進(jìn)行訓(xùn)練。Zhou 等人[54]在2021 年提出小樣本分類(lèi)的雙目互學(xué)習(xí)(binocular mutual learning,BML)。BML 通過(guò)視圖內(nèi)和交叉視圖建模來(lái)實(shí)現(xiàn)全局視圖和局部視圖的兼容。全局視圖在整個(gè)類(lèi)空間中學(xué)習(xí)以捕捉豐富的類(lèi)間關(guān)系。同時(shí),局部視圖在每一集的局部類(lèi)空間中學(xué)習(xí),專(zhuān)注于正確匹配正對(duì)。此外,跨視圖交互進(jìn)一步促進(jìn)了協(xié)作學(xué)習(xí)和對(duì)有用知識(shí)的隱性探索。由于這兩個(gè)視圖捕獲了互補(bǔ)的信息,大大提高了分類(lèi)的準(zhǔn)確性。

        選擇一個(gè)距離度量來(lái)直接計(jì)算查詢(xún)和支持圖像之間的距離以進(jìn)行分類(lèi),然而這些方法中的大多數(shù)使用圖像級(jí)池表示進(jìn)行分類(lèi),可能會(huì)失去相當(dāng)大的判別性局部線索,這些線索在類(lèi)之間享有良好的可轉(zhuǎn)移性。Wu 等人[55]在2021 年通過(guò)將自動(dòng)零件挖掘過(guò)程集成到FSL 的基于度量的模型中,提出了一個(gè)端到端的任務(wù)感知零件挖掘網(wǎng)絡(luò)(task-aware part mining network,TPMN)。TPMN 設(shè)計(jì)了一個(gè)元過(guò)濾器學(xué)習(xí)器,以元學(xué)習(xí)方式基于任務(wù)嵌入生成任務(wù)感知部分過(guò)濾器。任務(wù)感知部分過(guò)濾器可以適應(yīng)任何單個(gè)任務(wù),并自動(dòng)挖掘與任務(wù)相關(guān)的本地部分,即使是看不見(jiàn)的任務(wù)。其次,提出了一種自適應(yīng)重要性生成器來(lái)識(shí)別關(guān)鍵的局部部分,并將自適應(yīng)重要性權(quán)重分配給不同的部分。

        Singh 等人[56]在概率深度學(xué)習(xí)的啟發(fā)下,提出了一種新型的變異推理網(wǎng)絡(luò)TRIDENT,將圖像的表示解耦為語(yǔ)義和標(biāo)簽的潛在變量,同時(shí)以交織的方式推斷它們。為了誘導(dǎo)任務(wù)意識(shí),作為T(mén)RIDENT 推理機(jī)制的一部分,使用一個(gè)新的內(nèi)置的基于注意力的反導(dǎo)特征提取模塊,以TRIDENT能夠全面看到一個(gè)任務(wù)中的所有圖像,在標(biāo)簽信息的推斷中誘發(fā)任務(wù)認(rèn)知。

        He 等人[57]提出一種新的分層級(jí)聯(lián)變換器(hierarchically cascaded transformers,HCTransformers),通過(guò)光譜標(biāo)記池利用內(nèi)在的圖像結(jié)構(gòu),并通過(guò)潛在的屬性代理優(yōu)化可學(xué)習(xí)參數(shù)。設(shè)計(jì)了一個(gè)由三個(gè)連續(xù)級(jí)聯(lián)的變換器組成的元特征提取器,每個(gè)變換器都在不同的語(yǔ)義層面對(duì)圖像區(qū)域的依賴(lài)性進(jìn)行建模。相同聚類(lèi)中標(biāo)記的特征被平均化,以生成新的標(biāo)記描述符,用于后續(xù)的轉(zhuǎn)化器。譜系標(biāo)記集合背后的動(dòng)機(jī)是將圖像分割層次帶入變換器。

        表1 選取了Mini-ImageNet(test)、Tiered-Image-Net(test)和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考,因?yàn)槠渌麕讉€(gè)數(shù)據(jù)集使用較少,所以不做討論。由表1 可以看出,在每個(gè)數(shù)據(jù)集上面,5-shot準(zhǔn)確率均比1-shot 準(zhǔn)確率高10 個(gè)百分點(diǎn)左右,表明小樣本學(xué)習(xí)和常規(guī)的訓(xùn)練學(xué)習(xí)一樣,訓(xùn)練數(shù)據(jù)越多,學(xué)到的信息和特征越多,分類(lèi)的性能也越好。在Mini-Image-Net(test)上,最初在1-shot 與5-shot 上43.44%和60.60%的準(zhǔn)確率已經(jīng)提升到了74%和89%左右,不同模型方法通過(guò)不同的側(cè)重點(diǎn)改進(jìn),均取得了較好的性能提升,但在此數(shù)據(jù)集上還有較大的提升空間。因?yàn)門(mén)iered-ImageNet(test)與Mini-ImageNet(test)都出自ImageNet 數(shù)據(jù)集,所以準(zhǔn)確率的提升和Mini-ImageNet(test)同樣明顯。但因?yàn)門(mén)iered-Image-Net(test)數(shù)據(jù)集中包含層次結(jié)構(gòu)較高級(jí)別的節(jié)點(diǎn)對(duì)應(yīng)更廣泛的類(lèi)別,所以最高準(zhǔn)確率在1-shot 和5-shot 上已經(jīng)達(dá)到79%和91%,但同樣有提升的空間,距離人的識(shí)別準(zhǔn)確率還有較大差距。CIFAR-FS 數(shù)據(jù)集與以上兩個(gè)數(shù)據(jù)集有一個(gè)顯著的區(qū)別在于,早期的有監(jiān)督小樣本學(xué)習(xí)更注重在Mini-ImageNet(test)和Tiered-ImageNet(test)上的性能表現(xiàn),但在近幾年,研究者們開(kāi)始關(guān)注在CIFAR-FS 上的性能表現(xiàn),并在1-shto 和5-shot 下達(dá)到了78%和90%的準(zhǔn)確率,較之前都有了35 個(gè)百分點(diǎn)的性能提升。同時(shí)通過(guò)調(diào)查發(fā)現(xiàn),基于元學(xué)習(xí)和度量學(xué)習(xí)的小樣本學(xué)習(xí)準(zhǔn)確率均達(dá)到了較高的數(shù)值,且兩種方法通過(guò)相互結(jié)合,能夠進(jìn)一步提高實(shí)驗(yàn)結(jié)果。如表2 所示,通過(guò)對(duì)有監(jiān)督下小樣本圖像分類(lèi)方法的對(duì)比分析,發(fā)現(xiàn)各方法均有優(yōu)勢(shì),但元學(xué)習(xí)器設(shè)計(jì)較為困難,而度量學(xué)習(xí)容易引入其他噪音參數(shù)。

        表1 有監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 1 Accuracy comparison of supervised few-shot image classification methods 單位:%

        表2 有監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 2 Comparative analysis of supervised few-shot image classification methods

        3 基于半監(jiān)督小樣本圖像分類(lèi)

        3.1 半監(jiān)督概念

        獲取大量的有標(biāo)注數(shù)據(jù)集需要耗費(fèi)大量的人力物力,但是隨著深度學(xué)習(xí)的快速發(fā)展和手機(jī)、攝像機(jī)等收集圖像設(shè)備的迭代更新,每時(shí)每刻都有人將自己拍攝的圖片傳輸?shù)缴缃痪W(wǎng)絡(luò)當(dāng)中。另一方面,隨著智慧城市概念的提出,為了城市的安全和管理考慮,監(jiān)控系統(tǒng)已經(jīng)普及到全國(guó)各地所有的城市當(dāng)中,通過(guò)監(jiān)控每天都能獲得許多無(wú)標(biāo)記的圖片。雖然無(wú)標(biāo)注數(shù)據(jù)集沒(méi)有具體的類(lèi)別標(biāo)簽等人為標(biāo)注信息,但是無(wú)標(biāo)注信息本身就含有大量的有用的特征信息和語(yǔ)義結(jié)構(gòu)信息,因此一個(gè)很自然的想法就隨之誕生,如果同時(shí)依靠有限的標(biāo)注數(shù)據(jù),同時(shí)能夠有效提取無(wú)標(biāo)注數(shù)據(jù)中自身含有的有用信息進(jìn)行學(xué)習(xí),則可以大大促進(jìn)圖像分類(lèi)相關(guān)研究的發(fā)展。而關(guān)于小樣本學(xué)習(xí)下的半監(jiān)督學(xué)習(xí),前期絕大多數(shù)都是在基于元學(xué)習(xí)的理論框架下發(fā)展的,近些年相關(guān)新的技術(shù)也被提出。下面根據(jù)半監(jiān)督的相關(guān)方法展開(kāi)討論。

        3.2 基于半監(jiān)督的小樣本學(xué)習(xí)

        如果只用少量的有標(biāo)注圖像進(jìn)行深度學(xué)習(xí)模型的訓(xùn)練,則會(huì)造成深度模型的過(guò)擬合,無(wú)法學(xué)到泛化能力強(qiáng)的分類(lèi)模型,而充分利用無(wú)標(biāo)注樣本的結(jié)構(gòu)和語(yǔ)義信息可以幫助獲得更好的模型,如圖9 所示,相比于有監(jiān)督的圖像分類(lèi)任務(wù),半監(jiān)督圖像分類(lèi)將會(huì)充分利用無(wú)標(biāo)注數(shù)據(jù)。因此本節(jié)研究的關(guān)鍵是如何依靠有限的標(biāo)注數(shù)據(jù),同時(shí)利用大量的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行圖像識(shí)別模型的學(xué)習(xí),即基于半監(jiān)督學(xué)習(xí)的圖像分類(lèi)。

        圖9 有監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)的對(duì)比Fig.9 Supervised learning vs semi-supervised learning

        半監(jiān)督學(xué)習(xí)的關(guān)鍵是如何挖掘和利用無(wú)標(biāo)注樣本中包含的信息。為了利用無(wú)標(biāo)注樣本,現(xiàn)有的半監(jiān)督學(xué)習(xí)方法基本都遵循一個(gè)基于密度的聚類(lèi)假設(shè):位于高密度區(qū)域的樣本可能屬于同一個(gè)類(lèi)簇。該假設(shè)還有一個(gè)等價(jià)的描述:分類(lèi)超平面不應(yīng)該越過(guò)高密度區(qū)域,而應(yīng)該位于低密度區(qū)域,即低密度可分假設(shè),如圖10 所示。基于低密度可分假設(shè),研究者提出了兩類(lèi)半監(jiān)督學(xué)習(xí)方法:第一類(lèi)是基于一致性正則的方法,主要約束模型對(duì)無(wú)標(biāo)注樣本經(jīng)過(guò)隨機(jī)擾動(dòng)后的分類(lèi)預(yù)測(cè)與對(duì)原始樣本的分類(lèi)預(yù)測(cè)具有一致性;第二類(lèi)是基于偽標(biāo)注的方法,該類(lèi)方法主要通過(guò)模型的分類(lèi)預(yù)測(cè)或鄰近的有標(biāo)注樣本為無(wú)標(biāo)注樣本產(chǎn)生偽標(biāo)簽。

        圖10 低密度可分示意圖Fig.10 Low density separable schematic

        3.2.1 一致性約束的方法

        半監(jiān)督下基于一致性約束的方法主要基于低密度可分假設(shè)。分類(lèi)超平面應(yīng)該位于數(shù)據(jù)的低密度區(qū)域,而不應(yīng)穿過(guò)高密度區(qū)域;因?yàn)橄嗤?lèi)別的樣本更可能形成高密度,所以分類(lèi)超平面如果位于高密度區(qū),則會(huì)將相同類(lèi)別的樣本劃分為不同的類(lèi)別。當(dāng)前基于半監(jiān)督學(xué)習(xí)的圖像識(shí)別算法基本都遵循該假設(shè)。為確保分類(lèi)超平面低密度可分,研究者提出了一致性約束的方法,其核心思想為約束每個(gè)訓(xùn)練樣本經(jīng)過(guò)數(shù)據(jù)擾動(dòng)之后,網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對(duì)應(yīng)的輸出一致。

        基于密度圖的半監(jiān)督學(xué)習(xí)算法。通過(guò)構(gòu)建密度圖,每個(gè)樣本可以很容易獲得其鄰居信息。更重要的是,特征學(xué)習(xí)和標(biāo)簽傳播可以一起進(jìn)行端到端的訓(xùn)練,并且為了更好地利用密度信息,顯式地將密度信息有機(jī)地引入到特征學(xué)習(xí)和標(biāo)簽傳播的過(guò)程中。具體來(lái)說(shuō),首先給定有標(biāo)注樣本和無(wú)標(biāo)注樣本來(lái)構(gòu)建密度圖,并且為圖中每個(gè)節(jié)點(diǎn)定義密度信息?;诿芏葓D進(jìn)行特征學(xué)習(xí),提出聚合鄰居信息去增強(qiáng)目標(biāo)節(jié)點(diǎn)的特征。

        Laine 等人[58]提出兩種使用一致性約束的半監(jiān)督圖像識(shí)別方法,即PI 模型(productivity index)和時(shí)序集成模型(temporal ensemble)。PI 模型將原始訓(xùn)練樣本和對(duì)應(yīng)的經(jīng)過(guò)數(shù)據(jù)擾動(dòng)的樣本一同輸入模型,然后約束模型對(duì)這兩種輸入的輸出具有一致性。不同于PI 模型需要將兩種訓(xùn)練樣本輸入模型,時(shí)序集成模型則提出保存每個(gè)訓(xùn)練樣本對(duì)應(yīng)的模型輸出的歷史均值,然后約束樣本對(duì)應(yīng)的當(dāng)前模型的輸出與歷史平均值具有一致性。PI 模型的特點(diǎn)是不需要保存每個(gè)樣本的歷史平均值,但模型需要前向計(jì)算兩次;時(shí)序集成模型不需要對(duì)每個(gè)樣本前向計(jì)算兩次,但需要保存所有訓(xùn)練樣本的歷史類(lèi)別預(yù)測(cè)均值,故具有較大的存儲(chǔ)開(kāi)銷(xiāo)。

        Rodriguez 等人[59]提出密度峰假設(shè),強(qiáng)調(diào)高密度的樣本更可能是類(lèi)簇的中心,同時(shí)高密度的樣本更能表征所屬類(lèi)簇的信息。相比于低密度的樣本,高密度的樣本具有更高的特征性,這對(duì)半監(jiān)督學(xué)習(xí)來(lái)說(shuō)是一個(gè)非常有價(jià)值的信息。但是當(dāng)前的半監(jiān)督學(xué)習(xí)方法并沒(méi)有像這樣顯式地利用密度信息或者深入地挖掘密度信息。對(duì)于一個(gè)半監(jiān)督學(xué)習(xí)算法來(lái)說(shuō),特征學(xué)習(xí)和無(wú)標(biāo)注的偽標(biāo)注生成是其核心的兩部分。在進(jìn)行特征學(xué)習(xí)時(shí),當(dāng)前的方法只利用了單個(gè)樣本自身的信息,而忽略了可以利用的鄰居信息,這些鄰居信息包含的類(lèi)簇和結(jié)構(gòu)信息可以幫助學(xué)習(xí)到更好的特征。

        MeanTeacher[60]對(duì)時(shí)序集成模型進(jìn)行了改進(jìn)。不同于時(shí)序集成模型要求原始樣本的輸出與經(jīng)過(guò)隨機(jī)擾動(dòng)的樣本的輸出具有一致約束性,Mean Teacher 提出在訓(xùn)練過(guò)程中對(duì)模型的參數(shù)做歷史滑動(dòng)均勻,并維護(hù)對(duì)應(yīng)的模型,然后約束同一訓(xùn)練樣本,經(jīng)過(guò)當(dāng)前模型與歷史平均模型后的輸出具有一致性。

        Liu 等人[61]在2018 年提出一種基于半監(jiān)督的元學(xué)習(xí)框架,通過(guò)情景訓(xùn)練的元學(xué)習(xí),可以學(xué)習(xí)標(biāo)簽傳播網(wǎng)絡(luò)。從訓(xùn)練集中采樣的查詢(xún)示例可以用來(lái)模擬真實(shí)的測(cè)試集進(jìn)行跨導(dǎo)推理,稱(chēng)為跨導(dǎo)傳播網(wǎng)絡(luò)(transductive propagation network,TPN)。為解決圖像分類(lèi)數(shù)據(jù)低的問(wèn)題,TPN 用于對(duì)整個(gè)測(cè)試集進(jìn)行一次分類(lèi),以緩解低數(shù)據(jù)問(wèn)題。通過(guò)學(xué)習(xí)利用數(shù)據(jù)中流形結(jié)構(gòu)的圖構(gòu)造模塊,以端到端的方式聯(lián)合學(xué)習(xí)嵌入圖形構(gòu)造的參數(shù)。

        Yu 等人[62]的思考角度發(fā)生了轉(zhuǎn)變,將預(yù)訓(xùn)練模型遷移到小樣本學(xué)習(xí)。Yu 等人在2020 年提出了一種新的半監(jiān)督小樣本學(xué)習(xí)轉(zhuǎn)移學(xué)習(xí)框架Trans Match。TransMatch 充分利用標(biāo)記基類(lèi)數(shù)據(jù)和未標(biāo)記新類(lèi)數(shù)據(jù)中的輔助信息,顯著提高小樣本學(xué)習(xí)任務(wù)的準(zhǔn)確性。TransMatch 的最大創(chuàng)新點(diǎn)在于,以往的半監(jiān)督學(xué)習(xí)方法都基于元學(xué)習(xí),而Yu 等人將目光放在基于遷移學(xué)習(xí),并且取得成功。

        大多數(shù)基于圖網(wǎng)絡(luò)的元學(xué)習(xí)方法對(duì)示例的實(shí)例級(jí)關(guān)系進(jìn)行建模。Yang 等人[63]進(jìn)一步擴(kuò)展這一想法,提出了分布傳播圖網(wǎng)絡(luò)(distribution propagation graph network,DPGN)。DPGN 傳達(dá)了每個(gè)小樣本學(xué)習(xí)任務(wù)中的分布級(jí)關(guān)系和實(shí)例級(jí)關(guān)系,為了結(jié)合所有示例的分布級(jí)關(guān)系和實(shí)例級(jí)關(guān)系,Yang 等人構(gòu)建了一個(gè)由點(diǎn)圖和分布圖組成的對(duì)偶完全圖網(wǎng)絡(luò),每個(gè)節(jié)點(diǎn)代表一個(gè)示例來(lái)進(jìn)行實(shí)驗(yàn),并取得了不錯(cuò)的效果。

        3.2.2 基于偽標(biāo)注的方法

        基于偽標(biāo)注的方法的核心思想是為無(wú)標(biāo)注樣本賦予“偽標(biāo)簽”,之后結(jié)合原始有標(biāo)注數(shù)據(jù)共同進(jìn)行有監(jiān)督的小樣本訓(xùn)練,因此該類(lèi)方法又被稱(chēng)為自監(jiān)督學(xué)習(xí)方法。該類(lèi)方法的關(guān)鍵是為無(wú)標(biāo)注樣本生成準(zhǔn)確的類(lèi)別標(biāo)簽,而不同的產(chǎn)生類(lèi)別標(biāo)簽的方法代表了不同的半監(jiān)督學(xué)習(xí)方式。

        Li 等人[64]在2019 年提出一種基于半監(jiān)督的帶硬偽標(biāo)簽和軟偽標(biāo)簽的自我訓(xùn)練方法,利用稀缺的標(biāo)記數(shù)據(jù)和豐富的未標(biāo)記數(shù)據(jù)來(lái)學(xué)習(xí),稱(chēng)為自學(xué)習(xí)訓(xùn)練(learning to self-train,LST)。LST 利用未標(biāo)記的數(shù)據(jù),特別是元學(xué)習(xí),來(lái)挑選和標(biāo)記此類(lèi)無(wú)監(jiān)督數(shù)據(jù),以進(jìn)一步提高性能。在每個(gè)任務(wù)中,訓(xùn)練幾個(gè)鏡頭模型來(lái)預(yù)測(cè)未標(biāo)記數(shù)據(jù)的偽標(biāo)簽,在每個(gè)步驟中對(duì)標(biāo)記和偽標(biāo)記數(shù)據(jù)迭代自訓(xùn)練步驟,最后在下游任務(wù)中進(jìn)行微調(diào)。此外,此模型還提出軟加權(quán)網(wǎng)絡(luò)來(lái)優(yōu)化偽標(biāo)簽的自訓(xùn)練權(quán)重,以便網(wǎng)絡(luò)能夠更好地為梯度下降優(yōu)化做出更大的貢獻(xiàn)。

        Huang 等人[65]在2020 年提出了一種用于半監(jiān)督小樣本學(xué)習(xí)的任務(wù)統(tǒng)一置信度估計(jì)方法PLCM(pseudoloss confidence metric)。PLCM 通過(guò)偽損失模型將不同任務(wù)的偽標(biāo)記數(shù)據(jù)映射到一個(gè)統(tǒng)一的度量空間,從而可以了解之前的偽損失分布。PLCM根據(jù)偽標(biāo)記數(shù)據(jù)偽丟失的分布分量置信度估計(jì)偽標(biāo)記數(shù)據(jù)的置信度。

        以往利用元學(xué)習(xí)范式或數(shù)據(jù)增強(qiáng)中的新原理來(lái)緩解極度缺乏數(shù)據(jù)的問(wèn)題。Wang 等人[66]提出了一種簡(jiǎn)單的統(tǒng)計(jì)方法,稱(chēng)為實(shí)例可信度推斷(instance credibility inference,ICI),以利用未標(biāo)記實(shí)例的分布支持進(jìn)行小樣本學(xué)習(xí)。首先用標(biāo)記的少數(shù)樣本訓(xùn)練一個(gè)線性分類(lèi)器,并推斷未標(biāo)記數(shù)據(jù)的偽標(biāo)簽。為了衡量每個(gè)偽標(biāo)記實(shí)例的可信度,通過(guò)增加附帶參數(shù)的稀疏度來(lái)解決另一個(gè)線性回歸假設(shè),并根據(jù)它們的稀疏度對(duì)偽標(biāo)記實(shí)例進(jìn)行排名,選擇最值得信賴(lài)的偽標(biāo)記實(shí)例與標(biāo)記實(shí)例一起重新訓(xùn)練線性分類(lèi)器。

        Li 等人[67]在2021 年引入一種新的基線方法,通過(guò)迭代偽標(biāo)簽細(xì)化來(lái)減少噪聲,從而實(shí)現(xiàn)半監(jiān)督小樣本學(xué)習(xí)。半監(jiān)督小樣本學(xué)習(xí)基線方法是修改一個(gè)帶有偽標(biāo)簽細(xì)化(pseudo label refinement,PLAIN)的遷移學(xué)習(xí)框架。Li等人使用去噪網(wǎng)絡(luò)改進(jìn)了PLAIN,通過(guò)適應(yīng)新類(lèi)的知識(shí)來(lái)減少偽標(biāo)簽噪聲,并使用高斯混合模型(Gaussian mixture model,GMM)來(lái)學(xué)習(xí)干凈和有噪聲偽標(biāo)簽的分布,以獲得可靠的偽標(biāo)簽實(shí)例,產(chǎn)生了一種稱(chēng)為PLAIN++的高級(jí)小樣本學(xué)習(xí)方法。與PLAIN 相比,PLAIN++需要使用高置信度的偽標(biāo)記實(shí)例來(lái)訓(xùn)練去噪網(wǎng)絡(luò)。使用這個(gè)去噪網(wǎng)絡(luò)來(lái)評(píng)估GMM 偽標(biāo)簽的置信值,GMM 對(duì)干凈和有噪聲的偽標(biāo)簽樣本的分布進(jìn)行建模,以便可以選擇偽標(biāo)簽的η百分比來(lái)更新小樣本分類(lèi)器。此過(guò)程交替執(zhí)行,直到達(dá)到預(yù)定義的迭代次數(shù)。

        表3 選取了Mini-ImageNet(test)、Tiered-Image-Net(test)和CIFAR-FS 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考。由表3 可以看出,半監(jiān)督小樣本的研究對(duì)比于有監(jiān)督相對(duì)較少,但是同樣取得了不錯(cuò)的效果。同樣在每個(gè)數(shù)據(jù)集上面,5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet(test)上,最 初 在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了74%和82%左右,在此數(shù)據(jù)集上還有較大的提升空間。在Tiered-ImageNet(test)上同樣取得不錯(cuò)的效果,1-shot 和5-shot 上分別達(dá)到82%和88%的準(zhǔn)確率,相比較最初的TPN 有了將近20~30 個(gè)百分點(diǎn)的性能提升。CIFAR-FS 數(shù)據(jù)集在1-shto 和5-shot下達(dá)到了85%和88%的準(zhǔn)確率。如表4 所示,通過(guò)對(duì)半監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析,發(fā)現(xiàn)它們都各有優(yōu)勢(shì),但一致性約束方法局限性各不相同,而偽標(biāo)注的方法優(yōu)勢(shì)在于充分利用偽標(biāo)簽,同時(shí)帶來(lái)偽標(biāo)簽不準(zhǔn)確的問(wèn)題。

        表3 半監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 3 Accuracy comparison of semi-supervised few-shot image classification methods 單位:%

        表4 半監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 4 Comparative analysis of semi-supervised few-shot image classification methods

        4 基于無(wú)監(jiān)督學(xué)習(xí)的圖像分類(lèi)

        4.1 無(wú)監(jiān)督概念

        監(jiān)督學(xué)習(xí)依賴(lài)于人類(lèi)標(biāo)注信息,但是對(duì)于標(biāo)注信息的過(guò)度依賴(lài)具有局限性。例如,人工標(biāo)注的數(shù)據(jù)遠(yuǎn)遠(yuǎn)不如數(shù)據(jù)本身的內(nèi)部結(jié)構(gòu)豐富,在這種情況下進(jìn)行大量樣本的訓(xùn)練,得到的模型會(huì)比較脆弱;而且標(biāo)注的信息通常適用于特定的任務(wù),并不具有泛化性能。

        以自監(jiān)督為代表的無(wú)監(jiān)督學(xué)習(xí)成為解決這一難題的辦法,因?yàn)閳D像自身就可以為模型提供監(jiān)督信息。無(wú)監(jiān)督學(xué)習(xí)方法的一個(gè)核心用例是通過(guò)在無(wú)監(jiān)督表征的基礎(chǔ)上進(jìn)行訓(xùn)練[68-69]或?qū)λ鶎W(xué)模型進(jìn)行微調(diào)[70],使下游任務(wù)的學(xué)習(xí)變得更好或更有效。小樣本下的圖像分類(lèi)問(wèn)題,通過(guò)利用無(wú)監(jiān)督學(xué)習(xí)的方法,結(jié)合元學(xué)習(xí)算法的框架,使用未標(biāo)記數(shù)據(jù)來(lái)生成少量任務(wù),最終在目標(biāo)任務(wù)中生成需要的標(biāo)簽并進(jìn)行訓(xùn)練。

        4.2 基于無(wú)監(jiān)督的小樣本學(xué)習(xí)

        在下游任務(wù)中使用無(wú)監(jiān)督的表征與元學(xué)習(xí)密切相關(guān),需要找到一種比從頭開(kāi)始學(xué)習(xí)更有效的學(xué)習(xí)程序。然而,與無(wú)監(jiān)督學(xué)習(xí)方法不同,元學(xué)習(xí)方法需要大量的、有標(biāo)簽的數(shù)據(jù)集和手工指定的任務(wù)分布。這些依賴(lài)性是廣泛使用這些方法進(jìn)行小樣本圖像分類(lèi)的主要障礙。

        4.2.1 數(shù)據(jù)增強(qiáng)的方法

        在只有原始的、無(wú)標(biāo)簽的觀察結(jié)果的情況下,模型的目標(biāo)是學(xué)習(xí)一個(gè)有用的先驗(yàn)。這樣,在元訓(xùn)練之后,當(dāng)遇到一個(gè)適度大小的指定任務(wù)的數(shù)據(jù)集時(shí),模型可以轉(zhuǎn)移先前的經(jīng)驗(yàn),有效地學(xué)習(xí)執(zhí)行新任務(wù)。許多無(wú)監(jiān)督學(xué)習(xí)工作基于重建、解纏結(jié)、預(yù)測(cè)和其他指標(biāo)開(kāi)發(fā)代理目標(biāo)。2018 年Hsu 等人[71]也提出了一種自動(dòng)構(gòu)建無(wú)監(jiān)督元學(xué)習(xí)任務(wù)的方法CACTUS(clustering to automatically construct tasks for unsupervised meta-learning)。利用無(wú)監(jiān)督嵌入為元學(xué)習(xí)算法提出任務(wù),從而產(chǎn)生一種無(wú)監(jiān)督元學(xué)習(xí)算法,該算法對(duì)于指定的下游任務(wù)進(jìn)行預(yù)訓(xùn)練。使用基于嵌入的簡(jiǎn)單機(jī)制生成的任務(wù)的元學(xué)習(xí),提高了這些表示在學(xué)習(xí)下游指定任務(wù)中的效果。針對(duì)數(shù)據(jù)集來(lái)說(shuō),Hsu 等人實(shí)驗(yàn)的數(shù)據(jù)集的分布較均勻,但現(xiàn)實(shí)世界中的數(shù)據(jù)集分布無(wú)法這么均勻,因此聚類(lèi)的效果可能并不會(huì)很好,遷移性差。

        分類(lèi)器的小樣本或一個(gè)樣本學(xué)習(xí)需要對(duì)學(xué)習(xí)的任務(wù)類(lèi)型有顯著的歸納偏差。獲得這一點(diǎn)的一種方法是對(duì)類(lèi)似于目標(biāo)任務(wù)的任務(wù)進(jìn)行元學(xué)習(xí)。Khodadadeh 等人[72]在2019 年提出了UMTRA(unsupervised meta-lear-ning for few-shot image classification),一種對(duì)分類(lèi)任務(wù)執(zhí)行無(wú)監(jiān)督、模型不可知元學(xué)習(xí)的算法。UMTRA 原理如圖11 所示,UMTRA 的元學(xué)習(xí)步驟是在未標(biāo)記圖像的平面集合上執(zhí)行的。雖然假設(shè)這些圖像可以分為一組不同的類(lèi)并且與目標(biāo)任務(wù)相關(guān),但不需要關(guān)于類(lèi)或任何標(biāo)簽的明確信息。UMTRA使用隨機(jī)抽樣和增強(qiáng)來(lái)為元學(xué)習(xí)階段創(chuàng)建合成訓(xùn)練任務(wù)。只有在最終的目標(biāo)任務(wù)學(xué)習(xí)步驟中才需要標(biāo)簽,并且每個(gè)類(lèi)可以少至一個(gè)樣本。

        圖11 UMTRA:基于數(shù)據(jù)增強(qiáng)的無(wú)監(jiān)督小樣本學(xué)習(xí)Fig.11 UMTRA:unsupervised few-shot learning based on data augmentation

        Antoniou 等人[73]在2019 年提出了一種使用未標(biāo)記數(shù)據(jù)生成少量快照任務(wù)的方法,稱(chēng)為假設(shè)、增強(qiáng)和學(xué)習(xí)(assume,augment and learn,AAL)。AAL 假設(shè)給定支持集的聚類(lèi)來(lái)訓(xùn)練模型,擴(kuò)充支持集生成目標(biāo)集,并使用MAML 框架訓(xùn)練模型,以便模型能夠快速獲得支持集的知識(shí),并在目標(biāo)集上很好地推廣。AAL 從未標(biāo)記的數(shù)據(jù)集中隨機(jī)標(biāo)記圖像的一個(gè)子集,以生成支持集,通過(guò)對(duì)支持集的圖像進(jìn)行數(shù)據(jù)擴(kuò)充,并重用支持集的標(biāo)簽,獲得了一個(gè)目標(biāo)集。由此產(chǎn)生的少量快照任務(wù)可用于訓(xùn)練任何標(biāo)準(zhǔn)元學(xué)習(xí)框架。

        2019 年Ji 等人[74]提出了一種整合漸進(jìn)聚類(lèi)和情景訓(xùn)練的無(wú)監(jiān)督小樣本學(xué)習(xí)方法UFLST。UFLST 由兩個(gè)交替過(guò)程組成:漸進(jìn)聚類(lèi)和情景訓(xùn)練。前者生成用于構(gòu)建情景任務(wù)的偽標(biāo)記訓(xùn)練樣本;而后者使用生成的情景任務(wù)訓(xùn)練小樣本學(xué)習(xí)者,進(jìn)一步優(yōu)化數(shù)據(jù)的特征表示。這兩個(gè)過(guò)程相互促進(jìn),最終產(chǎn)生一個(gè)高質(zhì)量的小樣本學(xué)習(xí)器。與以往的無(wú)監(jiān)督學(xué)習(xí)方法不同,UFLST 將無(wú)監(jiān)督學(xué)習(xí)和情景訓(xùn)練集成到一個(gè)統(tǒng)一的框架中,便于特征提取和模型迭代訓(xùn)練。

        大多數(shù)以前的小樣本學(xué)習(xí)算法都是基于元學(xué)習(xí),以假的小樣本任務(wù)作為訓(xùn)練樣本,其中需要大量的標(biāo)記基類(lèi)。訓(xùn)練后的模型也受到任務(wù)類(lèi)型的限制。2020 年Li 等人[75]提出一種通過(guò)對(duì)比自我監(jiān)督學(xué)習(xí)進(jìn)行小樣本圖像分類(lèi)的方法CSSL-FSL(contrastive self-supervised learning)。CSSL-FSL 提出了一種新的無(wú)監(jiān)督小樣本學(xué)習(xí)范式來(lái)修復(fù)缺陷,分兩個(gè)階段解決小樣本任務(wù):通過(guò)對(duì)比自監(jiān)督學(xué)習(xí)對(duì)可遷移特征提取器進(jìn)行元訓(xùn)練,并使用圖形聚合、自蒸餾和流形增強(qiáng)訓(xùn)練分類(lèi)器。在第一階段,使用比較自監(jiān)督學(xué)習(xí)方法,對(duì)未標(biāo)記的圖像獲得具有良好泛化能力的特征提取器。在第二階段,元訓(xùn)練特征提取器用于從當(dāng)前任務(wù)的所有圖像中提取特征,并基于當(dāng)前任務(wù)定義的特定圖進(jìn)行特征聚合,以便查詢(xún)集的信息與查詢(xún)集的信息交互支持集。

        Qin 等人[76]也在2020 年提出通過(guò)基于分布轉(zhuǎn)移的數(shù)據(jù)增強(qiáng)進(jìn)行無(wú)監(jiān)督的小樣本學(xué)習(xí),開(kāi)發(fā)了一個(gè)新的框架ULDA。ULDA 在使用數(shù)據(jù)增強(qiáng)時(shí)會(huì)關(guān)注每個(gè)小樣本任務(wù)內(nèi)部的分布多樣性。Qin 等人強(qiáng)調(diào)了分布多樣性在基于增強(qiáng)的小樣本任務(wù)中的價(jià)值和重要性,這可以有效緩解過(guò)度擬合問(wèn)題,并使小樣本模型學(xué)習(xí)到更魯棒的特征表示。在ULDA 中,系統(tǒng)地研究了不同增強(qiáng)技術(shù)的效果,并建議通過(guò)多樣化地增強(qiáng)這兩個(gè)集合來(lái)增強(qiáng)每個(gè)小樣本任務(wù)中查詢(xún)集和支持集之間的分布多樣性。

        Xu 等人[77]在2021 年使用聚類(lèi)嵌入方法和數(shù)據(jù)增強(qiáng)函數(shù)構(gòu)建任務(wù),以滿足兩個(gè)關(guān)鍵的類(lèi)別區(qū)分要求,提出了一種使用聚類(lèi)和增強(qiáng)構(gòu)建無(wú)監(jiān)督元學(xué)習(xí)任務(wù)的算法CUMCA。為了減輕增強(qiáng)數(shù)據(jù)引入的偏差和弱多樣性問(wèn)題,CUMCA 提供了一個(gè)理論分析來(lái)解釋為什么外循環(huán)比內(nèi)循環(huán)對(duì)增強(qiáng)數(shù)據(jù)更敏感。其次,提出了一種新的數(shù)據(jù)增強(qiáng)方法Prior-Mixup,而不是像UMTRA 中那樣僅使用旋轉(zhuǎn)、水平翻轉(zhuǎn)和剪切等規(guī)范進(jìn)行圖像數(shù)據(jù)增強(qiáng)。Prior-Mixup 專(zhuān)為無(wú)監(jiān)督元學(xué)習(xí)而設(shè)計(jì),以滿足良好元學(xué)習(xí)任務(wù)分布的多樣性要求。

        Zhang 等人[78]在2021 年提出了一種用于無(wú)監(jiān)督小樣本學(xué)習(xí)和聚類(lèi)的自監(jiān)督深度學(xué)習(xí)框架UFLAC。UFLAC 可以被解釋為從學(xué)習(xí)的嵌入中反復(fù)發(fā)現(xiàn)新的類(lèi)別,并用自我監(jiān)督的信號(hào)訓(xùn)練一個(gè)新的嵌入函數(shù)來(lái)區(qū)分發(fā)現(xiàn)的類(lèi)別線索。在UFLAC 框架中,首先從未標(biāo)記的數(shù)據(jù)中發(fā)現(xiàn)類(lèi)別,再對(duì)之前的分區(qū)結(jié)果進(jìn)行后處理,以去除異常值并導(dǎo)出每個(gè)類(lèi)別的原型。然后使用先前選擇的數(shù)據(jù)和增強(qiáng)的虛擬數(shù)據(jù)構(gòu)建小樣本學(xué)習(xí)任務(wù)。最后,通過(guò)前面的步驟迭代訓(xùn)練網(wǎng)絡(luò)以學(xué)習(xí)最終表示。

        Hiller 等人[79]將輸入樣本分割成斑塊,并通過(guò)視覺(jué)變換器的幫助對(duì)這些斑塊進(jìn)行編碼,能夠在整個(gè)圖像的局部區(qū)域之間建立語(yǔ)義上的對(duì)應(yīng)關(guān)系,并與它們各自的類(lèi)別無(wú)關(guān),稱(chēng)為FewTURE。然后,通過(guò)推理時(shí)的在線優(yōu)化,為手頭的任務(wù)確定信息量最大的補(bǔ)丁嵌入,另外還提供圖像中“最重要的東西”的視覺(jué)可解釋性。該方法建立在通過(guò)遮蔽圖像建模對(duì)網(wǎng)絡(luò)進(jìn)行無(wú)監(jiān)督訓(xùn)練的最新進(jìn)展上,以克服缺乏細(xì)粒度標(biāo)簽的問(wèn)題,并學(xué)習(xí)數(shù)據(jù)的更一般的統(tǒng)計(jì)結(jié)構(gòu),同時(shí)避免圖像級(jí)別的負(fù)面注釋影響。

        該類(lèi)方法的主要思想是將每個(gè)無(wú)標(biāo)注的圖像當(dāng)作獨(dú)立的類(lèi)別,然后針對(duì)每個(gè)樣本通過(guò)數(shù)據(jù)增強(qiáng)的方法生成對(duì)應(yīng)樣本的多個(gè)增強(qiáng)樣本,將原始樣本和增強(qiáng)生成的樣本作為同一類(lèi),這樣就可以轉(zhuǎn)化為有監(jiān)督小樣本學(xué)習(xí)進(jìn)行求解。

        4.2.2 對(duì)比學(xué)習(xí)的方法

        對(duì)比學(xué)習(xí)是自監(jiān)督學(xué)習(xí)方法的一種,不依靠標(biāo)注的數(shù)據(jù),從無(wú)標(biāo)注圖像中自己學(xué)習(xí)知識(shí)。自監(jiān)督學(xué)習(xí)本身已經(jīng)在圖像領(lǐng)域里被探索了很久。對(duì)比學(xué)習(xí)則是典型的判別式自監(jiān)督學(xué)習(xí),相對(duì)生成式自監(jiān)督學(xué)習(xí),對(duì)比學(xué)習(xí)的任務(wù)難度要低一些。對(duì)比學(xué)習(xí)方法已有很多,有效地將對(duì)比學(xué)習(xí)與小樣本圖像分類(lèi)相互結(jié)合,也能取得不俗的效果。

        由于訓(xùn)練圖像的數(shù)量有限,當(dāng)直接應(yīng)用于小樣本學(xué)習(xí)時(shí),隨機(jī)圖像變換可能會(huì)效果較差,具有更多的噪聲和更少的概念相關(guān)信息,會(huì)導(dǎo)致無(wú)法學(xué)習(xí)細(xì)粒度結(jié)構(gòu)。為了有效改善小樣本學(xué)習(xí)環(huán)境下細(xì)粒度結(jié)構(gòu)學(xué)習(xí),Luo 等人[80]在2021 年提出了用于基于度量元學(xué)習(xí)的視圖可學(xué)習(xí)對(duì)比學(xué)習(xí)方法(view-learnable contrastive learning,VLCL),將對(duì)比學(xué)習(xí)的隨機(jī)圖像變換替換為空間變換網(wǎng)絡(luò)(spatial transformation network,STN),這是一個(gè)允許對(duì)圖像進(jìn)行靈活空間操作的學(xué)習(xí)模塊,并開(kāi)發(fā)了一種學(xué)習(xí)到學(xué)習(xí)的算法來(lái)自適應(yīng)地生成同一圖像的不同視圖。

        2021 年Liu 等人[81]提出通過(guò)對(duì)比學(xué)習(xí)來(lái)嵌入模型學(xué)習(xí)的方法Infopatch,并被擴(kuò)展用于小樣本學(xué)習(xí)的任務(wù)。InfoPatch 利用源類(lèi)信息構(gòu)建正負(fù)對(duì)的算法,對(duì)于每個(gè)查詢(xún)實(shí)例,可以使用所有支持實(shí)例構(gòu)造正例和負(fù)例。為了找到更多信息對(duì)來(lái)訓(xùn)練良好的嵌入,Liu 等人提出了生成困難實(shí)例的策略。直觀地說(shuō),人類(lèi)只能依靠圖像的一部分來(lái)識(shí)別物體,即使是圖像的其他部分是不可觀察的。強(qiáng)制執(zhí)行這種直覺(jué)以幫助在FSL 中構(gòu)建對(duì)比學(xué)習(xí)算法。

        對(duì)比學(xué)習(xí)提出通過(guò)帶有標(biāo)簽信息的自監(jiān)督表示學(xué)習(xí)來(lái)代替交叉熵?fù)p失。Lee 等人[82]也使用監(jiān)督對(duì)比學(xué)習(xí)來(lái)增強(qiáng)小樣本學(xué)習(xí),稱(chēng)為SPTA。Lee 研究發(fā)現(xiàn),在第一個(gè)訓(xùn)練階段,監(jiān)督對(duì)比損失而不是簡(jiǎn)單的交叉熵?fù)p失,大大提高了最終分類(lèi)的準(zhǔn)確性,尤其是在數(shù)據(jù)集不大的情況下。在小樣本學(xué)習(xí)的第一階段,將監(jiān)督對(duì)比學(xué)習(xí)應(yīng)用于預(yù)訓(xùn)練。特征提取器使用監(jiān)督對(duì)比損失進(jìn)行訓(xùn)練,然后進(jìn)行微調(diào),而分類(lèi)器使用TIM 損失進(jìn)行適應(yīng)。

        Lu 等人[83]認(rèn)為小樣本學(xué)習(xí)方法依賴(lài)于用大量的標(biāo)記數(shù)據(jù)集進(jìn)行訓(xùn)練,使得無(wú)法利用豐富的無(wú)標(biāo)記數(shù)據(jù)。從信息論的角度來(lái)看,提出了一種有效的無(wú)監(jiān)督FSL 方法UniSiam,通過(guò)自我監(jiān)督來(lái)學(xué)習(xí)表征。在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。與有監(jiān)督的預(yù)訓(xùn)練相比,自監(jiān)督的預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。它學(xué)習(xí)全面的表征,而不是關(guān)于基本類(lèi)別的最有鑒別力的表征。有監(jiān)督的預(yù)訓(xùn)練和自我監(jiān)督的預(yù)訓(xùn)練實(shí)際上是在最大化不同的相互信息目標(biāo)。自監(jiān)督預(yù)訓(xùn)練最大化了同一實(shí)例的增強(qiáng)視圖的表征之間的相互信息。

        表5 選取了Mini-ImageNet(test)、Tiered-ImageNet(test)和Omniglot 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果作為對(duì)比參考。由表5 可以看出,無(wú)監(jiān)督小樣本的研究相比有監(jiān)督和半監(jiān)督發(fā)展較為緩慢,但對(duì)比學(xué)習(xí)下的SPTA 和InfoPatch 表現(xiàn)了較好的性能。同樣在每個(gè)數(shù)據(jù)集上,5-shot 準(zhǔn)確率均比1-shot 準(zhǔn)確率高。在Mini-ImageNet(test)和Tiered-ImageNet(test)數(shù)據(jù)集上,在1-shot 與5-shot 上的準(zhǔn)確率已經(jīng)提升到了70%和80%左右,無(wú)監(jiān)督的小樣本學(xué)習(xí)在此數(shù)據(jù)集上還有較大的提升空間。Omniglot數(shù)據(jù)集在1-shot和5-shot上分別達(dá)到了94%和98%的準(zhǔn)確率,可提升空間較小。如表6 所示,通過(guò)無(wú)監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析,發(fā)現(xiàn)其核心在于充分利用數(shù)據(jù)增強(qiáng)的方法,實(shí)現(xiàn)方法各不相同,均取得了較好的實(shí)驗(yàn)結(jié)果。隨之而來(lái)的是數(shù)據(jù)增強(qiáng)手段帶來(lái)了缺陷,如引入噪聲等。

        表5 無(wú)監(jiān)督下小樣本圖像分類(lèi)方法準(zhǔn)確率對(duì)比Table 5 Accuracy comparison of unsupervised few-shot image classification methods 單位:%

        表6 無(wú)監(jiān)督下小樣本圖像分類(lèi)方法對(duì)比分析Table 6 Comparative analysis of unsupervised few-shot image classification methods

        5 小樣本圖像分類(lèi)挑戰(zhàn)與未來(lái)方向

        隨著計(jì)算機(jī)硬件以及深度學(xué)習(xí)算法的發(fā)展,基于深度學(xué)習(xí)的人工智能算法在各行各業(yè)起到至關(guān)重要的作用,但是在許多領(lǐng)域中樣本量很少或者標(biāo)記樣本很少,并且樣本的標(biāo)注耗費(fèi)大量的人力物力。近年來(lái)小樣本圖像分類(lèi)已經(jīng)得到越來(lái)越深入的研究和發(fā)展,且產(chǎn)生較好的效果,但是與人類(lèi)的準(zhǔn)確率相比仍然有不小的差距。下面列舉了一些當(dāng)下小樣本圖像分類(lèi)面臨的困難。

        5.1 小樣本圖像分類(lèi)方法總結(jié)

        小樣本圖像分類(lèi)各方法的機(jī)制以及優(yōu)缺點(diǎn)對(duì)比如表7 所示。有監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要有度量學(xué)習(xí)方法、元學(xué)習(xí)方法和數(shù)據(jù)增強(qiáng)方法。度量學(xué)習(xí)模擬樣本間距離分布,采用非參估計(jì)方法進(jìn)行分類(lèi),優(yōu)勢(shì)是便于理解并且直觀,便于計(jì)算和公式化,但采用較為簡(jiǎn)單的距離來(lái)衡量相似度的方法準(zhǔn)確率會(huì)有所降低。元學(xué)習(xí)方法通過(guò)優(yōu)化模型的參數(shù)或?qū)W習(xí)算法來(lái)加速網(wǎng)絡(luò)學(xué)習(xí),使模型具有學(xué)習(xí)能力,能夠?qū)W習(xí)到一些訓(xùn)練過(guò)程之外的知識(shí),但元學(xué)習(xí)器設(shè)計(jì)困難,復(fù)雜度較高,泛化性也不理想。數(shù)據(jù)增強(qiáng)方法為小樣本圖像分類(lèi)數(shù)據(jù)集生成新數(shù)據(jù),不需要對(duì)模型進(jìn)行調(diào)整,只需利用輔助數(shù)據(jù)或者輔助信息擴(kuò)充數(shù)據(jù)或增強(qiáng)特征,但在進(jìn)行數(shù)據(jù)增強(qiáng)時(shí)可能會(huì)引入噪聲數(shù)據(jù)或者特征,對(duì)分類(lèi)效果產(chǎn)生負(fù)面影響。半監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要有一致性約束方法和偽標(biāo)注方法。一致性約束方法基于低密度可分假設(shè),相同類(lèi)別的樣本形成高密度,分類(lèi)超平面如果位于高密度區(qū),會(huì)約束每個(gè)訓(xùn)練樣本經(jīng)過(guò)數(shù)據(jù)擾動(dòng)之后,網(wǎng)絡(luò)的輸出與原始訓(xùn)練樣本對(duì)應(yīng)的輸出一致,需要保持所有訓(xùn)練樣本的歷史類(lèi)別預(yù)測(cè)值,故具有較大的存儲(chǔ)開(kāi)銷(xiāo)。偽標(biāo)注方法為無(wú)標(biāo)注樣本賦予“偽標(biāo)簽”,然后結(jié)合原始有標(biāo)注數(shù)據(jù)一起進(jìn)行有監(jiān)督訓(xùn)練,但會(huì)涉及到高計(jì)算復(fù)雜度的矩陣計(jì)算,同時(shí)不能與特征學(xué)習(xí)部分一起進(jìn)行端到端的訓(xùn)練。無(wú)監(jiān)督下小樣本圖像分類(lèi)技術(shù)主要分為基于預(yù)置任務(wù)的無(wú)監(jiān)督和對(duì)比學(xué)習(xí)。預(yù)置任務(wù)下多數(shù)方法均為基于聚類(lèi)的思想,利用得到的特征進(jìn)行聚類(lèi),轉(zhuǎn)化成有監(jiān)督小樣本問(wèn)題來(lái)解決,目標(biāo)樣本在特征空間里展示出很好的聚類(lèi)結(jié)果,只利用少量的標(biāo)注樣本即可獲得不錯(cuò)的分類(lèi)模型。普通的無(wú)監(jiān)督預(yù)訓(xùn)練獲得的特征的表達(dá)能力不夠好,無(wú)法形成更好的類(lèi)簇。對(duì)比學(xué)習(xí)方法通過(guò)自我監(jiān)督來(lái)學(xué)習(xí)表征,在低維的學(xué)習(xí)表征中保留更多關(guān)于高維原始數(shù)據(jù)的信息。預(yù)訓(xùn)練著重于捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu),學(xué)習(xí)全面的表征,是較為新型且有效的方法,但有待進(jìn)一步研究擴(kuò)展。

        表7 小樣本圖像分類(lèi)各方法機(jī)制及優(yōu)缺點(diǎn)對(duì)比Table 7 Comparison of mechanisms and advantages and disadvantages of few-shot image classification methods

        5.2 小樣本圖像分類(lèi)挑戰(zhàn)

        (1)深度學(xué)習(xí)的可解釋性

        神經(jīng)網(wǎng)絡(luò)模型被廣泛地應(yīng)用到小樣本學(xué)習(xí)等領(lǐng)域,隨著大量研究者參與,特征提取等卷積神經(jīng)網(wǎng)絡(luò)模型日漸復(fù)雜。深度學(xué)習(xí)模型本身是一個(gè)黑盒模型,有許多結(jié)構(gòu)和特點(diǎn):第一個(gè)特點(diǎn)就是神經(jīng)元多并且參數(shù)眾多;第二個(gè)特點(diǎn)是結(jié)構(gòu)分層,且隱含層眾多;第三個(gè)特點(diǎn)是神經(jīng)網(wǎng)絡(luò)的參數(shù)對(duì)應(yīng)的特征不是人工設(shè)計(jì)的,是神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中自己進(jìn)行選擇的。研究者無(wú)法得知神經(jīng)網(wǎng)絡(luò)模型到底學(xué)習(xí)了什么,也不知道每一個(gè)參數(shù)的具體含義是什么,因此無(wú)法解釋整個(gè)模型的運(yùn)作機(jī)制,無(wú)法得出明確而有針對(duì)性的優(yōu)化方案來(lái)解決問(wèn)題,只能通過(guò)大量實(shí)驗(yàn)不斷地嘗試提高性能的方法。因此一個(gè)好的可解釋性工作對(duì)小樣本甚至任何研究方向都有指導(dǎo)作用。

        (2)數(shù)據(jù)集的挑戰(zhàn)

        現(xiàn)有的小樣本學(xué)習(xí)模型都需要在大規(guī)模數(shù)據(jù)上預(yù)訓(xùn)練。圖像分類(lèi)任務(wù)中目前僅有ImageNet 作為預(yù)訓(xùn)練數(shù)據(jù)集,而文本分類(lèi)中缺少類(lèi)似的預(yù)訓(xùn)練數(shù)據(jù)集,導(dǎo)致很多小樣本圖像分類(lèi)方法缺少普適性,只適合在特定的數(shù)據(jù)集上發(fā)揮好的結(jié)果。在小樣本圖像分類(lèi)任務(wù)中Mini-ImageNet 和Omniglot 是兩個(gè)被廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)集,最近的斯坦福犬[84]和CUB 細(xì)粒度分類(lèi)等數(shù)據(jù)集也開(kāi)始被人們用于測(cè)試,但并沒(méi)有ImageNet數(shù)據(jù)集使用廣泛。

        (3)模型預(yù)訓(xùn)練的挑戰(zhàn)

        在已有的小樣本學(xué)習(xí)方法中,不管是基于模型微調(diào)的方法還是基于遷移學(xué)習(xí)的方法,都需要在大量的非目標(biāo)數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練,致使小樣本學(xué)習(xí)一定程度上變成偽命題。因?yàn)槟P偷念A(yù)訓(xùn)練依舊需要大量標(biāo)注數(shù)據(jù),從本質(zhì)上來(lái)看與小樣本學(xué)習(xí)的定義背道而馳。從根本上解決小樣本問(wèn)題,就要做到不依賴(lài)預(yù)訓(xùn)練模型,需研究利用其他先驗(yàn)知識(shí)而非模型預(yù)訓(xùn)練的方法。

        (4)其他挑戰(zhàn)

        在小樣本圖像分類(lèi)中,將各種基于深度學(xué)習(xí)的算法技術(shù)有效地結(jié)合起來(lái),以產(chǎn)生更好的效果。例如,將元學(xué)習(xí)與度量學(xué)習(xí)相結(jié)合,在進(jìn)行特征提取之前,通過(guò)元學(xué)習(xí)預(yù)處理數(shù)據(jù),設(shè)置更加合理的支持集和查詢(xún)集。雖然已經(jīng)有研究者開(kāi)始嘗試,但是想實(shí)現(xiàn)這樣的效果卻十分困難,幾個(gè)學(xué)習(xí)算法的相互結(jié)合,有時(shí)候反而會(huì)導(dǎo)致小樣本學(xué)習(xí)的性能下降。

        5.3 小樣本圖像分類(lèi)未來(lái)發(fā)展方向

        通過(guò)對(duì)當(dāng)前小樣本圖像分類(lèi)研究進(jìn)展進(jìn)行總結(jié),以展望未來(lái)小樣本學(xué)習(xí)的發(fā)展方向。

        (1)在數(shù)據(jù)層面訓(xùn)練模型時(shí)嘗試?yán)闷渌闰?yàn)知識(shí),或更好地利用無(wú)標(biāo)注數(shù)據(jù)。探索和發(fā)現(xiàn)不依賴(lài)模型預(yù)訓(xùn)練,使用先驗(yàn)知識(shí)就能取得較好結(jié)果的方法。雖然在諸多領(lǐng)域中標(biāo)注樣本數(shù)量較少,但在真實(shí)世界中存在大量無(wú)標(biāo)注數(shù)據(jù),并蘊(yùn)含著大量信息,利用無(wú)標(biāo)注數(shù)據(jù)的信息訓(xùn)練模型值得更加深入研究。

        (2)對(duì)度量學(xué)習(xí)提出更有效的神經(jīng)網(wǎng)絡(luò)度量方法。度量學(xué)習(xí)在小樣本學(xué)習(xí)中的應(yīng)用已經(jīng)相對(duì)成熟,但是基于距離函數(shù)的靜態(tài)度量方法改進(jìn)空間較少,使用神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行樣本相似度計(jì)算可能成為度量方法的主流。因此研究如何設(shè)計(jì)性能更好的神經(jīng)網(wǎng)絡(luò)度量算法,以提高實(shí)驗(yàn)的準(zhǔn)確率。在網(wǎng)絡(luò)上提取圖像特征時(shí)進(jìn)行更有針對(duì)性的處理,例如使得特征向量之間相互垂直,采用掩碼恢復(fù)等方式,以便于后面的相似度區(qū)分。

        (3)元學(xué)習(xí)作為小樣本學(xué)習(xí)的熱點(diǎn)研究方向之一,元學(xué)習(xí)模型還繼續(xù)有待提升。如何設(shè)計(jì)元學(xué)習(xí)器使其學(xué)習(xí)到更多有用的信息或更有效的元知識(shí),也將是今后一個(gè)重要的研究方向。

        (4)對(duì)比學(xué)習(xí)通過(guò)自動(dòng)構(gòu)造相似實(shí)例和不相似實(shí)例,習(xí)得一個(gè)表示學(xué)習(xí)模型,通過(guò)此模型,使得相似的實(shí)例在投影空間中比較接近,而不相似的實(shí)例在投影空間中距離比較遠(yuǎn)。將對(duì)比學(xué)習(xí)與小樣本學(xué)習(xí)有效地結(jié)合來(lái)達(dá)到更好的性能,是值得研究發(fā)展的方向。

        (5)隨著主動(dòng)學(xué)習(xí)和強(qiáng)化學(xué)習(xí)框架的興起,可以考慮將這些先進(jìn)框架應(yīng)用到小樣本學(xué)習(xí)。主動(dòng)學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種主要研究范式,它專(zhuān)注于為未標(biāo)記的實(shí)例請(qǐng)求標(biāo)簽,從而最大限度地提高性能。主動(dòng)學(xué)習(xí)旨在使數(shù)據(jù)標(biāo)記成為學(xué)習(xí)過(guò)程的一部分,以便模型選擇樣本進(jìn)行標(biāo)記。

        (6)通過(guò)注意力機(jī)制來(lái)提高小樣本圖像分類(lèi)準(zhǔn)確率。注意力機(jī)制的提出,實(shí)際上就是讓神經(jīng)網(wǎng)絡(luò)能夠模仿人類(lèi),關(guān)注圖像中更加重要的特征信息,與小樣本學(xué)習(xí)的思想十分貼合。這種做法將神經(jīng)網(wǎng)絡(luò)原有的為圖像平均分配資源的方式,改為根據(jù)圖像的重要程度分配資源的方式。重要的信息權(quán)重高,不重要的信息權(quán)重低,從而能夠更快、更準(zhǔn)確地對(duì)圖像進(jìn)行分類(lèi)。

        (7)嘗試更多小樣本學(xué)習(xí)方法的結(jié)合?,F(xiàn)有小樣本學(xué)習(xí)大多數(shù)基于某個(gè)方法的研究,今后可以嘗試將各個(gè)方法進(jìn)行結(jié)合,例如度量學(xué)習(xí)與元學(xué)習(xí)的結(jié)合、度量學(xué)習(xí)與注意力機(jī)制的結(jié)合或者元學(xué)習(xí)與對(duì)比學(xué)習(xí)等方法的結(jié)合,以達(dá)到更好的效果。

        6 總結(jié)

        本文首先介紹了小樣本學(xué)習(xí)的研究背景和問(wèn)題定義;然后介紹了用于小樣本學(xué)習(xí)的常用算法,以及小樣本圖像分類(lèi)在有監(jiān)督、半監(jiān)督和無(wú)監(jiān)督下的技術(shù)發(fā)展;最后總結(jié)了小樣本圖像分類(lèi)的挑戰(zhàn)和未來(lái)發(fā)展方向。小樣本學(xué)習(xí)領(lǐng)域目前仍然具有很多值得研究者們?nèi)ネ黄频姆较?。小樣本學(xué)習(xí)在與常規(guī)學(xué)習(xí)相比較時(shí),性能仍然存在一定的差距,因此還需要研究者們繼續(xù)探索。

        猜你喜歡
        度量分類(lèi)樣本
        有趣的度量
        模糊度量空間的強(qiáng)嵌入
        分類(lèi)算一算
        用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        分類(lèi)討論求坐標(biāo)
        推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
        數(shù)據(jù)分析中的分類(lèi)討論
        教你一招:數(shù)的分類(lèi)
        隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
        亚洲av成人一区二区三区| 91精品福利一区二区三区| 国产精品综合一区久久| 欧美性猛交xxxx免费看蜜桃 | 亚洲精品无码久久久久sm| 在线观看一区二区女同| 欧美三级不卡视频| 欧美亚洲日韩国产人成在线播放| 亚洲国产成人av毛片大全| 国产精品成熟老女人| 亚洲av伊人久久综合密臀性色 | 成熟人妻av无码专区 | 久久精品中文字幕免费| 亚洲一二三四区免费视频| 亚洲a∨国产av综合av下载| 亚洲熟妇无码av不卡在线播放| 久久久久久一本大道无码| 精品日本一区二区三区| 亚洲精一区二区三av| 成人麻豆日韩在无码视频| 国产日产综合| 日韩中文网| 超短裙老师在线观看一区二区| 亚洲中文字幕国产视频 | 久久婷婷色综合一区二区 | 欧美最猛黑人xxxx| 久久久久无码国产精品不卡| 国产不卡一区二区三区视频| 日本一区二区不卡精品| 天美传媒一区二区| 成人无码视频在线观看网站| 亚洲成av人片在线天堂无| 一区二区三区免费看日本| 久久精品国产亚洲av四虎| 中文字幕精品久久天堂一区| 在线观看亚洲视频一区二区| 国产成人精品2021| 国产毛片网| 久久精品亚洲乱码伦伦中文| 人妻少妇精品视频一区二区三区l| 国产成人精品一区二区三区视频|