亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)

        2022-11-18 04:15:36陳慶宇季繁繁袁曉彤
        模式識別與人工智能 2022年10期
        關(guān)鍵詞:編碼器投影精度

        陳慶宇 季繁繁 袁曉彤,4

        在深度學(xué)習(xí)領(lǐng)域,目前圖像分類任務(wù)的主流算法[1-4]大多嚴(yán)重依賴標(biāo)簽,但人工標(biāo)注標(biāo)簽耗時耗力,大幅限制深度學(xué)習(xí)的發(fā)展.然而,每天有數(shù)以億計的無標(biāo)簽數(shù)據(jù)被上傳云端,深度學(xué)習(xí)亟待解決如何充分利用海量的無標(biāo)簽數(shù)據(jù)的問題.有學(xué)者認(rèn)為自監(jiān)督學(xué)習(xí)(Self-Supervised Learning)可解決上述問題.自監(jiān)督學(xué)習(xí)利用輔助任務(wù),從大規(guī)模的無標(biāo)簽數(shù)據(jù)中挖掘數(shù)據(jù)自身的監(jiān)督信息,使用構(gòu)造的監(jiān)督信息對模型進(jìn)行預(yù)訓(xùn)練,使模型學(xué)習(xí)到對下游任務(wù)有價值的通用表征.

        目前自監(jiān)督學(xué)習(xí)主要分為生成式自監(jiān)督學(xué)習(xí)算法、判別式自監(jiān)督學(xué)習(xí)算法和對比學(xué)習(xí)自監(jiān)督學(xué)習(xí)算法.生成式自監(jiān)督學(xué)習(xí)算法[5-8]對圖像進(jìn)行像素級別的重構(gòu),計算量巨大.判別式自監(jiān)督學(xué)習(xí)算法[9-12]需要各樣的輔助任務(wù)幫助模型學(xué)習(xí)表征,因此學(xué)到的表征通用性較差.對比學(xué)習(xí)自監(jiān)督學(xué)習(xí)算法[13-16]通過對比圖像間的相似程度,拉近相似的正樣本,推遠(yuǎn)不相似的負(fù)樣本.這種方式不僅簡單高效,而且避免輔助任務(wù)對所學(xué)表征的影響,使表征更具通用性.

        對比學(xué)習(xí)思想即讓正樣本接近、讓負(fù)樣本遠(yuǎn)離[17],可用于解決有標(biāo)簽的人臉識別任務(wù).但在自監(jiān)督學(xué)習(xí)任務(wù)中,因為缺少標(biāo)簽,所以很難判別圖像的相似程度.為了解決這一問題,Wu等[18]提出將每幅圖像視為一個單獨類別,基于實例對圖像進(jìn)行相似度判別.van der Oord等[19]提出InfoNCE(Information Noise Contrastive Estimation).Tian等[20]確定多種數(shù)據(jù)增強(qiáng)處理方法及正負(fù)樣本選取方式.

        近期,Chen等[13-14]提出SimCLR(A Simple Frame-work for Contrastive Learning of Visual Represen-tations),保留主干網(wǎng)絡(luò)作為下游任務(wù)的特征提取器,同時引入由兩層多層感知機(jī)(Multilayer Percep-tion, MLP)[21]構(gòu)成的投影頭,對主干網(wǎng)絡(luò)提取的特征進(jìn)行高維投影.SimCLR使用高維投影后的特征向量計算對比損失,后續(xù)的工作[22-26]均保留投影頭的設(shè)置.He等[15]提出MoCo(Momentum Contrast),同時維護(hù)一個在線更新網(wǎng)絡(luò)和一個動量更新網(wǎng)絡(luò),并在動量更新網(wǎng)絡(luò)端引入存儲庫(Memory Bank).MoCo利用存儲庫保存處理過的樣本特征,降低模型對批次大小的依賴.

        SimCLR和MoCo在圖像分類任務(wù)上取得接近監(jiān)督學(xué)習(xí)的分類精度,讓研究者們看到擺脫標(biāo)簽依賴的希望,隨后陸續(xù)提出一系列的對比學(xué)習(xí)算法.Grill等[22]改進(jìn)MoCo,提出BYOL(Bootstrap Your Own Latent),移除存儲庫,僅通過拉近正樣本完成對比學(xué)習(xí).為了避免模型塌縮,BYOL在在線更新網(wǎng)絡(luò)端新增一個由兩層MLP構(gòu)成的預(yù)測頭,通過結(jié)構(gòu)差異避免模型塌縮.Xie等[23]提出MoBY(MoCo v2 and BYOL),同時保留存儲庫和預(yù)測頭的設(shè)置.MoBY解決當(dāng)Transformers作為主干網(wǎng)絡(luò)時,預(yù)訓(xùn)練出現(xiàn)的崩潰問題.Chen等[24]認(rèn)為梯度截止是BYOL避免模型塌縮的原因,對BYOL進(jìn)行簡化并提出SimSiam(Simple Siamese Networks).Zbontar等[25]使用移除存儲庫、動量更新、梯度截止、預(yù)測頭等設(shè)計,提出BARLOW TWINS,在只有正樣本時,僅通過損失函數(shù)消除特征相關(guān)陣間的冗余,從而避免模型塌縮.Bardes等[26]延續(xù)BARLOW TWINS的思路,提出VICReg(Variance-Invariance-Covariance Regulariza-tion),設(shè)計由不變項、方差項和協(xié)方差項組成的損失函數(shù),從而避免模型塌縮.

        上述工作均采用孿生網(wǎng)絡(luò)結(jié)構(gòu),因此根據(jù)孿生網(wǎng)絡(luò)的參數(shù)共享與否,可將上述對比學(xué)習(xí)算法分為基于孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法和基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法.其中:基于孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法有SimCLR、SimSiam、BARLOW TWINS、VICReg;基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法有MoCo、BYOL、MoBY.

        基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法通常采用參數(shù)非共享的Online網(wǎng)絡(luò)和Target網(wǎng)絡(luò),Online網(wǎng)絡(luò)參數(shù)在線更新;Target網(wǎng)絡(luò)梯度截止,采用動量更新網(wǎng)絡(luò)參數(shù).Pham等[27]認(rèn)為Online網(wǎng)絡(luò)和Target網(wǎng)絡(luò)是學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的關(guān)系:將采用在線更新的網(wǎng)絡(luò)稱為學(xué)生網(wǎng)絡(luò),采用梯度截止并離線更新的網(wǎng)絡(luò)稱為教師網(wǎng)絡(luò).學(xué)生網(wǎng)絡(luò)優(yōu)化訓(xùn)練過程可認(rèn)為是向教師網(wǎng)絡(luò)學(xué)習(xí)的過程.學(xué)生網(wǎng)絡(luò)每更新一步,對教師網(wǎng)絡(luò)進(jìn)行動量更新,這一過程可認(rèn)為是教師網(wǎng)絡(luò)根據(jù)學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)反饋做出的調(diào)整.從這一角度出發(fā)理解現(xiàn)有方法:MoCo通過在教師網(wǎng)絡(luò)端加入存儲庫的設(shè)計,使教師網(wǎng)絡(luò)擁有足夠多的負(fù)樣本教導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí);BYOL是在學(xué)生網(wǎng)絡(luò)優(yōu)化階段,通過將對比損失改用均方差損失,從而迫使學(xué)生網(wǎng)絡(luò)更好地向教師網(wǎng)絡(luò)學(xué)習(xí);MoBY是將MoCo和BYOL結(jié)合,期望獲得更優(yōu)的學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò).MoCo和BYOL分別從教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)對對比學(xué)習(xí)算法做出改進(jìn),但考慮角度單一.MoBY從學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)綜合考慮,但過于依賴組件.

        本文受小批量近似更新元學(xué)習(xí)機(jī)制[28-29]啟發(fā),提出基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)算法(Contrastive Learning Based on Bilevel Optimization of Pseudo Siamese Networks, CLBO),不僅不依賴組件,而且綜合考慮學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)的優(yōu)化問題.首先提出基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略,僅采用對比損失函數(shù)作為優(yōu)化目標(biāo),讓教師網(wǎng)絡(luò)從初始狀態(tài)變?yōu)榧s束項,更好地引導(dǎo)學(xué)生網(wǎng)絡(luò)學(xué)習(xí).然后,結(jié)合Lookahead[30]優(yōu)化思想,提出基于隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)的教師網(wǎng)絡(luò)優(yōu)化策略,利用SGD更新教師網(wǎng)絡(luò)參數(shù).最后,在5個公開數(shù)據(jù)集上的實驗表明,相比目前主流的7種對比學(xué)習(xí)算法,CLBO的k-NN(k=1)分類精度和下游線性分類精度均取得最優(yōu)值.

        1 基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)

        1.1 算法框架與流程

        本文提出基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)算法(CLBO),采用完全對稱的偽孿生網(wǎng)絡(luò)架構(gòu),維護(hù)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò),具體框架如圖1所示.

        圖1 CLBO框架圖

        CLBO主干網(wǎng)絡(luò)的編碼器為ResNet[31],投影頭由兩層MLP構(gòu)成.這樣對稱的結(jié)構(gòu)更有利于引入近鄰優(yōu)化算子.在學(xué)生網(wǎng)絡(luò)優(yōu)化階段,使用在線更新方式,最小化引入InfoNCE,不僅可拉近相似樣本、推遠(yuǎn)不相似樣本,還可迫使學(xué)生網(wǎng)絡(luò)向教師網(wǎng)絡(luò)方向優(yōu)化.因此學(xué)生網(wǎng)絡(luò)可更好地向教師網(wǎng)絡(luò)學(xué)習(xí).在教師網(wǎng)絡(luò)優(yōu)化階段,使用離線更新方式,使用先行優(yōu)化K步的學(xué)生網(wǎng)絡(luò)求得教師網(wǎng)絡(luò)梯度,再利用SGD更新教師網(wǎng)絡(luò),得到最優(yōu)的教師網(wǎng)絡(luò).

        學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)是通過衡量樣本間的相似度協(xié)同學(xué)習(xí)一個用于下游任務(wù)的最優(yōu)編碼器.對比學(xué)習(xí)中學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)采用相同編碼器作為主干網(wǎng)絡(luò),因此不同于其它對比學(xué)習(xí)算法保留學(xué)生網(wǎng)絡(luò),本文保留教師網(wǎng)絡(luò)中的編碼器作為下游任務(wù)的編碼器.求解最優(yōu)教師網(wǎng)絡(luò)問題從優(yōu)化算法角度被建模成雙層優(yōu)化問題:

        其中,θ為學(xué)生網(wǎng)絡(luò)迭代過程中所得的近似最優(yōu)參數(shù),ξ為所需的教師網(wǎng)絡(luò)的最優(yōu)參數(shù),

        F(θ)=Ex~D[LInfoNCE(gθ(fθ(t(xi))),gξ(fξ(t′(xi))))].

        從數(shù)據(jù)集D取樣本xi,t(xi)和t′(xi)為來自同一樣本xi的兩種不同數(shù)據(jù)增強(qiáng)視圖,損失函數(shù)采用InfoNCE.式(1)中包含兩個階段的優(yōu)化過程.首先,在學(xué)生網(wǎng)絡(luò)優(yōu)化階段,通過教師網(wǎng)絡(luò)參數(shù)ξ約束學(xué)生網(wǎng)絡(luò)學(xué)習(xí)一個近似最優(yōu)參數(shù)θ.然后,在教師網(wǎng)絡(luò)優(yōu)化階段,通過近似最優(yōu)學(xué)生網(wǎng)絡(luò)參數(shù)θ,利用SGD優(yōu)化教師網(wǎng)絡(luò)參數(shù)ξ,獲得最優(yōu)教師網(wǎng)絡(luò).CLBO主要步驟如算法1所示.

        算法1CLBO

        輸入數(shù)據(jù)集D,批次大小N,

        數(shù)據(jù)增強(qiáng)策略T和T′,學(xué)生網(wǎng)絡(luò)優(yōu)化器A,

        教師網(wǎng)絡(luò)學(xué)習(xí)率τ,先行優(yōu)化步數(shù)K,

        教師網(wǎng)絡(luò)優(yōu)化次數(shù)S,

        隨機(jī)初始化學(xué)生網(wǎng)絡(luò)參數(shù)θ0,0,

        包括編碼器fθ0,0、投影頭gθ0,0,

        隨機(jī)初始化教師網(wǎng)絡(luò)參數(shù)ξ0,

        包括編碼器fξ0、投影頭gξ0

        輸出教師網(wǎng)絡(luò)編碼器fξ

        forn=1 toSdo

        //教師網(wǎng)絡(luò)優(yōu)化次數(shù)

        form=1 toKdo

        //學(xué)生網(wǎng)絡(luò)先行優(yōu)化次數(shù)

        //取樣

        t~T,t′~T′

        //抽取數(shù)據(jù)增強(qiáng)策略

        計算學(xué)生網(wǎng)絡(luò)投影

        v2i-1=gθn-1,m-1(fθn-1,m-1(t(xi)))

        v2i=gθn-1,m-1(fθn-1,m-1(t′(xi)))

        計算教師網(wǎng)絡(luò)投影

        計算包含近鄰優(yōu)化項的總損失

        更新學(xué)生網(wǎng)絡(luò)

        θn-1,m←θn-1,m-1+A(L,θn-1,m-1,d)

        end for

        隨機(jī)梯度下降優(yōu)化教師網(wǎng)絡(luò)

        ξn←ξn-1+τλ(θn-1,K-ξn-1)

        end for

        1.2 基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略

        在學(xué)生網(wǎng)絡(luò)學(xué)習(xí)優(yōu)化階段,主要在學(xué)生網(wǎng)絡(luò)參數(shù)更新時引入近鄰優(yōu)化算子,學(xué)生網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)時的目標(biāo)函數(shù)被重新定義為

        (1)

        其中,λ為約束學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)參數(shù)差異的超參數(shù),θn,m為在教師網(wǎng)絡(luò)優(yōu)化n次后學(xué)生網(wǎng)絡(luò)優(yōu)化m次后的學(xué)生網(wǎng)絡(luò)參數(shù),ξn為教師網(wǎng)絡(luò)優(yōu)化n次后的教師網(wǎng)絡(luò)參數(shù).

        近鄰優(yōu)化算子的引入使教師網(wǎng)絡(luò)從原先作為學(xué)生網(wǎng)絡(luò)優(yōu)化的初始項變?yōu)榧s束項,這樣不僅有利于學(xué)生網(wǎng)絡(luò)在梯度下降過程中搜索最優(yōu)解,加速收斂,而且通過約束學(xué)生網(wǎng)絡(luò)在優(yōu)化過程中向教師網(wǎng)絡(luò)方向優(yōu)化,實現(xiàn)學(xué)生網(wǎng)絡(luò)更好地向教師網(wǎng)絡(luò)學(xué)習(xí).

        1.3 基于隨機(jī)梯度下降的教師網(wǎng)絡(luò)優(yōu)化策略

        在教師網(wǎng)絡(luò)優(yōu)化階段,不同于其它算法直接利用學(xué)生網(wǎng)絡(luò)參數(shù)動量更新教師網(wǎng)絡(luò)參數(shù),CLBO利用SGD進(jìn)一步優(yōu)化教師網(wǎng)絡(luò)參數(shù).這樣的優(yōu)化方式使教師網(wǎng)絡(luò)能實現(xiàn)更快更好的收斂,獲得一個更優(yōu)的教師網(wǎng)絡(luò).

        根據(jù)一階最優(yōu)條件可知:

        (2)

        則由鏈?zhǔn)椒▌t可求得教師網(wǎng)絡(luò)參數(shù)ξn的梯度為

        由式(2),教師網(wǎng)絡(luò)參數(shù)ξn的梯度可化簡為

        上式表明教師網(wǎng)絡(luò)梯度估計可通過求解學(xué)生網(wǎng)絡(luò)的近似更新得到.

        .

        由上式的教師網(wǎng)絡(luò)梯度,利用SGD優(yōu)化教師網(wǎng)絡(luò),進(jìn)而得到最優(yōu)教師網(wǎng)絡(luò).教師網(wǎng)絡(luò)優(yōu)化策略為:

        ξn+1=ξn+τλ(θn,K-ξn),

        (3)

        其中τ為教師網(wǎng)絡(luò)優(yōu)化時的學(xué)習(xí)率.

        從上述公式推導(dǎo)過程可發(fā)現(xiàn),本文提出的基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略通過近鄰優(yōu)化項可求得教師網(wǎng)絡(luò)參數(shù)梯度.在教師網(wǎng)絡(luò)優(yōu)化階段獲得教師網(wǎng)絡(luò)參數(shù)ξn梯度的閉式解,有利于教師網(wǎng)絡(luò)收斂到一個更精確的最優(yōu)點,從而獲得最優(yōu)教師網(wǎng)絡(luò).

        基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略可認(rèn)為是現(xiàn)有基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法在教師網(wǎng)絡(luò)優(yōu)化時的一般情況.現(xiàn)有算法的教師網(wǎng)絡(luò)通常采用動量更新策略:

        ξn+1=ηξn+(1-η)θn,1

        其中η為動量更新系數(shù).取η=1-τλ,經(jīng)過簡單的移項合并,可得

        ξn+1=ξn+τλ(θn,1-ξn).

        (4)

        對比式(3)和式(4)可發(fā)現(xiàn),式(4)是式(3)中K=1的情況,因此動量更新策略可認(rèn)為是基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略的特例.正因為這樣的內(nèi)在聯(lián)系,可簡化算法的調(diào)參難度.在現(xiàn)有對比學(xué)習(xí)算法動量更新系數(shù)已知時,可確定近鄰優(yōu)化系數(shù)λ和教師網(wǎng)絡(luò)學(xué)習(xí)率τ的關(guān)系滿足

        其中,λ≠0,τ≠0.

        在實驗時,本文對學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)進(jìn)行動態(tài)優(yōu)化,具體為:近鄰優(yōu)化算子系數(shù)λ采用隨優(yōu)化次數(shù)增加逐漸以λ·epoch增大的動態(tài)調(diào)整策略;教師網(wǎng)絡(luò)學(xué)習(xí)率τ采用隨優(yōu)化次數(shù)增加逐漸以τ/epoch衰減的動態(tài)調(diào)整策略.在訓(xùn)練初始階段教師網(wǎng)絡(luò)還未明顯優(yōu)于學(xué)生網(wǎng)絡(luò)時,較小的約束系數(shù)λ使學(xué)生網(wǎng)絡(luò)學(xué)習(xí)更多新的知識,較大學(xué)習(xí)率τ有助于加快教師網(wǎng)絡(luò)收斂.伴隨優(yōu)化次數(shù)增加,教師網(wǎng)絡(luò)逐漸優(yōu)于學(xué)生網(wǎng)絡(luò),以一個增大的約束系數(shù)λ迫使學(xué)生網(wǎng)絡(luò)注重向教師網(wǎng)絡(luò)學(xué)習(xí),以較小的學(xué)習(xí)率τ保證教師網(wǎng)絡(luò)收斂的穩(wěn)定性.所以,基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略結(jié)合基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略,更有助于獲得最優(yōu)的教師網(wǎng)絡(luò).

        2 實驗及結(jié)果分析

        2.1 實驗數(shù)據(jù)集

        實驗選用當(dāng)前對比學(xué)習(xí)任務(wù)中常用的5個圖像數(shù)據(jù)集,分別為CIFAR-10[32]、CIFAR-100[32]、STL-10[33]、ImageNet-100[34]、Tiny-ImageNet[34]數(shù)據(jù)集.數(shù)據(jù)集具體信息如表1所示.

        表1 實驗數(shù)據(jù)集

        2.2 實驗設(shè)置

        在實驗中,遵循現(xiàn)有對比學(xué)習(xí)算法的預(yù)訓(xùn)練及下游任務(wù)驗證方式.所有算法的主干網(wǎng)絡(luò)編碼器均采用ResNet18,其中,在CIFAR數(shù)據(jù)集上使用Res-Net-18的CIFAR變體,其它數(shù)據(jù)集上使用標(biāo)準(zhǔn)Res-Net18.BARLOW TWINS和VICReg使用3層MLP投影頭,其它算法使用2層MLP投影頭.

        為了確保公平性,采用相同的數(shù)據(jù)增強(qiáng)策略,在CIFAR數(shù)據(jù)集上不使用高斯模糊,其它數(shù)據(jù)集上正常使用.在學(xué)生網(wǎng)絡(luò)優(yōu)化階段均使用基礎(chǔ)學(xué)習(xí)率為0.06并伴隨迭代輪次余弦衰減、權(quán)重衰減為0.000 5、動量為0.9的SGD優(yōu)化器.使用相同的超參數(shù)設(shè)定進(jìn)行實驗:批次大小為256、主干網(wǎng)絡(luò)輸出維度為128、投影頭的特征維度為512.其它超參數(shù)設(shè)置如表2所示,-表示未使用到該系數(shù),η表示動量更新系數(shù),λ表示近鄰優(yōu)化系數(shù),τ表示教師網(wǎng)絡(luò)優(yōu)化時的學(xué)習(xí)率,MB表示存儲庫(Memory Bank)樣本數(shù),Var表示方差(Variance)系數(shù),Inv表示不變性(Invariance)系數(shù),RR表示冗余項(Redundancy Reduction)系數(shù).

        表2 超參數(shù)設(shè)置

        2.3 對比實驗結(jié)果

        本文遵照2.2節(jié)實驗設(shè)置,選擇SimCLR、MoCo、BYOL、SimSiam、MoBY、BARLOW TWINS、VICReg為對比算法,在5個圖像數(shù)據(jù)集上進(jìn)行對比實驗,計算k-NN(k=1)分類精度和線性分類精度.

        本節(jié)中CLBO學(xué)生網(wǎng)絡(luò)先行優(yōu)化步數(shù)K=2,并設(shè)為消融實驗的基線.在預(yù)訓(xùn)練階段,k-NN分類作為監(jiān)視器,可實時驗證預(yù)訓(xùn)練階段主干網(wǎng)絡(luò)提取特征的好壞.在下游任務(wù)階段,凍結(jié)主干網(wǎng)絡(luò)參數(shù)直接用于線性分類任務(wù),通過線性分類精度判別對比學(xué)習(xí)算法優(yōu)劣.

        各算法在5個數(shù)據(jù)集上的分類精度對比如表3所示,所有實驗結(jié)果為3次實驗取平均后的結(jié)果.由表可看出,在各數(shù)據(jù)集上,CLBO在預(yù)訓(xùn)練階段,主干網(wǎng)絡(luò)提取特征在k-NN分類精度上取得最高值,而在下游線性分類精度上也取得最優(yōu)值.

        表3 各算法在5個數(shù)據(jù)集上的分類精度對比

        2.4 消融實驗結(jié)果

        在本節(jié)中,所有消融實驗均采用CIFAR-10數(shù)據(jù)集,主干網(wǎng)絡(luò)編碼器均采用ResNet18.

        2.4.1 基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略

        為了驗證CLBO中基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略可幫助學(xué)生網(wǎng)絡(luò)更好地學(xué)習(xí),對近鄰優(yōu)化項進(jìn)行消融實驗.學(xué)生網(wǎng)絡(luò)編碼器的k-NN分類精度如圖2所示,其中學(xué)生網(wǎng)絡(luò)不采用先行優(yōu)化策略,即K=1.由圖可知,引入近鄰優(yōu)化項在預(yù)訓(xùn)練階段的k-NN分類精度優(yōu)于移除近鄰優(yōu)化項的學(xué)生網(wǎng)絡(luò)編碼器,這表明近鄰優(yōu)化項的引入可幫助學(xué)生網(wǎng)絡(luò)更好地學(xué)習(xí).

        圖2 引入或移除近鄰優(yōu)化項的k-NN分類精度

        下面對比各算法的學(xué)生網(wǎng)絡(luò)下游線性分類精度.為了實驗公平,CLBO的學(xué)生網(wǎng)絡(luò)不采用先行優(yōu)化策略,即K=1,這樣保證所有對比算法學(xué)生網(wǎng)絡(luò)優(yōu)化次數(shù)相同.實驗結(jié)果如圖3所示.由圖可發(fā)現(xiàn),CLBO的學(xué)生網(wǎng)絡(luò)編碼器的線性分類精度最高,由此可證實,基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)可有效幫助學(xué)生網(wǎng)絡(luò)更好地向教師網(wǎng)絡(luò)學(xué)習(xí),從而獲得更優(yōu)的學(xué)生網(wǎng)絡(luò).

        (a)基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法

        2.4.2 基于隨機(jī)梯度下降的教師網(wǎng)絡(luò)優(yōu)化策略

        為了驗證基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略對教師網(wǎng)絡(luò)性能的影響,分別對先行優(yōu)化步數(shù)和隨機(jī)梯度下降策略進(jìn)行消融實驗.

        為了證實學(xué)生網(wǎng)絡(luò)先行優(yōu)化的設(shè)計有助于教師網(wǎng)絡(luò)的優(yōu)化,調(diào)整學(xué)生網(wǎng)絡(luò)先行步數(shù)K并展示采用不同先行步數(shù)獲得的教師網(wǎng)絡(luò)的線性分類精度,結(jié)果如圖4所示.

        圖4 K不同時教師網(wǎng)絡(luò)編碼器的線性分類精度對比

        由圖4可發(fā)現(xiàn),當(dāng)先行優(yōu)化1步時,教師網(wǎng)絡(luò)收斂平穩(wěn).當(dāng)先行優(yōu)化步數(shù)增大時,可加速教師網(wǎng)絡(luò)的收斂.當(dāng)?shù)喆螢?00時,先行優(yōu)化2步得到的教師網(wǎng)絡(luò)的線性分類精度達(dá)到最高并飽和衰減.

        為了驗證隨機(jī)梯度下降策略的有效性,對比有無近鄰優(yōu)化項對教師網(wǎng)絡(luò)編碼器k-NN分類精度的影響,結(jié)果如圖5所示.由圖可發(fā)現(xiàn),近鄰優(yōu)化項的引入可有效改善教師網(wǎng)絡(luò)性能.

        圖5 條件改變時教師網(wǎng)絡(luò)編碼器的k-NN分類精度對比

        保留近鄰優(yōu)化項,對比使用動量更新策略與使用SGD更新策略的教師網(wǎng)絡(luò)編碼器k-NN分類精度,結(jié)果如圖5所示.由圖可發(fā)現(xiàn),改用動量更新策略的教師網(wǎng)絡(luò)編碼器在收斂性和穩(wěn)定性上均不如采用基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略獲得的教師網(wǎng)絡(luò)編碼器,特別當(dāng)?shù)喆芜_(dá)到600后,衰減速度更快.所以,本文采用的基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略不僅可有效提高教師網(wǎng)絡(luò)的收斂性,而且在一定程度上可延緩精度衰減.

        最后對比各算法教師網(wǎng)絡(luò)編碼器的線性分類精度,結(jié)果如圖6所示.由圖可見,在下游分類任務(wù)上,CLBO得到的教師網(wǎng)絡(luò)編碼器在各迭代輪數(shù)下均最優(yōu).實驗結(jié)果表明本文的基于隨機(jī)梯度下降的教師網(wǎng)絡(luò)優(yōu)化策略可獲得更優(yōu)的教師網(wǎng)絡(luò).

        (a)基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法

        2.4.3 網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)

        本節(jié)分別討論投影頭結(jié)構(gòu)、對稱結(jié)構(gòu)、損失函數(shù)對CLBO性能的影響,通過線性分類精度體現(xiàn)設(shè)定變化是否有效,具體實驗結(jié)果如表4所示.

        先討論投影頭結(jié)構(gòu)對性能的影響.對比移除投影頭、1層MLP投影頭、2層MLP投影頭(CLBO)及3層MLP投影頭的線性分類精度可發(fā)現(xiàn):投影頭的保留對CLBO很必要.投影頭結(jié)構(gòu)隨著層數(shù)的提高確實能帶來性能上的提升,但3層MLP投影頭對性能提升作用并不明顯,僅提升0.4%的線性分類精度.因此,本文使用2層MLP投影頭作為基準(zhǔn)設(shè)定.

        表4中BARLOW TWINS與VICReg改用2層MLP投影頭后線性分類精度分別為89.04%和89.24%.相比表3中兩種算法使用3層MLP投影頭的分類精度,BARLOW TWINS的分類精度下降0.43%,VICReg的分類精度下降1.08%.相比BAR-LOW TWINS和VICReg,CLBO對更深的投影頭結(jié)構(gòu)的依賴程度更低.

        再討論對稱結(jié)構(gòu)對性能的影響.為了強(qiáng)調(diào)對稱結(jié)構(gòu)對CLBO的重要性,在學(xué)生網(wǎng)絡(luò)端增加預(yù)測頭破壞對稱結(jié)構(gòu).在該設(shè)定下,還將損失函數(shù)由InfoNCE改為MSE.由表4可知,無論使用哪種損失函數(shù),對稱結(jié)構(gòu)的破壞都會極大影響CLBO的性能,這說明對稱的結(jié)構(gòu)設(shè)計有助于提升CLBO性能.

        下面討論損失函數(shù)對性能的影響.選擇如下?lián)p失函數(shù):MSE、BARLOW TWINS Loss、VICReg Loss、InfoNCE.由表4結(jié)果可知,使用MSE損失,CLBO并不能避免模型塌縮出現(xiàn)平凡解.相比使用BARLOW TWINS Loss或VICReg Loss,InfoNCE可發(fā)揮CLBO的最佳性能.

        最后討論CLBO的通用性.觀察表4中第9行、第11行、第12行的3種實驗設(shè)定可發(fā)現(xiàn),這3種設(shè)定可認(rèn)為是將本文的雙層優(yōu)化拓展到BYOL、BARLOW TWINS與VICReg.使用雙層優(yōu)化策略后,BYOL、BARLOW TWINS、VICReg性能都略有提升,BARLOW TWINS與VICReg提升明顯優(yōu)于BYOL.本文認(rèn)為這得益于BARLOW TWINS與VICReg的對稱網(wǎng)絡(luò)結(jié)構(gòu).因此,CLBO具有較強(qiáng)的通用性,可靈活嵌入現(xiàn)有算法,改善算法性能,特別適用于網(wǎng)絡(luò)結(jié)構(gòu)對稱的對比學(xué)習(xí)算法.

        表4 網(wǎng)絡(luò)結(jié)構(gòu)與損失函數(shù)對各算法性能的影響

        2.4.4 迭代批次

        為了探究迭代批次變化對CLBO的影響,遵循2.2節(jié)實驗設(shè)置,給出僅改變迭代批次后,各算法的線性分類精度.對比結(jié)果如圖7所示.為了消融實驗的公平性,在本節(jié)中,BARLOW TWINS、VICReg與其它算法一樣,均使用兩層MLP的投影頭結(jié)構(gòu).

        由圖7可發(fā)現(xiàn),當(dāng)?shù)胃淖儠r,MoCo與MoBY線性分類精度影響較小,這得益于教師網(wǎng)絡(luò)端存儲庫的組件設(shè)計擁有額外的對比樣本.BYOL、SimSiam、BARLOW TWINS、VICReg的線性分類精度影響適中,這得益于這些方法無需負(fù)樣本.SimCLR因為依賴負(fù)樣本且無存儲庫的組件設(shè)計,所以線性分類精度影響較大.CLBO對迭代批次大小更魯棒,特別在迭代批次較小時優(yōu)勢更明顯.

        圖7 迭代批次對各算法性能的影響

        t-SNE(t-Distributed Stochastic Neighbor Embed-ding)[35]特征可視化可將網(wǎng)絡(luò)提取的特征從高維空間投射到低維空間.

        為了突出CLBO在小迭代批次上的優(yōu)勢,設(shè)定迭代批次為32,各類算法預(yù)訓(xùn)練100輪所得編碼器的t-SNE特征可視化結(jié)果如圖8所示,10種顏色表示CIFAR-10數(shù)據(jù)集上的10類樣本.由圖可發(fā)現(xiàn),相比其它算法,CLBO提取特征的分散和聚合更合理,提取的特征能分離出更多的簇,簇間距離更分散,簇內(nèi)實例特征分配更緊密.

        (a)SimCLR (b)MoCo (c)BYOL

        2.4.5 特征維度

        為了探究投影頭特征維度對CLBO的影響,遵循2.2節(jié)實驗設(shè)置,僅改變投影頭特征維度,各算法線性分類精度如圖9所示.由圖可知,隨著特征維度增加,SimCLR線性分類精度逐漸增加,并在特征維度為512時達(dá)到飽和,隨后逐漸衰減.當(dāng)特征維度較小時,BYOL與MoBY表現(xiàn)出較好的分類性能.隨著特征維度增加,BYOL與MoBY性能逐漸衰減.BAR-LOW TWINS與VICReg隨著特征維度增大而表現(xiàn)出更好的分類性能.MoCo、SimSiam與CLBO的分類精度受特征維度變化的影響較小,這表明這3種算法對投影頭特征維度具有較強(qiáng)的魯棒性.

        圖9 特征維度對各算法線性分類精度的影響

        3 結(jié) 束 語

        本文提出基于偽孿生網(wǎng)絡(luò)雙層優(yōu)化的對比學(xué)習(xí)算法(CLBO),它是一種保留教師編碼器的對比學(xué)習(xí)算法.針對基于偽孿生網(wǎng)絡(luò)的對比學(xué)習(xí)算法的學(xué)生網(wǎng)絡(luò)優(yōu)化過程和教師網(wǎng)絡(luò)優(yōu)化過程分別提出基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略和基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略.通過雙層優(yōu)化策略,促進(jìn)學(xué)生網(wǎng)絡(luò)和教師網(wǎng)絡(luò)更高效地相互學(xué)習(xí),并最終獲得最優(yōu)教師網(wǎng)絡(luò).基于近鄰優(yōu)化的學(xué)生網(wǎng)絡(luò)優(yōu)化策略迫使學(xué)生網(wǎng)絡(luò)向教師網(wǎng)絡(luò)學(xué)習(xí),獲得更優(yōu)的學(xué)生網(wǎng)絡(luò).基于SGD的教師網(wǎng)絡(luò)優(yōu)化策略可得到教師網(wǎng)絡(luò)梯度的閉式解,從而獲得最優(yōu)的教師網(wǎng)絡(luò).實驗結(jié)果表明,CLBO能有效改善學(xué)生網(wǎng)絡(luò)性能,最終獲得最優(yōu)教師網(wǎng)絡(luò),并用于下游任務(wù).今后可考慮利用CLBO在批次大小較小時的優(yōu)勢,將CLBO與小樣本學(xué)習(xí)結(jié)合,減少對比學(xué)習(xí)算法對大計算資源的依賴.

        猜你喜歡
        編碼器投影精度
        解變分不等式的一種二次投影算法
        基于最大相關(guān)熵的簇稀疏仿射投影算法
        找投影
        找投影
        基于FPGA的同步機(jī)軸角編碼器
        基于DSPIC33F微處理器的采集精度的提高
        電子制作(2018年11期)2018-08-04 03:25:38
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        GPS/GLONASS/BDS組合PPP精度分析
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        改進(jìn)的Goldschmidt雙精度浮點除法器
        亚洲高清乱码午夜电影网| 亚洲国产精品免费一区| 日韩中文字幕一区二十| 久久精品亚州中文字幕| 又色又爽又高潮免费视频观看| 曰本无码人妻丰满熟妇5g影院| 99久久精品国产片| 午夜视频一区二区三区四区| a级国产乱理伦片| 国产露脸精品产三级国产av| 亚洲AV无码一区二区一二区色戒| 久久精品av在线视频| 亚洲爆乳无码专区www| 国产69精品久久久久9999| 亚洲欧美成人中文在线网站| 国产精品美女主播在线| 国产熟妇与子伦hd| 亚洲av成人综合网| 一本色道久久综合狠狠躁中文| 中国男男女在线免费av| 国产成人一区二区三区| 色翁荡息又大又硬又粗视频| av无码精品一区二区三区宅噜噜| 日韩www视频| 中文少妇一区二区三区| 亚洲国产精品不卡av在线| 麻豆果冻传媒在线观看| 波霸影院一区二区| 超碰青青草手机在线免费观看| 天天摸天天做天天爽水多| 国产乱妇乱子视频在播放| 亚欧视频无码在线观看| 久久本道久久综合伊人| 激性欧美激情在线| 亚洲av日韩av综合aⅴxxx| 久久久国产精品首页免费| 亚洲成a人v欧美综合天堂| 中文字幕亚洲乱码熟女在线萌芽| 日韩av在线不卡一区二区三区| 一区二区三区四区免费国产视频| 国99精品无码一区二区三区|