亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積與稀疏編碼的半監(jiān)督學(xué)習(xí)方法

2022-11-23 09:09:30劉纓杰

計算機與現(xiàn)代化 2022年11期

劉纓杰，蘭海，魏憲

(中國科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所泉州裝備制造研究中心，福建泉州 362200)

0 引言

得益于網(wǎng)絡(luò)時代數(shù)據(jù)量的爆炸式增長，深度神經(jīng)網(wǎng)絡(luò)模型獲得了大量的訓(xùn)練樣本，在計算機視覺(CV)領(lǐng)域取得了巨大的進步。但是對海量數(shù)據(jù)的人工處理必不可少，如訓(xùn)練圖像識別和分類網(wǎng)絡(luò)時需為圖像添加對應(yīng)類別的標(biāo)簽、訓(xùn)練分割任務(wù)網(wǎng)絡(luò)需要為圖片中多個物體進行框選標(biāo)注等。這些基于有標(biāo)記樣本進行訓(xùn)練的模型被稱為有監(jiān)督學(xué)習(xí)模型，其主要特點在于學(xué)習(xí)過程依賴于標(biāo)記信息；同時，無監(jiān)督學(xué)習(xí)方法被提出，它們僅使用無標(biāo)記樣本，可以解決標(biāo)記樣本耗費大量人力及時間的問題，但難以應(yīng)對復(fù)雜的CV任務(wù)；還有一類模型在訓(xùn)練過程中既利用有標(biāo)記樣本，也利用無標(biāo)記樣本，它們被稱為半監(jiān)督學(xué)習(xí)[1]。半監(jiān)督學(xué)習(xí)一方面利用少量數(shù)據(jù)所提供的標(biāo)記信息，另一方面需要充分挖掘全體數(shù)據(jù)樣本的結(jié)構(gòu)、分布信息，使得模型可以更好地完成任務(wù)。利用半監(jiān)督學(xué)習(xí)算法解決實際的計算機視覺問題極具意義，它也得到了廣泛的關(guān)注和研究。

半監(jiān)督深度學(xué)習(xí)方法已經(jīng)有了優(yōu)異的表現(xiàn)，如：MeanTeacher[2]、MixMatch[3]、ReMix[4]、FixMatch[5]和CoMatch[6]，這些模型精度的提高依賴于其訓(xùn)練時對未標(biāo)記樣本添加標(biāo)簽的準(zhǔn)確性[3]。MixMatch、ReMix、FixMatch等工作基于一致性準(zhǔn)則，通過改進和利用不同的數(shù)據(jù)增廣方式，進一步提高了模型性能；CoMatch對分類概率施加平滑約束而生成更好的偽標(biāo)簽，并結(jié)合了圖方法以計算增廣樣本和原始樣本的嵌入表示。深度學(xué)習(xí)模型通過提取圖像的深層語義特征提高對未標(biāo)記樣本的分類準(zhǔn)確度，但它們往往需要進行大量的訓(xùn)練。

研究如何使模型更好地學(xué)習(xí)到強判別性特征具有重要意義?；诖?，本文回顧了半監(jiān)督學(xué)習(xí)的一種重要范式——半監(jiān)督字典學(xué)習(xí)。字典學(xué)習(xí)方法在學(xué)習(xí)圖像樣本鑒別信息的突出表現(xiàn)使其受到了廣泛的關(guān)注。圖像雖然為高維信息，但其判別信息由少數(shù)的特征決定，具有稀疏的潛在特性。因此，通過字典學(xué)習(xí)構(gòu)造過完備字典，可將圖像信息描述為少量字典原子的線性組合，即獲得圖像的稀疏表示。稀疏表示擁有更強大的表達能力，包含了可供識別和約束的信息，若將其嵌入更低維特征空間，處理速度更快，在完成半監(jiān)督任務(wù)時也有出色的表現(xiàn)。例如SSR-D[7]將無標(biāo)記樣本歸為一類，引入l2，0+范數(shù)字典約束項，增強字典學(xué)習(xí)的魯棒性，且從輸入數(shù)據(jù)中自適應(yīng)字典尺寸；由于前者的無標(biāo)記樣本總是對應(yīng)共享字典的一部分原子，而未考慮其實際所屬的類別，SSP-DL[8]為無標(biāo)記樣本構(gòu)建字典，并預(yù)測類別，進一步發(fā)掘有標(biāo)記和無標(biāo)記樣本之間的結(jié)構(gòu)關(guān)系；SSD-LP[9]分別學(xué)習(xí)有標(biāo)記樣本和無標(biāo)記樣本的字典，其中無標(biāo)記樣本的標(biāo)簽通過標(biāo)簽傳播的方式獲得；DSSDL[10]引入熵正則化避免過度重視無標(biāo)簽數(shù)據(jù)中不確定的預(yù)測的類別。顯然，稀疏字典學(xué)習(xí)方法可以從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)良好的可鑒別的稀疏編碼表示。本文希望通過聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼的優(yōu)勢，高效挖掘圖片數(shù)據(jù)中的潛在判別性特征。文獻[11]將全連接層和激活函數(shù)替換為字典學(xué)習(xí)層；文獻[12]提出了一種多層的字典學(xué)習(xí)模型DDL，旨在學(xué)習(xí)到數(shù)據(jù)固有的深層結(jié)構(gòu)；文獻[13]中所提DDLCN則將卷積層全部替換為字典學(xué)習(xí)，并在字典學(xué)習(xí)層前采用額外的特征提取器提取原始圖像的特征，組成一個深度字典學(xué)習(xí)的模型；文獻[14]將卷積神經(jīng)網(wǎng)絡(luò)和稀疏字典學(xué)習(xí)相結(jié)合應(yīng)用在高光譜圖像分類上，但卻仍為簡單的兩階段學(xué)習(xí)，沒有形成一個端對端的學(xué)習(xí)框架?？梢园l(fā)現(xiàn)，目前將稀疏編碼和深度學(xué)習(xí)相結(jié)合的相關(guān)工作中鮮有研究將此思想拓展應(yīng)用至半監(jiān)督學(xué)習(xí)，以提高模型在半監(jiān)督分類任務(wù)中的性能表現(xiàn)；同時，這些框架在更新參數(shù)時，大多僅在歐氏空間求導(dǎo)獲得相應(yīng)的梯度，并未將參數(shù)約束項帶來的幾何上的影響考慮在內(nèi)；或是加入稀疏編碼學(xué)習(xí)部分后，網(wǎng)絡(luò)梯度自動傳播機制被破壞，使得無法端對端訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)，增大了訓(xùn)練的難度。

本文基于文獻[15]工作中稀疏表示可微性的研究，實現(xiàn)自稀疏編碼至卷積神經(jīng)網(wǎng)絡(luò)的梯度傳遞，進一步探索字典學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的潛力。字典學(xué)習(xí)的輸入為深度神經(jīng)網(wǎng)絡(luò)提取到的樣本特征；字典學(xué)習(xí)同卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合更新，兩者結(jié)合為一個端對端框架，并稱為Semi-supervised Learning based on Sparse Coding and Convolution(SSSConv)框架。本文聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼充分提取和學(xué)習(xí)到圖像樣本中的鑒別性特征，盡可能保留樣本中全局和局部的結(jié)構(gòu)信息，進一步提高模型在下游任務(wù)如半監(jiān)督分類任務(wù)中的表現(xiàn)。

1 算法描述

1.1 基于卷積神經(jīng)網(wǎng)絡(luò)的半監(jiān)督深度學(xué)習(xí)方法和稀疏編碼

卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)今最為流行的機器學(xué)習(xí)模型之一，其核心為卷積運算操作，這也是與其他神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)方法的主要區(qū)別。深度卷積網(wǎng)絡(luò)一般指卷積層較多、深度較深且結(jié)構(gòu)較為復(fù)雜的卷積網(wǎng)絡(luò)模型。自AlexNet[16]被提出后，許多優(yōu)秀的深度卷積網(wǎng)絡(luò)隨之而生，或改進網(wǎng)絡(luò)結(jié)構(gòu)，或加深網(wǎng)絡(luò)深度。目前，諸如VGGNet[17]、深度殘差網(wǎng)絡(luò)ResNet[18]依然是被廣泛應(yīng)用且表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡(luò)模型，同時也衍生了大量變種模型，如更寬的殘差網(wǎng)絡(luò)WideResNet[19]、更深的殘差網(wǎng)絡(luò)[20]及ResNeXt[21]等。其中有大量基于卷積神經(jīng)網(wǎng)絡(luò)[2-6，22-25]的半監(jiān)督深度學(xué)習(xí)方法，如MeanTeacher[2]、MixMatch[3]、ReMix[4]、FixMatch[5]和CoMatch[6]中所提出的半監(jiān)督模型以WideResNet或ResNet為骨干網(wǎng)絡(luò)。

研究認為，圖像作為自然信號，可以在一個過完備字典上稀疏線性表出，相應(yīng)的線形組合表達形式被稱為圖像的稀疏編碼或稀疏表示。字典學(xué)習(xí)算法通過不斷交替更新稀疏編碼和字典，直至滿足迭代要求如迭代次數(shù)或重構(gòu)誤差閾值。其中，將求取數(shù)據(jù)稀疏編碼的過程稱為“稀疏表示學(xué)習(xí)”，強調(diào)樣本可以擁有更為稀疏的表示形式，探索樣本在已有字典下的最近似稀疏解(即重構(gòu)誤差最小)；“字典學(xué)習(xí)”則側(cè)重于學(xué)習(xí)得到能將普通稠密數(shù)據(jù)表征為稀疏編碼形式的字典。因此有稀疏表示學(xué)習(xí)的目標(biāo)方程如下所示：

(1)

其中，X=[x1，x2，…，xn]∈m×n為原始數(shù)據(jù)(即給定的樣本)，m和n分別表示樣本維數(shù)和樣本數(shù)量；Φ=[φ1，φ2，…，φn]∈Q×n為稀疏編碼，g(φi)為對稀疏編碼的約束條件；D=[d1，d2，…，dn]∈m×Q為字典，Ω為對字典的約束；為避免所得字典的原子(D的列)中元素為無窮大，本文又將字典D的原子di的范數(shù)進一步約束至1，即可以認為字典位于Q乘m-1維度的斜流形(Oblique Manifold)之上，因此有：

(2)

本文對稀疏編碼Φ的約束為彈性網(wǎng)絡(luò)(Elastic Net)約束[25]，即：

(3)

此時，稀疏編碼的優(yōu)化問題為：

(4)

當(dāng)稀疏正則項如式(3)所示時，可保證式(1)為嚴(yán)格凸，這使得稀疏編碼優(yōu)化問題成為顯式的最小化問題，有助于學(xué)習(xí)到合適的稀疏表示解，且該解具有唯一性。

(5)

其中，Λ為φ中非零元素所在位置坐標(biāo)。綜上，稀疏編碼模型為：

(6)

字典學(xué)習(xí)(稀疏表示學(xué)習(xí))算法具有很強的信息提取能力，能夠在分類任務(wù)中為模型提取得到數(shù)據(jù)的判別性特征表示。

1.2 框架結(jié)構(gòu)

本文基于卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼，提出一種將兩者相結(jié)合，應(yīng)用于半監(jiān)督學(xué)習(xí)和分類任務(wù)的端對端訓(xùn)練框架。所提算法一方面可以利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征高層語義信息的能力；另一方面，稀疏編碼在良好表示網(wǎng)絡(luò)所提取特征的同時，具備了更強的可判別性，半監(jiān)督學(xué)習(xí)模型能夠更好地利用無標(biāo)記樣本，輸出的分類結(jié)果也更為準(zhǔn)確。

基于卷積與稀疏編碼的半監(jiān)督分類框架的基本結(jié)構(gòu)如圖1所示。

圖1 SSSConv結(jié)構(gòu)圖

由圖1可知，所提框架的圖像分類流程：首先輸入圖像數(shù)據(jù)，由卷積神經(jīng)網(wǎng)絡(luò)最后一層卷積層輸出特征信息；對該卷積特征進行正交映射以降低維度，同時將每個樣本的特征進一步展開為列向量，組合得到一個特征矩陣；求解字典，獲得特征矩陣的稀疏編碼，并再次利用正交映射進行降維；最后輸入分類器中，得到分類結(jié)果。該框架的更新流程將在下文中詳細介紹。

1.3 算法優(yōu)化策略及其梯度傳遞

1.3.1 損失函數(shù)

通過卷積神經(jīng)網(wǎng)絡(luò)獲得圖像的CNN特征矩陣，假設(shè)對其正交映射后得到X=[x1,x2,…,xn]∈m×n，根據(jù)Φ求取其稀疏編碼Φ。則可以利用跡商準(zhǔn)則進一步完成如圖像分類等任務(wù)。跡商最大化問題如下：

其中，tr(·)表示求跡操作。跡商模型被構(gòu)造為廣義的奇異值問題，通過尋找最優(yōu)映射矩陣V，使得稀疏編碼在分布上盡量能夠類內(nèi)相聚、類間分開，這與構(gòu)建類內(nèi)散度矩陣和類間散度矩陣本質(zhì)是一致的。令U位于斯蒂弗爾流形，即S(K，Q):={U∈Q×K|UTU=IK}(Stiefel Manifold)，V=UUT最優(yōu)解非唯一[26]，位于m維實數(shù)空間的低維線性子空間集之中，即格拉斯曼流形G(K，Q):={UUT|U∈U(K，Q)}(Grassmann Manifold)。

A、B是關(guān)于稀疏表示的函數(shù)，當(dāng)它們關(guān)于字典D以及樣本X可導(dǎo)時，該損失函數(shù)可導(dǎo)。A、B一般為上三角半正定矩陣，其構(gòu)造方法需要根據(jù)投影算法不同進行變化，本文以線性判別分析(Linear Discriminant Analysis， LDA)算法為例，有：

B=Φdiag(Πn1，0，，…，Πnc，0)ΦT

(7)

(8)

獲得稀疏編碼后，可再次對其降維，借此進一步到達更低維度的分類空間以降低計算量，隨后利用如LDA、SVM等方法進行分類，即通過有標(biāo)記樣本特征的稀疏編碼的低維嵌入表示和標(biāo)簽進行聚類擬合后，進一步預(yù)測無標(biāo)記樣本的標(biāo)簽，并將其作為當(dāng)前迭代無標(biāo)記樣本的真實標(biāo)簽。此時可以計算無標(biāo)記樣本的損失值Lossu2，并傳入網(wǎng)絡(luò)模型更新參數(shù)。Lossu2可寫為：

(9)

Lossunlabeled=aLossu1+bLossu2

(10)

其中，a、b分別為兩者的權(quán)重系數(shù)。最終模型傳入的損失值為：

Loss=w1Losslabeled+w2Lossunlabeled

(11)

其中，w1、w2為有標(biāo)記樣本損失值和無標(biāo)記樣本損失值的權(quán)重系數(shù)。這部分的損失值直接傳入骨干模型即卷積神經(jīng)網(wǎng)絡(luò)中。

1.3.2 字典、映射矩陣的幾何優(yōu)化

1.3.1節(jié)介紹了本文提出框架所涉及的損失函數(shù)。對于神經(jīng)網(wǎng)絡(luò)，在設(shè)定損失函數(shù)或傳入損失值后，即可通過梯度回傳機制更新其所含參數(shù)。對于字典D、映射矩陣V，它們被約束在黎曼流形上，本文采用幾何共軛梯度優(yōu)化方法進行更新。首先計算相應(yīng)的歐氏梯度，對映射矩陣V的歐氏梯度為：

(12)

(13)

此時，可得?f(D)。

設(shè)乘積流形M:=O(m，Q)×G(K，Q)，且C:=(D，V)，則點C處切空間可表示為TCM:=TDO(m，Q)×TVG(Q，K)；C處黎曼梯度滿足〈gradf(D，V)，H〉=(Df(D)，Df(V))[H]，?H∈TCM。本文將損失函數(shù)定義在黎曼流形上全局可微，而黎曼流形可視作歐氏空間的嵌入子流形，因此通過將標(biāo)準(zhǔn)歐氏梯度(?f(D)，?f(V))正交投影至相應(yīng)的黎曼流形的切空間[28]，解得黎曼梯度。已知斜流形上Y點所在切空間TYO:={X∈m×q|ddiag(YTX)=0}及格拉斯曼流形上Y點所在切空間TYG:={YX-XY|X=-XT}中均有內(nèi)積運算〈X，Y〉=tr(XTY)，結(jié)合黎曼梯度性質(zhì)，可得正交投影操作projDY(·):TYO及projVY(·):TYG以及黎曼梯度如下所示：

(14)

式中ddiag(·)表示取矩陣的對角元素為一個對角陣；projDY(·):TYO和projVY(·):TYG可分別將歐氏梯度正交投影至斜流形上Y點所在切空間TYO和格拉斯曼流形上Y點所在切空間TYG。

利用黎曼梯度和向量傳輸(Vector Transport)操作TC0，HM:TC0M→TC1M構(gòu)成新的方向向量H，參數(shù)依此方向在切平面上進行移動；回縮(Retraction)操作ΓCM:TCM→M將位于切空間的C點平滑映射回到流形，得到更新之后的參數(shù)。

(15)

在乘積流形M上有：

(16)

其中，t為步長，需大于零；(·)Q及(·)R表示QR分解所得矩陣。

圖2為流形上回縮操作和向量傳輸操作示意圖。

圖2流形上回縮操作和向量傳輸操作示意圖

在流形上的共軛梯度更新流程如下：

2)已知?f(Dj)和?f(Vj)，根據(jù)式(14)計算對應(yīng)黎曼梯度gradf(Dj，Vj)；當(dāng)j=0時，H0=-gradf(C0)。

3)根據(jù)式(16)所求回縮操作ΓCM變換得到新Dj+1，Vj+1，即Cj+1=(Dj+1，Vj+1)，已知新字典，同時求取對應(yīng)的稀疏編碼；此外，通過向量傳輸操作TCj，HjM，得到Hj+1=-gradf(Cj+1)+βTCj，HjM；為使TCj，HjM與

HessianCjf共軛，令：

1.3.3 算法實現(xiàn)

本文所提方法可實現(xiàn)端對端的半監(jiān)督分類學(xué)習(xí)模型訓(xùn)練，在訓(xùn)練過程中，所加載數(shù)據(jù)包含了有標(biāo)記樣本和無標(biāo)記樣本。模型結(jié)構(gòu)如圖1所示，訓(xùn)練步驟如下：

1)在進行圖像預(yù)處理后，將樣本送入半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)中，除了得到predictModel，還從最后一個卷積層輸出網(wǎng)絡(luò)所提取的特征。

2)對卷積特征進行正交降維映射后，進行字典學(xué)習(xí)并獲得相應(yīng)的稀疏編碼，求取稀疏編碼的正交映射低維稠密表示，并進一步通過分類器得到分類結(jié)果predictOurs。

3)根據(jù)式(6)、式(8)和式(11)，計算梯度和損失值，分別更新字典、稀疏編碼、映射矩陣、以及半監(jiān)督神經(jīng)網(wǎng)絡(luò)的參數(shù)，其中字典的更新和映射矩陣的更新詳見1.3.2節(jié)介紹的流形參數(shù)共軛梯度更新流程。

4)重復(fù)以上步驟，直至達到最大更新迭代次數(shù)或損失值收斂。

2 分析與討論

為驗證本文所提框架的有效性，本文在公開圖像數(shù)據(jù)集CIFAR-10、SVHN及CIFAR-100上進行實驗。由于FixMatch為目前表現(xiàn)最為優(yōu)異的半監(jiān)督學(xué)習(xí)方法之一，同時作為半監(jiān)督深度學(xué)習(xí)方法，相較于半監(jiān)督字典學(xué)習(xí)如OSSDL、SSP-DL、SSD-LP等已經(jīng)有了極大的提升，因此，本文實驗主要同MixMatch、ReMixMatch及FixMatch進行比較。同時，本文所提方法將主要以MixMatch和FixMatch為骨干模型進行，在下文分別簡寫為Ours(-MixMatch)和Ours(-FixMatch)，或SSSConv(-MixMatch)和SSSConv(-FixMatch)。表1為實驗所用數(shù)據(jù)集。

表1 實驗所用數(shù)據(jù)集

2.1 參數(shù)設(shè)置和實驗環(huán)境

本節(jié)將介紹框架骨干神經(jīng)網(wǎng)絡(luò)和字典學(xué)習(xí)(稀疏表示)的相關(guān)參數(shù)，并進一步確定關(guān)鍵參數(shù)的取值。用于半監(jiān)督學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)的超參數(shù)依然有學(xué)習(xí)率和訓(xùn)練樣本的batch大小；在訓(xùn)練過程中，學(xué)習(xí)率設(shè)置從0.01開始，均結(jié)合動量項0.9；訓(xùn)練樣本的batch大小均設(shè)置為64。學(xué)習(xí)字典和稀疏編碼的過程中主要有4個參數(shù)，分別為稀疏約束項參數(shù)λ、字典的第二維度大小Q、初始化字典所用樣本數(shù)量N，以及字典初始化時更新迭代次數(shù)t。其中，字典更新迭代次數(shù)由重構(gòu)誤差進行判斷，如圖3所示，當(dāng)t大于10時，誤差變化幅度極小，如當(dāng)字典第二維度大小設(shè)置為2048時，平均重構(gòu)誤差最小。

圖3 迭代次數(shù)t與字典大小對稀疏編碼重構(gòu)誤差的影響

同時，以CIFAR-10為例，設(shè)置λ從0～1取值，N和Q從1000～50000中取值，通過網(wǎng)格搜索確定3個超參數(shù)的最佳配對(N，Q，λ)，以獲得最佳的分類精度?？梢园l(fā)現(xiàn)，當(dāng)稀疏約束項參數(shù)取值0.1～0.2，字典第二維度與初始化字典所用樣本數(shù)量相等且每類樣本盡量多時，精度較高。但由于字典維度越大，需要的計算量越大，綜合考慮性能和效率，本文將減少一定的字典維度和訓(xùn)練字典所用樣本的數(shù)量。

2.2 實驗結(jié)果

本文在CIFAR-10、SVHN及CIFAR-100數(shù)據(jù)集上進行實驗，同MixMatch、MixMatch的改進版本ReMixMatch，以及如今性能最為優(yōu)異的FixMatch方法進行比較。實驗中所有模型的最大訓(xùn)練迭代次數(shù)均為1024；模型精度指其在測試集中進行5次實驗后所得的平均分類準(zhǔn)確度。

(a) 測試損失值

(b) 訓(xùn)練損失值圖4 本文所提Ours(-FixMatch)在CIFAR-10數(shù)據(jù)集上的的收斂曲線

1)CIFAR-10包含10個類別的60000張圖像，每類6000張，圖像尺寸均為32×32。訓(xùn)練集和測試集分別為50000張和10000張，每類所含圖像數(shù)目一致。實驗結(jié)果如表2所示，每次實驗隨機選取CIFAR-10中的80、250、500及1000個訓(xùn)練樣本作為有標(biāo)記樣本，其余訓(xùn)練樣本為無標(biāo)記樣本，剩余的全部作為測試樣本。在CIFAR-10數(shù)據(jù)集中，SSSConv的半監(jiān)督分類精度平均提高了0.50個百分點；當(dāng)有標(biāo)記樣本數(shù)量為80時，本文所提模型相較于此前SOTA模型提升最大，為1.35個百分點；當(dāng)有標(biāo)記樣本為250時，Ours(-FixMatch)的分類精度已經(jīng)比有標(biāo)記樣本為500時的原SOTA精度95.42%更高；且經(jīng)測試，有監(jiān)督學(xué)習(xí)ResNet-34精度為95.69%，可見當(dāng)有標(biāo)記樣本數(shù)量為1000時，Ours(-FixMatch)(即SSSConv(-FixMatch))為95.64%，相差不到0.1個百分點。

2)圖4可視化了數(shù)據(jù)集為CIFAR-10時本文所提框架Ours(-FixMatch)優(yōu)化過程的收斂曲線，其中圖4(a)為測試的損失值，圖4(b)為訓(xùn)練的損失值。同時，可以發(fā)現(xiàn)，模型訓(xùn)練剛開始時，訓(xùn)練損失值和測試損失值均迅速下降，隨著訓(xùn)練進行，訓(xùn)練損失值下降放緩，測試損失值始終保持下降趨勢。當(dāng)訓(xùn)練迭代次數(shù)接近設(shè)定閾值1024次時，模型的測試損失值同訓(xùn)練損失值接近，且變化幅度較小，說明模型達到了良好擬合的狀態(tài)。卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)合稀疏編碼的過程中，目標(biāo)一致，有效地提高了學(xué)習(xí)模型的分類性能。

3)從圖5和圖6可以發(fā)現(xiàn)，MixMatch和FixMatch結(jié)合本文所提方法(即Ours(-MixMatch)和Ours(-FixMatch)后，訓(xùn)練過程中的分類精度和最終的分類結(jié)果均優(yōu)于骨干模型(MixMatch和FixMatch)。在有標(biāo)記樣本數(shù)量較少時，本文所提框架表現(xiàn)優(yōu)異，尤其在訓(xùn)練初期，模型的測試精度提升速度有顯著的提升，如CIFAR-10中有標(biāo)記樣本數(shù)量為80時，本文所提方法Ours(-FixMatch)比其骨干網(wǎng)絡(luò)FixMatch方法提升精度達到5個百分點。結(jié)果表明本文所提算法框架有效，其獲得的圖像表示具有更強的可鑒別能力，提高了分類器的分類性能，賦予未標(biāo)記樣本的標(biāo)簽也更為準(zhǔn)確，有效地提高了骨干模型的性能表現(xiàn)。

圖5 MixMatch及本文方法的測試精度變化曲線(CIFAR-10)

圖6 FixMatch及本文方法的測試精度變化曲線(CIFAR-10)

4)表3展示了本文所提框架SSSConv(-FixMatch)在SVHN數(shù)據(jù)集和CIFAR-100數(shù)據(jù)集中的精度表現(xiàn)。SVHN和CIFAR-10均含有10個類別；其圖片是來源于谷歌街景門牌號碼，為32×32彩色圖片，有73257張用于訓(xùn)練，26032張用于測試，還包含有531131個數(shù)字額外數(shù)據(jù)集，額外數(shù)據(jù)集在本文中未使用；CIFAR-100則包含100個類別，訓(xùn)練集和測試集分別有50000張和10000張。本文在實驗中隨機從SVHN的訓(xùn)練集中選取40張、250張、1000張圖片作為有標(biāo)記的訓(xùn)練樣本，其余的為無標(biāo)記訓(xùn)練樣本，測試集不變，仍為10000個測試樣本；在CIFAR-100的實驗中，隨機選取400、2500、10000個樣本進行半監(jiān)督實驗。本文所提算法首先對卷積特征進行稀疏編碼，并利用正交映射降低編碼維度，充分利用了無標(biāo)記樣本和有標(biāo)記樣本的結(jié)構(gòu)信息；在SVHN中平均提升了0.54個百分點的準(zhǔn)確度，CIFAR-100中平均提升了0.49個百分點，其中當(dāng)有標(biāo)記樣本數(shù)為2500時，提升了0.69個百分點。實驗結(jié)果再次表明本文算法對現(xiàn)有的半監(jiān)督方法有顯著的提升效果。

表2 CIFAR-10訓(xùn)練集中分別有80、250、500、1000個樣本為有標(biāo)記樣本時的分類精度單位：%

表3 SVHN訓(xùn)練集中有40、250、1000個有標(biāo)記樣本時的分類精度與CIFAR-100訓(xùn)練集中有400、2500、10000個有標(biāo)記樣本時的分類精度單位：%

3 結(jié)束語

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和稀疏編碼的端對端半監(jiān)督學(xué)習(xí)方法，首先通過研究稀疏回歸解的可微性，并進一步設(shè)計統(tǒng)一損失函數(shù)、推導(dǎo)參數(shù)梯度以解決稀疏編碼字典學(xué)習(xí)部分與半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)部分間的梯度傳遞問題，實現(xiàn)端對端訓(xùn)練，最后結(jié)合兩者的優(yōu)勢提高了模型框架在半監(jiān)督分類問題的表現(xiàn)。實驗結(jié)果表明，該結(jié)構(gòu)可以很好地適應(yīng)現(xiàn)有的先進的半監(jiān)督深度學(xué)習(xí)方法，在分類任務(wù)中表現(xiàn)優(yōu)秀，具有競爭力。