張 磊,盧 婷,郭文靜,劉國(guó)華,黃秋波
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201600)
借助卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,圖像處理技術(shù)已經(jīng)在很多領(lǐng)域取得巨大突破。很多研究已經(jīng)從各個(gè)方面來(lái)提升卷積神經(jīng)網(wǎng)絡(luò)的分類性能。一些網(wǎng)絡(luò)通過(guò)加深網(wǎng)絡(luò)層數(shù)來(lái)獲得網(wǎng)絡(luò)收益,例如VGGNets[1]和Inception[2]。此外,一些網(wǎng)絡(luò)通過(guò)增加網(wǎng)絡(luò)寬度將網(wǎng)絡(luò)訓(xùn)練得更深,例如googLeNet[3]。ResNet[4]證明了跳躍連接的有效性,并將網(wǎng)絡(luò)深度擴(kuò)展到了數(shù)百層。受到 ResNet殘差思想的啟發(fā),一些網(wǎng)絡(luò)在許多具有挑戰(zhàn)性的視覺(jué)任務(wù)上取得了良好的表現(xiàn),例如 RiR[5],ResNeXt[6]和 RoR[7]。DenseNets[8]被設(shè)計(jì)來(lái)實(shí)現(xiàn)密集的跳躍連接,其中密集連接塊的每個(gè)卷積層都將其前面所有卷積層的特征圖作為輸入,執(zhí)行卷積操作之后再將其自己的特征圖傳遞給所有后續(xù)卷積層。Dual Path Network(DPN)[9]結(jié)合了 ResNets和 DenseNet,在許多計(jì)算機(jī)視覺(jué)任務(wù)中均獲得了競(jìng)爭(zhēng)性的成績(jī)。最近一些研究表明,注意力機(jī)制可以通過(guò)重新校準(zhǔn)對(duì)特征圖最有用的部分的特征響應(yīng)來(lái)有效地提高網(wǎng)絡(luò)性能,例如對(duì)圖像定位、語(yǔ)義分析[10]及圖像分類[11]?;谧⒁饬C(jī)制,一些研究通過(guò)學(xué)習(xí)特征通道與空間之間的相關(guān)性來(lái)獲得網(wǎng)絡(luò)利益。胡等人[12]提出了一個(gè)稱為“Squeeze-and-Excitation(SE)”的模塊用來(lái)執(zhí)行特征通道級(jí)特征重新校準(zhǔn),以自適應(yīng)地進(jìn)行圖像分類。王等人[13]提出了Non-local Neural神經(jīng)網(wǎng)絡(luò)通“non-local”操作來(lái)捕獲特征圖的依賴關(guān)系。
隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)越來(lái)越深,有幾個(gè)問(wèn)題值得考慮。首先,圖像特征包含全局信息、邊緣信息和紋理信息等,它們對(duì)圖像分類準(zhǔn)確性有不同的貢獻(xiàn)。但是,現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)會(huì)平等地處理這些信息。其次,考慮到 DenseNet[8]缺乏對(duì)不同類型信息的描述能力,通過(guò)設(shè)計(jì)輕量級(jí)輔助模塊來(lái)提高DenseNet的表征能力。首先,在文獻(xiàn)[14]的啟發(fā)下,構(gòu)建空間特征重新校準(zhǔn)模塊(SFRM),該模塊可以通過(guò)學(xué)習(xí)特征圖的空間相關(guān)性來(lái)執(zhí)行特征圖重新校準(zhǔn),從而加強(qiáng)那些重要的信息。其次,將SFRM嵌入到DenseNet的每個(gè)密集塊中,以提高網(wǎng)絡(luò)的表征能力?;谛碌拿芗B接塊,提出了一種新穎的網(wǎng)絡(luò)架構(gòu),稱為SFRM-DenseNet。通過(guò)在 CIFAR-10(C10)和CIFAR-100(C100)數(shù)據(jù)集上進(jìn)行充分實(shí)驗(yàn),證明了該網(wǎng)絡(luò)的有效性。
在這一部分的目標(biāo)是為卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一個(gè)輕量級(jí)的輔助模塊,以提高其表征能力。此外,該模塊要能提高卷積神經(jīng)網(wǎng)絡(luò)對(duì)不同信息的感知能力并學(xué)習(xí)到更多重要的信息。使用注意力機(jī)制來(lái)學(xué)習(xí)每張?zhí)卣鲌D上特征(像素)相關(guān)性,以此來(lái)捕獲對(duì)分類精度作用大的信息并在網(wǎng)絡(luò)中加強(qiáng)它們。如圖1所示,這是一個(gè)空間特征重校準(zhǔn)模塊(Spatial Feature Recalibration Module,SFRM),圖2是一個(gè)空間注意力(Spatial Attention,SA)單元,假設(shè)X=[x1,x2, …,xC]是空間注意力單元的輸入特征圖,SA單元使用兩層神經(jīng)網(wǎng)絡(luò),并分別在后面跟一個(gè)ReLU和一個(gè)Sigmoid激勵(lì)函數(shù)產(chǎn)生一個(gè)空間注意掩碼β∈R1×H×W。SA單元的計(jì)算方法為:
圖1 空間特征重校準(zhǔn)模塊(SFRM)Fig.1 Spatial Feature Recalibration Module
圖2 空間注意力單元Fig.2 Spatial Attention unit
式(1)中,δ(·)代表 ReLU 激勵(lì)函數(shù)、σ(·)代表 Sigmoid激勵(lì)函數(shù)、*代表卷積操作,分別是第一層卷積和第二層卷積的參數(shù),它們后面分別跟著ReLU函數(shù)和Sigmoid函數(shù)。在SFRM中將SA單元輸出的空間掩碼β對(duì)輸入特征圖進(jìn)行特征重校準(zhǔn)以增強(qiáng)那些重要的特征,特征重校準(zhǔn)過(guò)程定義為:
式(2)中Y= [y1,y2,…,yc]代表經(jīng)過(guò)特征重校準(zhǔn)之后的輸出,f表示空間特征重校準(zhǔn)操作,即將特征圖的每個(gè)空間位置特征值與其對(duì)應(yīng)的空間權(quán)重逐元素乘法。
DenseNet網(wǎng)絡(luò)結(jié)構(gòu)主要由幾個(gè)密集連接塊和兩個(gè)相鄰連接塊塊之間的過(guò)渡層(Transition Layer)組成。每個(gè)密集連接塊包含若干個(gè)卷積層,每個(gè)卷積層都將所有先前層的特征圖作為輸入并將自己輸出的特征圖輸出到其后所有層。過(guò)渡層負(fù)責(zé)控制傳輸?shù)较乱粋€(gè)密集連接塊的特征圖的大小和通道。盡管DenseNet加強(qiáng)了特征重用,但卷積核僅關(guān)注局部區(qū)域而并未考慮輸入特征圖空間上特征間的相互依賴關(guān)系。
結(jié)合SFRM的優(yōu)勢(shì),將SFRM嵌入到DenseNet的每個(gè)密集連接塊中提高網(wǎng)絡(luò)的圖像分類性能,探索不同 Dense Block結(jié)構(gòu)的分類結(jié)果及對(duì)應(yīng)的參數(shù)。首先,在每個(gè)密集塊的最后一個(gè)卷積層之后嵌入兩個(gè)串聯(lián)的 SFRM。其次,分別在密集連接塊的第二個(gè)和第四個(gè)卷積層之后嵌入一個(gè)SFRM。通過(guò)比較實(shí)驗(yàn)結(jié)果和參數(shù),發(fā)現(xiàn)使用第一個(gè)密集連接塊結(jié)構(gòu)的網(wǎng)絡(luò)帶來(lái)了大量參數(shù)。相比之下,使用第二個(gè)密集連接塊結(jié)構(gòu)的網(wǎng)絡(luò)引入了較少的參數(shù),但是這兩種新的密集連接塊實(shí)現(xiàn)了相似的分類精度。我們還嘗試將SFRM分別嵌入到每個(gè)密集塊的每一個(gè)卷積層后面,但是發(fā)現(xiàn)在參數(shù)量急劇增加的時(shí)候網(wǎng)絡(luò)性能卻沒(méi)有得到顯著改善。最后,基于圖3所示的新型密集連接塊,提出了SFRM-DenseNet。
圖3 SFRM-DenseNet中使用的新的密集連接塊Fig.3 A novel Dense Block in SFRM-DenseNet
本次實(shí)驗(yàn)使用的是CIFAR數(shù)據(jù)集,該數(shù)據(jù)集由 CIFAR-10(C10)和 CIFAR-100(C100)兩個(gè)數(shù)據(jù)集組成,這兩個(gè)數(shù)據(jù)集包含的是32×32大小的彩色自然圖像。C10數(shù)據(jù)集包含 10個(gè)類別,C100則包含100個(gè)類別的。兩個(gè)數(shù)據(jù)集的訓(xùn)練集均包含50 000張圖像,測(cè)試集均包含10 000張圖像,在訓(xùn)練集中分別隨機(jī)選擇了5 000張圖像作為各自的驗(yàn)證集。
所有的實(shí)驗(yàn)都是在Ubuntu 20.04上完成的?;趐ython3.8,使用Tensorflow作為框架構(gòu)建網(wǎng)絡(luò)模型。如上所述,訓(xùn)練集用于模型訓(xùn)練,而驗(yàn)證集用于驗(yàn)證模型的分類準(zhǔn)確性。該模型在CIFAR數(shù)據(jù)集上使用隨機(jī)梯度下降(SGD)進(jìn)行了300個(gè)epoch的訓(xùn)練,批量大小為64。我們將初始學(xué)習(xí)率設(shè)置為 0.1,然后在訓(xùn)練過(guò)程的 50%和75%處均除以10,即此時(shí)的學(xué)習(xí)率為0.01。最后,報(bào)告CIFAR-10和CIFAR-100兩個(gè)數(shù)據(jù)集中測(cè)試集上的分類錯(cuò)誤率,并與原DenseNet網(wǎng)絡(luò)及一些著名的網(wǎng)絡(luò)進(jìn)行比較,例如 FractalNet、ResNet等。
如表1、圖4、圖5所示,在 CIFAR-10和CIFAR-100數(shù)據(jù)集上,SFRM-DenseNet比DenseNet有更高的分類精度。因?yàn)?DenseNet本身實(shí)現(xiàn)的圖像分類精度很高,使用錯(cuò)誤率下降比來(lái)評(píng)估模型的性能提升幅度。通過(guò)實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)所提出的 SFRM-DenseNet模型在 CIFAR-100上的性能提升更明顯,所以圖4和圖5均是基于CIFAR-100驗(yàn)證集上平滑的錯(cuò)誤率曲線。在CIFAR-10測(cè)試集上,40層的DenseNet錯(cuò)誤率為6.67%,而 SFRM-DenseNet的錯(cuò)誤率為 6.63%。100層SFRM-DenseNet在CIFAR-10測(cè)試集上的錯(cuò)誤率為5.53%,這個(gè)錯(cuò)誤率低于100層DenseNet實(shí)現(xiàn)的5.61%。40層深的SFRM-DenseNet網(wǎng)絡(luò)和100層深的SFRM-DenseNet網(wǎng)絡(luò)在CIFAR-100測(cè)試集的錯(cuò)誤率分別為27.20%和23.80%,并且與它們分別對(duì)應(yīng)的40層DenseNet和100層DenseNet的分類錯(cuò)誤率為 27.44%和 24.25%。通過(guò)實(shí)驗(yàn),發(fā)現(xiàn)所提出的模型在CIFAR-100上的分類表現(xiàn)優(yōu)于 CIFAR-10,結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和 CIFAR數(shù)據(jù)集的特點(diǎn),我們認(rèn)為這是因?yàn)镃IFAR-100中的類別較多且信息更復(fù)雜,此外40層的網(wǎng)絡(luò)層數(shù)可能還沒(méi)達(dá)到DenseNet網(wǎng)絡(luò)的性能瓶頸。實(shí)驗(yàn)結(jié)果表明,SFRM 通過(guò)對(duì)輸入特征圖的空間相互依賴性進(jìn)行建模,可以提高DenseNet的網(wǎng)絡(luò)性能。
表1 不同網(wǎng)絡(luò)在CIFAR-10和CIFAR-100上的錯(cuò)誤率Tab.1 Error rates of different networks on CIFAR-10 and CIFAR-100 (%)
圖4 40層的DenseNet及SFRM-DenseNet在CIFAR-10驗(yàn)證集上的錯(cuò)誤率Fig.4 Test errors on CIFAR-10 validation by 40-layer DenseNet and SFRM-DenseNet
圖5 100 層的 DenseNet和SFRM-DenseNet在CIFAR-100驗(yàn)證集上的錯(cuò)誤率Fig.5 Test errors on CIFAR-100 validation by 100-layer DenseNet and SFRM-DenseNet
本文使用空間注意力機(jī)制來(lái)構(gòu)建一個(gè)輕量級(jí)的空間特征重校準(zhǔn)模塊(SFRM),該模塊可以顯示地建模特征圖空間上特征的相關(guān)性并利用該相關(guān)性對(duì)輸入特征圖進(jìn)行特征重新校準(zhǔn),以此來(lái)捕獲特征圖中重要的信息。為了提高DenseNet的表征能力,我們重新設(shè)計(jì)了DenseNet中密集卷積塊(Dense Block)的結(jié)構(gòu)并評(píng)估了多種密集連接塊的分類精度和參數(shù)量。在不引入大量參數(shù)的情況下,我們確定使用一種分類效果較好的密集連接塊,根據(jù)這個(gè)新型的密集連接快,我們提出了一種新穎的網(wǎng)絡(luò)模型并將它命名為SFRM-DenseNet。實(shí)驗(yàn)結(jié)果表明,與DenseNet和ResNet等著名的網(wǎng)絡(luò)相比,在引入極少量參數(shù)的時(shí)候,我們的SFRM-DenseNet網(wǎng)絡(luò)在 CIFAR-10和 CIFAR-100數(shù)據(jù)集上實(shí)現(xiàn)了更低的圖像分類錯(cuò)誤率。