佘宇 徐煥宇 戴昕宇 張福龍 白洋洋
(1.南京信息工程大學(xué),南京 210000;2.無(wú)錫學(xué)院,無(wú)錫 214000)
主題詞:雙重注意力 超分辨率重構(gòu) 交通標(biāo)志圖像分類 級(jí)聯(lián)網(wǎng)絡(luò)
在自動(dòng)駕駛系統(tǒng)和輔助駕駛系統(tǒng)中,交通標(biāo)志的識(shí)別一直是具有挑戰(zhàn)性的任務(wù)。目前,車載攝像頭受成本和帶寬的限制,成像質(zhì)量一般不高,獲得的圖片分辨率較低。為了保證安全性,車輛在接近交通標(biāo)志前就要開始檢測(cè)識(shí)別,此時(shí)得到的交通標(biāo)志區(qū)域圖像只占整幅圖像的小部分,目標(biāo)圖像分辨率較低,可提取的特征較少,正確分類較為困難。如果直接使用基于插值的方法,會(huì)使目標(biāo)圖像失去高頻細(xì)節(jié)信息,也會(huì)影響識(shí)別結(jié)果。
目前,交通標(biāo)志識(shí)別研究主要針對(duì)識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)[1],最常見的方法是加深或加寬網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)提升算法性能,但其不僅增加了計(jì)算量,還會(huì)因圖像本身分辨率不高、有效信息較少而導(dǎo)致淺層特征信息的丟失,造成網(wǎng)絡(luò)退化,從而影響分類準(zhǔn)確率,并且網(wǎng)絡(luò)設(shè)計(jì)沒(méi)有考慮到一些現(xiàn)實(shí)問(wèn)題,比如雜物遮蔽以及光線強(qiáng)弱都會(huì)使網(wǎng)絡(luò)分類性能大打折扣,致使安全性得不到保障。
圖像超分辨率(Super-Resolution,SR)作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要分支,屬于底層視覺任務(wù),通常用來(lái)將低分辨率圖像轉(zhuǎn)化為高分辨率圖像,以提升圖像的質(zhì)量和解釋性,在自動(dòng)駕駛[2]、監(jiān)控設(shè)備[3]、衛(wèi)星遙感[4]和醫(yī)學(xué)影像[5]等領(lǐng)域都有重要的應(yīng)用價(jià)值。超分辨率技術(shù)主要分為基于重建的方法和基于學(xué)習(xí)的方法。隨著深度學(xué)習(xí)的快速發(fā)展,超分辨率技術(shù)憑借細(xì)節(jié)精度高和推理速度快等優(yōu)點(diǎn)逐漸成為主流。
本文使用超分辨率網(wǎng)絡(luò)作為交通標(biāo)志識(shí)別任務(wù)的前置網(wǎng)絡(luò)。首先將低分辨率交通標(biāo)志圖像經(jīng)過(guò)前置網(wǎng)絡(luò)生成高分辨率圖像,以包含更多有效信息,然后將該圖像輸入到網(wǎng)絡(luò)中進(jìn)行分類??紤]到現(xiàn)實(shí)檢測(cè)系統(tǒng)中交通標(biāo)志圖像分辨率往往較低,且有樹枝等嘈雜背景遮蔽等情況,為突出圖像中的交通標(biāo)志區(qū)域,本文在超分辨率網(wǎng)絡(luò)中加入雙重注意力機(jī)制,對(duì)特征圖進(jìn)行空間和通道上的自適應(yīng)調(diào)整,通過(guò)加強(qiáng)或抑制特征圖中元素的權(quán)重來(lái)重點(diǎn)突出圖像中的交通標(biāo)志區(qū)域,并利用模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)驗(yàn)證本文方法的有效性。
首先將圖像數(shù)據(jù)集按照8∶2 的比例劃分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)兩部分,訓(xùn)練數(shù)據(jù)主要用于訓(xùn)練超分辨率網(wǎng)絡(luò)和分類網(wǎng)絡(luò),測(cè)試數(shù)據(jù)則用于評(píng)估超分辨率算法對(duì)分類任務(wù)的影響。分類網(wǎng)絡(luò)在訓(xùn)練過(guò)程中主要提取交通標(biāo)志的輪廓和圖形語(yǔ)義信息,對(duì)顏色屬性不敏感,所以本文試驗(yàn)均使用灰度圖像,同時(shí)可降低模型的復(fù)雜度。
在超分辨率網(wǎng)絡(luò)試驗(yàn)中,為了符合真實(shí)道路情況,需要將圖像裁剪或縮放至分辨率為40×40,并對(duì)數(shù)據(jù)進(jìn)行×2、×3和×4共3種規(guī)格的下采樣處理,再將得到的低分辨圖像輸入到超分辨率網(wǎng)絡(luò)中以獲得超分辨率圖像。下采樣操作均使用雙三次插值的方法。
Dong等[6]首次將深度學(xué)習(xí)引入超分辨率領(lǐng)域,提出超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolution Convolutional Neural Network,SRCNN),圖像重建效果遠(yuǎn)超傳統(tǒng)方法。隨后,Kim等[7]將殘差結(jié)構(gòu)引入超分辨率重建任務(wù),提出了深度殘差超分辨率網(wǎng)絡(luò)(Very Deep Convolutional Networks,VDSR),在圖像超分辨率領(lǐng)域得到了廣泛應(yīng)用[8]。Shi 等[9]創(chuàng)新地提出了高效亞像素卷積網(wǎng)絡(luò)(Efficient Sub-Pixel Convolutional Neural Network,ESPCN),這一改進(jìn)能夠讓網(wǎng)絡(luò)學(xué)習(xí)更加復(fù)雜的映射關(guān)系,后來(lái)提出的圖像超辨率方法也大都沿用了這一方法。Gao 等[10]構(gòu)建了一個(gè)用于交通圖像識(shí)別的超分辨率生成對(duì)抗網(wǎng)絡(luò)(Super-Resolution using Generative Adversarial Network,SRGAN),帶來(lái)了更好的主觀視覺效果。Yu等[11]在單幅圖像增強(qiáng)型深度殘差超分辨率網(wǎng)絡(luò)(Enhanced Deep Residual Networks for Single Image Super-Resolution,EDSR)[12]的基礎(chǔ)上,提出一種寬幅激活超分辨率網(wǎng)絡(luò)(Wide Activation for Efficient and Accurate Image Super-Resolution,WDSR),在保證相同參數(shù)量的情況下,增加了修正線性單元(Rectified Linear Unit,ReLU)激活函數(shù)前的特征圖寬度,并且創(chuàng)新地使用權(quán)重歸一化代替?zhèn)鹘y(tǒng)的批歸一化,提高了網(wǎng)絡(luò)運(yùn)算效率,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,圖中虛線框內(nèi)為寬幅殘差特征提取模塊(WDSR-B Residual Block,WRB)。
圖1 寬幅激活超分辨率網(wǎng)絡(luò)結(jié)構(gòu)
真實(shí)場(chǎng)景中交通標(biāo)志圖像四周往往含有嘈雜的背景,不利于圖像中心處交通標(biāo)志的識(shí)別。針對(duì)這一問(wèn)題,本文引入雙重注意力機(jī)制[13],通過(guò)在超分辨率網(wǎng)絡(luò)特征提取結(jié)構(gòu)的基礎(chǔ)上結(jié)合空間注意力機(jī)制,使網(wǎng)絡(luò)更加注重圖像中心交通標(biāo)志的學(xué)習(xí),有利于后期交通標(biāo)志的分類。同時(shí)加入通道注意力組成雙重注意力機(jī)制,通過(guò)網(wǎng)絡(luò)自主學(xué)習(xí)的方式獲取每個(gè)特征通道的重要程度,最后再為每個(gè)通道賦予不同的權(quán)重系數(shù),從而強(qiáng)化重要特征,抑制非重要特征。
本文在WRB 結(jié)構(gòu)中融合雙重注意力機(jī)制,改進(jìn)特征提取結(jié)構(gòu)(WDSR-B Residual Attention Block,WRAB),如圖2所示,并提出寬幅注意力超分辨率網(wǎng)絡(luò)(Wide Attention Super-Resolution,WASR)。在改進(jìn)的特征提取模塊中,輸入特征HI,先經(jīng)過(guò)1×1 卷積、ReLU激活函數(shù)和3×3卷積得到特征F,然后輸入到雙重注意力網(wǎng)絡(luò)。通道注意力(Channel Attention)單元包含全局平均池化(Pooling)、1×1卷積、ReLU激活函數(shù)和Sigmoid函數(shù),設(shè)C為輸入特征圖的通道數(shù),第1 層卷積后通道數(shù)變?yōu)镃/r(r=16 為維度壓縮比例),第2 層卷積后恢復(fù)為C層??臻g注意力(Spatial Attention)單元包含1×1卷積、ReLU 激活函數(shù)和Sigmoid 函數(shù),第1 層卷積后通道數(shù)變?yōu)镃×i(i=2 為維度擴(kuò)張比例),第2 層卷積后通道數(shù)變?yōu)?。得到通道和空間2 個(gè)特征后,分別與特征F相乘,再將2 個(gè)結(jié)果拼接起來(lái)經(jīng)過(guò)一個(gè)1×1 卷積將特征通道數(shù)恢復(fù)為C,最后與輸入特征HI相加得到輸出特征HO。
圖2 改進(jìn)的特征提取結(jié)構(gòu)
神經(jīng)網(wǎng)絡(luò)由大量的神經(jīng)元相互連接而成。每個(gè)神經(jīng)元接受線性組合的輸入后,開始只做簡(jiǎn)單的線性加權(quán),然后經(jīng)非線性的激活函數(shù)進(jìn)行非線性變換后輸出。重新審視傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)分類模型的工作方式可知,高層特征是低層特征組合的加權(quán)和,上一層輸出神經(jīng)元經(jīng)過(guò)激活函數(shù)后與下一層神經(jīng)元的權(quán)重相乘再相加,接著通過(guò)非線性激活函數(shù)進(jìn)行激活,直到利用Softmax 函數(shù)計(jì)算各標(biāo)簽的占比,從而歸為最大占比的標(biāo)簽。而目前存在的問(wèn)題是,對(duì)于元素豐富的圖片,內(nèi)容的朝向和空間上的相對(duì)關(guān)系對(duì)網(wǎng)絡(luò)特征提取來(lái)說(shuō)并不重要,它只在乎是否存在特征;而且網(wǎng)絡(luò)中的池化層會(huì)主動(dòng)丟棄大量位置信息,降低了空間分辨率,導(dǎo)致輸出對(duì)圖像空間位置的變化不敏感,從而影響網(wǎng)絡(luò)模型對(duì)于帶有方向信息以及空間朝向標(biāo)志圖像的分類判斷,造成交通安全隱患。
為了解決這一問(wèn)題,本文使用Sara提出的膠囊網(wǎng)絡(luò)(Capsule Network,CapsNet)[14],如圖3 所示,其使用向量神經(jīng)元代替?zhèn)鹘y(tǒng)的標(biāo)量神經(jīng)元,克服了CNN 對(duì)物體之間的空間辨識(shí)度差及物體大幅度旋轉(zhuǎn)后識(shí)別能力低下的缺陷,有效彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)模型的不足。膠囊相當(dāng)于打包好的神經(jīng)元,神經(jīng)元輸出標(biāo)量,膠囊輸出向量,向量攜帶了一部分空間信息(姿態(tài)信息),膠囊能更好地理解事物的組成、位置和姿態(tài)信息。膠囊網(wǎng)絡(luò)首先依靠卷積層提取交通標(biāo)志特征,通過(guò)動(dòng)態(tài)路由算法實(shí)現(xiàn)初級(jí)膠囊層到高級(jí)膠囊層的表達(dá)與傳遞,最終將其封裝成一個(gè)高維向量輸出。
圖3 膠囊網(wǎng)絡(luò)模型結(jié)構(gòu)
在級(jí)聯(lián)網(wǎng)絡(luò)的搭建中,首先使用超分辨率網(wǎng)絡(luò)作為級(jí)聯(lián)網(wǎng)絡(luò)的前置子網(wǎng)絡(luò),再以膠囊網(wǎng)絡(luò)作為級(jí)聯(lián)網(wǎng)絡(luò)的分類網(wǎng)絡(luò),超分級(jí)聯(lián)網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖4所示。
圖4 超分級(jí)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)
本文試驗(yàn)主要采用3 種公開數(shù)據(jù)集。在超分辨率網(wǎng)絡(luò)訓(xùn)練階段,主要使用2K 高清圖像(DIVerse 2K Resolution High Quality Images,DIV2K)數(shù)據(jù)集[15]和中國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)(Chinese Traffic Sign DataBase,CTSDB)。DIV2K 數(shù)據(jù)集共有1 000 張2K 高清圖像,可以使超分辨率網(wǎng)絡(luò)學(xué)習(xí)到更加良好的映射關(guān)系;CTSDB共有6 164 張交通標(biāo)志圖像,包含58 種標(biāo)志類別,且圖像質(zhì)量良好,適合作為超分辨率網(wǎng)絡(luò)針對(duì)交通標(biāo)志圖像的微調(diào)數(shù)據(jù)集。在膠囊分類網(wǎng)絡(luò)訓(xùn)練階段,使用德國(guó)交通標(biāo)志識(shí)別數(shù)據(jù)集(Germany Traffic Sign Recognition Benchmark,GTSRB),共有51 839張交通標(biāo)志圖像,包含43 種標(biāo)志類別,能有效滿足分類網(wǎng)絡(luò)對(duì)數(shù)據(jù)量的要求。交通標(biāo)志圖像部分樣本如圖5所示。
圖5 交通標(biāo)志示例
本節(jié)采用主觀效果和客觀評(píng)價(jià)指標(biāo)2 種方式,對(duì)SRCNN、SRGAN 和WDSR 經(jīng)典超分辨率算法與本文提出的改進(jìn)算法進(jìn)行對(duì)比,評(píng)價(jià)圖像重建質(zhì)量的客觀指標(biāo)使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)[16]。
訓(xùn)練過(guò)程共120 輪,前80 輪使用DIV2K 數(shù)據(jù)集進(jìn)行訓(xùn)練,后40輪使用CTSDB進(jìn)行微調(diào)。訓(xùn)練結(jié)束后,任意選取一張交通標(biāo)志圖像進(jìn)行超分辨率×2重建,如圖6所示。從圖6中可以看出:SRCNN算法的重建效果明顯好于雙三次插值算法(Bicubic),但視覺效果仍然比較模糊;SRGAN算法細(xì)節(jié)效果很清晰且比較真實(shí),但是周圍生成過(guò)多偽影導(dǎo)致指標(biāo)分?jǐn)?shù)較低;WASR算法目視效果最好,紋理細(xì)節(jié)清晰,最接近原始圖像。
圖6 重建主觀效果展示
對(duì)現(xiàn)有5 種超分辨率方法在×2、×3 和×4 放大倍數(shù)下進(jìn)行定量比較,結(jié)果如表1所示?;谏疃葘W(xué)習(xí)的方法與雙三次插值算法相比,在評(píng)價(jià)指標(biāo)和視覺效果方面都得到明顯提升,表明基于深度學(xué)習(xí)的超分辨率算法能有效提高圖像質(zhì)量。WASR 算法在各放大倍數(shù)下的客觀評(píng)價(jià)指標(biāo)和主觀視覺效果均為最優(yōu),證明了改進(jìn)的雙重注意力特征提取結(jié)構(gòu)能夠提高超分辨率算法性能。最后保存超分辨率模型參數(shù),進(jìn)行下一輪訓(xùn)練。
表1 CTSDB測(cè)試集在×2、×3、×4尺度下的超分辨率客觀評(píng)價(jià)指標(biāo)
為了驗(yàn)證超分級(jí)聯(lián)算法的有效性,本文使用德國(guó)交通標(biāo)志識(shí)別數(shù)據(jù)集,通過(guò)模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)2種驗(yàn)證方式進(jìn)行×2、×3和×4放大倍數(shù)的對(duì)比試驗(yàn)[17],試驗(yàn)結(jié)果將43類交通標(biāo)志分為禁令標(biāo)志、警告標(biāo)志和指示標(biāo)志3大類別以方便展示。
模擬數(shù)據(jù)試驗(yàn)是指在測(cè)試過(guò)程中,測(cè)試數(shù)據(jù)集的圖像預(yù)處理方式與訓(xùn)練測(cè)試集相同,即所有測(cè)試圖像分辨率均調(diào)整至40×40,再將圖像進(jìn)行下采樣操作,此時(shí)圖像分辨率降低,高頻細(xì)節(jié)丟失,隨后通過(guò)基于插值的方法(Bicubic)和基于學(xué)習(xí)的方法(WASR)重建圖像,分別將分辨率恢復(fù)至40×40,再將圖像分別輸入到膠囊網(wǎng)絡(luò)中進(jìn)行分類以完成對(duì)比試驗(yàn),最終通過(guò)分類準(zhǔn)確率衡量2種算法的重建效果。
在各縮放尺寸的試驗(yàn)中,使用上述2種重建方法分別計(jì)算3種標(biāo)志類別的分類準(zhǔn)確率,結(jié)果如表2所示。
表2 模擬數(shù)據(jù)各縮放尺寸客觀指標(biāo) %
從表2 中可以看出,在相同分辨率測(cè)試圖像中,通過(guò)超分級(jí)聯(lián)網(wǎng)絡(luò)得到的分類準(zhǔn)確率明顯優(yōu)于傳統(tǒng)插值方法。測(cè)試圖像經(jīng)過(guò)各縮放尺寸下采樣后,超分級(jí)聯(lián)網(wǎng)絡(luò)算法的分類準(zhǔn)確率比雙三次插值算法分別高6.2百分點(diǎn)、5.3百分點(diǎn)和6.1百分點(diǎn),由此可知,對(duì)于低分辨率圖像,傳統(tǒng)的雙三次插值方法只能增大圖像分辨率,難以引入額外的有效信息。超分級(jí)聯(lián)網(wǎng)絡(luò)在重建圖像并提升圖像分辨率的同時(shí),引入了相同類型的數(shù)據(jù)信息結(jié)構(gòu)進(jìn)行重建,使生成的圖像具有更多的有效信息,分類效果比較理想,也證明了超分辨率算法重建效果的優(yōu)越性。
真實(shí)數(shù)據(jù)試驗(yàn)是指在測(cè)試過(guò)程中,將測(cè)試集中的數(shù)據(jù)按照分辨率大小分為3類,不對(duì)測(cè)試圖像做任何額外處理,直接輸入至2種算法中進(jìn)行分類。
在GTSRB 中挑選25×25~30×30、30×30~35×35 和35×35~40×40 共3 種分辨率的圖像,每種標(biāo)志類別取100 張圖像用于測(cè)試,3 種標(biāo)志類別的分類準(zhǔn)確率結(jié)果如表3所示。其中CapsNet表示使用原始膠囊網(wǎng)絡(luò)分類方法,將測(cè)試圖像直接輸入至膠囊網(wǎng)絡(luò)進(jìn)行分類。WASR表示采用本文提出的超分級(jí)聯(lián)網(wǎng)絡(luò),將測(cè)試圖像先經(jīng)過(guò)超分辨率網(wǎng)絡(luò)提升分辨率,再輸入至膠囊網(wǎng)絡(luò)進(jìn)行分類。
從表3中可以看出,測(cè)試圖像的分辨率很大程度上影響分類準(zhǔn)確率。在各分辨率圖像的測(cè)試中,超分級(jí)聯(lián)網(wǎng)絡(luò)的分類準(zhǔn)確率比膠囊網(wǎng)絡(luò)分別高6.7百分點(diǎn)、7.4百分點(diǎn)和6.0 百分點(diǎn),說(shuō)明超分級(jí)聯(lián)網(wǎng)絡(luò)中的超分辨率網(wǎng)絡(luò)提高了測(cè)試圖像的分辨率,生成的圖像較測(cè)試圖像包含更多的有效信息,更有利于網(wǎng)絡(luò)的信息提取,分類準(zhǔn)確率也更高,證明了超分級(jí)聯(lián)網(wǎng)絡(luò)的有效性。
表3 真實(shí)數(shù)據(jù)各尺寸客觀指標(biāo) %
本文提出一種超分級(jí)聯(lián)網(wǎng)絡(luò)來(lái)提升交通標(biāo)志分類任務(wù)的準(zhǔn)確率。針對(duì)交通標(biāo)志分類任務(wù),在已有的超分辨率算法WDSR中融合空間注意力和通道注意力,改進(jìn)特征提取模塊,提出WASR 超分辨率網(wǎng)絡(luò),并通過(guò)不同算法和各尺寸的對(duì)比試驗(yàn)證明了改進(jìn)的特征提取結(jié)構(gòu)能夠提高超分辨率算法性能。超分級(jí)聯(lián)網(wǎng)絡(luò)無(wú)論在模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù)試驗(yàn)中,都能明顯提高分類準(zhǔn)確率,說(shuō)明經(jīng)過(guò)指定任務(wù)訓(xùn)練的超分辨率網(wǎng)絡(luò)能重建更多的圖像高頻信息,證明了超分級(jí)聯(lián)網(wǎng)絡(luò)的有效性。
本文驗(yàn)證了超分辨率重建技術(shù)能夠很好地提升自動(dòng)駕駛領(lǐng)域的計(jì)算機(jī)視覺任務(wù)效果,下一步的研究將針對(duì)車道線識(shí)別任務(wù)和語(yǔ)義分割等高級(jí)交通視覺任務(wù)應(yīng)用超分辨率前置網(wǎng)絡(luò),設(shè)計(jì)一種通用型即插即用的超分辨率網(wǎng)絡(luò)模塊,用以提升各種自動(dòng)駕駛領(lǐng)域視覺任務(wù)的效果。