劉曉東 費(fèi)文龍 陳亮
摘 要:卷積神經(jīng)網(wǎng)絡(luò)是一種基于局部權(quán)值共享的深度學(xué)習(xí)網(wǎng)絡(luò)模型,近些年來被提出并廣泛應(yīng)用于語音識(shí)別、圖像識(shí)別、圖像分割、自然語言等領(lǐng)域。文章分析了目前主流的卷積神經(jīng)網(wǎng)絡(luò)模型及其實(shí)現(xiàn)方法,并在殘差神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加以改進(jìn),通過增加淺層網(wǎng)絡(luò)到深層網(wǎng)絡(luò)的多個(gè)通路,將粗糙的背景信息和具有豐富細(xì)節(jié)的紋理信息加以融合,用以增強(qiáng)深層的卷積網(wǎng)絡(luò)層的特征信息,從而對(duì)具有復(fù)雜背景信息和紋理的渣土車圖像進(jìn)行識(shí)別與分類。實(shí)驗(yàn)結(jié)果表明,本方法能進(jìn)一步提升深度卷積網(wǎng)絡(luò)對(duì)于渣土車頂部覆蓋率的分類準(zhǔn)確率。
關(guān)鍵詞:圖像分類;卷積神經(jīng)網(wǎng)絡(luò);多特征融合;渣土車
建筑垃圾清運(yùn)是城市市容管理不可忽視的問題,渣土車是建筑垃圾的運(yùn)輸主力,為城市渣土運(yùn)輸作出了重要的貢獻(xiàn),然而也存在一些不能回避的渣土車治理問題,不少渣土車并沒有經(jīng)過沖洗就直接駛出工地,車輪帶出的大量泥土給城市道路帶來了不小的污染。有的渣土車嚴(yán)重超載,頂端沒有密封,隨著一路的顛簸,渣土灑落一地。此外,施工方對(duì)于渣土車的超載現(xiàn)象也不聞不問,放任自流,更促使渣土車多拉快跑,違規(guī)運(yùn)輸,對(duì)城市環(huán)境造成嚴(yán)重污染。
在黨的第十九次代表大會(huì)中, 習(xí)近平總書記指出:“我們既要綠水青山,也要金山銀山。寧要綠水青山,不要金山銀山,而且綠水青山就是金山銀山。”可見解決環(huán)境問題是我國接下來發(fā)展的重中之重。因此,本文提出一個(gè)智能監(jiān)管系統(tǒng),能夠自動(dòng)識(shí)別駛出工地的渣土車圖像是否符合環(huán)保標(biāo)準(zhǔn),從而從源頭上監(jiān)管,能夠有效地解決渣土車對(duì)城市市容環(huán)境的破壞,是具有重要意義的。
圖像分類一直是計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,近年來,深度神經(jīng)網(wǎng)絡(luò)以大規(guī)模圖像數(shù)據(jù)為驅(qū)動(dòng),自主學(xué)習(xí)各個(gè)層級(jí)的特征,從而避免了人工提取特征的繁瑣和出錯(cuò)的概率,在各類分類任務(wù)上取得突破性進(jìn)展。Lecun等[1]在1998年提出基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)算法,并將其成功運(yùn)用于手寫數(shù)字字符識(shí)別,LeNet為卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。Krizhevsky等[2]在2012年提出Alex-Net,其采用GPU訓(xùn)練模型使得其收斂時(shí)間縮短到可接受的范圍內(nèi),它本質(zhì)上就是擴(kuò)展LeNet的深度,并應(yīng)用一些ReLU和Dropout等技巧。AlexNet有5個(gè)卷積層和3個(gè)最大池化層,它可分為上下兩個(gè)完全相同的分支,這兩個(gè)分支在第3個(gè)卷積層和全連接層上可以相互交換信息。VGG-Net[3]是由英國牛津大學(xué)著名研究組VGG提出,相比Alex-Net,VGG-Net普遍使用了小卷積核以及“保持大小輸入”等技巧,目的是增加網(wǎng)絡(luò)深度時(shí)確保各層輸入大小隨深度增加而不急劇減小,因此其泛化性能較好,常用于圖像特征的抽取目標(biāo)檢測候選框生成等。在AlexNet的基礎(chǔ)上,Google Net采用Inception的結(jié)構(gòu),使用大小不同的卷積核[4],有優(yōu)良局部拓?fù)浣Y(jié)構(gòu),即對(duì)輸入圖像并行地執(zhí)行多個(gè)卷積運(yùn)算或池化操作,并將所有輸出結(jié)果拼接為一個(gè)非常深的特征圖。
1 基本原理
1.1 殘差網(wǎng)絡(luò)算法介紹
殘差神經(jīng)網(wǎng)絡(luò)借鑒了高速網(wǎng)絡(luò)的跨層鏈接思想,用恒等映射代替原來帶權(quán)值的殘差項(xiàng)[5]。假設(shè)某段神經(jīng)網(wǎng)絡(luò)的輸入是x,期望輸出為H(x),即H(x)是期望的復(fù)雜潛在映射,如果是要學(xué)習(xí)這樣的模型,則訓(xùn)練難度會(huì)比較大;如果已經(jīng)學(xué)習(xí)到較飽和的準(zhǔn)確率,那么接下來的學(xué)習(xí)目標(biāo)就轉(zhuǎn)變?yōu)楹愕扔成涞膶W(xué)習(xí),也就是使輸入x近似于輸出H(x),以保持在后面的層次中不會(huì)造成精度下降。在上圖的殘差網(wǎng)絡(luò)結(jié)構(gòu)圖中,通過捷徑連接的方式,直接把輸入x傳到輸出作為初始結(jié)果,輸出結(jié)果為:
H(x)=F(x)+x (1)
當(dāng)F(x)=0時(shí),那么H(x)=x,也就是上面所提到的恒等映射。于是,ResNet相當(dāng)于將學(xué)習(xí)目標(biāo)改變了,不再是學(xué)習(xí)一個(gè)完整的輸出,而是目標(biāo)值H(X)和x的差值,也就是所謂的殘差:
F(x) = H(x)-x (2)
因此,后面的訓(xùn)練目標(biāo)就是要將殘差結(jié)果逼近于0,使到隨著網(wǎng)絡(luò)加深,準(zhǔn)確率不下降。這種殘差跳躍式的結(jié)構(gòu),打破了傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)n-1層的輸出只能給n層作為輸入的慣例,使某一層的輸出可以直接跨過幾層作為后面某一層的輸入,其意義在于為疊加多層網(wǎng)絡(luò)而使得整個(gè)學(xué)習(xí)模型的錯(cuò)誤率不降反升的難題提供了新的方向。至此,神經(jīng)網(wǎng)絡(luò)的層數(shù)可以超越之前的約束,達(dá)到幾十層、上百層甚至千層,為高級(jí)語義特征提取和分類提供了可行性。
1.2 本文方法
鑒于卷積神經(jīng)網(wǎng)絡(luò)良好的特征提取能力與局部特征良好的特征表述能力,融合多路特征的深度學(xué)習(xí)圖像分類方法成為趨勢。本文在殘差神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合淺層的視覺特征信息和深層的語義特征信息,增強(qiáng)后續(xù)卷積運(yùn)算的特征信息,并將其運(yùn)用到渣土車頂部的覆蓋率識(shí)別分類上。由于殘差神經(jīng)網(wǎng)絡(luò)的層數(shù)較多,所以本文只挑選4個(gè)關(guān)鍵的分辨率節(jié)點(diǎn)進(jìn)行特征的融合。
2 實(shí)驗(yàn)分析
2.1 數(shù)據(jù)集的采集與制作
本文在工地監(jiān)管攝像頭上采集了一年份約10 G大小的圖片數(shù)據(jù),去除掉誤觸導(dǎo)致的無效圖片數(shù)據(jù),制作成渣土車圖片數(shù)據(jù)集,包含圖片數(shù)據(jù)約12 000張,采集圖像分辨率為1 280×720,格式為jpeg,將圖片數(shù)據(jù)集按頂部覆蓋率的情況分為全包裹、半包裹、無包裹和空車。其中75%的圖片作為訓(xùn)練集,25%的圖像作為測試集。
圖片標(biāo)定則使用One Hot Encoder的方式。One-Hot編碼即獨(dú)熱編碼,又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來對(duì)N個(gè)狀態(tài)進(jìn)行編碼,每個(gè)狀態(tài)都有它獨(dú)立的寄存器位,并且在任意時(shí)候,其中只有一位有效。這樣做的好處主要有:(1)解決了分類器不好處理屬性數(shù)據(jù)的問題;(2)在一定程度上也起到了擴(kuò)充特征的作用。
2.2 多特征融合Resnet的訓(xùn)練
為了驗(yàn)證算法的有效性,建立仿真實(shí)驗(yàn)環(huán)境:CPU處理器為i7七代處理器,內(nèi)存為16 GB,GPU處理器為NVIDIA1060。采用Google的tensorflow框架,使用語言為python。迭代次數(shù)為10 000次,學(xué)習(xí)率為0.001。訓(xùn)練方式采用Adam算法進(jìn)行梯度下降的訓(xùn)練,Adam算法,即自適應(yīng)時(shí)刻估計(jì)方法(Adaptive Moment Estimation),能計(jì)算每個(gè)參數(shù)的自適應(yīng)學(xué)習(xí)率。這意味著算法在非穩(wěn)態(tài)和在線問題上有很優(yōu)秀的性能。
Resnet算法和本文算法對(duì)于相同的訓(xùn)練集圖像的精確度隨著訓(xùn)練次數(shù)的增加數(shù)值改變,可以明顯看出本文算法相比于傳統(tǒng)算法其抖動(dòng)較為平緩,并且在第6 000次迭代左右,模型已經(jīng)收斂,而傳統(tǒng)算法在7 000次左右才開始收斂。
3 結(jié)語
針對(duì)實(shí)際應(yīng)用中對(duì)于工地監(jiān)管系統(tǒng)中渣土車的頂部覆蓋率的檢測效率和準(zhǔn)確率,本文在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)中加以改進(jìn),融合了深層的背景信息和淺層的紋理信息,能夠增加模型的泛化能力,避免復(fù)雜背景和極端天氣對(duì)于模型的影響。相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),其識(shí)別準(zhǔn)確率和速度有明顯提升。但本文算法相較于傳統(tǒng)算法其參數(shù)數(shù)量亦有較大的增加,這將作為后續(xù)的研究重點(diǎn),進(jìn)而提供工地監(jiān)管系統(tǒng)的性能。
[參考文獻(xiàn)]
[1]LECUN Y L,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998(11):2278-2324.
[2]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet classification with deep convolutional neural networks[J].Advances in Neural Information Processing Systems,2012(2):1097-1105.
[3]SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Science,2014(26):69-71.
[4]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[J].Computer Science,2014(18):152-154.
[5]SZEGEDY C,IOFFE S,VANHOUCKE V.Inception-v4,Inception-ResNet and the impact of residual connections on learning[J].Computer Science,2016(2):88-89.