向 偉, 史晉芳, 劉桂華, 徐 鋒, 黃占鰲
(1.西南科技大學(xué) 制造科學(xué)與工程學(xué)院,四川 綿陽(yáng) 621010; 2.西南科技大學(xué) 制造過(guò)程測(cè)試技術(shù)省部共建教育部重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621010; 3.西南科技大學(xué) 特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實(shí)驗(yàn)室,四川 綿陽(yáng) 621010)
水面生活垃圾自動(dòng)清理船體積小,工作機(jī)動(dòng)靈活效率高。水面垃圾有效識(shí)別是水面垃圾自動(dòng)清理船清理水面垃圾的第一步。目前針對(duì)水面垃圾識(shí)別的相關(guān)研究并不多。王斌和葉曉杰人等采用基于紅外圖像的檢測(cè)方法來(lái)識(shí)別水面物體[1,2],但受到水面環(huán)境復(fù)雜多變和水面目標(biāo)眾多的干擾,導(dǎo)致識(shí)別率低下。李昀峰等人采用目標(biāo)顯著性區(qū)域提取技術(shù)的檢測(cè)方法來(lái)識(shí)別水面物體[3,4],但目標(biāo)顯著性區(qū)域提取技術(shù)容易受到水面物倒影和波紋的干擾,導(dǎo)致識(shí)別受到影響。薛萍采用超像素識(shí)別率分割方法對(duì)水面物體進(jìn)行分割識(shí)別[5],但會(huì)受水面波紋影響。方晶等人采用視覺(jué)注意機(jī)制的目標(biāo)檢測(cè)方法來(lái)識(shí)別水面目標(biāo)[6],但水面氣候復(fù)雜、目標(biāo)眾多會(huì)影響識(shí)別精度。魏建榮采用基于紋理特征的水面目標(biāo)檢測(cè)方法[7],該方法易受水面建筑物和岸體輪廓的干擾,影響水面垃圾識(shí)別。
深度學(xué)習(xí)具有深層神經(jīng)網(wǎng)絡(luò),深層神經(jīng)網(wǎng)絡(luò)擁有多個(gè)隱藏層的人工神經(jīng)網(wǎng)絡(luò)具有非常強(qiáng)大的特征學(xué)習(xí)能力,通過(guò)訓(xùn)練模型提取的特征對(duì)原始輸入數(shù)據(jù)形成了更高效的特征提取[8~10]。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的一種較為成功的模型,在圖像分類和圖像識(shí)別領(lǐng)域較為突出[11~13],所以將深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)方法運(yùn)用來(lái)識(shí)別水面垃圾。
本文采用改進(jìn)的CaffeNet網(wǎng)絡(luò)能減少水面復(fù)雜環(huán)境對(duì)垃圾識(shí)別的干擾,提高了水面垃圾的識(shí)別率。
CaffeNet第一層輸入數(shù)據(jù)大小為227×227×3,卷積核大小為11×11,卷積核數(shù)量(num_output)為96,步長(zhǎng)(stride)為4,卷積后數(shù)據(jù)大小為55×55×96,經(jīng)過(guò)relu1后數(shù)據(jù)大小不改變。接著進(jìn)行池化,pool1核大小為3×3,步長(zhǎng)(stride)為2,pool1后數(shù)據(jù)大小為27×27×96,接著進(jìn)行大小為5×5的歸一化處理。
CaffeNet第二層輸入數(shù)據(jù)大小為27×27×96,圖像邊緣擴(kuò)充層數(shù)(pad)為2,卷積核大小為5×5,步長(zhǎng)(stride)為1,卷積核數(shù)量(num_output)為256卷積后數(shù)據(jù)大小為27×27×256,經(jīng)過(guò)relu2后數(shù)據(jù)大小不改變,接著進(jìn)行池化,pool 2核大小為3×3,步長(zhǎng)(stride)為2,pool2后數(shù)據(jù)大小為13×13×256,接著進(jìn)行歸一化處理,歸一化運(yùn)算的尺度為5×5[16]。
CaffeNet第3、第4層只進(jìn)行了Conv和ReLU。第五層使用了卷積、ReLU、池化操作。在得到第5層的結(jié)果后,將結(jié)果變成一個(gè)長(zhǎng)向量,輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,最后3層使用全連接的網(wǎng)絡(luò)結(jié)構(gòu)。
1)CaffeNet模型的卷積核較大,用來(lái)識(shí)別水面倒影效果較差,為了提取到更精確的水面特征,需要縮小卷積核的大小,減小水面波紋和物體倒影的影響。把第1層卷積核的大小進(jìn)行調(diào)整實(shí)驗(yàn),當(dāng)卷積核大小為9×9時(shí)對(duì)水面物體倒影的識(shí)別情況最好,把第1層的卷積核大小改為9×9。
2)CaffeNet模型第3層和第4層的特征提取能力和分類效果比前面兩層好[17],第3層和第4層的卷積核個(gè)數(shù)為384,把第3層和第4層的卷積核個(gè)數(shù)增加到398,以增強(qiáng)模型的特征提取能力。
3)CaffeNet第4層的分類效果要強(qiáng)于前面各層[18],在第3層與第4層之間增加一層稀疏結(jié)構(gòu)Inception module,使其增加網(wǎng)絡(luò)的寬度和深度,從而提升該深度卷積網(wǎng)絡(luò)模型性能。
稀疏結(jié)構(gòu)如圖1所示。
圖1 稀疏結(jié)構(gòu)
在3×3,5×5卷積操作之前使用1×1卷積核,有降維和增強(qiáng)網(wǎng)絡(luò)的特征提取能力的作用。接下來(lái)進(jìn)行卷積特征提取,Inception module中1×1卷積核,3×3卷積核,5×5卷積核,能將多尺度特征集合在一起,讓后一層網(wǎng)絡(luò)能同時(shí)提取不同尺寸下的特征,增強(qiáng)網(wǎng)絡(luò)特征提取能力。
實(shí)驗(yàn)的深度神經(jīng)網(wǎng)絡(luò)搭建在caffe深度學(xué)習(xí)框架上,運(yùn)用Python語(yǔ)言編程實(shí)現(xiàn),工作站為戴爾T7810工作站,內(nèi)存為16 G,顯卡為MT4000,雙核cpu12核心,3.4 G主頻。自動(dòng)清理船內(nèi)部有GPS導(dǎo)航設(shè)備,船體前方頂部安裝一部高度為1 m的海康400萬(wàn)像素監(jiān)控?cái)z像頭,鏡頭可以小幅轉(zhuǎn)動(dòng),攝像機(jī)采集到水面垃圾圖像后將圖像傳到工作站進(jìn)行實(shí)時(shí)處理。
水面垃圾自動(dòng)清理船圖像采集地點(diǎn)在大型湖泊上,晴天和陰天湖面狀態(tài)有較大差異,需要采集到晴天和陰天不同時(shí)刻大量的水面垃圾樣本。
為了提高水面垃圾識(shí)別的準(zhǔn)確率,需要增加樣本量和樣本種類。本實(shí)驗(yàn)中采集了大量垃圾樣本以及對(duì)垃圾識(shí)別影響比較大的非垃圾樣本。水面漂浮的玻璃瓶子由于陽(yáng)光照射產(chǎn)生和波紋相似的反光,會(huì)對(duì)水面垃圾識(shí)別造成干擾,所以將垃圾樣本分為水面玻璃瓶子垃圾和生活垃圾。由于水面環(huán)境復(fù)雜,水面橋梁、水面物體倒影和水面波紋變化等均可能被識(shí)別為垃圾,所以將這些復(fù)雜環(huán)境樣本做為非垃圾樣本進(jìn)行學(xué)習(xí)和訓(xùn)練。
在圖像的深度學(xué)習(xí)中,為了豐富圖像訓(xùn)練集,更好地提取圖像特征,泛化模型(防止模型過(guò)擬合),將樣本圖像進(jìn)行數(shù)據(jù)增強(qiáng),常用的方式:旋轉(zhuǎn)圖像、剪切圖像、改變圖像色差、扭曲圖像特征、改變圖像尺寸大小和增強(qiáng)圖像噪音[19]。
收集到各類樣本各1 500張,然后進(jìn)行數(shù)據(jù)增強(qiáng),把每種類型的圖片通過(guò)隨機(jī)翻轉(zhuǎn)、顏色抖動(dòng)等方式進(jìn)行處理,把樣本大小統(tǒng)一為256×256。樣本增強(qiáng)后,把總圖片按照4︰1方式進(jìn)行分配,得到的5組樣本分別是水面橋梁、水面瓶子、水面垃圾、水面物體倒影和水面波紋,每種類型樣本用1 200張作為訓(xùn)練,300張作為測(cè)試。
設(shè)計(jì)實(shí)驗(yàn)將CaffeNet網(wǎng)絡(luò)與改進(jìn)CaffeNet網(wǎng)絡(luò)進(jìn)行對(duì)比,均在caffe框架中訓(xùn)練5 000次,基礎(chǔ)學(xué)習(xí)率均為0.01,動(dòng)量系數(shù)為0.9,CaffeNet網(wǎng)絡(luò)與改進(jìn)CaffeNet網(wǎng)絡(luò)測(cè)試的準(zhǔn)確率和實(shí)驗(yàn)損失函數(shù)變化情況如圖2所示。
圖2 準(zhǔn)確率和損失函數(shù)變化曲線
從圖2(a)可知,三角型線條為CaffeNet網(wǎng)絡(luò)的正確率變化曲線,圓點(diǎn)線條為改進(jìn)后CaffeNet網(wǎng)絡(luò)的正確率變化曲線。隨著迭代次數(shù)的增加,準(zhǔn)確率逐漸上升,CaffeNet網(wǎng)絡(luò)和改進(jìn)CaffeNet網(wǎng)絡(luò)均3 000次左右收斂,CaffeNet網(wǎng)絡(luò)測(cè)試集準(zhǔn)確率為89.29 %,改進(jìn)CaffeNet網(wǎng)絡(luò)測(cè)試集識(shí)別率為95.75 %。
圖2(b)是網(wǎng)絡(luò)訓(xùn)練時(shí)損失函數(shù)(Loss function)輸出值(loss值)的變化圖,可以看出隨著訓(xùn)練次數(shù)的增多,loss值逐步降低,當(dāng)訓(xùn)練次數(shù)達(dá)到3 000次時(shí),CaffeNet網(wǎng)絡(luò)和改進(jìn)CaffeNet網(wǎng)絡(luò)均趨于穩(wěn)定。
使用修改后的模型對(duì)測(cè)試集進(jìn)行測(cè)試得到新識(shí)別率,同原模型識(shí)別率對(duì)比如表1所示。
表1 CaffeNet改進(jìn)前后識(shí)別率對(duì)比 %
從測(cè)試結(jié)果中可以看出,增加稀疏結(jié)構(gòu)的模型在識(shí)別水面橋梁、瓶子、垃圾、物體倒影和波紋上均得到提升,改進(jìn)后的模型對(duì)倒影的識(shí)別率有較大的提升,下面分別用改進(jìn)前后的CaffeNet模型隨機(jī)對(duì)水面5種樣本進(jìn)行識(shí)別測(cè)試,測(cè)試結(jié)果對(duì)比如圖3(a)和(b)所示。
圖3 CaffeNet改進(jìn)前后識(shí)別率對(duì)比
在圖3中,從左到右分別為模型改進(jìn)前與改進(jìn)后對(duì)水面橋梁、玻璃瓶子、生活垃圾、物體倒影和波紋的識(shí)別情況。模型改進(jìn)前的測(cè)試結(jié)果顯示,圖(a)中第1幅識(shí)別為水面橋梁的概率是93.87 %,第2幅識(shí)別為水面玻璃瓶子的概率是97.76 %,第3幅圖識(shí)別為水面生活垃圾的概率是96.68 %,第5幅圖識(shí)別為水面波紋的概率是96.61 %,這幾種水面復(fù)雜情況圖識(shí)別都正確。第4幅圖識(shí)別錯(cuò)誤,將倒影識(shí)別為垃圾和倒影本身的概率分別為48.96 %和43.96 %,這種錯(cuò)誤識(shí)別將對(duì)識(shí)別造成干擾。
改進(jìn)后測(cè)試結(jié)果顯示,第1幅圖是識(shí)別為水面橋梁的概率是98.91 %,第2幅圖識(shí)別為水面玻璃瓶子的概率是99.93 %,第3幅圖識(shí)別為水面生活垃圾的概率是99.89 %,第4幅圖識(shí)別為水面物體倒影的概率是96.23 %,第5幅圖識(shí)別為水面波紋的概率是99.93 %,識(shí)別都正確。
對(duì)水面瓶子、水面垃圾、水面倒影、水面波紋和水面橋梁這5種較為復(fù)雜的水面情況進(jìn)行識(shí)別,總識(shí)別率達(dá)到了95.75%,實(shí)驗(yàn)結(jié)果證明了運(yùn)用深度卷積網(wǎng)絡(luò)在水面垃圾識(shí)別上有較好的效果,能夠解決實(shí)際應(yīng)用需求,具有很好的應(yīng)用前景。