李 寧 王雨萱 徐守坤 石 林
1(常州大學(xué) 信息科學(xué)與工程學(xué)院 數(shù)理學(xué)院 江蘇 常州 213164)2(福建省信息處理與智能控制重點(diǎn)實(shí)驗(yàn)室(閩江學(xué)院) 福建 福州 350108)
隨著經(jīng)濟(jì)生活的快速發(fā)展,水面漂浮物識(shí)別在水體污染監(jiān)控以及水面智能清理機(jī)器人等方面扮演著更為重要的角色。然而,目前國(guó)內(nèi)外對(duì)水面漂浮物識(shí)別的研究比較少,大部分是采用遙感圖像或信號(hào)傳播等技術(shù),實(shí)現(xiàn)水體或水上目標(biāo)識(shí)別[1-3]。由于水面環(huán)境的復(fù)雜性和特殊性,水面圖像具有光照影響大、容易被噪聲污染等特點(diǎn),使得水面圖像識(shí)別具有了其自身的特殊性。而在傳統(tǒng)的目標(biāo)識(shí)別中,常用的解決方案是使用各類(lèi)特征提取方法結(jié)合分類(lèi)器實(shí)現(xiàn)[1,3],雖然這些特征提取方式確實(shí)能夠在某些特定的數(shù)據(jù)和任務(wù)中得到良好的識(shí)別效果。但這些特征在受到大量噪聲或其他因素干擾等情況下,很難被較好地提取,這樣就會(huì)影響到分類(lèi)器的實(shí)現(xiàn)效果,從而無(wú)法很好地分類(lèi)、識(shí)別目標(biāo)。
近年來(lái),深度學(xué)習(xí)成為模式識(shí)別領(lǐng)域的新熱點(diǎn),它允許由多個(gè)處理層組成的模型來(lái)學(xué)習(xí)具有多個(gè)抽象層次的數(shù)據(jù)表示。其概念由Hinton等于2006年提出,現(xiàn)在被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別以及自然語(yǔ)言處理等其他領(lǐng)域[4-6]。自21世紀(jì)初以來(lái),卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)[7]已被應(yīng)用于空中物體的圖像識(shí)別[8]?;谏疃葘W(xué)習(xí)的水面圖像識(shí)別研究較少,其中主要原因可能是深度學(xué)習(xí)在圖像分類(lèi)中的成功,就在于使用了大量的訓(xùn)練數(shù)據(jù),而水面漂浮物圖像的獲取總是需要大量的人力和成本,這使得獲取大量的樣本圖像變得困難。但不可否認(rèn)的是,深度學(xué)習(xí)相較于傳統(tǒng)的特征提取方式,可以實(shí)現(xiàn)更好的分類(lèi)、識(shí)別效果,也是未來(lái)圖像識(shí)別領(lǐng)域的發(fā)展方向。
因此,在深度學(xué)習(xí)的基礎(chǔ)上,本文研究了小樣本容量下,水面圖像中漂浮物識(shí)別的解決方案,旨在針對(duì)水面污染提出一種更有效的污染物識(shí)別策略。更具體地說(shuō),在攝像機(jī)捕捉到的包含漂浮類(lèi)污染物的普通水面圖像中(主要包括塑料袋與塑料瓶?jī)煞N常見(jiàn)污染物),嘗試找到一個(gè)有效的簡(jiǎn)單框架,來(lái)解決水面污染物識(shí)別問(wèn)題。本文提出以現(xiàn)有的AlexNet網(wǎng)絡(luò)[9]為基礎(chǔ),利用公開(kāi)數(shù)據(jù)集ImageNet[10]以及COCO[11]等收集大量普通塑料袋、塑料瓶圖像進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練,然后利用梯度下降法進(jìn)行網(wǎng)絡(luò)微調(diào),最后將訓(xùn)練好的網(wǎng)絡(luò)用于實(shí)際采集到的水面污染物圖像識(shí)別中。同時(shí),對(duì)于待識(shí)別的水面圖像,采用直方圖均衡化與對(duì)數(shù)變換相結(jié)合的方式,對(duì)圖像進(jìn)行光照不均勻的矯正,在增強(qiáng)圖像整體對(duì)比度的同時(shí),提高陰影處的亮度。由于本文目標(biāo)的紋理特征較為明顯,因此在傳統(tǒng)特征提取方法中,采用HOG特征[12-13]提取方法與本文方法進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,網(wǎng)絡(luò)微調(diào)的方法可以有效提高傳統(tǒng)網(wǎng)絡(luò)對(duì)小樣本水面漂浮物的識(shí)別效果,相較于傳統(tǒng)的特征提取方式具有更高的識(shí)別率。另外,光照矯正有效地均勻了圖像亮度,削弱了光照影響。
深度學(xué)習(xí)的概念由Hinton等在2006年提出,源于對(duì)人工神經(jīng)網(wǎng)絡(luò)的研究,包含多隱藏層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過(guò)組合低層特征實(shí)現(xiàn)更加抽象的高層表示屬性類(lèi)別或特征,以此發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。它是機(jī)器學(xué)習(xí)研究中的一個(gè)嶄新的領(lǐng)域,在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模仿人腦的機(jī)制來(lái)解釋數(shù)據(jù),例如圖像、聲音和文本。
深度學(xué)習(xí)是基于大量數(shù)據(jù)訓(xùn)練實(shí)現(xiàn)的,一般情況下,訓(xùn)練數(shù)據(jù)越多,實(shí)現(xiàn)效果越好。但是在實(shí)際應(yīng)用中,許多特殊領(lǐng)域的圖像采集并不是那么簡(jiǎn)單,或者采集過(guò)程需要耗費(fèi)大量的人力物力。因此在這些領(lǐng)域中,基于深度學(xué)習(xí)的研究非常少,通常采用傳統(tǒng)的特征提取方式實(shí)現(xiàn)目標(biāo)分類(lèi)或識(shí)別。然而,隨著深度學(xué)習(xí)在機(jī)器視覺(jué)中逐漸表現(xiàn)出更多的優(yōu)勢(shì),深度學(xué)習(xí)在這些領(lǐng)域中的應(yīng)用也是一種趨勢(shì)。
AlexNet是Alex Krizhevsky在2012年提出的,此后更深的神經(jīng)網(wǎng)絡(luò)被提出,例如vgg,GoogleLeNet以及ResNet[14]等更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)。相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)例如LetNet來(lái)說(shuō),AlexNet增添了數(shù)據(jù)增強(qiáng)、Dropout和Relu激活函數(shù),在很大程度上提高了傳統(tǒng)網(wǎng)絡(luò)的分類(lèi)效果,到目前為止也是比較經(jīng)典且實(shí)用的網(wǎng)絡(luò)之一。而相較于更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)例如ResNet,AlexNet具有更簡(jiǎn)單短小的網(wǎng)絡(luò)層次,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 AlexNet網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)中包含了8個(gè)有權(quán)重的層,其中前5個(gè)是卷積層,剩下的3個(gè)是全連接層,最后一個(gè)全連接層的輸出給到一個(gè)1 000維的softmax,最終給出在1 000個(gè)類(lèi)標(biāo)簽上的分布。在這種簡(jiǎn)單的網(wǎng)絡(luò)架構(gòu)下,AlexNet在一般的分類(lèi)識(shí)別任務(wù)中都有良好的表現(xiàn),且這樣的網(wǎng)絡(luò)結(jié)構(gòu)更適用于小平臺(tái)搭載,可以滿(mǎn)足水面清理任務(wù)的分類(lèi)需求,不需要再采用更加復(fù)雜的網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。否則不僅會(huì)增加運(yùn)行的成本,也可能會(huì)造成大量過(guò)擬合。因此本文以AlexNet為基礎(chǔ)實(shí)現(xiàn)對(duì)小樣本水面圖像的漂浮污染物識(shí)別。
相較于普通圖像,水面圖像具有更易受光照影響的特點(diǎn),例如水面反射造成部分區(qū)域亮度過(guò)高,從而影響識(shí)別效果。因此本文采用直方圖均衡化與對(duì)數(shù)變換相融合的方法,對(duì)水面圖像進(jìn)行光照不均勻的矯正,然后將矯正后的圖像放入訓(xùn)練好的網(wǎng)絡(luò)中進(jìn)行識(shí)別,在一定程度上提高了對(duì)水面漂浮物的識(shí)別率。
常用的圖像光照不均勻矯正算法有很多,例如頂(底)帽變換、直方圖均衡化、拉普拉斯算子增強(qiáng)、對(duì)數(shù)變換等。其中,頂(底)帽變換通常用于分割算法中的光照矯正,而直方圖均衡化以及對(duì)數(shù)變換屬于光照補(bǔ)償算法,可以有效提高圖像的整體亮度和對(duì)比度,更適用于本文提出的神經(jīng)網(wǎng)絡(luò)識(shí)別方法。
直方圖均衡化是一種常用的光照補(bǔ)償方法,目的是將原始圖像的直方圖轉(zhuǎn)換為均勻分布的形式,以此增加像素灰度值的動(dòng)態(tài)范圍,從而增強(qiáng)圖像的整體對(duì)比度。對(duì)于一幅大小為的M×N圖像,假設(shè)該圖像的像素值取值范圍為{0,1,2,…,L-1},圖像中灰度值r出現(xiàn)的概率,即為該圖像的直方圖,計(jì)算公式如下:
(1)
式中:M×N為圖像中像素的總數(shù),nr表示該圖像中灰度值為r的像素點(diǎn)個(gè)數(shù)。
然后通過(guò)變換函數(shù),將原始輸入圖像中灰度值為r的像素映射到輸出圖像中灰度值為S的對(duì)應(yīng)像素,變換函數(shù)的計(jì)算公式如下:
(2)
直方圖均衡化利用圖像直方圖對(duì)對(duì)比度進(jìn)行調(diào)整,提高了圖像中陰暗部分的亮度,但在某些光照惡劣的圖像中表現(xiàn)不佳,容易出現(xiàn)對(duì)比度過(guò)于強(qiáng)烈的情況。
對(duì)數(shù)變換也是圖像增強(qiáng)的一種常見(jiàn)方法,目的在于將輸入圖像中較窄的低灰度值映射到輸出圖像較寬的灰度值,對(duì)輸入圖像中灰度值的對(duì)數(shù)變換公式如下:
Gr=c×log(r+1)
(3)
式中:c是常數(shù),通常取值為c=255/log(256),且底數(shù)通常默認(rèn)為e,對(duì)數(shù)變換公式即為:
Gr=c×ln(r+1)
(4)
由于對(duì)數(shù)曲線在像素值較低的區(qū)域斜率較大,在像素值較高的區(qū)域斜率較小,因此圖像經(jīng)過(guò)對(duì)數(shù)變換后,較暗區(qū)域的對(duì)比度將有所提升,以此增強(qiáng)圖像的暗部細(xì)節(jié),但也存在處理后的圖像邊緣模糊的問(wèn)題。
將圖像進(jìn)行直方圖均衡化可以有效減弱光照影響,此時(shí)圖像整體對(duì)比度明顯增強(qiáng),整體亮度提高,但在光照惡劣的情況下,其實(shí)現(xiàn)效果并不理想。而對(duì)數(shù)變換處理后的圖像較為柔和,但其缺點(diǎn)在于容易出現(xiàn)邊緣不清晰的問(wèn)題。針對(duì)兩種算法的優(yōu)缺點(diǎn),本文提出將直方圖均衡化與對(duì)數(shù)變換處理后的圖像,以加權(quán)融合的方式進(jìn)行合并處理,變換如下:
f′(x,y)=m×S(x,y)+(1-m)×G(x,y)
(5)
式中:S(x,y)與G(x,y)分別為直方圖均衡化以及對(duì)數(shù)變換處理后的圖像,m(0≤m≤1)為比例權(quán)值,通過(guò)m調(diào)整融合效果。
對(duì)于權(quán)值m的選擇,采用類(lèi)似大律法中的最大(小)類(lèi)間方差法,計(jì)算圖像的整體灰度方差,取使得灰度方差最小的m為最終權(quán)值選擇。首先取權(quán)值為m,然后對(duì)兩種方法的處理圖像進(jìn)行加權(quán)融合,計(jì)算融合后圖像的整體平均灰度μ,公式如下:
(6)
則圖像的整體灰度方差g的計(jì)算公式如下:
(7)
當(dāng)方差g最小時(shí),即可認(rèn)為此時(shí)圖像的平均差異最小,即最佳權(quán)值m2的判別式為:
m*=Argmin(g) 0≤m≤1
(8)
一個(gè)卷積神經(jīng)網(wǎng)絡(luò)通常有數(shù)百萬(wàn)的連接和權(quán)重,盡管可以利用現(xiàn)有的連接和共享的權(quán)重,仍有大量的權(quán)重需要訓(xùn)練。當(dāng)將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于一個(gè)大型數(shù)據(jù)集時(shí),它們通常會(huì)取得很好的效果,然而在實(shí)際應(yīng)用中發(fā)現(xiàn),在小樣本容量的情況下,網(wǎng)絡(luò)對(duì)于訓(xùn)練集的精度高,對(duì)測(cè)試集的效果不佳。對(duì)水面圖像中的漂浮物識(shí)別任務(wù)來(lái)說(shuō),一個(gè)實(shí)際的問(wèn)題是如何獲得足夠的樣本圖像來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)。在深度信念網(wǎng)絡(luò)(DBN)[14-15]的訓(xùn)練過(guò)程的啟發(fā)下,本文提出了一種在小樣本容量情況下,基于深度學(xué)習(xí)的水面圖像中漂浮污染物識(shí)別的解決方案,具體來(lái)說(shuō)是利用一組較少的水面漂浮物圖像解決水面污染物的識(shí)別分類(lèi)問(wèn)題。
本文提出在小樣本容量的情況下,水面漂浮污染物的識(shí)別過(guò)程主要分為三個(gè)階段:
1) 第一個(gè)階段是用一個(gè)比較大的圖像數(shù)據(jù)集來(lái)預(yù)訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)。卷積神經(jīng)網(wǎng)絡(luò)不僅是一個(gè)分類(lèi)器,而且是一個(gè)特征提取器,網(wǎng)絡(luò)的隱藏層會(huì)以一種便于預(yù)測(cè)目標(biāo)輸出的方式來(lái)表示網(wǎng)絡(luò)的輸入。當(dāng)一個(gè)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練階段完成后,預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)將對(duì)圖像的顏色、紋理和邊緣等信息敏感。同時(shí)自然圖像具有一定的共性,因此用不同于與我們期望識(shí)別的圖像預(yù)先訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)是合理的。ImageNet數(shù)據(jù)集為我們提供了這樣一個(gè)可供選擇的大型圖像數(shù)據(jù)集,它有超過(guò)1 500萬(wàn)的高分辨率圖像,這些圖像屬于大約22 000個(gè)類(lèi)別,同時(shí)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)也同樣可以提供大量高質(zhì)量圖像,這為卷積神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練提供了數(shù)據(jù)支持。
2) 第二階段是用我們所擁有的小樣本圖像對(duì)預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào)。多層次的網(wǎng)絡(luò)結(jié)構(gòu)可以通過(guò)隨機(jī)梯度下降法進(jìn)行進(jìn)一步訓(xùn)練,而圖像標(biāo)簽中非常有限的信息將會(huì)被用來(lái)微調(diào)預(yù)訓(xùn)練中得到的權(quán)重。
3) 最后一個(gè)階段是測(cè)試訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)的性能。如果卷積網(wǎng)絡(luò)的精度滿(mǎn)足應(yīng)用要求,則可用于圖像識(shí)別。
微調(diào)網(wǎng)絡(luò)階段,本文采用隨機(jī)梯度下降SGD(Stochastic gradient descent)法進(jìn)行參數(shù)更新。傳統(tǒng)的批量梯度下降,將計(jì)算整個(gè)數(shù)據(jù)集梯度,但僅進(jìn)行一次更新,因此處理速度很慢且容易導(dǎo)致內(nèi)存溢出。而隨機(jī)梯度下降算法每次只隨機(jī)選擇一個(gè)樣本來(lái)更新模型參數(shù),因此學(xué)習(xí)速度很快且可以進(jìn)行在線更新。
對(duì)于包含N個(gè)訓(xùn)練樣本的樣本集,采用梯度下降法更新網(wǎng)絡(luò)參數(shù),每層的參數(shù)w(i)和b(i)的計(jì)算公式分別如下:
(9)
(10)
式中:N代表輸入的樣本容量,ρ為學(xué)習(xí)率,o(i)表示輸入x(i)對(duì)應(yīng)的實(shí)際輸出,y(i)代表第i組數(shù)據(jù)對(duì)應(yīng)的類(lèi)別標(biāo)記,y(i)∈{1,2,…,k},k是樣本的類(lèi)別數(shù)目。
通過(guò)梯度下降法更新網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)的輸出層誤差函數(shù)值達(dá)到最小,從而對(duì)網(wǎng)絡(luò)實(shí)現(xiàn)微調(diào),使網(wǎng)絡(luò)適用于小樣本容量情況下的目標(biāo)識(shí)別。
本文所用的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)的公開(kāi)數(shù)據(jù)集ImageNet、COCO數(shù)據(jù)集以及利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從網(wǎng)上得到的實(shí)驗(yàn)圖像。所收集的圖像數(shù)據(jù)包括普通的塑料袋、塑料瓶圖像以及水面漂浮物圖像,在網(wǎng)絡(luò)訓(xùn)練之前先對(duì)圖像做歸一化處理,圖像數(shù)據(jù)類(lèi)型包括4種,如圖2所示,數(shù)據(jù)集統(tǒng)計(jì)如表1所示。
(a) 普通塑料瓶 (b) 普通塑料袋 (c) 水面塑料袋 (d) 水面塑料瓶圖2 圖像數(shù)據(jù)類(lèi)型
在實(shí)驗(yàn)中,本文利用VS 2015軟件進(jìn)行圖像的光照矯正,在OpenCV環(huán)境中分別采用直方圖均衡化與對(duì)數(shù)變換對(duì)輸入圖像進(jìn)行處理,并將矯正結(jié)果與融合圖像進(jìn)行對(duì)比,對(duì)比結(jié)果如圖3、圖4所示。圖3、圖4中的原圖均為包含水面漂浮物的圖像,圖3中原圖像在光照較好時(shí),受水面反射的影響,包含一部分亮度較高的區(qū)域以及一部分亮度較低的區(qū)域,而圖4中原圖則由于光照不佳,整體較暗。
(a) 原圖 (b) 直方圖均衡化
(c) 對(duì)數(shù)變換 (d) 融合圖像圖3 光照矯正1
(a) 原圖 (b) 直方圖均衡化
(c) 對(duì)數(shù)變換 (d) 融合圖像圖4 光照矯正2
從圖3中可以看出,對(duì)于包含部分高亮度區(qū)域的圖像,融合后的圖像對(duì)暗部區(qū)域進(jìn)行了亮度提高,同時(shí)也保留了高亮度區(qū)域的目標(biāo)細(xì)節(jié)。相較于對(duì)數(shù)變換融合后圖像的物體輪廓更清晰,而對(duì)比直方圖均衡化的實(shí)現(xiàn)結(jié)果,融合圖像的暗部區(qū)域具有更高的亮度和清晰度。
對(duì)整體較暗的圖4,融合后的圖像提高了圖像的整體亮度,使得圖像細(xì)節(jié)更加清晰。對(duì)比直方圖均衡化的結(jié)果,暗區(qū)域細(xì)節(jié)更加明顯,對(duì)比對(duì)數(shù)變換保留了更多邊緣信息。
從兩種實(shí)驗(yàn)圖像的對(duì)比結(jié)果來(lái)看,融合圖像在均勻圖像亮度的同時(shí),也提高了圖像對(duì)比度,同時(shí)相較于兩種常用的光照矯正算法,保留了更多的細(xì)節(jié)信息,實(shí)現(xiàn)了更接近于真實(shí)圖像的光照矯正結(jié)果。將融合后的圖像放入訓(xùn)練好的網(wǎng)絡(luò)中進(jìn)行識(shí)別,可以有效去除水面反射造成的光照影響。
利用自然信號(hào)的特性,卷積網(wǎng)絡(luò)中有四個(gè)關(guān)鍵的概念:局部連接、共享權(quán)重、池化和多層網(wǎng)絡(luò)。本文在實(shí)驗(yàn)中采用了經(jīng)典的AlexNet網(wǎng)絡(luò),每個(gè)卷積層的權(quán)值都由一個(gè)零均值高斯分布初始化,其標(biāo)準(zhǔn)差是0.01,網(wǎng)絡(luò)訓(xùn)練參數(shù)見(jiàn)表2。
表2 網(wǎng)絡(luò)訓(xùn)練參數(shù)
4.3.1 樣本量與迭代次數(shù)
實(shí)驗(yàn)中對(duì)網(wǎng)絡(luò)的訓(xùn)練分為兩個(gè)階段,第一個(gè)階段分批量測(cè)試,檢驗(yàn)訓(xùn)練樣本數(shù)量對(duì)網(wǎng)絡(luò)識(shí)別率的影響,選擇最佳樣本量。網(wǎng)絡(luò)采用不同樣本量的數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)已有訓(xùn)練集的數(shù)據(jù)量取670為基數(shù),其中按普通圖像:水面圖像=60∶7的比例,取其5、10、15、20倍的樣本量分別進(jìn)行網(wǎng)絡(luò)訓(xùn)練,不同樣本量下的識(shí)別率如圖5所示。
圖5 不同訓(xùn)練樣本量的識(shí)別率
從實(shí)驗(yàn)結(jié)果中可以看出,隨著樣本容量的增加,網(wǎng)絡(luò)的識(shí)別率逐漸上升,并且當(dāng)樣本容量達(dá)到10 050時(shí)已基本趨于平穩(wěn),此時(shí)網(wǎng)絡(luò)達(dá)到收斂狀態(tài)。另外,網(wǎng)絡(luò)在最大樣本量情況下識(shí)別率略有提高,達(dá)到96.66%,因此之后的對(duì)比實(shí)驗(yàn)均選擇采用已有的樣本量進(jìn)行網(wǎng)絡(luò)訓(xùn)練,并且對(duì)樣本量不必要再做增加。
網(wǎng)絡(luò)訓(xùn)練的第二個(gè)階段,采用第一階段中的樣本容量,并分別采用不同的迭代次數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,分別取Epochs為5、10、15、20、25、30,識(shí)別結(jié)果如圖6所示。
從圖中可以看出,隨著迭代次數(shù)的增加,識(shí)別率顯著提高,當(dāng)?shù)螖?shù)達(dá)到20個(gè)Epochs(大約2 000次迭代)時(shí)基本穩(wěn)定,在25個(gè)Epochs時(shí)略有提高,因此在之后的對(duì)比實(shí)驗(yàn)中選擇迭代次數(shù)為25個(gè)Epochs。
網(wǎng)絡(luò)訓(xùn)練階段對(duì)應(yīng)的損失函數(shù)的輸出值(Loss)和預(yù)測(cè)值(Accurcay) 變化分別如圖7和圖8所示。
圖8 網(wǎng)絡(luò)的訓(xùn)練精度
從圖中可以看出,訓(xùn)練損失急劇下降,在第25個(gè)Epochs(大約2 500次迭代)后趨向于0。而訓(xùn)練精度在最初的20個(gè)Epochs中,驗(yàn)證集的準(zhǔn)確性迅速上升,并且在大約2 500次迭代后趨向于平穩(wěn)。
4.3.2 對(duì)比實(shí)驗(yàn)
在第一組對(duì)比實(shí)驗(yàn)中,采用沒(méi)有微調(diào)的傳統(tǒng)網(wǎng)絡(luò)分別對(duì)測(cè)試集中的普通圖像與水面圖像進(jìn)行測(cè)試,判斷傳統(tǒng)方法是否適用于此類(lèi)小樣本水面圖像的識(shí)別。測(cè)試中發(fā)現(xiàn),傳統(tǒng)網(wǎng)絡(luò)對(duì)普通圖像達(dá)到了98.75%的識(shí)別率,而對(duì)水面塑料瓶的識(shí)別效果最差僅為46.67%,統(tǒng)計(jì)結(jié)果如表3所示。
表3 對(duì)不同類(lèi)別圖像的識(shí)別率 %
分析原因可能是由于普通圖像中的塑料瓶均為垂直方向,而水面圖像中大部分為水平或傾斜角度,因此接下來(lái)分別采用單垂直方向、單水平方向以及兩者結(jié)合的三種普通塑料瓶數(shù)據(jù)集重新進(jìn)行網(wǎng)絡(luò)預(yù)訓(xùn)練。
另外,從統(tǒng)計(jì)表3中傳統(tǒng)網(wǎng)絡(luò)對(duì)水面圖像的識(shí)別率也可以看出,傳統(tǒng)方法的確不太適用于小樣本的識(shí)別。同時(shí)考慮到水面圖像可能存在的噪聲影響,在測(cè)試中對(duì)兩個(gè)方向相結(jié)合的實(shí)驗(yàn)組,采用中值濾波去噪后的水面圖像進(jìn)行識(shí)別測(cè)試,對(duì)比測(cè)試結(jié)果判斷是否需要對(duì)待識(shí)別圖像進(jìn)行去噪處理。
第二組對(duì)比實(shí)驗(yàn)中,采用不同方向的圖像訓(xùn)練傳統(tǒng)網(wǎng)絡(luò)并進(jìn)行對(duì)比,同時(shí)將濾波處理后的識(shí)別結(jié)果與未處理的識(shí)別結(jié)果進(jìn)行對(duì)比,判斷是否需要對(duì)待識(shí)別圖像進(jìn)行去噪處理,統(tǒng)計(jì)實(shí)驗(yàn)中的測(cè)試結(jié)果如表4所示。
表4 傳統(tǒng)網(wǎng)絡(luò)識(shí)別效果 %
從測(cè)試結(jié)果中可以看出,對(duì)于水面塑料瓶的識(shí)別,將兩個(gè)方向的圖像相結(jié)合進(jìn)行訓(xùn)練效果更好,因此對(duì)于微調(diào)網(wǎng)絡(luò)選擇采用兩個(gè)方向結(jié)合的方式進(jìn)行訓(xùn)練。另外可以看出,加入濾波去噪對(duì)水面塑料袋的識(shí)別有略微提高,但同時(shí)也降低了對(duì)塑料瓶的識(shí)別率。因此,濾波去噪對(duì)提高網(wǎng)絡(luò)的識(shí)別精度并沒(méi)有太大的幫助,反而有可能會(huì)影響識(shí)別效果,因此在后面的實(shí)驗(yàn)中不再對(duì)待識(shí)別圖像進(jìn)行濾波處理。
在第三組對(duì)比實(shí)驗(yàn)中,采用兩個(gè)方向相結(jié)合的圖像分別訓(xùn)練傳統(tǒng)網(wǎng)絡(luò)與微調(diào)網(wǎng)絡(luò),分別采用普通圖像和水面圖像對(duì)兩種方法訓(xùn)練的網(wǎng)絡(luò)進(jìn)行測(cè)試,統(tǒng)計(jì)并記錄實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,見(jiàn)表5。
表5 不同網(wǎng)絡(luò)的識(shí)別率對(duì)比 %
從表5的對(duì)比結(jié)果中可以看出,在對(duì)水面漂浮物的識(shí)別中,本文提出的小樣本訓(xùn)練策略得到了更好的識(shí)別效果。同時(shí)在實(shí)驗(yàn)中發(fā)現(xiàn),網(wǎng)絡(luò)在第25次迭代時(shí)已經(jīng)得到了較好的效果,在更多次數(shù)的迭代時(shí),出現(xiàn)了驗(yàn)證集精度高于測(cè)試集精度的現(xiàn)象,符合網(wǎng)絡(luò)訓(xùn)練時(shí)的收斂特性??傮w來(lái)說(shuō),通過(guò)多次的對(duì)比實(shí)驗(yàn)證明了本文提出的訓(xùn)練策略對(duì)小樣本容量情況下的圖像識(shí)別是有效的。
第四組對(duì)比實(shí)驗(yàn)中,首先采用前述的光照矯正方法處理待識(shí)別圖像,再將矯正后的圖像放入訓(xùn)練好的微調(diào)網(wǎng)絡(luò)進(jìn)行識(shí)別,并將識(shí)別結(jié)果與未矯正實(shí)驗(yàn)以及傳統(tǒng)的特征提取方法進(jìn)行對(duì)比。由于塑料袋與塑料瓶的邊緣特征更為明顯,因此實(shí)驗(yàn)中參考文獻(xiàn)中采用的傳統(tǒng)HOG特征提取分類(lèi)與本文方法進(jìn)行對(duì)比,實(shí)驗(yàn)的對(duì)比結(jié)果如表6所示。
表6 光照矯正算法及識(shí)別率對(duì)比 %
從統(tǒng)計(jì)表6中可以看出,光照矯正對(duì)于水面圖像的識(shí)別有一定的積極作用,在一定程度上提高了網(wǎng)絡(luò)對(duì)水面圖像的識(shí)別率。另外,普通圖像不需要光照矯正,因此未做光照矯正的對(duì)比實(shí)驗(yàn)。同時(shí),將矯正后的微調(diào)網(wǎng)絡(luò)法與傳統(tǒng)的HOG特征提取方法對(duì)比,可以看到微調(diào)網(wǎng)絡(luò)提高了近15%的識(shí)別率,表明本文的網(wǎng)絡(luò)微調(diào)方法適用于小樣本情況下的水面漂浮物識(shí)別。
本文針對(duì)水面漂浮污染物的識(shí)別問(wèn)題,提出了基于深度學(xué)習(xí)的小樣本學(xué)習(xí)策略,首先用大量相關(guān)樣本預(yù)訓(xùn)練網(wǎng)絡(luò),然后對(duì)小樣本利用梯度下降法微調(diào)網(wǎng)絡(luò),同時(shí)將直方圖均衡化法以及對(duì)數(shù)變換法兩種傳統(tǒng)的光照矯正算法相結(jié)合,對(duì)兩者的處理圖像進(jìn)行加權(quán)融合,減弱待識(shí)別圖像中的光照影響。通過(guò)多組對(duì)比實(shí)驗(yàn)表明,該學(xué)習(xí)策略在水面漂浮物污染物識(shí)別問(wèn)題上取得了較好的效果,其識(shí)別準(zhǔn)確率明顯優(yōu)于傳統(tǒng)的HOG特征提取分類(lèi)方法。然而水面污染物種類(lèi)很多,而本文僅以?xún)煞N常見(jiàn)的水面污染物為例實(shí)現(xiàn)小樣本學(xué)習(xí)策略的對(duì)比實(shí)驗(yàn)。因此在以后的研究中,將對(duì)更多類(lèi)型的污染物進(jìn)行分類(lèi)識(shí)別研究,以便于部署到水面清理機(jī)器人中,為水面環(huán)境的智能監(jiān)控清理提供一種便捷有效的方法。