王國(guó)新,陳思羽,張冬妮
(黑龍江科技大學(xué) 電氣與控制工程學(xué)院,黑龍江哈爾濱,150022)
煤矸石圖像的檢測(cè)和定位主要分為人工輔助特征提取與淺層機(jī)器學(xué)習(xí)相結(jié)合的方法和大量數(shù)據(jù)樣本結(jié)合深度學(xué)習(xí)兩類(lèi)方法[1],第一種方法是通過(guò)對(duì)圖像進(jìn)行預(yù)處理、邊緣檢測(cè)、物體分類(lèi)和物體定位的流程來(lái)實(shí)現(xiàn)的[2];第二種方法是利用深度學(xué)習(xí)強(qiáng)大的特征提取能力,通過(guò)大量的訓(xùn)練樣本自動(dòng)提取煤矸石特征,將圖像直接輸出得到煤與煤矸石的種類(lèi)和位置信息[3]。
近年來(lái)深度學(xué)習(xí)網(wǎng)絡(luò)不斷發(fā)展,Vgg 是其中應(yīng)用比較廣泛的一種深度學(xué)習(xí)網(wǎng)絡(luò),有學(xué)者將其應(yīng)用于煤矸石圖像分類(lèi),但是經(jīng)過(guò)對(duì)比測(cè)試,發(fā)現(xiàn)Vgg 網(wǎng)絡(luò)訓(xùn)練相對(duì)比較緩慢,使用其它輕量化網(wǎng)絡(luò)可以加快網(wǎng)絡(luò)訓(xùn)練速度,本文通過(guò)使用3種不同種類(lèi)的深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)煤矸石圖像進(jìn)行分類(lèi),從煤矸石圖像分類(lèi)的準(zhǔn)確度和訓(xùn)練時(shí)間兩方面進(jìn)行對(duì)比,以測(cè)試不同深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)煤矸石圖像分類(lèi)的表現(xiàn)。
(1)VggNET:該深度學(xué)習(xí)網(wǎng)絡(luò)是由牛津大學(xué)學(xué)者提出的帶有卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)說(shuō)明了模型深度對(duì)預(yù)測(cè)精度的意義。VggNET 網(wǎng)絡(luò)在ImageNet 測(cè)試中達(dá)到了92.7%的準(zhǔn)確率。ImageNet 數(shù)據(jù)集有超過(guò)1400 萬(wàn)幅圖像1000 個(gè)類(lèi)別。VggNET 隨著網(wǎng)絡(luò)結(jié)構(gòu)不同分為不同版本,例如Vgg16 和Vgg19。Vgg19 網(wǎng)絡(luò)的深度大于Vgg16 的網(wǎng)絡(luò)深度,對(duì)于Vgg 網(wǎng)絡(luò)來(lái)說(shuō),一般深層的Vgg 網(wǎng)絡(luò)適用于較復(fù)雜的任務(wù),網(wǎng)絡(luò)層數(shù)較少的網(wǎng)絡(luò)適用于任務(wù)相對(duì)簡(jiǎn)單的情況。
(2)Res18 網(wǎng)絡(luò):隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展和普及[4],網(wǎng)絡(luò)深度和架構(gòu)研究早已經(jīng)成為人們常見(jiàn)的問(wèn)題,所以現(xiàn)在卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展趨勢(shì)是訓(xùn)練速度快、普適性強(qiáng)。這意味著卷積神經(jīng)網(wǎng)絡(luò)不能簡(jiǎn)單通過(guò)固定尺度解決問(wèn)題,而應(yīng)該是充分利用多尺度信息,即multi-scale。但是隨著網(wǎng)絡(luò)層數(shù)的增加,梯度彌散和梯度爆炸等問(wèn)題也隨之出現(xiàn)。這兩種問(wèn)題都是由神經(jīng)網(wǎng)絡(luò)的特殊結(jié)構(gòu)和求參數(shù)方法造成,也就是鏈?zhǔn)角髮?dǎo)的間接產(chǎn)物。殘差神經(jīng)網(wǎng)絡(luò)利用殘差塊完美的解決了這兩個(gè)問(wèn)題[5]。
(3)Mobile 網(wǎng)絡(luò):MobileNet 是由谷歌在2017 年提出,是專(zhuān)注于移動(dòng)端或者嵌入式設(shè)備中的輕量級(jí)CNN 網(wǎng)絡(luò),并提出了深度可分離卷積的概念。深度可分離卷積將傳統(tǒng)卷積分解為兩個(gè)操作[6],即分為depthwise 和pointwise。深度可分離卷積首先按照通道進(jìn)行按位相乘的計(jì)算,此時(shí)通道數(shù)不改變;然后使用1*1 的卷積核進(jìn)行傳統(tǒng)的卷積運(yùn)算,此時(shí)通道數(shù)可以進(jìn)行改變。使用了深度可分離卷積,其計(jì)算量比傳統(tǒng)卷積的計(jì)算量下降了 1/N+1/DK2,其中N 為特征圖的維度,DK為卷積核的大小,當(dāng)DK=3 時(shí),深度可分離卷積比傳統(tǒng)卷積少8 到9 倍計(jì)算量。
綜上所述,VGG 網(wǎng)絡(luò)是現(xiàn)在廣泛應(yīng)用的一種網(wǎng)絡(luò),而殘差網(wǎng)絡(luò)的模型可以足夠大,防止因欠擬合而引起的分類(lèi)誤差過(guò)大的問(wèn)題,而Mobile 網(wǎng)絡(luò)計(jì)算速度快,相比其他深度學(xué)習(xí)網(wǎng)絡(luò)在同樣運(yùn)行煤矸石檢測(cè)任務(wù)的情況下可以檢測(cè)更大的范圍,計(jì)算量的降低也可使運(yùn)行環(huán)境的性能要求降低,能在類(lèi)似于NVDIA Jetson 的開(kāi)發(fā)板上運(yùn)行,使系統(tǒng)輕量化,通過(guò)簡(jiǎn)化硬件環(huán)境增強(qiáng)運(yùn)行穩(wěn)定性。這三種網(wǎng)絡(luò)結(jié)構(gòu)各具特點(diǎn),因此選用這三種網(wǎng)絡(luò)來(lái)處理煤矸石分類(lèi)任務(wù),通過(guò)試驗(yàn)對(duì)比三種網(wǎng)絡(luò)對(duì)于煤矸石分類(lèi)任務(wù)的性能效果。
遷移學(xué)習(xí)就是以現(xiàn)有的神經(jīng)網(wǎng)絡(luò)模型參數(shù)為基礎(chǔ),用來(lái)訓(xùn)練另一種類(lèi)似的識(shí)別目標(biāo)的一種技術(shù)。由于深度學(xué)習(xí)網(wǎng)絡(luò)的規(guī)模往往比較大,深度學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的數(shù)量往往在千萬(wàn)以上,動(dòng)輒達(dá)到上億的規(guī)模。因此深度學(xué)習(xí)網(wǎng)絡(luò)在訓(xùn)練迭代過(guò)程中所需要計(jì)算的數(shù)據(jù)的數(shù)量也是十分巨大,訓(xùn)練時(shí)間可能需要幾天甚至數(shù)周。
在煤矸石檢測(cè)任務(wù)中,對(duì)于數(shù)據(jù)收集困難、計(jì)算緩慢等問(wèn)題,可以通過(guò)遷移學(xué)習(xí)的方式來(lái)改善,在現(xiàn)有相似模型的基礎(chǔ)上訓(xùn)練煤矸石分類(lèi)模型可以加快訓(xùn)練速度,提高訓(xùn)練精度,并且在一定程度上對(duì)過(guò)擬合的問(wèn)題具有抑制作用??傊褂眠w移學(xué)習(xí)往往可以提高模型訓(xùn)練的速度和訓(xùn)練后模型的預(yù)測(cè)精度。遷移學(xué)習(xí)的分類(lèi)依據(jù)有以下兩種方法。
(1)按照已有網(wǎng)絡(luò)(源域)和待訓(xùn)練的網(wǎng)絡(luò)(目標(biāo)域)的異同進(jìn)行分類(lèi)。
(2)根據(jù)方法的不同進(jìn)行分類(lèi)。
數(shù)據(jù)是深度學(xué)習(xí)研究中一個(gè)非常重要的因素。由于現(xiàn)有的公開(kāi)數(shù)據(jù)集不包括煤矸石圖像,所以需要人工拍攝圖像并制作標(biāo)簽。和許多公開(kāi)數(shù)據(jù)集不同,煤矸石圖像樣本不要求以日常生活場(chǎng)景作為背景圖,因?yàn)橄疵簭S中煤矸石背景圖片較為單一,因此在采集圖像樣本的過(guò)程中分別用黑白灰多種背景拍攝樣本。
為保證煤矸石圖像數(shù)據(jù)集的質(zhì)量,需對(duì)原始圖像樣本進(jìn)行一些必要的預(yù)處理操作。本文對(duì)原始圖像的預(yù)處理操作包括篩選圖像、樣本擴(kuò)充、統(tǒng)一圖像格式與尺寸以及打亂順序并統(tǒng)一命名。
得到煤及煤矸石圖像樣本后,建立對(duì)應(yīng)的標(biāo)簽文件,標(biāo)簽文件為txt 格式,文本內(nèi)容排列順序?yàn)槲募?、樣本種類(lèi)。
為了驗(yàn)證Vgg-16、Mobile、Res18 對(duì)煤矸石圖像的分類(lèi)性能,在Pytorch 框架下用上述三種網(wǎng)絡(luò)結(jié)合遷移學(xué)習(xí),使用煤矸石圖像樣本及分類(lèi)標(biāo)簽進(jìn)行訓(xùn)練并測(cè)試。深度學(xué)習(xí)的訓(xùn)練過(guò)程使用服務(wù)器進(jìn)行,試驗(yàn)的軟硬件系統(tǒng)配置如表1 所示。
表1 煤矸石目標(biāo)檢測(cè)試驗(yàn)軟硬件環(huán)境
在8053 張樣本圖像中將數(shù)據(jù)集和測(cè)試集設(shè)置比例為7:3,BATCH_SIZE(批處理尺寸)設(shè)置為128、LR(學(xué)習(xí)率)設(shè)置為0.0001、EPOCH(遍歷數(shù)據(jù)集次數(shù))設(shè)置為3 進(jìn)行訓(xùn)練后,其訓(xùn)練結(jié)果如圖4-1 所示。最終訓(xùn)練集分類(lèi)準(zhǔn)確率在Vgg-16網(wǎng)絡(luò)下精度為89.17%;Res18 網(wǎng)絡(luò)下精度為98.81%;Mobile網(wǎng)絡(luò)下精度為98.56%。試驗(yàn)證明使用深度學(xué)習(xí)圖像分類(lèi)模型能夠?qū)γ喉肥兔哼M(jìn)行區(qū)分,并且準(zhǔn)確率較高。
圖1 Vgg-16、Res18、Mobile 精度變化曲線
訓(xùn)練過(guò)程中每個(gè)循環(huán)的訓(xùn)練時(shí)間見(jiàn)表2 所示。
表2 各網(wǎng)絡(luò)訓(xùn)練速度
通過(guò)精度和速度對(duì)比,Res18 在訓(xùn)練速度的表現(xiàn)上最好,相比Vgg-16 網(wǎng)絡(luò)訓(xùn)練時(shí)間下降84%。從訓(xùn)練精度上看,Res網(wǎng)絡(luò)和Mobile 網(wǎng)絡(luò)精度最高,并且差別較小,但是相比Vgg網(wǎng)絡(luò)精度大幅度領(lǐng)先,綜合考慮Res18 網(wǎng)絡(luò)在煤矸石圖像分類(lèi)上最適用。
對(duì)現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行篩選,得到三種有代表性的深度學(xué)習(xí)網(wǎng)絡(luò),并建立煤矸石數(shù)據(jù)集和樣本標(biāo)簽,通過(guò)模型訓(xùn)練測(cè)試,將三種網(wǎng)絡(luò)的精度和速度進(jìn)行對(duì)比,選出性能更優(yōu)的深度學(xué)習(xí)網(wǎng)絡(luò)。
通過(guò)使用Vgg-16 網(wǎng)絡(luò)、Mobile 網(wǎng)絡(luò)和Res18 網(wǎng)絡(luò)對(duì)煤矸石進(jìn)行分類(lèi),試驗(yàn)表明Res18 網(wǎng)絡(luò)在訓(xùn)練準(zhǔn)確度和訓(xùn)練速度方面表現(xiàn)更優(yōu)。