白雄飛, 龔水成, 李雪松,, 許 博, 楊曉力, 王明彥
(1. 上海交通大學(xué) 機(jī)械與動力工程學(xué)院, 上海 200240; 2. 上汽大眾汽車有限公司, 上海 201805; 3. 湖南華研實(shí)驗(yàn)室有限公司, 湖南 湘潭 411000)
在工業(yè)生產(chǎn)過程中,焊接工藝被廣泛運(yùn)用,是工業(yè)制造過程的重要一環(huán)[1].由于焊接操作不當(dāng)及焊件本身材料特性等原因,焊縫表面及內(nèi)部可能會產(chǎn)生一定的缺陷,焊縫內(nèi)部缺陷包括氣孔、裂紋、焊穿及未熔合等[2],這些缺陷會嚴(yán)重影響焊接部位的疲勞強(qiáng)度和使用壽命[3],進(jìn)而降低產(chǎn)品的整體質(zhì)量,帶來較大的安全隱患,因此需要對焊接部位進(jìn)行嚴(yán)格的質(zhì)量檢測.焊縫內(nèi)部缺陷常用的檢測方法有射線探測法[4],為了更精準(zhǔn)地了解焊縫內(nèi)部缺陷情況,可以對焊縫橫截面處的金相組織進(jìn)行缺陷檢測[5].許多場景都需要對焊縫進(jìn)行缺陷分類,但目前對金相組織圖片進(jìn)行自動化缺陷分類的研究較少,而對焊縫X射線圖片進(jìn)行缺陷分類的研究已有一定基礎(chǔ)[6-8],這些缺陷分類方法也可較好地應(yīng)用于金相組織圖片分類.
傳統(tǒng)焊縫缺陷分類通常由人工完成,勞動強(qiáng)度大、效率低且易因視覺疲勞造成一定的誤檢[9].隨著機(jī)器學(xué)習(xí)及計算機(jī)視覺技術(shù)的快速發(fā)展, 基于機(jī)器學(xué)習(xí)的計算機(jī)視覺技術(shù)已被廣泛運(yùn)用于焊縫缺陷分類,極大提高了缺陷分類的效率及準(zhǔn)確度.羅愛民等[10]將二叉樹與支持向量機(jī)(SVM)結(jié)合,對6類且每類含130張圖片的焊縫X射線圖像進(jìn)行分類,最終每類的分類準(zhǔn)確度均在87%以上;Duan等[6]利用機(jī)器學(xué)習(xí)之自適應(yīng)增強(qiáng)(AdaBoost)對5類焊縫X射線圖像缺陷進(jìn)行分類,取得了85.5%的分類準(zhǔn)確度和91.66%的真陽性率(True Positive Rate);劉歡等[11]提出了CC-ResNet對焊縫X射線圖像進(jìn)行缺陷分類,將ResNet每一層卷積變?yōu)閮蓚€不同尺度的卷積,將結(jié)果在深度方向進(jìn)行拼接,充分利用多尺度信息,取得了98.52%的平均召回率及95.23%的平均準(zhǔn)確度;谷靜等[12]提出了SINet模型,將Inception模塊和SE模塊進(jìn)行組合,以提高網(wǎng)絡(luò)對特征的提取及組合能力,最終得到了96.77%的分類準(zhǔn)確度.上述論文中的訓(xùn)練數(shù)據(jù)均較多且不平衡程度較低,模型能有足夠的數(shù)據(jù)學(xué)習(xí)相應(yīng)的缺陷特征.
深度學(xué)習(xí)訓(xùn)練需要數(shù)量較大且較平衡的數(shù)據(jù)[13-15],對于樣本數(shù)量較少的數(shù)據(jù),容易使模型對數(shù)據(jù)產(chǎn)生過擬合,從而大大降低模型的泛化性能[16],故通常需要進(jìn)行數(shù)據(jù)增強(qiáng).李鈞正等[14]通過梯度懲罰生成對抗網(wǎng)絡(luò)(WGAN-GP)模型極大地擴(kuò)充了鋼板表面缺陷樣本的數(shù)量,使缺陷分類準(zhǔn)確度達(dá)到95%;馬玲等[17]通過深度卷積生成對抗網(wǎng)絡(luò)(DCGAN)生成了液晶顯示器(LCD)表面缺陷樣本數(shù)據(jù),并使用遷移學(xué)習(xí)的方法提高了缺陷分類精度.針對分辨率較低的缺陷圖片,用生成式模型可取得一定效果,但對分辨率較高的圖片,很難生成高質(zhì)量圖片.
因焊縫金相組織圖像數(shù)據(jù)中缺陷樣本數(shù)量很少、圖片分辨率較高且缺陷較為復(fù)雜,故很難通過生成對抗網(wǎng)絡(luò)(GAN)模型進(jìn)行數(shù)據(jù)擴(kuò)充.針對這些問題,使用泊松融合的方法合成新的缺陷樣本,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的.同時,在ResNet18分類網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn),提出ResNet18_PRO網(wǎng)絡(luò)模型.具體安排如下:首先,具體介紹泊松融合的相關(guān)原理;其次,介紹ResNet18網(wǎng)絡(luò)模型結(jié)構(gòu)及ResNet18_PRO的相關(guān)設(shè)計,在此基礎(chǔ)上闡述相關(guān)實(shí)驗(yàn),包括缺陷樣本合成實(shí)驗(yàn)及缺陷分類實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行相應(yīng)分析,以此驗(yàn)證該數(shù)據(jù)增強(qiáng)方法對分類效果的提升作用,通過對ResNet18_PRO網(wǎng)絡(luò)模型進(jìn)行消融實(shí)驗(yàn),分析網(wǎng)絡(luò)各改進(jìn)部分對分類效果的影響以驗(yàn)證各改進(jìn)部分的有效性;最后,將ResNet18_PRO網(wǎng)絡(luò)模型運(yùn)用于其他工業(yè)缺陷數(shù)據(jù)集,以驗(yàn)證該模型的魯棒性.
圖1 泊松融合原理圖
t*|?S=t|?S
(1)
(tx-gx)2+(ty-gy)2
(2)
式(2)的最優(yōu)解t必須滿足相應(yīng)的歐拉-拉格朗日方程[19]:
(3)
得到最優(yōu)解t滿足的條件[18]為
Δt=Δg,t*|?S=t|?S
(4)
由式(4)可知,要使S區(qū)域紋理信息與g中的紋理信息保持一致,兩者的散度需要保持相等.圖像f在(x,y)位置處的散度Δf(x,y)的計算公式為
Δf(x,y)=f(x-1,y)+f(x+1,y)+
f(x,y-1)+f(x,y+1)-4f(x,y)
(5)
缺陷融合具體步驟如下.
(1) 求解梯度場:求解目標(biāo)圖像和源圖像的梯度場.
(2) 重建梯度場:用源圖像梯度場對目標(biāo)圖像在融合位置處的梯度場進(jìn)行置換,得到重建的梯度場.
(3) 重建散度場:對重建的梯度場進(jìn)行求導(dǎo),得到相應(yīng)的散度場.
(4) 構(gòu)建拉普拉斯方程:根據(jù)式(5)在融合區(qū)域用待求的像素值計算散度,與散度場中的值建立等式關(guān)系,同時令融合邊界上的像素值直接等于目標(biāo)區(qū)域在邊界上的像素值,構(gòu)建拉普拉斯方程.
(5) 對融合區(qū)域進(jìn)行插值:求解拉普拉斯方程,并將方程的解賦值到融合區(qū)域的相應(yīng)位置,得到融合圖像.
ResNet網(wǎng)絡(luò)由He等[20]于2015年提出,主要利用殘差結(jié)構(gòu)解決因網(wǎng)絡(luò)過深導(dǎo)致網(wǎng)絡(luò)難以訓(xùn)練的問題.殘差結(jié)構(gòu)是利用捷徑(shortcut)連接使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)對應(yīng)的殘差函數(shù)F(x)=G(x)-x,有效緩解因網(wǎng)絡(luò)太深造成的梯度消失問題,如圖2所示.
圖2 殘差結(jié)構(gòu)
ResNet網(wǎng)絡(luò)根據(jù)深度不同有多種結(jié)構(gòu),如ResNet18、ResNet50、ResNet152等.由于金相組織數(shù)據(jù)集規(guī)模較小,故選用ResNet18網(wǎng)絡(luò)模型,具體結(jié)構(gòu)如圖3所示,圖中FC為全連接層.該模型主要由4個層結(jié)構(gòu)(Layer)組成, 每個層結(jié)構(gòu)包含兩個殘差塊(Block),層與層之間的過渡需使用下采樣操作以降低特征圖尺寸,如紅色虛線所示,該下采樣過程有一定的信息損失,因此提出可學(xué)習(xí)的雙池化結(jié)構(gòu)(LDPS)以減少該過程的信息損失.同時,使用改進(jìn)的空間金字塔池化結(jié)構(gòu)提高網(wǎng)絡(luò)對多尺度特征信息的整合能力.
圖3 ResNet18模型結(jié)構(gòu)圖
如圖3中的紅色虛線所示,每個層之間都需要對上一層輸出的特征進(jìn)行下采樣以降低特征圖尺寸,具體結(jié)構(gòu)如圖4(a)所示.Shortcut連接部分通過核尺寸(kernel size)為1×1的卷積并設(shè)置卷積步長(stride)為2來達(dá)到下采樣目的,此過程中會損失較多細(xì)節(jié)信息,一定程度上會影響分類效果.為減少下采樣過程中的信息損失,提出了LDPS.將原下采樣中卷積操作步長改為1,通過核尺寸為3×3且步長為2的平均池化和最大池化操作實(shí)現(xiàn)下采樣,如圖4(b)所示,使被下采樣特征層的所有位置信息都能被使用,進(jìn)而極大減少了下采樣過程中的信息損失.由于平均池化主要反映整體特征信息,而最大池化主要反映局部特征信息,所以通過兩個可學(xué)習(xí)的向量對平均池化和最大池化所得的結(jié)果進(jìn)行選擇性利用,向量的長度與池化所得特征通道數(shù)相同,兩向量對應(yīng)元素的和為1,即對兩個池化結(jié)果中對應(yīng)的每一個通道進(jìn)行線性組合,提高網(wǎng)絡(luò)對局部特征和整體特征捕獲能力,從而向下傳遞更有用的信息.
圖4 下采樣結(jié)構(gòu)
對于缺陷分類而言,由于缺陷本身的尺寸變化較大,所以要提高對缺陷的分類準(zhǔn)確度,需提高網(wǎng)絡(luò)對缺陷尺寸變化的捕獲能力和整合能力.通過對下采樣結(jié)構(gòu)進(jìn)行改進(jìn),減少下采樣過程中的信息損失,綜合利用局部特征和整體特征信息,提高網(wǎng)絡(luò)對尺度變化的捕獲能力.對于提高多尺度信息的整合能力,在網(wǎng)絡(luò)末端增加了改進(jìn)的空間金字塔池化(ISPP)結(jié)構(gòu).ISPP主要將空間金字塔池化(SPP)結(jié)構(gòu)與1×1卷積相結(jié)合,從而提高對網(wǎng)絡(luò)末端多尺度特征信息的聚合能力,如圖5所示.首先使用SPP結(jié)構(gòu)對第4層輸出的特征進(jìn)行多尺度池化,共包含輸出尺寸為1×1、2×2及3×3的3種平均池化操作,用于提高對多尺度特征信息的提取能力[21],后通過1×1卷積對池化所得結(jié)果的各通道進(jìn)行線性組合并將通道數(shù)從512壓縮至64,對各通道提取的特征信息進(jìn)行整合,從而提取更豐富的特征信息,通道數(shù)的減少能極大地降低全連接層的計算量[22].
圖5 改進(jìn)的SPP結(jié)構(gòu)
實(shí)驗(yàn)所用的原始數(shù)據(jù)為焊縫金相組織圖片數(shù)據(jù)集,圖片尺寸大小為 2 560像素×1 920像素,尺寸過大,由于缺陷只存在于焊接熔核部位,因此提取出熔核部位并調(diào)整為416像素×416像素,包含正常、氣孔及裂紋3種缺陷類型,如圖6所示.氣孔指焊接過程中,因焊接熔池中的氣體未全部及時逸出而在焊縫內(nèi)部形成的孔穴.裂紋指焊接接頭局部區(qū)域遭到破壞而形成新界面所產(chǎn)生的縫隙[23].正常、氣孔及裂紋樣本數(shù)量分別為966、81、26,由此可知,原始數(shù)據(jù)中各缺陷類型的樣本數(shù)量極不平衡,為不平衡數(shù)據(jù).
圖6 缺陷類型
利用泊松融合將正常樣本與缺陷區(qū)域進(jìn)行樣本合成,結(jié)果如圖7所示.首先以如圖7(a)所示的正常樣本為背景,在背景上隨機(jī)選取融合位置并提取待融合的缺陷區(qū)域,為簡化操作,先從如圖7(b)所示的缺陷樣本中裁剪出含缺陷的較大區(qū)域,如圖7(c)所示;然后從該較大區(qū)域中提取待融合的缺陷部分,主要通過對該較大區(qū)域進(jìn)行二值分割得到黑白二值圖即二值掩膜,再根據(jù)二值掩膜的白色區(qū)域確定待融合的缺陷區(qū)域.二值掩膜的提取步驟如下:
圖7 泊松融合實(shí)驗(yàn)結(jié)果
(1) 將含缺陷的較大區(qū)域轉(zhuǎn)變?yōu)榛叶葓D像.
(2) 對該灰度圖像進(jìn)行二值分割.
(3) 利用形態(tài)學(xué)中的開操作去除細(xì)小毛刺,再通過閉操作消除相應(yīng)的孔洞.
(4) 最終得到二值掩膜圖像,如圖7(d)所示.
若直接用得到的二值掩膜圖確定待融合區(qū)域,則待融合區(qū)域?yàn)槿毕輩^(qū)域本身,如圖7(e)所示,將其與正常樣本進(jìn)行融合,由于泊松融合能使融合區(qū)域邊界平滑過渡,導(dǎo)致缺陷本身靠近邊界的部分成為過渡區(qū)域,極大影響了缺陷本身的顏色和紋理, 如圖7(f)所示.為消除這種影響,對二值掩膜圖像反復(fù)運(yùn)用形態(tài)學(xué)中的膨脹操作,擴(kuò)大二值掩膜區(qū)域范圍的同時還能保持大體形狀不變,結(jié)果如圖7(g)所示,相應(yīng)的待融合區(qū)域如圖7(h)所示.缺陷區(qū)域與邊界區(qū)域保持一定距離,從而使融合結(jié)果更好地保持原缺陷的顏色和紋理特征,如圖7(i)所示.
將所有的缺陷區(qū)域與正常樣本進(jìn)行隨機(jī)融合,并對缺陷大小、融合位置以及缺陷旋轉(zhuǎn)角度進(jìn)行隨機(jī)變化以增加生成樣本的多樣性,極大地擴(kuò)充了缺陷樣本數(shù)量,具體生成策略如下.
(1) 對正常樣本進(jìn)行灰度處理及二值化處理得到相應(yīng)的黑白二值圖像,記為“bin_img”.
(2) 從“bin_img”頂部中間位置wmid,由上至下依次探測得到金相組織區(qū)域上下邊界的位置h1及h2,由此計算出金相組織區(qū)域中心處的大體高度位置hmid=(h1+h2)/2.
(3) 以(wmid,hmid)為起始中心點(diǎn),通過增加相應(yīng)的偏移量得到隨機(jī)中心點(diǎn)(wmid+Δw,hmid+Δh),以該點(diǎn)作為融合位置的中心點(diǎn).
(4) 每個正常樣本最多融合兩個不同的缺陷.
若只融合一個缺陷:
若同時融合兩個缺陷:
其中:W為整個圖片的寬度;H為金相組織區(qū)域的高度,H=h2-h1.
(5) 對于待融合的缺陷圖片,則通過縮放變換(縮放比例范圍為[0.8,1.2])、翻轉(zhuǎn)變換、旋轉(zhuǎn)變換(角度變化范圍為[-30°,30°])及融合缺陷數(shù)量變化 (范圍為[1,2])等操作進(jìn)行處理.
(6) 最終得到相應(yīng)的合成圖片.
由于正常樣本數(shù)量是固定不變的966份,為使正常、氣孔及裂紋3種類型的圖片數(shù)量保持平衡,分別從合成得到的大量氣孔和裂紋樣本中均勻采樣部分缺陷樣本(約950份)用于后續(xù)實(shí)驗(yàn),最終各缺陷樣本數(shù)量變化如表1所示.
表1 數(shù)據(jù)增強(qiáng)后樣本數(shù)量變化
實(shí)驗(yàn)環(huán)境為windows10操作系統(tǒng),深度學(xué)習(xí)框架為Pytorch 1.8.0版本,硬件設(shè)備為Nvidia GEFORCE RTX 2070 Super,8GB顯存.少部分實(shí)驗(yàn)由于本地設(shè)備顯存不足,故使用了華為昇騰平臺進(jìn)行訓(xùn)練.為驗(yàn)證在原始數(shù)據(jù)不足的情況下,使用泊松融合方法進(jìn)行數(shù)據(jù)增強(qiáng)對缺陷分類效果的影響,共設(shè)置了兩組對比實(shí)驗(yàn),分別為利用原始數(shù)據(jù)以及擴(kuò)充之后的數(shù)據(jù)進(jìn)行實(shí)驗(yàn).實(shí)驗(yàn)對比了4個深度神經(jīng)網(wǎng)絡(luò)模型VGG13、GoogLeNet、ResNet18、ResNet18_PRO,以探究合成數(shù)據(jù)對模型的魯棒性及對分類效果的提升作用.缺陷分類實(shí)驗(yàn)中,訓(xùn)練集、驗(yàn)證集及測試集的比例為7∶2∶1,批量大小(Batch Size)設(shè)為32,采用Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化, 權(quán)重衰減(weight decay)設(shè)置為5×10-4,為使模型能進(jìn)一步學(xué)到最優(yōu)解空間,采用指數(shù)衰減學(xué)習(xí)率(Exponential LR, ELR)策略,初始學(xué)習(xí)率為10-3,伽馬(gamma)參數(shù)設(shè)置為0.95.
在分類任務(wù)中,需要根據(jù)分類的側(cè)重點(diǎn)選擇相應(yīng)的評價指標(biāo),合適的評價指標(biāo)能更準(zhǔn)確地反映模型真實(shí)分類效果.常見的評價指標(biāo)包括準(zhǔn)確度(Accuracy)、精確率(Precision)、召回率(Recall)及F1分?jǐn)?shù),如表2所示.式中,NTP表示預(yù)測為陽性且預(yù)測正確;NTN表示預(yù)測為陰性且預(yù)測正確;NFP表示預(yù)測為陽性但預(yù)測錯誤;NFN表示預(yù)測為陰性但預(yù)測錯誤.在多分類任務(wù)中,準(zhǔn)確度主要針對所有類型的樣本,表示所有被檢測樣本中檢測正確的樣本所占的比例;而精確率和召回率主要針對特定的類別來計算,精確率表示預(yù)測為該類別的所有樣本中被正確預(yù)測的樣本所占的比例,精確率越高,表明該類別的誤檢率越低;召回率表示所有該類別的真實(shí)樣本中被正確檢測的比例,召回率越高,表示該類別的漏檢率越低;F1分?jǐn)?shù)為精確率和召回率的調(diào)和平均值,兼顧了誤檢率和漏檢率.
表2 評價指標(biāo)及公式
在平衡的數(shù)據(jù)中,以上指標(biāo)都能較好地反映模型的分類效果,但在不平衡的數(shù)據(jù)中,準(zhǔn)確度容易受到樣本數(shù)據(jù)分布的影響,會更傾向于樣本數(shù)量較多的類別而忽略樣本較少的類別,因此可能會得到次優(yōu)模型,并可能產(chǎn)生錯誤結(jié)論[24-25].F1分?jǐn)?shù)可以兼顧誤檢率和漏檢率,可針對某一個特定的類別進(jìn)行度量,且受其他類別樣本影響較小,因此使用F1分?jǐn)?shù)作為評價指標(biāo).同時與準(zhǔn)確度進(jìn)行對比,一方面可以更準(zhǔn)確地反映真實(shí)的分類效果;另一方面可以更好地展示數(shù)據(jù)增強(qiáng)前后分類效果的變化,以便進(jìn)行相關(guān)分析.金相組織數(shù)據(jù)有正常、氣孔、裂紋3類圖片,為了更好地反映模型對每類圖片具體的分類效果及3類圖片整體的分類效果,分別計算每一類缺陷相應(yīng)的F1分?jǐn)?shù)值及相應(yīng)的宏平均值,如下式所示:
(6)
原始數(shù)據(jù)缺陷分類實(shí)驗(yàn)中,由于數(shù)據(jù)量較少且正常、氣孔、裂紋樣本數(shù)量之比約為45∶4∶1,各類型的樣本數(shù)量極不平衡.為了更加充分地利用數(shù)據(jù),進(jìn)行5折交叉驗(yàn)證,即取5次驗(yàn)證結(jié)果的平均值作為最終結(jié)果數(shù)據(jù),使結(jié)果更加可靠,避免偶然性,得到驗(yàn)證集分類準(zhǔn)確度隨訓(xùn)練過程的變化曲線,如圖8所示.
圖8 各模型在驗(yàn)證集上分類準(zhǔn)確度變化(原始數(shù)據(jù))
由圖8可知,各模型的分類準(zhǔn)確度均在90%以上,同時ResNet18_PRO網(wǎng)絡(luò)模型的分類準(zhǔn)確度比其他3個模型要高且收斂更穩(wěn)定,表明ResNet18_PRO網(wǎng)絡(luò)模型在分類效果及訓(xùn)練穩(wěn)定性方面優(yōu)于其他3個模型.但在不平衡數(shù)據(jù)集中,該分類準(zhǔn)確度并不能準(zhǔn)確反映實(shí)際分類效果,為反映真實(shí)的分類效果,對各類缺陷的F1分?jǐn)?shù)及其宏平均值進(jìn)行分析,結(jié)果如圖9所示.
圖9 各模型在驗(yàn)證集上F1分?jǐn)?shù)變化(原始數(shù)據(jù))
由圖9(a)~(c)可知,在4個模型中,ResNet18_PRO對正常、氣孔及裂紋圖片的分類效果均優(yōu)于其余3個分類模型;由9(d)可知,ResNet18_PRO的總體分類效果也為最優(yōu).主要由于ResNet18_PRO 模型在ResNet18的基礎(chǔ)上使用了LDPS 結(jié)構(gòu),減少了下采樣過程中的信息損失,并選擇了對分類結(jié)果更有利的信息進(jìn)行傳遞.同時在網(wǎng)絡(luò)末端增加了ISPP結(jié)構(gòu),增強(qiáng)了網(wǎng)絡(luò)對多尺度特征的提取和整合能力,因此ResNet18_PRO模型的分類效果優(yōu)于其余3個模型.但由于氣孔和裂紋缺陷的樣本數(shù)過少,ResNet18_PRO不能充分學(xué)習(xí)相應(yīng)的特征信息,所以分類效果仍然較差,由此可知訓(xùn)練數(shù)據(jù)量的不足會限制分類模型性能的發(fā)揮.
為進(jìn)一步測試模型整體性能,利用測試集對各分類模型進(jìn)行測試,結(jié)果如表3所示.由表3可知,各分類器對原始數(shù)據(jù)中的氣孔及裂紋分類效果較差,而實(shí)際生產(chǎn)中,需要對該兩類缺陷進(jìn)行準(zhǔn)確的分類,因此該分類效果無法用于實(shí)際生產(chǎn).
表3 各模型在測試集上的結(jié)果(原始數(shù)據(jù))
通過泊松融合數(shù)據(jù)增強(qiáng)以后,氣孔和裂紋樣本數(shù)量均有較大的提升,各類型圖片的樣本數(shù)量大致相同,因此消除了數(shù)據(jù)不平衡現(xiàn)象.用4個分類模型分別對樣本擴(kuò)充后的數(shù)據(jù)進(jìn)行訓(xùn)練,得到各模型對驗(yàn)證集的分類準(zhǔn)確度隨訓(xùn)練過程的變化如圖10所示.
圖10 各模型在驗(yàn)證集上分類準(zhǔn)確度變化(數(shù)據(jù)增強(qiáng)后)
與原始數(shù)據(jù)上的實(shí)驗(yàn)不同,此實(shí)驗(yàn)中各類型樣本數(shù)量是平衡的,此時分類準(zhǔn)確度可以較好反映真實(shí)分類效果.由圖10可知,各模型所得的分類準(zhǔn)確度均在95%以上,由此可知,各模型在增強(qiáng)后的數(shù)據(jù)上分類效果均有較大提升,表明該數(shù)據(jù)增強(qiáng)方法對分類效果的提升有較大作用.同時ResNet18_PRO模型的分類準(zhǔn)確度為98.91%,在4個模型中最高,進(jìn)一步反映了ResNet18_PRO網(wǎng)絡(luò)模型的優(yōu)越性.為進(jìn)一步確定各類型樣本分類效果也得到了類似提升,對各類缺陷的F1分?jǐn)?shù)及其宏平均值進(jìn)行分析,結(jié)果如圖11所示.
圖11 各模型在驗(yàn)證集上F1分?jǐn)?shù)變化(數(shù)據(jù)增強(qiáng)后)
由圖11可知,各模型對3類圖片分類的F1分?jǐn)?shù)值均在95%以上,相較于原始數(shù)據(jù)上的分類效果有了顯著提升,尤其是對于氣孔和裂紋缺陷的提升更加明顯.這表明數(shù)據(jù)增強(qiáng)后,各缺陷樣本數(shù)量增多且較為均衡,使分類效果得到較大提升.同時,ResNet18_PRO模型對各類缺陷的分類效果在4個模型中均為最優(yōu),進(jìn)一步驗(yàn)證了該模型性能的優(yōu)越性及穩(wěn)定性.
表4 各模型在測試集上的結(jié)果(數(shù)據(jù)增強(qiáng)后)
為進(jìn)一步分析ResNet18_PRO的分類性能,對測試過程中的部分成功案例進(jìn)行分析.如圖12所示,圖12(a)、12(b)的真實(shí)標(biāo)簽分別為氣孔和裂紋,4個模型得到的分類結(jié)果如表5所示.由表5可知,該兩張圖片在ResNet18_PRO模型上分類正確, 而
表5 成功案例測試結(jié)果
圖12 成功案例
在其余3個模型上分類錯誤.主要原因可能是圖12(a)中的氣孔邊界處為黑色,而氣孔內(nèi)部大部分區(qū)域的顏色與金相圖片本身的顏色十分接近,使另外3個模型在檢測過程中將氣孔內(nèi)部誤認(rèn)為是正常區(qū)域,所以只對缺陷邊界的上半周進(jìn)行檢測,使得模型將其誤認(rèn)為是細(xì)長的裂紋.圖12(b)由于裂紋位置周圍的顏色也較深,與裂紋本身的顏色較為接近,使其余3個模型沒有檢測到裂紋,而將其誤判為正常圖片.ResNet18_PRO模型由于減少了下采樣過程中的信息損失,同時在網(wǎng)絡(luò)末端加強(qiáng)了對信息的整合,能捕捉到更多的信息,使其得到正確的分類結(jié)果.
與傳統(tǒng)人工檢測相比,采用該模型進(jìn)行缺陷分類,既能得到較高的分類準(zhǔn)確度也具有較快的檢測速度,如表6所示.由表中可知,該模型在圖形處理器(GPU)上的檢測速度為100幀/s,遠(yuǎn)大于人工分類速度,能滿足大部分工業(yè)相機(jī)的拍攝速度,可實(shí)現(xiàn)實(shí)時檢測.
表6 人工分類與算法分類對比
為了驗(yàn)證ResNet18_PRO網(wǎng)絡(luò)各改進(jìn)部分及訓(xùn)練策略改進(jìn)對分類效果的影響,通過控制變量思想對ResNet18_PRO進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)為樣本擴(kuò)充后的數(shù)據(jù),訓(xùn)練集、驗(yàn)證集及測試集的比例仍為7∶2∶1,最終各模型在測試集上的結(jié)果如表7所示.驗(yàn)證網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)時,為避免訓(xùn)練策略所帶來的影響,訓(xùn)練均采用了0.001的固定學(xué)習(xí)率.
表7 消融實(shí)驗(yàn)結(jié)果
通過表7可知,相較于基線(Baseline)模型ResNet18的分類效果,LDPS和ISPP均能較好地提高模型的分類準(zhǔn)確度和F1分?jǐn)?shù),表明兩個改進(jìn)均較有效,其中LDPS對分類效果的提升更為明顯.這是由于ResNet18網(wǎng)絡(luò)淺層部分有較多的信息損失,導(dǎo)致網(wǎng)絡(luò)末端所提取的信息有效性減弱,而ISPP主要對網(wǎng)絡(luò)末端的信息進(jìn)行整合,其效果依賴于末端信息的質(zhì)量,所以單純增加ISPP對分類效果的提升并不明顯.而LDPS較大減少了下采樣過程中的信息損失,并將更有用的信息進(jìn)行傳遞,使網(wǎng)絡(luò)能提取更多更有效的信息,因此LDPS帶來的效果提升更好.同時,經(jīng)LDPS改進(jìn)后,網(wǎng)絡(luò)末端所得到的信息更有效,質(zhì)量更高,此時再與ISPP結(jié)合,使ISPP能對更有效的信息進(jìn)行整合,因此能進(jìn)一步提升分類效果.由于已經(jīng)驗(yàn)證了網(wǎng)絡(luò)結(jié)構(gòu)的有效性,所以對于訓(xùn)練策略的影響,直接用ResNet18和ResNet18_PRO兩個模型進(jìn)行驗(yàn)證,即在訓(xùn)練時使用動態(tài)學(xué)習(xí)率ELR.結(jié)果表明,兩模型使用ELR后,分類效果得到進(jìn)一步提升,其中ResNet18模型分類效果提升更大.這是由于在本實(shí)驗(yàn)中ResNet18模型本身的分類性能一般,通過動態(tài)學(xué)習(xí)率可以讓分類器進(jìn)一步接近最優(yōu)解空間,而ResNet18_PRO本身由于結(jié)構(gòu)改進(jìn)取得了較好的分類性能,與最優(yōu)解空間較近,所以運(yùn)用ELR之后,分類效果有提升,但不如ResNet18網(wǎng)絡(luò)提升明顯.
為驗(yàn)證ResNet18_PRO模型的魯棒性,分別探究了圖片的分辨率及缺陷數(shù)據(jù)集類型對模型分類效果的影響.探究分辨率對模型分類效果的影響時,通過圖像處理的方法改變金相組織圖片的分辨率,得到寬高均為52、104、208、312、416、520、624、728、832像素等9種不同分辨率的圖片,然后對以上圖片分別進(jìn)行訓(xùn)練和測試,結(jié)果如圖13所示.由此可知,隨著分辨率的增加,各類型圖片的F1分?jǐn)?shù)及分類準(zhǔn)確度先增加后趨于動態(tài)穩(wěn)定,當(dāng)分辨率小于104像素×104像素時,各類型缺陷的分類效果明顯下降,其中裂紋的分類效果下降更為明顯.主要因?yàn)榉直媛试降?圖片所攜帶的有效信息越少,使模型不能提取到較充足的特征信息,從而影響模型的分類性能.對于裂紋缺陷,由于本身缺陷特征為細(xì)長形狀,缺陷特征不如氣孔明顯,所以低分辨率下裂紋的分類效果下降更多.
圖13 分辨率對分類效果的影響
使用ResNet18_PRO模型解決了三分類問題,取得了較好的分類效果.為探究該模型對含更多類別的數(shù)據(jù)的分類效果,使用了東北大學(xué)公開的熱軋鋼帶表面缺陷數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,該數(shù)據(jù)集共有6類,每類有300張圖片,圖片分辨率被調(diào)整為224像素×224像素,如圖14所示.
圖14 東北大學(xué)表面缺陷數(shù)據(jù)集
訓(xùn)練集、驗(yàn)證集及測試集的比例為4∶1∶1,訓(xùn)練過程中的參數(shù)設(shè)置與上述數(shù)據(jù)增強(qiáng)后的分類實(shí)驗(yàn)的參數(shù)設(shè)置相同.最終各模型在測試集上的測試結(jié)果如表8所示.由表8可知,ResNet18_PRO模型在該表面缺陷數(shù)據(jù)集上也能取得較好的分類效果,且優(yōu)于其他3個模型,表明該模型對于類別數(shù)量更多的其他分類任務(wù)也具有較好的分類性能,驗(yàn)證了該模型的魯棒性.
表8 東北大學(xué)表面缺陷數(shù)據(jù)集測試結(jié)果
針對缺陷樣本數(shù)量較少的金相組織圖像缺陷分類問題,通過泊松融合的方法將缺陷區(qū)域與正常樣本進(jìn)行融合,擴(kuò)充缺陷樣本數(shù)量,從而達(dá)到數(shù)據(jù)增強(qiáng)的目的,改善了缺陷樣本數(shù)據(jù)不平衡的問題.在ResNet18的基礎(chǔ)上進(jìn)行改進(jìn),提出了LDPS用于減少下采樣過程中的信息損失,同時在網(wǎng)絡(luò)末端增加了ISPP結(jié)構(gòu)用于整合多尺度的特征信息,顯著提高了缺陷分類精度.實(shí)驗(yàn)方面,通過多個分類模型對數(shù)據(jù)增強(qiáng)前后的分類效果進(jìn)行對比,驗(yàn)證了泊松融合數(shù)據(jù)增強(qiáng)方法及ResNet18_PRO網(wǎng)絡(luò)模型的有效性,并通過消融實(shí)驗(yàn)驗(yàn)證了模型各改進(jìn)部分及訓(xùn)練策略的有效性.最終該模型在增強(qiáng)后的數(shù)據(jù)上取得了98.83%的平均分類精度及98.76%的平均F1分?jǐn)?shù).使用該模型對其他工業(yè)缺陷數(shù)據(jù)集進(jìn)行訓(xùn)練和測試,取得了98.96%的平均分類準(zhǔn)確度及99.21%的平均F1分?jǐn)?shù),表明該分類模型對不同的缺陷數(shù)據(jù)具有較好的魯棒性.以上結(jié)論表明,該數(shù)據(jù)增強(qiáng)方法及網(wǎng)絡(luò)模型具有較好的實(shí)際應(yīng)用價值.