李文俊 陳斌 李建明 錢(qián)基德
摘 要:為實(shí)現(xiàn)亮度不均的復(fù)雜紋理背景下表面劃痕的魯棒、精確、實(shí)時(shí)識(shí)別,提出一種基于深度神經(jīng)網(wǎng)絡(luò)的表面劃痕識(shí)別方法。用于表面劃痕識(shí)別的深度神經(jīng)網(wǎng)絡(luò)由風(fēng)格遷移網(wǎng)絡(luò)和聚焦卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)成,其中風(fēng)格遷移網(wǎng)絡(luò)針對(duì)亮度不均的復(fù)雜背景下的表面劃痕進(jìn)行預(yù)處理,風(fēng)格遷移網(wǎng)絡(luò)包括前饋轉(zhuǎn)換網(wǎng)絡(luò)和損失網(wǎng)絡(luò),首先通過(guò)損失網(wǎng)絡(luò)提取亮度均勻模板的風(fēng)格特征和檢測(cè)圖像的知覺(jué)特征,對(duì)前饋轉(zhuǎn)換網(wǎng)絡(luò)進(jìn)行離線(xiàn)訓(xùn)練,獲取網(wǎng)絡(luò)最優(yōu)參數(shù)值,最終使風(fēng)格遷移網(wǎng)絡(luò)生成亮度均勻且風(fēng)格一致的圖像,然后,利用所提出的基于聚焦結(jié)構(gòu)的聚焦卷積神經(jīng)網(wǎng)絡(luò)對(duì)生成圖像中的劃痕特征進(jìn)行提取并識(shí)別。以光照變化的金屬表面為例,進(jìn)行劃痕識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:與需要人工設(shè)計(jì)特征的傳統(tǒng)圖像處理方法及傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)相比,劃痕漏報(bào)率低至8.54 %,并且收斂速度更快,收斂曲線(xiàn)更加平滑,在不同的深度模型下均可取得較好的檢測(cè)效果,準(zhǔn)確率提升2 %左右。風(fēng)格遷移網(wǎng)絡(luò)能夠保留完整劃痕特征的同時(shí)有效解決亮度不均的問(wèn)題,從而提高劃痕識(shí)別精度;同時(shí)聚焦卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)劃痕的魯棒、精確、實(shí)時(shí)識(shí)別,大幅度降低劃痕漏報(bào)率和誤報(bào)率。
關(guān)鍵詞:亮度不均;復(fù)雜紋理背景;表面劃痕識(shí)別;風(fēng)格遷移網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò)
Abstract:In order to achieve robust, accurate and real-time recognition of surface scratches under complex texture background with uneven brightness, a surface scratch recognition method based on deep neural network was proposed. The deep neural network for surface scratch recognition consisted of a style transfer network and a focus Convolutional Neural Network (CNN). The style transfer network was used to preprocess surface scratches under complex background with uneven brightness. The style transfer networks included a feedforward conversion network and a loss network. Firstly, the style features of uniform brightness template and the perceptual features of the detected image were extracted through the loss network, and the feedforward conversion network was trained offline to obtain the optimal parameter values of network. Then, the images with uniform brightness and uniform style were generated by style transfer network. Finally, the proposed focus convolutional neural network based on focus structure was used to extract and recognize scratch features in the generated image. Taking metal surface with light change as an example, the scratch recognition experiment was carried out. The experimental results show that compared with traditional image processing methods requiring artificial designed features and traditional deep convolutional neural network, the false negative rate of scratch detection is as low as 8.54% with faster convergence speed and smoother convergence curve, and the better detection results can be obtained under different depth models with accuracy increased of about 2%. The style transfer network can retain complete scratch features with the problem of uneven brightness solved, thus improving the accuracy of scratch recognition, while the focus convolutional neural network can achieve robust, accurate and real-time recognition of scratches, which greatly reduces false negative rate and false positive rate of scratches.
Key words: uneven brightness; complex texture background; surface scratch recognition; style transfer network; Convolutional Neural Network (CNN)
0 引言
工業(yè)產(chǎn)品從配料到最終成型的整個(gè)過(guò)程中,由于運(yùn)輸、生產(chǎn)工藝等意外情況,表面常存在磕傷、劃傷、擦傷等造成的損傷性劃痕缺陷,因此,各種表面的劃痕識(shí)別方法一直都是學(xué)者和工業(yè)界研究的熱點(diǎn),如表面凹坑缺陷檢測(cè)[1]、玻璃屏幕表面劃痕檢測(cè)[2]、塑件劃痕檢測(cè)[3]、機(jī)械零件表面劃痕檢測(cè)[4]等;但是表面劃痕識(shí)別檢測(cè)技術(shù)受環(huán)境、光照、生產(chǎn)工藝和噪聲等多重因素的影響,檢測(cè)系統(tǒng)的信噪比一般較低,微弱信號(hào)難以檢出或不能與噪聲有效區(qū)分,以及由于檢測(cè)對(duì)象多樣、表面劃痕缺陷種類(lèi)繁多、形態(tài)多樣、背景復(fù)雜,致使對(duì)劃痕缺陷的描述不充分,對(duì)缺陷的特征提取有效性不高[5]。2012年,胡文瑾等[6]針對(duì)復(fù)雜的藏族唐卡圖像上的垂直劃痕利用小波變換實(shí)現(xiàn)劃痕檢測(cè),首先通過(guò)計(jì)算小波模極大值來(lái)描述圖像中目標(biāo)的多尺度邊界,然后通過(guò)投影變換增強(qiáng)劃痕中心亮度的極值特性并采用多尺度檢測(cè)劃痕的可能位置,再根據(jù)劃痕的寬度、高度以及連通分量篩選出垂直劃痕;但是該方法無(wú)法適應(yīng)各種形態(tài)、方向下的劃痕。2015年,周鵬等[7]針對(duì)復(fù)雜金屬表面提出了將剪切波和小波特征融合的劃痕識(shí)別方法,剪切波變換可以提取圖像在不同尺度、不同方向上的信息,因此對(duì)方向性的缺陷識(shí)別效果好。2017年,馬云鵬等[8]首先從多個(gè)方向?qū)饘俦砻娴幕叶葓D像進(jìn)行轉(zhuǎn)換,然后對(duì)多幅圖像分別進(jìn)行灰度波動(dòng)分析,自適應(yīng)地改變閾值與步長(zhǎng)對(duì)圖像進(jìn)行鄰域灰度差分割處理,最后利用主成分分析(Principal Component Analysis, PCA)算法將多幅圖像壓縮至單幅圖像實(shí)現(xiàn)劃痕分割,但是灰度變化不明顯的金屬表面圖像容易出現(xiàn)細(xì)節(jié)信息丟失等問(wèn)題以及分割需要時(shí)間太長(zhǎng),無(wú)法滿(mǎn)足工業(yè)實(shí)時(shí)檢測(cè)要求。郭皓然等[9]針對(duì)高光噪聲缺陷圖像,利用高斯函數(shù)的一階導(dǎo)數(shù)構(gòu)建Canny最優(yōu)邊緣檢測(cè)器,結(jié)合全局閾值的最大類(lèi)間方差法和形態(tài)學(xué)圖像分割法,對(duì)亮度不均的表面劃痕圖像進(jìn)行分割從而實(shí)現(xiàn)識(shí)別;但該算法通用性不強(qiáng),并且無(wú)法保留劃痕的完整特征。因此,如何構(gòu)建準(zhǔn)確、魯棒、實(shí)時(shí)的表面劃痕檢測(cè)系統(tǒng),以適應(yīng)光照變化、背景噪聲以及其他外界不良環(huán)境的干擾,仍然是目前需要解決的難題。
2016年,Li等[10]針對(duì)圖像轉(zhuǎn)換中的圖像風(fēng)格遷移問(wèn)題,提出了由前饋轉(zhuǎn)換網(wǎng)絡(luò)和損失網(wǎng)絡(luò)構(gòu)成的風(fēng)格遷移網(wǎng)絡(luò),使用基于損失網(wǎng)絡(luò)得到的特征重建損失以及風(fēng)格重建損失來(lái)訓(xùn)練前饋轉(zhuǎn)換網(wǎng)絡(luò),生成與模板圖像風(fēng)格一致同時(shí)能保留的轉(zhuǎn)換圖像生成與模板圖像風(fēng)格一致,同時(shí)能夠保留原始圖像主體特征的轉(zhuǎn)換圖像。
此句不通順,需調(diào)整?;貜?fù):第一個(gè)語(yǔ)句改為:生成與模板圖像風(fēng)格一致,同時(shí)能夠保留原始圖像主體特征的轉(zhuǎn)換圖像。
為了克服上述利用人工設(shè)計(jì)特征的劃痕識(shí)別方法的不足,本文提出基于風(fēng)格遷移網(wǎng)絡(luò)將亮度均勻、背景單一的模板圖像風(fēng)格遷移到待檢圖像中進(jìn)行預(yù)處理得到輸出圖像,再利用聚焦卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸出圖像進(jìn)行表面劃痕識(shí)別。待檢圖像通過(guò)前饋轉(zhuǎn)換網(wǎng)絡(luò)生成圖像,利用損失網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行特征提取,計(jì)算生成圖像與待檢圖像以及生成圖像與模板圖像語(yǔ)義特征之間的均方差損失,然后傳回前饋轉(zhuǎn)換網(wǎng)絡(luò)進(jìn)行反向傳播[11],迭代更新權(quán)重參數(shù)。風(fēng)格遷移網(wǎng)絡(luò)能夠融合亮度均勻模板圖像風(fēng)格特征以及待檢檢測(cè)圖像的知覺(jué)特征生成亮度均勻保留完整劃痕特征的圖像,然后利用基于聚焦結(jié)構(gòu)的多尺度卷積神經(jīng)網(wǎng)絡(luò)對(duì)生成圖像中劃痕特征進(jìn)行識(shí)別,由于訓(xùn)練集的亮度均勻且風(fēng)格特征一致,因此網(wǎng)絡(luò)能更好地針對(duì)不同形態(tài)、尺寸的劃痕特征進(jìn)行提取進(jìn)而識(shí)別。
1 風(fēng)格遷移網(wǎng)絡(luò)
本文基于Li等[10]提出的風(fēng)格遷移網(wǎng)絡(luò)對(duì)亮度不均的復(fù)雜背景紋理進(jìn)行預(yù)處理。如圖1所示,風(fēng)格遷移網(wǎng)絡(luò)包括前饋轉(zhuǎn)換網(wǎng)絡(luò)fw以及損失網(wǎng)絡(luò)。
前饋轉(zhuǎn)換網(wǎng)絡(luò)為一個(gè)深度殘差網(wǎng)絡(luò)[12],參數(shù)是權(quán)重w,網(wǎng)絡(luò)將輸入圖像x通過(guò)映射=fw(x)轉(zhuǎn)換成輸出圖像,每一個(gè)損失函數(shù)計(jì)算一個(gè)標(biāo)量值li(,yi)用來(lái)衡量輸出圖像以及一個(gè)目標(biāo)圖像之間的差異。前饋轉(zhuǎn)換網(wǎng)絡(luò)使用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)[13]優(yōu)化方法來(lái)最小化一組加權(quán)為λi的損失函數(shù)W*,可以寫(xiě)作:
相比逐像素計(jì)算損失函數(shù)的方式,損失網(wǎng)絡(luò)定義了一個(gè)特征重建損失lfeat以及一個(gè)風(fēng)格重建損失lstyle,分別用來(lái)衡量輸出圖像與內(nèi)容圖像yc以及模板圖像ys之間的差異。在訓(xùn)練時(shí),對(duì)于每一張輸入圖像x,都對(duì)應(yīng)有一個(gè)內(nèi)容圖像yc以及一張模板圖像ys。對(duì)于風(fēng)格遷移而言,內(nèi)容圖像yc就是輸入圖像x,而輸出圖像應(yīng)該是內(nèi)容圖像yc與模板圖像ys的結(jié)合。對(duì)于一張模板圖像,可以訓(xùn)練得到一個(gè)風(fēng)格遷移網(wǎng)絡(luò)。在測(cè)試時(shí),輸入圖像x直接通過(guò)前饋轉(zhuǎn)換網(wǎng)絡(luò)得到輸出圖像。
1.1 前饋轉(zhuǎn)換網(wǎng)絡(luò)
前饋轉(zhuǎn)換網(wǎng)絡(luò)為一個(gè)深度殘差網(wǎng)絡(luò),網(wǎng)絡(luò)設(shè)計(jì)基本遵循Radford等[14]提出的指導(dǎo)性意見(jiàn),沒(méi)有使用任何的池化層,而是利用步幅卷積在網(wǎng)絡(luò)中進(jìn)行上采樣或者下采樣操作。前饋轉(zhuǎn)換網(wǎng)絡(luò)由五個(gè)殘差塊組成,使用ResNet網(wǎng)絡(luò)結(jié)構(gòu)[15],所有的非殘差卷積層之后都使用了一個(gè)空間性的批標(biāo)準(zhǔn)化(Batch Normalization, BN)[16]以及非線(xiàn)性激活函數(shù)線(xiàn)性修正單元(Rectified Linear Unit, ReLU)[17],最后一層除外,最后一層使用一個(gè)縮放的tanh非線(xiàn)性函數(shù)來(lái)確保輸出圖像的像素值在[0,255]區(qū)間。除了第一層和最后一層使用9×9大小的卷積核之外,其余卷積層都使用3×3大小的卷積核。
輸入和輸出:對(duì)于風(fēng)格遷移而言,輸入和輸出都是灰度圖,大小為200×200。網(wǎng)絡(luò)使用了兩個(gè)步長(zhǎng)為2的卷積對(duì)輸入進(jìn)行下采樣,緊接著是幾個(gè)殘差塊,然后是兩個(gè)步長(zhǎng)為1/2的卷積層來(lái)進(jìn)行上采樣。
1.2 損失網(wǎng)絡(luò)
損失網(wǎng)絡(luò)采用的網(wǎng)絡(luò)模型為利用ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的VGG16[18],并且定義了兩個(gè)損失函數(shù)用來(lái)衡量?jī)蓮垐D像在高層語(yǔ)義以及感知上的差別。
1)特征重建損失lfeat。沒(méi)有用到傳統(tǒng)的逐像素對(duì)比損失,而是用VGG16網(wǎng)絡(luò)模型來(lái)得到高層特征來(lái)表征圖像內(nèi)容,公式可以寫(xiě)作:
其中,C、H、W分別為特征圖的通道數(shù)及尺寸大小,下述相同。式(2)尋找一個(gè)輸出圖像與內(nèi)容圖像yc對(duì)應(yīng)的第j層的特征圖j()和j(yc)使得低維語(yǔ)義層之間特征損失最小,使得輸出圖像能夠產(chǎn)生與內(nèi)容圖像yc視覺(jué)上不太能區(qū)分的圖像,如果用高維語(yǔ)義層來(lái)進(jìn)行特征重建,內(nèi)容和全局結(jié)構(gòu)會(huì)被保留下來(lái),但是顏色紋理以及精確的形狀信息將丟失,因此使用一個(gè)特征重建損失lfeat來(lái)訓(xùn)練前饋轉(zhuǎn)換網(wǎng)絡(luò)讓輸出圖像非常接近內(nèi)容圖像yc,但并不是讓它們完全匹配。
2)風(fēng)格重建損失lstyle。特征重建損失lfeat使輸出圖像的內(nèi)容更加接近內(nèi)容圖像yc,同時(shí),也希望通過(guò)風(fēng)格重建損失來(lái)讓輸出圖像與模板圖像ys在顏色、紋理、通用模式等方面更加接近。為了實(shí)現(xiàn)這一點(diǎn),定義了Gram矩陣來(lái)表征上述方面特性,令j(x)表示對(duì)于輸入圖像x在損失網(wǎng)絡(luò)中第j層的激活響應(yīng),特征圖的形狀為Cj×Hj×Wj,大小為Cj×Cj的Gram矩陣Gj(x)中的元素定義可以寫(xiě)作:
其中c,分別代表特征圖中任意兩個(gè)通道,如果將對(duì)應(yīng)特征圖j(x)看成一個(gè)Cj維度的特征,每個(gè)特征的形狀為Hj×Wj,式(3)中Gj(x)與Cj維度的特征的非中心的協(xié)方差成正比,每一個(gè)網(wǎng)格位置都可以看作一個(gè)獨(dú)立的樣本,從而獲取能夠影響其他信息的特征,Gram矩陣能夠通過(guò)調(diào)整j(x)的維度為Cj×Hj×Wj的矩陣ψ,那么Gj(x)=ψψT/CjHjWj。
3)風(fēng)格重建損失lstyle。輸出圖像與模板圖像ys的Gram矩陣的弗羅貝尼烏斯范數(shù)(Frobenius norm)的差的平方,可以寫(xiě)作:
即使與ys的尺寸不同,風(fēng)格重建損失lstyle仍然能夠被很好地定義,因?yàn)樗鼈兊腉ram矩陣的形狀都是相同的。優(yōu)化風(fēng)格重建損失lstyle能夠保留模板圖像ys的風(fēng)格化特征,但是沒(méi)有保留它的空間結(jié)構(gòu)信息,為了在一系列層J中而不是單層j中執(zhí)行風(fēng)格重建,定義l,Jstyle(,ys)為每一層j∈J的損失之和。
2 聚焦卷積神經(jīng)網(wǎng)絡(luò)
由于劃痕種類(lèi)、長(zhǎng)度、寬度、形狀等的多樣性使得傳統(tǒng)劃痕檢測(cè)方法適應(yīng)性比較差,因此利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行識(shí)別,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)的方式,在訓(xùn)練樣本數(shù)量足夠大、質(zhì)量足夠高、種類(lèi)足夠多的情況下,能夠設(shè)計(jì)足夠多層數(shù)的帶有大量參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)自動(dòng)學(xué)習(xí)到具有代表性的劃痕的本質(zhì)特征,憑借網(wǎng)絡(luò)中大量激活函數(shù)的使用,也提升了泛化能力,使得算法對(duì)于劃痕識(shí)別的適應(yīng)性大幅度增強(qiáng)。本文在8層卷積核大小都為3×3的卷積層以及3層全連接層的VGG11[19]網(wǎng)絡(luò)模型上進(jìn)行改進(jìn),提出了基于聚焦結(jié)構(gòu)的聚焦卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)一步解決如圖2工業(yè)環(huán)境下產(chǎn)生的短長(zhǎng)度碎屑對(duì)于劃痕識(shí)別的誤報(bào)問(wèn)題。
2.1 聚焦結(jié)構(gòu)
圖像聚焦表現(xiàn)為焦點(diǎn)區(qū)域分辨率增大變得更加清晰,非焦點(diǎn)區(qū)域分辨率減小變得模糊。因?yàn)榫劢咕矸e神經(jīng)網(wǎng)絡(luò)能更好地提取識(shí)別形態(tài)、大小、對(duì)比度各異的劃痕特征,基于聚焦結(jié)構(gòu)VGG11網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)提出了聚焦卷積神經(jīng)網(wǎng)絡(luò)。
聚焦結(jié)構(gòu)中的卷積核使用如圖3所示的空洞卷積[20],d代表擴(kuò)張率,F(xiàn)d表示利用卷積核內(nèi)部實(shí)值的間距,空洞卷積的感受野范圍與擴(kuò)張率d的關(guān)系可以寫(xiě)作:
如圖3(a)為標(biāo)準(zhǔn)卷積核,其擴(kuò)張率為1,感受野范圍為3×3,圖3(c)中擴(kuò)張率為3,其感受野范圍為15×15。
聚焦結(jié)構(gòu)由如圖4所示的聚焦塊和對(duì)焦塊組成。聚焦結(jié)構(gòu)的主要設(shè)計(jì)思想在于利用不同擴(kuò)張率的空洞稀疏卷積結(jié)構(gòu)來(lái)聚焦到一個(gè)多尺度高度相關(guān)的單元中來(lái)近似表達(dá)一個(gè)優(yōu)化的局部稀疏結(jié)構(gòu),好處在于計(jì)算復(fù)雜度未達(dá)到計(jì)算爆炸時(shí),能夠增加網(wǎng)絡(luò)的寬度和深度,增加網(wǎng)絡(luò)的表達(dá)能力,即類(lèi)似于在圖像尺寸大小不變的情況下,圖像中非焦點(diǎn)區(qū)域的分辨率減小轉(zhuǎn)移至焦點(diǎn)區(qū)域,使焦點(diǎn)區(qū)域內(nèi)分辨率增加進(jìn)而提高目標(biāo)特征顯著度及辨識(shí)度。
聚焦塊由擴(kuò)張率分別為1、2、3的三種空洞卷積對(duì)上層相關(guān)統(tǒng)計(jì)信息卷積得到多尺度聚焦信息,以便于下一個(gè)階段能夠同時(shí)提取不同尺寸下的特征,然后在通過(guò)對(duì)焦塊,進(jìn)一步聚焦上一階段提取到的多尺度聚焦處理結(jié)果,使用擴(kuò)張率分別為1、2的兩種空洞卷積來(lái)最終表達(dá)一個(gè)稠密且壓縮的信息形式。為了提升聚焦結(jié)構(gòu)內(nèi)部以及多層之間的梯度傳播能力,在聚焦塊、對(duì)焦塊以及整個(gè)聚焦結(jié)構(gòu)中都加入了與ResNet-18中典型殘差結(jié)構(gòu)相同的快捷連接方式。在每一個(gè)卷積結(jié)束之后,都使用了標(biāo)準(zhǔn)化以及非線(xiàn)性激活函數(shù)ReLU,標(biāo)準(zhǔn)化能夠去除特征之間的相關(guān)性,使所有特征具有相同的均值和方差,能有效提高反向傳播的效率,還具有參數(shù)正則化的效果;同時(shí)結(jié)合非線(xiàn)性激活函數(shù)ReLU,能夠大幅度提升網(wǎng)絡(luò)的泛化性能。聚焦卷積神經(jīng)網(wǎng)絡(luò)中使用的聚焦結(jié)構(gòu)中的標(biāo)準(zhǔn)化為批標(biāo)準(zhǔn)化(Batch Normalization, BN)。
2.2 網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)結(jié)構(gòu)主要基于VGG11模型進(jìn)行構(gòu)建,這是一個(gè)對(duì)于工業(yè)環(huán)境中產(chǎn)生的短長(zhǎng)度碎屑也能很好地識(shí)別,與劃痕特征區(qū)別開(kāi)的滿(mǎn)足工業(yè)條件實(shí)時(shí)處理的網(wǎng)絡(luò)框架。
網(wǎng)絡(luò)輸入為200×200的灰度圖像,對(duì)VGG11VGG-11和VGG11在全文中是否應(yīng)該要統(tǒng)一,請(qǐng)明確。網(wǎng)絡(luò)結(jié)構(gòu),保留第一層網(wǎng)絡(luò)結(jié)構(gòu),倒數(shù)第二層全連接層替換為全局均值池化層(Global Average Pooling)[19],剩下層都替換為聚焦結(jié)構(gòu)。網(wǎng)絡(luò)參數(shù)如表1所示,其中Focus1等為聚焦結(jié)構(gòu),包含聚焦塊(a)及對(duì)焦塊(b),Global_avg表示全局均值池化層,在每一層卷積層之后都使用批標(biāo)準(zhǔn)化(BN)以及ReLU非線(xiàn)性激活函數(shù)來(lái)提升網(wǎng)絡(luò)的泛化能力以及表達(dá)能力,網(wǎng)絡(luò)優(yōu)化方式使用自適應(yīng)矩估計(jì)(Adaptive moment estimation,Adam)[20]梯度下降優(yōu)化算法,設(shè)置初始學(xué)習(xí)率為0.001,權(quán)重衰減為0.0005,一階矩估計(jì)的指數(shù)衰減率為0.9,二階矩估計(jì)的指數(shù)衰減率為0.999。
3.1 實(shí)驗(yàn)設(shè)置
1)數(shù)據(jù)集。使用來(lái)自43套不同型號(hào)、不同尺寸、不同涂層工藝的服務(wù)器金屬表面提取的劃痕及背景圖像作為數(shù)據(jù)集,將200×200大小的表面劃痕圖像作為正樣本,同樣大小的背景圖像作為負(fù)樣本。訓(xùn)練集包含11套不同服務(wù)器的5246張金屬表面劃痕圖像和5502張背景圖像,驗(yàn)證集包含不同于訓(xùn)練集的11套不同服務(wù)器的5134張劃痕圖像和5133張背景圖像,測(cè)試集包含剩下21套服務(wù)器表面隨機(jī)采樣的10312張劃痕圖像和10298張背景圖像。對(duì)訓(xùn)練集用隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和裁剪來(lái)增加劃痕圖像數(shù)據(jù)并隨機(jī)采樣背景圖像數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后,訓(xùn)練集包含35006張劃痕圖像和35020張背景圖像。
2)評(píng)估和實(shí)施。對(duì)于評(píng)價(jià)性能指標(biāo),采用準(zhǔn)確率(Accuracy, Acc)、單幅圖像耗時(shí)(Time)、模型參數(shù)(Size)、靈敏度(Sensitivity, Sen)、特異性(Specificity, Spec),其中劃痕漏報(bào)率(Missing Report Rate, MRR)為靈敏度,背景誤報(bào)率(False Alarm Rate, FAR)為特異性。
對(duì)于不同卷積神經(jīng)網(wǎng)絡(luò)模型,未經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理,在測(cè)試集下得到的分類(lèi)結(jié)果分別表示為VGG11[18]、MobileNetV1[21]、ShuffleNet[22]、ResNet18[15]和FocusNet,而經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理,在測(cè)試集下得到的分類(lèi)結(jié)果分別表示為VGG11-Pre、MobileNetV1-Pre、ShuffleNet-Pre、ResNet18-Pre、FocusNet-Pre。
所有神經(jīng)網(wǎng)絡(luò)訓(xùn)練的實(shí)驗(yàn)參數(shù)都設(shè)置為利用Adam梯度下降優(yōu)化算法,初始學(xué)習(xí)率為0.001,權(quán)重衰減為0.0005,一階矩估計(jì)的指數(shù)衰減率為0.9,二階矩估計(jì)的指數(shù)衰減率為0.999,批數(shù)量為50張,最大迭代次數(shù)為40000。
本實(shí)驗(yàn)主要是在開(kāi)源框架PyTorch下實(shí)現(xiàn),所有實(shí)驗(yàn)都在CPU Inter Core i7 8700K、GPU NVIDIA GeForce GTX 1080Ti和16GB RAM的計(jì)算機(jī)上進(jìn)行。
3.2 本文方法與人工設(shè)計(jì)特征方法的對(duì)比實(shí)驗(yàn)
表2列出了上述傳統(tǒng)人工設(shè)計(jì)特征的方法[6-9],基于小波分析(Wavelet Analysis, WA)的方法、基于剪切波與小波(Shear Wave and Wavelet, SWW)的方法、自適應(yīng)分割(Adaptive Segmentation, AS)及全局閾值自適應(yīng)(Global Threshold Adaptive, GTA)的方法,與本文提出的方法(FocusNet-Pre)在測(cè)試集上進(jìn)行比較。
可以看出本文方法比傳統(tǒng)人工設(shè)計(jì)特征方法在各類(lèi)評(píng)價(jià)指標(biāo)上的表現(xiàn)都要更好,具體來(lái)說(shuō),本文方法相比人工設(shè)計(jì)特征方法中的最好結(jié)果,誤報(bào)率降低了9.33個(gè)百分點(diǎn)如何計(jì)算出來(lái)的,是否正確?請(qǐng)明確。,漏報(bào)率降低了7.176.17感覺(jué)此處描述錯(cuò)了,應(yīng)該是6.17吧?請(qǐng)核實(shí)個(gè)百分點(diǎn),準(zhǔn)確率提升了7.03個(gè)百分點(diǎn),并且運(yùn)行時(shí)間大幅度降低,單張圖像耗時(shí)快效率高了12倍左右,僅需要1.90ms。這表明深度卷積特征比低級(jí)的人工特征描述符具有更加強(qiáng)大的表達(dá)能力、泛化性能,各方面大幅度超越傳統(tǒng)人工設(shè)計(jì)特征方法,能夠很好地提取并識(shí)別復(fù)雜背景下亮度不均的形態(tài)、大小、種類(lèi)各異的表面劃痕。
3.3 風(fēng)格遷移網(wǎng)絡(luò)效果論證實(shí)驗(yàn)
為了驗(yàn)證風(fēng)格遷移網(wǎng)絡(luò)能夠有效解決劃痕識(shí)別中遇到的亮度不均、復(fù)雜背景的情況,因此在不同深度神經(jīng)網(wǎng)絡(luò)模型下進(jìn)行是否利用風(fēng)格遷移網(wǎng)絡(luò)對(duì)待檢輸入圖像進(jìn)行預(yù)處理的實(shí)驗(yàn),來(lái)觀察風(fēng)格遷移網(wǎng)絡(luò)的作用。圖5中展示風(fēng)格遷移網(wǎng)絡(luò)對(duì)于輸入圖像利用單一背景且亮度均勻的模板圖像進(jìn)行預(yù)處理的效果。
表3列出了本文提出聚焦卷積神經(jīng)網(wǎng)絡(luò)(FocusNet)及其他神經(jīng)網(wǎng)絡(luò)模型在是否利用風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理,并在測(cè)試集得到的分類(lèi)對(duì)比結(jié)果??梢钥闯觯诓煌木W(wǎng)絡(luò)架構(gòu)中,沒(méi)有經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理的分類(lèi)表現(xiàn)比經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理的分類(lèi)結(jié)果表現(xiàn)都要差。具體來(lái)說(shuō),在VGG11前經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)與預(yù)處理后,漏報(bào)率降低了5.46個(gè)百分點(diǎn)這幾處的描述感覺(jué)有問(wèn)題,如何計(jì)算出來(lái)的?要注意百分比和百分號(hào)的表述問(wèn)題。,準(zhǔn)確率提高了2.24個(gè)百分點(diǎn);在MobileNetV1中,漏報(bào)率降低了4.83個(gè)百分點(diǎn),準(zhǔn)確率提高了2.21個(gè)百分點(diǎn);在ShuffleNet中,漏報(bào)率降低了5.80個(gè)百分點(diǎn),準(zhǔn)確率提高了2.20個(gè)百分點(diǎn);在ResNet18中,漏報(bào)率降低了5.20個(gè)百分點(diǎn),準(zhǔn)確率提高了2.10個(gè)百分點(diǎn);在本文方法FocusNet中,漏報(bào)率降低了5.03個(gè)百分點(diǎn),準(zhǔn)確率提高了2.45個(gè)百分點(diǎn)。
(將百分號(hào)都改為百分點(diǎn),將“與”改為“預(yù)”,VGG11前經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)預(yù)處理后,漏報(bào)率降低了5.46個(gè)百分點(diǎn),準(zhǔn)確率提升了2.24個(gè)百分點(diǎn);在MobileNetV1中,漏報(bào)率降低了4.83個(gè)百分點(diǎn),準(zhǔn)確率提升了2.21個(gè)百分點(diǎn);在ShuffleNet中,漏報(bào)率降低了5.80個(gè)百分點(diǎn),準(zhǔn)確率提升了2.20個(gè)百分點(diǎn);在ResNet18中,漏報(bào)率降低了5.20個(gè)百分點(diǎn),準(zhǔn)確率提升了2.10個(gè)百分點(diǎn);在本文方法FocusNet中,漏報(bào)率降低了5.03個(gè)百分點(diǎn),準(zhǔn)確率提升了2.45個(gè)百分點(diǎn))
圖6表示不同卷積神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中的損失對(duì)比,圖中虛線(xiàn)VGG11、MobileNetV1、ShuffleNet、ResNet18、FocusNet代表沒(méi)有經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)預(yù)處理的表現(xiàn)結(jié)果,實(shí)線(xiàn)VGG11-Pre、MobileNetV1-Pre、ShuffleNet-Pre、ResNet18-Pre、FocusNet-Pre表示經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理的表現(xiàn)效果。可以看出各類(lèi)卷積神經(jīng)網(wǎng)絡(luò)的表現(xiàn)差異不大,但是相比沒(méi)有經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行預(yù)處理的訓(xùn)練收斂曲線(xiàn),經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)預(yù)處理后的訓(xùn)練收斂速度更快,收斂曲線(xiàn)更加平滑。由此說(shuō)明,綜上所示,不同的神經(jīng)網(wǎng)絡(luò)模型,經(jīng)過(guò)風(fēng)格遷移網(wǎng)絡(luò)預(yù)處理后能夠有效增加分類(lèi)結(jié)果的準(zhǔn)確性,并且減小過(guò)擬合程度,提升網(wǎng)絡(luò)模型的泛化性能。
3.4 本文方法與其他卷積神經(jīng)網(wǎng)絡(luò)方法的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文提出的聚焦卷積神經(jīng)網(wǎng)絡(luò)(FocusNet)能夠更加有效地提取待檢圖像中劃痕特征以及相比其他神經(jīng)網(wǎng)絡(luò)模型對(duì)于表面劃痕檢測(cè)更加有效,將不同的神經(jīng)網(wǎng)絡(luò)模型在相同訓(xùn)練集下經(jīng)過(guò)相同風(fēng)格遷移網(wǎng)絡(luò)預(yù)處理后進(jìn)行訓(xùn)練,并將測(cè)試集得到的各種評(píng)價(jià)分類(lèi)結(jié)果中的指標(biāo)進(jìn)行對(duì)比。從表4實(shí)驗(yàn)結(jié)果可以看到,F(xiàn)ocueNet-Pre提取到的深層特征優(yōu)于VGG11-Pre、MobileNetV1-Pre和ShuffleNet-Pre中提取的深層特征,與ResNet18-Pre差異不大,但模型參數(shù)降低了3倍減少了67%此處描述有問(wèn)題,不應(yīng)該是降低了多少倍速,應(yīng)該是降低了幾分之幾,請(qǐng)調(diào)整表述方式左右,單幅圖像耗時(shí)減小了2.73倍減少了63.46%此處描述有問(wèn)題,不應(yīng)該是減小了多少倍速,應(yīng)該是減小了幾分之幾,請(qǐng)調(diào)整表述方式,漏報(bào)率僅為8.54%,誤報(bào)率為0.44%與表4中的數(shù)值不一致,同時(shí)準(zhǔn)確率高達(dá)96.66%,說(shuō)明聚焦卷積神經(jīng)網(wǎng)絡(luò)不僅能夠識(shí)別不同種類(lèi)、長(zhǎng)度、寬度、形狀等的劃痕,并且具有較好的魯棒性和泛化性能;同時(shí)誤報(bào)率也有所減少降低并且模型運(yùn)行時(shí)間短,單張圖像耗時(shí)僅僅需要1.90ms,完全滿(mǎn)足工業(yè)生產(chǎn)線(xiàn)上的實(shí)時(shí)性的要求。
4 結(jié)語(yǔ)
1)提出基于深度神經(jīng)網(wǎng)絡(luò)的表面劃痕識(shí)別方法,該方法一方面將亮度不均、復(fù)雜背景的待檢圖像通過(guò)風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行亮度均勻化及背景單一化,同時(shí)保留完整的劃痕特征;另一方面利用本文提出的聚焦卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)表面劃痕深度特征提取并識(shí)別,能夠魯棒地識(shí)別形態(tài)、大小、種類(lèi)各異的表面劃痕。
2)通過(guò)實(shí)驗(yàn)證明了所提算法在解決亮度不均問(wèn)題同時(shí)生成保留完整的劃痕特征圖像和有效地識(shí)別不同形態(tài)、大小的表面劃痕方面具有更好的效果。另外,實(shí)驗(yàn)數(shù)據(jù)表明,基于所提算法在不同深度卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)復(fù)雜背景下的劃痕均有不錯(cuò)的識(shí)別效果,進(jìn)一步證明了該算法的有效性。
參考文獻(xiàn) (References)
[1] 宋迪,張東波,劉霞.基于Gabor和紋理抑制的手機(jī)配件劃痕檢測(cè)[J].計(jì)算機(jī)工程,2014,40(9):1-5.(SONG D, ZHANG D B, LIU X. Scratch detection for mobile phone accessories based on Gabor and texture suppression[J]. Computer Engineering, 2014, 40(9):1-5.)
[2] 韓芳芳,段發(fā)階,張寶峰,等.單線(xiàn)陣CCD系統(tǒng)的表面凹坑缺陷檢測(cè)方法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2012,44(4):116-120.(HAN F F, DUAN F J, ZHANG B F, et al. Study and modeling for surface pit defect detection based on linear array CCD system[J]. Journal of Harbin Institute of Technology, 2012,44(4):116-120.)
[3] 崔熾標(biāo),李陽(yáng),毛霆,等.基于預(yù)處理與卷積神經(jīng)網(wǎng)絡(luò)的塑件劃痕檢測(cè)[J].模具工業(yè),2017,43(9):1-6.(CUI Z B, LI Y, MAO T, et al. Scratch detection of plastics based on preprocessing and convolutional neural network[J]. Die and Mould Industry, 2017,43(9):1-6.)
[4] 李克斌,余厚云,周申江.基于形態(tài)學(xué)特征的機(jī)械零件表面劃痕檢測(cè)[J].光學(xué)學(xué)報(bào),2018,38(8): 815027-1-815027-7.(LI K B, YU H Y, ZHOU S J. Scratch detection for the surface of mechanical parts based on morphological features[J]. Acta Optica Sinica, 2018,38(8): 815027-1-815027-7.)
[5] 湯勃,孔建益,伍世虔.機(jī)器視覺(jué)表面缺陷檢測(cè)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2017,22(12):1640-1663.(TANG B, KONG J Y, WU S Q. Review of surface defect detection based on machine vision[J]. Journal of Image and Graphics, 2017,22(12):1640-1663.)
[6] 胡文瑾,李戰(zhàn)明,劉仲民.一種基于小波分析的唐卡圖像劃痕檢測(cè)[J].光學(xué)技術(shù),2012,38(6):751-755.(HU W J, LI Z M, LIU Z M. Scratch detection algorithm based on wavelet analysis for Thangka image[J]. Optical Technique, 2012,38(6):751-755.)
[7] 周鵬,徐科,劉順華.基于剪切波和小波特征融合的金屬表面缺陷識(shí)別方法[J].機(jī)械工程學(xué)報(bào),2015,51(6):98-103.(ZHOU P, XU K, LIU S H. Surface defect recognition for metals based on feature fusion of shearlets and wavelets[J]. Journal of Mechanical Engineering, 2015,51(6):98-103.)
[8] 馬云鵬,李慶武,何飛佳,等.金屬表面缺陷自適應(yīng)分割算法[J].儀器儀表學(xué)報(bào),2017,38(1):245-251.(MA Y P, LI Q W, HE F J, et al. Adaptive segmentation algorithm for metal surface defects[J]. Chinese Journal of Scientific Instrument, 2017,38(1):245-251.)
[9] 郭皓然,邵偉,周阿維,等.全局閾值自適應(yīng)的高亮金屬表面缺陷識(shí)別新方法[J].儀器儀表學(xué)報(bào),2017,38(11):2797-2804.(GUO H R, SHAO W, ZHOU A W, et al. Novel defect recognition method based on adaptive global threshold for highlight metal surface[J]. Chinese Journal of Scientific Instrument, 2017,38(11):2797-2804.)
[10] JOHNSON J, ALAHI A, LI F F. Perceptual losses for real-time style transfer and super-resolution[C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016:694-711.
[11] RUMELHART D E, HINTON G E, WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature, 1986, 323(6088): 533-536.
[12] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016:770-778.
文獻(xiàn)12、15這兩個(gè)重復(fù)了,建議將其中一個(gè)替換為另外一個(gè)文獻(xiàn),書(shū)寫(xiě)格式如模板示范。注意,在正文中的文獻(xiàn)引用,要依次引用,且在正文中引用的作者姓名與文獻(xiàn)列表中的作者姓名保持一致。
[13] BOTTOU, CURTIS F E, NOCEDA J, et al. Optimization methods for large-scale machine learning[J]. SIAM Review, 2016, 60(2): 223-311.
[14] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. ArXiv Preprint, 2016, 2016: 1511.06434.Computer Science, 2015, 57(3):511-519.
[15] LIM B, LEE K M. Deep recurrent ResNet for video super-resolution[C]// Proceedings of the 2018 IEEE Conference on Asia-pacific Signal and Information Processing Association Summit. Washington, DC: IEEE Conputer Society, 2018: 643-648.
HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016:770-778.
[16] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015:448-456.
[17] NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]// Proceedings of the 2010 International Conference on Machine Learning. New York: ACM, 2010:807-814.
[18] SIMONVAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]// Proceedings of the 2015 International Conference on Learning. Washington, DC: IEEE Computer Society, 2015:687-699.
[19] YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[C]// Proceedings of the 2016 International Conference on Learning. Washington, DC: IEEE Computer Society, 2016:511-524.
[20] KINGMA D, BA J. Adam: a method for stochastic optimization[C]// Proceedings of the 2014 International Conference on Learning. Washington, DC: IEEE Computer Society, 2014:248-263.
[21] HOWARD A G, ZHU M, CHEN B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017:1056-1065.
[22] ZHANG X, ZHOU X, LIN M, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017:563-572.