査云威 陳志豪 李偉朝
關(guān)鍵詞:手機(jī)屏幕;缺陷檢測;Faster R-cnn;注意力機(jī)制
中圖法分類號:TP391 文獻(xiàn)標(biāo)識碼:A
1引言
隨著科技的發(fā)展,我國逐步成為制造業(yè)強(qiáng)國,對工業(yè)產(chǎn)品的要求越來越高。以手機(jī)屏幕為例,在手機(jī)屏幕的制作工藝過程中,由于作業(yè)環(huán)境和技術(shù)等因素的影響,一些產(chǎn)品總會出現(xiàn)一些不可避免的缺陷,如屏幕會產(chǎn)生氣泡、劃痕、錫灰等。目前,大多數(shù)手機(jī)屏幕的缺陷檢測系統(tǒng)都是基于傳統(tǒng)的計算機(jī)視覺,較少使用深度學(xué)習(xí)的方法對手機(jī)屏幕進(jìn)行缺陷檢測。為此,本文引入了深度學(xué)習(xí)缺陷檢測方法,在用殘差網(wǎng)絡(luò)Resnet50作為Faster R-cnn的backbone的基礎(chǔ)上,在Resnet50的不同Block中加入卷積注意力模塊CBAM( Convolutional Block Attention Module),實(shí)驗(yàn)結(jié)果表明,改進(jìn)后模型檢測效果明顯提升。
2算法模型
本文用缺陷檢測的典型代表Faster R-cnn作為基本模型,用殘差網(wǎng)絡(luò)Resnet50代替VGG16作為FasterR-cnn的backbone,在Resnet50的不同Block中加入卷積注意力模塊CBAM。
2.1 Faster R-cnn
由于性能優(yōu)越,F(xiàn)aster R-cnn是two-stage目標(biāo)檢測模型中的杰出代表,其基本結(jié)構(gòu)如圖1所示。主要分為以下三個模塊:特征提取網(wǎng)絡(luò);RPN(Region Proposal Network)層,即區(qū)域選擇網(wǎng)絡(luò);Rol Pooling層,即區(qū)域池化網(wǎng)絡(luò)。特征提取網(wǎng)絡(luò)主要采用深層卷積神經(jīng)網(wǎng)絡(luò)提取圖形中的特征信息,用于缺陷檢測中的位置回歸和分類。圖片通過本層,經(jīng)過一系列的卷積池化操作后,最后得到feature map。我們可以把RPN層看作是一種全卷積網(wǎng)絡(luò),此層是端對端的訓(xùn)練方式,最終結(jié)果是為了得到推薦候選區(qū)域Proposals。而在區(qū)域池化網(wǎng)絡(luò)中,特征圖經(jīng)過該網(wǎng)絡(luò)后會得到大小相同的候選框,保證全連接層的正常運(yùn)行,選用分塊池化的方式將候選框統(tǒng)一為固定尺寸。最后,使用最大池化的方式輸出固定尺寸的特征圖。
2.2注意力機(jī)制CBAM
卷積注意力機(jī)制模塊CBAM模擬人的大腦皮層對重點(diǎn)事物特別關(guān)注的特性,以提高準(zhǔn)確度。其本質(zhì)是通過網(wǎng)絡(luò)對輸入圖片的訓(xùn)練學(xué)習(xí),學(xué)習(xí)圖像的特征,產(chǎn)生一組特征權(quán)重系數(shù),并強(qiáng)調(diào)圖形的重點(diǎn)語義區(qū)域,而對不相關(guān)的背景區(qū)域減少注意力資源的機(jī)制。CBAM注意力機(jī)制是一種混合域注意力機(jī)制,分別在通道域和空間域上進(jìn)行注意力特征權(quán)重的生成。
在通道域注意力模塊中,輸入的特征圖F,高為H,寬為W,通道為C,先進(jìn)行一次基于width和height的全局最大池化。同時,進(jìn)行一次基于width和height的全局平均池化,分別得到AvgPoolhw和Maxpoolhw,再將AvgPoolhw和Maxpoolhw輸入共享全連接層中,而后分別輸出對應(yīng)的特征圖,將輸出的特征作基于element-wise的加和操作后,用sigmoid激活函數(shù),生成通道注意力特征,即M_c。最后,將M_c和輸入特征圖F做element-wise乘法操作,生成空間注意力模塊需要的輸入特征F′,具體如圖2所示。
F′輸入空間域注意力模塊中,先分別進(jìn)行基于通道的全局最大池化和全局平均池化操作,得到兩個高為H,寬為W,通道為1的特征圖,然后先后將這兩個特征圖做concat操作得到高為H,寬為W,通道為2的特征矩陣,再經(jīng)過7×7的卷積操作,把通道維度降到一,即高為H,寬為W,通道為1。同樣,經(jīng)過sigmoid激活函數(shù),得到空間注意力特征,即M_s。最后,將該特征和該模塊的輸入特征F′做乘法,得到最終生成的特征權(quán)重,具體如圖3。
3數(shù)據(jù)處理及評價指標(biāo)
本文的數(shù)據(jù)集來源于廣東省某手機(jī)屏幕制造廠商,由4631張帶有缺陷的屏幕圖像組成,包括1124張正常樣本,3507張帶缺陷的樣本,1654個氣泡缺陷,1393個劃痕缺陷和1034個錫灰缺陷。用labelimg工具對缺陷樣本進(jìn)行標(biāo)注,標(biāo)注的信息包括缺陷在圖片中的像素位置(由xml文件記錄),缺陷類別(氣泡bubble、劃痕scratch、錫灰tin ash)和缺陷圖像文件名。而對于正常的樣本圖像不做缺陷標(biāo)注。
本實(shí)驗(yàn)把3704張圖片作為訓(xùn)練集,927張圖片作為測試集。IoU(Intersection over Union)是衡量目標(biāo)檢測結(jié)果中預(yù)測框和真實(shí)框重合程度的指標(biāo),它反映了目標(biāo)檢測算法的準(zhǔn)確度。其中,IoU的定義如下:其中,Area(A)代表真實(shí)標(biāo)準(zhǔn)框面積,Area(B)代表模型預(yù)測框面積。IoU的值越高,說明模型預(yù)測框和真實(shí)標(biāo)準(zhǔn)框重合面積占總面積越高,重合程度更高,預(yù)測越準(zhǔn)確,性能越高。
當(dāng)IoU比值比TP閾值高,則表示模型對于圖片缺陷區(qū)域的預(yù)測是正確的,TP(True Positives)加一;如果比TP閾值低,則表示模型對于圖片缺陷區(qū)域的預(yù)測是錯誤的,F(xiàn)P(False Positives)加一。根據(jù)TP,F(xiàn)N,F(xiàn)P計算出評價模型性能的其他指標(biāo),分別為Recall,Precision,AP值,公式如下:
Precision,又稱精確率,表示被正確預(yù)測的缺陷樣本在所有圖片的占比,精確率反映模型的誤檢程度,Precision值越高也表明模型的誤檢率越低。召回率Recall表示的是被正確預(yù)測的缺陷樣本在帶缺陷的圖片樣本中的占比,反映模型的漏檢程度,召回率越高,模型的漏檢率越低。AP值則是由Recall,Precision兩個維度分別作為橫縱坐標(biāo)下圍成的P-R曲線下的面積,AP反映檢測模型的綜合性能,AP的值越大說明手機(jī)屏幕缺陷檢測模型的綜合性能越好。
4實(shí)驗(yàn)部分
4.1實(shí)驗(yàn)設(shè)計
本文模型是在Windows平臺利用Pytorch1.8.0實(shí)現(xiàn)的,訓(xùn)練PC主要配置為i7-12700 2.10GHz
GPU(GTX-3060),內(nèi)存64GB。在訓(xùn)練過程中,動量值、初始學(xué)習(xí)率、訓(xùn)練輪次分別設(shè)置為0.9,0.001,400。
4.2對照實(shí)驗(yàn)
本文擬用殘差網(wǎng)絡(luò)Resnet50作為Faster R-cnn的backbone網(wǎng)絡(luò)層(圖4),分別選取了Blockl,Block2和Block4作為插入CBAM的模塊。
表1的實(shí)驗(yàn)數(shù)據(jù)以不同的插入方式分組為行,以固定閾值為列,在每種不同的插入方式中,記錄IoU閾值在0.1~0.9下模型的Recall,Precision,AP值。實(shí)驗(yàn)中在每個閾值下最高的AP值均用下劃線標(biāo)出。分析表1可以得出,在各IoU閾值情況下,與baseline對比,插入CBAM模型的RecallPrecision,,AP值都得到不同程度的提升,其中AP值提高了1.21%~6%,即插入CBAM注意力機(jī)制的Faster R-cnn檢測模型的綜合性能越好。一般認(rèn)為,IOU閾值為0.3時模型的檢測能力更接近工業(yè)要求,此時AP值最高的改進(jìn)模型為Block4后加入CBAM模塊的Faster R-cnn模型。在IoU=0.3時,相較于baseline,Recall值提升了3.33%,Precision值提升了5.18%,AP值提高了6.52%。
5結(jié)束語
為了提高工業(yè)生產(chǎn)過程中檢測手機(jī)屏幕缺陷的準(zhǔn)確率,本文改進(jìn)Faster R-cnn模型,用殘差網(wǎng)絡(luò)代替vgg16,然后以不同方式在特征提取網(wǎng)絡(luò)添加CBAM注意力機(jī)制。分析實(shí)驗(yàn)數(shù)據(jù)表明,在模型加入CBAM注意力機(jī)制后,各個IoU閾值上模型的各項指標(biāo)較原始模型都有明顯提升。由此表明,本文改進(jìn)后的Faster-Rcnn在手機(jī)屏幕缺陷檢測工業(yè)領(lǐng)域具有重要意義。
作者簡介:
查云威(1998—),碩士,研究方向:計算機(jī)視覺。