張勇
摘要:提出了一種基于機(jī)器視覺的帶鋼焊縫檢測與定位技術(shù),在原CenterNet算法的基礎(chǔ)上增加旋轉(zhuǎn)角度的回歸實現(xiàn)了旋轉(zhuǎn)目標(biāo)檢測,并根據(jù)網(wǎng)絡(luò)的輸入?yún)?shù)制作合適的數(shù)據(jù)集。為了進(jìn)一步提高模型的精度和魯棒性,分別引入了可變形卷積和金字塔分割注意力模塊,多組實驗結(jié)果對比表明,該方法能在精確率、召回率、F值和檢測速度上得到提升,滿足實際檢測的需求。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);實例標(biāo)準(zhǔn)化;特征提??;算法
冷軋連退生產(chǎn)線的原材料為帶鋼卷,為保持生產(chǎn)的連續(xù)性,需將前一個帶鋼卷的尾部與后一個帶鋼卷的頭部焊接起來,從而得到連續(xù)的帶鋼材料。為了避免焊縫焊接質(zhì)量問題引起的帶鋼撕裂或者斷帶事故的發(fā)生[1],需要對焊接質(zhì)量進(jìn)行檢測,文中分析了帶鋼焊縫焊接質(zhì)量的自動檢測系統(tǒng)中應(yīng)用旋轉(zhuǎn)目標(biāo)檢測算法對月牙邊焊縫的識別和定位算法及評判標(biāo)準(zhǔn),并進(jìn)行了實驗分析。
1算法分析
1.1 CenterNet
CenterNet網(wǎng)絡(luò)的輸出為3個部分,依靠邊緣特征信息獲取的檢測目標(biāo)中心點的預(yù)測熱力圖,匹配角點獲取預(yù)測寬高模塊(Object Size)回歸目標(biāo)的寬和高,Offsets 模塊回歸中心點偏移量[3-4]。
1.2金字塔分割注意力
為了在不增加模型復(fù)雜度的前提下解決主流注意力目前存在的問題,金字塔分割注意力(PSA Module)機(jī)制以通道注意力機(jī)制為基礎(chǔ)[5-6],通過使用不同大小的卷積核來獲取多尺度的特征圖。輸入特征圖通過四個不同大小卷積核的卷積操作將特征圖切分為4個部分,接著對含有不同尺度特征的特征圖進(jìn)行拼接,定義如式(1)所示。
其中,ki 為卷積核的大小,第i個卷積核的大小ki=2×i +1;Gi 為分組卷積的組數(shù),其中 G1=1、G2=4、G3=8、G4=16;X 為輸入特征圖;xi 為多尺度預(yù)處理的特征圖;Cat 為concat算子;F 為拼接后的多尺度預(yù)處理的特征圖。
金字塔分割注意力機(jī)制中的通道注意力使用在分割后的多尺度預(yù)處理的特征圖之上,對 x1、x2、x3和 x4分別使用SE_Weight模塊獲取不同尺度特征圖的注意力權(quán)重,定義如式(2)所示。
xi_ se=SEWeight(xi),i=1, 2, 3, 4 ????(2)
其中,xi _ se 代表第i組注意力權(quán)重,對不同尺度特征圖分別獲取注意力權(quán)重信息旨在能夠融合不同組數(shù)上不同尺度的注意力信息;為了能實現(xiàn)注意力信息的交互并在不破壞原始通道注意力向量的前提下融合交叉維度向量,不同尺度特征圖的注意力向量以拼接的方式獲取多尺度注意力權(quán)重向量,定義如式(3)所示。
Z=Cat([x1_ se, x2_ se, x3_ se, x4_ se]) ?(3)
其中,Cat 為concat算子;Z 為多尺度注意力權(quán)重向量。
直接拼接的多尺度注意力權(quán)重向量不滿足所有權(quán)重之和為1,通過使用Softmax對多尺度注意力權(quán)重進(jìn)行全局歸一化實現(xiàn)了局部與全局通道注意力的交互,定義如式(4)所示。
att=Softmax(Z) ????????(4)
其中,att代表注意力交互后的多尺度通道注意力權(quán)重。
在獲取多尺度預(yù)處理的特征圖 F 和重新校準(zhǔn)的多尺度通道注意力權(quán)重att后,將兩者按對應(yīng)元素進(jìn)行點乘操作,輸出含有多尺度特征信息注意力的特征圖,定義如式(5)所示。
Y=F?att ????????????(5)
其中,?代表按通道方式的乘法;注意力交互后的多尺度通道權(quán)重。Y 代表得到的含有多尺度特征信息注意力的特征圖。
1.3定位算法
1.3.1 R-Center Net
通過使用改進(jìn)的 R-CenterNet算法對月牙邊焊縫進(jìn)行旋轉(zhuǎn)目標(biāo)檢測,R-CenterNet相較于CenterNet在經(jīng)過上采樣獲取高分辨率特征圖后的 head 部分,增加了一路特征圖來回歸矩形框的旋轉(zhuǎn)角度信息。增加的這一路特征圖的構(gòu)建方法與寬高圖的獲取方法相同,不同點為獲取含有旋轉(zhuǎn)因子角度圖的卷積層僅需要1個輸出通道。
1.3.2損失函數(shù)
R-CenterNet算法的損失函數(shù)為熱力圖的中心點預(yù)測損失函數(shù)、寬高圖的尺寸預(yù)測損失函數(shù)、中心點修正圖的中心點偏置損失函數(shù)和角度圖的損失函數(shù)之和,定義如式(6)所示。
L=λhm×Lhm×λwh×Lwh×λoff×Loff×λang×Lang ?(6)
其中,λhm、λwh、λoff 和λang分別為各損失函數(shù)的權(quán)重因子,根據(jù)檢測目標(biāo)特點進(jìn)行設(shè)計,本章實驗使用的值λhm=1、λwh=0.1、λoff=0.1、λang=0.1。熱力圖損失函數(shù)Lhm使用 Focal Loss 進(jìn)行計算,定義如式(7)所示。寬高圖、中心點修正圖和角度圖的損失函數(shù)使用普通 L1loss 進(jìn)行計算,分別如式(8)(9)(10)所示:
其中,N 為圖像中關(guān)鍵點的個數(shù);α和β為超參數(shù),本章依次設(shè)置為2和4;Yxyc代表熱力圖的標(biāo)注值,在Yxyc1時,易檢測目標(biāo)預(yù)測值Yxyc則會接近1,(1-Yxyc)α的值會很小,返回的損失值Lhm就會很小,起到輕微矯正模型的作用。對于越不明顯檢測樣本的預(yù)測值Yxyc越接近于0,(1-Yxyc)α的值越大,起到增加該目標(biāo)權(quán)重的作用。在其他情況下,預(yù)測值Yxyc與損失值成正比,(Yxyc)α用來懲罰 loss,也會越大,真實值Yxyc與損失值成反比,(1?Yxyc)β能夠減輕懲罰力度。
其中,sk為檢測目標(biāo)寬高的標(biāo)注值;Spk為網(wǎng)絡(luò)輸出的寬高預(yù)測值。
其中,ok 為檢測目標(biāo)中心點標(biāo)注值與代表該區(qū)域特征點的差值;Opk為網(wǎng)絡(luò)輸出的中心點偏置測值值。
其中,ak為檢測目標(biāo)旋轉(zhuǎn)角度的標(biāo)注值;Apk為網(wǎng)絡(luò)輸出的旋轉(zhuǎn)角度預(yù)測值。
2實驗與分析
2.1實驗環(huán)境
實驗服務(wù)器的硬件配置分別為15.5 GiB 內(nèi)存,Intel Core i7-6800K 中央處理器,NVIDIA GTX1080Ti 圖形處理器。軟件配置分別為 Ubuntu16.04,Python3.7編程語言,PyTorch深度學(xué)習(xí)框架。
2.2數(shù)據(jù)采集及評估
從生產(chǎn)現(xiàn)象采集了1200張月牙邊無規(guī)律位置的樣本圖像,隨機(jī)選取1000張作為訓(xùn)練集,返回?fù)p失更新模型權(quán)重,100張作為驗證集,計算訓(xùn)練模型的損失但不返回,僅用來判斷當(dāng)前模型性能并判斷是否保存當(dāng)前模型,其余100張作為測試集,通過輸出模型的評價指標(biāo)來檢測模型的泛化能力。
從生產(chǎn)線上切割下來的月牙邊被機(jī)械臂隨機(jī)的放置在定位相機(jī)的視覺區(qū)域內(nèi),其中采集圖像的尺寸為3648×3648。數(shù)據(jù)集使用 labelImg2進(jìn)行標(biāo)注,圖2對應(yīng)的標(biāo)注信息如表1所示,其中 cx 和 cy 分別代表標(biāo)注中心點橫縱坐標(biāo),w 和 h 分別代表標(biāo)注框的寬和高,單位均為像素值。angle 代表標(biāo)注框相對于垂直向上順時針的旋轉(zhuǎn)角度,單位為弧度制。
焊縫定位實驗的算法網(wǎng)絡(luò),采用4個評價指標(biāo)來評估模型的性能,分別為:精確率(P)、召回率(R)、F 值(F)和檢測速度(S)。
其中精確率的定義如式(11)所示。
其中,num 為所有測試集預(yù)測出來的樣本框中與標(biāo)注框作交并比后其數(shù)值大于預(yù)設(shè)閾值的樣本數(shù)目,即可認(rèn)為該樣本為預(yù)測為真且正確預(yù)測,用Tp來表示;Fp代表預(yù)測為真實際為假的樣本數(shù),Tp和Fp的和即為所有預(yù)測為真的樣本數(shù)all_pre_num。召回率的定義如式(12)所示。
其中,F(xiàn)n代表實際為真預(yù)測為假的樣本數(shù),Tp和Fp的和為實際情況中為真的樣本數(shù),即測試集所有標(biāo)簽的總數(shù)目all_lab_num。F 值的定義如式(13)所示。
其中,P 為精確率,R 為召回率,在 P 和 R 出現(xiàn)矛盾的時候綜合考慮兩者,該值越大說明模型性能越好。檢測速度的定義如式(14)所示。
其中,num_image為測試集的圖片數(shù)量,time 為檢測測試集圖片的總時間。
2.3實驗結(jié)果分析
通過實驗對比不同骨干網(wǎng)絡(luò)下 R-CenterNet的性能,設(shè)計了不同骨干網(wǎng)絡(luò)的3組對比方案進(jìn)行驗證。驗證實金字塔分割注意力的有效性,實驗的不同方案所使用結(jié)構(gòu)如表2所示。
表3所有方案使用相同的參數(shù):①初始學(xué)習(xí)率設(shè)置為0.000125,總訓(xùn)練步數(shù)為50步,從第20步開始每隔10步將初始學(xué)習(xí)率乘以0.1;②優(yōu)化器采用 Adam ,權(quán)重衰減設(shè)置為0.0001;③訓(xùn)練集和驗證集的批量均設(shè)置為4,訓(xùn)練集進(jìn)行隨機(jī)打亂處理,驗證集不進(jìn)行打亂處理。
在獲取最優(yōu)模型后通過測試集對模型進(jìn)行評估,設(shè)置所有實驗方案的中心點置信度閾值為0.3、預(yù)測框與標(biāo)注框的重合度閾值為0.3,所得的輸出精確率(P)、召回率(R)、F 值(F)和檢測速度(S)如表3所示。
由表3方案1與方案2的數(shù)據(jù)可知,增加網(wǎng)絡(luò)深度不能提高本章實驗的模型精度,反而會減少一定的檢測速度。將骨干網(wǎng)絡(luò)更換為DLANet后,精確率、召回率和 F 值分別上升了1.01、1.00和1.00個百分點,單張圖片的檢測時間減少了6.4 ms秒。方案4證明了在提取特征時使用金字塔分割注意力均能較明顯的提高檢測結(jié)果的 F 值。金字塔分割注意力使該模型的精確率增加了1.01個百分點,召回率提高了1.00個百分點,說明該模塊主要增強(qiáng)的是模型精確率。
3結(jié)束語
本文通過對比試驗證明基于DLANet骨干網(wǎng)絡(luò)的算法檢測速度更快、檢測精度更高。同時證明了金字塔分割注意力能夠增強(qiáng)模型的泛化能力,實驗結(jié)果表面旋轉(zhuǎn)目標(biāo)檢測算法能夠?qū)M足月牙邊焊縫的識別和定位要求。
參考文獻(xiàn):
[1]趙宗楠,劉文亮,歐家.搭接滾壓焊機(jī)傳動側(cè)焊縫開裂原因分析[J].南方金屬,2022(1):6-9.
[2]余瓊,賈建,唐萬象.連退機(jī)組在線全自動帶鋼焊縫感應(yīng)退火裝置研究與開發(fā)[J].冶金動力,2020(6):71-74.
[3]邵光梅.基于深度卷積網(wǎng)絡(luò)的板帶鋼表面缺陷類別檢測[D].馬鞍山:安徽工業(yè)大學(xué),2019.
[4] TULBURE A A, DULF E H. A review on modern defect detection models using DCNNs – Deep convolutional neural networks[J].Journal of Advanced Research, 2022,35:33-48.
[5] JIANG Y, ZHU X, WANG X, et al. R2CNN: Rotational region CNN for orientation robust scene text detection[J]. arXiv preprint arXiv:1706.09579, 2017.
[6]王明陽,王江濤,劉琛.基于關(guān)鍵點的遙感圖像旋轉(zhuǎn)目標(biāo)檢測[J].電子測量與儀器學(xué)報,2021,35(6):102-108.