李亞東,馬 行,2,穆春陽,李建東
1.北方民族大學(xué) 電氣信息工程學(xué)院,銀川 750021
2.北方民族大學(xué) 寧夏智能信息與大數(shù)據(jù)處理重點(diǎn)實(shí)驗(yàn)室,銀川 750021
3.北方民族大學(xué) 機(jī)電工程學(xué)院,銀川 750021
工業(yè)缺陷目標(biāo)檢測(cè)是計(jì)算機(jī)視覺檢測(cè)中的特殊任務(wù)之一,在實(shí)際的工程項(xiàng)目中具有廣泛的應(yīng)用價(jià)值。軸承是大型列車和小型家用車轉(zhuǎn)動(dòng)關(guān)節(jié)的重要零件,在生產(chǎn)過程中不可避免地對(duì)其表面造成劃痕、凹槽等缺陷,嚴(yán)重影響其在使用過程中的機(jī)械性能。當(dāng)軸承表面存在多缺陷,軸承與軸承之間相互重疊和遮擋時(shí),導(dǎo)致小目標(biāo)漏檢率高,因此應(yīng)用計(jì)算機(jī)視覺完成檢測(cè)任務(wù)至關(guān)重要。
傳統(tǒng)的檢測(cè)方法依賴人工提取缺陷特征,比如陳金貴等人[1]采用背光源在軸承側(cè)面打光的方式,獲取缺陷區(qū)域圖像,再利用閾值分割和改進(jìn)的Niblack算法將缺陷區(qū)域從原圖像中提取出來。該方法的識(shí)別精度受光強(qiáng)度的影響,需要人工補(bǔ)光才能獲取缺陷圖像。魏利勝等人[2]先對(duì)軸承圖像進(jìn)行增強(qiáng)處理,然后對(duì)該區(qū)域的SIFT特征與軸承滾子模板SIFT特征進(jìn)行匹配,最后用融合單應(yīng)性約束策略對(duì)匹配點(diǎn)進(jìn)行篩選,得到軸承滾子的檢測(cè)結(jié)果。該方法的識(shí)別精度依賴匹配模板的質(zhì)量,若檢測(cè)環(huán)境存在多個(gè)缺陷目標(biāo)以及小目標(biāo)密集的情況時(shí),特征模板的提取較為困難,小目標(biāo)的漏檢率高。陳碩等人[3]提出一種軸承套圈端面檢測(cè)方法。首先對(duì)軸承套圈圖像進(jìn)行邊緣檢測(cè),定位套圈端面區(qū)域,并利用最小二乘法擬合端面輪廓以判別外形缺陷,再根據(jù)提取到的圖像特征完成缺陷的識(shí)別。該方法的應(yīng)用場(chǎng)景單一,邊緣檢測(cè)方法不能滿足軸承與軸承之間存在重疊與遮擋情況下的識(shí)別。
隨著人工智能技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4]算法不斷被提出,并被應(yīng)用于各種場(chǎng)景的檢測(cè)任務(wù)。比如徐鏹等人[5]基于YOLOv3[6]算法進(jìn)行鋼板表面的缺陷檢測(cè),首先使用輕量級(jí)網(wǎng)絡(luò)代替原模型的密集連接網(wǎng)絡(luò),然后加入空洞卷積提高缺陷的檢測(cè)能力,最后使用并行結(jié)構(gòu)進(jìn)一步減少模型參數(shù)量。該方法的實(shí)時(shí)性有較大提升,但模型過于輕量化導(dǎo)致鋼板表面小目標(biāo)缺陷識(shí)別精度較低。程婧怡等人[7]基于YOLOv3算法用于金屬表面缺陷識(shí)別,為解決小目標(biāo)漏檢問題設(shè)計(jì)了一條新的特征通道,然后使用K-means++算法重新聚類金屬表面缺陷的錨框,最后引入DIoU損失函數(shù)。該方法相比于原模型,小目標(biāo)識(shí)別率有所提升,但數(shù)據(jù)集缺陷目標(biāo)過于單一,對(duì)于其他的缺陷檢測(cè)任務(wù)魯棒性較差,而且模型參數(shù)量較大,實(shí)時(shí)性較低。王紫玉等人[8]基于YOLOv4[9]算法進(jìn)行銅帶表面的缺陷識(shí)別,針對(duì)缺陷形式多樣和位置隨機(jī)導(dǎo)致定位難的問題,提出基于IOU的K-means改進(jìn)算法,檢測(cè)精度和速度有一定提升。若環(huán)境中存在多個(gè)重疊和遮擋的小目標(biāo)時(shí),其相交區(qū)域的IOU值計(jì)算并不準(zhǔn)確,導(dǎo)致小目標(biāo)的定位精度不理想。石振華等人[10]基于YOLOv3算法進(jìn)行工件缺陷檢測(cè),改進(jìn)特征融合方式以減少冗余候選框的數(shù)量,該方法對(duì)于單一的缺陷目標(biāo)識(shí)別精度較高,在小目標(biāo)較為密集的情況下,改進(jìn)的特征融合方法仍存在特征融合不充分的問題,且小目標(biāo)的識(shí)別率需進(jìn)一步提升。
現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)在工業(yè)缺陷檢測(cè)中取得良好的檢測(cè)效果,但也存在以下不足:(1)針對(duì)工業(yè)缺陷目標(biāo)的檢測(cè)任務(wù),過度依賴錨框聚類。(2)模型整體參數(shù)量較大,實(shí)時(shí)性較低。(3)軸承缺陷目標(biāo)過于單一,對(duì)于重疊和遮擋下的小目標(biāo),識(shí)別率較低,無法滿足實(shí)際應(yīng)用場(chǎng)景中的需求。(4)模型特征融合方法需進(jìn)一步加強(qiáng)。
針對(duì)以上問題,本文基于無錨機(jī)制的YOLOX[11]模型提出一種多注意力特征加權(quán)融合算法。(1)引入更細(xì)粒度的特征提取模塊,增加模型對(duì)小目標(biāo)的表達(dá)能力,并嵌入自注意力模型,進(jìn)一步增加模型對(duì)淺層小目標(biāo)的特征描述。(2)設(shè)計(jì)了一種內(nèi)嵌坐標(biāo)注意力機(jī)制的加權(quán)特征金字塔融合網(wǎng)絡(luò),使模型對(duì)淺層特征和深層高級(jí)語義特征融合更充分,再通過注意力提高模型對(duì)顯著區(qū)域目標(biāo)的關(guān)注度。(3)在檢測(cè)頭網(wǎng)絡(luò)中,設(shè)計(jì)并行的信息傳輸模塊,使高維特征并行化,提高模型推理速度。(4)模型后處理階段,引入解決正負(fù)樣本不平衡的Focal Loss損失函數(shù),提高模型對(duì)高閾值正樣本特征的學(xué)習(xí)能力,進(jìn)一步提高小目標(biāo)識(shí)別率。實(shí)驗(yàn)結(jié)果表明,本文提出的多注意力特征加權(quán)融合算法在面對(duì)軸承表面重疊和遮擋的小目標(biāo)時(shí),檢測(cè)精度和速度均有提升,滿足工業(yè)中對(duì)缺陷目標(biāo)的檢測(cè)需求。
基于YOLOX算法,本文提出如圖1所示多注意力特征加權(quán)融合算法,該算法結(jié)構(gòu)由特征提取骨干模塊、特征融合模塊、檢測(cè)頭模塊三部分組成。輸入寬高為416×416的RGB三通道圖像,首先通過改進(jìn)的自注意力特征提取骨干模塊(Res2Block+COT)生成尺度為13×13、26×26、52×52的三條聚合細(xì)粒度信息的特征通道,其次將三個(gè)多尺度通道中的特征信息輸入改進(jìn)的注意力加權(quán)特征金字塔融合模塊(CA-BiFPN),進(jìn)行淺、深層細(xì)節(jié)信息和高級(jí)語義信息的交互融合,然后將融合后含有豐富語義信息的特征圖輸入改進(jìn)的并行傳輸模塊(inception),最后送入檢測(cè)頭模塊進(jìn)行后處理,得到最終的優(yōu)化模型。
圖1 多注意力特征加權(quán)融合模型結(jié)構(gòu)Fig.1 Structure of multi-attention feature weighted fusion model
骨干網(wǎng)絡(luò)用于提取圖像中的目標(biāo)特征,包含邊緣特征、紋理特征等。原YOLOX模型中骨干網(wǎng)絡(luò)使用CSPDarknet53模塊,通過查閱文獻(xiàn)[12]以及后續(xù)對(duì)模型結(jié)構(gòu)的深入了解,該種組合方式會(huì)導(dǎo)致模型在反向傳播過程中,神經(jīng)元節(jié)點(diǎn)之間梯度重復(fù),大大降低模型的學(xué)習(xí)表達(dá)能力。對(duì)于小樣本缺陷目標(biāo)來說,模型的學(xué)習(xí)表達(dá)能力直接影響目標(biāo)的識(shí)別精度,因此使用提取特征更細(xì)粒度的Res2Net[13]網(wǎng)絡(luò)重新構(gòu)建新的骨干網(wǎng)絡(luò)模型。Res2Block能夠在更細(xì)粒度級(jí)別表示多尺度特征,不但緩解了梯度重復(fù)的問題,還使網(wǎng)絡(luò)具備更大的感受野,進(jìn)一步增加淺層和深層特征的語義表達(dá)能力。Res2Block結(jié)構(gòu)如圖2所示。
圖2 Res2Block模塊Fig.2 Res2Block module
該結(jié)構(gòu)將輸入特征圖X分成s份分別進(jìn)行處理,并且將不同分支間的特征再進(jìn)行空間重構(gòu),Ki表示融合第i塊特征圖,Yi表示融合Xi分支的特征。其中Yi定義為式(1):
改進(jìn)后的骨干網(wǎng)絡(luò)信息參數(shù)如表1所示。
表1 骨干網(wǎng)絡(luò)參數(shù)信息結(jié)構(gòu)Table 1 Structure of backbone network parameter information
Li等人[14]針對(duì)全局上下文特征信息設(shè)計(jì)了自注意力網(wǎng)絡(luò)(contextual transformer network,COTNet)。自注意力模型不但開啟了自然語言處理的新時(shí)代,在計(jì)算機(jī)視覺任務(wù)中也取得不錯(cuò)的成果,相比視覺領(lǐng)域具有代表性的通道和空間注意力,如SENet[15]、CBAM[16]等,具有長(zhǎng)距離信息建模和全局感知能力。針對(duì)軸承表面小缺陷目標(biāo)和區(qū)域缺陷目標(biāo)密集的問題,正確描述前景正樣本特征,能夠顯著提升缺陷目標(biāo)的識(shí)別率。本文使用COT block自注意力模塊增加網(wǎng)絡(luò)對(duì)目標(biāo)特征的關(guān)注程度,捕獲更加豐富的上下文信息,生成更具判別性的有用特征。COT block自注意力模塊如圖3所示。
圖3 COT block模塊Fig.3 COT block module
該模塊針對(duì)輸入特征X,定義query=X,key map=X,value map=X×Wv。在key map上進(jìn)行k×k的分組卷積,來獲得靜態(tài)建模的上下文信息K1,然后將query和K1通道拼接的結(jié)果進(jìn)行兩次連續(xù)的卷積得到具備豐富上下文信息的attention map,如式(2)。再將A(attention map)和V(value map)進(jìn)行點(diǎn)積,得到具備動(dòng)態(tài)上下文建模的K2,如式(3):
添加自注意力模型至Res2Block模塊中,用以增加骨干網(wǎng)絡(luò)的感受野以及軸承缺陷目標(biāo)的動(dòng)靜態(tài)上下文建模,進(jìn)一步提高模型的表達(dá)能力。
在原始YOLOX模型中,特征融合使用的是路徑聚合網(wǎng)絡(luò)(path aggregation network,PANet)[17],該結(jié)構(gòu)雖然構(gòu)建了自底向上和自上而下的雙路結(jié)構(gòu),但是網(wǎng)絡(luò)層級(jí)之間特征利用率低,出現(xiàn)過多的冗余信息,導(dǎo)致模型特征融合不充分,丟失對(duì)淺層邊緣小目標(biāo)和區(qū)域密集目標(biāo)的特征描述。針對(duì)上述問題,EfficientDet[18]提出加權(quán)雙向特征金字塔網(wǎng)絡(luò)(bidirectional feature pyramid network,BiFPN),基于BiFPN結(jié)構(gòu),重新設(shè)計(jì)了適用于本文改進(jìn)模型的三通道加權(quán)雙向特征金字塔融合網(wǎng)絡(luò),如圖4所示。該結(jié)構(gòu)將不同層級(jí)之間的特征交錯(cuò)連接,同一層級(jí)保留原始特征,充分利用了淺層細(xì)節(jié)信息和深層高級(jí)語義信息,并且減少了節(jié)點(diǎn)之間的計(jì)算。
圖4 CA-BiFPN加權(quán)特征融合模塊Fig.4 CA-BiFPN weighted feature fusion module
如圖4所示,將52×52的特征圖進(jìn)行卷積核大小為3×3,步長(zhǎng)為1的卷積,得到26×26大小的特征圖,并將其與原該尺度大小的特征信息進(jìn)行融合。再將融合后26×26的特征圖進(jìn)行相同的卷積,得到13×13的特征圖,再與原尺度大小的特征信息進(jìn)行融合。最后,將總的融合信息進(jìn)行2倍和4倍的上采樣,再次將不同尺度的特征進(jìn)行融合。
本文中采用嵌入坐標(biāo)注意力(coordinate attention,CA)[19]的方式給CA-BiFPN特征融合模塊的多尺度通道分配不同分?jǐn)?shù)的權(quán)值。嵌入坐標(biāo)注意力的加權(quán)方式相比于傳統(tǒng)的隨機(jī)分配權(quán)值的方式,可以進(jìn)一步增加模型的感受野,以及感興趣目標(biāo)的關(guān)注度和小目標(biāo)的位置敏感性。坐標(biāo)注意力將輸入特征“分而治之”,結(jié)構(gòu)如圖5所示。
(1)在偏好表達(dá)上 文獻(xiàn)[9]研究了得分偏好信息下的雙邊匹配問題,文獻(xiàn)[12]考慮了語言偏好信息下的雙邊匹配問題,二者均未考慮匹配主體的心理行為因素。本文針對(duì)具有得分和語言兩種形式偏好信息的雙邊匹配問題,考慮了匹配主體的心理行為因素,提出一種基于前景理論的雙邊匹配方法。與文獻(xiàn)[9,12]的方法相比,一方面本文將基于單一形式偏好信息的雙邊匹配模型拓展到多種形式情形,發(fā)展和完善了雙邊匹配理論;另一方面在實(shí)際匹配決策中,匹配主體是有限理性的,即匹配主體并非總是追求效用最大化,而表現(xiàn)為參照依賴和損失規(guī)避等,本文通過引入前景理論來描述匹配主體的心理行為,更加符合實(shí)際匹配情況。
圖5 坐標(biāo)注意力結(jié)構(gòu)圖Fig.5 Diagram of CA attention structure
利用(H,1)和(1,W)的池化核將輸入特征圖分割并壓縮,沿水平方向和垂直方向?qū)γ總€(gè)通道進(jìn)行平均池化(average pool),產(chǎn)生兩個(gè)獨(dú)立方向感知注意力特征圖zH和zW,大小分別是C×H×1和C×1×W。再將帶有方向信息的特征圖進(jìn)行拼接,使用共享的1×1卷積生成過程特征圖f∈RC/r×1×(W+H),r代表通道下采樣的比例系數(shù)。將過程特征圖在水平方向和垂直方向拆分成兩個(gè)獨(dú)立的向量f h、f w,然后分別通過卷積層調(diào)整維度大小得到f h∈RC×H×1和f w∈RC×1×W,最終經(jīng)過激活函數(shù)Sigmoid(x)得到兩個(gè)獨(dú)立空間方向的注意力權(quán)值gh、gw,再對(duì)其進(jìn)行拓展,作用于原輸入特征信息后得到對(duì)目標(biāo)空間維度位置信息敏感的注意力模塊。
Inception[20]結(jié)構(gòu)改善了模型的寬度和深度,解決了大的卷積核難以訓(xùn)練的問題。在檢測(cè)頭模塊中,三條檢測(cè)支路的特征向量都具有高緯度特點(diǎn),為提升模型的推理速度,將串行傳輸?shù)腃BS結(jié)構(gòu)設(shè)計(jì)為Inception并行傳輸,如圖6所示。其中CBS為標(biāo)準(zhǔn)卷積、批量標(biāo)準(zhǔn)化(batch normalization,BN)和SiLU激活函數(shù)。
圖6 改進(jìn)Inception并行傳輸結(jié)構(gòu)圖Fig.6 Diagram of improved Inception parallel transmission structure
首先利用1×1卷積將輸入特征分為并行結(jié)構(gòu),每條路徑的通道數(shù)各為原始通道數(shù)的;然后利用空間的1×3和3×1卷積提取特征;最后通過通道拼接恢復(fù)原始通道數(shù)。該設(shè)計(jì)使特征在空間維度上高效傳輸,并減少了部分計(jì)算量。
軸承缺陷目標(biāo)與軸承背景相似,當(dāng)多缺陷目標(biāo)之間存在重疊和遮擋時(shí),前景正樣本和背景負(fù)樣本難以區(qū)分。在模型訓(xùn)練過程中,背景負(fù)樣本數(shù)量過多,導(dǎo)致模型對(duì)前景正樣本目標(biāo)的學(xué)習(xí)不夠。雖然精度很高但是召回率很低,模型性能不穩(wěn)定。為解決這一問題,本文引入Focal Loss[21]損失函數(shù)替換置信度損失的交叉熵函數(shù),F(xiàn)ocal Loss函數(shù)定義如式(4)和(5):
其中α∈是解決正負(fù)樣本比例不均的平衡系數(shù),λ為控制難易分類樣本權(quán)重的平衡系數(shù)。pt為難易分類樣本的概率。
本實(shí)驗(yàn)在Ubuntu 18.04操作系統(tǒng)下完成,服務(wù)器的GPU型號(hào)為NVIDIATesla P40,顯存為24 GB,4顯卡并行訓(xùn)練,并通過CUDA 10.1對(duì)GPU進(jìn)行加速。
圖7 部分?jǐn)?shù)據(jù)集展示Fig.7 Partial dataset presentation
本次實(shí)驗(yàn)以YOLOX-S為基準(zhǔn)模型。自制數(shù)據(jù)集以8∶1∶1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并設(shè)置多組消融實(shí)驗(yàn)驗(yàn)證每個(gè)改進(jìn)策略對(duì)初始模型的效果,進(jìn)而得到最優(yōu)模型。
本次實(shí)驗(yàn)使用目標(biāo)召回率(recall)、單個(gè)目標(biāo)類別檢測(cè)精度(average precision,AP)、平均檢測(cè)精度(mean average precision,mAP)和檢測(cè)速度(frame per second,F(xiàn)PS)作為評(píng)價(jià)指標(biāo)。
每個(gè)模型從零開始訓(xùn)練,epoch設(shè)置為160輪,其中前20輪為模型熱身,即只進(jìn)行前向推理,不進(jìn)行梯度的反向傳播。優(yōu)化器使用隨機(jī)梯度下降法(SGD),初始學(xué)習(xí)率為0.01,動(dòng)量為0.937,并采用余弦退火學(xué)習(xí)策略,動(dòng)態(tài)調(diào)整學(xué)習(xí)率。根據(jù)實(shí)驗(yàn)室的硬件平臺(tái),將一次輸入網(wǎng)絡(luò)的圖片量(batch size)設(shè)置為64。模型訓(xùn)練過程loss曲線如圖8所示。
圖8 模型損失曲線Fig.8 Model loss curve
由圖8的損失曲線可得,隨著訓(xùn)練次數(shù)不斷增加,模型的loss值逐步下降。本文改進(jìn)算法模型的loss如圖8中曲線B所示,相比于原模型的loss曲線A,收斂速度更快,改進(jìn)前與改進(jìn)后模型損失分別收斂于3.45和2.50左右,證明本文提出的改進(jìn)策略及參數(shù)設(shè)置合理,對(duì)提升模型識(shí)別精度有效。
在實(shí)景采集的軸承缺陷數(shù)據(jù)集上對(duì)各改進(jìn)策略進(jìn)行訓(xùn)練和評(píng)估,不同改進(jìn)策略對(duì)基準(zhǔn)模型的影響如表2所示。
表2對(duì)本文中的改進(jìn)策略進(jìn)行實(shí)驗(yàn)分析,其中實(shí)驗(yàn)2~5為改進(jìn)策略對(duì)基準(zhǔn)模型(實(shí)驗(yàn)1)的影響,可以看出改進(jìn)策略使原模型的識(shí)別精度均有不同程度的提高。實(shí)驗(yàn)2中使用Res2Block+COT模塊增強(qiáng)骨干網(wǎng)絡(luò),mAP提高1.05個(gè)百分點(diǎn),召回率提升了1.11個(gè)百分點(diǎn),表明引入該優(yōu)化策略可以有效增加模型對(duì)小感受野目標(biāo)和大感受野目標(biāo)邊緣信息的特征提取。實(shí)驗(yàn)3改進(jìn)CA-BiFPN加權(quán)特征融合模塊對(duì)網(wǎng)絡(luò)識(shí)別率提升貢獻(xiàn)最大,mAP提高1.84個(gè)百分點(diǎn),召回率提升了2.56個(gè)百分點(diǎn),表明該優(yōu)化策略在一定程度上改善了原模型特征融合不充分的問題。淺層細(xì)節(jié)特征和深層語義特征存在更優(yōu)的融合方式,也證明拋棄傳統(tǒng)的隨機(jī)加權(quán)方式,引入坐標(biāo)注意力加權(quán)作用于改進(jìn)特征融合網(wǎng)絡(luò)可以顯著提升模型的整體性能。實(shí)驗(yàn)4改進(jìn)特征并行傳輸模塊,mAP和recall與原模型持平,但其FPS提高了1 frame/s,參數(shù)量降低了0.2 MB,說明增加網(wǎng)絡(luò)的寬度,使高維特征并行傳輸可以有效提高模型的推理速度,具備更高的實(shí)時(shí)性。實(shí)驗(yàn)5改進(jìn)損失函數(shù),mAP值提高0.26個(gè)百分點(diǎn),檢測(cè)精度提升較少,但召回率提高1.67個(gè)百分點(diǎn),說明該優(yōu)化策略可以有效增加模型對(duì)前景正樣本目標(biāo)的學(xué)習(xí)。
表2 消融實(shí)驗(yàn)Table 2 Ablation experiments
實(shí)驗(yàn)6~8對(duì)Res2Block中引入SE、CBAM、COT模塊對(duì)整體的優(yōu)化策略進(jìn)行比較分析,實(shí)驗(yàn)結(jié)果顯示,Res2Block中引入COT自注意力模型對(duì)總的改進(jìn)算法影響最大,這也充分說明自注意力將目標(biāo)全局和局部信息結(jié)合起來,可以有效提升模型的識(shí)別率。此外,對(duì)于一些邊緣分辨率低且有用信息有限的小目標(biāo)來說,自注意力能夠聚焦到隱藏特征下的有用信息,提高對(duì)目標(biāo)的關(guān)注度。如實(shí)驗(yàn)6、7所示,分別添加SE和CBAM到Res2Block中,在通道和空間維度上分別對(duì)目標(biāo)進(jìn)行加權(quán)關(guān)注,提升的mAP值相比較COT模塊較低,但模型的FPS較高。本文提出的改進(jìn)策略(實(shí)驗(yàn)8)有效提升了模型的平均檢測(cè)精度,mAP值提高4.04個(gè)百分點(diǎn),并具有較高的檢測(cè)速度,值為73 frame/s。
為進(jìn)一步證明改進(jìn)自注意力模塊(實(shí)驗(yàn)2)和本文提出的改進(jìn)算法(實(shí)驗(yàn)8),在軸承表面小目標(biāo)檢測(cè)中的檢測(cè)效果,分別從特征圖可視化、recall、AP及漏檢率等方面進(jìn)行評(píng)價(jià)分析。
(1)為證明改進(jìn)Res2Block+COT模塊對(duì)骨干網(wǎng)絡(luò)特征提取性能的影響,將骨干網(wǎng)絡(luò)輸出通道維度大小為52×52的征圖進(jìn)行可視化展示,如圖9所示。改進(jìn)后的模型對(duì)軸承缺陷目標(biāo)的全局關(guān)注度更顯著,對(duì)一些復(fù)雜的小目標(biāo)表達(dá)能力更強(qiáng)。
圖9 特征圖可視化Fig.9 Feature map visualization
(2)在自制的軸承缺陷數(shù)據(jù)集中,凹槽類缺陷作為顯著性的小目標(biāo),在閾值(score threhold)都為0.5的情況下,本文提出的多注意力特征加權(quán)融合算法比原模型在凹槽缺陷上的recall值提升了6.78個(gè)百分點(diǎn)(如圖10),AP值提高了3.21個(gè)百分點(diǎn)(如圖11)。
圖10 凹槽類缺陷recall評(píng)價(jià)Fig.10 Recall evaluation of groove defects
圖11 凹槽類缺陷AP評(píng)價(jià)Fig.11 AP evaluation of groove defects
(3)如圖12則展示了改進(jìn)前后模型在每類缺陷目標(biāo)中的漏檢率??梢钥闯龈倪M(jìn)后的模型在凹槽小目標(biāo)、特征淺顯的劃痕和擦傷目標(biāo)中的漏檢率分別降低了6、9和7個(gè)百分點(diǎn)。
圖12 目標(biāo)漏檢率對(duì)比Fig.12 Comparison of target missed detection rate
為進(jìn)一步驗(yàn)證本文提出的多注意力特征加權(quán)融合算法的有效性,將相同研究領(lǐng)域提出的算法進(jìn)行比較分析,如表3所示。
表3中,Ours(S)為本文基于YOLOX-S提出的改進(jìn)算法,Ours(L)為應(yīng)用于本文策略提出的YOLOX-L改進(jìn)算法。可以發(fā)現(xiàn),Ours(S)算法相比于主流的二階段檢測(cè)算法Faster RCNN和一階段檢測(cè)算法YOLOv3、YOLOv4,平均檢測(cè)精度分別高出3.15個(gè)百分點(diǎn)、9.47個(gè)百分點(diǎn)、3.92個(gè)百分點(diǎn),并且在檢測(cè)速度方面也分別高出65 frame/s、51 frame/s、48 frame/s。Ours(L)模型的mAP比原YOLOX-L模型提高2.31個(gè)百分點(diǎn),達(dá)到95.42%,但模型參數(shù)量增加了27 MB,F(xiàn)PS降低了7 frame/s,相比于其他主流大型網(wǎng)絡(luò)算法仍具備較高的識(shí)別率和檢測(cè)實(shí)時(shí)性。通過對(duì)比實(shí)驗(yàn)分析得到,本文基于YOLOX-S提出的改進(jìn)算法具有更為均衡的檢測(cè)精度和檢測(cè)速度,部署到移動(dòng)端,更能滿足工業(yè)檢測(cè)的需求。
表3 對(duì)比實(shí)驗(yàn)Table 3 Contrast experiment
如圖13展示了原模型與本文改進(jìn)模型在真實(shí)工作臺(tái)場(chǎng)景的檢測(cè)效果。每組圖中,左側(cè)均為原模型檢測(cè)效果圖,右側(cè)均為改進(jìn)后的模型檢測(cè)效果圖。每張圖中綠色框表示擦傷缺陷、紅色框?yàn)榘疾廴毕荨⑺{(lán)色框?yàn)閯澓廴毕荨?/p>
在圖13中,(a)組檢測(cè)圖為軸承表面存在隱藏小目標(biāo)場(chǎng)景,可以看出原模型未識(shí)別出軸承間的夾縫和軸承邊緣隱藏的小目標(biāo),而本文的改進(jìn)模型則沒有出現(xiàn)隱藏小目標(biāo)的漏檢。說明本文的改進(jìn)策略Res2Block+COT和CA-BiFPN對(duì)隱藏小目標(biāo)具有更高的敏感性。(b)組檢測(cè)圖為軸承表面存在淺顯小目標(biāo)場(chǎng)景。淺顯的劃痕缺陷易受光強(qiáng)度的影響,原模型的檢測(cè)性能對(duì)外界因素的影響不具有魯棒性,而改進(jìn)模型則將淺顯目標(biāo)都識(shí)別出來,說明引入多注意力策略可以顯著增加模型對(duì)淺顯目標(biāo)的關(guān)注度。(c)組檢測(cè)圖為缺陷目標(biāo)重疊的場(chǎng)景,原模型在小區(qū)域內(nèi)出現(xiàn)很多漏檢情況,而本文的改進(jìn)模型則將漏檢的小目標(biāo)都檢測(cè)出來,具有更強(qiáng)的檢測(cè)性能。通過對(duì)改進(jìn)前后模型的檢測(cè)效果進(jìn)行分析,本文提出的改進(jìn)策略顯著提高了原模型對(duì)小目標(biāo)的檢測(cè)性能,改進(jìn)后的模型在隱藏目標(biāo)場(chǎng)景、密集目標(biāo)場(chǎng)景以及重疊目標(biāo)場(chǎng)景具有更好的識(shí)別率和魯棒性。
圖13 模型檢測(cè)效果展示Fig.13 Model detection effect display
針對(duì)深度學(xué)習(xí)模型在工業(yè)缺陷目標(biāo)檢測(cè)中存在的不足,基于YOLOX算法,本文提出的多注意力特征加權(quán)融合算法,共涉及四點(diǎn)可行性的改進(jìn)策略:(1)使用特征提取更細(xì)粒度的Res2Block模塊和自注意力模塊構(gòu)建新的骨干特征提取網(wǎng)絡(luò),增加模型對(duì)特征的表達(dá)能力;(2)提出坐標(biāo)注意力加權(quán)的金字塔特征融合網(wǎng)絡(luò),提高不同層間特征信息的利用率,增加邊緣目標(biāo)和特征不明顯目標(biāo)的細(xì)節(jié)信息;(3)利用Inception的并行結(jié)構(gòu)改進(jìn)檢測(cè)頭的高維特征串行傳輸模塊,提升模型的推理速度;(4)使用Focal Loss改進(jìn)置信度損失函數(shù),降低模型對(duì)背景無用信息的學(xué)習(xí),提升目標(biāo)的檢測(cè)率。
實(shí)驗(yàn)結(jié)果表明,與原始YOLOX和目前一些主流算法相比,本文提出的改進(jìn)算法檢測(cè)精度和實(shí)時(shí)檢測(cè)速度分別達(dá)到94.71%和73 frame/s。雖然改進(jìn)策略有效提升了算法的精度,但是模型參數(shù)量增加了6.7 MB,檢測(cè)速度下降了8 frame/s。在未來的工作中,將繼續(xù)研究并不斷優(yōu)化改進(jìn)策略,使其能夠在最小化參數(shù)量的前提下,具備更優(yōu)的識(shí)別率和實(shí)時(shí)性。