曲誠(chéng),陳景龍,常元洪,周子桐
(西安交通大學(xué)機(jī)械工程學(xué)院,710049,西安)
鋼絲繩作為客運(yùn)索道纜索系統(tǒng)的核心部件之一,在客運(yùn)索道的運(yùn)行中發(fā)揮著重要作用[1]。由于客運(yùn)索道往往架設(shè)于山峰、滑雪場(chǎng)等地,鋼絲繩長(zhǎng)期工作在雨雪、大風(fēng)等惡劣的環(huán)境中,極易導(dǎo)致斷絲、磨損、繩股松散等微弱損傷的發(fā)生。受環(huán)境因素和運(yùn)行振動(dòng)的影響,鋼絲繩的微弱損傷特征往往難以被及時(shí)發(fā)現(xiàn)[2],且一旦客運(yùn)索道發(fā)生事故,會(huì)造成嚴(yán)重的經(jīng)濟(jì)損失和負(fù)面的社會(huì)影響。因此,開(kāi)展客運(yùn)索道鋼絲繩微弱損傷早期識(shí)別方法的研究具有重要的工程意義和應(yīng)用價(jià)值。
目前應(yīng)用較廣的鋼絲繩表面損傷識(shí)別方法主要是基于漏磁原理[3]?;诼┐旁淼匿摻z繩損傷檢測(cè)示意圖如圖1所示,首先使用永磁鐵對(duì)鋼絲繩進(jìn)行勵(lì)磁,當(dāng)鋼絲繩出現(xiàn)表面損傷時(shí),損傷部位的橫截面積會(huì)減小,使內(nèi)部的磁力線(xiàn)從損傷部位漏出,此時(shí)如果附近存在傳感器,就會(huì)檢測(cè)到漏磁場(chǎng),從而識(shí)別出損傷[4]。這種檢測(cè)方法雖然目前應(yīng)用較為廣泛,但是存在裝置結(jié)構(gòu)復(fù)雜、檢測(cè)效率低、易受環(huán)境干擾出現(xiàn)誤差等不足[5]。
圖1 基于漏磁原理的鋼絲繩損傷檢測(cè)示意圖
近年來(lái),隨著目標(biāo)檢測(cè)技術(shù)的快速發(fā)展,為鋼絲繩的表面損傷識(shí)別帶來(lái)了新的發(fā)展方向。自2014年Girshick提出的RCNN(Region CNN)方法[6]首次將深度學(xué)習(xí)引入目標(biāo)檢測(cè)任務(wù)以來(lái),已有多國(guó)學(xué)者對(duì)此類(lèi)算法展開(kāi)研究。目前基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法主要分為兩階段方法和單階段方法,目標(biāo)檢測(cè)算法流程如圖2所示,兩類(lèi)方法首先都使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,在此基礎(chǔ)上,兩階段方法先劃分大量可能存在目標(biāo)的候選區(qū)域,再使用分類(lèi)與回歸網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的類(lèi)別及位置,單階段方法則在特征提取后直接進(jìn)行類(lèi)別與位置的預(yù)測(cè)。
(a)兩階段目標(biāo)檢測(cè)算法
基于目標(biāo)檢測(cè)的智能檢測(cè)算法現(xiàn)已被廣泛應(yīng)用于人臉識(shí)別、行人檢測(cè)等工業(yè)領(lǐng)域中。Zhao等針對(duì)蘋(píng)果采摘機(jī)器人識(shí)別目標(biāo)具有種類(lèi)多、光照變化大、存在遮擋等問(wèn)題,提出了基于YOLOv3深度卷積神經(jīng)網(wǎng)絡(luò)的蘋(píng)果定位方法,實(shí)現(xiàn)了對(duì)復(fù)雜環(huán)境下蘋(píng)果的檢測(cè)識(shí)別[7]。Zhang等融合特征提取能力較強(qiáng)的Inception網(wǎng)絡(luò)[8]和深度殘差網(wǎng)絡(luò)[9],設(shè)計(jì)出新的網(wǎng)絡(luò)作為目標(biāo)檢測(cè)算法Faster-RCNN[1]的特征提取網(wǎng)絡(luò),并應(yīng)用于動(dòng)車(chē)故障檢測(cè)中[11]。Zhang等以FCN為基礎(chǔ)網(wǎng)絡(luò),提出了可變形池化核,并加入了批量標(biāo)準(zhǔn)化層和空洞卷積層以提升網(wǎng)絡(luò)性能,實(shí)現(xiàn)了對(duì)遙感圖像中尺寸差異較大的目標(biāo)檢測(cè)[12]。
雖然基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型在多個(gè)領(lǐng)域都取得了一定效果,但當(dāng)前的研究仍然面臨兩大挑戰(zhàn),一方面是復(fù)雜惡劣運(yùn)行條件下的微弱損傷識(shí)別難度大,鋼絲繩損傷的面積通常較小,損傷特征本就微弱,同時(shí)鋼絲繩在高速運(yùn)行時(shí)產(chǎn)生的振動(dòng),以及雨、雪、霜等干擾又會(huì)一定程度地掩蓋損傷特征,導(dǎo)致?lián)p傷更加難以識(shí)別。一方面是小樣本下的損傷識(shí)別精度低,訓(xùn)練目標(biāo)檢測(cè)模型需要使用大量的樣本數(shù)據(jù),然而對(duì)于客運(yùn)索道鋼絲繩等類(lèi)似設(shè)備,由于損傷發(fā)生的時(shí)間、地點(diǎn)均為未知,給損傷樣本的獲取帶來(lái)了較大困難,而小樣本條件下訓(xùn)練出的模型識(shí)別效果較差,無(wú)法滿(mǎn)足工程需求。為了解決復(fù)雜惡劣工況下鋼絲繩表面損傷程度微弱、識(shí)別難度高,且損傷樣本數(shù)量較少的問(wèn)題,實(shí)現(xiàn)對(duì)鋼絲繩微弱損傷的快速識(shí)別與準(zhǔn)確定位,本文提出了一種融合多尺度特征提取與注意力機(jī)制的損傷識(shí)別方法。首先采用生成對(duì)抗網(wǎng)絡(luò)對(duì)運(yùn)行圖像去除模糊,并使用透視變換和隨機(jī)裁剪擴(kuò)充樣本數(shù)量;接著在使用多尺度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取的基礎(chǔ)上,融合SE注意力機(jī)制對(duì)關(guān)鍵特征進(jìn)行增強(qiáng);最終輸出鋼絲繩的損傷位置及損傷種類(lèi)。通過(guò)對(duì)鋼絲繩損傷模擬實(shí)驗(yàn)臺(tái)上采集的損傷圖像進(jìn)行識(shí)別來(lái)驗(yàn)證本文提出方法的有效性。
本文提出的融合多尺度特征提取與注意力機(jī)制的YOLOv3-tiny-SE模型總體結(jié)構(gòu)如圖3所示,模型主要由預(yù)處理模塊、特征提取模塊和預(yù)測(cè)模塊組成。預(yù)處理模塊通過(guò)生成對(duì)抗網(wǎng)絡(luò)對(duì)鋼絲繩運(yùn)行圖像進(jìn)行去模糊,并使用透視變換、隨機(jī)裁剪擴(kuò)充樣本數(shù)量;特征提取模塊通過(guò)使用添加注意力機(jī)制的多尺度卷積神經(jīng)網(wǎng)絡(luò)提取圖像中的整體與細(xì)節(jié)特征,并通過(guò)上采樣和拼接操作以融合不同尺度的特征;預(yù)測(cè)模塊通過(guò)將特征圖中的信息轉(zhuǎn)化為輸出坐標(biāo)以實(shí)現(xiàn)對(duì)圖像中損傷位置及種類(lèi)的識(shí)別。
圖3 YOLOv3-tiny-SE模型總體結(jié)構(gòu)
構(gòu)建高準(zhǔn)確率的損傷識(shí)別模型,通常需要大量有效的訓(xùn)練樣本對(duì)模型進(jìn)行全面的訓(xùn)練,然而在高速運(yùn)行條件下獲取到的鋼絲繩圖像會(huì)出現(xiàn)模糊現(xiàn)象,導(dǎo)致模型難以提取有效特征,影響后續(xù)的分類(lèi)與定位,因此在預(yù)處理模塊首先采用生成對(duì)抗網(wǎng)絡(luò)對(duì)圖像進(jìn)行去模糊處理。
實(shí)際的鋼絲繩處于持續(xù)運(yùn)行狀態(tài),損傷可能發(fā)生在鋼絲繩表面的任何位置,同時(shí)實(shí)驗(yàn)?zāi)M時(shí)的拍攝角度與實(shí)際監(jiān)控的角度可能不完全一致,因此為了使數(shù)據(jù)集中的樣本更符合實(shí)際情況,提高模型的泛化能力,在預(yù)處理模塊采用透視變換和隨機(jī)裁剪兩種方法對(duì)去模糊后的圖像進(jìn)行數(shù)據(jù)增強(qiáng)。
1.1.1 去除模糊 模糊圖像可以看作清晰圖像與模糊核卷積后的結(jié)果[13],模糊過(guò)程可表示為
IB=k*IS+N
(1)
式中:k為模糊核,其大小由拍攝設(shè)備的移動(dòng)速度等因素決定;*為卷積操作;IB為模糊圖像;IS為清晰圖像;N為隨機(jī)噪聲。
傳統(tǒng)的圖像去模糊方法通?;跒V波優(yōu)化,即在已知卷積核k的情況下,通過(guò)反卷積操作對(duì)模糊圖像進(jìn)行復(fù)原,然而在實(shí)際應(yīng)用時(shí),大部分情況下模糊核的信息是未知的,因此傳統(tǒng)方法需要對(duì)模糊場(chǎng)景做出預(yù)先假設(shè),以簡(jiǎn)化復(fù)原難度,目前基于濾波優(yōu)化的圖像去模糊方法在特定條件下可以取得較好的效果,但面對(duì)復(fù)雜多變的模糊情況時(shí)仍存在局限性。
近年來(lái)隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,神經(jīng)網(wǎng)絡(luò)等方法逐漸被用于解決去模糊問(wèn)題。與基于濾波優(yōu)化的去模糊方法相比,基于深度學(xué)習(xí)的智能去模糊方法具有更廣的適用性,使用時(shí)只需要獲取成對(duì)的模糊圖像與清晰圖像,在模糊場(chǎng)景與模糊核信息未知的情況下,即可學(xué)習(xí)模糊圖像與清晰圖像之間的關(guān)系并復(fù)原其他模糊圖像,因此本文采用了深度學(xué)習(xí)方法中的生成對(duì)抗網(wǎng)絡(luò)對(duì)圖像去除模糊。
基于生成對(duì)抗網(wǎng)絡(luò)的鋼絲繩運(yùn)行圖像去模糊流程如圖4所示,主要由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分組成。生成網(wǎng)絡(luò)負(fù)責(zé)對(duì)模糊圖像進(jìn)行重構(gòu),生成網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,生成網(wǎng)絡(luò)主要由卷積模塊、9個(gè)殘差模塊和反卷積模塊組成。首先通過(guò)卷積模塊對(duì)圖像進(jìn)行下采樣,接著通過(guò)殘差模塊還原圖像的細(xì)節(jié)并經(jīng)反卷積模塊復(fù)原圖像尺寸,最后將還原的細(xì)節(jié)特征與原模糊圖像相加,即可得到重構(gòu)圖像。
圖4 基于生成對(duì)抗網(wǎng)絡(luò)的鋼絲繩運(yùn)行圖像去模糊流程圖
圖5 生成網(wǎng)絡(luò)結(jié)構(gòu)
從模糊圖像到重構(gòu)圖像的過(guò)程可表示為
IS=GθG(IB)
(2)
式中:GθG代表生成網(wǎng)絡(luò)。
使用生成網(wǎng)絡(luò)得到重構(gòu)圖像后,接著使用判別網(wǎng)絡(luò)評(píng)估重構(gòu)圖像的真實(shí)程度,判別網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,首先通過(guò)卷積層與池化層提取圖像特征,再經(jīng)過(guò)全連接層判斷圖像是真實(shí)的清晰圖像還是由生成網(wǎng)絡(luò)生成的重構(gòu)圖像,最后輸出圖像的標(biāo)簽。
圖6 判別網(wǎng)絡(luò)結(jié)構(gòu)
判別網(wǎng)絡(luò)的判別流程可表示為
l=DθD(IR,IS)
(3)
式中:IR為真實(shí)的清晰圖像;l為判別網(wǎng)絡(luò)輸出的圖像標(biāo)簽;DθD代表判別網(wǎng)絡(luò)。
在訓(xùn)練生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)的過(guò)程中會(huì)產(chǎn)生對(duì)抗損失與內(nèi)容損失[14],其中對(duì)抗損失可表示為
(4)
內(nèi)容損失可表示為
(5)
式中:W和H代表圖像的長(zhǎng)和寬。
通過(guò)交替的訓(xùn)練生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò),降低對(duì)抗損失和內(nèi)容損失,在訓(xùn)練結(jié)束后使用生成網(wǎng)絡(luò)對(duì)運(yùn)行圖像進(jìn)行去模糊處理,可以提高圖像的清晰度。
1.1.2 透視變換 透視變換可表示為
Y=MX
(6)
式中X和Y分別是變換前后的圖像,M是變換矩陣,表達(dá)式為
(7)
在進(jìn)行透視變換時(shí),首先確定變換前后圖像中4個(gè)頂點(diǎn)的坐標(biāo);接著,以變換前頂點(diǎn)的坐標(biāo)(u,v)作為輸入X,變換后頂點(diǎn)的坐標(biāo)(x,y)作為輸出Y,求出變換矩陣中的參數(shù);最后將原圖像所有點(diǎn)的坐標(biāo)與變換矩陣進(jìn)行相乘,即可得到透視變換后的圖像[15]。
1.1.3 隨機(jī)裁剪 數(shù)據(jù)增強(qiáng)中常見(jiàn)的隨機(jī)裁剪流程是先設(shè)定裁剪圖像的尺寸,然后在原始圖像中隨機(jī)選取一點(diǎn),以該點(diǎn)為中心,設(shè)定尺寸為邊長(zhǎng)進(jìn)行裁剪,此方法適用于一般的圖像分類(lèi)任務(wù),但對(duì)于本文的研究對(duì)象,如果只采用這種方法,裁剪圖像可能會(huì)缺失損傷部分,影響后續(xù)對(duì)損傷位置的標(biāo)注。
為解決此問(wèn)題,本文提出如圖7所示的改進(jìn)的隨機(jī)裁剪方法,首先確定原始圖像中的目標(biāo)區(qū)域,對(duì)于本文而言目標(biāo)區(qū)域即為鋼絲繩的損傷區(qū)域,接著計(jì)算目標(biāo)區(qū)域4個(gè)頂點(diǎn)的坐標(biāo),然后按照設(shè)定的裁剪尺寸對(duì)原始圖像進(jìn)行裁剪,得到若干裁剪圖像和裁剪圖像的頂點(diǎn)坐標(biāo),進(jìn)一步根據(jù)目標(biāo)區(qū)域和裁剪圖像的頂點(diǎn)坐標(biāo)計(jì)算U(A,B),U(A,B)可表示為
圖7 改進(jìn)的隨機(jī)裁剪方法流程
(8)
式中:A代表目標(biāo)區(qū)域;B代表裁剪圖像;area代表計(jì)算面積;∩代表取交集。若U(A,B)為1,說(shuō)明裁剪圖像包含全部目標(biāo)區(qū)域,保留該裁剪圖像,若U(A,B)小于1,說(shuō)明該裁剪圖像只包含部分目標(biāo)區(qū)域或不包含目標(biāo)區(qū)域,舍棄該裁剪圖像。該方法可以節(jié)省裁剪后篩選有效圖像的時(shí)間,以便后續(xù)對(duì)損傷位置進(jìn)行標(biāo)注。
1.2.1 多尺度特征提取 特征提取模塊用于提取輸入圖像的整體輪廓特征與局部細(xì)節(jié)特征,保留圖像中的關(guān)鍵信息,流程如圖3中間部分所示,圖像輸入到網(wǎng)絡(luò)后,根據(jù)輸入圖像的尺寸與所需計(jì)算量,首先經(jīng)過(guò)5個(gè)卷積核尺寸為3×3的卷積層和4個(gè)最大池化層進(jìn)行初步特征提取。經(jīng)過(guò)初步特征提取后,進(jìn)一步進(jìn)行深度特征提取,對(duì)小尺寸特征圖上采樣并與大尺寸特征圖進(jìn)行拼接,融合后的特征圖可表示為
f3=concat{up[F(f1)],f2}
(9)
式中:f1和f2分別代表小尺寸和大尺寸的特征圖;F代表卷積池化操作;up代表上采樣;concat代表拼接;f3代表融合后的特征圖[16]。此時(shí)的特征圖充分融合了淺層特征與深層特征,濃縮了原始圖像的豐富信息。
1.2.2 SE注意力機(jī)制 在前一小節(jié)中,經(jīng)過(guò)多尺度特征提取后的特征圖通道數(shù)已到了1 024,此時(shí)的特征圖雖然包含了圖像中豐富的整體輪廓信息與細(xì)節(jié)特征信息,但這些信息分布在不同通道的不同位置,若直接與預(yù)測(cè)模塊連接,可能會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練較多輪次才能達(dá)到平衡狀態(tài),為了解決此問(wèn)題,本方法在特征提取模塊中添加了SE注意力機(jī)制[17],用于學(xué)習(xí)深度特征圖各通道的重要程度和通道之間的相關(guān)性,對(duì)包含關(guān)鍵信息的通道賦予更高權(quán)重,以此改善網(wǎng)絡(luò)表現(xiàn)[18]。
SE注意力機(jī)制的結(jié)構(gòu)如圖8所示,對(duì)于多通道特征圖,首先通過(guò)全局平均池化濃縮特征圖每個(gè)通道的信息,大小為W×H×c的特征圖經(jīng)壓縮后大小為1×1×c,壓縮過(guò)程可表示為
圖8 SE注意力機(jī)制
(10)
式中:fc(i,j)是壓縮前特征圖的每個(gè)元素,zc是壓縮后的特征圖。
對(duì)特征圖壓縮后,使用兩層全連接層對(duì)特征圖不同通道之間的相關(guān)性及每個(gè)通道的重要性進(jìn)行建模,進(jìn)一步使用sigmoid激活函數(shù)對(duì)全連接層的輸出進(jìn)行歸一化,此過(guò)程可表示為
s=σ(W2δ(W1zc))
(11)
式中:s是特征圖每個(gè)通道的權(quán)重;W1和W2分別代表兩層全連接層的權(quán)重;δ(·)是ReLU激活函數(shù);σ(·)是sigmoid激活函數(shù)。兩種激活函數(shù)可分別表示為
δ(t)=max(0,t)
(12)
(13)
兩層全連接層使用不同的激活函數(shù),原因在于第一層全連接層用于評(píng)判特征圖不同通道之間的差異,因此使用ReLU激活函數(shù)保留差異,而第二層全連接層用于分配每個(gè)通道的權(quán)重,因此使用sigmoid激活函數(shù)將每個(gè)通道的權(quán)重限制在0和1之間,避免出現(xiàn)異常值。
網(wǎng)絡(luò)在經(jīng)過(guò)訓(xùn)練學(xué)習(xí)到優(yōu)化后特征圖每個(gè)通道的權(quán)重值后,對(duì)初始特征圖的每個(gè)通道進(jìn)行激勵(lì)操作以增強(qiáng)關(guān)鍵特征,抑制干擾信息。激勵(lì)操作可表示為
o=sf
(14)
式中:f和o是輸入和輸出的特征圖。
經(jīng)過(guò)融合注意力機(jī)制的特征提取模塊后,輸出特征圖已經(jīng)包含了目標(biāo)的位置及類(lèi)別信息,預(yù)測(cè)模塊負(fù)責(zé)將特征圖中的信息轉(zhuǎn)化為輸出坐標(biāo),如圖9所示,特征圖的每個(gè)網(wǎng)格對(duì)應(yīng)3個(gè)先驗(yàn)框(虛線(xiàn)框),每個(gè)先驗(yàn)框?qū)?yīng)一個(gè)預(yù)測(cè)框,因此每個(gè)網(wǎng)格對(duì)應(yīng)3個(gè)預(yù)測(cè)框,模型的優(yōu)化目標(biāo)是使預(yù)測(cè)框盡可能匹配真實(shí)目標(biāo)[19]。
圖9 先驗(yàn)框與網(wǎng)格的對(duì)應(yīng)關(guān)系
預(yù)測(cè)框的信息存在于特征圖的深度方向上,每個(gè)預(yù)測(cè)框由3類(lèi)信息組成,如圖10所示,第1類(lèi)是位置信息,由x、y、w、h4個(gè)值組成,代表先驗(yàn)框與預(yù)測(cè)框之間的轉(zhuǎn)換系數(shù);第2類(lèi)是類(lèi)別信息,類(lèi)似one-hot編碼,預(yù)測(cè)類(lèi)別的類(lèi)別值接近1,其他類(lèi)別值接近0;第3類(lèi)為置信度信息,代表目標(biāo)中心落在特征圖該網(wǎng)格中的概率。綜上所述,特征圖的總深度為
圖10 預(yù)測(cè)框信息組成
d=b(n+5)
(15)
式中:b為每個(gè)網(wǎng)格對(duì)應(yīng)的預(yù)測(cè)框個(gè)數(shù);n代表總類(lèi)別數(shù);5代表4個(gè)位置信息與1個(gè)目標(biāo)置信度,本文目標(biāo)為識(shí)別4種鋼絲繩表面損傷,且每個(gè)網(wǎng)格對(duì)應(yīng)3個(gè)預(yù)測(cè)框,因此預(yù)測(cè)模塊的特征圖總深度為3×(4+5)=27。
預(yù)測(cè)值需要通過(guò)進(jìn)一步轉(zhuǎn)換以得到實(shí)際坐標(biāo),轉(zhuǎn)換過(guò)程如圖11所示,虛線(xiàn)框是先驗(yàn)框,實(shí)線(xiàn)框是預(yù)測(cè)框,從先驗(yàn)框到預(yù)測(cè)框的轉(zhuǎn)換過(guò)程可表示為
圖11 坐標(biāo)轉(zhuǎn)換過(guò)程
bx=cw+σ(x)
(16)
by=ch+σ(y)
(17)
bw=pwew
(18)
bh=pheh
(19)
式中:bx和by是預(yù)測(cè)框的中心坐標(biāo);bw和bh是預(yù)測(cè)框的長(zhǎng)和寬;cw和ch是特征圖網(wǎng)格左上角的坐標(biāo);pw和ph是先驗(yàn)框的長(zhǎng)和寬(在對(duì)訓(xùn)練圖像進(jìn)行標(biāo)注時(shí),標(biāo)注每張圖像上目標(biāo)區(qū)域的位置與長(zhǎng)和寬,并對(duì)訓(xùn)練集所有圖像目標(biāo)區(qū)域的長(zhǎng)和寬使用K-means算法聚類(lèi),得到最可能出現(xiàn)的目標(biāo)區(qū)域長(zhǎng)和寬,將此值作為先驗(yàn)框的長(zhǎng)和寬)。
在如圖12所示的鋼絲繩損傷模擬實(shí)驗(yàn)臺(tái)上采集損傷鋼絲繩圖像,實(shí)驗(yàn)臺(tái)主要由損傷鋼絲繩、攝像頭和計(jì)算機(jī)組成。使用砂輪和尖嘴鉗對(duì)鋼絲繩加工了如圖13所示的外部磨損、繩股松散、繩芯外露和斷絲4種表面損傷。攝像頭通過(guò)連接線(xiàn)與計(jì)算機(jī)連接,以15幀/s的速度錄制視頻并在計(jì)算機(jī)端顯示實(shí)時(shí)畫(huà)面。采集圖像時(shí),將損傷鋼絲繩固定于支架上,使用攝像頭對(duì)鋼絲繩進(jìn)行錄像,并移動(dòng)支架以模擬鋼絲繩的實(shí)際運(yùn)行狀態(tài),采集視頻后,使用軟件截取視頻中的鋼絲繩圖像,得到原始圖像。
圖12 鋼絲繩損傷模擬實(shí)驗(yàn)臺(tái)
(a)外部磨損 (b)繩股松散
獲取原始圖像后,應(yīng)用預(yù)處理模塊對(duì)運(yùn)行圖像去除模糊并進(jìn)行數(shù)據(jù)增強(qiáng),構(gòu)造損傷數(shù)據(jù)集,接著標(biāo)注數(shù)據(jù)集中損傷圖像的位置和類(lèi)別并劃分訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集分別包含4種損傷形式的350張圖像和100張圖像,表1給出了訓(xùn)練集和測(cè)試集的樣本分布。
追肥主要分4次。萌芽肥,萌芽抽稍前開(kāi)花前進(jìn)行,以氮肥為主,每畝施50千克高氮中磷低鉀復(fù)合肥。花前肥,在開(kāi)花前和新梢快速生長(zhǎng)期,每畝撒施尿素5~10千克,加施硼、鈣等微量元素;膨大肥,一般在花后15天進(jìn)行,施用高鉀中氮低磷復(fù)合肥,同時(shí)結(jié)合葉面噴微量元素肥;壯果肥,一般在7月中旬果實(shí)進(jìn)行第二次膨大,以磷鉀沖施肥為主,每畝施30~50千克。
表1 訓(xùn)練集與測(cè)試集樣本分布
本實(shí)驗(yàn)在Windows10系統(tǒng)下使用Python3.7編程環(huán)境,基于Pytorch庫(kù)搭建網(wǎng)絡(luò)模型,在訓(xùn)練時(shí)使用CUDA并行計(jì)算架構(gòu)以加速訓(xùn)練進(jìn)程。
訓(xùn)練時(shí)圖像數(shù)設(shè)置為4,采用自適應(yīng)矩估計(jì)(Adam)優(yōu)化器,共訓(xùn)練250輪,初始學(xué)習(xí)率為0.005,當(dāng)訓(xùn)練輪數(shù)達(dá)到125和175時(shí)學(xué)習(xí)率分別衰減為原來(lái)的1/10以減小后期的波動(dòng),使損失函數(shù)進(jìn)一步收斂以接近最優(yōu)解。
為了評(píng)估去模糊的效果,本文引入峰值信噪比(PSNR)以衡量圖像之間的相似度,PSNR可表示為
(20)
式中:ZI是圖像的最大像素值,本文中該值為255;E代表兩張圖像所有對(duì)應(yīng)像素點(diǎn)差值的平方和。PSNR越大,代表兩張圖像相似度越高。
為了評(píng)估預(yù)測(cè)模塊的預(yù)測(cè)效果,本實(shí)驗(yàn)采用目標(biāo)檢測(cè)領(lǐng)域常用的平均精度(AP)和平均精度均值(mAP)[20]。對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行測(cè)試時(shí),根據(jù)真實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽是否匹配,預(yù)測(cè)結(jié)果可分為真陽(yáng)性(TP)、假陽(yáng)性(FP)、假陰性(FN)、真陰性(TN),其中真陽(yáng)性代表預(yù)測(cè)結(jié)果為真且預(yù)測(cè)正確,假陽(yáng)性代表預(yù)測(cè)結(jié)果為真但預(yù)測(cè)錯(cuò)誤,假陰性、真陰性的定義以此類(lèi)推。按照上述定義,精度和召回率可表示為
(21)
(22)
進(jìn)一步,平均精度是精度隨召回率變化曲線(xiàn)的積分,平均精度均值是所有類(lèi)別平均精度的均值。
本小節(jié)分別給出了預(yù)處理模塊與預(yù)測(cè)模塊的實(shí)驗(yàn)結(jié)果與結(jié)果分析。
2.5.1 預(yù)處理模塊結(jié)果分析 圖14給出了去除模糊前后圖像的對(duì)比,經(jīng)中值濾波去模糊后的圖像與真實(shí)清晰圖像的PSNR為25.4 dB,而使用生成網(wǎng)絡(luò)去除模糊后的圖像與真實(shí)清晰圖像的PSNR達(dá)到了27.4 dB,證明了生成網(wǎng)絡(luò)在去除圖像模糊方面的有效性。圖15給出了透視變換前后圖像的對(duì)比。
(a)模糊圖像 (b)清晰圖像
(a)透視變換前 (b)透視變換后
2.5.2 預(yù)測(cè)模塊結(jié)果分析 使用實(shí)驗(yàn)獲取的模糊鋼絲繩損傷圖像數(shù)據(jù)集對(duì)YOLOv3、YOLOv3-tiny和本文提出的YOLOv3-tiny-SE方法進(jìn)行訓(xùn)練,圖16給出了訓(xùn)練過(guò)程中平均精度均值的變化趨勢(shì),可以看出,至訓(xùn)練結(jié)束時(shí),3種方法的平均精度均值都已經(jīng)基本穩(wěn)定,且YOLOv3-tiny-SE的平均精度均值要高于其他兩種方法。
圖16 訓(xùn)練過(guò)程中平均精度均值的變化趨勢(shì)
圖17給出了3種方法對(duì)不同種類(lèi)損傷的識(shí)別效果對(duì)比,可以看出,本文方法對(duì)每種損傷的識(shí)別效果都要優(yōu)于其他兩種方法。
圖17 3種方法對(duì)不同種類(lèi)損傷的識(shí)別效果對(duì)比
使用包含透視變換圖像與不包含透視變換圖像的數(shù)據(jù)集分別訓(xùn)練3種方法,訓(xùn)練結(jié)果對(duì)比如表2所示,從表中數(shù)據(jù)可以看出,數(shù)據(jù)集中包含透視變換圖像時(shí),3種方法訓(xùn)練后的平均精度均值都有了明顯的提升,證明了透視變換有助于提升識(shí)別效果。
表2 有無(wú)透視變換的平均精度均值對(duì)比
為了說(shuō)明關(guān)鍵參數(shù)選擇對(duì)訓(xùn)練結(jié)果的影響,在對(duì)本文方法進(jìn)行訓(xùn)練時(shí),分別設(shè)置了不同的圖像數(shù)與初始學(xué)習(xí)率,首先將圖像數(shù)分別設(shè)置為2、4和8,不同圖像數(shù)對(duì)訓(xùn)練結(jié)果的影響如圖18所示,可以看出,當(dāng)圖像數(shù)設(shè)置為2時(shí),平均精度均值曲線(xiàn)在訓(xùn)練的后期仍然存在一定波動(dòng),使模型的穩(wěn)定性無(wú)法得到保證,而設(shè)置為8時(shí),平均精度均值始終較低,因此,經(jīng)過(guò)對(duì)比選擇后,本文方法選擇將圖像數(shù)設(shè)置為4。
圖18 不同圖像數(shù)對(duì)訓(xùn)練結(jié)果的影響
圖19對(duì)比了初始學(xué)習(xí)率分別設(shè)置為0.05、0.005和0.000 5時(shí)的訓(xùn)練結(jié)果,可以看出,當(dāng)初始學(xué)習(xí)率較小時(shí),權(quán)重每輪更新的幅度較小,經(jīng)多輪訓(xùn)練直至訓(xùn)練結(jié)束時(shí)平均精度均值仍然沒(méi)有穩(wěn)定;當(dāng)初始學(xué)習(xí)率較大時(shí),權(quán)重每輪更新的幅度也會(huì)變大,導(dǎo)致訓(xùn)練后期精度曲線(xiàn)仍然存在小幅震蕩,影響最終精度,因此在綜合考慮訓(xùn)練速度及結(jié)果的穩(wěn)定性后,本文方法選擇將初始學(xué)習(xí)率設(shè)置為0.005。
圖19 不同初始學(xué)習(xí)率對(duì)訓(xùn)練結(jié)果的影響
圖20給出了本文方法對(duì)實(shí)際損傷圖像的檢測(cè)結(jié)果,可以看出,該方法可以有效地識(shí)別出鋼絲繩圖像中不同損傷的類(lèi)型與位置。
(a)外部磨損 (b)繩股松散
圖21給出了3種方法的訓(xùn)練時(shí)間的對(duì)比,與YOLOv3方法訓(xùn)練時(shí)間達(dá)到4.223 h相比,由于模型結(jié)構(gòu)更簡(jiǎn)單,訓(xùn)練一輪所需要更新的參數(shù)較少,本文方法的訓(xùn)練時(shí)間只有0.928 h,縮短了近80%。與YOLOv3-tiny方法相比,本文方法在訓(xùn)練時(shí)間上基本持平,但識(shí)別準(zhǔn)確率更高,可見(jiàn)本文方法在性能與效率上都具有良好的表現(xiàn)。
圖21 3種方法的訓(xùn)練時(shí)間的對(duì)比
通常來(lái)說(shuō),復(fù)雜的網(wǎng)絡(luò)模型具有更強(qiáng)的特征提取能力,預(yù)測(cè)準(zhǔn)確率更高,但在本實(shí)驗(yàn)中,YOLOv3方法的檢測(cè)效果低于結(jié)構(gòu)更簡(jiǎn)單的YOLOv3-tiny方法和本文方法,經(jīng)過(guò)分析,主要原因在于雖然YOLOv3方法的層數(shù)多、結(jié)構(gòu)復(fù)雜,在面對(duì)類(lèi)別數(shù)多、尺寸差異大的目標(biāo)檢測(cè)時(shí)效果好,但本實(shí)驗(yàn)中鋼絲繩圖像的損傷面積相對(duì)較小,在經(jīng)過(guò)YOLOv3方法的多層特征提取后,圖像的關(guān)鍵特征信息會(huì)發(fā)生丟失,因此導(dǎo)致YOLOv3方法的檢測(cè)效果欠佳。
針對(duì)復(fù)雜惡劣工況下鋼絲繩表面損傷程度微弱、識(shí)別難度高,且損傷樣本數(shù)量較少的問(wèn)題,提出了一種融合多尺度特征提取與注意力機(jī)制的損傷識(shí)別網(wǎng)絡(luò),并在實(shí)驗(yàn)室鋼絲繩損傷圖像數(shù)據(jù)集上進(jìn)行了驗(yàn)證,取得了較好的效果,得出如下結(jié)論。
(1)為了解決工程實(shí)際中有效樣本較少的問(wèn)題,引入了生成對(duì)抗網(wǎng)絡(luò)用于運(yùn)行圖像去模糊,在此基礎(chǔ)上,使用改進(jìn)的隨機(jī)裁剪和透視變換方法進(jìn)行數(shù)據(jù)增強(qiáng),在擴(kuò)充樣本數(shù)量的同時(shí)保留了損傷特征,節(jié)省了后續(xù)篩選有效樣本的時(shí)間。
(2)構(gòu)建了融合注意力機(jī)制的YOLOv3-tiny-SE方法用于鋼絲繩表面損傷識(shí)別。針對(duì)實(shí)驗(yàn)獲取的鋼絲繩模糊損傷圖像進(jìn)行分析與測(cè)試,并與現(xiàn)有YOLOv3和YOLOv3-tiny方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有方法相比,本文方法的訓(xùn)練時(shí)間縮短了80%,且平均精度均值可以達(dá)到93.7%,驗(yàn)證了本文方法在鋼絲繩損傷識(shí)別方面的優(yōu)越性和有效性。
雖然本文方法在保證精度的前提下提高了效率,但該方法的檢測(cè)效果受參數(shù)設(shè)置的影響較大,通過(guò)對(duì)比不同情況下的實(shí)驗(yàn)效果可以對(duì)參數(shù)進(jìn)行篩選優(yōu)化,但是效率較低。在后續(xù)研究中,會(huì)采用神經(jīng)架構(gòu)搜索(NAS)技術(shù),通過(guò)強(qiáng)化學(xué)習(xí)來(lái)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),提高參數(shù)選擇的效率。