陳海永,趙 鵬,閆皓煒
融合注意力的多尺度Faster RCNN的裂紋檢測(cè)
陳海永1*,趙 鵬1,閆皓煒2
1河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300000;2天津航天中為數(shù)據(jù)系統(tǒng)科技有限公司,天津 300000
電致發(fā)光(Electroluminescence, EL)下的光伏電池EL圖像背景表現(xiàn)為復(fù)雜的非均勻紋理特征,且存在與裂紋相似的晶粒偽缺陷,同時(shí)裂紋表現(xiàn)為形狀多樣的多尺度特征,以上難點(diǎn)為檢測(cè)任務(wù)帶來了極大的挑戰(zhàn)。因此,本文提出融合注意力的多尺度Faster-RCNN模型,一方面,采用改進(jìn)的特征金字塔網(wǎng)絡(luò)獲取多尺度的高級(jí)語義特征圖,以此來提高網(wǎng)絡(luò)對(duì)多尺度裂紋缺陷的特征表達(dá)能力。另一方面,采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN,提高模型對(duì)裂紋缺陷的關(guān)注并抑制復(fù)雜背景及晶粒偽缺陷的特征。同時(shí),在RPN網(wǎng)絡(luò)訓(xùn)練過程中,采用損失函數(shù)Focal loss,以此來降低訓(xùn)練過程中簡單樣本所占比重,使其更加關(guān)注難以區(qū)分的樣本。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的算法使得EL圖像裂紋缺陷檢測(cè)的準(zhǔn)確率提高,達(dá)到接近95%。
多尺度特征提取;注意力模塊;Focal loss函數(shù)
由于太陽能清潔、安全、無害、充足的特點(diǎn),光伏發(fā)電已成為最受歡迎的可再生能源發(fā)電方式之一。光伏電池作為光伏發(fā)電的載體,在其生產(chǎn)、部件組裝以及運(yùn)輸過程中,因晶體結(jié)構(gòu)的脆弱性或者操作不當(dāng)?shù)炔环€(wěn)定因素的影響,不可避免地會(huì)產(chǎn)生裂紋缺陷。裂紋缺陷的存在將降低電池片的發(fā)電效率、縮短使用壽命、導(dǎo)致光伏組件運(yùn)行故障,甚至影響光伏發(fā)電系統(tǒng)的安全性。因此,實(shí)現(xiàn)光伏電池的裂紋缺陷檢測(cè)具有十分重要的現(xiàn)實(shí)意義。
Anwar等人[1]利用圖像分割和形狀分析技術(shù)提取裂紋的形狀特征作為支持向量機(jī)(support vector machine,SVM)分類器的輸入,實(shí)現(xiàn)了電致發(fā)光(electroluminescence,EL)圖像的微裂紋缺陷檢測(cè)。Chen等人[2]為了獲得表達(dá)能力更強(qiáng)的缺陷特征,對(duì)局部二值模式(local binary patterns,LBP)[3]進(jìn)行改進(jìn),提出了一種新穎的特征描述符,稱為中心像素信息中心對(duì)稱局部二值模式(CPICS-LBP),并結(jié)合SVM分類器完成了低分辨率128′128像素的EL圖像塊的裂紋缺陷識(shí)別。Tsai等人[4]提出一種各向異性擴(kuò)散方案,在生成的擴(kuò)散圖像中進(jìn)行二進(jìn)制閾值處理后,通過形態(tài)學(xué)運(yùn)算以檢測(cè)具有低灰度和高梯度特性的微小裂紋缺陷。上述人工定義缺陷特征的表達(dá)能力有限,對(duì)于EL圖像中形狀多樣的多尺度裂紋缺陷而言,算法的魯棒性和泛化能力不夠好。
隨著計(jì)算機(jī)軟硬件的發(fā)展,深度學(xué)習(xí)算法被逐漸應(yīng)用于工業(yè)缺陷檢測(cè)領(lǐng)域,并獲取了較為出色的性能。Young-Jin等人[5]采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)與滑動(dòng)窗口技術(shù)相結(jié)合,實(shí)現(xiàn)了混凝土裂紋的檢測(cè),但模型無法獲得輸入圖像的全局特征信息且難以找到最佳的滑動(dòng)窗口尺寸。Lin等人[6]利用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)生成熱圖的方式實(shí)現(xiàn)了背景均勻的LED芯片圖像的缺陷識(shí)別以及定位。如今多種深度學(xué)習(xí)目標(biāo)檢測(cè)算法被提出,如一階段網(wǎng)絡(luò)Yolo,CenterNet[7],RetinaNet[8];二階段網(wǎng)絡(luò)Fast RCNN[9]、Faster RCNN[10]等。相比于一階段目標(biāo)檢測(cè)網(wǎng)絡(luò),二階段將特征提取與區(qū)域推薦網(wǎng)絡(luò)相結(jié)合,使得網(wǎng)絡(luò)實(shí)現(xiàn)了端到端檢測(cè),檢測(cè)精度也相對(duì)更高。Cha等人[11]基于Faster RCNN算法開發(fā)了實(shí)時(shí)損傷檢測(cè)的框架,有效地檢測(cè)五種類型的表面缺陷。為適應(yīng)目標(biāo)尺度變化,高琳等人[12]結(jié)合特征金字塔網(wǎng)絡(luò)提出了一種融合多尺度上下文卷積的車輛目標(biāo)檢測(cè)算法。為了增強(qiáng)低層特征與最頂層特征之間的特征聯(lián)系,Liu等人[13]在特征金字塔結(jié)構(gòu)的基礎(chǔ)上添加自下而上的路徑,提出了實(shí)例分割網(wǎng)絡(luò)PANet。為了使模型對(duì)感興趣區(qū)域更加關(guān)注,注意力機(jī)制被廣泛研究。人類視覺系統(tǒng)在分析場(chǎng)景時(shí),并不會(huì)立即針對(duì)整個(gè)圖像進(jìn)行處理,而是會(huì)選擇性地關(guān)注于突出的部分,即注意力在人類感知中起到了重要作用[14]。在CNN中,注意力模塊起著與人類的注意力感知類似的作用,其通過賦予特征圖中的缺陷區(qū)域更高的權(quán)重,以實(shí)現(xiàn)強(qiáng)調(diào)目標(biāo)對(duì)象特征的目的,抑制圖像背景的噪聲干擾。
光伏電池EL圖像是電池片采用電致發(fā)光[15]技術(shù),由近紅外CCD相機(jī)在EL成像采集系統(tǒng)(圖1)中捕獲的,圖像像素大小為1024′1024。
圖1 EL成像采集系統(tǒng)
對(duì)于光伏電池EL圖像,其檢測(cè)難點(diǎn)主要有:
1) 任意樣本之間的非均勻紋理復(fù)雜背景均不相同,具有較高轉(zhuǎn)換效率的無缺陷區(qū)域表現(xiàn)為較亮的特點(diǎn),裂紋缺陷和晶粒表現(xiàn)為更暗?,F(xiàn)有的目標(biāo)檢測(cè)算法不能很好地抑制復(fù)雜背景對(duì)裂紋檢測(cè)的干擾。2) EL圖像背景包含主柵線、副柵線、晶粒等結(jié)構(gòu),由于其特殊的生產(chǎn)工藝,晶粒具有大小不同、方向不一且隨機(jī)分布的特點(diǎn)。更重要的是,部分晶粒偽缺陷的結(jié)構(gòu)與裂紋缺陷具有極高的相似性,這使得檢測(cè)中極易出現(xiàn)誤檢。3) 第三,裂紋缺陷的尺寸、形狀的多樣性。尺寸多樣性表現(xiàn)為裂紋大小多樣、縱橫比多樣;形狀多樣性具體表現(xiàn)為橫向、縱向和拓?fù)浣Y(jié)構(gòu)的復(fù)雜樹狀裂紋,見圖2。
針對(duì)以上難點(diǎn),本文的主要貢獻(xiàn)有:1) 采用改進(jìn)的特征金字塔網(wǎng)絡(luò)獲取高分辨率、多尺度的高級(jí)語義特征圖,以此來提高網(wǎng)絡(luò)在復(fù)雜背景下對(duì)多尺度裂紋缺陷的特征表達(dá)能力;2) 采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)(attention region proposal network, A-RPN),關(guān)注裂紋特征并抑制復(fù)雜背景及其中的晶粒偽缺陷的特征;3) 在RPN訓(xùn)練過程中采用分類損失函數(shù)Focal loss,以此來降低訓(xùn)練過程中簡單樣本所占比重,使模型更加關(guān)注難以區(qū)分的樣本,進(jìn)一步提升檢測(cè)效果??偟膩碚f,提出的融合注意力的多尺度Faster-RCNN模型,在解決非均勻紋理復(fù)雜背景的EL圖像的裂紋缺陷檢測(cè)任務(wù)中,表現(xiàn)出更優(yōu)的檢測(cè)性能。
Faster-RCNN包括特征提取網(wǎng)絡(luò)、區(qū)域推薦網(wǎng)絡(luò)RPN、感興趣區(qū)域池化ROI pooling,以及分類回歸模塊四個(gè)部分?;诖耍疚奶岢龅娜诤献⒁饬Φ亩喑叨菷aster RCNN模型,首先通過殘差網(wǎng)絡(luò)ResNet50與改進(jìn)的路徑聚合特征金字塔網(wǎng)絡(luò)(path aggregation feature pyramid network, PA-FPN)相結(jié)合,將提取的多尺度特征圖輸入融合卷積注意力模塊的A-RPN網(wǎng)絡(luò)與ROI pooling中,進(jìn)一步完成裂紋的檢測(cè),模型結(jié)構(gòu)見圖3。
圖2 非均勻紋理隨機(jī)背景的EL圖像。矩形框標(biāo)記為晶粒,三角框標(biāo)記為與裂紋高度相似的晶粒偽缺陷,橢圓標(biāo)記為裂紋
圖3 融合注意力的多尺度Faster-RCNN模型
本文工作是檢測(cè)光伏電池EL圖像中的裂紋缺陷,裂紋表現(xiàn)為尺度變化較大、形狀各異的特點(diǎn)。現(xiàn)有的Faster RCNN直接將特征提取網(wǎng)絡(luò)最后一層輸出的特征用作后續(xù)分類回歸,由于淺層網(wǎng)絡(luò)包含的特征信息易被丟失,會(huì)導(dǎo)致小目標(biāo)裂紋特征無法充分提取,出現(xiàn)漏檢問題。本文在特征金字塔網(wǎng)絡(luò)FPN的基礎(chǔ)上提出采用改進(jìn)的路徑聚合特征金字塔網(wǎng)絡(luò)(path aggregation feature pyramid network, PA-FPN)與殘差網(wǎng)絡(luò)ResNet50相結(jié)合,提升模型對(duì)多尺度裂紋缺陷的特征表達(dá)能力。
2.2.1 Anchor設(shè)置
區(qū)域推薦網(wǎng)絡(luò)RPN是Faster RCNN的重大改進(jìn),RPN通過滑動(dòng)窗口為其輸入特征圖的每一個(gè)點(diǎn)配置個(gè)錨框anchor,進(jìn)一步通過分類器及bounding box regression回歸原理完成對(duì)目標(biāo)區(qū)域的推薦。設(shè)置anchor時(shí),在給定基礎(chǔ)錨框尺寸的基礎(chǔ)上,不僅需要給定不同尺度的scale參數(shù),還需要考慮目標(biāo)的縱橫比ratio參數(shù)。
為了生成更加接近數(shù)據(jù)集中實(shí)際目標(biāo)缺陷尺寸的錨框,提高算法在缺陷檢測(cè)過程中對(duì)位置回歸的速度及準(zhǔn)確性,采用k-means聚類對(duì)anchor大小的設(shè)置進(jìn)行指導(dǎo)。針對(duì)特定數(shù)據(jù)集中的目標(biāo)缺陷尺寸進(jìn)行聚類,即計(jì)算手動(dòng)標(biāo)記的ground-truth與聚類中心的交并比(IOU),以1-IOU距離度量進(jìn)行聚類,指導(dǎo)RPN生成與實(shí)際缺陷的形狀更加匹配的anchor,進(jìn)一步完成缺陷的定位與檢測(cè)。其實(shí)現(xiàn)過程如下:
3) 計(jì)算數(shù)據(jù)集中的標(biāo)注框與個(gè)聚類中心點(diǎn)的距離,其中:
4) 直到所有標(biāo)注框分配完畢,對(duì)每一個(gè)簇計(jì)算最終的聚類中心點(diǎn):
針對(duì)光伏電池EL數(shù)據(jù)集裂紋缺陷,通過k-means聚類找到了anchor較合適的縱橫比ratio,分別為{0.25,0.5,1,1.66,2.1,3.3},提高了RPN生成的先驗(yàn)框的穩(wěn)定性。實(shí)驗(yàn)證明,增加anchor的數(shù)量,訓(xùn)練增加的時(shí)間并不明顯。
圖4 路徑聚合特征金字塔PA-FPN
2.2.2 注意力模塊
卷積注意力模塊CBAM由通道注意力與空間注意力兩個(gè)互補(bǔ)的模塊相連接組成,可以抑制復(fù)雜背景的特征同時(shí)突出缺陷的特征,并集中于復(fù)雜背景下光伏電池EL圖像中裂紋的空間位置。其中,通道注意力著重于目標(biāo)“是什么”,通過將包含更多缺陷信息的通道賦予更大的權(quán)重,將包含更多背景信息的通道賦予較小的權(quán)重,從而來選擇包含有用缺陷特征信息的通道??臻g注意力會(huì)告訴網(wǎng)絡(luò)缺陷“在哪里”,幫助網(wǎng)絡(luò)定位缺陷在特征圖中的位置。提出注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN可以在復(fù)雜背景的干擾下生成更加準(zhǔn)確的缺陷推薦區(qū)域,進(jìn)一步提升模型的目標(biāo)檢測(cè)效果。
圖5 融合注意力CBAM的檢測(cè)模型
2.2.3 損失函數(shù)Focal loss
在RPN網(wǎng)絡(luò)中,訓(xùn)練過程通過采用交叉熵?fù)p失函數(shù)來優(yōu)化參數(shù)。對(duì)于二分類交叉熵?fù)p失函數(shù):
光伏電池EL圖像的裂紋缺陷檢測(cè)算法是在Pycharm上基于TensorFlow的深度學(xué)習(xí)框架進(jìn)行編程,實(shí)驗(yàn)環(huán)境是在Ubuntu 18.04平臺(tái)系統(tǒng)上完成,用于訓(xùn)練的計(jì)算機(jī)是具有64 GB內(nèi)存的Inter Xeon W 2123和具有12 GB顯存的Titan XP圖形卡。
數(shù)據(jù)集中的所有圖像都采用LabelImg標(biāo)注軟件進(jìn)行標(biāo)注。通過使用不同大小的矩形框進(jìn)行手動(dòng)標(biāo)記缺陷位置的同時(shí)給定類別標(biāo)簽,制作了VOC2007格式的光伏電站EL圖像數(shù)據(jù)集,隨機(jī)分配構(gòu)成模型的訓(xùn)練集和測(cè)試集。表1顯示了數(shù)據(jù)集配置。
表1 光伏電池EL圖像數(shù)據(jù)集
本文采取平均精度(average precision, AP)來評(píng)估檢測(cè)模型的性能。AP值的計(jì)算與準(zhǔn)確率(precision,簡寫為pre)、召回率(recall,簡寫為recall)有關(guān),表示的是以召回率作為橫坐標(biāo),準(zhǔn)確率作為縱坐標(biāo),繪制的精確/召回率(PR)曲線下的面積[17]。對(duì)于給定的類別,準(zhǔn)確率和召回率分別定義為
其中:P為分類正確的缺陷目標(biāo)的個(gè)數(shù),P為背景分類為缺陷目標(biāo)的個(gè)數(shù),N是缺陷正樣本被錯(cuò)誤地分為負(fù)樣本的個(gè)數(shù)。
為了更好地評(píng)估網(wǎng)絡(luò)模型的性能,首先對(duì)模型參數(shù)進(jìn)行了選取,設(shè)置訓(xùn)練迭代次數(shù)為20000,學(xué)習(xí)率為0.0001。在RPN網(wǎng)絡(luò)中,生成的proposal足夠多會(huì)在一定程度避免出現(xiàn)缺陷的漏檢,但是全部用于后續(xù)訓(xùn)練會(huì)降低網(wǎng)絡(luò)的訓(xùn)練速度,加重訓(xùn)練計(jì)算負(fù)擔(dān)。因此,需要采用非極大值抑制算法NMS完成proposal的選擇,這里設(shè)置RPN網(wǎng)絡(luò)訓(xùn)練時(shí)的非極大值抑制閾值參數(shù)為0.7,NMS之后的proposal數(shù)量設(shè)置為2000。其他詳細(xì)參數(shù)見表2。
表2 模型的參數(shù)配置
圖6 特征圖可視化對(duì)比
圖7 RPN結(jié)合注意力CBAM前后的特征圖
為了證明所提方法的有效性,在EL數(shù)據(jù)集上進(jìn)行了如表3所示的實(shí)驗(yàn)。由表可知,采用原始的Faster RCNN對(duì)EL圖像的多尺度裂紋檢測(cè)時(shí),最終的AP值為87.68%。在此基礎(chǔ)上,RPN網(wǎng)絡(luò)結(jié)合損失函數(shù)Focal loss,AP值提升了1.25%。然后模型融合注意力CBAM模塊,同時(shí)特征提取采用ResNet與改進(jìn)的路徑聚合PA-FPN,模型的AP值分別提高了3.33%和2.49%,達(dá)到94.75%。這說明,利用注意力CBAM關(guān)注裂紋特征并抑制復(fù)雜背景及其中的晶粒偽缺陷的特征,以及利用PA-FPN提取多尺度特征,可以更好地提升對(duì)多尺度裂紋尤其是小目標(biāo)裂紋的檢測(cè)結(jié)果。值得注意的是,在RPN與Focal loss結(jié)合的基礎(chǔ)上,將通道注意力與空間注意力融合到RPN中的AP值分別為88.94%和87.92%。這說明,只融合通道注意力對(duì)模型的檢測(cè)效果影響不大,且只融合空間注意力會(huì)使模型的檢測(cè)結(jié)果下降1.01%。再一次驗(yàn)證了文獻(xiàn)[18]中提到的:注意力模塊CBAM優(yōu)于僅使用其中一種注意力對(duì)模型檢測(cè)結(jié)果的影響。
將本文改進(jìn)的模型與Faster RCNN、CenterNet、RetinaNet等模型在光伏電池EL圖像下的檢測(cè)效果進(jìn)行對(duì)比,通過平均準(zhǔn)確率AP評(píng)估其性能,如表4所示。
根據(jù)實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)的Faster RCNN檢測(cè)網(wǎng)絡(luò)的AP值高于原始的二階段檢測(cè)網(wǎng)絡(luò)Faster RCNN、一階段檢測(cè)網(wǎng)絡(luò)CenterNet和RetinaNet。對(duì)于CenterNet,基于DLA特征提取的模型優(yōu)于基于殘差網(wǎng)絡(luò)ResNet18的模型,整體性能與原始的Faster RCNN模型性能相近,但由于CenterNet模型對(duì)于檢測(cè)小目標(biāo)以及尺度變化大的目標(biāo)適應(yīng)性不是很好,使得模型整體的性能遠(yuǎn)低于改進(jìn)的多尺度Faster RCNN。另外,經(jīng)典的一階段檢測(cè)網(wǎng)絡(luò)RetinaNet比多尺度Faster RCNN模型的精度低10.22%,究其原因,由于EL圖像具有非均勻復(fù)雜紋理特征,背景中包含柵線以及大量的不規(guī)則晶粒,而RetinaNet無法抑制復(fù)雜背景對(duì)裂紋檢測(cè)的干擾,因此對(duì)于條狀目標(biāo)的泛化能力差。
圖8顯示了不同檢測(cè)模型對(duì)EL圖像的對(duì)比檢測(cè)結(jié)果??梢钥闯觯瑢?duì)于同一張非均勻紋理復(fù)雜背景的光伏電池EL圖像,CenterNet的檢測(cè)結(jié)果與原始的Faster RCNN接近,但仍然存在小目標(biāo)的漏檢,而且模型對(duì)目標(biāo)框的回歸也不夠精確。而RetinaNet由于無法更好地抑制復(fù)雜背景的干擾,且模型對(duì)較窄的條狀目標(biāo)適應(yīng)性不是很好,使其對(duì)裂紋缺陷的漏檢率較高,模型的檢測(cè)性能較差。對(duì)于融合注意力的多尺度Faster RCNN模型,盡管EL圖像具有非均勻紋理復(fù)雜背景,明暗度也不同,裂紋缺陷既包含樹狀、條狀且它們的尺度都不同,改進(jìn)的模型依舊可以準(zhǔn)確地識(shí)別出裂紋缺陷,且對(duì)它們回歸的目標(biāo)框也較為精準(zhǔn)。這是因?yàn)?,融合注意力的多尺度Faster R-CNN在深度殘差網(wǎng)絡(luò)ResNet50的基礎(chǔ)上,采用了PA-FPN結(jié)構(gòu)對(duì)多層特征進(jìn)行融合,獲取多尺度的特征圖來表達(dá)更為復(fù)雜的語義信息,對(duì)于多尺度裂紋尤其是尺度較小的裂紋檢測(cè)效果較好。另一方面,RPN融合了注意力模塊CBAM與損失函數(shù)Focal loss,提高了網(wǎng)絡(luò)對(duì)裂紋缺陷以及難以區(qū)分的樣本的比重,提高了模型對(duì)缺陷與背景的區(qū)分度,很好地提升了檢測(cè)精度。
表3 基于Faster-RCNN 算法的EL圖像檢測(cè)性能
表4 不同算法在光伏電池EL圖像上的檢測(cè)性能
圖8 不同算法在光伏電池EL圖像上的檢測(cè)結(jié)果對(duì)比圖
總的來說,融合注意力的多尺度Faster RCNN一方面抑制了EL圖像復(fù)雜背景對(duì)裂紋檢測(cè)的干擾,另一方面模型對(duì)于EL圖像中尺度變化較大、形狀多樣且較窄的裂紋缺陷的適應(yīng)性很好,降低了小目標(biāo)裂紋漏檢的幾率,提升了整個(gè)模型的檢測(cè)性能。
基于光伏電池EL圖像的裂紋缺陷檢測(cè),本文提出了融合注意力的多尺度Faster-RCNN模型,將ResNet50與路徑聚合特征金字塔PA-FPN相結(jié)合,同時(shí)采用改進(jìn)的注意力區(qū)域推薦網(wǎng)絡(luò)A-RPN與損失函數(shù)Focal loss,提高了網(wǎng)絡(luò)在非均勻紋理復(fù)雜背景下對(duì)多尺度裂紋缺陷的檢測(cè)能力。相比于幾種經(jīng)典的目標(biāo)檢測(cè)算法,改進(jìn)的模型具有更優(yōu)的檢測(cè)性能。本文的研究為光伏電池EL圖像的多尺度裂紋檢測(cè)提供了一種較為有效的方法。下一步將繼續(xù)研究更高精度的目標(biāo)檢測(cè)算法,進(jìn)一步探討如何增強(qiáng)缺陷特征抑制背景的干擾以提升網(wǎng)絡(luò)的性能。
[1] Anwar S A, Abdullah M Z. Micro-crack detection of multicrystalline solar cells featuring shape analysis and support vector machines[C]//,, 2012: 143?148.
[2] Su B Y, Chen H Y, Zhu Y F,. Classification of manufacturing defects in multicrystalline solar cells with novel feature descriptor[J]., 2019, 68(12): 4675?4688.
[3] Luo Q W, Sun Y C, Li P C,. Generalized completed local binary patterns for time-efficient steel surface defect classification[J]., 2019, 68(3): 667?679.
[4] Tsai D M, Chang C C, Chao S M. Micro-crack inspection in heterogeneously textured solar wafers using anisotropic diffusion[J]., 2010, 28(3): 491?501.
[5] Cha Y J, Choi W, Büyük?ztürk O. Deep learning‐based crack damage detection using convolutional neural networks[J]., 2017, 32(5): 361?378.
[6] Lin H, Li B, Wang X G,. Automated defect inspection of LED chip using deep convolutional neural network[J]., 2019, 30(6): 2525?2534.
[7] Duan K W, Bai S, Xie L X,. Centernet: keypoint triplets for object detection[C]//, 2019: 6568?6577.
[8] Lin T Y, Goyal P, Girshick R,. Focal loss for dense object detection[C]//, 2017: 2999?3007.
[9] Girshick R. Fast R-CNN[C]//, 2015: 1440?1448.
[10] Ren S Q, He K M, Girshick R,. Faster R-CNN: towards real-time object detection with region proposal networks[C]//, 2015: 91?99.
[11] Cha Y J, Choi W, Suh G,. Autonomous structural visual inspection using region‐based deep learning for detecting multiple damage types[J]., 2018, 33(9): 731?747.
[12] Gao L, Chen N N, Fan Y. Vehicle detection based on fusing multi-scale context convolution features[J]., 2019, 46(4): 180331.
高琳, 陳念年, 范勇. 融合多尺度上下文卷積特征的車輛目標(biāo)檢測(cè)[J]. 光電工程, 2019, 46(4): 180331.
[13] Liu S, Qi L, Qin H F,. Path aggregation network for instance segmentation[C]//, 2018: 8759?8768.
[14] Corbetta M, Shulman G L. Control of goal-directed and stimulus-driven attention in the brain[J]., 2002, 3(3): 201?215.
[15] Fraz?o M, Silva J A, Lobato K,. Electroluminescence of silicon solar cells using a consumer grade digital camera[J]., 2017, 99: 7?12.
[16] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//, 2018: 7132?7141.
[17] Everingham M, Van Gool L, Williams C K I,. The PASCAL visual object classes (VOC) challenge[J]., 2010, 88(2): 303?338.
[18] Woo S, Park J, Lee J Y,. CBAM: convolutional block attention module[C]//, 2018: 3?19.
Crack detection based on multi-scale Faster RCNN with attention
Chen Haiyong1*, Zhao Peng1, Yan Haowei2
1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China
Multiscale crack detection network structure
Overview:Electroluminescence (EL) images of photovoltaic cells have a non-uniformly textured complex background, and the background contains grain pseudo-defects that are highly similar to the crack structure. At the same time, the cracks are characterized by various sizes and shapes. Existing target detection algorithms based on convolutional neural networks cannot adapt to the above problems. From the perspective of suppressing interference from complex background and improving the adaptability of the model to multi-scale crack defect detection, this paper proposes a multi-scale Faster RCNN model that integrates attention. In photovoltaic cell EL images, the scale of the cracks varies greatly, including a large number of small target cracks. In order to improve the network's ability to express multi-scale crack defects, a path aggregation feature pyramid network (PA-FPN) is proposed. Based on the combination of the residual network ResNet50 and the feature pyramid network FPN, PA-FPN adds a bottom-up path to fuse features. PA-FPN effectively retains shallow feature information, which improves the model's adaptability to multi-scale cracks in EL images and especially the detection results of small-scale cracks. In order to improve the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects, this paper proposes a regional recommendation network A-RPN that incorporates convolutional block attention module (CBAM). CBAM is composed of a channel attention module and a spatial attention module. In this paper, it is experimentally verified that the detection result of the RPN network fused with CBAM is better than that of using an attention modules alone. K-means clustering is used to cluster the crack sizes in the data set to guide the RPN to set the anchor box closer to the actual crack size, which improves the speed and accuracy of the target box regression in the defect detection process. In addition, in the RPN network training process, the loss function Focal loss is used to replace the original cross-entropy loss function, so as to reduce the proportion of simple samples in the training process and make the model pay more attention to the samples that are difficult to distinguish. The entire network can achieve end-to-end training. In order to verify the effectiveness of the improved algorithm, the performance of the original Faster RCNN model, RetinaNet, and CenterNet on multi-scale crack detection of EL images is compared. Through training and testing of 1024 pixels′1024 pixels of photovoltaic cell EL images, experimental results show that the improved Faster RCNN is better than the above mentioned target detection algorithms in accuracy, and has good robustness to the strip-shaped multi-scale cracks, which can be adapted to the EL image with changing complex background.
Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J].2021, 48(1): 200112; DOI: 10.12086/oee.2021.200112
Crack detection based on multi-scale Faster RCNN with attention
Chen Haiyong1*, Zhao Peng1, Yan Haowei2
1School of Artificial Intelligence, Hebei University of Technology, Tianjin 300000, China;2Tianjin Aerospace Zhongwei Data System Technology Co., Ltd, Tianjin 300000, China
The background of the EL image of a photovoltaic cell under electroluminescence (EL) presents complex non-uniform texture features, and there are grain pseudo-defects similar to cracks. At the same time, the cracks appear as multi-scale features with various shapes. The above mentioned difficulties have presented great challenges for the detection task. Therefore, this paper proposes a multi-scale Faster-RCNN model that integrates attention. On the one hand, an improved feature pyramid network is used to obtain multi-scale advanced semantic feature maps to improve the network's feature expression ability of multi-scale crack defects. On the other hand, an improved attention region proposal network A-RPN is adopted to increase the model's attention to crack defects and suppress the characteristics of complex background and grain pseudo-defects. At the same time, in the RPN network training process, a loss function Focal loss is used to reduce the proportion of simple samples in the training process, so that the model pays more attention to the samples that are difficult to distinguish. Experimental results show that this algorithm improves the accuracy of crack defect detection in EL images, reaching nearly 95%.
multi-scale feature extraction; attention module; focal loss function
TP391.41
A
10.12086/oee.2021.200112
National Natural Science Foundation of China (61873315)
* E-mail: haiyong.chen@hebut.edu.cn
陳海永,趙鵬,閆皓煒. 融合注意力的多尺度Faster RCNN的裂紋檢測(cè)[J]. 光電工程,2021,48(1): 200112
Chen H Y, Zhao P, Yan H WCrack detection based on multi-scale Faster RCNN with attention[J]., 2021, 48(1): 200112
2020-04-02;
2020-06-15
國家自然科學(xué)基金資助項(xiàng)目(61873315)
陳海永(1980-),男,博士,教授,主要從事計(jì)算機(jī)視覺的研究。E-mail:haiyong.chen@hebut.edu.cn