武澤坤,葉曉嫻,陳夢(mèng)
基于改進(jìn)YOLOv5的藥用膠囊表面缺陷檢測(cè)方法
武澤坤,葉曉嫻,陳夢(mèng)
(上海工程技術(shù)大學(xué) 藝術(shù)設(shè)計(jì)學(xué)院,上海 201620)
在質(zhì)檢過(guò)程中精確快速地檢測(cè)到藥用空心膠囊的表面缺陷?;赮OLOv5算法,針對(duì)模型網(wǎng)絡(luò)參數(shù)量大和對(duì)長(zhǎng)距離依賴(lài)關(guān)系的學(xué)習(xí)能力較弱的問(wèn)題,提出在主干網(wǎng)絡(luò)部分引入GhostNet模塊和坐標(biāo)注意力機(jī)制,使網(wǎng)絡(luò)有效捕捉數(shù)據(jù)位置信息和通道信息的關(guān)系。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)能夠在參數(shù)量下降為原來(lái)的57%的前提下,對(duì)藥用膠囊表面的破損、印刷錯(cuò)誤、孔洞、劃痕、凹陷等5類(lèi)缺陷的平均檢測(cè)精度達(dá)到96.9%,相較于YOLOv5s提高了2.4個(gè)百分點(diǎn),檢測(cè)速度提升了12幀/s。文中方法能夠有效對(duì)藥用膠囊表面缺陷進(jìn)行分類(lèi)和定位,提高缺陷檢測(cè)的準(zhǔn)確率。
YOLOv5;膠囊;缺陷檢測(cè);注意力機(jī)制;GhostNet
在我國(guó)社會(huì)老齡化形勢(shì)加劇的今天,每年藥品的生產(chǎn)量不斷上升。這對(duì)藥品質(zhì)量檢測(cè)精度和速度提出更高的要求。藥用膠囊作為被廣泛使用的藥物之一,隨著生產(chǎn)規(guī)模的不斷擴(kuò)大,其生產(chǎn)過(guò)程中存在的表面缺陷問(wèn)題時(shí)有發(fā)生,缺陷檢測(cè)成為生產(chǎn)環(huán)節(jié)中的一大難點(diǎn)。
藥用膠囊常見(jiàn)的表面缺陷有尺寸不正確、孔洞、凹陷、印刷缺失。目前,對(duì)藥物生產(chǎn)的缺陷檢測(cè)工作主要使用人工方式進(jìn)行,但人工檢測(cè)存在效率低、誤檢率高和漏檢率高等問(wèn)題,難以滿(mǎn)足日益擴(kuò)大的藥物生產(chǎn)規(guī)模需求。
為了在保障藥品生產(chǎn)質(zhì)量的同時(shí)降低人工成本,制藥企業(yè)亟待完成由人工檢測(cè)向自動(dòng)化檢測(cè)的轉(zhuǎn)型。在早期針對(duì)藥用膠囊的表面缺陷檢測(cè)的探索中,許多學(xué)者使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法對(duì)其進(jìn)行檢測(cè)和分類(lèi)。Kekre等[1]使用多方法對(duì)5種類(lèi)型的膠囊缺陷進(jìn)行分類(lèi)檢測(cè),據(jù)觀(guān)察,灰度密度計(jì)算和灰度共生矩陣效果較好。賴(lài)大虎等[2]針對(duì)膠囊常見(jiàn)的凹陷缺陷,提取其偏心率和圓形度為特征向量,提出一種基于極端學(xué)習(xí)機(jī)器的膠囊缺陷檢測(cè)方法,分類(lèi)正確率接近100%。Qi等[3]針對(duì)膠囊缺陷種類(lèi)多的問(wèn)題,對(duì)膠囊質(zhì)地、形狀、膠囊缺陷區(qū)域以及膠囊缺陷特征進(jìn)行邊緣提取,使用多層支持向量機(jī)進(jìn)行分類(lèi),得出分層支持向量機(jī)的效果優(yōu)于反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)的結(jié)論,傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)膠囊表面缺陷進(jìn)行分類(lèi)檢測(cè)雖然能夠取得較好的效果,但是其圖像處理過(guò)程煩瑣,速度較慢,難以適用于生產(chǎn)檢測(cè)中。
在現(xiàn)階段目標(biāo)檢測(cè)技術(shù)的火熱發(fā)展下,目標(biāo)分類(lèi)與識(shí)別已經(jīng)在軍事偵察、醫(yī)療健康、安防等領(lǐng)域廣泛應(yīng)用。近年來(lái),深度學(xué)習(xí)機(jī)器視覺(jué)的方法在藥物表面缺陷檢測(cè)中得到應(yīng)用。Zhou等[4]針對(duì)膠囊表面出現(xiàn)的凹陷、孔洞、污點(diǎn)等多種缺陷提出一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的膠囊缺陷檢測(cè)模型,可完成對(duì)不同缺陷類(lèi)型的分類(lèi)任務(wù),但難以對(duì)缺陷位置進(jìn)行定位。Liu等[5]使用區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with CNN features,R-CNN),完成對(duì)膠囊表面劃痕和污點(diǎn)這2類(lèi)缺陷的分類(lèi)和定位任務(wù)。
使用深度學(xué)習(xí)方法進(jìn)行缺陷檢測(cè),相較于傳統(tǒng)機(jī)器學(xué)習(xí),其訓(xùn)練樣本量大、預(yù)處理環(huán)節(jié)較少以及處理速度更快,但同時(shí),復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)使其參數(shù)量和計(jì)算量較大,不利于在實(shí)際應(yīng)用中的模型部署。文中提出一種基于改進(jìn)YOLOv5的藥用膠囊表面缺陷檢測(cè)方法,該方法對(duì)卷積操作進(jìn)行改變,引入GhostNet模塊和注意力機(jī)制,針對(duì)5種常見(jiàn)的藥用膠囊表面缺陷類(lèi)型進(jìn)行模型訓(xùn)練,相較于原YOLOv5s模型,實(shí)現(xiàn)了在參數(shù)量大幅下降的前提下,對(duì)缺陷的精確分類(lèi)和準(zhǔn)確定位。
YOLO(You Only Look Once)系列模型是單階段目標(biāo)檢測(cè)中的常用模型[6]。YOLOv5模型是由Ultralytics LLC團(tuán)隊(duì)在2020年6月推出,相較于YOLOv4,YOLOv5在網(wǎng)絡(luò)結(jié)構(gòu)上做出調(diào)整,擁有比YOLOv4更高的檢測(cè)精度。截至本文撰寫(xiě)時(shí),YOLOv5–v6.0版本推出YOLOv5n權(quán)重類(lèi)型,該權(quán)重文件大小僅有3.84 MB,更加方便地將其部署至移動(dòng)端進(jìn)行工業(yè)缺陷檢測(cè)。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖1。
YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)分為輸入端、主干網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)、輸出端。
輸入端由Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)Anchor計(jì)算、自適應(yīng)圖片縮放組成。Mosaic數(shù)據(jù)增強(qiáng)在YOLOv3[7]、YOLOv4[8]中也有使用,將數(shù)據(jù)集中的4張圖像進(jìn)行隨機(jī)縮放、隨機(jī)分布后進(jìn)行拼接。該處理方式增加多個(gè)小目標(biāo)后可增強(qiáng)網(wǎng)絡(luò)的魯棒性并加減少計(jì)算資源的消耗。同等尺寸的圖像輸入,Mosiac增強(qiáng)方式在訓(xùn)練時(shí)直接計(jì)算4張圖片的數(shù)據(jù)。自適應(yīng)Anchor計(jì)算是指針對(duì)數(shù)據(jù)集,設(shè)置固定的錨框大小。YOLOv5中初始錨框的尺寸是根據(jù)COCO數(shù)據(jù)集均值聚類(lèi)得到的,使用不同數(shù)據(jù)集時(shí)自動(dòng)計(jì)算該數(shù)據(jù)集的最佳錨框尺寸,有效提高檢測(cè)精度。自適應(yīng)圖片縮放在模型推理時(shí)使用,避免信息冗余,加快推理速度。
圖1 YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
主干網(wǎng)絡(luò)由focus模塊、CSP模塊組成,對(duì)輸入圖像數(shù)據(jù)進(jìn)行特征提取。focus模塊對(duì)輸入圖像數(shù)據(jù)進(jìn)行切片操作,將輸入數(shù)據(jù)的高和寬縮減一半,通道數(shù)增加為原始通道數(shù)的4倍,將空間信息轉(zhuǎn)變?yōu)橥ǖ佬畔?,減少浮點(diǎn)運(yùn)算量。YOLOv5提供4種不同大小的網(wǎng)絡(luò)結(jié)構(gòu)按照從小到大排序依次為YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。其中YOLOv5s網(wǎng)絡(luò)體量最小,推理速度快,但檢測(cè)精度不高,適用于運(yùn)算能力較低的設(shè)備,比如樹(shù)莓派設(shè)備。在服務(wù)器設(shè)備上一般選用YOLOv5l網(wǎng)絡(luò),其檢測(cè)精度較高、推理速度適中。CSP模塊將基礎(chǔ)層的特征映射分為兩部分,通過(guò)跨階段層次結(jié)構(gòu)將特征映射合并,在減少計(jì)算量的前提下保證準(zhǔn)確率。
特征融合網(wǎng)絡(luò)采組成部分為FPN(Feature Pyramid Networks)和PAN(Path Aggregation Network)模塊,加強(qiáng)網(wǎng)絡(luò)對(duì)不同尺度對(duì)象特征融合的能力。FPN模塊自上向下傳遞強(qiáng)語(yǔ)義特征,PAN模塊自底向上傳遞強(qiáng)定位特征,兩者集合加強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)對(duì)象的檢測(cè)能力。
YOLOv5的輸出端相較于YOLOv4的做出改變,采用CIOU函數(shù)作為邊界框回歸的損失函數(shù),CIOU函數(shù)將重疊面積、中心點(diǎn)距離、寬高比綜合考慮,使得檢測(cè)框更加準(zhǔn)確。
20世紀(jì)90年代在視覺(jué)圖像領(lǐng)域提出注意力機(jī)制,這是一種模仿人類(lèi)注意力所實(shí)現(xiàn)的信息處理資源的高效分配方式[9]。
當(dāng)人進(jìn)入某一場(chǎng)景時(shí),視覺(jué)會(huì)優(yōu)先停留在一些特殊的點(diǎn),剩余的場(chǎng)景信息會(huì)被暫時(shí)忽略。比如人在圖像中在尋找具有某一特征的事物時(shí),會(huì)更多的將視線(xiàn)停留在符合這一特征的圖像區(qū)域,這即是注意力的有效分配。注意力作為人類(lèi)大腦中一項(xiàng)必不可少的認(rèn)知功能,保證人類(lèi)通過(guò)五感獲取海量信息的同時(shí),篩選出部分有用的信息進(jìn)行處理。在深度學(xué)習(xí)網(wǎng)絡(luò)模型中,注意力機(jī)制對(duì)重要信息添加高權(quán)重,對(duì)次要信息添加低權(quán)重,增強(qiáng)網(wǎng)絡(luò)對(duì)關(guān)鍵信息的特征提取能力。
注意力機(jī)制的優(yōu)點(diǎn)如下。
1)結(jié)構(gòu)簡(jiǎn)單,適用于多種任務(wù),如機(jī)器翻譯、目標(biāo)檢測(cè)、對(duì)話(huà)系統(tǒng)、數(shù)據(jù)監(jiān)測(cè)等。
2)通過(guò)建立循環(huán)來(lái)構(gòu)建輸入與輸出間的依賴(lài)關(guān)系和并行化的方式提高運(yùn)行速度。
3)增強(qiáng)了網(wǎng)絡(luò)對(duì)長(zhǎng)距離依賴(lài)關(guān)系的學(xué)習(xí)能力,避免為增強(qiáng)模型的表達(dá)能力而增加網(wǎng)絡(luò)深度所造成的梯度爆炸現(xiàn)象。
為簡(jiǎn)化模型的參數(shù)量和計(jì)算量,強(qiáng)化其對(duì)于空間信息特征的提取能力。文中重點(diǎn)對(duì)YOLOv5的特征提取網(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì),將原網(wǎng)絡(luò)中的所有Conv模塊和BottleneckCSP模塊替換為GhostConv模塊和GhostBottleneck模塊,并在主干部分的GhostConv模塊后嵌入坐標(biāo)注意力模塊以提升網(wǎng)絡(luò)的檢測(cè)精度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)圖2。
目標(biāo)檢測(cè)網(wǎng)絡(luò)中常用的卷積運(yùn)算對(duì)全局關(guān)系的捕獲能力較弱,當(dāng)圖像中出現(xiàn)連續(xù)缺陷的痕跡時(shí),缺陷長(zhǎng)度越大,其特征就越難表征,為解決此問(wèn)題,將注意力機(jī)制引入檢測(cè)模型中。注意力機(jī)制通過(guò)對(duì)人類(lèi)視覺(jué)中的選擇性特點(diǎn)進(jìn)行模仿,從輸入中篩選出當(dāng)前任務(wù)所需的關(guān)鍵信息,通過(guò)對(duì)關(guān)鍵信息進(jìn)行加權(quán),增強(qiáng)模型對(duì)目標(biāo)的捕捉能力。注意力機(jī)制可有效提高模型在目標(biāo)檢測(cè)任務(wù)中的性能。
文中將注意力機(jī)制引入到Y(jié)OLOv5網(wǎng)絡(luò)中[10],增強(qiáng)模型網(wǎng)絡(luò)捕捉位置信息和通道信息關(guān)系的能力,提高缺陷檢測(cè)的精確度。在選擇注意力模塊時(shí)必須考慮將其加入后對(duì)網(wǎng)絡(luò)參數(shù)量和運(yùn)算復(fù)雜度的影響,對(duì)文中的研究對(duì)象來(lái)說(shuō),結(jié)構(gòu)復(fù)雜的注意力機(jī)制,如自注意力(Self-Atttention,SA)[11],在大幅加深網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,降低模型的推理速度,不適合在工業(yè)缺陷檢測(cè)模型中使用。輕量型的注意力模塊在略微增加參數(shù)量和運(yùn)算復(fù)雜度的前提下提高模型的檢測(cè)精度,適合在模型中嵌入使用。Hu等[12]提出通道注意力(Sequeeze-and-Excitation,SE)模塊,針對(duì)通道關(guān)系進(jìn)行建模,使用全局池化,避免普通卷積在通道關(guān)系特征提取上的信息丟失,增強(qiáng)模型對(duì)輸入數(shù)據(jù)通道信息的敏感度,使模型在分類(lèi)任務(wù)中有更好的表現(xiàn),但是在全局池化編碼通道信息的同時(shí),空間信息被壓縮為一維張量,這將導(dǎo)致空間信息的丟失。CBAM(Convolution Block Attention Module)[13]在SE注意力的基礎(chǔ)上增加空間特征的獲取,該注意力的處理方式是對(duì)經(jīng)過(guò)通道注意力模塊加權(quán)后的特征圖的所有通道進(jìn)行最大池化和平均池化,匯聚空間信息,再通過(guò)1×1卷積和Sigmod激活函數(shù)得到空間注意力特征,但在進(jìn)行卷積操作時(shí),也弱化了網(wǎng)絡(luò)對(duì)長(zhǎng)距離依賴(lài)關(guān)系的的學(xué)習(xí)能力。
大部分輕量級(jí)注意力模塊在構(gòu)筑時(shí),僅對(duì)通道關(guān)系進(jìn)行建模來(lái)重新權(quán)衡其重要性,忽略了位置信息。坐標(biāo)注意力[14]模塊由坐標(biāo)信息嵌入和坐標(biāo)注意力生成等2個(gè)部分組成,坐標(biāo)注意力結(jié)構(gòu)見(jiàn)圖3。
同樣的,第通道在寬度上的輸出為:
以上2種變換沿著水平方向和垂直方向聚合特征,得到一對(duì)方向感知的特征圖。這種轉(zhuǎn)換方式與SE模塊通過(guò)全局池化獲取單一特征向量不同。具體而言,坐標(biāo)注意力模塊更容易捕捉到沿著一個(gè)方向的長(zhǎng)期依賴(lài)關(guān)系,并保存另一方向上的位置信息,這正是缺陷檢測(cè)任務(wù)所需的。
為有效利用坐標(biāo)注意力嵌入中的式(1)和(2)得到的全局感受野與其位置信息的表征,設(shè)計(jì)坐標(biāo)注意力生成的過(guò)程。在完成信息嵌入后,該過(guò)程將得到的2個(gè)方向上的輸出進(jìn)行拼接,將拼接后的張量送入1×1的卷積函數(shù)1中進(jìn)行計(jì)算:
在缺陷檢測(cè)任務(wù)中,部分特征圖包含較多的背景信息,這使得常規(guī)卷積操作中產(chǎn)生大量重復(fù)的特征圖。冗余的中間特征映射對(duì)缺陷檢測(cè)的精度提升有限,同時(shí)增大對(duì)計(jì)算資源的消耗。
冗余的特征圖一般由常規(guī)卷積產(chǎn)生,針對(duì)缺陷數(shù)據(jù)集的特點(diǎn),使用Ghostnet模塊[15],減少模型參數(shù)量和計(jì)算復(fù)雜度,加快檢測(cè)速度。Ghostnet模塊結(jié)構(gòu)如圖4所示,Ghostnet卷積過(guò)程為以下3步。
1)常規(guī)卷積。首先使用普通卷積得到本征特征圖。卷積操作和運(yùn)算量表示為:
由于Ghost模塊中存在一個(gè)恒等映射過(guò)程,則線(xiàn)性運(yùn)算的數(shù)量和計(jì)算量分別為:
3)特征圖拼接。將本征特征圖和本征特征圖線(xiàn)性變換得到的特征圖拼接。
圖4 GhostNet模塊原理
Fig.4 Principle of GhostNet module
使用Ghostnet模塊作為Backbone網(wǎng)絡(luò)部分的卷積層,簡(jiǎn)化模型網(wǎng)絡(luò)的結(jié)構(gòu),減少模型的參數(shù)量和計(jì)算量,利于模型部署。
實(shí)驗(yàn)環(huán)境為Ubuntu16.04 LTS64位操作系統(tǒng)、Intel?Core?i9?7700HQCPU@3.7 GHz×10核CPU,GPU為QuadroRTX500016GB,所使用深度學(xué)習(xí)框架為PyTorch 1.7,cuda 10.2加速。
模型訓(xùn)練使用Adam優(yōu)化器,輸出圖片尺寸設(shè)置為640像素×640像素,Batchsize設(shè)置為16,總訓(xùn)練批次(epoch)為300,初始學(xué)習(xí)率為0.001。數(shù)據(jù)集中共2 276張圖像,包括5種缺陷和合格產(chǎn)品。將80%的數(shù)據(jù)集作為訓(xùn)練集,10%的數(shù)據(jù)集作為驗(yàn)證集,余下10%作為測(cè)試集。
模型訓(xùn)練使用的數(shù)據(jù)來(lái)自于MVTEC AD數(shù)據(jù)集[16],該數(shù)據(jù)集用于對(duì)常見(jiàn)的生活用品進(jìn)行缺陷檢測(cè),它包含超過(guò)5 000張高分辨率圖像,分為15個(gè)不同的對(duì)象和紋理類(lèi)別,文中選擇其中的膠囊缺陷數(shù)據(jù)集。圖片的分辨率為1 000像素×1 000像素,表面缺陷分別為印刷錯(cuò)誤、孔洞、劃痕、凹陷、裂紋。
原始數(shù)據(jù)集中的缺陷產(chǎn)品數(shù)據(jù)量為350張,合格產(chǎn)品數(shù)據(jù)量為219張,各類(lèi)缺陷數(shù)據(jù)在訓(xùn)練過(guò)程中容易被正樣本稀釋?zhuān)绊懩P蛯?duì)合格和缺陷2類(lèi)數(shù)據(jù)的檢測(cè)精度,因此,在訓(xùn)練前使用Opencv庫(kù)將缺陷數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),分別對(duì)缺陷數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、翻轉(zhuǎn)、對(duì)比度增強(qiáng)。經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的圖像見(jiàn)圖5。模型訓(xùn)練前對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng),是增強(qiáng)模型泛化能力,提高魯棒性的有效方法。
實(shí)驗(yàn)選用平均精度(Average Precision,AP)和平均精度均值(Mean Average Precison,mAP)作為評(píng)價(jià)指標(biāo),具體的公式為:
式中:P為被檢測(cè)為正類(lèi)的正類(lèi);P為被檢測(cè)為正類(lèi)的負(fù)類(lèi);N為被檢測(cè)為負(fù)類(lèi)的正類(lèi)。平均精度由P–R曲線(xiàn)下的面積表示,平均精度均值由平均精度和總類(lèi)別數(shù)的比值得到。
圖5 數(shù)據(jù)增強(qiáng)
文中在YOLOv5s網(wǎng)絡(luò)中加入坐標(biāo)注意力機(jī)制和Ghost模塊對(duì)其進(jìn)行改進(jìn),經(jīng)過(guò)300輪訓(xùn)練,各模型的平均精度均值見(jiàn)圖9,可以看到文中模型的收斂速度要快于其他3個(gè)模型,通過(guò)消融實(shí)驗(yàn)對(duì)2種模塊在藥用膠囊表面缺陷數(shù)據(jù)集上進(jìn)行驗(yàn)證[15],分別對(duì)比兩模塊對(duì)模型網(wǎng)絡(luò)的影響。
表1 2種方法的消融實(shí)驗(yàn)分析
Tab.1 Analysis of ablation experiments of two methods
如表1所示,嵌入坐標(biāo)注意力模塊和替換普通卷積為Ghost卷積后,參數(shù)量大幅下降的同時(shí),檢測(cè)精度提升。在嵌入坐標(biāo)注意力模塊時(shí),平均精度均值提高了0.6%;替換常規(guī)卷積為Ghost卷積時(shí),參數(shù)量下降了52.8%,平均精度均值僅下降了0.1%。通過(guò)嵌入坐標(biāo)注意力模塊,增強(qiáng)了YOLOv5模型網(wǎng)絡(luò)對(duì)位置特征的獲取能力,通過(guò)替換普通卷積為Ghost卷積,減少了重復(fù)的特征信息,模型參數(shù)量減少為原先的57%。實(shí)驗(yàn)數(shù)據(jù)表明,同時(shí)使用2種模塊,平均精度均值提升了1.6%,參數(shù)量下降了42.8%,達(dá)到輕量化模型和提升檢測(cè)精度的目的。
為更好地驗(yàn)證改進(jìn)后YOLOv5網(wǎng)絡(luò)性能,在實(shí)驗(yàn)配置不變的條件下,分別在YOLOv4、Faster RCNN、SSD模型對(duì)相同數(shù)據(jù)集進(jìn)行訓(xùn)練與推理,表2為各模型在相同數(shù)據(jù)集下的表現(xiàn)。
圖6 檢測(cè)效果
表2 各模型在數(shù)據(jù)集上的結(jié)果
Tab.2 Results of each model on dataset
由表2可知,輕量化模型后的平均精度均值達(dá)到96.9%,對(duì)比YOLOv4、Faster RCNN和SSD提升了2.0%、10.1%、14.4%,且改進(jìn)后模型在推理速度上高達(dá)80幀/s,也優(yōu)于其他3個(gè)模型,較其他3個(gè)模型分別提升了27、33、41幀/s,實(shí)驗(yàn)證明輕量化后的YOLOv5網(wǎng)絡(luò)優(yōu)于YOLOv4、Faster RCNN和SSD等3種網(wǎng)絡(luò)。
文中針對(duì)藥用膠囊表面缺陷在生產(chǎn)過(guò)程的自動(dòng)化檢測(cè),提出了一種YOLOv5–GhostNet–CA輕量級(jí)網(wǎng)絡(luò)模型。其中,通過(guò)融合注意力機(jī)制,結(jié)合GhostNet模塊,使特征圖中的空間位置特征更容易被獲取。在數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明,文中的模型在參數(shù)量大幅下降的基礎(chǔ)上,提高了缺陷檢測(cè)的準(zhǔn)確率,可達(dá)96.9%;縮短模型推理時(shí)間,在檢測(cè)的實(shí)時(shí)性上可滿(mǎn)足工業(yè)缺陷檢測(cè)的需求;模型尺寸減小,更容易部署至邊緣計(jì)算設(shè)備。提高檢測(cè)精度、降低模型的參數(shù)量、增強(qiáng)網(wǎng)絡(luò)的泛化能力依舊是未來(lái)工業(yè)缺陷檢測(cè)的重點(diǎn)。
[1] KEKRE H B, MISHRA D, DESAI V. Detection of Defective Pharmaceutical Capsules and Its Types of Defect Using Image Processing Techniques[C]// 2014 International Conference on Circuits, Power and Computing Technologies, Nagercoil, India, 2014: 1190-1195.
[2] 賴(lài)大虎, 黃宴委. 基于極端學(xué)習(xí)機(jī)的膠囊缺陷檢測(cè)[J]. 福州大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 40(4): 489-494.
LAI Da-hu, HUANG Yan-wei. Inspection for Defected Capsules Based on Extreme Learning Machine[J]. Journal of Fuzhou University (Natural Science Edition), 2012, 40(4): 489-494.
[3] QI Dan-yang, JIANG Zheng. Capsule Defects Classification Based on Hierarchical Support Vector Machines[J]. Advanced Materials Research, 2014, 926-930: 3373-3378.
[4] ZHOU Jun-lin, HE Jiao, LI Guo-li, et al. Identifying Capsule Defect Based on an Improved Convolutional Neural Network[J]. Shock and Vibration, 2020, 2020: 8887723.
[5] LIU R, GU Q, WANG X, et al. Region-Convolutional Neural Network for Detecting Capsule Surface Defects[J]. Boletin Tecnico/Technical Bulletin, 2017, 55(3): 92-100.
[6] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, IEEE Recognition, 2016: 779—788.
[7] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI, USA, 2017: 6517-6525.
[8] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[R/OL]. (2020)[2021-03-14]. http://arxiv.org/pdf/ 2004.10934.
[9] TSOTSOS J K, CULHANE S M, KEI WAI W Y, et al. Modeling Visual Attention via Selective Tuning[J]. Artificial Intelligence, 1995, 78(1/2): 507-545.
[10] 孫劉杰, 張煜森, 王文舉, 等. 基于注意力機(jī)制的輕量級(jí)RGB?D圖像語(yǔ)義分割網(wǎng)絡(luò)[J]. 包裝工程, 2022, 43(3): 264-273.
SUN Liu-jie, ZHANG Yu-sen, WANG Wen-ju, et al. Lightweight Semantic Segmentation Network for RGB-D Image Based on Attention Mechanism[J]. Packaging Engineering, 2022, 43(3): 264-273.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You Need[C]// Advances in Neural Information Processing System, 2017: 5998-6008
[12] HU Jie, SHEN Li, ALBANIE S, et al. Squeeze-and- Excitation Networks[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence: 2011-2023.
[13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[14] HOU Qi-bin, ZHOU Da-quan, FENG Jia-shi. Coordinate attention for efficient mobile network design[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA. IEEE, 2021: 13708-13717.
[15] HAN Kai, WANG Yun-he, TIAN Qi, et al. GhostNet: More Features from Cheap Operations[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA. IEEE, 2020: 1577-1586.
[16] BERGMANN P, BATZNER K, FAUSER M, et al. The MVTec Anomaly Detection Dataset: A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection[J]. International Journal of Computer Vision, 2021, 129(4): 1038-1059.
Surface Defect Detection Method for Pharmaceutical Capsules Based on Modified YOLOv5
WU Ze-kun,YE Xiao-xian,CHEN Meng
(School of Art and Design, Shanghai University of Engineering Science, Shanghai 201620, China)
The work aims to detect the surface defects of pharmaceutical hollow capsules in quality inspection accurately and quickly. Based on YOLOv5 algorithm and aiming at the problems of large amount of model network parameters and weak learning ability of long-distance dependence, GhostNet module and Coordinate attention mechanism were introduced into the backbone network to make the network effectively capture the relationship between data location information and channel information. The experimental results showed that the improved network structure could accurately detect five kinds of defects such as damage, printing error, hole, scratch and depression on the surface of pharmaceutical capsule on the premise of decreasing to 57% of the original parameters. The average accuracy of each defect was 96.9%, which was increased by 2.4 percentage points. The detection speed was increased by 12 FPS. The proposed method can effectively classify and locate the surface defects of pharmaceutical capsules, and improve the accuracy of defect detection.
YOLOv5; pharmaceutical capsules; defect detection; attention mechanism; GhostNet
TB487
A
1001-3563(2022)23-0297-08
10.19554/j.cnki.1001-3563.2022.23.035
2022–04–24
武澤坤(1997—),男,碩士生,主攻計(jì)算機(jī)視覺(jué)。
葉曉嫻(1984—),女,博士,教授,主要研究方向?yàn)橛跋駲n案修復(fù)、視覺(jué)與媒體設(shè)計(jì)等。
責(zé)任編輯:曾鈺嬋