王 一,馬鉦東,董光林
(華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063200)
隨著工業(yè)4.0 的快速發(fā)展,“中國(guó)制造2025”被提出,我國(guó)工業(yè)生產(chǎn)自動(dòng)化得到飛速發(fā)展,現(xiàn)代化工廠應(yīng)運(yùn)而生,其中對(duì)裝配零件的識(shí)別和分類成為工業(yè)生產(chǎn)流程中一個(gè)常見(jiàn)的工作項(xiàng)目,各式各樣的工業(yè)分揀機(jī)器人成為現(xiàn)代化工廠中非常重要的組成部分。在自動(dòng)化的裝配零件分揀流水線中,對(duì)裝配零件進(jìn)行匹配和識(shí)別定位是工業(yè)分揀機(jī)器人的核心模塊之一,能否對(duì)裝配零件進(jìn)行精確的匹配和識(shí)別,對(duì)推進(jìn)生產(chǎn)自動(dòng)化有著重要的意義[1]。傳統(tǒng)的零件匹配和識(shí)別算法有基于圖像分割、形狀匹配、特征分析、決策分類、多傳感器信息融合、雙目立體視覺(jué)等方法[2-4],例如采用圖像色彩增強(qiáng)的方法[5]、基于圖像分割結(jié)合形狀特征匹配的方法[6]、基于支持向量機(jī)((support vector machines,SVM)和組合矩的識(shí)別算法[7],還有基于角點(diǎn)檢測(cè)和霍夫變換的識(shí)別算法[8]。然而在實(shí)際的工廠操作環(huán)境當(dāng)中,待識(shí)別和分類的零件往往會(huì)受到相互之間遮擋、光線強(qiáng)度等因素的影響,從而導(dǎo)致傳統(tǒng)算法魯棒性低,在提取圖像特征的時(shí)候會(huì)受到很大的干擾,導(dǎo)致物體匹配識(shí)別失敗,誤識(shí)別率較高,從而影響工廠下一步的進(jìn)程,降低工作效率。
近年來(lái),隨著GPU 性能的不斷發(fā)展升級(jí),深度學(xué)習(xí)相關(guān)技術(shù)得到迅猛發(fā)展,越來(lái)越多的科研人員把深度學(xué)習(xí)方法應(yīng)用到物體分類、語(yǔ)音識(shí)別、目標(biāo)檢測(cè)和定位、圖像分割和檢測(cè)等很多傳統(tǒng)機(jī)器視覺(jué)難以實(shí)現(xiàn)的復(fù)雜場(chǎng)景中,并且取得了非常精確的實(shí)驗(yàn)結(jié)果。深度學(xué)習(xí)主要包括兩類算法:1)基于回歸算法系列,如YOLO、SSD 等;2)基于區(qū)域建議系列,如RCNN、Fast RCNN、Faster RCNN等。2006年,Hinton 等[9]通過(guò)CNN 從數(shù)據(jù)中提取圖片特征。2012年,Krizhevsky 團(tuán)隊(duì)[10]第一次在CNN 中加入AlexNet,提出了CNN AlexNet,使得人們對(duì)CNN 的應(yīng)用有了進(jìn)一步的了解。Girshick 等[11]提出了RCNN 模型,RCNN 使用選擇性搜索選擇候選框,使用多個(gè)支持向量機(jī)對(duì)特征分類,最終實(shí)現(xiàn)目標(biāo)檢測(cè)。2015年,Girshick[12]提出了Fast RCNN,他采用了ROI(region of interest)Pooling 來(lái)共享特征區(qū)域,提升模型工作效率。隨著Fast RCNN 的廣泛使用,科研人員發(fā)現(xiàn)該模型在提取特征區(qū)域時(shí)所耗時(shí)間較長(zhǎng),于是Ren 等[13]在Fast RCNN 的基礎(chǔ)上稍做改進(jìn),引入RPN(region proposal network)網(wǎng)絡(luò),設(shè)計(jì)一個(gè)3×3 滑動(dòng)窗口對(duì)輸入特征圖進(jìn)行卷積操作并生成候選區(qū)域,提出了Faster RCNN,該模型較原有模型在精確和速度方面都有較大的提升。
本文提出了一種改進(jìn)的Faster RCNN 零件識(shí)別檢測(cè)算法。通過(guò)對(duì)比VGG-16 和ResNet-101 兩種不同的特征提取網(wǎng)絡(luò),發(fā)現(xiàn)ResNet-101 網(wǎng)絡(luò)的檢測(cè)精度和召回率要優(yōu)于VGG16,綜合考慮后使用ResNet101 作為改進(jìn)模型的特征提取網(wǎng)絡(luò);增加錨點(diǎn)的數(shù)量,同時(shí)給候選框設(shè)置新的縱橫比來(lái)更好地檢測(cè)較小目標(biāo);最后使用ROI Align 算法代替原有模型中的ROI Pooling 算法。結(jié)果表明改進(jìn)后的模型可以更準(zhǔn)確地識(shí)別受到遮擋、光照等因素影響的裝配零件。
當(dāng)前主流目標(biāo)檢測(cè)算法大多都是基于CNN 構(gòu)建,RCNN 和Fast RCNN 都采用SS(selective search)[14]方法來(lái)確定目標(biāo)候選框,該方法在現(xiàn)實(shí)運(yùn)行中耗時(shí)較長(zhǎng),效率較低。2016年,為了提高目標(biāo)檢測(cè)的效率和實(shí)時(shí)性,Girshick 團(tuán)隊(duì)首次在Faster RCNN引入了RPN,減少了Fast RCNN 在候選區(qū)域提取的時(shí)間。
Faster RCNN 的基本結(jié)構(gòu)如圖1所示[13]。其網(wǎng)絡(luò)結(jié)構(gòu)主要包括4 個(gè)部分:卷積層、區(qū)域建議網(wǎng)絡(luò)(RPN)、ROI 池化層、分類和回歸。
圖1 Faster RCNN 結(jié)構(gòu)圖Fig.1 Structure diagram of Faster RCNN
1.1.1 VGG16
VGG16 算法模型含有13 個(gè)卷積層、3 個(gè)全連接層、5 個(gè)池化層,因?yàn)槠渲械木矸e層和全連接層含有權(quán)重系數(shù),所以也把他們稱為權(quán)重層,其總數(shù)為13+3=16,因此16 也就是VGG16 中16 的來(lái)源。圖2 為VGG16 算法模型圖。
圖2 VGG16 算法模型圖Fig.2 Algorithm model diagram of VGG16
1.1.2 ResNet101
殘差ResNet 網(wǎng)絡(luò)于2015年由微軟研究院何愷明等人提出,并在ImageNet 比賽的分類任務(wù)中獲得第1 名。隨著深度學(xué)習(xí)研究的不斷發(fā)展,在許多數(shù)據(jù)庫(kù)中存在一些共性問(wèn)題:各種網(wǎng)絡(luò)的層數(shù)不斷加深,出現(xiàn)了訓(xùn)練集訓(xùn)練結(jié)果準(zhǔn)確度下降的現(xiàn)象,發(fā)生梯度彌散或者梯度爆炸,產(chǎn)生退化問(wèn)題。為解決退化問(wèn)題,ResNet[15]利用深度殘差網(wǎng)絡(luò)解決了網(wǎng)絡(luò)層數(shù)加深而帶來(lái)的梯度彌散現(xiàn)象。殘差網(wǎng)絡(luò)使用了一種叫shortcut connection 的連接方式,把輸入直接傳到輸出作為初始結(jié)果,當(dāng)輸入為x時(shí)網(wǎng)絡(luò)學(xué)習(xí)到的特征記為H(x),于是希望得到F(x)=H(x)?x的結(jié)果,那么只需要F(x)=0,就得到一個(gè)恒等映射函數(shù)H(x)=x。這樣實(shí)際殘差并不會(huì)為0,同時(shí)網(wǎng)絡(luò)也會(huì)在輸入特征圖像的基礎(chǔ)上學(xué)習(xí)到新的特征。圖3 為殘差學(xué)習(xí)結(jié)構(gòu)圖,表1 為ResNet101 網(wǎng)絡(luò)參數(shù)表。
圖3 殘差學(xué)習(xí)結(jié)構(gòu)圖Fig.3 Structure diagram of residual learning
表1 ResNet101 網(wǎng)絡(luò)參數(shù)表Table 1 ResNet101 network parameters
由于傳統(tǒng)機(jī)器視覺(jué)生成候選區(qū)域的方法非常耗時(shí),難以達(dá)到檢測(cè)實(shí)時(shí)性的要求,微軟Ren 等人提出了一種區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)來(lái)生成候選區(qū)域。相比于之前的選擇性搜索(selective search,SS)方法在檢測(cè)圖片生成候選區(qū)域大約需要2 s~4 s 來(lái)說(shuō),通過(guò)RPN 方法檢測(cè)區(qū)域,可以更快地生成候選區(qū)域,大大減少檢測(cè)區(qū)域生成的時(shí)間,提高了效率。
RPN 的網(wǎng)絡(luò)結(jié)構(gòu)是一種典型的全卷積結(jié)構(gòu)。卷積層和激活層構(gòu)成了整個(gè)RPN 網(wǎng)絡(luò)模型,為了減少訓(xùn)練時(shí)間,提高效率,RPN 舍棄了全連接層,實(shí)現(xiàn)了端到端的檢測(cè)。因?yàn)槭侨矸e結(jié)構(gòu),所以它的輸入可以是任意大小的特征圖,最終輸出一系列矩形框,即為候選框。首先,使用n×n大小的滑動(dòng)窗口卷積核在所得到的特征圖上的每個(gè)點(diǎn)進(jìn)行初始窗口滑動(dòng)操作。每個(gè)滑動(dòng)窗口會(huì)生成不同尺度、不同長(zhǎng)寬比錨點(diǎn)(anchor)作為初始檢測(cè)區(qū)域,用于每一個(gè)特征點(diǎn)的檢測(cè)。這些錨點(diǎn)的尺寸選用128×128 pixel、256×256 pixel、512×512 pixel 3 種,并同時(shí)搭配{1∶1,1∶2,2∶1}這3 種縱橫比,即可得到9 種不同的候選框。若使用1 張l×h大小的卷積特征圖,則可以得到l×h×9 個(gè)錨點(diǎn),進(jìn)而會(huì)在輸入原始圖像上生成大小尺寸不同的候選框,從而實(shí)現(xiàn)多尺度檢測(cè)。最初產(chǎn)生的錨點(diǎn)框不是很精確,在3×3 的卷積操作之后,接著進(jìn)行兩條線的1×1 卷積操作,其中一條線輸出利用Softmax分類網(wǎng)絡(luò)函數(shù)得到錨點(diǎn)框是前景還是背景的概率,進(jìn)一步篩選候選區(qū)域;另外一條線為回歸偏移量的計(jì)算,對(duì)得到的前景候選框進(jìn)行回歸計(jì)算,剔除一些誤差較大的候選框區(qū)域,得到得分較高的候選區(qū)域。由于RPN 的訓(xùn)練網(wǎng)絡(luò)采用的是end-toend 方式,在訓(xùn)練過(guò)程中會(huì)產(chǎn)生大量的候選框,例如,800×600 pixel 的原始圖像經(jīng)過(guò)特征網(wǎng)絡(luò)的處理可得到800×600 pixel 的特征圖,由于設(shè)置了9 種不同大小的錨點(diǎn),會(huì)生成800×600×9 個(gè)候選框,在這些大量的候選框中往往存在候選框的重疊現(xiàn)象,故使用非極大值抑制(NMS)來(lái)去除多余的候選區(qū)域。因此,RPN 網(wǎng)絡(luò)的實(shí)際作用是對(duì)所要檢測(cè)目標(biāo)進(jìn)行初步定位,其結(jié)構(gòu)如圖4所示。
圖4 RPN 原始結(jié)構(gòu)圖Fig.4 Original structure diagram of RPN
為了讓Faster RCNN 網(wǎng)絡(luò)在工件檢測(cè)中表現(xiàn)出更好的精度并克服工件遮擋、光照等影響,本文使用ResNet101 殘差特征網(wǎng)絡(luò)替代原始Faster RCNN 中的VGG16 特征提取網(wǎng)絡(luò),同時(shí)增加錨點(diǎn)數(shù)量,使用Soft-NMS 算法替換原有的NMS 算法,最后采用多尺度訓(xùn)練策略對(duì)模型進(jìn)行訓(xùn)練。
1.3.1 特征網(wǎng)絡(luò)的改進(jìn)
Faster RCNN 模型的原始特征提取網(wǎng)絡(luò)是VGG16,VGG16 算法模型含有13 個(gè)卷積層、3 個(gè)全連接層、5 個(gè)池化層,通過(guò)多次卷積和池化操作生成特征圖。通過(guò)大量不同數(shù)據(jù)集的實(shí)驗(yàn)發(fā)現(xiàn),使用VGG16 特征提取網(wǎng)絡(luò)的Faster RCNN 模型,隨著卷積層的加深,實(shí)驗(yàn)所得的結(jié)果精度有所下降,這正是因模型的退化所導(dǎo)致。為比較VGG16和ResNet101 之間檢測(cè)精確的優(yōu)劣,分別對(duì)兩種特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。因?yàn)镮mageNet 數(shù)據(jù)集包含圖像種類很多,所以選用ImageNet 分類數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,由表2 選擇精度更高的網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)。由表2 可知,VGG16 網(wǎng)絡(luò)的檢測(cè)召回率和準(zhǔn)確率分別為90.3%和94.5%,單張檢測(cè)時(shí)間為0.47 s;ResNet101網(wǎng)絡(luò)的檢測(cè)召回率和準(zhǔn)確率分別為91.8%和96.3%,單張檢測(cè)時(shí)間為0.4 s,發(fā)現(xiàn)ResNet101 的召回率和準(zhǔn)確率檢測(cè)效果明顯優(yōu)于VGG16。這是因?yàn)镽esNet101 特征提取網(wǎng)絡(luò)中引入了殘差學(xué)習(xí),殘差學(xué)習(xí)中加入了很多跳躍連接,從而在訓(xùn)練深層次網(wǎng)絡(luò)的同時(shí)保留了圖像的更多特征。殘差學(xué)習(xí)把原來(lái)的輸出特征H(x)變成了F(x)=H(x)?x,解決了原有特征網(wǎng)絡(luò)因?yàn)榫矸e層數(shù)太多而導(dǎo)致梯度下降的問(wèn)題,提高了檢測(cè)的準(zhǔn)確率。因此,本文選用ResNet101 作為工件的特征提取網(wǎng)絡(luò)。
表2 特征檢測(cè)網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比Table 2 Experimental comparison of feature detection network
1.3.2 改進(jìn)的RP N
在Faster RCNN 模型中RPN 是非常重要的一部分,其中的錨點(diǎn)數(shù)量是RPN 網(wǎng)絡(luò)中的一個(gè)極其重要的超參數(shù),它的數(shù)量的多少會(huì)直接影響后面候選區(qū)域的生成。原始Faster RCNN 使用9 種不同種類的錨點(diǎn),每個(gè)滑動(dòng)窗口會(huì)產(chǎn)生9 個(gè)不同尺度、不同長(zhǎng)寬比的候選區(qū)域,最后對(duì)整張圖片產(chǎn)生的候選區(qū)域使用非極大值抑制算法剔除多余的候選區(qū)域。原始模型默認(rèn)設(shè)置的錨點(diǎn)對(duì)有些小目標(biāo)無(wú)法實(shí)現(xiàn)召回,所以本文在原始模型默認(rèn)的基礎(chǔ)上,添加兩組32×32 pixel 和64×64 pixel 的錨點(diǎn),這樣可使所用網(wǎng)絡(luò)更好地檢測(cè)較小目標(biāo),并在訓(xùn)練過(guò)程中將錨點(diǎn)的長(zhǎng)寬比設(shè)置為1∶1、1∶1.5、3∶1,尺度大小分別為32×32 pixel、64×64 pixel、128×128 pixel、256×256 pixel、512×512 pixel,這樣RPN 網(wǎng)絡(luò)一共可以得到15 種不同尺度和縱橫比的錨點(diǎn)樣式。實(shí)驗(yàn)證明本文增加的32×32 pixel 和64×64 pixel 尺度和重新設(shè)置的縱橫比可以更加準(zhǔn)確地檢測(cè)到較小目標(biāo)。
1.3.3 非極大值抑制算法的改進(jìn)
非極大值抑制(NMS)是目標(biāo)檢測(cè)算法中非常重要的部分,其目的是消除多余的重復(fù)框,找到最佳目標(biāo)位置。NMS 首先把所有的檢測(cè)框按照得分進(jìn)行排序并找到最大得分的檢測(cè)框,然后計(jì)算所有檢測(cè)框與最大得分檢測(cè)框的重疊度并直接刪除與該框重疊度大于閾值的框,接著再選擇一個(gè)沒(méi)有和得分最高框重疊的且未被處理的框,重復(fù)上述操作。傳統(tǒng)NMS 操作表達(dá)式如下式所示:
式中:Si為第i個(gè)檢測(cè)框的得分;M為得分最大的候選框;bi為第i個(gè)待檢測(cè)框;Nt為設(shè)定的閾值;IOU為bi和M的交并比。
NMS 的最大缺點(diǎn)是,當(dāng)檢測(cè)框bi和置信度最大框M的交并比大于設(shè)定閾值(本文閾值的設(shè)定根據(jù)原有模型來(lái)設(shè)定)時(shí),檢測(cè)框?qū)⒈恢苯觿h除。如圖5(a)所示,當(dāng)圖中2 個(gè)杯子出現(xiàn)遮擋時(shí),NMS只會(huì)保留得分最高的右側(cè)紅色候選框,只能檢測(cè)到黑色杯子,導(dǎo)致銀色杯子漏檢。為了解決目標(biāo)漏檢問(wèn)題,本文使用Soft-NMS 算法代替NMS 算法。Soft-NMS 算法并不會(huì)直接刪除得分較低的臨近候選框,而是根據(jù)得分遞歸的結(jié)果重新進(jìn)行評(píng)分,當(dāng)同類別的檢測(cè)目標(biāo)發(fā)生重疊時(shí)就不會(huì)對(duì)預(yù)測(cè)框進(jìn)行誤刪,如圖5(b)所示。
圖5 NMS 算法和Soft-NMS 對(duì)比圖Fig.5 Comparison of NMS algorithm and Soft-NMS algorithm
Soft-NMS 分?jǐn)?shù)重置函數(shù)表示如下:
最終改進(jìn)后模型結(jié)構(gòu)圖如圖6所示。
圖6 改進(jìn)后模型結(jié)構(gòu)圖Fig.6 Structure diagram of improved model
1.3.4 多尺度訓(xùn)練策略
在實(shí)際場(chǎng)景當(dāng)中,所檢測(cè)工件大小不一,尺度上存在差異,原始Faster RCNN 模型通常會(huì)對(duì)所有訓(xùn)練的數(shù)據(jù)集圖片采用單一恒定的尺寸,在這種情況下對(duì)圖片中較小的工件目標(biāo)會(huì)出現(xiàn)漏檢,從而導(dǎo)致訓(xùn)練效果不佳。為了讓網(wǎng)絡(luò)模型在測(cè)試時(shí)降低漏檢率,提高測(cè)試精度,本文采用多尺度方式訓(xùn)練,設(shè)置400 pixel、600 pixel、800 pixel 3 種尺度。在訓(xùn)練時(shí),每張數(shù)據(jù)集圖片會(huì)隨機(jī)分配到1 種尺度以輸入訓(xùn)練網(wǎng)絡(luò),從而使訓(xùn)練得到模型的特征范圍更廣。實(shí)驗(yàn)表明,使用多尺度訓(xùn)練可以有效降低工件漏檢率,提高工件檢測(cè)的準(zhǔn)確率,讓訓(xùn)練得到的模型具有一定的魯棒性。
由于沒(méi)有發(fā)現(xiàn)關(guān)于裝配零件的公開(kāi)數(shù)據(jù)集,所以本文通過(guò)網(wǎng)絡(luò)搜集和自行拍攝采集圖像等方式共獲得圖像1 400 張。為了進(jìn)一步擴(kuò)大數(shù)據(jù)集,提高訓(xùn)練精度,將收集到的1 400 張圖像利用反轉(zhuǎn)、平移、拉伸等方式來(lái)實(shí)現(xiàn)數(shù)據(jù)集的擴(kuò)充,然后對(duì)經(jīng)過(guò)擴(kuò)充后的數(shù)據(jù)集進(jìn)行篩選,去除一些圖像質(zhì)量極差的圖片,最終經(jīng)整理得到3 400 張。
在準(zhǔn)備好數(shù)據(jù)集后,對(duì)數(shù)據(jù)集中需要識(shí)別的目標(biāo)進(jìn)行標(biāo)注,本文采用labeling 軟件對(duì)零件圖像進(jìn)行手動(dòng)標(biāo)注,利用軟件自帶的矩形標(biāo)注框框出所需要識(shí)別的零件,并對(duì)框選的零件進(jìn)行命名。需要標(biāo)注的零件有3 類:螺絲(ls)、螺母(lm)、墊片(dp)。labeling 軟件標(biāo)注圖如圖7(a)、7(b)、7(c)、7(d)所示。
圖7 數(shù)據(jù)集標(biāo)注圖Fig.7 Annotation diagram of data set
本文實(shí)驗(yàn)的硬件設(shè)備和參數(shù)設(shè)置如下:Windows 1 064 位操作系統(tǒng),16 G 運(yùn)行內(nèi)存,處理器為Intel(R)Core(TM)i7-6700HQ 2.60 GHz,GPU 為RTX2070,實(shí)驗(yàn)使用的深度學(xué)習(xí)框架為Tensorflow1.4,使用Python 編程語(yǔ)言版本為Python3.6,拍攝數(shù)據(jù)集的相機(jī)為尼康D7500,鏡頭為AF-S DX 尼克爾18 mm~200 mmf/3.5-5.6G ED VR II 鏡頭。實(shí)驗(yàn)使用的數(shù)據(jù)集為網(wǎng)上收集和自己拍攝所獲得,整個(gè)數(shù)據(jù)集一共有3 400 張圖片,選擇其中的3 000 張圖片作為訓(xùn)練集,剩下的400 張圖片作為驗(yàn)證集。經(jīng)過(guò)對(duì)不同工件的手動(dòng)標(biāo)注后,將所有數(shù)據(jù)集轉(zhuǎn)換為VOC2007的格式進(jìn)行訓(xùn)練。
為了評(píng)價(jià)本文改進(jìn)的Faster RCNN 模型在工件檢測(cè)中的準(zhǔn)確度和有效性,采用精確度(precision)和召回率(recall)作為評(píng)價(jià)指標(biāo),如下式所示:
式中:TP 為網(wǎng)絡(luò)中預(yù)測(cè)為正值的正樣本;FP 為網(wǎng)絡(luò)中預(yù)測(cè)為負(fù)值的正樣本;FN 為網(wǎng)絡(luò)中預(yù)測(cè)為負(fù)值的負(fù)樣本[16]。
實(shí)驗(yàn)1,為了檢驗(yàn)ResNet101 特征提取網(wǎng)絡(luò)的檢測(cè)效果,本部分實(shí)驗(yàn)設(shè)計(jì)了4 種特征網(wǎng)絡(luò)的實(shí)驗(yàn)作為對(duì)比,分別使用VGG16、ZF-NET、ResNet50、ResNet101 作為模型的特征提取網(wǎng)絡(luò)。為了保持實(shí)驗(yàn)的公平性,本部分實(shí)驗(yàn)除了使用的特征網(wǎng)絡(luò)不同之外,其他參數(shù)都保持一致,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同特征網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)Table 3 Experimental comparison of networks with different characteristics
實(shí)驗(yàn)2,進(jìn)一步驗(yàn)證本文模型改進(jìn)的有效性,使用不同策略對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)結(jié)果如表4所示。策略1 為原始Faster RCNN 模型,對(duì)本文工件檢測(cè)的準(zhǔn)確率為90.5%,對(duì)比策略2 可發(fā)現(xiàn),ResNet101 中加入的殘差網(wǎng)絡(luò)解決了網(wǎng)絡(luò)過(guò)深帶來(lái)的模型退化問(wèn)題,檢測(cè)準(zhǔn)確度提高了1.1%;通過(guò)觀察策略2 到策略5 可知,當(dāng)使用單個(gè)改進(jìn)策略測(cè)試時(shí),單個(gè)策略改進(jìn)后的模型召回率和準(zhǔn)確率提升較??;當(dāng)使用全部改進(jìn)策略之后,最終的檢測(cè)模型準(zhǔn)確率和召回率分別為96.3%和92.8%,較最初模型提高了5.8%和4.6%。
表4 不同策略的模型測(cè)試效果Table 4 Model test results of different strategies
實(shí)驗(yàn)3,把SSD、YOLOv3、Faster RCNN 和本文改進(jìn)的方法進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示。從表5 可以發(fā)現(xiàn),原始Faster RCNN 和YOLOv3識(shí)別的準(zhǔn)確率和召回率的結(jié)果比較相近,改進(jìn)后Faster RCNN 較原始模型在準(zhǔn)確率和召回率上分別提高了4.6%和3.9%,YOLOv3 雖然在檢測(cè)時(shí)間上優(yōu)于改進(jìn)后的模型,但準(zhǔn)確度沒(méi)有改進(jìn)后的模型高。由于本文方法增加了兩組新的錨點(diǎn),所以識(shí)別時(shí)間較原來(lái)Faster RCNN 檢測(cè)時(shí)間略有增加。
表5 不同模型實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different models
最后,使用本文改進(jìn)的模型對(duì)部分工件圖像進(jìn)行檢測(cè),這些圖像中存在著零件之間相互遮擋、零件姿態(tài)不同、受光線影響、較小零件的檢測(cè)等情況,測(cè)試結(jié)果如圖8所示。由圖8(a)可以發(fā)現(xiàn),即使零件之間存在堆疊和遮擋的情況,本文的模型也可以很好地檢測(cè)識(shí)別出來(lái),且有較高的準(zhǔn)確率;由圖8(b)可以看出,當(dāng)零件處于不同姿態(tài)時(shí)(平放和站立),本文模型有很好的檢測(cè)結(jié)果,當(dāng)生產(chǎn)流水線中遇到擺放不齊的零件時(shí),此算法能夠得到很好的應(yīng)用;由圖8(c)可以發(fā)現(xiàn),當(dāng)零件遇到強(qiáng)光照射并且存在水滴干擾時(shí),改進(jìn)的模型仍然可以很好地適應(yīng)外部干擾并進(jìn)行檢測(cè)識(shí)別;由圖8(d)可以看出,對(duì)于較小尺寸的零件(本文選用直徑5 mm 的螺母),本文的改進(jìn)模型也可以很好地檢測(cè)出來(lái),有良好的識(shí)別效果。
圖8 測(cè)試結(jié)果圖Fig.8 Diagram of test results
針對(duì)工業(yè)生產(chǎn)中裝配零件的檢測(cè)識(shí)別準(zhǔn)確率的問(wèn)題,本文提出了一種改進(jìn)的Faster RCNN的零件識(shí)別模型,首先利用ResNet101 作為特征提取網(wǎng)絡(luò)代替原有的VGG16 特征提取網(wǎng)絡(luò),增加不同尺度的錨點(diǎn),然后使用Soft-NMS 代替原有模型中的NMS 算法,最后使用多尺度策略訓(xùn)練模型,得到本文改進(jìn)后的Faster RCNN 模型。通過(guò)實(shí)驗(yàn)測(cè)試說(shuō)明,改進(jìn)后的模型有效解決了傳統(tǒng)檢測(cè)方法因受到零件之間相互遮擋和不同姿態(tài)、光線照射、小目標(biāo)等干擾而檢測(cè)識(shí)別魯棒性差的問(wèn)題,達(dá)到了更好的識(shí)別效果,較原有模型檢測(cè)精度更高。本文所提出的改進(jìn)的Faster RCNN 零件識(shí)別模型,具有較高的準(zhǔn)確率,可以對(duì)裝配零件進(jìn)行良好的識(shí)別和分類,為自動(dòng)化生產(chǎn)流水線中零件的自動(dòng)識(shí)別、智能分揀等環(huán)節(jié)提供了技術(shù)支持。接下來(lái)將進(jìn)一步優(yōu)化模型結(jié)構(gòu)以便獲得更加精確的零件識(shí)別率,同時(shí)適度減小網(wǎng)絡(luò)深度,縮短檢測(cè)時(shí)間,提高檢測(cè)速率。