亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)的YOLOv3的托盤檢測方法研究*

2021-08-27 07:35:42王平凱孫光澤朱芮萱

機(jī)電工程技術(shù) 2021年7期

王平凱，孫光澤，朱芮萱

（長春工業(yè)大學(xué)機(jī)電工程學(xué)院，長春 130012）

0 引言

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）是一種人工神經(jīng)網(wǎng)絡(luò)[1]，1998 年，LeCun[2]提出了第一個卷積神經(jīng)網(wǎng)絡(luò)模型LeNet，隨著Relu 和Dropout 的提出，以及GPU 和大數(shù)據(jù)帶來的歷史機(jī)遇，相繼誕生了AlexNet、VggNet、Gool?eNet、ResNet[3－6]。由于圖像數(shù)據(jù)可以看作二維的像素網(wǎng)格，卷積神經(jīng)網(wǎng)絡(luò)通過特殊的線性運(yùn)算可以處理圖像數(shù)據(jù)，因此常被應(yīng)用于圖像處理與目標(biāo)檢測。

目標(biāo)檢測目前有一階段（one－stage）和兩階段（two－stage）兩種方法，其中，一階段是指通過一遍網(wǎng)絡(luò)就可以得出目標(biāo)的位置和類別信息，常見的方法有括YOLO（you only look once）[7]、SSD（single shot multibox detector）[8]等。兩階段是指當(dāng)輸入圖片通過網(wǎng)絡(luò)后，會生成一些候選區(qū)域，這些區(qū)域可能會包含一個待檢測目標(biāo)，然后進(jìn)一步區(qū)分這些候選區(qū)域具體包含了哪些待檢測的目標(biāo)。常見的方法有R－CNN（region－conventional neural network）、Fast R－CNN、Faster R－CNN、Mask R－CNN 和SPP－net（spatial pyramid pool?ing－net）[9－12]。

基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法能夠快速準(zhǔn)確地定位到目標(biāo)，通過輔助設(shè)備能向人類用戶傳遞實(shí)時的場景信息。隨著物流業(yè)的蓬勃發(fā)展，智能化叉車不斷涌現(xiàn)，目標(biāo)檢測起了推動性的作用，除了基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法，還有傳統(tǒng)的檢測方法。J.Pagès等[13]介紹了一個完整的計(jì)算機(jī)視覺系統(tǒng)，提出了基于顏色和幾何特征的托盤識別方法。Mi?chael Seelinger等[14]提出了一種移動相機(jī)空間操作（MCSM）的視覺引導(dǎo)控制方法，將基準(zhǔn)放在托盤本身，實(shí)驗(yàn)的精度與速度都很高，但同時需要預(yù)先給托盤添加基準(zhǔn)和多攝像頭的高成本。Sungmin Byun等[15]提出了一種基于單目視覺的托盤定位方法，該方法快速、準(zhǔn)確，同時采用了攝像機(jī)標(biāo)定技術(shù)來確定托盤的位置。

為了更好地滿足實(shí)時檢測的工程應(yīng)用場景，本文采用YOLOv3 算法，其采用一個單獨(dú)的CNN 模型實(shí)現(xiàn)end－to－end的目標(biāo)檢測[2]，為了提高該算法對托盤檢測的平均精度與檢測速度，首先在YOLOv3算法的基礎(chǔ)上使用K－Means＋＋聚類算法重新聚類，得到新的適用于托盤檢測的先驗(yàn)框。其次引入了二元交叉熵?fù)p失函數(shù)對原有的損失函數(shù)進(jìn)行改進(jìn)，同時改進(jìn)了輸入圖像劃分網(wǎng)格的機(jī)制，引入了權(quán)重矩陣，通過數(shù)據(jù)增強(qiáng)的手段對采集到的圖像進(jìn)行擴(kuò)充。最后在本文制作的數(shù)據(jù)集上進(jìn)行訓(xùn)練以及測試，并與其他的目標(biāo)檢測算法進(jìn)行比較，結(jié)果表明改進(jìn)后的YOLOv3算法在平均精度以及速度上都有提升。

1 YOLOv3基本原理

YOLOv3將目標(biāo)檢測作為一個空間分離的邊界盒和相關(guān)類概率的回歸問題，單個神經(jīng)網(wǎng)絡(luò)可以在一次評估中直接從完整圖像中預(yù)測邊界框和類概率[7]。通過對輸入圖像的特征提取，得到一定大小的特征圖，然后將得倒的特征圖像劃分成S×S的網(wǎng)格，當(dāng)圖像中某個目標(biāo)的中心位置落入到其中的一個網(wǎng)格，那么該網(wǎng)格將會負(fù)責(zé)預(yù)測該目標(biāo)。每個網(wǎng)格都會預(yù)測B 個邊界框，該網(wǎng)絡(luò)會預(yù)測3 個固定數(shù)量的邊界框，通過K－means聚類得出9種尺寸的Anchor Box，分別為10×13、16×30、33×23、30×61、62×45、59×119、116×90、156×198、372×326。

在網(wǎng)絡(luò)中實(shí)際訓(xùn)練的參數(shù)為tx、ty、tw、th，其中tx、ty為預(yù)測的坐標(biāo)偏移值，tw、th為尺度縮放值。在先驗(yàn)框的基礎(chǔ)上通過平移加尺度縮放進(jìn)行微調(diào)，得到最終的邊界框坐標(biāo)值（x,y,w,h），分別表示檢測框的橫坐標(biāo)、縱坐標(biāo)、寬度和高度。Bounding Box 與Anchor Box的對應(yīng)關(guān)系如圖1所示。

圖1 Bounding Box 與Anchor Box的對應(yīng)關(guān)系

Bounding Box的坐標(biāo)計(jì)算公式為：

式中：bx、by、bw、bh分別為Bounding Box 的中心坐標(biāo)、寬度和高度；cx、cy分別為當(dāng)前單元網(wǎng)格相對于圖像左上角的橫縱偏移量；pw、ph分別為對應(yīng)Anchor Box 的寬和高；σ 為Sig?moid激活函數(shù)。

每個邊界框有（x,y,w,h,confidence）5個基本參數(shù)，其中confidence為預(yù)測邊界框的置信度，其計(jì)算公式為：

式中：P(object)為網(wǎng)格中含有某類目標(biāo)的類別概率，為真實(shí)邊界框和預(yù)測邊界框的交并比。

采用邏輯回歸方式對先驗(yàn)框進(jìn)行目標(biāo)性評分，通過非極大值抑制方法從9種不同尺寸的先驗(yàn)框中找到目標(biāo)存在可能性得分最高的。最終輸出特征圖的尺度為13×13、26×26 以及52×52。

2 改進(jìn)的K－means聚類算法

在目標(biāo)檢測中，選擇合適的先驗(yàn)框可以顯著提高目標(biāo)檢測的速度和精度。Yolov3 使用的先驗(yàn)框思想是從Faster－rcnn中引入的，其是一個具有固定寬度和高度的初始候選框。Yo?lov3 算法在mscoco 和pascal voc 數(shù)據(jù)集上通過使用K－means 聚類算法得到9 組先驗(yàn)框，分別為（10，13）、（16，30）、（33，23）、（30，61）、（62，45）、（59，119）、（116，90）、（156，198）、（372，326），但是，在COCO 和VOC 數(shù)據(jù)集中使用的先驗(yàn)框并不適合本文使用的托盤數(shù)據(jù)集。因此，本文采用K－means＋＋算法對托盤數(shù)據(jù)集的w和h進(jìn)行重新聚類。本文使用AvgIOU 作為目標(biāo)的度量標(biāo)準(zhǔn)進(jìn)行聚類分析，AvgIOU 聚類的目標(biāo)函數(shù)如下：

式中：nk為第k 個聚類中心的樣本數(shù)量；K 為樣本總數(shù)；n 為聚類個數(shù)；bbox為樣本手動標(biāo)注的矩形框的值；center為簇中心；IOU（bbox，center）為樣本和聚類的交并集。

本文采用訓(xùn)練中生成的當(dāng)前迭代中交并比IOU（Intersec?tion over Union）參數(shù)替代K－means 算法中的歐幾里得距離，其評估標(biāo)準(zhǔn)為：

式中：d（bbox,center）為邊界框與中心框之間的距離；IOU（bbox，center）為兩個框的交并比。

當(dāng)d（bbox,center）的值較小時，說明聚類的效果好，同時IOU（bbox,center）的值較大，這樣才能保證1－IOU（bbox,center）的值較小。這種聚類方法可以在同一聚類中產(chǎn)生較大的交并比和較小的兩個框之間的距離。

本文對樣本信息重新聚類，選取的k值為1～9，在聚類過程中發(fā)現(xiàn)隨著k值增加，平均交并比AvgIOU也呈現(xiàn)逐步上升的趨勢，當(dāng)k＝6時出現(xiàn)拐點(diǎn)，此時為最佳的預(yù)測框數(shù)量。本文中數(shù)據(jù)集對應(yīng)聚類中心的寬和高分別為（23，13）、（66，22）、（143，30）、（163，47）、（219，56）、（340，70）。該聚類方法可以加快網(wǎng)絡(luò)的收斂速度，有效的改善訓(xùn)練過程中的梯度下降。

3 改進(jìn)的損失函數(shù)

損失函數(shù)是一種可以很好地反映模型與實(shí)際數(shù)據(jù)差距的工具。在神經(jīng)網(wǎng)絡(luò)的正向傳播過程中生成損失函數(shù)，同時得到的損失函數(shù)也是反向傳播的起點(diǎn)。該網(wǎng)絡(luò)中的損失函數(shù)包括中心坐標(biāo)的損失、預(yù)測邊界框的損失、置信度的損失和預(yù)測類別的損失。本文應(yīng)用以數(shù)據(jù)的最大似然法則得到交叉熵來作為損失函數(shù)，在YOLOv3目標(biāo)檢測中，通過對輸入圖像的特征提取，得到一定大小的特征圖，然后將得到的特征圖像劃分成S×S的網(wǎng)格，在coco、voc數(shù)據(jù)集上，先驗(yàn)框在x軸和y軸上同等密度分布。但是在實(shí)際的托盤檢測中，托盤實(shí)際的成像呈現(xiàn)出在y軸稀疏、在x軸上相對密集的形態(tài)，因此為了降低劃分輸入圖像網(wǎng)格的長寬比例對目標(biāo)檢測所帶來的影響，調(diào)整劃分網(wǎng)格的機(jī)制，將原來的S?S 的尺寸更改為大小為2S?S，增加了沿x 軸方向的檢測密度。同時為了提高對托盤分類的準(zhǔn)確性，避免進(jìn)行錯誤的分類，引入了權(quán)重矩陣T，T＝[T1,…,Ti],表示不同類別的目標(biāo)分類錯誤的懲罰權(quán)重。改進(jìn)后的損失函數(shù)為：

式中：L1為預(yù)測中心坐標(biāo)的損失函數(shù)；λcoord為坐標(biāo)誤差的權(quán)重參數(shù)，在該網(wǎng)絡(luò)中λcoord＝5；B 為該網(wǎng)格具有的Bounding Box 個數(shù)；為有無目標(biāo)對象中心落在預(yù)測邊界框中，當(dāng)需要被識別的目標(biāo)落入到第i 個網(wǎng)格生成的第j 個邊界框中時，分別為預(yù)測框的寬度和高度；為真實(shí)框中心點(diǎn)的橫縱坐標(biāo)；為預(yù)測框中心點(diǎn)的橫縱坐標(biāo)。

式中：L2為預(yù)測邊界框的損失函數(shù)；分別為真實(shí)框的寬度和高度。

式中：L3為置信度的損失函數(shù)；為預(yù)測的置信度；ci為真實(shí)的置信度；λnoobj為不含目標(biāo)的置信度權(quán)重參數(shù)，在該網(wǎng)絡(luò)為第i個網(wǎng)格的第j個邊界框不負(fù)責(zé)該目標(biāo)。

式中：L4為類別概率的損失函數(shù)；pi(c) 為類別概率預(yù)測；為真實(shí)的類別概率預(yù)測。

4 數(shù)據(jù)集的建立

4.1 圖像增強(qiáng)

由于沒有專門用來識別托盤信息的數(shù)據(jù)集。因此本文在實(shí)際的倉儲環(huán)境中進(jìn)行了托盤圖片的采集，數(shù)據(jù)集中的數(shù)據(jù)越大，整個網(wǎng)絡(luò)的魯棒性就越好。本次采集到的圖片935張，為了提高整體網(wǎng)絡(luò)的性能，增加識別精度，提高泛化能力，通過數(shù)據(jù)增強(qiáng)的辦法將原始圖片進(jìn)行處理來擴(kuò)充數(shù)據(jù)集。本文用來數(shù)據(jù)擴(kuò)充的方法有3種：第一種方法包括鏡像對稱、翻轉(zhuǎn)、縮放、平移和隨機(jī)裁剪；第二種方法為添加噪聲，在擴(kuò)充數(shù)據(jù)樣本的同時，也有效地提升了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力；第三種方法為對比度變換。擴(kuò)充之后部分?jǐn)?shù)據(jù)集如圖2所示。

圖2 對原有圖片進(jìn)行數(shù)據(jù)增強(qiáng)

4.2 圖像標(biāo)注

在完成數(shù)據(jù)擴(kuò)充之后，借助LableImg 標(biāo)注工具進(jìn)行數(shù)據(jù)集的標(biāo)注，找出每張圖片中的感興趣區(qū)域（ROI），并用矩形框?qū)⑵錁?biāo)注生成xml格式的文件，如圖3所示。將標(biāo)注后的數(shù)據(jù)通過修改生成訓(xùn)練所需的數(shù)據(jù)形式，其中包括類別，還有歸一化后的中心點(diǎn)橫坐標(biāo)、縱坐標(biāo)、寬、高。該研究運(yùn)用的是和PASCAL VOC 2007 數(shù)據(jù)集一樣的結(jié)構(gòu)，分為訓(xùn)練集、測試集和驗(yàn)證集。

圖3 標(biāo)注數(shù)據(jù)集

5 實(shí)驗(yàn)結(jié)果及分析

5.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)基于Ubuntu 18.04操作系統(tǒng)，CPU 為Inte?li9－9900k，主頻為3.6 GHz，內(nèi)存32G，顯卡為NVIDIA Ge?Force GTX1080Ti，顯存為8 GB，深度學(xué)習(xí)框架為Dark?net－53，CUDA版本為10.0，CUDNN的版本為7.6.4。

5.2 參數(shù)配置與模型訓(xùn)練

本研究對包含尺寸大小為416×416 的5 000 張訓(xùn)練集圖片、2 000張測試集圖片的托盤數(shù)據(jù)集進(jìn)行訓(xùn)練。在準(zhǔn)備訓(xùn)練之前將參數(shù)batch 設(shè)置為64，表示網(wǎng)絡(luò)積累64 個樣本進(jìn)行一次正向傳播，將subdivisions設(shè)置為16，這樣64個樣本將會分為16 次完成正向傳播，每次4 個樣本數(shù)量。初始學(xué)習(xí)率設(shè)為0.001，動量系數(shù)設(shè)置為0.9，權(quán)重衰減率設(shè)為0.000 5，配置完訓(xùn)練參數(shù)后隨即對模型進(jìn)行訓(xùn)練，當(dāng)?shù)螖?shù)到達(dá)3 000次，學(xué)習(xí)率衰減為初始值的0.1 倍；當(dāng)?shù)螖?shù)到達(dá)3 500次，學(xué)習(xí)率進(jìn)一步衰減為初始值的0.01 倍。損失值隨著迭代次數(shù)變化的曲線如圖4所示。

圖4 損失值隨迭代次數(shù)變化曲線

可以看出，損失值隨著迭代次數(shù)的上升而逐漸降低，當(dāng)?shù)螖?shù)小于2 000 時，損失值迅速下降，當(dāng)?shù)螖?shù)達(dá)到8 000時，損失值逐漸趨于平穩(wěn)。檢測效果如圖5所示。

圖5 托盤識別效果

6 對比實(shí)驗(yàn)與評價指標(biāo)

6.1 對比實(shí)驗(yàn)

在目標(biāo)檢測中，目前比較常用的目標(biāo)檢測網(wǎng)絡(luò)包括Faster RCNN以及SSD，在基于本研究的數(shù)據(jù)集上，對Faster RCNN以及SSD網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測試，對比分析各種算法的性能。如表1 所示，對比的內(nèi)容包括檢測速度、mAP 值、AP 值以及漏檢率，本文用IOU＝0.5，也就是PASCAL VOC數(shù)據(jù)集常用的指標(biāo)這一標(biāo)準(zhǔn)來作為準(zhǔn)確性評估的方法，當(dāng)IOU＝0.7時，是實(shí)際工程應(yīng)用中的標(biāo)準(zhǔn)。由表可以看出，本文的算法相較于YOLOv3在檢測速度上由45 幀/s 提升至47 幀/s，當(dāng)IOU＝0.5 時，mAP 由91.4%上升至94.6%，提高了3.2%，漏檢率由8.7%降至5.9%，降低了2.8%。由此可以看出本文使用K－Means＋＋算法進(jìn)行重新聚類以及改進(jìn)的損失函數(shù)，可以提高對托盤的檢測速度與檢測精度。

表1 不同網(wǎng)絡(luò)結(jié)構(gòu)的測試性能對比

6.2 評價指標(biāo)

為了評估該模型對托盤孔的檢測效果，使用精確率（Pre?cision）和召回率（Recall）對模型進(jìn)行評價。通過這兩個指標(biāo)可以對模型的準(zhǔn)確性進(jìn)行評估。兩個指標(biāo)的計(jì)算公式分別為：

式中：Precision 為托盤的精確率；TP 為一個正例被預(yù)測為正例，在這里表示的是正確檢測到的托盤樣本數(shù)；FP為一個負(fù)例被預(yù)測為正例，表示的是檢測的誤差樣本數(shù)；Recall為托盤的召回率；FN為一個實(shí)例被預(yù)測為負(fù)例，表示的是錯過檢測的托盤樣本數(shù)量。

不同網(wǎng)絡(luò)結(jié)構(gòu)的測試對比如表2所示，由表中數(shù)據(jù)可以看出，本文改進(jìn)的檢測算法在測試集上所得到的評價指標(biāo)Preci?sion和Recall都要優(yōu)于未改進(jìn)的YOLOv3，F(xiàn)aster RCNN和SSD。

表2 不同網(wǎng)絡(luò)結(jié)構(gòu)的測試對比

7 結(jié)束語

為了解決倉儲環(huán)境中對托盤以及貨物的實(shí)時檢測，本文對原有的YOLOv3算法進(jìn)行改進(jìn)。為了提高對檢測物體的平均精度以及檢測速度，首先運(yùn)用K－Means＋＋算法重新聚類出更合適的Anchor Box，然后調(diào)整劃分網(wǎng)格機(jī)制，改進(jìn)損失函數(shù)。并與其他算法在本文制作的數(shù)據(jù)集上進(jìn)行測試，采用在不同IOU 情況下的mAP 值、AP 值、漏檢率以及檢測速度、Preci?sion和Recall來聯(lián)合評價本文算法與其他算法的性能。雖然本文算法在托盤實(shí)時檢測以及分類方面取得了令人滿意的結(jié)果，但其性能還有待進(jìn)一步提高。