基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地面標(biāo)志檢測

2022-05-09 07:03:12李玉珍

圖學(xué)學(xué)報(bào) 2022年2期

李玉珍，陳輝，王杰，榮文

李玉珍1，陳輝1，王杰1，榮文2

(1. 山東大學(xué)信息科學(xué)與工程學(xué)院，山東青島 266237；2. 山東高速信息集團(tuán)有限公司，山東濟(jì)南 250000)

在智能駕駛領(lǐng)域，為實(shí)時(shí)精確檢測路面的導(dǎo)向標(biāo)志，提出一種基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標(biāo)檢測方法，有效解決傳統(tǒng)檢測方法實(shí)時(shí)性較差、復(fù)雜場景和遠(yuǎn)處小目標(biāo)檢測準(zhǔn)確率較低的問題。首先，選取圖像感興趣區(qū)域進(jìn)行透視降采樣，降低道路圖像近處分辨率，縮小圖像尺寸，同時(shí)消除透視投影誤差。其次對(duì)YOLOv3-tiny目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行改進(jìn)，采用k-means++算法對(duì)自建數(shù)據(jù)集的邊界框聚類；添加卷積層強(qiáng)化淺層特征，提升小目標(biāo)表征能力；改變特征金字塔融合尺度，將預(yù)測輸出調(diào)整為適合地標(biāo)尺寸的26×26和52×52。最后，在自建多場景數(shù)據(jù)集上測試，準(zhǔn)確率由78%提升到99%，模型大小由33.8 MB減小為8.3 MB。結(jié)果表明，基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標(biāo)檢測方法魯棒性強(qiáng)，對(duì)小目標(biāo)檢測精度更高，易于在低端嵌入式設(shè)備上部署。

透視降采樣；YOLOv3-tiny；地標(biāo)檢測；數(shù)據(jù)集；k-means++

自動(dòng)駕駛和智能輔助駕駛技術(shù)作為當(dāng)今熱門的研究領(lǐng)域，一直是國內(nèi)外學(xué)者研究的熱點(diǎn)。地面交通標(biāo)志檢測作為自動(dòng)駕駛研究的關(guān)鍵技術(shù)之一，主要包含車道線檢測和地面轉(zhuǎn)向標(biāo)志檢測。目前，針對(duì)車道線識(shí)別技術(shù)的研究較多，地面轉(zhuǎn)向標(biāo)志識(shí)別的研究較少。地面標(biāo)志檢測能實(shí)時(shí)精確定位和識(shí)別車道上的導(dǎo)向標(biāo)志，在智能駕駛情況下對(duì)道路環(huán)境進(jìn)行感知，幫助駕駛員或智能駕駛系統(tǒng)正確、安全地行駛。路面各種箭頭、字母等包含重要的交通指示信息，對(duì)道路場景的理解有重要的作用。駕駛員可能因樹影遮擋、光照變化等情況未注意地面標(biāo)志，或不了解某個(gè)地標(biāo)的具體含義等情況，導(dǎo)致嚴(yán)重的交通事故，影響正常交通秩序。

在地面標(biāo)志檢測方面，目前常用的檢測方法可分為以下3類：

(1) 基于傳統(tǒng)二值化方法。REBUT等[1]使用全局二值化和用于箭頭標(biāo)記的形態(tài)算子產(chǎn)生道路標(biāo)志候選區(qū)域，通過傅里葉算子和K最近鄰算法識(shí)別標(biāo)志，對(duì)目標(biāo)輪廓完整性要求較高，對(duì)損壞或遮擋標(biāo)志檢測效果不理想；FOUCHER等[2]利用局部閾值提取邊緣，并通過漢明距離和基于投影的直方圖圖像比較來分類，涉及閾值數(shù)量多，真實(shí)檢測率低；WU和RANGANATHAN[3]選取道路圖像中最大穩(wěn)定的極值區(qū)域，從中檢測到角作為模板特征，采用基于角特征的結(jié)構(gòu)匹配識(shí)別轉(zhuǎn)向標(biāo)志，對(duì)陰影敏感、誤報(bào)率高；LIU等[4]提出一種基于感興趣區(qū)域(region of interest，ROI)透視變換的道路標(biāo)記識(shí)別方法，通過逆透視變換(inverse perspective mapping，IPM)將梯形ROI轉(zhuǎn)為正方形，利用模板匹配進(jìn)行檢測識(shí)別，對(duì)旋轉(zhuǎn)、尺度變化等魯棒性差；HE等[5]采用局部結(jié)合點(diǎn)特征實(shí)現(xiàn)了導(dǎo)向箭頭的特征編碼，采用編輯距離(edit distance)度量箭頭相似性來分類識(shí)別，對(duì)遮擋和磨損標(biāo)志的召回率較低。

(2) 基于機(jī)器學(xué)習(xí)支持向量機(jī)(support vector machine，SVM)的目標(biāo)分類方法。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展，AdaBoost[6]和SVM[7]被應(yīng)用于地面導(dǎo)向標(biāo)志識(shí)別中。WANG等[8]采用IPM預(yù)處理，小波函數(shù)提取特征，多層SVM進(jìn)行導(dǎo)向箭頭識(shí)別。QIN等[9]采用局部和全局二值化生成識(shí)別候選區(qū)域，基于具有輪廓特征的多分類SVM對(duì)地標(biāo)分類。SCHREIBER等[10]利用分水嶺分割算法二值化圖像，利用基于SVM和光學(xué)字符識(shí)別(optical character recognition，OCR)對(duì)地面標(biāo)志分類。

(3) 基于神經(jīng)網(wǎng)絡(luò)的地面標(biāo)志檢測算法。神經(jīng)網(wǎng)絡(luò)是近年來國內(nèi)外學(xué)者的研究熱點(diǎn)，GIRSHICK等[11]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks，CNN)與候選框相結(jié)合，提出了基于卷積神經(jīng)網(wǎng)絡(luò)特征區(qū)域 (regions with CNN features，R-CNN)的目標(biāo)檢測和圖像分割的方法，為提高效率，又引入空間金字塔池化網(wǎng)絡(luò)[12]。REN等[13]在Faster R-CNN加入?yún)^(qū)域候選網(wǎng)絡(luò)(region proposal networks，RPN)，將全圖像卷積特征進(jìn)行共享，提高了GPU上的檢測速度。兩階段神經(jīng)網(wǎng)絡(luò)檢測精度較高，但實(shí)時(shí)性較差。

現(xiàn)有的地面導(dǎo)向標(biāo)志識(shí)別方法中，多數(shù)研究都是基于傳統(tǒng)的二值化方法和機(jī)器學(xué)習(xí)中的SVM，實(shí)時(shí)性不高，遇到標(biāo)志模糊、光照變化、陰影遮擋等情況，識(shí)別的準(zhǔn)確率大幅降低。針對(duì)上述問題，為了提高檢測魯棒性，本文將YOLO (you only look once)[14]算法應(yīng)用于地面標(biāo)志檢測中，提出一種基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地標(biāo)檢測算法，適用于城市及高速公路等場景。以YOLOv3-tiny算法為基礎(chǔ)，利用k-means++算法[15]選擇最佳先驗(yàn)框尺寸，強(qiáng)化淺層信息，更改特征金字塔網(wǎng)絡(luò)(feature pyramid networks，F(xiàn)PN)融合尺度，提高算法魯棒性和小標(biāo)志的表征能力。實(shí)驗(yàn)結(jié)果表明，本文算法兼顧精度和速度，可以在嵌入式設(shè)備上靈活部署。

1 YOLO基本原理

1.1 檢測原理

YOLO是一種采用CNN實(shí)現(xiàn)端到端目標(biāo)檢測的算法。與傳統(tǒng)基于候選框的方法不同，其直接將整幅圖輸入網(wǎng)絡(luò)訓(xùn)練模型，將目標(biāo)檢測看作回歸問題，采用滑動(dòng)窗口的方式尋找目標(biāo)中心位置，能夠?qū)崟r(shí)預(yù)測多個(gè)目標(biāo)的類別和位置。YOLO網(wǎng)絡(luò)借鑒了GoogLeNet[16]分類網(wǎng)絡(luò)結(jié)構(gòu)。首先將輸入圖像劃分為×個(gè)網(wǎng)格，若目標(biāo)物體的中心位置落入其中，則這個(gè)網(wǎng)格負(fù)責(zé)預(yù)測該目標(biāo)。每個(gè)網(wǎng)格將輸出分類置信度和位置邊框，YOLO檢測原理如圖1所示。因此，輸入圖像只經(jīng)過一次檢測，就能得到圖像中所有物體的位置及其所屬類別的置信度，即每個(gè)邊界框中包含物體的概率為

其中，為置信度評(píng)分；()為邊界框含有目標(biāo)的可能性；truth為實(shí)際標(biāo)注的邊界框面積；pred為預(yù)測的邊界框面積；為交并比，代表truth和pred的交集與并集的比值。對(duì)結(jié)果預(yù)測時(shí)，由條件類別概率和目標(biāo)置信度乘積得到類別的置信度，即

其中，為邊界框類別的置信度，代表該邊界框中目標(biāo)屬于各個(gè)類別的可能性大小以及邊界框匹配目標(biāo)的好壞程度；(c|)為該單元格存在物體且屬于第類的概率；c為目標(biāo)種類中的第個(gè)類別。最后利用非極大值抑制(non-maximum suppression，NMS)，去掉冗余預(yù)測窗口，得到置信度最高的預(yù)測窗口，即為檢測結(jié)果。

1.2 YOLOv3-tiny算法介紹

YOLOv3-tiny網(wǎng)絡(luò)是YOLOv3網(wǎng)絡(luò)[17]的簡化版，使用較少的卷積層和池化層進(jìn)行特征提取，未使用Darknet-53中的殘差模塊。其具有相對(duì)較高的檢測速度，但識(shí)別精度不高，對(duì)復(fù)雜場景的檢測能力較低。

圖1 YOLO原理圖

YOLOv3-tiny包含24個(gè)網(wǎng)絡(luò)層，分別是13個(gè)卷積層(convolutional)、6個(gè)池化層(maxpool)、2個(gè)路由層(route)、2個(gè)輸出層(yolo)和1個(gè)上采樣層(upsample)。主干網(wǎng)絡(luò)采用卷積層和池化層串聯(lián)結(jié)構(gòu)，骨干網(wǎng)絡(luò)類似于YOLOv2[18]中的Darknet-19網(wǎng)絡(luò)，由1×1和3×3大小的卷積核提取特征，采用FPN[19]，融合輸出了2個(gè)13×13和26×26尺度的特征信息，輸出通道直接得到包含目標(biāo)框的坐標(biāo)(,,,)和目標(biāo)置信度。YOLOv3-tiny的網(wǎng)絡(luò)結(jié)構(gòu)框架如圖2所示。

圖2 YOLOv3-tiny網(wǎng)絡(luò)框架

2 實(shí)時(shí)地標(biāo)檢測框架搭建

2.1 數(shù)據(jù)集制作

地面較為常見的標(biāo)志有導(dǎo)向箭頭和限速標(biāo)志等，本文以導(dǎo)向箭頭標(biāo)志為主，主要研究5類常見的標(biāo)志，分別為直行或右轉(zhuǎn)、直行或左轉(zhuǎn)、直行、左轉(zhuǎn)、右轉(zhuǎn)。

目前，針對(duì)地面交通標(biāo)志的研究較少，沒有公開的數(shù)據(jù)集。本文首先構(gòu)建了一個(gè)可用于深度學(xué)習(xí)訓(xùn)練和測試的地面標(biāo)志數(shù)據(jù)集，一部分?jǐn)?shù)據(jù)來自濟(jì)青高速、山東大學(xué)青島校區(qū)周邊的車載相機(jī)數(shù)據(jù)，另一部分來自百度阿波羅公開道路數(shù)據(jù)集中帶有地標(biāo)的部分，使用LabelImg標(biāo)注制作22 000余張數(shù)據(jù)。為降低數(shù)據(jù)集冗余度，每隔5幀抽取1張圖片作為數(shù)據(jù)集樣本，最終得到4 311張圖片的數(shù)據(jù)集，包含不同城市的不同場景。數(shù)據(jù)集滿足Pascal VOC數(shù)據(jù)集格式，按照7∶2∶1比例將數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集。Landmark數(shù)據(jù)集統(tǒng)計(jì)見表1。

為了簡潔直觀地顯示類別，用SorR，SorL，S，L和R分別表示直行或右轉(zhuǎn)、直行或左轉(zhuǎn)、直行、左轉(zhuǎn)、右轉(zhuǎn)。

表1 Landmark數(shù)據(jù)集統(tǒng)計(jì)表

2.2 透視降采樣

數(shù)據(jù)集圖片尺寸為2700×2400和1920×1080，使用原圖訓(xùn)練速度慢，訓(xùn)練特征圖感受野較大，不適宜檢測小目標(biāo)。為了在嵌入式系統(tǒng)中進(jìn)行實(shí)時(shí)目標(biāo)檢測，將圖像導(dǎo)入低端設(shè)備時(shí)，首先將圖像進(jìn)行降采樣操作，降低圖像分辨率，加速訓(xùn)練。普通降采樣對(duì)大小為×的圖片進(jìn)行倍縮放，原始圖片變?yōu)?/)×(/)，原始圖像中每×的像素點(diǎn)轉(zhuǎn)化為降采樣圖片中的一個(gè)像素點(diǎn)。經(jīng)過數(shù)倍普通降采樣后，有效像素較少的目標(biāo)特征不明顯，甚至整個(gè)目標(biāo)丟失。

車載相機(jī)采集的圖像存在較強(qiáng)透視效應(yīng)，且多為復(fù)雜場景下的數(shù)據(jù)，涵蓋大量車輛、行人、建筑物等復(fù)雜信息。為消除透視投影誤差，可對(duì)透視圖進(jìn)行IPM，以減少無關(guān)信息對(duì)模型性能的影響。原IPM模型直接對(duì)整張道路圖像進(jìn)行變換，雖對(duì)遠(yuǎn)處的小目標(biāo)分辨率影響較小，但生成的俯視圖呈“下窄上寬”的倒梯形，保留了很多地標(biāo)之外的干擾信息，轉(zhuǎn)向標(biāo)志占俯視圖的比重較小，且被限制在俯視圖的中央?yún)^(qū)域，效果如圖3所示。

圖3 逆透視變換(2700×350)

轉(zhuǎn)向標(biāo)志特征簡單，近處大目標(biāo)所在區(qū)域像素冗余。為滿足實(shí)際需求，縮小圖像尺寸，同時(shí)消除透視投影誤差，本文提出一種透視降采樣方法，結(jié)合IPM和普通降采樣，將劃定的梯形ROI區(qū)域投影在目標(biāo)圖像上。首先選取合適的ROI區(qū)域，根據(jù)ROI區(qū)域坐標(biāo)和目標(biāo)圖像坐標(biāo)計(jì)算出變換矩陣，即可對(duì)圖像進(jìn)行透視降采樣變換。目標(biāo)圖像由遠(yuǎn)及近按比例進(jìn)行降采樣，遠(yuǎn)處小目標(biāo)的分辨率基本不變，近處在保留原圖信息的條件下降低圖像分辨率。其計(jì)算公式為

圖4 遠(yuǎn)近目標(biāo)結(jié)果對(duì)比圖((a)真實(shí)圖像；(b)普通降采樣；(c)透視降采樣)

圖4(a)為真實(shí)圖像和真實(shí)圖像中紅色方框區(qū)域的局部放大圖，圖4(b)和(c)分別為普通降采樣、透視降采樣到400×350的效果圖。對(duì)比圖4(a)和(b)可以看出，使用普通降采樣將整張圖像分辨率均勻降低后，圖4(b)中近處大目標(biāo)分辨率相比圖4(a)降低，輪廓仍可見，不影響辨識(shí)目標(biāo)類別，但遠(yuǎn)處小目標(biāo)明顯模糊，無法辨識(shí)目標(biāo)輪廓和類別。圖4(c)使用透視降采樣，不僅保證遠(yuǎn)處小目標(biāo)分辨率與原圖4(a)中基本相同，還提高了小目標(biāo)在整張圖像中的占比，更易于檢測；近處大目標(biāo)的分辨率降低，與圖4(b)中近處大目標(biāo)的處理效果類似。即透視降采樣方法主要依靠降低近處分辨率來縮小圖像尺寸，基本不會(huì)影響遠(yuǎn)處小目標(biāo)的分辨率。與原圖像相比，透視降采樣后的圖像具有3個(gè)優(yōu)點(diǎn)：①基本消除地標(biāo)的透視形變影響；②縮小圖片尺寸，提升模型計(jì)算速度；③劃定ROI，減少路面之外的干擾信息，增強(qiáng)小目標(biāo)特征信息。

2.3 改進(jìn)YOLOv3-tiny網(wǎng)絡(luò)結(jié)構(gòu)

本文檢測目標(biāo)是5類轉(zhuǎn)向標(biāo)志，特征簡單，選擇計(jì)算量低、速度快的YOLOv3-tiny作為基準(zhǔn)網(wǎng)絡(luò)。由1.2節(jié)可知，其精度較低，本文通過改進(jìn)YOLOv3-tiny網(wǎng)絡(luò)結(jié)構(gòu)，提出適合地面轉(zhuǎn)向標(biāo)志檢測的改進(jìn)YOLOv3-tiny，因改進(jìn)后包含12個(gè)卷積層，本文將其簡記為YOLOv3-tiny-12，網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 YOLOv3-tiny-12網(wǎng)絡(luò)結(jié)構(gòu)

YOLOv3-tiny-12網(wǎng)絡(luò)主要分為特征提取和回歸預(yù)測。前者由卷積層和池化層組成，后者用于預(yù)測目標(biāo)的邊界框坐標(biāo)和類別概率。根據(jù)地面轉(zhuǎn)向標(biāo)志特點(diǎn)，本文改進(jìn)主要分為3部分：①計(jì)算自建數(shù)據(jù)集的聚類中心，更新網(wǎng)絡(luò)中每個(gè)簇對(duì)應(yīng)的先驗(yàn)框值；②添加卷積層對(duì)淺層信息進(jìn)行強(qiáng)化重構(gòu)，增強(qiáng)圖像細(xì)粒度特征的提??；③根據(jù)目標(biāo)近大遠(yuǎn)小透視特點(diǎn)，采用FPN實(shí)現(xiàn)不同分辨率的特征融合，提高網(wǎng)絡(luò)對(duì)不同尺寸目標(biāo)的檢測性能。

2.3.1 基于自建數(shù)據(jù)集的邊界框聚類

YOLOv3-tiny網(wǎng)絡(luò)中使用先驗(yàn)框參數(shù)，訓(xùn)練時(shí)加入先驗(yàn)錨框尺寸，對(duì)預(yù)測對(duì)象范圍進(jìn)行約束，有助于模型加速收斂。先驗(yàn)框是根據(jù)訓(xùn)練集中的真實(shí)框(ground truth)聚類得到的不同尺寸框，在模型中即為尺度不同的滑動(dòng)窗口。原始網(wǎng)絡(luò)中的先驗(yàn)框由k-means算法對(duì)COCO數(shù)據(jù)集[20]聚類得到，劃分了6個(gè)簇分別對(duì)應(yīng)2個(gè)尺度。由于COCO數(shù)據(jù)集中不含與地標(biāo)相關(guān)數(shù)據(jù)，原始先驗(yàn)框參數(shù)不能與地標(biāo)尺寸對(duì)應(yīng)，因此訓(xùn)練前對(duì)數(shù)據(jù)集標(biāo)簽進(jìn)行聚類?？紤]到k-means算法[21]選擇初始聚類中心時(shí)有較大的隨機(jī)性，為避免其隨機(jī)選取初始聚類中心帶來的聚類結(jié)果偏差，選用隨機(jī)性更小的k-means++聚類代替k-means算法對(duì)圖像標(biāo)簽進(jìn)行聚類分析。

通過對(duì)數(shù)據(jù)集中標(biāo)注框的寬和高進(jìn)行聚類，得到6個(gè)聚類中心，設(shè)為初始先驗(yàn)框的寬和高，分別是(16，13)，(28，29)，(35，15)，(35，87)，(51，68)，(69，99)，聚類結(jié)果如圖6所示。

圖6 數(shù)據(jù)集標(biāo)注框聚類結(jié)果

2.3.2 增強(qiáng)淺層特征信息的提取

YOLOv3-tiny網(wǎng)絡(luò)在特征提取過程中，由于串聯(lián)式的卷積層、池化層結(jié)構(gòu)，以及網(wǎng)絡(luò)結(jié)構(gòu)加深，感受野增大，導(dǎo)致復(fù)雜的背景特征增加，小目標(biāo)特征減少。

對(duì)于CNN，不同深度的卷積層對(duì)應(yīng)不同層次的特征信息。淺層網(wǎng)絡(luò)包含更多小目標(biāo)的邊緣、紋理等信息。為了有效利用淺層特征，本文在網(wǎng)絡(luò)特征提取部分強(qiáng)化淺層信息，增強(qiáng)對(duì)第3個(gè)串聯(lián)式卷積池化層的特征提取效果，將maxpool層改為conv4層，卷積步長為1，不改變通道維度和特征圖尺寸，在conv4層后添加maxpool層，步長為2，改變特征圖尺寸，如圖5紅色標(biāo)注框A所示。改進(jìn)后既滿足深層的語義信息區(qū)分目標(biāo)和背景特征，也增加淺層特征圖感受野，提高遠(yuǎn)處小目標(biāo)檢測精度。

2.3.3 基于特征金字塔的多尺度融合

YOLOv3網(wǎng)絡(luò)允許輸入不同尺寸的輸入圖像，如608×608，416×416等。原網(wǎng)絡(luò)默認(rèn)將不同長寬的圖像統(tǒng)一調(diào)整分辨率為416×416，保證圖像經(jīng)過卷積、池化和特征融合等處理后，得到13×13和26×26尺度的特征圖。此特征圖有部分信息損失，滿足對(duì)大目標(biāo)的檢測，但對(duì)小目標(biāo)準(zhǔn)確檢測需要更細(xì)粒度的特征。因低層網(wǎng)絡(luò)具有更高的分辨率和更詳細(xì)的特征信息，故本文根據(jù)邊界框聚類結(jié)果和先驗(yàn)框(表2)，調(diào)整特征金字塔輸出尺度為26×26和52×52，將小尺度的先驗(yàn)邊界框分配給52×52特征圖。YOLOv3-tiny-12中使用的金字塔結(jié)構(gòu)如圖7所示。

表2 先驗(yàn)框表

圖7 特征金字塔

先驗(yàn)框(anchor)即在圖像上預(yù)先設(shè)定不同大小、不同長寬比例的框。網(wǎng)絡(luò)設(shè)置合適的先驗(yàn)框尺度，可更高概率地出現(xiàn)對(duì)目標(biāo)有高匹配度的先驗(yàn)框，體現(xiàn)為高IOU。先驗(yàn)框尺寸一般都是經(jīng)驗(yàn)選取或k-means聚類得到，YOLOv2中介紹，網(wǎng)絡(luò)是通過k-means聚類代替人工經(jīng)驗(yàn)選取，對(duì)訓(xùn)練集中的bounding box進(jìn)行聚類，生成一組更適合數(shù)據(jù)集的先驗(yàn)框，使得先驗(yàn)框與數(shù)據(jù)集目標(biāo)的匹配度更高，網(wǎng)絡(luò)的檢測結(jié)果更好。

增加的52×52尺度特征圖融合conv5卷積層，如圖5紅色標(biāo)注框B所示，將高層語義信息和淺層細(xì)節(jié)信息融合，通過更小的預(yù)選框提高小目標(biāo)的檢測精度，平衡不同尺度的地面標(biāo)志。

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)配置

本文基于深度學(xué)習(xí)Darknet框架對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練和評(píng)估，實(shí)驗(yàn)操作系統(tǒng)為Ubuntu18.04.2，處理器為Intel Core i9-9900k，內(nèi)存為64 G，使用的GPU型號(hào)為GeForce RTX 2080Ti。

3.2 實(shí)驗(yàn)結(jié)果

為了評(píng)價(jià)測試模型性能，本文主要選用平均精度均值(mean average precision，mAP)、平均耗時(shí)、運(yùn)算量 (billion float operations，BFLOPs)和模型權(quán)重大小(size)作為評(píng)價(jià)指標(biāo)。mAP用于評(píng)估算法檢測的準(zhǔn)確率；平均耗時(shí)主要用于評(píng)估算法的實(shí)時(shí)性能，表示處理每張圖片消耗的時(shí)間(單位：ms)，平均耗時(shí)越少，速度越快；BFLOPs描述算法進(jìn)行卷積運(yùn)算需要的十億次浮點(diǎn)運(yùn)算次數(shù)，表示算法的計(jì)算復(fù)雜度。部分指標(biāo)為

其中，為檢測類別數(shù)；(Precision)和(Recall)分別為精確率和召回率；，，分別為正確分類的正例、負(fù)例錯(cuò)分為正例、正例錯(cuò)分為負(fù)例個(gè)數(shù)。

表3是YOLOv3-tiny與其他幾種目標(biāo)檢測算法性能對(duì)比實(shí)驗(yàn)結(jié)果。

表3 不同檢測算法性能對(duì)比

從表3數(shù)據(jù)可看出，使用原始圖像進(jìn)行訓(xùn)練測試時(shí)，YOLOv3-tiny算法檢測每幀圖片的平均耗時(shí)為2.15 ms，速度快于其他4類算法，計(jì)算復(fù)雜度降低10倍以上，模型體積縮小數(shù)倍，但是算法精度比Faster R-CNN，SSD[22]和YOLOv4[23]算法低，符合理論預(yù)期。Faster R-CNN的檢測速度慢，計(jì)算復(fù)雜度是YOLOv3-tiny的20倍，且模型權(quán)重文件較大。綜上，本文選取計(jì)算復(fù)雜度低、模型體積小的實(shí)時(shí)檢測網(wǎng)絡(luò)YOLOv3-tiny作為基準(zhǔn)網(wǎng)絡(luò)。

為進(jìn)一步提升模型準(zhǔn)確率，選取圖像車前區(qū)域(12 m×60 m)為ROI，設(shè)定生成圖像分辨率為400×350，對(duì)數(shù)據(jù)集進(jìn)行透視降采樣(perspective down-sampling，PD)。消除透視形變和目標(biāo)近大遠(yuǎn)小對(duì)精度的影響，降低復(fù)雜場景對(duì)模型性能的干擾，在建立的數(shù)據(jù)集上使用YOLOv3-tiny驗(yàn)證，透視降采樣前后的目標(biāo)平均精度對(duì)比如圖8所示。

圖像進(jìn)行透視降采樣后，測試集上的mAP值為96.1%，相比原mAP值提高18.8%。其中右轉(zhuǎn)R的AP最高，透視降采樣后提升到99.84%，提升了16.32%。直行S透視降采樣后平均精度提升25.37%，相比其他4類提升最大。但直行S最終的AP最低，為89.40%。結(jié)合數(shù)據(jù)集測試結(jié)果和類別形狀分析，直行標(biāo)志與斑馬線、車道線虛線等交通標(biāo)志的相似度程度較高，標(biāo)志損壞或涂改后易錯(cuò)檢，測試結(jié)果中一些正樣本標(biāo)志被判定為負(fù)樣本，F(xiàn)N和FP偏高導(dǎo)致AP偏低。

圖8 透視降采樣前后測試結(jié)果對(duì)比

本文對(duì)網(wǎng)絡(luò)改進(jìn)后，預(yù)測特征圖的感受野減小，遠(yuǎn)處小目標(biāo)的檢測效果增強(qiáng)，mAP值提高了3.1%，處理每幀圖片的平均耗時(shí)由2.11 ms縮短到1.89 ms，模型計(jì)算復(fù)雜度降低了7%。模型權(quán)重文件保存為訓(xùn)練的網(wǎng)絡(luò)各層權(quán)值，由于網(wǎng)絡(luò)層數(shù)減少為23層，卷積核個(gè)數(shù)、通道數(shù)等減少，及卷積核尺寸變小等因素，模型大小由33.8MB減小為8.3MB，占原模型權(quán)重的25%左右，適宜在嵌入式設(shè)備部署。原網(wǎng)絡(luò)訓(xùn)練8 000個(gè)epochs用時(shí)約4.5 h，改進(jìn)后訓(xùn)練時(shí)長僅需1.5 h。網(wǎng)絡(luò)改進(jìn)前后的速度和計(jì)算復(fù)雜度對(duì)比見表4，目標(biāo)的平均精度測試結(jié)果見表5。

本文使用透視降采樣后的圖像進(jìn)行模型訓(xùn)練，并使用YOLOv3-tiny和YOLOv3-tiny-12訓(xùn)練的最優(yōu)權(quán)重測試，隨機(jī)抽取不同場景、不同距離的測試圖像結(jié)果對(duì)比如圖9所示。

表4 速度和計(jì)算量對(duì)比

表5 測試結(jié)果對(duì)比(%)

由圖9(a1)和(a2)可以看出，光線充足、路面狀況良好的情況下，原網(wǎng)絡(luò)可以較好地識(shí)別地面標(biāo)志，但也存在較小目標(biāo)漏檢情況；改進(jìn)后的網(wǎng)絡(luò)預(yù)測尺度更適合小目標(biāo)尺寸，檢測精度更高，漏檢情況較少。對(duì)于地面標(biāo)志被樹蔭、建筑物陰影遮擋等情況，如圖9(b1)和(b2)，或由于長期磨損、涂改以及污染等情況，如圖9(c1)和(c2)，原網(wǎng)絡(luò)檢測精度有所下降，改進(jìn)后網(wǎng)絡(luò)的檢測精度幾乎不受影響。不同場景下的檢測結(jié)果說明，通過對(duì)先驗(yàn)框尺寸進(jìn)行重新聚類、增強(qiáng)淺層網(wǎng)絡(luò)信息的提取等操作，網(wǎng)絡(luò)的魯棒性更強(qiáng)，更能適應(yīng)多樣的天氣、光照和道路行駛環(huán)境等。

為進(jìn)一步驗(yàn)證算法對(duì)遠(yuǎn)處小目標(biāo)的準(zhǔn)確率，采集不同距離的地標(biāo)數(shù)據(jù)進(jìn)行測試。車載相機(jī)距離地標(biāo)的距離分別是5 m，25 m和50 m，部分測試結(jié)果如圖9(d)，(e)和(f)所示。從圖中可以看出，采集距離為5 m和25 m時(shí)，如圖9(d)和(e)，由于目標(biāo)尺寸較大，左轉(zhuǎn)和前方直行或右轉(zhuǎn)標(biāo)志均被準(zhǔn)確識(shí)別，且識(shí)別準(zhǔn)確率接近100%。采集距離為50 m時(shí)，如圖9(f1)和(f2)，目標(biāo)尺寸非常小，由于YOLOv3-tiny對(duì)淺層特征信息的提取不足，且預(yù)選框尺寸較大，目標(biāo)識(shí)別準(zhǔn)確率降低，圖9(f1)中的直行或右轉(zhuǎn)標(biāo)志漏檢。YOLOv3-tiny-12重新聚類了先驗(yàn)框的大小，使得預(yù)測時(shí)能更高概率的出現(xiàn)匹配度高的先驗(yàn)框，并且增強(qiáng)對(duì)淺層特征的提取，獲得更多小目標(biāo)的邊緣、紋理等信息，使得小目標(biāo)特征提取更充分，提高了檢測精度。不同距離的測試結(jié)果表明，改進(jìn)后的YOLOv3-tiny-12算法對(duì)小目標(biāo)檢測能力更強(qiáng)，預(yù)測尺度與小目標(biāo)尺寸更匹配，在一定距離范圍內(nèi)，檢測精度更高。

圖9 YOLOv3-tiny與YOLOv3-tiny-12測試結(jié)果對(duì)比((a～c)不同場景對(duì)比; (d～f)不同距離對(duì)比)

4 結(jié)束語

本文為提高復(fù)雜場景的魯棒性和小目標(biāo)檢測的精度，提出一種基于透視降采樣和YOLOv3-tiny-12的地標(biāo)檢測方法。選取道路圖像ROI進(jìn)行透視降采樣，減少了無關(guān)信息對(duì)模型的影響，縮小圖像尺寸的同時(shí)不改變遠(yuǎn)處小目標(biāo)的分辨率，提高了訓(xùn)練速度。改進(jìn)YOLOv3-tiny算法，增加卷積層強(qiáng)化淺層信息，采用金字塔結(jié)構(gòu)將預(yù)測尺度調(diào)整為適應(yīng)地標(biāo)的尺寸。通過平均精度均值、平均耗時(shí)和權(quán)重大小等對(duì)模型的性能進(jìn)行了評(píng)估，在保證實(shí)時(shí)性的前提下，改進(jìn)后的檢測精度為99.2%，提升了21.9%，模型權(quán)重8.3 MB，易于在低端嵌入式設(shè)備上部署。

[1] REBUT J, BENSRHAIR A, TOULMINET G. Image segmentation and pattern recognition for road marking analysis[C]//2004 IEEE International Symposium on Industrial Electronics. New York: IEEE Press, 2004: 727-732.

[2] FOUCHER P, SEBSADJI Y, TAREL J P, et al. Detection and recognition of urban road markings using images[C]//2011 14th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2011: 1747-1752.

[3] WU T, RANGANATHAN A. A practical system for road marking detection and recognition[C]//2012 IEEE Intelligent Vehicles Symposium. New York: IEEE Press, 2012: 25-30.

[4] LIU Z Q, WANG S J, DING X Q. ROI perspective transform based road marking detection and recognition[C]//2012 International Conference on Audio, Language and Image Processing. New York: IEEE Press, 2012: 841-846.

[5] HE U, CHEN H, PAN I, et al. Using edit distance and junction feature to detect and recognize arrow road marking[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 2317-2323.

[6] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

[7] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297.

[8] WANG N, LIU W, ZHANG C M, et al. The detection and recognition of arrow markings recognition based on monocular vision[C]//2009 Chinese Control and Decision Conference. New York: IEEE Press, 2009: 4380-4386.

[9] QIN B, LIU W, SHEN X, et al. A general framework for road marking detection and analysis[C]//The 16th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2013: 619-625.

[10] SCHREIBER M, POGGENHANS F, STILLER C. Detecting symbols on road surface for mapping and localization using OCR[C]//The 17th International IEEE Conference on Intelligent Transportation Systems. New York: IEEE Press, 2014: 597-602.

[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.

[12] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[13] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[14] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 779-788.

[15] Arthur D, Vassilvitskii S. K-means++: the advantages of careful seeding[C]//The 18th Annual ACM-SIAM symposium on Discrete Algorithms. New York: ACM Press, 2007: 1027-1035.

[16] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

[17] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1-4.

[18] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 6517-6525.

[19] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 936-944.

[20] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[M]//Computer Vision–ECCV 2014. Cham: Springer International Publishing, 2014: 740-755.

[21] 吳夙慧, 成穎, 鄭彥寧, 等. K-means算法研究綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2011(5): 28-35.

WU S H, CHENG Y, ZHENG Y N, et al. Survey on K-means algorithm[J]. New Technology of Library and Information Service, 2011(5): 28-35 (in Chinese).

[22] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[M]//Computer Vision–ECCV 2016. Cham: Springer International Publishing, 2016: 21-37.

[23] BOCHKOVSKIY A, WANG C Y, LIAO H Y MARK. YOLOv4: optimal speed and accuracy of object detection[EB/OL]. (2020-04-23) [2021-08-28]. https://arxiv. org/abs/2004.10934.

Landmark detection based on perspective down-sampling and neural network

LI Yu-zhen1, CHEN Hui1, WANG Jie1, RONG Wen2

(1. School of Information Science and Engineering, Shandong University, Qingdao Shandong 266237, China; 2. Shandong Hi-Speed Information Group Co, Ltd, Jinan Shandong 250000, China)

In the field of intelligent driving, a neural network-based and perspective down-sampling-based landmark detection method was proposed to accurately detect the road guide signs in real time. This proposed method can effectively solve the problems of poor real-time performance of traditional detection methods and low detection accuracy for complex scenes and remote small targets. Firstly, the region of interest for the image was selected for perspective down-sampling to reduce the near resolution of the road image, reduce the image size, and eliminate the perspective projection error. Secondly, the YOLOv3-tiny target detection network was enhanced. The boundary frame clustering of self-built data set was implemented by k-means++. The convolution layer was added to strengthen the shallow features and enhance the small target representation ability. By changing the fusion scale of feature pyramid, the prediction output was adjusted to 26×26 and 52×52. Finally, the accuracy rate was elevated from 78% to 99% on the self-built multi-scene data set, and the model size was reduced from 33.8 MB to 8.3 MB. The results show that a neural network-based and perspective down-sampling-based landmark detection method displays strong robustness, higher detection accuracy for small targets, and is readily deployable on low-end embedded devices.

perspective down-sampling; YOLOv3-tiny; landmark detection; data set; k-means++

TP 391

10.11996/JG.j.2095-302X.2022020288

2095-302X(2022)02-0288-08

2021-06-21；

2021-09-26

山東省科技發(fā)展計(jì)劃重點(diǎn)項(xiàng)目(2019GGX101018)；山東省自然科學(xué)基金項(xiàng)目(ZR2017MF057)

李玉珍(1996–)，女，碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺輔助和自動(dòng)駕駛、目標(biāo)檢測。E-mail：1874922136@qq.com

陳輝(1963–)，女，教授，博士。主要研究方向?yàn)閷?duì)應(yīng)點(diǎn)問題、虛擬現(xiàn)實(shí)、裸眼3D電視顯示、計(jì)算機(jī)視覺輔助和自動(dòng)駕駛。 E-mail：huichen@sdu.edu.cn

21 June，2021；

26 September，2021

Key Projects of Science and Technology Development Plan of Shandong Province(2019GGX101018); National Natural Science Foundation of Shandong (ZR2017MF057)

LI Yu-zhen (1996–), master student. Her main research interests cover computer vision, assisted autopilot and target detection. E-mail：1874922136@qq.com

CHEN Hui (1963-), professor, Ph.D. Her main research interests cover correspondence issues, virtual reality, naked eye 3D TV display, computer vision assistance and autopilot. E-mail：huichen@sdu.edu.cn

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于透視降采樣和神經(jīng)網(wǎng)絡(luò)的地面標(biāo)志檢測

1 YOLO基本原理

1.1 檢測原理

1.2 YOLOv3-tiny算法介紹

2 實(shí)時(shí)地標(biāo)檢測框架搭建

2.1 數(shù)據(jù)集制作

2.2 透視降采樣

2.3 改進(jìn)YOLOv3-tiny網(wǎng)絡(luò)結(jié)構(gòu)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)配置

3.2 實(shí)驗(yàn)結(jié)果

4 結(jié)束語