李志國(guó) 朱明
摘 要:基于深度學(xué)習(xí)的目標(biāo)檢測(cè)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域中一個(gè)重要的研究熱點(diǎn),在智能交通、智能監(jiān)控、智慧社區(qū)等諸多領(lǐng)域有非常廣闊的應(yīng)用。本文在嵌入式平臺(tái)下,利用最新anchor-free目標(biāo)檢測(cè)方法,針對(duì)智慧社區(qū)中停車場(chǎng)出入口場(chǎng)景實(shí)現(xiàn)了實(shí)時(shí)的高質(zhì)量車輛檢測(cè),有效地提升了車輛的抓拍率和識(shí)別率。
關(guān)鍵詞:嵌入式平臺(tái);anchor-free;車輛檢測(cè)
中圖分類號(hào):U463 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2020)12-0047-02
0引言
智能停車場(chǎng)是智能社區(qū)的重要組成部分,智能停車場(chǎng)出入口利用智能相機(jī)對(duì)車輛進(jìn)行捕獲抓拍和智能識(shí)別并自動(dòng)計(jì)費(fèi),車輛檢測(cè)是智能分析的前提和關(guān)鍵。車輛檢測(cè)方法是目標(biāo)檢測(cè)方法的特例。基于深度卷積網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法按照是否有錨點(diǎn)(anchor)可分為anchor-based和anchor-free2種,受限于anchor設(shè)計(jì)的復(fù)雜性,anchor-free得到了極大的關(guān)注和發(fā)展。本文基于anchor-free的FCOS[1]方法,通過(guò)修改主干網(wǎng)絡(luò)和FPN特征金字塔等設(shè)計(jì),整個(gè)網(wǎng)絡(luò)可以在海思3516d平臺(tái)和Mstar平臺(tái)上達(dá)到實(shí)時(shí)處理的效果。
1 主干網(wǎng)絡(luò)(backbone)
MobileNet v2[2]在深度可分離卷積的基礎(chǔ)上引入了殘差結(jié)構(gòu),并發(fā)現(xiàn)ReLU的在通道數(shù)較少的Feature Map上有非常嚴(yán)重信息損失問(wèn)題,由此引入了Linear Bottlenecks和Inverted Residual[3]。為了達(dá)到嵌入式平臺(tái)的實(shí)時(shí)性處理,本文采用MobileNet V2(0.25)版本,記為MobileNet-V2-0.25-modified,輸入分辨率為192×108(加邊對(duì)齊后為192×128)。
2 FPN
特征金字塔FPN主要解決的是物體檢測(cè)中的多尺度問(wèn)題,通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)連接在基本不增加原有模型計(jì)算量情況下,大幅度提升了小物體檢測(cè)的性能。
特征金字塔FPN網(wǎng)絡(luò)直接在原來(lái)的網(wǎng)絡(luò)上做修改,每個(gè)分辨率的特征圖引入后一分辨率縮放兩倍的特征圖做相加的操作。通過(guò)這樣的連接,每一層預(yù)測(cè)所用的特征圖都融合了不同分辨率、不同語(yǔ)義強(qiáng)度的特征。同時(shí),由于此方法只是在原網(wǎng)絡(luò)基礎(chǔ)上加上了額外的跨層連接,在實(shí)際應(yīng)用中幾乎不增加額外的時(shí)間和計(jì)算量,適合在低算力的嵌入式平臺(tái)上應(yīng)用。
本文采用3層FPN結(jié)構(gòu),把backbone中{stage1,stage3,stage5}記為{C3,C4,C5},其stride分別為{8,16,32},通過(guò)FPN生成記為{P3,P4,P5},具體見(jiàn)圖1。
3 FCOS-ours
一種基于像素級(jí)預(yù)測(cè)一階全卷積目標(biāo)檢測(cè)方法,目前大多數(shù)先進(jìn)的目標(biāo)檢測(cè)模型,例如RetinaNet、SSD、YOLOv3、Faster R-CNN都依賴于預(yù)先定義的錨框。而FCOS是anchor box free的,即不依賴預(yù)先定義的錨框。通過(guò)去除預(yù)先定義的錨框,F(xiàn)COS避免了關(guān)于錨框的復(fù)雜運(yùn)算,避免了和錨框有關(guān)且對(duì)最終檢測(cè)結(jié)果非常敏感的所有超參數(shù)。由于后處理只采用非極大值抑制(NMS),F(xiàn)COS比以往基于錨框的一階檢測(cè)器具有更加簡(jiǎn)單的優(yōu)點(diǎn),非常適合在嵌入式平臺(tái)下采用。
3.1訓(xùn)練回歸公式
設(shè)標(biāo)定框(ground-truth bounding boxes){Bi}=(x0(i),
y0(i),x1(i),y1(i),c(i))∈R4,其中(x0(i),y0(i))為標(biāo)定框的左上點(diǎn)坐標(biāo),(x1(i),y1(i))為右下點(diǎn)坐標(biāo)。c(i)為分類的種類,這里是車輛檢測(cè),取值為1。如果坐標(biāo)點(diǎn)(x,y)在標(biāo)定框內(nèi)部,則認(rèn)為其為正樣本,否則為負(fù)樣本,設(shè)4D的向量t*=(l*,t*,r*,b*)為該點(diǎn)(x,y)的回歸值,則:
l*=x-x0(i),t*=y-y0(i),r*=x1(i)-x,b*=y1(i)-y。 ? ? ?(1)
和基于anchor-based方法不同,F(xiàn)COS直接限制每層金字塔回歸框的大小,P3,P4,P5分別回歸的范圍為(0,64],(64, 128],(128,∞)。
3.2 損失函數(shù)
訓(xùn)練損失函數(shù)分類損失和目標(biāo)框的回歸損失,如公式2所示。
Lcls是focal loss,Lreg為IOU loss。Npos是正樣本的個(gè)數(shù),λ為平衡因子,用于平衡2種損失的權(quán)重,一般取1,是指示性函數(shù),如果則為1。
4 實(shí)驗(yàn)
主要在停車場(chǎng)出入口進(jìn)行了車輛檢測(cè)的實(shí)驗(yàn),訓(xùn)練數(shù)據(jù)包括各種天氣,各種光線,各種場(chǎng)景下的車輛車頭數(shù)據(jù)共30k,樣例如圖2所示。訓(xùn)練采用隨機(jī)梯度下降(SGD)方法,共訓(xùn)練30epoch,初始學(xué)習(xí)率為0.01,并在16,24個(gè)epoch分別降低原來(lái)的0.1倍,momentum為0.9,weight decay為0.0001,訓(xùn)練后生成模型大小1M,算力14M Mac。
4.1 和Mtcnn[3]效果比較
Mtcnn最初用于人臉檢測(cè),使用3個(gè)CNN級(jí)聯(lián)的方式,實(shí)現(xiàn)了coarse-to-fine的算法結(jié)構(gòu),其級(jí)聯(lián)的網(wǎng)絡(luò)架構(gòu)可以高效的用于處理停車場(chǎng)出入口車輛較少,目標(biāo)占比較大的場(chǎng)景。
表1為FCOS-ours和Mtcnn效果效率比較,為了便于比較,用分割線加以區(qū)分,分割線以上是Mctnn的結(jié)果,以下為FCOS-ours的結(jié)果,No-plate1、daytime1、nighttime3分別為數(shù)據(jù)庫(kù)的名字,后面的數(shù)字代表標(biāo)定框的個(gè)數(shù)。從表中可以看出,得益于backbone,F(xiàn)PN,損失等設(shè)計(jì)和end to end訓(xùn)練方法,F(xiàn)COS-ours在耗時(shí)更少的情況下,效果超過(guò)了Mtcnn
6%~10%。Mtcnn耗時(shí)不穩(wěn)定,主要和目標(biāo)個(gè)數(shù)和場(chǎng)景復(fù)雜度相關(guān),當(dāng)檢測(cè)目標(biāo)增多時(shí)耗時(shí)呈線性增加。
4.2 在嵌入式平臺(tái)下效率
Hi3516D是海思半導(dǎo)體針對(duì)高清攝像機(jī)產(chǎn)品應(yīng)用開發(fā)的一款專業(yè)SOC芯片,處理器內(nèi)核為ARM Cortex A9@Max.
800MHz,Mstar@1G是Mstar主頻1GHz芯片。具體耗時(shí)見(jiàn)表2。
5 結(jié)論
本文針對(duì)出入口車輛檢測(cè)任務(wù),利用FCOS anchor-free目標(biāo)檢測(cè)方法,通過(guò)修改主干網(wǎng)絡(luò)置,F(xiàn)PN特征金字塔等網(wǎng)絡(luò)配置,使基于卷積神經(jīng)網(wǎng)絡(luò)的方法可以在嵌入式平臺(tái)下實(shí)時(shí)運(yùn)行,并達(dá)到了較好的檢測(cè)效果。
參考文獻(xiàn)
[1] Zhi Tian,Chunhua Shen,Hao.Chen,et al.FCOS:fully convolutional one-stage object detection[M].InICCV,2019.
[2] Mark Sandler,Andrew G.Howard,Menglong Zhu,et al.Mobilenetv2:Inverted residuals and linear bottlenecks.mobile networks for classification,detection and segmentation[J].CoRR,abs,2018(10):1804-1806.
[3] Zhang,K,Zhang.Z,Li.Z,Qiao.Y,Joint face detection and alignment using multitask cascadedconvolutionalnetworks[J].IEEE Signal Processing Letters,2003(10):1499-1503.