張俊青,熊玉潔,2,孫憲坤,高永彬
1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620
2.華東師范大學(xué) 上海多維度信息處理重點(diǎn)實(shí)驗(yàn)室,上海200241
在生活質(zhì)量日益提高的當(dāng)今社會(huì),車(chē)輛已經(jīng)成為了出行與運(yùn)輸不可或缺的交通工具。因此,如何高效地進(jìn)行車(chē)輛監(jiān)控與管理引起了研究者們的廣泛關(guān)注。近些年來(lái),自動(dòng)車(chē)牌識(shí)別(automatic license plate recognition,ALPR)在現(xiàn)代智能交通管理中發(fā)揮了重要的作用。在智能交通系統(tǒng)中,自動(dòng)車(chē)牌識(shí)別系統(tǒng)能夠?qū)崟r(shí)監(jiān)控車(chē)輛,從而降低人工交通管理的成本與負(fù)擔(dān)。此外,ALPR在汽車(chē)違規(guī)停放、高速公路收費(fèi)站、無(wú)人監(jiān)管的地下停車(chē)場(chǎng)與追蹤可疑車(chē)輛等其他場(chǎng)景中也具有廣泛的應(yīng)用。
作為現(xiàn)代智能交通系統(tǒng)的重要組成部分,自動(dòng)車(chē)牌識(shí)別的應(yīng)用越來(lái)越普及。一般而言,車(chē)牌識(shí)別的基本流程可劃分為圖像獲取、圖像預(yù)處理、車(chē)牌檢測(cè)、字符分割與識(shí)別共四個(gè)步驟[1]。作為自動(dòng)車(chē)牌識(shí)別的核心步驟,車(chē)牌檢測(cè)需要快速找到車(chē)牌位置,為后續(xù)的識(shí)別工作奠定了基礎(chǔ)。
針對(duì)車(chē)牌檢測(cè)問(wèn)題,研究者們?cè)?0世紀(jì)80年代便已經(jīng)開(kāi)始致力于相關(guān)研究工作。早期研究中采用人工設(shè)計(jì)的圖像特征來(lái)判定車(chē)牌的區(qū)域,如Niblack二值化方法[2]、基于DFT變換方法[3]與基于水平線搜索的方法[4]等。盡管上述方法已經(jīng)能夠在簡(jiǎn)單應(yīng)用場(chǎng)景中尋找出車(chē)牌的大致位置,但仍不能夠精準(zhǔn)地檢測(cè)車(chē)牌的位置。
在上述研究方法取得了一些成效之后,研究者們從20世紀(jì)90年代左右開(kāi)始設(shè)計(jì)更多的車(chē)牌特征來(lái)進(jìn)行車(chē)牌檢測(cè)。根據(jù)車(chē)牌特征關(guān)注區(qū)域的不同,此類(lèi)傳統(tǒng)車(chē)牌檢測(cè)方法被劃分為基于邊緣檢測(cè)的車(chē)牌檢測(cè)方法[5]、基于字符特征的車(chē)牌檢測(cè)方法[6]、基于顏色特征的車(chē)牌檢測(cè)方法[7]和基于紋理特征的車(chē)牌檢測(cè)方法[8]四種。
在基于邊緣檢測(cè)的檢測(cè)方法中,通常會(huì)根據(jù)車(chē)牌矩形框的尺寸在圖像中搜尋車(chē)牌候選區(qū)域。Al-Ghaili等[9]提出了垂直邊緣檢測(cè)的車(chē)牌檢測(cè)方法,具有定位速度與實(shí)時(shí)性高的優(yōu)勢(shì)。但由于邊緣檢測(cè)對(duì)多余邊緣過(guò)于敏感,并不適用于復(fù)雜背景的圖像。
在基于車(chē)牌字符特征的方法中,Cho等[10]根據(jù)車(chē)牌字符與背景存在差異性的特點(diǎn)利用字符間寬度來(lái)定位車(chē)牌。較基于顏色特征的方法,此類(lèi)方法對(duì)于光照不敏感,因而在檢測(cè)光照條件變化下的車(chē)牌圖像時(shí)魯棒性更高。而此類(lèi)方法的缺點(diǎn)則是當(dāng)圖像中存在干擾性文字時(shí)會(huì)導(dǎo)致精確度下降。
由于車(chē)牌與字符的顏色組合與背景相比具有特異性,Azad等[11]根據(jù)此特征設(shè)計(jì)了一種基于車(chē)牌顏色特征的檢測(cè)方法。此類(lèi)檢測(cè)方法將RGB圖像轉(zhuǎn)換HSV色彩空間后對(duì)其進(jìn)行分割處理后再對(duì)每部分進(jìn)行車(chē)牌檢測(cè),對(duì)于傾斜車(chē)牌具有較好效果,且車(chē)牌的尺寸、大小與角度變化均不會(huì)對(duì)其產(chǎn)生影響。但是此類(lèi)方法在輸入圖像存在與車(chē)牌顏色相近的物體時(shí),定位精確度較低。
基于車(chē)牌紋理特征方法的檢測(cè)原理是根據(jù)字符與底色間局部紋理的明顯特征變化來(lái)檢測(cè)車(chē)牌區(qū)域。Deb等[12]利用此類(lèi)特征提出了基于滑動(dòng)同心窗法(sliding concentric windows,SCW)的定位算法,其能較好處理光照與視角變化等干擾問(wèn)題,而缺點(diǎn)在于會(huì)因紋理特征計(jì)算而導(dǎo)致計(jì)算速度偏慢。
除上述四種傳統(tǒng)檢測(cè)方法外,傳統(tǒng)車(chē)牌檢測(cè)算法的研究開(kāi)始不僅僅局限于使用單一的車(chē)牌特征來(lái)檢測(cè)車(chē)牌,許多基于多種車(chē)牌特征相結(jié)合的檢測(cè)方法[13-14]也取得了不錯(cuò)的成效。
近年來(lái),人工智能領(lǐng)域的發(fā)展十分迅速。深度學(xué)習(xí)方法在目標(biāo)檢測(cè)領(lǐng)域效果卓著,從而使得車(chē)牌檢測(cè)研究取得了新突破。研究人員通過(guò)設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的算法來(lái)提升車(chē)牌檢測(cè)的精度。和傳統(tǒng)方法相比,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法可以通過(guò)數(shù)據(jù)集自主學(xué)習(xí)目標(biāo)相關(guān)特征,魯棒性更強(qiáng)。
目前,主流目標(biāo)檢測(cè)的算法包括了單階段檢測(cè)算法與兩階段檢測(cè)算法。單階段檢測(cè)算法往往檢測(cè)速度快但精度不高,而兩階段檢測(cè)算法則具有較高的檢測(cè)精度但需要較長(zhǎng)的檢測(cè)時(shí)間。對(duì)于單階段檢測(cè)算法如YOLO[15]、SSD[16]等方法在車(chē)牌檢測(cè)任務(wù)上的研究,Xie等[17]將基于YOLO框架的定位算法用于車(chē)牌檢測(cè)與識(shí)別研究且達(dá)到了較高識(shí)別準(zhǔn)確率。劉華春等[18]設(shè)計(jì)了一種基于視覺(jué)顯著性的深度學(xué)習(xí)車(chē)牌檢測(cè)算法用于解決復(fù)雜環(huán)境下的車(chē)牌檢測(cè)問(wèn)題。Molina-Moreno等[19]提出了一種有效的尺度自適應(yīng)車(chē)牌識(shí)別系統(tǒng),該系統(tǒng)對(duì)每個(gè)尺度目標(biāo)能選擇最優(yōu)特征進(jìn)行訓(xùn)練并顯著提高檢測(cè)時(shí)間。
對(duì)于兩階段檢測(cè)算法在車(chē)牌檢測(cè)任務(wù)上的研究,Ren等[20]提出了Faster R-CNN。隨后,李祥鵬等[21]在Faster R-CNN的基礎(chǔ)上,結(jié)合k-means++方法選取最優(yōu)車(chē)牌尺寸來(lái)提升車(chē)牌檢測(cè)精度。此類(lèi)方法核心思想是通過(guò)候選區(qū)域生成的算法生成含有檢測(cè)目標(biāo)的候選區(qū)域后,再對(duì)其進(jìn)行分類(lèi)與回歸的處理。He等[22]在Faster R-CNN的基礎(chǔ)上,通過(guò)添加掩碼分支,提出了Mask R-CNN。該網(wǎng)絡(luò)在第一階段利用殘差網(wǎng)絡(luò)(residual neural network,ResNet)與特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)兩種網(wǎng)絡(luò)相結(jié)合的骨干網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取。隨后將特征圖送入候選區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)生成候選區(qū)域。第二階段,感興趣區(qū)域匹配層(RoIAlign)的輸出被送入由分類(lèi)、回歸與掩碼三個(gè)通道組成的頭網(wǎng)絡(luò),該網(wǎng)絡(luò)負(fù)責(zé)輸出定位的結(jié)果同時(shí)分割掩碼。然而,Mask R-CNN作為一種通用目標(biāo)檢測(cè)模型,缺點(diǎn)在于無(wú)法根據(jù)車(chē)牌先驗(yàn)信息對(duì)圖像中的車(chē)牌目標(biāo)進(jìn)行針對(duì)性的檢測(cè)。
目前來(lái)講,雖然傳統(tǒng)方法與深度學(xué)習(xí)的方法已取得一定成果,但是復(fù)雜背景、非均勻光照與惡劣天氣(例如雪天與霧天)等干擾因素仍會(huì)對(duì)車(chē)牌檢測(cè)精確度造成一定影響。趙偉等[23]為了解決復(fù)雜光線的干擾因素所導(dǎo)致車(chē)牌識(shí)別困難的問(wèn)題,提出一種針對(duì)復(fù)雜光照的圖像增強(qiáng)方法,以提高車(chē)牌識(shí)別準(zhǔn)確率。
本文為了進(jìn)一步提高復(fù)雜環(huán)境中車(chē)牌檢測(cè)的精度,提出了一種結(jié)合雙金字塔特征融合與級(jí)聯(lián)定位的復(fù)雜環(huán)境下車(chē)牌檢測(cè)算法。該算法通過(guò)在殘差網(wǎng)絡(luò)中使用Mish激活函數(shù),結(jié)合提出的雙金字塔特征融合網(wǎng)絡(luò)以充分利用不同尺度的車(chē)牌特征、采取基于形狀先驗(yàn)的錨點(diǎn)設(shè)置策略的設(shè)計(jì)與引入階段化訓(xùn)練的級(jí)聯(lián)定位網(wǎng)絡(luò)的多策略使得本文算法能夠在不同干擾情況下對(duì)車(chē)牌進(jìn)行更準(zhǔn)確與更具有針對(duì)性的檢測(cè)。實(shí)驗(yàn)結(jié)果證明,本文算法在AOLP與CCPD車(chē)牌數(shù)據(jù)集上能進(jìn)一步提升檢測(cè)性能。
本文提出算法框架如圖1所示。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)分為三個(gè)部分:雙金字塔特征融合網(wǎng)絡(luò)、基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)與級(jí)聯(lián)車(chē)牌定位網(wǎng)絡(luò)。車(chē)牌圖像通過(guò)雙金字塔特征融合網(wǎng)絡(luò)(siamese feature pyramid network,SFPN)提取初級(jí)圖像特征并進(jìn)行多尺度特征的融合,該網(wǎng)絡(luò)的輸出被送入基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)獲取含車(chē)牌的感興趣區(qū)域(region of interest,RoI)的分類(lèi)置信度與位置信息。最后,感興趣區(qū)域?qū)⑼ㄟ^(guò)具有三個(gè)階段的級(jí)聯(lián)定位網(wǎng)絡(luò)進(jìn)行階段化的分類(lèi)和回歸檢測(cè)分支操作后輸出最終檢測(cè)信息。
圖1 本文算法的框架圖Fig.1 Framework of proposed algorithm
在傳統(tǒng)的FPN網(wǎng)絡(luò)基礎(chǔ)上,再增添了一組自下而上再自上而下的n型路徑,所提出的具有兩條n型路徑的網(wǎng)絡(luò)命名為雙金字塔特征融合網(wǎng)絡(luò)(SFPN)。由于本文所提出的網(wǎng)絡(luò)與ResNet+FPN結(jié)構(gòu)具有一定相似性,本文稱(chēng)原有結(jié)構(gòu)為一級(jí)金字塔特征融合網(wǎng)絡(luò),新增的結(jié)構(gòu)為二級(jí)金字塔特征融合網(wǎng)絡(luò)。
2.1.1 一級(jí)金字塔特征融合網(wǎng)絡(luò)
(1)ResNet101-M網(wǎng)絡(luò)
殘差網(wǎng)絡(luò)ResNet是He等[24]在2015年提出的一種卷積神經(jīng)網(wǎng)絡(luò),它通過(guò)其內(nèi)部相當(dāng)于跳躍連接的殘差結(jié)構(gòu)使用,同時(shí)在殘差結(jié)構(gòu)中加入BN層能夠一定程度上解決深層神經(jīng)網(wǎng)絡(luò)存在的梯度彌散與爆炸的問(wèn)題。
傳統(tǒng)Mask R-CNN的特征提取網(wǎng)絡(luò)由殘差網(wǎng)絡(luò)ResNet與特征金字塔網(wǎng)絡(luò)FPN組建而成。在一級(jí)金字塔特征融合網(wǎng)絡(luò)中,本文使用相同的方法對(duì)車(chē)牌進(jìn)行特征提取。而在特征提取時(shí)將Mish[25]激活函數(shù)引入到傳統(tǒng)的殘差網(wǎng)絡(luò)中替換了原先所使用的RELU激活函數(shù),并將引入Mish激活函數(shù)后的殘差網(wǎng)絡(luò)ResNet101記為
ResNet101-M。
相比于傳統(tǒng)殘差網(wǎng)絡(luò)中使用ReLU作為激活函數(shù),Mish激活函數(shù)在x=0附近相對(duì)平滑。對(duì)于正的值,Mish函數(shù)避免了由于封頂而導(dǎo)致的飽和。而對(duì)于負(fù)的值,Mish函數(shù)的平滑性能夠更好處理梯度流。網(wǎng)絡(luò)層數(shù)增加后,ReLU的精度下降較快,而Mish函數(shù)則可以更好地保持準(zhǔn)確性。RELU和Mish激活函數(shù)的數(shù)學(xué)表達(dá)式如(1)和式(2)所示:
引入Mish激活函數(shù)后的殘差網(wǎng)絡(luò)ResNet101包括五個(gè)殘差模塊,分別記為C1~C5,每個(gè)模塊均包含不等的殘差結(jié)構(gòu)。除C1外,每個(gè)殘差結(jié)構(gòu)均進(jìn)行3次卷積操作,卷積核大小分別為1×1、3×3和1×1。其中C2包含3個(gè)殘差結(jié)構(gòu),卷積核數(shù)量分別為64、64和256;C3包含4個(gè)殘差結(jié)構(gòu),卷積核的數(shù)量分別為128、128與512;C4包含23個(gè)殘差結(jié)構(gòu),卷積核數(shù)量分別為256、256和1 024;C5包含3個(gè)殘差結(jié)構(gòu),卷積核數(shù)量分別為512、512和2 048。整個(gè)網(wǎng)絡(luò)共由101層構(gòu)成,包含100個(gè)卷積層與1個(gè)池化層。
本文所使用的ResNet101-M網(wǎng)絡(luò)具體的相關(guān)參數(shù)如表1所示,在網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)設(shè)定上與傳統(tǒng)殘差網(wǎng)絡(luò)ResNet101保持了一致性并在殘差網(wǎng)絡(luò)每個(gè)階段的殘差結(jié)構(gòu)中使用了Mish作為激活函數(shù),輸入圖像經(jīng)過(guò)每一個(gè)階段均得到較上階段尺寸減半的特征圖。由此完成了一級(jí)金字塔特征融合網(wǎng)絡(luò)結(jié)構(gòu)中的自底向上的過(guò)程。
表1 ResNet101-M網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of ResNet101-M
(2)特征金字塔網(wǎng)絡(luò)
特征金字塔網(wǎng)絡(luò)FPN由Lin等[26]提出,被研究者們用于檢測(cè)不同尺度目標(biāo)。FPN網(wǎng)絡(luò)通過(guò)構(gòu)造一條自下而上和自上而下的n型網(wǎng)絡(luò)路徑,再利用側(cè)向連接使各層特性能相融合,從而能夠在多尺度目標(biāo)檢測(cè)任務(wù)中帶來(lái)顯著性能提升。
ResNet101-M網(wǎng)絡(luò)采用自下而上的路徑得到的不同尺度的特征圖C2~C5。FPN網(wǎng)絡(luò)結(jié)構(gòu)將ResNet101-M網(wǎng)絡(luò)最高層特征圖C5使用大小為1×1的卷積核改變通道數(shù)為256后得到新特征圖P5。隨后對(duì)P5進(jìn)行2倍上采樣處理,將其與經(jīng)過(guò)1×1卷積層處理后的通道數(shù)為256的C4進(jìn)行側(cè)向連接得到新特征圖P4,從而將高層特征與低層特征相融合使高層特征得到增強(qiáng)。
基于上述思想,將Pi(3≤i≤5)進(jìn)行2倍上采樣后,再對(duì)Ci-1(3≤i≤5)進(jìn)行1×1卷積層處理,最后對(duì)Pi與Ci-1進(jìn)行橫向連接融合得到Pi-1(3≤i≤5),由此完成了特征提取骨干網(wǎng)絡(luò)結(jié)構(gòu)中自上向下路徑的過(guò)程(對(duì)特征圖進(jìn)行1×1卷積操作是為了通過(guò)元素相加進(jìn)行側(cè)向連接操作來(lái)獲得相同特征圖的尺寸)。
2.1.2 二級(jí)金字塔特征融合網(wǎng)絡(luò)
對(duì)于二級(jí)網(wǎng)絡(luò)結(jié)構(gòu)中的上升沿路徑,P2先通過(guò)1×1的卷積層操作得到新特征圖M2,然后M2利用3×3大小且步長(zhǎng)2的卷積核下采樣處理,再與1×1卷積層處理后的P3進(jìn)行側(cè)向連接得到新特征圖M3。以此類(lèi)推,將Mi(2≤i≤4)進(jìn)行下采樣提取特征后與進(jìn)行同通道數(shù)的Pi+1(2≤i≤4)進(jìn)行側(cè)向連接后得到了Mi+1(2≤i≤4)。
通過(guò)構(gòu)建上升沿路徑所得到新特征圖M2~M5已經(jīng)具有了高層和底層相融合的特征信息,在此基礎(chǔ)上進(jìn)一步融合不同尺度的特征圖得到更多信息。對(duì)于下降沿路徑,具體操作與原始FPN網(wǎng)絡(luò)進(jìn)行自上而下的過(guò)程一致,對(duì)M5用1×1的卷積層過(guò)濾得到新的特征圖Q5,將Qi(3≤i≤5)進(jìn)行2倍上采樣之后,再與進(jìn)行1×1卷積層處理后Mi-1(3≤i≤5)進(jìn)行橫向連接得到Qi-1(3≤i≤5)。最后對(duì)Q2~Q5做3×3卷積操作消除上采樣混疊效應(yīng)后將其送入基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)。特征圖融合路徑的具體融合公式如式(3)~(6)所示:
其中,Pi表示原始FPN網(wǎng)絡(luò)中與殘差網(wǎng)絡(luò)融合后的特征圖,Mi表示雙金字塔特征融合網(wǎng)絡(luò)中新增自下而上的路徑中的特征圖,Q'i表示為雙金字塔特征融合網(wǎng)絡(luò)中與Mi進(jìn)行融合后的特征圖,Qi表示對(duì)Q'i卷積操作消除上采樣混疊效應(yīng)后的特征圖。conv()·表示對(duì)特征圖進(jìn)行卷積操作。Upsampling()·表示對(duì)特征圖進(jìn)行2倍上采樣卷積操作?!褎t表示對(duì)同通道數(shù)的特征圖進(jìn)行通道方向上的橫向拼接操作。
本文中雙金字塔特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖2中所示,它采用了雙金字塔特征融合網(wǎng)絡(luò)結(jié)構(gòu)來(lái)替代原先網(wǎng)絡(luò)所用ResNet與FPN所組成的特征提取骨干網(wǎng)絡(luò)。
圖2 雙金字塔特征融合網(wǎng)絡(luò)框架Fig.2 Framework of SFPN
傳統(tǒng)特征金字塔網(wǎng)絡(luò)在進(jìn)行特征融合時(shí)往往存在兩個(gè)弊端。其一,低層級(jí)的特征與高層級(jí)的特征融合路徑過(guò)長(zhǎng)所導(dǎo)致準(zhǔn)確定位難度較高、低層級(jí)的特征在整體融合過(guò)程中產(chǎn)生的作用較弱;其二,網(wǎng)絡(luò)輸出到下一階段的特征圖中僅包含本層級(jí)與高一層級(jí)的特征,對(duì)低于自身層級(jí)的特征利用不足。
針對(duì)上述問(wèn)題,本文提出的雙金字塔特征融合網(wǎng)絡(luò),通過(guò)在特征提取與融合階段加入了二級(jí)特征金字塔融合網(wǎng)絡(luò),使得特征融合時(shí)網(wǎng)絡(luò)結(jié)構(gòu)中不僅僅具有自底向上的側(cè)向連接路徑,還具有自上而下的側(cè)向連接路徑。這種改進(jìn)縮小了較低層級(jí)特征與頂部層級(jí)特征間的融合路徑,提升了低層級(jí)的特征在整個(gè)特征層級(jí)中所發(fā)揮的作用。因而,最終雙金字塔特征融合網(wǎng)絡(luò)所輸出的特征圖能同時(shí)包含自身層級(jí)、更高層級(jí)和更低層級(jí)三種不同的特征信息。如此設(shè)計(jì)能高效率地利用不同尺度特征中的信息,讓底層的位置信息與高層的語(yǔ)義信息得以充分利用,從而進(jìn)一步提高了網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率。
2.2.1 候選區(qū)域生成網(wǎng)絡(luò)
Faster R-CNN網(wǎng)絡(luò)中采用候選區(qū)域生成網(wǎng)絡(luò)替換了Fast R-CNN網(wǎng)絡(luò)所使用的候選區(qū)域生成方法,這種設(shè)計(jì)使得Faster R-CNN在生成候選區(qū)域的計(jì)算效率提升了一個(gè)數(shù)量級(jí),在本文算法中同樣采用結(jié)合錨框機(jī)制的候選區(qū)域生成網(wǎng)絡(luò)來(lái)生候選區(qū)域。其中錨框機(jī)制采用預(yù)先設(shè)定好的寬高比例與錨點(diǎn)尺寸來(lái)確定初始候選區(qū)域。當(dāng)骨干網(wǎng)絡(luò)不同尺度的特征圖被作為輸入送入RPN網(wǎng)絡(luò)后,對(duì)于該特征圖中的每一個(gè)像素均會(huì)生成k個(gè)候選區(qū)域。而網(wǎng)絡(luò)會(huì)根據(jù)非極大值抑制算法(nonmaximum suppression,NMS)對(duì)候選區(qū)域進(jìn)行篩選之后,保留含有前景的候選區(qū)域。候選區(qū)域生成網(wǎng)絡(luò)原理如圖3所示。
圖3 候選區(qū)域生成網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of RPN
2.2.2 基于形狀先驗(yàn)的錨點(diǎn)設(shè)置
在傳統(tǒng)Mask R-CNN所用的候選區(qū)域生成網(wǎng)絡(luò)RPN中,錨框的尺寸與比例設(shè)定直接影響著候選區(qū)域的生成。原始的錨框設(shè)定是根據(jù)Pascal VOC2007數(shù)據(jù)集所設(shè)定的,為能夠檢測(cè)出更多形狀的目標(biāo),Mask R-CNN將錨框尺寸設(shè)定為{322,642,1282,2562,5122}共5種尺寸與{1∶2,1∶1,2∶1}共3種比例,具有通用性。如圖4所示,本文算法的應(yīng)用場(chǎng)景主要應(yīng)用于復(fù)雜場(chǎng)景下的車(chē)牌檢測(cè)。由于車(chē)牌的候選框大多為長(zhǎng)條形狀(傾斜角度較大時(shí)約1∶1),因而原先的具普適性錨框比例設(shè)定對(duì)于車(chē)牌檢測(cè)來(lái)說(shuō)存在弊端。
由于原先錨框尺寸已經(jīng)可以覆蓋不同尺寸目標(biāo)的車(chē)牌,僅寬高比例并不具有針對(duì)性。因此,基于車(chē)牌的形狀學(xué)先驗(yàn)性,本文中算法在保持對(duì)傳統(tǒng)Mask R-CNN的RPN網(wǎng)絡(luò)中5種錨框尺寸設(shè)定一致的情況下,將原先3種{1∶2,1∶1,2∶1}比例優(yōu)化為{1∶1,2∶1,5∶2}。在不改變?cè)绣^框比例數(shù)量設(shè)定的基礎(chǔ)上,通過(guò)增添一組橫向的錨框比例替代豎向的錨框比例,使得最后RPN網(wǎng)絡(luò)所生成的候選區(qū)域更為準(zhǔn)確,并且可以降低計(jì)算量同時(shí)節(jié)約模型訓(xùn)練時(shí)間。圖4所示為改進(jìn)前后示意圖。
圖4 基于形狀先驗(yàn)的錨點(diǎn)設(shè)置Fig.4 Anchors based on shape prior
2.3.1 定位網(wǎng)絡(luò)與級(jí)聯(lián)結(jié)構(gòu)
感興趣區(qū)域匹配層用來(lái)提取候選區(qū)域的特征。它能夠根據(jù)候選區(qū)域的位置信息從特征圖上截取其相對(duì)應(yīng)的位置,并通過(guò)雙線性插值算法與最大值池化操作后將其池化為統(tǒng)一的7×7尺寸的特征圖送入全連接層。而在全連接層階段,網(wǎng)絡(luò)通過(guò)兩個(gè)通道數(shù)為1 024的全連接層完成候選框的分類(lèi)與回歸兩個(gè)分支的操作。整個(gè)定位網(wǎng)絡(luò)利用提取的車(chē)牌特征為輸入,輸出定位到的車(chē)牌位置信息。
為得到更加高質(zhì)量的檢測(cè)結(jié)果,本文在原有網(wǎng)絡(luò)結(jié)構(gòu)中引入級(jí)聯(lián)定位機(jī)制。新引入的級(jí)聯(lián)定位網(wǎng)絡(luò)共由三個(gè)階段性的定位網(wǎng)絡(luò)組成。在級(jí)聯(lián)定位網(wǎng)絡(luò)中,每個(gè)定位網(wǎng)絡(luò)具有相同的結(jié)構(gòu)。而對(duì)于所有定位網(wǎng)絡(luò)按階段依次設(shè)置0.5、0.6與0.7共3種不同的IoU閾值來(lái)劃分正負(fù)樣本,將每個(gè)階段定位網(wǎng)絡(luò)的輸出作為下個(gè)階段定位網(wǎng)絡(luò)的輸入從而使得級(jí)聯(lián)后定位網(wǎng)絡(luò)輸出結(jié)果的精度獲得逐步的提升。基于上述思想,不同于原始網(wǎng)絡(luò)僅用0.5IoU閾值作為正負(fù)樣本界定標(biāo)準(zhǔn),引入后的新定位網(wǎng)絡(luò)會(huì)每次對(duì)回歸邊框都提高一定的精度,通過(guò)調(diào)整回歸邊框?yàn)橄乱浑A段找到一個(gè)IoU更高的正樣本,以實(shí)現(xiàn)提高檢測(cè)框精確度的效果。
2.3.2 損失函數(shù)
在模型訓(xùn)練階段,本文方法共使用了四個(gè)損失函數(shù)來(lái)評(píng)估模型預(yù)測(cè)值與真值間的誤差??倱p失函數(shù)如式(7)所示:
其中,Lcls_r與Lbbx_r分別表示基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)訓(xùn)練時(shí)感興趣區(qū)域RoI前/后景分類(lèi)與位置坐標(biāo)損失,Lclsi與Lbbxi分別表示各階段定位網(wǎng)絡(luò)輸出的分類(lèi)及矩形框位置坐標(biāo)的損失。
在基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)的訓(xùn)練誤差中,Lcls_r使用二分類(lèi)交叉熵?fù)p失,而Lbbx_r使用Smooth-L1損失。具體公式如式(8)與式(9)所示:
式(8)中,網(wǎng)絡(luò)會(huì)將產(chǎn)生的錨框劃分為前景(包含車(chē)牌目標(biāo))與后景(不包含車(chē)牌目標(biāo))共兩類(lèi)。Ncls表示訓(xùn)練選擇的錨框數(shù)量,pi表示訓(xùn)練時(shí)錨框被預(yù)測(cè)為前景的概率,為真值標(biāo)簽,錨框?yàn)檎龢颖緲?biāo)簽值為1,反之則標(biāo)簽值為0。
式(9)中,Nreg表示特征圖中的像素?cái)?shù)量,ti表示網(wǎng)絡(luò)訓(xùn)練錨點(diǎn)預(yù)測(cè)的坐標(biāo)偏移量表示網(wǎng)絡(luò)訓(xùn)練錨點(diǎn)較真值的實(shí)際坐標(biāo)偏移量,R(·)為Smooth-L1函數(shù)。
感興趣區(qū)域匹配層會(huì)將統(tǒng)一尺寸的感興趣區(qū)域輸出到全連接層的最終分類(lèi)與矩形框回歸的分支。該階段的損失與網(wǎng)絡(luò)訓(xùn)練階段相似,具體相關(guān)計(jì)算公式如式(10)與式(11)所示:
其中,Ncls表示預(yù)測(cè)目標(biāo)數(shù)量,Nreg表示矩形框數(shù)量,pk表示訓(xùn)練時(shí)目標(biāo)預(yù)測(cè)為正樣本的概率,p*k為真值標(biāo)簽,目標(biāo)預(yù)測(cè)區(qū)域?yàn)檎龢颖緲?biāo)簽值為1,反之則標(biāo)簽值為0。
為了對(duì)本文算法進(jìn)行性能方面的評(píng)估,本文共使用了兩種車(chē)牌數(shù)據(jù)集來(lái)測(cè)試算法在車(chē)牌檢測(cè)中的性能。為更好地驗(yàn)證本車(chē)牌檢測(cè)算法在復(fù)雜背景、非均勻光照條件與惡劣天氣等干擾情況下的精確性與魯棒性,實(shí)驗(yàn)使用的AOLP數(shù)據(jù)集中包括了水平角度與不同的傾斜角度車(chē)牌,同時(shí)還涉及到城市交通復(fù)雜背景下的車(chē)牌。CCPD數(shù)據(jù)集中樣本則用于測(cè)試在雨天、雪天與霧天惡劣天氣、非均勻光照條件與拍攝抖動(dòng)模糊的干擾情況下車(chē)牌檢測(cè)的精確度。車(chē)牌數(shù)據(jù)集的詳細(xì)介紹如下。
(1)AOLP數(shù)據(jù)集
AOLP[27]數(shù)據(jù)集是一個(gè)被廣泛使用的開(kāi)源公共車(chē)牌檢測(cè)數(shù)據(jù)集。該數(shù)據(jù)集由2 049個(gè)臺(tái)灣車(chē)牌圖像樣本構(gòu)成。AOLP數(shù)據(jù)集一共分為3個(gè)子數(shù)據(jù)集:AC(access control)數(shù) 據(jù) 集、LE(law enforcement)數(shù) 據(jù) 集 與RP(road patrol)數(shù)據(jù)集。上述數(shù)據(jù)集分別含681、757和611個(gè)樣本。由于AC數(shù)據(jù)集樣本車(chē)輛多是以受限行駛速度通過(guò)道口時(shí)被拍攝捕捉到,因而樣本均為水平方向的車(chē)牌圖像;LE數(shù)據(jù)集樣本來(lái)自城市交通出行的車(chē)輛,包含行人、路燈與路標(biāo)的復(fù)雜道路背景等的干擾因素;RP數(shù)據(jù)集樣本大多數(shù)是傾斜的車(chē)牌圖像。
本文實(shí)驗(yàn)將AOLP數(shù)據(jù)集的樣本隨機(jī)劃分為訓(xùn)練集(85%)與測(cè)試集(15%)。為保證訓(xùn)練集與測(cè)試集中三個(gè)子數(shù)據(jù)集樣本的分布一致性,對(duì)子數(shù)據(jù)集都按同樣比例隨機(jī)進(jìn)行數(shù)據(jù)分割。AOLP數(shù)據(jù)集實(shí)驗(yàn)訓(xùn)練集為1 740個(gè)車(chē)牌圖像,測(cè)試集為309個(gè)車(chē)牌圖像。
(2)CCPD數(shù)據(jù)集
CCPD(Chinese City Parking Dataset)數(shù)據(jù)集是一個(gè)公共中國(guó)車(chē)牌數(shù)據(jù)集。該數(shù)據(jù)集是由Xu等[28]在ECCV2018上提出的一個(gè)全新的大型綜合多樣性國(guó)內(nèi)車(chē)牌數(shù)據(jù)集,樣本數(shù)量超過(guò)25萬(wàn)張。樣本數(shù)據(jù)采集自國(guó)內(nèi)各大停車(chē)場(chǎng),所有圖像樣本分辨率均為720×1 160,且圖像均拍攝于不同時(shí)間與光照條件(如白天、傍晚與夜晚),不同的氣候環(huán)境(如雨、雪天)等挑戰(zhàn)性的復(fù)雜環(huán)境。
出于驗(yàn)證算法對(duì)不同干擾情況下的表現(xiàn),本文實(shí)驗(yàn)在CCPD車(chē)牌數(shù)據(jù)集上選擇了CCPD中的CCPD-Blur與CCPD-Weather兩個(gè)子數(shù)據(jù)集來(lái)分別驗(yàn)證本文方法復(fù)雜環(huán)境下車(chē)牌檢測(cè)的性能與魯棒性。其中CCPD-Blur數(shù)據(jù)集樣本中存在抖動(dòng)模糊與不均勻光照的干擾因素;CCPD-Weather數(shù)據(jù)集樣本中存在極端天氣條件的干擾因素。
實(shí)驗(yàn)共使用了五種具有不同特色的車(chē)牌數(shù)據(jù)集(如表2所示),由于不同的車(chē)牌數(shù)據(jù)集中的樣本具有明顯的差異性與挑戰(zhàn)性,從而可以更好地驗(yàn)證本文方法在復(fù)雜環(huán)境下不同干擾時(shí)的車(chē)牌檢測(cè)效果,進(jìn)一步驗(yàn)證本文改進(jìn)算法的可行性。
表2 車(chē)牌檢測(cè)實(shí)驗(yàn)中不同數(shù)據(jù)集的詳細(xì)介紹Table 2 Detailed introduction of different datasets in license plate detection experiments
基于車(chē)牌目標(biāo)檢測(cè)與自然場(chǎng)景下通用文本檢測(cè)應(yīng)用場(chǎng)景的相似性,本實(shí)驗(yàn)使用與遵循文獻(xiàn)[29]中所用的評(píng)價(jià)指標(biāo)用作衡量本文算法的驗(yàn)證性能指標(biāo)。本文實(shí)驗(yàn)中共使用了4種評(píng)價(jià)指標(biāo)來(lái)評(píng)估算法在車(chē)牌數(shù)據(jù)集上的檢測(cè)性能,包括了精確率(Precision),召回率(Recall),F(xiàn)值(F1-Measure)與圖像平均處理時(shí)間T。
精確率(Precision)定義為檢測(cè)算法所預(yù)測(cè)為車(chē)牌樣本且預(yù)測(cè)準(zhǔn)確的樣本數(shù)量占算法預(yù)測(cè)的樣本數(shù)量的比率;召回率(Recall)定義為檢測(cè)算法所預(yù)測(cè)為車(chē)牌樣本且預(yù)測(cè)準(zhǔn)確的樣本數(shù)量占測(cè)試集總樣本數(shù)量的比率;F值(F1-Measure)是綜合檢測(cè)性能評(píng)價(jià)指標(biāo),通過(guò)對(duì)精確率與召回率綜合計(jì)算來(lái)衡量算法總體性能,該數(shù)值越大則表明算法性能越優(yōu)異;圖像平均處理時(shí)間T定義為本文中算法處理單幅車(chē)牌圖像的平均時(shí)間。上述評(píng)價(jià)指標(biāo)具體計(jì)算方式如式(12)、(13)所示:
其中,TP表示車(chē)牌樣本被檢測(cè)為正樣本且實(shí)際也為正樣本的樣本數(shù)量;FP表示車(chē)牌樣本被檢測(cè)為正樣本但實(shí)際為負(fù)樣本的樣本數(shù)量;FN表示車(chē)牌樣本被檢測(cè)為負(fù)樣本但實(shí)際為正樣本的樣本數(shù)量。
同時(shí),在實(shí)驗(yàn)中定義交并比(intersection over union,IoU)作為界定車(chē)牌正/負(fù)樣本的閾值標(biāo)準(zhǔn)。交并比IoU的具體計(jì)算公式如式(14)所示:
其中,Rpred表示為訓(xùn)練模型所檢測(cè)到的邊界框面積,Rgt表示數(shù)據(jù)標(biāo)注真值的邊界框面積。當(dāng)IoU數(shù)值在實(shí)驗(yàn)中被設(shè)置0.5時(shí),對(duì)于一個(gè)車(chē)牌區(qū)域,模型檢測(cè)到的邊界框與真值邊界框的IoU大于50%,則判定為正樣本,反之為負(fù)樣本。在本實(shí)驗(yàn)中,采用0.5、0.6與0.7共3種不同IoU閾值來(lái)分別測(cè)定訓(xùn)練本文提出的網(wǎng)絡(luò)在兩種車(chē)牌數(shù)據(jù)集上的車(chē)牌檢測(cè)性能。
車(chē)牌檢測(cè)實(shí)驗(yàn)環(huán)境為:Intel i7-9700k 3.6 GHz CPU,NVIDIA GeForce RTX2080 GPU,實(shí)驗(yàn)所用的操作系統(tǒng)為Windows10 x64,所用的深度學(xué)習(xí)框架為T(mén)ensorFlow 1.9.0,所用開(kāi)發(fā)語(yǔ)言為Python 3.6.9,編譯環(huán)境為PyCharm 2019。
本文實(shí)驗(yàn)中所構(gòu)建網(wǎng)絡(luò)模型采用MS COCO預(yù)訓(xùn)練模型,學(xué)習(xí)率參數(shù)設(shè)置為0.000 75,批量參數(shù)設(shè)置為2,優(yōu)化策略為隨機(jī)梯度下降法,動(dòng)量參數(shù)設(shè)置為0.9,L2正則化權(quán)重衰減系數(shù)設(shè)置為0.000 1,訓(xùn)練最大迭代次數(shù)共90 000次?;谲?chē)牌形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)訓(xùn)練時(shí)的錨框篩選閾值為0.7。車(chē)牌檢測(cè)實(shí)驗(yàn)中所涉及的相關(guān)參數(shù)具體設(shè)置如表3所示。
表3 實(shí)驗(yàn)所涉及的相關(guān)參數(shù)具體設(shè)置Table 3 Relevant parameters involved in experiments
本文提出的模型由3個(gè)部分組成,包括了雙金字塔特征融合網(wǎng)絡(luò)、基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)和級(jí)聯(lián)定位網(wǎng)絡(luò)。
3.4.1 實(shí)驗(yàn)訓(xùn)練步驟
本文方法在模型訓(xùn)練階段的具體步驟如下:
輸入:復(fù)雜環(huán)境下的車(chē)牌圖像。
步驟1將輸入圖像統(tǒng)一為512×512尺寸。
步驟2將縮放后的車(chē)牌圖像送入雙金字塔特征融合網(wǎng)絡(luò)進(jìn)行特征提取。輸入圖像通過(guò)一級(jí)特征融合網(wǎng)絡(luò)提取初級(jí)特征P2~P5。
步驟3將步驟2中的特征圖P2~P5送入二級(jí)特征融合網(wǎng)絡(luò)進(jìn)行特征增強(qiáng)得到特征圖Q2~Q5。
步驟4根據(jù)預(yù)先設(shè)置的基于車(chē)牌形狀的錨框尺寸與比例,基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)會(huì)對(duì)步驟3得到的特征圖中的每個(gè)點(diǎn)均生成相對(duì)于原圖像的3種不同比例的錨框。
步驟5基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)對(duì)每個(gè)錨框預(yù)測(cè)前/后景得分與位置偏移后對(duì)錨框進(jìn)行修正并篩選出部分錨框作為候選區(qū)域。
步驟6根據(jù)損失函數(shù)基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò),計(jì)算錨框與真值的IoU,并按IoU閾值分別篩選等量的正負(fù)樣本進(jìn)行訓(xùn)練。
步驟7根據(jù)損失函數(shù)訓(xùn)練級(jí)聯(lián)定位網(wǎng)絡(luò),計(jì)算步驟5中候選區(qū)域與真值的IoU,并按IoU閾值分別為0.5,0.6與0.7界定篩選200個(gè)正負(fù)訓(xùn)練樣本后送入感興趣區(qū)域匹配層。該層將候選區(qū)域的坐標(biāo)映射回對(duì)應(yīng)的特征圖后進(jìn)行特征圖尺寸統(tǒng)一后送入回歸器與分類(lèi)器,分別得到其回歸位置偏移與分類(lèi)得分。
3.4.2 實(shí)驗(yàn)重要過(guò)程與可視化分析
對(duì)于3.4.1節(jié)中實(shí)驗(yàn)訓(xùn)練階段步驟中重要過(guò)程結(jié)果,本文在本小節(jié)進(jìn)行更深入的實(shí)驗(yàn)過(guò)程與可視化分析。
對(duì)于本文方法在特征提取階段所使用的雙金字塔特征融合網(wǎng)絡(luò),表4中詳細(xì)地列出了雙金字塔特征融合網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)參數(shù)。
表4 雙金字塔特征融合網(wǎng)絡(luò)的相關(guān)參數(shù)Table 4 Relevant parameters in SFPN
對(duì)于本文所提出的級(jí)聯(lián)定位網(wǎng)絡(luò),圖5給出了不同階段下的級(jí)聯(lián)定位網(wǎng)絡(luò)在車(chē)牌定位的質(zhì)量上的視覺(jué)比較。為了更直觀地比較級(jí)聯(lián)定位網(wǎng)絡(luò)對(duì)于車(chē)牌檢測(cè)結(jié)果在精細(xì)程度上的修正情況,圖5對(duì)于每一幅車(chē)牌檢測(cè)的結(jié)果均給出了檢測(cè)邊界框與真實(shí)標(biāo)注框的IoU數(shù)值(用于評(píng)估檢測(cè)邊界框與真實(shí)標(biāo)注框的接近程度,IoU數(shù)值越大表示檢測(cè)結(jié)果越接近真值,即車(chē)牌檢測(cè)結(jié)果越精細(xì))。
圖5 不同階段性級(jí)聯(lián)定位網(wǎng)絡(luò)的定位效果對(duì)比Fig.5 Comparison of detection results of cascaded positioning network in different stages
在網(wǎng)絡(luò)訓(xùn)練階段,原有定位網(wǎng)絡(luò)在訓(xùn)練階段會(huì)將
3.4.1小節(jié)步驟5中生成的候選區(qū)域先計(jì)算與真值的IoU后按0.5的IoU閾值來(lái)界定正負(fù)訓(xùn)練樣本。較之原有定位網(wǎng)絡(luò)的單階段訓(xùn)練,定位網(wǎng)絡(luò)在引入級(jí)聯(lián)定位的改進(jìn)策略后會(huì)將定位網(wǎng)絡(luò)的訓(xùn)練分為三個(gè)階段來(lái)訓(xùn)練網(wǎng)絡(luò)的分類(lèi)器與回歸器。這種級(jí)聯(lián)訓(xùn)練能夠以階段化提高界定正負(fù)樣本的IoU閾值的方式來(lái)進(jìn)一步篩選高質(zhì)量的候選區(qū)域,從而使得最終檢測(cè)結(jié)果更精細(xì)。
由圖5給出的檢測(cè)結(jié)果比較可以看出,三級(jí)定位網(wǎng)絡(luò)的檢測(cè)結(jié)果在不同情況下均比前兩級(jí)定位網(wǎng)絡(luò)的檢測(cè)結(jié)果更精細(xì)??梢园l(fā)現(xiàn),圖5(a)、(b)與(c)中檢測(cè)結(jié)果的IoU值呈現(xiàn)依次遞增的趨勢(shì),說(shuō)明級(jí)聯(lián)網(wǎng)絡(luò)不同階段能夠?qū)z測(cè)結(jié)果在精細(xì)程度上進(jìn)行修正。在第2行的樣例中,前兩級(jí)定位網(wǎng)絡(luò)的檢測(cè)結(jié)果邊緣均不夠細(xì)致,而在第三級(jí)定位網(wǎng)絡(luò)中得到了接近真值的修正。對(duì)于第4行的樣例,前兩級(jí)定位網(wǎng)絡(luò)均未能完整檢測(cè)出整個(gè)車(chē)牌區(qū)域,會(huì)影響后續(xù)對(duì)數(shù)字4的識(shí)別,得益于在第三級(jí)定位網(wǎng)絡(luò)的修正,最終檢測(cè)結(jié)果能夠完整地檢測(cè)車(chē)牌區(qū)域。
結(jié)合上述分析,原有定位網(wǎng)絡(luò)在引入級(jí)聯(lián)訓(xùn)練的改進(jìn)策略后能夠?qū)?chē)牌檢測(cè)的精細(xì)程度進(jìn)行修正,每經(jīng)過(guò)一個(gè)階段都可以得到一個(gè)比上階段精度更高的結(jié)果,最終獲得高質(zhì)量檢測(cè)回歸框,從而證明本文算法引入級(jí)聯(lián)定位策略具有一定的成效性。
3.4.3 消融實(shí)驗(yàn)結(jié)果和分析
本文算法包括了4種不同改進(jìn)策略,包括雙金字塔特征融合網(wǎng)絡(luò)、Mish激活函數(shù)、基于車(chē)牌形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)與級(jí)聯(lián)定位網(wǎng)絡(luò)。為了驗(yàn)證本文所提出的各種策略的有效性,在AOLP數(shù)據(jù)集上進(jìn)行了訓(xùn)練并在測(cè)試集上進(jìn)行了5組消融實(shí)驗(yàn)。
使用不同改進(jìn)策略的消融實(shí)驗(yàn)性能統(tǒng)計(jì)與車(chē)牌檢測(cè)示例對(duì)比如表5與圖6所示,以下分別對(duì)消融實(shí)驗(yàn)進(jìn)行定量與定性的評(píng)估與分析。
通過(guò)表5對(duì)實(shí)驗(yàn)中不同改進(jìn)策略后算法的精確率與召回率結(jié)果觀察對(duì)比可以發(fā)現(xiàn),在不同IoU閾值下實(shí)驗(yàn)所用的4種改進(jìn)策略對(duì)算法的檢測(cè)性能均有一定提升,其中精確率提升較明顯。消融實(shí)驗(yàn)中不同結(jié)果均在低IoU閾值下保持較高的召回率。
表5 不同改進(jìn)策略在AOLP數(shù)據(jù)集的消融實(shí)驗(yàn)Table 5 Ablation experiments using different improvement strategies on AOLP
第一組實(shí)驗(yàn)中,使用傳統(tǒng)Mask R-CNN作為基準(zhǔn)方法(Baseline)在AOLP數(shù)據(jù)集上進(jìn)行測(cè)試,不同IoU閾值下的精確率均為97.47%,而F值均為98.56%?;贐aseline的車(chē)牌檢測(cè)示例如圖6(a)所示,可以發(fā)現(xiàn)Baseline模型的檢測(cè)結(jié)果存在大量誤檢的問(wèn)題,模型會(huì)將車(chē)標(biāo)與其他干擾性文字等非車(chē)牌區(qū)域誤判為車(chē)牌區(qū)域(例如圖6第1~4行)。此外,該方法中車(chē)牌位置的檢測(cè)也不夠準(zhǔn)確。
圖6 使用不同改進(jìn)策略消融實(shí)驗(yàn)的檢測(cè)結(jié)果對(duì)比Fig.6 Comparison of detection results inablation experiments using different improvement strategies
第二組實(shí)驗(yàn)中,在Baseline的基礎(chǔ)上加入了雙金字塔特征融合網(wǎng)絡(luò)并進(jìn)行測(cè)試,不同IoU判定下的精確率均為98.09%,F(xiàn)值為98.88%??梢园l(fā)現(xiàn)在特征提取階段添加入雙金字塔融合網(wǎng)絡(luò)后,多層車(chē)牌特征能夠充分融合從而有效提升模型精度(0.62個(gè)百分點(diǎn)),且不會(huì)增加過(guò)多檢測(cè)時(shí)間。基于Baseline+①模型的車(chē)牌檢測(cè)示例如圖6(b)所示。該組示例仍存在不少誤檢的情況,但較之Baseline,該模型對(duì)一些干擾情況的誤判已經(jīng)減少。與此同時(shí),該方法的定位準(zhǔn)確度也有一定提升。由此可見(jiàn),引入雙金字塔特征融合網(wǎng)絡(luò)具有不錯(cuò)的效果。
第三組實(shí)驗(yàn)中,本文在Baseline+①模型中加入了Mish激活函數(shù)。在AOLP測(cè)試集上不同IoU閾值判定下取得的精確率均為98.40%,F(xiàn)值均為99.03%。由此可見(jiàn),通過(guò)在特征提取中引入Mish激活函數(shù)可以提升網(wǎng)絡(luò)的分類(lèi)精度,使得模型較Baseline+①在精確率上提升了0.31個(gè)百分點(diǎn),F(xiàn)值上提升了0.15個(gè)百分點(diǎn)?;贐aseline+①②模型的車(chē)牌檢測(cè)示例如圖6(c)所示。該組示例中對(duì)于非車(chē)牌區(qū)域的誤檢率相比第二組實(shí)驗(yàn)進(jìn)一步減少。實(shí)驗(yàn)結(jié)果表明,引入Mish激活函數(shù)能夠有效提高分類(lèi)精度。
第四組實(shí)驗(yàn)中,本文在Baseline+①②模型的基礎(chǔ)上增加了基于形狀先驗(yàn)的錨點(diǎn)設(shè)置網(wǎng)絡(luò)并在AOLP數(shù)據(jù)集上進(jìn)行測(cè)試。表5的定量評(píng)估顯示,通過(guò)將通用錨框優(yōu)化為符合車(chē)牌檢測(cè)任務(wù)的錨框后模型較Baseline+①②在低IoU上提升了0.32個(gè)百分點(diǎn)的精確率?;贐aseline+①②③模型的車(chē)牌檢測(cè)示例如圖6(d)所示。該方法的檢測(cè)結(jié)果在分類(lèi)精確度上的表現(xiàn)比之前模型更優(yōu)異。
第五組實(shí)驗(yàn)中,本文在Baseline+①②③模型中引入級(jí)聯(lián)定位網(wǎng)絡(luò)在AOLP數(shù)據(jù)集上進(jìn)行測(cè)試,在0.5、0.6與0.7IoU下的精確率均為100.00%,F(xiàn)值均為99.83%。其車(chē)牌檢測(cè)示例如圖6(e)所示,不難看出網(wǎng)絡(luò)在引入級(jí)聯(lián)定位策略后的分類(lèi)精度與定位精細(xì)度均有較大的提高,且車(chē)牌定位更貼合真值。基于上述分析,本文方法能夠在不同IoU閾值下進(jìn)一步提升車(chē)牌檢測(cè)性能,所用改進(jìn)策略均具有成效。
同時(shí),本文結(jié)合表5中數(shù)據(jù)對(duì)所提出算法結(jié)合模型參數(shù)與所用時(shí)間進(jìn)行如下分析:對(duì)于檢測(cè)速度而言,傳統(tǒng)Mask R-CNN測(cè)試單幅圖像平均耗時(shí)270 ms。引入雙金字塔融合網(wǎng)絡(luò)后,在特征提取階段運(yùn)算量有所增加,模型參數(shù)由241 MB提升到了265 MB,平均耗時(shí)增加5 ms;在引入Mish激活函數(shù)后,模型參數(shù)保持不變,平均耗時(shí)增加3 ms。可以看出,策略①②在提升模型檢測(cè)精度的同時(shí),由于運(yùn)算量增加導(dǎo)致模型參數(shù)與檢測(cè)時(shí)間有所增加,但增幅不大。在優(yōu)化RPN中的錨框比例后,模型參數(shù)保持不變,平均檢測(cè)時(shí)間由278 ms降低至271 ms,進(jìn)一步驗(yàn)證優(yōu)化錨框比例后由于錨框比例對(duì)于車(chē)牌形狀的實(shí)用性從而使得模型計(jì)算量有所降低。最后,在之前模型基礎(chǔ)上引入了級(jí)聯(lián)定位策略,改進(jìn)后的模型(即本文算法)在總體精度性能上提升幅度較之前策略都要明顯,不同IoU下精確度提升高達(dá)0.97個(gè)百分點(diǎn),F(xiàn)值上提升高達(dá)0.48個(gè)百分點(diǎn)。但在單幅檢測(cè)時(shí)間上增加了106 ms,在模型參數(shù)上增加了106 MB。由此可見(jiàn),級(jí)聯(lián)定位策略在被引入后模型在檢測(cè)時(shí)會(huì)按三個(gè)不同階段性迭代檢測(cè)優(yōu)化精度,從而導(dǎo)致整體檢測(cè)時(shí)間與模型參數(shù)的增加。對(duì)于改進(jìn)后的算法雖然提升了較多精度,但也額外提升了計(jì)算量,對(duì)于單幅車(chē)牌的平均檢測(cè)時(shí)間保持在377 ms,可滿足實(shí)際應(yīng)用需求。
除消融實(shí)驗(yàn)外,還將本文算法與近年來(lái)其他使用AOLP數(shù)據(jù)集的文獻(xiàn)方法進(jìn)行比較。表6~8分別給出了0.5IoU閾值下不同算法在AC、LE與RP三個(gè)AOLP子數(shù)據(jù)集上的檢測(cè)結(jié)果比較情況。
表6 不同算法在AOLP-AC數(shù)據(jù)集結(jié)果比較Table 6 Comparison of different algorithms results on AOLP-AC
對(duì)于該部分實(shí)驗(yàn)的數(shù)據(jù)集劃分,本文遵循文獻(xiàn)[30]中原則,即在表6中使用LE與RP數(shù)據(jù)集樣本作為訓(xùn)練來(lái)評(píng)估算法在AC數(shù)據(jù)集上的檢測(cè)性能,表7與表8以此類(lèi)推。
表7 不同算法在AOLP-LE數(shù)據(jù)集結(jié)果比較Table 7 Comparison of different algorithms results on AOLP-LE
表8 不同算法在AOLP-RP數(shù)據(jù)集結(jié)果比較Table Comparison of different algorithms results on AOLP-RP
通過(guò)表6~8中的檢測(cè)結(jié)果比較可以看出,以0.5IoU閾值為統(tǒng)一評(píng)估標(biāo)準(zhǔn),根據(jù)表6對(duì)于AC數(shù)據(jù)集,本文算法在精確率與召回率為100.00%和99.41%,本文方法明顯優(yōu)于其他算法的檢測(cè)結(jié)果。
如表7所示,在LE數(shù)據(jù)集中本文算法的精確率為99.47%,召回率為98.81%,F(xiàn)值為99.14%。精確率比文獻(xiàn)[32]算法提升了0.27個(gè)百分點(diǎn),召回率略低于文獻(xiàn)[32]算法,實(shí)驗(yàn)結(jié)果表明本文方法為確保檢出結(jié)果的準(zhǔn)確性,選擇犧牲了一定召回率。
而在表8的RP數(shù)據(jù)集的檢測(cè)結(jié)果比較中,本文算法在精確率與召回率均表現(xiàn)優(yōu)異,精確率和召回率均優(yōu)于其他算法,整體的優(yōu)越性相對(duì)明顯。
除了在AOLP數(shù)據(jù)集上的3個(gè)子數(shù)據(jù)集與其他文獻(xiàn)中不同算法進(jìn)行對(duì)比實(shí)驗(yàn)外,還將本文提出的算法與SSD(文獻(xiàn)[16]算法)、文獻(xiàn)[17]算法、文獻(xiàn)[19]算法、Faster R-CNN(文獻(xiàn)[20]算法)、Mask R-CNN(文獻(xiàn)[22]算法)、YOLOv3(文獻(xiàn)[33]算法)在多個(gè)車(chē)牌數(shù)據(jù)集上進(jìn)行了車(chē)牌檢測(cè)實(shí)驗(yàn),來(lái)評(píng)估本文算法在不同類(lèi)型車(chē)牌檢測(cè)場(chǎng)景下的優(yōu)越性和有效性。
表9中給出了本文改進(jìn)算法以及其他算法在不同類(lèi)型車(chē)牌數(shù)據(jù)集上的對(duì)比結(jié)果。由表可見(jiàn),本文算法與原Mask R-CNN(文獻(xiàn)[22]算法)相比,F(xiàn)值在AOLP數(shù)據(jù)集上提升了1.27個(gè)百分點(diǎn),在CCPD-Weather數(shù)據(jù)集上提升了0.83個(gè)百分點(diǎn),在CCPD-Blur上提升了1.71個(gè)百分點(diǎn)??梢钥闯觯倪M(jìn)后的算法在不同類(lèi)型車(chē)牌數(shù)據(jù)集上比未改進(jìn)前均有性能提高,其中對(duì)于清晰度較差的車(chē)牌數(shù)據(jù)有顯著的提升。綜合分析來(lái)看,本文算法與其他算法相比在精度上都具有優(yōu)勢(shì),因而改進(jìn)的算法模型具有一定的魯棒性與泛化性。
表9 不同算法在不同數(shù)據(jù)集上的F值結(jié)果Table 9 F-measure of different algorithms on different datasets
除了表9給出的與其他算法的定量對(duì)比分析以外,圖7中本文將所提出算法與其他算法進(jìn)行了定性對(duì)比分析。其中,第1~5行分別代表了正常情況下的水平車(chē)牌、城市道路場(chǎng)景的車(chē)牌、停車(chē)場(chǎng)傾斜角度的車(chē)牌、雨雪極端天氣下的車(chē)牌與光照不足而且抖動(dòng)模糊的車(chē)牌共5種不同類(lèi)型車(chē)牌檢測(cè)場(chǎng)景的結(jié)果對(duì)比圖。對(duì)于所提出的算法在不同類(lèi)型車(chē)牌檢測(cè)場(chǎng)景中與其他算法的有效性與優(yōu)勢(shì)的定性分析如下述:
圖7 不同算法在不同車(chē)牌檢測(cè)場(chǎng)景下的結(jié)果對(duì)比Fig.7 Comparison of different algorithms detection effects in various license plate detection scenarios
由圖7第1行可以看出,對(duì)于正常的水平車(chē)牌檢測(cè),本文算法與其他算法都可以正確檢測(cè)到車(chē)牌的位置。但在準(zhǔn)確性與細(xì)致性上,文獻(xiàn)[16]算法、文獻(xiàn)[20]算法和文獻(xiàn)[33]算法表現(xiàn)較差,本文算法稍優(yōu)于文獻(xiàn)[22]算法。由圖7第2行可以看出,對(duì)于城市復(fù)雜道路場(chǎng)景的車(chē)牌檢測(cè),文獻(xiàn)[20]算法的回歸框質(zhì)量最低,文獻(xiàn)[16]算法與文獻(xiàn)[33]算法也不細(xì)致。文獻(xiàn)[22]算法左側(cè)部分未能完整定位整個(gè)車(chē)牌字符,因此該結(jié)果可能會(huì)影響后續(xù)識(shí)別的效果。而本文算法的回歸框與真值框最貼合。由圖7第3行可以看出,對(duì)于停車(chē)場(chǎng)傾斜角度的車(chē)牌檢測(cè),文獻(xiàn)[16]算法、文獻(xiàn)[20]算法與文獻(xiàn)[33]算法的檢測(cè)框與真值標(biāo)注的切合程度均較差,本文算法與文獻(xiàn)[22]算法在回歸框質(zhì)量上稍占據(jù)優(yōu)勢(shì)。由圖7第4行可以看出,對(duì)于雨雪極端天氣下的車(chē)牌檢測(cè),文獻(xiàn)[20]算法的回歸框兩側(cè)都檢測(cè)到了多余背景區(qū)域,過(guò)于粗糙。文獻(xiàn)[33]算法的回歸框在左側(cè)部分也檢測(cè)了多余的背景。而本文算法與除上述兩種算法以外的其他算法相比,在細(xì)膩程度上的優(yōu)勢(shì)更為顯著。由圖7第5行可以看出,對(duì)于光照不足而且抖動(dòng)模糊的車(chē)牌檢測(cè),各個(gè)檢測(cè)算法之間檢測(cè)結(jié)果差距不大,本文算法稍優(yōu)于其他4種算法。
綜合上述定量與定性分析,實(shí)驗(yàn)結(jié)果表明,本文算法得益于雙金字塔特征融合、車(chē)牌形狀先驗(yàn)與級(jí)聯(lián)定位等策略改進(jìn)后較傳統(tǒng)Mask R-CNN檢測(cè)性能更優(yōu),回歸質(zhì)量更好。與其他不同算法的相比也有一定的魯棒性,同時(shí)在不同類(lèi)型的車(chē)牌檢測(cè)場(chǎng)景下檢測(cè)結(jié)果表現(xiàn)穩(wěn)定,具有一定的泛化性。
實(shí)驗(yàn)證明,本文算法能夠?qū)?chē)牌目標(biāo)進(jìn)行針對(duì)性的檢測(cè),同時(shí)結(jié)合雙金字塔特征融合網(wǎng)絡(luò)與使用級(jí)聯(lián)結(jié)構(gòu)定位的策略實(shí)現(xiàn)了高質(zhì)量定位,使得檢測(cè)更具有效性與精確性。今后,將嘗試使用多邊形來(lái)對(duì)車(chē)牌目標(biāo)進(jìn)行形狀更貼合的檢測(cè)以期望達(dá)到更優(yōu)檢測(cè)效果。同時(shí),如何在保證計(jì)算速度前提下實(shí)現(xiàn)高精度車(chē)牌檢測(cè)是未來(lái)的研究方向。