鄒北驥,雷太航,劉 姝,廖望旻,姜靈子
(1.中南大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長沙 410083;2.中南大學(xué) 湖南省機(jī)器視覺與智慧醫(yī)療工程技術(shù)研究中心,湖南 長沙 410083)
近年來,智能監(jiān)控技術(shù)不斷發(fā)展,越來越普及。在涉及汽車違法犯罪的事件中,對車輛信息的采集格外重要。為了更好地獲取車輛信息,人們在城市街道路口和高速公路出入口設(shè)置了許多攝像頭,對來往車輛進(jìn)行采集作業(yè)。借助車牌、車標(biāo)、車型等關(guān)鍵標(biāo)識來監(jiān)控車輛,在打擊各種違法犯罪活動中發(fā)揮著重要作用。考慮城市道路場景中存在著車牌污損、套牌和惡意遮擋等情況,基于機(jī)動車品牌、型號和顏色進(jìn)行識別的應(yīng)用往往更加廣泛[1]。因此,車標(biāo)識別具有很高的實(shí)用價值,不僅能在交管部門、停車區(qū)域、維修中心等場所為車輛的管理與引導(dǎo)提供依據(jù),還能為車牌和車型識別提供支持[2]。
面向真實(shí)拍攝的自然場景,車標(biāo)識別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),這是因?yàn)椋旱缆穲鼍皬?fù)雜,攝像頭多為廣角鏡頭且距離較遠(yuǎn),可能導(dǎo)致車輛并非圖像中的主體[2-3],如圖1所示;車標(biāo)作為車身中一小塊區(qū)域,其主體性更無法突出。此外,由于汽車通常處于高速運(yùn)動狀態(tài),拍攝圖像很可能出現(xiàn)動態(tài)模糊;同時受到光線、天氣、角度等眾多因素影響,成像質(zhì)量也將下降。最先興起的車標(biāo)識別依賴人工對圖像進(jìn)行核查,耗費(fèi)了大量的人力物力,促使著國內(nèi)外專家學(xué)者對智能化車標(biāo)識別開展研究工作。
圖1 真實(shí)拍攝的道路場景,車輛的主體性不顯著Fig.1 Road scene captured by a real camera,where vehicles are not the main parts
現(xiàn)有的自然場景車標(biāo)識別方法主要分為兩類:基于傳統(tǒng)特征的方法和基于深度學(xué)習(xí)的方法。基于傳統(tǒng)特征的方法先采用直方圖、紋理、不變矩等傳統(tǒng)特征描述車標(biāo),再使用機(jī)器學(xué)習(xí)算法對其進(jìn)行分類預(yù)測。羅彬等[4]結(jié)合邊緣直方圖與模版匹配算法對17類車標(biāo)進(jìn)行識別,準(zhǔn)確率達(dá)到91%。劉嘉敏等[5]采用Hu不變矩提取車標(biāo)圖像特征,在識別種類很少的車標(biāo)時性能優(yōu)越;隨著車標(biāo)種類增多,某些不變矩特征較為接近,從而影響了識別力。文獻(xiàn)[6]通過車標(biāo)車燈的拓?fù)浣Y(jié)構(gòu)先對車標(biāo)進(jìn)行定位,再利用邊緣不變矩實(shí)現(xiàn)車標(biāo)分類。Psyllos等[7]提出一種基于尺度不變特征變換的增強(qiáng)匹配框架,在1 200幅共10類的車標(biāo)數(shù)據(jù)集上取得了97%的平均準(zhǔn)確率。此類方法簡單、高效,但對種類偏多的車標(biāo)識別效果較差。此外,傳統(tǒng)特征的構(gòu)建依賴于各自數(shù)據(jù)庫,魯棒性不足。
基于深度學(xué)習(xí)的車標(biāo)識別方法無須人為設(shè)計(jì)特征,而是從車標(biāo)數(shù)據(jù)中自動學(xué)習(xí)特征表達(dá)。Huang等[8]引入預(yù)訓(xùn)練策略,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)遷移至車標(biāo)識別任務(wù)中,在一個大規(guī)模10分類數(shù)據(jù)庫上獲得了突破性成果。近些年,多種CNN結(jié)構(gòu)及其變體的有效性也得到證實(shí),如殘差網(wǎng)絡(luò)(ResNet)與Inception網(wǎng)絡(luò)聯(lián)合模型[9]、多通路樹狀CNN[10]等,均取得了比傳統(tǒng)CNN更好的車標(biāo)識別性能。值得一提的是,上述兩項(xiàng)工作僅針對車標(biāo)區(qū)域圖像開展研究,跳過了車標(biāo)檢測步驟,對真實(shí)拍攝的復(fù)雜場景適用性不強(qiáng)。此類方法能自動學(xué)習(xí)車標(biāo)特征,與傳統(tǒng)特征相比預(yù)測效果更為出色,但深層網(wǎng)絡(luò)部署較復(fù)雜,訓(xùn)練時間較長。
車標(biāo)數(shù)據(jù)是訓(xùn)練車標(biāo)識別模型并且保證其泛化力的關(guān)鍵。不同工作所使用的數(shù)據(jù)庫[7-9,11]規(guī)格不一,來源也不盡相同,對于靜態(tài)、近距離、光線好等實(shí)驗(yàn)室環(huán)境下獲取的車標(biāo)樣本,識別算法的準(zhǔn)確率與實(shí)用性均有待考證[12]。據(jù)目前所知,公開的數(shù)據(jù)庫包括Medialab LPR[11]、XMU車標(biāo)庫[8]和HFUT-VL[13],分別存在數(shù)據(jù)量小、車標(biāo)種類少、樣本僅涉及車標(biāo)區(qū)域的問題,在現(xiàn)實(shí)應(yīng)用中的適用度不高[14-15]。為填補(bǔ)這些不足,本文建立了一個面向自然場景的大型車標(biāo)數(shù)據(jù)集。與文獻(xiàn)[7,9,16]相比,數(shù)據(jù)規(guī)模擴(kuò)充了近10倍,包含10 324幅真實(shí)拍攝的車輛圖片,且場景分布更為復(fù)雜;與文獻(xiàn)[8-9,11]相比,車標(biāo)種類擴(kuò)大了近7倍,覆蓋我國路面約95%的汽車品牌。此數(shù)據(jù)集可為車標(biāo)、車牌、車型識別等相關(guān)研究奠定數(shù)據(jù)基礎(chǔ)。
作為上述數(shù)據(jù)集的直接應(yīng)用成果,本文提出了一個基于目標(biāo)檢測和深度學(xué)習(xí)的車標(biāo)識別方法,包括車標(biāo)檢測(Vehicle Logo Detection,VLD)與車標(biāo)識別(Vehicle Logo Recognition,VLR)兩大步驟。車標(biāo)檢測算法采用YOLOv3框架[17],并結(jié)合仿射變換矩陣,快速準(zhǔn)確地從自然場景的車輛圖像中定位車標(biāo)感興趣區(qū)域;車標(biāo)識別算法利用50層ResNet(ResNet-50)[18],實(shí)現(xiàn)對車標(biāo)的分類預(yù)測。實(shí)驗(yàn)結(jié)果表明,本文方法能有效應(yīng)對復(fù)雜自然場景中的車標(biāo)識別問題,對于涉及多種類的車標(biāo)識別任務(wù)達(dá)到了89.0%的準(zhǔn)確度。
車標(biāo)數(shù)據(jù)的獲取是整個識別過程的根基。本領(lǐng)域內(nèi)采用的數(shù)據(jù)通常來源于已公開的LPR庫[11]和其他采集途徑,各自存在著數(shù)據(jù)規(guī)模小、車標(biāo)種類少、成像環(huán)境部分理想化等問題,使得車標(biāo)識別方法缺乏可信度和實(shí)用性。因此,本文構(gòu)建了一個自然場景下的全新實(shí)驗(yàn)數(shù)據(jù)庫,所有車輛圖片均由作者拍攝所得,并標(biāo)注了車標(biāo)位置和種類。
本文精心設(shè)計(jì)了數(shù)據(jù)采集與過濾標(biāo)準(zhǔn),主要考慮以下三個方面。
1)圖片分辨率:本研究的應(yīng)用場景定位為道路監(jiān)控,真實(shí)監(jiān)控?cái)z像頭拍攝的道路圖片大多在500萬像素或者更高,選用分辨率與之接近的拍攝設(shè)備以獲取貼近現(xiàn)實(shí)采集環(huán)境的車輛數(shù)據(jù)。由于蘋果和華為手機(jī)的拍攝分辨率足夠適應(yīng)當(dāng)前先進(jìn)的監(jiān)控系統(tǒng),本研究利用這兩款手機(jī)攝像頭完成數(shù)據(jù)采集工作。
2)拍攝光線、距離、角度:為了使后續(xù)研究的車標(biāo)識別方法能夠有效應(yīng)對復(fù)雜多變的成像環(huán)境,提高其魯棒性,研究對拍攝光線、距離和角度不做過多限制。采集過程中選擇在不同天氣、時間或場地進(jìn)行拍攝,以保證不同光照強(qiáng)度下都有充足的樣本量。如圖2所示,為獲取暗光、較暗光和強(qiáng)光下的車輛圖像,可分別在夜晚或地下停車場、陰雨天和晴天采集數(shù)據(jù)。同時兼顧多距離拍攝條件,采用定點(diǎn)拍攝方式,對近距離(1~5 m)和遠(yuǎn)距離(5~40 m)的來往車輛進(jìn)行采集作業(yè),如圖3所示。此外,為了避免自然場景過于相似,還需經(jīng)常調(diào)整拍攝位置和角度,通常選擇在道路左、右側(cè)和車輛前、后方獲取多個角度的拍攝樣本,如圖4所示。
(a) 夜晚 (b) 地下停車場 (c) 陰天 (d) 晴天(a) Night (b) Underground parking (c) Cloudy day (d) Sunny day 圖2 不同光線下拍攝的車輛數(shù)據(jù)示例Fig.2 Examples of vehicle images captured under different illuminations
(a) 近距離 (b) 遠(yuǎn)距離(a) Short distance (b) Long distance圖3 不同距離下拍攝的車輛數(shù)據(jù)示例Fig.3 Examples of vehicle images captured under different distances
(a) 前方 (b) 左前方 (c) 右前方 (d) 俯視(a) Front (b) Front left (c) Front right (d) Overlooking圖4 不同角度下拍攝的車輛數(shù)據(jù)示例Fig.4 Examples of vehicle images captured under different views
3)各類車標(biāo)數(shù)據(jù)量:大規(guī)模、多樣化的車標(biāo)數(shù)據(jù)集是有效訓(xùn)練識別模型并且增強(qiáng)其泛化力的關(guān)鍵。數(shù)據(jù)集中各類車標(biāo)應(yīng)保持充足的樣本數(shù),考慮到車標(biāo)種類繁多,采用“地毯式”與“針對式”相結(jié)合的拍攝方式。首先通過“地毯式”拍攝高效地獲取大量自然場景中的車輛圖像,并對品牌進(jìn)行劃分與整理。其中,采集數(shù)排名前30的車標(biāo)已經(jīng)涵蓋我國路面約90%的品牌,期望這些種類都有100幅以上的樣本量。對于數(shù)量未達(dá)標(biāo)的車標(biāo)種類(如圖5中的標(biāo)致、五菱、起亞等),赴對應(yīng)品牌經(jīng)銷商或修理廠進(jìn)行“針對式”拍攝。其他非主流品牌(如圖5中的中華、江淮等),同樣需經(jīng)過“針對式”拍攝,保證其20~80幅采集量即可。
圖5 “地毯式”拍攝后,部分品牌采集量的分布直方圖Fig.5 The number of some vehicle brands after the “blanket” collection
本研究共采集了10 324幅自然場景車輛圖片,涉及67類車標(biāo),多種光線強(qiáng)度、遠(yuǎn)近距離和拍攝角度。借助labelme工具對圖像中車標(biāo)位置進(jìn)行手工標(biāo)定,數(shù)據(jù)集按照車標(biāo)種類分別存放于對應(yīng)文件夾,總大小為35.1 GB。
表1簡要描述了車標(biāo)識別研究中的現(xiàn)存數(shù)據(jù)庫。顯然,它們各自存在著一些問題,包括數(shù)據(jù)規(guī)模偏小、車標(biāo)種類少、成像環(huán)境較單一、僅含車標(biāo)區(qū)域樣本、公開性較差。大部分工作所使用的樣本數(shù)為幾百到幾千不等;雖然文獻(xiàn)[8]包含一萬余個樣本,其中卻只有1 000個是真實(shí)拍攝所得,其余則由數(shù)據(jù)增廣等手段獲取。文獻(xiàn)[13]公布了目前最大的數(shù)據(jù)庫HFUT-VL,但32 000幅圖像均為車標(biāo)或其附近限定區(qū)域,由此建立的車標(biāo)識別模型對真實(shí)場景的適用性不強(qiáng);文獻(xiàn)[7-9,16,19]同樣存在這一局限性(如圖6所示)。LPR庫[11]提供了自然場景下的車輛數(shù)據(jù),但部分樣本不具有車標(biāo)區(qū)域。
圖6 僅含車標(biāo)區(qū)域的樣本示例Fig.6 Examples of samples with only vehicle logos
表1 數(shù)據(jù)集各指標(biāo)對比Tab.1 Comparison of datasets
此外,車標(biāo)多樣性不足、成像復(fù)雜性不高也是大多數(shù)數(shù)據(jù)庫的共性問題[7,11,16,19]。
本文在擴(kuò)充數(shù)據(jù)量和車標(biāo)數(shù)的基礎(chǔ)上,綜合復(fù)雜多變的拍攝環(huán)境與背景,獲取了自然場景中的車輛圖片,并給出車標(biāo)位置和標(biāo)簽,以期望提高分類預(yù)測的魯棒性。本數(shù)據(jù)集的各項(xiàng)指標(biāo)如表1所示。考慮到樣本的圖片內(nèi)容,還可衍生出諸多應(yīng)用場景,如自然場景車輛、車牌和車型的檢測與識別。
數(shù)據(jù)集的創(chuàng)建對于車輛及其屬性(如車牌、車標(biāo)、車型等)研究有著重要的意義。作為其直接應(yīng)用成果之一,本文還開展了面向自然場景的車標(biāo)識別方法研究。整體框架如圖7所示,分為VLD和VLR兩大部分。
圖7 車標(biāo)識別整體框架Fig.7 Framework of vehicle logo recognition
VLD包括車輛及車牌檢測、圖像傾斜矯正、車標(biāo)區(qū)域定位三個步驟,實(shí)現(xiàn)了從復(fù)雜背景的車輛圖像中快速準(zhǔn)確地提取車標(biāo)感興趣區(qū)域,有效應(yīng)對自然場景下車標(biāo)主體不突出的問題。
首先利用YOLOv3及Poly-YOLO框架[17,20]檢測車輛以及車牌角點(diǎn)。YOLOv3是一種高效且高精度的小目標(biāo)檢測框架,核心結(jié)構(gòu)為Darknet-53網(wǎng)絡(luò),其原理為對目標(biāo)所在的邊界框在3個特征層上進(jìn)行卷積預(yù)測,并預(yù)測邊界框內(nèi)包含目標(biāo)的概率;Poly-YOLO具有針對旋轉(zhuǎn)矩形框進(jìn)行檢測的能力,能高效準(zhǔn)確獲取車牌區(qū)域及角點(diǎn)。將原始圖片送入YOLO訓(xùn)練,并獲取車輛和車牌角點(diǎn),如圖8所示。
圖8 車輛及車牌檢測Fig.8 Vehicle and license plate detection
考慮車輛區(qū)域可能存在傾斜,借助車牌角點(diǎn)坐標(biāo)關(guān)系進(jìn)行仿射變換,實(shí)現(xiàn)車輛整體的方向修正[21]。假設(shè)點(diǎn)a、c、d分別位于車牌左下角、左上角、右上角,點(diǎn)A、C、D為仿射變換后對應(yīng)點(diǎn),兩者間變換公式為:
(1)
(2)
(3)
其中,440/140為我國車輛牌照尺寸。將這三組點(diǎn)的坐標(biāo)值輸入式(4),求得仿射變換矩陣的參數(shù)θ11、θ12、θ13、θ21、θ22、θ23:
(4)
其中,[x,y]和[x′,y′]分別表示矯正前、后點(diǎn)坐標(biāo)。對車輛區(qū)域的每個點(diǎn)均按照式(4)進(jìn)行方向修正,盡可能消除圖像傾斜導(dǎo)致的背景復(fù)雜性。
最后,根據(jù)車牌與車標(biāo)的一般相對位置關(guān)系,將車牌上方1倍車牌寬度和3倍車牌高度的范圍圈定為車標(biāo)感興趣區(qū)域(如圖9所示),用于后續(xù)的識別模型訓(xùn)練。
圖9 車標(biāo)感興趣區(qū)域的定位效果示例Fig.9 Examples of vehicle logo region localization
VLR包括深度學(xué)習(xí)訓(xùn)練和車標(biāo)識別分類兩個步驟,基于深度殘差網(wǎng)絡(luò)[18]得以實(shí)現(xiàn)。該網(wǎng)絡(luò)在前向卷積層外部引入恒等映射越層連接,構(gòu)成如圖10所示的殘差單元塊,使得網(wǎng)絡(luò)能直接對殘差F(x)=H(x)-x進(jìn)行學(xué)習(xí),而無須再擬合原始映射H(x),從而解決由于層數(shù)增加帶來的退化問題。
圖10 殘差單元塊Fig.10 Residual block
經(jīng)過對不同層數(shù)ResNet的初步試驗(yàn),對比發(fā)現(xiàn)ResNet-50的預(yù)測性能優(yōu)于ResNet-34和ResNet-101,可能的原因?yàn)椋?0層ResNet比34層網(wǎng)絡(luò)更深,特征識別力更強(qiáng);而ResNet-101對于本數(shù)據(jù)集而言結(jié)構(gòu)又過于復(fù)雜,更容易出現(xiàn)過擬合問題。因此,后續(xù)實(shí)驗(yàn)使用ResNet-50進(jìn)行車標(biāo)識別分類。
將車標(biāo)圖像分辨率歸一化至224×224×3,送入卷積層,卷積核大小為7×7×64,填充深度為3,步長為2,輸出為112×112×64;再進(jìn)入最大池化層,池化核為3×3,填充深度為0,步長為2,該層輸出為56×56×64;接著經(jīng)過4個卷積塊,其中每一塊卷積12次,再進(jìn)入平均池化層,池化核為7×7,填充深度為0,步長為1,輸出為1×1×2 048;每個卷積層后連接了批量標(biāo)準(zhǔn)化BN層和修正線性單元ReLU;最后通過全連接層再次卷積,經(jīng)由Softmax得到車標(biāo)分類的預(yù)測概率。
本數(shù)據(jù)集涉及眾多車標(biāo),且每一種類的樣本量不一。為測試本文車標(biāo)識別方法的有效性,依次篩選了包含65、52、42、30類車標(biāo)的6 000、5 000、4 000、3 000幅圖像作為訓(xùn)練集,以及包含各自車標(biāo)種類的1 000個樣本作為測試集,分別進(jìn)行深度學(xué)習(xí)訓(xùn)練。識別結(jié)果如表2所示,鑒于前三個訓(xùn)練集涉及車標(biāo)種類較多,而部分種類沒有充足的數(shù)據(jù)量,即數(shù)據(jù)分布不均衡,使得模型訓(xùn)練受限,因此后續(xù)實(shí)驗(yàn)將在僅含30類車標(biāo)的3 000幅訓(xùn)練圖像上開展,訓(xùn)練后的識別模型則在互不重疊的1 000幅測試圖像上得以確立。
表2 不同訓(xùn)練集下的車標(biāo)識別性能對比Tab.2 Comparison of vehicle logo recognition on different training sets
測試集中,近距離和遠(yuǎn)距離拍攝樣本均有500幅,強(qiáng)光、弱光和暗光拍攝樣本分別有357、366和277幅。表3和表4展示了成像距離和光照條件對車標(biāo)識別準(zhǔn)確率的影響。對于近距離拍攝的車輛圖像,其車標(biāo)識別率達(dá)到了93.2%,遠(yuǎn)高于遠(yuǎn)距離拍攝樣本,原因在于遠(yuǎn)距離車輛的主體性不明顯,使得車標(biāo)區(qū)域太小且分辨率較低,一定程度上影響了預(yù)測結(jié)果。對于強(qiáng)光拍攝的車輛圖像,其車標(biāo)識別率為92.4%,隨著光照變暗,識別率逐漸降低。盡管如此,本識別算法對自然場景下的車輛圖像仍有85%以上的準(zhǔn)確率,對距離和亮度變化有著較好的魯棒性。
表3 不同距離拍攝下的車標(biāo)識別性能對比Tab.3 Comparison of vehicle logo recognition under different shooting distances
表4 不同光線拍攝下的車標(biāo)識別性能對比Tab.4 Comparison of vehicle logo recognition under different shooting illuminations
若剔除車輛檢測步驟,直接對原始圖像進(jìn)行車牌檢測及后續(xù)處理,研究發(fā)現(xiàn)其對近距離拍攝的樣本影響不大,對遠(yuǎn)距離樣本(特別是包含多輛汽車時)影響較大,大大降低了車標(biāo)的辨識效果。若剔除圖像傾斜矯正或車標(biāo)區(qū)域定位步驟,而直接進(jìn)行其他操作,車標(biāo)識別的總體準(zhǔn)確率均呈現(xiàn)不同程度的下降(如表5所示),這也從側(cè)面烘托了VLD算法在車標(biāo)識別中的有效性。
表5 剔除部分VLD步驟下的車標(biāo)識別性能對比Tab.5 Comparison of vehicle logo recognition after removing some VLD steps
對車標(biāo)誤識別數(shù)據(jù)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn),當(dāng)其形狀和尺寸相近時,更容易出現(xiàn)被錯誤分類的情況。這主要體現(xiàn)在奇瑞與英菲尼迪,以及傳祺與雷克薩斯這兩組車標(biāo)種類上,如圖11所示。對奇瑞的誤識別共有7個樣本,其中6個被預(yù)測為英菲尼迪,而對英菲尼迪的誤識別共有5個樣本,全被預(yù)測為奇瑞;對傳祺的誤識別中,被預(yù)測為雷克薩斯的概率為3/5,反之為3/4。
上述實(shí)驗(yàn)結(jié)果表明,本文車標(biāo)識別方法能有效應(yīng)對復(fù)雜多變的自然場景,獲得較好的車標(biāo)識別效果。與其他相關(guān)工作相比,本研究覆蓋了較多的車標(biāo)種類和多樣的場景分布,保留了一個完整的從目標(biāo)檢測到分類的車標(biāo)識別全過程,具有更強(qiáng)的實(shí)用性。
(a) 奇瑞與英菲尼迪(a) CHERY versus INFINITI
本文詳細(xì)敘述了自然場景車標(biāo)數(shù)據(jù)集的創(chuàng)建過程,包括數(shù)據(jù)獲取的環(huán)境、條件及各項(xiàng)指標(biāo)對比。作為其應(yīng)用成果,提出了一種融合目標(biāo)檢測和深度學(xué)習(xí)的車標(biāo)識別方法,實(shí)現(xiàn)了對自然場景中的車輛進(jìn)行車標(biāo)區(qū)域定位和分類預(yù)測的全過程。實(shí)驗(yàn)結(jié)果表明,該方法在處理復(fù)雜自然場景且涉及多類車標(biāo)的識別任務(wù)時,仍具有較好的準(zhǔn)確度,能夠滿足實(shí)際應(yīng)用的需要。
在未來的研究中,將從以下幾個方面進(jìn)行展開:繼續(xù)擴(kuò)充自然場景車標(biāo)數(shù)據(jù)集的規(guī)模及多樣性,期望提高自然場景車標(biāo)數(shù)據(jù)集的科研價值;使用更大規(guī)模的數(shù)據(jù)進(jìn)行車標(biāo)識別模型的訓(xùn)練,期望提高自然場景中的車標(biāo)識別方法的準(zhǔn)確率;考察車標(biāo)種類之間的關(guān)聯(lián)性,針對車標(biāo)誤識別情況,通過設(shè)計(jì)并調(diào)整損失函數(shù)的方法,期望減少相關(guān)車標(biāo)種類之間誤識別現(xiàn)象的發(fā)生。