李海燕,常富蓉
(喀什大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆喀什 844000)
LI Hai-yan,CHANG Fu-rong
(School of Computer Sciences,Kashgar University,Kashgar 844000)
基于深度學(xué)習(xí)文字檢測的復(fù)雜環(huán)境車牌定位方法
李海燕,常富蓉
(喀什大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,新疆喀什 844000)
機(jī)動(dòng)車車牌定位已經(jīng)成為智能交通、城市生活管理中不可缺少的一項(xiàng)技術(shù),目前定位設(shè)計(jì)方法多基于車牌形狀、顏色、邊緣等特征提出。文字也是車牌包含的重要特征信息之一,車牌識(shí)別的目標(biāo)是識(shí)別車牌中的文字符號(hào),從這一不同角度考慮,提出一種基于車牌文字特征檢測的車牌定位方法,該方法應(yīng)用深度學(xué)習(xí)技術(shù)的卷積神經(jīng)網(wǎng)絡(luò)提取車牌文字特征,生成特征映射圖,作為定位車牌的重要依據(jù)。實(shí)驗(yàn)表明該方法不需要圖像預(yù)處理和復(fù)雜后續(xù)處理步驟,通用性和魯棒性較好,對復(fù)雜環(huán)境下多方向、多場景車牌定位效果良好。
車牌定位;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);復(fù)雜場景
機(jī)動(dòng)車車牌作為車輛主要識(shí)別標(biāo)志之一,在智能交通管理中發(fā)揮重要作用,車牌定位和識(shí)別也是近年來研究的熱點(diǎn)問題。因?yàn)樘厥馐褂铆h(huán)境,車牌上的文字內(nèi)容在較窄范圍內(nèi),文字間尺度變化不大,獨(dú)立識(shí)別任務(wù)已經(jīng)取得較高準(zhǔn)確率[1],車牌定位直接影響車牌整體識(shí)別效果。已有車牌定位研究,多利用車牌顏色特征[2-3]、角點(diǎn)特征[4]、邊緣特征[5-6]等。在辨識(shí)度高、水平方向、環(huán)境影響小的前提下,車牌識(shí)別已成功應(yīng)用在停車場、檢查站管理中,但在惡劣天氣、拍攝角度不固定、背景復(fù)雜等眾多場景中,車牌定位和識(shí)別仍然是個(gè)難題[4-5,7]。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Net?work,CNN)在復(fù)雜場景下的圖像分類、目標(biāo)識(shí)別,場景分割等任務(wù)上,都取得令人矚目的成就。國內(nèi),將卷積神經(jīng)網(wǎng)絡(luò)方法應(yīng)用在車牌定位研究上也獲得較好的效果[4,8]。文獻(xiàn)[4]提出用7層全卷積的神經(jīng)網(wǎng)絡(luò)模型,尋找車牌左上角、右下角的角點(diǎn)特征,將兩點(diǎn)信息匹配合并得到車牌位置信息;文獻(xiàn)[8]選擇28×28的車牌候選區(qū),進(jìn)行灰度化和二值化處理后,送入兩層卷積神經(jīng)網(wǎng)絡(luò)的分類器,判斷輸入圖像是否車牌。直觀上,文字也是車牌包含的一項(xiàng)重要特征信息,我國現(xiàn)行民用車牌為92式車牌,包括中文字符、英文字符和數(shù)字等。車牌識(shí)別目標(biāo)最終還是識(shí)別文字信息,車牌定位常見的去鉚釘、去邊框等操作,都是為了去除檢測結(jié)果對識(shí)別文字的干擾。本文從這一新角度出發(fā),利用CNN在特征學(xué)習(xí)方面的優(yōu)勢,提取車牌文字特征,作為車牌定位的重要參考信息,同時(shí)通過CNN過濾復(fù)雜場景下大量非文字干擾信號(hào),大大減少定位過程圖像預(yù)處理和后續(xù)處理步驟。
20世紀(jì)80年代,F(xiàn)ukushima提出了神經(jīng)認(rèn)知機(jī)[9],是一個(gè)層次性結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)節(jié)點(diǎn)局部連接,被看做是卷積神經(jīng)網(wǎng)絡(luò)的最初實(shí)現(xiàn)。此后,LeCun等將反向傳播算法應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò),在手寫數(shù)字的識(shí)別[10]方面取得當(dāng)時(shí)最好結(jié)果。近年,深層卷積神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在語音識(shí)別、計(jì)算機(jī)視覺等多方面。
圖像輸入卷積層,由卷積核提取圖像局部特征信息,卷積核參數(shù)初始化可設(shè)為隨機(jī)值。提取到圖像局部特征后,即卷積核參數(shù)確定,卷積核在圖像上類似滑動(dòng)窗口的移動(dòng),對其余位置使用同樣局部特征做卷積運(yùn)算,得到整張圖像對這一特征的映射值,如圖1(a),輸入圖像假設(shè)為5×5大小,經(jīng)一層卷積核為3×3的卷積層(conv_1)計(jì)算,生成3×3大小特征映射圖,再經(jīng)第二層卷積核為3×3的卷積層(conv_2),生成1×1大小特征映射圖。通過使用不同的卷積核,反復(fù)這一過程,提取圖像不同局部特征,產(chǎn)生多個(gè)特征映射圖。卷積核的大小決定了特征的局部學(xué)習(xí)范圍,也叫感受野,卷積核常設(shè)為正方形,如大小為3×3,5×5,即計(jì)算 3×3,5×5像素塊內(nèi)局部特征,重疊多個(gè)尺寸小的卷積核對應(yīng)到原始圖像上能獲取較大感受野,提取到較大范圍內(nèi)局部特征。因?yàn)樘崛【植刻卣骱?,網(wǎng)絡(luò)使用相同卷積核參數(shù)作用在整個(gè)圖像上,實(shí)現(xiàn)特征共享,大大減少了網(wǎng)絡(luò)參數(shù)。
圖1 卷積層(a)、池化層(b)數(shù)據(jù)處理示意圖
卷積神經(jīng)網(wǎng)絡(luò)計(jì)算卷積,是不斷從訓(xùn)練圖像中學(xué)習(xí)局部特征的過程,疊加卷積層,例如圖1(a)疊加兩層卷積層,相當(dāng)于再抽象學(xué)習(xí)圖像高一級特征,參數(shù)設(shè)置沒有人工參與,學(xué)習(xí)過程相對穩(wěn)定。而且卷積核數(shù)目眾多,疊加層數(shù)足夠多時(shí),卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到手工設(shè)計(jì)特征無法描述的圖像特征,因此具有強(qiáng)大提取圖像特征能力。
經(jīng)卷積層計(jì)算得圖像所有特征映射圖,為提取到圖像盡可能多的特征,一般網(wǎng)絡(luò)設(shè)計(jì)卷積核數(shù)量較多,所以特征映射圖數(shù)據(jù)量大,直接計(jì)算導(dǎo)致空間、時(shí)間復(fù)雜度很大。另外,卷積核設(shè)計(jì)尺寸相比較于圖像非常的小,以保證局部特征提取全面,這一設(shè)計(jì)也容易導(dǎo)致網(wǎng)絡(luò)訓(xùn)練結(jié)果過擬合。因此,常對圖像局部區(qū)域特征使用最大化、平均化聚合操作,即降采樣,稱為池化,見圖 1(b),輸入 4×4大小的圖像,經(jīng)過第一池化層(pool?ing_1),池化因子 2×2,保留 2×2大小圖像,若連續(xù)池化,再經(jīng)2×2的第二池化層(pooling_2),最終保留 1×1大小圖像。一般池化層連接在卷積層后,池化層保留的信息即圖像部分局部特征,帶來輸出尺寸減小、網(wǎng)絡(luò)位移不變性、縮放不變性增加等諸多優(yōu)點(diǎn)。上采樣也稱反卷積,是池化操作反過程,常用作增大圖像尺寸。
為盡可能多地保留原始圖像信息,本文方法不對輸入圖像做大量預(yù)處理操作,例如常見的去噪聲、歸一化、灰度化等,實(shí)驗(yàn)訓(xùn)練階段卷積神經(jīng)網(wǎng)絡(luò)輸入圖像學(xué)習(xí)車牌特征,測試階段,車牌圖像送入訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),產(chǎn)生特征映射圖,根據(jù)映射值確認(rèn)文字位置,反卷積恢復(fù)至原圖像尺寸,二值化處理并結(jié)合車牌形狀特征,定位車牌位置,實(shí)驗(yàn)流程如圖2所示:
早期圖像處理技術(shù)中,淺層神經(jīng)網(wǎng)絡(luò)提取圖像簡單特征,近年來,深度學(xué)習(xí)技術(shù)的發(fā)展,使得深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練越來越成熟,可以提取圖像高級特征。本文實(shí)驗(yàn)采用VGG16卷積網(wǎng)絡(luò)結(jié)構(gòu)[11]為基礎(chǔ),VGG16網(wǎng)絡(luò)包含有13個(gè)卷積層,5個(gè)池化層,交替組合設(shè)計(jì),有利于提取圖像文字高層抽象特征。圖3中以池化層為間隔分2-3個(gè)卷積層為一組,每組內(nèi)卷積核數(shù)量一樣,從左到右依次為64,128,256,512,512。網(wǎng)絡(luò)卷積核大小一致,方形3×3,參數(shù)均從訓(xùn)練數(shù)據(jù)中獲得。
如圖 3,輸入圖像 224×224,經(jīng)過 64個(gè) 3×3卷積核,學(xué)習(xí)得 64×224×224特征映射圖,送入 2×2最大池化層,輸出64×112×112特征映射圖,依次經(jīng)后續(xù)卷積層,在第5層池化層得到512×14×14特征映射圖,網(wǎng)絡(luò)各層參數(shù)設(shè)計(jì)詳見圖3。至此,獲得定位車牌定位所需文字特征映射值,試驗(yàn)未采用VGG16網(wǎng)絡(luò)模型的后續(xù)處理層。
圖2 車牌定位實(shí)驗(yàn)流程圖
圖3 車牌定位卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
卷積神經(jīng)網(wǎng)絡(luò)提取特征具體步驟見2.1部分,網(wǎng)絡(luò)訓(xùn)練過程需要大量已標(biāo)注車牌數(shù)據(jù),目前國內(nèi)還沒有公開的車牌數(shù)據(jù)集。文獻(xiàn)[4]收集了45 000張包含車牌的卡口數(shù)據(jù)和監(jiān)控?cái)z像數(shù)據(jù),進(jìn)行人工標(biāo)注車牌角點(diǎn)信息,經(jīng)平移、縮放、旋轉(zhuǎn)、添加噪聲、去噪聲等操作,擴(kuò)展到100 000張作為卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),標(biāo)注車牌數(shù)據(jù)準(zhǔn)備困難,工作量大,成本高。
我國車牌文字分為三部分:一位表示省、直轄市的漢字,一位表示車輛所在地市一級代碼的英文字符,和五位英文字符、阿拉伯?dāng)?shù)字混排組合??紤]本文使用車牌文字特征定位車牌,實(shí)驗(yàn)使用三個(gè)公開文字?jǐn)?shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),提取文字特征,包括一個(gè)英文單詞數(shù)據(jù)集,一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)集,和一個(gè)包含英文、中文字符的數(shù)據(jù)集,分別是:ICDAR13(International Conference on Document Analysis and Recognition 2013),MNIST(Mixed?National Institute of Standards and Technology?Database),MSTR-TD500(MSRA Text Detection 500 Da?tabase),數(shù)據(jù)集信息如下表1所示,訓(xùn)練數(shù)據(jù)涵蓋了我國標(biāo)準(zhǔn)車牌包含的漢字、英文、數(shù)字,有利于卷積神經(jīng)網(wǎng)絡(luò)提取車牌文字特征。
因國內(nèi)還未有公開的車牌數(shù)據(jù)集,無法在統(tǒng)一平臺(tái)比較車牌定位各方法性能,給出定量精度指標(biāo)。實(shí)驗(yàn)測試圖像均來自網(wǎng)絡(luò)車牌圖像,除了車牌水平方向、清晰、簡單背景外,還專門采集了傾斜角度大、分辨率低、背景包含樹木、人物、及多輛車等干擾信息的極端環(huán)境車牌圖像,驗(yàn)證本文方法有效性和魯棒性,實(shí)驗(yàn)前期沒有對輸入圖像進(jìn)行任何尺度變換、去噪聲等預(yù)處理,模擬多設(shè)備、多場景取得車牌圖像的應(yīng)用場景。
定位測試實(shí)驗(yàn)流程結(jié)果如圖4所示:測試圖片(圖4(a))進(jìn)入圖2訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),經(jīng)最后一個(gè)池化層后,生成特征映射圖,定位文字位置(圖4(b)),反卷積操作恢復(fù)至原始圖像大小,二值化(圖4(c)),根據(jù)車牌矩形、長寬比范圍等信息,過濾干擾信息,最終確定車牌位置(圖 4(d)、(e))。
圖4 車牌定位測試實(shí)驗(yàn)流程結(jié)果圖
圖5第一行是原始車牌圖像,分別包括多車牌、多車輛、圖像模糊、車牌反光等多種復(fù)雜場景車牌,第二行是對應(yīng)圖像特征映射圖的二值化結(jié)果,車牌定位比較準(zhǔn)確,在干擾信息多的復(fù)雜背景,得益于卷積神經(jīng)網(wǎng)絡(luò)文字檢測優(yōu)勢,在未對實(shí)驗(yàn)結(jié)果做過多約束、過濾情況下,依然得到良好定位效果,證明本文方法不存在手工設(shè)計(jì)特征局限性、環(huán)境適應(yīng)性差等缺點(diǎn)。圖5(a)多車牌重疊,造成形狀不規(guī)則,角點(diǎn)信息不明確等;圖5(b)是多車行駛中檢測結(jié)果;圖5(c)雨、霧等惡劣天氣使圖像模糊;圖5(d)車牌帶有明顯反光干擾,造成形狀特征不全,類似車牌遮擋情況,對基于邊緣檢測、角點(diǎn)檢測方法都是難點(diǎn)問題。
圖5 多車牌、有干擾的復(fù)雜環(huán)境車牌定位
本文還進(jìn)行了算法通用性實(shí)驗(yàn),圖6挑選了有別于常規(guī)車牌位置、長寬比、車身裝飾干擾、角度傾斜等多場景圖像,這些場景對常規(guī)定位方法都極具挑戰(zhàn)性。圖6(a)包含兩個(gè)車牌的特殊情況;圖6(b)是外國車牌,車牌形狀、文字排布都與我國車牌有較大差別;圖 6(c)、圖 6(d)包含有強(qiáng)邊緣特征干擾,且圖 6(d)車牌方向傾斜角度較大。實(shí)驗(yàn)結(jié)果表明極端情況下,本文實(shí)驗(yàn)車牌定位基本準(zhǔn)確,方法通用性好。
圖6 本文方法通用性實(shí)驗(yàn)結(jié)果
不受場地、光線限制的場景,也常導(dǎo)致車牌定位準(zhǔn)確率很低,圖7第一行車牌拍攝角度隨意、圖像亮度變化范圍廣,對顏色特征、邊緣特征為主的車牌定位方法干擾很大。圖7(a)場景車身反光嚴(yán)重,車牌處于較低角度,并且有傾斜角度;圖7(b)幾乎是在黑夜、光線極暗場景下,注意到圖7(c)場景地面包含很多方形圖案,對邊緣特征、角點(diǎn)特征提取會(huì)造成一定困難。圖7第二行特征映射圖的二值化結(jié)果也驗(yàn)證了本文方法具有魯棒性。
圖7 本文方法魯棒性實(shí)驗(yàn)結(jié)果
以上各極端場景實(shí)驗(yàn)結(jié)果直觀表明,本文基于車牌文字特征、利用卷積神經(jīng)網(wǎng)絡(luò)定位車牌方法,簡單、有效,并有較強(qiáng)通用性和魯棒性。
智能交通、城市生活中車牌管理非常重要,機(jī)動(dòng)車車牌識(shí)別首先從檢測定位車牌開始,車牌定位研究已有很多成熟方法。本文實(shí)驗(yàn)嘗試從不同于現(xiàn)有方法的角度,考慮車牌文字特征,利用卷積神經(jīng)網(wǎng)絡(luò)檢測車牌文字,實(shí)現(xiàn)車牌位置定位,后續(xù)操作步驟簡單。實(shí)驗(yàn)測試圖片均來自網(wǎng)絡(luò),包括低分辨率、模糊、不同國家車牌、多車牌等極端場景,實(shí)驗(yàn)結(jié)果證明本文方法適應(yīng)性強(qiáng),在復(fù)雜場景下魯棒性能好。本文實(shí)驗(yàn)未考慮場景中存在文字干擾情況,需要增加過濾條件,保證車牌定位準(zhǔn)確。
[1]董峻妃,鄭伯川,楊澤靜.基于卷積神經(jīng)網(wǎng)絡(luò)的車牌字符識(shí)別[J].計(jì)算機(jī)應(yīng)用,2017,37(7):2014-2018.
[2]胡峰松,朱浩.基于HSI顏色空間和行掃描的車牌定位算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2015,36(4):977-982.
[3]孫紅,郭凱.融合字符紋理特征與RGB顏色特征的車牌定位[J].光電工程,2015,42(6):14-19+44.
[4]羅斌,郜偉,湯進(jìn),等.復(fù)雜環(huán)境下基于角點(diǎn)回歸的全卷積神經(jīng)網(wǎng)絡(luò)的車牌定位[J].數(shù)據(jù)采集與處理,2016,31(1):65-72.
[5]張杰,張兢,馮欣,等.復(fù)雜環(huán)境的車牌定位方法設(shè)計(jì)與實(shí)現(xiàn)[J].通信技術(shù),2017,50(6):1181-1187.
[6]鐘偉釗,杜志發(fā),徐小紅,等.基于字符邊緣點(diǎn)提取的車牌定位方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2017,38(3):795-800+813.
[7]李羊,曹玉東,劉艷洋.復(fù)雜背景下的快速車牌定位技術(shù)研究[J].遼寧工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,36(2):81-86.
[8]郭克友,賈海晶,郭曉麗.卷積神經(jīng)網(wǎng)絡(luò)在車牌分類器中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(14):209-213.
[9]Fukushima K,Miyake S.Neocognitron:A New Algorithm for Pattern Recognition Tolerant of Deformations and Shifts in Position.Pattern Recognition[J],1982,15(6):455-469.
[10]LeCun Y,Boser B,Denker J S,et al.Handwritten Digit Recognition with a Back-Propagation Network[J].In:Proceedings of Advances in Neural Information Processing Systems 2.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990:396-404.
[11]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.
License Plate Location Based on Deep Learning Text Detection in Complicated Background
Locating license plate is the core part of intelligent transportation system in city life.The current methods almost base on the shape feature,the color feature,and the edge feature,etc.Attempts to try a different method,which takes into account the text itself as the feature of the li?cense plate.Thus,proposes a trained Convolution Neural Network(CNN)to locate the license plate with text detection in the license plate.The experiments demonstrate that the method has better performance in multi-orientation and complicated background.
License Plate Location;Convolution Neural Network;Deep Learning;Complicated Background
新疆維吾爾自治區(qū)高??蒲杏?jì)劃項(xiàng)目(No.XJEDU2017S043)、喀什大學(xué)科研課題項(xiàng)目((12)2436)
1007-1423(2017)33-0010-05
10.3969/j.issn.1007-1423.2017.33.003
李海燕(1982-),女,漢,河南開封人,博士研究生,講師,研究方向?yàn)闄C(jī)器視覺、模式識(shí)別
常富蓉(1985-),女,漢,山西交城人,博士研究生,講師,研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)
2017-11-14
2017-11-20
LI Hai-yan,CHANG Fu-rong
(School of Computer Sciences,Kashgar University,Kashgar 844000)