,
(1.中國(guó)電子科技集團(tuán)公司 第三十八研究所,合肥 230031;2.孔徑陣列與空間探測(cè)安徽省重點(diǎn)實(shí)驗(yàn)室;3.陸軍炮兵防空兵學(xué)院)
駕駛輔助系統(tǒng)是智能交通系統(tǒng)的重要組成部分,對(duì)于提高駕駛安全性有著重要作用。由行車記錄儀拍攝的視頻圖像中通常含有語義信息,這些信息包含了路徑提示、限速標(biāo)識(shí)、疲勞駕駛提醒等信息,而這些信息為駕駛員對(duì)交通場(chǎng)景的認(rèn)知起著重要作用。通過對(duì)行車記錄儀視頻中的文字進(jìn)行自動(dòng)識(shí)別,可以為駕駛員提取警示、提醒和導(dǎo)向標(biāo)識(shí),進(jìn)行有選擇性的自動(dòng)文字信息播報(bào)或存儲(chǔ),以便駕駛員提前做出路徑選擇,能夠節(jié)省時(shí)間且提高安全性。
交通場(chǎng)景文字識(shí)別的挑戰(zhàn)主要來自于高度復(fù)雜的背景信息,如樹葉、路燈和天橋等增加了文字定位難度。此外,文字分辨率較低、字體形態(tài)各異,以及光照條件的變換都為文字識(shí)別帶來了挑戰(zhàn)。
近年來,用于自然場(chǎng)景文字文本檢測(cè)的方法主要兩類,一類是基于滑動(dòng)窗[1]的方法,另一類是基于連通域[2]的方法?;诨瑒?dòng)窗的方法首先在不同尺度下滑動(dòng)窗口提取特征,如邊緣特征、局部二值特征和直方圖特征[3]等,然后用分類器對(duì)每個(gè)窗口進(jìn)行文字檢測(cè),最后對(duì)文字進(jìn)行分類。這類方法檢測(cè)效率比較低,復(fù)雜場(chǎng)景下文字識(shí)別效果較差?;谶B通域的方法主要是使用顏色、極值區(qū)域[4]等連通域特征提取文字候選區(qū)域,再利用一些人為設(shè)定的規(guī)則或自動(dòng)分類器對(duì)非文字區(qū)域進(jìn)行過濾,該類方法對(duì)旋轉(zhuǎn)、尺度變化和字體差異不敏感,是場(chǎng)景文字識(shí)別的主流方法。
隨著計(jì)算機(jī)圖像處理能力的提高和計(jì)算機(jī)視覺技術(shù)的發(fā)展,基于視頻的交通場(chǎng)景文字識(shí)別得以實(shí)現(xiàn)。以行車記錄儀作為車載視頻傳感器,對(duì)交通場(chǎng)景文字進(jìn)行識(shí)別,并對(duì)識(shí)別內(nèi)容進(jìn)行記錄存儲(chǔ),不僅可以為駕駛員認(rèn)知交通場(chǎng)景提供有用信息,還可以為場(chǎng)景信息事后查詢提供記錄和索引。
基于視頻的交通場(chǎng)景文字識(shí)別方法用于自動(dòng)檢測(cè)和識(shí)別車載視頻中的交通標(biāo)志和廣告文字,解決現(xiàn)有技術(shù)對(duì)于交通場(chǎng)景文字的定位和識(shí)別精度不高,且不同光照環(huán)境下魯棒性[5]差的問題,總體框圖如圖1所示。
圖1 總體框圖
首先,將視頻中的單幀圖像轉(zhuǎn)化成灰度圖像并使用Retinex算法進(jìn)行對(duì)比度增強(qiáng)預(yù)處理,搜索預(yù)處理后圖像的最穩(wěn)定極值區(qū)域作為文字候選區(qū),利用幾何形狀等先驗(yàn)知識(shí)對(duì)候選區(qū)域進(jìn)行篩選,得到符合先驗(yàn)知識(shí)的文字候選區(qū);其次,對(duì)符合先驗(yàn)知識(shí)的文字候選區(qū)域做筆畫寬度變換,設(shè)定筆畫寬度均值方差閾值,得到符合筆畫寬度特征的文字候選區(qū)域,用一個(gè)級(jí)聯(lián)文字非文字二分類器對(duì)候選區(qū)域進(jìn)行分類,并使用非極大值抑制法去除重合區(qū)域,得到最終文字區(qū)域;再次,對(duì)文字區(qū)域進(jìn)行二值化,結(jié)合連通域法和投影法將文字區(qū)域分割為單個(gè)字;最后,訓(xùn)練CNN文字分類器,逐個(gè)文字進(jìn)行識(shí)別,得到單幀圖像識(shí)別結(jié)果。下一幀圖像感興趣區(qū)域?yàn)樯弦粠瑘D像文字區(qū)域臨近區(qū)域,根據(jù)設(shè)定的搜索窗口使用灰度直方圖匹配算法進(jìn)行跟蹤檢測(cè),重復(fù)以上步驟識(shí)別當(dāng)前幀文字。
讀取車載視頻中的關(guān)鍵幀對(duì)圖像進(jìn)行預(yù)處理,對(duì)預(yù)處理后的圖像通過先驗(yàn)知識(shí)和筆畫寬度特征算法初步選定文字候選區(qū)域,然后使用級(jí)聯(lián)分類器最終得到文字區(qū)域。
讀取車載視頻中的關(guān)鍵幀,并將圖像轉(zhuǎn)換成灰度圖,使用Retinex算法[6]對(duì)灰度圖進(jìn)行對(duì)比度增強(qiáng)處理。原始圖像S(x,y)可以看成是光照?qǐng)D像L(x,y)和反射率圖像R(x,y)的乘積,如式(1)所示:
S(x,y)=R(x,y)×L(x,y)
(1)
由式(2)將圖像變換到對(duì)數(shù)域:
(2)
Retinex理論假設(shè)圖像的噪聲來源于圖像各個(gè)位置,反射率不同,因此去除反射圖像的噪聲便可還原圖像,反射分量噪聲可通過歸一化去除,歸一化后的反射分量r′(x,y)由式(3)計(jì)算得到:
(3)
其中 r(x,y)為反射分量,max(r(x,y))為反射分量中的最大值。將去噪后的反射分量求指數(shù),反變換到實(shí)數(shù)域即得到增強(qiáng)后的圖像。Retinex算法可有效提升圖像對(duì)比度,針對(duì)霧天、逆光場(chǎng)景能很好地還原圖像。圖2給出了一個(gè)例子,圖2(a)是從車載視頻中讀取的圖像,圖2(b)是預(yù)處理后的灰度圖。
圖2 圖像預(yù)處理
對(duì)預(yù)處理后的灰度圖像(灰度值為0~255)取閾值進(jìn)行二值化處理,閾值從0到255依次遞增,在得到的所有二值圖像中,圖像的變化很小,甚至沒有變化的一些連通區(qū)域被稱為最大穩(wěn)定極值區(qū)域[7],連通區(qū)域變化的數(shù)學(xué)定義如式(4):
q(i)=|Qi+Δ-Qi-Δ|/|Qi|
(4)
將最穩(wěn)定極值區(qū)域作為文字候選區(qū),該算法對(duì)圖像具有較強(qiáng)的仿射變換不變性[8]。
圖3 MSER檢測(cè)后的圖像
利用先驗(yàn)知識(shí)對(duì)候選區(qū)域進(jìn)行篩選,先驗(yàn)知識(shí)主要包括區(qū)域面積、區(qū)域矩形度、外接矩形的寬高比和外接矩形高度;外接矩形為對(duì)該區(qū)域取最小外接矩形;區(qū)域面積即為該區(qū)域內(nèi)像素點(diǎn)個(gè)數(shù);區(qū)域矩形度即為區(qū)域面積與外接矩形面積之比,該值越接近1,該區(qū)域外形越接近矩形;外接矩形寬高比即外接矩形寬度與高度之比;對(duì)以上先驗(yàn)知識(shí)設(shè)定閾值,可以得到符合先驗(yàn)知識(shí)的文字候選區(qū)域。處理后的圖像如圖3所示。
對(duì)符合先驗(yàn)知識(shí)的文字候選區(qū)域做筆畫寬度變換[9],設(shè)定筆畫寬度均值方差閾值,得到符合筆畫寬度特征的文字候選區(qū)域。
筆畫寬度特征屬于文字的獨(dú)有特征,一般而言統(tǒng)一的文本都具有統(tǒng)一的筆畫寬度,如圖4所示。
圖4 筆畫寬度示意圖
筆畫寬度計(jì)算過程如下:每一個(gè)候選區(qū)域都作為一幅圖像進(jìn)行筆畫寬度特征提取,先使用Canny算子[10]對(duì)圖像進(jìn)行邊緣檢測(cè),得到每個(gè)邊緣像素點(diǎn)的方向梯度值,設(shè)邊緣像素點(diǎn)p方向梯度值為dp,從點(diǎn)p沿梯度方向dp出發(fā)尋找像素點(diǎn)q,該點(diǎn)方向梯度dq與dp大致相反,如式(5):
(5)
圖5 經(jīng)過筆畫寬度特征過濾后的圖像
對(duì)符合筆畫寬度特征的文字候選區(qū)域用級(jí)聯(lián)文字非文字二分類器[11]對(duì)候選區(qū)域進(jìn)行分類,并使用非極大值抑制法去除重合區(qū)域,得到最終文字區(qū)域。
級(jí)聯(lián)的文字非文字二分類器是基于局部二值特征和Adaboost算法進(jìn)行分類器的級(jí)聯(lián),級(jí)聯(lián)分類器示意圖如圖6所示。該分類器的訓(xùn)練主要分成兩步:弱分類器的訓(xùn)練和分類器級(jí)聯(lián)[12]。
圖6 Adaboost級(jí)聯(lián)分類器示意圖
對(duì)于每個(gè)特征,計(jì)算所有訓(xùn)練樣本的特征值,并將特征值排序,對(duì)順序排列的每個(gè)元素計(jì)算4個(gè)指標(biāo):全部文字樣本的權(quán)重和T0,全部非文字樣本的權(quán)重和最小T0,在此元素前文字樣本的權(quán)重和S0,在此元素前非文字樣本的權(quán)重和S1。選取當(dāng)前元素特征值[13]和它前面一個(gè)特征值之間的一個(gè)值作為閾值,該閾值的分類誤差由式(6)表示:
e=min(S1+(T0-S0),S0+(T1-S1))
(6)
將誤差最小的閾值作為最優(yōu)閾值,得到弱分類器。
將若干個(gè)弱分類器級(jí)聯(lián)成強(qiáng)分類器。訓(xùn)練庫(kù)樣本數(shù)為N,其中文字樣本為N0,非文字樣本數(shù)為N1,最大迭代次數(shù)為T,初始化樣本權(quán)重為1/N。首先第一次迭代訓(xùn)練所有樣本,得到第一個(gè)弱分類器,然后提高上一步中被誤識(shí)別的樣本權(quán)重,將錯(cuò)分類樣本和新樣本作為下一個(gè)弱分類器的訓(xùn)練樣本,其次重復(fù)訓(xùn)練新的弱分類器,T輪迭代后得到T個(gè)最優(yōu)弱分類器,將弱分類器按式(7)組合成強(qiáng)分類器。
(7)
用大津法對(duì)文字區(qū)域圖像二值化,之后進(jìn)行中值濾波平滑噪點(diǎn)[14]。在二值圖上找連通域,根據(jù)先驗(yàn)知識(shí)設(shè)定最小面積閾值,得到滿足閾值要求的連通域,該步驟能找出連通的字符。對(duì)于不連通的字符采用投影法得到分割點(diǎn),對(duì)文字區(qū)域進(jìn)行分割,最終得到單個(gè)文字。
訓(xùn)練用于文字識(shí)別的CNN文字分類器[15],CNN分類器結(jié)構(gòu)如圖7所示。將訓(xùn)練圖像歸一化為28×28的灰度圖像,構(gòu)建一個(gè)CNN網(wǎng)絡(luò),該網(wǎng)絡(luò)包括2個(gè)卷積層、2個(gè)下采樣層、1個(gè)全連接層和一個(gè)Softmax分類器[16]。將訓(xùn)練圖像送入CNN中訓(xùn)練,得到訓(xùn)練好的CNN分類器,將分割后的單個(gè)文字圖像歸一化為28×28的灰度圖后,送入訓(xùn)練好的CNN分類器得到字符識(shí)別結(jié)果,文字結(jié)果共有136類,包括100個(gè)交通場(chǎng)景常用漢字、10個(gè)阿拉伯?dāng)?shù)字和26個(gè)英文字母。
圖7 CNN分類器結(jié)構(gòu)
下一幀圖像的候選區(qū)在上一幀圖像文字區(qū)域臨近區(qū)域,根據(jù)設(shè)定的搜索窗口及區(qū)域直方圖匹配算法搜索得到。先提取上一幀文字區(qū)域的灰度直方圖H_pre,在下一幀圖像內(nèi),根據(jù)設(shè)定的搜索窗口,滑動(dòng)計(jì)算窗口內(nèi)每個(gè)位置對(duì)應(yīng)區(qū)域的灰度直方圖H_cur_i,使用交叉和計(jì)算直方圖H_pre和H_cur_i的相似度,找到相似度最高的區(qū)域,即為下一幀的文字區(qū)域。得到文字區(qū)域后,重復(fù)單幀圖像識(shí)別過程。
本文提出了一種基于車載視頻的交通場(chǎng)景文字識(shí)別方法,該方法對(duì)交通場(chǎng)景文字的定位和識(shí)別精度高,對(duì)不同光照環(huán)境有較好的魯棒性。主要有以下幾個(gè)創(chuàng)新點(diǎn):
① 在選定文字區(qū)域模塊圖像預(yù)處理中,使用Retinex算法對(duì)灰度圖進(jìn)行對(duì)比度增強(qiáng)處理,可有效提升圖像對(duì)比度,在霧天、逆光場(chǎng)景下能很好地還原圖像。
② 在選定文字區(qū)域筆畫寬度特征中,對(duì)文字候選區(qū)域做筆畫寬度變換,設(shè)定筆畫寬度均值方差閾值,得到符合筆畫寬度特征的文字候選區(qū)域。筆畫寬度特征屬于文字的獨(dú)有特征,一般而言,統(tǒng)一的文本都具有統(tǒng)一的筆畫寬度,使用該特征可有效濾除虛假的文字候選區(qū)域。
③ 在選定文字區(qū)域級(jí)聯(lián)分類器中,對(duì)符合筆畫寬度特征的文字候選區(qū)域用級(jí)聯(lián)文字非文字二分類器對(duì)候選區(qū)域進(jìn)行分類,并使用非極大值抑制法去除重合區(qū)域得到最終文字區(qū)域。級(jí)聯(lián)分類器具有分類精度高、運(yùn)算簡(jiǎn)單的特點(diǎn)。