王保憲,王凱,楊宇飛,李義強(qiáng),趙維剛
一種基于時(shí)空相關(guān)分析的貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別方法研究
王保憲1, 3,王凱2,楊宇飛2,李義強(qiáng)1, 3,趙維剛1, 3
(1. 石家莊鐵道大學(xué) 大型結(jié)構(gòu)健康診斷與控制研究所,河北 石家莊 050043;2. 石家莊鐵道大學(xué) 電氣與電子工程學(xué)院,河北 石家莊 050043;3. 河北省大型結(jié)構(gòu)健康診斷與控制重點(diǎn)實(shí)驗(yàn)室,河北 石家莊 050043)
提出一種基于時(shí)空相關(guān)分析的貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別方法,該方法包括車(chē)號(hào)定位、片段聚類與車(chē)號(hào)識(shí)別3部分。基于連通體分析技術(shù),提出利用貨運(yùn)列車(chē)車(chē)號(hào)字符間特定的幾何比例關(guān)系有效地定位車(chē)號(hào)區(qū)域;在車(chē)號(hào)定位基礎(chǔ)上,利用視頻序列時(shí)空冗余信息建立幀信息補(bǔ)正模型,對(duì)部分定位錯(cuò)誤幀圖像進(jìn)行補(bǔ)正并通過(guò)片段聚類方法將包含相同內(nèi)容的車(chē)號(hào)視頻序列進(jìn)行切分;利用概率神經(jīng)網(wǎng)絡(luò)訓(xùn)練車(chē)號(hào)聯(lián)合識(shí)別決策器,對(duì)可能包含同一車(chē)號(hào)的多幀圖像進(jìn)行聯(lián)合識(shí)別,有效提高車(chē)號(hào)識(shí)別的準(zhǔn)確率。通過(guò)在實(shí)際貨運(yùn)列車(chē)視頻數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證,本文算法對(duì)所有幀圖像的平均車(chē)號(hào)識(shí)別準(zhǔn)確率高于90%,優(yōu)于傳統(tǒng)基于靜態(tài)圖像處理的車(chē)號(hào)識(shí)別方法。
貨運(yùn)列車(chē);車(chē)號(hào)定位;車(chē)號(hào)識(shí)別;時(shí)空相關(guān)性;概率神經(jīng)網(wǎng)絡(luò)
貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別是鐵路系統(tǒng)自動(dòng)化建設(shè)中的一種新型管理方式。目前,基于數(shù)字圖像處理的車(chē)號(hào)識(shí)別技術(shù)以低成本、高效率、高精度的優(yōu)勢(shì),受到國(guó)內(nèi)外研究人員的廣泛關(guān)注。車(chē)號(hào)區(qū)域定位是車(chē)號(hào)識(shí)別系統(tǒng)的首要步驟。邢益良等[1]使用投影法獲取特征明顯的圖像分割區(qū)域以定位車(chē)號(hào)范圍;楊紹華等[2]定位灰度大于平均投影灰度的區(qū)域作為車(chē)號(hào)區(qū)域。以上2種方法均利用投影法完成車(chē)號(hào)區(qū)域定位,投影定位算法簡(jiǎn)單且具有較高的運(yùn)算效率。但考慮到實(shí)際拍攝的圖像中存在背景雜波,應(yīng)用投影法僅可以粗略地定位車(chē)號(hào)范圍,無(wú)法實(shí)現(xiàn)對(duì)單個(gè)車(chē)號(hào)區(qū)域的精準(zhǔn)定位。為了精準(zhǔn)定位單個(gè)車(chē)號(hào)區(qū)域,趙入賓[3]利用車(chē)號(hào)字符筆畫(huà)邊緣信息對(duì)車(chē)號(hào)進(jìn)行定位。王浩宇[4]提出一種改進(jìn)筆畫(huà)寬度變換算法以快速確定車(chē)號(hào)位置。魏瑋等[5]利用數(shù)字具有的凹特征、中線、圓形度等矩特征定位車(chē)號(hào)。以上車(chē)號(hào)定位方法利用車(chē)號(hào)字符紋理變化,定位效果良好。但考慮到車(chē)廂表面其他區(qū)域也可能包含數(shù)字或字母,其具有和車(chē)號(hào)相同的紋理特征,可能導(dǎo)致一些虛假車(chē)號(hào)區(qū)域被定位。此外對(duì)于貨運(yùn)列車(chē)而言,其車(chē)廂噴印的車(chē)型碼和車(chē)廂號(hào)之間滿足特定的幾何比例關(guān)系,這是與普通汽車(chē)車(chē)號(hào)最大的不同之處。然而既有研究均忽略了這一特點(diǎn),導(dǎo)致其在鐵路復(fù)雜背景下的車(chē)號(hào)定位效果一般。完成單車(chē)號(hào)定位后,需要識(shí)別每個(gè)車(chē)號(hào)圖像內(nèi)容。楊吉[6]利用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練分類模型完成單個(gè)字符識(shí)別。廖健[7]利用深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別定位結(jié)果。上述車(chē)號(hào)識(shí)別方法在靜態(tài)圖像拍攝條件下取得了良好結(jié)果。然而對(duì)于貨運(yùn)列車(chē),其車(chē)號(hào)識(shí)別過(guò)程一般是在列車(chē)運(yùn)行場(chǎng)景下完成的。由于貨運(yùn)列車(chē)運(yùn)動(dòng)會(huì)導(dǎo)致采集的圖像出現(xiàn)運(yùn)動(dòng)模糊,這使得傳統(tǒng)基于單幀靜態(tài)圖像處理的車(chē)號(hào)識(shí)別方法效果一般。即使部分采集圖像不存在模糊,由于既有方法未充分利用貨運(yùn)列車(chē)視頻序列的時(shí)空冗余信息,限制了貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別精度的進(jìn)一步提高。基于上述問(wèn)題分析,本文提出一種基于時(shí)空相關(guān)分析的貨運(yùn)列車(chē)車(chē)號(hào)識(shí)別方法,如圖1所示,包括車(chē)號(hào)定位、片段聚類、識(shí)別決策3部分,該方法具有以下創(chuàng)新點(diǎn):1) 針對(duì)復(fù)雜背景,利用背景雜波所不具有的貨運(yùn)列車(chē)車(chē)型碼內(nèi)部字符間的幾何比例關(guān)系,實(shí)現(xiàn)了復(fù)雜場(chǎng)景下車(chē)型碼的精準(zhǔn)定位,并基于確定的車(chē)型碼參數(shù),進(jìn)一步定位該幀圖像的車(chē)廂號(hào)。2) 針對(duì)貨運(yùn)列車(chē)運(yùn)動(dòng)導(dǎo)致的車(chē)號(hào)定位精度降低問(wèn)題,利用貨運(yùn)列車(chē)視頻序列的時(shí)空冗余信息建立時(shí)空幀信息補(bǔ)正模型,通過(guò)相鄰幀圖像信息的相互融合,避免了車(chē)號(hào)區(qū)域定位錯(cuò)誤產(chǎn)生的影響。3) 建立多幀圖像聯(lián)合識(shí)別決策器,對(duì)可能包含相同車(chē)號(hào)的一系列圖像同時(shí)識(shí)別,輸出可能性最高的車(chē)號(hào)識(shí)別結(jié)果。由于連續(xù)多幀圖像聯(lián)合識(shí)別,提高了車(chē)號(hào)識(shí)別精度。
圖1 系統(tǒng)流程圖
在圖1中,首先將輸入的貨運(yùn)列車(chē)視頻分解成幀序列,對(duì)每一幀圖像進(jìn)行預(yù)處理后通過(guò)車(chē)號(hào)定位模塊完成車(chē)號(hào)區(qū)域定位;接著,利用相鄰幀的定位結(jié)果對(duì)定位錯(cuò)誤的幀進(jìn)行補(bǔ)正,并把定位結(jié)果相似的圖像進(jìn)行聚類;最后建立聯(lián)合識(shí)別決策器,識(shí)別可能包含同一車(chē)號(hào)的多幀圖像并將識(shí)別概率最大的結(jié)果作為這些圖像共同的識(shí)別結(jié)果輸出,從而完成車(chē)號(hào)識(shí)別功能。
本文利用連通體分析法對(duì)車(chē)號(hào)進(jìn)行定位,首先對(duì)貨運(yùn)列車(chē)圖像進(jìn)行包含灰度轉(zhuǎn)換、二值化與形態(tài)學(xué)運(yùn)算的預(yù)處理,然后利用車(chē)號(hào)內(nèi)部字符的幾何特征關(guān)系對(duì)車(chē)號(hào)進(jìn)行篩選以完成定位。
在對(duì)采集到的圖像進(jìn)行車(chē)號(hào)定位之前,先對(duì)圖像進(jìn)行預(yù)處理:首先使用加權(quán)平均法對(duì)采集圖像進(jìn)行灰度轉(zhuǎn)換,將原圖像在,和通道上對(duì)應(yīng)的3個(gè)矩陣合并轉(zhuǎn)化為1個(gè)矩陣,減少后期的運(yùn)算量。之后,利用Niblack自適應(yīng)圖像分割法[8?9]對(duì)灰度圖像進(jìn)行二值化處理,初步實(shí)現(xiàn)車(chē)號(hào)字符的分割;最后,搜索圖中所有的連通體,并設(shè)置一個(gè)合適的尺寸因子對(duì)所有連通體進(jìn)行形態(tài)學(xué)開(kāi)運(yùn)算,消除面積很小的雜波連通體。圖2展示了貨運(yùn)列車(chē)車(chē)廂原圖與各部分預(yù)處理的效果圖。
(a) 原圖;(b) 灰度轉(zhuǎn)換;(c) 二值化;(d) 形態(tài)學(xué)運(yùn)算
由圖2(d)可知,進(jìn)行預(yù)處理后的貨運(yùn)列車(chē)圖像依舊存在許多背景雜波,因此需要進(jìn)一步提取單個(gè)車(chē)型碼,便于后續(xù)單個(gè)車(chē)號(hào)字符的識(shí)別。
考慮到車(chē)廂噴印的數(shù)字和字母的高寬比例在一定范圍內(nèi),因此可設(shè)置一個(gè)高寬比例去除圖像中的部分雜波連通體。在此基礎(chǔ)上,經(jīng)過(guò)相關(guān)調(diào)研,可知貨運(yùn)列車(chē)的車(chē)型碼滿足如下特定的幾何規(guī)律:
1) 車(chē)型碼首字符的高度約為之后字符高度的2倍;
2) 車(chē)型碼所有字符水平排列,且底端大致 對(duì)齊。
圖3展示了經(jīng)預(yù)處理后車(chē)型碼的連通體,圖4為車(chē)型碼連通體示意圖。
圖3 車(chē)型碼連通體圖
圖4 車(chē)型碼連通體示意圖
在圖4中,標(biāo)號(hào)1和2分別為連通體C與C,3和4為C和C的質(zhì)心坐標(biāo)(x,y)與(x,y),5為C左側(cè)一定范圍內(nèi)的區(qū)域。設(shè)每個(gè)連通體的最小外接矩形的高度依次為h(=1,2,3,…,num),從=1開(kāi)始,在連通體C質(zhì)心左側(cè)標(biāo)記區(qū)域范圍內(nèi),搜索能夠與其組成最近鄰對(duì)的連通體C,步驟如下。
Step 1:判斷兩連通體的尺寸關(guān)系:
式中min與max為根據(jù)車(chē)型碼首字符約為其余字符高度的2倍這一特征而預(yù)先設(shè)置的比例系數(shù)。
Step 2:判斷2連通體質(zhì)心連線與水平線夾角是否在預(yù)先給定的范圍內(nèi):
Step 3:限制被搜索的連通體在C的左側(cè):
通過(guò)上述3個(gè)步驟對(duì)圖中所有連通體進(jìn)行搜索,尋找所有符合條件的連通體構(gòu)成連通體對(duì)。在初步定位后,進(jìn)一步在該連通體對(duì)的右側(cè)一定范圍內(nèi)搜索高度在[0.9,1.1]范圍內(nèi)的連通體,并與已知的連通體對(duì)組成車(chē)型碼字符鏈,實(shí)現(xiàn)對(duì)貨運(yùn)列車(chē)車(chē)型碼區(qū)域位置的定位。
經(jīng)調(diào)研,車(chē)廂號(hào)存在如下幾何先驗(yàn)知識(shí):
1) 車(chē)廂號(hào)所有字符高度與車(chē)型碼首字符高度相近;
2) 車(chē)廂號(hào)固定為7位,7位字符之間可能存在寬度為1~3個(gè)字符寬度的空檔;
3) 車(chē)廂號(hào)所有字符水平排列,且底端大致 對(duì)齊。
圖5展示了貨運(yùn)列車(chē)車(chē)號(hào)字符的連通體,圖6為車(chē)廂號(hào)連通體示意圖,其中標(biāo)號(hào)1~4為4個(gè)車(chē)廂號(hào)連通體,標(biāo)號(hào)5為連通體3和4的質(zhì)心連線與水平線的夾角,為前文提取到車(chē)型碼首字符的高度,由于其高度與車(chē)廂號(hào)相近,圖中車(chē)廂號(hào)的字符高度以及字符間距均以該參數(shù)進(jìn)行表示。
圖5 車(chē)號(hào)連通體圖
圖6 車(chē)廂號(hào)連通體示意圖
Step 1:判斷兩連通體的尺寸關(guān)系:
Step 3:限制兩連通體空間位置關(guān)系,要求:
式中:為預(yù)先給定的比例系數(shù),它約束了2連通體可構(gòu)成連通體對(duì)時(shí)距離的上限。
Step 4:設(shè)完成連通體配對(duì)后的所有連通體對(duì)集合為={1,2,3,…,X},檢查X中最后一個(gè)連通體與X中首個(gè)連通體是否相同,相同則進(jìn)行合并,判定連通體鏈中包含3個(gè)以上字符時(shí)為車(chē)廂號(hào)部分,進(jìn)一步在該連通體鏈左右兩側(cè)3的范圍內(nèi)尋找其它連通體對(duì),合并為新的連通體鏈,直到其包含7個(gè)字符,則車(chē)號(hào)定位完成。
本文基于貨運(yùn)列車(chē)視頻中的冗余信息建立時(shí)空幀信息補(bǔ)正模型,利用車(chē)號(hào)定位結(jié)果的時(shí)空相關(guān)性對(duì)出現(xiàn)車(chē)號(hào)定位錯(cuò)誤的圖像進(jìn)行補(bǔ)正。同時(shí),本文進(jìn)一步計(jì)算各車(chē)號(hào)定位圖像之間的差異像素?cái)?shù),以此作為類間距離對(duì)車(chē)號(hào)圖像進(jìn)行層次凝聚聚類管理,實(shí)現(xiàn)視頻序列的片段切分。
本文利用視頻序列存在的時(shí)空相關(guān)性對(duì)車(chē)號(hào)定位錯(cuò)誤圖像進(jìn)行補(bǔ)正,如圖7所示,其原理是在確定定位錯(cuò)誤幀位于視頻序列中的位置后,利用其相鄰2幀圖像的正確定位結(jié)果對(duì)錯(cuò)誤定位結(jié)果進(jìn)行替換。
圖7 幀信息補(bǔ)正流程圖
在判斷錯(cuò)誤幀與哪一相鄰幀包含相同車(chē)號(hào)的過(guò)程中,本文對(duì)比相鄰幀的車(chē)號(hào)定位區(qū)域的尺寸與像素灰度,判定相鄰兩幀是否包含相同車(chē)號(hào),然后根據(jù)不同判定結(jié)果進(jìn)行對(duì)應(yīng)的歸屬判別。
3.1.1 定位區(qū)域尺寸對(duì)比
設(shè)錯(cuò)誤幀位于視頻序列中的第幀,本文提取第?1和+1幀圖像的定位結(jié)果矩陣1,2,通過(guò)比較1和2的尺寸來(lái)判斷2幀圖像的定位結(jié)果是否相同,步驟如下。
Step 1:計(jì)算的歸一化矩陣寬度與高度的幾何比例:
Step 2:將k與k分別和預(yù)先給定的閾值進(jìn)行比較,其結(jié)果分為以下2種情況:
1) 當(dāng)k與k其中任何一個(gè)大于給定閾值時(shí),認(rèn)定1和22個(gè)矩陣的尺寸有較大差異,進(jìn)而判定兩者包含不同車(chē)號(hào);
2) 否則,認(rèn)定1和22個(gè)矩陣的尺寸相近,該情況需要進(jìn)一步計(jì)算兩矩陣的差異像素?cái)?shù)來(lái)判定所包含車(chē)號(hào)是否相同。
3.1.2 定位區(qū)域像素對(duì)比
當(dāng)1和22矩陣尺寸相近時(shí),利用掃描技術(shù)計(jì)算兩矩陣像素差異從而判定兩矩陣所包含車(chē)號(hào)是否相同,具體步驟如下。
Step 1:將2放入一個(gè)更大的矩陣3中,矩陣的行數(shù)與列數(shù)由下式給出:
Step 2:使用1在3中進(jìn)行掃描,統(tǒng)計(jì)1在每一位置與3的差異像素?cái)?shù)量={1,2,3,…,N},提取其最小值min。
Step 3:將min與預(yù)先設(shè)置的閾值進(jìn)行比較:當(dāng)min小于閾值時(shí),判定1和2包含相同車(chē)號(hào);否則,判定1和2包含不同車(chē)號(hào)。
3.1.3 幀信息補(bǔ)正
利用前2節(jié)方法可以得到相鄰2幀所包含車(chē)號(hào)相同或不同2種情況,針對(duì)這2種情況使用不同方案對(duì)錯(cuò)誤幀圖像進(jìn)行補(bǔ)正:
1) 當(dāng)1和2包含相同車(chē)號(hào)時(shí),則判定錯(cuò)誤幀與相鄰2幀圖像都包含相同的車(chē)號(hào)內(nèi)容,即1和2均可用來(lái)對(duì)錯(cuò)誤結(jié)果進(jìn)行替換。
2) 當(dāng)1和2包含不同車(chē)號(hào)時(shí),再次利用掃描技術(shù)進(jìn)行歸屬判定,具體步驟如下。
Step 1:使用1和2分別在錯(cuò)誤幀進(jìn)行掃描,統(tǒng)計(jì)2矩陣在每一位置的差異像素?cái)?shù)={1,2,3,…,A}和={1,2,3,…,B}。
Step 2:對(duì)比集合與中的最小值min與min,認(rèn)定較小的一方包含與錯(cuò)誤幀相同的車(chē)號(hào),將其對(duì)應(yīng)的1或2定位結(jié)果對(duì)錯(cuò)誤幀的定位結(jié)果進(jìn)行替換,完成幀信息的補(bǔ)正。
為考察哪些圖像包含相同車(chē)號(hào),需要對(duì)圖像進(jìn)行聚類[10?11]。由于無(wú)法預(yù)先得知車(chē)號(hào)的個(gè)數(shù),且圖像在序列中存在順序,使用一種改進(jìn)的層次凝聚聚類法對(duì)視頻序列進(jìn)行片段切分,具體過(guò)程如下。
Step 1:將視頻序列中的每一幀圖像看作一類,根據(jù)圖像在視頻序列中的位置對(duì)所有類進(jìn)行排序。
Step 2:設(shè)置距離閾值,計(jì)算相鄰類之間的類間距離,然后把距離最近且距離小于的2個(gè)類合并成一個(gè)新的類。
Step 3:重復(fù)步驟2,進(jìn)行反復(fù)迭代直到類數(shù)目的收斂不再增加,完成聚類。
由于是對(duì)圖像相似度的考察,本文以差異像素?cái)?shù)作為類間距離,差異像素?cái)?shù)的計(jì)算方法與前文中判定兩矩陣是否包含相同內(nèi)容的方法一致;同時(shí),設(shè)定每個(gè)類中的首個(gè)圖像為類的中心。經(jīng)過(guò)上述貨運(yùn)列車(chē)視頻序列的片段聚類過(guò)程,可能包含同一車(chē)號(hào)的多幀圖像都被聚類,使貨運(yùn)列車(chē)視頻序列有了整體的片段切分。
本文建立聯(lián)合識(shí)別決策器,首先利用概率神經(jīng)網(wǎng)絡(luò)[12?13]對(duì)所有圖像進(jìn)行車(chē)號(hào)識(shí)別,然后統(tǒng)計(jì)經(jīng)聚類后各片段內(nèi)的識(shí)別結(jié)果,選取識(shí)別概率最大的結(jié)果,作為該片段的最終結(jié)果輸出。在對(duì)車(chē)號(hào)進(jìn)行識(shí)別決策之前,先對(duì)貨運(yùn)列車(chē)車(chē)號(hào)字符進(jìn)行考察,經(jīng)調(diào)研,可知貨運(yùn)列車(chē)車(chē)號(hào)字符具有以下特點(diǎn):
1) 車(chē)型碼首字符必定為字母,其他字符可能為字母或數(shù)字。
2) 車(chē)廂號(hào)所有字符均為數(shù)字。
針對(duì)上述車(chē)號(hào)字符特點(diǎn),為降低算法運(yùn)算量并提高識(shí)別準(zhǔn)確率,本文設(shè)計(jì)了3種包含不同訓(xùn)練樣本的識(shí)別模塊,分別對(duì)輸入樣本為數(shù)字、字母、數(shù)字及字母3種情況進(jìn)行識(shí)別。圖8為本文所使用概率神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。
圖8 概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
系統(tǒng)整體的聯(lián)合識(shí)別決策步驟如下。
Step 1:提取視頻序列中的一個(gè)片段,將每幀圖像包含的字符進(jìn)行分割,并對(duì)每個(gè)字符進(jìn)行尺寸規(guī)范化處理,之后按照車(chē)型碼首字母、車(chē)型碼其它字符、車(chē)廂號(hào)分為3組。
Step 2:對(duì)所有字符進(jìn)行特征提取,包括8個(gè)結(jié)構(gòu)特征與6個(gè)統(tǒng)計(jì)特征,其中8個(gè)結(jié)構(gòu)特征為:豎直1/4,1/2和3/4處像素?cái)?shù)總和,水平1/3,1/2和2/3處像素?cái)?shù)總和,兩對(duì)角線像素?cái)?shù)總和;6個(gè)統(tǒng)計(jì)特征為:圖像左上、右上、左下、右下4個(gè)區(qū)域的像素?cái)?shù)總和與圖像水平、豎直方向上中心1/3區(qū)域的像素?cái)?shù)總和。
Step 3:3組分別通過(guò)訓(xùn)練樣本為字母、字母與數(shù)字、數(shù)字的識(shí)別模塊進(jìn)行識(shí)別,其中,每個(gè)識(shí)別模塊中概率神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)與輸入特征向量維數(shù)相同,模式層節(jié)點(diǎn)數(shù)與訓(xùn)練樣本數(shù)量相同,第類訓(xùn)練樣本的第個(gè)模式層節(jié)點(diǎn)輸出由下式給出:
式中:為某一輸入向量;x為第類輸入樣本的第個(gè)樣本的特征向量;為模型的超參數(shù),需要提前設(shè)定。計(jì)算輸入圖像與每一類訓(xùn)練樣本之間的距離后,在求和層對(duì)同類測(cè)試樣本對(duì)應(yīng)的模式層節(jié)點(diǎn)輸出進(jìn)行求和:
式中:n為某一類訓(xùn)練樣本中包含的樣本數(shù)量。之后,在輸出層選取求和層中輸出概率最大的一類為該張字符圖像的輸出結(jié)果。
Step 4:所有圖像經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)后均得到一個(gè)識(shí)別結(jié)果,統(tǒng)計(jì)同一片段內(nèi)可能包含相同字符的圖像的識(shí)別結(jié)果,包括識(shí)別結(jié)果的種類數(shù)及每種出現(xiàn)的次數(shù),計(jì)算各種類出現(xiàn)的概率,并選取出現(xiàn)概率最大的識(shí)別結(jié)果作為該字符片段的最終識(shí)別結(jié)果輸出,其中最大出現(xiàn)概率為:
式中:=1,2,3,…,,為得到識(shí)別結(jié)果的種類數(shù);n為第種識(shí)別結(jié)果的出現(xiàn)次數(shù);為輸入測(cè)試樣本的數(shù)目。
Step 5:將每個(gè)字符的識(shí)別決策結(jié)果進(jìn)行合并,完成該片段的字符識(shí)別。
Step 6:重復(fù)Step1~5,直到所有車(chē)號(hào)圖像片段完成識(shí)別決策。
為驗(yàn)證本文所提車(chē)號(hào)識(shí)別方法的有效性,利用幀率為130FPS的凱視佳相機(jī)MU3HS230M/C放置在鐵路軌道一側(cè)進(jìn)行列車(chē)視頻采集,該相機(jī)的實(shí)際采集幀率達(dá)到50FPS,被采集到的列車(chē)速度約為70 km/h,隨機(jī)抽取其中一段連續(xù)圖像作為測(cè)試數(shù)據(jù),共計(jì)2 000幀,每幀圖像的分辨率為1 920×1 080。另外,在所有視頻數(shù)據(jù)中人工選擇識(shí)別模塊的訓(xùn)練樣本,數(shù)量為每種字符30個(gè),其中英文字母包括:A,B,C,E,H,K,N,P,T和X共10種,英文字母樣本庫(kù)共300個(gè)樣本;數(shù)字包括0~9共10種,數(shù)字樣本庫(kù)共300個(gè)樣本。所有訓(xùn)練樣本經(jīng)灰度化、二值化與去噪后,規(guī)范化為64×64大小并送入概率神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
為評(píng)估算法性能,本文方法的車(chē)號(hào)定位部分將與2種具有代表性的方法進(jìn)行對(duì)比,它們分別是投影法與紋理分析法。同時(shí),本文進(jìn)一步對(duì)比了傳統(tǒng)靜態(tài)的車(chē)號(hào)字符識(shí)別方法與本文所提聯(lián)合識(shí)別決策方案的識(shí)別準(zhǔn)確率。上述方法均在Matlab平臺(tái)實(shí)現(xiàn),并使用同一組實(shí)驗(yàn)數(shù)據(jù)。
為保證系統(tǒng)的魯棒性,所采集樣本中包含了光照、車(chē)號(hào)以外的字符區(qū)域等雜波干擾,圖9為某一包含了各種干擾的數(shù)據(jù)圖像。
(a) 光照干擾;(b) 示例圖像;(c) 車(chē)廂上其他字符干擾
可以明顯看到,光照區(qū)域和其他字符區(qū)域均會(huì)對(duì)車(chē)號(hào)定位產(chǎn)生影響,而車(chē)型碼字符間特定的幾何比例關(guān)系是背景雜波所不具有的,利用這一特點(diǎn)可以較好地提取車(chē)型碼,之后利用車(chē)型碼首字母與車(chē)廂號(hào)具有相近的尺寸這一特點(diǎn)在原圖中重新篩選車(chē)廂號(hào)即可完成定位,定位效果如圖10所示。
圖10 車(chē)號(hào)定位效果圖
圖11展示了2種具有代表性的車(chē)號(hào)定位錯(cuò)誤情況及其對(duì)應(yīng)的補(bǔ)正流程,2種情況分別為:
1) 如圖11(a)所示,由運(yùn)動(dòng)模糊導(dǎo)致所有字符的幾何比例不滿足車(chē)號(hào)定位時(shí)的篩選條件,該幀圖像的車(chē)號(hào)沒(méi)有被定位。
2) 如圖11(b)所示,由部分車(chē)號(hào)超出相機(jī)捕捉范圍導(dǎo)致定位車(chē)號(hào)位數(shù)不足。
同時(shí),為驗(yàn)證系統(tǒng)性能,設(shè)置1)和2)中相鄰幀分別包含相同/不同結(jié)果。
(a) 運(yùn)動(dòng)模糊圖像的補(bǔ)正流程;(b) 車(chē)號(hào)部分缺失圖像的補(bǔ)正流程
可以看到,無(wú)論相鄰幀圖像包含車(chē)號(hào)是否相同,本算法均可準(zhǔn)確地完成錯(cuò)誤幀的歸類與補(bǔ)正。之后,在圖像聚類過(guò)程中,圖12給出了部分類間距離的統(tǒng)計(jì)折線圖,共計(jì)100組,其橫軸數(shù)值代表進(jìn)行類間距離計(jì)算的組次,縱軸數(shù)值代表組內(nèi)2類的類間距離。
圖12中,類間距離在8個(gè)位置出現(xiàn)了激增,說(shuō)明對(duì)應(yīng)8個(gè)組內(nèi)的圖像包含不同內(nèi)容,二者不會(huì)被聚類,從而達(dá)到片段切分效果;同時(shí),可以看到部分組的類間距離為0,這是由于部分車(chē)號(hào)定位錯(cuò)誤圖像經(jīng)過(guò)了上述時(shí)空相關(guān)性補(bǔ)正過(guò)程,使錯(cuò)誤定位結(jié)果被相鄰幀替換,因此二者包含完全相同的定位結(jié)果,即不存在類間距離。就結(jié)果來(lái)說(shuō),本算法將類間距離較小的一系列圖像成功聚類,成功實(shí)現(xiàn)視頻序列的片段切分。
圖12 部分類間距離統(tǒng)計(jì)折線圖
圖13展示了經(jīng)聚類后一個(gè)片段中車(chē)型碼的識(shí)別決策結(jié)果,該片段共包含12幀圖像,車(chē)型碼共3位,圖13(b)3個(gè)表格為3種字符的各自12個(gè)識(shí)別結(jié)果的統(tǒng)計(jì),表格第1列為輸入圖像序號(hào),第2列為識(shí)別結(jié)果,結(jié)果中的0~9對(duì)應(yīng)數(shù)字0~9,25對(duì)應(yīng)英文字母“P”。
(a) 輸入字符;(b) 識(shí)別決策;(c) 決策結(jié)果
為驗(yàn)證模型性能,特加入噪聲使數(shù)字“0”的第5幀被錯(cuò)誤識(shí)別成“8”,從整體的統(tǒng)計(jì)結(jié)果來(lái)看,識(shí)別概率最大的依舊是數(shù)字“0”,而少數(shù)識(shí)別誤差會(huì)被忽略。就結(jié)果而言,該模型實(shí)現(xiàn)了車(chē)號(hào)的精準(zhǔn)識(shí)別,并消除了部分誤差帶來(lái)的影響。
在不改變實(shí)驗(yàn)環(huán)境的前提下,本文利用3種不同方法對(duì)2 000張樣本圖像進(jìn)行車(chē)號(hào)定位,表1展示了3種方法的準(zhǔn)確率與運(yùn)算時(shí)間。
表1 3種定位方法準(zhǔn)確率及時(shí)間對(duì)比
由表1的對(duì)比數(shù)據(jù)可知,本文所提算法具有較高準(zhǔn)確率,而算法基于連通體分析技術(shù),不需要復(fù)雜計(jì)算,有較高效率。同時(shí),實(shí)驗(yàn)數(shù)據(jù)中有42張圖像出現(xiàn)車(chē)號(hào)超出相機(jī)捕捉范圍、14張出現(xiàn)動(dòng)態(tài)模糊的情況,在進(jìn)行幀信息補(bǔ)正后,所有錯(cuò)誤圖像都被替換,且定位準(zhǔn)確率提高至93.22%。
之后,如表2所示,本文計(jì)算了傳統(tǒng)靜態(tài)的車(chē)號(hào)字符識(shí)別方法與本文所提聯(lián)合識(shí)別決策法的準(zhǔn)確率與運(yùn)算時(shí)間,2種方案均基于相同的概率神經(jīng)網(wǎng)絡(luò)。
表2 2種識(shí)別方案的準(zhǔn)確率及時(shí)間對(duì)比
觀察表2可發(fā)現(xiàn),由于決策本身是對(duì)識(shí)別結(jié)果進(jìn)行統(tǒng)計(jì)并選出概率最大結(jié)果,不會(huì)過(guò)多增加運(yùn)算時(shí)間,而對(duì)多個(gè)輸入圖像進(jìn)行協(xié)同分析,對(duì)識(shí)別準(zhǔn)確率有顯著的提高作用。
1) 所提車(chē)號(hào)定位方法利用貨運(yùn)列車(chē)車(chē)號(hào)內(nèi)部字符之間的幾何比例關(guān)系,較好地抵抗了復(fù)雜背景下光照、車(chē)廂其他字符等雜波的干擾,具有較高準(zhǔn)確率。
2) 利用相鄰圖像的車(chē)號(hào)定位結(jié)果對(duì)定位出錯(cuò)的圖像進(jìn)行補(bǔ)正,可進(jìn)一步提高定位準(zhǔn)確率。
3) 使用層次凝聚聚類法對(duì)視頻序列進(jìn)行片段切分,將可能包含同一車(chē)號(hào)定位結(jié)果的片段進(jìn)行聯(lián)合識(shí)別決策,得到了較傳統(tǒng)識(shí)別方法更高的識(shí) 別率。
4) 通過(guò)在實(shí)際采集的2 000張貨運(yùn)列車(chē)圖像數(shù)據(jù)集上進(jìn)行測(cè)試驗(yàn)證,本文的定位準(zhǔn)確率達(dá)到93.22%,最終的識(shí)別準(zhǔn)確率達(dá)到90.16%,具有良好的車(chē)號(hào)識(shí)別性能,驗(yàn)證了本文方法的有效性。
[1] 邢益良, 馬亮, 韓寶如, 等. 積分投影和統(tǒng)計(jì)法在車(chē)號(hào)定位中的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程, 2013, 41(8):1333?1335.XING Yiliang, MA Liang, HAN Baoru, et al. Integral projection and statistical method’ application in train number positioning[J]. Computer & Digital Engineering, 2013, 41(8): 1333?1335.
[2] 楊紹華, 李建勇, 王恒. 基于BP神經(jīng)網(wǎng)絡(luò)的貨車(chē)車(chē)號(hào)識(shí)別方法研究[J]. 鐵路計(jì)算機(jī)應(yīng)用, 2007, 16(12): 4?7. YANG Shaohua, LI Jianyong, WANG Heng. Research on method of vehicle number recognition based on BP neural network[J]. Railway Computer Application, 2007, 16(12): 4?7.
[3] 趙入賓. 鐵路貨車(chē)車(chē)號(hào)識(shí)別的算法研究[D]. 天津: 河北工業(yè)大學(xué), 2010. ZHAO Rubin. Research on railway freight car licence recognition algorithm[D]. Tianjin: Hebei University of Technology, 2010.
[4] 王浩宇. 列車(chē)車(chē)號(hào)定位與識(shí)別算法研究[D]. 西安: 長(zhǎng)安大學(xué), 2018. WANG Haoyu. Research on train number detection and recognition algorithm[D]. Xi’an: Chang’an University, 2018.
[5] 魏瑋, 趙入賓. 矩特征在鐵路貨車(chē)車(chē)號(hào)識(shí)別中的應(yīng)用[J]. 微計(jì)算機(jī)應(yīng)用, 2010, 31(11): 34?38. WEI Wei, ZHAO Rubin. Application of moment for train license recognition[J]. Microcomputer Applications, 2010, 31(11): 34?38.
[6] 楊吉. 基于圖像處理的高速列車(chē)車(chē)號(hào)識(shí)別算法研究[D]. 成都: 西南交通大學(xué), 2017. YANG Ji. The research on high speed train number recognition algorithm based on image processing[D]. Chengdu: Southwest Jiaotong University, 2017.
[7] 廖健. 基于圖像的鐵路貨車(chē)車(chē)號(hào)自動(dòng)識(shí)別研究[D]. 成都: 西南交通大學(xué), 2016. LIAO Jian. Automatic recognition of railway wagon numbers based on images[D]. Chengdu: Southwest Jiaotong University, 2016.
[8] Niblack, Wayne. An introduction to digital image processing[C]// Advances in Computer Graphics Vi, Images: Synthesis, Analysis, and Interaction. Springer- Verlag, 1986.
[9] LI L Y, ZHANG X W, LI W T, et al. Visual inspection method of ceramic bottle surface defects based on niblack optimization[C]// Advanced Science and Industry Research Center. Proceedings of 2017 2nd International Conference on Computer, Mechatronics and Electronic Engineering (CMEE 2017). Advanced Science and Industry Research Center: Science and Engineering Research Center, 2017: 374?378.
[10] YANG Y, WANG H. Multi-view clustering: A survey[J]. Big Data Mining and Analytics, 2018, 1(2): 83?107.
[11] 鞠成恩. 基于圖像底層特征的圖像聚類與檢索研究[D]. 昆明: 昆明理工大學(xué), 2018. JU Cheng’en. Research on image clustering and retrieval based on image bottom features[D]. Kunming: Kunming University of Science and Technology, 2018.
[12] Fikriye ?ztürk, Figen ?zen. A new license plate recognition system based on probabilistic neural networks[J]. Procedia Technology, 2012, 1: 124?128.
[13] 劉朝陽(yáng), 陳以, 李少博. 概率神經(jīng)網(wǎng)絡(luò)在手寫(xiě)漢字識(shí)別中的應(yīng)用[J]. 電子設(shè)計(jì)工程, 2016, 24(2): 32?34. LIU Chaoyang, CHEN Yi, LI Shaobo. Application of probabilistic neural network in Chinese handwritten character recognition[J]. Electronic Design Engineering, 2016, 24(2): 32?34.
Research on identification method of freight train number based on spatio-temporal correlation analysis
WANG Baoxian1, 3, WANG Kai2, YANG Yufei2, LI Yiqiang1, 3, ZHAO Weigang1, 3
(1. Structure Health Monitoring and Control Institute, Shijiazhuang Tiedao University, Shijiazhuang 050043, China;2. School of Electrical and Electronic Engineering, Shijiazhuang Tiedao University, Shijiazhuang 050043, China;3. Key Laboratory for Health Monitoring and Control of Large Structures of Hebei Province, Shijiazhuang 050043, China)
In this paper, an effective and efficient freight train number identification model was processed based upon the spatiotemporal correlation analysis, which consists of three parts: train number location, fragment frame clustering and train number identification. Firstly, via the connected component analysis, the specific geometric proportion relation between these numbers characters of freight train was used to locate the train number area effectively. Secondly, on the basis of train number area location, one frame information complement framework was established by using the temporal and spatial redundancy information of video. Within this framework, the frame containing the error location result can be corrected, and the train sequences that contain the same contents were clustered by fragment clustering method. Thirdly, the probabilistic neural network was utilized for train number recognition, which jointly identifies multiple image frames which may contain the same train number, thereby improving the accuracy of train number recognition. Simulation results on the practical train video dataset demonstrate that the average recognition accuracy of our presented model is higher than 90%, which is better than the traditional static freight train number identification methods.
freight train; train number location; train number identification; spatiotemporal correlation; probabilistic neural network
10.19713/j.cnki.43?1423/u.T20200574
TP391.41
A
1672 ? 7029(2021)04 ? 0999 ? 10
2020?06?23
河北省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(19210804D);國(guó)家自然科學(xué)基金資助項(xiàng)目(51808358);河北省高等學(xué)??茖W(xué)技術(shù)研究項(xiàng)目(BJ2020057);國(guó)家能源投資集團(tuán)有限責(zé)任公司科技創(chuàng)新項(xiàng)目(SHGF-15-41);石家莊鐵道大學(xué)研究生創(chuàng)新資助項(xiàng)目(YC2020067);石家莊鐵道大學(xué)優(yōu)秀青年科學(xué)基金資助項(xiàng)目
王保憲(1987?),男,河北清河人,副教授,博士,從事數(shù)字圖像處理、智能感知技術(shù)與數(shù)據(jù)科學(xué)工程等方面研究;E?mail:wbx1025@163.com
(編輯 陽(yáng)麗霞)