王 瑩,趙守國(guó),王 靜,王 珂
(1.北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京100044;2.中國(guó)鐵道科學(xué)研究院電子計(jì)算技術(shù)研究所,北京100081)
隨著鐵路事業(yè)的高速發(fā)展,列車駕駛安全性問(wèn)題日益成為人們關(guān)注的焦點(diǎn)。本文提出了一種針對(duì)機(jī)車駕駛特殊性的機(jī)車司機(jī)駕駛狀態(tài)監(jiān)測(cè)方案,通過(guò)對(duì)機(jī)車司機(jī)標(biāo)準(zhǔn)動(dòng)作的檢測(cè),判斷司機(jī)是否處于正常的駕駛狀態(tài)。主要框架為:
(1)對(duì)視頻文件進(jìn)行預(yù)處理,得到僅包含手勢(shì)的圖像。即利用混合高斯模型對(duì)視頻文件進(jìn)行背景建模,同時(shí)進(jìn)行運(yùn)動(dòng)目標(biāo)的檢測(cè),即規(guī)范性手勢(shì)的監(jiān)測(cè)。當(dāng)檢測(cè)到運(yùn)動(dòng)目標(biāo)出現(xiàn)時(shí),停止對(duì)背景模型的更新。利用幀間差分法比較相鄰圖像幀間的差異,得到最小差異的圖像幀,即為規(guī)范性手勢(shì)出現(xiàn)的視頻圖像幀。對(duì)其進(jìn)行背景減除,得到不含背景噪聲的手勢(shì)圖像幀。
(2)通過(guò)膚色模型對(duì)手勢(shì)圖像幀進(jìn)行膚色區(qū)域的判定并提取出手勢(shì)區(qū)域,得到手勢(shì)的二值圖像。鑒于通過(guò)膚色模型轉(zhuǎn)換后可能出現(xiàn)空洞等現(xiàn)象,利用腐蝕與擴(kuò)張等對(duì)其進(jìn)行修正,最終得到清晰的手勢(shì)的二值圖像。
(3)對(duì)手勢(shì)的二值圖像進(jìn)行標(biāo)準(zhǔn)性判斷與分析,主要通過(guò)2個(gè)方面:通過(guò)形狀上下文算法,將所得的手勢(shì)的二值圖像與標(biāo)準(zhǔn)手勢(shì)庫(kù)的形狀上下文算子進(jìn)行比較,通過(guò)匹配代價(jià)的比較判定是否是標(biāo)準(zhǔn)的規(guī)范手勢(shì); 通過(guò)HOG特征及AdaBoost分類器,判斷手勢(shì)的二值圖像是否是規(guī)定的手勢(shì)圖像,以及判定其標(biāo)準(zhǔn)性。
下面將詳細(xì)闡述手勢(shì)標(biāo)準(zhǔn)性判斷的算法—形狀上下文、HOG特征及AdaBoost分類器,并通過(guò)實(shí)驗(yàn)數(shù)據(jù)說(shuō)明上述算法的效果。
形狀即研究對(duì)象的輪廓,是對(duì)象識(shí)別的重要特征之一。通過(guò)將司機(jī)手勢(shì)與標(biāo)準(zhǔn)手勢(shì)相比較的方式判斷機(jī)車司機(jī)是否處于正常駕駛狀態(tài),實(shí)現(xiàn)對(duì)機(jī)車司機(jī)駕駛狀態(tài)的監(jiān)測(cè)。
形狀上下文方法是假設(shè)待匹配物體內(nèi)部或物體表面的邊緣輪廓上的離散的點(diǎn),可以較好地表示待匹配物體的形狀信息,利用有限的點(diǎn)集來(lái)表示待匹配的圖像形狀。在計(jì)算圖像手勢(shì)的形狀描述子之前,需要對(duì)視頻文件進(jìn)行圖像的獲取,獲取圖像中的手勢(shì)幀。利用膚色模型獲取了手勢(shì)幀的二值圖像后,利用Canny算子獲取其輪廓。從所獲得的圖像邊緣中進(jìn)行點(diǎn)取樣,獲得點(diǎn)集,記為P={P1, P2…, Pn}, P1∈R2。一般均勻取樣即可。為了更好地表示圖像的真實(shí)形狀,需盡量滿足取樣點(diǎn)的質(zhì)心坐標(biāo)與原始對(duì)象的質(zhì)心坐標(biāo)一致。可以利用待檢測(cè)對(duì)象的質(zhì)心坐標(biāo)作為約束條件,實(shí)現(xiàn)邊緣點(diǎn)的確定。
點(diǎn)集P={P1, P2, …, Pn}中,對(duì)任何一點(diǎn)P1都可與剩余的n-1個(gè)點(diǎn)構(gòu)成形狀直方圖,其計(jì)算公式為:
其中,k∈{1,2,…, K}, K為方向參數(shù)和距離參數(shù)的乘積。(q-pi)∈bin(k)表示相對(duì)于pi,點(diǎn)q屬于形狀直方圖的第k個(gè)分量。點(diǎn)集P={P1, P2, …,Pn}中的每點(diǎn)都可按上述公式逐次計(jì)算與其他n-1個(gè)點(diǎn)組成的形狀直方圖,得到n個(gè)形狀直方圖,存放在n●((n-1)大小的矩陣中。
在得到2幅圖像的形狀直方圖后,計(jì)算其匹配代價(jià)。用hi(k)表示目標(biāo)p中點(diǎn)pi的形狀直方圖,hj(k)表示目標(biāo)q中點(diǎn)qj的形狀直方圖,則其計(jì)算如公式(2)[1]:
因此,我們可以得到n●n大小的矩陣C。下一步,基于矩陣C,進(jìn)行點(diǎn)的匹配操作計(jì)算使得下式獲取最小值的值。
形狀上下文匹配過(guò)程原理如圖1。其中(a)圖為需要匹配的2個(gè)形狀,(b)圖表示尋找2個(gè)形狀的相似點(diǎn),(c)圖表示相似點(diǎn)匹配的過(guò)程,(d)圖表示匹配結(jié)果。圖中可見,2幅圖像基本相同。
圖1 形狀上下文匹配原理圖
方向梯度直方圖(HOG)特征在計(jì)算機(jī)視覺和圖像處理中有著廣泛的應(yīng)用。HOG特征是一種用來(lái)進(jìn)行物體檢測(cè)的特征描述子,用于靜態(tài)圖像或視頻中行人的檢測(cè)[2]。
HOG特征具體的實(shí)現(xiàn)方法是:首先將圖像分成小的連通區(qū)域,即cell。然后計(jì)算細(xì)胞單元中各像素點(diǎn)的梯度或邊緣的方向直方圖。最后把這些直方圖組合起來(lái)就可以構(gòu)成特征描述器。為了提高性能,將局部直方圖在圖像的更大范圍內(nèi)(即block)進(jìn)行對(duì)比度歸一化處理。即計(jì)算各直方圖在該區(qū)間(block)中的密度,根據(jù)所求的密度對(duì)該區(qū)間(block)中的各個(gè)細(xì)胞單元(cell)做歸一化。歸一化后,可對(duì)光照的變化和陰影等獲得更好的效果。HOG特征的主要步驟為:
(1)Gamma空間和顏色空間的標(biāo)準(zhǔn)化,Gamma壓縮公式為:
(2) 計(jì)算圖像的梯度:按公式(5)和公式(6)計(jì)算梯度大小及梯度的方向:
Ang(x,y)=cos-1(I(x+1,y)-I(x-1,y)/r)(6)
(3) 構(gòu)建圖像的每個(gè)細(xì)胞單元的梯度方向直方圖。
(4) 對(duì)比度歸一化,將cell中的梯度在block上歸一化。
(5) 檢測(cè)窗口中所有重疊的區(qū)間,進(jìn)行HOG特征的收集,并將其結(jié)合作為最終的特征向量。
AdaBoost訓(xùn)練器的核心思想是將較為容易得到的、正確率剛剛超過(guò)50%的弱分類器,通過(guò)反復(fù)訓(xùn)練,整合成為正確率遠(yuǎn)遠(yuǎn)超過(guò)50%的強(qiáng)分類器,從而達(dá)到較好的圖像分類的目的。大量實(shí)驗(yàn)訓(xùn)練圖像經(jīng)過(guò)上述HOG特征的計(jì)算后,利用Ada-Boost分類器進(jìn)行分類訓(xùn)練,得到可用于區(qū)分不同手勢(shì)的強(qiáng)分類器。
利用強(qiáng)分類器對(duì)待匹配的圖像的HOG特征進(jìn)行分類,通過(guò)判斷手勢(shì)的規(guī)范性與標(biāo)準(zhǔn)性,判斷機(jī)車司機(jī)是否是正常駕駛。
鐵路局軌道車管理辦法規(guī)定,機(jī)車司機(jī)在值乘期間,需做到“十六字令”的手比方式:
(1) 進(jìn)站信號(hào)機(jī)顯示進(jìn)正線停車時(shí)—伸出大拇指。
(2) 進(jìn)站信號(hào)機(jī)顯示進(jìn)側(cè)線停車時(shí)—伸出大拇指和小指。
(3) 進(jìn)站信號(hào)機(jī)顯示通過(guò)時(shí)—伸出食指和中指。
(4) 注意信號(hào)或要求注意時(shí)—單臂攏拳曲伸。
(5) 停車信號(hào)或要求停車時(shí)—單臂攏拳上下急劇搖動(dòng)。
從中提取4個(gè)基本手勢(shì)作為本文研究的對(duì)象,模擬機(jī)車駕駛過(guò)程中的部分手勢(shì)動(dòng)作,將其從視頻文件中提取出來(lái),進(jìn)行一定的預(yù)處理,得到清晰、準(zhǔn)確的規(guī)范性手勢(shì)。之后,對(duì)這些手勢(shì)進(jìn)行后續(xù)的目標(biāo)的識(shí)別與判斷。
視頻文件經(jīng)預(yù)處理后便得到了手勢(shì)幀。對(duì)于手勢(shì)圖像,包含的主要信息為手勢(shì),同時(shí)可能還含有一些噪聲,不利于手勢(shì)的判斷。因此需要對(duì)手勢(shì)幀進(jìn)行膚色模型的轉(zhuǎn)換。膚色模型可以很好地將膚色信息與其他的顏色信息相區(qū)別。將膚色的像素置為一,其他的顏色像素置為零。這樣便可得到手勢(shì)的二值圖像。經(jīng)膚色模型獲取的二值圖像中包含了部分空洞等現(xiàn)象,需要進(jìn)一步的處理。數(shù)字形態(tài)學(xué)中的腐蝕與擴(kuò)張可以很好地處理此問(wèn)題。
機(jī)車司機(jī)的規(guī)范性手勢(shì)的判斷分為2部分:(1)HOG特征可以較為詳細(xì)地表明圖像的整體特征。(2)形狀上下文可以將目標(biāo)物體的形狀較好地表示出來(lái),進(jìn)行相似性的判斷。將2者相結(jié)合,可以更為準(zhǔn)確地對(duì)手勢(shì)的標(biāo)準(zhǔn)性進(jìn)行判斷。
通過(guò)膚色模型的變換后,可以得到機(jī)車司機(jī)規(guī)范手勢(shì)的二值圖像,將此手勢(shì)與標(biāo)準(zhǔn)庫(kù)中的標(biāo)準(zhǔn)手勢(shì)進(jìn)行比較,判斷其是否是所要求的規(guī)范性手勢(shì),及其手勢(shì)的規(guī)范性是否滿足規(guī)定的要求。利用形狀上下文算法判斷手勢(shì)的標(biāo)準(zhǔn)性的實(shí)驗(yàn)過(guò)程如表1。
表1 形狀上下文實(shí)驗(yàn)結(jié)果
利用AdaBoost分類器對(duì)手勢(shì)進(jìn)行分類,確定其是否是規(guī)范性手勢(shì)。在此之前,需要大量規(guī)范的手勢(shì)進(jìn)行AdaBoost多分類器的訓(xùn)練,得到區(qū)分不同手勢(shì)的強(qiáng)分類器。利用形狀上下文及HOG特征和AdaBoost分類器的實(shí)驗(yàn)結(jié)果如表2。
表2 實(shí)驗(yàn)效果
由表2可知,將形狀上下文算法和HOG特征相結(jié)合的方法,可極大地提高判斷的準(zhǔn)確性。結(jié)果表明,所提出的方法能夠達(dá)到對(duì)手勢(shì)的準(zhǔn)確判斷,可以作為機(jī)車司機(jī)駕駛狀態(tài)監(jiān)測(cè)的方法之一。
鑒于機(jī)車駕駛標(biāo)準(zhǔn)的特殊性,本文提出了一種基于手勢(shì)的機(jī)車司機(jī)駕駛狀態(tài)研究的新方法。通過(guò)對(duì)機(jī)車司機(jī)手勢(shì)的識(shí)別與分析,判斷機(jī)車司機(jī)的駕駛狀態(tài),實(shí)現(xiàn)機(jī)車司機(jī)駕駛狀態(tài)的監(jiān)測(cè)。后續(xù)將通過(guò)算法的改進(jìn)及提升硬件的配置來(lái)提升運(yùn)算效率。在保證效率的前提下,可以將判斷機(jī)車司機(jī)的手勢(shì)、眨眼頻率及頭部位置的移動(dòng)等多種方法相結(jié)合,提高監(jiān)測(cè)的準(zhǔn)確性。
[1] Belon G.S, Malikj, P.J. Shape Context: A New Descriptor for Shape Matching and Object Recognition [C] . International Conference of Neural Information Processing System, 2000.
[2] Dalal N and Bill Triggs. Histograms of Oriented Gradients for Human Detection[J] . Proc. IEEE Conf.on Computer Vision and Pattern Recognition, 2005(2): 886-893.
[3] Horng W B, Chen CY. Driver fatigue detection based on eye tracking and dynamic template matching[C] . Proceedings of IEEE International Conference on Networking, Sensing and Cont—ro1.Taipei. China:IEEE Press. 2004.
[4] R-L. Hsu, M. Abdel-Mottaleb and A. K. Jain. Face detection in color images[J] . IEEE Trans. Pattern Analysis and Machine intelligence, 2002, 24(5):696-706.
[5] 陶霖密,彭振云,徐光祐. 人類的膚色特征及復(fù)雜環(huán)境下的人臉檢測(cè)[M] . 北京:電子工業(yè)出版社,1999.
[6] 申家振,張燕寧,劉濤. 基于形狀上下文的形狀匹配[J] .微電子學(xué)與計(jì)算機(jī),2005,22(4):144-146.