郭 烈,葛平淑,趙一兵,趙宗艷
(1.大連理工大學汽車工程學院,大連 116024;2.大連民族學院機電信息工程學院,大連 116600)
為有效保護行人安全,提高汽車主動安全性能,研發(fā)行人檢測系統(tǒng)提醒駕駛員可能與鄰近的行人發(fā)生碰撞事故已成為減少道路交通中行人傷亡數(shù)量的重要手段[1]。
在行人檢測過程中,需要定義一些特征來區(qū)分行人和背景,最直接的方法就是尋找圖像中的行人形狀特征對其進行識別,如梯度方向直方圖HOG特征[2]、Edgelet特征[3]和 Shapelet特征[4]等。由于每種特征的針對性不同,因此使用單一特征的檢測方法很難適應多場景下的行人檢測,國內(nèi)外學者提出了多種特征信息融合的方法。文獻[5]中綜合使用HOG和Edgelet兩種局部特征,并通過SVM與Adaboost分別訓練各自的分類器,對紅外圖像中行人獲取較好的檢測效果;文獻[6]中提出了一種基于部位檢測和子結(jié)構(gòu)組合的行人檢測方法,實現(xiàn)多姿態(tài)和部分遮擋的行人檢測;文獻[7]中分別在頭部和四肢等重點區(qū)域計算梯度方向直方圖,有效地減少了向量維數(shù),提高了檢測速度;文獻[8]中將基于局部特征的Adaboost級聯(lián)分類器和模板匹配相結(jié)合,實現(xiàn)視頻監(jiān)控領域的行人檢測。
上述研究表明,多特征融合的方法可提高系統(tǒng)的檢測精度,但如何針對人體和人體典型部位提取有效特征,合理設計分類器結(jié)構(gòu),充分發(fā)揮各分類器的優(yōu)勢仍然是一個難題[9]。如果對于某些人體部位提取的特征并不能很好地區(qū)分行人與背景,那么這些無效的特征無疑會增加算法的負擔,影響實時性。為解決上述問題,提出一種基于部位特征組合的行人檢測方法。該方法對不同人體典型部位采用了不同的特征,針對各個部位的特點選擇最有效的特征來檢測,最后再將各自的檢測結(jié)果進行融合。
由于行人下半身所在的區(qū)域背景通常是路面圖像,而腿部占有較大面積,其輪廓邊緣比較明顯,在某些梯度方向和梯度強度上會出現(xiàn)有一定的峰值,其HOG特征與背景差別較大[10]。因此,提出針對行人腿部采用HOG特征進行檢測的方法。定義腿部區(qū)域檢測窗口大小為64×64像素,子窗口的寬度取為12、24、36、48、64 像素,子窗口的長寬比取為(1∶1)、(1∶2)和(2∶1),依據(jù)所設定的子窗口的寬度和長寬比便可以確定其數(shù)量和大小。通過設置多尺度的特征子窗口,能夠更加充分顯示腿部輪廓特征,各子窗口之間重疊的尺度為4、6、8個像素。采用Sobel算子從樣本集中提取所有的HOG特征,使用積分直方圖進行加速,最終從每個樣本中提取了1 386個HOG特征。
經(jīng)分析發(fā)現(xiàn),在眾多的特征中只有少部分特征對目標的分類起主導作用,其他大部分特征只含有少量的有用信息。通常這些冗余的特征不僅會增加算法的復雜性,使分類器訓練和檢測過程都非常耗時,而且會對最終的分類結(jié)果產(chǎn)生相反的作用[11]。因此,采用加權(quán)Fisher線性判別方法從中得到一部分能顯著區(qū)分正負樣本的HOG特征。
加權(quán)Fisher線性判別能將樣本多維特征投影到一維直線上,投影方向能將各類樣本很好地分開,因此該投影過程具有一定的弱分類功能,同時實現(xiàn)特征降維[12]。投影方向的計算式為
式中:wi為第i個樣本的權(quán)重;f(xi)為第i個樣本的特征為樣本類內(nèi)均值為樣本類內(nèi)加權(quán)協(xié)方差矩陣;a為最佳投影方向。
為增強弱分類器的表達能力,采用查表的Gentle Adaboost算法[13]。在 Gentle AdaBoost中,弱分類器的輸出函數(shù)為
式中:Pw(y=1|x)、Pw(y=-1|x)分別表示特征值為x的樣本時,其為正樣本或負樣本的加權(quán)概率。
為提高分類器的精度,采用基于查表型弱分類器類型。查表的方法是將整個樣本集的特征值劃分為對應的n個不相交的子集,對于某個特征值為x的樣本,其弱分類器的輸出就表示為它在所屬子集中為正樣本與負樣本的加權(quán)概率差[14]。因此,查表型弱分類器的輸出為一個表示置信度的實數(shù)值,與離散型輸出相比,它包含了更多的信息并且更加適用于實際樣本的分布情況。查表型弱分類器的構(gòu)造過程如下。
經(jīng)過加權(quán)Fisher線性判別后,HOG特征被降為1維,首先將它歸一化到[0,1]區(qū)間,將該區(qū)間均勻分成n個子區(qū)間:
這樣,弱分類器可以定義為
式中:W+1j和W-1j分別表示正、負樣本的特征值落在區(qū)間binj內(nèi)的條件概率,表示為
具體地說,令D+1j和D-1j分別表示第j個區(qū)間binj正負樣本權(quán)值的總和,即
則條件概率為
定義函數(shù)為
則基于查表型Gentle AdaBoost弱分類器公式可表示為
人體目標作為一種非剛體目標可能呈現(xiàn)出各種不同姿態(tài),很難用統(tǒng)一的模型對其進行描述。經(jīng)過分析發(fā)現(xiàn),不管是行人的正面圖像還是側(cè)面圖像,其肩膀以上的頭部輪廓變動性最小,呈現(xiàn)出一定的形狀,只須定義不同大小的模板,就能滿足匹配的需要。另一方面,行人的頭部不易被遮擋,在檢測過程中很容易被檢測出來,因此模板匹配的方法更適用于行人頭部的檢測。針對頭部輪廓可以構(gòu)建如圖1所示的“Ω”形位圖模板。對于64×128像素的行人樣本,定義頭部輪廓模板的大小為32×28像素。
模板匹配可以通過距離變換將待檢測窗口轉(zhuǎn)換為DT圖像[15],其目的是將這種距離測度表示為模板變換參數(shù)的平滑函數(shù),一是方便快速搜索,二是提高匹配精度,三是通過對模板進行簡單縮放或者旋轉(zhuǎn)就能實現(xiàn)不同尺度、不同方向的匹配。因此在模板匹配之前,首先對待匹配圖像進行邊緣檢測,得到目標邊緣的二值圖像,然后對邊緣圖像進行距離轉(zhuǎn)換得到其DT圖像,匹配過程如圖2所示。
將頭部模板與DT圖像做卷積,利用頭部模板圖像F中的特征點f所在的坐標相對應到DT圖像中的距離值相加,再求其平均值,即Chamfer距離,其計算公式為
式中:DT(f)表示f對應于DT圖像的歐幾里得距離,取平均值的目的是為了對模板的大小進行歸一化。
圖像越相似求得的Chamfer距離就越小,因此在待匹配的圖像中不包含頭部的區(qū)域,其Chamfer距離通常會遠大于有頭部的區(qū)域,模板匹配的原則是選取Chamfer距離最小的區(qū)域作為頭部最優(yōu)框的大小和位置。此外,當邊緣圖像的Chamfer距離值為檢測區(qū)域R中最小值時,須再做一次特征點數(shù)量上的判斷:
式(11)可統(tǒng)計邊緣圖像的特征點數(shù)量,Threshold為特征點數(shù)判斷閾值,主要目的是確保不會因為特征點數(shù)稀少而降低平均距離。同時滿足上述兩個條件,才認為圖像匹配成功。
在現(xiàn)實道路場景中,分類器的性能往往會受到復雜背景邊緣梯度的影響,進而造成誤判使得誤檢率增加,降低了算法精度。多特征融合的方法由于其檢測率較高、多場景適應性較好,目前應用最多。
行人檢測過程中,分別對腿部和頭部輸出檢測結(jié)果之后,只有當頭部與腿部同時存在該區(qū)域中,才能認為所識別的目標是行人,這就要求對各部位都要有一個較為精確的判定。經(jīng)過模板匹配后得到的是一個形似頭部的區(qū)域,須對其進行確認。根據(jù)行人頭部與背景的差異性特征,可將頭部輪廓的形狀特征轉(zhuǎn)化為數(shù)值特征并與支持向量機結(jié)合,訓練得到一個識別頭部的分類器。另外,通過部位相關性約束限制匹配區(qū)域也可以排除一部分虛警。最后將兩種特征的識別結(jié)果進行融合,正確判斷出目標為行人或非行人。
通過觀察,行人頭部輪廓是一種描述目標全局的特征,它可以粗略感知行人是否存在,而HOG特征則偏重于對局部特征進行詳細的描述。特征組合就是建立在局部特征的基礎上,并且通過是否具有頭部全局特征來影響局部特征的判斷,可通過調(diào)整分類器的分類閾值實現(xiàn)。
1.3.1 部位約束
雖然模板匹配方法在一定程度上能夠檢測出人體的頭部,但是即使?jié)M足匹配條件的區(qū)域也會因為受到復雜背景的影響而出現(xiàn)誤判。為提高模板匹配的精度,通過人體部位之間的約束對匹配區(qū)域進行了限定。假設對于一個正確檢出的行人目標區(qū)域,行人通常位于圖像的正中央,而依據(jù)人體肢體的相對位置,頭部不可能在下半部分或者位于圖像的左、右邊緣。另外,由于對行人腿部的檢測在前,這也在一定程度上為后續(xù)的頭部檢測提供了必要的依據(jù),除了要避免多余背景的干擾,最主要的則是符合頭部在圖像中的實際位置。為此,建立如圖3所示的人體各部位約束區(qū)域,h、w分別為樣本高度和寬度,定義頭肩部位的高度為0.3h、軀干部位為0.48h、腿部為0.5h,將模板匹配范圍限定在腿部檢測框上方高為0.3h、寬為0.75w的矩形區(qū)域內(nèi)。在限定了匹配區(qū)域后,就可以應用模板匹配方法對頭部進行檢測。
1.3.2 頭部特征轉(zhuǎn)化
經(jīng)過模板匹配后,能獲得一個與行人頭部輪廓極為相似的區(qū)域,從而在形狀上找到兩者的區(qū)分。但卻很難通過單一的閾值去區(qū)分行人與非行人Chamfer距離間的差異,因此,可以考慮將行人頭部的這種形狀特征轉(zhuǎn)化為數(shù)值來描述。通過觀察,有頭部的區(qū)域輪廓往往類似于圓形,通過提取輪廓的類圓形特征,將形狀特征轉(zhuǎn)化為數(shù)值特征,進而對頭部匹配的結(jié)果在數(shù)值上做出精確判斷。
針對行人頭部的圓形輪廓所提取的有效特征主要包括圓存在性[16]和邊界矩特征[17],并可將其組合共同描述行人頭部,從而將形狀特征轉(zhuǎn)化為數(shù)值特征。
1.3.3 特征融合
在通過上述圓形特征來判定模板匹配所產(chǎn)生的候選區(qū)域是否為頭部之后,最理想的情況是其判定結(jié)果與腿部一致,將目標確認為行人。然而實際上會出現(xiàn)兩個判定結(jié)果不一致的情況,因此,可以通過調(diào)整分類器的決策閾值,進而產(chǎn)生或?qū)捤苫驀乐數(shù)姆诸愋Ч麃韺Ψ诸惤Y(jié)果進行融合。
圖4為閾值調(diào)整示意圖,當閾值取值為0時,特征點被判定為“-1”的非行人特征,在放寬閾值之后,則該特征點被判定為“+1”的行人特征,如圖4(a)所示;而增加閾值后,則將特征點劃分得比較嚴謹,行人特征視為非行人特征,如圖4(b)所示。
頭部檢測的目的是排除腿部檢測產(chǎn)生的虛警,因此,閾值調(diào)整策略主要以頭部輪廓特征是否存在為主要依據(jù)。當頭部分類器沒有檢測到頭部時,應當采用較為嚴謹?shù)拈撝嫡{(diào)整策略,提高腿部分類器的決策值,進而重新對檢測出的腿部區(qū)域進行判定。但是此方法的前提是頭部區(qū)域判定十分精確。由于受邊緣提取算法的影響,信息的缺失也會使頭部產(chǎn)生誤判,為此需要對腿部分類器的決策值進一步分析。腿部檢測器的決策值越高則其為行人的可能性越大,若腿部分類器的決策值大于所有弱分類器權(quán)值的一半,則不進行調(diào)整,直接判斷腿部分類器分類正確,目標為行人。若腿部分類器的決策值介于0與所有弱分類器權(quán)值的一半時,說明腿部特征的決策值在一個模棱兩可的區(qū)域內(nèi),因此就要調(diào)高分類平面。經(jīng)過調(diào)整之后,再對檢測出的腿部區(qū)域按照新的分類平面進行重新判斷,若判斷結(jié)果為假,則確定目標為非行人。若腿部判定結(jié)果仍然為真,此時則反過來對頭部分類平面進行寬松的調(diào)整,重新對頭部做一次判定,如果頭部判定結(jié)果為真,則可以確定目標為行人。最終,仍然存在一類情況,即腿部判定結(jié)果為真而頭部判定結(jié)果為假,由于特征組合是建立在局部特征存在的基礎上,此時判斷標準以腿部結(jié)果為主,因此,直接判定檢測結(jié)果為行人。
設腿部分類器閾值調(diào)整前后的決策值分別為V1和V'1,頭部分類器閾值調(diào)整前后的決策值分別為 V2和 V'2,初始的分類閾值 Threshold1=0,Threshold2=0,弱分類器的權(quán)值之和為α,根據(jù)經(jīng)驗確定腿部閾值調(diào)整的區(qū)間為2,頭部閾值調(diào)整的區(qū)間為0.5。部位組合閾值調(diào)整的具體步驟如下。
為驗證所提部位特征組合行人檢測算法的有效性,在Matlab9.0環(huán)境下進行了性能對比分析,采用Intel Core(TM)2的CPU和2G內(nèi)存的計算機。所使用的試驗數(shù)據(jù)集共有兩個。數(shù)據(jù)集1包含兩個行人樣本庫,一是MIT行人數(shù)據(jù)庫,二是課題組自行采集的樣本集合,多為城市交通環(huán)境下的圖像。由于MIT數(shù)據(jù)庫與自行采集的數(shù)據(jù)庫的行人樣本比較簡單,將其合并為一個,共得到2 324個行人樣本,2 300個非行人樣本。分別取出其中的1 500個用于訓練,其余均為測試樣本。數(shù)據(jù)集2由INRIA行人庫組成,挑選出INRIA數(shù)據(jù)庫中腿部不存在嚴重遮擋的行人樣本,最終訓練集挑選出1 970張,測試集共890張。對于所有樣本,截取下半部分圖像并歸一化為64×64像素大小。
通過對兩個試驗數(shù)據(jù)集進行訓練和測試,評價算法的標準采用檢測效果和檢測時間,檢測效果用ROC曲線來描述。
由于對Adaboost中的弱分類器進行了改進,一是采用加權(quán)Fisher線性判別來代替線性SVM,從而降低HOG特征維數(shù),二是使用查表型弱分類器替代傳統(tǒng)閾值型弱分類器。因此,在試驗研究中比較了基于以下3種弱分類器訓練得到的腿部分類器在使用特征的數(shù)量上和檢測精度上的差別:線性SVM、加權(quán)Fisher線性判別的閾值型弱分類器和加權(quán)Fisher線性判別的查表型弱分類器。
圖5比較了由兩個訓練集訓練得到的強分類器性能,訓練集1中線性SVM所使用的弱分類器達到了49個,而加權(quán)Fisher線性判別所使用的弱分類器只有15個,迭代次數(shù)大大減少。訓練集2中由于循環(huán)條件的限制線性SVM檢測率沒有達到100%,同樣加權(quán)Fisher線性判別所使用的弱分類器減少到了38個。加權(quán)Fisher線性判別不僅解決了每次迭代隨機選取部分HOG特征的問題,還能提高其分類速度。從圖5中還可看出,基于查表型弱分類器的收斂速度相對較快,使用較少的特征就能達到目標檢測率。
圖6 比較了不同類型弱分類器形成的強分類器在兩個測試集上的檢測性能,即ROC曲線??梢钥闯?,使用查表型弱分類器后的Adaboost檢測器的精度與閾值型弱分類器相比,精度有所提高,能更進一步優(yōu)化強分類器,提升檢測性能。而由于線性SVM特征數(shù)較多,故檢測率比其他兩種方法稍高。
表1列出了3種不同分類器在不同數(shù)據(jù)集上的時間消耗和分類性能。由表可見,加權(quán)Fisher與查表型弱分類器的分類性能分別達到了98.64%和93.32%,要優(yōu)于線性SVM與加權(quán)Fisher的閾值型分類器。在時間消耗方面,與線性SVM相比,使用加權(quán)Fisher判別的兩種弱分類器對數(shù)據(jù)集1的訓練時間分別減少了86.37%和86.43%,驗證了其在運算速度上的巨大優(yōu)勢。單獨分析查表型弱分類器,其檢測時間比簡單閾值型弱分類器稍長,主要是由于查表的方法在實際應用過程中,不僅須記錄查表的每個區(qū)間系數(shù),還須記錄特征的最大值和最小值。這些都會占用存儲空間,并增加一些運算量。
表1 不同弱分類器時間和性能比較
為驗證部位組合檢測方法的有效性,對樣本集中的圖像進行了處理,采用混淆矩陣來評價算法的檢測結(jié)果,主要比較了本文中所提出的部位組合算法、傳統(tǒng) HOG算法[2]和用積分圖像計算特征的HOG簡化算法。在樣本集的檢測性能,由于采用了積分圖像提取梯度方向的直方圖特征,省略了復雜的三維線性插值步驟,大大縮短了特征提取的時間。圖7和圖8分別給出這3種不同方法在兩個測試集的檢測結(jié)果。
從圖7看出,傳統(tǒng)HOG算法在734個樣本中有4個行人誤認為非行人,檢測率達到了99.4%,檢測結(jié)果近乎完美;特征組合算法有24個行人誤認為非行人,檢測率也達到了96.7%,與傳統(tǒng)HOG算法相比略有下降;而HOG簡化算法檢測率只有76.1%,可見省略三維線性插值步驟降低了算法的精度,通過對特征和分類器進行一系列改進后檢測精度得到明顯提高。
從圖8看出,特征組合算法的檢測率比HOG簡化算法還低,這是因為測試集2中的行人頭部所處的環(huán)境比較復雜,存在很多遮擋情況,在一定程度上影響了系統(tǒng)的性能。另一方面,采用特征組合算法的檢測率主要取決于各部位檢測率的乘積,因此會低于整體的檢測率。單獨分析誤檢率可以看到,特征組合算法比HOG簡化算法要好,進一步驗證了采用特征組合算法能夠有效排除虛警的優(yōu)越性。
圖9示出特征組合算法對不同道路環(huán)境圖像的檢測結(jié)果。上面兩張圖為對INRIA數(shù)據(jù)庫中圖像的測試結(jié)果,下面兩張圖為室外拍攝的道路圖像測試結(jié)果。從檢測結(jié)果可以看出,特征組合算法對不同道路場景下的行人都能取得較好的檢測效果,對于在單人和多人的情況同樣適用。但是,試驗中也發(fā)現(xiàn)一些問題,道路兩側(cè)的背景復雜使得算法出現(xiàn)誤判,將道路兩側(cè)的樹木誤認為是行人目標,復雜背景對邊緣提取算法產(chǎn)生影響,使行人頭部定位不準確。
針對人體的不同部位使用不同的特征進行檢測,再通過一定的方法將檢測結(jié)果融合,實現(xiàn)基于人體典型部位特征組合的行人檢測。部位特征組合是建立在人體部位約束、頭部確認與分類閾值調(diào)整三者結(jié)合的基礎上,三者之間存在著逐級遞進關系。部位約束不但減少了模板匹配的范圍,提高了實時性,而且提高了匹配精度。通過頭部新特征的提取將頭部形狀特征轉(zhuǎn)化為數(shù)值特征,并結(jié)合支持向量機對頭部進行最終確認,從而有效排除虛警。根據(jù)不同人體部位融合的特點,通過簡單的閾值調(diào)整便可實現(xiàn),降低算法的復雜性。試驗表明,部位特征組合的方法能夠有效地檢測出現(xiàn)實場景中的行人,并能排除一定的虛警目標。
試驗中也發(fā)現(xiàn)頭部定位不精確和復雜背景造成的行人誤識別等問題。頭部識別的關鍵在于獲取區(qū)分度較高的特征,為提高頭部檢測的準確率,須進一步研究更加可靠、穩(wěn)定的頭部目標特征。此外,還可以將級聯(lián)分類機制引入到分類器中以提高系統(tǒng)的實時性。
[1] Zegeer CV,Bushell M.Pedestrian Crash Trends and Potential Countermeasures from Around the World[J].Accident Analysis and Prevention,2012,44(1):3 -11.
[2] Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].IEEE Conf.on Computer Vision and Pattern Recognition,San Diego,CA,USA:IEEE,2005,1:886 -893.
[3] Wu B,Nevatia R.Detection and Tracking of Multiple,Partially Occluded Humans by Bayesian Combination of Edgelet Based Part Detectors[J].Int.Journal of Computer Vision,2007,75(2):247-266.
[4] Sabzmeydani P,Mori G.Detecting Pedestrians by Learning Shapelet Features[C].IEEE Conf.on Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA:IEEE,2007.
[5] Zhang L,Wu B,Nevatia R.Pedestrian Detection in Infrared Images Based on Local Shape Features[C].IEEE Conf.Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA:IEEE,2007.
[6] 胡斌,王生進,丁曉青.基于部位檢測和子結(jié)構(gòu)組合的行人檢測方法[J].計算機科學,2009,36(11):242 -246.
[7] 曾春,李曉華,周激流.基于感興趣區(qū)梯度方向直方圖的行人檢測[J].計算機工程,2009,35(24):182 -184.
[8] 周晨卉,王生進,丁曉青.基于局部特征級聯(lián)分類器和模板匹配的行人檢測[J].中國圖象圖形學報,2010,15(5):824 -829.
[9] Dollár P,Wojek C,Schiele B,et al.Pedestrian Detection:An E-valuation of the State of the Art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4):743 -761.
[10] Enzweiler M,Gavrila D M.Monocular Pedestrian Detection:Survey and Experiments[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(12):2179 -2195.
[11] Paisitkriangkcrai S,Shen C H,Zhang J.Fast Pedestrian Detection Using a Cascade of Boosted Covariance Features[J].IEEE Transactions on Circuits and Systems for Video Technology,2008,18(8):1140-1151.
[12] Laptev I.Improvements of Object Detection Using Boosted Histograms[J].Journal of Image and Vision Computing,2009,27:535-544.
[13] Freund Y,Schapire E R.A Decision-Theoretic Generalization of on Line Learning and an Application to Boosting[C].Proceedings of the Second European Conference on Computational Learning Theory,Barcelona,Spain:Springer,1995:23 -37.
[14] Wu B,Ai H Z,Huang C.LUT-based Adaboost for Gender Classification[C].International Conference on Audio and Video-Based Biometric Person Authentication,Guildford,UK:Springer,2003:104 -110.
[15] Gavrila D M.A Bayesian,Exemplar-based Approach to Hierarchical Shape Matching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(8):1408 -1421.
[16] 趙敏.單目視覺多行人目標檢測與跟蹤技術研究[D].重慶:重慶大學,2010.
[17] Chen C C.Improved Moment Invariant for Shape Discrimination[J].Pattern Recognition,1993,26(5):683 -686.