胡強,屈薔,何鑫
1. 南京航空航天大學 自動化學院,江蘇 南京 211106
2. 南京航空航天大學 計算機科學與技術學院,江蘇 南京 211106
隨著自動駕駛技術的發(fā)展,基于視覺的道路檢測算法在全球范圍內(nèi)得到了廣泛應用。這些方法的主要目的是提供將像素點劃分為屬于或不屬于道路區(qū)域的能力。鑒于自動駕駛汽車的場景限制,算法多使用柏油馬路為主的車道公開數(shù)據(jù)集進行實驗,在具有不同特征的室外人行道上少有研究。對于數(shù)量眾多的盲人群體來說,檢測出人行道能在一定程度上解決出行的問題。因此本文在已有車道檢測算法的基礎上對人行道的區(qū)域分割進行研究。
單目相機依靠成本低廉、校準使用簡單、包含圖像信息豐富等優(yōu)勢,逐漸成為道路檢測的主流設備。單目視覺主要有基于區(qū)域和基于紋理2 種方法。其中,基于區(qū)域的方法[1]是指在圖像中尋找顏色、紋理等屬性,從背景中將道路區(qū)域分割出來。當路面與周圍環(huán)境明顯不同時,這種策略是成功的。然而當?shù)缆肪哂蟹蔷鶆虮砻婧蛷碗s特征時,任務變得困難起來。基于紋理的方法[2]利用Gabor 濾波器的紋理輸出進行投票尋找消失點來實現(xiàn)道路區(qū)域分割。Gabor 濾波器存在大量的方向?qū)е略摲椒ㄓ嬎懔看螅y以實時使用。后續(xù)研究采用道路先驗[3]、上下文信息[4]和最優(yōu)局部優(yōu)勢定位(optimal local dominant orientation method,OLDOM)[5]等方法對這兩種方法進行改善。雖然在一定程度上起到提高檢測精度和縮短運行時間的作用,但是單目視覺算法仍然存在三維信息丟失導致的模糊問題。
已有學者開始嘗試利用三維的深度線索來探測路面。通過將問題限制在平面道路上,文獻[6]的工作發(fā)現(xiàn)V 視差圖中道路的縱斷面被投影成對角線直線,利用U 視差圖去除部分垂直障礙物,再通過曲線擬合技術對直線進行提取,映射出道路區(qū)域。文獻[7]則在U-V 視差圖法的基礎上采用RANSAC 對隨機采樣的視差斑塊進行道路平面參數(shù)的計算,通過引入道路平面坡度約束,去除不可靠的斑塊。但是雙目視覺系統(tǒng)的基線和圖像分辨率限制了測量精度,直接使用深度等三維信息可能產(chǎn)生不可靠的結(jié)果。
道路檢測的另一種思路側(cè)重于融合和分類。隨著機器學習應用越來越受到重視,研究者開始對道路提取到的信息進行融合。除了顏色信息之外,Gabor 特征[8]、多尺度特征[9]以及位置先驗特征[10]也逐漸被使用。然而簡單地將上述二維特征信息進行融合,對于一些復雜的人行道場景,比如樹木陰影、背景特征相似性干擾等,檢測結(jié)果存在一定程度的誤差。
分析上述問題,本文提出了一種改進的多特征融合人行道檢測算法??紤]到像素級圖像操作會增加后續(xù)處理復雜度和噪聲干擾,因此通過比較不同的超像素算法,選取效果最佳的方法將人行道數(shù)據(jù)集圖像分割成區(qū)域級圖像,并研究超像素參數(shù)對檢測精度的影響。為了解決Gabor 濾波器存在大量方向?qū)е碌母邥r間復雜度問題,根據(jù)人行道的紋理特點提出一種改進算法來加速特征的提取。由于背景特征相似性帶來相應的干擾,所以融合了三維特征和常用的二維特征,并提出了基于PCA 的光照不變空間特征(簡稱PCA-II)來減少強光和陰影帶來的影響。超像素參數(shù)非自適應性會導致道路邊緣出現(xiàn)凹凸的現(xiàn)象,因此利用馬爾可夫隨機場(Markov random field, MRF)對分割結(jié)果進行細化。
本文提出的人行道檢測算法主要由3 部分組成,如圖1 所示。第1 部分采用超像素算法將RGB 圖像分割成超像素圖,并進行立體匹配[11]和PCA-II 轉(zhuǎn)換得到視差圖和PCA-II 圖;第2 部分提取各超像素塊的RGB、HSV 顏色特征、位置特征、PCA-II 特征以及三維深度梯度特征,利用改進的Gabor 濾波器加速算法對紋理特征進行提??;第3 部分選用Adaboost 分類器對多特征進行融合,并通過MRF 對分割結(jié)果進行細化。
圖1 人行道檢測算法流程
本文在文獻[12]提出的基于機器學習的車道檢測算法基礎上,將PCA-II 特征和三維深度信息用于人行道檢測,以減少光照變化和背景特征相似性干擾的影響。為了更好地反映二維和三維特征的協(xié)同作用,遵循文獻[13] 的思想,在早期階段對提取的特征進行融合。將從二維和三維信息中提取的特征向量組合成機器學習分類器的輸入,即
在二維特征的選擇上,首先考慮圖像檢索中應用最廣泛的顏色特征,RGB 和HSV 空間作為最常用的顏色空間,能夠很大程度上提供與色彩相關的有效信息,同時驗證不同色彩空間對于檢測精度的影響。觀察數(shù)據(jù)集圖像時發(fā)現(xiàn),人行道區(qū)域由兩條相交于地平線處的道路特征線包圍且多位于圖像的正下方,因此選擇位置特征信息以排除圖像正上方的背景干擾塊。由于現(xiàn)實生活中大部分人行道具有獨特的花紋和線條方向差異,選擇基于時間局部化的Gabor 變換提取圖像邊緣的多方向和多尺度特征作為紋理特征,可以有效地定位目標區(qū)域。梯度值表示圖像中某個鄰域內(nèi)的灰度變化,典型的梯度特征描述子(gradient kernel descriptor, GKDES)為方向梯度直方圖(histogram of oriented gradients, HOG)特征,結(jié)合SVM 分類器被廣泛用于行人檢測中。鑒于人行道區(qū)域的邊緣豐富,因此選擇GKDES 作為人行道檢測的候選特征。在基于相機的視覺系統(tǒng)中,光照的變化會產(chǎn)生不需要的偽像,從而顯著影響實驗程序的結(jié)果,所以引入PCA-II 特征實現(xiàn)圖像對光的分離效果。
在三維特征的選擇上,本文實驗的設備為雙目攝像頭,能夠在運動或靜止狀態(tài)下對目標進行深度估計,原理如圖2 所示。假設將現(xiàn)實中的目標點P(X,Y,Z)投影到圖像坐標系下的像素點p(u,v),則坐標(u,v)表示為
式中: θ為相機的俯仰角;h為相機距離地面的高度;b為 立體基準線;f為焦距;(u0,v0)為相機光學中心投影的像素坐標;i表示左相機( εl)或者右相機( εr):εl=-1,εr=1;則視差值Δ=ul-ur的計算公式為
聯(lián)立式(1)、(2)可知Y與視差值 Δ、像素坐標值v的關系為
因為路面的深度從近到遠呈現(xiàn)近似線性增加,不會產(chǎn)生較大的數(shù)值波動,因此選擇深度梯度特征子(depth gradient kernel descriptor, DGKDES)作為三維融合特征可以獲取水平面的大致區(qū)域,剔除視差突變區(qū)域以及無視差區(qū)域。
選擇合適的交叉特征融合策略,首先獨立評估二維和三維特征的檢測精度,然后有選擇地對二維和三維特征進行組合進行效果評估。特征選擇和組合的細節(jié)將在實驗部分中展示。
圖2 雙目視覺原理
基于文獻[5]的道路檢測方法以及考慮人行道紋理的特殊性,本文為圖像卷積定義了32 個Gabor 濾波器:4 個頻率8 個方向,在超像素塊上進行像素平均操作后得到32 維向量作為分類器輸入。但是由于使用的樣本數(shù)據(jù)集圖像規(guī)模在千張數(shù)量級,提取32 維的Gabor 紋理特征將會耗費大量時間,因此需要對該算法進行改進以加速紋理特征的提取。
首先,定義8 個Gabor 能量對應方向值為φ ∈{0°, 22.5°, 45°, 67.5°, 90°, 112.5°, 135°, 157.5°},則φ方向上對應的Gabor 濾波器能夠?qū)懗?/p>
式中:ω0=2π/λ, λ表示Gabor 核函數(shù)的波長;a=xcosφ+ysinφ;b=-xsinφ+ycosφ;c為常量, π/2。通過將灰度輸入圖像I與一組Gabor 濾波器進行卷積來獲得每個像素的Gabor 能量響應,即
因此像素p在 φ方向上對應的復數(shù)Gabor 濾波器能量值計算公式為
當數(shù)據(jù)集輸入圖像像素為N,圖像數(shù)量為W,提取單像素紋理特征時間為T,則原先的算法所需時間為32TNW。改進的思路是根據(jù)常識發(fā)現(xiàn),通常人行道鋪設材料相比于車道在不同方向上存在極其明顯的紋理差異,同時天空、墻面等區(qū)域無明顯紋理。因此利用式(3)計算各超像素塊的一組Gabor 能量,再按照能量均值進行降序排列,即
式中Eth稱為Gabor 能量響應閾值。當超像素塊k主導方向能量值小于Eth或者置信度Conf(k)低于置信閾值Tc,則視為不可靠超像素塊,計算后面3 組Gabor 能量時直接將能量數(shù)值設為0。若不可靠超像素塊包含D像素,則紋理提取時間將降為32T(N-D)W+8TDW,所耗時間會隨著篩選出的不可靠超像素塊數(shù)量的增加而明顯減少,起到一定程度上的加速效果。本文在實驗部分將對閾值Eth、Tc的選取進行討論。
光照不變空間的原理如圖3 所示,具有不同強度相同色度的RGB 顏色被映射到色比空間的同一虛線上,與所有虛線正交的實線l就是所需的一維光照不變線性空間。算法的關鍵在于尋找合適的色度投影線l。文獻[14]中提出計算多個投影方向下的熵值,并選擇熵值最小時對應的方向作為投影方向,缺點就是需要進行多次計算(如以1°為基準則需要投影180 次)。本文通過觀察色比空間像素顏色分布發(fā)現(xiàn),使用PCA 算法能夠快速獲取色度投影線l,保證人行道檢測的實時性。
圖3 光照不變空間原理
首先介紹2 種二維色比空間。第1 種計算每個像素的對數(shù)顏色比率,即
該方法利用G作為歸一化通道計算對數(shù)色比值。第2 種采用RGB 顏色空間幾何平均對數(shù)值來計算色比空間,即
確定合適的色比空間映射函數(shù)是計算高質(zhì)量光照不變空間的關鍵,因此利用創(chuàng)建的人行道數(shù)據(jù)集對2 種映射函數(shù)進行檢驗,部分結(jié)果如圖4所示。
圖4 色比空間像素散點圖
對比圖4(a)和(b)發(fā)現(xiàn),人行道數(shù)據(jù)集圖像更適合幾何平均對數(shù)色比空間,因為點與點之間更密集且扁平,同時二維色比空間內(nèi)的像素投影到一維色度投影線l上的色度更緊湊,有效地減少光照變化的影響。
本文發(fā)現(xiàn)散點圖分布近似于橢圓形,適用于PCA 的最大方差理論,即將最大方差的主方向作為色度投影的方向。因此利用PCA 作為全局方法標識出具有最大方差的半主軸。將所有像素的r、b值構(gòu)成一個2×n的矩陣X,對協(xié)方差矩陣C=XXT進行奇異值分解得到最大方差和最小方差的特征向量和特征值e1、e[2、 λ1、 λ2,]即
圖4(b)中e1作為二維空間內(nèi)色度投影的方向,穿過樣本中心且方向為e2的一維直線被視為色度投影線l。經(jīng)過PCA-II 轉(zhuǎn)換的結(jié)果如圖5 所示,可以看出人行道區(qū)域上的強光和陰影顯示差異變小。
圖5 PCA-II 轉(zhuǎn)換特征圖
本文所使用的人行道數(shù)據(jù)集均由高清USB雙目攝像頭采集,可支持的分辨最高可達2 560 pix×960 pix,對應幀數(shù)可穩(wěn)定保持在60 F/s,水平70°視角無畸變,基線長度為59.5 mm。數(shù)據(jù)集圖像在強光照和陰暗天氣下分別以行人視角進行拍攝,觀察實際環(huán)境發(fā)現(xiàn)拍攝場景大致分為2 類:第1 種是僅包含人行道的非機動車區(qū)域場景,第2 種指柏油馬路機動車道和人行道同時出現(xiàn)的路邊街道場景。實驗共收集2 000 組雙目圖像,訓練集和測試集各分配1 000 組圖像數(shù)據(jù)。為了縮短訓練時間,數(shù)據(jù)集圖像分辨率選擇為320 pix×240 pix。人行道區(qū)域標注部分使用開源圖像標注工具Labelme,人工選取道路覆蓋區(qū)域生成json 文件,利用cmd 指令轉(zhuǎn)換成相應的Mask 數(shù)據(jù)用于本文算法的訓練和預測。
目前超像素算法主要分為2 類,即SL、Graph Cut 等基于圖論的方法和VCells、TurboPixels、SLIC等基于聚類的方法。本文在人行道數(shù)據(jù)集上對上述超像素算法性能進行評估,評估指標包括欠分割錯誤率(under-segmentation error, UE)、邊界響應率(boundary recall, BR)、可實現(xiàn)分割精度(achievable segmentation accuracy, ASA)以及運行時間表現(xiàn)(runtime performance, RF),實驗結(jié)果如圖6、7 所示。
圖6 不同超像素算法性能
圖7 不同超像素算法分割效果圖
根據(jù)圖6(a)和(b)可以看出,Vcells 和SLIC在欠分割錯誤率和邊界響應率上都具有較優(yōu)的表現(xiàn)。欠分割錯誤率低說明在地面真值附近的超像素緊密;邊界響應率高體現(xiàn)切割出的邊緣盡可能多地是圖像自然邊緣,能很好地保持地面真值分割的邊界。盡管SL 在邊界響應率上有最好的表現(xiàn),但是在其他指標上的表現(xiàn)使其難以應用。圖6(d)可以很明顯地看出SLIC 在運行時間表現(xiàn)上遠優(yōu)于Vcells,約比Vcells 快20 倍。綜合以上的分析,本文在人行道檢測上選擇SLIC 作為圖像預處理的超像素算法。
SLIC 具有唯一參數(shù)超像素塊數(shù)K,為了驗證該參數(shù)對人行道檢測精度的影響,該實驗基于RGB+POS+HSV 特征組合,K從100~1 000 間隔為10 地選取數(shù)值,對每張圖像訓練時間和超像素塊檢測精度進行統(tǒng)計,如圖8 所示。
圖8 SLIC 參數(shù)K 評估
根據(jù)實驗數(shù)據(jù)可知,由于以超像素塊為基準進行特征提取,隨著K值的增加,需要耗費更多的計算時間。當K值較小時會出現(xiàn)欠分割現(xiàn)象,道路區(qū)域和非道路區(qū)域被分割在同一超像素塊下,在后續(xù)訓練和預測過程中會出現(xiàn)邊緣凹凸等現(xiàn)象;當K值較大時則會導致道路區(qū)域被過度分割成多個小區(qū)域,增加特征向量維數(shù)的同時降低分類器對噪聲的魯棒性,導致超像素塊檢測精度呈下降趨勢。對于本文數(shù)據(jù)集而言,K值在300 左右能取得相對較好的效果。
首先在保證檢測精度受影響較小的前提下選取改進算法的閾值Eth、Tc。分別計算每張訓練集圖像道路區(qū)域和非道路區(qū)域超像素塊Gabor能量,統(tǒng)計后發(fā)現(xiàn)天空等無紋理區(qū)域8 個方向Gabor 能量趨向于零,因此設置Gabor 能量閾值Eth=0.1以剔除無紋理區(qū)域。置信度閾值Tc預設為{0.70,0.75,0.80,0.85,0.90,0.95},6 個數(shù)值分別進行實驗,相應閾值下定義道路超像素塊誤剔除個數(shù)為R,非道路超像素塊準確被剔除個數(shù)為N,道路超像素塊總個數(shù)為U,非道路超像素塊總個數(shù)為V,平均每張圖像節(jié)省時間百分比為S,結(jié)果如表1所示。
表1 Gabor 濾波器紋理提取加速效果%
結(jié)合實驗結(jié)果可知,當置信度閾值Tc較小時,道路區(qū)域的誤剔除率和非道路區(qū)域的準確剔除率均很小,算法的加速效果并不明顯;當Tc從0.9 提升到0.95 時,誤剔除率大幅度提升,這是因為0.95 時區(qū)域各方向紋理差別非常大,地磚鋪設的人行道區(qū)域也難以達到該數(shù)值。因此,本文實驗置信度閾值Tc為0.9 左右時加速效果最佳,平均每張圖片可節(jié)省23.203%的時間,證明本文提出的改進算法的有效性。
首選通過對比實驗觀察不同分類器對人行道檢測精度的影響。使用的特征組合是“RGB+Gabor+POS”,待驗證的機器學習算法包括:Adaboost、Random Forest、SVM、ANN 和Logistic。圖9 展示了不同分類器的檢測精度,可以發(fā)現(xiàn)Adaboost 在本數(shù)據(jù)集中的表現(xiàn)明顯優(yōu)于其他算法。
圖9 不同分類器的分割精度
根據(jù)路面真實情況和算法的檢測結(jié)果,將測試樣本中的超像素塊標記為4 種情況:TP、TN、FP、FN。采用4 種指標來描述檢測性能:質(zhì)量(Q),檢出率(P),檢測精度(R)以及有效性(F)。
分別對每種特征進行評估,然后有選擇地融合,得到最佳的特征組合。表2 展示了每種特征在Adaboost 分類器下單獨評估時的結(jié)果。
表2 道路特征單獨評估結(jié)果%
比較它們之間的表達能力,發(fā)現(xiàn)紋理特征對人行道的識別力最強,梯度描述子的識別力最弱。這是因為人行道多數(shù)是由磚塊鋪設而成,存在著多個方向的明顯紋理,而背景中較多像素在X、Y方向上的梯度變化較大,這與人行道的梯度數(shù)值基本相同,起到干擾的作用。
RGB 和HSV 表示的是顏色信息,RGB 比HSV識別道路的能力更好,Gabor 提供的是紋理信息,POS 表達的是位置信息,GKDES 的檢測結(jié)果最差,PCA-II 和DGKDES 是新加入的特征,因此首先選擇4 種組合方式:“RGB+Gabor”、“HSV+POS” 、 “HSV+Gabor ” 和“RGB+Gabor+POS ”。根據(jù)表3 的評估結(jié)果說明“RGB+Gabor+POS”組合的表現(xiàn)最好。
表3 基本道路特征組合評估結(jié)果%
在特征框架“RGB+Gabor+POS”(簡稱“RGP”)的基礎上,對新加入的PCA-II 和DGKDES 特征分別驗證其效果,結(jié)果如圖10 所示。
圖10 PCA-II 和DGKDES 特征改進效果
根據(jù)圖9 的檢測效果可發(fā)現(xiàn),PCA-II 特征彌補了原有特征組合無法檢測部分陰影區(qū)域的缺點,DGKDES 特征能夠消除部分不在人行道同一平面的誤判超像素塊,從而使檢測效果更接近地面真實值,精度提高效果如表4 所示。
表4 PCA-II 和DGKDES 新特征評估結(jié)果%
為了驗證MRF 后處理技術的重要性,本文將未經(jīng)過MRF 處理和經(jīng)過MRF 處理的檢測結(jié)果進行比較,如圖11 所示。通過MRF 分割優(yōu)化后,可以發(fā)現(xiàn)在不影響檢測精度的同時,檢測出的人行道邊緣與真實地面的輪廓更擬合,道路區(qū)域和非道路區(qū)域分界線的凹凸現(xiàn)象得到改善,補償了SLIC 超像素塊進行預處理時K值非自適應的缺點,提高了本文人行道檢測算法的有效性和可靠性。
圖11 MRF 算法優(yōu)化效果
本文將提出的算法與其他道路檢測方法的檢測效果進行了對比,將利用OLDOM 完善的消失點法(OLDOM vanishing point, OVP)[5]和利用RANSAC 改善的U-V 視差圖法(RANSAC U-V disparity map, RUVDM)[7]在本文創(chuàng)建的人行道數(shù)據(jù)集上進行測試,檢測結(jié)果如表5 所示。根據(jù)結(jié)果可知,本文提出的人行道檢測算法的有效性比OVP 提高了1.425%,比RUVDM 提高了0.585%。觀察圖12 的檢測效果,OVP 雖然有很高的檢出像素準確度,但是兩側(cè)存在許多漏檢區(qū)域;RUVDM在檢測地平面時由于人行道和車道之間的深度差異小導致部分車道區(qū)域被誤檢,相比之下本文提出的算法具有一定的優(yōu)勢。
表5 3 種人行道檢測算法的結(jié)果比較%
圖12 3 種人行道檢測算法效果
在盲人出行等問題上,通常需要將人行道路面檢測作為起始步驟,以提供幾何約束方便后續(xù)處理。
1)在本文中,我們提出了一種改進的多特征人行道檢測算法,在原有基礎特征上加入PCAII 特征和深度梯度特征來克服光照條件和背景非地平面干擾超像素塊的影響。
2)與此同時,使用一種基于8 個方向Gabor濾波器能量值關系的改進算法對紋理提取進行加速。實驗在手工拍攝標注的人行道數(shù)據(jù)集上進行,證明了該算法能夠適用于大部分情況下的路面。
然而,本算法只是在小樣本的數(shù)據(jù)集上進行測試,今后將逐步擴大數(shù)據(jù)集的樣本數(shù)量和類型,以驗證方法的有效性和普適性。