王 海,蔡英鳳,林國余,張為公
(1.江蘇大學汽車與交通工程學院,鎮(zhèn)江 212013; 2.東南大學儀器科學與工程學院,南京 210096)
?
2015106
基于幾何與粗糙深度信息的候選車輛生成方法*
王 海1,蔡英鳳1,林國余2,張為公2
(1.江蘇大學汽車與交通工程學院,鎮(zhèn)江 212013; 2.東南大學儀器科學與工程學院,南京 210096)
基于單目視覺的車輛識別通常分為候選車輛生成(CG)和候選車輛驗證(CV)兩個步驟。傳統(tǒng)的CG步驟往往采用遍歷的方法,獲得的候選車輛窗口數(shù)量龐大,增加了后續(xù)CV階段的計算耗時,難以滿足實際應用的實時性要求。本文提出一種基于幾何和深度信息的CG方法,在不丟失有效車輛區(qū)域的前提下極大減少了候選車輛的數(shù)量。該方法首先將圖像以超像素形式進行分塊,同時利用預先訓練的Adaboost分類器獲取超像素圖像的幾何信息和粗糙深度信息。然后利用車輛在世界坐標系下的垂直度、位置和尺寸等先驗知識,采用了一種分層聚類策略,合并圖像中屬于車輛的超像素塊并生成候選車輛。與傳統(tǒng)算法的比較結(jié)果表明,本方法以檢測率的微小降低為代價,實現(xiàn)了候選車輛窗口數(shù)量的大幅度減少。
車輛識別; 單目視覺; 候選車輛生成; 超像素
高級駕駛輔助系統(tǒng)(advanced driver asistant system,ADAS)的主要目的是提高駕駛員駕駛過程中的安全性和舒適性。ADAS系統(tǒng)要求對車輛所處的場景具有全面的感知和理解。例如,要求能對運動和靜止的物體進行實時準確地檢測,以確定車輛行駛的安全空間。目前,毫米波雷達、激光雷達等主動式傳感器已經(jīng)被廣泛使用。
主動式傳感器在車輛檢測應用中已經(jīng)表現(xiàn)出良好的效果。但是,高成本、高能耗和安裝不便是主動式傳感器短期內(nèi)難以克服的固有缺點。近年來,以機器視覺信息獲取(如攝像機)為代表的被動式傳感器成為ADAS研究的熱點。車載機器視覺可以獲取周邊環(huán)境豐富的圖像信息,這些信息可以被用在車輛檢測、車道線檢測和交通標志識別等ADAS應用中。其中,車輛檢測是基于機器視覺的交通場景理解的一個重要環(huán)節(jié)[1-6]。由于ADAS高實時性的要求和嵌入式硬件計算能力的制約,無法對一幅圖像所有子區(qū)域都采用復雜的模式識別算法進行判斷。因此,目前主流的目標檢測算法一般采用兩步的車輛檢測策略:第一步,采用低耗時的算法在圖像中生成車輛可能存在的假設候選區(qū)塊,即候選車輛生成(candidate generation,CG);第二步,針對上一個步驟產(chǎn)生的候選區(qū)塊,采用較為復雜的判斷算法進行區(qū)塊的候選車輛驗證(candidate verification,CV)。上述環(huán)節(jié)中,步驟一中生成的CG區(qū)塊數(shù)量的多少直接影響到整個目標檢測算法的實時性和準確性。因為,一方面較少的CG區(qū)塊會大大減少CV階段的算法執(zhí)行時間,顯著提高實時性;另一方面,若能在CG階段就排除掉絕大部分明顯的非目標物體圖像區(qū)塊,則有助于降低整個系統(tǒng)的誤檢率(false positive,FP)。因此,實現(xiàn)一個高效的CG算法對保障ADAS的性能有著重要的現(xiàn)實意義。
目前,大多數(shù)CG算法都采用遍歷搜索的方法,如滑動窗口法。為了兼顧實時性,這些算法往往會增大窗口滑動間隔和窗口尺度倍數(shù),而這會在一定程度上帶來車輛的漏檢[7]。文獻[8]中采用基于地平面假設的候選車輛生成方法,大大減少了候選窗口的數(shù)量。但是該方法在曲面路面和攝像機俯仰角變化時,CG窗口的選取效果大幅下降。文獻[9]中采用了基于對稱性和邊緣特征的車輛候選方法,但是該方法在前車車身姿態(tài)發(fā)生變動,如有一定的偏移角時,效果不佳。
本文中采用圖像中間層信息和底層信息相融合的策略,結(jié)合實際道路中車輛的幾何特征,提出了一種新穎高效的基于圖像幾何特征和深度信息的候選車輛生成方法。本方法首先將圖片按照像素的近似性轉(zhuǎn)化為超像素形式;然后通過單幅圖像場景的幾何信息提取,將圖像分成水平平面、豎直平面和天空3個主要部分,通過該分割,可以獲得與車輛位置有關(guān)的大量細節(jié)信息,另外由于本文中采用基于單幅圖像的粗糙深度信息的估計方法,能在僅有單幅圖像的情況下,獲得較為粗略的深度映射;最后,通過幾何與深度信息融合,對圖像中的超像素進行聚類組合,生成侯選車輛。本文的算法框架如圖1所示。
底層信息是指圖像中如像素灰度、顏色等無須加工即可獲得的圖像信息,超像素是底層信息的一種重要的表達方式。其本質(zhì)是一種分割方法,即將圖像中具有相同或相似特征屬性的近鄰像素聚合成一個組,稱之為一個超像素。文獻[10]中最早提出生成超像素的算法,目前出現(xiàn)了大量的以超像素代替原始像素的機器視覺處理方法,在圖像分割[11]、圖像解析[12]和目標定位[13]等領(lǐng)域均有廣泛應用??梢姴捎贸袼氐姆指罘椒ǜ荏w現(xiàn)人類的感知意義,也更符合自然的現(xiàn)實表示。因此,超像素表達在以人的感知為基礎(chǔ)的目標識別領(lǐng)域中具有得天獨厚的優(yōu)勢。本文中采用文獻[10]中所述的SLIC方法將車輛圖像劃分為底層的超像素形式(圖1(b))。
2.1 場景幾何信息提取
如上文所述,根據(jù)道路特點,單幅圖像中道路場景的幾何信息主要被分為3類。若能通過對單幅圖片的分析,進行這樣的物體區(qū)分,將對道路物體的檢測和識別提供非常有價值的先驗信息。通過對大量圖片的統(tǒng)計和分析發(fā)現(xiàn),在道路圖像中,平面物體往往是路面區(qū)域,垂直物體往往是垂直于路面的物體,例如車輛、樹木、護欄等,而天空部分往往是位于圖像的上方。文獻[14]中通過將每個超像素用顏色、位置和透視效果等信息進行表征,并將之輸入到一個經(jīng)預先訓練的回歸Adaboost分類器中,得到每個超像素的所屬類別。本文中采用該方法,將道路圖片分為前述路面、垂直物體和天空3類,如圖1(c)所示。
2.2 粗糙深度信息提取
基于多幅圖像的深度信息獲取已有許多成熟的方法。文獻[15]和文獻[16]中均提出了基于單幅圖像的精確深度信息獲取算法,但是這兩種方法需要以秒為計算單位的計算時間,難以滿足本文候選車輛生成的實時性要求。
相比較需要精確獲得物體在三維信息的應用,在候選車輛生成中,對圖像中物體的深度信息的精度要求相對較低。對此,本文中利用雙目視覺獲得的已標有圖像深度信息的大量樣本圖像,訓練了一個可以進行粗糙深度分類的SVM分類器。根據(jù)道路車輛檢測的應用特點,圖像中的深度di被分為近距離(0~100m)、中距離(100~150m)和遠距離(150m~∞)3類。
為進行分類器訓練,本文中提取了圖像的如下幾個特征:(1)HSV圖像空間3個通道的均值和直方圖;(2)基于Gabor濾波的紋理梯度特征;(3)像素所屬類別(天空、地面等)。將所有樣本圖像劃分為6×6像素的小格,用以上3個特征構(gòu)成相應的特征向量Vi。
對于任一個待測圖片,將其用上文所述的特征向量Vi表征并輸入到分類器C中進行訓練[17]。分類器C輸出待測圖片屬于某一個深度di的概率Pi,并按照最大概率原則進行判定。深度計算完成的圖像如圖1(c)右圖所示。
單目相機要求地平面平坦才能進行深度估計,基于分類器的粗糙深度信息提取可以克服這種不足,且可獲得垂直的、離路面有一定高度的物體(如車輛等)的深度信息。在此基礎(chǔ)上,配合攝像機參數(shù)和車輛尺寸的先驗知識,可更有效地確定不同深度的車輛候選窗口大小。據(jù)此,預先確定了3個區(qū)域內(nèi)車輛的像素大小范圍,如表1所示。
表1 車輛像素尺寸范圍
上一節(jié)中已將圖像以超像素形式加以分割,并且從幾何和深度的角度獲得了圖像相應的信息。接下來將通過這些信息的利用,首先篩選出符合車輛要求的超像素;其次,通過聚類算法將篩選出的超像素聚合成車輛可能存在的候選窗口。
選擇策略主要依據(jù)如下先驗知識:
(1)垂直約束,可能是車輛的超像素應存在于或鄰近于垂直平面;
(2)地面約束,所有可能存在車輛的超像素區(qū)域必須和地面相連接;
(3)深度約束,所有屬于同一深度的超像素方能聚為一類;
(4)尺寸約束,可能是車輛的超像素大小須和車輛在圖像中的像素尺寸相一致。
在該選擇策略的基礎(chǔ)上,本文中有針對性地提出一種分層聚類的方法,將篩選出的超像素組合成若干個可能是車輛的區(qū)域。該聚類算法也是本文的創(chuàng)新點之一,具體算法如下。
(1)從任一類屬于垂直類的超像素M開始,M須滿足其到地面距離小于一定的閾值。N為M附近一定區(qū)域內(nèi)屬于垂直類的超像素集合。
(2)設m∈M,n∈N,找出歐氏距離d(m,n)最小的一組超像素對m,n。
(3)若m,n滿足m,n都在同樣的深度范圍內(nèi),且m∪n的尺寸在一定的范圍內(nèi),則m,n構(gòu)成一個新的超像素m=m∪n。
(4)從N中移除n。
(5)若m滿足表1所示車輛像素尺寸范圍的約束,則跳轉(zhuǎn)到步驟2,否則從M中隨機選取一個新的m,再跳轉(zhuǎn)至步驟2。
通過該分層聚類方法,將最終確定可能屬于車輛的超像素組用相應的候選窗口區(qū)域覆蓋,即確定了侯選車輛。圖2為該聚類方法的一個實例。圖2(a)為某個待處理區(qū)域的原始圖像,圖2(b)~圖2(e)為采用候選車輛生成策略由超像素聚類成一個候選車輛的具體過程。
智能變電站應實現(xiàn)的高級應用功能包括:設備狀態(tài)監(jiān)測、基于多信息融合技術(shù)的綜合故障診斷、防誤功能擴展應用、智能告警及事故信息綜合分析決策、智能操作票系統(tǒng)等。這些高級功能的開發(fā)及應用對公司來說既是一次挑戰(zhàn),也是一次機遇。
本節(jié)通過實驗驗證本算法中候選車輛生成的效果,并將本方法和已有流行的候選車輛生成方法進行比較。
4.1 實驗數(shù)據(jù)準備
測試數(shù)據(jù)庫部分來自PETS2001公開數(shù)據(jù)庫,部分來自項目組試驗車的攝像機在以滬寧高速為主的高速公路上所拍攝的道路行車視頻片段。所有視頻圖片大小均為640×480,共選出3 463幅圖片,其中共有6 297輛車輛。
4.2 評價指標
候選車輛生成的目的在于用低耗時的算法產(chǎn)生有效且盡可能少的有效候選目標。在候選目標中要求能夠包含最多的正目標和最少的負目標。因此,本文中通過如下兩個指標進行評價。
(1)生成的候選車輛總數(shù)VCN(vehicle candidates numbers)。
VCN=TP+FP
(2)正確的候選車輛占所有車輛的比率CCR(correctcandidatesrate)。
式中:TP為正確的候選車輛數(shù)目(候選窗口內(nèi)確實存在車輛);FP為錯誤的候選車輛數(shù)目(候選窗口內(nèi)不存在車輛);FN為未被選出的車輛數(shù)目(未被候選窗口標出的車輛)。
4.3 效果評估與分析
采用同樣的測試圖片,將本文方法與文獻[7]中采用滑動窗口的候選車輛生成方法、文獻[8]中采用基于地平面假設的候選車輛生成方法和文獻[9]中的基于對稱性及邊緣特征等先驗知識的車輛候選方法進行了比較,結(jié)果如表2所示。
表2 各主流方法比較
由表可見:密集的滑動窗口法幾乎能夠選出所有車輛,但這是建立在幾乎窮舉所有圖像子窗口的基礎(chǔ)上的,生成的候選車輛數(shù)量龐大,使下一步車輛驗證完全無法滿足車輛檢測實時性的要求;稀疏的滑動窗口法減少了一半的VCN,但是CCR也降低了1%;地平面假設法大大降低了VCN,但是CCR相比稀疏滑動窗口法降低了2%;利用先驗知識的方法雖然生成了最少的VCN,但代價是CCR降低至95%以下,出現(xiàn)了較多的漏檢,使得后期車輛檢測的性能下降較多;本文方法僅生成了不到稀疏的滑動窗口法1%的VCN,但CCR達到了與其極為接近的水平。圖3中給出了本算法的部分圖片處理結(jié)果。其中,圖3(a)為原圖,圖3(b)為從原圖中提取出的天空和垂直平面、地平面的幾何信息圖,圖3(c)為利用分類器獲得的深度信息圖,而圖3(d)為最終的候選車輛生成圖。圖3(a)和圖3(b)來自PETS2001圖庫,圖3(c)和圖3(d)來自滬寧高速鎮(zhèn)江至南京段采集的實際道路視頻中所提取的圖片。
本文中實驗平臺為惠普工作站,其主要參數(shù)為Intel酷睿2雙核2.67G處理器,2G內(nèi)存,操作系統(tǒng)為Windows XP,編程軟件為Microsoft Visual 6.0。在該平臺下,在未經(jīng)過算法和硬件優(yōu)化的情況下,處理一幅像素大小為640×480的圖片,耗時約為18.3ms??紤]到本文方法可以減少90%以上后期CV階段須處理的窗口數(shù),因此可以認為本文方法能夠滿足車輛檢測系統(tǒng)實時性的要求。
本文中提出了一種新穎的基于單目視覺,用于道路車輛檢測中的候選車輛提取算法。該算法通過圖像幾何信息和深度信息的提取,利用這兩種中間層次的信息,并以此對超像素圖像采用一種分層聚類策略,有效地提取出候選車輛。算法的評估和分析結(jié)果表明,該方法在大大減少候選車輛數(shù)量的基礎(chǔ)上,能夠選取出98%以上的車輛,既能縮短下一階段車輛驗證算法的計算時間,又能避免車輛的漏檢。
在下一步的工作中,將對該算法在多種天氣和光照環(huán)境下進行系統(tǒng)的效果測試和分析,并在此基礎(chǔ)上進行改進并集成到實際車輛檢測系統(tǒng)中。
[1] Gehrig S, Stein F. Collision Avoidance for Vehicle-Following Systems[J]. IEEE Transaction on Intelligent Transportation Systems,2007,8: 233-244.
[2] Giseok K, Jae-soo C. Vision-based Vehicle Detection and Inter-vehicle Distance Estimation[C].12th International Conference on Control, Automation and System, 2012: 625-629.
[3] Lan J, Zhang M. A New Vehicle Detection Algorithm for Real-time Image Processing System[C].2010 International Conference on Computer Application and System Modeling, 2010: 1-4.
[4] Acunzo D, Zhu Y, Xie B. Context-adaptive Approach for Vehicle Detection Under Varying Lighting Conditions[C].IEEE International Conference on Intelligent Transportation Systems Conference, 2007: 654-660.
[5] Lili H. Roadside Camera Calibration and Its Application in Length-based Vehicle Classification[C].2nd International Asia Conference on Informatics in Control, Automation and Robotics (CAR),2010, 2: 329-332.
[6] 陳濤, 譚華春, 馮廣東,等. 運動車輛檢測的APG-TR算法[J]. 交通運輸工程學報, 2012, 12(4): 100-106.
[7] Sun Z, Bebis G, Miller R.On-road Vehicle Detection Using Evolutionary Gabor Filter Optimization[J]. IEEE Transactions on Intelligent Transportation System, 2005, 6(2):125-137.
[8] Kim Giseok, Cho Jae-Soo. Vision-based Vehicle Detection and Inter-Vehicle Distance Estimation[C].2012 12th International Conference on Control, Automation and Systems, Jeju Island, Korea, 2012, 1:625-629.
[9] Wang H, Zhang W, Cai Y. Design of a Road Vehicle Detection System Based on Monocular Vision[J]. Journal of Southeast University (English Edition), 2011, 27(2): 169-173.
[10] Felzenszwalb P, Huttenlocher D. Efficient Graph-based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167-181.
[11] He X, Zemel R, Ray D. Learning and Incorporating Top-down Cues in Image Segmentation[C].Proceedings of 9th European Conference on Computer Vision, Lecture Notes in Computer Science, London: Springer London Ltd, 2006: 338-351.
[12] Tighe J, Lazebnik S. Superparsing: Scalable Nonparametric Image Parsing with Superpixels[C].Proceedings of Perspectives in Neural Computing, 2010: 352-365.
[13] Fulkerson B, Vedaldi A, Soatto S. Class Segmentation and Object Localization with Superpixel Neighborhoods[C].Proceedings of the International Conference on Computer Vision, IEEE Computer Society, 2009: 670-677.
[14] Hoiem D, Efros A, Hebert M. Recovering Surface Layout from an Image[J]. International Journal of Computer Vision, 2007, 75(1): 151-172.
[15] Saxena A, Sun M, Ng A. Make3D: Learning 3D Scene Structure from a Single Still Image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[16] Liu B, Gould S, Koller D. Single Image Depth Estimation from Predicted Semantic Labels[C].IEEE Conference on Computer Vision and Pattern Recognition, 2010: 1253-1260.
[17] Chih-Chung C, Chih-Jen L. LIBSVM: a Library for Support Vector Machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011,2(27):1-27.
Vehicle Candidate Generation Based on Geometry and Coarse Depth Information
Wang Hai1,Cai Yingfeng1,Lin Guoyu2& Zhang Weigong2
1.SchoolofAutomotiveandTrafficEngineering,JiangsuUniversity,Zhenjiang212013;2.SchoolofInstrumentScienceandEngineering,SoutheastUniversity,Nanjing210096
Monocular vision based vehicle identification are often divided into two steps: candidate generation (CG) and candidate validation (CV). Traditional CG procedure adopting ergodic approach often generates a large amount of candidate windows, which dramatically increase the calculation time in CV phase and hence is hard to meet the real-time requirements of practical application. In this paper a novel vehicle candidate generation method is proposed based on geometry and depth information, which can greatly reduce the number of candidate windows generated. With the method, firstly images are divided into super pixel regions, and the geometry information and coarse depth information of images are obtained with pre-trained Adaboost classifier. Then by using the prior knowledge of vehicles (verticality, location and size) in global coordinate system, a hierarchical clustering strategy is adopted to merge the vehicle super pixel blocks in images and generate vehicle candidates. The results of comparison with traditional algorithms show that the method proposed achieves a great reduction in the number of candidate windows with a cost of minor drop in detection rate.
vehicle detection; monocular vision; vehicle candidate generation; super pixels
*國家自然科學基金(61403172、51305167和61203244)、交通運輸部信息化項目(2013364836900)、中國博士后基金(2014M561592)、江蘇省六大人才高峰項目(2014-DZXX-040)、江蘇省自然科學基金(BK20140555)、江蘇省博士后基金(1402097C)和江蘇大學高級專業(yè)人才科研啟動基金(12JDG010和14JDG028)資助。
原稿收到日期為2013年8月5日,修改稿收到日期為2013年12月2日。