張盼盼,宋佳順
(1. 北京華為數(shù)字技術(shù)有限公司,北京 100095; 2. 上海科之銳人才咨詢有限公司北京分公司,北京 100020)
車輛感知作為高等級(jí)輔助駕駛產(chǎn)品的關(guān)鍵要素之一,是以多種傳感器的數(shù)據(jù)與高精度地圖的信息為輸入,經(jīng)過(guò)一系列的計(jì)算及處理,對(duì)自動(dòng)駕駛車的周圍環(huán)境精確感知的系統(tǒng),相當(dāng)于人眼。能否準(zhǔn)確識(shí)別靜態(tài)和動(dòng)態(tài)物體是智能駕駛產(chǎn)品競(jìng)爭(zhēng)力的評(píng)價(jià)指標(biāo)之一[1-2]。
車輛感知模型的訓(xùn)練需要大量的數(shù)據(jù)支撐[3],傳統(tǒng)標(biāo)注主要是對(duì)二維圖像進(jìn)行框點(diǎn)標(biāo)注、對(duì)三維點(diǎn)云數(shù)據(jù)進(jìn)行三維框標(biāo)注[4],這種標(biāo)注方法對(duì)于單通道感知模型而言已足夠且技術(shù)相對(duì)成熟。
BEV(bird’s-eye view)感知,即俯視圖下的感知技術(shù),是基于多個(gè)攝像頭的圖像輸入,推斷出鳥(niǎo)瞰視角下的車輛周圍環(huán)境信息,如圖1所示。
圖1 BEV感知示意
隨著特斯拉FSD高等級(jí)輔助駕駛產(chǎn)品(L2+)的商業(yè)化實(shí)施,6個(gè)攝像頭通道數(shù)據(jù)甚至更多的傳感器數(shù)據(jù)引進(jìn)后,實(shí)現(xiàn)感知結(jié)果的融合,輸出唯一穩(wěn)定的感知結(jié)果,成為一個(gè)重要的課題。端到端的感知對(duì)數(shù)據(jù)標(biāo)注提出了新的要求。無(wú)論是特斯拉AI Day,還是行業(yè)“重感知、輕地圖”的提議,新感知都傾向于直接在三維向量空間輸出局部地圖,同時(shí)也期望解決遮擋物體的感知能力。因此,需要構(gòu)建一個(gè)從輸入圖像到輸出局部地圖的神經(jīng)網(wǎng)絡(luò),在這個(gè)過(guò)程中需要有大量有效的標(biāo)注樣本訓(xùn)練出一個(gè)好的感知模型。
開(kāi)展BEV視角的感知工作,除了更好地做多傳感器融合外,最主要的是BEV結(jié)果更加適合下游預(yù)測(cè)和規(guī)劃的任務(wù),以及解決通過(guò)規(guī)則的方式從二維提升至三維所帶來(lái)的不可擴(kuò)展性[5]。
現(xiàn)在主流的規(guī)劃和控制算法,都是在物理的、笛卡爾坐標(biāo)系中展開(kāi)的。因此,無(wú)論上游的傳感器信息來(lái)自什么視角,經(jīng)過(guò)傳感器融合(sensor fusion)模塊后,一般都會(huì)轉(zhuǎn)換到以自車為中心的坐標(biāo)系中(vehicle coordinate system,VCS)。由于車在地面上,因此實(shí)際上VCS坐標(biāo)系中的x和y平面上的感知結(jié)果最為重要,即BEV感知結(jié)果所輸出的空間。
傳統(tǒng)的機(jī)器學(xué)習(xí)問(wèn)題設(shè)定都是在圖像空間(檢測(cè)是在圖像上畫框、語(yǔ)義分割是標(biāo)出每個(gè)像素點(diǎn)的類別),對(duì)于自動(dòng)駕駛,攝像頭僅拍到對(duì)面的行人和車在圖像上的位置是不夠的,需要恢復(fù)到物理世界的坐標(biāo)和向量空間。大部分公司采取的方案是先通過(guò)模型得到圖像坐標(biāo),然后通過(guò)編程得到向量空間的坐標(biāo)。但從圖像坐標(biāo)到向量空間坐標(biāo)的數(shù)據(jù)是相關(guān)的,轉(zhuǎn)換代碼變得極復(fù)雜且難以擴(kuò)展(不斷出現(xiàn)新的長(zhǎng)尾問(wèn)題,否則不斷膨脹)[6]。
此外,當(dāng)每個(gè)攝像頭通道在感知同一地物(如空中標(biāo)牌),且在融合唯一的地物時(shí),不可避免會(huì)出現(xiàn)不唯一的情況,即錯(cuò)位,如圖2所示。
圖2 多通道相機(jī)后融合問(wèn)題(來(lái)自特斯拉AI Day視頻)
傳統(tǒng)的數(shù)據(jù)標(biāo)注方法,無(wú)論是二維圖像框點(diǎn)標(biāo)注還是三維框標(biāo)注,都是針對(duì)單幀數(shù)據(jù)的標(biāo)注,未考慮時(shí)間維度的時(shí)序信息,既不能解決要素遮擋問(wèn)題,也無(wú)法解決數(shù)據(jù)融合質(zhì)量問(wèn)題。因此,尋找一種有效解決因多傳感器感知造成的數(shù)據(jù)不一致的問(wèn)題,是該技術(shù)方案主要探討的內(nèi)容。
從解題思路上看,多通道圖像感知融合輸出的標(biāo)注結(jié)果本質(zhì)上與高精地圖相似[7],主要體現(xiàn)為以下幾點(diǎn)。
(1)多通道感知所輸出的唯一解是車輛當(dāng)前所在位置的局部地圖,也包括動(dòng)態(tài)物體信息。
(2)理論上,每個(gè)通道內(nèi)的感知信息與局部地圖呈映射關(guān)系,且地圖是三維場(chǎng)景下的精確表達(dá)。
唯一差異點(diǎn)為高精地圖只關(guān)注三維空間的標(biāo)注,而本文提出的四維標(biāo)注還會(huì)引入時(shí)序信息,解決標(biāo)注效率和物體遮擋標(biāo)注等問(wèn)題。四維標(biāo)注是三維空間+時(shí)間維度的聯(lián)合標(biāo)注方式。
可以直接采用模型估計(jì)向量空間。因此,需要與之相對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)。標(biāo)注系統(tǒng)會(huì)把6個(gè)攝像頭的圖像信息映射到向量空間(像素點(diǎn)映射到向量空間),如圖3所示。標(biāo)注人員在向量空間標(biāo)注(標(biāo)注靜態(tài)物體,如車道線、路沿、路面、人行道、交通標(biāo)志牌等)。標(biāo)注系統(tǒng)會(huì)把標(biāo)注員的標(biāo)注同時(shí)映射到各個(gè)攝像頭的圖像上,標(biāo)注員可以進(jìn)一步調(diào)整,保證在各個(gè)攝像頭上的標(biāo)注是一致的。如圖3中藍(lán)色的線可能是標(biāo)注為不可行駛區(qū)域,紅色的線標(biāo)注為路沿。標(biāo)注員可以改變視角,保證標(biāo)注合理的高度(本文均是貼在地面)。
圖3 四維標(biāo)注示例(來(lái)自特斯拉AI Day視頻)
數(shù)據(jù)標(biāo)注解決的是提供現(xiàn)實(shí)世界靜態(tài)數(shù)據(jù)(車道線、交通標(biāo)牌等)的快速標(biāo)注[8],在三維環(huán)境下標(biāo)注一個(gè)靜態(tài)數(shù)據(jù)要素,聯(lián)動(dòng)標(biāo)注該三維要素在多趟觀測(cè)多個(gè)視角(如6v視角)下的圖像位置,同時(shí)解決現(xiàn)實(shí)世界動(dòng)態(tài)物體(車輛、行人等)的時(shí)序標(biāo)注,標(biāo)注每個(gè)物體的三維位置,聯(lián)動(dòng)標(biāo)注到圖像空間,并標(biāo)注動(dòng)態(tài)物體的運(yùn)動(dòng)軌跡。
從采集的每一時(shí)刻原始數(shù)據(jù)開(kāi)始,到重建三維空間,再到在三維空間去標(biāo)注現(xiàn)實(shí)世界的任意物體,可以快速投影對(duì)照到圖像空間,修正細(xì)化標(biāo)注結(jié)果,從而獲取高質(zhì)量的標(biāo)注樣本,用于訓(xùn)練BEV等感知模型,讓機(jī)器具備超強(qiáng)的感知能力。
當(dāng)數(shù)據(jù)采集車在實(shí)際道路上行駛并收集回傳每一時(shí)刻獲取的圖像數(shù)據(jù)和點(diǎn)云數(shù)據(jù)時(shí),首先云端算法模塊進(jìn)行三維空間的點(diǎn)云重建,將一定時(shí)間內(nèi)的數(shù)據(jù)重建合成局部三維點(diǎn)云數(shù)據(jù);然后標(biāo)注員在三維空間內(nèi)進(jìn)行車道線、交通標(biāo)牌等感知要素標(biāo)注,可以在反投影的圖像空間同步顯示標(biāo)注效果,經(jīng)調(diào)整后可以輸出高質(zhì)量的標(biāo)注樣本,用于訓(xùn)練模型,讓模型具有自動(dòng)標(biāo)注能力;最后通過(guò)反復(fù)迭代,自動(dòng)標(biāo)注能力越來(lái)越強(qiáng),系統(tǒng)可更加快速且低成本地實(shí)現(xiàn)標(biāo)注。樣本積累到一定程度,可用于訓(xùn)練端側(cè)的感知模型,提升自動(dòng)駕駛感知能力,真正實(shí)現(xiàn)端到端的感知。具體技術(shù)路線如圖4所示。
圖4 四維標(biāo)注技術(shù)路線
從技術(shù)路線上看,點(diǎn)云重建是在采集并回傳數(shù)據(jù)的基礎(chǔ)上,通過(guò)一定算法在三維空間進(jìn)行的立體重建。以純視覺(jué)方案為例,搭載了6個(gè)攝像頭的采集車在北京某區(qū)域內(nèi)從不同方向、不同車道進(jìn)行數(shù)據(jù)采集,可以得到多趟數(shù)據(jù),包括6v圖像、GPS軌跡、輪速計(jì)等信息,這是點(diǎn)云重建的輸入。點(diǎn)云重建需要經(jīng)過(guò)單次重建和全局聚合等操作后才能獲取較高質(zhì)量的有效點(diǎn)云數(shù)據(jù)。
單次重建是利用原始圖像和軌跡等信息,通過(guò)SFM等算法獲取高精度自車位置和姿態(tài)。具體原理為:首先通過(guò)輪速計(jì)和GPS/IMU獲取自車的大致位置和姿態(tài),主要用于指導(dǎo)圖像匹配;然后通過(guò)粗略軌跡在空間中提取出同名點(diǎn),輸入給SFM算法[9],獲取自車高精度無(wú)尺度姿態(tài);最后引入CAN和GPS估計(jì),恢復(fù)SFM的尺度信息,從而得到自車高精度位置和姿態(tài)信息[10-11]。單次重建輸出的是每個(gè)視頻片段(clip)的單次重建結(jié)果,而對(duì)于同一區(qū)域,實(shí)際上是由多個(gè)clip構(gòu)成的,由于不同車輛或同一車輛行駛在不同車道上進(jìn)行數(shù)據(jù)采集,因此,單次重建完成后需要進(jìn)行全局聚合。
全局聚合是在單次重建的基礎(chǔ)上,通過(guò)尋找clip間的同名點(diǎn)作全局對(duì)齊和融合,對(duì)原有的clip信息進(jìn)行增量重建,通過(guò)連續(xù)的clip聚合處理,最終融合成一個(gè)局部區(qū)域的三維點(diǎn)云數(shù)據(jù)。為更近一步獲取稠密清晰的點(diǎn)云數(shù)據(jù),算法采用傳統(tǒng)的多視圖立體(MVS)稠密重建[12-13],在單次SFM基礎(chǔ)上,對(duì)每個(gè)clip對(duì)進(jìn)行特征提取和立體匹配,生成稠密點(diǎn)云。
圖5為某區(qū)域純視覺(jué)點(diǎn)云重建的效果??梢钥闯?地面的車道線、停止線、斑馬線及空中的紅綠燈等要素都能夠被清晰地重建,甚至道路兩側(cè)的建筑物也清晰可見(jiàn)。
圖5 點(diǎn)云重建示例
點(diǎn)云數(shù)據(jù)采集后,可從0至1進(jìn)行要素標(biāo)注,也可在積累了一定樣本數(shù)據(jù)且讓自動(dòng)標(biāo)注模型具備能力后,直接進(jìn)行模型預(yù)刷,生成預(yù)標(biāo)注結(jié)果。
從實(shí)際量產(chǎn)需求看,點(diǎn)云重建后靠人工標(biāo)注幾乎是無(wú)法達(dá)成目標(biāo)的。人和計(jì)算機(jī)有不同的優(yōu)缺點(diǎn),人擅長(zhǎng)標(biāo)注語(yǔ)義類的東西,而計(jì)算機(jī)擅長(zhǎng)幾何、重建、三角化、跟蹤,因此引入自動(dòng)標(biāo)注可極大提升標(biāo)注效率[14],替代很大一部分人工繁重的工作。
圖6為自動(dòng)標(biāo)注的輸入輸出示意圖,算法可對(duì)某一小區(qū)域重建的三維點(diǎn)云數(shù)據(jù)自動(dòng)化提取要素特征信息,如地面的車道線、停止線、空中的交通標(biāo)牌等信息幾何和相關(guān)屬性,提取的要素信息取決于自動(dòng)標(biāo)注模型的設(shè)計(jì)。
圖6 自動(dòng)標(biāo)注業(yè)務(wù)
為讓云端自動(dòng)標(biāo)注模型具備自動(dòng)提取要素的能力,需要用大量的標(biāo)注樣本訓(xùn)練模型。標(biāo)注員在重建后的點(diǎn)云數(shù)據(jù)上,采用人工標(biāo)注方式對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行要素標(biāo)注,標(biāo)注車道線、交通標(biāo)牌等,標(biāo)注完成每個(gè)點(diǎn)云數(shù)據(jù)后,形成點(diǎn)云及對(duì)應(yīng)的要素矢量數(shù)據(jù),將這些樣本輸入自動(dòng)標(biāo)注模型后,經(jīng)過(guò)不斷的訓(xùn)練可輸出一個(gè)較穩(wěn)健的云端自動(dòng)標(biāo)注模型。當(dāng)新采集一批數(shù)據(jù)后,先經(jīng)過(guò)三維點(diǎn)云重建生成點(diǎn)云數(shù)據(jù)后,輸入云端自動(dòng)標(biāo)注大模型進(jìn)行預(yù)測(cè),可以實(shí)現(xiàn)要素自動(dòng)化提取。
僅通過(guò)機(jī)器的自動(dòng)化處理,輸出的要素幾何和屬性信息能夠達(dá)到一定的準(zhǔn)確率和召回率指標(biāo),但仍然需要少量的人工校驗(yàn)和修正,才能輸出滿足質(zhì)量要素的訓(xùn)練樣本。
無(wú)論是早期用于自動(dòng)標(biāo)注算法的樣本生產(chǎn),還是后期對(duì)自動(dòng)標(biāo)注結(jié)果的檢查修正,都離不開(kāi)人工標(biāo)注環(huán)節(jié)。
在人工標(biāo)注工具上,四維標(biāo)注不同于傳統(tǒng)的三維標(biāo)注工具,需要支持時(shí)序信息的引入。在標(biāo)注工具上,支持將三維空間內(nèi)所標(biāo)注的要素信息實(shí)時(shí)投影至每一幀的所有圖像通道上,并支持在圖像空間內(nèi)的編輯操作,效果如下。
(1)如果點(diǎn)云數(shù)據(jù)質(zhì)量不好或重建的點(diǎn)云有缺失,如交通標(biāo)牌缺了一邊,那么完全依賴于點(diǎn)云上的標(biāo)注較盲目,甚至是直接丟棄。通過(guò)反投影到圖像空間上,可以實(shí)時(shí)看到圖像上標(biāo)注的效果,若疊加圖像效果不好,可隨時(shí)在二維或三維上進(jìn)行調(diào)整,極大提升了標(biāo)注的樣本質(zhì)量。
(2)如果因遮擋導(dǎo)致在點(diǎn)云上沒(méi)有要素,那么要素的標(biāo)注會(huì)有缺失。通過(guò)該區(qū)域的不同車道行駛的軌跡和圖像信息,在其他軌跡上找到未遮擋的信息成為可能,這時(shí)該軌跡和圖像可以作為標(biāo)注的參考,標(biāo)注完成后再通過(guò)投影的方式可以實(shí)現(xiàn)所有軌跡圖像信息的標(biāo)注,即便遮擋也能實(shí)現(xiàn)標(biāo)注,最終使模型具備遮擋預(yù)測(cè)的能力。
(3)同一區(qū)域采集過(guò)多次,有多條軌跡和圖像數(shù)據(jù),在三維空間內(nèi)只需要標(biāo)注一次,透過(guò)反投影至圖像的功能,可以快速實(shí)現(xiàn)所有軌跡圖像的標(biāo)注,真正實(shí)現(xiàn)對(duì)樣本的一次標(biāo)注,大大提升樣本生產(chǎn)的效率。
本文涉及兩個(gè)關(guān)鍵功能點(diǎn):一個(gè)是相機(jī)畸變改正;另一個(gè)是三維投影二維功能。
圖7為人工標(biāo)注工具的一個(gè)效果??梢钥闯?淺藍(lán)色方塊對(duì)應(yīng)的是一條軌跡上的一個(gè)時(shí)刻點(diǎn),左下角是該時(shí)刻點(diǎn)車輛6個(gè)攝像頭(左前視、前視、右前視、左后視、后視、右后視)拍攝的圖像信息,通過(guò)切換,可選擇查看不同視角攝像頭圖片。在三維空間標(biāo)注的車道線和交通標(biāo)牌可以實(shí)時(shí)投影到圖像空間中,輔助標(biāo)注。
圖7 人工標(biāo)注工具示意
從自動(dòng)駕駛行業(yè)未來(lái)發(fā)展趨勢(shì)來(lái)看,隨著L2+級(jí)別城市NOA的逐步落地,重感知技術(shù)路線必然會(huì)推動(dòng)端到端感知成為一個(gè)強(qiáng)需求,四維標(biāo)注的重要性占比將越來(lái)越大,高效生產(chǎn)高質(zhì)量的標(biāo)注樣本是未來(lái)爭(zhēng)奪的控制點(diǎn)之一。本文主要通過(guò)分析當(dāng)前行業(yè)感知面臨的問(wèn)題,從現(xiàn)階段主流標(biāo)注業(yè)務(wù)局限性出發(fā),受來(lái)自高精地圖數(shù)據(jù)制作的靈感[15]啟發(fā),提出了一種四維標(biāo)注方法,并將BEV感知的高質(zhì)量樣本生產(chǎn)方案運(yùn)用到實(shí)際試驗(yàn)中,證實(shí)了可行性。
雖本文方案可有效地解決BEV感知模型訓(xùn)練樣本的生產(chǎn),但仍然需要持續(xù)對(duì)方案中涉及的核心技術(shù)點(diǎn)進(jìn)行深入研究和應(yīng)用試驗(yàn)。在本文的基礎(chǔ)上,今后將從以下兩方面重點(diǎn)展開(kāi)研究。
(1)三維點(diǎn)云重建。點(diǎn)云重建是四維標(biāo)注的基礎(chǔ)條件,不同的車輛傳感器配置方案對(duì)三維點(diǎn)云重建的適應(yīng)性、重建質(zhì)量和效果都可能不同,需要進(jìn)一步研究。
(2)自動(dòng)標(biāo)注。自動(dòng)標(biāo)注是四維標(biāo)注的核心,深化自動(dòng)標(biāo)注模型設(shè)計(jì)、提升標(biāo)注精度和召回率需要持續(xù)不斷進(jìn)行研究。