陸慧敏, 楊 朔
(九州工業(yè)大學(xué)工學(xué)府, 福岡 804-8550, 日本)
近年來(lái),隨著對(duì)人工智能技術(shù)的深入研究和激光雷達(dá)相機(jī)的廣泛應(yīng)用,針對(duì)點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)方法成為機(jī)器人控制技術(shù)和自動(dòng)駕駛領(lǐng)域的研究熱點(diǎn)問(wèn)題之一. 與普通相機(jī)拍攝的二維圖像相比,點(diǎn)云數(shù)據(jù)包含物體的深度與幾何信息,不僅可以幫助檢測(cè)類(lèi)別和定位,還以有效給出物體的三維空間信息. 因此,在自動(dòng)駕駛和機(jī)器人抓取等任務(wù)中,針對(duì)點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)方法是解決問(wèn)題的關(guān)鍵[1-2]. 圖1展示了自動(dòng)駕駛場(chǎng)景與場(chǎng)景點(diǎn)云數(shù)據(jù).
圖1 自動(dòng)駕駛場(chǎng)景與三維點(diǎn)云數(shù)據(jù)示例Fig.1 Example for 3D point cloud and autonomous driving
在實(shí)際的應(yīng)用中,點(diǎn)云數(shù)據(jù)處理也面臨著大量問(wèn)題,例如點(diǎn)云的稀疏性、無(wú)序性和數(shù)據(jù)處理量較大等. 傳統(tǒng)的檢測(cè)方法,如時(shí)間空間聚類(lèi)和分類(lèi)方法,在數(shù)據(jù)量和場(chǎng)景復(fù)雜度增加條件下,模型處理的點(diǎn)云數(shù)據(jù)量有限,且無(wú)法完成正常的運(yùn)行,也難以實(shí)現(xiàn)準(zhǔn)確的定位和分類(lèi). 因此,處理實(shí)際場(chǎng)景的點(diǎn)云數(shù)據(jù)實(shí)現(xiàn)物體檢測(cè)是一個(gè)具有挑戰(zhàn)性的問(wèn)題.
隨著深度學(xué)習(xí)理論在二維檢測(cè)方法精度與速度上的突破,許多基于二維圖像的檢測(cè)方法被應(yīng)用在點(diǎn)云數(shù)據(jù)處理上,以實(shí)現(xiàn)三維目標(biāo)檢測(cè). 這類(lèi)方法采用基于學(xué)習(xí)的方式,構(gòu)造深度神經(jīng)網(wǎng)絡(luò)從原始點(diǎn)云中提取三維目標(biāo)特征,并采用區(qū)域生成方法實(shí)現(xiàn)三維目標(biāo)的分類(lèi)與位置框定位. 典型的方法有基于體素轉(zhuǎn)換的方法[3]和基于點(diǎn)云學(xué)習(xí)的方法[4].
基于體素轉(zhuǎn)換的方法是將離散點(diǎn)云在三維空間中進(jìn)行體素化處理,構(gòu)造出規(guī)則的空間矩陣向量,經(jīng)過(guò)轉(zhuǎn)換后的數(shù)據(jù)可以應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取. 其優(yōu)點(diǎn)在于構(gòu)造出全局特征可以有效提高分類(lèi)和位置定位精度,問(wèn)題在于轉(zhuǎn)換過(guò)程中會(huì)產(chǎn)生局部特征細(xì)節(jié)的損失. 基于點(diǎn)云學(xué)習(xí)的方法是通過(guò)構(gòu)造多層感知機(jī)網(wǎng)絡(luò),實(shí)現(xiàn)將點(diǎn)云直接輸入進(jìn)行學(xué)習(xí),并構(gòu)造出目標(biāo)特征. 其優(yōu)點(diǎn)在于點(diǎn)云之間的特征關(guān)系更加細(xì)化,對(duì)于局部特征可以有效抽出,問(wèn)題在于輸入數(shù)據(jù)量會(huì)影響網(wǎng)絡(luò)處理速度,難以應(yīng)用到實(shí)際計(jì)算設(shè)備.
所以,本文針對(duì)上述方法問(wèn)題,提出基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛場(chǎng)景三維目標(biāo)檢測(cè)算法. 通過(guò)將基于體素化卷積的特征提取網(wǎng)絡(luò)與點(diǎn)云學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行特征融合,提高對(duì)三維點(diǎn)云目標(biāo)的表征能力,并采用基于候選區(qū)域生成的檢測(cè)框架完成對(duì)三維目標(biāo)的檢測(cè)任務(wù). 本文總體內(nèi)容可以總結(jié)如下.
1) 建立一個(gè)全新的基于三維點(diǎn)云的特征提取網(wǎng)絡(luò)模型,利用體素化卷積網(wǎng)絡(luò)完成全局特征的提取與表征,并使用點(diǎn)云學(xué)習(xí)網(wǎng)絡(luò)完成局部特征提取,融合2類(lèi)特征以實(shí)現(xiàn)建立更優(yōu)的三維目標(biāo)特征模型.
2) 建立基于候選區(qū)域生成的檢測(cè)框架,利用K-means聚類(lèi)方法從數(shù)據(jù)中計(jì)算候選框尺寸和數(shù)量,通過(guò)兩階段方式對(duì)候選區(qū)域進(jìn)行篩選和位置回歸,完成最終的分類(lèi)與定位任務(wù). 通過(guò)實(shí)驗(yàn)驗(yàn)證,這種方法可以有效減少無(wú)效候選區(qū)域數(shù)量,并提高訓(xùn)練效率.
3) 更加優(yōu)化的數(shù)據(jù)訓(xùn)練方法,利用預(yù)訓(xùn)練模型策略和數(shù)據(jù)增廣方法(包括幾何變換與加噪),優(yōu)化三維目標(biāo)檢測(cè)的網(wǎng)絡(luò)訓(xùn)練過(guò)程.
由于軟件和硬件發(fā)展瓶頸的問(wèn)題,自動(dòng)駕駛場(chǎng)景中的三維目標(biāo)檢測(cè)算法很大程度上借鑒于二維目標(biāo)檢測(cè)算法. 傳統(tǒng)的檢測(cè)方法受限于模型泛化性和數(shù)據(jù)處理量有限的問(wèn)題. 基于深度學(xué)習(xí)的二維目標(biāo)檢測(cè)方法研究已經(jīng)非常成熟,例如Faster R-CNN[5]、YOLO算法[6]等,均已被應(yīng)用到工業(yè)級(jí)的檢測(cè)中. 三維目標(biāo)檢測(cè)算法則借鑒了這2類(lèi)經(jīng)典的二維檢測(cè)框架,隨著研究的深入,從最初利用多幅二維圖像進(jìn)行三維物體預(yù)測(cè),到利用二維圖像和深度圖,再到利用點(diǎn)云數(shù)據(jù)直接完成物體位置和類(lèi)別預(yù)測(cè). 相比于二維圖像和深度圖像,點(diǎn)云對(duì)于三維物體的形狀和空間位置信息具有更好的刻畫(huà). 因此,點(diǎn)云數(shù)據(jù)的處理與表征,是解決自動(dòng)駕駛場(chǎng)景三維目標(biāo)檢測(cè)問(wèn)題的關(guān)鍵研究?jī)?nèi)容.
基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)任務(wù),在自動(dòng)駕駛場(chǎng)景中的具體實(shí)現(xiàn)為:算法需要在三維點(diǎn)云數(shù)據(jù)上,建立目標(biāo)的特征模型,進(jìn)而確定目標(biāo)在場(chǎng)景中的位置(通常為三維矩形框區(qū)域)和語(yǔ)義類(lèi)別. 根據(jù)不同方法所使用的特征區(qū)域不同,可以將目標(biāo)檢測(cè)任務(wù)劃分為2類(lèi):基于全局特征的目標(biāo)分類(lèi)與姿態(tài)估計(jì)[7-9]和基于局部特征的目標(biāo)分類(lèi)與姿態(tài)估計(jì)[10-12]. 兩者最大的區(qū)別在于,全局特征來(lái)自于點(diǎn)云對(duì)應(yīng)二維映射圖像或三維空間深度圖像,局部特征來(lái)自于局部點(diǎn)云與點(diǎn)云之間的距離特征關(guān)系.
針對(duì)全局特征的三維目標(biāo)檢測(cè)算法研究,是早期深度學(xué)習(xí)三維目標(biāo)檢測(cè)研究的重點(diǎn)方向,其解決了點(diǎn)云處理和直觀二維圖像的映射問(wèn)題,例如基于體素化的方法和基于多視圖的方法. VoxelNet[13]是一個(gè)基于點(diǎn)云體素化的卷積神經(jīng)網(wǎng)絡(luò). 該模型利用體素化方法,使點(diǎn)云可以利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并結(jié)合檢測(cè)框架進(jìn)行位置預(yù)測(cè)和類(lèi)別估計(jì). 對(duì)于多視圖的方法,如MV3D[14]使用點(diǎn)云和鳥(niǎo)瞰圖作為輸入.
在三維目標(biāo)檢測(cè)中,鳥(niǎo)瞰圖比前視圖/圖像平面有以下優(yōu)勢(shì). 首先,物體在投射到鳥(niǎo)瞰圖時(shí)保持物理尺寸,因此有小的尺寸變化,這在前視圖/圖像平面不是這樣的情況. 其次,鳥(niǎo)瞰圖中的物體占據(jù)不同的空間,從而避免遮擋問(wèn)題. 該方法用緊湊的多視圖表示對(duì)稀疏的三維點(diǎn)云進(jìn)行編碼,該網(wǎng)絡(luò)從三維點(diǎn)云的鳥(niǎo)瞰圖表示中生成三維候選框從而進(jìn)行目標(biāo)檢測(cè). 但是,這2類(lèi)模型的問(wèn)題在于點(diǎn)云體素化或鳥(niǎo)瞰圖生成過(guò)程中,存在特征信息的丟失,影響網(wǎng)絡(luò)對(duì)尺寸較小物體的特征提取. 同時(shí),模型依賴(lài)于人工設(shè)定的體素化和二維轉(zhuǎn)換采樣的體積和尺寸大小,易造成細(xì)節(jié)信息的損失,影響物體位置的估計(jì)[15].
針對(duì)局部特征的分類(lèi)與姿態(tài)估計(jì)算法研究,是近年來(lái)三維目標(biāo)檢測(cè)任務(wù)探索的熱點(diǎn)方向[16]. 該類(lèi)方法通過(guò)更加細(xì)化的局部點(diǎn)特征,估計(jì)目標(biāo)在三維空間中的位置,并且其不再使用復(fù)雜的多次數(shù)據(jù)處理操作,整體方法更加簡(jiǎn)潔. 如PointNet++網(wǎng)絡(luò)[17]先將點(diǎn)云在空間上對(duì)齊,再通過(guò)多層感知機(jī)將其映射到高維的空間上. 這時(shí)對(duì)于每一個(gè)點(diǎn),都有一個(gè)1 024維的向量表征,而這樣的向量表征對(duì)于一個(gè)三維的點(diǎn)云明顯是冗余的,因此這個(gè)時(shí)候引入最大池化操作(即對(duì)稱(chēng)函數(shù),不改變點(diǎn)云的排列不變性),得到點(diǎn)云的局部關(guān)系,最后使用全連接層輸出預(yù)測(cè)結(jié)果. 但是,該類(lèi)方法主要構(gòu)造局部點(diǎn)之間距離關(guān)系特征,忽略了目標(biāo)在空間中表現(xiàn)的紋理等特征信息,因此,總體的預(yù)測(cè)精度仍然難以滿(mǎn)足當(dāng)前的自動(dòng)駕駛場(chǎng)景三維目標(biāo)檢測(cè)任務(wù)需求.
所以,本文將當(dāng)前的2類(lèi)特征提取方法進(jìn)行有效結(jié)合,構(gòu)造一個(gè)統(tǒng)一的端到端檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)自動(dòng)駕駛場(chǎng)景目標(biāo)檢測(cè)任務(wù). 通過(guò)相關(guān)研究分析,這也是未來(lái)三維目標(biāo)檢測(cè)算法研究的重要方向.
主要介紹本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)算法模型結(jié)構(gòu). 本文為解決三維點(diǎn)云數(shù)據(jù)的表征問(wèn)題,設(shè)計(jì)了一個(gè)將全局特征與局部特征融合的多模型表征網(wǎng)絡(luò). 該模型總體結(jié)構(gòu)可以分為3個(gè)部分:全局特征抽取與表征模型、局部特征抽取與表征模型和檢測(cè)模型. 本文算法的總體模型結(jié)構(gòu)如圖2所示.
1) 全局特征抽取模型,其主體結(jié)構(gòu)為體素化處理部分與三維卷積神經(jīng)網(wǎng)絡(luò). 為了提取三維目標(biāo)的語(yǔ)義特征以及上下文信息,三維卷積網(wǎng)絡(luò)可以提供更好的語(yǔ)義信息表達(dá),并且可用于候選區(qū)域框的生成. 但是,由于點(diǎn)云數(shù)據(jù)的離散特點(diǎn),造成卷積網(wǎng)絡(luò)無(wú)法直接進(jìn)行計(jì)算. 因此,通過(guò)對(duì)點(diǎn)云進(jìn)行體素化處理,生成有規(guī)則的矩陣張量,再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行全局特征抽取.
在分析當(dāng)前的三維卷積神經(jīng)網(wǎng)絡(luò)時(shí),發(fā)現(xiàn)僅使用下采樣卷積,所獲得的特征圖對(duì)后續(xù)的檢測(cè)精度和分類(lèi)精度都較低,特別是對(duì)于遠(yuǎn)處的小物體車(chē)輛難以檢出. 因此,本文提出基于跨層特征融合的三維卷積神經(jīng)網(wǎng)絡(luò),以提高特征提取網(wǎng)絡(luò)的表征穩(wěn)定性.
網(wǎng)絡(luò)均使用3×3卷積核為主體,由5層下采樣卷積與4層上采樣卷積構(gòu)成,其中上采樣卷積將淺層特征圖分別以2、4和8倍的尺寸進(jìn)行特征融合,融合方式為同一感受野特征圖上進(jìn)行通道組合的方式完成. 本文的全局特征提取網(wǎng)絡(luò)不僅通過(guò)加深網(wǎng)絡(luò)來(lái)改善語(yǔ)義分類(lèi)錯(cuò)誤,而且通過(guò)特征融合來(lái)提取細(xì)粒度特征改善對(duì)遠(yuǎn)處小物體車(chē)輛的檢測(cè)能力. 同時(shí),最后大尺度的特征圖輸出可以給出更多候選區(qū)域框.
圖2 基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛場(chǎng)景三維目標(biāo)檢測(cè)算法模型結(jié)構(gòu)Fig.2 Module of 3D object detection algorithm for automatic driving based on deep neural networks
2) 局部特征抽取模型,其主體結(jié)構(gòu)為最遠(yuǎn)點(diǎn)采樣模塊和點(diǎn)云學(xué)習(xí)網(wǎng)絡(luò). 通常輸入點(diǎn)云的數(shù)量較為龐大,需要進(jìn)行一定的預(yù)處理,減少后續(xù)網(wǎng)絡(luò)冗余計(jì)算,因此,本文采用最遠(yuǎn)點(diǎn)采樣方法,對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行有效的點(diǎn)數(shù)量篩減,降低網(wǎng)絡(luò)計(jì)算的內(nèi)存與運(yùn)算量. 點(diǎn)云學(xué)習(xí)網(wǎng)絡(luò)由多層感知機(jī)構(gòu)成,用于計(jì)算點(diǎn)云之間距離等關(guān)系的特征計(jì)算與抽取. 相比于卷積神經(jīng)網(wǎng)絡(luò),其在提取點(diǎn)云之間細(xì)節(jié)信息具有更好的表征能力. 因此,本文使用該模型對(duì)三維目標(biāo)的局部特征進(jìn)行抽取,并將其作為全局特征的細(xì)節(jié)信息補(bǔ)充.
為了與全局特征抽取模型進(jìn)行特征區(qū)域的對(duì)應(yīng),本文實(shí)現(xiàn)了卷積區(qū)域與點(diǎn)云學(xué)習(xí)網(wǎng)絡(luò)之間的對(duì)應(yīng)映射,以在后續(xù)進(jìn)行特征融合時(shí),實(shí)現(xiàn)關(guān)鍵點(diǎn)特征可以有效放入正確的感受野區(qū)域,保證局部關(guān)鍵點(diǎn)特征有效補(bǔ)充全局特征.
3) 檢測(cè)模型,本文基于經(jīng)典兩階段檢測(cè)算法Faster R-CNN思想[5],構(gòu)造檢測(cè)框架. 但是,本文模型僅完成一次分類(lèi)和候選框回歸計(jì)算,以提高整體模型的速度. 在檢測(cè)模型中,其主要完成特征模型融合、候選區(qū)域生成和分類(lèi)與候選框回歸計(jì)算. 首先,對(duì)于特征模型融合,主要以第1部分全局特征抽取模型提供的特征圖為主體,將第2部分局部特征抽取模型的局部關(guān)鍵點(diǎn)特征與其進(jìn)行結(jié)合,通過(guò)映射相同感受野位置,將局部關(guān)鍵點(diǎn)特征融入全局特征中. 其次,通過(guò)前期對(duì)數(shù)據(jù)真值標(biāo)注框進(jìn)行統(tǒng)計(jì),用K-means聚類(lèi)方法設(shè)計(jì)候選框的寬高,并在融合的特征圖上進(jìn)行候選框生成. 通過(guò)設(shè)置真值與預(yù)測(cè)值的重疊比率,進(jìn)行有效的包圍框篩選. 最后,在得到初步篩選的候選框上,進(jìn)行分類(lèi)與位置框回歸計(jì)算,得到精確的目標(biāo)類(lèi)別與包圍框.
在對(duì)檢測(cè)模型的訓(xùn)練策略中,數(shù)據(jù)增廣是提高目標(biāo)分類(lèi)和定位精度的有效方法. 對(duì)于二維檢測(cè)算法研究,數(shù)據(jù)增廣技術(shù)相對(duì)成熟,例如圖像旋轉(zhuǎn)、幾何變換、噪聲與圖像對(duì)比度變換等方法,這些方法均在一定程度上對(duì)深度學(xué)習(xí)模型的訓(xùn)練有效幫助,提高模型的魯棒性、訓(xùn)練效率和模型質(zhì)量. 數(shù)據(jù)增廣訓(xùn)練方法也被認(rèn)為是基于深度學(xué)習(xí)檢測(cè)算法訓(xùn)練的基本方式.
相比于二維圖像的數(shù)據(jù)增廣,基于點(diǎn)云的三維目標(biāo)檢測(cè)方法的數(shù)據(jù)增廣訓(xùn)練則具有一定的技術(shù)復(fù)雜性和難度. 其原因如下.
1) 點(diǎn)云的數(shù)據(jù)格式和特征與二維圖像在空間結(jié)構(gòu)、顏色特征等方面均存在顯著差異.
2) 點(diǎn)云的稀疏性和無(wú)序性對(duì)使用數(shù)據(jù)增廣訓(xùn)練方法有影響,幾何變換或加噪方法均會(huì)改變點(diǎn)云位置和結(jié)構(gòu),反而影響正確的網(wǎng)絡(luò)訓(xùn)練.
3) 可視化點(diǎn)云的方式多樣,不同的可視化方式對(duì)于點(diǎn)云z軸計(jì)算方式也不同,難以給出坐標(biāo)統(tǒng)一的數(shù)據(jù)增廣方法.
通過(guò)對(duì)上述問(wèn)題的分析,本文提出使用在線數(shù)據(jù)增廣的幾何位置變換方法,來(lái)實(shí)現(xiàn)深度模型訓(xùn)練的數(shù)據(jù)增廣. 在線數(shù)據(jù)增廣,是在模型訓(xùn)練過(guò)程中,對(duì)輸入數(shù)據(jù)進(jìn)行調(diào)整,實(shí)現(xiàn)模型增廣訓(xùn)練.
該方式的優(yōu)點(diǎn)在于不需要占用大量的內(nèi)存,生成的數(shù)據(jù)不會(huì)存儲(chǔ),僅在訓(xùn)練階段中使用,訓(xùn)練后內(nèi)存就會(huì)被釋放. 同時(shí),在訓(xùn)練過(guò)程中進(jìn)行幾何位置變換,能夠?qū)崿F(xiàn)統(tǒng)一的坐標(biāo)系下實(shí)現(xiàn)三維點(diǎn)云目標(biāo)的位置變換,不會(huì)產(chǎn)生坐標(biāo)系轉(zhuǎn)換問(wèn)題,更容易完成三維目標(biāo)檢測(cè)模型的訓(xùn)練操作. 此外,本文的數(shù)據(jù)增廣策略為端到端方式,不額外占用存儲(chǔ)空間,訓(xùn)練效率提升,也提高深度模型的應(yīng)用價(jià)值.
在三維目標(biāo)檢測(cè)中共需要完成2個(gè)任務(wù),目標(biāo)語(yǔ)義分類(lèi)和三維包圍框定位. 因此,基于深度學(xué)習(xí)理論,使用多任務(wù)損失函數(shù)作為訓(xùn)練目標(biāo)函數(shù). 其中,對(duì)于語(yǔ)義分類(lèi)部分,仍然采樣分類(lèi)精度較好的Softmax交叉熵?fù)p失函數(shù)Lcls;對(duì)于包圍框的預(yù)測(cè)部分,為了減少計(jì)算量和維度,使用平滑的L1損失函數(shù)作為三維包圍框的回歸計(jì)算函數(shù)Lreg. 所以,本文多任務(wù)損失函數(shù)Lloss可以表示為
(1)
式中:y*、y分別為預(yù)測(cè)結(jié)果與真實(shí)值;Npos為正樣本數(shù)據(jù)量;三維包圍框的參數(shù)為(x,y,z,l,w,h,θ),其中,x、y、z為三維包圍框的中心坐標(biāo),l、w、h分別為三維包圍框的長(zhǎng)度、寬度和高度,θ為三維包圍框在x、y平面中的旋轉(zhuǎn)角度.
此外,為了更加平衡回歸與分類(lèi)任務(wù)學(xué)習(xí)偏差,本文使用α參數(shù)去自適應(yīng)調(diào)整模型訓(xùn)練過(guò)程中對(duì)于分類(lèi)和回歸任務(wù)的學(xué)習(xí)比率.
本文分別在已公開(kāi)的數(shù)據(jù)庫(kù)KITTI 3D目標(biāo)檢測(cè)數(shù)據(jù)庫(kù)[18]和Waymo 3D數(shù)據(jù)庫(kù)[19]上進(jìn)行了模型驗(yàn)證與方法對(duì)比實(shí)驗(yàn).
KITTI 3D目標(biāo)檢測(cè)數(shù)據(jù)庫(kù),由德國(guó)卡爾斯魯厄理工學(xué)院在自動(dòng)駕駛場(chǎng)景中采集完成,數(shù)據(jù)集包含二維圖片和雷達(dá)點(diǎn)云三維數(shù)據(jù),該數(shù)據(jù)庫(kù)的三維目標(biāo)檢測(cè)部分共包含7 481個(gè)訓(xùn)練數(shù)據(jù)和7 518個(gè)測(cè)試數(shù)據(jù),分別屬于10個(gè)類(lèi)別. 本文共對(duì)2個(gè)類(lèi)別進(jìn)行了更加詳細(xì)的模型分析,分別為汽車(chē)和自行車(chē),主要原因該2個(gè)類(lèi)別在數(shù)據(jù)集的占比超過(guò)80%.
Waymo 3D數(shù)據(jù)庫(kù)由自動(dòng)駕駛公司W(wǎng)aymo公布,整個(gè)數(shù)據(jù)集包含1 150個(gè)場(chǎng)景,每個(gè)場(chǎng)景均包含雷達(dá)點(diǎn)云數(shù)據(jù)和二維數(shù)據(jù)同步采集,整個(gè)數(shù)據(jù)庫(kù)包含約1 200萬(wàn)個(gè)三維包圍框和二維包圍框. 根據(jù)其數(shù)據(jù)劃分,共分為1 000個(gè)場(chǎng)景為訓(xùn)練集、150個(gè)場(chǎng)景為測(cè)試集.
本文將在這2個(gè)公開(kāi)數(shù)據(jù)庫(kù)上完成模型驗(yàn)證,并選擇同樣使用點(diǎn)云數(shù)據(jù)作為唯一輸入的相關(guān)深度學(xué)習(xí)檢測(cè)方法作為對(duì)比方法. 由于許多檢測(cè)模型并未同時(shí)給出在2個(gè)數(shù)據(jù)集上的驗(yàn)證結(jié)果,因此分別選取5個(gè)方法進(jìn)行模型對(duì)比實(shí)驗(yàn). 在KITTI數(shù)據(jù)庫(kù)上,本文選取的5個(gè)對(duì)比方法包括SECOND方法[20]、PointPillars方法[21]、Fast Point-RCNN方法[22]、Part-A2方法[23]和PV-RCNN方法[16]. 在Waymo數(shù)據(jù)庫(kù)上,本文選取的5個(gè)對(duì)比方法包括PointPillars方法[21]、MVF方法[24]、Pallar-OD方法[25]、PV-RCNN方法[16]、CenterPoint-Voxel方法[26]. 所有對(duì)比方法均為目前精度較好的方法.
在實(shí)驗(yàn)環(huán)境中,本文所有實(shí)驗(yàn)均在內(nèi)存125 GB、處理器為Intel Core i9-9940X的計(jì)算服務(wù)器中完成. 該服務(wù)器包含1塊型號(hào)為NVIDIA RTX2080 12GB的GPU.
本文按照二維目標(biāo)檢測(cè)算法評(píng)價(jià)精度的方法多類(lèi)均值精度(mean average precision,mAP),將其應(yīng)用在評(píng)價(jià)三維目標(biāo)檢測(cè)算法. mAP方法為多類(lèi)均值精度,對(duì)于單類(lèi)均值精度(average precision,AP),其計(jì)算為precision查準(zhǔn)率和recall查全率構(gòu)成的曲線線下面積值. 因此,查準(zhǔn)率和查全率分別為
(2)
(3)
式中:TP(true positive)為真陽(yáng)性,即對(duì)真值預(yù)測(cè)正確的結(jié)果;FP(false positive)為假陽(yáng)性,對(duì)真值預(yù)測(cè)錯(cuò)誤的結(jié)果;FN(false negative)為假陰性,對(duì)真值未能預(yù)測(cè)出來(lái)的結(jié)果.
相比于二維目標(biāo)檢測(cè)評(píng)價(jià),在三維目標(biāo)檢測(cè)評(píng)價(jià)時(shí),需要計(jì)算真值與預(yù)測(cè)包圍框的重疊比(intersection-over-union,IOU),即在三維空間中的包圍框進(jìn)行交并比計(jì)算. 通過(guò)設(shè)置該閾值結(jié)果,來(lái)調(diào)整AP與mAP的計(jì)算. 通常IOU閾值設(shè)置為0.5.
首先,本文模型與其他5個(gè)對(duì)比模型在KITTI測(cè)試集上的精度對(duì)比結(jié)果如表1所示. 本文在7 518幅測(cè)試數(shù)據(jù)集上進(jìn)行了定量結(jié)果輸出.
從表1中可知,在僅使用LiDAR點(diǎn)云數(shù)據(jù)作為輸入的條件下,本文模型的總體精度高于當(dāng)前主流的5類(lèi)檢測(cè)模型,mAP值達(dá)到94.33%,相比于最優(yōu)精度模型PV-RCNN提升4.15%.
表1 KITTI 3D檢測(cè)數(shù)據(jù)庫(kù)模型對(duì)比實(shí)驗(yàn)結(jié)果(1)
為了更加詳細(xì)地對(duì)比模型精度與模型速度,本文在汽車(chē)和自行車(chē)2個(gè)類(lèi)別上進(jìn)行了AP與模型檢測(cè)速度的對(duì)比實(shí)驗(yàn),并選用數(shù)據(jù)庫(kù)提供的不同難度的數(shù)據(jù)進(jìn)行了模型對(duì)比實(shí)驗(yàn),如表2所示.
從表2中可知,本文模型方法在三維目標(biāo)檢測(cè)的精度與速度方面均優(yōu)于當(dāng)前主流的檢測(cè)模型,同時(shí),本文模型更容易應(yīng)對(duì)場(chǎng)景更為簡(jiǎn)單的目標(biāo)檢測(cè)任務(wù). 對(duì)于汽車(chē)類(lèi)別,本文模型在3個(gè)不同的測(cè)試難度(簡(jiǎn)單、中等和困難難度)上,相比于當(dāng)前最優(yōu)檢測(cè)模型分別提升4.24%、0.67%和0.19%的精度. 同時(shí),在運(yùn)行速度上也取得一定的改進(jìn),單張圖像處理時(shí)間提升1 s. 對(duì)于尺寸更小的自行車(chē)類(lèi)別,本文模型在3個(gè)不同測(cè)試難度上也取得一定的提升,總體模型在簡(jiǎn)單、中等和困難難度的提升精度分別為1.38%、0.43%和0.59%. 但是,模型總體精度提升有限,特別是在中等和困難場(chǎng)景提升較小. 主要原因在于自行車(chē)類(lèi)相比于汽車(chē)類(lèi),其圖占比更小,總體尺寸較小,且存在類(lèi)別不平衡問(wèn)題. 因此,在后續(xù)的小尺寸三維目標(biāo)研究中仍需對(duì)模型進(jìn)行進(jìn)一步改進(jìn).
表2 KITTI 3D檢測(cè)數(shù)據(jù)庫(kù)模型對(duì)比實(shí)驗(yàn)結(jié)果(2)
首先驗(yàn)證本文模型與對(duì)比方法在總體4個(gè)類(lèi)別(車(chē)輛、行人、騎行者和指示牌)上的mAP. 本文依據(jù)數(shù)據(jù)集提供的150個(gè)測(cè)試場(chǎng)景,分幀得到測(cè)試集數(shù)據(jù)庫(kù). 本文模型與對(duì)比方法在Waymo測(cè)試數(shù)據(jù)庫(kù)所有類(lèi)別上的定量精度結(jié)果如表3所示.
從表3中可知,在仍然僅使用LiDAR點(diǎn)云數(shù)據(jù)為唯一輸入條件下,本文模型的總體mAP為58.9%,相比于其他模型,本文模型精度高于其他對(duì)比方法,總體提升0.3%. 由于Waymo數(shù)據(jù)集的場(chǎng)景復(fù)雜度較高,其中包含雨、雪等惡劣天氣條件,造成整體三維目標(biāo)檢測(cè)精度相比于KITTI數(shù)據(jù)集較低. 因此,在后續(xù)的研究中,仍然可以在模型上進(jìn)行改進(jìn),以應(yīng)對(duì)惡劣天氣條件的三維目標(biāo)檢測(cè)任務(wù). 為了進(jìn)一步對(duì)比模型檢測(cè)效果,仍然在Waymo數(shù)據(jù)庫(kù)上選取了2個(gè)類(lèi)別(車(chē)輛和行人)進(jìn)行AP精度與檢測(cè)速度的對(duì)比實(shí)驗(yàn),如表4所示.
表3 Waymo檢測(cè)數(shù)據(jù)庫(kù)模型對(duì)比實(shí)驗(yàn)結(jié)果(1)
從表4的結(jié)果可知,在車(chē)輛和行人2個(gè)類(lèi)目標(biāo)的檢測(cè)精度上,相比于主流檢測(cè)框架,本文模型方法的總體精度更高,并且在速度上具有一定的優(yōu)勢(shì). 對(duì)于車(chē)輛類(lèi)別,相比于5個(gè)對(duì)比方法,本文模型精度提升1.2%. 可見(jiàn),在更為復(fù)雜和規(guī)模更大的數(shù)據(jù)集上,對(duì)于尺寸較大車(chē)輛目標(biāo),本文模型仍然具有一定的魯棒性. 同時(shí),在模型檢測(cè)速度上,也取得0.3 s的速度提升,可見(jiàn)模型融合并未帶來(lái)運(yùn)行速度降低,并且特征提取的并行方式,也帶來(lái)計(jì)算速度的提升. 對(duì)于行人類(lèi)別,其依然具有小尺寸目標(biāo)的特點(diǎn),總體圖占比較小,且行為變化更加多樣,在惡劣天氣環(huán)境下更難以有效檢測(cè). 在檢測(cè)精度上,本文對(duì)行人類(lèi)別實(shí)現(xiàn)0.4%的精度提升.
表4 Waymo檢測(cè)數(shù)據(jù)庫(kù)模型對(duì)比實(shí)驗(yàn)結(jié)果(2)
通過(guò)在2個(gè)數(shù)據(jù)庫(kù)上的檢測(cè)結(jié)果,本文模型總體檢測(cè)精度具有一定的優(yōu)勢(shì),并且在數(shù)量占比較大的類(lèi)別上取得更好的檢測(cè)結(jié)果. 對(duì)于數(shù)量占比較小和尺寸較小的物體類(lèi)別,本文模型可以保持一定的精度,但是仍然進(jìn)一步提升的空間. 因此,定量實(shí)驗(yàn)結(jié)果證明本文檢測(cè)模型的魯棒性、精度與速度的平衡性.
為了進(jìn)一步驗(yàn)證本文模型4個(gè)改進(jìn)方法的效果,探究所使用的不同改進(jìn)方案對(duì)檢測(cè)精度的提升效果,決定進(jìn)行模型消融實(shí)驗(yàn). 由于本文提出多個(gè)針對(duì)檢測(cè)模型的改進(jìn)方案,通過(guò)在數(shù)據(jù)集上的結(jié)果顯示,已證明精度提升效果. 但是,無(wú)法確認(rèn)不同改進(jìn)方案對(duì)模型精度的提升效果. 因此,利用控制變量方式,改進(jìn)方案逐步增加的驗(yàn)證方法,探究改進(jìn)方法對(duì)模型精度的提升效果.
本文重要的改進(jìn)方法為:全局特征抽取模型、局部特征抽取模型、數(shù)據(jù)增廣與多任務(wù)損失函數(shù). 由于全局特征抽取模型是本文主干網(wǎng)絡(luò)模型,因此以該模型作為基礎(chǔ),逐步將其他3個(gè)改進(jìn)方案放入到模型中,進(jìn)行檢測(cè)精度驗(yàn)證,進(jìn)而完成整個(gè)消融實(shí)驗(yàn)過(guò)程. 本文使用mAP指標(biāo)作為精度衡量標(biāo)準(zhǔn),同時(shí),使用KITTI 3D數(shù)據(jù)庫(kù)的測(cè)試集作為消融實(shí)驗(yàn)的驗(yàn)證數(shù)據(jù)集.
對(duì)于這4種改進(jìn)方法對(duì)檢測(cè)精度的影響效果,具體結(jié)果如表5所示.
表5 改進(jìn)方法的消融實(shí)驗(yàn)
從表5中可以看出,增加局部特征抽取模型、數(shù)據(jù)增廣方案與多任務(wù)損失函數(shù)均可以對(duì)模型精度進(jìn)行有效提升. 根據(jù)實(shí)驗(yàn)結(jié)果可知,融合全局特征抽取模型與局部特征抽取模型,更有助于對(duì)于三維點(diǎn)云目標(biāo)的檢測(cè)效果,其提升精度為1.79%;使用數(shù)據(jù)增廣與多任務(wù)損失函數(shù)對(duì)于模型精度提升效果有限,分別提升0.68%與0.28%. 通過(guò)消融實(shí)驗(yàn),可以看出數(shù)據(jù)增廣與損失函數(shù)修改對(duì)于三維目標(biāo)檢測(cè)方案提升效果有限,因此在之后的探究中,可以進(jìn)行進(jìn)一步的拓展與改進(jìn). 目前,更好地建立并抽取三維目標(biāo)特征,仍然是未來(lái)提升模型檢測(cè)精度的重要研究方向.
針對(duì)自動(dòng)駕駛場(chǎng)景的三維目標(biāo)檢測(cè)任務(wù),本文提出基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)算法,以三維點(diǎn)云數(shù)據(jù)作為研究對(duì)象,構(gòu)造全局特征與局部點(diǎn)云特征相結(jié)合的特征提取網(wǎng)絡(luò),并利用候選框區(qū)域生成方式,完成對(duì)目標(biāo)語(yǔ)義類(lèi)別和位置定位的任務(wù). 通過(guò)在KITTI 3D數(shù)據(jù)庫(kù)和Waymo數(shù)據(jù)庫(kù)上的驗(yàn)證實(shí)驗(yàn),可以得到如下結(jié)論.
1) 與主流的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測(cè)框架相比,本文模型在檢測(cè)精度與檢測(cè)速度上均具有一定的優(yōu)勢(shì).
2) 在復(fù)雜、惡劣的天氣環(huán)境中,對(duì)于三維目標(biāo)檢測(cè)任務(wù),相比于其他方法,本文模型仍然具有一定的精度和速度優(yōu)勢(shì).
3) 對(duì)于三維點(diǎn)云數(shù)據(jù),構(gòu)造一個(gè)將全局特征與局部特征相結(jié)合的特征提取網(wǎng)絡(luò),更能有效地提升檢測(cè)模型的分類(lèi)與定位能力.
當(dāng)然,本文仍然也存在一定的問(wèn)題,面對(duì)物體尺寸較小的類(lèi)別時(shí),模型的精度呈現(xiàn)下降. 同時(shí),本文模型在檢測(cè)速度上仍有一定的提升空間,當(dāng)前模型檢測(cè)速度仍未能達(dá)到可以進(jìn)行實(shí)時(shí)檢測(cè)的目標(biāo). 因此,本文將在未來(lái)對(duì)小尺寸物體的三維實(shí)時(shí)檢測(cè)任務(wù)進(jìn)行更加深入的研究.
北京工業(yè)大學(xué)學(xué)報(bào)2022年6期