邢艷秋,蔡碩,汪獻(xiàn)義,2
(1.東北林業(yè)大學(xué) 森林作業(yè)與環(huán)境研究中心,哈爾濱 150040;2.長沙智能駕駛研究院,長沙 410000)
激光雷達(dá)是以發(fā)射激光束探測目標(biāo)的位置、速度等特征量的雷達(dá)系統(tǒng),依據(jù)搭載平臺的不同可分為星載雷達(dá)、機(jī)載雷達(dá)、車載雷達(dá)、地面激光雷達(dá)等多種類別,這些激光雷達(dá)在相應(yīng)的應(yīng)用場景中都具有特定的優(yōu)勢[1]。相較而言,地面激光雷達(dá)(terrestrial laser scanning,TLS)能夠獲取掃描目標(biāo)的高精度三維信息,被大量應(yīng)用于眾多三維建模的逆向工程中[2]。在林業(yè)研究中,有較多研究者基于地面激光雷達(dá)展開林業(yè)參數(shù)提取[3]、樹干提取[4]與建模[5-6]、單木分割[7]等研究,將點(diǎn)云快速地分為地面、樹干與枝葉可為上述研究奠定基礎(chǔ),所以研究林分點(diǎn)云分類具有重要意義。
現(xiàn)階段點(diǎn)云分類多分為逐點(diǎn)分類、基于分割的分類與基于多實(shí)體的分類。逐點(diǎn)分類需要遍歷點(diǎn)計(jì)算特征,在大場景分類過程中這種特征計(jì)算方式的效率較為低下[8];基于多實(shí)體的分類方式多應(yīng)用于機(jī)載點(diǎn)云分類的研究[9-10],且過程較為復(fù)雜?;诜指畹姆诸愑谢诜指蠲嫫o助的點(diǎn)云分類與基于體素分割的點(diǎn)云分類。Zhang等[11]研究了基于分割面片輔助的點(diǎn)云分類,其在分類過程中首先采用區(qū)域生長法將點(diǎn)云分割成相對獨(dú)立的面片,然后計(jì)算這些面片關(guān)于幾何特性、輻射強(qiáng)度特性、回波特性與拓?fù)潢P(guān)系的一系列特征訓(xùn)練支持向量機(jī)實(shí)現(xiàn)點(diǎn)云分類[12]。這種分割方式多適用于面特征比較多的城市場景中,林地中局部點(diǎn)云形狀多不規(guī)則,使用基于分割面片的分割方式往往不能達(dá)到較好的分割效果,且在大場景中面片分割效率較低?;隗w素分割的方式過程較為簡單且能夠兼顧算法效率,如Wang等[13]研究了基于體素分割的城市建筑分類,其在分類過程中先將點(diǎn)云分割到相對獨(dú)立的體素中,然后設(shè)計(jì)了相關(guān)先驗(yàn)信息定義這些體素的垂直與水平特性,并依據(jù)垂直與水平特性將這些體素融合為一個(gè)個(gè)體素群,最終通過計(jì)算這些體素群的線度、面度與球度實(shí)現(xiàn)城市建筑群的分類。分析分類結(jié)果發(fā)現(xiàn),這種分割方式基本能夠完全識別高大建筑群,而對一些相對低矮的建筑識別率僅為86.3%,這主要是由于高大建筑面特性明顯,低矮建筑形狀大多較為復(fù)雜,并不是規(guī)則的線狀、面狀或球狀。相較于城市建筑,林地目標(biāo)形狀多不規(guī)則,實(shí)現(xiàn)點(diǎn)云分類挑戰(zhàn)更大。
綜上所述,本研究提出一種基于多尺度近鄰體素特征的地基激光雷達(dá)林分點(diǎn)云分類方法。在分類過程中,基于特征選擇獲得了能夠滿足與本研究分類場景的六個(gè)特征,然后通過多尺度分割點(diǎn)云并分別計(jì)算相應(yīng)尺度下的每個(gè)體素與九個(gè)近鄰體素構(gòu)成的局部點(diǎn)的特征獲得高維特征,最終利用該特征訓(xùn)練LightGBM(light gradient boosting machine)獲得分類器模型,并將其應(yīng)用于測試集實(shí)現(xiàn)點(diǎn)云分類。在大場景分類過程中,特征的計(jì)算效率尤為重要,為此本研究實(shí)現(xiàn)了兩種特征估計(jì)方式,分別為基于分割的近鄰體素特征與基于分割的近鄰體素重心特征。
本研究的地面激光雷達(dá)設(shè)備為徠卡Scanstation C10,具體儀器參數(shù)見表1。
表1 三維激光掃描儀技術(shù)參數(shù)
本研究的數(shù)據(jù)采集自東北林業(yè)大學(xué)實(shí)驗(yàn)林場的蒙古櫟(quercusmongolica)人工林(圖1)。該樣地地形簡單平坦,林下灌木較少,單木間隔約為3 m,單木胸徑與樹高均值分別為13.55 cm與9.98 m。數(shù)據(jù)采集時(shí)間為2016年6月,樣地尺寸為20 m×20 m,在掃描過程中共架設(shè)五個(gè)掃描站,即A1~A5站(圖2),A1~A4站分別架設(shè)在方形樣地的四個(gè)角點(diǎn),A5站為樣地中心,掃描角度為360°,其余測站為定向掃描。
圖1 蒙古櫟人工林
圖2 掃描站布設(shè)
訓(xùn)練分類器過程中需要用到訓(xùn)練樣本、驗(yàn)證樣本與測試樣本。訓(xùn)練樣本用于訓(xùn)練分類器,驗(yàn)證樣本用于判斷分類器訓(xùn)練過程中是否出現(xiàn)過擬合或欠擬合。鑒于五個(gè)掃描站掃描數(shù)據(jù)屬于一塊樣地,數(shù)據(jù)相似,掃描站A5的數(shù)據(jù)量更大,所以訓(xùn)練樣本與驗(yàn)證樣本從A5掃描站數(shù)據(jù)中隨機(jī)抽取10%,掃描站A1~A4中選擇一個(gè)站作為測試樣本。
1)點(diǎn)云特征。點(diǎn)云特征是點(diǎn)云分類任務(wù)的關(guān)鍵,好的特征對不同的類別區(qū)分度較高[14]。在目前的研究中,大多數(shù)研究者是根據(jù)經(jīng)驗(yàn)盡可能多地構(gòu)造特征訓(xùn)練分類器[15-16]。本研究數(shù)據(jù)量較大且需要計(jì)算不同尺度下的點(diǎn)云特征,若構(gòu)造較多的經(jīng)驗(yàn)特征對運(yùn)行內(nèi)存要求較高且對分類器訓(xùn)練效率影響較大[17]。針對這一問題,在處理某一固定場景下的分類任務(wù)時(shí)較多研究者往往通過特征選擇實(shí)現(xiàn)特征降維,這樣在避免盲目構(gòu)造特征的同時(shí)又能夠兼顧分類器性能。本研究先構(gòu)造19個(gè)經(jīng)驗(yàn)特征,然后使用xgboost特征選擇技術(shù)實(shí)現(xiàn)特征降維[17],在保證分類器性能的前提下在特征選擇過程中保留了六個(gè)特征,其定義如式(1)所示。
(1)
式中:Pz表示當(dāng)前點(diǎn)Z坐標(biāo);NDSM表示歸一化數(shù)字表面模型;Gz表示當(dāng)前點(diǎn)地面投影點(diǎn)Z坐標(biāo)估計(jì)值;V表示垂直度;Oλ表示全向方差;λ1>λ2>λ3>0為近鄰點(diǎn)主成分分析對應(yīng)的歸一化特征值;ΔZk-NN表示臨近點(diǎn)的Z坐標(biāo)最大差值,其中k-NN表示快速最近鄰搜索;Zmax與Zmin表示對應(yīng)臨近點(diǎn)的最大最小Z坐標(biāo)值;λ1,2D與λ2,2D表示近鄰點(diǎn)在二維XY平面上XY軸坐標(biāo)值的主成分分析對應(yīng)的特征值。
2)多尺度體素分割構(gòu)造特征。點(diǎn)云搜索方式是構(gòu)造特征效率的關(guān)鍵??紤]到在局部較小空間中的點(diǎn)數(shù)據(jù)多屬于同一類別,點(diǎn)特征基本相同,所以有研究者考慮使用體素分割進(jìn)行點(diǎn)云分類。那么在計(jì)算特征的過程中每個(gè)體素只需要計(jì)算一次特征即可,這樣既可以有效克服數(shù)據(jù)冗余又可以提升特征的計(jì)算效率。同時(shí),在分割過程中要考慮分割尺度,小尺度的點(diǎn)云分割能夠分離出空間分布相對緊密的類別,大尺度的點(diǎn)云分割可以將連通域較寬的類別分割成相同的體素。所以,使用單一尺度分割點(diǎn)云很難兼顧點(diǎn)云的局部類別與整體分布。采用點(diǎn)云的多尺度分割不僅可以解決上述問題,而且能增加特征維數(shù),有利于提高分類器的性能。
在點(diǎn)云分割過程中會存在兩種情況。情況一是單一體素?cái)?shù)據(jù)較少,無法完成特征計(jì)算,這主要由孤立點(diǎn)或局部點(diǎn)集密度較為稀疏造成;情況二是單一體素會將部分連通區(qū)域分割開來,造成估計(jì)的特征穩(wěn)定性降低,比如某10 cm厚度的樹干可能被分割到兩個(gè)10 cm×10 cm×10 cm的體素中。基于上述考慮,本研究在每個(gè)分割尺度中遍歷體素中心,搜索九個(gè)近鄰體素內(nèi)的點(diǎn)集參與計(jì)算當(dāng)前體素點(diǎn)特征,這樣既能克服單個(gè)體素?cái)?shù)據(jù)較少的情況又能兼顧局部點(diǎn)集的連通性。同時(shí),考慮到近鄰體素的重心能夠近似局部點(diǎn)集的分布,為了提升特征計(jì)算效率,用近鄰體素點(diǎn)云計(jì)算當(dāng)前體素點(diǎn)特征的同時(shí)還實(shí)現(xiàn)了使用近鄰體素重心估計(jì)當(dāng)前體素特征。
本研究的體素分割基于八叉樹實(shí)現(xiàn)[18]。考慮到林地單木間平均間隔與局部連通區(qū)域的樹干長度,分割尺度為2×3ncm(n∈0,1,2,3),即4個(gè)分割尺度,最小最大體素邊長分別為2 cm×2 cm×2 cm與54 cm×54 cm×54 cm。基于特征選擇獲得的六個(gè)特征中特征Z與NDSM不需要通過近鄰關(guān)系構(gòu)造,所以僅有剩下的四個(gè)特征參與多尺度分割。在遍歷四個(gè)尺度分割計(jì)算特征之后,每個(gè)點(diǎn)使用18個(gè)特征表示。
3)LightGBM分類器。LightGBM[19]是一種輕量級改進(jìn)的梯度提升決策樹(gradient boosted decision trees,GBDT)[20],且通過計(jì)算樣本在每個(gè)決策樹的得分和來估計(jì)類別。現(xiàn)階段眾多基于決策樹的分類器都能夠較好地完成分類任務(wù),比如經(jīng)典的隨機(jī)森林[21]或者被較多機(jī)器學(xué)習(xí)研究者視為baseline的xgboost[22]。但在大數(shù)據(jù)集分類任務(wù)中,這些分類器訓(xùn)練效率往往較慢。針對這一問題,LightGBM中引入了數(shù)據(jù)壓縮與特征降維技術(shù),以減少很小的精度為代價(jià)提高算法效率。特征降維是將數(shù)據(jù)集中的稀疏互斥特征合并為一個(gè)特征。本研究沒有稀疏特征,所以不使用LightGBM的特征降維技術(shù)。
在訓(xùn)練決策樹過程中,葉子節(jié)點(diǎn)的分裂方式非常關(guān)鍵,LightGBM通過信息增益來控制節(jié)點(diǎn)分裂。信息增益指決策樹在某一節(jié)點(diǎn)按某一特征將樣本分配到左右子節(jié)點(diǎn)對目標(biāo)函數(shù)的貢獻(xiàn),信息增益越大表示按照這種分裂方式的置信度越高。在訓(xùn)練過程中,LightGBM要先遍歷特征計(jì)算使信息增益達(dá)到最大的分裂點(diǎn),最終依據(jù)特征索引與使信息增益達(dá)到的最大的分裂點(diǎn)將樣本分配到左右子節(jié)點(diǎn)中。本研究在訓(xùn)練LightGBM時(shí)使用100個(gè)梯度決策樹,每個(gè)決策樹最大葉子節(jié)點(diǎn)數(shù)量設(shè)置為64個(gè)。
在完成分類之后,需要采用一定的準(zhǔn)則定性分析分類器的精度。衡量分類器性能,分別從分類器的準(zhǔn)確率、查準(zhǔn)率、召回率、F1分?jǐn)?shù)與F1均值(MF1)進(jìn)行評估。準(zhǔn)確率用于分類器表現(xiàn)直觀估計(jì),查準(zhǔn)率與召回率用于評價(jià)分類器在某類上的表現(xiàn)。由于難以用兩個(gè)量衡量分類器在某一類別上的表現(xiàn),研究者引入F1。通常還采用MF1衡量分類器的總體表現(xiàn),其值越大表示分類器分類效果越好。
本研究分別實(shí)現(xiàn)了基于多尺度近鄰體素點(diǎn)云特征與基于多尺度近鄰體素重心點(diǎn)特征的林分點(diǎn)云分類研究。本節(jié)就基于不同特征的分類器性能及分類性能較好的分類結(jié)果展開分析。
表2統(tǒng)計(jì)了多尺度近鄰體素點(diǎn)特征與多尺度近鄰體素重心特征的特征計(jì)算性能,其中涉及到占比的部分均為相應(yīng)特征計(jì)算方式中測試集與訓(xùn)練集的比值;效率提升表示基于近鄰體素重心的特征計(jì)算方式關(guān)于測試集與訓(xùn)練集節(jié)約的特征計(jì)算時(shí)間與基于近鄰體素點(diǎn)特征計(jì)算方式所用時(shí)間的比值;體素?cái)?shù)量表示四個(gè)體素分割尺度下得到體素?cái)?shù)量的和;特征估計(jì)用時(shí)表示相應(yīng)數(shù)據(jù)集特征計(jì)算耗時(shí)。仔細(xì)分析在對應(yīng)的計(jì)算方式中兩種數(shù)據(jù)集的特征估計(jì)用時(shí)比值與點(diǎn)云數(shù)量的比值近似,與體素分割數(shù)量占比差異較大,表明兩種特征計(jì)算方式下特征計(jì)算效率與點(diǎn)云的數(shù)量正相關(guān)。由表2易知,基于近鄰體素重心的方式特征計(jì)算效率明顯提高,在訓(xùn)練集與測試集中基于近鄰中心計(jì)算特征的方式特征計(jì)算效率分別提高22.22%與22.58%,效率提升的幅度相近,說明特征計(jì)算效率提升程度也與點(diǎn)云數(shù)量正相關(guān)。
表2 不同特征計(jì)算性能分析
表3統(tǒng)計(jì)了兩種特征計(jì)算方式下LightGBM關(guān)于測試集的分類結(jié)果,基于近鄰體素點(diǎn)與近鄰體素重心點(diǎn)特征的分類器準(zhǔn)確率與MF1分別為0.968 4、0.972 3與0.964 6、0.969 3。兩種分類器的性能相近,同時(shí)容易發(fā)現(xiàn)基于這兩種特征訓(xùn)練分類器均能夠較好地實(shí)現(xiàn)林分點(diǎn)云分類任務(wù)。在本研究中,以特征選擇獲得的六個(gè)特征為基礎(chǔ)進(jìn)行多尺度體素分割計(jì)算獲得的特征幾乎能夠正確識別所有的地面點(diǎn),錯(cuò)誤識別樹干與枝葉的點(diǎn)數(shù)量占比均為0.05。表4統(tǒng)計(jì)了基于兩種特征分類器應(yīng)用于測試樣本的混淆矩陣與錯(cuò)估統(tǒng)計(jì)。其中,錯(cuò)估總占比表示錯(cuò)估數(shù)量與測試樣本數(shù)據(jù)總量的比值。不難發(fā)現(xiàn),分類器能夠識別大多的地面點(diǎn)云,錯(cuò)估大多來自于枝葉與樹干類別,部分地面與樹干產(chǎn)生錯(cuò)誤估計(jì)。
表3 不同特征的分類器性能
綜合2.1節(jié)分析發(fā)現(xiàn),基于近鄰體素點(diǎn)特征訓(xùn)練的分類器性能略優(yōu)于基于近鄰體素重心點(diǎn)特征的分類器,所以此處僅針對基于前者特征的分類器表現(xiàn)展開探討。圖3分別展示了本研究的訓(xùn)練樣本(圖3(a))與分類器關(guān)于測試集的分類結(jié)果(圖3(b)),圖中灰色、紅色與綠色分別表示地面、樹干與枝葉。圖4給出了部分分類結(jié)果的細(xì)節(jié)圖(黑框表示錯(cuò)分類別區(qū)域),顏色表示的類別與圖3相同。
圖3 訓(xùn)練樣本與分類結(jié)果
由圖3(b)易知,分類器基本正確識別了大多地面、樹干與枝葉三個(gè)類別的點(diǎn)云。由表4易知,大多錯(cuò)分來自樹干與枝葉,在地面與樹干間也存在部分錯(cuò)分的狀況。結(jié)合圖4(a)發(fā)現(xiàn),錯(cuò)分的地面與樹干主要來自于兩個(gè)類別在空間的交匯處。由于掃描儀的垂直視場有限,距離掃描儀較近的單木多沒有樹冠數(shù)據(jù),結(jié)合圖4(c)發(fā)現(xiàn),在沒有樹冠且附近枝葉較多的單木頂部容易將樹干標(biāo)記為枝葉點(diǎn),在附近沒有枝葉數(shù)據(jù)的單木頂部則能夠正確識別樹干(圖4(b))。在樹干產(chǎn)生枝干處,分類器也容易將部分枝葉點(diǎn)標(biāo)記為樹干點(diǎn)(圖4(d)),這主要由于部分枝干點(diǎn)特征與樹干相近造成。同時(shí)分析圖4的細(xì)節(jié)圖容易發(fā)現(xiàn),基于分割特征的分類器標(biāo)記的點(diǎn)云類別間能夠保證較好的連通性。
表4 測試樣本的混淆矩陣與錯(cuò)估統(tǒng)計(jì)
圖4 分類結(jié)果細(xì)節(jié)圖
本研究通過計(jì)算不同分割尺度下近鄰體素點(diǎn)集構(gòu)造18維特征訓(xùn)練LightGBM分類器實(shí)現(xiàn)了林分地基激光雷達(dá)點(diǎn)云的分類。在特征計(jì)算過程中,為了盡量提高特征計(jì)算效率,實(shí)現(xiàn)了基于近鄰體素點(diǎn)與基于近鄰體素重心的兩種特征計(jì)算方式,得到以下結(jié)論。
1)基于多尺度分割計(jì)算的近鄰特征能夠有效應(yīng)用于大場景的林分點(diǎn)云分類任務(wù)。本研究分類準(zhǔn)確率MF1分別達(dá)到96.84%與96.23%,地面點(diǎn)識別率接近100%,錯(cuò)分類主要集中在樹干與枝葉間。
2)基于多尺度分割計(jì)算點(diǎn)云特征效率較高,同時(shí)使用對應(yīng)分割尺度下近鄰體素重心近似體素點(diǎn)參與特征計(jì)算可有效提高特征計(jì)算效率。本研究的訓(xùn)練集與測試集數(shù)據(jù)量分別為3 521 927與2 024 875,基于多尺度近鄰體素點(diǎn)計(jì)算特征用時(shí)分別為54 s與31 s,每秒可以穩(wěn)定完成65 000點(diǎn)特征計(jì)算;基于多尺度近鄰體素重心計(jì)算計(jì)算特征用時(shí)分別為42 s與24 s,每秒可以近似完成84 000個(gè)點(diǎn)特征的估計(jì)。
3)基于本研究構(gòu)造的特征訓(xùn)練分類器在類別間的空間交匯處容易產(chǎn)生錯(cuò)誤估計(jì)。結(jié)合圖4的錯(cuò)分細(xì)節(jié)圖易知,本研究錯(cuò)誤分類多集中于類別間空間存在交集處。
相較于Wang等城市建筑目標(biāo)分類研究,本研究點(diǎn)云分類方式過程簡單,特征計(jì)算過程中引入?yún)?shù)較少。同時(shí),人為建筑場景中,大多目標(biāo)局部空間呈現(xiàn)狀或面狀分布,本研究林分點(diǎn)云分類的場景變化較大需要考慮的因素多,點(diǎn)云分類任務(wù)穩(wěn)定性較高,分類準(zhǔn)確率穩(wěn)定,居于0.96以上。本研究在特征計(jì)算過程中僅需要引入分割尺度及搜索對應(yīng)尺度搜索近鄰體素?cái)?shù)量,在運(yùn)行成本允許的情況下可以構(gòu)造較多尺度特征,兼顧了點(diǎn)云的局部與整體分布。同時(shí),引入的近鄰體素重心近似局部點(diǎn)云分布計(jì)算特征的方式可有效提高特征計(jì)算效率,在分類過程中基于其訓(xùn)練的分類器準(zhǔn)確率與MF1為0.964 6與0.969 3,分類器性能相較于基于近鄰體素點(diǎn)特征的分類器僅降低了千分級,在大數(shù)據(jù)集大場景的點(diǎn)云分類任務(wù)中具有一定的借鑒意義。
同時(shí),本研究的基于分割計(jì)算特征過程中需要考慮近鄰體素搜索數(shù)量,這個(gè)參數(shù)對分類器性能與特征計(jì)算效率均有較大的影響。一般而言,這個(gè)值相對獲取的大點(diǎn)集多計(jì)算的特征較為穩(wěn)定,然而太大則容易降低特征計(jì)算效率。所以,為了兼顧特征計(jì)算效率與分類器性能,本研究近鄰搜索值設(shè)置為9。相對而言,這只是一個(gè)經(jīng)驗(yàn)值,本研究并沒有設(shè)計(jì)實(shí)驗(yàn)探究其最優(yōu)值。本研究的錯(cuò)分類多集中于類別間空間交匯處,在后續(xù)的研究中,將從特征搜索方式及構(gòu)造更好的特征方面展開探究,以期進(jìn)一步提高點(diǎn)云分類準(zhǔn)確率。