亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的激光測(cè)距墻線目標(biāo)自動(dòng)分類(lèi)方法*

2023-10-08 06:56:06蔡文郁劉一博吳培鵬盛慶華

傳感技術(shù)學(xué)報(bào) 2023年8期

蔡文郁，劉一博，吳培鵬，盛慶華

(杭州電子科技大學(xué)，電子信息學(xué)院，浙江杭州 310018)

近年來(lái)，我國(guó)電網(wǎng)的基礎(chǔ)建設(shè)取得了迅速發(fā)展，電力巡檢的一項(xiàng)重要任務(wù)是檢測(cè)架空輸電線路的安全距離，巡檢常用的方法有激光測(cè)距[1-3]、圖像識(shí)別[4-5]等。文獻(xiàn)[6-7]在巡檢無(wú)人機(jī)上使用圖像處理技術(shù)進(jìn)行目標(biāo)檢測(cè)和缺陷識(shí)別，但對(duì)于復(fù)雜環(huán)境或自然缺陷[8]樣本的識(shí)別較差。文獻(xiàn)[9-10]通過(guò)GPS 定位獲得機(jī)載的位置后使用激光測(cè)距技術(shù)精確定位輸電線故障點(diǎn)位置，定位偏差約為0.1 m ～0.4 m。由于激光測(cè)距具有精度高、測(cè)距時(shí)間快、測(cè)量結(jié)果直觀等特性，因此在線路巡檢量測(cè)中應(yīng)用最為廣泛。

雖然目前激光測(cè)距的研究已較為成熟，但在遠(yuǎn)距離電力巡檢等復(fù)雜環(huán)境下，易受到環(huán)境干擾，例如光學(xué)鏡頭引入的背景噪聲，天氣環(huán)境的影響，被測(cè)目標(biāo)的反射面情況，這些因素仍會(huì)影響測(cè)距精度。由于電線圓柱體的特性，電線表面上不同位置對(duì)應(yīng)的反射角度不同，因此激光光斑打在電線反射面的不同位置，將導(dǎo)致回波信號(hào)強(qiáng)度和上升沿速度與墻目標(biāo)存在差異。文獻(xiàn)[11-14]研究了被測(cè)目標(biāo)的距離、反射面，環(huán)境的光強(qiáng)、濕度等外部因素對(duì)激光測(cè)距誤差的影響。文獻(xiàn)[15-17]使用了雙閾值時(shí)刻鑒別法、高通阻容時(shí)間鑒別法和多延遲觸發(fā)等方法消除回波強(qiáng)度變化引起的時(shí)間漂移誤差。近年來(lái)，深度學(xué)習(xí)技術(shù)在激光測(cè)距領(lǐng)域有較多應(yīng)用，胡善江等[18]使用LeNet 模型解算回波時(shí)刻，Xu 等[19]使用CNN 模型自動(dòng)學(xué)習(xí)回波信號(hào)的特征，但其真實(shí)環(huán)境下數(shù)據(jù)集的建立以及泛化能力仍值得探討。因此，可以發(fā)現(xiàn)，大小不同的測(cè)量目標(biāo)特征對(duì)測(cè)距結(jié)果有明顯的影響，必須進(jìn)行區(qū)分處理。雖然上述研究對(duì)激光測(cè)距回波信號(hào)的反射特征進(jìn)行了初步研究，但是并沒(méi)有對(duì)以墻為典型的大目標(biāo)、以線為典型的小目標(biāo)實(shí)現(xiàn)目標(biāo)自動(dòng)分類(lèi)。

為了提高激光測(cè)距系統(tǒng)在電力巡檢場(chǎng)景下測(cè)量不同目標(biāo)物體的精度，本文研究了數(shù)據(jù)預(yù)處理濾波和統(tǒng)計(jì)機(jī)器學(xué)習(xí)分析方法，提出了一種基于機(jī)器學(xué)習(xí)的激光測(cè)距墻線目標(biāo)分類(lèi)方法。通過(guò)建立XGBoost＋LR 墻線分類(lèi)模型，使用XGBoost 模型進(jìn)行特征組合重構(gòu)訓(xùn)練集，使用RF 模型對(duì)稀疏訓(xùn)練集進(jìn)行特征篩選降低維度，最后采用LR 模型進(jìn)行線性區(qū)分，實(shí)現(xiàn)墻線等大小目標(biāo)的自動(dòng)分類(lèi)。

1 基于機(jī)器學(xué)習(xí)的激光測(cè)距墻線目標(biāo)分類(lèi)方法

1.1 激光測(cè)距模型

為了實(shí)現(xiàn)遠(yuǎn)距離測(cè)距，本文采用脈沖飛行時(shí)間(Time of Flight，TOF)激光測(cè)距技術(shù)，并且引入多閾值誤差擬合修正方法[20]和自動(dòng)增益控制電路[21]以提高測(cè)距精度和測(cè)距量程。本文所研究的激光測(cè)距系統(tǒng)模型如圖1 所示。

圖1 激光測(cè)距系統(tǒng)模型

圖1 所示的數(shù)據(jù)采集模塊從激光測(cè)距儀硬件中獲得測(cè)量數(shù)據(jù)，主要原理是控制電路觸發(fā)激光管發(fā)射脈沖并標(biāo)定為起始時(shí)刻tstart，自動(dòng)增益控制電路根據(jù)回波信號(hào)幅值自動(dòng)調(diào)整接收電路增益q，使其滿足大于閾值電壓V1的條件，而且標(biāo)定此時(shí)為停止時(shí)刻tend，時(shí)間測(cè)量模塊計(jì)算激光脈沖的飛行時(shí)間tend-tstart計(jì)算出離被測(cè)目標(biāo)的距離dist ＝c×(tendtstart)/2，式中c為光在真空中傳播速度3×108m/s。如圖1 所示，設(shè)定閾值電壓V2、V3，假設(shè)V2對(duì)應(yīng)時(shí)刻為t2，定義閾值時(shí)間差Δt用于修正補(bǔ)償距離，計(jì)算公式如下:

Δt值越小，波形上升沿時(shí)間越短，即更加接近于理想的高斯脈沖信號(hào)。定義飽和度g用于判定波形是否飽和，當(dāng)波形幅值達(dá)到閾值電壓V3，判定為波形飽和，反之判定為波形不飽和。

因此，激光測(cè)距儀數(shù)據(jù)即為分類(lèi)模塊的輸入樣本空間T{x1，x2，…，xN}，每個(gè)樣本xi包含增益q、測(cè)量距離dist、閾值時(shí)間差Δt和飽和度g四個(gè)變量值。由于系統(tǒng)固有的干擾和噪聲具有隨機(jī)不確定性，因此必須進(jìn)行數(shù)據(jù)預(yù)處理。本文采用自適應(yīng)k-Means 算法，從含有噪聲的數(shù)據(jù)中聚類(lèi)出有效數(shù)據(jù)作為新的樣本空間T′。

測(cè)量墻面等大目標(biāo)時(shí)，回波信號(hào)幅值較大；測(cè)量電線等小目標(biāo)時(shí)，回波信號(hào)幅值較小且上升沿緩慢[22]。雖然墻線不同目標(biāo)的激光測(cè)距回波數(shù)據(jù)分布存在著差異，但是回波信號(hào)的差異經(jīng)過(guò)自適應(yīng)放大調(diào)理后，已經(jīng)無(wú)法直觀顯示不同測(cè)量目標(biāo)的區(qū)別。僅僅依靠電路增益、測(cè)量距離、閾值時(shí)間差等變量無(wú)法完全區(qū)分出測(cè)量目標(biāo)，因此本文從樣本空間T′中計(jì)算了新的11 維特征向量f{X1，X2，…，X11}，綜合使用XGBoost＋LR 機(jī)器學(xué)習(xí)模型訓(xùn)練由J個(gè)特征向量f構(gòu)成的特征空間F{f1，f2，…，fJ}，從而得到墻線二分類(lèi)模型。通過(guò)上述過(guò)程，輸出樣本空間T′和該樣本空間對(duì)應(yīng)的測(cè)量目標(biāo)標(biāo)簽y，最終對(duì)墻和線不同測(cè)量目標(biāo)進(jìn)行不同的修正處理方法。

1.2 特征空間選擇

經(jīng)實(shí)際數(shù)據(jù)測(cè)試與分析可以發(fā)現(xiàn)，墻和線目標(biāo)主要存在以下差異:

①測(cè)量近距離墻等大目標(biāo)時(shí)，回波信號(hào)基本飽和，即在較低增益下就可以得到較多的測(cè)距結(jié)果，測(cè)量出錯(cuò)次數(shù)較少，距離、閾值時(shí)間差等波動(dòng)較小且穩(wěn)定。

②當(dāng)測(cè)量目標(biāo)為線等小目標(biāo)時(shí)，回波信號(hào)幅值受實(shí)際測(cè)量距離、對(duì)準(zhǔn)等因素影響，電路增益較高，測(cè)距結(jié)果數(shù)量較少，測(cè)量出錯(cuò)次數(shù)相對(duì)較多。

根據(jù)以上測(cè)量差異，本文從樣本空間T′中提取出以下11 維數(shù)據(jù)特征，如表1 所示。

表1 特征數(shù)據(jù)

以下為各個(gè)特征數(shù)據(jù)在不同測(cè)試環(huán)境下的分布情況，圓形標(biāo)注的數(shù)據(jù)為測(cè)量目標(biāo)為線目標(biāo)的實(shí)際測(cè)量數(shù)據(jù)，叉形標(biāo)注的數(shù)據(jù)為測(cè)量目標(biāo)為墻目標(biāo)時(shí)的實(shí)測(cè)測(cè)量數(shù)據(jù)。圖2 表明在不同維度特征下不同測(cè)量目標(biāo)分布情況存在一定差異，但是單獨(dú)使用某一個(gè)維度特征無(wú)法完全實(shí)現(xiàn)墻線等目標(biāo)的自動(dòng)分類(lèi)。

圖2 墻目標(biāo)和線目標(biāo)的不同特征測(cè)試數(shù)據(jù)

1.3 基于自適應(yīng)k-Means 聚類(lèi)的數(shù)據(jù)預(yù)處理方法

云霧、雨滴、粉塵等對(duì)回波信號(hào)產(chǎn)生散射效應(yīng)，同時(shí)太陽(yáng)光中包含了測(cè)距激光所在波長(zhǎng)段的能量干擾。這些散射噪聲具有隨機(jī)性和不確定性，因此本文提出了一種自適應(yīng)k-Means 聚類(lèi)算法，用以激光測(cè)距中噪聲數(shù)據(jù)的篩選與剔除。圖3 為測(cè)試集1(100 m 測(cè)距情況)的閾值時(shí)間差數(shù)據(jù)分布情況，橫坐標(biāo)為距離dist 值，縱坐標(biāo)為閾值時(shí)間差Δt。有效數(shù)據(jù)(label0，圖中圓形標(biāo)注)的測(cè)試結(jié)果較多且密集度高，由云霧、雨滴、粉塵等因素引起噪聲(如label1，圖中下三角標(biāo)注)的分布表現(xiàn)為局部密集，但數(shù)據(jù)量少于正常數(shù)據(jù)，由太陽(yáng)光等因素引起的噪聲，分布表現(xiàn)為空間范圍內(nèi)零散隨機(jī)出現(xiàn)。

圖3 測(cè)試集1(100 m 測(cè)距)數(shù)據(jù)分布圖

本文提出了一種自適應(yīng)k-Means 聚類(lèi)算法，從含有噪聲的樣本空間中提取出干凈的有效樣本，主要步驟如下所示:

①通過(guò)計(jì)算樣本空間的密度參數(shù)來(lái)確定初始的聚類(lèi)中心位置，避免因隨機(jī)選取初始聚類(lèi)中心而造成的震蕩。

②以最快降低誤差平方和(Sum of Squared Error，SSE)為目的，自適應(yīng)調(diào)整聚類(lèi)中心個(gè)數(shù)，降低離群點(diǎn)對(duì)迭代過(guò)程的影響。具體地，算法首先使用RobustScaler 方法[23]對(duì)樣本空間T{x1，x2，…，xN}進(jìn)行標(biāo)準(zhǔn)化處理，計(jì)算公式如下:

式中:Q(index)為數(shù)據(jù)x中索引index 的分位數(shù)，Q(50)表示數(shù)據(jù)x的中位數(shù)，Q(75)-Q(25)表示x的四分位距。 RobustScaler 方法相較于Min-Max 歸一化方法[24]降低了離群值對(duì)標(biāo)準(zhǔn)化的影響，相比ZScore 中心化方法[24]最大限度地保留了離群值特征。

③定義樣本xi局部密度函數(shù)Density(xi)，其值為5 個(gè)最近鄰樣本距離xi的歐氏距離平均值。將樣本空間中最密集點(diǎn)定義為第一個(gè)聚類(lèi)中心C1，將最稀疏點(diǎn)定義為第二個(gè)聚類(lèi)中心C2。

④迭代過(guò)程同K-Means，計(jì)算樣本xi與每個(gè)聚類(lèi)中心的相似度(歐氏距離)，并將樣本歸于最近的聚類(lèi)中心Ck。如果最大SSE 樣本的誤差大于設(shè)定閾值，則將該樣本定義為新的聚類(lèi)中心，并更新此樣本的近鄰點(diǎn)，以快速降低SSE 并減少離群點(diǎn)對(duì)聚類(lèi)效果的影響。

⑤重復(fù)迭代過(guò)程，直到聚類(lèi)中心不再更新或滿足迭代條件，輸出樣本最多的簇作為新的樣本空間T′。

1.4 基于XGBoost＋LR 機(jī)器學(xué)習(xí)的多特征融合分類(lèi)方法

本文使用XGBoost＋LR 機(jī)器學(xué)習(xí)算法建立多特征融合的墻線分類(lèi)模型，以解決墻線目標(biāo)之間的量化誤差問(wèn)題和學(xué)習(xí)特征組合必要性的問(wèn)題。由于LR 模型對(duì)于特征組合上存在學(xué)習(xí)局限性，而GBDT模型正好可以用來(lái)挖掘特征之間的關(guān)聯(lián)，將回歸樹(shù)中每個(gè)節(jié)點(diǎn)的分裂看作是自然的特征選擇過(guò)程，多層節(jié)點(diǎn)的結(jié)構(gòu)對(duì)特征進(jìn)行了有效的自動(dòng)組合。GBDT＋LR 結(jié)合模型[25]將LR 和GBDT 兩個(gè)模型相結(jié)合完善分類(lèi)模型，GBDT 進(jìn)行特征組合，將數(shù)據(jù)高維化，使其變得線性可分，帶正則項(xiàng)的LR 線性模型對(duì)于高維的稀疏矩陣有很好的處理能力，并不容易過(guò)擬合。 XGBoost 使用牛頓法進(jìn)行梯度更新，對(duì)損失函數(shù)進(jìn)行了二階泰勒公式展開(kāi)并加入了正則項(xiàng)，獲得了比GBDT 更優(yōu)的運(yùn)算速度和精度。本文以XGBoost模型代替GBDT＋LR 結(jié)合模型中的GBDT 模型，同時(shí)，由于XGBoost 輸出的特征組合向量高度稀疏，因此在LR 模型前加入一層RF 特征選擇層，以降低模型復(fù)雜度，圖4 為XGBoost＋LR 結(jié)合模型框架。

圖4 XGBoost＋LR 墻線分類(lèi)模型

圖4 中XGBoost 模型對(duì)含有J個(gè)樣本的數(shù)據(jù)集T{(f1，y1)，(f2，y2)，…，(fJ，yJ)}進(jìn)行訓(xùn)練，得到含有M棵CART 決策樹(shù)的分類(lèi)模型。將樣本xi落在第m棵決策樹(shù)Tm的葉節(jié)點(diǎn)位置標(biāo)記為1，其余葉節(jié)點(diǎn)標(biāo)記為0，則可得到該棵樹(shù)的稀疏向量lm，組合M棵樹(shù)的稀疏向量構(gòu)成該樣本xi特征組合向量(li1，li2，…，liM)，最終組合所有樣本點(diǎn)獲得新的訓(xùn)練數(shù)據(jù)集T{(l1，y1)，(l2，y2)，…，(lJ，yJ)}。

由上可知，對(duì)于復(fù)雜度(決策樹(shù)個(gè)數(shù))為complexity，深度(決策樹(shù)大小)為depth 的XGBoost 模型，其最大葉結(jié)點(diǎn)個(gè)數(shù)為complexity×2depth，其中標(biāo)記為1 的個(gè)數(shù)為complexity，構(gòu)成的新訓(xùn)練集高度稀疏，且這種稀疏程度受模型復(fù)雜度和深度影響，過(guò)大的特征維度將導(dǎo)致LR 分類(lèi)器參數(shù)更新緩慢且易過(guò)擬合。因此，在LR 分類(lèi)模型訓(xùn)練前，本文使用隨機(jī)森林RF 算法對(duì)特征組合向量l進(jìn)行重要度評(píng)估，篩選出重要程度較高的部分特征，篩選閾值定義為:

篩選后的數(shù)據(jù)集縮小為T(mén)′，送入LR 分類(lèi)器進(jìn)行訓(xùn)練得到墻線目標(biāo)二分類(lèi)模型。

2 實(shí)驗(yàn)與測(cè)試結(jié)果

2.1 數(shù)據(jù)聚類(lèi)去噪性能測(cè)試

為衡量自適應(yīng)k-Means 算法相較k-Means、k-Means＋＋對(duì)于激光測(cè)距對(duì)噪聲數(shù)據(jù)的剔除性能，本文使用輪廓系數(shù)Silhouette 和調(diào)整互信息AMI[26]作為評(píng)價(jià)指標(biāo)。 Silhouette 為內(nèi)部指標(biāo)，反映了聚類(lèi)內(nèi)緊湊程度和聚類(lèi)外分散程度的差異。 AMI 為外部指標(biāo)，計(jì)算預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽的互信息分?jǐn)?shù)來(lái)衡量相似程度。

表2 為三種k-Means 算法對(duì)3 個(gè)測(cè)試數(shù)據(jù)集聚類(lèi)效果比較結(jié)果。k-Means＋＋和自適應(yīng)k-Means 相較于k-Means 算法有更快的運(yùn)行時(shí)間，k-Means 采用隨機(jī)方式選取初始聚類(lèi)中心位置，迭代后的聚類(lèi)中心位置也存在一定隨機(jī)性，即陷入局部最優(yōu)，這也造成了k-Means 算法在三個(gè)測(cè)試集下的調(diào)整互信息(準(zhǔn)確率)最低。自適應(yīng)k-Means 相較于k-Means＋＋能夠自適應(yīng)地確定最優(yōu)化的k值，從而調(diào)整聚類(lèi)中心個(gè)數(shù)，同時(shí)聚類(lèi)中心的選取以快速下降SSE 為目的，因此對(duì)離群噪聲有更好的處理效果。

表2 三種k-Means 算法聚類(lèi)效果比較

圖5 為三種k-Means 算法對(duì)測(cè)試集1(100 m 測(cè)距情況)的聚類(lèi)效果比較，圖5(d)中自適應(yīng)k-Means設(shè)定了21 個(gè)聚類(lèi)中心，因此同樣設(shè)定k-Means 和k-Means＋＋的k值為21，另外增加了k值為10 的k-Means＋＋對(duì)照組。圖5(a)中k-Means 算法將有效數(shù)據(jù)(label0)分裂為多個(gè)簇，這與其隨機(jī)選取聚類(lèi)中心有關(guān)，初始聚類(lèi)中心大概率選取在密集處。k-Means＋＋相較于k-Means，初始聚類(lèi)中心設(shè)置更加合理，但是k值無(wú)法自主確定:選取較小k值(k＝10)時(shí)(如圖5(b)所示)，噪聲數(shù)據(jù)被歸為有效數(shù)據(jù)集；選取較大k值(k＝21)時(shí)(如圖5(c)所示)，能較好地將有效數(shù)據(jù)分離出來(lái)，但是k值需要依靠人工經(jīng)驗(yàn)確定。自適應(yīng)k-Means 算法在迭代中自動(dòng)調(diào)整聚類(lèi)中心個(gè)數(shù)，彌補(bǔ)了k-Means 和k-Means＋＋算法的缺陷，同時(shí)對(duì)離群噪聲點(diǎn)有很好的處理效果。

圖5 三種k-Means 算法對(duì)測(cè)試集1(100 m 測(cè)距)聚類(lèi)效果

2.2 目標(biāo)自動(dòng)分類(lèi)性能測(cè)試

為了驗(yàn)證XGBoost＋LR 分類(lèi)器在線墻目標(biāo)分類(lèi)的性能，本文通過(guò)k-Fold 交叉驗(yàn)證方式[27]，將數(shù)據(jù)劃分成k份，其中1 份作為測(cè)試集，其余k-1 分用于訓(xùn)練模型。分別使用邏輯回歸(Logistic Regression，LR)、隨機(jī)森林(Random Forest，RF)、梯度提升決策樹(shù)(Gradient Boosting Decision Tree，GBDT)、梯度提升決策樹(shù)＋邏輯回歸(GBDT＋LR)這4 種模型作為對(duì)比模型。

對(duì)于二分類(lèi)問(wèn)題，利用模型預(yù)測(cè)值和真實(shí)值計(jì)算混淆矩陣[28]，以評(píng)價(jià)模型的性能，墻線二分類(lèi)問(wèn)題中混肴矩陣的描述如表3 所示。

表3 二分類(lèi)問(wèn)題判決表

評(píng)價(jià)二分類(lèi)模型性能的指標(biāo)常采用準(zhǔn)確率Accuracy 和F1＿Score 值[27]，計(jì)算公式如下:

式中:Accuracy 表示預(yù)測(cè)的準(zhǔn)確率，即預(yù)測(cè)正確的樣本占總樣本的比例。 F1＿Score 是對(duì)精確度Precision和召回率進(jìn)行綜合考慮得出的指標(biāo)。

ROC 曲線是分類(lèi)器性能直觀的評(píng)價(jià)工具[28]，以假陽(yáng)性率(FPR)為橫坐標(biāo)，真陽(yáng)性率(TPR)為縱坐標(biāo)，將預(yù)測(cè)為陽(yáng)性的概率作為閾值，通過(guò)遍歷所有預(yù)測(cè)的概率，得到多組FPR 和TPR 的坐標(biāo)值，該曲線越靠近左上角延伸即曲線下方的面積AUC 值越大，表明分類(lèi)器性能越好。圖6 為不同模型對(duì)應(yīng)的一次ROC 曲線，LR 模型的AUC 為最低的0.918，說(shuō)明單一學(xué)習(xí)器模型的性能遠(yuǎn)低于集成學(xué)習(xí)器模型。GBDT 模型相較于RF 模型，在建模策略上串行地?cái)M合上一決策樹(shù)的殘差，因此它的損失函數(shù)在每次迭代中局部降低，能更好地提高模型精度。 GBDT＋LR和XGBoost＋LR 模型的AUC 曲線面積最大，分別為0.993 和0.999，驗(yàn)證了在GBDT 或XGBoost 基礎(chǔ)上疊加LR 模型比僅使用GBDT 或XGBoost 模型獲得了更好的性能。

圖6 不同模型的ROC 曲線圖

表4 是不同模型的準(zhǔn)確率Accuracy、精確度Precision、召回率Recall、F1＿Score 值和AUC 的對(duì)比結(jié)果。從表4 可以看出，XGBoost＋LR 模型的分類(lèi)效果總體上優(yōu)于其他4 種模型，準(zhǔn)確率達(dá)到了98.3%，召回率Recall 和F1＿Score 值分別達(dá)到了98.1%和98.2%，說(shuō)明此模型具有很好的預(yù)測(cè)性能。 LR 模型的5 項(xiàng)指標(biāo)都最低，準(zhǔn)確率僅為85.8%，證明單憑線性系統(tǒng)無(wú)法完全區(qū)分測(cè)距數(shù)據(jù)集。 GBDT＋LR、XGBoost＋LR 的結(jié)合模型將數(shù)據(jù)引向高維化，使其變得線性可分，一定程度上提高了分類(lèi)模型性能。同時(shí)本文使用XGBoost 替代GBDT＋LR 中的GBDT 模型進(jìn)行特征組合，并使用RF 篩選出重要的特征組合送入LR 分類(lèi)器進(jìn)行訓(xùn)練，以期望提高模型精度和運(yùn)算速度。

表4 不同模型評(píng)價(jià)指標(biāo)對(duì)比

圖7 比較了GBDT＋LR 和XGBoost＋LR 模型的訓(xùn)練時(shí)間開(kāi)銷(xiāo)與最大葉節(jié)點(diǎn)數(shù)量(模型復(fù)雜程度)關(guān)系曲線。由圖7 可知，XGBoost＋LR 模型的運(yùn)算速度優(yōu)于GBDT＋LR 模型，而且隨著模型復(fù)雜程度的提升愈加明顯。其一是因?yàn)閄GBoost 使用牛頓法二階逼近損失函數(shù)最優(yōu)，獲得了更快的收斂速度，其二是使用RF 模型進(jìn)行特征組合的篩選，很大程度降低了XGBoost 模型輸出的稀疏矩陣維度，當(dāng)葉節(jié)點(diǎn)數(shù)為3 043 時(shí)，經(jīng)RF 模型篩選后僅保留了64 維特征，LR 分類(lèi)器也獲得了更快的收斂速度。

圖7 兩種模型的最大葉節(jié)點(diǎn)個(gè)數(shù)與時(shí)間開(kāi)銷(xiāo)關(guān)系曲線

2.3 測(cè)距精度測(cè)試結(jié)果比較

為驗(yàn)證墻線目標(biāo)自動(dòng)分類(lèi)方法對(duì)激光測(cè)距系統(tǒng)精度的影響，本文以TruPulse200 型號(hào)激光測(cè)距儀[29]為標(biāo)準(zhǔn)，對(duì)比有無(wú)自動(dòng)目標(biāo)分類(lèi)時(shí)的測(cè)量誤差。本文選取不同測(cè)試環(huán)境和天氣下的2 067 個(gè)樣本，其中1 056 個(gè)樣本被分類(lèi)為線目標(biāo)，1 011 個(gè)樣本被分為墻目標(biāo)，線目標(biāo)樣本的測(cè)試范圍為20 m～120 m，墻目標(biāo)樣本的測(cè)試范圍為0 ～1 000 m，測(cè)試環(huán)境如圖8 所示。

圖8 實(shí)際測(cè)試場(chǎng)景

本文使用最小二乘法擬合距離、增益、閾值時(shí)間差關(guān)于真實(shí)距離(TruPulse200 激光測(cè)距儀結(jié)果)的曲線，通過(guò)測(cè)試得到2 067 個(gè)樣本的標(biāo)準(zhǔn)差曲線如圖9 所示。

圖9 有無(wú)墻線分類(lèi)時(shí)激光測(cè)距的標(biāo)準(zhǔn)差曲線圖

圖9(a)為未進(jìn)行墻線分類(lèi)時(shí)的測(cè)距標(biāo)準(zhǔn)差曲線，1 000 m 距離段的標(biāo)準(zhǔn)差維持在0 ～0.35 之間，圖9(b)和圖9(c)分別為進(jìn)行本文提出的墻線目標(biāo)自動(dòng)分類(lèi)方法后歸類(lèi)為墻和線的測(cè)距標(biāo)準(zhǔn)差曲線，歸類(lèi)為墻目標(biāo)時(shí)前100 m 的標(biāo)準(zhǔn)差在0 ～0.1 之間，100 m～900 m 的標(biāo)準(zhǔn)差在0 ～0.2 之間，歸類(lèi)為線目標(biāo)時(shí)120 m 范圍內(nèi)標(biāo)準(zhǔn)差在0.05～0.25 之間。通過(guò)對(duì)比有無(wú)使用墻線分類(lèi)方法時(shí)的標(biāo)準(zhǔn)差，可以發(fā)現(xiàn)本文提出的墻線自動(dòng)分類(lèi)方法能有效提高測(cè)距精度，減小測(cè)量誤差，同時(shí)一定程度上降低了測(cè)量的數(shù)據(jù)抖動(dòng)。墻線自動(dòng)分類(lèi)方法能根據(jù)測(cè)量數(shù)據(jù)自動(dòng)區(qū)分出測(cè)量目標(biāo)為墻或線，對(duì)墻目標(biāo)和線目標(biāo)采用不同的數(shù)據(jù)擬合方式，經(jīng)測(cè)試測(cè)量目標(biāo)為墻時(shí)，標(biāo)準(zhǔn)差低于0.2 m，測(cè)量目標(biāo)為線時(shí)標(biāo)準(zhǔn)差低于0.25 m。

3 結(jié)論

為了提高激光測(cè)距系統(tǒng)在電力巡檢場(chǎng)景下測(cè)量不同目標(biāo)物體的精度，本文提出了一種基于機(jī)器學(xué)習(xí)的激光測(cè)距墻線目標(biāo)分類(lèi)方法。針對(duì)散射噪聲問(wèn)題，在數(shù)據(jù)預(yù)處理階段提出了一種自適應(yīng)k-Means聚類(lèi)算法，基于密度確定初始聚類(lèi)中心并在迭代過(guò)程自適應(yīng)調(diào)整k值，實(shí)驗(yàn)驗(yàn)證本方法能較好處理離群噪聲數(shù)據(jù)，篩選出有用數(shù)據(jù)。針對(duì)墻線目標(biāo)分類(lèi)問(wèn)題，本文了建立了XGBoost＋LR 墻線分類(lèi)模型，使用XGBoost 模型進(jìn)行特征組合重構(gòu)訓(xùn)練集，使用RF模型對(duì)稀疏訓(xùn)練集進(jìn)行特征篩選，降低維度，最后使用LR 模型進(jìn)行線性區(qū)分。經(jīng)測(cè)試驗(yàn)證，XGBoost＋LR 墻線自動(dòng)分類(lèi)的準(zhǔn)確率達(dá)到98.2%，較GBDT＋LR 模型提高了1.3%，運(yùn)算速度提升明顯。