亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機森林的衛(wèi)星快變遙測數(shù)據(jù)建模

2022-12-01 01:06:36張雪歡孫劍偉趙黛巖

計算機測量與控制 2022年11期

關(guān)鍵詞：方法模型

張雪歡，孫劍偉，趙黛巖

(中國電子科技集團公司第十五研究所，北京 100083)

0 引言

現(xiàn)代衛(wèi)星功能多、價值大，需要其具備提供高連續(xù)性服務的能力[1]。衛(wèi)星長期運行在距地面數(shù)百至數(shù)萬公里的真空、極溫、強輻射太空環(huán)境中。為了解其在軌工作狀態(tài)，及時發(fā)現(xiàn)問題，地面技術(shù)人員需要對采集的遙測數(shù)據(jù)進行分析[2]。

衛(wèi)星快變遙測數(shù)據(jù)包由該領(lǐng)域?qū)＜腋鶕?jù)衛(wèi)星有效載荷提取核心參數(shù)組成，數(shù)據(jù)包參數(shù)達到上百個，包含主備鐘狀態(tài)、各頻點功率測量值等，是判斷衛(wèi)星工作狀態(tài)的重要數(shù)據(jù)。因快變遙測數(shù)據(jù)復雜、數(shù)據(jù)量大，現(xiàn)有使用人工分析對快變遙測數(shù)據(jù)建模的方法存在效率較低的問題，而將機器學習算法引入快變遙測數(shù)據(jù)建模中，可以提高建模效率，為衛(wèi)星遙測數(shù)據(jù)分析和智能運維提供了參考。

目前，許多學者在衛(wèi)星遙測數(shù)據(jù)建模方面開展了大量研究。Xu[3]針對遙測數(shù)據(jù)值不平穩(wěn)和周期變化的特性，使用小波分析方法建立衛(wèi)星電壓、功率遙測值模型，并利用周期延拓的方法對模型進行完善，結(jié)果表明模型預測值和實際值吻合良好。Sazonov[4]使用國際空間站“曙光”功能艙近似遙測數(shù)據(jù)建立太陽能電池數(shù)學模型，可以在3～4%的誤差范圍預測發(fā)電量。張弓[5]建立基于改進SumSin的導航衛(wèi)星服務艙光學太陽反射鏡溫度模型，并對溫度趨勢進行預測，平均誤差在0.01 ℃左右。梅玉航[6]采用動態(tài)加權(quán)集成學習方法建立遙測數(shù)據(jù)模型，結(jié)合集成學習和多層感知機的算法提高了預測實時性。王旭[7]使用多種機器學習方法，建立星載銣鐘遙測參數(shù)模型，并使用模型對鎖定信號值進行預測，效果較好的模型均方差為5左右。但上述研究均只提取了少量遙測數(shù)據(jù)參數(shù)進行模型建立，對于包含大量參數(shù)(上百個)的高維遙測數(shù)據(jù)研究較少。同時，目前尚未有研究將機器學習算法應用到衛(wèi)星快變遙測數(shù)據(jù)建模中。本文擬將隨機森林算法應用于衛(wèi)星快變遙測數(shù)據(jù)回歸模型的建立，使用模型對某頻點功率測量值進行預測，采用R2值、預測誤差率等作為評估標準，結(jié)果顯示該模型擁有較好的預測效果，為衛(wèi)星快變遙測數(shù)據(jù)建模提供了一種可行方法，為人工智能在衛(wèi)星運維方面的應用提供思路。

1 隨機森林算法

隨機森林(random forest, RF)算法由Leo[8]在2001年提出，它是一種基于決策樹的集成學習方法。

決策樹是一種經(jīng)典的機器學習算法，作為一種樹模型，其樹狀結(jié)構(gòu)直觀、可解釋性強，被廣泛應用于數(shù)據(jù)分析領(lǐng)域[9]。常見的決策樹算法包括ID3(iterative dichotomiser 3)算法、C4.5算法和CART(classification and regression tree)算法，三種算法的主要區(qū)別在于節(jié)點分裂標準。ID3算法使用信息增益作為節(jié)點分裂標準，這種建樹方法較為簡單，但信息增益標準會偏袒取值較多的屬性。C4.5算法使用信息增益率作為節(jié)點分裂標準，這種方法避免了信息增益標準對取值較多屬性的偏好，但因其需要對數(shù)據(jù)集進行多次計算，導致算法效率較低。CART算法使用基尼系數(shù)作為節(jié)點分裂標準，這種方法通過建立二叉樹的方式簡化計算，效率較高。

雖然決策樹具有簡單直觀、可解釋性強等優(yōu)點，但其極易過擬合，為了解決這一問題，隨機森林算法應運而生。隨機森林算法可以使用多個決策樹共同完成學習任務，解決單一學習器訓練結(jié)果不準確、容易過擬合等問題，提高算法對噪聲的容忍度，擁有更好的泛化性能[10-11]。隨機森林可以用于解決分類和回歸兩種問題[12-13]。在解決分類問題時，隨機森林方法根據(jù)每棵樹的分類結(jié)果選擇多數(shù)作為最終結(jié)果；在解決回歸問題時，隨機森林方法則通過計算每棵樹預測值的平均值作為結(jié)果[14]。

本文主要使用隨機森林處理回歸問題，隨機森林回歸算法的基本原理為：首先，通過bootstrap抽樣在原始數(shù)據(jù)集中有放回地隨機抽取數(shù)據(jù)組成訓練樣本集，其中，需要保證訓練樣本容量與原始樣本容量一致，并且重復多次創(chuàng)建不同的訓練樣本集[15-16]。然后，根據(jù)抽取的訓練樣本集分別構(gòu)建決策樹，得到各決策樹的回歸結(jié)果。最后，對各決策樹的回歸結(jié)果計算均值得到最終結(jié)果。隨機森林回歸算法原理示意圖如圖1所示。

圖1 隨機森林回歸算法原理示意圖

隨機森林回歸算法的數(shù)學推導為：對原始數(shù)據(jù)集中自變量(輸入數(shù)據(jù))X和因變量(需預測輸出數(shù)據(jù))Y，假設(X,Y)的分布獨立，隨機在(X,Y)中抽取訓練樣本集K，預測結(jié)果設為g(X)，則其均方泛化誤差為：

EX,Y[Y-g(X)]2

(1)

假定有k顆決策樹，對k顆決策樹計算其預測值{g(K,Xk)}的均值得到隨機森林回歸的預測結(jié)果。當k→∞時，有下式：

(2)

式中,EX,Y[Y-EK(X,Kk)]2表示泛化誤差，記為PE**，當k趨近于無窮大時，每顆決策樹的泛化誤差記為PE*，PE*滿足：

PE*=EKEX,Y[Y-g(X,K)]2

(3)

其中:K滿足：

(4)

Y=Ekg(X,K)

(5)

2 數(shù)據(jù)處理及模型建立

2.1 數(shù)據(jù)描述

本實驗采用某衛(wèi)星于2022年2月21日18時至2022年2月21日22時，4小時內(nèi)產(chǎn)生的快變遙測數(shù)據(jù)。其中，數(shù)據(jù)采樣率為1條/秒，4小時內(nèi)共收集14 400條數(shù)據(jù)，每條數(shù)據(jù)包含103個特征，數(shù)據(jù)維度和數(shù)據(jù)量較大。

快變遙測數(shù)據(jù)以.csv的格式存儲，為了將數(shù)據(jù)讀入算法中，本文使用pandas包中pandas.read_csv()函數(shù)。該函數(shù)用法簡便，只需將原始數(shù)據(jù)的.csv格式文件的絕對路徑作為函數(shù)參數(shù)，便可將快變遙測數(shù)據(jù)存至pandas包中定義的DataFrame數(shù)據(jù)結(jié)構(gòu)中。DataFrame是一種二維數(shù)組，由索引和內(nèi)容組成，存入DataFrame后可以方便的使用Python中函數(shù)對數(shù)據(jù)進行分析處理。

需要注意的是，采樣得到的快變遙測數(shù)據(jù)值取自星上發(fā)送的原始數(shù)據(jù)值，部分數(shù)據(jù)值含有字符，直接進行數(shù)據(jù)處理會因字符型值無法轉(zhuǎn)換為數(shù)值型而出現(xiàn)錯誤，需要對快變遙測數(shù)據(jù)進行修正。含有字符的數(shù)據(jù)值存在三類情況：(1)原始數(shù)據(jù)值由十六進制數(shù)表示導致采樣數(shù)據(jù)值中含有字符，這類情況需要將十六進制數(shù)轉(zhuǎn)換為十進制數(shù)。(2)原始數(shù)據(jù)值包含字符用于分隔數(shù)據(jù)，在這類情況中，字符并無表示數(shù)據(jù)的實際意義，直接刪除即可。(3)快變遙測數(shù)據(jù)中部分參數(shù)為狀態(tài)參數(shù)，使用不同字符代表不同狀態(tài)，這類情況需要將不同字符轉(zhuǎn)化為離散數(shù)值，使用離散數(shù)值代表原始數(shù)據(jù)代表的不同狀態(tài)。

完成修正后將數(shù)據(jù)按照10 000條和4 400條劃分為訓練集和測試集，準備進行特征預處理。

2.2 特征預處理

2.2.1 野值剔除

在地面接收來自衛(wèi)星的遙測數(shù)據(jù)過程中，受天氣、磁場等多種環(huán)境因素作用，接收到的遙測數(shù)據(jù)可能與衛(wèi)星發(fā)送的數(shù)據(jù)產(chǎn)生較大偏差，這種數(shù)據(jù)被稱為野值。對衛(wèi)星遙測數(shù)據(jù)進行處理時，其數(shù)據(jù)準確性會直接影響遙測數(shù)據(jù)分析建模效果，如果數(shù)據(jù)中存在野值，容易造成誤判，為地面技術(shù)人員分析衛(wèi)星服務狀態(tài)增加干擾。

常見的野值剔除方法包括3σ準則、奈爾準則、53H準則等。本文使用53H準則進行野值剔除，其剔除方法為首先對數(shù)據(jù)值序列求兩次中值得到新的數(shù)據(jù)值序列。然后將新序列通過下式組合成參考值。

y(i)=0.25·xnew(i-1)+0.5·xnew(i)+

0.25·xnew(i+1)

(6)

最后，若有下式成立則當前值為野值，并用參考值替換。

|y(i)-x(i)|>t

(7)

在代碼實現(xiàn)上，本文利用Python的數(shù)據(jù)處理功能，循環(huán)遍歷所有數(shù)據(jù)值對所需的各類數(shù)據(jù)進行計算，得到參考序列，以此為標準進行野值剔除。

2.2.2 特征歸一化

衛(wèi)星快變遙測數(shù)據(jù)維度較高，其中包含多種有效載荷產(chǎn)生的不同類別特征，各個特征量綱不同、物理含義也不同，需要對數(shù)據(jù)進行歸一化，防止部分特征數(shù)量級較大導致特征對模型的影響大于其他特征，造成模型偏差變大，影響最終的模型效果。同時，歸一化操作還可以使模型收斂速度加快，提高模型構(gòu)建效率[17]。

歸一化方法有Min-Max歸一化、Sigmod歸一化等。本文使用Min-Max歸一化方法對快變遙測數(shù)據(jù)進行處理，其變換函數(shù)如式(8)：

(8)

由上述公式可知，Min-Max歸一化將數(shù)據(jù)中最大值和最小值作為映射標準，對原始數(shù)據(jù)進行線性變換。由于原始數(shù)據(jù)均不會超過最大值，因此可以將各個數(shù)據(jù)值等比例的映射至[0,1]的范圍，實現(xiàn)對原始數(shù)據(jù)的等比縮放。

在代碼實現(xiàn)上，本文選擇sklearn.preprocessing包中MinMaxScaler方法。需要注意的是，在對訓練集進行歸一化后，還需對測試集進行歸一化，否則將會因為訓練集、測試集特征數(shù)量級不一致導致使用測試集得到的預測值大幅度偏離真實值。同時，sklearn的MinMaxScaler方法使用fit_transform函數(shù)對訓練集進行歸一化，使用transform函數(shù)對測試集進行歸一化，保證訓練集、測試集的歸一化參數(shù)一致。如果對測試集也使用fit_transform函數(shù)會導致兩者歸一化參數(shù)不同、處理方式不同，從而對預測結(jié)果產(chǎn)生影響。

2.2.3 PCA降維

主成分分析(principal component analysis, PCA)是一種常用特征工程方法，PCA使用正交變換方法將原始變量轉(zhuǎn)換為不相關(guān)的變量，得到的一組新變量為主成分[18]。

維度較高的快變遙測數(shù)據(jù)直接建立模型可能會造成“維度災難”，而PCA可以將高維向量轉(zhuǎn)換為低維向量來解決問題。

在代碼實現(xiàn)上，本文選擇sklearn.decomposition包中PCA方法。參數(shù)選擇n_components=0.99、svd_solver=“full”。其中n_components影響降維后的特征維度，當n_components為正整數(shù)n時，PCA方法返回的特征維度為n；當n_components為[0-1]的浮點數(shù)時，PCA方法返回滿足保留n_components指定百分比的信息量的特征維度，并且此時svd_solver需要選擇“full”。本文使用PCA(n_components=0.99, svd_solver=”full”)函數(shù)對歸一化后的數(shù)據(jù)進行降維，處理后特征維度為18維，顯著降低了數(shù)據(jù)復雜度。

2.3 模型建立

建立基于隨機森林的衛(wèi)星快變遙測數(shù)據(jù)回歸模型，使用2.1節(jié)選取的快變遙測數(shù)據(jù)中某頻點功率測量值作為回歸模型預測值，快變遙測數(shù)據(jù)剩余參數(shù)作為輸入值，實現(xiàn)基于隨機森林的衛(wèi)星快變遙測數(shù)據(jù)某頻點功率測量值回歸預測模型，其主要步驟為：

1)衛(wèi)星快變遙測數(shù)據(jù)獲取。采用某衛(wèi)星產(chǎn)生的4小時快變遙測數(shù)據(jù)作為原始數(shù)據(jù)，并根據(jù)2.1節(jié)介紹的原始數(shù)據(jù)修正方法對數(shù)據(jù)進行修正。

2)訓練集與測試集劃分。將步驟1)中獲取的修正后原始數(shù)據(jù)按照10 000條和4 400條的比例劃分為訓練集和測試集。

3)數(shù)據(jù)預處理。首先將衛(wèi)星快變遙測數(shù)據(jù)集進行野值剔除，根據(jù)2.2.1節(jié)介紹的方法對野值進行處理。然后進行特征Min-Max歸一化處理，根據(jù)2.2.2節(jié)介紹的歸一化方法將原始數(shù)據(jù)等比映射至[0,1]范圍內(nèi)。最后進行PCA降維處理，根據(jù)2.2.3節(jié)介紹的PCA降維方法降低數(shù)據(jù)復雜度。

4)模型參數(shù)選取。針對隨機森林算法，對4.2節(jié)確定的重要參數(shù)n_estimators和max_depth通過改進的二次網(wǎng)格搜索方法循環(huán)遍歷所有候選參數(shù)，并通過3.1節(jié)介紹的評價指標優(yōu)選參數(shù)。

5)隨機森林回歸模型構(gòu)建。根據(jù)步驟4)選取的最優(yōu)參數(shù)，使用訓練集數(shù)據(jù)構(gòu)建隨機森林回歸模型。構(gòu)建模型時采用sklearn.ensemble包的RandomForestRegressor函數(shù)。

6)模型預測結(jié)果分析。將測試集數(shù)據(jù)輸入步驟5)構(gòu)建的隨機森林回歸模型，對某頻點功率測量值進行預測，使用3.1節(jié)的評價指標進行模型預測結(jié)果分析評價。

根據(jù)以上步驟，得到基于隨機森林的衛(wèi)星快變遙測數(shù)據(jù)回歸模型流程圖如圖2所示。

圖2 模型建立流程

3 實驗分析

為驗證基于隨機森林的衛(wèi)星快變遙測數(shù)據(jù)模型效果，使用Python語言和Jupyter Notebook開發(fā)工具進行實驗，參照2.3節(jié)所述流程建立對快變遙測數(shù)據(jù)中重要參數(shù)——某頻點功率測量值進行預測的回歸模型，再利用運行時間、誤差率等指標對預測效果進行評價，從而實現(xiàn)模型效果分析。實驗的主要步驟為：

1)數(shù)據(jù)處理。根據(jù)2.1節(jié)和2.2節(jié)方法使用Python庫獲取實驗所需數(shù)據(jù)，并依據(jù)建模和效果分析需求將數(shù)據(jù)劃分為訓練集和測試集。

2)回歸模型建立。使用1)中劃分的訓練集數(shù)據(jù)，運行Python中sklearn庫RandomForestRegressor函數(shù)，依據(jù)2.3節(jié)中構(gòu)建模型子流程建立訓練集數(shù)據(jù)回歸模型。

3)模型預測。使用2)中建立的回歸模型對1)中劃分的測試集數(shù)據(jù)進行預測。保存預測值準備進行模型評估。

4)模型評估。按照3.1節(jié)選取的評價指標，使用Python庫中time函數(shù)計算運行時間，可以代表當前模型在數(shù)據(jù)集上的效率；使用sklearn中score函數(shù)計算R2值，可以表示模型擬合時產(chǎn)生的偏差；使用sklearn中mean_absolute_error函數(shù)計算MAE值，表示不考慮方向的預測值平均誤差程度；使用Python庫計算誤差率及誤差率分布，可以直觀展示各預測值與其對應的真實值的偏差；繪制模型預測曲線。計算得到各評價指標結(jié)果后，根據(jù)結(jié)果對模型運行效率、模型預測誤差進行分析，評估回歸模型效果。

5)對比實驗及分析。通過對比實驗展示隨機森林回歸模型效果。采用默認參數(shù)隨機森林、邏輯回歸、K近鄰和多層感知機建立回歸模型，使用模型進行預測和效果評估，流程參照步驟2)～4)。模型單獨評估后，再根據(jù)評價指標對比各個模型預測情況，分析模型效果。

根據(jù)以上步驟，得到實驗流程圖如圖3所示。

圖3 實驗流程圖

3.1 評價指標

使用某頻點功率測量值作為回歸模型預測值，快變遙測數(shù)據(jù)剩余參數(shù)作為輸入值，利用3.2節(jié)選取的使用最優(yōu)參數(shù)的回歸模型對某頻點功率測量值進行預測，通過預測效果評價模型效果，預測效果指標如下。

3.1.1 運行時間

運行時間為各個模型使用訓練集進行擬合和模型使用測試集進行預測的時間?？梢源懋斍澳Ｐ驮跀?shù)據(jù)集上的效率。針對在軌衛(wèi)星數(shù)據(jù)分析這一場景，地面技術(shù)人員需要實時了解在軌衛(wèi)星服務狀態(tài)，以便對衛(wèi)星運行時的各類問題做出快速反應。同時，在數(shù)據(jù)處理方面，衛(wèi)星快變遙測數(shù)據(jù)采集間隔短，龐大的數(shù)據(jù)采集量要求研究人員盡可能提高數(shù)據(jù)分析處理效率，因此需要選擇能夠快速生成預測結(jié)果的模型。

基于以上要求，本文選取運行時間作為評價指標，通過計算模型在數(shù)據(jù)集上的運行時間，對模型效率進行表征，運行時間越短，表示模型在數(shù)據(jù)集上的效率越高。

在代碼實現(xiàn)上，選用Python中time函數(shù)，在模型開始擬合前運行time函數(shù)，并將其記錄在start變量中，當模型完成預測時再次運行time函數(shù)，并將其記錄在end變量中，二者做差便可得到運行時間。

3.1.2R2

R2，亦被稱為決定系數(shù)、可決系數(shù)，表示目標變量在回歸中被其他變量(解釋變量)擬合時產(chǎn)生的偏差。如果R2小于零，表示模型的預測效果非常差，如果R2大于零，則R2值越大，模型的預測效果越好[19-20]。

計算R2需要樣本的殘差平方和RSS(residual sum of squares)以及總平方和TSS(total sum of squares)，其公式如式(9)和(10)：

(9)

(10)

(11)

在sklearn中，預測模型的R2值可以通過模型的score函數(shù)得到，例如，針對隨機森林模型可以使用RandomForestRegressor.score(testx1, testy1)。其中，testx1為測試集輸入值，testy1為測試集真實值。

3.1.3 平均絕對誤差

平均絕對誤差(mean absolute error, MAE)源于平均誤差的度量，是真實值與預測值之差絕對值的和，可以表示不考慮方向的預測值平均誤差程度，通常用于評估回歸模型。

平均誤差的另一種形式是均方根誤差(root mean squard error, RMSE)，但在大多數(shù)情況下，MAE在測量平均模型精度方面優(yōu)于RMSE[21-22]，因此選擇MAE作為一種評價指標，其公式如(12)所示：

(12)

在sklearn中，預測模型的MAE可以通過metrics包mean_absolute_error函數(shù)得到。

3.1.4 誤差率

為更加直觀展示各預測值與其對應的真實值的偏差，除了3.1.3節(jié)所述平均絕對誤差外，本文還引入誤差率這一評估指標。通過計算預測值、真實值之差對真實值的比例，可以得到每個預測值的偏差程度，誤差率公式如(13)：

(13)

3.2 模型參數(shù)選擇

機器學習算法參數(shù)是在開始學習過程之前設置的參數(shù)，其對模型效果有較大影響。機器學習算法參數(shù)定義了關(guān)于模型的更高層次的概念，如復雜性或?qū)W習能力。針對隨機森林算法，重要的參數(shù)包括n_estimators和max_depth，分別代表隨機森林中基學習器的數(shù)量和基學習器的最大深度[23]。

為了建立效果較好的衛(wèi)星快變遙測數(shù)據(jù)隨機森林回歸模型，本文采用改進的二次網(wǎng)格搜索方法對上述兩個參數(shù)進行調(diào)優(yōu)。二次網(wǎng)格搜索方法設置兩次搜索循環(huán)，第一次循環(huán)時設置較大的參數(shù)搜索范圍，并設置較大的循環(huán)步長，可以在擴大搜索范圍的同時防止時間開銷過大。第二次循環(huán)時，通過第一次搜索得到的較優(yōu)參數(shù)縮小搜索范圍，并設置步長為1，從而得到最優(yōu)參數(shù)組合。二次網(wǎng)格搜索方法相比普通的網(wǎng)格搜索方法，通過一次大范圍大步長搜索和一次小范圍小步長搜索，顯著降低了網(wǎng)格搜索的時間開銷。

具體到本文模型，應用二次網(wǎng)格搜索，首先將n_estimators設置為范圍30～300、步長10，max_depth設置為范圍5～100、步長5，通過嵌套循環(huán)搜索每一種參數(shù)組合。分析結(jié)果，n_estimators為40和180、max_depth為5時均取得score=0.984、MAE=12.27，但n_estimators為180時運行時間為7.87 s，遠大于40時的1.9 s，因此將新范圍確定為n_estimators：30～50、max_depth：1～10，步長均為1，并再次進行嵌套循環(huán)。對第二次搜索結(jié)果進行分析，得到n_estimators為39、max_depth為3時有最優(yōu)結(jié)果score=0.984、MAE=12.25、運行時間1.09 s。因此最終確定基于隨機森林的快變遙測模型參數(shù)為n_estimators=39、max_depth=3。

3.3 模型預測結(jié)果分析

使用測試集數(shù)據(jù)分析模型效果，隨機選擇30對預測值和真實值畫出隨機森林模型的預測曲線，如圖4所示。

圖4 隨機森林模型預測曲線

同時，分析模型的預測誤差率，計算得到測試集4 400個數(shù)據(jù)中共有3 912個數(shù)據(jù)誤差率小于2%，并且最大誤差率不超過±5%。誤差率分布如表1所示。

結(jié)合score=0.984、MAE=12.25、運行時間1.09 s共四個評價指標可知，模型可以較好地預測某頻點功率測量值，且模型運行效率高。

表1 隨機森林模型預測誤差率及分布

上述模型使用改進二次網(wǎng)格搜索算法對模型進行了參數(shù)調(diào)優(yōu)，可以得到模型的最優(yōu)參數(shù)，提高模型預測效果。若不進行參數(shù)調(diào)優(yōu)，使用默認參數(shù)直接建模其誤差率如表2所示。

表2 默認參數(shù)隨機森林模型預測誤差率及分布

此外，使用默認參數(shù)的隨機森林模型score=0.97、MAE=12.33、運行時間39.46 s。由此可知，雖然其在預測誤差方面與經(jīng)過參數(shù)調(diào)優(yōu)的隨機森林模型差距較小，但默認參數(shù)隨機森林模型運行時間遠遠大于參數(shù)調(diào)優(yōu)后的模型。通過改進的二次網(wǎng)格搜索得到的最優(yōu)參數(shù)對模型運行效率有顯著提升，這對于提高衛(wèi)星快變遙測數(shù)據(jù)建模實時性具有一定意義。

除了隨機森林算法代表的裝袋算法，本文還選擇了機器學習中線性算法、非線性算法以及神經(jīng)網(wǎng)絡算法作為對比，具體方法為邏輯回歸、K近鄰、多層感知機。三種算法的誤差率如表3～5所示。

表3 邏輯回歸模型預測誤差率及分布

表4 K近鄰模型預測誤差率及分布

表5 多層感知機模型預測誤差率及分布

四種算法的score、MAE、運行時間對比如表6所示。

表6 四種算法的評價指標對比

對比發(fā)現(xiàn)，隨機森林算法在±2%以內(nèi)誤差率樣本數(shù)量、score和MAE三個指標上明顯好于邏輯回歸和K近鄰算法。同時，雖然多層感知機在誤差率、score和MAE方面較為接近隨機森林算法，但多層感知機的訓練時間長、效率不高，類似未經(jīng)參數(shù)調(diào)優(yōu)的隨機森林模型，多層感知機在遙測數(shù)據(jù)建模方面實時性較差，具有一定劣勢。因此隨機森林算法在衛(wèi)星快變遙測數(shù)據(jù)建模方面優(yōu)于其他幾種方法。

4 結(jié)束語

實現(xiàn)衛(wèi)星快變遙測數(shù)據(jù)建模有助于了解衛(wèi)星服務狀態(tài)，推動人工智能在衛(wèi)星運維中的應用。本文使用隨機森林算法建立衛(wèi)星快變遙測數(shù)據(jù)模型，對某頻點功率測量值進行預測，結(jié)果顯示模型預測效果較好、運行效率高。對比邏輯回歸、K近鄰和多層感知機算法，隨機森林算法在評價指標上具有明顯優(yōu)勢。然而，在實驗過程中多層感知機算法也表現(xiàn)出了極大的潛力。作為神經(jīng)網(wǎng)絡的一種基礎(chǔ)算法，多層感知機已有較好的效果，在未來的研究中應該重點關(guān)注神經(jīng)網(wǎng)絡算法在快變遙測數(shù)據(jù)建模上的應用，以期獲得更好的預測效果。