胡馬援,周逸秋,趙康僆,李文峰,方元
(南京大學(xué)電子科學(xué)與工程學(xué)院,江蘇 南京 210033)
由于具有高速率、大帶寬、高安全性、通信終端小型化等優(yōu)勢(shì),激光通信技術(shù)已經(jīng)在衛(wèi)星互聯(lián)網(wǎng)[1]、6G 天地一體化網(wǎng)絡(luò)[2]等系統(tǒng)發(fā)展過程中逐漸成為星間鏈路的主要形式之一。但是,由于激光通信在大氣傳輸過程中容易受到大氣層中云、霧、湍流等現(xiàn)象的影響,單一鏈路可靠性難以保障[3],因此,激光通信在星地鏈路應(yīng)用中面臨巨大挑戰(zhàn)。另一方面,隨著激光通信技術(shù)快速發(fā)展,通信速率已經(jīng)向Tbps 級(jí)別發(fā)展[4],而盡管基于Ka 等頻段的傳統(tǒng)微波鏈路受大氣傳輸影響較小,但是與激光通信相比,通信速率的差距將超過一個(gè)數(shù)量級(jí),因此,考慮到星間、星地鏈路速率匹配,傳統(tǒng)微波星地鏈路技術(shù)將越來越難以滿足未來星地骨干鏈路組網(wǎng)需求。如何利用低可用性的星地激光鏈路實(shí)現(xiàn)高可靠的星地骨干網(wǎng)絡(luò)成為未來衛(wèi)星互聯(lián)網(wǎng)、6G 天地一體化網(wǎng)絡(luò)發(fā)展面臨的一個(gè)關(guān)鍵技術(shù)問題。
如圖1 所示,地面站分集技術(shù)[5]利用大氣傳輸條件在空間尺度上的統(tǒng)計(jì)獨(dú)立性[6]提高星地鏈路可用性。如果進(jìn)一步考慮星間組網(wǎng),基于星地鏈路通信窗口的有效預(yù)測(cè),通過星地鏈路和星間網(wǎng)絡(luò)流量的合理調(diào)度,衛(wèi)星網(wǎng)絡(luò)就可以自主地適應(yīng)不斷變化的通信需求和環(huán)境條件。
圖1 星地鏈路地面站分集
星地激光通信受到大氣層中云、霧、大氣湍流等現(xiàn)象的干擾,從而出現(xiàn)大氣衰減效應(yīng),甚至鏈路中斷的情況。大氣干擾中,尤為常見的便是云團(tuán)干擾,一方面云團(tuán)的出現(xiàn)概率大,另一方面,云團(tuán)導(dǎo)致的信號(hào)的散射與吸收是最為嚴(yán)重的。因此,要確保星地骨干鏈路可靠組網(wǎng)性能,必須有效地對(duì)這些可能出現(xiàn)的干擾進(jìn)行預(yù)測(cè),并對(duì)鏈路進(jìn)行及時(shí)切換,以減少對(duì)通信質(zhì)量的負(fù)面影響。
Russell 團(tuán)隊(duì)在文獻(xiàn)[7]中提出了一種基于深度學(xué)習(xí)的云氣象預(yù)測(cè)方案,該研究以天氣預(yù)報(bào)系統(tǒng)的模式輸出結(jié)果作為數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,對(duì)低云區(qū)域云團(tuán)的有無進(jìn)行了預(yù)測(cè),結(jié)果表明可以實(shí)現(xiàn)80%的預(yù)測(cè)準(zhǔn)確率,并期望實(shí)現(xiàn)生成每個(gè)地區(qū)的綜合柱狀云決策,但其預(yù)測(cè)結(jié)果并未與星地激光通信的場(chǎng)景進(jìn)行結(jié)合;考慮到云阻塞的情況,文獻(xiàn)[8]中借助衛(wèi)星的長(zhǎng)期拍攝云圖結(jié)果,基于統(tǒng)計(jì)規(guī)律對(duì)分布在全球8 個(gè)地面站上空云層的月阻塞概率進(jìn)行計(jì)算,并結(jié)合8 個(gè)站點(diǎn)的分布特點(diǎn)進(jìn)行鏈路切換,結(jié)果表明在每月有云覆蓋概率率為70%的情況下,該網(wǎng)絡(luò)的可訪問性可達(dá)96%,但是這是在低軌星座、全球均建有地面站的條件下,因此結(jié)果不具備普適性;TAKAYAMA 等在文獻(xiàn)[9]中提出了一種基于深度學(xué)習(xí)的衛(wèi)星光通信智能地面站選擇算法,以一個(gè)裝有兩個(gè)通信終端的衛(wèi)星為實(shí)驗(yàn)平臺(tái),將包括云覆蓋、溫度、風(fēng)向等氣象在內(nèi)的數(shù)據(jù)集整體作為數(shù)據(jù)集,通過LSTM、SNN、支持向量機(jī)等神經(jīng)網(wǎng)絡(luò)分別進(jìn)行預(yù)測(cè),結(jié)果表明了LSTM 長(zhǎng)短期記憶網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,能夠較好地降低兩個(gè)通信終端的轉(zhuǎn)換次數(shù),但是由于氣象數(shù)據(jù)之間的相關(guān)性太過復(fù)雜,預(yù)測(cè)準(zhǔn)確率并不能得到保障,不能較好地解決鏈路臨時(shí)終端的問題。綜上所述,對(duì)于星地激光通信窗口中的云層覆蓋情況進(jìn)行準(zhǔn)確預(yù)測(cè),以更好地為鏈路切換方案提供決策依據(jù),具有較大的實(shí)際意義與理論價(jià)值。
本文首先分析了大氣傳輸條件對(duì)激光通信造成的不利影響,指出進(jìn)行云預(yù)測(cè)的重要性;然后結(jié)合相關(guān)的研究結(jié)果,分析了大氣中云團(tuán)對(duì)通信過程的干擾,以及可能造成的后果;接下來,總結(jié)了當(dāng)前常見的云預(yù)測(cè)方法與技術(shù),分析了隨機(jī)森林的方法在有云無云預(yù)測(cè)方面的優(yōu)異效果,并且對(duì)該場(chǎng)景下的云預(yù)測(cè)問題進(jìn)行了定義;然后較為詳細(xì)地闡明了基于隨機(jī)森林的云預(yù)測(cè)模型的實(shí)現(xiàn)過程;最后總結(jié)全文并提出對(duì)未來星地骨干鏈路可靠組網(wǎng)的展望。
由于星地激光通信過程中自由空間大氣信道的存在,大氣傳輸導(dǎo)致的衰減總是如影隨形。以云團(tuán)干擾為例,考慮一個(gè)簡(jiǎn)單的情形,如圖1 所示,一束狹窄的光在發(fā)射站發(fā)射,通過大氣傳輸,隨后在地面站接收。云層在地球的熱平衡中發(fā)揮作用,可以使到達(dá)地球表面的入射太陽輻射衰減,但在該情景中,會(huì)導(dǎo)致傳輸信號(hào)的衰減。云層導(dǎo)致的大氣效應(yīng)可以通過兩種機(jī)制使自由空間數(shù)據(jù)鏈路退化:(i)由于大氣衰減導(dǎo)致探測(cè)到的光功率水平降低;(ii)接收光束的隨機(jī)光功率波動(dòng)導(dǎo)致光束變形、閃爍效應(yīng)和光束漂移[10]。如果上述影響超過一定閾值,所有這些因素都可能對(duì)通信造成損害,嚴(yán)重影響系統(tǒng)性能和鏈路可用性。
在現(xiàn)今的研究中,鏈路可用性估計(jì)研究大多基于云覆蓋統(tǒng)計(jì),即通常來說,只要云圖中能觀測(cè)到確定性的云,或者云液態(tài)水含量(Cloud Liquid Water Content,CLWC)大于0,就認(rèn)為通信鏈路被阻塞[11],此外有研究表明,當(dāng)CLWC >0 時(shí),鏈路仍然可以運(yùn)行,但是通信質(zhì)量卻會(huì)嚴(yán)重下降,因此通常當(dāng)有云時(shí),便認(rèn)為是鏈路可用性下降。
因此,以云圖中獲取的云覆蓋率為標(biāo)準(zhǔn),如果對(duì)地面站上可能鏈路進(jìn)行有云無云的預(yù)測(cè),就可以實(shí)現(xiàn)對(duì)可能存在的干擾的預(yù)知,從而提前進(jìn)行鏈路規(guī)劃,或者及時(shí)進(jìn)行鏈路切換,保證星地骨干鏈路的可用性。
由于激光鏈路切換及切換后的數(shù)據(jù)重傳需要時(shí)間,因此對(duì)預(yù)測(cè)提前量具有較高的要求,只有在足夠的提前量時(shí),才可以進(jìn)行及時(shí)的鏈路切換與規(guī)劃。文獻(xiàn)[12] 分析了LEO 衛(wèi)星網(wǎng)絡(luò)中用戶的覆蓋時(shí)間,并推導(dǎo)出了預(yù)期的星間鏈路通信質(zhì)量允許的下限,并指出達(dá)到下限不切換可能造成鏈路容量50% 以上的下降;文獻(xiàn)[13] 中分析了衛(wèi)星動(dòng)態(tài)切換預(yù)測(cè)問題,解決了用戶移動(dòng)衛(wèi)星中多鏈路狀態(tài)變化的問題,并強(qiáng)調(diào)了鏈路切換時(shí)間對(duì)于切換預(yù)測(cè)準(zhǔn)確率的重要性;文獻(xiàn)[14]中借助地球靜止軌道EDRS-A 航天器的觀測(cè)衛(wèi)星進(jìn)行實(shí)驗(yàn),指出在大氣不穩(wěn)定的情況下,與衛(wèi)星的下行光束相關(guān)的鏈路自行切換時(shí)間為分鐘級(jí),但切換后數(shù)據(jù)量在1 GB 以上的數(shù)據(jù)重傳則通常需要2 到10 分鐘不等。綜上所述,鏈路切換與數(shù)據(jù)重傳耗費(fèi)的時(shí)間較大,對(duì)后續(xù)數(shù)據(jù)積壓造成的影響更為嚴(yán)重,因此云預(yù)測(cè)的提前量是否足夠長(zhǎng),對(duì)于鏈路的及時(shí)切換與規(guī)劃具有重要意義。
通過當(dāng)前的云覆蓋情況預(yù)測(cè)后一段時(shí)間的云覆蓋率,是很常見的一種時(shí)序預(yù)測(cè)。當(dāng)?shù)孛嬲就ㄟ^搜集過去一段時(shí)間內(nèi)的氣象信息并訓(xùn)練模型后,能夠?qū)ξ磥硪欢螘r(shí)間內(nèi),地面站上空可能存在通信鏈路的范圍內(nèi)云覆蓋情況進(jìn)行預(yù)測(cè),就有助于對(duì)激光鏈路通信質(zhì)量進(jìn)行提前判斷,從而為鏈路選取與切換提供決策依據(jù),盡可能避免在正常數(shù)據(jù)傳輸過程中的數(shù)據(jù)中斷。目前常見的云預(yù)測(cè)方法有三種,分別是數(shù)值預(yù)報(bào)法、統(tǒng)計(jì)分析法以及機(jī)器學(xué)習(xí)的方法。
氣象預(yù)測(cè)中的數(shù)值預(yù)報(bào)法是一種基于數(shù)學(xué)和物理模型的方法[15],用于模擬大氣的動(dòng)力學(xué)和熱力學(xué)過程,以預(yù)測(cè)未來一段時(shí)間內(nèi)的天氣和氣象條件。這種方法主要依賴于計(jì)算機(jī)模擬和大規(guī)模數(shù)據(jù)處理,被廣泛用于現(xiàn)代氣象學(xué)中,是氣象預(yù)測(cè)的核心技術(shù)之一。數(shù)值預(yù)報(bào)法通常用于短期天氣預(yù)報(bào)、中期氣象預(yù)報(bào),在民用領(lǐng)域應(yīng)用廣泛,在降水與大致天氣情況的預(yù)測(cè)上,平均準(zhǔn)確率可達(dá)80%以上。但是數(shù)值預(yù)報(bào)的預(yù)測(cè)結(jié)果多為氣象信息,在星地骨干激光通信窗口上的云預(yù)測(cè),更是很少直接用到數(shù)值預(yù)報(bào)法。
統(tǒng)計(jì)分析法是一種基于歷史氣象數(shù)據(jù)和統(tǒng)計(jì)技術(shù)的方法,用于推斷未來天氣和氣象條件。它不依賴于物理模型或數(shù)值模擬,而是在大量采集數(shù)據(jù)的基礎(chǔ)上,得到各種天氣屬性之間的相關(guān)性,然后利用統(tǒng)計(jì)學(xué)和數(shù)學(xué)相關(guān)原理進(jìn)行處理,得到氣象的長(zhǎng)期趨勢(shì)。因此該方法一般用于長(zhǎng)期趨勢(shì)預(yù)測(cè),時(shí)至今日,單純的統(tǒng)計(jì)分析法中擬合出的氣象特性,已經(jīng)不足以滿足各種氣象要求,在云預(yù)測(cè)方面的應(yīng)用則更少。
機(jī)器學(xué)習(xí)的方法,由于具有較為全面的數(shù)學(xué)和理論證明作為基礎(chǔ),在時(shí)序性預(yù)測(cè)方面具有較好的表現(xiàn),加上當(dāng)今硬件水平和GPU 算力的提升,機(jī)器學(xué)習(xí)的方法被越來越多研究者使用。在云預(yù)測(cè)領(lǐng)域,機(jī)器學(xué)習(xí)的方法主要有兩大思想被廣泛引用:神經(jīng)網(wǎng)絡(luò)和分類決策器。神經(jīng)網(wǎng)絡(luò)的方法是以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[16]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[17]等傳統(tǒng)模型及其變體為代表的,可以勝任圖像識(shí)別、自然語言處理、語音識(shí)別和預(yù)測(cè)等高難度任務(wù)的算法,可以實(shí)現(xiàn)云圖形狀、云圖變化趨勢(shì)、云層位置等云特性的預(yù)測(cè),但是該方法由于數(shù)據(jù)維度高、算法復(fù)雜度高,需要花費(fèi)大量的時(shí)間進(jìn)行模型的訓(xùn)練;而后者多用于更低維度的數(shù)值預(yù)測(cè)[18],比如有云、無云,多云、少云的預(yù)測(cè),因此在訓(xùn)練開銷上,比神經(jīng)網(wǎng)絡(luò)的方法低很多。
本文以確保星地骨干鏈路通信質(zhì)量為研究目的,提出了一種基于隨機(jī)森林的云預(yù)測(cè)方法,得益于隨機(jī)森林對(duì)數(shù)據(jù)噪聲的強(qiáng)容忍能力以及出色的分類能力,可以在較短的訓(xùn)練時(shí)間下,實(shí)現(xiàn)通信鏈路上有云無云的高準(zhǔn)度預(yù)測(cè)。
為進(jìn)一步明確星地骨干鏈路場(chǎng)景下的云預(yù)測(cè)問題,現(xiàn)對(duì)它進(jìn)行定義。給定一定時(shí)間內(nèi),特定經(jīng)緯度范圍內(nèi)的氣象數(shù)據(jù)用公式表示為:
以及對(duì)應(yīng)時(shí)刻的云覆蓋率:
值得強(qiáng)調(diào)的是,如圖2 所示,該處云覆蓋率的獲取范圍是結(jié)合地面站的可視范圍與星地鏈路位置特點(diǎn)決定的,由于同步衛(wèi)星與地面保持相對(duì)靜止,其與固定地面站的鏈路連接基本不會(huì)發(fā)生變化,這里考慮非同步衛(wèi)星,在與地面站連接的時(shí)候,可能發(fā)生從A 到B 的轉(zhuǎn)動(dòng),因此鏈路連線掃過的部分與云層可能出現(xiàn)的大氣層會(huì)存在一個(gè)公共區(qū)域,這個(gè)公共區(qū)域即為地面站對(duì)衛(wèi)星的可視區(qū)域。實(shí)驗(yàn)中選取了包含該區(qū)域在內(nèi)的正方形網(wǎng)格作為云層覆蓋的取樣范圍,通過近地氣象觀測(cè)衛(wèi)星中,遠(yuǎn)紅外成像儀的云圖觀測(cè)結(jié)果,當(dāng)取樣范圍內(nèi)有云存在的時(shí)候,令Ci=1;當(dāng)取樣范圍內(nèi)無云存在時(shí),令Ci=0。
圖2 云數(shù)據(jù)獲取區(qū)域示意圖
在此場(chǎng)景下,搭建并訓(xùn)練模型Γ,該模型可實(shí)現(xiàn)對(duì)未來某一時(shí)刻云覆蓋率的預(yù)測(cè)。用公式表示如下:
其中t即為預(yù)測(cè)提前量;需要強(qiáng)調(diào)的是,式(1)中云覆蓋率預(yù)測(cè)結(jié)果為二值輸出,即輸出結(jié)果為有云(1)或無云(0),考慮一個(gè)基本的切換場(chǎng)景,在t1時(shí)刻,某一地面站開始工作,云預(yù)測(cè)模型結(jié)合已有歷史數(shù)據(jù)創(chuàng)建的數(shù)據(jù)集對(duì)未來t1~t1+t時(shí)段內(nèi)地面站上空云覆蓋情況進(jìn)行預(yù)測(cè),若未來該段時(shí)間內(nèi)為無云狀態(tài),則無需進(jìn)行切換準(zhǔn)備或數(shù)據(jù)備份,若檢測(cè)到在時(shí)段內(nèi)從t2(t1<t2<t1+t)時(shí)刻開始有云覆蓋,則從t1~t2時(shí)段內(nèi)則需進(jìn)行鏈路切換準(zhǔn)備或數(shù)據(jù)備份。若將該地面站上空云預(yù)測(cè)的結(jié)果與其他地面站集合的預(yù)測(cè)結(jié)果進(jìn)行結(jié)合做出綜合切換策略,則有助于保持整網(wǎng)激光鏈路的通信容量避免大多數(shù)的云層中斷,從這個(gè)場(chǎng)景中,也可以明顯地發(fā)現(xiàn)預(yù)測(cè)提前量t與時(shí)間分辨率的重要性,這對(duì)鏈路切換是否及時(shí),地面站決策是否有效,會(huì)有很大影響,這兩大參量的設(shè)置,將在下文預(yù)測(cè)模型部分重點(diǎn)介紹。
隨機(jī)森林(Random Forest)[19]是一種強(qiáng)大的集成學(xué)習(xí)算法,通常用于解決分類和回歸問題。它是由美國(guó)的Leo Breiman 等人于20 世紀(jì)90 年代提出的。隨機(jī)森林的基本組成單元,又稱基學(xué)習(xí)器,是決策樹,大量的決策樹通過一定的方式隨機(jī)結(jié)合,就形成了隨機(jī)森林。下面將重點(diǎn)介紹決策樹以及隨機(jī)森林的構(gòu)建過程。
決策樹 (decision tree)是一種基于樹狀結(jié)構(gòu)的分類和回歸模型,它可以反映對(duì)象屬性和對(duì)象值之間存在的映射關(guān)系,是機(jī)器學(xué)習(xí)中的一種常見的預(yù)測(cè)模型。如下圖3 所示:
圖3 決策樹模型
它采用樹狀結(jié)構(gòu)來對(duì)數(shù)據(jù)進(jìn)行決策和預(yù)測(cè),主要由根節(jié)點(diǎn)、葉子節(jié)點(diǎn)、內(nèi)部結(jié)點(diǎn)與決策路徑組成[20],根節(jié)點(diǎn)處包含了待分類的數(shù)據(jù)集整體,而內(nèi)部結(jié)點(diǎn)對(duì)應(yīng)的是不同的決策依據(jù)及決策后被分到該節(jié)點(diǎn)的數(shù)據(jù),葉子節(jié)點(diǎn)對(duì)應(yīng)的就是最后的預(yù)測(cè)結(jié)果或類別。
由上述描述可知,決策樹的組成成分都是相似的,但是要想形成具有不同特性的決策樹,從而集合成具有較好泛化能力的隨機(jī)森林,則需要通過隨機(jī)采樣的思想來構(gòu)建決策樹。
在集成學(xué)習(xí)中,隨機(jī)采樣的思想又被稱為“Bagging算法”[21],即不加區(qū)分地從數(shù)據(jù)集中隨機(jī)抽取樣本并放回,當(dāng)抽取次數(shù)足夠多時(shí),這些樣本便用來作為一個(gè)基本單元的訓(xùn)練,隨機(jī)森林中的的基本單元即為決策樹,這樣經(jīng)過不同輪次的抽樣與訓(xùn)練,便可以得到具有不同分類特性的決策樹,當(dāng)這些決策樹集合到一起進(jìn)行投票分類時(shí),降低了單棵決策樹的錯(cuò)誤率,便能夠適應(yīng)具有不同特性的數(shù)據(jù),從而提高整體的魯棒性。
綜上所述,決策樹的特性可以在很大程度上決定隨機(jī)森林的整體性能,但即使每棵決策樹都有較好的性能,把它們簡(jiǎn)單地歸總到一起,并不一定能發(fā)揮很好的作用,還牽涉決策樹有多少分支,決策樹兩兩之間如何聯(lián)合決策等問題,并不是單純進(jìn)行是與否的分類就可以實(shí)現(xiàn)最好的效果;數(shù)據(jù)集的選取也是為了預(yù)測(cè)結(jié)果能夠更好地為激光鏈路服務(wù),通信過程中的特定場(chǎng)景都應(yīng)該在數(shù)據(jù)預(yù)處理階段進(jìn)行考慮,還可以有效避免冗余數(shù)據(jù),降低殘缺值對(duì)模型的影響。因此數(shù)據(jù)集的選取以及模型的超參數(shù)優(yōu)化是不可或缺的兩個(gè)步驟,下面將進(jìn)行重點(diǎn)介紹。
數(shù)據(jù)集的選取反映了數(shù)據(jù)是否具有代表性,與云覆蓋率相關(guān)的氣象參數(shù)有很多,但是選取過多容易導(dǎo)致過擬合。在氣象學(xué)中,在研究云量預(yù)測(cè)問題時(shí),根據(jù)數(shù)值預(yù)報(bào)系統(tǒng)獲取的數(shù)值特性,可以按照海拔高度分為地表氣象、高空3D 氣象和反演氣象三類氣象參數(shù)[7],文獻(xiàn)[22]中結(jié)合歐洲中期預(yù)報(bào)系統(tǒng)的氣象數(shù)據(jù)的統(tǒng)計(jì)規(guī)律,列出了用于診斷云量的參數(shù)列表,包括地表溫度、濕度、風(fēng)速以及高空的垂直氣象等,結(jié)合該研究結(jié)果來較為全面的概括對(duì)云量影響較大的因素。
如下圖4 所示,這些氣象參數(shù)在隨機(jī)森林模型中,就被稱為預(yù)測(cè)因子,其中地表預(yù)測(cè)因子包括了地表的溫度、濕度、風(fēng)速等;高空3D 預(yù)測(cè)因子包括了不同氣壓高度的露點(diǎn)溫度以及相對(duì)濕度,而反演預(yù)測(cè)因子則對(duì)應(yīng)了反演的云頂高度。每一個(gè)時(shí)刻的上述三類預(yù)測(cè)因子都屬于式(1)中Pi,對(duì)應(yīng)時(shí)刻的云覆蓋率即為ci;實(shí)驗(yàn)從江蘇省氣象數(shù)據(jù)中心的數(shù)據(jù)庫(kù)中選取了2022 年1 月至12 月,每30 分鐘一組,共17 426 組數(shù)據(jù)。
圖4 預(yù)測(cè)因子分類
值得強(qiáng)調(diào)的是,這里相鄰兩條數(shù)據(jù)之間的時(shí)間間隔即為數(shù)據(jù)集的時(shí)間分辨率,也是能決定最后預(yù)測(cè)模型在時(shí)序預(yù)測(cè)時(shí)的精度的參量,足夠高的預(yù)測(cè)精度可以很好地保證鏈路切換的及時(shí)性,減少因提前切換而導(dǎo)致的資源浪費(fèi)或滯后切換導(dǎo)致的鏈路臨時(shí)中斷的現(xiàn)象,因此這里選取了數(shù)據(jù)中心所能提取的最大精度,即30 分鐘,另一方面也可以確保數(shù)據(jù)量足夠大,提高模型對(duì)于數(shù)據(jù)的擬合能力。與大多數(shù)工程設(shè)計(jì)相同,對(duì)于幾萬至幾十萬的數(shù)據(jù)量,本實(shí)驗(yàn)中按照訓(xùn)練集:測(cè)試集:驗(yàn)證集=7:2:1的比例進(jìn)行分割。
結(jié)合機(jī)器學(xué)習(xí)模塊搭建好基本的隨機(jī)森林模型后,將分割好的數(shù)據(jù)集進(jìn)行輸入,即可對(duì)模型進(jìn)行訓(xùn)練。隨機(jī)森林的模型訓(xùn)練,關(guān)鍵在于超參數(shù)的優(yōu)化,即對(duì)隨機(jī)森林中的決策樹進(jìn)行剪枝,對(duì)決策樹的數(shù)量、深度進(jìn)行有效的控制[23],避免模型的過擬合和欠擬合。
隨機(jī)森林的超參數(shù)有很多,但是對(duì)于隨機(jī)森林的性能影響比較大的,通常有決策樹的數(shù)量等六大超參數(shù),其作用如表1 所示,不同特性的數(shù)據(jù),單個(gè)超參數(shù)的取值以及不同超參數(shù)的相互組合關(guān)系都是不同的,超參數(shù)的優(yōu)化,本質(zhì)就是從所有可能的超參數(shù)組合中找到表現(xiàn)最好的組合,從而確保隨機(jī)森林中決策樹的枝葉之間關(guān)系的融洽性。這里由于不確定氣象因子之間的相關(guān)性強(qiáng)弱關(guān)系,對(duì)六種超參數(shù)的預(yù)先設(shè)置只能廣,而不能精,否則容易導(dǎo)致忽視部分重要超參數(shù)數(shù)值。實(shí)驗(yàn)中,不同超參數(shù)選項(xiàng)用數(shù)組表示分別為[100,200,300,400,500,600,700,800,900,1 000],[2,7,12,18,23,28,34,39,44,50],[2,7,12,18,23,28,34,39,44,50],[log2,sqrt],[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],[False,True]時(shí),便有很多種可能,那么如何高效遍歷這些超參數(shù),就顯得十分重要。
表1 決策樹超參數(shù)
這里使用隨機(jī)搜索和網(wǎng)格搜索方法進(jìn)行兩輪優(yōu)化,即可得到較好的結(jié)果。第一輪隨機(jī)搜索,其基本思想就是從預(yù)先設(shè)定的超參采樣空間中,隨機(jī)選取不同的組合,當(dāng)隨機(jī)選取的組合數(shù)量達(dá)到人為設(shè)定的閾值后,即停止遍歷,將當(dāng)前遍歷過的所有組合進(jìn)行打分。比如設(shè)定的閾值是350 次,那么就會(huì)迭代350 次,并對(duì)350 次中不同超參數(shù)進(jìn)行打分。
第二輪網(wǎng)格搜索,就是在第一輪的打分結(jié)果中,選取得分較高的超參數(shù)作為新的超參數(shù)選項(xiàng),由于這些超參數(shù)已經(jīng)是表現(xiàn)較好的,所以進(jìn)行窮盡遍歷,每種情況都進(jìn)行運(yùn)算。比如在第一輪優(yōu)化中被評(píng)為高分的超參數(shù)依次為:[300,500,600,700],[12,18,28,50],[28,34,39,44,50],[log2],[2,3,4,9,10,11,14,15],[False],那么在這一輪優(yōu)化中,需要迭代4×4×5×1×8×1=640 次。由此可知經(jīng)過兩輪超參優(yōu)化,迭代次數(shù)為1 000 次以上,并且這個(gè)次數(shù)會(huì)隨著數(shù)據(jù)量的上升而改變,所以可以找到最優(yōu)的超參數(shù)組合;之所以在超參數(shù)優(yōu)化后能提高預(yù)測(cè)準(zhǔn)確率,是因?yàn)橥ㄟ^調(diào)整超參數(shù)和引入隨機(jī)性,可以更好地控制模型的復(fù)雜性,減小過擬合風(fēng)險(xiǎn),并且通過集成多個(gè)樹的預(yù)測(cè)結(jié)果,提高了模型的穩(wěn)定性和泛化能力。
經(jīng)過兩輪優(yōu)化后,就可以得到表現(xiàn)最好的超參數(shù)組合,如下圖5 所示,可以體現(xiàn)在經(jīng)過兩輪優(yōu)化后,預(yù)測(cè)的準(zhǔn)確率提升的過程。
圖5 模型優(yōu)化準(zhǔn)確率對(duì)比
由圖5 可知,首先對(duì)于任意一類的預(yù)測(cè)因子,從基本模型到后續(xù)的兩輪優(yōu)化后,預(yù)測(cè)準(zhǔn)確率均會(huì)有3%~12%的提升,且從基本模型到一輪優(yōu)化后提升地更為明顯,這是可以預(yù)見的,因?yàn)槌瑓?shù)優(yōu)化可以從根本上改變簡(jiǎn)單組合的決策樹之間的簡(jiǎn)單關(guān)系;其次橫向?qū)Ρ炔煌念A(yù)測(cè)因子,選取不同類型的預(yù)測(cè)因子,預(yù)測(cè)準(zhǔn)確率會(huì)有輕微差異,因?yàn)椴煌A(yù)測(cè)因子與云量的相關(guān)程度是不同的,地表預(yù)測(cè)因子到高空3D 預(yù)測(cè)因子再到所有預(yù)測(cè)因子,與云量的相關(guān)性是遞增的,因此其預(yù)測(cè)準(zhǔn)確率也是遞增趨勢(shì);而經(jīng)過超參數(shù)優(yōu)化,準(zhǔn)確率最佳可達(dá)92%,這一結(jié)果作為星地激光通信中鏈路切換的決策依據(jù)還是相當(dāng)可靠的。
最后,正如上文所說,云預(yù)測(cè)的提前量與精度對(duì)于鏈路切換具有關(guān)鍵影響,因此本實(shí)驗(yàn)在不同的提前量與預(yù)測(cè)精度下進(jìn)行了實(shí)驗(yàn),結(jié)果如圖6 所示,結(jié)果表明,預(yù)測(cè)提前量在8~12 h 時(shí)普遍具有較高的準(zhǔn)確率,預(yù)測(cè)提前量在16 h 以上時(shí),預(yù)測(cè)準(zhǔn)確率會(huì)發(fā)生明顯下降;而考慮到鏈路切換的時(shí)效性問題,模型最好的效果是在提前量12 h,時(shí)間分辨率30 分鐘的情況下。
圖6 預(yù)測(cè)準(zhǔn)確率隨預(yù)測(cè)提前量和時(shí)間分辨率變化關(guān)系
星地激光骨干鏈路可靠組網(wǎng)是衛(wèi)星互聯(lián)網(wǎng)、6G 天地一體化網(wǎng)絡(luò)發(fā)展的重要方向。若能有效保證星地骨干鏈路的可靠性連接與高速率通信,將為星地激光骨干鏈路可靠組網(wǎng)的穩(wěn)定性、交互數(shù)據(jù)的完整性、傳輸?shù)臏?zhǔn)確性以及安全性提供保障。從已有的研究出發(fā),對(duì)通信鏈路上可能出現(xiàn)的云層干擾進(jìn)行高效預(yù)測(cè),有助于提前進(jìn)行鏈路的規(guī)劃,在很大程度上降低了通信過程中因鏈路中斷或信道衰減導(dǎo)致的傳輸壓力,為星地激光骨干鏈路可靠組網(wǎng)發(fā)揮作用。