陳偉鑫, 付松*, 郭德宇, 童湘源, 郭英杰, 曹興,馬新, 王市委, 倪彬彬,2
1 武漢大學電子信息學院空間物理系, 武漢 4300722 中國科學院比較行星學卓越創(chuàng)新中心, 合肥 230026
太陽風是地球空間環(huán)境的重要能量和物質來源(Baker, 2005; Schwenn, 2006),對地球空間天氣和地磁活動變化起著重要的驅動作用(Tsurutani et al., 2006).獲知連續(xù)準確的太陽風變化情況,構建相應的太陽風參數(shù)數(shù)據(jù)集,既對研究地球空間環(huán)境和空間天氣存在重要意義(Hapgood, 2011),也是空間環(huán)境和空間天氣建模的重要問題.一方面,太陽風與空間天氣事件存在著密切聯(lián)系(Dai et al., 2021),例如太陽風的共轉相互作用區(qū)(Corotating Interaction Regions, CIRs)作用于地球磁層會導致磁暴(Smith and Wolfe, 1976; Tsurutani et al., 2006),并引起電離層擾動(Kotov et al., 2019),進而影響短波通訊等.另一方面,太陽風參數(shù)可作為空間天氣模型的驅動用于研究地球空間環(huán)境的演化機理(O′Brien et al., 2001; Chu et al., 2021),如McPherron等(2015)利用太陽風參數(shù),通過線性預測濾波器對約四個太陽周期(1966—2014年)中的AL(Auroral Lower)指數(shù)實現(xiàn)了68.3%的平均有效預測.由于早期觀測手段的局限、在軌衛(wèi)星壽命的限制以及極端空間天氣事件的影響,導致太陽風參數(shù)的數(shù)據(jù)集并不連續(xù),因此需要對歷史數(shù)據(jù)進行重構,補全數(shù)據(jù)集的缺少部分.同時,由于太陽風參數(shù)對地球空間環(huán)境演化和災害性空間天氣的重要影響,使得對其進行準確快速的預測也變得至關重要.
對于研究太陽風變化而言,太陽風速度、動壓、磁場等參數(shù)是用來描述太陽風特性的關鍵參數(shù).以太陽風速度為例,多年來科學家已經(jīng)開展深入廣泛的研究來對其進行重構和預測(Wang and Sheeley, 1990; Arge and Pizzo, 2000; Odstrcil, 2003; Owens and Riley, 2017; Kumar and Srivastava, 2022; Sun et al., 2021, 2022).在重構太陽風速度方面,Kondrashov等(2014)借助奇異譜分析(Singular Spectrum Analysis, SSA)方法重構了1972—2013年的L1點處的太陽風速度;針對1989年3月有數(shù)據(jù)記載以來的最強磁暴事件(Dstmin=-589 nT),Kataoka和Nakano(2021)基于回聲狀態(tài)網(wǎng)絡(Echo State Network, ESN)方法重構了該事件中L1點處的太陽風速度,其再現(xiàn)的峰值達到了~1600 km·s-1.目前針對太陽風速度的預測建模方法則主要包括:(1)基于磁流體力學(Magnetohydrodynamic, MHD)的物理建模(Zhou and Feng, 2017; Shen et al., 2018; Guo et al., 2021);(2)基于統(tǒng)計的經(jīng)驗或半經(jīng)驗建模(Bussy-Virat and Ridley, 2014);(3)基于機器學習(包括神經(jīng)網(wǎng)絡建模)的經(jīng)驗建模(Yang et al., 2018).Owens等(2008)針對1995—2002年太陽風速度進行預測,構建并對比了經(jīng)驗模型、物理模型、經(jīng)驗和物理混合模型,其中經(jīng)驗模型性能最佳.Shen等(Shen et al., 2009, 2022; Yang and Shen, 2019)則采用物理模型、統(tǒng)計模型和機器學習多種模型結合,對太陽風參量的相關特性和預測技術開展了深入研究,提出的HISS (Hybrid Intelligent Source Surface) 模型,能夠準確預測出2007—2016年中68.2%的太陽風速度高速增強(High Speed Enhancements, HSEs)事件(Yang et al., 2018).
雖然科學家對太陽風速度重構和預測的研究工作已經(jīng)取得了重要進展,但該領域仍存在以下問題值得進一步討論:一方面,我們參考OMNI網(wǎng)站數(shù)據(jù)的說明(https:∥omniweb.gsfc.nasa.gov/html/ow_data.html#pla_source),發(fā)現(xiàn)作為太陽風數(shù)據(jù)主要來源的WIND衛(wèi)星(Ogilvie et al., 1995; Kasper et al., 2002)和ACE衛(wèi)星(Chiu et al., 1998; McComas et al., 1998),在軌工作時間分別超過27年和25年,盡管存在其他衛(wèi)星可以間歇性地提供太陽風數(shù)據(jù)(Zhang A et al., 2022; Zhang D et al., 2022),但是目前國際上仍未有可替代WIND和ACE衛(wèi)星的用于專門探測日地L1點處太陽風速度的衛(wèi)星計劃.因此,為了構建的太陽風速度重構和預測模型在極端空間天氣中可以正常使用,并能利用模型將太陽風觀測數(shù)據(jù)拓充到更久遠的歷史時間,我們的輸入數(shù)據(jù)只使用了地面觀測數(shù)據(jù).另一方面,人類從1963年開始記錄L1點處的太陽風速度數(shù)據(jù),但尚未有研究工作利用1963年至今的連續(xù)數(shù)據(jù)集對太陽風速度進行重構和預測.針對以上問題,我們利用1963—2018年期間共10萬組3 h分辨率的太陽風速度構建數(shù)據(jù)集,以地面觀測數(shù)據(jù)為模型輸入,采用數(shù)據(jù)隨機分塊,以及特征選取技術和交叉驗證法,對數(shù)據(jù)集進行預處理.為了比較和驗證模型的結果,我們使用機器學習方法中重要且常用的人工神經(jīng)網(wǎng)絡(Artificial Neural Network, ANN)和隨機森林(Random Forest, RF)兩種算法對太陽風速度進行重構與提前3 h預測.
本文結構安排如下:在第1節(jié)中,我們介紹使用的機器學習模型、數(shù)據(jù)來源和數(shù)據(jù)集預處理方法;在第2節(jié)中,我們首先給出模型在測試集中重構與預測太陽風速度的結果,其次,對2015年最大的3個強磁暴事件中的太陽風速度進行重構和預測,最后,將測試集分為5類地磁活躍條件,對比分析模型的性能;在第3節(jié)中我們對機器學習建模的結果進行分析總結.
圖1 模型示意圖(a) 人工神經(jīng)網(wǎng)絡; (b) 隨機森林.
隨機森林是另外一種常見且重要的機器學習算法,它能夠快速給出輸入數(shù)據(jù)在模型中的重要性等級(Breiman et al., 1984).在本文中,該算法除了被用于構建模型與人工神經(jīng)網(wǎng)絡的模型做比較分析之外,還被作為特征選取技術對模型的輸入數(shù)據(jù)進行篩選.隨機森林的基本單位是決策樹,通過集成學習的思想將多顆決策樹融合起來得到一個更加準確和穩(wěn)定的結果,本文所構建的隨機森林模型主要對算法中的決策樹數(shù)目和最大深度數(shù)進行了篩選.算法結構見圖1b.
本文選擇Kp(Kennziffer Planetarische)指數(shù)、Dst(Disturbance Storm Time)指數(shù)和AE(Auroral Electrojet)指數(shù)、太陽電磁輻射強度F10.7(10.7 cm solar radio flux)以及太陽黑子數(shù)R作為模型的輸入數(shù)據(jù),這些數(shù)據(jù)均由地面觀測得到,其中Kp指數(shù)是衡量地球磁場擾動的最廣泛使用的指標之一,由13個位于北緯44°至南緯60°之間的地磁觀測站所測量的K(Kennziffer)指數(shù)(Bartels, 1938, 1939)進行三小時平均標準化得到(Bartels, 1949).Dst指數(shù)和AE指數(shù)是評估地磁活動的重要指標,Dst指數(shù)由四個低緯度地磁觀測站所測量的磁場H分量進行一小時平均得到(Sugiura, 1964),AE指數(shù)由極光帶中12個地磁觀測站測量的每小時電急流強度的最大正變化和最大負變化的絕對值進行相加得到(Davis and Sugiura, 1966).F10.7和R是評估太陽活動強度和周期的重要指標,F10.7由加拿大蓬蒂克頓的DRAO(Dominion Radio Astrophysical Observatory)觀測臺在當?shù)刂形鐪y量以10.7 cm波長為中心的100 MHz帶寬內太陽射電發(fā)射強度所得到(Tapping, 2013),R由比利時SILSO(Sunspot Index and Long-term Solar Observations)中心通過測量太陽黑子群數(shù)量和單個黑子數(shù)量所得到(Friedli, 2016; Veronig et al., 2021).本文以L1點處的太陽風速度數(shù)據(jù)作為實測值與模型的輸出值進行比較分析.上述數(shù)據(jù)均來自于NASA的OMNIWeb(https:∥omniweb.gsfc.nasa.gov/ow.html)數(shù)據(jù)庫(King and Papitashvili, 2005).數(shù)據(jù)集時間范圍為1963年11月28日至2018年6月30日,分辨率為3 h.
我們首先以Kp、Dst、AE、F10.7和R作為模型輸入數(shù)據(jù)集.本文以Maggiolo等(2017)研究地磁指數(shù)與太陽風相關性時所選擇的時間區(qū)間為依據(jù),若輸出為t天k時太陽風速度,則輸入數(shù)據(jù)的時間范圍為[t-4天k時,t+4天k時].為避免時間序列數(shù)據(jù)集發(fā)生數(shù)據(jù)泄露,我們以27天為一個數(shù)據(jù)塊將數(shù)據(jù)集進行劃分(Guo et al., 2022; 郭英杰等, 2022),并按照70%、15%、15%將數(shù)據(jù)塊隨機劃分為訓練集(Training set)、驗證集(Validation set)和測試集1(Test set 1).將近10年來太陽活動最劇烈、磁暴事件發(fā)生最多的2015年(全年共發(fā)生94場磁暴,且2012—2017年間最大的3個強磁暴事件均發(fā)生在2015年)單獨作為測試集2(Test set 2),以這3個強磁暴事件來驗證模型在極端情況下的重構和預測效果.為驗證太陽27天自轉周期是否對重構與預測模型產生影響,我們將太陽自轉周期也作為輸入數(shù)據(jù)之一,并以1963年12月2日(數(shù)據(jù)集中對太陽風速度開始記錄的日期)作為27天周期的第1天,例如,某組輸入數(shù)據(jù)是在某個太陽自轉周期中的第12天測量記錄的,則在該組輸入數(shù)據(jù)中,所輸入的太陽自轉周期信息為12.在后文中我們使用Training set (T)、Validation set (T)、Test set 1(T)、Test set 2(T)、ANN(T)和RF(T)代指輸入數(shù)據(jù)中含有太陽自轉周期信息.
為避免模型過擬合并增強模型的泛化性,我們采用交叉驗證方法(Schaffer, 1993; Shao, 1993)將訓練集和驗證集等比例劃分為10份,并將其中1份作為新的驗證集,其余作為新的訓練集(Guo et al., 2021).經(jīng)過以上處理,太陽風速度在各數(shù)據(jù)集中的分布如表1所示.
表1 太陽風速度在各數(shù)據(jù)集中的分布
我們采用均方根誤差(Root Mean Square Error, RMSE)和相關系數(shù)(Correlation Coefficient,CC)對模型性能進行評估,公式如下:
(1)
(2)
以上兩式中Vswobs,i表示數(shù)據(jù)集中第i組太陽風速度的觀測值,而Vswmod,i表示模型的第i組輸出值,Vswobs,mean和Vswmod,mean分別表示觀測值的均值和模型輸出值的均值.本文中CC也被作為特征選取技術用于輸入數(shù)據(jù)的篩選.
(3)
(4)
其中C1和C2分別為N1和N2的樣本量,Ok1,mean和Ok2,mean分別為Ok在N1和N2中的均值.再計算節(jié)點N上的方差σ2:
(5)
其中C為N的樣本量,Ok,mean為Ok在N中的均值.由于輸入特征I在N節(jié)點分裂為N1和N2,使得隨機森林模型減少的不純度(Impurity)為
(6)
輸入特征I使模型減少的不純度越多,即代表I對于模型越重要,針對輸入數(shù)據(jù)集合X中其余輸入特征,隨機森林重復上述步驟,即可計算出輸入數(shù)據(jù)集合X中的每一個輸入特征使模型減少的不純度,最終計算出每一個輸入特征在模型中的重要性等級.
為對比特征選取前后模型性能的變化,本節(jié)先利用表1中的訓練集,結合1.3節(jié)中所選的輸入數(shù)據(jù)時間范圍:[t-4天k時,t+4天k時],對人工神經(jīng)網(wǎng)絡和隨機森林模型進行訓練,并在驗證集中,我們通過計算模型輸出值與太陽風速度觀測值的均方根誤差和相關系數(shù),選擇均方根誤差較小和相關系數(shù)較高的模型作為本節(jié)使用的模型.圖2a所示,展示了重構模型在驗證集上的均方根誤差,其中ANN和ANN(T)模型隱藏層1節(jié)點數(shù)均為73,隱藏層2節(jié)點數(shù)均為18;RF和RF(T)模型的決策樹數(shù)目均為474,最大深度均為569.x軸表示通過交叉驗證法得到的10個模型,y軸表示模型在各自驗證集上的均方根誤差;圖2(b—e)展示了測試集1中太陽風速度重構的結果,其中x軸表示太陽風速度觀測值,y軸表示重構值.
圖2 模型的性能評估(a) 人工神經(jīng)網(wǎng)絡和隨機森林在驗證集上的均方根誤差; (b—e) 測試集1中太陽風速度重構的散點圖.
由圖2(b—e)可知,輸入數(shù)據(jù)不含太陽自轉周期時(含太陽自轉周期時),人工神經(jīng)網(wǎng)絡模型在測試集1上的相關系數(shù)CC=0.84(0.84),均方根誤差RMSE=58.04 km·s-1(57.85 km·s-1);當模型為隨機森林時,CC=0.82(0.82),RMSE=62.51 km·s-1(62.52 km·s-1).由上述結果可知,人工神經(jīng)網(wǎng)絡重構模型在測試集1中有更好的性能,太陽自轉周期對模型性能無明顯影響.
為有效去除冗余的輸入,降低計算成本,本節(jié)利用1.5節(jié)中的特征選取技術對輸入數(shù)據(jù)進行篩選.圖3a展示了輸入數(shù)據(jù)與太陽風速度的相關系數(shù),x軸表示輸入數(shù)據(jù)相較于太陽風速度的滯后天數(shù),y軸表示相關系數(shù);圖3b表示通過隨機森林算法計算的輸入數(shù)據(jù)重要性等級,y軸表示輸入數(shù)據(jù)權重,圖中陰影部分表示輸入數(shù)據(jù)在10個模型中的重要性變化范圍,實線部分則表示重要性變化的均值.由圖3a可知,太陽風速度和之前一段時間的Kp(藍實線)和AE指數(shù)(黑實線)具有比較強的線性相關性,這種現(xiàn)象已被Andonov等(2004)和Gholipour等(2004)發(fā)現(xiàn)并報道,我們猜測這一現(xiàn)象是由于太陽風速度可能存在對地磁指數(shù)的記憶性效應造成的.
圖3 輸入數(shù)據(jù)的種類和時間的選取(a) 輸入數(shù)據(jù)與太陽風速度的相關系數(shù); (b) 輸入數(shù)據(jù)在模型中的重要性等級.
在本文中CCKp、CCDst、CCAE分別表示Kp、Dst、AE指數(shù)與太陽風速度的相關系數(shù),Im表示Kp、Dst、AE指數(shù)在隨機森林模型中所占重要性.重構模型的輸入數(shù)據(jù)篩選標準如下:每個輸入特征與太陽風速度相關系數(shù)絕對值均大于0.2,并且在隨機森林模型中的重要性之和大于75%.預測模型的輸入數(shù)據(jù)篩選標準如下:每個輸入特征與太陽風速度相關系數(shù)絕對值均大于0.15,并且在隨機森林模型中的重要性之和大于65%.由圖3(a—b)可知,(1)重構t天k時的太陽風速度可選擇:[t-2天k時,t+1天k時]的Kp、Dst和AE指數(shù),該區(qū)間內:CCKp>0.25、|CCDst|>0.21、CCAE>0.2且Im為~75.3%;(2)預測t天k時的太陽風速度可選擇:[t-2天k時,t天k-3時]的Kp、Dst和AE指數(shù),即對太陽風速度進行提前3小時的預測,該區(qū)間內CCKp>0.41、|CCDst|>0.21、CCAE>0.3且Im為~66.1%.
本節(jié)利用篩選之后的輸入數(shù)據(jù)重構太陽風速度,并與2.1節(jié)中模型在測試集1中進行比較.如圖4,其中ANN和ANN(T)模型隱藏層1節(jié)點數(shù)均為27,隱藏層2節(jié)點數(shù)均為6;RF模型的決策樹數(shù)目為373,最大深度為521;RF(T)模型的決策樹數(shù)目為415,最大深度為572.由圖4可知,輸入數(shù)據(jù)不含/含太陽自轉周期,模型為人工神經(jīng)網(wǎng)絡時,CC=0.84/0.84,RMSE=58.19 km·s-1/58.31 km·s-1;模型為隨機森林時,CC=0.81/0.81,RMSE=63.15 km·s-1/63.3 km·s-1.圖4結果表明,經(jīng)過特征選取后,人工神經(jīng)網(wǎng)絡仍在測試集1中性能更佳,太陽自轉周期對模型性能無明顯影響.圖4與圖2比較表明,進行特征選取后模型的性能基本無變化.
圖4 同圖2類似,但采用了特征選取技術
本文利用測試集2中的3個強磁暴事件評估磁暴期間模型性能,這3個強磁暴事件發(fā)生時間分別為:2015年第76—80天(Dstmin=-234 nT),2015年第173—176天(Dstmin=-208 nT),2015年第353—358天(Dstmin=-170 nT),根據(jù)3個事件發(fā)生時間依次將其命名為Storm 1、Storm 2和Storm 3.圖4的結果表明太陽自轉周期并不影響重構模型的性能,因此3個事件中所采用的模型,其輸入數(shù)據(jù)不包含太陽自轉周期.由圖5可知,在Storm 1中,模型為人工神經(jīng)網(wǎng)絡時,CC=0.78,RMSE=67.83 km·s-1;模型為隨機森林時,CC=0.81,RMSE=63.16 km·s-1.在Storm 2中,模型為人工神經(jīng)網(wǎng)絡時,CC=0.86,RMSE=77.95 km·s-1;模型為隨機森林時,CC=0.89,RMSE=64.42 km·s-1.在Storm 3中,模型為人工神經(jīng)網(wǎng)絡時,CC=0.83,RMSE=43.6 km·s-1;模型為隨機森林時,CC=0.78,RMSE=48.52 km·s-1.圖5結果表明,隨機森林重構模型在Storm 1和Storm 2中性能表現(xiàn)更佳,人工神經(jīng)網(wǎng)絡則在Storm 3中性能表現(xiàn)更佳.對比Storm 1、Storm 2和Storm 3,我們發(fā)現(xiàn)Storm 1和Storm 2中的高速太陽風在短時間內變化較為劇烈,而Storm 3中的高速太陽風則變化較為平穩(wěn),因此我們猜測隨機森林對短時間內速度變化特別劇烈的高速太陽風重構效果更好,而人工神經(jīng)網(wǎng)絡則更適合于速度變化較為平緩的太陽風,這體現(xiàn)出人工神經(jīng)網(wǎng)絡的局限性有時可以用隨機森林彌補.而且我們發(fā)現(xiàn)在三場磁暴事件中,當太陽風速度大于600 km·s-1時,隨機森林有時存在更好的表現(xiàn).為探究這一現(xiàn)象是否具有普遍性,我們從測試集1中,篩選出了太陽風速度大于600 km·s-1的數(shù)據(jù)集,共計1604組,對于這1604組數(shù)據(jù), ANN、和RF模型的均方根誤差分別為:109 km·s-1和123.27 km·s-1.可以發(fā)現(xiàn)當太陽風速度大于600 km·s-1時,整體上,人工神經(jīng)網(wǎng)絡仍然優(yōu)于隨機森林.
此外,如表1所示,訓練集中~90%的太陽風的速度在0~600 km·s-1區(qū)間,因此如圖5b所示,兩種模型對磁暴事件中太陽風速度峰值的重構效果欠佳.整體上,兩種模型能夠較好地模擬出磁暴時期太陽風速度的變化趨勢.
為更加全面比較在不同地磁活躍條件下人工神經(jīng)網(wǎng)絡與隨機森林模型的性能,我們參考Loewe和Pr?lss(1997)利用Dst指數(shù)劃分磁暴類型的工作,將表1中的test set 1和test set 2共計19868組數(shù)據(jù),根據(jù)每組數(shù)據(jù)中的Dst指數(shù)變化區(qū)間:(-30 nT,+∞)、(-50 nT,-30 nT]、(-100 nT,-50 nT]、(-200 nT,-100 nT]、(-∞,-200 nT],將測試集1和測試集2劃分為I、II、III、IV、V,共5類地磁活躍條件,分別得到數(shù)據(jù)組:16433組、2227組、1052組、142組和14組,并重構了不同地磁活躍條件下太陽風速度,結果見表2.由表2可知,隨著地磁活躍條件從I變?yōu)閂,人工神經(jīng)網(wǎng)絡和隨機森林重構模型的性能均呈現(xiàn)下降趨勢,這是由于我們所使用的訓練集和驗證集中的地磁活動主要處于地磁活躍條件I(訓練集和驗證集共計92511組數(shù)據(jù),其中77962組數(shù)據(jù)屬于地磁活躍條件I),因此所構建的模型在地磁活躍條件I中性能更佳,而在地磁活躍條件II—V中性能相對較差.此外,在5類地磁活躍條件下,人工神經(jīng)網(wǎng)絡重構的太陽風速度的結果均優(yōu)于隨機森林.需要注意的是,在數(shù)據(jù)集預處理時,已將數(shù)據(jù)集隨機打散導致其時間不連續(xù),從而無法篩選其中完整連續(xù)的磁暴事件,因此將得到數(shù)據(jù)稱為5類地磁活躍條件而非磁暴事件.
表2 在5類不同地磁活躍條件下太陽風速度的重構
為了進一步分析人工神經(jīng)網(wǎng)絡和隨機森林模型對低速太陽風和高速太陽風或爆發(fā)性事件的重構效果,我們參考了Liu等人(2016)的工作,將測試集1中低于400 km·s-1的太陽風認為是低速太陽風(數(shù)據(jù)為7419組),其余的認為是高速太陽風或爆發(fā)性事件(9531組).并使用ANN和RF模型對其進行檢驗,其中對于低速太陽風,ANN和RF模型的均方根誤差分別為42.39 km·s-1和47.92 km·s-1;對于高速太陽風或爆發(fā)性事件,二者均方根誤差分別為68.06 km·s-1和72.9 km·s-1.這證明了兩種模型均可較好地重構低速太陽風,但對特別高速的太陽風速度仍然存在改進的空間.
本節(jié)采用2.1節(jié)的方案對太陽風速度提前3小時預測,具體分析流程與2.2節(jié)一致.模型對測試集1的預測結果見圖6,其中ANN和ANN(T)模型隱藏層1節(jié)點數(shù)均為26,隱藏層2節(jié)點數(shù)均為6;RF模型的決策樹數(shù)目為271,最大深度均為306;RF(T)模型的決策樹數(shù)目為221,最大深度為283.由圖6可知,輸入數(shù)據(jù)不包含太陽自轉周期時,人工神經(jīng)網(wǎng)絡的CC=0.82,RMSE=61.33 km·s-1,隨機森林的CC=0.8,RMSE=64.26 km·s-1.圖6結果表明,人工神經(jīng)網(wǎng)絡預測模型性能更佳,而且太陽自轉周期對預測模型也無明顯影響.圖4和圖6結果比較表明,重構模型的性能優(yōu)于預測模型,這是因為對t天k時的太陽風速度的預測,輸入數(shù)據(jù)時間區(qū)間為[t-2天k時,t天k-3時],重構模型的則是[t-2天k時,t+1天k時],重構模型考慮到了太陽風驅動地磁活動(Feynman,1982)這一因素,因此重構模型比預測模型的性能更優(yōu).
圖6 同圖4類似,但為預測太陽風速度
我們對3個強磁暴期間的太陽風速度進行預測,如圖7所示,在Storm 1和Storm 2中,隨機森林預測模型的性能更佳,人工神經(jīng)網(wǎng)絡預測模型則在Storm 3中的性能更佳.雖然二者對磁暴事件中太陽風速度峰值預測效果欠佳,但整體上,二者均較好預測出了磁暴事件中太陽風速度的變化趨勢.
圖7 同圖5類似,但為預測太陽風速度
我們同樣對5類地磁活躍條件下的太陽風速度進行預測.如表3所示,與表2結論一致,隨著地磁活躍條件從I變?yōu)閂,兩種模型的性能逐漸下降,在5類地磁活躍條件下,人工神經(jīng)網(wǎng)絡預測模型的結果均優(yōu)于隨機森林模型的結果.值得注意的是,由于在測試集1和測試集2中滿足第V類地磁活躍條件的數(shù)據(jù)僅有14個,過少的數(shù)據(jù)點使得第V類地磁活躍條件的CC和RMSE不具有較好的統(tǒng)計學意義,從而導致其CC較高,但RMSE卻很大.
表3 同表2類似,但為太陽風速度預測
本文利用特征選取技術(相關系數(shù)分析法和隨機森林算法)對1963—2018年的地面觀測數(shù)據(jù)(Kp指數(shù)、Dst指數(shù)、AE指數(shù)、F10.7和太陽黑子數(shù))進行篩選,確定了Kp指數(shù),Dst指數(shù)和AE指數(shù)作為輸入數(shù)據(jù),并分別使用人工神經(jīng)網(wǎng)絡算法和隨機森林算法構建了L1點處的太陽風速度重構和提前3小時預測模型.為探究兩種算法所構建的模型性能差異,我們將模型在測試集、磁暴事件集和以及五類地磁活躍條件下進行了比較.此外,本文還對太陽自轉周期對模型性能的影響進行了分析.
本文主要結論如下:
(1) 在測試集中,人工神經(jīng)網(wǎng)絡重構和預測模型的性能均更佳,重構(預測)模型的RMSE為~58 km·s-1(~61 km·s-1),CC為~0.84(~0.82);
(2) 針對發(fā)生在2012—2017年間3個強磁暴事件中,兩種算法均能有效重構和預測太陽風速度整體上的變化趨勢;
(3) 在5類不同地磁活躍條件下,人工神經(jīng)網(wǎng)絡的重構和預測模型結果均優(yōu)于隨機森林;
(4) 依據(jù)所訓練模型的表現(xiàn),太陽自轉周期對人工神經(jīng)網(wǎng)絡和隨機森林模型均無明顯影響.
綜上所述,本文使用特征選取技術和機器學習算法構建了太陽風速度重構與預測模型,通過對兩種算法所構建的模型在測試集、磁暴事件和五類地磁活躍條件下進行的比較,驗證了模型的適用性,從而建立了具有良好性能的人工神經(jīng)網(wǎng)絡重構和預測模型,本工作所訓練得到的模型和的太陽風參數(shù)結果將被應用于其他以太陽風參數(shù)作為驅動的空間天氣建模工作中.