榮 新,覃衛(wèi)堅,韋文山,沈夢燕
(1.廣西民族大學電子信息學院,南寧 530006;2.廣西氣候中心,南寧 530022)
臺風作為一種極具破壞性的氣象災害,威脅著沿海城市的經(jīng)濟發(fā)展,因此對臺風的預報越來越受到重視。近年來,國內(nèi)外的一些預報方法如一般線性回歸、多元線性回歸、動態(tài)統(tǒng)計混合模式以及各種神經(jīng)網(wǎng)絡算法等在預測各海盆地的熱帶氣旋活動中取得了巨大的成功[1-10]。本文運用的預報方法支持向量回歸,以其較強的范化和有效捕捉信息能力被廣泛應用于各個領(lǐng)域,童亮等[11]建立基于模糊信息?;椭С窒蛄炕貧w組合的模型,預測內(nèi)核船舶的耗油量,其結(jié)果要優(yōu)于BP模型和ELM模型;吳曉姣等[12]構(gòu)造支持向量回歸算法預測血壓模型,可以有效地預測人的血壓值;閆水保等[13]通過優(yōu)化支持向量的選擇策略來提高算法的預測能力,建立約束的支持向量回歸模型應用于電站鍋爐燃燒。在處理天氣問題方面,Nong等[14]運用支持向量機對降水進行“客觀預報”,其預測精確度高于基于BP網(wǎng)絡的預測模型;羅芳瓊[15]等結(jié)合線性方法和神經(jīng)網(wǎng)絡方法提取降水的線性和非線性特征,最后使用最小二乘支持向量機集成預測,穩(wěn)定性較好。另外,在機器學習方法中因子的選擇對預報的精度有很大的影響,豐富和篩選合適的特征因子,是提高臺風頻數(shù)預報精度的有效途徑之一。
特征選取是從原始集合中選擇冗余最小,并與預測對象相關(guān)性最大的特征集,隨機森林算法是一種準確的集成學習算法,對大數(shù)據(jù)集具有高效的運行和處理能力。崔兆億等[16]、林娜等[17]、林開春等[18]利用隨機森林篩選最優(yōu)特征子集,獲取較高的數(shù)據(jù)精度;熊怡等[19]基于隨機森林算法選擇遙相關(guān)因子,提高了月徑流預報模型的泛化性能。
本文結(jié)合了隨機森林方法和逐步回歸方法來選擇特征因子,找出最優(yōu)特征集建立基于支持向量回歸的模型預測年度臺風頻數(shù),驗證融合隨機森林和逐步回歸方法篩選特征因子在支持向量模型預報年度臺風頻數(shù)中的有效性和適用性。
由中國氣象局上海臺風研究所提供1951—2020年共70年臺風樣本數(shù)據(jù),國家氣候中心提供1951—2020年142項大氣環(huán)流特征量和海溫指數(shù)資料。
支持向量回歸(support vector regression,SVR)是基于統(tǒng)計學習理論的監(jiān)督學習算法,它保留了支持向量機最大邊緣算法的對偶性、稀疏性、核性和凸性等特性[20]。主要思想是利用核函數(shù)將輸入數(shù)據(jù)映射到高維空間,并對變換后的空間進行回歸處理,利用結(jié)構(gòu)風險最小化和經(jīng)驗風險最小化原則,解決各種非線性回歸估計問題。給定一組訓練數(shù)據(jù)集構(gòu)造超平面,公式表示為
w表示加權(quán)矩陣,b為偏置項。當且僅當訓練樣本落入超平面外,計算損失,將回歸風險最小化為
B為正則化常數(shù),g(xk)為第k個樣本的預測值,yk為第k個真實值,lθ為不敏感損失函數(shù):
引入松弛因子重寫式(1):
引入拉格朗日乘子,得到拉格朗日函數(shù),將式(1)代入,再利用拉格朗日函數(shù)分別對w,b,ηk,η?k求偏導,將其代入拉格朗日函數(shù)即可得到支持向量回歸的對偶問題,經(jīng)過進一步求解最后得到SVR的解為
引入高斯核G(x,xk),將樣本從原始空間映射到一個更高維的特征空間,則SVR為
相關(guān)系數(shù)是研究兩個定量變量之間線性相關(guān)程度的量,量化了兩個變量之間的標準化關(guān)系,取值范圍一般為[-1,1]。給定一組數(shù)據(jù)D=設(shè)相關(guān)系數(shù)為r,公式表示為
為了解釋某些特征共線性的可能,本文結(jié)合1951—2015年共65年的樣本,計算廣西臺風頻數(shù)時間序列與同年或前一年各月142項大氣環(huán)流特征量和海溫指數(shù)的相關(guān)系數(shù),從中篩選出絕對相關(guān)系數(shù)值達到0.4的因子,共得到24個高相關(guān)因子。
逐步回歸是通過每次添加或刪除一個獨立預測因子構(gòu)建多元回歸方程。主要分為正向選擇、逆向消除和雙向消除[21]。本實驗為了更好地優(yōu)化模型,選用雙向消除,將正向選擇和逆向消除相結(jié)合建立逐步回歸模型選擇重要因子,在未引入的因子集中尋找方差貢獻最大者做檢驗,在引入的因子集中對方差貢獻較小者做剔除檢驗。最后輸出逐步回歸方程:
經(jīng)過計算,復相關(guān)系數(shù)為0.619,剩余標準差為1.689。方程式從24個因子中選擇x1、x8、x11作為預報因子,其中x1為前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E);x8為同一年1月Nino12區(qū)海溫,表示為90°W—80°W,赤道—10°S的太平洋海溫;x11為同一年2月Nino4區(qū)海溫,表示150°W—160°E,5°N—5°S的太平洋海溫。其相關(guān)系數(shù)值見表1。
表1 逐步回歸方法篩選的特征因子
隨機森林是一種集成和最精確的算法,融合了套袋法和隨機特征選擇法,具有高效處理高維數(shù)據(jù)和高相關(guān)數(shù)據(jù)的能力。本文使用隨機森林算法計算變量的重要性評分,確定隨機子集中的最佳特征。針對特征的重要性,在訓練過程中有兩種方法MDI和MDA計算各特征的顯著性。本文使用MDI,也就是基尼指數(shù)(Gini)重要性計算特征重要性。工作原理如下:
定義原始數(shù)據(jù)D(xk,k∈1,2,3…n),
(1)在原始數(shù)據(jù)集D中有放回的多次隨機采樣,生成n個子集。
(2)每次重采樣時,選擇一種隨機特征,不剪枝,構(gòu)造決策樹。
(3)投票選擇效果最好的決策樹,計算決策樹每個特征的Gini。
公式表示特征pi在節(jié)點m中重要性。
(4)對每個節(jié)點先求出Gini,之后降序排列輸出。
本文利用隨機森林對經(jīng)過相關(guān)性分析得出的24個特征因子二次篩選,計算每個特征因子的基尼指數(shù),選出排列前三的特征因子(因子重要性值見表2),分別為前一年6月AMM(Atlantic Meridional Mode)風指數(shù),前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E)以及同一年1月Nino12區(qū)(150°W—160°E,5°N—5°S)海溫。
表2 隨機森林方法篩選的特征因子
本文結(jié)合逐步回歸和隨機森林篩選出特征因子,分別是前一年6月AMM(Atlantic Meridional Mode)風指數(shù),前一年9月歐亞緯向環(huán)流指數(shù)(IZ,0-150E),同一年2月Nino4區(qū)(150°W—160°E,5°N—5°S)海溫以及同一年1月Nino12區(qū)海溫(90°W—80°W,赤道—10°S)共四個特征因子,并結(jié)合1952-2015年共64年的訓練樣本,2016—2020年共5年預測,分別使用逐步回歸篩選的因子、隨機森林篩選的因子以及融合兩種方法篩選的因子,建立基于支持向量回歸的模型預測年度熱帶氣旋頻數(shù)(分別建立模型1、模型2、模型3)。上述步驟的流程圖如圖1所示。
模型選擇不敏感損失函數(shù)為squared_epsilon_insensitive,epsilon范圍設(shè)置為(0-10),懲罰函數(shù)參數(shù)范圍為(0-1),經(jīng)過調(diào)節(jié)模型參數(shù)最后確定不敏感損失函數(shù)的epsilon參數(shù)為2.64,懲罰函數(shù)C=0.3,最大迭代次數(shù)為10000次。預測結(jié)果見表3。模型1使用逐步回歸方法選擇的特征因子,建立支持向量回歸模型預報,損失函數(shù)值loss=0.82,平均絕對誤差為14.48%,均方根誤差為0.91,絕對平均誤差為0.69;模型2使用隨機森林選擇特征因子,建立支持向量回歸模型預報,損失函數(shù)值loss=0.64,均方根誤差為0.80,平均絕對誤差為14.15%,絕對平均誤差為0.65;模型3融合以上兩種方法選擇的特征,建立支持向量回歸預報模型,損失函數(shù)值loss=0.44,平均絕對誤差為9.58%,絕對平均誤差為0.42,均方根誤差為0.66。預測結(jié)果表明,基于隨機森林方法選取特征因子建模預測效果要高于逐步回歸方法,同時融合兩種方法選擇的因子,預測結(jié)果均高于以上兩種方法。
表3 基于支持向量回歸方法2016—2020年度臺風頻數(shù)預報結(jié)果對比
本文以上海臺風研究所提供的臺風樣本數(shù)據(jù)和國家氣候中心提供的大氣環(huán)流特征量和海溫指數(shù)資料為基礎(chǔ),針對臺風頻數(shù)非線性變化的特征使用支持向量方法,建立模型預測。研究使用相關(guān)分析方法,去除冗余和不相關(guān)的特征,初步篩選出絕對相關(guān)系數(shù)值達到0.4的特征因子。為提高數(shù)據(jù)的線性度,分別使用逐步回歸方法建立回歸方程和隨機森林方法進一步提取因子的非線性特征。在相同的數(shù)據(jù)樣本下,建立基于支持向量回歸的模型,預測2016-2020年共5年的臺風頻數(shù)。研究表明,融合兩種方法篩選因子預測結(jié)果最好,相比直接使用隨機森林方法和逐步回歸方法篩選的數(shù)據(jù)預測結(jié)果分別提高4.57%和4.90%。這主要是因為逐步回歸方法在選擇因子、建立方程時,不僅保證了所選變量的有效性和重要性,而且減少了冗余變量帶來的額外誤差,隨機森林具有平衡不穩(wěn)定數(shù)據(jù)集的誤差的類,可以產(chǎn)生高度精確的分類器。
目前年度的臺風預報工作相對較少,本文提出的融合人工智能方法和線性方法選擇因子建立的機器學習模型預報臺風頻數(shù)為年度臺風預報提供了一種新方法和思路,這種因子選擇方法將來也可應用于其他的領(lǐng)域。此外,本文在建立支持向量回歸模型過程中所采用的調(diào)參方法仍可以改進,進一步提高預報的精確度。