鄭大釗
基于函數(shù)型數(shù)據(jù)的城市月降水量特征分析
鄭大釗
(齊齊哈爾大學(xué) 理學(xué)院,黑龍江 齊齊哈爾 161006)
降水量是氣象因素中極為重要的一項(xiàng),降水量時(shí)間和空間上的不均勻分布在一定程度上將會(huì)導(dǎo)致一些地區(qū)的洪澇或干旱.基于函數(shù)型主成分分析的方法對(duì)月降水量數(shù)據(jù)進(jìn)行應(yīng)用分析.選取了全國(guó)31個(gè)城市23年的月降水量數(shù)據(jù),通過(guò)引入傅里葉基函數(shù),對(duì)其進(jìn)行函數(shù)化得到降水量曲線,再利用函數(shù)型主成分分析研究.分析得到前四個(gè)主成分累積貢獻(xiàn)為93.28%,可以解釋原始數(shù)據(jù)大多數(shù)信息,降維效果比傳統(tǒng)主成分分析更好.利用前四個(gè)函數(shù)型主成分以及對(duì)平均曲線的擾動(dòng)情況,結(jié)合實(shí)際特征,給出部分地區(qū)降水量顯著變化的時(shí)間.
函數(shù)型數(shù)據(jù);月降水量;函數(shù)型主成分分析
世界氣象變化的紛雜繁多,深刻影響人們的活動(dòng)以及自然環(huán)境,在氣象因素中,降水量時(shí)間和空間上的不均勻分布在一定程度上將會(huì)導(dǎo)致一些地區(qū)的洪澇或干旱.因此,研究全國(guó)各個(gè)地區(qū)降水分布的時(shí)空特征具有重要意義,可以為我國(guó)城市防洪抗旱政策的制定和實(shí)施提供有效的指導(dǎo)和幫助.
21世紀(jì)以來(lái),計(jì)算機(jī)和通信技術(shù)取得了快速的發(fā)展,導(dǎo)致數(shù)據(jù)存儲(chǔ)形式也在不斷發(fā)展.隨著這一變化,越來(lái)越多的信息以曲線和圖像的形式被現(xiàn)代數(shù)據(jù)采集技術(shù)所收集.在這種情況下,由于高頻或者超高頻的數(shù)據(jù)維數(shù)過(guò)高,傳統(tǒng)方法并不適合處理這類數(shù)據(jù).因此,需要提出更好的數(shù)據(jù)分析方法,而函數(shù)型數(shù)據(jù)分析具有一定的實(shí)用價(jià)值,在應(yīng)對(duì)高維數(shù)據(jù)方面具有十分明顯的優(yōu)勢(shì).國(guó)內(nèi)外學(xué)術(shù)界許多學(xué)者關(guān)于函數(shù)型數(shù)據(jù)方面的研究已經(jīng)取得了豐富的成果,其廣泛應(yīng)用于眾多領(lǐng)域.文獻(xiàn)[1]利用函數(shù)型聚類分析及可視化工具揭示也門(mén)的空氣污染模式;文獻(xiàn)[2]利用函數(shù)型數(shù)據(jù)模型對(duì)巴西COVID–19的死亡人數(shù)的演化進(jìn)行建模分析;文獻(xiàn)[3]利用FDA的主成分分析法分析中國(guó)碳排放的邊際減排成本曲線.以上研究均是函數(shù)型數(shù)據(jù)在各個(gè)領(lǐng)域內(nèi)的應(yīng)用,但其在降水量這方面的研究應(yīng)用還比較少.本文將函數(shù)型主成分分析的方法[4-10]應(yīng)用于降水量數(shù)據(jù)中,對(duì)31個(gè)城市1998—2020年276個(gè)月份的月降水量數(shù)據(jù)進(jìn)行分析,揭示降水量的時(shí)空特征,為提高防洪抗災(zāi)能力提供一定的參考.
進(jìn)行函數(shù)型數(shù)據(jù)分析一般的步驟為:(1)收集和整理與所研究?jī)?nèi)容相關(guān)的原始數(shù)據(jù);(2)從眾多的基函數(shù)中選擇適合所研究?jī)?nèi)容和方法的基函數(shù),利用基函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合得到函數(shù)型數(shù)據(jù);(3)對(duì)得到的擬合后的平滑曲線求導(dǎo),分析數(shù)據(jù)的動(dòng)態(tài)變化特征;(4)對(duì)得到的數(shù)據(jù)的各種特征進(jìn)行描述;(5)對(duì)數(shù)據(jù)進(jìn)行相關(guān)的函數(shù)型分析.
隨著科技信息技術(shù)的飛速發(fā)展,研究人員收集到的數(shù)據(jù)類型愈來(lái)愈豐富,并且數(shù)據(jù)維度也愈來(lái)愈高,甚至于接近“無(wú)限維”,這些數(shù)據(jù)在傳統(tǒng)的統(tǒng)計(jì)分析方法中的適用性并不高.函數(shù)型主成分分析的出現(xiàn)使得這些新型數(shù)據(jù)得到了更好的應(yīng)用.在進(jìn)行分析時(shí),對(duì)數(shù)據(jù)進(jìn)行擬合平滑后,都希望能盡可能多地挖掘數(shù)據(jù)本身的潛在信息,以了解和掌握數(shù)據(jù)背后的特征和性質(zhì).而主成分分析正是可以將數(shù)據(jù)進(jìn)行降維,并挖掘數(shù)據(jù)背后的潛在信息的重要方法之一.
主成分的求解與傳統(tǒng)多元統(tǒng)計(jì)的主成分分析有類似的地方,都是在一定的限制條件下求解最大化的問(wèn)題,即
并且使得
利用協(xié)方差函數(shù)求得權(quán)重函數(shù)系數(shù),進(jìn)而得到函數(shù)型主成分分析的權(quán)重函數(shù),最后函數(shù)型主成分分析中權(quán)重系數(shù)的特征方程為
繪制31個(gè)城市的月降水量曲線,結(jié)果見(jiàn)圖1.由圖1可以看出,隨著時(shí)間的變化,降水量數(shù)據(jù)逐漸呈現(xiàn)出一些函數(shù)性的特征,并具有明顯的周期性特征,因此選擇傅里葉基函數(shù)對(duì)其進(jìn)行擬合.
圖1 31個(gè)城市月降水量走勢(shì)
選用傅里葉基函數(shù)對(duì)原始數(shù)據(jù)進(jìn)行擬合時(shí),基函數(shù)的數(shù)量越多,擬合效果越好,但是當(dāng)基函數(shù)的數(shù)量過(guò)多時(shí),采樣方差將達(dá)到無(wú)法接受的程度.依據(jù)使均方誤差最小來(lái)確定最合適的基函數(shù)個(gè)數(shù).經(jīng)過(guò)試驗(yàn),確定基函數(shù)的個(gè)數(shù)為25.
將每一個(gè)城市1998年1月至2020年12月的月降水量曲線作為一個(gè)函數(shù)型數(shù)據(jù).則擬合曲線模型為
將31個(gè)城市離散數(shù)據(jù)轉(zhuǎn)化成函數(shù)型數(shù)據(jù),利用R軟件繪出擬合趨勢(shì)圖,將其近似代表1998年1月至2020年12月的降水量曲線(見(jiàn)圖2).曲線基本反映了31個(gè)城市月降水量的具體走勢(shì).由圖2可以看出,31個(gè)城市的降水量曲線波動(dòng)趨勢(shì)基本一致,在年首和年末均出現(xiàn)低降水量,而年中降水量較高,有城市最高月降水量可達(dá)到600 mL.從季節(jié)因素來(lái)看,十月份后各城市普遍都進(jìn)入冬季,降水量偏低.
利用一、二階導(dǎo)函數(shù)圖像描述降水量變化規(guī)律,結(jié)果見(jiàn)圖3.
圖2 月降水量擬合曲線
圖3 31個(gè)城市月降水量曲線的導(dǎo)函數(shù)
一階導(dǎo)函數(shù)表示降水量的變化狀態(tài),一階導(dǎo)函數(shù)為正時(shí)表示降水量充沛,一階導(dǎo)函數(shù)為負(fù)時(shí)表示降水量不足;二階導(dǎo)函數(shù)表示降水量的變化速率.由圖3a可以看出,31個(gè)城市降水量的變化大體相同,下半年八月份以后一階導(dǎo)為負(fù)的變化增多,說(shuō)明八月份以后降水量普遍開(kāi)始下降.由圖3b可以看出,31個(gè)城市月平均降水量的上升速度和下降速度大體一致,即月均降水量較為平穩(wěn),沒(méi)有形成極端氣象情況.
為了加深對(duì)月降水量總體變化特征的研究,利用R軟件得到31城市月降水量的均值函數(shù)圖(見(jiàn)圖4).
圖4 31個(gè)城市月降水量的均值函數(shù)曲線
由圖4可以看出,全國(guó)總體降水量大體都在每年的六月份或七月份達(dá)到最高.具體來(lái)看,可以發(fā)現(xiàn)全國(guó)的月平均降水量在2007年至2008年中曾達(dá)到過(guò)近20年最低點(diǎn),而在2016年的六月至七月曾達(dá)到近20年降水量最高點(diǎn),約是以往夏季最高月均降水量的1.5倍.
基于函數(shù)型主成分理論,利用R軟件的程序包,對(duì)31個(gè)城市的月降水量曲線進(jìn)行FPCA分析.
計(jì)算函數(shù)主成分貢獻(xiàn)率,前4個(gè)主成分的貢獻(xiàn)率及累計(jì)貢獻(xiàn)率見(jiàn)表1.
表1 函數(shù)主成分貢獻(xiàn)率
由表1可以看出,前四個(gè)函數(shù)主成分的累計(jì)方差貢獻(xiàn)率達(dá)到93.28%,說(shuō)明可以解釋月降水量數(shù)據(jù)的大部分信息,可以依據(jù)這四個(gè)函數(shù)主成分進(jìn)行數(shù)據(jù)分析.
根據(jù)表1,利用R軟件計(jì)算前四個(gè)主成分對(duì)應(yīng)的權(quán)重函數(shù)系數(shù),結(jié)果見(jiàn)表2.
表2 前四個(gè)函數(shù)主成分對(duì)應(yīng)的權(quán)重函數(shù)系數(shù)
計(jì)算前四個(gè)主成分對(duì)應(yīng)的權(quán)重函數(shù),結(jié)果見(jiàn)圖5.
圖5 前四個(gè)主成分對(duì)應(yīng)的權(quán)重函數(shù)
利用權(quán)重函數(shù)可以得到31個(gè)城市月降水量的前四個(gè)主成分得分.計(jì)算結(jié)果表明,各個(gè)城市被不同主成分給予不同程度的影響,說(shuō)明影響降水量的因素各不相同.北京、天津、呼和浩特市月降水量主要受第一主成分的影響;太原、沈陽(yáng)、石家莊市降水量主要受第二主成分的影響;??凇⒗ッ?、廣州市降水量主要受第三主成分的影響;長(zhǎng)沙、成都、重慶市主要受第四主成分的影響等.也有城市降水量受多重因素的影響,同時(shí)受兩個(gè)以上的主成分的共同影響,如貴陽(yáng)市.綜合來(lái)看,對(duì)于任何一個(gè)城市來(lái)講,降水量的影響因素是復(fù)雜的且影響程度具有差異性.
因?yàn)樾枰钊氲胤治鲇绊懺陆邓康囊蛩?,所以用R軟件繪制出各主成分與均值函數(shù)的關(guān)系(見(jiàn)圖6),其能夠表示出各個(gè)主成分的變化形式,分析它們所反映的內(nèi)容,然后對(duì)降水量隨時(shí)間的變化特點(diǎn)進(jìn)行分析.
圖6 月降水量的函數(shù)主成分對(duì)均值的擾動(dòng)
注:“-”表示減去主成分的影響情況;“+”表示加上主成分的影響情況;黑色實(shí)線表示31個(gè)城市月降水量的均值函數(shù).
由圖6a可以看出,第一函數(shù)型主成分解釋了86.5%的變動(dòng),其權(quán)重函數(shù)的波動(dòng)情況表現(xiàn)為有周期性的上下遞減和遞增,但一直是大于零的.其中分?jǐn)?shù)越高的城市,受到高于平均降水量的影響越大,如北京、天津、呼和浩特市;得分越低也就是說(shuō)明受到低于平均降水量的影響越大,如烏魯木齊、長(zhǎng)春市.第一權(quán)重函數(shù)始終都是正效應(yīng)顯著,隨著時(shí)間的變化曲線沒(méi)有明顯的波動(dòng),一直保持著有規(guī)律性的增減.說(shuō)明其表示平穩(wěn)特征,可以反映外部條件綜合因素的影響.
由圖6b可以看出,第二函數(shù)型主成分解釋了3.5%的變動(dòng).權(quán)重函數(shù)表現(xiàn)為有周期性的遞增和遞減.第二主成分得分較高的城市(如石家莊、太原市)表現(xiàn)為受到第二權(quán)重函數(shù)的影響較大,在五月下旬之前低于平均降水量的程度在逐漸減少,五月下旬之后高于平均降水量的程度逐漸增多.故五月下旬為降水量波動(dòng)的首個(gè)時(shí)間點(diǎn).得分越低的城市,則受到與之相反的影響.第二權(quán)重函數(shù)在五月下旬的波動(dòng)對(duì)平均降水量有顯著影響,在五月下旬之前是正效應(yīng)顯著,五月下旬之后,負(fù)效應(yīng)顯著.五月份過(guò)后的一段時(shí)間內(nèi)降水量有上升的變化特征.在這一時(shí)間段內(nèi)影響降水量顯著波動(dòng)的可能因素是季節(jié)對(duì)降水量造成的影響,在春夏交接的時(shí)期,各個(gè)城市的降水量都普遍增多,且觀察均值曲線可以看出,在五月份過(guò)后平均降水量呈上升趨勢(shì)同時(shí)負(fù)效應(yīng)明顯.因此,第二主成分描述的應(yīng)該是氣象系統(tǒng)內(nèi)部的自我保護(hù)因素,避免出現(xiàn)極端降水量風(fēng)險(xiǎn).
由圖6c可以看出,第三函數(shù)型主成分解釋了1.7%的變動(dòng),其權(quán)重函數(shù)的值基本表現(xiàn)為在一年中春夏季為正秋冬季為負(fù),且存在降低的趨勢(shì),但在一些時(shí)間點(diǎn)會(huì)有突發(fā)性的增加或減少.對(duì)于第三主成分得分較高的城市(如海口、昆明、廣州市),觀察后發(fā)現(xiàn)在八月份之前降水量變動(dòng)程度高于圖中均值函數(shù)的變動(dòng),表現(xiàn)為先增加后減?。诖酥髣t低于圖中均值函數(shù)的波動(dòng)變多,先是與平均降水量逐漸接近后又遠(yuǎn)離.在八月初權(quán)重函數(shù)對(duì)降水量有明顯影響,在八月份之前正效應(yīng)顯著,之后負(fù)效應(yīng)顯著.此時(shí)間段為降水量波動(dòng)的第二個(gè)時(shí)間節(jié)點(diǎn).而該時(shí)期后均值曲線呈下降特征.結(jié)合實(shí)際,八月初一般是臺(tái)風(fēng)登錄大陸的高發(fā)以及多地自然災(zāi)害頻發(fā)時(shí)期,八月份后我國(guó)大部分地區(qū)進(jìn)入秋冬季,降水量明顯呈下降趨勢(shì),這是產(chǎn)生這類降水量變化的可能原因.因此,第三主成分描述的是外部極端因素對(duì)降水量帶來(lái)的影響.
第四函數(shù)型主成分解釋了1.6%的變動(dòng),其權(quán)重函數(shù)鮮少波動(dòng),即第四主成分占比較高的城市,如長(zhǎng)沙、成都、重慶市,表現(xiàn)特征穩(wěn)定.所以,第四主成分反映的是降水量幾乎不受極端天氣的影響.
日前,農(nóng)業(yè)生產(chǎn)以及人類生活愈來(lái)愈受到降水量變化異常的影響,這對(duì)農(nóng)作物的生長(zhǎng)也會(huì)造成一些不可抗力的影響,進(jìn)而對(duì)糧食和一些農(nóng)產(chǎn)品的市場(chǎng)價(jià)格有所影響,也就影響了人們的生活.因此,需要進(jìn)一步地增加對(duì)氣候以及降水量的關(guān)注,重視降水量的波動(dòng)變化,并結(jié)合實(shí)際情況加以分析.極端降水量以及極端天氣問(wèn)題在短時(shí)間內(nèi)是人類無(wú)法徹底改變的,因此更應(yīng)長(zhǎng)期關(guān)注降水量的變化規(guī)律,制定相應(yīng)的措施以及補(bǔ)貼政策,減少氣象災(zāi)害對(duì)生產(chǎn)生活的影響.
本文根據(jù)收集到的1998—2020年的31個(gè)城市的月降水量數(shù)據(jù)具有周期性特征,選擇傅里葉基函數(shù)對(duì)收集到的原始數(shù)據(jù)進(jìn)行擬合,得到了較好的效果,從函數(shù)型的角度說(shuō)明闡述了降水量曲線與時(shí)間之間的動(dòng)態(tài)變化關(guān)系.利用函數(shù)型主成分分析方法對(duì)31個(gè)城市月降水量的特征進(jìn)行研究,給出了一些地區(qū)的降水量顯著變化的時(shí)間,分析結(jié)果可以為我國(guó)城市防洪抗旱政策的制定和實(shí)施提供有效的指導(dǎo)和幫助.
[1] Abduljabbar M H.Unveiling air pollution patterns in Yemen:a spatial-temporal functional data analysis[J].Environmental Science and Pollution Research International,2023(10):82-86.
[2] Aaj C,Ronaldo D,Cm M.Modeling the evolution of deaths from infectious diseases with functional data models:The case of COVID-19 in Brazil[J].Statistics in Medicine,2023,42(7):182-186.
[3] SHI Chen,XIAN Yujiao,WANG Zhixin,et al.Marginal abatement cost curve of carbon emissions in China:a functional data analysis[J].Mitigation and Adaptation Strategies for Global Change,2023,28(2):86-91.
[4] 程豪,裴瑞敏.全球化人才流動(dòng)對(duì)國(guó)際合作的函數(shù)型動(dòng)態(tài)效應(yīng)可視化分析[J].統(tǒng)計(jì)與信息論壇,2022,37(11):107-116.
[5] 魏艷華,馬立平,王丙參.基于函數(shù)型數(shù)據(jù)的中國(guó)人口變化趨勢(shì)及地區(qū)差異[J].統(tǒng)計(jì)與決策,2022,38(8):82-86.
[6] 王青蓉.函數(shù)型主成分分析及函數(shù)型線性回歸模型的研究及應(yīng)用[D].重慶:重慶工商大學(xué),2020.
[7] 昌霞,劉賽娥.聚類回歸分析在降雨量統(tǒng)計(jì)數(shù)據(jù)中的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2019,47(8):2002-2005.
[8] 宋世凱.全球變暖背景下1960—2014年中國(guó)降水時(shí)空變化特征[D].烏魯木齊:新疆大學(xué),2017.
[9] 梁銀雙,劉黎明,盧媛.基于函數(shù)型數(shù)據(jù)聚類的京津冀空氣污染特征分析[J].調(diào)研世界,2017,284(5):43-48.
[10] 嚴(yán)明義.函數(shù)性數(shù)據(jù)的統(tǒng)計(jì)分析:思想、方法和應(yīng)用[J].統(tǒng)計(jì)研究,2007,184(2):87-94.
Analysis of monthly urban precipitation characteristics based on functional data
ZHENG Dazhao
(School of Science,Qiqihar University,Qiqihar 161006,China)
Precipitation is an extremely important meteorological factor,the uneven distribution of precipitation over time and space will to some extent lead to flooding or drought in some areas.The method of functional principal component analysis is applied to analyze monthly precipitation data.The monthly precipitation data of 31 major cities in China for 23 years is selected,and the precipitation curve is obtained by introducing the Fourier basis function and functionalizing it.Then,functional principal component analysis was used for research.The analysis shows that the cumulative contribution of the first four principal components is 93.28%,which can explain most information of the original data,and the dimension reduction effect is better than the traditional principal component analysis.Finally, using the first four functional principal components and the perturbation of the average curve,combined with actual characteristics,the time of significant changes in precipitation in some regions is given.
functional data;monthly precipitation;functional principal component analysis
1007-9831(2023)12-0027-07
O29
A
10.3969/j.issn.1007-9831.2023.12.005
2023-04-02
黑龍江省教育廳基本業(yè)務(wù)專項(xiàng)(135109228)
鄭大釗(1979-),男,黑龍江綏化人,副教授,從事應(yīng)用數(shù)學(xué)研究.E-mail:zhengdazhao@163.com