莫云音+董凌宇+吳盛洪+葉彩榮
摘 要 本文對海南省近55年的自動站逐日降水觀測資料進(jìn)行數(shù)據(jù)清洗,利用數(shù)據(jù)庫加以存儲。接著利用圍繞極端值的三分聚類算法對海南省的日降水量進(jìn)行聚類分析,得到近55年來海南省的日極端降水量的日際分布情況。結(jié)果表明海南極端日降雨量55年以來每年均有出現(xiàn),但冬季和初春極少,主要集中在8—10月,而且海南省極端降水量呈東多西少的空間分布特征。
關(guān)鍵詞 極端;降水?dāng)?shù)據(jù);挖掘聚類分析
中圖分類號 P4 文獻(xiàn)標(biāo)識碼 A 文章編號 1674-6708(2016)172-0145-02
隨著氣象信息化的推進(jìn),全國建立了大量的氣象觀測站,自建立氣象觀測站以來,各地積累了數(shù)十年的氣象觀測數(shù)據(jù),這些數(shù)據(jù)的數(shù)據(jù)量出現(xiàn)了成幾何倍數(shù)增長的態(tài)勢。海南省氣象局作為省級氣象部門,經(jīng)過幾十年的存儲積累,也擁有了龐大的氣象觀測數(shù)據(jù)。面對海量的觀測數(shù)據(jù),單純靠手工處理來對其進(jìn)行應(yīng)用研究分析,幾乎是不可能的。目前,隨著計算機(jī)技術(shù)、并行處理技術(shù)的飛速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)挖掘相關(guān)技術(shù)無論從理論上還是從實踐上都已經(jīng)十分成熟,是近年來數(shù)據(jù)分析方面一個十分活躍的領(lǐng)域,越來越多的學(xué)者將其應(yīng)用于數(shù)據(jù)分析當(dāng)中。因此,采用數(shù)據(jù)挖掘技術(shù)來處理這些歷年累積的氣象數(shù)據(jù),已經(jīng)完全可能。
極端降水事件通常會造成城市內(nèi)澇、海水倒灌,引起山體滑坡、泥石流等災(zāi)害性天氣,近年來受到越來越多的關(guān)注。極端降水通常是小概率事件,存在空間的差異性,不同的地區(qū)的極端降水表現(xiàn)出不同的特征及變化趨勢。海南的極端降水事件也有自已的特征。因此,本文對海南省近55年的自動站逐日降水觀測資料進(jìn)行數(shù)據(jù)清洗,利用數(shù)據(jù)庫加以存儲,采用聚類挖掘分析技術(shù)對海南省的日降水量進(jìn)行聚類分析,以期得到近55年以來海南省的日極端降水量的日際分布情況。這對于認(rèn)識海南的極端降水事件特征具有重要的意義。
1 聚類分析技術(shù)
1.1 聚類分析定義
聚類分析是根據(jù)數(shù)據(jù)對象的相似性對其進(jìn)行聚類,使相似性很高的對象在同一類中,使相似度很低的對象在不同的類中。目前,聚類分析技術(shù)在各領(lǐng)域中已經(jīng)得到廣泛的使用。在商業(yè)上,市場分析人員可以利用聚類分析技術(shù),根據(jù)購買模式挖掘出不同客戶群的特征,從而區(qū)分出不同的客戶群。在生物學(xué)上,聚類分析技術(shù)可以根據(jù)動植物的基因進(jìn)行聚類,挖掘出各個種群的固有結(jié)構(gòu),從而能夠更好地了解各類動植物。在氣象上,氣象研究工作者可以利用聚類分析技術(shù)來對全國各個地區(qū)的降水量進(jìn)行聚類分析,對全國各地區(qū)的干旱等級進(jìn)行劃分,從而為氣象防災(zāi)減災(zāi)、農(nóng)作物養(yǎng)殖等方面提供有效的指導(dǎo)。
1.2 圍繞極端值的三分聚類算法
圍繞極端值的三分聚類算法策略是:在待挖據(jù)的數(shù)據(jù)集中,找出一個最大值和最小值,然后分別以這兩個值為聚類中心CMax和CMin,對剩余的數(shù)據(jù)進(jìn)行劃分。下一趟中在剩余的數(shù)據(jù)中尋求一個最大值和最小值,將這一趟發(fā)現(xiàn)的最大值和最小值分別劃分給CMax和CMin,按此方法進(jìn)行下去,直到剩余的數(shù)據(jù)量為原來總數(shù)據(jù)量的1/3時為止。
過程描述為:
輸入:結(jié)果簇數(shù)目3、數(shù)據(jù)集D、數(shù)據(jù)集對象數(shù)量n。
輸出:大值中心簇CMax和小值中心簇CMin,以及由剩余對象組成的中間簇CMid,其中,每個簇包含的對象數(shù)量各為n/3。
算法:
1)遍歷數(shù)據(jù)集D一次,找出D中的最大值DMax和最小值DMin,分別以DMax和DMin為聚類中心展開聚類,并標(biāo)記DMax和DMin的狀態(tài)為已被訪問過,下次不再進(jìn)行訪問。
2)繼續(xù)遍歷數(shù)據(jù)集D,找出D中的最大值DMax和最小值DMin,DMax劃分給CMax,DMin劃分給CMin,并標(biāo)記這兩個值的狀態(tài)為已被訪問過,下次不再進(jìn)行訪問。
3)重復(fù)步驟2),直到遍歷次數(shù)達(dá)到n/3次。
4)將未做標(biāo)記的數(shù)據(jù)歸為一簇。
5)輸出CMax和CMin以及CMid,CMax按從大到小的順序排列,CMin按從小到大的順序排列,CMid中的對象則按其原來的相對位置進(jìn)行排列。
圍繞極端值的三分聚類算法是專門為異常點的挖掘設(shè)計的,比較適合于極端降水的挖掘,所以本文采用它來對海南省的日降水量進(jìn)行聚類分析。
2 聚類挖掘技術(shù)的應(yīng)用
2.1 數(shù)據(jù)清洗及預(yù)處理
所用資料為海南島18個觀測站 、西沙永興島觀測站和西沙珊瑚島觀測站1961~2015年的逐日降水資料。
數(shù)據(jù)源中數(shù)據(jù)可能存在錯誤項,缺失值,重復(fù)值以及數(shù)據(jù)不一致等問題,在進(jìn)行數(shù)據(jù)挖掘時,這些數(shù)據(jù)會影響到數(shù)據(jù)的挖掘過程,產(chǎn)生錯誤的挖掘結(jié)果。因此,在開始數(shù)據(jù)挖掘前需要對數(shù)據(jù)進(jìn)行清洗、集成和轉(zhuǎn)換,才能為數(shù)據(jù)挖掘行為提供完整的、干凈的數(shù)據(jù)源。
自動氣象站實時觀測數(shù)據(jù)按照臺站號,逐小時進(jìn)行記錄,自動氣象站設(shè)備故障、數(shù)據(jù)采集計算機(jī)故障、通訊網(wǎng)絡(luò)中斷、數(shù)據(jù)接收存儲中心軟硬件故障等會造成數(shù)據(jù)記錄的缺失。處理數(shù)據(jù)缺失值的常用方法有:列均值、就近跨距均值、就近跨距中值、線性內(nèi)插值和線性擬合值。由于本文研究的降水量這個氣象要素是離散型變化的,所以對短時間(12小時以下)缺測記錄采用空間插值法來補(bǔ)充,對長時間(12小時以上)缺測記錄則對比人工定時觀測記錄來補(bǔ)充。
2.2 數(shù)據(jù)庫設(shè)計
為了便于進(jìn)行數(shù)據(jù)挖掘,設(shè)計建立數(shù)據(jù)庫儲存經(jīng)過預(yù)處理的數(shù)據(jù)集。首先完成數(shù)據(jù)庫的概念結(jié)構(gòu)設(shè)計,得到由日降水量實體構(gòu)成的E-R模型,如圖1所示。接著根據(jù)設(shè)計的E-R模型完成數(shù)據(jù)庫的物理結(jié)構(gòu)設(shè)計,創(chuàng)建數(shù)據(jù)庫,并在數(shù)據(jù)庫中創(chuàng)建每日降水量表,如表1所示。
2.3 挖掘結(jié)果
海南極端日降雨量55年以來每年均有出現(xiàn),但冬季和初春極少,主要集中在8~10月,進(jìn)入5月后開始增多,在9月達(dá)到最高值,11月后幾乎沒有極端降水出現(xiàn),海南省汛期出現(xiàn)的極端日降雨量數(shù)占全年的八成。而且海南省極端降水量呈東多西少的空間分布特征。
3 結(jié)論
本文采用聚類分析技術(shù)對海南省的18個基準(zhǔn)站的日降水量進(jìn)行分析研究,得到近55年來海南省的日極端降水量的日際分布情況。這對于認(rèn)識海南的極端降水事件特征,做好防災(zāi)減災(zāi)服務(wù)工作具有現(xiàn)實的意義。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生給氣象領(lǐng)域的分析研究帶來了新的發(fā)展,越來越多的氣象研究學(xué)者將其應(yīng)用于氣象防災(zāi)減災(zāi)、氣象服務(wù)、氣候分析、天氣預(yù)報預(yù)測、氣象數(shù)據(jù)質(zhì)量控制等領(lǐng)域的研究當(dāng)中。然而,目前幾乎沒有學(xué)者將數(shù)據(jù)挖掘技術(shù)應(yīng)用于海南氣象領(lǐng)域研究中,因此,本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于海南極端降水研究中是本文的一個創(chuàng)新之處。希望本文的工作能夠?qū)D蠚庀蠓?wù)、防災(zāi)減災(zāi)等方面的深入研究提供有用的參考。
參考文獻(xiàn)
[1]翟盤茂,王萃萃,李威.極端降水事件變化的觀測研究[J].氣候變化研究進(jìn)展,2007,3(3):144-148.
[2]吳慧,吳勝安.近48年海南省極端降水時空變化趨勢[J].安徽農(nóng)業(yè)科學(xué),2010,38(19):10101-10103.
[3]吳勝安,郭冬艷,楊金虎.海南熱帶氣旋降水的氣候特征[J].氣象科學(xué),2007,27(3):307-311.
[4]柯維耀.影響海南島熱帶氣旋降水分布特征分析與預(yù)測系統(tǒng)設(shè)計[D].成都:電子科技大學(xué),2013.
[5]鄭忠平.基于關(guān)聯(lián)規(guī)則和聚類分析的異常天氣挖掘[D].成都:電子科技大學(xué),2011.
[6]史靜,黨岳,張永欣,等.自動站數(shù)據(jù)質(zhì)量控制中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用[J].氣象科技,2014,42(4):612-616.
[7]劉偉東,尤煥苓,任國玉,等.北京地區(qū)自動站降水特征的聚類分析[J].氣象,2014(7):844-851.
[8]吳巖峻.不同天氣系統(tǒng)對海南島降水的貢獻(xiàn)及其變化的研究[D].蘭州:蘭州大學(xué),2008.