玉坤
摘要 本文以現(xiàn)運(yùn)行核電站周邊各種天氣環(huán)境下的點(diǎn)數(shù)據(jù)、線數(shù)據(jù)、以及面數(shù)據(jù)為儲(chǔ)備資料,針對(duì)氣象原始數(shù)據(jù)海量、雜亂、不易操作等缺點(diǎn),探討了將原始數(shù)據(jù)轉(zhuǎn)化為更利于數(shù)據(jù)挖掘的分析型數(shù)據(jù)的方法,研究了天氣預(yù)報(bào)分析型數(shù)據(jù)的概念和分析型數(shù)據(jù)五元紐模型,在常規(guī)空間距離的基礎(chǔ)上發(fā)展同時(shí)能夠反映分析型數(shù)據(jù)五元組間空間位置關(guān)系和屬性特征相似性的廣義距離。同時(shí)研究了對(duì)于氣象分析型數(shù)據(jù)的數(shù)據(jù)挖掘聚類算法及其輔助算法,并提出能夠表征氣象分析型數(shù)據(jù)之間、屬性或?qū)傩圆煌瑓^(qū)間值對(duì)聚類影響力特性的氣象因子概念。以天氣過程中的線數(shù)據(jù)類型為出發(fā)點(diǎn),開發(fā)了基于天氣預(yù)報(bào)分析型數(shù)據(jù)的數(shù)據(jù)挖掘聚類程序,為影響核電站安全的極端天氣的預(yù)測(cè)奠定堅(jiān)實(shí)的基礎(chǔ)。
【關(guān)鍵詞】數(shù)據(jù)挖掘 分析性數(shù)據(jù) 極端天氣聚類
1 氣象數(shù)據(jù)類型
隨著觀測(cè)技術(shù)、通訊技術(shù)和計(jì)算機(jī)技術(shù)的迅速發(fā)展,現(xiàn)有核電站和潛在的核電站廠址地區(qū)周邊觀測(cè)站獲得并積累了大量的氣象觀測(cè)數(shù)據(jù),針對(duì)于氣象數(shù)據(jù),譚曉光等[3]提出了天氣預(yù)報(bào)分析型數(shù)據(jù)的概念模型:天氣預(yù)報(bào)分析中氣象數(shù)據(jù)的最小分析單元就是一個(gè)天氣預(yù)報(bào)分析型數(shù)據(jù)。分析型數(shù)據(jù)可以由一個(gè)五元組描述,這五元組分別是:數(shù)據(jù)表示屬性集合、數(shù)據(jù)空間屬性集合、數(shù)據(jù)的非空間屬性集合、數(shù)據(jù)時(shí)間屬性集合、數(shù)據(jù)物理屬性集合。具體見表1。
表1顯示的是分析型數(shù)據(jù)五元組模型的具體屬性,在實(shí)際應(yīng)用中可能用到其中的全部屬性,也可以只使用其中部分屬性,這取決于具體的待處理的原始數(shù)據(jù)類型和具體的分析任務(wù)需求。本文根據(jù)已有的數(shù)據(jù)材料,以線性數(shù)據(jù)為基礎(chǔ),研究與降水量密切相關(guān)的暖鋒、冷鋒、高值區(qū)、低值區(qū)四個(gè)因素,將不同時(shí)間不同空域下的造成相似天氣現(xiàn)象的數(shù)據(jù)文本進(jìn)行分析聚類,為以后建立相應(yīng)的關(guān)聯(lián)規(guī)則做準(zhǔn)備。
2 聚類算法
本文采用數(shù)據(jù)場(chǎng)-K-Means相結(jié)合的聚類算法,利用JAVA語(yǔ)言編寫處理具體線性文本數(shù)據(jù)的程序模塊,通過數(shù)據(jù)場(chǎng)來自動(dòng)識(shí)別類的個(gè)數(shù)和中心,基于K-Means的方法實(shí)現(xiàn)數(shù)據(jù)聚類,既體現(xiàn)了空間數(shù)據(jù)對(duì)象的模糊性,繼承了兩種算法的優(yōu)點(diǎn),又克服了K-Means算法的缺點(diǎn)。
程序模塊的具體實(shí)現(xiàn)過程如表2所示。
(1)對(duì)于待聚類的數(shù)據(jù)集,對(duì)數(shù)據(jù)空間進(jìn)行笛卡爾坐標(biāo)的網(wǎng)格劃分,計(jì)算每一個(gè)網(wǎng)格點(diǎn)的數(shù)據(jù)場(chǎng)的勢(shì)值,然后采用消除勢(shì)心法或是爬山法來選擇初始的聚類中心。
聚類中心選取算法如表3所示。
(2)針對(duì)步驟一中選取的聚類中心,利用編寫的K-Means聚類算法程序模塊進(jìn)行后續(xù)的聚類,得到核電站周圍局部區(qū)域內(nèi)天氣要素的變化趨勢(shì)。
i聚類程序模塊首先利用歐氏距離(式1)將原始文本內(nèi)點(diǎn)狀線性數(shù)據(jù)進(jìn)行粗分類,然后將相應(yīng)數(shù)據(jù)代入廣義距離(式2)得到結(jié)果與式l進(jìn)行對(duì)比驗(yàn)證。
ii 如果二者結(jié)果較為相近,則求取二者均值作為相似數(shù)據(jù)類型聚類的標(biāo)準(zhǔn)距離,如果二者相差明顯,則選取較小值作為標(biāo)準(zhǔn)聚類距離。
3 結(jié)果分析
運(yùn)用數(shù)據(jù)場(chǎng)確定聚類中心的位置和數(shù)目,將其與K-means算法規(guī)定的中心數(shù)目進(jìn)行匹配,確定最終的聚類中心并進(jìn)行聚類統(tǒng)計(jì),并將所得聚類結(jié)果予以呈現(xiàn),如圖1所示。
圖1中呈現(xiàn)了在經(jīng)度112---120,緯度38---42.5范圍內(nèi)數(shù)據(jù)聚類的結(jié)果。從圖中可以看出,整個(gè)文本的數(shù)據(jù)共分為了4類,其中草綠色和紅色分別表示冷鋒和暖鋒,淡藍(lán)色和紫色分別表示低值區(qū)和高值區(qū)。
因此可以得到該時(shí)刻天氣特征的相關(guān)結(jié)論:
(1)在整個(gè)測(cè)試經(jīng)度范圍內(nèi),較高的緯度內(nèi)主要由高值區(qū)和極少量的冷鋒以及暖鋒組成。
(2)經(jīng)度和緯度都處于平均值以內(nèi)的區(qū)域天氣要素比較復(fù)雜,幾乎全部由暖鋒構(gòu)成,并包含有極少量的冷鋒和高值區(qū)和低值區(qū)。
(3)處于高經(jīng)低緯度區(qū)域內(nèi)的暖鋒和高值區(qū)要素?cái)?shù)量則比較相近。4結(jié)語(yǔ)
本文研究了將氣象數(shù)據(jù)轉(zhuǎn)化為分析型數(shù)據(jù)對(duì)象的方法,以及氣象數(shù)據(jù)對(duì)象聚類的方法及算法,設(shè)計(jì)和開發(fā)了一種基于java程序語(yǔ)言的普遍適用于氣象數(shù)據(jù)的數(shù)據(jù)挖掘聚類程序模塊,為影響核電站安全的氣象條件數(shù)據(jù)的處理分析奠定基礎(chǔ)。
參考文獻(xiàn)
[1]汪麗,汪梅冰,郭善云.核電站選址氣象條件的初步分析[J].高原山地氣象研究,2012,32 (02):61-64.
[2]國(guó)家能源局,核電廠廠址選擇安全規(guī)定[Z].北京:國(guó)家能源局,1991.
[3]譚嘵光,羅兵,天氣預(yù)報(bào)分析型數(shù)據(jù)模型及生成[J].應(yīng)用氣象學(xué)報(bào),2014, 25 (01):120-128
[4]簡(jiǎn)艷,賈洪勇.一種基于數(shù)據(jù)場(chǎng)的K一均值算法[J].計(jì)算機(jī)應(yīng)用研究,2010, 27 (12): 4498-4501.
[5]李興生,基于云模型和數(shù)據(jù)場(chǎng)的分類和聚類挖掘研究[D].南京:中國(guó)人民解放軍理工大學(xué),2003.
[6]張建輝.K-means聚類算法研究和運(yùn)用[D],武漢:武漢理工大學(xué),2007.