宋英男
(遼寧師范大學(xué)城市與環(huán)境學(xué)院,遼寧大連116029)
基于FCM的遼寧省氣溫聚類分析
宋英男
(遼寧師范大學(xué)城市與環(huán)境學(xué)院,遼寧大連116029)
基于FCM算法,對(duì)遼寧省22個(gè)氣象站點(diǎn)的氣溫時(shí)間序列采用正交函數(shù)對(duì)數(shù)據(jù)進(jìn)行降維處理,對(duì)并分3類降維后的數(shù)據(jù)進(jìn)行聚類分析,聚類結(jié)果符合區(qū)域?qū)嶋H氣溫特征情況。
時(shí)間序列;FCM算法;降維;聚類
隨著地理信息系統(tǒng)與空間數(shù)據(jù)挖掘的發(fā)展,已經(jīng)有大量的算法應(yīng)用到了氣象數(shù)據(jù)的分析中,時(shí)間序列已經(jīng)頻繁的應(yīng)用在經(jīng)濟(jì)[1]、醫(yī)學(xué)[2]、農(nóng)業(yè)[3]、環(huán)境監(jiān)測(cè)[4]等很多領(lǐng)域,并且已經(jīng)取得了大量的成果。
由于時(shí)間序列的高維數(shù)特征為時(shí)間序列聚類帶來(lái)了很多的計(jì)算困難,因此開(kāi)展時(shí)間序列的降維計(jì)算是數(shù)據(jù)挖掘領(lǐng)域研究的重要問(wèn)題之一。近年來(lái),相繼出現(xiàn)大量的降維算法。1974年J.C.Dunn提出模糊C均值聚類算法FCM(Fuzzy C-Mean clustering algorithm)[5],F(xiàn)CM算法具有簡(jiǎn)單,收斂速度快等優(yōu)點(diǎn),因此在實(shí)際中得到了廣泛的應(yīng)用。本文采用了通過(guò)正交函數(shù)系對(duì)原始時(shí)間序列數(shù)據(jù)進(jìn)行非線性映射,再通過(guò)FCM算法對(duì)數(shù)據(jù)聚類。解決了時(shí)間序列的高維數(shù)特征在處理過(guò)程中的時(shí)間復(fù)雜度過(guò)大的問(wèn)題,最終達(dá)到降維的目的,實(shí)現(xiàn)高維數(shù)特征數(shù)據(jù)處理的高效性。最后將該算法應(yīng)用于實(shí)際的地理數(shù)據(jù)的分析中。
2.1 正交函數(shù)系
正交函數(shù)系是由一系列正交基構(gòu)成的一個(gè)正交系統(tǒng)。本文所使用的是基于Fourier三角函數(shù)系的正交函數(shù)系的變形。
Fourier三角函數(shù)系定義。該三角函數(shù)系是將k個(gè)變量用[m,n](m,n為實(shí)數(shù))上的一條曲線來(lái)表達(dá),這條曲線保留原數(shù)據(jù)的全部信息。定義為:
其中xk為k個(gè)變量,t為該曲線的自變量。
2.2 FCM模型
模糊c均值(FCM)是一種采用交替的更新質(zhì)心和指派每個(gè)對(duì)象到最近的質(zhì)心的聚類方法,其定義如下:
其中cj是第j個(gè)簇的質(zhì)心,而p是確定權(quán)值影響的指數(shù),在1和∞之間取值。
2.3 基于正交函數(shù)系的聚類算法
通過(guò)2.1所提到的三角函數(shù)系,將原始數(shù)據(jù)映射到二維空間的函數(shù)。根據(jù)定積分的思想,在函數(shù)自變量-π到π之間平均取n個(gè)值所對(duì)應(yīng)的函數(shù)值組成新的序列,用n個(gè)點(diǎn)近似的代表原始數(shù)據(jù)高維數(shù)據(jù)的特征,從而達(dá)到降維的目的。
具體算法:Input:目標(biāo)矩陣,類數(shù)c,目標(biāo)維數(shù)n;Output:隸屬度矩陣;Step1.對(duì)原始數(shù)據(jù)通過(guò)2.1所提到的三角函數(shù)系進(jìn)行變換,并得到新的序列;Step 2.對(duì)得到的序列使用FCM算法。
采用本章所提出的算法對(duì)遼寧省22個(gè)站點(diǎn)的實(shí)測(cè)氣溫?cái)?shù)據(jù)進(jìn)行分析,該數(shù)據(jù)為1960年到2009年之間月平均氣溫,將每個(gè)站點(diǎn)的氣溫?cái)?shù)據(jù)看作一條時(shí)間序列通過(guò)基于正交函數(shù)系的聚類算法進(jìn)行數(shù)據(jù)維度的壓縮并使用FCM算法對(duì)降維后的數(shù)據(jù)進(jìn)行聚類分析。其結(jié)果如圖1所示。
從圖中可以看出,遼寧省內(nèi)的22個(gè)站點(diǎn)被分成了3類,其中藍(lán)色代表沈陽(yáng)、本溪、朝陽(yáng)、阜新、黑山、建平、岫巖和彰武,其地理分布處于遼寧省內(nèi)陸,氣溫屬于同一類型;紅色代表鞍山、大連、錦州、綏中、瓦房店、興城、營(yíng)口和莊河,其地理位置靠近海洋,屬于受海洋因素影響較大的類型;其余黃色表示鲅魚(yú)圈、撫順、桓仁、開(kāi)原、寬甸、清原,這些區(qū)域由于特殊原因氣溫的特征處于內(nèi)陸性和海洋性之間,故將它們劃為一類。其中鞍山的位置更靠近內(nèi)陸,卻分為海洋性氣候區(qū),據(jù)分析是受到渤海的內(nèi)陸性特點(diǎn)所影響;撫順靠近沈陽(yáng)卻沒(méi)有成為一組,可能是受其附近的大伙房水庫(kù)影響;丹東、岫巖一類的區(qū)域雖然沒(méi)有處于海洋附近,但是受到鴨綠江的影響,氣溫類型不屬于內(nèi)陸型。
圖1 遼寧省氣溫聚類結(jié)果
在實(shí)際的生產(chǎn)生活中,時(shí)間序列數(shù)據(jù)集巨大且復(fù)雜,如何解決這一問(wèn)題在數(shù)據(jù)挖掘?qū)I(yè)一直是研究熱點(diǎn)。本文采用基于正交函數(shù)系的算法處理數(shù)據(jù),不僅降低了于高維時(shí)間序列的處理上的復(fù)雜度,并且對(duì)于數(shù)據(jù)聚類結(jié)果的影響非常小。本文提出的方法僅限于時(shí)間序列,對(duì)于其他數(shù)據(jù)集的應(yīng)對(duì)方法還應(yīng)做進(jìn)一步研究。
[1]E.A.Maharaj,P.D'Urso,A coherence-based approach for the pattern recognition of time series,PhysicaA,389(2010):3516-3537.
[2]F.Gullo,G.Ponti,A.Tagarelli,G.Tagarelli,P.Veltri,A time series approach for clustering mass spectrometry data,Journal of Computational Science,3(2012):344-355.
[3]M.Debeljak,G.R.Squire,D.Kocev,C.Hawes,M.W.Young, S.Dzeroski,Analysis of time series data on agroecosystem vegetation using predictive clustering trees,Ecological Modelling,222(2011): 2524-2529.
[4]P.D'Urso,E.A.Maharaj,Wavelets-basedclusteringof multivariate time series,SciVerseScienceDirect,193(2012):33-61.
[5]J.C.Dunn,A fuzzy relative of the ISODATA process its use in detecting compact well-separated clusters,J.Cybernet,3(1974): 32-57.
The cluster analysis of air temperature in Liaoning Province Based on FCM
SONG Ying-nan
(College of Urban and Environment science,Liaoning Normal University,Dalian 116029,China)
Based on FCM algorithm,using orthogonal function to dimensionreduction22 temperature time series of meteorological stations in Liaoning province,then clusteringdata in 3 sorts, results are consistent with the regional characteristics of the actual temperature.
Time sequence;FCM algorithm; Dimension reduction;Clustering
P467
A
宋英男(1992-),女,滿族,籍貫山東泰安,碩士研究生,主要從事農(nóng)業(yè)生態(tài)氣象與應(yīng)用氣象研究。
(2016-08-25收稿劉曉佳編輯)
1003-7853(2016)05-0004-02