楊文濤,鄧 敏,王玉朝,顏才玉
(1.中南大學(xué)地理信息系,湖南長沙410083;2.云南大學(xué)資源環(huán)境與地球科學(xué)學(xué)院,云南昆明650091; 3.中南大學(xué)工商管理系,湖南長沙410083)
一種基于信息熵的時空點模式分析方法
楊文濤1,鄧 敏1,王玉朝2,顏才玉3
(1.中南大學(xué)地理信息系,湖南長沙410083;2.云南大學(xué)資源環(huán)境與地球科學(xué)學(xué)院,云南昆明650091; 3.中南大學(xué)工商管理系,湖南長沙410083)
現(xiàn)有時空點模式分析方法在度量時空鄰近或時空密度時,存在時空耦合參數(shù)選擇的主觀性問題,無法得到有效的分析結(jié)果,為此,該文提出了一種基于信息熵的時空點模式分析方法。首先,計算每個時空點實體的空間最近鄰的時間距離;進(jìn)而,統(tǒng)計不同范圍內(nèi)空間最近鄰的時間距離的頻率分布特征,計算歸一化信息熵值描述分布的不確定性程度,歸一化熵值越大越表現(xiàn)為聚集分布,熵值越小越趨近于隨機(jī)分布。最后進(jìn)行了模擬實驗比較和實際應(yīng)用驗證分析,結(jié)果表明:該方法在無須輸入敏感性參數(shù)條件下,能夠識別不同點模式類型,并能近似度量不同強度的聚集模式。
時空點模式;空間最近鄰的時間距離;信息熵
時空點模式分析是時空數(shù)據(jù)分析的一項重要內(nèi)容,旨在從時空點數(shù)據(jù)集中提取點群的時空分布特征和相互關(guān)系,即探討時空點對象集表現(xiàn)為聚集、隨機(jī)還是均勻分布模式[1,2]。對時空點數(shù)據(jù)集進(jìn)行模式分析,一方面能夠直接獲取時空點對象集的分布信息,如在犯罪“熱點”探測中,時空點模式分析可用于判別研究區(qū)域某時間段的犯罪事件集合是否表現(xiàn)為時空聚集模式,聚集程度如何等[3];另一方面也是進(jìn)行時空聚類、時空異常探測等相關(guān)分析的基礎(chǔ)性工作,如在時空點群聚類分析前需要對其可聚性進(jìn)行判別,只有在數(shù)據(jù)表現(xiàn)為聚集分布模式的條件下,得到的聚類結(jié)果才是有效的[4-6]。由此可見,時空點模式分析具有非常重要的作用。
現(xiàn)有空間點模式分析方法[7-15]主要借助于空間鄰近或空間密度指標(biāo)來判別分布類型,僅考慮空間特征卻忽略了時間特征,從而難以適應(yīng)于存在明顯時間跨度的時空數(shù)據(jù)。針對這一問題,一些研究試圖將現(xiàn)有的空間點模式分析方法從空間域擴(kuò)展到時空域,從時空一體化的角度度量時空鄰近或計算時空密度,然而時空耦合參數(shù)選擇的主觀性,直接影響著時空點模式分析結(jié)果的有效性。例如,在基于細(xì)胞單元的密度計算過程中[16-18],時空細(xì)胞單元的空間長度與時間長度難以確定,而在基于距離的密度計算過程中[19],空間k近鄰與時間k近鄰的參數(shù)k值亦難以確定。為此,本文提出一種基于信息熵的時空點模式分析方法,在不需要用戶輸入敏感性參數(shù)的條件下,該方法能夠兼顧空間特征與時間特征,采用空間最近鄰的時間距離來度量時空點對象間的鄰近性,同時考慮到空間最近鄰的時間距離在不同時空點模式類型下分布的差異性,借助于信息熵理論判別時空點模式的分布類型。
時空點模式主要包括3種類型:聚集分布模式、隨機(jī)分布模式和均勻分布模式,而地理空間中的點數(shù)據(jù)集一般較少表現(xiàn)為均勻分布,因而時空點模式分析主要是識別數(shù)據(jù)是隨機(jī)分布還是聚集分布(圖1)。對基于信息熵的時空點模式分析理論與步驟介紹前,有必要給出與分析過程有關(guān)的幾個概念。
圖1 時空點分布模式的3種類型Fig.1 Three types of spatio-temporal point pattern
1.1 相關(guān)定義
定義1 時空點對象:在地理空間中發(fā)生的事件能夠采用點對象進(jìn)行抽象表達(dá),這些地理事件有確定的空間位置(x,y)與確定的時間t,數(shù)據(jù)表示為(x,y,t),如圖2a所示。
定義2 空間最近鄰的時間距離:給定時空點實體對象集合P,P={p1,p2,p3,…,pn},對于P中任一點pi(xi,xi,ti),都存在pj(xj,xj,tj)(j≠i),使得任意pk(xk,yk,tk)(k≠i,k≠j))都滿足:
則pj為pi的空間最近鄰,pi空間最近鄰的時間距離為|ti-tj|。如圖2b所示,對p1點而言,其空間最近鄰為p2,在這種情況下p1的空間最近鄰的時間距離為Δt,即p1與p2時間距離的絕對值。
圖2 時空點對象與空間最近鄰時間距離的示意圖Fig.2 Illustration of spatio-temporal point object and temporal distance of spatial nearest neighbor
1.2 基于信息熵的時空點模式分析原理
時空點數(shù)據(jù)同時具有空間特征與時間特征,由于兩者具有不同的量綱,因而不能直接由空間位置信息與時間信息計算時空距離,也就無法得到時空最近鄰。但是空間最近鄰的時間距離是空間位置信息與時間信息的結(jié)合,空間最近鄰的時間距離能夠間接地度量時空鄰近性,高密度時空區(qū)域的空間最近鄰的時間距離在統(tǒng)計上小于低密度的空間最近鄰的時間距離,隨機(jī)分布模式下空間最近鄰的時間距離在整個取值區(qū)間上近似于均勻分布,不確定性較大,而聚集分布模式下空間最近鄰的時間距離在較小的取值區(qū)間中頻率較大,不確定性較小。
由于不同時空點分布模式類型中,空間最近鄰的時間距離分布存在差異,因而可以通過度量這種分布的不確定性,來判別時空點模式的分布類型。信息熵是度量不確定性的工具之一,不確定越大則信息熵越大[20],因此,空間最近鄰時間距離的分布不確定性可借助于信息熵進(jìn)行度量,隨機(jī)分布模式下的信息熵最大,而聚集分布模型模式下信息熵較小,并且數(shù)據(jù)聚集程度越高其信息熵越小。
1.3 基于信息熵的時空點模式分析過程
基于信息熵的時空點模式分析方法,將空間最近鄰時間距離的值域等間距地劃分為k個區(qū)間單元{Bi|i=1,2,3,…,k},若Bi包含Ci個數(shù)據(jù)對象,點對象總的數(shù)目為N,那么由信息熵理論規(guī)定如下:
其中,式(2)給出了空間最近鄰時間距離的信息熵(Inf o)計算方法,式(3)描述了信息熵的取值范圍,式(4)與式(5)給出了信息熵取最值的條件。當(dāng)空間最近鄰的時間距離的值域劃分為k個區(qū)間時,信息熵的最大值為log2k,隨機(jī)分布模式下,空間最近鄰的時間距離近似于均勻分布,落在每個區(qū)間單元的點數(shù)大致相等,因而信息熵近似于log2k,聚集分布模式下信息熵小于log2k,并且聚集程度越高,則信息熵越小??紤]到k的取值對信息熵的影響,即不同劃分k對應(yīng)的信息熵存在差異,因此,對信息熵取值進(jìn)行歸一化處理,表達(dá)為:
或
由于Inf o取值為[0,log2k],則NI(Normalized Index)取值為[0,1];NI趨近于0時,為隨機(jī)分布, NI值越大,則聚集程度越大。于是,基于信息熵的時空點模式分析的具體步驟為:1)計算每個空間實體的空間最近鄰的時間距離;2)將空間最近鄰時間距離取值區(qū)間等距劃分為k個區(qū)間單元{Bi|i=1, 2,3,…,k},計算落在每個區(qū)間單元的點個數(shù)Ci(i= 1,2,3,…,k)(k>10);3)依據(jù)式(6)計算歸一化指數(shù)NI,判別時空模式的類型,如果NI趨近于0則為隨機(jī)分布模式,NI越大聚集程度越高。
2.1 模擬實驗
本文設(shè)計兩組模擬數(shù)據(jù)來驗證算法的有效性,每組模擬數(shù)據(jù)包括4個數(shù)據(jù)子集。第一組模擬數(shù)據(jù)集描述一個由聚集到隨機(jī)的漸變過程,在(0,10)和(0,10)矩形空間區(qū)域中生成300個時空點對象,數(shù)據(jù)集的時間范圍為(0,10),如圖3所示。第二組模擬數(shù)據(jù)則考慮研究區(qū)域存在多個時空簇,以及時空簇密度存在差異,在(0,20)和(0,20)矩形空間區(qū)域中生成200個時空點對象,數(shù)據(jù)集的時間范圍為(0, 10),如圖4所示。
圖3 第一組模擬數(shù)據(jù)集Fig.3 The first group of simulated datasets
圖4 第二組模擬數(shù)據(jù)集Fig.4 The second group of simulated datasets
按照本文所提出的方法對兩組模擬數(shù)據(jù)分別進(jìn)行分析,空間最近鄰的時間距離區(qū)間劃分k取20,兩組數(shù)據(jù)的頻率直方圖如圖5和圖6所示,其中橫坐標(biāo)表示區(qū)間單元(空間最近鄰距離時間距離的一個取值范圍),縱軸表示頻率(落在某個取值范圍中點的數(shù)目占所有點數(shù)目的比例)。在實驗中,為了分析k對NI取值的影響,計算不同區(qū)間劃分(k=5, 10,…,50)所對應(yīng)的NI值,實驗結(jié)果如圖7和圖8所示??梢园l(fā)現(xiàn):兩組數(shù)據(jù)中聚集程度較大的數(shù)據(jù)集(1-1與2-1)的NI值較大,并且隨著數(shù)據(jù)的聚集程度降低,NI值也相應(yīng)減小;數(shù)據(jù)集1-4與數(shù)據(jù)集2-4模擬的是隨機(jī)分布模式,在不同的k值對應(yīng)的NI值均小于0.1,從而滿足理論上隨機(jī)分布下NI值趨近于0的推斷。此外,從圖7與圖8可以分析得出,式(2)中的信息熵經(jīng)過歸一化后,其取值平穩(wěn),但是NI值與k的選取存在一定相關(guān)性,當(dāng)k取較小的值,NI值偏大,這是由于劃分的區(qū)間個數(shù)較少導(dǎo)致整體不確定性減小。
因此,從上述實驗可知,時空數(shù)據(jù)表現(xiàn)為隨機(jī)分布時,其信息熵最大,對應(yīng)的NI值趨于0,而聚集分布模式的信息熵較小,聚集程度越高則信息熵越小,對應(yīng)的NI值越大。
圖5 第一組模擬數(shù)據(jù)集的頻率直方圖(k=20)Fig.5 Frequency histogram of the first group of simulated datasets(k=20)
圖6 第二組模擬數(shù)據(jù)集的頻率直方圖(k=20)Fig.6 Frequency histogram of the second simulated datasets(k=20)
2.2 實際應(yīng)用
實驗數(shù)據(jù)為中國陸地2008-2009年震級大于4的地震數(shù)據(jù),如圖9所示。采用本文提出的基于信息熵的時空點模式分析方法對地震分布模式進(jìn)行分析,首先計算每個時空對象的空間最近鄰的時間距離,將整個取值范圍劃分k個區(qū)間單元,然后統(tǒng)計落在每個區(qū)間單元的點數(shù)。圖10表示k取20的頻率直方圖,圖11表示不同k所對應(yīng)的NI值,NI的取值均在0.4附近,以此可以判斷我國2008-2009年發(fā)生地震(M>4)為聚集分布模式,并且聚集程度較高。實際上,我國位于世界兩大地震帶—環(huán)太平洋地震帶與歐亞地震帶交匯部位,在2008-2009年地震(M>4)主要聚集分布在青藏高原地震區(qū)與四川龍門山地震帶,其中2008年5月四川龍門山地震帶發(fā)生里氏8.0級的地震以及隨之發(fā)生的余震表現(xiàn)為顯著的時空聚集特征。基于信息熵的時空點模式分析可以用來獲取地震的分布類型,當(dāng)數(shù)據(jù)表現(xiàn)為顯著的聚集分布時,可以對地震數(shù)據(jù)進(jìn)行更深入的分析,進(jìn)一步了解地震時空統(tǒng)計分布特征與演變規(guī)律。
圖7 模擬數(shù)據(jù)一的k區(qū)間劃分對應(yīng)的NI值Fig.7 Results of NI for the first group of datasets
圖8 模擬數(shù)據(jù)二的k區(qū)間劃分對應(yīng)的N I值Fig.8 Results of NI for the second group of datasets
圖9 2008-2009年中國陸地地震數(shù)據(jù)(M>4)Fig.9 China′s seismic data during 2008-2009(M>4)
圖10 地震數(shù)據(jù)的頻率直方圖Fig.10 Frequency histogram of the seismic data(k=20)
圖11 地震數(shù)據(jù)的k區(qū)間劃分對應(yīng)的N I值Fig.11 Results of NI for the seismic data
本文提出了一種基于信息熵的時空點模式分析方法,采用空間最近鄰的時間距離度量時空鄰近性,避免了用戶選取閾值的主觀性問題,進(jìn)而依據(jù)空間最近鄰的時間距離在隨機(jī)分布模式與聚集分布模式下分布的差異性,采用不確定性度量工具——信息熵定量地判別分布類型,通過兩組模擬數(shù)據(jù)和實際地震數(shù)據(jù)驗證了本文方法的可行性與實用性。
本文對時空分布模式類型的判別是建立在單一的時空尺度上,考慮到時空數(shù)據(jù)分析在不同時空尺度上可能會產(chǎn)生不同的結(jié)果,因而,下一步的研究工作需考慮不同時空尺度對分布模式類型的影響。
[1] ANSELIN L,REY S J.Perspectives on Spatial Data Analysis [M].Springer Berlin Heidelberg,2010.
[2] SHEKHAR S,VATASAVA R R,CELIK M.Spatial and Spatiotemporal Data Mining:Recent Advances.Next Generation ofData Mining[M].New York:CRC Press,2009.
[3] MURRARY A T,MCGUFFOG I,WESTERN J S,et al.Exploratory spatial data analysis techniques for examining urban crime[J].British Journal of Criminology,2001,41(2):309-329.
[4] 鄧敏,劉啟亮,李光強,等.空間聚類分析及應(yīng)用[M].北京:科學(xué)出版社,2011.
[5] DENG M,LIU Q L,WANG J Q,et al.A g eneral method of spatio-temporal clustering analysis[J].Science China:Information Science,2012,42(1):111-124.
[6] BIRANT D,KU T A.ST-DBSCAN:An algorithm for clustering spatial-temporal data[J].Data&Knowledg e Discovery,2007, 60(1):208-221.
[7] CLARK P J,EVANS F C.Distance to nearest neighbor as a measure of spatial relationships in populations[J].Ecology, 1954,35:445-453.
[8] RIPL E B D.Spatial Statistics[M].New York:Wiley,1981.
[9] BAILEY T C,GATRELL A C.Interactive Spatial Data Analysis[M].Harlow,England:Longman Scientific&Technical, 1995.
[10] HAASE P.Spatial pattern analysis in ecology based on Ripley′s K-function:Introduction and methods of edg e correction[J]. Journal of Vegetation Science,1995,6(4):575-582.
[11] GAT RELL A C,BAILEY T C,DIGGLE P J,et al.Spatial point pattern analysis and its application in geographical epidemiology[J].T ransaction of the Institute of British Geographers, 1996,21(1):256-274.
[12] BOOTS B N,GET IS A.Point Pattern Analysis[M].Newbury Park,CA:Sage Publications,1998.
[13] HAINING R P.Spatial Data Analysis:Theory and Practice[M]. U K:Cambridge University Press,2003.
[14] 王勁峰.空間分析[M].北京:科學(xué)出版社,2006.
[15] 王遠(yuǎn)飛,何洪林.空間數(shù)據(jù)分析方法[M].北京:科學(xué)出版社, 2007.
[16] KU LLDORFF M,HJALMARS U.T he Knox method and other tests for space-time interaction[J].Biometrics,1999,55:544 -552.
[17] KULLDORFF M,HEFFERNAN R,ASSUNCAO R,et al.A space-time permutation scan statistic for disease outbreak detection[J].Plos Medicine,2005,2(3):216-224.
[18] GAUDART J,POU DIOU GOU B,DICKO A,et al.Space-time clustering of childhood Malaria at the household level:A dynamic cohort in a Mali village[J].BMC Public Health,2008, 6:286.
[19] JACQUEZ G M.A K nearest neighbor test for space-time interaction[J].Statistics in M edicine,1996,15(17-18):1935-1949.
[20] SHANNON C E.A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27:379-423,623-656.
A Method of Spatio-Temporal Point Pattern Analysis Based on Information Entropy
YANG Wen-tao1,DENG Min1,WANG Yu-chao2,YAN Cai-yu3
(1.Dep artment of Geo-inf ormatics,Central South University,Changsha410083; 2.School of Resource Environment and Earth Science,Yunnan University,Kunming650091; 3.Dep artment of Business Administration,Central South University,Changsha410083,China)
Existing methods of spatio-temporal point pattern analysis require users to set both space and time autocorrelation parameters,and the selection of those parameters is difficult and subjective,which makes it difficult to obtain effective and reliable results.T o overcome this difficulty,in this paper,a spatio-temporal point pattern analysis method based on the information entropy theory is proposed.In the method,the temporal distance of one object to its spatial nearest neighbor is firstly calculated, and then the frequency of the temporal distance is counted in each interval.Finally,an index based the normalized information entropy is developed to describe the uncertainty of the temporal distance distribution.According to the value of the index,the type of spatio-temporal point pattern can be identified,and a larger value indicates an aggregate distribution pattern while a small value(which is near zero)means a random distribution pattern.Both simulated and real-life datasets are used to evaluate the proposed method,and the results show that the proposed method can identify the different point pattern types with less parameters,and what′s more,it has been found that the index can even indicate the strength of aggregation patterns in some sense.
spatio-temporal point patterns;temporal distance of spatial nearest neighbor;information entropy
P208
A
1672-0504(2016)05-0071-05
10.3969/j.issn.1672-0504.2016.05.011
2016-01-09;
2016-05-24
湖南省研究生創(chuàng)新項目(CX2014B051)
楊文濤(1988-),男,博士研究生,研究方向為地理空間數(shù)據(jù)挖掘。E-mail:yangwentao8868@126.com