鄧 敏,諶愷祺,石 巖,陳袁芳,郭藝文
中南大學地球科學與信息物理學院地理信息系,湖南 長沙410083
現(xiàn)實生活中通常存在一種不同類型地理事件或要素間的共生現(xiàn)象(如動植物群落互利共生)[1],這種由頻繁空間互近鄰而形成的關聯(lián)規(guī)則稱為空間同位模式[2]。在大數(shù)據(jù)時代,隨著對數(shù)據(jù)間相關關系的重點關注,從海量地理空間數(shù)據(jù)中對潛在的空間同位模式進行高效、精準挖掘,將為城市公共設施布局管理、犯罪事件聯(lián)合防控、興趣點推薦服務[3]等提供不可或缺的決策知識支持,為此已成為地理空間大數(shù)據(jù)挖掘的研究熱點[3]。
空間同位模式挖掘是關聯(lián)規(guī)則挖掘領域的重要研究內(nèi)容之一[4],現(xiàn)有方法大多基于多類要素實體間的空間鄰近關系建立規(guī)則事務表,進而借助傳統(tǒng)關聯(lián)規(guī)則挖掘算法的思想實現(xiàn)同位模式判別[5]。其中,空間實體間鄰近關系構建主要包括兩類:一類是對空間數(shù)據(jù)進行區(qū)域劃分以構建空間事務集,例如特征中心模型[6]、窗口中心模型[7]以及基于圖的模型[8];第二類是非事務化方法,例如采用基于距離[9]或基于密度的度量方法構建空間鄰域關系[10]。根據(jù)不同類型要素間的空間鄰近關系,進一步通過定義要素間的同位強度指標(如參與指數(shù)等[11]),并采用主觀閾值設置[1]或基于零假設構建(如空間分布模式重建[2])的顯著性統(tǒng)計檢驗策略實現(xiàn)對空間同位模式的有效性判別[12]。另外,地理數(shù)據(jù)本身固有的空間異質(zhì)性將使空間同位模式呈現(xiàn)局部聚集分布特征,對此一些學者針對性地提出了一系列局部同位模式挖掘方法[11],其核心思想在于通過采用四叉樹[13]、格網(wǎng)劃分[14]、K-近鄰圖[15]、聚類分析[16]等方法進行地理分區(qū),而分區(qū)策略的選擇也將在很大程度上影響局部同位模式的挖掘結果。在現(xiàn)實世界中,地理空間數(shù)據(jù)的多尺度特征使得在不同空間尺度下空間同位模式將呈現(xiàn)差異化分布格局。如圖1所示由A、B兩類地理要素構成的數(shù)據(jù)集,現(xiàn)有空間同位模式挖掘方法僅能得出“A、B兩類要素構成空間同位模式”這一結論。若從不同分析尺度的視角來看,則可以明顯發(fā)現(xiàn)空間同位模式〈A,B〉主要分為4個區(qū)域,其中從圖1(b)到1(d),兩類要素構成的同位模式實例的分布密度與規(guī)模均遞增,且分布形態(tài)各異。
圖1 多尺度空間同位模式與噪聲簡例Fig.1 An example of spatial colocation patterns at multiple scales
通過以上分析發(fā)現(xiàn),當前基于關聯(lián)規(guī)則挖掘的相關研究在一定程度上可以有效探測空間同位模式,但同時也存在對地理空間數(shù)據(jù)特征量化不足的缺點,主要表現(xiàn)在:①引入人為設定參數(shù)構建實體空間鄰近關系,而對不同參數(shù)(如空間鄰域距離閾值)與空間多尺度之間的對應關系缺乏深入分析,降低了挖掘結果的可解釋性;②仍停留在對空間同位模式構成要素的判別,難以有效揭示同位模式的多尺度空間分異規(guī)律。
針對以上問題,本文借助空間聚類研究中點過程建模與分解的思想[17],顧及空間尺度效應提出一種空間同位模式的多尺度分異格局挖掘方法。
空間同位模式在本質(zhì)上源于地理事件或要素間存在的相互關聯(lián)關系,而這種關聯(lián)關系的差異性將驅(qū)動空間同位模式呈現(xiàn)出顯著的多尺度分異特征。因此,本文首先將不同類型地理要素的實體分布建模為一種混合空間點過程,通過構建一個隨機變量描述不同點過程間的關聯(lián)關系,并定義一個參數(shù)用于表達關聯(lián)關系的多尺度特征;進而,通過計算不同尺度下隨機變量的統(tǒng)計特征實現(xiàn)空間同位模式的多尺度判別;針對包含空間同位模式的特征尺度,擬合隨機變量的條件概率密度函數(shù),最后基于點過程分解的思想挖掘不同尺度下參與空間同位模式構建的要素實例。本文研究策略如圖2所示。
圖2 本文研究策略Fig.2 The proposed research strategy
為定量描述兩類地理要素之間的相互關聯(lián)關系,可將一類要素的實例分布建模為另一類要素分布作用下的隨機點過程。具體而言,若已知一類要素的實例分布,可以通過構建條件概率密度函數(shù)的方式描述另一類要素的實例分布?;诖?,首先給出以下定義。
定義1:條件點過程。給定包含兩類地理要素A、B的點集數(shù)據(jù)EA={a1,a2,…,an}、EB={b1,b2,…,bp},其中分別將A和B定義為參考要素和目標要素。在參考要素EA分布已知的條件下,可將目標要素B的實例構建聯(lián)合概率密度函數(shù)f(EB)=p(b1,b2,…,bp|EA),稱為要素B的條件點過程。
針對任一參考要素實例ai,定義以下交叉K近鄰距離隨機變量來多尺度描述參考要素對目標要素的關聯(lián)作用。
定義2:交叉K近鄰距離。實例ai的交叉K最近鄰距離dK(ai)為ai與距離其最近的K個B類要素實例之間的最大距離,參數(shù)K用于控制要素之間關聯(lián)關系的空間尺度。
區(qū)別于傳統(tǒng)基于關聯(lián)規(guī)則方法利用參與度閾值進行空間同位模式有效性判別的策略[6],基于以上構建的交叉K近鄰距離變量,引入一個交叉K近鄰距離突變指標以量化同位模式的空間分布特征在不同尺度下的變化規(guī)律,從而實現(xiàn)空間同位模式的特征尺度判別。其中,本文將空間同位模式特征尺度定義如下。
定義3:空間同位模式特征尺度。給定任一參數(shù)K,引入以下非參指標:交叉K近鄰距離方差比IK來檢測兩類空間點實體的交叉鄰近關系在連續(xù)尺度變化過程中是否存在突變[18]
(1)
式中,VarK+1和VarK分別表示兩類點實體交叉K+1和交叉K近鄰距離方差;RK表示點過程數(shù)據(jù)在服從均勻泊松分布情況下的交叉K+1與交叉K近鄰距離方差比[18],即
(2)
若IK>1,則說明存在交叉鄰近關系的跨尺度突變,此時認為在參數(shù)K對應的空間尺度下存在顯著的同位模式特征實例,從而將該尺度定義為空間同位模式的一個特征尺度,如圖1(b)—圖1(e)所示。
根據(jù)多特征空間尺度下的交叉K近鄰距離變量,采用構建概率密度函數(shù)的方式定量表達在參考要素約束下目標要素的條件概率分布。首先,假設目標要素實例在參考要素實例周圍呈泊松分布[19],那么對于任一參考要素實例ai,其交叉K近鄰距離dK大于等于變量x的概率可以轉化為以該實例為圓心、x為半徑的圓形區(qū)域范圍內(nèi)含有少于K個點的概率,即
1-FdK(x)
(3)
式中,參數(shù)λ表示目標要素實例在參考要素實例周邊的期望分布密度;FdK(x)為交叉K近鄰距離的概率分布函數(shù),據(jù)此可將FdK(x)進行求導得到dK的概率密度函數(shù),表達為
(4)
由于受空間相關性與異質(zhì)性的綜合影響,參考要素約束下的目標要素實例通常將呈現(xiàn)一種局部均質(zhì)、整體異質(zhì)的混合泊松分布。基于此,本文借鑒單類要素點過程的思想[19],將目標要素實例條件分布分解為一個蘊含顯著空間同位模式實例的特征子過程和一個噪聲子過程。進而,可將目標要素實例混合條件概率密度函數(shù)表達為
fdK(x)=p1fdK(x;k,λ1)+p2fdK(x;k,λ2)=
(5)
式中,fdK(x;k,λ1)與fdK(x;k,λ2)分別為特征與噪聲子過程的條件概率密度函數(shù);p1、p2分別表示實例隸屬于兩個子過程的概率。如圖3(a)所示數(shù)據(jù)集中A、B兩類要素的條件概率密度函數(shù),分別由兩個均質(zhì)泊松過程Ⅰ和Ⅱ構成,其中泊松過程Ⅰ的目標要素條件分布密度顯著大于泊松過程Ⅱ(如圖3(b)所示),因此可以分別將Ⅰ和Ⅱ視作特征子過程與噪聲子過程。
圖3 目標要素條件概率密度分布簡例Fig.3 An example of the conditional probability density distribution of target points
針對以上包含不同參數(shù)的特征與噪聲泊松點過程,引入變量δi指示要素實例ai的歸屬,其中δi=1或0分別表示該實例屬于特征或噪聲子過程,進而采用基于最大期望(EM)算法的點過程分解計算參數(shù)δi,從而確定各目標要素實例的同位模式子過程最終歸屬。EM算法主要分為E步與M步,其中E步通過求解均值逼近似然函數(shù)的下界,表達為
(6)
(7)
(8)
(9)
通過E步與M步的迭代更新參數(shù)直至收斂,最終得到各實例的子過程歸屬δi值,通常認定δi大于0.5時,判定實例i屬于特征子過程即空間同位模式實例;否則,則實例ai被認定為噪聲子過程。
本節(jié)設計兩組試驗驗證本文方法的有效性與實用性。首先模擬一組包含兩類要素、3個不同尺度同位模式的空間點過程數(shù)據(jù),通過與一種基于傳統(tǒng)關聯(lián)規(guī)則的局部同位模式挖掘方法[16]進行對比試驗分析來證明本文方法的優(yōu)越性。進而,利用本文方法對我國某地級市2015年的多類警情數(shù)據(jù)進行實際案例分析與應用。
圖4 模擬數(shù)據(jù)集Fig.4 The spatial distribution of two types of points in a simulated dataset
相關研究表明文獻[16]提出的多層次空間同位模式挖掘方法(以下簡稱ARCM)充分發(fā)揮了自適應空間聚類策略的空間區(qū)域劃分優(yōu)勢,經(jīng)對比發(fā)現(xiàn)其挖掘精度顯著高于其他現(xiàn)有空間同位模式挖掘方法[16];另外,該方法挖掘的多層次空間同位模式中蘊含了空間尺度信息,為此將基于以上模擬數(shù)據(jù)集與ARCM方法進行對比分析。ARCM方法主要包含以下4個閾值:①最小參與指數(shù)閾值,依據(jù)文獻[16]設置為0.5;②局部參與指數(shù)閾值,依據(jù)文獻[21]設置為0.1;③空間同位模式規(guī)模閾值,依據(jù)文獻[22]設置為0.02;④鄰域距離閾值,根據(jù)文獻[22]的建議,基于L函數(shù)計算進行設置。采用以上設定的參數(shù),ARCM方法難以有效區(qū)分具有不同形態(tài)、不同尺度的空間同位模式。為了便于與本文方法進行對比,本文將最小參與指數(shù)閾值重新設置為0.6,從而得到圖5中的兩個空間同位模式區(qū)域(如灰色區(qū)域所示)。
圖5 ARCM方法空間同位模式挖掘結果Fig.5 Spatial co-location patterns detected by the ARCM method
本文方法中將K值設置為1~6,在A、B兩類要素分別被定義為目標要素的情況下,通過方差比指標IK檢驗可以發(fā)現(xiàn)K值在[1,5]區(qū)間內(nèi)均存在顯著空間同位模式特征實例,見表1。進而,在該尺度區(qū)間內(nèi)進行條件點過程分解,得到不同尺度下的條件概率密度分布與空間同位模式特征實例,如圖8所示。從中可以發(fā)現(xiàn):①K=1時兩類要素的交叉K近鄰距離皆呈長尾狀單峰分布,表明在小尺度下兩類要素實例大多具有互鄰近關系,整體分布由特征子過程主導,且區(qū)域Ⅰ、Ⅱ、Ⅲ預設的模式均被挖掘。②K=2時的條件概率密度分布開始呈現(xiàn)雙峰結構,即噪聲子過程占比增加而單獨成峰,此時可探測出圖4中區(qū)域Ⅱ、Ⅲ內(nèi)中、大尺度空間同位模式,而區(qū)域I內(nèi)的小尺度同位模式則被識別為噪聲子過程。③從K=4開始條件概率密度分布的雙峰結構更加顯著,主要可以識別出區(qū)域Ⅲ內(nèi)的大尺度空間同位模式實例。
表1 空間同位模式特征尺度判別結果Tab.1 The result of characteristic scale determination of co-location patterns
另外,不同特征尺度下得到的空間同位模式可能存在實例重疊,進而將相鄰特征尺度下的空間同位模式實例做差集計算,即可最終獲取如圖7所示的各特征尺度下的獨有空間同位模式實例,與預設結果基本一致。
圖6 不同尺度下的條件點過程分解結果Fig.6 The results of conditional point process decomposition at different scales
圖7 本文方法多尺度空間同位模式挖掘結果Fig.7 Multi-scale spatial colocation patterns detected by the proposed method
可以發(fā)現(xiàn),①本文方法不僅可以探測特定尺度下是否存在空間同位模式,還可以提取不同尺度下的空間同位模式實例;而ARCM方法僅能識別包含顯著空間同位模式的區(qū)域,而難以實現(xiàn)空間同位模式的多尺度區(qū)分與模式實例判別。②ARCM方法包含較多需要人為設置的參數(shù),而本文方法僅有一個參數(shù)K,挖掘結果更加穩(wěn)定、客觀且方法更實用。
犯罪地理學相關研究表明,不同類型犯罪事件之間由于相互誘導作用而存在潛在的空間同位模式[1],對這種空間同位模式進行多尺度挖掘?qū)⒂兄诮沂痉缸锸录l(fā)生的內(nèi)在機理,對于區(qū)域犯罪防控具有重要的應用價值[23]。為此,以我國某地級市中心城區(qū)為研究區(qū)域,采用該市2015年全年警情記錄數(shù)據(jù)對本文方法進行實際應用,該數(shù)據(jù)包括:①交通糾紛(3054例)、②一般刑事案件(4269例)、③涉黃(1669例)、④妨礙社會秩序(1164例)、⑤擾亂公共秩序(2159例)、⑥搶險救災(2194例)、⑦治安糾紛(3054例)、⑧衛(wèi)生救助(1184例)、⑨自然災害(4494例)、⑩賭博(4484例)等10類警情事件。
對10類警情事件進行兩兩組合共包含45個二元同位模式,對此利用本文方法可以得到圖8所示的多尺度挖掘結果(其中黑色矩形表示相應同位模式的特征尺度,灰色矩形表示相應事件組合空間同位模式的特征尺度總數(shù)),發(fā)現(xiàn)當尺度較小時大多數(shù)警情事件之間均存在有效同位模式,這說明由于城市空間中存在多種復雜的環(huán)境誘導機制(如政治、經(jīng)濟、文化、娛樂等),在一定程度上促使不同類型的警情事件頻繁發(fā)生在空間鄰近區(qū)域,且顯著二元同位模式的數(shù)量隨著尺度增大而顯著減少。為此,本文推測這種大尺度顯著同位模式存在的根本原因在于兩類警情事件之間本身存在相互誘導作用,例如經(jīng)常發(fā)生聚集賭博的場所中人員混雜,其中通常伴隨著惡性經(jīng)濟糾紛,從而引發(fā)相關刑事案件,所以〈一般刑事案件,賭博〉在K=13與K=15兩個大尺度下均被判別為存在顯著同位模式實例。值得注意的是,〈妨害社會秩序,搶險救災〉在所有尺度下均不存在同位模式,這是由于妨害社會秩序事件大多發(fā)生在人流量較大、公共設施較多的城市核心區(qū)域,而搶險救災事件則通常發(fā)生在城市邊緣區(qū)域,導致兩類事件之間空間距離較遠而難以產(chǎn)生直接或者間接的相互誘導作用。由此可見,這種多尺度挖掘的視角有助于更好地理解事件之間的關聯(lián)與誘導機制。
圖8 警情事件多尺度同位模式挖掘結果Fig.8 The detection results of multi-scale co-location patterns between emotional events
由于篇幅所限,本文以圖9所示的〈涉黃,賭博〉、〈妨害社會秩序,擾亂公共秩序〉兩對事件組合的空間同位模式實例分布為例進行合理性解釋。從結果中可以發(fā)現(xiàn),小尺度下城市核心區(qū)域與周邊區(qū)域均存在小規(guī)模同位模式實例分布(如圖9(a)、(c)所示),而大尺度下的大規(guī)模同位模式僅分布于城市的核心區(qū)域(如圖9(b)、(d)所示)。由此可初步得出:由于城市核心區(qū)域內(nèi)功能密集、環(huán)境復雜,導致事件之間誘導性更強,從而容易產(chǎn)生大規(guī)模分布的空間同位模式,而周邊區(qū)域則相反。與小尺度相比,在大尺度下挖掘到的空間同位模式表明相應的兩類地理事件之間具有更加緊密的相互誘導關系,這種強交互作用極易誘發(fā)兩類事件在某些局部區(qū)域的交叉擴散而形成爆發(fā)態(tài)勢,為此需要以多類犯罪事件聯(lián)合防控為目標指導警力的分區(qū)域合理部署與跨區(qū)域適時調(diào)配。
圖9 多尺度同位模式實例空間分布Fig.9 The spatial distributions of points in multi-scale colocation patterns
進而,分別采用文獻[24]提出的layer based clustering(L策略)與mixed clustering(M策略)兩種策略分別對點過程聚類算法[19]進行以下改進。①L策略:分別對A、B兩類事件進行多尺度點過程分解,并將兩類事件中提取的叢集過程進行空間疊加得到最終挖掘結果。②M策略:直接對A、B兩類事件實例形成的集合進行多尺度點過程分解,并將叢集過程作為挖掘結果。圖10給出了采用點過程多尺度分解算法[19]對涉黃、賭博事件進行聚類分析的結果,可以發(fā)現(xiàn):通過聚類分析可以獲取挖掘同類事件中不同規(guī)模的聚集分布,但難以有效反映兩類事件之間的誘導關系(如圖10(a)、(b)的左下角部分分布有大量的賭博事件,而無涉黃事件的分布)。因此,以上分析證明了本文方法進行兩類事件間多尺度空間同位關系挖掘的有效性。
圖10 多尺度點過程分解聚類分析結果Fig.10 Clustering results obtained by multi-scale point process decomposition
犯罪地理學相關研究[25]表明,不同尺度的同位模式實例分布與區(qū)域人口密度分布呈顯著的正相關關系。為獲得除受人口密度分布正相關作用影響之外的犯罪事件空間同位分布模式,本文進一步引入Worldpop開源人口數(shù)據(jù)[26],將人口密度分布作為一種約束條件重新定義不同類型犯罪事件間的有效交叉K鄰近距離:dK(ai)=wK(ai)×dist[ai,bi(K)],其中dist[ai,bi(k)]為原始交叉K近鄰距離,wK(ai)為人口密度依據(jù)softmax函數(shù)歸一化后的與其交叉K近鄰的均值,其值域在[0,1]之間,一定程度上反映人口密度影響的概率高低[27]。該距離度量指標將人口密度作為一種約束條件以消除其對犯罪事件分布的正相關作用?;诖司嚯x度量指標挖掘的多尺度空間同位模式分布如圖11所示,從中可以發(fā)現(xiàn)在高尺度下高人口密度區(qū)域并未出現(xiàn)同位模式,反而在低人口密度區(qū)域探測出顯著的空間同位模式。這種剔除常識性規(guī)律后提取的模式將有助于指導對公共安全漏洞區(qū)域的警力強化布控,從而整體提高對城市犯罪事件的片區(qū)化精準防控水平。
圖11 考慮人口密度約束的多尺度同位模式實例空間分布Fig.11 The spatial distribution of multi-scale co-location patterns considering constraints of population density
最后,為深入探究各類城市設施對犯罪事件的多尺度空間誘導作用,采用本文方法對公共設施、餐飲設施、旅店、購物、景點等5類具有代表性的POI在研究區(qū)域的空間分布與部分犯罪事件進行了多尺度空間同位模式挖掘,挖掘結果(見表2)指出:在大多數(shù)特征尺度下事件對〈旅店,涉黃〉、〈旅店,賭博〉、〈公共設施,擾亂公共秩序〉均存在顯著的空間同位模式,從實際可解釋的角度證明了本文方法的有效性;同時,還探測出如〈餐飲設施,賭博〉、〈景點,賭博〉、〈購物,擾亂公共秩序〉等難以通過人類主觀認知進行直接解釋的同位模式,對此類模式需要進一步結合實地環(huán)境調(diào)查與多因素控制分析探究模式發(fā)生的深層內(nèi)在機理。這種犯罪事件與POI之間的空間同位模式能夠同時為犯罪防控與設施優(yōu)化布局提供更加全面有效的決策支持。
表2 POI與警情事件間的多尺度同位模式判別結果Tab.2 The detection results of multi-scale co-location patterns between emotional events and POI
本文從隨機過程的視角對兩類地理要素間的交叉鄰近關系進行多尺度分布建模,進而基于點過程分解思想挖掘空間同位模式多尺度分異格局。通過模擬實驗對比分析發(fā)現(xiàn),本文方法可以同時實現(xiàn)不同尺度下的空間同位模式判別及其相關實例的空間分異格局,且有效降低了人為設定參數(shù)的主觀性。另外,利用本文方法可以有效揭示犯罪事件之間的相互誘導關系,發(fā)現(xiàn)不同尺度下警情事件誘導作用的空間分布變化,并結合人口密度與POI分布數(shù)據(jù)深層揭示了區(qū)域地理環(huán)境與警情事件之間的空間關聯(lián)關系,對犯罪預防與警情響應具有重要應用價值。
下一步工作主要集中在:①在條件點過程建模與分解基礎上,構建零假設與顯著性檢驗模型,量化特征子過程較整體分布密度的偏離程度,進一步刻畫描述蘊含不同誘導關系強度的多特征子過程;②耦合空間分布與時間信息,將本文方法在時空維度進行擴展挖掘多尺度時空同現(xiàn)模式。