楊學(xué)習(xí),鄧 敏,石 巖,唐建波,劉啟亮
中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083
空間異常探測是空間數(shù)據(jù)挖掘的重要手段之一[1-2],能夠有效挖掘地理現(xiàn)象的異??臻g分布模式,這些異常模式通常蘊(yùn)含著地理現(xiàn)象或地理過程的特殊發(fā)展規(guī)律。異常探測最初源自統(tǒng)計(jì)學(xué)中的粗差探測研究,但在實(shí)踐中發(fā)現(xiàn)有些“粗差”并不一定是錯(cuò)誤,往往隱含了某種特殊的規(guī)律或性質(zhì),具有重要的應(yīng)用價(jià)值?;诖?,文獻(xiàn)[3]給出異常的本質(zhì)性定義,即“嚴(yán)重偏離其他對象的觀測數(shù)據(jù),以至于令人懷疑它是由不同機(jī)制產(chǎn)生的”。文獻(xiàn)[4]進(jìn)一步顧及空間數(shù)據(jù)的特性描述空間異?!皩n}屬性與其空間鄰近域內(nèi)實(shí)體的專題屬性顯著不同的空間實(shí)體”。因此,空間異常是與其空間鄰近域顯著不同,而在整體趨勢上差異可能不明顯的空間實(shí)體。
考慮到空間數(shù)據(jù)具有空間位置屬性和非空間專題屬性,可將空間異常模式大致分為兩類:①僅顧及空間位置屬性的空間異常模式;②同時(shí)顧及空間位置屬性和非空間專題屬性的空間異常模式。其中,第1類模式的實(shí)際應(yīng)用主要是針對空間點(diǎn)事件(例如犯罪、疾病等)的異常模式探測,并且僅考慮空間點(diǎn)事件的發(fā)生位置。主要方法包括:基于距離的方法[5]、基于密度的方法[6]、基于聚類的方法[7]、基于圖論的方法[8]。第2類模式通常根據(jù)空間屬性(即位置)確定空間鄰近關(guān)系,根據(jù)專題屬性確定異常程度。主要方法包括:基于圖的方法[9-10]、基于距離的方法[4,11]、基于局部度量的方法[12]、基于聚類的方法[13-14]。其中,基于圖的方法將空間數(shù)據(jù)轉(zhuǎn)換為圖(如Delaunay三角網(wǎng)[9]、k鄰近圖[10]等),從圖結(jié)構(gòu)中探測空間異常;基于距離的方法采用專題屬性值與空間鄰近域內(nèi)實(shí)體專題屬性均值[4](或中值[11])的差值來度量實(shí)體的異常程度,繼而統(tǒng)計(jì)識(shí)別異常實(shí)體,該類方法適用于發(fā)現(xiàn)全局的異常,而容易忽略局部的異?,F(xiàn)象;基于局部度量的方法借助局部密度的概念定義局部異常度,局部異常度較大的空間實(shí)體被視為異常,該類方法顧及了空間實(shí)體的局部特征,故可以更好地發(fā)現(xiàn)局部的異?,F(xiàn)象;基于聚類的方法的基本思想是將異常探測過程轉(zhuǎn)換成聚類過程,將空間聚類后獲得的孤立點(diǎn)或小簇視為空間異常,其主要目的在于發(fā)現(xiàn)空間簇,缺乏對空間異常的準(zhǔn)確度量,探測異常的能力有限。
然而,上述兩類空間異常探測模式都是針對單一類別實(shí)體進(jìn)行挖掘,沒有考慮數(shù)據(jù)的類型和標(biāo)簽。隨著數(shù)據(jù)類型的越來越豐富,綜合考慮多種類別數(shù)據(jù)間的關(guān)系進(jìn)行挖掘更具實(shí)際意義。針對空間異常探測中顧及實(shí)體類別的問題,學(xué)者們開展了系列研究。如文獻(xiàn)[15]提出語義異常(semantic outlier),即“與同類別實(shí)體相比具有明顯差異,而與其他類別相比正常的實(shí)體”;與此相反,文獻(xiàn)[16]提出交叉異常(cross-outlier),即“與其他類別實(shí)體相比具有明顯差異的實(shí)體”,通過采樣鄰域和計(jì)數(shù)鄰域所包含的參考實(shí)體的數(shù)目采用k倍標(biāo)準(zhǔn)差原則進(jìn)行異常的統(tǒng)計(jì)判別;文獻(xiàn)[17]概括了文獻(xiàn)[15—16]的研究工作,提出類異常(class outlier)探測模型,并進(jìn)行客戶關(guān)系管理的實(shí)例分析;文獻(xiàn)[18]進(jìn)一步提出一種基于距離的類異常探測方法;文獻(xiàn)[19]提出空間分類數(shù)據(jù)異常探測的框架,并發(fā)展了基于成對相關(guān)函數(shù)PCF和k近鄰的空間分類異常探測方法;文獻(xiàn)[20]采用廣義t檢驗(yàn)檢測混合類型數(shù)據(jù)中的異常;文獻(xiàn)[21]借助關(guān)聯(lián)規(guī)則處理多種類型數(shù)據(jù),提出一種多域空間異常探測方法;文獻(xiàn)[22]則通過融合多種類型數(shù)據(jù)發(fā)現(xiàn)城市中的集簇異常;與多類別空間異常探測相關(guān)的研究還有空間同位模式[23]、多類別空間聚類[24]等。
分析上述針對顧及數(shù)據(jù)類別的空間異常探測的研究工作可以發(fā)現(xiàn),不論是單一類別異常探測或多類別異常探測的結(jié)果識(shí)別依賴于人為設(shè)定異常數(shù)目,需要較多先驗(yàn)知識(shí),缺乏對異常模式顯著性的統(tǒng)計(jì)判別。現(xiàn)實(shí)世界中許多地理事物或地理現(xiàn)象可以用空間點(diǎn)進(jìn)行有效表達(dá),如犯罪事件、城市基礎(chǔ)設(shè)施(如銀行、學(xué)校、醫(yī)院)地理位置等,因此,本文針對兩種類別的空間點(diǎn)數(shù)據(jù)(基本數(shù)據(jù)集和參考數(shù)據(jù)集),借鑒空間點(diǎn)模式分析,提出一種空間交叉異常顯著性判別的非參數(shù)檢驗(yàn)方法。
給定存在空間依賴關(guān)系的基本數(shù)據(jù)集和參考數(shù)據(jù)集,空間交叉異常顯著性判別主要分為4個(gè)步驟:①針對基本數(shù)據(jù)集實(shí)體采用約束Delaunay三角網(wǎng)表達(dá)空間鄰近關(guān)系,進(jìn)而構(gòu)建合理、穩(wěn)定的空間鄰近域;②統(tǒng)計(jì)落在基本數(shù)據(jù)集實(shí)體空間參考鄰域半徑r范圍內(nèi)的參考數(shù)據(jù)集實(shí)體的數(shù)目,度量基本數(shù)據(jù)集實(shí)體初始空間交叉異常度;③針對每個(gè)基本數(shù)據(jù)集實(shí)體,采用α-Shape法[27]構(gòu)建其支撐域;④統(tǒng)計(jì)落在其支撐域內(nèi)參考數(shù)據(jù)集實(shí)體的數(shù)目,采用蒙特卡洛隨機(jī)模擬按照均質(zhì)泊松過程生成m次的空間分布數(shù)據(jù),進(jìn)而對異常的顯著性進(jìn)行判別,并進(jìn)行評價(jià)分析。下面對每個(gè)步驟進(jìn)行詳細(xì)闡述。
空間鄰近域是度量空間異常的基礎(chǔ)。由于eps-鄰域和k-NN鄰域的構(gòu)建需要引入額外參數(shù)(如空間半徑eps、最近鄰數(shù)k),對于空間分布不均勻數(shù)據(jù)設(shè)置較為困難,本文采用約束Delaunay三角網(wǎng)自適應(yīng)構(gòu)建空間鄰近域。Delaunay三角網(wǎng)是一種滿足最大最小角特性、外接圓特性和唯一性的三角剖分,能自然的反映空間實(shí)體間的鄰接關(guān)系[7-8]。但原始Delaunay三角網(wǎng)在邊界和空洞處的邊長明顯偏長,如圖1(a)中實(shí)體A與B,C與D空間鄰近是不合理的。文獻(xiàn)[25]通過試驗(yàn)證明,可以通過刪除超過平均邊長一定倍數(shù)的邊來有效移除不合理邊。本文針對邊長集合呈現(xiàn)的偏態(tài)分布特征,采用一種穩(wěn)健的平均邊長來處理不合理的邊。
定義1穩(wěn)健平均邊長:給定基本數(shù)據(jù)集PD,PD中所有實(shí)體生成的Delaunay三角網(wǎng)的N條邊構(gòu)成邊長集合E,E中所有邊長按升序排列,序列中位于上、下四分位數(shù)之間所有邊長的均值稱為穩(wěn)健平均邊長,記為RAE(E)
(1)
式中,Q1為邊長下四分位數(shù);Q3為邊長上四分位數(shù);n表示上下四分位數(shù)之間所有邊的數(shù)量。
定義2不合理的邊:邊長集合E中,與穩(wěn)健平均邊長相比明顯偏大的邊定義為不合理的邊,所有不合理的邊構(gòu)成集合EIC
EIC={EiEi>β*RAE(E)}Ei∈E
(2)
式中,β是不合理邊判別閾值的調(diào)節(jié)系數(shù),用于控制實(shí)體空間鄰域大小。當(dāng)β取值較大時(shí),不合理邊判別閾值相應(yīng)較大,從而可能吸收更多較遠(yuǎn)距離的鄰近點(diǎn)作為實(shí)體的鄰近域;當(dāng)β取值較小時(shí),不合理邊的判別閾值較嚴(yán)格,使得空間鄰近的實(shí)體被割裂,不被納入鄰近域。通過對不同分布密度的模擬數(shù)據(jù)進(jìn)行試驗(yàn)分析發(fā)現(xiàn),β取值[2,4]時(shí),可以獲得較理想的空間鄰域構(gòu)建結(jié)果。由于空間數(shù)據(jù)(尤其是點(diǎn)實(shí)體)分布的復(fù)雜性,當(dāng)研究區(qū)域內(nèi)實(shí)體分布密度差異過大時(shí),β的取值(在[2,4]之間)可能產(chǎn)生空間鄰域的過分割,針對特殊情形,用戶可以根據(jù)數(shù)據(jù)特征和應(yīng)用情景選擇更為合適的β取值。
本文基于原始Delauany三角網(wǎng)中不合理邊的邊長相對較長這一特點(diǎn),根據(jù)Delaunay三角網(wǎng)邊長統(tǒng)計(jì)分布規(guī)律,借鑒箱線圖中穩(wěn)健統(tǒng)計(jì)量(即四分位距)[26],給出一種參數(shù)β的估值方法,根據(jù)三角網(wǎng)邊長的最大估計(jì)值與邊長中位數(shù)的比值作為參數(shù)β的估計(jì)值
(3)
式中,Q1、Q2、Q3分別為邊長的下四分位數(shù)、中位數(shù)和上四分位數(shù)。最大估計(jì)值Q3+1.5(Q3-Q1)為箱線圖中的上限,該比值能夠反映三角網(wǎng)中長邊與邊長中位數(shù)的偏離程度。
如圖1(c)所示,經(jīng)打斷操作后空洞和邊界處的不合理邊被有效移除,且約束后邊長滿足近似正態(tài)分布,如圖1(d)所示Q-Q圖上的點(diǎn)近似在一條直線附近,據(jù)此建立的實(shí)體間鄰近關(guān)系更為合理、穩(wěn)定。且本文方法能夠有效處理數(shù)據(jù)分布分散,存在異常值的情形。沒有隸屬于任何簇的實(shí)體識(shí)別為空間位置孤立點(diǎn),不參與接下來的檢測。
定義3空間鄰域:對于基本數(shù)據(jù)集任一實(shí)體Pi,與打斷不合理的邊后的Delaunay三角網(wǎng)的邊直接相連的空間實(shí)體構(gòu)成Pi的空間鄰域SN(Pi),如圖1(c)中實(shí)體Pi的空間鄰域?yàn)閧P1,P2,P3,P4,P5,P6,P7}。
定義4空間參考鄰域:給定基本數(shù)據(jù)集實(shí)體Pi,落在點(diǎn)Pi為中心,半徑為r圓形范圍內(nèi)的參考數(shù)據(jù)集實(shí)體,為實(shí)體Pi的空間參考鄰域,記為SRN(Pi),如圖2所示。
半徑r表達(dá)基本數(shù)據(jù)集實(shí)體的影響范圍,即空間參考鄰域半徑,其描述了基本數(shù)據(jù)集實(shí)體與參考數(shù)據(jù)集實(shí)體間的相關(guān)關(guān)系。本文采用基本數(shù)據(jù)集實(shí)體與最鄰近參考數(shù)據(jù)集實(shí)體的距離集合中最小值和最大值為界構(gòu)成的距離范圍定義為空間參考鄰域距離域。在此基礎(chǔ)上,空間交叉異常度是指基本數(shù)據(jù)集實(shí)體Pi的空間參考鄰域數(shù)目與其鄰近域內(nèi)空間實(shí)體的空間參考鄰域數(shù)目均值的差異,記為SCOM(Pi)
SCOM(Pi)=
(4)
式中,NR(Pi)為基本數(shù)據(jù)集實(shí)體Pi的空間參考鄰域?qū)嶓w數(shù)目;SN(Pi)為實(shí)體Pi的空間鄰域數(shù)目。
當(dāng)空間參考鄰域半徑選擇較小時(shí),參考鄰域?qū)嶓w數(shù)目較少,交互特征比較弱,異常度量偏小;當(dāng)空間參考鄰域半徑選擇較大時(shí),參考鄰域?qū)嶓w較多,且空間參考鄰域范圍易出現(xiàn)重疊,導(dǎo)致參考數(shù)據(jù)實(shí)體在不同參考鄰域內(nèi)重復(fù)計(jì)數(shù),使得空間鄰域?qū)嶓w間的差異變小,異常度量偏小,異常不再顯著。
圖1 空間鄰近域構(gòu)建Fig.1 The construction of spatial neighborhood
圖2 空間鄰域及空間參考鄰域Fig.2 Spatial neighborhood and spatial reference neighborhood
空間交叉異常是指基本數(shù)據(jù)集實(shí)體與其空間鄰域?qū)嶓w相比在空間參考鄰域上具有明顯差異。主要強(qiáng)調(diào)在局部范圍內(nèi)對比分析空間參考鄰域?qū)嶓w數(shù)目的差異,因此,本文以每個(gè)基本數(shù)據(jù)集實(shí)體的空間支撐域?yàn)檠芯糠秶?,探究落在基本?shù)據(jù)集實(shí)體支撐域范圍內(nèi)參考數(shù)據(jù)集實(shí)體的分布特征及差異。
定義5支撐域:基本數(shù)據(jù)集實(shí)體Pi與其空間鄰域SN(Pi)實(shí)體的空間參考鄰域半徑r圓上點(diǎn),以及落在空間參考鄰域半徑r圓內(nèi)的參考數(shù)據(jù)集實(shí)體所構(gòu)成的點(diǎn)集的空間范圍,即為實(shí)體Pi的支撐域S。
本文采用α-Shape算法[27]構(gòu)建支撐域。該算法是一種確定性算法,有著嚴(yán)格的數(shù)學(xué)定義,對于任一有限點(diǎn)集,可直觀表示點(diǎn)集的形狀,且通過參數(shù)α控制多邊形生成的精細(xì)程度。支撐域如圖3 所示。
圖3 支撐域示意圖Fig.3 The diagram of support domain
針對基本數(shù)據(jù)集實(shí)體,統(tǒng)計(jì)落在其支撐域內(nèi)參考數(shù)據(jù)集實(shí)體,記為參考數(shù)據(jù)子集。從隨機(jī)空間過程的角度出發(fā),給出零假設(shè):基本數(shù)據(jù)集實(shí)體的空間參考鄰域數(shù)目與其空間鄰域?qū)嶓w的空間參考鄰域數(shù)目沒有明顯差異。即參考數(shù)據(jù)子集在支撐域內(nèi)滿足完全空間隨機(jī)分布(CSR)的零假設(shè),在該假設(shè)下事件在支撐域內(nèi)服從均質(zhì)泊松分布,這意味著支撐域中的每一個(gè)事件是以等概率發(fā)生在區(qū)域的任意位置上的,并且其發(fā)生獨(dú)立于空間位置和其他的事件[28],如式(5)所示。
(5)
(6)
式中,N(B)為區(qū)域B內(nèi)參考數(shù)據(jù)實(shí)體的數(shù)目,且B?S;ν(B)為區(qū)域B的面積;λ為強(qiáng)度函數(shù),采用式(6)進(jìn)行估計(jì);N(S)和ν(S)分別為支撐域S內(nèi)參考數(shù)據(jù)實(shí)體的數(shù)目和面積。
基于該零假設(shè),采用蒙特卡洛隨機(jī)模擬的方法在支撐域內(nèi)生成空間隨機(jī)數(shù)據(jù),計(jì)算實(shí)體異常度的經(jīng)驗(yàn)概率密度分布,并對異常的顯著性進(jìn)行統(tǒng)計(jì)判別,具體步驟如下:
p_value(Pi)=
(7)
式中,I(·)表示指示函數(shù),取值0或1。給定顯著性水平α,若p-value(Pi)小于α,則實(shí)體Pi為顯著空間交叉異常。
圖4 隨機(jī)模擬構(gòu)造實(shí)體空間異常度經(jīng)驗(yàn)概率密度分布示例Fig.4 Construction of the empirical probability density distribution of spatial outlier measure
基于單一空間參考鄰域半徑挖掘得到的異常模式通常不能充分刻畫異常實(shí)體的分布特征,更有意義的是在多個(gè)參考半徑下挖掘空間異常模式,即空間交叉異常模式的多尺度挖掘。異常模式的穩(wěn)定性與視覺的顯著性存在明顯的對應(yīng)關(guān)系,顯著異常模式會(huì)在較廣范圍內(nèi)被感知。借鑒空間聚類[29-30]、空間同位模式[31]挖掘中對多尺度挖掘結(jié)果的評價(jià)策略,本文采用生存距離對不同參考鄰域半徑的挖掘結(jié)果進(jìn)行評價(jià)。
定義6生存距離(living distance,LD):在不同的空間參考鄰域半徑上分別進(jìn)行空間異常模式的挖掘,若異常模式O在其中連續(xù)的半徑距離上均統(tǒng)計(jì)顯著,則該連續(xù)半徑即為異常模式O的生存距離。需指出,生存距離度量的是異常模式的穩(wěn)定性,模式的生存距離越長,表示該模式相對越穩(wěn)定,可指導(dǎo)異常模式的篩選與評價(jià)。本文以基本數(shù)據(jù)集內(nèi)實(shí)體為基準(zhǔn),計(jì)算基本數(shù)據(jù)內(nèi)每個(gè)實(shí)體與參考數(shù)據(jù)集內(nèi)所有實(shí)體間的距離,取其中的最短距離作為該實(shí)體與參考數(shù)據(jù)集的距離;進(jìn)而,統(tǒng)計(jì)基本數(shù)據(jù)集內(nèi)所有實(shí)體到參考數(shù)據(jù)集的距離的最小值(記為minR)和最大值(記為maxR),構(gòu)成空間參考鄰域距離域[minR,maxR],在該范圍內(nèi)等步長進(jìn)行取值,進(jìn)行多尺度挖掘分析。且當(dāng)?shù)确衷郊?xì)時(shí),分析結(jié)果越可靠,同時(shí)時(shí)間花銷也越大,因此,在平衡效率與精度的基礎(chǔ)上,需選擇合適的等分。
為了驗(yàn)證本文方法的有效性,分別采用模擬數(shù)據(jù)與實(shí)際數(shù)據(jù)進(jìn)行試驗(yàn)分析,采用精確率和召回率與文獻(xiàn)[16](cross-outlier detection,COD)進(jìn)行定量比較,該方法需要3個(gè)輸入?yún)?shù),即空間鄰域半徑r′,局部性參數(shù)α′,顯著偏差系數(shù)k。試驗(yàn)中蒙特卡洛隨機(jī)模擬次數(shù)m設(shè)為999,空間交叉異常的顯著性水平設(shè)為0.05。
為了驗(yàn)證本文方法在探測顯著空間交叉異常的有效性,設(shè)置3組模擬數(shù)據(jù),分布范圍均為10×10 的單元。其中模擬數(shù)據(jù)集SD1中基本數(shù)據(jù)集PD和參考數(shù)據(jù)集RD都隨機(jī)分布在研究區(qū)域,設(shè)置了9個(gè)明顯的空間交叉異常;模擬數(shù)據(jù)集SD2中PD隨機(jī)分布,RD具有明顯的空間自相關(guān),呈聚集分布,設(shè)置了8個(gè)明顯交叉異常;模擬數(shù)據(jù)集SD3的分布與SD2正好相反,設(shè)置了9個(gè)明顯交叉異常。如圖5所示。
圖5 模擬數(shù)據(jù)集Fig.5 Simulated datasets
模擬數(shù)據(jù)SD1,空間參考鄰域距離域?yàn)閇0.01,0.71],均值為0.23,采用不同等分距離域(10,20,30,40,50,60)的預(yù)設(shè)空間交叉異常生存距離區(qū)間如圖6所示。從圖中可以發(fā)現(xiàn),當(dāng)?shù)确执笥诘扔?0時(shí),生存距離區(qū)間變化微小,因此在綜合考慮精度與效率的基礎(chǔ)上,選擇等分20份,探測結(jié)果如圖7所示。其中r=0.2/0.3/0.4/0.5的探測結(jié)果如圖8(a)—(d)所示,其精確率和召回率如表1所示。從試驗(yàn)結(jié)果可以發(fā)現(xiàn),預(yù)設(shè)的明顯交叉異常在不同的參考鄰域半徑下均可有效的探測出來,其中生存距離分別為P1:[0.15,0.325],P2:[0.115,0.36],P3、P5、P6:[0.15,0.43],P4:[0.115,0.395],P7:[0.36,0.675],P8:[0.115,0.43],P9:[0.15,0.22];當(dāng)參考鄰域半徑擴(kuò)大到0.5時(shí),精確率和召回率均較低,除P7外,其他預(yù)設(shè)的交叉異常均不再顯著,而多分布在預(yù)設(shè)異常的周圍、邊界或空洞區(qū)域,存在明顯的邊界效應(yīng),如圖8(d)中EP1—EP5。這是因?yàn)殡S著空間參考鄰域半徑不斷擴(kuò)大,支撐域范圍增大,落在支撐域內(nèi)的參考數(shù)據(jù)實(shí)體增多,且參考鄰域范圍出現(xiàn)重疊,導(dǎo)致參考數(shù)據(jù)實(shí)體在不同參考鄰域內(nèi)的重復(fù)計(jì)數(shù),進(jìn)而使得空間鄰域?qū)嶓w間的差異減小,異常不再顯著。COD算法的參數(shù)采用文章作者推薦的啟發(fā)式方法進(jìn)行設(shè)置,不同參數(shù)探測結(jié)果如圖9所示,可以發(fā)現(xiàn):當(dāng)參數(shù)r′=1.5α′=1/5k=2時(shí)識(shí)別了預(yù)設(shè)明顯空間異常中的7個(gè),其他參數(shù)下的準(zhǔn)確率均較低,且P9在不同參數(shù)下均未識(shí)別。從F值比較本文方法精度優(yōu)于COD法。
圖6 模擬數(shù)據(jù)集SD1空間交叉異常不同等分下的距離區(qū)間Fig.6 Distance ranges of spatial cross-outliers on SD1
圖7 模擬數(shù)據(jù)集SD1空間交叉異常生存距離 Fig.7 The living distance of spatial cross-outliers on SD1
圖8 模擬數(shù)據(jù)集SD1不同參考鄰域半徑探測結(jié)果Fig.8 Detection results of different reference neighbor radius on simulated dataset SD1
圖9 模擬數(shù)據(jù)集SD1探測結(jié)果—CODFig.9 Detection results of simulated dataset SD1—COD
針對模擬數(shù)據(jù)SD2和SD3,采用啟發(fā)式策略設(shè)定參數(shù),并與預(yù)設(shè)異常模式相比較優(yōu)的探測結(jié)果分別如圖10、圖11所示??梢园l(fā)現(xiàn):針對基本數(shù)據(jù)集或參考數(shù)據(jù)集存在空間自相關(guān)時(shí)本文方法均可有效探測出預(yù)設(shè)的明顯異常,F(xiàn)值均高于COD法;因在每個(gè)基本數(shù)據(jù)實(shí)體的支撐域內(nèi)進(jìn)行分析,屬于局部的研究策略,可更好地探測局部異常。通過試驗(yàn)分析,當(dāng)兩類實(shí)體間具有較強(qiáng)的依賴性,呈現(xiàn)出二元聚集分布時(shí),探測效果較好。
圖10 模擬數(shù)據(jù)集SD2探測結(jié)果Fig.10 Detection results of simulated dataset SD2
實(shí)例采用城市金融設(shè)施(銀行、ATM)與搶劫犯罪事件進(jìn)行分析。搶劫案件的社會(huì)影響惡劣,嚴(yán)重影響居民安全感,且這類犯罪行為的發(fā)生與空間環(huán)境存在一定的關(guān)系。試驗(yàn)研究區(qū)域?yàn)槊绹ㄌ靥m市城區(qū),基本數(shù)據(jù)集采用城市金融設(shè)施興趣點(diǎn),參考數(shù)據(jù)集采用搶劫犯罪事件點(diǎn)數(shù)據(jù)。其中興趣點(diǎn)POIs共89個(gè)(ATM 55個(gè),Bank 34個(gè)),搶劫犯罪點(diǎn)數(shù)據(jù)共426個(gè),時(shí)間為2014年,其空間分布如圖12所示,其中興趣點(diǎn)和搶劫事件在主城區(qū)分布比較密集,在其他區(qū)域相對比較分散。從圖15中的標(biāo)準(zhǔn)差橢圓可發(fā)現(xiàn)搶劫犯罪事件由西南向東北擴(kuò)散,且圖13的Cross-K函數(shù)[32]表明興趣點(diǎn)與搶劫犯罪事件間存在顯著的空間依賴關(guān)系。通過分析搶劫犯罪事件在興趣點(diǎn)POIs周圍的分布情況,空間參考鄰域半徑設(shè)為300~1500 ft(1 ft=0.305 m),隨機(jī)重排次數(shù)為999次,顯著性水平設(shè)為0.05。通過在不同半徑水平上的探測結(jié)果, 并獲取空間交叉異常的生存
距離,如圖14所示,圖15給出了具有穩(wěn)定生存距離的空間交叉異常。近一步從空間交叉異常的屬性、生存距離的長短及異常周圍道路建筑等分布情況進(jìn)行分析。
圖11 模擬數(shù)據(jù)集SD3探測結(jié)果Fig.11 Detection results of simulated dataset SD3
表1 探測結(jié)果的評估指標(biāo)
圖12 實(shí)際數(shù)據(jù)集空間分布Fig.12 Distribution of real-world dataset
圖13 實(shí)際數(shù)據(jù)集的Cross-K函數(shù)值Fig.13 Cross-K function of real-world dataset
圖14 空間交叉異常生存距離Fig.14 The living distance of spatial cross-outliers
圖15 空間交叉異常探測結(jié)果Fig.15 The detection results of spatial cross-outliers
圖16 搶劫事件分布密度及標(biāo)準(zhǔn)差橢圓Fig.16 The distribution density and standard deviational ellipse of robbery events
表2 空間交叉異常的生存距離
從表2可以發(fā)現(xiàn),空間交叉異常中Bank有4個(gè),ATM有7個(gè),其中點(diǎn)號4、46、77、80、89具有較長生存距離,且均為ATM;而Bank類異常的生存距離均較短。從圖16可以發(fā)現(xiàn),交叉異常多分布在搶劫事件高發(fā)區(qū)域邊緣。環(huán)境犯罪學(xué)認(rèn)為犯罪發(fā)生有一些必備要素,如罪犯、被害人、被觸犯的法律以及合適的時(shí)間和場所,相比盜竊等侵財(cái)犯罪,搶劫犯罪在作案后會(huì)被立即發(fā)現(xiàn),需要迅速逃逸,所以搶劫罪犯對逃逸方便性的重視勝過其他方面[33],如異常點(diǎn)80、89周邊道路交通復(fù)雜,且靠近跨江大橋,便于作案后快速逃逸和隱藏。進(jìn)一步結(jié)合波特蘭市的市區(qū)行政區(qū)劃,可以發(fā)現(xiàn)異常點(diǎn)4、9、15、46發(fā)生在城市不同管轄區(qū)的交界線附近,這可能與邊界警力部署、跨區(qū)警力調(diào)度難等有關(guān)。
空間異常探測對于揭示地理實(shí)體或地理現(xiàn)象的潛在發(fā)展規(guī)律具有重要價(jià)值,已成為空間數(shù)據(jù)挖掘的重要手段之一。針對現(xiàn)有空間異常探測方法缺乏異常顯著性的統(tǒng)計(jì)判別以及未同時(shí)考慮實(shí)體的類別進(jìn)行異常探測分析,本文提出一種空間交叉異常顯著性判別的非參數(shù)檢驗(yàn)方法,從數(shù)據(jù)驅(qū)動(dòng)的角度進(jìn)行建模,不依賴于數(shù)據(jù)分布的任何假設(shè)。通過模擬試驗(yàn)分析和實(shí)例應(yīng)用發(fā)現(xiàn),本文方法具有兩方面的優(yōu)勢:劃定支撐域從統(tǒng)計(jì)顯著性的角度判別空間異常,減少了人為設(shè)定閾值的依賴;引入生存距離的概念對多尺度挖掘結(jié)果進(jìn)行評價(jià)。當(dāng)研究多個(gè)類別間的分布或交互作用關(guān)系的異常時(shí),可以分解為多個(gè)的二元分布異常探測問題進(jìn)行解決。本文進(jìn)一步的研究工作主要集中在:針對數(shù)據(jù)分布形式發(fā)展自適應(yīng)的距離,進(jìn)一步提高探測方法的穩(wěn)健性;方法采用了隨機(jī)模擬,計(jì)算量較大,將研究采用并行計(jì)算、數(shù)據(jù)分塊等技術(shù)手段提升算法的運(yùn)行效率,使其可以適用于海量數(shù)據(jù)的分析處理。