陳 鵬, 馬 偉
(1.中國人民公安大學安全防范系,北京 100038;2.國家測繪產(chǎn)品質量檢驗檢測中心,北京 100830)
隨著警務信息化的發(fā)展,犯罪和治安案件的空間情報分析在一些具體的警務工作,包括決策指揮、警力調度、業(yè)務評估等方面發(fā)揮著不可忽視的作用,其中,又以犯罪熱點的分析和識別尤為重要。因為犯罪活動的空間熱點形態(tài)反映了犯罪活動的基本分布規(guī)律,并且揭示了空間環(huán)境對治安案件的影響。因此,通過對犯罪熱點的空間形態(tài)分析能夠深入地揭示犯罪活動發(fā)生的本質問題,進而為人們提供問題解決的途徑和方法[1]。
在當前的犯罪熱點分析中,最為普遍的一種方法就是統(tǒng)計犯罪的數(shù)量或密度來反映犯罪活動的空間頻率或集中程度,其中尤具代表性的就是核密度估計法。核密度估計法是空間插值法的一種,即通過對空間上以點表示的要素賦予一定的概率密度函數(shù),然后計算整個空間上的要素概率密度分布來確定犯罪熱點的位置。這種方法在結果展示上具有良好的可視性,能夠準確地反映出犯罪活動的空間分布特征,因而在許多國家和地區(qū)的警務部門得到了應用。然而,在一些具體的實際工作中又陸續(xù)發(fā)現(xiàn)了核密度估計法存在的一些不足,包括算法參數(shù)的選擇難以確定、可視化效果沒有統(tǒng)一的標準,等等,但更為重要的則是無法準確地確定犯罪熱點的分布范圍并為相關部門提供決策的依據(jù)。
此外,隨著空間情報分析的發(fā)展,犯罪活動在空間的分布規(guī)律性越來越為人們所關注,但是在具體的工作上,不同的業(yè)務部門對犯罪熱點的關注角度是不同的。例如,社會治安管理根據(jù)不同的業(yè)務層面就可以分為派出所、分局、市局等不同的層次。因此,如何從不同空間尺度下來分析犯罪熱點并對不同層次的業(yè)務部門提供相應的情報信息就顯得尤為重要。
近來,隨著數(shù)據(jù)挖掘技術的興起,一些聚類算法也陸續(xù)應用到空間信息的分析挖掘中。例如,顏峻等將動態(tài)優(yōu)化窗寬算法與DENCLUDE算法相結合,提出了一種新的優(yōu)化聚類算法,并將其應用于入室盜竊犯罪熱點的分析中,得到了良好的效果[2-3]。陸娟等提出了一種給予多尺度空間聚集的犯罪熱點探測方法,其實驗結果證明可用于犯罪高發(fā)地區(qū)和高危地區(qū)的熱點探測需求[4]。但是這些方法大都偏重于熱點的探測和挖掘,對熱點分析結果如何應用于不同層次的警務實戰(zhàn)工作還缺乏有力的支持。為此,本文討論了層次聚類算法的基本原理和算法,以實際案例數(shù)據(jù)進行驗證,并將結果與核密度估計算法進行對比,最后針對結果的警務實戰(zhàn)應用進行討論與總結。
層次聚類法是數(shù)據(jù)挖掘中的一種用于給對象進行分類的基本算法。其基本原理是將所有的樣本點自底向上進行合并或自頂向下進行分裂,這兩種方式分別稱為凝聚和分裂。但對于犯罪分析而言,比較適用的則是凝聚算法。凝聚算法的基本原理為:基于一定的距離閾值將相近的對象合并為一個簇,然后以簇作為目標對象再次應用距離閾值進行合并,直到達到分類的要求為止,最終形成一個聚類的層次(如圖1所示)。通常人們將第一次聚類過程稱為一階聚類,在第一次聚類基礎上進行的聚類分析稱為二階聚類,以此類推,直至高階聚類。
圖1 層次聚類基本原理圖
對于給定的N個對象,層次式聚類算法的基本步驟[5]為:
1)N個初始樣本自成一類,即建立 N個類G1(0),G2(0),…,GN(0)。計算各類之間(各樣本間)的距離,得到一個N×N維的距離矩陣D(0)。標號(0)表示聚類開始運算前的狀態(tài)。
2)如在前一步聚類運算中,假設已求得的聚類矩陣為D(n)(n為逐次聚類合并的次數(shù)),則找出D(n)中的最小元素,將其對應的兩類合并為一類,由此建立新的分類:G1(n+1),G2(n+1),…,GL(n+1)。
3)計算合并后新類別之間的距離,得到距離矩陣D(n+1)。
4)回到步驟2),重復計算與合并,直到滿足聚類結束的條件為止。
通常,層次聚類的結束條件為設定一個最少聚集數(shù)量和距離閾值T,當距離矩陣D(n)中的最小分量超過給定的閾值T并且聚集的類的數(shù)量達到給定要求時,算法停止,此時各類之間已經(jīng)足夠分開,得到的分類即為聚類的結果。
層次聚類算法中的距離閾值T有多種定義,其中適用于犯罪熱點分析的則是平均最短距離和定值距離。
1)平均最短距離。平均最短距離的定義為[6]:
式中:A為空間區(qū)域面積,N為樣本數(shù)量??梢?,平均最短距離為假設所有對象在空間上為隨機分布時的相互作用距離。則該距離基于一定概率下的置信距離區(qū)間定義為[6]:
其中t為置信概率,服從自由度為120的學生氏分布(student distribution)。這里的置信概率的意義為類間距離小于平均最短距離的百分比。例如,如果t=0.9,則表明距離矩陣D(n)中約有90%的類間距離會小于該置信距離區(qū)間。
2)定值距離。定值距離即人為指定一個距離閾值來進行類的合并。定值距離的優(yōu)點是可以設定一個精確的搜索半徑來進行熱點分析,這有利于對同一區(qū)域發(fā)生的不同類型犯罪活動之間的熱點分布進行比較(例如,設定1 km搜索范圍進行熱點制圖來確定不同類型犯罪活動的熱點分布數(shù)量等)。但這種方法也有一個缺點,即距離閾值對人的經(jīng)驗有較高的要求,一旦距離閾值選擇得不合理就會導致結果相差很大。
本文采用了實際案例數(shù)據(jù)來對層次聚類法進行檢驗分析。犯罪數(shù)據(jù)來源于X市Y區(qū)的盜竊犯罪報警數(shù)據(jù),時段為2007年5月至10月,案件總量為160起,其中報警數(shù)據(jù)的空間地址信息為經(jīng)緯度坐標。
首先,根據(jù)盜竊犯罪的空間地址信息,將數(shù)據(jù)導入地理信息軟件ArcGIS 9.3,通過設定空間參考坐標系,得到盜竊犯罪活動的基本空間分布如圖2所示。
利用核密度估計算法,對盜竊犯罪活動的熱點分布進行分析。其中核函數(shù)采用正態(tài)分布,帶寬設為500 m,得到犯罪熱點的核密度分布如圖3所示。從圖中可見,熱點分布范圍主要集中在Y區(qū)的中部一帶,此外在區(qū)域的東南部也存在有少量的犯罪活動高密度熱點。然而,從具體的分析來看,由于犯罪活動的密度分布在空間形成了平滑的過渡效應,導致很難區(qū)分出熱點的分布范圍。
圖2 犯罪活動分布
圖3 核密度估計犯罪熱點分布
圖4 基于不同距離閾值標準得到的犯罪熱點分布
采用層次聚類法對Y區(qū)盜竊犯罪活動進行熱點分析。分析工具為CrimStat 3.1,聚類分析結果仍然在 ArcGIS 9.3中進行展示。Y區(qū)域面積A=86 km2,故置信概率取t=0.9,犯罪活動聚類的最小數(shù)量均設為5個。對定值距離,參考核密度估計方法的帶寬,距離閾值設為0.5 km。圖4為基于不同的距離閾值T所得到的犯罪熱點分布效果。其中圖4(a)為基于平均最短距離得到的熱點分布,圖4(b)為基于定值距離得到的熱點分布。從圖中可見,基于平均最短距離閾值得到了7個一階聚類犯罪熱點和1個二階聚類犯罪熱點,而基于定值距離閾值則得到了10個一階聚類犯罪熱點。與圖3中由核密度估計算法得到的犯罪熱點分布相比,層次聚類法在效果展示上沒有核密度估計算法美觀,但是在確定具體的犯罪熱點分布范圍上層次聚類法具有直觀和清晰的優(yōu)點。
通過層次聚類分析得到的關于犯罪熱點分布的統(tǒng)計信息如表1所示。在根據(jù)平均最短距離得到的一階聚類犯罪熱點中,最大的熱點分布面積為0.47 km2,包含有10起盜竊犯罪,而二階犯罪熱點的面積為13.73 km2,內含5個一階聚類犯罪熱點。此外,還可以根據(jù)熱點的面積和犯罪案件數(shù)量求出熱點內的犯罪密度(見表1中第5列)??梢?,層次聚類法具有很好的量化功能,能夠使人們對犯罪熱點進行分級分類,進而確定重點和關鍵目標區(qū)域。
對實際犯罪數(shù)據(jù)進行層次聚類熱點分析和核密度估計熱點分析,并將結果進行對比,可以發(fā)現(xiàn),層次聚類算法具有原理簡單、效果直觀、結果可量化等優(yōu)點,但在具體的聚類規(guī)則和參數(shù)選擇上則需要人們根據(jù)工作需求來指定一個大致的距離閾值范圍,而距離閾值的定義會對最終的結果產(chǎn)生很重要的影響,因此這也是層次聚類算法的一個不足之處。
然而,總體說來,層次聚類算法有效地避免了核密度估計算法結果難以量化的缺點,并且對不同空間尺度下的公安情報分析和治安業(yè)務工作具有重要的現(xiàn)實意義。
首先,對小范圍內的治安管理(如社區(qū)、派出所等),人們可以根據(jù)層次聚類分析來確定和識別出犯罪活動的聚集區(qū)域,從而有利于人們針對犯罪活動的熱點分布進行相應的警力部署調度。而對于比較大范圍內(如分局、市局一級等)的治安管理,人們可以在統(tǒng)一模型參數(shù)的基礎上進行熱點的層次聚類分析,從而有利于人們對不同區(qū)域內的犯罪情報進行比較分析,進而確定需要重點防范的區(qū)域。
其次,通過層次聚類分析可以發(fā)現(xiàn)犯罪熱點之間的相關性。通常,犯罪活動的分布都具有一定的空間關聯(lián)性,由此導致的熱點分布也往往呈現(xiàn)出一種集中的趨勢。而基于層次聚類的熱點分析可以有效地識別出熱點的范圍和熱點簇的數(shù)量,進而確定距離較近的犯罪熱點,從而分析和發(fā)現(xiàn)犯罪熱點之間的潛在關聯(lián)。
第三,在不同空間尺度下分析得到的犯罪熱點分布將有利于制定針對性的警務戰(zhàn)術策略。對小范圍內的犯罪熱點(如派出所、社區(qū)等),人們可以通過區(qū)域管理來實現(xiàn)對非法活動的有效干預;而對于較大范圍內形成的犯罪熱點(如區(qū)、縣分局等),則可以通過加強警力巡邏和制定針對性的巡邏方案來達到對犯罪分子的震懾;而對于更大范圍內形成的犯罪熱點(如市局一級)則需要從宏觀的角度來進行統(tǒng)籌規(guī)劃,制定包括警力的部署調度、犯罪預防、社區(qū)管理、長期的犯罪應對策略等。因此,層次聚類法將有利于人們針對不同層面的問題采用針對性的決策方案。
表1 基于不同距離閾值得到的犯罪熱點統(tǒng)計結果
[1] Chainey S P,Ratcliffe J H.GIS and crime mapping[M].London:Wiley Press,2005.
[2] 顏峻,袁宏永,疏學明.用于犯罪空間聚集態(tài)研究的優(yōu)化聚類算法[J].清華大學學報:自然科學版,2009,49(2):176-178.
[3] 顏峻,袁宏永,疏學明.社會安全事件空間分布研究[J].中國安全科學學報,2008,18(7):39-42.
[4] 陸娟,湯國安,張宏,等.一種犯罪熱點探測方法[J].測繪通報,2012(4):30-32.
[5] Johnson S C.Hierarchical clustering schemes[J].Psychometrika,1967(2):241-254.
[6] Levine N.CrimeStat III:a spatial statistics program for the analysis of crime incident locations[M].Houston:Ned Levine& Associates,2004:11.