蔡 曄,王占宏
當前在公安部門被廣泛采用的仍然是人工分析的手段。這種人工分析的方法往往面臨很大的挑戰(zhàn):例如分析的數(shù)據(jù)和信息通常分布在許多不同的數(shù)據(jù)源,信息量大且缺少關聯(lián)性;并且人工的分析手段通常被看作是一種特殊的專業(yè)技能,很難在一個大的組織中進行經(jīng)驗的共享和傳遞,因而存在一定的局限性。
從國內外與數(shù)據(jù)挖掘相關的研究領域中,我們發(fā)現(xiàn),采用可視化技術將不同類型的數(shù)據(jù)和數(shù)據(jù)間隱含的關聯(lián)信息進行描述和展現(xiàn),并借助眾多空間數(shù)據(jù)挖掘的方法)來發(fā)現(xiàn)和揭示數(shù)據(jù)中隱含的公共要素和關聯(lián),已成為該領域研究所采用的手段和方法的發(fā)展趨勢。
城市違法案件在一定的地域環(huán)境下,并不是隨機分布的,而是與該地區(qū)的人口、環(huán)境、經(jīng)濟、政策、社會因素有著必然聯(lián)系,并表現(xiàn)為一定的時間和空間形態(tài)。掌握違法案件的時空分布規(guī)律,對有效打擊違法案件、提高民眾對社會安全信賴程度起著非常重要的作用。在眾多的空間數(shù)據(jù)挖掘方法中,熱點分析是理解事件間隱含關系的有效工具,通過熱點分析可以有效地對事件做出回歸分析和前景預測,因此將違法案件治理、預防與熱點分析結合起來將更好地幫助研究人員得出科學的結論。
在空間數(shù)據(jù)挖掘領域里,學者們就熱點分析所做的研究工作大致可分為如下幾類:劃分技術、網(wǎng)格技術、密度技術、層次聚類技術以及空間自相關。這些方法各有特點,但空間自相關不僅能夠探測熱點,還能夠揭示事件間的聯(lián)系,所以本研究中采用自相關分析方法。
本文采用上海2009年盜竊、搶劫違法案件數(shù)據(jù)進行處理和熱點分析,并選取了常住人口密度、來滬人口密度等可能影響違法案件發(fā)生的18 個指標,進行了主成分分析,探索隱含的空間關聯(lián)模式。有助于打破以往被動預防違法案件的局面,主動對重點區(qū)域、重點指標加強管理,為城市預防違法案件措施在空間上的合理布局,提供決策導向和參考。
(1)研究范圍
研究區(qū)域上海,地處長江三角洲前緣,面積約為6340平方公里,1900 多萬常住人口,是中國經(jīng)濟、金融、貿易和航運中心,共19 個 區(qū)縣,包含“中心城核心區(qū)”包括黃浦、靜安、盧灣、虹口;“中心城邊緣區(qū)”包括楊浦、閘北、普陀、徐匯、長寧;“近郊區(qū)”包括青浦、松江、嘉定、閔行、寶山、浦東;“遠郊區(qū)”包括金山、奉賢、崇明。數(shù)據(jù)處理和統(tǒng)計的單元為派出所轄區(qū),共有441。
(2)數(shù)據(jù)來源與處理
空間數(shù)據(jù)來源上海警用地理信息系統(tǒng),包括行政區(qū)、派出所范圍。案件數(shù)據(jù)來自上海市公安局網(wǎng)上辦案信息系統(tǒng),根據(jù)研究需要重點抽取了2009年搶劫、扒竊數(shù)據(jù),并按照派出所進行統(tǒng)計。人口、房屋數(shù)據(jù)來自上海市實有人口信息管理系統(tǒng),包含戶籍人口、外來流動人口、境外人口、出租房、閑置房、自住房、集體宿舍、工地工棚,娛樂休閑等場所數(shù)據(jù)來自上海市公安局派出所綜合信息系統(tǒng),上述數(shù)據(jù)通過ETL 工具根據(jù)研究需要進行抽取,并進行了預處理。
(1)熱點分析Hotspot analysis
本次研究采用了ARCGIS9.1的熱點分析工具,熱點分析工具為數(shù)據(jù)集中的每一個要素計算 Getis-Ord Gi*,得到高值或低值要素在空間上發(fā)生聚類的位置。
Getis-Ord 局部統(tǒng)計可表示為:
其中xj 是要素j的屬性值,wi,j 是要素i 和j 之間的空間權重,n 為要素總數(shù),且:
(2)主成分分析
主成分分析 (Principal Component Analysis,PCA )是一種掌握事物主要矛盾的統(tǒng)計分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質,簡化復雜的問題。
本次研究中,我們把盜竊、搶劫案件1 到12 月份熱點區(qū)域常住人口密度、來滬人口密度、境外人口密度、出租房數(shù)、閑置房數(shù)、自住房數(shù)、集體宿舍數(shù)、工地工棚數(shù)、旅店數(shù)、娛樂休閑場所數(shù)、歌舞廳數(shù)、網(wǎng)吧數(shù)、桑拿洗浴場所數(shù)、游藝游戲機房數(shù)、臺球廳數(shù)、酒吧數(shù)、咖啡吧數(shù)、茶室數(shù)量18 個指標,利用SPSS 進行了主成分分析。
計算結果得出了盜竊、搶劫案件每個派出所的Z、P 值,當P 值<0.05 時,形成的Z值有兩個區(qū)間,即Z>2.58,Z<-2.58,說明兩類案件都具有明顯的空間聚集,即具有熱點和冷點。如圖1、圖2所示:
圖1 上海市2009年1~12 月盜竊案件違法案件熱點/冷點時空分布
圖2 上海市2009年1~12 月?lián)尳侔讣`法案件熱點/冷點時空分布
上海市盜竊案件和搶劫案件的熱點、冷點時空分布圖,圖中深紅色表示案件的熱點區(qū)域,深藍色表示是案件的冷點區(qū)域。
圖1 顯示盜竊案件違法案件熱點主要以“中心城核心區(qū)”為中心,隨季節(jié)變化而動態(tài)變化,前3 季度主要向東西方向延伸,而第四季度向南北方向延伸,而遠郊區(qū)基本是違法案件冷點。圖2 顯示,搶劫案件違法案件熱點主要集中在中心城邊緣區(qū)和近郊區(qū),而中心城核心區(qū)在大多數(shù)季節(jié)是違法案件冷點。
分析結果顯示同類案件不同時間的主成分分析結果基本一致。而盜竊案件和搶劫案件的分析結果還是有較大的差別。
如表1,表2所示:
表1
表2
2009年9 月上海盜竊案件的主成分分析結果,表2 剔除了累計貢獻率大于85%以后的成分。
2009年9 月上海搶劫案件的主成分分析結果,表4 中剔除了累計貢獻率大于85%以后的成分,如表3,表4所示:
表3
表4
根據(jù)分析結果和實際調查,影響盜竊案件的主要因素是娛樂休閑場所、歌舞廳、游藝游戲機房、桑拿洗浴場所,而影響搶劫案件的主要因素是來滬流動人員密度和出租房屋數(shù)量。
我們通過對上海2009年1 月~12 月的盜竊、搶劫數(shù)據(jù)進行空間數(shù)據(jù)挖掘,發(fā)現(xiàn)了上海盜竊、搶劫違法案件的整體態(tài)勢和空間上的動態(tài)變化趨勢,并通過主成分分析,解析出了影響盜竊、搶劫違法案件熱點的主要影響因素。所以,我們建議在市中心區(qū)域加強娛樂休閑場所、歌舞廳、游藝游戲機房、桑拿洗浴場所等的管理,而在近郊地區(qū)加強來滬人員和出租房屋的管理,并加強巡邏。
[1]白亮.數(shù)據(jù)挖掘淺析[J].廈門科技,2010,(03)
[2]張修鵬 李捍東 孫航白保良.論數(shù)據(jù)挖掘技術及應用[J].現(xiàn)代商貿工業(yè),2012,(11)
[3]張鵬.淺談數(shù)據(jù)挖掘技術及其應用[J].科技信息(學術研究),2008,(12)
[4]彭振龍丘金壽.基于數(shù)據(jù)倉庫的電子政務數(shù)據(jù)挖掘研究[J].宜春學院學報,2012,(4)