魏 東,張?zhí)斓t
(北京建筑大學 電氣與信息工程學院,北京100044)(北京市科學技術委員會 建筑大數(shù)據(jù)智能處理方法研究北京市重點實驗室,北京100044)
犯罪嚴重威脅著人們的人身安全和財產安全,是影響社會安全與發(fā)展的心腹之患,及時有效地預測犯罪可以為公安部門提前防控及警力資源部署等工作提供科學可靠的依據(jù).而犯罪本身作為一種普遍的社會現(xiàn)象,在其發(fā)展過程中表現(xiàn)出歷史規(guī)律性,如“日?;顒永碚摗敝赋?犯罪活動總是與周圍物理環(huán)境緊密聯(lián)系在一起.且隨著經(jīng)濟改革的日趨深入,公安部門累積了大量犯罪案件數(shù)據(jù),為犯罪預測研究提供了充足的數(shù)據(jù)基礎.因此,針對頻發(fā)案件的犯罪預測研究具有可行性,且具有重要意義.
迄今為止,國內外研究學者已從多方面提出多種不同類型的犯罪預測方法[1].Youngmi Lee等[2]考慮了犯罪整數(shù)值時間序列的因果檢驗方法,結合Poisson INGARCH模型的均值方程,構造了一種包含外生變量的犯罪回歸分析算法,并利用最小二乘估計法檢驗最佳函數(shù);Stevens Heather R等[3]考慮了新南威爾士地區(qū)全年氣溫變化對犯罪率的影響,分別對攻擊案、盜竊案和欺詐案件案日、月和季度匯總,并通過時間序列分解圖可視化,以確定夏季和冬季的案件數(shù)量差異;Caetano R等[4]構建了貝葉斯時空回歸模型,實現(xiàn)了對不同季節(jié)特征下犯罪結果的預測.該文獻在分析了小區(qū)域范圍內的財產犯罪后,利用時變回歸(Time-varying Regression)區(qū)分了時間常數(shù)和季節(jié)特性對犯罪的影響;Liu Ling等[5]對犯罪數(shù)據(jù)進行深度自編碼表征,將無標簽數(shù)據(jù)按概率形式標簽化,以此為特征結合K-means算法進行聚類分析.
上述研究成果較好地解決了傳統(tǒng)人工犯罪分析預測方法難以系統(tǒng)地分析實時數(shù)據(jù)的不足.然而上述成果僅通過在不同維度上計算離散案件點的間隔長度來進行統(tǒng)計分析,一定程度上忽略了犯罪特有的近重復屬性[6].犯罪近重復性表示,過去犯罪率高的地區(qū)在一點時間內仍將如此.環(huán)境犯罪學家把犯罪聚集的原因歸結為有動機的罪犯的存在、可能的目標的存在以及在這些地區(qū)缺乏足夠的監(jiān)護或威懾,這些因素在一段時間內基本保持穩(wěn)定,時空格局持續(xù)存在[7].在重復受害中,最近的犯罪中受害的目標更有可能在不久的將來成為新的犯罪的目標;而在近重復的情況下,靠近最近犯罪地點或事件的合適目標將在不久的將來經(jīng)歷更高的受害風險.另一方面,研究學者們通常忽視犯罪數(shù)據(jù)在全局地理區(qū)域內的高度不均勻分布特性,導致輸入特征中“零犯罪”的占比極大,使模型預測結果稀疏表現(xiàn)嚴重.
為解決上述問題,本文借鑒傳染病研究中的時空聚集度計算方式,針對犯罪預測研究,提出了一種基于平均最鄰近距離(Mean Nearest Distance)的改進Knox算法(本文將其命名為Mnd-Knox算法)的犯罪預測方法,明確犯罪案件自相關性的時空分布尺度,避免了傳統(tǒng)犯罪研究對案件間自相關性分析不足的問題;通過網(wǎng)格化地理信息管理方法,構建權重矩陣,跨時空域的分析了案件間的依賴關系,緩解了現(xiàn)存犯罪數(shù)據(jù)分布不均衡問題;最后在模型輸入中附加地理特征,集成犯罪發(fā)生時間地點和案發(fā)相關的地理環(huán)境,完善了模型對犯罪相關數(shù)據(jù)集的利用率,實現(xiàn)了對犯罪環(huán)境的模擬,以及識別案件時空分布格局的目的.此外,本文在數(shù)據(jù)挖掘部分,采用基于Adam改進的深度神經(jīng)網(wǎng)絡(Deep Neural Networks,DNN)模型,有效地捕捉和學習犯罪在微觀尺度下時空分布特征的疏密度,借助Mnd-Knox算法選擇合適的微觀時空尺度,對具體實驗區(qū)域的時空分布特征和犯罪近重復性進行分析.在上述方法研究基礎上,本文將預測所得結果進行可視化展示,以利用犯罪熱點信息地圖對警務工作加以指導,更好地預防頻發(fā)型犯罪案件的發(fā)生和提高治安防控管理水平.
時空數(shù)據(jù)挖掘的關鍵在于抓取時空數(shù)據(jù)點間冗雜的自相關性.由于時空數(shù)據(jù)具有復雜的依賴關系,而傳統(tǒng)的數(shù)據(jù)挖掘技術均采用統(tǒng)計方法,并假設數(shù)據(jù)點是獨立的,因此將其應用于時空數(shù)據(jù)時,效果欠佳.本文將從以下3個步驟進行研究,捕捉時空數(shù)據(jù)點間的復雜自相關性:
1)通過采用Mnd-Knox算法分析不同類型犯罪案件間,自相關性表現(xiàn)顯著的閾值,確定適用于分析時空分布特征和犯罪近重復性的時空預測尺度,處理得到頻發(fā)型犯罪案件的時空影響因子,為建立犯罪案件時空分布預測模型,提供可用于研究犯罪近重復性的數(shù)據(jù)基礎;
2)顧及頻發(fā)型犯罪案件時空域中分布特征的稀疏性對犯罪預測模型訓練學習過程的影響,通過網(wǎng)格化地理信息管理方法,構建時空網(wǎng)格交互結構,以網(wǎng)格為單位計算各類案件自相關性的影響權重,構建案件間的自相關性影響權重矩陣,研究跨時空域的離散案件間的時空依賴關系,探討案件聚集性分布顯著和分布稀疏性較高的區(qū)域位置,同時利用移除空網(wǎng)格方法優(yōu)化犯罪數(shù)據(jù),達到平衡樣本比例的目的,避免了犯罪預測類別失衡的問題;
3)在第2)步所得數(shù)據(jù)的基礎上,附加相關地理特征數(shù)據(jù),深入探究犯罪周圍地理環(huán)境對案件發(fā)生的影響.最后,將所得實驗數(shù)據(jù)代入DNN模型中,以得到最終預測結果.
本文所提出的犯罪時空數(shù)據(jù)挖掘框架如圖1所示,由確定時空閾值、建立時空網(wǎng)格框架、擴充數(shù)據(jù)集、數(shù)據(jù)挖掘4部分組成.
圖1 犯罪預測框架圖
在確定時空閾值部分,本文提出了Mnd-Knox算法,并將其與卡方檢驗相結合,來識別犯罪數(shù)據(jù)中給定時間段內共同出現(xiàn)在相同或鄰近區(qū)域塊的案件簇,以最早發(fā)生的案件點為首,確定犯罪鏈.假定犯罪數(shù)據(jù)集S={x1,x2,…,xn}含n條犯罪記錄,每條記錄可表示為:
xi={qi,pi,ti}
(1)
其中xi表示出現(xiàn)在時間ti地點pi的案件qi,則Mnd-Knox算法將S劃分為m條相交且不相同的犯罪近重復鏈{Qi|j=1,2,…,m},每條犯罪鏈可表示為:
Qj={x1,x2,...,xnj}
(2)
式中nj表示時間閾值Nt內Qj的記錄數(shù).
在建立時空網(wǎng)格部分,本文基于網(wǎng)格化地理信息管理方法建立了犯罪空間影響權重矩陣,將將Mnd-Knox算法處理所得數(shù)據(jù)和空間影響權重因子均投放到h等分的時空交互網(wǎng)格結構中,所得到的網(wǎng)格化數(shù)據(jù)集D={D1,D2,…,Dk}包含k個網(wǎng)格,每個網(wǎng)格可表示為:
(3)
在擴充數(shù)據(jù)集部分,本文依據(jù)犯罪學環(huán)境理論,將天氣數(shù)據(jù)集W={w1,w2,…,w366}縮放到單位范數(shù),此時每條記錄可表示為:
wi={tr,pi,ui}
(4)
式中,ui表示在地點pi時間ti時的天氣因子,然后再將其與其他犯罪相關位置數(shù)據(jù)投放在網(wǎng)格中,得到最終網(wǎng)格化數(shù)據(jù)集D′,此時每個網(wǎng)格可表示為:
(5)
式中,or表示在編號Gr網(wǎng)格中的警察局位置,er表示網(wǎng)絡熱點(即網(wǎng)絡平臺上評論數(shù)據(jù)量大、熱門度高的地點)統(tǒng)計量.
在數(shù)據(jù)挖掘部分,本文基于Adam優(yōu)化的DNN算法從數(shù)據(jù)集D′中挖掘犯罪發(fā)展規(guī)律,在兼顧犯罪近重復性的時間與空間特征的同時,捕捉時空自相關性尺度下的案件分布異常特征.
圖1中3個數(shù)據(jù)特征優(yōu)化處理模塊分別對應后文中第4節(jié)3個小節(jié)的內容,該框架既滿足宏觀分析離散案件點的間隔長度,又可以微觀剖析參數(shù)間的自相關性.
本文采用美國芝加哥地區(qū)的犯罪信息作為研究數(shù)據(jù)集.芝加哥地處北美大陸中心地帶,是國際金融中心之一,也是美國第三大城市和美國最大的制造業(yè)中心.容納270萬人口的芝加哥市案件量遠高于其他城市,故被冠以“犯罪之城”的稱號.當?shù)鼐炀謹?shù)據(jù)統(tǒng)計結果表示,僅2016年一年各類犯罪案件高達25萬余起.本文采用芝加哥地區(qū)2016年1月1日至2016年12月31日的犯罪數(shù)據(jù)用于犯罪預測實驗研究.
本文首先對犯罪數(shù)據(jù)集進行初步預處理,如利用dropna()和fillna()函數(shù)刪除并填充缺失數(shù)據(jù)和遺存數(shù)據(jù)、groupby()聚合分類等,最終獲得251044條有效數(shù)據(jù),部分數(shù)據(jù)見表1.其中盜竊犯罪占69243起,毆打犯罪占48667起,刑
表1 芝加哥地區(qū)部分犯罪數(shù)據(jù)信息
事?lián)p害犯罪占30185起,襲擊犯罪占19333起,這4類犯罪案發(fā)次數(shù)遠超其他類型案件,屬于頻發(fā)犯罪類型,故本文將以上4類犯罪作為研究重點進行預測分析.
頻發(fā)型犯罪的發(fā)展規(guī)律通常被視為連續(xù)變量在時間軸上的橫移運動,與傳染病的流行態(tài)勢極為相似[8].而Knox算法作為一種經(jīng)典的傳染病聚集性檢驗方法,將其理論應用于對犯罪數(shù)據(jù)預處理過程進行優(yōu)化,能夠實現(xiàn)案件間自相關性分析,從而得到犯罪近重復性信息.然而,傳統(tǒng)的Knox檢驗方法需要人工確定閾值,在缺乏相關先驗知識的情況下,主觀人為確定的閾值會存在一定的隨意性.如,She Bing等[9]在研究神宗和征出血熱疾病時,人為指定空間閾值為500km和800km;Mja B等[10]將Knox算法應用于垃圾處理及占道經(jīng)營事件研究,人為選取空間閾值為500m,時間閾值為3h;Yue Han等[11]逐一選取900km、1000km…2000km作為空間閾值,構建了12組權重矩陣,實驗表明在不同閾值下事件呈現(xiàn)出的時空交互性差異較大,不能精準反映出事件真實的自相關性.
本文對傳統(tǒng)Knox算法進行了改進,以案件對平均最鄰近距離作為Knox檢驗閾值,Mnd-Knox算法能夠體現(xiàn)出鄰近案件點比疏遠案件點存在更為緊密的關系,解決了傳統(tǒng)Knox算法人工確定閾值的隨意性問題.因此,本文在犯罪時空特征優(yōu)化提取過程中,利用Mnd-Knox模塊對犯罪近重復性的微觀尺度進行分析.
Mnd-Knox算法具體流程如下:
本文首先利用如下公式計算案件對間的MND:
(6)
式中,n為案件點總數(shù);min(dij)表示案件點i與其最鄰近點j的距離.本文基于公式(1)將n個案件點兩兩配對得到n(n-1)/2組時空案件對,并計算每對案件間的實際空間距離sij和實際時間距離tij.當實際空間距離sij不大于空間閾值S時,認為案件對空間鄰近;當實際時間距離tij不大于時間閾值t時,認為案件對空間鄰近.4類臨近關系的案件對數(shù)值見表2.
表2 Mnd-Knox指數(shù)邏輯結構表
表2中,D1為案件時空鄰近對數(shù),D2表示空間鄰近對數(shù),D3為時間鄰近對數(shù),D4為時空非鄰近對數(shù).時間鄰近且空間鄰近的案件對可被視為時空鄰近案件.在得到所有案件時空鄰近結構后,利用卡方檢驗方法對犯罪時空交互統(tǒng)計的顯著性進行檢驗.卡方檢驗假設犯罪是否時間臨近和是否空間鄰近是獨立無關的.
本文隨機抽取一對案件,并計算空間鄰近的概率:
(7)
式中,N表示案件總對數(shù).
假設案件不存在時空交互性,本文通過比較理論值E(Di)和實際值Di的誤差大小,計算卡方值χ2,并根據(jù)計算結果判斷時空聚集程度的顯著性.計算方法如下:
(8)
(9)
(10)
(11)
(12)
在擬合優(yōu)度檢驗中,自由度v由矩陣的行數(shù)n和列數(shù)m計算可得:
v=(n-1)(m-1)
(13)
基于Python編程語言實現(xiàn)的Mnd-Knox算法優(yōu)化流程如下:
算法1.Mnd-Knox算法的部分流程
輸入:犯罪數(shù)據(jù)集S
輸出:時間閾值Nt
1.def time_long(time1,time2,type=″day″)://時間差函數(shù)
2.day1=time.strptime(str(time1.strftime(″%Y-%m-%d″))
3.day2=time.strptime(str(time2.strftime(″%Y-%m-%d″))
4.iftype==′day′://時間轉換
5.Nt=np.mean(b)
6.num=int(time.mktime(day1)))/(24*60*60)
7.returnabs(int(num))
8.endif
9.for i in range(len(S.timestamp)):
10. list_a=[]
11. for j in rang(i+1,len(S.timestamp)):
12.time_list=time_long(S.timestamp[i],
13.S.timestamp[j])//ti時刻與其他時刻的時間差列表
14.min_list.append(min(time_list))最鄰近距離
15. endfor;
16.Nt=np.mean(b)//平均最鄰近距離
17.endfor
18.returnNt
算法1中,time1和time2為任意兩個案件點的時刻.
本文通過上述研究成果,分別計算得出芝加哥2016年4類案件的平均最鄰近距離:1)盜竊案56m;2)毆打案145m;3)刑事?lián)p害案233m;4)襲擊案64m.4類案件的時空檢驗結果如圖2所示.橫坐標上的時間不是一個時刻,而是代表一個累積量,也代表了犯罪案件發(fā)生的前后依賴關系.顯然在宏觀時間趨勢下,犯罪時間域的分布離散程度越來越高,近重復程度逐漸減弱.
圖2 時空檢驗圖
本文選取95%置信度(即p<0.05)作為顯著性判斷標準,得到4類案件的時間閾值見表3.
表3 芝加哥2016年4類主要案件調查結果
本文所提出的Mnd-Knox算法能夠在時空域中捕捉離散點間之間的依賴關系,從而可以識別出犯罪近重復性在時間和空間上的鄰近性.本文根據(jù)所計算得出的4類案件近重復性時空分布閾值,確定適用于分析時空分布特征和犯罪近重復性的時空預測尺度.在構建犯罪預測模型時,本文選取其前一天及其前Nt天的犯罪頻次作為模型的輸入特征,以便為犯罪預測模型提供可用于分析離散案件點間依賴關系的犯罪近重復性因子,在加入該因子后模型輸入層含有犯罪時間近重復性信息,能夠為犯罪時空預測模型的構建提供案件自相關性分析的數(shù)據(jù)基礎.
4.2.1 建立案件間空間鄰近性權重矩陣
犯罪行為人多數(shù)會選擇在其熟悉的環(huán)境內發(fā)生犯罪,但是以往犯罪預測研究中通常著重分析時間、空間和犯罪類型[12]等因素,未考慮網(wǎng)格的地理特征,使得模型無法預測空間維度上犯罪的位移.為此,本文在時空數(shù)據(jù)處理過程中添加網(wǎng)格化處理模塊,并在該模塊中采用網(wǎng)格化犯罪特征優(yōu)化方法,通過空間鄰近性構建空間權重矩陣,將多區(qū)域之間的關聯(lián)性進行量化.
本文首先在地圖上界定芝加哥市的邊界,得到一個矩形的空間區(qū)域,然后在保證不破環(huán)犯罪鏈的前提下,將該區(qū)域劃分為200*200的網(wǎng)格,并對網(wǎng)格進行編碼后利用核密度估計法(Kernel Density Estimation,KDE)計算相鄰網(wǎng)格的時間因素在不同網(wǎng)格距離下的影響權重,選擇徑向基函數(shù)作為核函數(shù).徑向基函數(shù)的取值僅依賴于到原點距離的實值,同時可控制函數(shù)的徑向作用范圍(即犯罪近重復范圍),便于將有限維數(shù)據(jù)映射到高維空間,其形式定義為:
(14)
式中,σ為核密度函數(shù)的帶寬,Δt表示時間段中任意時刻到某個犯罪中心點的時間長度,該中心的犯罪自相關性影響是局部的,所生成的平滑估計面可以展示時間區(qū)域內的犯罪聚集情況,對于某段時間內犯罪事件中的任意一點x,設xi(i=1,2,…,n)是該時間段內同類型犯罪的其他點,其中n為樣本數(shù)量,xi到x的距離決定了該時間段內其他點對點x的權重.則點x處的犯罪概率密度為:
(15)
在上述研究基礎上,本文構建了案件空間權重矩陣,其中網(wǎng)格編碼為1-6的網(wǎng)格權重矩陣見表4,其中犯罪空間權重矩陣的行信息代表在一段時間內某犯罪區(qū)域對其他各區(qū)域的影響因子.
表4 網(wǎng)格編碼前6的空間權重矩陣
基于Python編程語言實現(xiàn)的時空交互網(wǎng)格結構構建部分函數(shù)如下:
算法2.構建網(wǎng)格交互結構流程中部分函數(shù)
輸入:數(shù)據(jù)集D,網(wǎng)格劃分疏密度h
算法參數(shù):芝加哥市區(qū)域邊界經(jīng)緯度City(x1,y1,x2,y2)分別為緯度(最南)、經(jīng)度(最西)、緯度(最北)、經(jīng)度(最東)
輸出:網(wǎng)格化數(shù)據(jù)集D′
1.def get_diagonals(self)://定位子網(wǎng)格函數(shù)
2.map=self.get_map_coordinates()//獲取網(wǎng)格邊界
3.diagonals=[]
4.foriinrang(0,h*h-h-1):
5.if(i!=0andi%n==0):
6. continue
7. endif
8. diagonals.append((map[i],map[i+n+1]))
9. endfor
10.return diagonals
11.def get_map_coordinates(h)://獲取區(qū)域邊界函數(shù)
12. asserth>1//報錯函數(shù)
13. epsilon=1e-6//取數(shù)據(jù)集中最大最小經(jīng)緯度作為芝加哥的最大最小經(jīng)緯度,并外擴epsilon
14. lat_start=D.lat.min()-epsilon
15. lat_end=D.lat.max()+epsilon
16. long_start=D.long.min()-epsilon
17. long_end=D.lat.min()+epsilon
18. delta_lat=abs(lat_end-lat_start)/h
19. delta_long=abs(long_end-long_start)/h//距離取絕對值
20. Chicago=City(lat_start,long_start,lat_end,long_end)
21. cells=Chicago.get_diagonals()//子網(wǎng)格劃分
22. ……
4.2.2 時空網(wǎng)格交互結構建立以及數(shù)據(jù)不平衡性處理
隨著時間的推移,犯罪空間影響權重是動態(tài)變化的,每一時段的犯罪空間影響權重因子都不相同.因此,本文構建時空網(wǎng)格交互結構將時間和空間因子順序排列于網(wǎng)格中,來完成跨時空域的案件自相關性分析.本文在二維空間網(wǎng)格平面上,垂直于平面方向延伸出時間軸,得到三維立體網(wǎng)格結構,并以天為單位進行統(tǒng)計,得到一個200*200*366(其中2016年全年共366天)的時空網(wǎng)格交互結構.時空交互網(wǎng)格結構同時考慮時間和空間因素,將Mnd-Knox算法處理所得數(shù)據(jù)和空間影響權重因子同時映射到對應網(wǎng)格中,統(tǒng)計一定時間段內(即各類案件對應的近重復性閾值Nt)單位網(wǎng)格內的累積犯罪數(shù)據(jù)來分析犯罪在跨時空域上的分布特征.
在此基礎上,針對犯罪數(shù)據(jù)不平衡問題,利用filter()和list.remove()函數(shù)篩選出“零案件”網(wǎng)格并將其移除,以平衡樣本比例,避免了犯罪預測模型在學習訓練過程中,出現(xiàn)預測結果傾斜的問題.不平衡性犯罪數(shù)據(jù)處理流程,如圖3所示.
圖3 數(shù)據(jù)不平衡性數(shù)據(jù)處理流程圖
傳統(tǒng)的犯罪預測方法通常僅單獨考慮時間或空間因素[13],導致模型對時間和空間的選擇敏感性較高.有研究注意到不同區(qū)域的犯罪均受地理環(huán)境特征影響,如氣候變量[14,15]、失業(yè)率[16]、Twitter評論[17,18]等.因此,本文在犯罪時間、地點數(shù)據(jù)集的基礎上擴充相關環(huán)境因子數(shù)據(jù)集,從kaggle公開數(shù)據(jù)集中選取氣候特征、警察局位置及網(wǎng)絡數(shù)據(jù)作為附加地理特征,見表5.
表5 附加地理特征數(shù)據(jù)集
其中氣候特征,尤其是溫度特征是導致罪犯產生犯罪行為的重要因素之一[19].本文將氣候特征細分為降雪量、降水量、平均溫度、最高溫度和最低溫度;警察局數(shù)據(jù)統(tǒng)計了芝加哥地區(qū)所有網(wǎng)絡上公開的警察局位置經(jīng)緯度;網(wǎng)絡數(shù)據(jù)選擇的是芝加哥地區(qū)yelp平臺的公開數(shù)據(jù)集.yelp作為美國最大的點評網(wǎng)站,相關數(shù)據(jù)囊括芝加哥地區(qū)的網(wǎng)紅餐館、大型購物中心、高客滿率酒店、熱門旅游景點等熱點位置.本文將網(wǎng)絡數(shù)據(jù)中yelp熱點位置與犯罪案件點位置進行對比,結果如圖4所示,可以看出二者聚集性表現(xiàn)相似度極高.yelp可以反映出不同位置繁華程度、交通擁堵情況及人流量等特點,這些因素均可直接影響犯罪發(fā)生的可能性,故可以作為預測模型的附加地理特征.
圖4 數(shù)據(jù)聚集性分析
以往研究中,研究人員提出了多種基于數(shù)據(jù)驅動的建模方法,如DBSCAN[20]、多層感知機[21]、隨機森林[22]、模糊BP神經(jīng)網(wǎng)絡[23]、模糊VIKOR算法[24]、卷積神經(jīng)網(wǎng)絡[25]等.在這些建模方法中,DNN相比于其他方法,在非線性系統(tǒng)建模方面優(yōu)勢明顯[26].考慮到隨著時間推移,不同網(wǎng)格內的犯罪案件的發(fā)生數(shù)量存在波動性(即時空犯罪影響因子的局部變異),本文采用基于Adam優(yōu)化的DNN算法[27]捕捉犯罪時空序列中的異質性特征,高效擬合犯罪時空序列中的特征分布并進行犯罪預測.
由于芝加哥數(shù)據(jù)集規(guī)模較小,為了防止過擬合,本文選用隱含層為3層的DNN網(wǎng)絡結構.增加每層神經(jīng)元的數(shù)量能在一定程度上提高模型的預測性能,但也同時提升了學習參數(shù)的復雜度,易造成過擬合,因此,本文將各層神經(jīng)元數(shù)量設定為{5,10,20,50,100,150},并采用k-fold交叉驗證[28]的方法確定隱層神經(jīng)元數(shù)量,模型結構如圖5所示.
圖5 犯罪預測DNN模型結構
本文針對芝加哥犯罪數(shù)據(jù)采用上述方法進行實驗研究,在訓練預測模型時,均采用7:3的比例隨機劃分數(shù)據(jù)集,取70%的數(shù)據(jù)作為訓練集,30%的數(shù)據(jù)作為測試集,并選擇MAE值作為評價指標進行分析,以驗證模型的有效性.具體計算公式如下:
(16)
6.2.1 實驗結果對比
本節(jié)首先將經(jīng)過簡單處理(見第3節(jié))后的數(shù)據(jù)作為基礎模型的輸入,并將基礎模型預測性能與經(jīng)過上文所述方法優(yōu)化后的模型性能進行對比,見表6.
表6 各類案件模型性能評估MAE值
表6中的模型3結合了3種輸入數(shù)據(jù)優(yōu)化方法,包括:1)通過Mnd-Knox算法確定時空閾值;2)結合網(wǎng)格化地理信息管理方法對附加地理特征及基礎犯罪特征在時空域中的自相關性進行提取后.由表6易知,模型3對于4類案件的預測均取得了較為理想的結果;對于犯罪近重復性表現(xiàn)較為突出的盜竊案而言,利用3種特征優(yōu)化方法共同優(yōu)化后的模型(即模型3)誤差顯著降低,預測性能有明顯提升;而對于犯罪近重復性相對較弱的襲擊案、刑事?lián)p害案和毆打案來說,模型3性能提升幅度相對較小,但仍具有很好的預測能力.這說明將本文所提出的3種優(yōu)化方法綜合運用于犯罪預測研究,能夠深入分析犯罪案件間的自相關性,且有一定的積極作用.
本文進一步整合了不同類型案件數(shù)據(jù)下,3種優(yōu)化方法的作用效果,如圖6所示,其中縱坐標表示各方法的優(yōu)化效果占總優(yōu)化效果的比例.
圖6 3種優(yōu)化方法效果對比圖
由圖6可知,對于全年案發(fā)數(shù)量最高的盜竊案而言,犯罪行為人實施犯罪前通常會掌握人們行為規(guī)律、窺測作案地點周圍環(huán)境,然后選擇作案目標、時機、逃跑路線等,且盜竊行為常帶有習慣性,直接導致盜竊案件具有極高的近重復性,因此經(jīng)過Mnd-Knox優(yōu)化后,預測效果提升最為明顯.而襲擊案經(jīng)過Mnd-Knox算法優(yōu)化后的效果未達到最優(yōu),但經(jīng)過網(wǎng)格化處理后的優(yōu)化效果最佳,這與該類案件社會破壞力及影響規(guī)模極強的特性有關.同時襲擊行為人需要進行充分準備、嚴密策劃、嚴謹組織,但襲擊目標較為特定,因此襲擊案仍具有發(fā)生二次重復犯罪的可能性,但影響相對較小.另外,襲擊組織形式呈網(wǎng)格化,在相應的網(wǎng)格結構中,沒有明顯的權利中心,只有大量不同的節(jié)點,每個節(jié)點均可為其他節(jié)點提供幫助與支持,所以對襲擊案預測模型進行網(wǎng)格化城市管理優(yōu)化效果顯著.其次對于毆打案和刑事?lián)p害案而言,兩者均表現(xiàn)出一定的近重復性,因此Mnd-Knox優(yōu)化效果較好.在毆打案預測模型輸入中附加地理特征后,優(yōu)化效果較為良好,這說明這類案件受周圍客觀事物的影響較大,當某地區(qū)缺乏有效監(jiān)管且具備有利的作案環(huán)境時,會導致該類案件頻發(fā).
6.2.2 與其他犯罪預測算法性能對比
對比研究中,本文選取目前最新的犯罪預測模型與本文提出的基于Mnd-Knox算法和時空交互網(wǎng)格結構改進的犯罪預測模型(即模型3)進行比較分析,見表7.對比模型的平均絕對誤差數(shù)據(jù)由文獻[29]提供,包含對盜竊、搶劫和搶奪案3類數(shù)據(jù)集的預測結果,該結果數(shù)據(jù)取值均保留到小數(shù)點后兩位,本文采用MAE的平均值對比相應模型預測性能.
表7 評估模型性能的MAE值對比
對比各類模型MAE的平均值易知,模型3對不同類型案件的數(shù)據(jù)集進行預測,其預測性能表現(xiàn)最佳,均能穩(wěn)定在較低的平均絕對誤差水平上.而嶺回歸模型雖能在一定程度上擬合模型,但對于非線性的犯罪數(shù)據(jù)而言,容易出現(xiàn)回歸結果失真的情況;彈性網(wǎng)絡模型對重要特征的選擇較為敏感,該模型適用于特征變量高度相關的情況,而犯罪數(shù)據(jù)常表現(xiàn)為離散的案件點,且案件間的自相關性從宏觀數(shù)據(jù)間隔上難以被判別;K最近鄰模型的回歸前提是需要找到一個案件點的k個最近鄰案件點,其中k值需要憑借先驗知識確定,而導致實驗結果的不穩(wěn)定性,同時,犯罪近重復性的強弱是隨案發(fā)地點、時間、周圍環(huán)境、案件類型等因素動態(tài)變化,因此,在K最近鄰模型中選擇固定的k值不利于犯罪近重復性的分析.
6.2.3 4類案件的優(yōu)化效果
圖7和圖8給出了4類案件模型預測效果圖,在同一坐標尺度下,可更加直觀地比較經(jīng)過特征優(yōu)化后的預測模型3與基礎模型的預測效果.
圖7 基礎模型預測誤差
由圖7和圖8可以看出,除盜竊案以外的3類案件進行特征優(yōu)化后的預測結果均出現(xiàn)多個誤差峰值,這是由于案件發(fā)生時的特殊社會形勢或犯罪行為人的反常表現(xiàn)所導致的.犯罪的發(fā)生受諸多因素共同作用,因此這些峰值的產生原因較為復雜,很難精準預測其規(guī)律性.但是,很顯然進行特征優(yōu)化后的模型整體性能得到了較大程度的提升,表明該模型能夠較好地反映芝加哥市犯罪在時間和空間上的發(fā)生趨勢.
圖8 模型3預測誤差
由上述分析可知,基于Mnd-Knox及網(wǎng)格化地理信息管理方法進行特征優(yōu)化的犯罪時空預測模型,能夠較為充分地挖掘犯罪在時間及空間上的復雜內在規(guī)律,并預測未來一段時間內某地發(fā)生某類案件的概率.將犯罪預測結果投放在網(wǎng)格中進行可視化展示,可以直觀地對決策人員加以指導.本文整合了4類案件預測結果,將犯罪率前50的網(wǎng)格作為犯罪熱點,并利用Python中的Plotly Express進行可視化展示,如圖9所示.
圖9 犯罪熱點圖
圖9中選取預測模型輸出值較高的網(wǎng)格作為犯罪熱點,方便相關人員采取及時有效的應對措施,并重點在犯罪熱點地區(qū)進行警力和資源部署,同時可以根據(jù)預測結果制定短期及長期工作計劃,以優(yōu)化警力資源利用.
犯罪數(shù)據(jù)集的特征提取及預處理是犯罪預測研究中的關鍵一環(huán).本文提出了一種基于Mnd-Knox及網(wǎng)格化管理的犯罪時空預測方法,針對以往研究中缺乏分析犯罪案件間時空自相關性的問題,借助Mnd-Knox算法確定時間和空間維度上近重復性的閾值,并利用該值提取與被預測點存在自相關性的時空特征,同時構建時空交互網(wǎng)格結構去除不均衡的犯罪數(shù)據(jù),對時空分布特征提取進行了優(yōu)化,最后融合附加地理特征,解決了現(xiàn)存數(shù)據(jù)利用不充分、犯罪特性考慮不周全等問題,從而提高了犯罪時空預測模型的性能.
本文主要貢獻如下:
1)創(chuàng)新性地將傳染病研究時空聚集度技術應用于犯罪領域,研究犯罪時空近重復性尺度,一方面創(chuàng)新性地采用有別于直接利用原始犯罪數(shù)據(jù)集進行預測的方法,克服了簡單宏觀預測導致數(shù)據(jù)利用不充分的問題;另一方面能夠較好的擬合頻發(fā)犯罪類型案件發(fā)展規(guī)律,考慮到鄰近案件點比疏遠案件點存在更為緊密的關系,使其在預測頻發(fā)案件時具有更好的效果.
2)引入城市網(wǎng)格化管理思路,在犯罪點間的內部聯(lián)系保留更完整的前提下,將預處理后的犯罪數(shù)據(jù)點投放到三維時空交互網(wǎng)格結構中,結合核密度估計法統(tǒng)計單位網(wǎng)格中的數(shù)據(jù)信息,再提供欠采樣方法,解決了數(shù)據(jù)傾斜問題.
3)在分析犯罪時間地點數(shù)據(jù)的基礎上,融合周圍物理環(huán)境因素,如天氣情況、警察局及熱點地區(qū)位置信息共同作為模型輸入,全面模擬犯罪環(huán)境,同時提高犯罪相關數(shù)據(jù)利用率及模型預測準確率.
4)結合常用誤差度量標準對不同疏密程度的網(wǎng)格化預測模型進行評估,并利用犯罪熱點地圖可視化技術展示預測結果.
通過實驗結果比較表明,本文所提出的優(yōu)化模型用于預測4類案件后,模型性能表現(xiàn)良好,能夠達到預期目標,特別是用于分析自相關性顯著的案件類型時,效果最佳.下一步本文計劃針對未來一周和未來半個月的犯罪數(shù)量進行預測,此時需要根據(jù)案件點距離的核密度變化調整預測模型的輸入?yún)?shù),從而能夠為公安部門制定長期工作計劃提供輔助作用.公安部門可借鑒本文預測結果,從長期及短期犯罪發(fā)生規(guī)律入手布置犯罪防控工作.