唐德權(quán) 史偉奇 張波云
(湖南警察學院信息技術(shù)系 湖南 長沙 410138)
隨著互聯(lián)網(wǎng)技術(shù)普及和深度應用,以大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)、人工智能、數(shù)據(jù)挖掘等先進技術(shù)成熟和廣泛應用,公安科技信息化為現(xiàn)代公安警務(wù)插上了科技的翅膀。同時犯罪分子通過“互聯(lián)網(wǎng)+”的各種數(shù)據(jù)信息渠道從事隱蔽更深、危害更大的犯罪活動,已經(jīng)演變成一場犯罪分子與公安部門在“互聯(lián)網(wǎng)+”技術(shù)、數(shù)據(jù)信息技術(shù)、大數(shù)據(jù)技術(shù)策略、措施、方法領(lǐng)域的競賽與對抗。盡管有上述技術(shù)與方法,但大多數(shù)現(xiàn)有方法只可以在相同的基礎(chǔ)上處理來自多個域的數(shù)據(jù),比如直接連接特性或執(zhí)行加權(quán)求和。有些方法沒有考慮來自多個域的數(shù)據(jù)的不同特征,即多模信息特征[1]。因此,尋找一種方法從多個域多模信息特征進行融合對犯罪預測研究具有現(xiàn)實意義。
犯罪學的早期研究試圖證明犯罪和各種影響因素之間的關(guān)系,如人口統(tǒng)計學、經(jīng)濟學和失業(yè)。近年來,這些研究仍在繼續(xù)證明犯罪和各種影響因素之間的關(guān)系。例如,Kelly[2]認為美國城市縣的不平等與犯罪之間的關(guān)系,并證明社會弱勢群體犯下了最暴力的罪行;Hojman[3]研究了拉丁美洲城市的不平等、失業(yè)和犯罪,考慮到城市的多樣性,并利用回歸分析,指出了威懾、貧窮和不平等是犯罪原因的作用;Poveda[4]在哥倫比亞的七個城市研究了社會經(jīng)濟和暴力犯罪。他們的分析表明,城市的經(jīng)濟貧困和人口密度高是他殺率的重要因素。對犯罪的空間模式分析是一種經(jīng)典的方法,如Cusimano等[5]利用多元泊松回歸模型,分析了加拿大多倫多地區(qū)暴力傷害的時空模式。Mohler等[6]將犯罪行為從最初的犯罪地點傳播到周邊地區(qū),并解釋了犯罪學和流行病學之間的學科共性和差異。
犯罪預測方法利用了多種機器學習技術(shù),如回歸分析、核密度估計(KDE)[7]、支持向量機(SVM)等。Liao等[8]利用地理信息和受害者特征建立了基于貝西亞的犯罪預測模型。Gorr等[9]提出了一個短期犯罪預測方法,使用一個月的時間范圍。Chen[10]等在我國的某個城市應用了一個自回歸綜合移動平均模型來預測短期犯罪預測,所使用的模型是一種著名的時間序列分析方法,用于預測未來事件。Shingleton等[11]使用了一種基于回歸分析的方法來預測在加州薩利納斯的三種犯罪類型(暴力、兇殺和攻擊),使用普通最小二乘法、泊松回歸和負二項回歸模型。Kianmehr等[12]提出了一個在俄亥俄州、俄亥俄州和密蘇里州圣路易斯用k-means集群使用SVM的計算框架。Wang等[13]利用SVM預測犯罪再犯,使用的數(shù)據(jù)集來自國家檔案館的刑事司法數(shù)據(jù)的跨大學聯(lián)盟政治和社會研究。最近,一些研究使用社交媒體數(shù)據(jù)和KDE進行犯罪預測。
深度學習在計算機視覺中表現(xiàn)出了顯著的表現(xiàn),如圖像分類。此外,深度學習已經(jīng)被用于新的特征表示和抽象。使用這種機制,可以很容易地應用于從大量數(shù)據(jù)或復雜數(shù)據(jù)中總結(jié)關(guān)鍵信息或特性。在計算機視覺中,在一些研究中使用深度學習進行特征級數(shù)據(jù)融合。Lu等[14]融合了全局整體和局部細節(jié)圖像,以進行圖像完美的質(zhì)量評估,為此他們建立了兩種卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型:第一個模型用于圖像的完全調(diào)整;另一種用于精細的隨機裁剪圖像。每個CNN模型都為圖像美學提取了全局和局部特征。提取的特征在第一個完全連通的層中融合。Liu等[15]提出了使用深度自動編碼器的音頻和視頻之間的中層特征表示方法,他們提出的模型由聯(lián)合表示和多任務(wù)結(jié)構(gòu)組成。
使用的環(huán)境背景信息是受到BWT[16]的啟發(fā)。這兩種理論證明了鄰里表象和犯罪活動之間的聯(lián)系。BWT認為,社會環(huán)境的混亂,如破碎的窗戶、垃圾、撞壞的汽車等,是犯罪活動增加的原因。也就是說,一個視覺感知障礙的地方有很高的犯罪發(fā)生機率。這是一個城市規(guī)劃和建筑設(shè)計方案,目的是防止犯罪和減少使用建筑環(huán)境犯罪的恐懼。它的設(shè)計有三個原則,即自然監(jiān)視、自然訪問控制和領(lǐng)土強化。Salesses等收集了街道圖像,并通過與人類視覺感知的對比實驗,測量了視覺感知的安全、唯一和作用圖像,發(fā)現(xiàn)視覺感知安全得分與犯罪負相關(guān)。
現(xiàn)代信息龐大且復雜多樣,在不同的應用領(lǐng)域信息的特征都不相同。在形式上主要有文本、圖形、圖像、音頻、視頻等,在信息的分布上有分布式存儲在不同地域、不同網(wǎng)絡(luò)服務(wù)上。預防犯罪需要提供準確、及時、全方位的信息。針對多源異構(gòu)信息在形式上具有多樣性和復雜性的特點,必須結(jié)合數(shù)據(jù)挖掘與數(shù)據(jù)融合技術(shù),構(gòu)建多模態(tài)信息融合模型。
圖1 多模信息融合預測模型
在多模態(tài)數(shù)據(jù)融合技術(shù)中, DNN用來學習多個數(shù)據(jù)集的聯(lián)合特征表示。也就是說,DNN學會了如何將功能集成到一個統(tǒng)一的特性中。因此,基于特征級數(shù)據(jù)融合方法的基于DNN的預測模型通常比直接拼接方法更能令人滿意,原因是它能克服傳統(tǒng)方法的局限性,如:過度擬合,難以發(fā)現(xiàn)高度非線性關(guān)系,以及多數(shù)據(jù)集之間的冗余和依賴等。本文采用深度神經(jīng)網(wǎng)絡(luò)DNN(deep neural network)技術(shù)[17]和學習方法進行多模特征融合,使用了三個不同特征組的特征級數(shù)據(jù)融合,即:空間、時間和環(huán)境。首先將這三個類型特征分別進行聚類分析處理,然后進行特征融合,再從元語義中進行語義分析得到聯(lián)合特征表示,最后預測犯罪事件,其預測模型如圖1所示。
圖1顯示了DNN的結(jié)構(gòu)。我們將DNN配置為四層:空間、時間、環(huán)境上下文,以及聯(lián)合特征表示層。首先,空間、時間和環(huán)境上下文特征層獨立運行。每個特征層都使用相應的特征組,這些特征組由具有類似于其輸入的屬性組成的數(shù)據(jù)組成,以執(zhí)行多級特征表示和抽象。特征層用來從輸入信息中提取特征。將這三個特征層的語義描述結(jié)果連接起來,然后提供給聯(lián)合特征表示層,將這些特征整合成一個統(tǒng)一的特征。聯(lián)合特征表示層學習適當?shù)臋?quán)重,以整合這三個特征??臻g、時間和環(huán)境上下文特征層由三個層組成,分別為256、256和128個神經(jīng)元。聯(lián)合特征表示層有三層,尺寸為1 024、1 024和2。所有層都應用了整流線性單元,用于激活函數(shù)和退出。因為涉及二進制分類,所以在Caffe框架中使用了Softmax[18]作為損失層。Softmax(h)是用來計算邏輯損失一個多分類任務(wù)的函數(shù),通過Softmax(h)函數(shù)傳遞實值進行預測,以獲得類的概率分布。Softmax(h)輸出類的概率為:
(1)
式中:n和k分別表示批處理大小和類。損失E計算公式如下:
(2)
本文提出了一種新的多模信息融合犯罪預測算法(Multi-modal Information Fusion Crime Prediction),簡稱MIFCP算法。MIFCP預測模型采用DNN的前向傳播算法,利用特征的混淆矩陣W,偏倚向量b,特征向量x進行一系列線性運算和激活運算,從輸入層開始,一層層的向后計算,一直運算到輸出層,得到輸出結(jié)果為止。
算法1MIFCP
輸入:層數(shù)L,混淆矩陣W,偏倚量b,特征向量值x
輸出:輸出層的輸出aL
M1:初始化a1=x
M2:For l=2 to L do
M3:al=Softmax(zl)=Softmax(Wlal-1+bl)
M4:輸出aL,結(jié)束。
算法2k-均值特征聚類
輸入:犯罪類型、集群的數(shù)量,初始值。
輸出:混淆矩陣a,b,c,d的值。
K0:n個數(shù)據(jù)成員初始化;
K1:隨機選擇聚類中心;
K2:根據(jù)它們與聚類中心的距離分配實例;
K3:調(diào)整聚類的中心;
K4:根據(jù)目標函數(shù),如果收斂則進入第K5步,否則轉(zhuǎn)步驟K1;
K5:輸出混淆矩陣W,結(jié)束。
算法2輸出混淆矩陣的格式如表1所示。
所有這些值都來自于事實表提供的信息,也稱為混淆矩陣,提供了預測器中實際(TPR)和預測(FPR)的分類計算公式如式(3)和式(4),預測的正確率和精確率如式(5)和式(6)。
TPR=a/(a+b)
(3)
FPR=b/(b+d)
(4)
Accuracy=(a+d)/(a+b+c+d)
(5)
Precision=a/(a+b)
(6)
k-means算法定義k個中心,每個中心為一個特征聚類[19],將n個數(shù)據(jù)對象劃分為k個聚類以便使得所獲得的聚類滿足目標函數(shù)。有了k個中心之后,必須在相同的數(shù)據(jù)集點和最近的新中心之間進行新的綁定,生成一個循環(huán)。由于這個循環(huán),我們可能會注意到k中心會一步一步地改變它們的位置,直到?jīng)]有做更多的改變,或者換句話說,中心不再移動。因此算法的時間復雜度上界為O(n·k·t),其中t是迭代次數(shù)。該算法的目標是最小化目標函數(shù),即平方誤差函數(shù)J(v)如下:
(7)
式中:‖xi-vj‖是xi和vj之間的歐幾里得距離,ci是第i個集群中的數(shù)據(jù)點個數(shù),c是集群中心個數(shù)。
數(shù)據(jù)收集對于準確預測犯罪事件是至關(guān)重要的。本文收集了來自七個領(lǐng)域的數(shù)據(jù):犯罪發(fā)生報告、人口、住房、經(jīng)濟、教育、天氣和圖像數(shù)據(jù)。數(shù)據(jù)來自芝加哥,因為它有大量人口(約270萬)和高犯罪率(2014年總共有274 064宗案件)。從芝加哥數(shù)據(jù)門戶網(wǎng)站收集了包含犯罪發(fā)生數(shù)據(jù)的報告。我們使用了2014年的報告,其中包括犯罪的日期、犯罪類型和緯度/經(jīng)度坐標。該報告列出了26種犯罪類型總共273 914個案件。此外,我們使用了2014年美國社區(qū)調(diào)查(ACS)數(shù)據(jù)是從美國檢察員(http://factfinder.census.gov)來收集各種社會經(jīng)濟因素(人口、住房、教育和經(jīng)濟數(shù)據(jù)為美國人),這是在芝加哥普查區(qū)規(guī)模的組織。最后,我們在801個有不完整數(shù)據(jù)的人口普查區(qū)域中的11個。例如,人口普查區(qū)編號9800和9801沒有數(shù)據(jù),人口普查區(qū)編號3406、3501、3504、3805、3815、3817缺乏中位數(shù)住房價值數(shù)據(jù)。
天氣和圖像數(shù)據(jù)分別從地下氣象API(https://www.wunderground.com/)和谷歌街景圖片API(https://developers.google.com/maps/documentation/streetview/)獲取。數(shù)據(jù)包括天氣和天氣事件的平均值及其最大值和最小值、雪、雨、冰雹和龍卷風。為了比較實驗效果,消除了平均濕度和降雪數(shù)據(jù)的缺失值。此外,冰雹和龍卷風在2014年沒有發(fā)生,也沒有考慮。使用緯度/經(jīng)度坐標采集圖像數(shù)據(jù)。它們是在芝加哥的邊界內(nèi)使用點抽樣法獲得的。在芝加哥的邊界內(nèi),所有0.001緯度/經(jīng)度坐標增量的數(shù)據(jù)都被采集到[41.644,-87.940][42.023,-87.524],不包括被排除的人口普查區(qū)域(n=60 348)。因為圖像數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù),從谷歌街景圖像數(shù)據(jù)中提取特征為我們的預測模型提供環(huán)境上下文信息(圖像數(shù)據(jù)在數(shù)據(jù)集網(wǎng)站http://cvml.catholic.ac.kr獲取)。雖然圖像數(shù)據(jù)不是實時采集的,但它們被認為足夠提供具有相關(guān)環(huán)境背景信息的預測模型。利用AlexNet[20]提取圖像數(shù)據(jù)特征,在圖像分類方面表現(xiàn)良好,數(shù)據(jù)集的描述如表2所示。
表2 數(shù)據(jù)集
從各種網(wǎng)上數(shù)據(jù)庫收集的數(shù)據(jù)可能包含與犯罪發(fā)生不相關(guān)的信息。為了解決這一問題,有必要消除數(shù)據(jù)的異常和輸出,以選擇有意義的數(shù)據(jù)與犯罪發(fā)生相關(guān)的統(tǒng)計意義。這種過濾有助于準確有效地預測犯罪事件。為此,對數(shù)據(jù)選擇之前進行Pearson相關(guān)系數(shù)分析。采用統(tǒng)計分析軟件包SPSS 18.0進行Pearson相關(guān)系數(shù)分析。最后考慮了從-0.2到0.2不等的Pearson相關(guān)系數(shù),P值大于0.05,并將其丟棄。Pearson相關(guān)系數(shù)結(jié)果表明,102項信息中有53項與犯罪發(fā)生相關(guān)。
然而,由于使用圖像數(shù)據(jù)從AlexNet提取的4096-D特征向量,不能從Pearson相關(guān)系數(shù)的分析中獲取環(huán)境上下文信息。因此,為了分析與環(huán)境背景信息有關(guān)的犯罪案件數(shù)量的差異,我們進行了kruskal-wallis H檢驗(也被稱為“單項方差分析”),這是一種基等級的非參數(shù)測試,用于分析兩個或多個獨立組之間的統(tǒng)計顯著性差異。環(huán)境背景信息必須被分組來進行kruskal-wallis H測試,因為它沒有假設(shè)一個正態(tài)分布。每個組都應該由與外觀相似的環(huán)境上下文信息組成。我們將環(huán)境信息分成十個組,使用k-means聚類來進行kruskal-wallis H檢驗,以及在kruskal-wallis H測試后對P值的Bonferroni型校正P值進行測試。采用R軟件包中的平均秩和(PMCMR)包進行成對多次比較進行上述測試,kruskal-wallis H檢驗結(jié)果如表3所示。
表3 Kruskal-Wallis H測試結(jié)果
在kruskal-wallis H檢驗后對P值的Bonferroni型校正進行了測試。kruskal-wallis H檢驗結(jié)果顯示P值小于0.05。此外,在kruskal-wallis H測試后,Dunn對P值的Bonferroni型校正結(jié)果顯示了環(huán)境上下文信息組之間的統(tǒng)計顯著性差異如表4和表5所示。這些結(jié)果表明,根據(jù)環(huán)境背景信息,犯罪事件的數(shù)量存在差異。換句話說,使用環(huán)境背景信息來預測犯罪的發(fā)生是恰當?shù)摹?/p>
表4 Bonferroni型P值調(diào)整結(jié)果(1)
表5 Bonferroni型P值調(diào)整結(jié)果(2)
通過與支持向量機SVM和核密度估計KDE(Kernel Density Estimation)比較,分析了本文預測模型的性能。SVM是一個通用的機器學習框架。使用LIBLINEAR[21]訓練了SVM,這是一個公共可用的大型線性分類庫。SVM使用了一個統(tǒng)一的特性集,由直接連接生成。對參數(shù)c進行了不同的訓練,得到了最優(yōu)值?;贙DE的預測模型是一種估計犯罪發(fā)生密度的一般方法,在R軟件包中使用ks包進行訓練,并利用d標量插件帶寬獲得了參數(shù)h的最優(yōu)值。然后,通過計算正確率、精確率和曲線下面積(AUC)來測量預測模型的性能。根據(jù)DNN的訓練數(shù)據(jù)和DNN模型的獨立分類器來評估性能,表6給出了本文算法和其他兩種算法準確度/精確度的性能評價結(jié)果。
表6 三種算法正確率和精確率結(jié)果
圖2根據(jù)訓練集1∶1、1∶2、1∶5、1∶10的比例對三種算法進行績效(AUC)評價結(jié)果。從這些結(jié)果中,我們發(fā)現(xiàn),MIFCP算法是預測犯罪發(fā)生的一種更合適的方法,而SVM和KDE這兩種算法的效率都較低。
圖2 三種算法準確度/精確度性能比較
本文利用環(huán)境上下文信息有效地融合多模態(tài)數(shù)據(jù),結(jié)合某個領(lǐng)域過去的犯罪活動記錄,并通過有效數(shù)據(jù)處理預測犯罪的發(fā)生,提出了基于多模態(tài)信息融合的犯罪發(fā)生預測算法。本文首先將空間、時間、環(huán)境和上下文信息特征進行融合,然后利用特征目標函數(shù)計算邏輯損失,提高了全局特征的正確率和局部特征的精確率。實驗結(jié)果表明,在不同比例數(shù)據(jù)訓練集條件下,該算法比現(xiàn)有方法的正確率和精確率分別提高了約12%和4%。未來計劃能將此項研究工作擴展,以預測犯罪發(fā)生的類型和時間,或為犯罪類型和時間的預測尋找其他數(shù)據(jù),以提高警察執(zhí)法效率。