盧 睿 李林瑛
(1 遼寧警察學院信息系 遼寧 大連 116036;2 大連外國語大學軟件學院 遼寧 大連 116044)
當前,我國的犯罪事件呈增長趨勢且不斷復雜,在犯罪數(shù)據(jù)上表現(xiàn)為數(shù)據(jù)量呈指數(shù)增長、數(shù)據(jù)形式復雜多樣。而警方對犯罪大數(shù)據(jù)的應用仍處于一般性的定性和宏觀分析上,缺乏實務性的定量的犯罪分析和預測應用,因此預測精度不足、實用價值較低。同時犯罪數(shù)據(jù)的不公開導致犯罪數(shù)據(jù)不易獲得,也限制了犯罪預測研究的發(fā)展。與此相對的是,數(shù)據(jù)挖掘方法已經(jīng)在不同領域的預測應用中表現(xiàn)出良好的性能。
研究表明,將犯罪案件、受害者和犯罪嫌疑人數(shù)據(jù)應用于數(shù)據(jù)挖掘,有助于發(fā)現(xiàn)隱藏的模式,從而為執(zhí)法和決策者提供決策支持[1]。經(jīng)公安部門研究發(fā)現(xiàn),犯罪分子實施犯罪在很大程度上取決于某個人的一些基本屬性,這些屬性對在案后發(fā)現(xiàn)犯罪嫌疑人具有重大意義。隨著以隨機森林為代表的集成學習算法的性能得到普遍認同,很多研究者以隨機森林方法為基礎,將犯罪數(shù)據(jù)的諸多因素聯(lián)系起來進行犯罪預測。文獻[2]分別使用不同分類方法來預測謀殺案件數(shù)據(jù)中受害人與罪犯之間的關系,其研究結果認為通過隨機森林和支持向量機方法建立二元分類問題可以獲得良好的分類準確性,并且執(zhí)行屬性選擇和使用透明決策樹模型可以獲得較好的樹模型。文獻[3]針對犯罪嫌疑人識別問題提出基于Probit模型的判定技術,采用聚類分離算法、關聯(lián)算法及Probit模型的顯著性水平參數(shù)發(fā)現(xiàn)重要屬性并據(jù)此進行訓練,從而得到嫌疑人風險判定模型。針對嫌疑人特征預測,文獻[4]根據(jù)歷史數(shù)據(jù)進行特征選擇,訓練基于SVM的特征預測模型,并與備選嫌疑人庫進行特征相似度計算,進而預測犯罪嫌疑人。文獻[5]針對刑事案件罪犯特征,提出改進的隨機森林分類器。文獻[6]采用隨機森林算法進行犯罪信息指標集合的選擇和犯罪風險預測。文獻[7]使用隨機森林回歸來預測犯罪,并量化城市指標在兇殺案中的影響,進而通過掌握城市指標相對犯罪的重要性等級達到指導控制犯罪公共政策的目的。文獻
[8]將Benford定律與邏輯回歸、決策樹、神經(jīng)網(wǎng)絡和隨機森林算法結合起來,在真實的西班牙法庭案件中學習洗錢罪犯的模式。文獻[9]針對保險詐騙的檢測問題,提出基于隨機森林、主成分分析和潛在最近鄰方法的多分類系統(tǒng),將隨機森林作為K潛在最近鄰的自適應學習機制,并以基于潛在最近鄰的投票機制取代多數(shù)投票機制,從而改進基分類器的差異。
本文提出了一種基于隨機森林的犯罪預測模型,能夠對具體涉案人員進行犯罪風險的判定與犯罪嫌疑人識別。對犯罪嫌疑人的基本屬性與犯罪傾向之間的關聯(lián)性進行研究,篩選出重要的特征屬性;利用所選擇的特征屬性進行隨機森林模型的訓練,最終得到犯罪預測模型。針對犯罪信息噪聲多、屬性復雜的特點,隨機森林模型在犯罪風險預測中的應用較之支持向量機和樸素貝葉斯模型表現(xiàn)出更好的準確性。
隨機森林(Random Forest,RF)是典型的集成學習方法,在以決策樹為基學習器構建 Bagging集成的基礎上進一步在決策樹的訓練過程中引入隨機屬性選擇[10],并根據(jù)投票機制產(chǎn)生最后的分類結果。RF方法對于噪聲數(shù)據(jù)和存在缺失值的數(shù)據(jù)具有很好的魯棒性和較快的學習速度,其變量重要度度量可以作為數(shù)據(jù)的屬性約簡方法,所以近年已經(jīng)被廣泛應用到各類分類、回歸、預測、特征選擇及異常點檢測問題中[11-15]。
定義2 組合分類模型的泛化誤差定義為
定義3 如果森林中分類數(shù)目增加,根據(jù)大數(shù)定律,組合分類模型的泛化誤差幾乎處處收斂于
通過在袋外數(shù)據(jù)(Out of Bag, OOB)中對屬性值進行擾動可以判斷屬性對分類結果的影響,影響越大,則說明該屬性越重要。
定義5 基于OOB分類準確率的屬性重要度度量,定義為OOB自變量發(fā)生輕微擾動后的分類正確率與擾動前平均分類正確率的平均減少量(Mean Decrease Accuracy, MDA),MDA計算公式為
公式(5)說明屬性重要度對分類模型的貢獻,以該定義作為屬性約簡的啟發(fā)信息。
犯罪嫌疑人特征是犯罪案件特征的一部分,其分析過程需與犯罪案件特征相關聯(lián)。本文構造案件基本特征與犯罪嫌疑人犯罪傾向的判定模型,分為屬性約簡、判定模型訓練和嫌疑人犯罪傾向預測3個部分。
在數(shù)據(jù)集進入方法運算之前需要做預處理,使訓練集和測試集中的各個屬性具有統(tǒng)一的定義和標準,即將與預測操作無關的冗余數(shù)據(jù)屬性去除,同時也對屬性值進行泛化操作、處理缺失值等,目的是提高數(shù)據(jù)質量使之適合模型的輸入和運算需求。
屬性約簡是預測方法中的重要步驟,通過計算屬性重要度將與預測結果關聯(lián)較小的屬性去除,只保留其中的重要屬性參與運算,從而減小算法計算量、提高算法實用性。
訓練數(shù)據(jù)屬性約簡后進入模型訓練過程。本文設計了基于隨機森林的訓練方法,從而得到犯罪嫌疑人判定模型。
在犯罪嫌疑人預測階段,將經(jīng)過預處理后的測試數(shù)據(jù)輸入預測模型,計算得出每個測試集樣本的犯罪傾向,從而得出判定結論。模型的判斷方法和過程如圖1所示。
圖1 犯罪嫌疑人分類方法
圖2描述基于隨機森林的預測模型,其中屬性約簡階段采取以下步驟:
(3) 運用決策樹Tm對數(shù)據(jù)集進行分類并記錄分類結果 。
(4)逐個提取每個袋外數(shù)據(jù)集實施屬性值的擾動:對于每個屬性擾動袋外數(shù)據(jù)集中的屬性的取值,從而形成擾動后的數(shù)據(jù)集
(6)當完成對每個袋外數(shù)據(jù)集的屬性值擾動后,利用公式(4)和公式(5)計算每個屬性 的屬性重要度。
(7) 依各屬性的重要度進行降序排列。
圖2 基于隨機森林的預測模型
對排序結果采用序列后向搜索策略進行屬性約簡,即每次遍歷僅刪除一個重要性最低的屬性,產(chǎn)生新的特征屬性集合,經(jīng)過多次迭代選出最小冗余、性能最優(yōu)的重要屬性集合,并將其輸入預測模型。
在模型訓練和模型預測階段,以隨機森林思想和方法構建預測模型。在訓練階段,訓練數(shù)據(jù)集進入模型進行屬性約簡,然后應用隨機森林方法進行模型訓練,從而產(chǎn)生n個基分類模型。將測試數(shù)據(jù)集輸入各個基分類模型進行分類,然后以投票的方式?jīng)Q定產(chǎn)生預測結果。
本文的實驗數(shù)據(jù)來源于已經(jīng)脫敏的犯罪人員信息的部分記錄,用于挖掘犯罪嫌疑人屬性特征與犯罪風險之間的證據(jù)關系,從而獲得高可疑度的犯罪嫌疑人,最終達到犯罪預防和輔助決策的目的。
模型的輸入信息為犯罪人員信息特征,包括年齡、家庭情況、文化程度、有無職業(yè)、有無犯罪紀錄、有無特長、是否常駐人口、性別、身高、體重、經(jīng)濟狀況。其中文化程度細分為小學、初中、高中、學士、碩士、博士等類別。模型的輸出信息是對犯罪嫌疑人“犯罪程度”的分類結果,即分為{一般,嚴重}兩類。
本文實驗環(huán)境:①軟件條件:MyEclipse 8.5,Weka 3.6。②硬件條件: Intel(R)Core(TM) i7-5500U @ 2.40GHz, 8GB內存,1TB硬盤,Window 7操作系統(tǒng)。
數(shù)據(jù)預處理是提高數(shù)據(jù)質量的關鍵步驟之一。根據(jù)實驗數(shù)據(jù)的特點,需要處理數(shù)據(jù)集中的缺失值,原則上盡可能地填充缺失值,對無法填充缺失值的記錄作刪除處理。以“年齡”屬性為例,其缺失值可通過“案發(fā)時間”和“出生日期”的差值填充。對包含多個無序不同屬性值的屬性向上泛化,如將“年齡”屬性的特征值量化,以分組的方式劃分為3個區(qū)段:{18-29}為少年,{30-40}為青年,{40以上}為中老年,相應的特征值為1~3。對于數(shù)據(jù)屬性中與預測結果無關的冗余屬性,如“案件ID”等,需將其刪除以提高屬性約簡和分類運算的效率。對于各屬性值中量綱和單位的不同,需要將樣本數(shù)據(jù)作歸一化處理,去除其對分類運算結果的影響,使處理后的數(shù)據(jù)在[0,1]區(qū)間。經(jīng)過數(shù)據(jù)預處理,最終提取有效記錄2021條,其中“一般”類別1036條,“嚴重”類別985條,量化后的部分數(shù)據(jù)如表1所示。
表1 犯罪人員屬性值的部分量化結果
利用3.2所述方法對樣本數(shù)據(jù)進行屬性約簡,得到各屬性的MDA值。表2給出經(jīng)過計算得到的12個屬性{A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12}的MDA值。經(jīng)過計算和約簡得出{A1,A2,A3,A6,A8,A9,A10}為重要屬性。為便于比較,圖3給出將約簡的重要屬性值分別除以其最大值后的結果。
表2 屬性重要性度量
圖3 屬性特征約簡結果
根據(jù)最終確定的重要屬性,約簡原數(shù)據(jù)中冗余的屬性列,余下的數(shù)據(jù)構建預測模型的數(shù)據(jù)集,并采用10-折交叉驗證。采用控制變量法調參以使預測獲得較好準確率,參數(shù)優(yōu)化結果見表3,可知參數(shù)最終確定為:森林中樹的棵數(shù)設為200,每次分裂隨機選擇的候選變量個數(shù)為3。
表3 隨機森林模型參數(shù)設置及相應結果
模型的查準率P和查全率R可以作為衡量模型性能優(yōu)劣的指標。綜合考慮查準率和查全率,可以使用F1度量,其含義是加權調和平均值?,F(xiàn)實應用中要求漏查嫌犯的數(shù)量盡量小,因此查全率更為重要。令TP、FP、TN、FN分別表示真正例、假正例、真反例、假反例的樣例數(shù)。F1度量的一般形式為,能夠表達出對查準率和查全率的不同偏好,其計算公式為
此次實驗的最終結果如表4所示。
為驗證隨機森林預測模型的性能,在Weka平臺上分別選用SVM單分類器算法和樸素貝葉斯單分類器算法,并以默認參數(shù)進行運算,結果的比較如圖4所示??梢婋S著輸入特征變量的增多,三類算法的查準率逐漸提高,說明在一定范圍內,模型的輸入變量越多,預測效果越好。隨機森林算法的查準率明顯優(yōu)于SVM單分類器算法和樸素貝葉斯單分類器算法。原因是集成學習算法能夠通過綜合不同基分類器模型的分類結果來增強集成學習算法的容錯性和泛化能力。表4和圖4的數(shù)據(jù)說明了所提出的嫌疑人預測模型的可行性,通過該模型可以預測新發(fā)生案件中的高危犯罪嫌疑人,分析結果可進一步在相關數(shù)據(jù)庫中碰撞比對,從而實現(xiàn)重點研判、提高辦案效率的目的。
表4 隨機森林模型預測結果
圖4 不同模型的預測效果比較
對犯罪嫌疑人進行有效預測,不僅實現(xiàn)快速打擊,還達到犯罪預防的目的。集成學習算法已經(jīng)在不同鄰域的預測應用中表現(xiàn)突出。本文提出基于隨機森林的犯罪嫌疑人預測模型,對犯罪嫌疑人的屬性加以評價和約簡,有效提高了方法效率和準確性,避免了單一決策樹分類的局限性。通過脫敏案件數(shù)據(jù)對模型進行評價,結果顯示所提出的模型較SVM和樸素貝葉斯方法具有更好的準確性,模型可進一步應用于不同類別案件的犯罪嫌疑人預測應用中。