曾祺
(中國人民公安大學警務信息與網(wǎng)絡安全學院,北京100032)
自中共中央、國務院發(fā)出《關(guān)于開展掃黑除惡專項斗爭的通知》[1]以來,公安部號召各地方單位開展大量掃黑除惡行動,堅持依法嚴懲、打早打小、除惡務盡,始終保持對各類黑惡勢力違法犯罪的嚴打高壓態(tài)勢。一個區(qū)域內(nèi)故意傷害案件的發(fā)生數(shù)量和嚴重程度能夠反映該區(qū)域內(nèi)的治安狀況與社會穩(wěn)定度。故意傷害案件背后往往涉及到相關(guān)黑惡勢力,進而反映出該區(qū)域掃黑除惡行動的打擊力度和效果。對故意傷害案件進行風險分析不僅可以預測一起案件發(fā)生的危害后果還能夠探測其風險因素,從而給公安機關(guān)打擊黑惡勢力,加強社會治安提供決策幫助。
隨著公安信息化建設(shè)的不斷推進,公安部門內(nèi)部積累了海量的犯罪歷史與實時數(shù)據(jù)[2]。許多專家學者利用機器學習方法挖掘犯罪數(shù)據(jù)中的線性或非線性關(guān)系,通過對比算法,優(yōu)化參數(shù),得到最優(yōu)模型,進而利用最優(yōu)模型能夠?qū)Ψ缸锇l(fā)生的風險以及影響因素進行分析。Mehent 等人[3]利用貝葉斯方法,研究發(fā)案的日期和地點,犯罪類型,罪犯ID 和熟人等特征預測嫌疑人犯罪風險。陳鵬等人[4]利用犯罪嫌疑人的生物信息、社會信息和行為信息作為基本特征,基于二項邏輯回歸算法構(gòu)建了慣犯身份分類預測模型,通過某市街面盜竊、扒竊、入室盜竊三類案件數(shù)據(jù)進行分類預測驗證,模型能夠有效進行身份預測。邱凌峰等人[5]以實際盜竊犯罪數(shù)據(jù)為基礎(chǔ),采用數(shù)據(jù)預處理、特征分類等特征工程,利用隨機深林算法訓練得到了效果較優(yōu)的前科人員身份預測模型。綜上可以看出,該方法的研究對象多為盜竊、扒竊等侵財類案件,針對暴力類犯罪的研究相對較少,缺少對某一類案件精細地特征挖掘和分析;同時機器學習過程中數(shù)據(jù)量越大,模型越準確[6]。
本文針對上述情況,利用A 市2014-2016 年故意傷害案件近2 萬條真實數(shù)據(jù)。通過分詞抽取、機器與人工比對方法將受害人的受害程度確定為模型目標值,進行數(shù)據(jù)預處理與特征分類,對比決策樹、隨機深林、SVM 等5 種機器學習算法,構(gòu)建故意傷害案件的后果預測模型進行風險分析。
本節(jié)利用A 市重點人員數(shù)據(jù)庫中的2015-2016 年故意傷害案件中前科人員的11467 條和受害人的16793 條真實數(shù)據(jù)。兩組數(shù)據(jù)通過案件編號進行關(guān)聯(lián),數(shù)據(jù)中枚舉型特征居多,除了案件編號、發(fā)案時間、年齡為連續(xù)型特征,簡要案情、詳細發(fā)案地址為文本型特征外,其他特征均為枚舉型。對數(shù)據(jù)初步分析并結(jié)合實際公安經(jīng)驗,去除空缺值超過90%、特征值唯一以及與案件分析無關(guān)的特征數(shù)據(jù)。最后篩選得到數(shù)據(jù)如表1 和2 所示。
表1 受害人數(shù)據(jù)
表2 前科人員數(shù)據(jù)
依據(jù)原始數(shù)據(jù)資源的狀況、機器學習分類預測的基本原理[7]以及風險分析的目標對象,本文提出了如下圖1 所示的基于機器學習的風險分析方法流程。其中原始數(shù)據(jù)中特征信息豐富、多為枚舉型特征,但與目標值關(guān)聯(lián)度不確定,需通過卡方檢驗來進行篩選;特征工程主要包括目標值選取、特征分類、特征編碼等方法;選取邏輯回歸、支持向量機、k-鄰近、決策樹、隨機森林等算法[8]進行比對,對隨機森林算法進行調(diào)參優(yōu)化;最后得到最優(yōu)模型進行風險后果預測和風險要素排序。
本研究采用受害人數(shù)據(jù)中的‘受害程度’特征作為目標值來表示故意傷害案件的后果程度。受害人數(shù)據(jù)中的受害程度分為:‘輕微傷’、‘輕傷二級’、‘輕傷一級’、‘重傷二級’、‘重傷一級’、‘傷害致人死亡’、‘不低于輕傷’、‘不低于重傷’、‘輕傷’、‘重傷’、‘不構(gòu)成輕微傷’共11 種類別。將上述類別按照嚴重程度進行歸類,把‘輕微傷’、‘不構(gòu)成輕微傷’歸為輕微;把‘不低于輕傷’、‘輕傷二級’、‘輕傷一級’,‘輕傷’歸為一般;把‘不低于重傷’、‘重傷一級’、‘重傷二級’、死亡歸為嚴重,最后得到分為‘輕微’、‘一般’、‘嚴重’的三分類目標值。數(shù)據(jù)中三種類別占比如圖2 所示。
圖1 基于機器學習的風險分析流程
圖2 受害程度劃分
特征衍生[9]是指從原始數(shù)據(jù)中構(gòu)建新的特征,本實驗中對一名前科人員對應的多名受害人數(shù)據(jù)進行統(tǒng)計,從而得到一起故意傷害案件中的涉案人數(shù),以此作為衍生得到的新特征。
特征選擇[10]是從給定的特征集合中選擇出相關(guān)特征子集的過程,其去除掉無關(guān)特征后將會降低學習任務的難度,提高機器學習效率??ǚ綑z驗是檢測離散型自變量與因變量之間相關(guān)性的經(jīng)典方法,將數(shù)據(jù)中11 種離散型特征分別與目標值做卡方檢驗,得到的Z與p 值(特征與目標值無關(guān)的概率)如表3 所示。
數(shù)據(jù)中選擇處所、實施手段、被害人身份、來京時間等四個特征的類型較多,且少數(shù)類型樣本數(shù)量多,多數(shù)類型樣本數(shù)量少,這樣會導致訓練集和測試集中大量特征信息不一致,嚴重降低模型的準確性[11]。按照如下四則原則對上述特征進行分類:一、盡可能保證各分類的樣本量平衡,且高于測試集的樣本量;二、盡可能保證每類特征之間沒有重復;三、類別應具備較好的擴展性;四:盡可能依據(jù)數(shù)據(jù)分布規(guī)律,結(jié)合業(yè)務經(jīng)驗進行合理分類。身份特征分為“低收入人群類”、“普通收入人群類”、“學生和退休人員類”、“其他類”;選擇處所特征分為:“餐飲娛樂區(qū)”、“露天地段區(qū)”、“住所區(qū)”、“一般公共場所”;實施手段特征分為:“持器傷人類”、“徒手傷人類”、“其他類”。
表3 離散型特征的卡方檢驗
綜合數(shù)據(jù)集中受害程度的三類樣本比例約為2:7:1,為了解決數(shù)據(jù)集不平衡問題,采用SMOTE 過采樣處理后得到9253 條數(shù)據(jù),其中“嚴重”程度2732 條,“一般”程度4211 條,“輕微”程度2310 條。利用Python3.6 中Scikit-learn 機器學習模型庫建立SVM、邏輯回歸、K-臨近、決策樹、隨機深林等5 種機器學習模型,并將過采樣處理后的數(shù)據(jù)帶入訓練,通過10 折交叉驗證評估各模型的結(jié)果。
根據(jù)表4 可知,在查準率上隨機森林0.74、決策樹0.70、支持向量機0.56 效果較好,在查全率上隨機森林0.69、決策樹0.64、邏輯回歸0.53 效果較優(yōu)。決策樹與隨機森林算法在查全率和查準率上都要優(yōu)于其他三種算,從F1值也能看出來,隨機森林0.72 最優(yōu),決策樹0.67 次之,邏輯回歸0.51 效果一般,支持向量機和k-近鄰均在0.5 以下效果較差。
依據(jù)表5 可知,在特征工程中對“受害人身份”、“來京時間”、“實施手段”、“選擇處所”進行歸類后,隨機森林模型對一般級別案件分類效果提升0.42(一倍),對嚴重級別案件分類效果提升0.3、對輕微級別案件分類效果提升0.36,總體上都得到了大幅度提高,因此可以說明特征工程中的歸類思想是合理的。
從表6 可知,“涉案人數(shù)”特征重要性最高(0.7864),“實施手段”次之(0.5762),“熱點時段”排名第三(0.4867),“選擇處所”排名第四(0.3987),其他特征重要度評分均在0.1 之下,對模型影響程度較低。因此可以得出涉案人數(shù)、實施手段、是否為熱點時段以及案件發(fā)生處所是能夠影響一起故意傷害案件后果的重大風險因素。
表4 不同模型精度比對
表5 隨機森林在特征歸類前后結(jié)果比對
表6 特征重要性度量
本文基于機器學習方法對故意傷害案件進行風險分析,利用故意傷害案件的前科人員數(shù)據(jù)與受害人數(shù)據(jù)構(gòu)建一個能夠準確評估案件后果嚴重程度的機器學習模型,并通過對模型中的特征進行重要度排序來分析故意傷害案件的風險要素。
通過上述實驗可以看出,一起故意傷害案件的涉案人數(shù)、作案手段以及案發(fā)位置的周邊環(huán)境對于案件后果有顯著影響。涉案人數(shù)越多,作案人若使用武器、發(fā)案地點為餐飲區(qū)域,則案件后果越嚴重,因此當公安機關(guān)接到符合上述特征的警情時應增加派出警力和警用裝備,及時到達現(xiàn)場控制局面,防止危害增大。