李強 趙尚上 李勝廣
1. 杭州中奧科技有限公司 2. 公安部第一研究所
我國目前的公安監(jiān)所人員管理監(jiān)管現(xiàn)狀,多數(shù)還停留在以民警巡查加攝像機和視頻監(jiān)視報警為主的階段,人工作業(yè)仍占絕大比重,監(jiān)管信息化程度比較低,而信息采集仍然只是單純依靠手工輸入,無法將信息系統(tǒng)和手抄記錄真正的關(guān)聯(lián)起來,民警也是靠經(jīng)驗和手抄數(shù)據(jù)交接對在押人員進行監(jiān)管和處置。由于目前公安監(jiān)所管理人員嚴重不足,導(dǎo)致一系列惡性逃脫事件的發(fā)生,如:陜西漢中、安徽界首、呼和浩特、湖南常德、防城港、阜陽市等事件,給社會造成極大危害,為防止此類事件的再次發(fā)生,防止犯罪分子再次危害社會,使得公安監(jiān)所的信息化智能化建設(shè)變得異常迫切。人工智能技術(shù)的快速發(fā)展給公安監(jiān)所智能化建設(shè)帶來新的契機,為提高公安監(jiān)所管理工作的信息化水平,推動監(jiān)管工作向制度化、智能化、規(guī)范化、實時化發(fā)展,確保監(jiān)區(qū)安全穩(wěn)定,為逐步實現(xiàn)監(jiān)區(qū)“智能全方位定位”奠定了堅實基礎(chǔ)。
本文提出利用機器學(xué)習(xí)的相關(guān)技術(shù),整合監(jiān)管相關(guān)數(shù)據(jù),提取在押人員和歷史人員的相關(guān)特征和風(fēng)險評估表特征,利用大數(shù)據(jù)、數(shù)據(jù)庫處理技術(shù)、計算機軟件技術(shù)、地理信息系統(tǒng)技術(shù)、互聯(lián)網(wǎng)技術(shù)等多學(xué)科的綜合課題攻關(guān)和人工智能相關(guān)算法,研發(fā)和建設(shè)了一套公安監(jiān)所人員風(fēng)險評估算法模型。此風(fēng)險評估模型針對傳統(tǒng)的公安監(jiān)所人員風(fēng)險存在的問題,通過統(tǒng)計在押人員的相關(guān)信息和日常行為、違規(guī)情況,利用統(tǒng)計學(xué)習(xí)和機器學(xué)習(xí)算法的思想,訓(xùn)練分別從暴力、健康、心理、脫逃、自殺、鬧監(jiān)六個維度對在押人員進行風(fēng)險評估,并通過六個維度的風(fēng)險值計算該人員風(fēng)險綜合評估值,最后利用綜合評估值對監(jiān)所在押人員實現(xiàn)監(jiān)控、追蹤、識別,綜合分析,為監(jiān)管民警提供監(jiān)管的輔助和決策。并將風(fēng)險評估值結(jié)合人員個人信息,實現(xiàn)對監(jiān)室、監(jiān)區(qū)、監(jiān)所信息聯(lián)系起來的綜合監(jiān)管,實現(xiàn)實時探查監(jiān)控和風(fēng)險預(yù)警,真正意義上實現(xiàn)監(jiān)所管理信息化、智能化。
本文將要介紹的是一種風(fēng)險模型評估方法,該方法通過統(tǒng)計監(jiān)所在押人員的日常行為和違規(guī)情況,以特征向量的形式表示,利用機器學(xué)習(xí)的模型訓(xùn)練工具,對人員的相關(guān)特征進行模型訓(xùn)練,最后根據(jù)提取的特征進行風(fēng)險評估概率值計算,提供風(fēng)險人員的風(fēng)險相關(guān)數(shù)值。
對于在押人員風(fēng)險評估的研究,已有大量的成型計算策略,但多數(shù)基于規(guī)則模型和一些累計歸納計算的技戰(zhàn)方法,這些方法都以在押人員的行為和事件完成次數(shù)為基礎(chǔ)[1]。本文通過研究這些方法的實現(xiàn)特點,提出一種基于特征向量的機器學(xué)習(xí)預(yù)測的計算方法,通過半監(jiān)督學(xué)習(xí)框架,根據(jù)特征向量的維度和數(shù)據(jù)屬性進行模型訓(xùn)練,達到預(yù)測的目的。
在傳統(tǒng)機器學(xué)習(xí)行業(yè)中,無標簽的數(shù)據(jù)易于獲取,而有標簽的數(shù)據(jù)收集起來通常很困難,標注也耗時和耗力。在針對特定場景中,樣本失衡導(dǎo)致的模型結(jié)果偏移過擬合(欠擬合)情況也難以有效解決。在這種情況下,半監(jiān)督學(xué)習(xí)(Semi-Supervised Learning)更適用于現(xiàn)實世界中的應(yīng)用,該方法只需要少量有帶標簽的樣本和大量無標簽的樣本即可進行訓(xùn)練,而監(jiān)所人員風(fēng)險評估正適合此場景。在分辨監(jiān)所人員風(fēng)險訓(xùn)練樣本時,只能通過以往人員事件記錄進行風(fēng)險標記,對于那些沒有明顯表征,但潛在存在風(fēng)險的人員卻無法完全標記為無風(fēng)險白樣本,故本模型是一種基于半監(jiān)督學(xué)習(xí)框架的特征向量學(xué)習(xí)預(yù)測模型方法。
本文采用模型的特征在已知結(jié)構(gòu)化特征提取的基礎(chǔ)上增加非結(jié)構(gòu)化特征提取。結(jié)構(gòu)化特征提取在行業(yè)內(nèi)常用成熟,本文不再贅述,主要著重講述監(jiān)所數(shù)據(jù)中的非結(jié)構(gòu)化特征提取。一般簡單的非結(jié)構(gòu)化特征提取采用正則+規(guī)則的形式,往往在身份證號、生日、手機號等規(guī)則的實體提取場景采用,但在本場景中,監(jiān)所數(shù)據(jù)中非結(jié)構(gòu)化特征大量存在于談話記錄、教育記錄、歷史檔案等復(fù)雜文本當(dāng)中,提取的體征也較身份證號這類實體復(fù)雜。故采用基于深度學(xué)習(xí)的命名實體識別技術(shù)BERT+CRF(Bidirectional Encoder Representation from Transformers + Conditional Random Field)神經(jīng)網(wǎng)絡(luò)進行提取。BERT使用Transformer作為獲取文本表征的手段(主要依賴了多頭的Self-attention機制,見圖3),能夠獲取比BiLstm(Bidirectional Long Short-Term Memory)更深層次的語言表征。基于谷歌預(yù)訓(xùn)練的中文BERT模型,下游結(jié)合命名實體識別任務(wù)(針對特定場景的標注和訓(xùn)練),在保證模型有較強泛能力的同時,提升特定場景下的模型準確率。使用BERT提取文本向量特征后,與結(jié)構(gòu)化特征一起構(gòu)建人員特征寬表,待進入半監(jiān)督模型訓(xùn)練。
半監(jiān)督模型一般采用多個學(xué)習(xí)器進行互補訓(xùn)練樣本,本文主要采用業(yè)界比較常用的支持向量機、KNN(KNearest Neighbor)、隨機森林作為基分類器進行模型訓(xùn)練及預(yù)測。
SVM(支持向量機)是一種基于分類邊界的方法,其基本原理是(以二維數(shù)據(jù)為例):如果訓(xùn)練數(shù)據(jù)分布在二維平面上的點,它們按照分類聚集在不同的區(qū)域?;诜诸愡吔绲姆诸愃惴ǖ哪繕耸峭ㄟ^訓(xùn)練,找到這些分類之間的邊界。
K近鄰算法是最近鄰算法的一個推廣。該規(guī)則將是一個測試數(shù)據(jù)點x分類為與它最接近的K個近鄰中出現(xiàn)最多的那個類別。K近鄰算法從測試樣本點x開始生長,不斷的擴大區(qū)域,直到包含進K個訓(xùn)練樣本點為止,并且把測試樣本點歸為這最近的K個訓(xùn)練樣本點中出現(xiàn)頻率最大的類別。其中測試樣本與訓(xùn)練樣本的相似度一般使用歐式距離測量[4]。隨機森林在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進一步在決策樹的訓(xùn)練過程中引人隨機屬性的選擇[2]。
隨機森林分類是由很多決策樹分類模型組成的組合分類模型,每個決策樹分類模型都有一票投票權(quán)來選擇最優(yōu)的分類結(jié)果[5]。隨機森林分類的基本思想:首先,利用Bootstrap抽樣從原始訓(xùn)練集抽取k個樣本,每個樣本的樣本容量都與原始訓(xùn)練集一樣;然后,對k個樣本分別建立k個決策樹模型,得到k種分類結(jié)果;最后,根據(jù)k種分類
結(jié)果對每個記錄進行投票表決,決定其最終分類[7]。
參考數(shù)據(jù)庫表和表內(nèi)數(shù)據(jù),提取暴力、健康、鬧監(jiān)、脫逃、自殺、心理六個模型的關(guān)鍵屬性,摘取模型訓(xùn)練所需的特征維度。
在押危險人員具備區(qū)別于普通在押人員的一些特點和活動規(guī)律。通過針對所需要分析的目標人群的背景信息、案件信息、獎懲信息、就醫(yī)信息、親屬會見、健康情況、違紀違規(guī)等數(shù)據(jù)加上人員在押生活中記錄的如談話記錄、教育記錄、案件案情、客觀評價等非結(jié)構(gòu)化文本類信息,提取出多維度的特征標簽,形成特征寬表,通過模型訓(xùn)練結(jié)合業(yè)務(wù)角度從在押人員中挖掘出潛在的高風(fēng)險人員(自殺、脫逃、暴力、鬧監(jiān)、健康、心理)六類信息。在整理數(shù)據(jù)特征表數(shù)據(jù)值的過程中,遇到某些字段出現(xiàn)缺失值需要進行特殊處理。對缺失值較多的字段,可直接刪除缺失值較多的條目。對于連續(xù)數(shù)據(jù),可進行特征填補。對于特征信息表中出現(xiàn)的離散數(shù)據(jù),可利用缺失值生成新特征的方式進行補全。對于有較多缺失值和數(shù)值異常(超出規(guī)定范圍)的數(shù)據(jù)可直接刪除或進行人工校驗并填充。
樣本多特征異常值處理:對于某些樣本的多維特征數(shù)值處于異常情況的情形,可采用基于聚類的DBSCAN(Density-Based Spatial Clustering of Applications with Noise)和基于樹結(jié)構(gòu)的孤立森林進行檢測,這類異常樣本通常采用刪除的處理方式[6]。另外,在探查數(shù)據(jù)的過程中,時常會遇到數(shù)據(jù)信息跨度較大,數(shù)據(jù)不均衡,數(shù)據(jù)特征不好量化的情況,利用黑白名單的方法進行數(shù)據(jù)均衡操作。對于白名單數(shù)量不多,采用欠采樣會丟失部分重要樣本或者信息的情形,采用SMOTE(Synthetic Minority Oversampling Technique)過采樣來增加黑樣本的數(shù)量,使黑白樣本比達到一個均衡的狀態(tài)。
針對特征進行歸一化處理,z-score歸一化轉(zhuǎn)化為0-1之間的數(shù)值,使得各個特征在同一度量維度下,從而使它們之間的權(quán)重更好處理。除此之外,采用利用均值和標準差對數(shù)值進行歸一化,針對年齡、同行次數(shù)等連續(xù)型特征進行離散化,將其等頻離散化/等區(qū)間離散化處理,降低算法對于分布假設(shè)的依賴性。
針對每個數(shù)值型特征,結(jié)合特征的分布及與目標分類的分布情況,對于特征進行數(shù)學(xué)變化,比如次方、三次方、取自然對數(shù)等數(shù)學(xué)變換。
進行特征向量提取和表示時,并不是每個特征值在每個維度都有數(shù)值,該字段經(jīng)常為空值或者缺失,當(dāng)詞匯在某個維度未出現(xiàn)時,記錄該特征點時用0來表示,但是該特征對應(yīng)的特征向量就會出現(xiàn)一個斷點,這對模型訓(xùn)練和結(jié)果分析造成了很大困難,需要對特征進行修正,以達到能符合后續(xù)處理的需要。本文采用滑動平均值來處理數(shù)值斷點問題。
根據(jù)具體問題的數(shù)量級以及樣本量大小來確定滑動長度k,利用如下公式:
直接對斷點處的數(shù)據(jù)進行滑動平均計算。n個數(shù)據(jù)可以得到n-k+1個平滑值。而在計算時可采用如下的快速算法:首先將數(shù)據(jù)的前k個數(shù)據(jù)求和得到一個值,然后依次用這個值減去平均時段的第一個數(shù)據(jù)值,并加上第k+1個數(shù)據(jù),再用求出的值除以k,循環(huán)這樣的過程計算出1,2,…n-k+1個平滑值[8]。
對于模型訓(xùn)練的特征數(shù)據(jù)需要人工進行標注,數(shù)據(jù)有了標簽,機器才可以根據(jù)帶有標簽的數(shù)據(jù)進行模型訓(xùn)練,數(shù)據(jù)標注標準采用是否有風(fēng)險進行標注,即對數(shù)據(jù)的多個維度進行人工綜合分析,并判斷該人員是否有暴力、健康、鬧監(jiān)、脫逃、心理、自殺這六個方向的風(fēng)險,標注人員為具有多年看守所工作經(jīng)驗的預(yù)警,標注人員只需要根據(jù)在押人員的特征數(shù)據(jù)表中的信息,在上述的暴力、健康、鬧監(jiān)、脫逃、心理、自殺這六個方向上打上是或否的標記,是表示該人員具有該方向的風(fēng)險,而否表示該人員無該方向的風(fēng)險。
第一次標注數(shù)據(jù)量為每個風(fēng)險方向正向和負向各500條,并根據(jù)半監(jiān)督學(xué)習(xí)器的訓(xùn)練結(jié)果,進行數(shù)據(jù)追加,每次挑選置信度大于閾值的樣本分別追加量為正向、負向若干條。而每個風(fēng)險方向所需要的數(shù)據(jù)量級不盡相同,模型訓(xùn)練滿足實際需求,即可完成數(shù)據(jù)標注。
在進行暴力、健康、鬧監(jiān)、脫逃、心理、自殺六個模型訓(xùn)練時,由于特征數(shù)據(jù)的維度和疏密程度不同,所以采用的機器學(xué)習(xí)框架不同。根據(jù)數(shù)據(jù)和風(fēng)險評估的最終效果,選取了K近鄰算法、支持向量機模型和隨機森林模型。
在處理鬧監(jiān)模型和暴力模型時,因為數(shù)據(jù)特征向量維度較高,數(shù)據(jù)也較為稠密,采用支持向量機算法模型進行模型訓(xùn)練,這兩種數(shù)據(jù)的特征向量重復(fù)的特征也較多,而在數(shù)據(jù)分析中,具有暴力傾向的關(guān)押人員,也會具有鬧監(jiān)的人為風(fēng)險。而且特征維度中提審登記次數(shù)、談話教育次數(shù)、關(guān)禁閉次數(shù)和涉及重大犯罪的向量維度對模型貢獻較大,設(shè)置特征權(quán)重較高,有利于模型訓(xùn)練的擬合速度,保證模型的準確率和召回率。
在訓(xùn)練自殺風(fēng)險評估模型和心理風(fēng)險評估模型時,選用了K近鄰算法模型,適合多分類問題。K近鄰算法模型實現(xiàn)較為簡單,在進行模型訓(xùn)練和預(yù)測時,對異常值并不敏感,而且通過數(shù)據(jù)預(yù)處理過后,自殺和心理的特征數(shù)據(jù)較為統(tǒng)一,缺失字段也較為一致,所以對于缺失字段分析,因為是取近鄰類別的眾數(shù),所以有一個異常樣本對結(jié)果不會有影響。而且K近鄰算法可同時用于離散數(shù)據(jù)和連續(xù)數(shù)據(jù)。模型訓(xùn)練時采用K近鄰算法中的Boarderline-SMOTE算法,采樣最近鄰算法,計算出每個少數(shù)樣本的k個近鄰,從k個近鄰中隨機挑選N個樣本進行隨機先行插值,構(gòu)造新的少數(shù)類樣本,將新樣本與原始數(shù)據(jù)合成,產(chǎn)生新的訓(xùn)練集,用于模型的更新和迭代。
在處理健康和脫逃風(fēng)險評估模型時,采用隨機森林算法模型,隨機森林基于決策樹的思想,可同時進行數(shù)據(jù)的分類和回歸。在分析健康和脫逃的數(shù)據(jù)特征時,可用的數(shù)據(jù)特征維度較少,去掉稀疏維度的數(shù)據(jù),進行模型訓(xùn)練,因為隨機森林模型的抗綜合擬合能力較強,通過平均決策樹的方式,可降低過擬合的風(fēng)險性。并且隨機森林訓(xùn)練過程中非常穩(wěn)定,即使數(shù)據(jù)集中出現(xiàn)了一個新的數(shù)據(jù)點,整個算法也不會受到過多影響,它只會影響到一顆決策樹,很難對所有決策樹產(chǎn)生影響,這也符合健康和脫逃數(shù)據(jù)的特征特點,使模型的可信度高。
在對暴力、健康、鬧監(jiān)、脫逃、心理、自殺六個模型進行五輪交叉驗證模型訓(xùn)練后,利用訓(xùn)練好的模型對測試數(shù)據(jù)進行預(yù)測,并通過統(tǒng)計混淆矩陣中TP、FP、TN、FN(真正例、假正例、真反例、假反例)的數(shù)值,計算得到每個模型的準確率(ACC)和召回率(REC),得到如下數(shù)值:
?
?
?
從上述結(jié)果可以得出如下分析:
利用隨機森林算法來訓(xùn)練健康和脫逃特征模式時,模型的準確率和召回率有明顯的提升,在訓(xùn)練數(shù)據(jù)積累較多時,特征維度較為豐富時,嘗試使用非距離計算的樹形模型,隨機森林對數(shù)據(jù)集的適應(yīng)能力強。
在利用支持向量機進行模型訓(xùn)練中,暴力和鬧監(jiān)的風(fēng)險評估模型準確率和召回率性能表現(xiàn)較好,可以看出支持向量機在解決多維度線性的分類和回歸問題具有較好的效果,但是利用SVM的libSVM進行模型訓(xùn)練時,由于是線性問題的處理邏輯,所以模型的收斂速度較慢。小規(guī)模模型訓(xùn)練支持向量機是較好的選擇。
相對于隨機森林和支持向量機,K近鄰算法并沒有展現(xiàn)出更多的優(yōu)勢,但是收斂時間較快,可能K近鄰算法實現(xiàn)邏輯較為簡單,實用性較強,但在解決分類和回歸問題上,模型效果并不理想,對于向量維度高的多分類模型還是嘗試隨機森林和支持向量機。
隨著社會的快速發(fā)展,全國推進信息化智能化建設(shè),機器學(xué)習(xí)技術(shù)也已日趨成熟,已在金融、軍事、政府、公安等各個領(lǐng)域廣泛應(yīng)用??词厮捅O(jiān)所這類監(jiān)管行業(yè)更加需要信息化注入新的力量。而人工智能在監(jiān)管領(lǐng)域落地,更進一步說明信息化建設(shè)迫在眉睫。因此,機器學(xué)習(xí)和人工智能在公安監(jiān)所行業(yè)的落地具有重要意義。
本文提出了一種基于半監(jiān)督學(xué)習(xí)的監(jiān)所風(fēng)險人員評估的計算方法,也總結(jié)了具體的流程,針對不同種類特征數(shù)據(jù)不同機器學(xué)習(xí)訓(xùn)練模型的優(yōu)劣。對于在模型訓(xùn)練過程中人工標注數(shù)據(jù)較少、特征向量中缺失值較多的情況,某些人員的特征性質(zhì)可能并沒有在數(shù)據(jù)特征層面取得較好的體現(xiàn)。在將來的研究中,需要更加細致的統(tǒng)計人員的相關(guān)特征,這樣才能更加細致的體現(xiàn)風(fēng)險評估的準確性。