羅冬梅,劉瑞軍,林錫平
1(武夷學(xué)院 信息技術(shù)與實(shí)驗(yàn)室管理中心,武夷山 354300)
2(武夷學(xué)院 科研處,武夷山 354300)
3(福建省南平市公安局 刑警支隊(duì),南平 353000)
隨著科技的飛速發(fā)展,刑事違法犯罪的手段也變得越來越多樣化,這便要求刑事偵查部門不斷提供打擊防范能力,通過以信息化工作方式創(chuàng)新辦案思路,提高辦案效率.2018年1月24日,在全國公安廳局長會(huì)議上,公安部黨委書記、部長趙克志提出“建設(shè)智慧公安,打造數(shù)據(jù)警務(wù)”的警務(wù)新理念.
當(dāng)今,國內(nèi)外的學(xué)者越來越關(guān)注公安領(lǐng)域的數(shù)據(jù)挖掘技術(shù)研究,利用公安部門多年來積累的犯罪信息數(shù)據(jù)及偵察破案的經(jīng)驗(yàn),對(duì)其進(jìn)行分析挖掘,發(fā)現(xiàn)犯罪行為的規(guī)律、趨勢(shì),了解案件之間的關(guān)聯(lián),進(jìn)行串并案分析是當(dāng)前公安機(jī)關(guān)分析人員的主要任務(wù).利用知識(shí)圖譜技術(shù)可以將公安情報(bào)部門掌握的瑣碎、零散的情報(bào)信息相互連接,以構(gòu)建自動(dòng)化、智能化海量文本情報(bào)處理業(yè)務(wù)流程和方法.針對(duì)公安領(lǐng)域的數(shù)據(jù)挖掘工作在不斷的深化,雖然已取得了不錯(cuò)的進(jìn)展,但是仍具有很大的提升空間.特別是針對(duì)案件串并和實(shí)體識(shí)別問題,目前的文本挖掘主要解決案件的分類問題,基于自然語言處理應(yīng)用到公安案件數(shù)據(jù)挖掘中,面向公安系列性刑事案件,通過中文分詞、詞性標(biāo)注、實(shí)體識(shí)別、文本聚類等方式,為實(shí)現(xiàn)精細(xì)化的案件串并提供借鑒與參考,實(shí)現(xiàn)案件串并過程“智能化”、“自動(dòng)化”,節(jié)省警務(wù)資源,提高偵破效率.
自然語言處理(Natural Language Processing,NLP)[1–5]是一門融合了語言學(xué)、計(jì)算機(jī)科學(xué)、人工智能為一體的交叉性學(xué)科,研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的理論和方法,解決“讓計(jì)算機(jī)理解和合成人類的自然語言”.自然語言處理技術(shù)主要包括詞法分析、句法分析、命名實(shí)體提取、語義分析等,它主要應(yīng)用于自動(dòng)摘要、信息檢索、信息抽取、問答系統(tǒng)等領(lǐng)域.其中,命名實(shí)體提取技術(shù)作為自然語言處理的核心技術(shù)之一,能有效提取文本內(nèi)容中的命名實(shí)體信息,對(duì)自然語言處理技術(shù)在實(shí)踐應(yīng)用有非常重大的意義.
當(dāng)前,自然語言處理技術(shù)已受到了國家中央政府、大型互聯(lián)網(wǎng)企業(yè)的關(guān)注.自然語言處理技術(shù)是機(jī)器學(xué)習(xí)當(dāng)前最神秘,最紅火,最具難度,也最引人關(guān)注的分支.在搜索引擎、情感分析、大批量文檔處理、案件分析等各個(gè)領(lǐng)域有著前程無可限量的應(yīng)用.
本文從智能化案件串并和高危嫌疑研判兩條線出發(fā),針對(duì)系列性案件,對(duì)公安110 警情、侵財(cái)類案件、電信詐騙類案件、團(tuán)伙類案件等業(yè)務(wù)類型的信息系統(tǒng)中報(bào)警內(nèi)容、簡要案情、現(xiàn)場勘查、案件回訪、詢問筆錄等特征信息進(jìn)行提取分析,實(shí)現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)自動(dòng)分析、自動(dòng)案件特征提取、案情特征聚類等數(shù)據(jù)挖掘分析,為偵查部門、情報(bào)部門提供實(shí)體對(duì)象識(shí)別、案件串并研判支撐,再通過發(fā)案時(shí)空與犯罪軌跡的信息比對(duì)、數(shù)據(jù)碰撞,并結(jié)合作案工具、作案手段等犯罪特點(diǎn),通過軌跡數(shù)據(jù)的時(shí)空碰撞最終確定重點(diǎn)嫌疑人.研究提供了從基于自然語言處理支撐案件串并、實(shí)體識(shí)別,到高危嫌疑人智能推薦的一整套解決方法,實(shí)現(xiàn)了沉睡警務(wù)數(shù)據(jù)的深度利用,充分激發(fā)多源異構(gòu)數(shù)據(jù)的融合與碰撞,形成實(shí)用性的戰(zhàn)法模型,可極大地縮小偵查范圍,提高破案效率.智能人案研判方法流程如圖1所示.
基于對(duì)大量案件研判數(shù)據(jù)的深入分析,利用開源基于人工智能系統(tǒng)的自然語言解析模型分析和機(jī)器學(xué)習(xí)技術(shù),通過中文切塊分詞、詞性標(biāo)注統(tǒng)計(jì)、命名實(shí)體提取、語義情感分析、熱詞推介等方式,幫助警務(wù)人員從結(jié)構(gòu)化和非機(jī)構(gòu)化案件信息中提取其他關(guān)鍵要素.
(1)中文切塊分詞
分詞是自然語言處理的基礎(chǔ),特別是中文切換分詞[6]的準(zhǔn)確度,它直接決定了后面的詞性標(biāo)注、句法語義分析、詞向量以及文本分析的質(zhì)量.
1)基于字符串匹配的字典查找算法
先對(duì)語句進(jìn)行分詞,然后從字典中查找每個(gè)詞語的詞性,對(duì)其進(jìn)行標(biāo)注即可.
2)基于統(tǒng)計(jì)的詞性標(biāo)注算法
和分詞一樣,可以通過HMM 隱馬爾科夫模型[7]來進(jìn)行詞性標(biāo)注.觀測序列即為分詞后的語句,隱藏序列即為經(jīng)過標(biāo)注后的詞性標(biāo)注序列.起始概率發(fā)射概率和轉(zhuǎn)移概率和分詞中的含義大同小異,可以通過大規(guī)模語料統(tǒng)計(jì)得到.觀測序列到隱藏序列的計(jì)算,利用統(tǒng)計(jì)得到的起始概率發(fā)射概率和轉(zhuǎn)移概率來得到.得到隱藏序列后,就完成了詞性標(biāo)注過程.
針對(duì)公安案件的簡要案情內(nèi)容,文本利用Python腳本語言封裝和調(diào)用jieba中文分詞組件的詞性標(biāo)注算法,實(shí)現(xiàn)對(duì)中文分詞切片,如圖2所示.
圖1 智能人案研判方法流程圖
圖2 中文切換分詞展示
(2)詞性標(biāo)注統(tǒng)計(jì)
在中文分詞切片基礎(chǔ)上,按照名稱、動(dòng)詞等詞性進(jìn)行詞頻統(tǒng)計(jì)分析,如圖3所示.
圖3 詞性標(biāo)注統(tǒng)計(jì)展示
(3)命名實(shí)體提取
通過定義規(guī)則,自動(dòng)地對(duì)公安文本數(shù)據(jù)進(jìn)行重要實(shí)體對(duì)象的提取,提取的信息包括命名實(shí)體、常用術(shù)語等信息.從公安案件的簡要案情內(nèi)容文本信息中提取出如人名、地名、公司名稱、證件號(hào)碼、時(shí)間、手機(jī)、QQ、微信、銀行卡號(hào)等實(shí)體及實(shí)體間關(guān)系、事件等信息.
以人名識(shí)別描述其識(shí)別過程:
1)初略實(shí)體
將稱謂詞、句首、前綴詞、標(biāo)點(diǎn)符號(hào)等作為分隔觸發(fā)信息,如果該觸發(fā)詞的后續(xù)詞為人名等可用詞,則直到后綴詞或連續(xù)字符為止,中間的部分組成粗略人名對(duì)象集合.
2)待選實(shí)體
結(jié)合實(shí)體識(shí)別規(guī)則,在粗略人名集合中進(jìn)一步提取待選人名信息.
3)實(shí)體集合
如果待選人名為并列結(jié)構(gòu),則將并列的詞語分別加入待選人名集合中;如果待選人名為正向結(jié)構(gòu),且修飾的主語為人際關(guān)系指示詞,則將該待選人名的修飾詞也加入待選人名集合.
4)重復(fù)過程3),直到獲得長度最小的待選人名.
通過以上步驟,利用Python 開發(fā)語言定義命名實(shí)體提取規(guī)則,實(shí)現(xiàn)人名、地名、公司名稱、證件號(hào)碼、電話、時(shí)間等不同實(shí)體類型、實(shí)體信息的提取和識(shí)別,如圖4所示.
(4)語義情感分析
語義情感分析是自然語言處理中常見的語義分析場景,可以實(shí)現(xiàn)對(duì)案情的自動(dòng)分類提供依據(jù).語義情感分析可以采用基于情感語料庫的典型方法和采用基于機(jī)器學(xué)習(xí)的情感分類方法.
1)基于情感語料庫的情感分類
基于情感語料庫的方法,先對(duì)文本進(jìn)行分詞和停用詞處理等預(yù)處理,再利用先構(gòu)建好的情感語料庫,對(duì)文本進(jìn)行字符集匹配,從而挖掘正面和負(fù)面情感信息.
2)基于機(jī)器學(xué)習(xí)的情感分類
基于機(jī)器學(xué)習(xí)的情感分類,首先對(duì)語句進(jìn)行分詞、停用詞、簡繁轉(zhuǎn)換等預(yù)處理,然后進(jìn)行詞向量編碼,然后利用LSTM 或者GRU 等RNN 網(wǎng)絡(luò)進(jìn)行特征提取,最后通過全連接層和Softmax 輸出每個(gè)分類的概率,從而得到情感分類.
圖4 實(shí)體識(shí)別統(tǒng)計(jì)展示
(5)熱詞推介
對(duì)歷史案件樣本數(shù)據(jù),通過以上語義情感分析組件提煉公安專用語料庫.通過得分算法案情描述的詞頻、命名實(shí)體提取對(duì)象進(jìn)行計(jì)算,最終形成案情熱詞、關(guān)鍵詞組,如圖5所示.
圖5 關(guān)鍵詞展示
智能研判串并根據(jù)機(jī)器智能提取要素特征,通過主題分析、語義分析等智能研判分析,實(shí)現(xiàn)案件串并研判、實(shí)體對(duì)象識(shí)別.圍繞完成結(jié)構(gòu)化處理后的案件信息,建立基于領(lǐng)域知識(shí)庫的多維數(shù)據(jù)模型,與更多可對(duì)接的系統(tǒng)數(shù)據(jù)碰撞,進(jìn)一步挖掘關(guān)聯(lián)價(jià)值,形成案件知識(shí)圖譜,為案件偵破推薦特征類似的嫌疑人提供有力支撐.
(1)案件分類
本文相似性算法的自動(dòng)聚類分析技術(shù),自動(dòng)將公安非結(jié)構(gòu)化文本內(nèi)容中對(duì)無類別的事件、警情信息進(jìn)行歸類,把案情相近的案事件信息歸為一類,賦予文本內(nèi)容一個(gè)預(yù)先設(shè)定的案件類別分類庫,實(shí)現(xiàn)根據(jù)文本內(nèi)容進(jìn)行案件類別劃分,從而達(dá)到提高分類精度的目的,不需人工干預(yù).
(2)相似案件分析
基于以上案件分析對(duì)案件數(shù)據(jù)的提取和分類標(biāo)記,系統(tǒng)提供相似案件查詢、相似案件基本信息、相似案件分析等.通過案件類別進(jìn)一步對(duì)相似案件的建進(jìn)行研判分析,實(shí)現(xiàn)基于案件特征的相似案件挖掘,同時(shí)照新的按人工監(jiān)督下分類規(guī)則進(jìn)行相似案件學(xué)習(xí)和分析.
(3)案件串并分析
基于對(duì)案件分類標(biāo)記和相似案件分析,系統(tǒng)自動(dòng)對(duì)新發(fā)案件進(jìn)行關(guān)聯(lián)分析、關(guān)聯(lián)值評(píng)估、串并分析、串并案可視化分析等.
1)案件數(shù)據(jù)關(guān)聯(lián)串并分析是將案件嫌疑人的姓名、身份證號(hào)、發(fā)案時(shí)間、手機(jī)號(hào)碼、虛擬身份等要素進(jìn)行關(guān)聯(lián),并根據(jù)關(guān)聯(lián)度進(jìn)行關(guān)聯(lián)權(quán)值評(píng)估,從而找出案件之間的關(guān)聯(lián)關(guān)系.
2)基于案件特征的相似案件挖掘,利用大數(shù)據(jù)對(duì)案件之間的相似特征進(jìn)行整理推薦.在數(shù)據(jù)整合的過程中,將案件涉及的人名、地名、電話、虛擬身份、銀行卡、體貌特征、身高、作案手段、作案時(shí)間等案件特征識(shí)別并添加至案件的標(biāo)簽.
3)案/事件智能串并分析利用資源庫數(shù)據(jù),結(jié)合可視化關(guān)系挖掘工具,利用大數(shù)據(jù)技術(shù),挖掘出案件之間的內(nèi)在關(guān)聯(lián),實(shí)現(xiàn)串并案分析.通過手機(jī)號(hào)碼實(shí)現(xiàn)案件與案件串并的關(guān)系,結(jié)合車輛、時(shí)間、人物、地點(diǎn)、作案工具等要素實(shí)現(xiàn)串并案分析.
偵查工作就是利用事實(shí)的相關(guān)性來捕捉案件線索,“環(huán)環(huán)相扣”構(gòu)建數(shù)據(jù)證據(jù)鏈條,而大數(shù)據(jù)體現(xiàn)的相關(guān)關(guān)系是立體的、多維度的,信息范圍廣,更有助于偵查工作的開展.基于大數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)碰撞、數(shù)據(jù)挖掘分析出的預(yù)警預(yù)測方法,可以為系列性案件偵破提供從“案到人”的犯罪預(yù)測,使得偵查部門能夠盡早甚至第一時(shí)間發(fā)現(xiàn)犯罪嫌疑人,達(dá)到犯罪預(yù)測預(yù)防的能力.
尤其針對(duì)系列性入室盜搶等侵財(cái)案件[8],犯罪嫌疑人習(xí)慣與原有作案手法繼續(xù)作案,真實(shí)辦案過程中,偵查部門會(huì)運(yùn)用案件偵查經(jīng)驗(yàn)和現(xiàn)場勘查情況,將同一個(gè)或同一犯罪團(tuán)伙所做的案件串并起來統(tǒng)一偵查.案件串并之后明確根據(jù)案件發(fā)案時(shí)間、發(fā)案地址,系列性案件的發(fā)案時(shí)間、空間兩個(gè)維度就是軌跡數(shù)據(jù)時(shí)空碰撞的主要輸入條件選,根據(jù)犯罪對(duì)象在案發(fā)區(qū)域產(chǎn)生的包括旅館、網(wǎng)吧、手機(jī)位置、車輛等數(shù)據(jù)軌跡,并結(jié)合案件類別、作案手段、作案方式等特點(diǎn),通過軌跡數(shù)據(jù)時(shí)空碰撞,作案信息比對(duì)排查嫌疑人范圍,并按評(píng)估指數(shù)精選排名,最終確定重點(diǎn)嫌疑人.
充分利用歷史破獲案件通過建立高危嫌疑人[9]異常特征積分模型實(shí)現(xiàn)犯罪特征挖掘,形成高危嫌疑人員簇,整理多種數(shù)據(jù)標(biāo)簽,從多維度進(jìn)行人物描繪,通過機(jī)器學(xué)習(xí)的回歸算法提供精準(zhǔn)犯罪評(píng)估指數(shù).
(1)本地案件嫌疑人員分析
對(duì)本地辦案系統(tǒng)中的同類型系列性、團(tuán)伙性案件,通過對(duì)抓獲嫌疑人員的高危地區(qū)(戶籍地、籍貫)進(jìn)行分析,按照案件類別、作案手段、作案特點(diǎn)等屬性,歸納出某一類型案件的高危地區(qū)人群.
(2)跨區(qū)域案件嫌疑人員分析
利用全國刑偵系統(tǒng)數(shù)據(jù)及全國前科人員數(shù)據(jù),針對(duì)跨區(qū)域系列性案件,重點(diǎn)針對(duì)相鄰的省市偵辦的同類型案件,通過分析已抓獲嫌疑人員高危地區(qū)(戶籍地、籍貫)進(jìn)行分析,比對(duì)案件類別、作案手段、作案方式等特點(diǎn),形成某一類型案件的高危地區(qū)人群.并可重點(diǎn)關(guān)注,越是相鄰距離近的高危地區(qū)人群作案特點(diǎn)越相似,相距較遠(yuǎn)地區(qū)的高危人群可作為參考.
(3)偵查部門歸納總結(jié)
對(duì)于刑偵、情報(bào)等偵查部門已經(jīng)掌握形成作案專項(xiàng)的高危地區(qū)(如外幣詐騙、拋物詐騙、婚姻詐騙、搶劫出租車、麻醉搶劫等)高危人群,形成高危地區(qū)與案件類別、案件手段經(jīng)驗(yàn)歸納庫.可通過辦案經(jīng)驗(yàn)不斷歸納完善,或直接與高危地區(qū)(戶籍地、籍貫)的公安機(jī)關(guān)確認(rèn)聯(lián)系,提高對(duì)高危人群與案件類別、作案特點(diǎn)關(guān)聯(lián)的準(zhǔn)確性.
(4)通過分析作案特點(diǎn)分析
對(duì)案件信息、案件嫌疑人建立關(guān)鍵字組合檢索工具,以案件的案件類別、作案工具、作案手段、侵入方式、侵害對(duì)象、案件狀態(tài)、簡要案件等為條件,細(xì)化高危地區(qū)作案特點(diǎn)分析.
(5)前科特征人員積分
對(duì)前科人員、前科侵財(cái)人員、同類案件前科人員、多人同時(shí)來、多人同住、作案后離開、(多次)凌晨入住(上下網(wǎng))、頻繁變更旅館住宿、案發(fā)期間頻繁活動(dòng)、夜間跨區(qū)活動(dòng)、流竄作案有駕駛證、是已破同類案件關(guān)系人且同時(shí)來本地過(同住宿)、住宿登記人員的關(guān)系人有侵財(cái)前科等因素進(jìn)行自動(dòng)賦分.
從“地域”和“時(shí)域”兩個(gè)維度洞察案件關(guān)聯(lián)特征,從而清晰地了解某區(qū)域特定的案件類型,發(fā)案位置,作案時(shí)間等規(guī)律信息,在上面要素合并的基礎(chǔ)上結(jié)合公安各類軌跡數(shù)據(jù),基于公安地理信息系統(tǒng),對(duì)串并的案件進(jìn)行時(shí)空軌跡碰撞,達(dá)到高危嫌疑人智能推薦.
(1)案件時(shí)空特征提取
本文研究的案件主要是系列性侵財(cái)案件,案件的關(guān)鍵數(shù)據(jù)主要是發(fā)案時(shí)間、發(fā)案地址(定位到地圖坐標(biāo))是案件時(shí)空碰撞的前提條件.
1)提取案件發(fā)案時(shí)間
一般入室盜搶、扒竊等侵財(cái)類案件發(fā)現(xiàn),受害人基本上都無法準(zhǔn)確提供案件發(fā)生的精確時(shí)間點(diǎn),只能推斷出大概的時(shí)間段,所有對(duì)時(shí)間提取需根據(jù)案件發(fā)案日期提供按照日期段提取、時(shí)間段提取多個(gè)維度提取案件發(fā)案時(shí)間的范圍.
2)提取案件地圖坐標(biāo)
根據(jù)受害人報(bào)案時(shí)提供的案件案發(fā)地點(diǎn)描述的抽象地址信息,通過報(bào)案電話地址地圖定位范圍和描述的地址信息,利用地圖服務(wù)坐標(biāo)轉(zhuǎn)換,將文字描述的地址信息,轉(zhuǎn)換為精確的地圖坐標(biāo).
(2)軌跡數(shù)據(jù)時(shí)空維度碰撞
利用警用地理信息系統(tǒng),通過對(duì)公安大數(shù)據(jù)的綜合應(yīng)用,以多個(gè)串并案件發(fā)生地為中心,可在地圖上標(biāo)注案發(fā)地,在案件發(fā)生前后對(duì)經(jīng)過的地圖軌跡,高危地區(qū)人員的旅館住宿、網(wǎng)吧上網(wǎng)、火車票、汽車票、飛機(jī)票、以及從互聯(lián)網(wǎng)公司獲取的各類消費(fèi)信息、活動(dòng)軌跡等,同時(shí)接入手機(jī)位置軌跡、車輛軌跡,以及全息感知網(wǎng)建成后設(shè)備采集軌跡數(shù)據(jù),與案發(fā)地的重合度進(jìn)行系統(tǒng)自動(dòng)比對(duì)發(fā)現(xiàn)高危嫌疑人員,可查看案件詳情及案后偵查情況,通過算法按積分倒敘推薦可疑對(duì)象.
(3)重點(diǎn)嫌疑人落地查證
以上案件時(shí)空提取和軌跡時(shí)空碰撞,通過分類賦分、數(shù)據(jù)挖掘、綜合計(jì)算,自動(dòng)對(duì)特定人群進(jìn)行立體、綜合研判,從海量數(shù)據(jù)中自動(dòng)篩查具有高作案嫌疑指數(shù)的對(duì)象重點(diǎn)目標(biāo),很大程度上減少了警力排查研判的過程.但是,這種系列性案件只是代表了某類案件的高危地區(qū)人員在某一時(shí)間段的高危嫌疑,高危地區(qū)人員作案特點(diǎn)會(huì)隨著新型犯罪手法出現(xiàn)發(fā)生變化.因此,通過案件時(shí)空碰撞推薦的高危嫌疑人需推送相關(guān)警種及基層一線落地核查,進(jìn)一步分析認(rèn)定或排除其作案嫌疑人,從而不斷檢驗(yàn)、修正、完善推薦結(jié)果.
本文研究的基于自然語言處理的非結(jié)構(gòu)化案件數(shù)據(jù)分析研判和碰撞挖掘,技術(shù)上利用Java 開發(fā)語言,基于開源jieba 自然語言處理組件,采用主流Hadoop+Spark 大數(shù)據(jù)框架體系對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、處理和挖掘,結(jié)合綜合預(yù)警模式,從智能化案件串并和高危嫌疑研判兩條線出發(fā)進(jìn)行設(shè)計(jì)和實(shí)現(xiàn).
首先通過自然語言處理,利用Python 腳本語言封裝開源jieba 自然語音處理組件的詞性標(biāo)注算法、命名實(shí)體提取規(guī)則,語義情感分析算法,利用歷史案件中簡要案情樣本數(shù)據(jù),提煉出公安專用語料庫;再通過Java 調(diào)取Python 實(shí)現(xiàn)對(duì)案件實(shí)體對(duì)象的識(shí)別和熱詞、關(guān)鍵詞組的提取.然后采用SparkMLlib中K-means相似性算法的自動(dòng)聚類分析技術(shù),對(duì)以上實(shí)體對(duì)象識(shí)別和熱詞提取的結(jié)果,進(jìn)行案件分類,并結(jié)合相識(shí)案件分析功能按人工監(jiān)督下分類規(guī)則進(jìn)行相似案件學(xué)習(xí)和分析,實(shí)現(xiàn)對(duì)新發(fā)案件的自動(dòng)串并.如圖6所示.
首先基于SparkMLlib 回歸算法之決策樹算法,對(duì)本地案件嫌疑人員數(shù)據(jù)、跨區(qū)域案件嫌疑人員數(shù)據(jù)和偵查部門歸納總結(jié)數(shù)據(jù)進(jìn)行分析,形成高危嫌疑人員簇,實(shí)現(xiàn)高危嫌疑人員評(píng)估指數(shù)建立人員積分.然后對(duì)接公安掌握的網(wǎng)上網(wǎng)下各類軌跡數(shù)據(jù),采用Hadoop 大數(shù)據(jù)框架對(duì)高危嫌疑人員海量軌跡數(shù)據(jù)進(jìn)行分布式存儲(chǔ).最后對(duì)以上新發(fā)串并案件的時(shí)空特征包括發(fā)案時(shí)間、發(fā)案地址進(jìn)行提取,通過人員軌跡數(shù)據(jù)與串并案件的時(shí)空維度采用Spark 實(shí)時(shí)計(jì)算引擎進(jìn)行計(jì)算碰撞,利用警用地理信息系統(tǒng)進(jìn)行直觀展示,并按積分倒敘推薦重點(diǎn)可疑對(duì)象,實(shí)現(xiàn)高危嫌疑人挖掘,大大提高刑偵辦案民警辦案效率,極大提高破案率.如圖7所示.
圖6 利用自然語言處理進(jìn)行案件串并分析
圖7 通過時(shí)空碰撞挖掘?qū)崿F(xiàn)嫌疑人推送預(yù)警
基于自然語言處理的非結(jié)構(gòu)化案件數(shù)據(jù)分析研判和碰撞挖掘的研究,旨在大數(shù)據(jù)、人工智能環(huán)境下,為案件偵查和情報(bào)分析的數(shù)據(jù)挖掘、研判工作提供更好途徑,以解決公安機(jī)關(guān)案件線索提取的實(shí)際困難,為公安機(jī)關(guān)偵查的實(shí)際工作提供支撐.利用大數(shù)據(jù)、人工智能等技術(shù)輔助案件偵查應(yīng)用,是一個(gè)不斷學(xué)習(xí)優(yōu)化的過程,后期的價(jià)值判斷還需要偵查人員的核實(shí)反饋,輸入準(zhǔn)確的學(xué)習(xí)樣本以提高數(shù)據(jù)分析挖掘的準(zhǔn)確性.另外,隨著的作案手段和犯罪類型的變化,需要專業(yè)的偵查人員對(duì)預(yù)警模型不斷進(jìn)行監(jiān)督、修正和完善.目前公安機(jī)關(guān)全面推進(jìn)“智慧警務(wù)”建設(shè),基于自然語言處理的非結(jié)構(gòu)化案件數(shù)據(jù)分析研判和碰撞挖掘的研究,是智慧警務(wù)一個(gè)實(shí)戰(zhàn)應(yīng)用的縮影,是公安業(yè)務(wù)實(shí)戰(zhàn)應(yīng)用的一個(gè)前沿探索和實(shí)踐,有助于打造智慧警務(wù)新模式.