陳 銳,華 東,桑朝陽
(浙江省公安廳,浙江 杭州 330100)
知識圖譜是基于大數(shù)據(jù)的智能化自然語言信息分析技術(shù),實質(zhì)上屬于信息分析工具中的一種,能夠把抽象冗雜的信息通過采集處理、融合計算、可視映射及繪制等過程以基于易理解的形象化的方式顯示出來,已被廣泛應用于電商、農(nóng)業(yè)、工業(yè)、醫(yī)療、軍事、治安、教育等領域。谷歌、亞馬遜、騰訊、Facebook、阿里、奈飛、PayPal、華為、蘋果、百度等諸多企業(yè)紛紛探索拓展其在金融、電商、醫(yī)療多個領域的相關(guān)應用,推廣前景被一致看好[1]。對于警務工作而言,經(jīng)過十余年的“基礎工作信息化,信息工作基礎化”的快速發(fā)展,特別是近2年云計算技術(shù)的賦能,知識圖譜關(guān)系網(wǎng)絡越來越多地在該領域被應用并取得實效。
知識圖譜通過將可視化技術(shù)與數(shù)學、圖形學、信息科學等學科理論及方法結(jié)合,把抽象冗雜的信息通過采集處理、可視繪制等圖形化方式直觀顯示出來。在現(xiàn)代警務模式中,人與人之間關(guān)系聚類的挖掘計算更加亟需知識圖譜的應用?,F(xiàn)實生活中,知識圖譜應用在關(guān)系聚類的挖掘計算基礎是人的基本屬性、行為指數(shù)和信息交互(實體、關(guān)系、屬性以及語義描述)等,但因為數(shù)據(jù)規(guī)模巨大、結(jié)構(gòu)異樣、質(zhì)量不一,需要充分使用機器學習、自然語言處理等技術(shù)進行自動化的圖譜構(gòu)建。知識圖譜關(guān)系網(wǎng)絡可以通過對錯綜復雜的實體、關(guān)系、屬性以及語義描述數(shù)據(jù)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化)進行高效準確的加工處理、整合清洗,轉(zhuǎn)化為海量的實體元素與關(guān)系數(shù)據(jù),知識匯聚融合后對數(shù)據(jù)進行邏輯歸屬和冗雜錯誤數(shù)據(jù)過濾。
簡單來說,知識圖譜應用于關(guān)系聚類分析主要具有以下3種特點。
(1)可以通過圖數(shù)據(jù)庫比對算法進行效率極高的數(shù)據(jù)檢索,檢索訪問次數(shù)越多、范圍越廣,就能比中越多信息和內(nèi)容,效率越高。
(2)圖數(shù)據(jù)庫面向的數(shù)據(jù)量是數(shù)十到百億級,甚至更多。它使用圖的方式有效地存儲數(shù)據(jù)和知識之間的內(nèi)在關(guān)聯(lián)關(guān)系,可以實現(xiàn)系統(tǒng)化而非凌亂分散地展示相關(guān)知識體系。
(3)具備人類自然語言智能識別和推理能力,從整理出的數(shù)據(jù)中自動識別和推斷出多維度關(guān)系與知識,可以模擬人腦思維方式去總結(jié)、證明和推測,脫離專業(yè)知識和業(yè)務經(jīng)驗制約而獨立完成全部過程。
傳統(tǒng)人物關(guān)聯(lián)分析存在的痛點難點主要表現(xiàn)在以下方面。
一是分析過程耗時耗力,整體效率不高。傳統(tǒng)分析主要采用“查詢+比對”分析方法,即使查詢檢索也是單因子單表查詢檢索,復合因子、交叉因子或多表交叉查詢檢索效率很低,且由于分析對象及與其關(guān)聯(lián)的對象數(shù)量龐大、系統(tǒng)獨立分散、數(shù)據(jù)種類繁雜、基礎信息重復、標準不一、共享不足等原因,查詢耗時長,分析效率不高。使用傳統(tǒng)方式的查詢分析操作無法在最短時間內(nèi)高效率針對某些特定的應用場景挖掘出分析對象的關(guān)聯(lián)特征。
二是基礎數(shù)據(jù)缺失不全,結(jié)果不夠準確。傳統(tǒng)的人物關(guān)聯(lián)關(guān)系分析通常需要借助多個部門警種、多個信息系統(tǒng)、多類數(shù)據(jù)資源,將查詢到的零散數(shù)據(jù)進行整合,梳理內(nèi)在邏輯,組合人物畫像,形成關(guān)系鏈條[2]。分析人員的專業(yè)水平參差不齊會導致結(jié)果出現(xiàn)偏差。多個部門、系統(tǒng)和資源中的數(shù)據(jù)質(zhì)量參差不齊,結(jié)構(gòu)異樣、缺失甚至錯誤,導致分析人員初期的數(shù)據(jù)檢索、收集、清洗和整理的難度極大,需要長期、重復、機械地處理相關(guān)數(shù)據(jù),最終因為各種客觀原因影響得到的結(jié)果往往與事實背道而馳。
三是綜合信息多元混雜,挖掘提煉不強。人物關(guān)系可通過多維行為(線上或線下、物流交易、社交通訊、交通住宿、人力資源與招聘、金融投資理財、保險零售、通信傳媒、醫(yī)療繳費、電子商務等)或是與內(nèi)在聯(lián)系的對象來表現(xiàn)。但由于人的行為具有多元復雜性、個體傾向差異性,且隨著社會進步,各種新型的行為層出不窮,需對多種行為或多個對象進行綜合信息分析,目前采取的傳統(tǒng)方式挖掘分析難以滿足現(xiàn)代多行為數(shù)據(jù)分析挖掘的實際需求[1]。
關(guān)系圖譜泛指基于綜合利用各類數(shù)據(jù)可視化分析軟件,通過機器人流程自動化(RPA)等完成特定需求的集數(shù)據(jù)搜集、清洗、打標、建庫、建模、分析及展現(xiàn)等功能于一體,根據(jù)數(shù)據(jù)是維度還是度量,是離散還是連續(xù),選取與其相匹配的圖形元素以及圖形屬性進行映射,進而達到傳遞想表達信息的目的。關(guān)系數(shù)據(jù)關(guān)聯(lián)研究對象包含的范圍越廣,表面上好像沒有相關(guān)性,但是底層具有潛在內(nèi)關(guān)聯(lián)價值的事物就越多,分析人物關(guān)聯(lián)關(guān)系也就需要將海量龐雜的單維或低維數(shù)據(jù)拆解清洗,量化為對現(xiàn)代警務工作有用的指標指數(shù),繼而開展后續(xù)數(shù)據(jù)關(guān)聯(lián)分析。這個過程也可以描述為通過定義的最小支持和最小置信度來尋找強關(guān)聯(lián)規(guī)則、描繪關(guān)系圖譜的過程。
通常來說,利用關(guān)系圖譜進行人物關(guān)聯(lián)分析的流程如下,這些流程步驟并非固定的,可根據(jù)研究對象和目標有選擇性地省略、新增或重復。
直接決定數(shù)據(jù)維度、格式、顆粒度、精確度等,很大程度上決定了輸出結(jié)果質(zhì)量和最終分析準確性。行業(yè)關(guān)系圖譜構(gòu)建更需要帶著專業(yè)特色的目的進行數(shù)據(jù)采集,盡量摒棄明確與關(guān)聯(lián)分析無關(guān)的數(shù)據(jù)采集。
支持各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化海量數(shù)據(jù)的低成本存儲,為超長時間的海量歷史數(shù)據(jù)存儲和使用提供基礎支撐[3]。在數(shù)據(jù)存儲層中,將會按照存儲數(shù)據(jù)量、計算能力、計算速度進行分主題存儲。因為圖數(shù)據(jù)庫在關(guān)聯(lián)查詢的效率上遠遠高于傳統(tǒng)的關(guān)系數(shù)據(jù)存儲,所以對大量數(shù)據(jù)應用圖數(shù)據(jù)庫來存儲較好。
標準處理包括噪聲去除、數(shù)據(jù)清洗、標簽分類、特征提取、信息抽取、建庫建模、分析研判等內(nèi)容。對臟數(shù)據(jù)和噪聲進行去除,對散亂無序數(shù)據(jù)進行整合清洗,保留有價值數(shù)據(jù),對多源異構(gòu)數(shù)據(jù)進行清洗匯聚,建立基于專家系統(tǒng)、模式識別、機器學習等相關(guān)技術(shù)的數(shù)學處理模型,利用大數(shù)據(jù)、云計算技術(shù)實現(xiàn)數(shù)據(jù)快速標準的處理。
通過標準處理后的數(shù)據(jù),獲得了結(jié)構(gòu)統(tǒng)一、真實表達的實體、關(guān)系等數(shù)據(jù)后,再經(jīng)過知識融合步驟對數(shù)據(jù)進行邏輯歸屬和冗雜錯誤數(shù)據(jù)過濾,將實體與實體進行對應、鏈接,最后合并外部知識庫和數(shù)據(jù)庫。
以上步驟實現(xiàn)的基本事實表達數(shù)據(jù)再通過實體并列關(guān)系相似度計算、位置順序關(guān)系排列完成本體構(gòu)建,將數(shù)據(jù)歸類成人、案(事)、物、地址、組織機構(gòu)等人腦概念。在此基礎上不斷反復數(shù)據(jù)或概念更新、質(zhì)量評估和糾正等環(huán)節(jié)。
按照可視化技術(shù)要求,將處理后的數(shù)據(jù)按照數(shù)值、時間、空間、數(shù)據(jù)聯(lián)系等方面映射成為可視化直觀元素,映射后的元素可以直接被可視化技術(shù)使用。
利用數(shù)據(jù)可視化結(jié)果進行分析,建立人物關(guān)系圖譜。在實踐中更多地利用可視化軟件對數(shù)據(jù)進行交互式展現(xiàn),利于人腦直觀感知和結(jié)果表示[4]。
當前關(guān)系圖譜應用無所不在,幾乎覆蓋所有行業(yè)和領域,包括教育、醫(yī)療、金融、商業(yè)、法律、行政等,前提是要像警務分析人員關(guān)系聚類一樣,在每個行業(yè)都要建立起特有的具有業(yè)務屬性的知識圖譜,并不斷完善和更新。當前已有很多行業(yè)開展了較為深度的應用,也取得了較為明顯的成效。
降低了司法理論和實踐中的應用難度,可以將司法工作中所涉及的法律法規(guī)、條例規(guī)范、經(jīng)驗做法、司法主體和對象等相互關(guān)聯(lián)起來,形成具有較強邏輯性和結(jié)構(gòu)性的司法關(guān)系圖譜。通過關(guān)系圖譜還可以方便快速地調(diào)用到關(guān)聯(lián)得更形象直觀的文本圖形、語音視頻等數(shù)據(jù)。
農(nóng)業(yè)關(guān)系圖譜可以極大程度累積和利用農(nóng)業(yè)常識、規(guī)律、經(jīng)驗、關(guān)聯(lián)行業(yè)知識等相關(guān)知識。深入挖掘分析相應的實體之間內(nèi)在的關(guān)聯(lián)關(guān)系,并用關(guān)系圖譜進行表達,構(gòu)造全面的農(nóng)業(yè)知識庫,直觀地預測和指導農(nóng)業(yè)領域發(fā)展趨勢及輔助決策。
挖掘遺傳基因,降低診療成本,在醫(yī)療行業(yè),發(fā)現(xiàn)和診療遺傳性疾病的成本高、周期長。醫(yī)療關(guān)系圖譜的數(shù)據(jù)組成包括臨床數(shù)據(jù)、實驗數(shù)據(jù)、理論研究成果以及各類共享數(shù)據(jù),構(gòu)建遺傳學醫(yī)療關(guān)系圖譜,加大遺傳性疾病的診療精準性和降低治療難度,節(jié)約治療成本。例如“IBM登月計劃”,對臨床醫(yī)療做出了臨床輔助診斷和安全治療手段建議等方面的貢獻,其背后就是醫(yī)療關(guān)系圖譜基于海量臨床經(jīng)驗數(shù)據(jù)、實驗數(shù)據(jù)和理論研究數(shù)據(jù)相互關(guān)聯(lián)的實戰(zhàn)應用。
這是警務工作中關(guān)系圖譜眾多應用中的一種。最近幾年,電信詐騙的形式多種多樣,涉案金額巨大,造成惡劣的影響。仿冒身份、購物詐騙、利誘詐騙、消費詐騙、釣魚木馬病毒詐騙等,騙子越來越多,手段越來越具有迷惑性,被害者防不勝防,甚至很多被害者都是高級知識分子,也在不知不覺中受騙上當。在這種情況下,原來通過個案攻堅、串并案偵查等傳統(tǒng)方法進行反詐偵查已經(jīng)遠遠不夠,需要建立一個反詐關(guān)系圖譜來積極應對。電信詐騙的核心是人,在金融投資詐騙的偵查分析研判中,需要對接涉及電詐的所有相關(guān)數(shù)據(jù)源,對多源異構(gòu)數(shù)據(jù)清洗整理后構(gòu)建對應的關(guān)系圖譜,建設標準統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)庫供機器學習、理解和分析研判。這樣不僅可以整合涉案人員的基本信息,還可以把涉案人員的消費記錄、行為記錄、關(guān)系信息、線上日志信息等整合到反電詐知識圖譜里,從而進行分析和預測,最終得到電詐犯罪團伙成員的真實身份信息及內(nèi)在關(guān)聯(lián)信息,為打擊電詐案件高發(fā)態(tài)勢提供直觀的決策指引及偵破方向。此外,通過構(gòu)建海量的歷史電詐元素的關(guān)系圖譜,實現(xiàn)高風險數(shù)據(jù)的分析研判和機器學習,按電詐主題元素計算風險結(jié)果反饋,構(gòu)建特征專題數(shù)據(jù)庫,提煉固化分析規(guī)則,完善預警分析模型,可以有效進行電詐案件的前期干預,避免電詐案件的發(fā)生和終止現(xiàn)發(fā)電詐案件的發(fā)展。
擁有海量數(shù)據(jù)的互聯(lián)網(wǎng)電商行業(yè),當前在關(guān)系圖譜應用方面處于世界前列。各大互聯(lián)網(wǎng)巨頭,通過構(gòu)建自身電商生態(tài)閉環(huán),讓電商數(shù)據(jù)在整個閉環(huán)中產(chǎn)生、消化、再產(chǎn)生,反復地完善其關(guān)系圖譜和知識庫,讓搜索引擎擁有了更精準的分析能力和更智能的推薦能力,能夠更好的為客戶提供關(guān)鍵和滿意的電商產(chǎn)品信息,從而引導消費。例如淘寶的商品關(guān)系圖譜背后有著商品標準化、結(jié)構(gòu)化這一個基礎性和根源性的過程。淘寶關(guān)系圖譜以商品名稱、商品分類、商品參數(shù)、商品品牌、標準條碼、熱門標簽等為核心,利用自然語言識別和分析技術(shù),整合關(guān)聯(lián)了成千上億的用戶興趣屬性,形成了龐大的關(guān)系網(wǎng)。能夠分析全平臺數(shù)據(jù),對違禁貨物和違法交易行為進行預警及干預,也可以幫助用戶迅速準確從海量產(chǎn)品中篩選出適合的商品,提高用戶購物體驗和交易安全等。
大數(shù)據(jù)時代背景下,隨著物聯(lián)網(wǎng)、云計算等技術(shù)運用于各個行業(yè)部門,數(shù)據(jù)呈現(xiàn)出融合交叉的特點。知識圖譜可以幫助人物信息模塊化利用,將各種類型的數(shù)據(jù)進行規(guī)范整理和分類存儲。在檢索輸出結(jié)果階段,用戶可以通過關(guān)鍵字檢索等方式輸入內(nèi)容,系統(tǒng)會解析分析,將關(guān)聯(lián)內(nèi)容篩選排序,結(jié)構(gòu)化輸出結(jié)果[5]。例如“人員綜合畫像”模塊輸入關(guān)鍵字,系統(tǒng)通過對已有數(shù)據(jù)的清洗、關(guān)聯(lián)、分類,將人員基本情況、關(guān)聯(lián)人基本情況、所屬物品情況、人員行業(yè)特征信息及人員行為信息在同一界面多維度直觀展示。
關(guān)系圖譜是從海量數(shù)據(jù)資源中清洗出符合條件的信息,可以實時快速地深度分析大數(shù)據(jù)中的實體與關(guān)聯(lián)關(guān)系,利用已知內(nèi)在聯(lián)系或具體特征推斷出與之有關(guān)聯(lián)的新的聯(lián)系。除此之外,關(guān)系圖譜的推斷并不僅僅局限于通過人物對象的行為或通過內(nèi)在邏輯這些傳統(tǒng)的單一思維方式,而是從數(shù)據(jù)出發(fā),構(gòu)建關(guān)系網(wǎng)絡,多種因素綜合考慮推斷,相較于傳統(tǒng)的方式,利用關(guān)系圖譜能夠?qū)?shù)據(jù)進行深度分析、精準研判和及時的預測[6]。比如關(guān)系圖譜的推斷,在警務工作中,為快速準確鎖定目標人員、物品、地址、案事件和背景信息,民警的任何操作都是圍繞該特定的工作意圖和目的進行的,建立并應用該圖譜,民警能實現(xiàn)快速精準偵查工作,這對于警務決策的精準性和全面性而言至關(guān)重要。
在人物關(guān)聯(lián)領域運用關(guān)系圖譜,可以將來源于不同數(shù)據(jù)庫系統(tǒng)、不同部門的數(shù)據(jù)信息進行整合,理清人物相關(guān)聯(lián)的內(nèi)在邏輯,構(gòu)建關(guān)系標簽脈絡,將冗雜的人物對象數(shù)據(jù)有序化[2]。例如,構(gòu)建“人員矩陣”,使被分析對象的“標簽關(guān)系人或物”通過縱橫排列的二維數(shù)據(jù)表格或三維立體模型展示,并利用數(shù)據(jù)特性,按條件排列,有效打通人與人、人與物之間的關(guān)系脈絡,幫助分析人員在最短時間內(nèi)了解對象群體特征及內(nèi)在關(guān)聯(lián)性。
關(guān)系圖譜可以讓當前應用在多種場景下的警務AI更智能更安全。它能應用于當前各個層級公安機關(guān)及警種條線的各類警務工作,可以讓基層民警從枯燥無味的數(shù)據(jù)分析中解放出來,快速梳理嫌疑對象關(guān)系脈絡,找到關(guān)鍵目標,發(fā)現(xiàn)活躍在本地的犯罪團伙,實現(xiàn)人案關(guān)聯(lián),最終落地打擊。關(guān)系圖譜不僅適用于破案追逃,還能在反恐維穩(wěn)、社會治安治理和行政審批等公安工作各個領域發(fā)揮重要作用。未來,傳統(tǒng)的調(diào)查、研究,甚至訊問、勘查、分析研判等警務工作將被關(guān)系圖譜賦能的警務AI代替,警力資源得到極大程度釋放。
綜上所述,利用關(guān)系類知識圖譜系統(tǒng)進行人物關(guān)聯(lián)分析,有以下幾個方面的優(yōu)勢。一是能夠滿足更高層次的數(shù)據(jù)服務需求。關(guān)系圖譜系統(tǒng)立足于大數(shù)據(jù)資源,深入挖掘提煉數(shù)據(jù)信息,建設“要素關(guān)聯(lián)、融合共享、智能分配、全域一體”數(shù)據(jù)資源池,使人物關(guān)聯(lián)分析從簡單的“信息查詢”轉(zhuǎn)變?yōu)楦咝У摹爸悄軕谩?,打通了人物相關(guān)聯(lián)的數(shù)據(jù)脈絡[2],實現(xiàn)基礎數(shù)據(jù)對行業(yè)需求的更有力支撐。二是助推行業(yè)信息質(zhì)量提檔升級。在系統(tǒng)應用過程中,通過對已采集數(shù)據(jù)進行標簽化、規(guī)范化、結(jié)構(gòu)化的處理,去除噪聲數(shù)據(jù)和臟數(shù)據(jù), 提升知識質(zhì)量[3],從而優(yōu)化數(shù)據(jù)庫結(jié)構(gòu),有力提升行業(yè)基礎數(shù)據(jù)的質(zhì)量,為行業(yè)需求滿足夯實基礎。三是顯著提升分析效能。通過對綜合畫像、關(guān)系網(wǎng)絡和人員矩陣分析等專業(yè)功能模塊的構(gòu)建,不僅能夠建立“人+行為+軌跡+關(guān)系”人員多維信息檔案,通過關(guān)系拓展、對象關(guān)聯(lián),還能實現(xiàn)從“單人檔案”向“群體檔案”、從“單一關(guān)系”向“多重關(guān)系”、從“基本分析”向“深度挖掘”轉(zhuǎn)變,滿足了可視化分析、直觀化分析等高階需求,有力提升了大數(shù)據(jù)環(huán)境下人物關(guān)聯(lián)分析效能。