王欣 汪寧 郝久月
1. 北京中盾安全技術(shù)開發(fā)公司 2. 公安部第一研究所
在關(guān)系網(wǎng)絡(luò)中,節(jié)點與節(jié)點之間通過關(guān)系即關(guān)系鏈接相連,組成一張巨大的網(wǎng)絡(luò)圖。然而,當(dāng)前公安機(jī)關(guān)存在關(guān)系鏈接數(shù)據(jù)缺失、不準(zhǔn)確等問題。因此,借助大數(shù)據(jù)分析技術(shù)提供的資源按需調(diào)度、海量數(shù)據(jù)挖掘處理能力,對人員關(guān)系鏈計算提出研究和設(shè)計思路,對于公安工作具有非常實際和重要的意義。
傳統(tǒng)的關(guān)系鏈接預(yù)測主要基于圖中的結(jié)構(gòu)信息衡量節(jié)點之間的相似度開展相關(guān)研究。然而隨著數(shù)據(jù)的日益增多,單純依靠結(jié)構(gòu)信息進(jìn)行相似度評測,進(jìn)行鏈接預(yù)測已不能充分利用海量數(shù)據(jù)的優(yōu)勢。為了更好利用多維度人員數(shù)據(jù),本文基于人員關(guān)系理論研究,提出了關(guān)系表達(dá)模型及基于人員屬性、行為的多維度信息進(jìn)行關(guān)系鏈接預(yù)測的關(guān)系分析方法,設(shè)計了基于大數(shù)據(jù)的關(guān)系分析應(yīng)用系統(tǒng),充分利用人員基礎(chǔ)屬性及行為等數(shù)據(jù)進(jìn)行關(guān)系分析,有效解決了關(guān)系類數(shù)據(jù)缺失、不準(zhǔn)確給公安業(yè)務(wù)應(yīng)用帶來的困擾。
人際關(guān)系從社會心理學(xué)角度是指人們在社會交往過程中形成的心理關(guān)系,表現(xiàn)了個體間根據(jù)相互滿足需要的程度而產(chǎn)生的心理上的親疏遠(yuǎn)近。
人際關(guān)系通過交往表現(xiàn),又通過交往實現(xiàn),人際關(guān)系發(fā)展和變化是人際交往的結(jié)果。
在心理學(xué)上,交往是指人與人之間的心理接觸或直接溝通,由此達(dá)到一定的認(rèn)知。
交往在社會學(xué)上是指人們特意完成的交往行為,或通過交往行為而形成的特定社會聯(lián)系。
在本文,人際關(guān)系是關(guān)系研究的基礎(chǔ),交往行為是行為研究的基礎(chǔ)。
從社會科學(xué)角度,可以從多個維度對人際關(guān)系進(jìn)行分類,主要劃分維度如下表所示。
?
通過對人際關(guān)系和人際交往行為相關(guān)理論的研究,本文對關(guān)系和行為兩個概念進(jìn)行了劃分。
通過對關(guān)系和行為的劃分,進(jìn)一步設(shè)計了OPRB模型,如下圖所示。
其中O是對象也就是產(chǎn)生關(guān)系的實體,此處指人;P是對象的可參與關(guān)系表達(dá)的屬性;R是對象間的關(guān)系;B是對象間交往的行為。屬性和行為可以共同推導(dǎo)關(guān)系。同時基于行為和關(guān)系類型可以推導(dǎo)人與人之間的關(guān)系鏈接概率。
通過對OPRB模型的刻畫,實現(xiàn)了對實體、關(guān)系及反應(yīng)關(guān)系的屬性、行為要素的描述。
在當(dāng)前情況下,關(guān)系類數(shù)據(jù)經(jīng)常缺失或不準(zhǔn)確,此時,如下圖所示,可以通過屬性與行為兩個維度實現(xiàn)對關(guān)系的表達(dá)與計算。
本文基于關(guān)系表達(dá)與計算模型的研究,提出基于人員屬性、行為的多維度數(shù)據(jù)進(jìn)行關(guān)系鏈接預(yù)測的方法,在人員關(guān)系鏈接數(shù)據(jù)質(zhì)量較低的情況下實現(xiàn)人員關(guān)系網(wǎng)絡(luò)的構(gòu)建及關(guān)系鏈接預(yù)測。具體步驟如下:
基于人員屬性和行為進(jìn)行數(shù)據(jù),完成節(jié)點間基于屬性和行為數(shù)據(jù)的關(guān)系鏈接概率計算。
(1)對屬性、行為等數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等預(yù)處理工作;
(2)梳理人員關(guān)系屬性,如人員間已有明確關(guān)系,則不列入關(guān)系鏈預(yù)測范圍;
(3)關(guān)系鏈預(yù)測
b表示由業(yè)務(wù)人員梳理的第b類行為,其中1≤b≤n,例如乘車類行為1,則b=1時,表示同乘車行為。
其中kb表示第b類行為在關(guān)系鏈預(yù)測中所占的權(quán)重。kb可由業(yè)務(wù)專家給出主觀權(quán)重,也可通過標(biāo)準(zhǔn)離差法等方法計算客觀權(quán)重。
該算法在10臺服務(wù)器的大數(shù)據(jù)云平臺實驗環(huán)境下進(jìn)行實驗。針對千萬級人員屬性、行為數(shù)據(jù)進(jìn)行離線建模分析約需8小時,人員關(guān)系預(yù)測信息實時查詢響應(yīng)時間<3秒。
本文基于以上研究,設(shè)計了基于大數(shù)據(jù)的關(guān)系分析應(yīng)用系統(tǒng)。利用大數(shù)據(jù)先進(jìn)技術(shù)及算法,實現(xiàn)關(guān)系分析模型、服務(wù),在海量數(shù)據(jù)中用“數(shù)據(jù)說話”,為公安機(jī)關(guān)提供人員關(guān)系分析等服務(wù)及應(yīng)用。
如圖,基于大數(shù)據(jù)的關(guān)系分析應(yīng)用系統(tǒng)是建立在云計算大數(shù)據(jù)基礎(chǔ)支撐平臺之上,提出符合公安關(guān)系分析業(yè)務(wù)需要的大數(shù)據(jù)總體技術(shù)框架。具體包括基礎(chǔ)設(shè)施層、平臺支撐層、數(shù)據(jù)資源層、應(yīng)用支撐層、應(yīng)用層。
基礎(chǔ)設(shè)施層:包括云計算基礎(chǔ)硬件環(huán)境、資源池及資源服務(wù)。
平臺層:包括大數(shù)據(jù)平臺的離線計算、實時計算等基礎(chǔ)構(gòu)件。
數(shù)據(jù)資源層:是系統(tǒng)的核心部分,是一切數(shù)據(jù)分析和應(yīng)用的基礎(chǔ),包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)組織、數(shù)據(jù)治理三部分內(nèi)容。數(shù)據(jù)資源層整合了從各個數(shù)據(jù)源獲取的數(shù)據(jù)資源。數(shù)據(jù)預(yù)處理是為滿足后續(xù)業(yè)務(wù)應(yīng)用對數(shù)據(jù)的需要,預(yù)先對已接入的數(shù)據(jù)進(jìn)行的必要的處理操作,主要包括數(shù)據(jù)提取、清洗、關(guān)聯(lián)、比對、標(biāo)識。數(shù)據(jù)組織將按照人員、地點、物品、組織、事件等專題建設(shè)主題庫,進(jìn)一步抽取關(guān)系分析專題庫。關(guān)系分析專題庫根據(jù)業(yè)務(wù)的需要對人員行為、屬性數(shù)據(jù)進(jìn)行梳理和存儲,便于后期進(jìn)行關(guān)系分析和挖掘。數(shù)據(jù)治理具體包括數(shù)據(jù)資源目錄、數(shù)據(jù)分級分類、數(shù)據(jù)血緣關(guān)系、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)運維管理。
應(yīng)用支撐層:封裝了智能分析算法和關(guān)系分析模型研究的成果,為上層應(yīng)用提供大數(shù)據(jù)業(yè)務(wù)模型和算法服務(wù),并對外提供服務(wù)接口。接口層實現(xiàn)該系統(tǒng)與其它業(yè)務(wù)系統(tǒng)的服務(wù)對接。算法服務(wù)包含人員關(guān)系挖掘、關(guān)系網(wǎng)絡(luò)分析等。
應(yīng)用層:利用應(yīng)用支撐層提供的服務(wù),實現(xiàn)關(guān)系的可視化分析,包括綜合查詢、關(guān)系分析、統(tǒng)計分析等應(yīng)用。
系統(tǒng)按照用戶設(shè)定的分析時間、頻率等參數(shù)對系統(tǒng)中人員各類關(guān)系進(jìn)行定時分析計算,并提供查詢、關(guān)系分析、統(tǒng)計等功能。
綜合查詢:查詢?nèi)藛T基礎(chǔ)信息及相關(guān)關(guān)系人信息,并提供人員間關(guān)系鏈接預(yù)測。
關(guān)系分析:基于關(guān)系分析,形成人員關(guān)系網(wǎng)絡(luò),支持人員關(guān)系網(wǎng)絡(luò)的可視化分析及分析結(jié)果的保存等功能。
統(tǒng)計分析:主要包括對熱點查詢進(jìn)行統(tǒng)計分析、展示等。
基于大數(shù)據(jù)的關(guān)系分析應(yīng)用系統(tǒng)已初步建設(shè)完成,并部署于公安部,在青島上合峰會期間為會議安保提供了關(guān)系分析服務(wù)。為滿足業(yè)務(wù)需求,系統(tǒng)提供了處理億級人員基礎(chǔ)信息及行為數(shù)據(jù)的能力,查詢響應(yīng)時間<5秒,實現(xiàn)關(guān)系展示與分析的秒級響應(yīng)。
該系統(tǒng)有效提升了人員關(guān)系分析研判能力,具體如下:(1)系統(tǒng)具有強(qiáng)大的底層數(shù)據(jù)處理、計算能力?;诖髷?shù)據(jù)、云平臺實現(xiàn)海量人員數(shù)據(jù)的接入、處理,完成數(shù)據(jù)的高效計算與分析。(2)該系統(tǒng)從人員基礎(chǔ)行為數(shù)據(jù)中獲得有業(yè)務(wù)意義的關(guān)系鏈預(yù)測信息,并以可視化方式推送給業(yè)務(wù)人員進(jìn)行分析研判,實現(xiàn)億級數(shù)據(jù)量下關(guān)系分析的秒級響應(yīng),推動了公安業(yè)務(wù)的智能化進(jìn)程。
下一步,將從可解釋性角度提升關(guān)系分析方法的可理解性,幫助公安機(jī)關(guān)業(yè)務(wù)專家進(jìn)一步理解算法分析結(jié)果,將專家知識反饋到關(guān)系分析計算過程中。
本文針對當(dāng)前公安機(jī)關(guān)關(guān)系鏈接數(shù)據(jù)缺失、不準(zhǔn)確等問題,探索了關(guān)系分析方法,提出了關(guān)系表達(dá)模型及關(guān)系分析計算方法,運用大數(shù)據(jù)等新技術(shù)手段,設(shè)計了關(guān)系分析應(yīng)用系統(tǒng)。
基于本文提出的關(guān)系模型及計算方法,能夠利用行為、屬性等數(shù)據(jù)計算人與人之間的關(guān)系鏈接,有效解決了關(guān)系數(shù)據(jù)缺失對公安業(yè)務(wù)應(yīng)用帶來的困擾。
基于大數(shù)據(jù)的關(guān)系分析應(yīng)用系統(tǒng)利用大數(shù)據(jù)先進(jìn)技術(shù),實現(xiàn)關(guān)系分析模型,為公安機(jī)關(guān)提供智能化人員關(guān)系分析應(yīng)用及服務(wù),并以可視化的方式展示。
隨著業(yè)務(wù)數(shù)據(jù)的不斷積累,算法的不斷完善,關(guān)系分析應(yīng)用系統(tǒng)將面向?qū)崙?zhàn),提供更加精準(zhǔn)、有效的大數(shù)據(jù)關(guān)系分析應(yīng)用及服務(wù),為提高人員關(guān)系分析能力提供支撐。