張宇萌 吳昊 辛陽 承琪 趙經(jīng)宇
(北京郵電大學(xué) 北京市 100876)
面對規(guī)模日益增長的信息資源,人們對于數(shù)據(jù)的理解,大多處于對數(shù)據(jù)的淺層感知模式,缺乏考慮數(shù)據(jù)之間的關(guān)聯(lián),導(dǎo)致對數(shù)據(jù)的內(nèi)涵理解不夠深刻。由于各類實(shí)體并不是孤立存在的,它們之間普遍存在關(guān)聯(lián)關(guān)系。正是這種聯(lián)系與交流的存在,使得數(shù)據(jù)之間顯式或隱式地形成一個巨大的關(guān)聯(lián)網(wǎng)絡(luò)。傳統(tǒng)的網(wǎng)絡(luò)異常行為分析采用的是在單個身份域內(nèi)進(jìn)行分析的方式,沒有考慮到由于系統(tǒng)條件、用戶背景或者用戶活躍平臺等屬性的變化而導(dǎo)致的行為變化所帶來的誤差。而現(xiàn)有的單域用戶異常行為分析模型不能很好的對多元化的用戶異常行為進(jìn)行分析,因此易漏報(bào)異常行為與異常用戶。同時,現(xiàn)有的跨域用戶行為關(guān)聯(lián)分析研究更多的集中在用戶推薦領(lǐng)域[1],對跨域關(guān)聯(lián)用戶進(jìn)行異常分析的研究少之又少。
隨著多域平臺的深層次合作以及用戶在各個平臺活動的多元化,對跨域網(wǎng)絡(luò)行為數(shù)據(jù)的挖掘與分析得到了廣大學(xué)者的研究。Xusong Chen[2]等人提出了一個注意力領(lǐng)域轉(zhuǎn)移網(wǎng)絡(luò),通過產(chǎn)品域的個性化推薦方法來解決storytelling 域的用戶偏好預(yù)測問題,彌補(bǔ)了storytelling 與產(chǎn)品描述之間存在巨大差異這一缺陷,同時提出了一種雙域?qū)Ρ葘箤W(xué)習(xí)方法,共同對storytelling 和產(chǎn)品的特征提取器進(jìn)行預(yù)訓(xùn)練。Xiujuan Wang[3]等人在單個社交網(wǎng)絡(luò)域中提出了一種名為“Hurst of Interest Distribution”的異常用戶檢測方法,利用文本主題特征以檢測異常賬戶。YeTao[4]等人在跨域用戶行為分析模型中引入了多維語義活動空間的概念,其中用戶行為特征被合并并表示為組合向量。通過挖掘從相應(yīng)域中不同子系統(tǒng)的日志文件中提取的操作數(shù)據(jù)來發(fā)現(xiàn)用戶行為模式。他們的實(shí)驗(yàn)結(jié)果表明,其所提出的方法可用于揭示跨域用戶典型行為方面的變化,如資源訪問、操作任務(wù)、性能評估等模式。Hanfei Wang[5]等人為關(guān)聯(lián)不同域用戶個性特征提出了一種新的框架,該框架側(cè)重于研究缺乏用戶個人特征信息的目標(biāo)域。該文章定義了跨身份域人格特征分類問題,利用預(yù)測性文本嵌入方法作為從源到目標(biāo)域遷移學(xué)習(xí)的方法,以半監(jiān)督的方式訓(xùn)練模型、預(yù)測結(jié)果。其大量實(shí)驗(yàn)表明,跨域遷移學(xué)習(xí)可以更準(zhǔn)確地識別用戶的個性特征,從而提高關(guān)聯(lián)性能。
為了對多個身份域中用戶行為進(jìn)行關(guān)聯(lián)分析,并識別異常用戶,本文提出一種跨域用戶行為關(guān)聯(lián)分析及異常識別系統(tǒng),并詳細(xì)闡述了跨域用戶行為關(guān)聯(lián)分析及異常識別的系統(tǒng)架構(gòu),數(shù)據(jù)處理過程、特征提取過程以及輸出格式要求,在跨域用戶行為關(guān)聯(lián)分析及異常識別系統(tǒng)中對系統(tǒng)功能進(jìn)行驗(yàn)證。
本文設(shè)計(jì)了一種支持億級實(shí)體數(shù)據(jù)的跨多域行為關(guān)聯(lián)與分析系統(tǒng),系統(tǒng)首先對從不同域獲得的用戶身份屬性特征進(jìn)行篩選,其次對其行為特征進(jìn)行篩選,數(shù)據(jù)特征預(yù)處理,并把處理好的數(shù)據(jù)存入數(shù)據(jù)庫以便調(diào)用,最后通過對跨域用戶行為序列的挖掘與識別進(jìn)而建立用戶行為關(guān)聯(lián)模型以及跨域異常行為識別模型,完成對用戶的關(guān)聯(lián)以及跨域異常用戶的判斷與識別。系統(tǒng)架構(gòu)如圖1 所示。
圖1:系統(tǒng)架構(gòu)
跨身份域用戶行為數(shù)據(jù)關(guān)聯(lián)分析模塊結(jié)構(gòu)如圖2 所示。
圖2:跨域用戶行為數(shù)據(jù)關(guān)聯(lián)分析模塊結(jié)構(gòu)圖
該結(jié)構(gòu)主要包含用戶行為數(shù)據(jù)特征提取部分、跨域用戶行為序列身份關(guān)聯(lián)部分、異常用戶行為分析部分以及數(shù)據(jù)可視化部分。
實(shí)體行為數(shù)據(jù)特征提取部分對多來源、多維度、多類型及形態(tài)多變、分布零散、屬性復(fù)雜的數(shù)據(jù)進(jìn)行特征提取,獲取文本、圖像視覺、時間、空間等維度的實(shí)體特征,為跨域?qū)嶓w行為數(shù)據(jù)身份關(guān)聯(lián)部分、跨域?qū)嶓w行為數(shù)據(jù)關(guān)聯(lián)分析部分提供特征數(shù)據(jù)。
該模塊研究實(shí)體屬性信息、實(shí)體生成內(nèi)容和實(shí)體關(guān)系信息以分類實(shí)體行為。研究實(shí)體行為數(shù)據(jù)特征提取方法,從大量原始且具有冗余性的信息中提取最核心的、最具代表性的信息,并轉(zhuǎn)化成可進(jìn)一步分析處理的特征數(shù)據(jù)。
多域的數(shù)據(jù)集從不同的平臺采集而來,比如微博、豆瓣、知乎、各大論壇等多個平臺。不同平臺的數(shù)據(jù)存在巨大的差異,微博數(shù)據(jù)文本短而知乎數(shù)據(jù)文本長;微博關(guān)注的是熱點(diǎn),知乎關(guān)注的是問題;不同域論壇的數(shù)據(jù)也有很大差異,看雪論壇的重點(diǎn)在安全,而雪球論壇的重點(diǎn)在股票。
為了更高效的使用跨域數(shù)據(jù),要對其進(jìn)行一系列預(yù)處理,將數(shù)據(jù)轉(zhuǎn)換為有效數(shù)據(jù)。數(shù)據(jù)預(yù)處理的過程包括數(shù)據(jù)清洗、特征提取、行為主題提取、數(shù)據(jù)對齊、地理位置轉(zhuǎn)換。
經(jīng)過數(shù)據(jù)清洗,實(shí)體行為信息去除掉部分冗余的行為信息,但是直接將原始數(shù)據(jù)作為輸入進(jìn)行分析的效率和效果較差,數(shù)據(jù)難以處理且各特征的權(quán)重難以調(diào)整。需要先提取最核心的,最具代表性的信息,再進(jìn)行歸一化的描述和處理。
針對文本特征的提取方法包括文本預(yù)處理、文本表示、特征提取三個步驟。文本預(yù)處理主要分為文本分詞和停用詞過濾兩個方面。文本表示指將文本轉(zhuǎn)化為更容易讓計(jì)算機(jī)識別的信息的過程,即對文本進(jìn)行形式化處理。其中,特征項(xiàng)可以表達(dá)文本概念,并且包含一個獨(dú)有的權(quán)重。文本就是利用這些特征項(xiàng)來表示文本概念。
圖像視覺特征復(fù)雜多樣,其特征提取是分析用戶行為的重要操作,特征提取的質(zhì)量對最終判斷效果有較大影響。常用的圖像特征有顏色特征、紋理特征、形狀特征、空間關(guān)系特征。對于不同的特征使用不同的特征提取方法,針對不同的圖像,組合不同的特征提取方法進(jìn)行圖像特征提取。
針對社交網(wǎng)絡(luò),特征提取方法分為基于用戶屬性信息的特征提取、基于用戶生成內(nèi)容的特征提取、基于行為軌跡的特征提取、基于結(jié)構(gòu)關(guān)系的特征提取四個方面。
實(shí)體行為數(shù)據(jù)特征提取為跨域?qū)嶓w行為數(shù)據(jù)身份關(guān)聯(lián)部分、跨域?qū)嶓w行為數(shù)據(jù)關(guān)聯(lián)分析部分提供特征數(shù)據(jù)。
實(shí)體行為在時序上變化規(guī)律復(fù)雜多變,跨時空實(shí)體行為刻畫也十分困難。研究跨域?qū)嶓w行為模式關(guān)聯(lián)分析技術(shù),從實(shí)體行為空間、時間及屬性等復(fù)雜行為特征中有效梳理、歸納和刻畫實(shí)體行為模式,結(jié)合行為特征聚類、用戶行為融合等方法,構(gòu)建多粒度網(wǎng)絡(luò)實(shí)體行為關(guān)聯(lián)分析模型。
跨域?qū)嶓w特征關(guān)聯(lián)圖的嵌入利用表示學(xué)習(xí)方法,通過學(xué)習(xí)跨域?qū)嶓w特征關(guān)聯(lián)圖中的節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系,將節(jié)點(diǎn)在低維潛在空間中進(jìn)行表示。用戶行為嵌入將不同域中用戶的行為作為用戶行為對象,通過異構(gòu)信息網(wǎng)絡(luò)的頂點(diǎn)嵌入方法為每個用戶行為生成一個向量。
每個用戶行為得到一個固定維度的向量表示后,根據(jù)用戶行為時間分布,選取一個合適的時間間隔作為用戶行為序列采樣時間窗口,將這個時間窗口內(nèi)的用戶行為作為一個用戶行為序列。對于生成的不等長用戶行為序列,在不影響模型結(jié)果的前提下利用對齊方法使每一條序列與最長用戶行為序列長度對齊。
將得到的用戶行為序列進(jìn)行聚類,使得每個實(shí)體身份對應(yīng)一類標(biāo)簽,同類別的實(shí)體對象表示關(guān)聯(lián)。在實(shí)體對象關(guān)聯(lián)的基礎(chǔ)上,計(jì)算用戶關(guān)聯(lián)系數(shù),得到相關(guān)聯(lián)的用戶。
通過對多域數(shù)據(jù)集進(jìn)行預(yù)處理、特征提取后,對提取特征后的數(shù)據(jù)進(jìn)行用戶行為序列的關(guān)聯(lián),通過調(diào)參使得關(guān)聯(lián)后的序列能有效刻畫實(shí)體行為模式。對關(guān)聯(lián)實(shí)體行為得到的數(shù)據(jù)使用異常分析模型進(jìn)行訓(xùn)練,調(diào)參使得異常行為關(guān)聯(lián)識別模型達(dá)到較優(yōu)的準(zhǔn)確率。異常行為識別架構(gòu)如圖3 所示。
圖3:異常行為識別
異常行為關(guān)聯(lián)識別主要是對可能的異常實(shí)體進(jìn)行特征提取,對跨域系統(tǒng)中不同身份的異常實(shí)體行為進(jìn)行關(guān)聯(lián)并判斷其異常類型。
本系統(tǒng)的原理系統(tǒng)使用服務(wù)器進(jìn)行部署實(shí)現(xiàn)并進(jìn)行驗(yàn)證,操作系統(tǒng)為Centos-7。服務(wù)器內(nèi)核數(shù)量為16 個,內(nèi)存配置為32G,磁盤大小為512G。使用pycharm 和vscode作為開發(fā)工具,使用python3.6.9 作為編程語言。系統(tǒng)使用flask 框架進(jìn)行web 網(wǎng)站搭建,使用VUE 框架進(jìn)行前端開發(fā),使用restful 風(fēng)格進(jìn)行資源請求,使用json 格式進(jìn)行數(shù)據(jù)交流。
跨域?qū)嶓w行為數(shù)據(jù)關(guān)聯(lián)模型對多來源、多維度、多類型及形態(tài)多變、分布零散、屬性復(fù)雜數(shù)據(jù)間對內(nèi)在關(guān)聯(lián)關(guān)系進(jìn)行分析處理。經(jīng)跨域?qū)嶓w行為數(shù)據(jù)關(guān)聯(lián)分析,跨域行為關(guān)聯(lián)序列結(jié)果如表1 所示。在行為序列關(guān)聯(lián)的基礎(chǔ)上關(guān)聯(lián)用戶,系統(tǒng)展示如圖4 和圖5 所示。
圖4:用戶關(guān)聯(lián)數(shù)展示
圖5:用戶關(guān)聯(lián)強(qiáng)度展示
表1:跨域行為關(guān)聯(lián)序列結(jié)果
跨域?qū)嶓w行為關(guān)聯(lián)分析目的就是異常行為的關(guān)聯(lián)識別,通過異常識別模型的訓(xùn)練及構(gòu)建,對測試的數(shù)據(jù)進(jìn)行異常行為關(guān)聯(lián)識別。異常行為識別結(jié)果如表2 所示,系統(tǒng)展示結(jié)果如圖6 所示。
表2:異常行為識別結(jié)果
圖6:異常識別
針對100 個身份管理系統(tǒng)億級行為數(shù)據(jù)規(guī)模的場景下形態(tài)多樣、類型復(fù)雜的異構(gòu)數(shù)據(jù),結(jié)合實(shí)體行為數(shù)據(jù)特征提取與實(shí)體身份關(guān)聯(lián)方法,設(shè)計(jì)了跨域?qū)嶓w行為數(shù)據(jù)關(guān)聯(lián)模型,實(shí)現(xiàn)對多來源、多維度、多類型及形態(tài)多變、分布零散、屬性復(fù)雜數(shù)據(jù)間對內(nèi)在關(guān)聯(lián)關(guān)系進(jìn)行綜合表達(dá)。在關(guān)聯(lián)模型的基礎(chǔ)上,結(jié)合圖的嵌入表示、關(guān)聯(lián)強(qiáng)度計(jì)算等方法,實(shí)現(xiàn)了實(shí)體行為序列關(guān)聯(lián)分析模塊,在多源異構(gòu)數(shù)據(jù)場景下,實(shí)體行為的異常識別也達(dá)到了較好的效果。