丁景全 馬博 李曉
摘 要:車輛加油時(shí)空數(shù)據(jù)多源異構(gòu)、關(guān)系復(fù)雜,現(xiàn)有成熟的異常檢測(cè)方法難以對(duì)時(shí)空離散的加油活動(dòng)數(shù)據(jù)進(jìn)行分析,因此提出基于融合時(shí)空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測(cè)框架。首先基于統(tǒng)一概念模型(UCM)對(duì)靜態(tài)信息和動(dòng)態(tài)活動(dòng)數(shù)據(jù)進(jìn)行關(guān)聯(lián)融合管理,然后從空間視圖、時(shí)間視圖和語(yǔ)義視圖角度對(duì)時(shí)空數(shù)據(jù)進(jìn)行編碼和轉(zhuǎn)換,最后基于三種視圖構(gòu)建深度時(shí)空異常分析檢測(cè)框架。車輛加油時(shí)空數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,多種異常檢測(cè)方法在融合時(shí)空數(shù)據(jù)上均可取得更低均方根誤差(RMSE),平均降低10.73%,所提方法比現(xiàn)有主流方法中結(jié)果最好的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的RMSE降低19.36%。在信用卡欺詐公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提方法較之邏輯回歸模型,馬修斯系數(shù)(MCC)提高了32.78%。以上實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。
關(guān)鍵詞:時(shí)空數(shù)據(jù);車輛加油;數(shù)據(jù)融合;異常檢測(cè);深度學(xué)習(xí)
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
Multiview deep anomaly detection framework for
vehicle refueling behaviors based on spatiotemporal data fusion
DING Jingquan1,2, MA Bo1,2,3*, LI Xiao1,2,3
1.The Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Sciences, Urumqi Xinjiang 830011, China;
2.University of Chinese Academy of Sciences, Beijing 100049, China;
3.Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi Xinjiang 830011, China
Abstract:
The multisource heterogeneity and complicated relationships of spatiotemporal data of vehicle refueling bring great challenges to existing anomaly detection approaches. Aiming at the problem, a multiview deep anomaly detection framework for vehicle refueling based on spatiotemporal data fusion was proposed. Firstly, the static information and dynamic activity data were correlated, fused and managed based on Unified Conceptual Model (UCM). Secondly, the spatiotemporal data were encoded and converted according to spatial view, temporal view and semantic view. Finally, a deep anomaly detection framework was constructed based on the above multiviews. The experimental results on vehicle refueling spatiotemporal dataset show that all anomaly detection approaches tested can achieve an average decrease in the Root Mean Square Error (RMSE) by 10.73%, and the proposed multiview spatiotemporal anomaly detection framework can obtain a decrease in the RMSE by 19.36% compared to LSTM (Long ShortTerm Memory), which gets the best results in thestateoftheart methods. And the Matthews Correlation Coefficient (MCC) of the proposed method on the credit card fraud dataset is increased by 32.78% compared with that of Logistic Regression model. All experimental results demonstrate the effectiveness of the proposed anomaly detection framework.
Key words:
spatiotemporal data; vehicle refueling; data fusion; anomaly detection; deep learning
0?引言
異常檢測(cè)是指從數(shù)據(jù)中找出不符合期望預(yù)期模式的問(wèn)題,這些不相容的模式在不同的應(yīng)用領(lǐng)域中有著差異性的稱呼,如:異常(Anomalies)、離群點(diǎn)(Outliers)、不一致觀察(Discordant observations)、例外(Exceptions)、偏差(Aberrations)等,其中,異常和離群點(diǎn)使用最為廣泛,有時(shí)也可交替使用[1]。異常檢測(cè)在真實(shí)場(chǎng)景下有著廣泛的應(yīng)用,如金融領(lǐng)域的欺詐檢測(cè)、網(wǎng)絡(luò)安全中的入侵檢測(cè)、工業(yè)生產(chǎn)領(lǐng)域的缺陷檢測(cè)、動(dòng)態(tài)網(wǎng)絡(luò)中的事件檢測(cè)以及視頻中的活動(dòng)監(jiān)控等[2-8]。
時(shí)空異常檢測(cè)屬于異常檢測(cè)的子領(lǐng)域,目的是從一個(gè)連續(xù)時(shí)空范圍內(nèi)的活動(dòng)中,挖掘出不符合期望預(yù)期的各種模式。與單純的時(shí)間序列異常檢測(cè)不同,除了考慮時(shí)間的周期性和趨勢(shì)線之外,還需將空間的距離和空間的層次放在同一個(gè)框架內(nèi)進(jìn)行度量和計(jì)算。
具體到加油領(lǐng)域,時(shí)空異常是指在一定地域范圍內(nèi)不間斷的加油活動(dòng)中,偶發(fā)的、可疑的、不同于常規(guī)規(guī)律的可能對(duì)安全穩(wěn)定造成潛在威脅的加油行為。如同一輛車在短時(shí)間內(nèi)多次加油或同一個(gè)人在短時(shí)間內(nèi)多次購(gòu)買散裝油,均可能蘊(yùn)含著潛在威脅。因此,亟須開展車輛加油領(lǐng)域的時(shí)空異常檢測(cè)分析研究。該問(wèn)題主要面臨如下幾個(gè)方面的難點(diǎn):
1)加油異常難定義、難標(biāo)注、正負(fù)例數(shù)據(jù)嚴(yán)重不均衡;
2)加油數(shù)據(jù)地域分布離散、廣泛,具有數(shù)據(jù)多源異構(gòu)性和物理空間離散性,難以直接用于異常檢測(cè)分析;
3)由于數(shù)據(jù)本身的時(shí)空粒度多變性特征,難以通過(guò)單一技術(shù)框架進(jìn)行分析處理。
針對(duì)上述問(wèn)題,本文提出了基于融合時(shí)空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測(cè)框架,工作主要包括3個(gè)部分:1)基于自主構(gòu)建的統(tǒng)一概念模型,對(duì)加油時(shí)空多源異構(gòu)數(shù)據(jù)進(jìn)行關(guān)聯(lián)和融合;2)從空間視圖、時(shí)間視圖和語(yǔ)義視圖三個(gè)視角,對(duì)時(shí)空加油數(shù)據(jù)進(jìn)行特征抽取;3)通過(guò)統(tǒng)一的深度學(xué)習(xí)框架,將上述多種視圖通過(guò)統(tǒng)一的深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,實(shí)現(xiàn)加油時(shí)空數(shù)據(jù)的異常檢測(cè)。圖1為本文方法的總體流程, 其中CNN表示卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)、LSTM表示長(zhǎng)短時(shí)記憶(Long ShortTerm Memory)、GCN表示圖卷積網(wǎng)絡(luò)(Graph Convolutional Network)。
1?相關(guān)工作
由于加油領(lǐng)域數(shù)據(jù)的特殊性和敏感性,文獻(xiàn)中鮮見相關(guān)研究。Fujimaki等[9]針對(duì)航天飛船故障難以建模的問(wèn)題,提出只針對(duì)正常數(shù)據(jù)進(jìn)行建模,再去檢測(cè)測(cè)試集中異常的方案;文獻(xiàn)[10-11]通過(guò)半監(jiān)督方法,利用大量的未標(biāo)注數(shù)據(jù)和少量的標(biāo)注數(shù)據(jù)構(gòu)建分類器,從而更好地解決特定的異常檢測(cè)問(wèn)題。上述方法處理真實(shí)場(chǎng)景下異常檢測(cè)問(wèn)題的思路可以給我們帶來(lái)一定的借鑒意義,但也存在一定的局限性。首先,上述方法雖能在一定程度上解決異常定義和發(fā)現(xiàn)的問(wèn)題,但同樣也會(huì)帶來(lái)假異常率居高不下的副作用;其次,上述方法主要針對(duì)時(shí)序數(shù)據(jù)進(jìn)行處理,未提出對(duì)時(shí)空數(shù)據(jù)進(jìn)行有效分析的方案。因此如何有效地定義和發(fā)現(xiàn)時(shí)空異常成為了異常檢測(cè)領(lǐng)域的一個(gè)研究難點(diǎn)。
再者,加油信息在物理空間以人、車、加油站相關(guān)的多元形態(tài)(時(shí)序數(shù)據(jù)、空間數(shù)據(jù)、圖像數(shù)據(jù)、天氣數(shù)據(jù)等)呈現(xiàn),具有數(shù)據(jù)多源異構(gòu)性、物理空間離散性和時(shí)空粒度多變性的特征,需要對(duì)離散、多模態(tài)的異構(gòu)時(shí)空數(shù)據(jù)進(jìn)行融合分析。目前數(shù)據(jù)融合的方法在解決某一具體問(wèn)題時(shí),往往需要考慮多種來(lái)源、多種模態(tài)的數(shù)據(jù),且臨時(shí)對(duì)數(shù)據(jù)集合進(jìn)行組裝的處理方式難以復(fù)用。數(shù)據(jù)庫(kù)領(lǐng)域的研究多采用模式映射的數(shù)據(jù)集成方法[12-13],對(duì)多源數(shù)據(jù)進(jìn)行融合;在機(jī)器學(xué)習(xí)和人工智能領(lǐng)域,研究者則采用了知識(shí)圖譜和概念模型的方式對(duì)知識(shí)進(jìn)行關(guān)聯(lián)和融合[14]。無(wú)論是傳統(tǒng)的數(shù)據(jù)集成方法還是較新的知識(shí)圖譜方法,均是對(duì)靜態(tài)的數(shù)據(jù)和知識(shí)進(jìn)行組織,如何對(duì)動(dòng)態(tài)數(shù)據(jù)和知識(shí)進(jìn)行管理以及如何對(duì)融合數(shù)據(jù)的多維特征進(jìn)行表示尚無(wú)成熟的解決方案。
在時(shí)空異常分析與檢測(cè)方面,目前不同的技術(shù)或算法大多仍聚焦于較為單一的數(shù)據(jù)類型和業(yè)務(wù)特點(diǎn),并不具備較好的遷移性,當(dāng)將這些方法用于處理加油領(lǐng)域數(shù)據(jù)時(shí)都具有技術(shù)上的偏向性或缺陷:Zhang等[15]針對(duì)時(shí)空數(shù)據(jù)的獨(dú)特屬性設(shè)計(jì)了一種端到端的深度學(xué)習(xí)框架,并用于交通流量預(yù)測(cè);Cheng等[16]的研究表明,通過(guò)綜合使用空氣質(zhì)量監(jiān)測(cè)站、興趣點(diǎn)(Point Of Interest, POI)、路網(wǎng)等多模態(tài)數(shù)據(jù)并配合注意力(Attention)機(jī)制,可以提升城市空氣質(zhì)量預(yù)測(cè)效果。雖然上述研究針對(duì)不同時(shí)空數(shù)據(jù)分析應(yīng)用場(chǎng)景提出了具體的解決方法,但在如何應(yīng)對(duì)復(fù)雜應(yīng)用場(chǎng)景下的多源異構(gòu)時(shí)空數(shù)據(jù)異常分析與檢測(cè)方面,尚待開展進(jìn)一步的研究。
由上述分析可看出,對(duì)于面向?qū)嶋H應(yīng)用的異常檢測(cè)問(wèn)題,往往需要具體問(wèn)題具體分析,且由于數(shù)據(jù)模態(tài)的差異性和數(shù)據(jù)來(lái)源的多樣性,難以通過(guò)一種模型或框架進(jìn)行分析處理?;诖?,本文提出了一種基于融合時(shí)空數(shù)據(jù)的車輛加油行為多視圖深度異常檢測(cè)框架。首先,對(duì)涉及多種模態(tài)的加油行為數(shù)據(jù)進(jìn)行關(guān)聯(lián)和融合,從而將同一對(duì)象(加油車或加油人)來(lái)自不同加油站的所有加油行為在時(shí)間和空間維度上進(jìn)行合并;然后,分別通過(guò)空間視圖、時(shí)間視圖和語(yǔ)義視圖對(duì)不同模態(tài)的特征進(jìn)行處理,并通過(guò)注意力池化層對(duì)各個(gè)視圖的特征進(jìn)行融合;最終,實(shí)現(xiàn)提升加油異常行為檢測(cè)準(zhǔn)確率的目標(biāo)。
2?基于統(tǒng)一概念模型的時(shí)空數(shù)據(jù)融合建模
為了有效解決跨領(lǐng)域、跨系統(tǒng)的數(shù)據(jù)重用和共享問(wèn)題,本文采用了一種形式化和可重用的數(shù)據(jù)表示方式,對(duì)數(shù)據(jù)模型和數(shù)據(jù)間的關(guān)聯(lián)關(guān)系進(jìn)行管理,從而形成數(shù)據(jù)網(wǎng)絡(luò)以實(shí)現(xiàn)融合與共享。數(shù)據(jù)融合建模過(guò)程主要包括統(tǒng)一概念模型(Unified Conceptual Model, UCM)的構(gòu)建與生成、以及圖實(shí)例數(shù)據(jù)的自動(dòng)轉(zhuǎn)換。
2.1?統(tǒng)一概念模型構(gòu)建
在車輛加油業(yè)務(wù)領(lǐng)域中,人、車輛、加油站之間存在大量的關(guān)系和活動(dòng)?;趫D數(shù)據(jù)(Graph Data)的表達(dá)能力和現(xiàn)實(shí)世界的事物規(guī)律,首先構(gòu)建由概念(Concepts)、屬性(Properties)、關(guān)系(Relations)、活動(dòng)(Activities)、實(shí)例(Instances)五要素構(gòu)成的五元組元數(shù)據(jù)模型,再建立多源異構(gòu)數(shù)據(jù)與該元數(shù)據(jù)模型的映射模型,從而完成多源異構(gòu)數(shù)據(jù)到圖數(shù)據(jù)的統(tǒng)一映射過(guò)程。概念對(duì)應(yīng)現(xiàn)實(shí)世界中的事物抽象,并包含時(shí)空屬性;實(shí)例是概念的具體對(duì)象;關(guān)系用于建模現(xiàn)實(shí)世界對(duì)象間的顯式關(guān)聯(lián)與隱式關(guān)聯(lián);實(shí)例在時(shí)空維度上的變化則通過(guò)活動(dòng)進(jìn)行表示。概念、實(shí)例、關(guān)系、活動(dòng)均可包含多個(gè)屬性。
由底層數(shù)據(jù)到五元組元數(shù)據(jù)模型的映射如圖2所示。
基于統(tǒng)一的概念知識(shí)表示,開放動(dòng)態(tài)環(huán)境下的概念模型構(gòu)建將采用主動(dòng)學(xué)習(xí)(Active Learning)的方式,結(jié)合領(lǐng)域?qū)<抑R(shí)和人機(jī)交互反饋,通過(guò)自頂向下和自底向上的混合模式融合跨領(lǐng)域多源數(shù)據(jù),實(shí)現(xiàn)統(tǒng)一概念模型的構(gòu)建和動(dòng)態(tài)擴(kuò)充。主要流程如圖3所示。
2.2?圖實(shí)例數(shù)據(jù)自動(dòng)轉(zhuǎn)換
以統(tǒng)一概念模型作為數(shù)據(jù)抽取與轉(zhuǎn)換依據(jù),每條待融合的新數(shù)據(jù)首先轉(zhuǎn)換為一項(xiàng)圖數(shù)據(jù)實(shí)例,通過(guò)將數(shù)據(jù)的原始來(lái)源和唯一標(biāo)識(shí)符信息作為元數(shù)據(jù)屬性進(jìn)行存儲(chǔ),從而保證數(shù)據(jù)的可追溯性。對(duì)于每項(xiàng)實(shí)例數(shù)據(jù),都需要融合到已存在的實(shí)例圖中,借鑒實(shí)體鏈接的思想,將每項(xiàng)待融合的數(shù)據(jù)看作一個(gè)識(shí)別到的新實(shí)體,將已存在的圖實(shí)例數(shù)據(jù)作為知識(shí)庫(kù),通過(guò)改進(jìn)的候選實(shí)體(Candidate Entities)排序算法進(jìn)行實(shí)體鏈接操作,進(jìn)而完成數(shù)據(jù)關(guān)聯(lián)與融合過(guò)程,如圖4所示。
候選實(shí)體排序方面,采用多特征融合的方法進(jìn)行。具體選取的特征包括本地特征(local Similarity, lSim),上下文特征(contextual Similarity, cSim)和全局特征(Global Similarity, coh)。
本地特征采用分布式詞向量word2vec進(jìn)行表示,通過(guò)抽取待融合數(shù)據(jù)節(jié)點(diǎn)及其屬性的文本內(nèi)容,訓(xùn)練詞嵌入模型,作為實(shí)體排序的第一個(gè)打分項(xiàng)。
對(duì)于上下文特征,采用嵌入主題模型lda2vec來(lái)進(jìn)行表示。主題模型可以對(duì)文檔的潛在語(yǔ)義和主題進(jìn)行有效建模,而詞向量技術(shù)可以對(duì)上下文信息進(jìn)行有效建模,因此將二者結(jié)合,既考慮到了上下文信息,又兼顧到本地信息。為了對(duì)上下文特征進(jìn)行建模,首先定義一個(gè)目標(biāo)函數(shù):
L=∑ ijLnegij(1)
其中,Lnegij表示word2vec中的負(fù)采樣方法,負(fù)采樣如式(2)所示:
Lnegij=lbσ(cj·wi)+∑nl=0lbσ(-cj·wl)(2)
其中:cj表示上下文向量,wi表示目標(biāo)詞匯的詞向量,wl表示負(fù)采樣詞匯的詞向量。
對(duì)于全局特征,采用一種基于圖的方法進(jìn)行刻畫,其中s和e表示需要計(jì)算相似度的一對(duì)節(jié)點(diǎn),CONTRe(m,c)表示所有對(duì)相似度計(jì)算起到貢獻(xiàn)作用的節(jié)點(diǎn)集合。
cohs(e)=cSim(s→e)·lSim(s) (3)
CONTRe(m,c)=
{(m′,arg maxc coh(m′,c)(e))∈V,m′≠m}(4)
coh(e)=∑s∈CONTRe(m,c)cohs(e)(5)
這樣最終的打分以及實(shí)體選取和消歧過(guò)程通過(guò)式(6)、(7)計(jì)算得到:
score(e)=coh(e)+cSimavg·lSim(e)(6)
disambiguation(m)=argmaxc∈Cm score(m,c)(7)
3?多視圖深度時(shí)空異常檢測(cè)框架
完整的加油活動(dòng)涉及多種類型的數(shù)據(jù),包括人、車輛、加油站的基本信息、前端設(shè)備采集的圖像、加油活動(dòng)自身產(chǎn)生的時(shí)序數(shù)據(jù)和空間軌跡數(shù)據(jù),以及外部因素?cái)?shù)據(jù)如天氣、節(jié)假日等?,F(xiàn)有的異常檢測(cè)方法大多只適用于上述數(shù)據(jù)中的某一種類型,很難對(duì)加油活動(dòng)所涉及的全部數(shù)據(jù)進(jìn)行分析處理。
進(jìn)一步的業(yè)務(wù)分析可以發(fā)現(xiàn),上述數(shù)據(jù)可分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)兩類。在本文的研究中,將人、車輛、加油站的基本信息、前端設(shè)備采集的圖像等數(shù)據(jù)歸類為靜態(tài)知識(shí)型數(shù)據(jù);將加油活動(dòng)產(chǎn)生的時(shí)序數(shù)據(jù)和空間軌跡數(shù)據(jù),以及外部因素?cái)?shù)據(jù)如天氣、節(jié)假日等數(shù)據(jù)歸類為動(dòng)態(tài)活動(dòng)數(shù)據(jù)。對(duì)于靜態(tài)知識(shí)型數(shù)據(jù),通過(guò)前述的數(shù)據(jù)融合治理和聯(lián)合嵌入表示學(xué)習(xí)兩種技術(shù)手段,可預(yù)期達(dá)到歸一化和低維數(shù)值化的效果并可用于后續(xù)計(jì)算。對(duì)于動(dòng)態(tài)活動(dòng)數(shù)據(jù),構(gòu)建一種基于多視圖的深度時(shí)空異常檢測(cè)模型框架,將時(shí)序數(shù)據(jù)、空間軌跡數(shù)據(jù)連同靜態(tài)數(shù)據(jù)一起作為模型的輸入,來(lái)判斷模型的輸出是否為異常。具體地,將上述數(shù)據(jù)劃分到3個(gè)視圖,分別是空間視圖(Spatial View)、時(shí)間視圖(Temporal View)和語(yǔ)義視圖(Semantic View),整個(gè)框架的算法流程如下所示。
算法1?基于數(shù)據(jù)融合的時(shí)空異常檢測(cè)框架訓(xùn)練過(guò)程。
輸入?來(lái)自不同加油站的原始數(shù)據(jù); 領(lǐng)域?qū)<逸o助知識(shí)輸入;天氣、興趣點(diǎn)、路網(wǎng)等外部數(shù)據(jù);
輸出?訓(xùn)練好的時(shí)空異常檢測(cè)框架。
程序前
// 構(gòu)建統(tǒng)一概念模型
1)
結(jié)合領(lǐng)域?qū)<抑R(shí), 構(gòu)建UCM//基于UCM進(jìn)行數(shù)據(jù)融合
2)
forS(1≤S≤N) stations
3)
for refueling recordsrin station Sn
4)
run Graphbased Entity Linking
5)
end
6)
end//融合完成的基于圖結(jié)構(gòu)的加油數(shù)據(jù)集
7)
D ←
8)
forobjecti(a vehicle or a person) do
9)
apply CNN to learn spatial features//抽取空間視圖特征
10)
apply GCN to learn semantic features//抽取語(yǔ)義視圖特征
11)
for 1≤t≤T do
12)
apply LSTM to learn temporal features
//抽取時(shí)間視圖特征將三種視圖進(jìn)行組合
13)
combine the latent features by attention pooling layer for time t
14)
put an training instance into D
15)
end
16)
end
17)
initialize all learnable parameters θ in the framework
18)
repeat
19)
randomly select a batch of instances Db from D
20)
find θ by minimizing the objective with Db
21)
until stopping criteria is met
程序后
空間視圖?處理加油活動(dòng)中產(chǎn)生的空間軌跡數(shù)據(jù)。首先對(duì)軌跡圖像進(jìn)行CNN卷積操作,降低處理維度,抽取關(guān)鍵特征,然后再對(duì)卷積后的輸出進(jìn)行全連接作為空間視圖的輸出。
具體地,對(duì)于一個(gè)圖像Yit∈RS×S×1,CNN卷積模塊會(huì)將其作為輸入Yi,0t送入K個(gè)卷積層處理:
Yi,kt=f(Yi,k-1t*Wkt+bkt)(8)
其中,Wkt和bkt是CNN模塊中待訓(xùn)練的兩組權(quán)重和偏置參數(shù),經(jīng)過(guò)K層卷積后,通過(guò)flatten層將輸出Yi,kt∈RS×S×λ轉(zhuǎn)換為向量sit∈RS2λ,最后通過(guò)全連接層壓縮sit的維度,輸出Spait。
時(shí)間視圖?處理加油活動(dòng)中產(chǎn)生的時(shí)序數(shù)據(jù)和天氣等外部數(shù)據(jù)。首先將空間視圖輸出、時(shí)序數(shù)據(jù)和外部數(shù)據(jù)拼接組成一組時(shí)序輸入送入LSTM卷積神經(jīng)網(wǎng)絡(luò),時(shí)間視圖的輸出是模型判斷的下一時(shí)刻的狀態(tài)。
語(yǔ)義視圖?處理加油活動(dòng)涉及的人、車輛、加油站信息和圖像等靜態(tài)數(shù)據(jù)。首先從融合數(shù)據(jù)中提取人、車輛、加油站的基礎(chǔ)信息及對(duì)應(yīng)的關(guān)聯(lián)關(guān)系,然后將靜態(tài)數(shù)據(jù)轉(zhuǎn)換為一組低維向量表示的形式,用于后續(xù)處理,如圖5所示。
其中,靜態(tài)數(shù)據(jù)的表現(xiàn)形式是以圖(Graph)結(jié)構(gòu)存儲(chǔ)的融合數(shù)據(jù),具體地,圖嵌入表示主要通過(guò)圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)實(shí)現(xiàn),將圖G=(V,E)作為輸入,目的是通過(guò)圖卷積網(wǎng)絡(luò)學(xué)習(xí)得到圖中節(jié)點(diǎn)的特征表示。對(duì)于每個(gè)節(jié)點(diǎn)i,特征表示為xi,則所有節(jié)點(diǎn)可以組成一個(gè)N×D的特征矩陣X(N是節(jié)點(diǎn)的數(shù)量,D是特征的數(shù)量)。對(duì)于圖的結(jié)構(gòu),則可以通過(guò)鄰接矩陣A表示。模型的輸出表示為Z,是N×F的特征矩陣,F(xiàn)表示輸出層每個(gè)節(jié)點(diǎn)特征的數(shù)量。
每層神經(jīng)網(wǎng)絡(luò)進(jìn)而可以通過(guò)下述非線性變換得到:
H(l+1)=f(H(l),A) (9)
其中:H(0)=X,H(L)=Z,L是GCN中層的數(shù)量。一個(gè)簡(jiǎn)單的f(·)形式如下:
f(H(l),A)=σ(AH(l)W(l))(10)
其中:W(l)表示神經(jīng)網(wǎng)絡(luò)中l(wèi)層的權(quán)重矩陣,σ(·)表示非線性激活函數(shù),如ReLU(Rectified Linear Unit)。
模型會(huì)將時(shí)間視圖和語(yǔ)義視圖的輸出進(jìn)行拼接,并再次通過(guò)注意力池化層進(jìn)行權(quán)重計(jì)算,生成一組輸出后送入損失函數(shù),從而完成深度時(shí)空異常檢測(cè)框架的訓(xùn)練過(guò)程,損失函數(shù)的定義采用如下形式:
L(θ)=∑mi=1(yit+1-it+1)2+γyit+1+it+1it+12(11)
其中,it+1表示模型輸出預(yù)測(cè)標(biāo)簽,yit+1表示實(shí)際的數(shù)據(jù)標(biāo)簽。θ表示模型需要訓(xùn)練的所有參數(shù),γ是模型的超參數(shù)。
4?實(shí)驗(yàn)與分析
4.1?實(shí)驗(yàn)配置
為了驗(yàn)證所提方法對(duì)加油時(shí)空數(shù)據(jù)異常檢測(cè)的有效性以及所提方法的通用性,本文選擇在中國(guó)某省份汽車加油數(shù)據(jù)集和信用卡欺詐公開數(shù)據(jù)集[17]上進(jìn)行實(shí)驗(yàn),前者為本文所需解決應(yīng)用場(chǎng)景的真實(shí)數(shù)據(jù)集,后者為帶有異常標(biāo)簽標(biāo)注的公開數(shù)據(jù)集。實(shí)驗(yàn)機(jī)器系統(tǒng)為ubuntu14.04 64位,CPU 72核,型號(hào)為Intel Xeon Gold 6140 CPU 2.3GHz,內(nèi)存256GB,顯存96GB,Python版本為3.6,Keras版本為2.0.8,數(shù)據(jù)庫(kù)為MongDB 3.0。
4.2?實(shí)驗(yàn)數(shù)據(jù)集
4.2.1?車輛加油數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)選取某省份1個(gè)月內(nèi)的所有加油記錄,為了保證實(shí)驗(yàn)的準(zhǔn)確性,去除了數(shù)據(jù)中部分無(wú)效數(shù)據(jù),并選取在1個(gè)月時(shí)間周期內(nèi),加油次數(shù)大于3次的所有相關(guān)數(shù)據(jù),其中每條記錄主要包括唯一性標(biāo)識(shí)、加油人員身份證號(hào)碼、加油站編號(hào)、車牌號(hào)等信息。相關(guān)數(shù)據(jù)項(xiàng)全部進(jìn)行脫敏加密處理,數(shù)據(jù)規(guī)模為505-643條。特征提取方面,對(duì)數(shù)值型特征進(jìn)行歸一化處理,非數(shù)值型特征進(jìn)行數(shù)字編碼后再歸一化處理。同時(shí)收集該時(shí)間范圍內(nèi)路況、天氣等數(shù)據(jù)作為外部因素導(dǎo)入,并最終得到可靠的實(shí)驗(yàn)數(shù)據(jù)集合。
原始數(shù)據(jù)無(wú)標(biāo)簽標(biāo)注,通過(guò)專家經(jīng)驗(yàn)、預(yù)置規(guī)則并結(jié)合人工判斷的方式,對(duì)約10%的數(shù)據(jù)進(jìn)行了標(biāo)注。實(shí)驗(yàn)結(jié)果驗(yàn)證方面,通過(guò)抽取20%結(jié)果配合采集的圖像人工復(fù)檢的方式進(jìn)行驗(yàn)證。
為了驗(yàn)證本文所提異常檢測(cè)框架在預(yù)處理后的數(shù)據(jù)集上的有效性,通過(guò)與一組現(xiàn)有異常檢測(cè)方法進(jìn)行比較評(píng)估,采用均方根誤差作為評(píng)價(jià)函數(shù),對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià):
RMSE=1m∑mi=1(yit+1-it+1)2(12)
其中:it+1和yit+1分別表示預(yù)測(cè)值和實(shí)際值,m代表樣本總數(shù)。
4.2.2?信用卡欺詐數(shù)據(jù)集
信用卡欺詐數(shù)據(jù)集包括了某兩天內(nèi)各個(gè)時(shí)間點(diǎn)的284-807 筆交易記錄,其中492筆交易已標(biāo)注為欺詐行為。數(shù)據(jù)集定義欺詐因素共28項(xiàng),另外兩項(xiàng)數(shù)據(jù)是交易金額和欺詐標(biāo)簽。數(shù)據(jù)集劃分方面,從數(shù)據(jù)集中的正常值取80%作為訓(xùn)練集,將剩余20%的正常值以及全部異常值(欺詐行為)作為測(cè)試集。
由于異常檢測(cè)數(shù)據(jù)集一般均屬于正負(fù)例非均衡數(shù)據(jù)集,馬修斯系數(shù)(Matthews Correlation Coefficient, MCC)能夠有效衡量不平衡數(shù)據(jù)集,為了驗(yàn)證所提方法的有效性,本文將MCC作為信用卡欺詐數(shù)據(jù)集上的性能衡量指標(biāo)。其具體公式如下:
MCC=
TP*TN-FP*FN(TP+FP)*(TP+FN)*(TN+FP)*(TN+FN)(13)
其中:TP(True Positive)表示挖掘出的樣本為真實(shí)異常實(shí)例的數(shù)量,TN(True Negative)表示挖掘出的樣本為真實(shí)正常實(shí)例的數(shù)量,F(xiàn)P(False Positive)表示挖掘出的樣本為假異常實(shí)例的數(shù)量,F(xiàn)N(False Negative)表示挖掘出的樣本為假正常實(shí)例的數(shù)量。
4.3?實(shí)驗(yàn)結(jié)果與分析
4.3.1?車輛加油數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
在車輛加油數(shù)據(jù)集上,選擇雅虎開源異常檢測(cè)框架(Extendible Generic Anomaly Detection System, EGADS)[18]中的移動(dòng)平均模型(Moving Average Model)、統(tǒng)計(jì)模型(Naive Forecasting Model)、回歸模型(Regression Model)、季節(jié)模型(Olympic Model)、指數(shù)平滑模型(Double Exponential Smoothing Model)以及循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM作為基線對(duì)比系統(tǒng)。通過(guò)在未融合原始加油數(shù)據(jù)和已融合數(shù)據(jù)上運(yùn)行基線方法和所提方法,對(duì)比均方根誤差(Root Mean Square Error, RMSE),進(jìn)而衡量數(shù)據(jù)融合和所提異常檢測(cè)框架的有效性,實(shí)驗(yàn)結(jié)果如表1所示。
從實(shí)驗(yàn)結(jié)果中可以觀察到所有方法在融合后數(shù)據(jù)上均取得了更低的均方根誤差,均方根誤差平均降低10.73%,說(shuō)明數(shù)據(jù)融合作為數(shù)據(jù)治理的一項(xiàng)步驟和方法,可以有效提升數(shù)據(jù)質(zhì)量,為后續(xù)分析帶來(lái)性能提升。另外從表1中還可看出,本文所提異常檢測(cè)框架取得了最好的性能,較之基線方法的最好結(jié)果降低了19.36%的均方根誤差。原因主要在于基線方法均是對(duì)時(shí)序數(shù)據(jù)進(jìn)行異常分析處理,未能融合其他類型數(shù)據(jù)如圖像、空間數(shù)據(jù)、天氣數(shù)據(jù)等,也從一定程度說(shuō)說(shuō)明,能夠處理多種數(shù)據(jù)類型的方法可以在實(shí)際異常檢測(cè)分析中取得更好的效果。
4.3.2?信用卡欺詐數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析
在信用卡欺詐數(shù)據(jù)集上,選擇在此數(shù)據(jù)集上表現(xiàn)效果較好的邏輯回歸(Logistic Regression)模型與本文所提方法進(jìn)行對(duì)比分析,MCC實(shí)質(zhì)上表示真實(shí)結(jié)果與預(yù)測(cè)結(jié)果二元分類之間的相關(guān)系數(shù),并返回介于-1到+1之間的數(shù)值。結(jié)果越接近+1,表示預(yù)測(cè)越精確,-1則表示預(yù)測(cè)結(jié)果和真實(shí)結(jié)果完全不一致,0表示模型效果接近于隨機(jī)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果方面,邏輯回歸模型取得的MCC值為0.230-0,所提方法MCC值為0.305-4,所提方法較之邏輯回歸模型,在MCC上取得了32.78% 的性能提升,驗(yàn)證了所提方法在信用卡欺詐公開數(shù)據(jù)集上,同樣能夠有效地檢測(cè)到欺詐行為,并較之現(xiàn)有方法提升了一定的預(yù)測(cè)精度。
5?結(jié)語(yǔ)
本文鑒于傳統(tǒng)異常檢測(cè)方法難以處理多源異構(gòu)時(shí)空加油數(shù)據(jù)的缺陷,首先,針對(duì)業(yè)務(wù)領(lǐng)域進(jìn)行統(tǒng)一概念模型構(gòu)建,并根據(jù)融合模型自動(dòng)地對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行轉(zhuǎn)換和關(guān)聯(lián),將離散的時(shí)空數(shù)據(jù)轉(zhuǎn)換為以圖的方式進(jìn)行存儲(chǔ)和管理的融合數(shù)據(jù);然后,針對(duì)實(shí)際業(yè)務(wù)中存在的多種數(shù)據(jù)類型,提出了基于多視圖的深度異常檢測(cè)框架,進(jìn)而克服了傳統(tǒng)方法只能處理時(shí)序數(shù)據(jù),難以處理其他類型數(shù)據(jù)的缺陷; 最后,在真實(shí)車輛加油數(shù)據(jù)集和信用卡欺詐公開數(shù)據(jù)集上,對(duì)所提方法與基線系統(tǒng)進(jìn)行了性能比較。在車輛加油數(shù)據(jù)集上,所提方法較之基線方法的最好結(jié)果降低了約19.36%的均方根誤差;在信用卡欺詐公開數(shù)據(jù)集上,較之邏輯回歸模型,所提方法取得了更高的MCC值。證明了本文所提方法無(wú)論是在處理具體車輛加油領(lǐng)域的時(shí)空數(shù)據(jù)異常檢測(cè)問(wèn)題上,還是在更通用的異常檢測(cè)處理上,均具備較穩(wěn)定的性能優(yōu)勢(shì)。
所提方法雖然取得了較好的實(shí)驗(yàn)結(jié)果,但在處理實(shí)際異常檢測(cè)問(wèn)題時(shí),異常數(shù)據(jù)的稀缺和難以標(biāo)注仍是一項(xiàng)阻礙異常檢測(cè)研究開展的難題,后續(xù)的研究中將重點(diǎn)關(guān)注無(wú)監(jiān)督的異常檢測(cè)方法,探索如何在無(wú)標(biāo)注數(shù)據(jù)集上開展異常檢測(cè)研究。
參考文獻(xiàn) (References)
[1]?AGRAWAL S, AGRAWAL J. Survey on anomaly detection using data mining techniques[J]. Procedia Computer Science, 2015, 60: 708-713.
[2]?ABDALLAH A, MAAROF M A, ZAINAL A. Fraud detection system: a survey[J]. Journal of Network and Computer Applications, 2016, 68: 90-113.
[3]?BUCZAK A L, GUVEN E. A survey of data mining and machine learning methods for cyber security intrusion detection[J]. IEEE Communications Surveys and Tutorials, 2016, 18(2): 1153-1176.
[4]?NAIK N, DIAO R, SHEN Q. Dynamic fuzzy rule interpolation and its application to intrusion detection[J]. IEEE Transactions on Fuzzy Systems, 2018, 26(4): 1878-1892.
[5]?DOSHI D A, KHEDKAR K B, RAUT N T, et al. Real time fault failure detection in power distribution line using power line communication[J]. International Journal of Engineering Science, 2016, 6(5): 4834-4837.
[6]?陶濤,周喜,馬博,等. 基于雙向LSTM的Seq2Seq模型在加油站時(shí)序數(shù)據(jù)異常檢測(cè)中的應(yīng)用[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(3): 924-929. (TAO T, ZHOU X, MA B, et al. Abnormal time series data detection of gas station by Seq2Seq model based on bidirectional long shortterm memory[J]. Journal of Computer Applications, 2019, 39(3): 924-929.)
[7]?YU W, CHENG W, AGGARWAL C C, et al. NetWalk: a flexible deep embedding approach for anomaly detection in dynamic networks[C]// Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2018: 2672-2681.
[8]?陳萬(wàn)志,李東哲. 結(jié)合白名單過(guò)濾和神經(jīng)網(wǎng)絡(luò)的工業(yè)控制網(wǎng)絡(luò)入侵檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(2): 363-369. (CHEN W Z, LI D Z. Intrusion detection method in industrial control network combining white list filtering and neural network[J]. Journal of Computer Applications, 2018, 38(2): 363-369.)
[9]?FUJIMAKI R, YAIRI T, MACHIDA K. An approach to spacecraft anomaly detection problem using kernel feature space[C]// Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2005: 401-410.
[10]?ASHFAQ R A R, WANG X, HUANG J Z, et al. Fuzziness based semisupervised learning approach for intrusion detection system[J]. Information Sciences, 2017, 378: 484-497.
[11]?NOTO K, BRODLEY C, SLONIM D. FRaC: a featuremodeling approach for semisupervised and unsupervised anomaly detection[J]. Data Mining and Knowledge Discovery, 2012, 25(1): 109-133.
[12]?LENZERINI M. Data integration: a theoretical perspective[C]// Proceedings of the 21st ACM SIGMODSIGACTSIGART Symposium on Principles of Database Systems. New York: ACM, 2002: 233-246.
[13]?DONG X L, SRIVASTAVA D. Big data integration[J]. Proceedings of the VLDB Endowment, 2013, 6(11): 1188-1189.
[14]?MA B, JIANG T, ZHOU X, et al. A novel data integration framework based on unified concept model[J]. IEEE Access, 2017, 5: 5713-5722.
[15]?ZHANG J, ZHENG Y, QI D. Deep spatiotemporal residual networks for citywide crowd flows prediction[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. Pola Alto: AAAI Press, 2016: 1655-1661.
[16]?CHENG W, SHEN Y, ZHU Y, et al. A neural attention model for urban air quality inference: learning the weights of monitoring stations[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto: AAAI Press, 2018: 2151-2158.
[17]?AGNIHOTRI M. Credit card fraud detection[DB/OL]. [2017-04-17]. https://www.kaggle.com/mlgulb/creditcardfraud.
[18]?LAPTEV N, AMIZADEH S, FLINT I. Generic and scalable framework for automated timeseries anomaly detection[C]// Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2015: 1939-1947.
This work is partially supported by the Natural Science Foundation of Xinjiang (2019D01A92).
DING Jingquan, born in 1973, Ph. D. candidate, associate research fellow. His research interests include big data government and analytics.
MA Bo, born in 1984, Ph. D., associate research fellow. His research interests include big data analysis, knowledge graph.
LI Xiao, born in 1957, M. S., professor. His research interests include multilingual information processing, information management system.