亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的屬性圖異常檢測綜述

        2022-10-18 01:03:44張伊揚(yáng)錢育蓉陶文彬冷洪勇李自臣馬夢楠
        關(guān)鍵詞:深度檢測信息

        張伊揚(yáng),錢育蓉,陶文彬,冷洪勇,李自臣,馬夢楠

        1.新疆大學(xué) 軟件學(xué)院,烏魯木齊 830046

        2.新疆大學(xué) 新疆維吾爾自治區(qū)信號檢測與處理重點(diǎn)實(shí)驗(yàn)室,烏魯木齊 830046

        3.北京理工大學(xué) 計(jì)算機(jī)學(xué)院,北京 100081

        4.廣東水利電力職業(yè)技術(shù)學(xué)院 大數(shù)據(jù)與人工智能學(xué)院,廣州 510635

        在互聯(lián)網(wǎng)及通信技術(shù)高速發(fā)展的背景下,信息的交互、影響以及人與人之間的關(guān)聯(lián)變得更加密切,這種相互關(guān)系以及自身的屬性信息以網(wǎng)絡(luò)的形式所呈現(xiàn),并表達(dá)為屬性圖結(jié)構(gòu)存在于各種場景中,其中包括交通網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、通信網(wǎng)絡(luò)以及社交網(wǎng)絡(luò)等。為了利用圖結(jié)構(gòu)數(shù)據(jù)解決實(shí)際問題,近年來各種圖分析任務(wù)引起研究者極大的興趣,例如鏈路預(yù)測[1-2]、異常檢測[3-4]、社區(qū)檢測[5]和節(jié)點(diǎn)分類[6-7]。在上述任務(wù)中,基于屬性圖的異常檢測任務(wù)是最重要的研究方向之一,其充分考慮到各個(gè)節(jié)點(diǎn)之間的相互依賴性,利用圖中所包含的結(jié)構(gòu)信息和屬性信息識別數(shù)據(jù)中不符合期望的異常行為模式,為金融欺詐、電信詐騙、網(wǎng)絡(luò)入侵等多個(gè)領(lǐng)域的欺詐與異常行為識別提供了重要幫助。

        早在1996年,Staniford-Chen等人[8]就開始通過面向圖的方法實(shí)現(xiàn)網(wǎng)絡(luò)入侵檢測,Akoglu等人[9]對當(dāng)時(shí)已有的圖異常檢測檢測技術(shù)進(jìn)行了全面的總結(jié)。在早期的工作中,傳統(tǒng)方法已經(jīng)可以對圖結(jié)構(gòu)數(shù)據(jù)的異常個(gè)體進(jìn)行識別,然而其嚴(yán)重依賴于領(lǐng)域?qū)<以O(shè)計(jì)構(gòu)建的手工特征和統(tǒng)計(jì)模型[10],并且利用淺層機(jī)制,缺乏捕獲對象之間非線性特征的能力,無法高效處理屬性圖中包含的拓?fù)浣Y(jié)構(gòu)和屬性信息。深度學(xué)習(xí)作為一種強(qiáng)大的工具,能夠有效學(xué)習(xí)屬性圖數(shù)據(jù)的復(fù)雜性[11],提高了檢測未知異常的能力,尤其是隨著圖神經(jīng)網(wǎng)絡(luò)[12]的發(fā)展,進(jìn)一步豐富了深度學(xué)習(xí)在圖數(shù)據(jù)挖掘中的能力,在提取圖數(shù)據(jù)潛在的復(fù)雜模式中表現(xiàn)出良好的性能,因此,基于深度學(xué)習(xí)的屬性圖異常檢測方法層出不窮。

        本文主要總結(jié)現(xiàn)有的基于深度學(xué)習(xí)的屬性圖異常檢測方法,分析各個(gè)模型的特點(diǎn)、優(yōu)勢以及存在的問題,并對后續(xù)研究進(jìn)行展望,本文的貢獻(xiàn)可歸納如下:

        (1)概述普通圖異常檢測與屬性圖異常檢測的特點(diǎn)及區(qū)別,整理了經(jīng)典的屬性圖表示學(xué)習(xí)方法。

        (2)歸納總結(jié)靜態(tài)屬性圖和動(dòng)態(tài)屬性圖異常檢測中的深度學(xué)習(xí)方法,并對部分經(jīng)典靜態(tài)屬性圖異常檢測算法的實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        (3)討論屬性圖異常檢測的應(yīng)用場景、存在的問題以及未來可能研究的方向,為后期研究提供參考。

        1 研究概述

        異常檢測是一種數(shù)據(jù)挖掘過程,旨在識別數(shù)據(jù)集中偏離大多數(shù)數(shù)據(jù)的異常模式[13-14]。為了解決異常檢測問題,過去的幾十年里出現(xiàn)大量方法,尤其是在非結(jié)構(gòu)化數(shù)據(jù)點(diǎn)集中發(fā)現(xiàn)異常值,但是未考慮到數(shù)據(jù)之間的依賴性。圖數(shù)據(jù)提供一種強(qiáng)大的機(jī)制,可以有效捕獲數(shù)據(jù)對象之間的長期相關(guān)性,在異常檢測領(lǐng)域頗受關(guān)注?;趫D的異常檢測是將原始網(wǎng)絡(luò)用圖模型表達(dá),結(jié)合圖數(shù)據(jù)挖掘技術(shù)以及相關(guān)知識找到罕見圖形對象的過程。本章對普通圖、屬性圖的異常檢測以及圖表示學(xué)習(xí)方法進(jìn)行簡要概述。

        1.1 基于普通圖的異常檢測

        早期的圖異常檢測方法大多是針對普通圖進(jìn)行的,對于給定的普通圖,它的唯一信息是圖的結(jié)構(gòu),因此針對普通圖的異常檢測方法利用圖的結(jié)構(gòu)信息來發(fā)現(xiàn)異常模式,可大致分為四類:基于特征的、基于鄰近性的、基于聚類的和基于社區(qū)檢測的方法。

        (1)基于特征的檢測方法:利用圖形表示來提取以圖/節(jié)點(diǎn)為中心的結(jié)構(gòu)特征,用來構(gòu)造特征空間的異常檢測,如ODDBALL[10]、GBKD-Forest[15]等。

        (2)基于鄰近性的檢測方法:利用圖的結(jié)構(gòu)信息測量圖中對象的接近度,捕捉對象之間的相關(guān)性,近鄰對象被認(rèn)為可能屬于同一類,如SimRank[16]、ASCOS[17]等。

        (3)基于聚類的檢測方法:此類方法的主要思想是,將復(fù)雜圖數(shù)據(jù)表示成低維特征向量,然后將其劃分成不同簇,通過對象距離簇中心的距離識別異常,如INCAD[18]、文獻(xiàn)[19]方法等。

        (4)基于社區(qū)檢測的方法:此方法依賴于在圖中找到密集連接的鄰近節(jié)點(diǎn)組,并找出跨社區(qū)連接的節(jié)點(diǎn)或邊,如Embed[20]、CADA[21]等。

        1.2 基于屬性圖的異常檢測

        普通圖異常檢測方法往往只利用單一的圖結(jié)構(gòu)信息進(jìn)行檢測,而生活中許多場景存在更豐富的圖形表示。屬性圖中包含大量的屬性特征,可以提供更多細(xì)節(jié)來描述網(wǎng)絡(luò)中的每個(gè)元素。對屬性圖進(jìn)行異常檢測不僅要考慮到復(fù)雜的拓?fù)浣Y(jié)構(gòu),還要考慮其含有的豐富屬性,根據(jù)現(xiàn)有的方法可以將屬性圖異常檢測方法分為基于傳統(tǒng)的檢測方法和基于深度學(xué)習(xí)的檢測方法,下面分別對其分類進(jìn)行介紹。

        1.2.1 基于傳統(tǒng)的屬性圖異常檢測分類

        傳統(tǒng)的屬性圖異常檢測方法根據(jù)現(xiàn)有文獻(xiàn)可分為基于社區(qū)分析的方法、基于殘差分析的方法和基于子空間選擇的方法。

        (1)基于社區(qū)分析的方法:通過觀察同一社區(qū)內(nèi)對象的屬性值,或者根據(jù)變化的社區(qū)找出具有顯著差異的對象來識別異常,如AMEN[22]、CODA[5]等。

        (2)基于子空間選擇的方法:首先探索屬性子空間,然后在已經(jīng)學(xué)習(xí)到的子空間中發(fā)現(xiàn)異常,如FocusCO[23]、ConSub[24]、GOutRank[25]等。

        (3)基于殘差分析的方法:通過矩陣分解方法系統(tǒng)模擬殘差信息來識別異常,如Rader[26]、Anomalous[27]等。

        這三類方法已有不少研究,但仍存在以下不足:(1)可能會受到子空間選擇和淺層學(xué)習(xí)過程中相關(guān)過度開銷計(jì)算的影響;(2)忽略了節(jié)點(diǎn)表示和屬性之間的關(guān)系;(3)忽略了正常數(shù)據(jù)和異常數(shù)據(jù)之間的不平衡性。為了解決這些問題,基于深度學(xué)習(xí)的方法應(yīng)運(yùn)而生。

        1.2.2 基于深度學(xué)習(xí)的屬性圖異常檢測分類

        本文對基于深度學(xué)習(xí)的屬性圖異常檢測方法進(jìn)行分類,首先根據(jù)其是否隨著時(shí)間演化分為靜態(tài)屬性圖和動(dòng)態(tài)屬性圖兩類,靜態(tài)圖可以表示為動(dòng)態(tài)圖在某一時(shí)間戳的快照,動(dòng)態(tài)圖也可以被視為由一序列圖快照所構(gòu)成。其次在靜態(tài)圖和動(dòng)態(tài)圖中分為基于深度神經(jīng)網(wǎng)絡(luò)的方法和基于圖神經(jīng)網(wǎng)絡(luò)的方法兩大類,如圖1所示。

        圖1 基于深度學(xué)習(xí)的屬性圖異常檢測分類Fig.1 Classification of attribute graph anomaly detection based on deep learning

        面向靜態(tài)屬性圖異常檢測:給出靜態(tài)屬性圖,查找“少且不同”或與大部分觀察到數(shù)據(jù)模式顯著不同的節(jié)點(diǎn)/邊/子圖。

        面向動(dòng)態(tài)屬性圖異常檢測:動(dòng)態(tài)屬性圖的結(jié)構(gòu)或?qū)傩噪S時(shí)間不斷發(fā)生變化,可能更改包括插入和刪除頂點(diǎn)、邊、子圖以及修改屬性[28]。其異常檢測旨在給定一個(gè)屬性圖序列,從中找出:(1)對應(yīng)變化事件的時(shí)間戳;(2)對變化貢獻(xiàn)最大的top-k個(gè)節(jié)點(diǎn)/邊/子圖。

        基于深度學(xué)習(xí)的屬性圖異常檢測方法使用深度學(xué)習(xí)技術(shù),分別針對靜態(tài)圖和動(dòng)態(tài)圖達(dá)到識別其中異常對象的目的。其通過圖表示學(xué)習(xí)方法將屬性圖映射到潛在空間的低維向量,獲得高質(zhì)量的嵌入以充分支持屬性圖異常檢測任務(wù)。

        1.3 圖表示學(xué)習(xí)方法

        對圖進(jìn)行異常檢測的關(guān)鍵前提是如何對其進(jìn)行合理的表示學(xué)習(xí),圖表示學(xué)習(xí)方法是將原始圖結(jié)構(gòu)數(shù)據(jù)壓縮為低維向量,同時(shí)保留圖的信息[29]?;趯傩詧D的表示學(xué)習(xí)方法,其學(xué)習(xí)到的嵌入應(yīng)該最大限度保留結(jié)構(gòu)和屬性兩種類型信息。根據(jù)已有文獻(xiàn),可以將現(xiàn)有方法大致分為三類:基于矩陣分解的方法、基于圖神經(jīng)網(wǎng)絡(luò)的方法以及基于編解碼的方法。本節(jié)對最經(jīng)典的屬性圖表示學(xué)習(xí)方法進(jìn)行分類總結(jié),如表1所示[30-37]。

        表1 經(jīng)典的屬性圖表示學(xué)習(xí)方法Table 1 Classical attribute graph representation learning method

        2 基于深度學(xué)習(xí)的屬性圖異常檢測方法

        基于深度學(xué)習(xí)的屬性圖異常檢測方法經(jīng)常使用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)和圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)模型來探索屬性圖的非線性和異常的無監(jiān)督或半監(jiān)督識別。本章從靜態(tài)屬性圖異常檢測和動(dòng)態(tài)屬性圖異常檢測兩方面,分別介紹基于DNN及GNN的異常檢測新方法。

        2.1 靜態(tài)屬性圖異常檢測方法

        2.1.1 基于深度神經(jīng)網(wǎng)絡(luò)的方法

        近年來,DNN在異常檢測領(lǐng)域得到廣泛應(yīng)用,其通過多層抽象來學(xué)習(xí)表示特征,能夠針對復(fù)雜的模式[38]進(jìn)行建模,為學(xué)習(xí)數(shù)據(jù)表示提供了堅(jiān)實(shí)的基礎(chǔ)。

        Liang 等人[39]通過部分標(biāo)記的屬性圖訓(xùn)練模型SEANO。模型由一個(gè)雙輸入雙輸出深度神經(jīng)網(wǎng)絡(luò)來歸納學(xué)習(xí)頂點(diǎn)嵌入,在頂點(diǎn)異常的情況下會淡化頂點(diǎn)屬性輸入,更多依賴鄰域特征來預(yù)測。SEANO 可以通過結(jié)合鄰域信息以及自適應(yīng)學(xué)習(xí)聚合權(quán)重減輕異常值帶來的噪聲影響,并在表示學(xué)習(xí)同時(shí)檢測檢測異常節(jié)點(diǎn)。但是其通過標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,通常獲取有標(biāo)記的數(shù)據(jù)即困難又昂貴。

        為了減輕異常標(biāo)記數(shù)據(jù)帶來的困擾,研究者進(jìn)行了大量工作。生成性對抗網(wǎng)絡(luò)(generative adversarial network,GAN)通過輪流訓(xùn)練判別器和生成器,令其相互對抗,來從復(fù)雜概率分布中采樣,在捕捉數(shù)據(jù)分布方面體現(xiàn)了強(qiáng)大的有效性。

        Chen 等人[40]提出了一種生成性對抗屬性圖異常檢測框架GAAN,生成器從高斯噪聲中生成假圖節(jié)點(diǎn),判別器準(zhǔn)確地學(xué)習(xí)真實(shí)的數(shù)據(jù)分布,經(jīng)過多輪迭代訓(xùn)練,從而有效提高判別器的識別能力。Ding 等人[41]同樣應(yīng)用GAN 的思想,提高了對未知數(shù)據(jù)異常的鑒別能力。為了考慮到多跳鄰居信息,模型利用圖差分網(wǎng)絡(luò)從任意順序鄰域中學(xué)習(xí)異常節(jié)點(diǎn)表示。該模型架構(gòu)如圖2 所示,使用部分可觀測的圖進(jìn)行訓(xùn)練,并以前饋的方式直接檢測新圖上的異常,有效解決了歸納式學(xué)習(xí)的問題,能夠處理新的數(shù)據(jù)而無需重新訓(xùn)練模型。以上基于GAN 的方法通過對抗生成思想從復(fù)雜數(shù)據(jù)分布中采樣,緩解了數(shù)據(jù)不平衡問題,但是難以訓(xùn)練,其訓(xùn)練優(yōu)化過程穩(wěn)定性較差。

        圖2 AEGIS模型結(jié)構(gòu)Fig.2 Framework of AEGIS model

        Bandyopadhyay 等人[42]則采用無監(jiān)督學(xué)習(xí)方法,將兩個(gè)平行自編碼器分別用于節(jié)點(diǎn)的連接結(jié)構(gòu)和屬性,通過最小化重構(gòu)誤差訓(xùn)練,并利用同質(zhì)性原則進(jìn)行異常檢測。此外,還專門設(shè)計(jì)了異常感知函數(shù)來量化節(jié)點(diǎn)的異常得分。該模型可以從每個(gè)節(jié)點(diǎn)全局、結(jié)構(gòu)、社區(qū)三方面角度測量異常分?jǐn)?shù),但是其將屬性和結(jié)構(gòu)信息分開考慮,忽略了彼此之間的交互關(guān)系。

        2.1.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法

        圖神經(jīng)網(wǎng)絡(luò)是用于圖結(jié)構(gòu)化數(shù)據(jù)的深度學(xué)習(xí)框架,因其聚合來自節(jié)點(diǎn)鄰域信息的能力受到高度認(rèn)可,包括圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)和圖注意力網(wǎng)絡(luò)(graph attention network,GAT)等,在屬性圖異常檢測任務(wù)中均取得不錯(cuò)的效果。基于GNN的屬性圖異常檢測普遍的通用框架如圖3 所示,將GNN 圖表示學(xué)習(xí)方法用于異常檢測任務(wù)中,通過重構(gòu)誤差識別異常對象。

        圖3 基于GNN異常檢測通用框架Fig.3 General framework for anomaly detection based on GNN

        Ding 等人[43]使用GCN 進(jìn)行節(jié)點(diǎn)的嵌入學(xué)習(xí),對拓?fù)浣Y(jié)構(gòu)和節(jié)點(diǎn)屬性信息進(jìn)行無縫建模,通過嵌入節(jié)點(diǎn)重建原圖來進(jìn)行異常檢測,其采用編碼器、屬性和結(jié)構(gòu)解碼器三網(wǎng)絡(luò)架構(gòu),與只使用單一編碼器模塊相比會增加梯度反向傳播時(shí)間,且僅僅使用GCN提取特征,沒有考慮到不同節(jié)點(diǎn)的貢獻(xiàn)程度以及GCN的過度平滑問題。

        為了緩解GCN 的過平滑問題,更好地區(qū)分異常與正常節(jié)點(diǎn)的邊界,Zhu 等人[44]提出DeepAE 組合嵌入模型,在嵌入過程中引入拉普拉斯銳化放大正常節(jié)點(diǎn)和異常節(jié)點(diǎn)之間的差異[45];文獻(xiàn)[46]中利用屬性圖中社區(qū)結(jié)構(gòu)信息來緩解不同類型異常節(jié)點(diǎn)表示帶來的過平滑問題;文獻(xiàn)[47]中則采用了殘差注意力機(jī)制防止異常節(jié)點(diǎn)過度平滑。

        上述方法利用GCN將圖結(jié)構(gòu)和節(jié)點(diǎn)屬性信息綜合考慮,但其只能通過簡單卷積運(yùn)算將鄰居節(jié)點(diǎn)的信息平均聚合到目標(biāo)節(jié)點(diǎn)中,使目標(biāo)節(jié)點(diǎn)無法獲得鄰居中最相關(guān)的信息。GAT 的出現(xiàn)取代傳統(tǒng)的圖卷積,側(cè)重提取鄰居節(jié)點(diǎn)的重要信息,接下來對使用GAT 的方法進(jìn)行介紹。

        AnomalyDAE[48]采用雙自動(dòng)編碼器聯(lián)合學(xué)習(xí)節(jié)點(diǎn)潛在表示,將GAT 用于結(jié)構(gòu)編碼器中以學(xué)習(xí)節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)之間的重要性,從而訪問較重要的結(jié)構(gòu)模式。該模型旨在利用圖的拓?fù)浣Y(jié)構(gòu)和屬性相似度檢測單個(gè)節(jié)點(diǎn)級異常,無法同時(shí)檢測出異常子圖。文獻(xiàn)[49]則將節(jié)點(diǎn)和子圖實(shí)例表示學(xué)習(xí)過程集成到統(tǒng)一的GAT中,并設(shè)計(jì)自注意力機(jī)制用于捕獲節(jié)點(diǎn)與子圖自身及之間的關(guān)系信息,提高最終的檢測效率,可以同時(shí)檢測節(jié)點(diǎn)異常和子圖異常,但是異常節(jié)點(diǎn)與異常子圖的相互影響,以及子圖異常類型不確定性仍給檢測帶來很大挑戰(zhàn)。

        在針對多視圖圖進(jìn)行異常檢測時(shí),Wang 等人[50]提出了一種半監(jiān)督異常檢測框架SemiGNN用于檢測交易平臺異常的用戶。該模型采用層級注意力機(jī)制以自動(dòng)學(xué)習(xí)不同視圖的重要性,集成多視圖的嵌入表示。其節(jié)點(diǎn)級注意力機(jī)制有效聚合各視圖內(nèi)節(jié)點(diǎn)信息,視圖級注意力機(jī)制整合每個(gè)視圖信息。SemiGNN還分別設(shè)計(jì)了針對標(biāo)記數(shù)據(jù)與無標(biāo)記數(shù)據(jù)的損失函數(shù)共同優(yōu)化模型。另一個(gè)最新的基于多視圖異常檢測模型AnomMAN[51]可以在無異常實(shí)例的情況下檢測異常,采用圖自編碼器克服了圖卷積操作帶來的低通性,并通過注意力機(jī)制融合來自不同視圖的潛在表示。以上兩種方法很好的解決了多視圖屬性圖的異常檢測問題,但是忽略了多視圖中所包含的豐富信息及視角之間的不一致性,視圖之間的關(guān)系對異常檢測也起到至關(guān)重要的作用。

        在針對屬性圖跨域異常檢測時(shí),主要存在兩個(gè)問題:如何對來自不同領(lǐng)域的任意結(jié)構(gòu)屬性圖進(jìn)行建模以及如何同時(shí)檢測出目標(biāo)圖中的共享及非共享異常。為此,文獻(xiàn)[52]通過共享的GAT編碼器學(xué)習(xí)源圖及目標(biāo)圖的節(jié)點(diǎn)表示,使用標(biāo)記的原圖訓(xùn)練域自適應(yīng)分類器檢測共享異常,同時(shí)使用屬性解碼器保證了對非共享異常的檢測。該模型在跨域檢測中展現(xiàn)出優(yōu)越的性能,但是不同領(lǐng)域之間的差異會導(dǎo)致模型性能降低,所以對于跨域異常檢測還存在極大挑戰(zhàn)。

        上述基于深度學(xué)習(xí)的方法大都受到自動(dòng)編碼器體系結(jié)構(gòu)的限制,以最小化圖的重構(gòu)誤差為目標(biāo)。這些誤差會受到潛在噪聲節(jié)點(diǎn)影響,同時(shí)存在正常數(shù)據(jù)和異常數(shù)據(jù)之間過擬合的問題。此外,由于全圖訓(xùn)練機(jī)制,無法擴(kuò)展到大規(guī)模屬性圖中。為了解決此類問題,很多學(xué)者采用基于關(guān)系學(xué)習(xí)的方法或?qū)Ρ茸员O(jiān)督學(xué)習(xí)的方法,均體現(xiàn)出良好性能,接下來對其中具有代表性的方法進(jìn)行介紹。

        基于關(guān)系學(xué)習(xí)的方法通常將異常檢測轉(zhuǎn)化成分類問題,Wang等人[53]提出模型OCGNN,如圖4所示,GNN自動(dòng)提取圖上信息,超球?qū)W習(xí)通過訓(xùn)練標(biāo)記的正常數(shù)據(jù)獲得一個(gè)緊湊的超球邊界,來分離正常和異常數(shù)據(jù)。該模型預(yù)測并不需要存儲數(shù)據(jù),所以具有較低的內(nèi)存復(fù)雜度。與文獻(xiàn)[53]不同,Zhang 等人[54]通過結(jié)構(gòu)超球?qū)W習(xí)的和屬性超球?qū)W習(xí)分別從結(jié)構(gòu)和屬性的角度測量異常,擁有比OCGNN更強(qiáng)的性能,但是其網(wǎng)絡(luò)規(guī)模明顯大于OCGNN,且時(shí)間復(fù)雜度較高。這兩種方法將GNN強(qiáng)大的表示能力和經(jīng)典超球?qū)W習(xí)組合,其特征表示直接針對異常檢測任務(wù)構(gòu)建,與特征表示后進(jìn)行傳統(tǒng)分類的集成檢測方法大不相同。

        圖4 OCGNN模型結(jié)構(gòu)Fig.4 Framework of OCGNN model

        基于對比自監(jiān)督的方法中,Liu 等人[55]通過實(shí)例對采樣,充分利用屬性圖中的局部信息捕獲節(jié)點(diǎn)和相鄰子結(jié)構(gòu)之間的關(guān)系,并采用基于GCN 的對比學(xué)習(xí)方法學(xué)習(xí)節(jié)點(diǎn)表示。Zheng等人[56]聯(lián)合使用生成性和對比性兩種自監(jiān)督學(xué)習(xí)策略,通過生成性屬性重構(gòu)和多視圖級對比學(xué)習(xí)機(jī)制,充分利用屬性信息以及上下文信息捕獲多視圖中的異常模式。隨后,Zheng 等人[57]又同時(shí)在補(bǔ)丁和上下文兩個(gè)級別通過對比學(xué)習(xí)對多視圖進(jìn)行異常檢測,并且在此基礎(chǔ)上進(jìn)一步擴(kuò)展,利用標(biāo)記的小樣本異常數(shù)據(jù)進(jìn)行訓(xùn)練,使檢測結(jié)果更加精確。這類基于對比自監(jiān)督的模型通過學(xué)習(xí)對比復(fù)雜的無標(biāo)簽實(shí)例對,可以從無標(biāo)記數(shù)據(jù)本身獲取監(jiān)督信號訓(xùn)練網(wǎng)絡(luò),不需要對數(shù)據(jù)進(jìn)行大量標(biāo)注。此外,這類模型的空間復(fù)雜度與節(jié)點(diǎn)數(shù)無關(guān),避免將整個(gè)大規(guī)模圖輸入GCN 模型導(dǎo)致爆炸性的空間復(fù)雜性,相反,此類模型將大圖劃分成實(shí)例對,只需要調(diào)整批量大小或子圖大小以滿足內(nèi)存約束,適合用于數(shù)據(jù)量大、缺乏標(biāo)記數(shù)據(jù)的場景。

        2.1.3 小結(jié)

        基于DNN及GNN的深度學(xué)習(xí)方法,能夠更高效地對圖數(shù)據(jù)中豐富且復(fù)雜的信息進(jìn)行表示,但是相比傳統(tǒng)方法較為復(fù)雜,導(dǎo)致時(shí)間和計(jì)算資源成本增加?;谏疃葘W(xué)習(xí)的屬性圖異常檢測方法通常采用自編碼器、GNN 和GAN 等模型作為特征提取器來學(xué)習(xí)屬性圖中穩(wěn)健的特征,并使用殘差分析的方法通過重構(gòu)誤差定義異常分?jǐn)?shù)來檢測圖中的異常模式。基于關(guān)系學(xué)習(xí)的方法通過端到端的學(xué)習(xí),可以聯(lián)合訓(xùn)練深層神經(jīng)網(wǎng)絡(luò),同時(shí)優(yōu)化輸出空間中包含超球面的數(shù)據(jù),但是對于高維數(shù)據(jù),訓(xùn)練時(shí)間和模型更新時(shí)間可能更長。基于對比自監(jiān)督學(xué)習(xí)的方法通常將圖拆分為獨(dú)立的輕量級實(shí)例對,而非全圖訓(xùn)練,可以靈活適用于大規(guī)模屬性圖。依據(jù)本節(jié)的模型介紹,表2中對各類基于深度學(xué)習(xí)的靜態(tài)屬性圖異常檢測方法進(jìn)行了分析與總結(jié)。

        表2 基于深度學(xué)習(xí)的靜態(tài)屬性圖異常檢測方法對比Table 2 Comparison of deep learning based attribute graph anomaly detection methods

        2.2 動(dòng)態(tài)屬性圖異常檢測方法

        2.2.1 基于深度神經(jīng)網(wǎng)絡(luò)的方法

        動(dòng)態(tài)屬性圖因其靈活和不斷變化的特性,檢測異常并非易事?,F(xiàn)有的圖表示學(xué)習(xí)方法多數(shù)都是針對靜態(tài)圖而設(shè)計(jì),無法捕捉到動(dòng)態(tài)圖的演化趨勢。為此,Yu等人[58]提出NetWalk模型,對不斷變化的圖進(jìn)行表示學(xué)習(xí),以達(dá)到動(dòng)態(tài)檢測異常值的目的。該模型為了更好處理動(dòng)態(tài)圖中不斷更新的節(jié)點(diǎn)和邊,專門設(shè)計(jì)了一個(gè)reservior sampling方法來更新節(jié)點(diǎn)表示,維護(hù)每個(gè)節(jié)點(diǎn)大小不變的reservoir,最后通過動(dòng)態(tài)聚類的方法識別異常節(jié)點(diǎn)。模型泛化能力較強(qiáng),但當(dāng)圖動(dòng)態(tài)變化時(shí),模型需全面更新所有游走路徑并重新訓(xùn)練新的路徑,且根據(jù)頂點(diǎn)或邊表示的維度動(dòng)態(tài)更新聚類中心,導(dǎo)致時(shí)間復(fù)雜度較高。

        NetWalk 方法在一定程度上做到了動(dòng)態(tài)檢測,但只是更新邊的表示,沒有考慮到時(shí)序因素,無法持續(xù)對動(dòng)態(tài)數(shù)據(jù)流進(jìn)行實(shí)時(shí)性檢測。長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在1997 年被提出[59],適用于處理與時(shí)間序列高度相關(guān)的問題,在異常檢測方面被廣泛應(yīng)用。

        Yuan等人[60]提出一種多源長短期記憶網(wǎng)絡(luò)M-LSTM用來檢測維基百科中的異常用戶,其采用多個(gè)LSTM捕捉用戶編輯行為的不同方面,并進(jìn)一步使用注意力機(jī)制動(dòng)態(tài)學(xué)習(xí)每個(gè)方面的重要性。該模型不需要啟發(fā)式規(guī)則也不需要手工設(shè)計(jì)的特征,通過編輯序列自動(dòng)學(xué)習(xí)用戶嵌入,并在帶有標(biāo)記的數(shù)據(jù)集上進(jìn)行訓(xùn)練,但實(shí)際上異常用戶的數(shù)據(jù)十分稀少,手動(dòng)標(biāo)記大量異常數(shù)據(jù)很繁瑣。

        Zheng 等人[61]提出將GAN 和LSTM 混合使用來檢測異常的方法,用來解決異常數(shù)據(jù)不足的問題。模型先采用LSTM 自編碼器將正常用戶編碼到隱藏空間得到正常用戶表示,其次訓(xùn)練一個(gè)改進(jìn)的互補(bǔ)GAN,其中生成器生成良性用戶的互補(bǔ)樣本與惡意用戶具有相同的分布,訓(xùn)練后可以通過鑒別器檢測出惡意用戶。該模型避免了手動(dòng)添加異常用戶的繁瑣步驟,適用于檢測不同類型的異常用戶,并且經(jīng)過訓(xùn)練后用戶一旦提交新的動(dòng)作,就會自適應(yīng)地更新用戶表示,可實(shí)時(shí)預(yù)測異常用戶。

        2.2.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法

        為了更好地捕獲動(dòng)態(tài)圖中長時(shí)和短時(shí)特征,許多研究者將GNN 和LSTM 或門控循環(huán)單元(gated recurrent unit,GRU)[62]結(jié)合進(jìn)行動(dòng)態(tài)圖異常檢測。郭嘉琰等人[63]使用LSTM 獲取每一時(shí)刻的全局信息,結(jié)合GCN 提取整個(gè)動(dòng)態(tài)圖的結(jié)構(gòu)和屬性特征進(jìn)行異常檢測,該模型關(guān)注圖的全局信息,并以無監(jiān)督方式學(xué)習(xí)。

        文獻(xiàn)[64]提出半監(jiān)督模型AddGraph,如圖5 所示,在GCN 的基礎(chǔ)上使用基于上下文注意力的GRU 模型以支持時(shí)間信息,GCN 從每個(gè)時(shí)間戳的圖形快照生成節(jié)點(diǎn)嵌入,隨后GRU 從節(jié)點(diǎn)嵌入以及之前時(shí)刻的隱藏狀態(tài)中學(xué)習(xí)當(dāng)前的隱藏狀態(tài),用于計(jì)算每條邊的異常概率。該模型可以從每個(gè)圖快照之間的依賴關(guān)系中捕獲更具代表的結(jié)構(gòu)信息,同時(shí)結(jié)合屬性還有時(shí)間特征靈活地檢測異常邊,并通過負(fù)采樣和邊際損失策略緩解了異常數(shù)據(jù)不足的問題。

        圖5 AddGraph模型結(jié)構(gòu)Fig.5 Framework of AddGraph model

        與AddGraph 中檢測異常邊不同,LRGCN 方法[65]對時(shí)間演化網(wǎng)絡(luò)中的路徑分類問題進(jìn)行研究,以檢測故障路徑。該模型利用節(jié)點(diǎn)之間和時(shí)間快照之間對時(shí)間的依賴性關(guān)系進(jìn)行建模,獲得每個(gè)節(jié)點(diǎn)的隱藏表示,并提出一種新的路徑表示方法SAPE,將圖中任意長度的路徑編碼成固定長度的表示向量來進(jìn)行異常路徑預(yù)測。此方法解決了路徑分類問題并可以預(yù)測異常,具有較高的可解釋性,但模型設(shè)計(jì)復(fù)雜,實(shí)際應(yīng)用性不高。

        上述模型中的方法側(cè)重于學(xué)習(xí)良好的節(jié)點(diǎn)表示,而忽略了動(dòng)態(tài)圖中與目標(biāo)節(jié)點(diǎn)相關(guān)的子圖結(jié)構(gòu)變化。文獻(xiàn)[66]通過挖掘不尋常的子圖結(jié)構(gòu)來檢測異常邊緣,為了表示特定的子圖結(jié)構(gòu)信息,模型引入節(jié)點(diǎn)標(biāo)記函數(shù)為每個(gè)節(jié)點(diǎn)生成標(biāo)簽,分析給定時(shí)間窗口的標(biāo)記子圖來預(yù)測目標(biāo)邊的類別。該模型不需要對節(jié)點(diǎn)進(jìn)行表示學(xué)習(xí),并且靈活性高,任何捕捉時(shí)間信息的網(wǎng)絡(luò)都可以用于該模型。

        在對動(dòng)態(tài)圖進(jìn)行時(shí)空特征提取時(shí),多數(shù)模型[64,66]分別使用兩個(gè)獨(dú)立模塊如:GCN模塊獲取空間知識,GRU模塊捕獲時(shí)間信息進(jìn)行建模,容易導(dǎo)致捕捉耦合信息能力不足的問題。Liu等人[67]中提出一種基于Transformer的動(dòng)態(tài)圖異常檢測框架TADDY,設(shè)計(jì)綜合的節(jié)點(diǎn)編碼方法來覆蓋足夠的時(shí)間與空間信息,并通過一個(gè)單一Transformer 變換器進(jìn)行耦合。其中節(jié)點(diǎn)編碼綜合全局空間、局部空間以及時(shí)間信息等多種知識,可以對不斷演化的節(jié)點(diǎn)角色進(jìn)行高質(zhì)量的表示學(xué)習(xí)。

        2.2.3 小結(jié)

        與靜態(tài)圖不同,動(dòng)態(tài)圖隨時(shí)間變化不斷更新,其中不僅包含豐富的圖上屬性,還包含其時(shí)間屬性?,F(xiàn)有針對動(dòng)態(tài)圖進(jìn)行異常檢測的方法,基本都是將動(dòng)態(tài)圖看作一序列時(shí)間快照進(jìn)行處理,主要采用自編碼器、GNN、LSTM、GRU等深度學(xué)習(xí)模型考慮每個(gè)圖快照在不同時(shí)間戳中所包含的時(shí)間與空間信息,大多數(shù)情況下時(shí)空信息是耦合的,需要同時(shí)捕獲,現(xiàn)有的解決方案如文獻(xiàn)[64,66]普遍使用時(shí)間模塊和空間模塊疊加的混合模型,分別用于捕獲時(shí)間及空間信息,但是可能會丟失一些交叉信息,耦合性能較弱。其次,動(dòng)態(tài)圖隨時(shí)間演化,部分演化較慢的異常難以區(qū)分,而且對動(dòng)態(tài)圖表示學(xué)習(xí)方法的設(shè)計(jì)以及對數(shù)據(jù)進(jìn)行實(shí)時(shí)檢測也是難點(diǎn)所在。

        依據(jù)本節(jié)的模型介紹,表3 從模型、發(fā)表年份、機(jī)制、優(yōu)勢和局限性以及適用場景等多方面比較總結(jié)了部分動(dòng)態(tài)屬性圖中的異常檢測方法,不同的方法都有其自身的優(yōu)勢和局限性,在具體的應(yīng)用中應(yīng)該根據(jù)其構(gòu)造的屬性圖以及可能產(chǎn)生的異常類型選取合適的檢測方法。

        表3 基于深度學(xué)習(xí)動(dòng)態(tài)屬性圖方法對比Table 3 Comparison of deep learning based dynamic attribute graph anomaly detection methods

        3 實(shí)驗(yàn)分析

        基于屬性圖的異常檢測研究具有多種類型模式,對于不同的模式需選擇不同數(shù)據(jù)集以及評價(jià)指標(biāo)。本章主要對部分靜態(tài)屬性圖異常檢測方法的實(shí)驗(yàn)結(jié)果進(jìn)行對比分析。首先介紹三個(gè)實(shí)驗(yàn)所用的公開數(shù)據(jù)集的基本情況,為了驗(yàn)證深度學(xué)習(xí)方法在靜態(tài)屬性圖異常檢測中的有效性,通過經(jīng)典的深度學(xué)習(xí)方法與傳統(tǒng)方法在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行分析。

        3.1 數(shù)據(jù)集及評價(jià)指標(biāo)介紹

        (1)數(shù)據(jù)集

        本實(shí)驗(yàn)使用的3 個(gè)數(shù)據(jù)集為BlogCatalog、Flickr 和ACM。表4對這3個(gè)數(shù)據(jù)集的信息進(jìn)行相關(guān)總結(jié)。

        表4 數(shù)據(jù)集信息Table 4 Datasets information

        (2)評價(jià)指標(biāo)

        屬性圖異常檢測通常用準(zhǔn)確率、召回率、AUC進(jìn)行衡量,選取的評價(jià)指標(biāo)需要視具體情況而定。例如數(shù)據(jù)不平衡,異常數(shù)據(jù)很少時(shí),學(xué)習(xí)到的模型對任意一個(gè)樣例預(yù)測基本都是正常的,模型會得到非常高的準(zhǔn)確率,但是該模型基本無法檢測到異常,不能代表此模型有很強(qiáng)的性能。AUC 值從統(tǒng)計(jì)角度來看,表示隨機(jī)選擇異常實(shí)例比正常實(shí)例更高的概率,所以在大多數(shù)文獻(xiàn)中,這種評價(jià)指標(biāo)來衡量模型性能是最常用的,本節(jié)采用AUC值對模型的性能進(jìn)行對比。

        3.2 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)展示并分析在BlogCatalog、Flickr、ACM 數(shù)據(jù)集上不同算法的結(jié)果,各個(gè)算法在3個(gè)不同數(shù)據(jù)集上的AUC指數(shù)如表5所示。

        表5 實(shí)驗(yàn)結(jié)果對比Table 5 Comparison of experimental results

        其中,LOF 是經(jīng)典的基于密度的方法,檢測密度較低且只考慮屬性信息的異常,SCAN方法基于結(jié)構(gòu)相似度對頂點(diǎn)進(jìn)行聚類,只考慮結(jié)構(gòu)層面的異常,這兩類方法只通過單一的模態(tài)信息進(jìn)行異常檢測,沒有充分利用屬性圖上的信息,取得AUC 值較低。AMEN 使用結(jié)構(gòu)和屬性信息從自我網(wǎng)絡(luò)角度識別鄰域異常,此方法只能識別鄰域異常并高度依賴于觀察到的節(jié)點(diǎn)交互,但是在屬性圖中,圖結(jié)構(gòu)可能非常稀疏,而且學(xué)習(xí)能力有限,導(dǎo)致效果也并不太好。Rader和Anomalous通過計(jì)算殘差和識別異常來區(qū)分原始數(shù)據(jù)和預(yù)測數(shù)據(jù),該類型方法對屬性信息和結(jié)構(gòu)信息進(jìn)行聯(lián)合建模,較以上3種方法取得不錯(cuò)的性能,但其在處理屬性網(wǎng)絡(luò)稀疏性、數(shù)據(jù)非線性和復(fù)雜模態(tài)交互問題時(shí)仍受淺層機(jī)制限制。Dominant使用深度學(xué)習(xí)方法通過GCN聚合鄰居特征學(xué)習(xí)節(jié)點(diǎn)良好的表示,GCN 可以處理具有多層非線性變換的高階節(jié)點(diǎn)交互,有效緩解網(wǎng)絡(luò)稀疏性問題,但是只使用單個(gè)GCN 編碼器,無法聯(lián)合捕捉兩個(gè)模態(tài)信息之間的復(fù)雜交互。AnomalyDAE 使用兩個(gè)獨(dú)立自編碼器分別從兩個(gè)角度學(xué)習(xí)屬性和結(jié)構(gòu)之間的跨模態(tài)交互,并引入圖注意力機(jī)制有針對性聚合鄰居信息,達(dá)到比較好的結(jié)果。根據(jù)上述實(shí)驗(yàn)結(jié)果及分析表明:基于深度學(xué)習(xí)的方法在屬性圖異常檢測中具有良好的效果。

        4 應(yīng)用場景

        屬性圖異常檢測廣泛應(yīng)用于社會中的各個(gè)領(lǐng)域。在金融欺詐檢測、入侵檢測、電信欺詐交易檢測以及虛假新聞檢測等領(lǐng)域發(fā)揮著至關(guān)重要的作用。

        (1)金融欺詐檢測

        網(wǎng)上金融服務(wù)給人們提供便利的同時(shí),也產(chǎn)生許多金融欺詐,例如電信交易欺詐、保險(xiǎn)欺詐等,用戶之間豐富的交互形成一個(gè)大型網(wǎng)絡(luò)。早在2010年,Li等人[70]開始使用基于子圖的結(jié)構(gòu)來檢測交易網(wǎng)絡(luò)中的潛在欺詐案件。Liu等人[71]提出一種用于惡意賬戶檢測的圖神經(jīng)網(wǎng)絡(luò),Wang等人[50]從多個(gè)視圖進(jìn)行欺詐檢測,都展現(xiàn)出不錯(cuò)的效果。在后續(xù)應(yīng)用中,可以多加關(guān)注實(shí)時(shí)檢測或者預(yù)測欺詐的發(fā)生,如Hu 等人[72]使用基于元路徑的圖嵌入方法預(yù)測用戶的現(xiàn)金流出,使用戶避免遭受巨大損失。

        (2)虛假評論檢測

        淘寶、京東、亞馬遜等許多購物網(wǎng)站成為垃圾評論所處的平臺。欺詐的評論者受到利益驅(qū)使編造撰寫虛假評論,分別不真實(shí)地提升或者損害商家聲譽(yù),導(dǎo)致用戶對商家產(chǎn)生不公正的看法。針對虛假評論檢測,最開始使用行為分析和語言文本分析[73-74]例如提取如評論長度、發(fā)表時(shí)間、評論時(shí)間等特征,并基于規(guī)則挖掘發(fā)現(xiàn)可疑評論,隨后,Akoglu 等人[75]提出利用關(guān)系分析和網(wǎng)絡(luò)效應(yīng),從欺詐評論家之間的聯(lián)系來檢測虛假評論,Wang等人[76]使用一種新的傳播算法捕捉評論者、評論和商鋪之間的關(guān)系,定義誠實(shí)可信度分?jǐn)?shù)來檢測垃圾評論。

        (3)拍賣欺詐檢測

        雅虎、eBay等購物網(wǎng)站是拍賣欺詐最多的平臺,在2008 年美國聯(lián)邦互聯(lián)網(wǎng)犯罪中心就接到拍賣投訴約占總投訴25%,網(wǎng)上拍賣活動(dòng)中,賣家不將購買商品交付給買家的“不交付欺詐”約占33%之多[77]。文獻(xiàn)[78]最早提出基于圖數(shù)據(jù)的拍賣欺詐檢測方法,通過對eBay 數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)拍賣過程中的欺詐者。文獻(xiàn)[79]開發(fā)了一個(gè)基于RMN 的關(guān)系分類模型,用來捕獲節(jié)點(diǎn)屬性包括誠實(shí)、同謀、欺詐者之間的復(fù)雜關(guān)聯(lián),并使用LBP進(jìn)行推理。

        (4)電信欺詐檢測

        電信詐騙問題給用戶造成大量財(cái)產(chǎn)損失,2017年電信欺詐造成損失高達(dá)292 億美元,占全球估計(jì)收入的1.69%。大量電信欺詐檢測方法涌現(xiàn),Cortes等人[80]通過每個(gè)電信賬戶構(gòu)建子圖,動(dòng)態(tài)衡量不同賬戶之間的通話頻率和時(shí)間,根據(jù)觀察到的知識來檢測欺詐賬號。Liu等人[81]提出一種用于電信欺詐的圖表示模型,建立用戶和通信關(guān)系圖,通過注意力機(jī)制自適應(yīng)的組合其聯(lián)系人來決定賬戶的表示,在識別欺詐電話方面取得不錯(cuò)的效果。

        (5)虛假新聞檢測

        虛假新聞包括娛樂、經(jīng)濟(jì)、政治等領(lǐng)域的多種不實(shí)新聞,擾亂社會秩序和穩(wěn)定,給人們思想以及生活帶來不小的影響。針對新聞發(fā)表用戶、內(nèi)容、評論等可以構(gòu)建圖模型進(jìn)行異常檢測,識別虛假新聞以及傳播者。Shu 等人[82]采用基于上下文的方法,利用從用戶社交媒體資料中獲得用戶元信息作為檢測虛假新聞的特征,Mishra等人[83]用GNN學(xué)習(xí)其他用戶特征例如濫用政治觀點(diǎn)和立場進(jìn)行假新聞的檢測任務(wù),文獻(xiàn)[84]將新聞和新聞發(fā)布者建模為圖,提出了一種新的圖神經(jīng)網(wǎng)絡(luò),利用社交媒體用戶的信息轉(zhuǎn)播行為檢測虛假新聞。

        5 研究展望

        隨著圖數(shù)據(jù)的研究與發(fā)展,屬性圖被越來越多地應(yīng)用于復(fù)雜系統(tǒng)進(jìn)行建模,特別是對現(xiàn)實(shí)世界產(chǎn)生的屬性網(wǎng)絡(luò)進(jìn)行異常檢測,逐漸得到國內(nèi)外學(xué)者的廣泛關(guān)注,將深度學(xué)習(xí)引入屬性圖異常檢測問題,取得明顯的優(yōu)勢。本文總結(jié)了近年來最新的屬性圖異常檢測模型,比較分析各個(gè)模型的特點(diǎn)與差異。雖然基于深度學(xué)習(xí)的屬性圖異常檢測方法在解決圖數(shù)據(jù)稀疏性、數(shù)據(jù)非線性以及結(jié)構(gòu)信息和屬性信息的交互等方面表現(xiàn)優(yōu)異,但也面臨著一些亟待解決的問題。

        (1)模型效率與泛化性:面對現(xiàn)實(shí)世界中復(fù)雜任務(wù)形成的大規(guī)模網(wǎng)絡(luò),其中甚至包含數(shù)以百萬的節(jié)點(diǎn)、邊及其屬性信息,基于大規(guī)模網(wǎng)絡(luò)形成的圖數(shù)據(jù)具有海量高維的特征?,F(xiàn)有的異常檢測模型中,需要將圖數(shù)據(jù)作為輸入進(jìn)行分析,而深度學(xué)習(xí)技術(shù)不僅對硬件要求高,同時(shí)需要較長的訓(xùn)練時(shí)間,因此圖規(guī)模的不斷擴(kuò)大會直接導(dǎo)致算法耗時(shí)過長、內(nèi)存消耗急劇增加。其次,大多數(shù)異常檢測方法都針對特定領(lǐng)域建模,對異常的定義各不相同,導(dǎo)致算法普適性較低,泛化能力弱。

        (2)動(dòng)態(tài)性與實(shí)時(shí)性:動(dòng)態(tài)屬性圖不斷變化的結(jié)構(gòu)和屬性信息給異常檢測帶來極大挑戰(zhàn),例如為了檢測動(dòng)態(tài)屬性圖中的異常,將其按時(shí)間戳劃分成時(shí)間快照的方法無法精確地捕捉到圖中對象的演化模式特征;其次在整個(gè)動(dòng)態(tài)演化過程中重復(fù)利用靜態(tài)圖表示學(xué)習(xí)方法進(jìn)行學(xué)習(xí),會耗費(fèi)極大的代價(jià),降低模型的運(yùn)行效率,且動(dòng)態(tài)圖中對異常的實(shí)時(shí)檢測也是難點(diǎn)之一。

        (3)異常罕見性:現(xiàn)實(shí)世界中由于異常的罕見特性,異常對象的數(shù)量遠(yuǎn)小于正常對象,且深度學(xué)習(xí)模型依賴于訓(xùn)練數(shù)據(jù),這種數(shù)據(jù)不均衡現(xiàn)象將導(dǎo)致模型捕捉正常和異常數(shù)據(jù)差異的能力降低,并可能導(dǎo)致異常數(shù)據(jù)過擬合,成為檢測異常的一大障礙。

        (4)可解釋性:模型的可解釋性是一種較為主觀的性質(zhì),目前可解釋性差也是深度學(xué)習(xí)最大的缺陷之一?;趫D數(shù)據(jù)的異常檢測技術(shù)的可解釋性有助于幫助更好地理解異常以及異常分?jǐn)?shù),使分析人員從模型中獲取更多的有用信息,對后續(xù)異常處理過程至關(guān)重要,但現(xiàn)有的工作通常缺乏可解釋能力。

        隨著大數(shù)據(jù)技術(shù)的發(fā)展,屬性圖數(shù)據(jù)因其海量、高維、動(dòng)態(tài)、異構(gòu)且具有豐富屬性信息等特點(diǎn)給異常檢測帶來了極大挑戰(zhàn),綜上所述,后續(xù)研究可以分為以下幾個(gè)方面。

        (1)大規(guī)模屬性圖異常檢測:針對此問題可以從3個(gè)方面著手。首先可以研究更有效的網(wǎng)絡(luò)表示方法,在最大程度保留原始圖結(jié)構(gòu)的基礎(chǔ)上進(jìn)行降維,得到高維數(shù)據(jù)的特征表示。其次可以采用模型壓縮的方法,例如剪枝處理去除冗余參數(shù)。此外,還可以采用分布式并行處理的方法,降低模型復(fù)雜度,充分利用現(xiàn)有資源。隨著數(shù)據(jù)量的不斷增大,基于大規(guī)模高維屬性圖數(shù)據(jù)異常檢測方法的研究是未來的重點(diǎn)之一。

        (2)不平衡屬性圖異常檢測:為了解決屬性圖數(shù)據(jù)的不平衡性,可以在屬性圖異常檢測中可以考慮采用對抗生成的思想解決異常數(shù)據(jù)缺少的問題,或在采用圖神經(jīng)網(wǎng)絡(luò)時(shí)多考慮其過度平滑問題所帶來的影響,也可以在數(shù)據(jù)集中通過異常注入生成合成數(shù)據(jù)集來驗(yàn)證方法的有效性。

        (3)動(dòng)態(tài)屬性圖異常檢測:為了更好地適應(yīng)于動(dòng)態(tài)數(shù)據(jù),可設(shè)計(jì)用于動(dòng)態(tài)圖的表示學(xué)習(xí)方法,獲得演化時(shí)刻的特征表示;其次可以采用時(shí)間窗口來提取特征或計(jì)算正常的節(jié)點(diǎn)活動(dòng),但如何選擇合適的時(shí)間窗口以檢測不同類型的異常仍舊是一個(gè)開放性問題。

        (4)異構(gòu)屬性圖異常檢測:異構(gòu)屬性圖是一種特殊的圖,其包含不同類型的節(jié)點(diǎn)和邊,現(xiàn)有的方法大多只針對于同構(gòu)圖,忽略了對異構(gòu)圖中不同類型圖對象的異常檢測。對此,設(shè)計(jì)針對于異構(gòu)屬性圖的異常檢測方法也是很有前景的研究方向。

        (5)統(tǒng)一檢測框架與評價(jià)指標(biāo):現(xiàn)有模型的普適性較低,沒有通用的異常檢測框架,在評估模型性能的時(shí)候通常根據(jù)不同領(lǐng)域進(jìn)行分析選取合適的評價(jià)指標(biāo)。因此,在未來的研究中,可以構(gòu)建一個(gè)應(yīng)用于不同類型異常檢測的統(tǒng)一框架模型,同時(shí)捕獲各個(gè)類型的異常,并建立統(tǒng)一的衡量異常的評價(jià)算法指標(biāo)。

        (6)屬性圖異常檢測可解釋性:目前,對各種方法的可解釋工作十分缺少,后續(xù)針對此問題的研究,可以設(shè)計(jì)專門的解釋機(jī)制,集成到異常檢測框架中,進(jìn)行準(zhǔn)確、穩(wěn)定、合理的解釋。也可以通過圖表、對比圖等形式進(jìn)行輔助,可視化呈現(xiàn)出異常與正常數(shù)據(jù)之間的差異,給出可解釋的結(jié)果。

        猜你喜歡
        深度檢測信息
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        小波變換在PCB缺陷檢測中的應(yīng)用
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        最新在线观看免费的a站国产| 色偷偷av男人的天堂| 每天更新的免费av片在线观看| 亚洲伊人久久成人综合网| 色中文字幕视频在线观看| 亚洲av老熟女一区二区三区| 欧美丰满熟妇bbbbbb| 欧美粗大无套gay| 亚洲无码性爱视频在线观看| 亚洲中文字幕一二区精品自拍 | 国产91精品在线观看| 无码人妻丰满熟妇啪啪网站| 亚洲日韩乱码中文无码蜜桃臀| 日日噜噜噜夜夜爽爽狠狠视频| 亚洲综合在不卡在线国产另类| 日本丰满熟妇videossexhd| 一本大道久久香蕉成人网| 亚洲av午夜成人片精品| 免费人成黄页网站在线一区二区| 日韩av无码一区二区三区不卡| 日日躁夜夜躁狠狠躁超碰97| 欧美日韩国产乱了伦| 99精品久久精品一区| 人妻少妇无码精品视频区| AV无码最在线播放| 黄色网页在线观看一区二区三区| 成人国产激情自拍视频| 无码精品久久久久久人妻中字| 亚洲av日韩av综合aⅴxxx| 国产自拍伦理在线观看| 精品香蕉99久久久久网站| www国产精品内射熟女| 中文字幕有码在线视频| 国产精品黑丝美腿美臀| 国产精品户外野外| 亚洲日本va99在线| 中国黄色偷拍视频二区| 国内精品久久久久影院薰衣草 | 亚洲女同性恋第二区av| 亚洲av无码国产精品色午夜字幕| 国产精品高潮呻吟av久久无吗|