亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖神經(jīng)網(wǎng)絡(luò)的不平衡欺詐檢測研究

        2023-11-18 03:32:36陳安琪鄺祝芳黃華軍
        計(jì)算機(jī)工程 2023年11期
        關(guān)鍵詞:欺詐鄰域損失

        陳安琪,陳 睿,鄺祝芳,黃華軍

        (1.中南林業(yè)科技大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,長沙 410004;2.湖南財(cái)政經(jīng)濟(jì)學(xué)院 信息技術(shù)與管理學(xué)院,長沙 410205)

        0 概述

        欺詐檢測是一種尋找具有虛假行為的數(shù)據(jù)點(diǎn)的過程,它以欺詐偵測[1]、網(wǎng)絡(luò)監(jiān)控[2]、公共安全和保安[3]、入侵檢測[4]、醫(yī)療問題[5]、金融欺詐[6]等形式在人們身邊發(fā)生。因此,欺詐檢測是保證網(wǎng)絡(luò)用戶安全的一項(xiàng)重要任務(wù)。由于圖可以對(duì)現(xiàn)實(shí)世界中的關(guān)系進(jìn)行良好建模[7],隨著圖形數(shù)據(jù)變得無處不在,基于圖形的欺詐檢測[8]已經(jīng)成為當(dāng)前研究的焦點(diǎn)。

        基于圖的欺詐檢測可以幫助用戶找到垃圾郵件發(fā)送者[9]、惡意信息的擴(kuò)散[10]、虛假評(píng)論[11]或惡意活動(dòng)[12]。通過分析大型圖形來發(fā)現(xiàn)異常也可以得到關(guān)于圖形結(jié)構(gòu)的重要和有趣的信息,基于圖的欺詐檢測旨在區(qū)分圖數(shù)據(jù)中的欺詐者和普通用戶,本質(zhì)上是圖上的半監(jiān)督二元節(jié)點(diǎn)分類問題。與傳統(tǒng)的基于圖的模型相比,基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)的方法可以以端到端和半監(jiān)督的方式進(jìn)行訓(xùn)練,這節(jié)省了大量的特征工程和數(shù)據(jù)標(biāo)注成本,被廣泛用于檢測欺詐者。文獻(xiàn)[13]致力于調(diào)查基于圖的欺詐檢測中的上下文、特征和關(guān)系不一致問題。為了增強(qiáng) GNN 中的聚合過程,根據(jù)預(yù)定義的閾值過濾節(jié)點(diǎn)的不同鄰居。文獻(xiàn)[14]通過強(qiáng)化學(xué)習(xí)對(duì)每個(gè)節(jié)點(diǎn)的一跳鄰域進(jìn)行自適應(yīng)采樣選擇與中心節(jié)點(diǎn)更相似的鄰居節(jié)點(diǎn)聚合。然而,在欺詐檢測任務(wù)中,欺詐者的人數(shù)可能遠(yuǎn)遠(yuǎn)少于良性用戶,這些模型并未考慮圖數(shù)據(jù)存在不平衡的問題。

        文獻(xiàn)[15]提出一個(gè)以類為條件的對(duì)抗正則化器和一個(gè)潛在分布對(duì)齊正則化器,但不能擴(kuò)展到大圖。文獻(xiàn)[16]通過對(duì)多數(shù)類進(jìn)行欠采樣,對(duì)少數(shù)類進(jìn)行過采樣來解決類不平衡問題,但它無法自適應(yīng)更新采樣節(jié)點(diǎn)的數(shù)量,可能會(huì)將多數(shù)類節(jié)點(diǎn)錯(cuò)分為少數(shù)類節(jié)點(diǎn)。文獻(xiàn)[17]提出不平衡導(dǎo)向分類模塊檢測,通過最小化每個(gè)類中誤分類錯(cuò)誤率的平均值緩解類別不平衡,但時(shí)間復(fù)雜度過高,且實(shí)驗(yàn)效果不明顯。

        針對(duì)圖上的類不平衡問題,將其細(xì)分為鄰域不平衡和中心不平衡。根據(jù)節(jié)點(diǎn)類型和關(guān)系類型可以將圖劃分為同質(zhì)圖和異質(zhì)圖,同質(zhì)圖表示圖中的節(jié)點(diǎn)類型和關(guān)系類型僅有一種,而異質(zhì)圖表示圖中的節(jié)點(diǎn)類型和關(guān)系類型多于一種。對(duì)于同質(zhì)圖上的類不平衡問題,鄰域不平衡和圖的拓?fù)浣Y(jié)構(gòu)有關(guān),主要是指中心節(jié)點(diǎn)的鄰域存在局部的數(shù)量不平衡;而中心不平衡是指圖中節(jié)點(diǎn)的數(shù)量不平衡。對(duì)于異質(zhì)圖上的類不平衡問題,將異質(zhì)圖轉(zhuǎn)化為多關(guān)系圖,多關(guān)系圖中節(jié)點(diǎn)類型僅有一種,每對(duì)節(jié)點(diǎn)可以有不同關(guān)系類型的邊,鄰域不平衡是指每一個(gè)關(guān)系下中心節(jié)點(diǎn)的鄰域存在不平衡,中心不平衡是指圖節(jié)點(diǎn)的數(shù)量不平衡。中心不平衡是一定存在的,而鄰域不平衡由于圖的拓?fù)浣Y(jié)構(gòu)不一定存在于每個(gè)中心節(jié)點(diǎn)的鄰域中。由于GNN 聚合機(jī)制的局限性,GNN 的性能與鄰域信息的數(shù)量和質(zhì)量高度相關(guān)。在多關(guān)系圖類不平衡的設(shè)置中,中心節(jié)點(diǎn)的大多數(shù)鄰居屬于多數(shù)類。這也是GNN 模型在類不平衡問題中性能較差的原因。例如,對(duì)欺詐中心節(jié)點(diǎn),為了不被欺詐檢測器發(fā)現(xiàn),往往會(huì)將自己隱藏在良性節(jié)點(diǎn)中,此時(shí),欺詐中心節(jié)點(diǎn)的鄰域大部分都是良性節(jié)點(diǎn),僅有少數(shù)為欺詐節(jié)點(diǎn)。

        為了解決上述的兩類不平衡問題,本文提出一種基于GNN 的鄰域與中心不平衡欺詐檢測模型(NCI-GNN)。在鄰域不平衡中,結(jié)合文獻(xiàn)[14]提出的CARE-GNN 模型的自適應(yīng)策略,提出一種多層自適應(yīng)鄰域平衡器,通過一個(gè)可學(xué)習(xí)的權(quán)重參數(shù)衡量中心節(jié)點(diǎn)與其鄰居的相似度,考慮到權(quán)重參數(shù)的誤差,使用多層網(wǎng)絡(luò)實(shí)現(xiàn)欠采樣過程;在中心不平衡中,優(yōu)化其訓(xùn)練過程,使用加權(quán)交叉熵?fù)p失函數(shù)為每個(gè)中心節(jié)點(diǎn)的損失賦予動(dòng)態(tài)權(quán)重以此達(dá)到中心平衡。

        1 理論研究

        1.1 定義

        1)異質(zhì)圖

        2)訓(xùn)練集和測試集

        訓(xùn)練集Dk={vk,xk,Yk},其中,0

        1.2 問題描述

        基于異質(zhì)圖的欺詐檢測可以描述為不平衡節(jié)點(diǎn)的二分類問題。與傳統(tǒng)的不平衡二分類問題不同,節(jié)點(diǎn)之間是相互獨(dú)立的,圖上的二分類問題需要考慮節(jié)點(diǎn)之間的依賴關(guān)系和拓?fù)浣Y(jié)構(gòu)。本文所研究的問題是如何從海量的圖形化數(shù)據(jù)中尋找異常數(shù)據(jù)。

        2 NCI-GNN 模型框架

        2.1 框架描述

        NCI-GNN 模型主要包含鄰域平衡模塊和中心優(yōu)化模塊。鄰域平衡模塊用于解決鄰域不平衡問題,中心優(yōu)化模塊用于解決中心不平衡問題。模型框架如圖1 所示,輸入為具有關(guān)系1 和關(guān)系2 的多關(guān)系圖,大寫字母為訓(xùn)練集中心節(jié)點(diǎn),標(biāo)簽已知,小寫字母為測試集節(jié)點(diǎn),標(biāo)簽未知,節(jié)點(diǎn)U、V為欺詐中心節(jié)點(diǎn),節(jié)點(diǎn)B、C、D、E為良性中心節(jié)點(diǎn)。中心節(jié)點(diǎn)的標(biāo)簽是已知的,而鄰域節(jié)點(diǎn)標(biāo)簽可能是未知的(當(dāng)中心節(jié)點(diǎn)作為鄰域節(jié)點(diǎn)時(shí)標(biāo)簽已知),xU為節(jié)點(diǎn)U的原始特征為節(jié)點(diǎn)V在第0 層的隱藏嵌入,也可以表述為表示節(jié)點(diǎn)U和節(jié)點(diǎn)V在第一層的相似性分?jǐn)?shù)。在鄰域平衡模塊中,以中心節(jié)點(diǎn)V為例,在每一層中做衡量相似度、自適應(yīng)欠采樣、關(guān)系內(nèi)聚合、關(guān)系間聚合操作,以此達(dá)到鄰域平衡。在關(guān)系內(nèi)聚合和關(guān)系間聚合時(shí),每一層都是聚合原始特征,每一層的隱藏嵌入為當(dāng)前層的關(guān)系間聚合加上前一層隱藏嵌入;在中心優(yōu)化模塊中,包含兩部分損失,即衡量相似度損失Lossmlp和圖神經(jīng)網(wǎng)絡(luò)損失Lossgnn。

        圖1 NCI-GNN 模型框架Fig.1 NCI-GNN model framework

        2.2 鄰域平衡模塊

        在鄰域平衡模塊中使用多層自適應(yīng)鄰域平衡器對(duì)中心節(jié)點(diǎn)的鄰域進(jìn)行欠采樣,主要包含相似性度量、自適應(yīng)欠采樣和鄰居聚合3 個(gè)步驟。

        步驟1為每個(gè)中心節(jié)點(diǎn)選擇與其最相似的鄰居節(jié)點(diǎn)。文獻(xiàn)[18]提出使用核函數(shù)衡量節(jié)點(diǎn)相似度,從而把相似性量化到0 和1 之間,中心節(jié)點(diǎn)與鄰居節(jié)點(diǎn)越相似,它們的距離趨近于0,則高斯核函數(shù)的值趨近于1,反之則趨近于0。由于存在鄰域不平衡問題,欺詐節(jié)點(diǎn)通常隱藏在良性節(jié)點(diǎn)中,不易區(qū)分,使用原始特征的歐氏距離衡量相似度,誤差較大,本文將多層感知機(jī)(Multilayer Perceptron,MLP)和高斯核函數(shù)相結(jié)合,提出一種可學(xué)習(xí)的適用于圖結(jié)構(gòu)數(shù)據(jù)的相似性度量,節(jié)點(diǎn)vi和它的鄰域節(jié)點(diǎn)uj在l層關(guān)系r的相似性分?jǐn)?shù)如下:

        步驟2自適應(yīng)欠采樣,通過步驟1 的操作,得到為了解決鄰域不平衡問題,僅進(jìn)行一次采樣操作是不夠的,對(duì)中心節(jié)點(diǎn)的鄰域進(jìn)行多層自適應(yīng)欠采樣,在訓(xùn)練過程中,通過增加層數(shù)進(jìn)行多次采樣來增加模型的選擇能力,為每個(gè)節(jié)點(diǎn)找到最相似的鄰居節(jié)點(diǎn)。CARE-GNN 使用強(qiáng)化學(xué)習(xí)中的多臂老虎機(jī)算法為每個(gè)關(guān)系找到一個(gè)過濾閾值,但它的獎(jiǎng)勵(lì)為確定性獎(jiǎng)勵(lì),無法精確地更新閾值,且根據(jù)兩個(gè)epoch 之間的鄰居平均距離來確定每個(gè)節(jié)點(diǎn)的過濾閾值,誤差較大。本文基于CAREGNN 的強(qiáng)化學(xué)習(xí)算法,提出使用馬爾可夫決策來為每個(gè)節(jié)點(diǎn)找到最佳的采樣鄰居。馬爾可夫決策過程可以表述為一個(gè)四元組決策過程為A0,S0,R1,S1,…,使用即時(shí)獎(jiǎng)勵(lì)來更新動(dòng)作和狀態(tài),其 中,A為動(dòng)作空間,即為采 樣閾值為狀態(tài) 空間,表示每個(gè)batch 中的節(jié)點(diǎn)的鄰居平均距離。

        步驟3鄰居聚合。GNN 通過消息傳遞聚合鄰域信息,異質(zhì)圖的聚合包括關(guān)系內(nèi)聚合和關(guān)系間聚合。GNN 模型由于存在過平滑問題一般無法拓展到多層,本文提出的NCI-GNN 是一個(gè)多層欺詐檢測模型,這里的多層并不是GNN 傳統(tǒng)意義上使用每一層的隱藏嵌入聚合多跳鄰居。NCI-GNN 在每一層聚合操作都是針對(duì)其原始鄰域和原始特征而言的,多層的目的是衡量相似度,減少M(fèi)LP 層帶來的誤差,以此來增加模型的選擇能力。在l層對(duì)中心節(jié)點(diǎn)vi,首先進(jìn)行關(guān)系內(nèi)聚合。本文使用注意力機(jī)制進(jìn)行聚合:

        其中:⊕表示合并操作符。在關(guān)系內(nèi)聚合中,每一層聚合都是對(duì)原始特征而言的,而不是上一層的隱藏嵌入。如果在每一層中都使用上一層的隱藏嵌入來聚合鄰居,必然會(huì)造成比較大的偏差,這個(gè)偏差是由于上一層的隱藏嵌入可能聚集了不相似鄰居造成的。得到了節(jié)點(diǎn)vi在關(guān)系r下l層關(guān)系內(nèi)聚合的隱藏嵌入后進(jìn)行關(guān)系間聚合,依然使用注意力機(jī)制進(jìn)行聚合。模型是一層一層訓(xùn)練的,每一層都會(huì)糾正前一層所犯的錯(cuò)誤。此外,每一層的輸入包括原始特征,這一事實(shí)使每一層能夠?qū)Σ蓸余従幼龀龈玫倪x擇,但僅通過原始特征聚合無法覆蓋足夠多的節(jié)點(diǎn)信息,上一層的隱藏嵌入仍然蘊(yùn)含著豐富的信息。因此,本文的目標(biāo)嵌入融合了原始特征及上一層的隱藏嵌入,并將在自適應(yīng)欠采樣中學(xué)習(xí)的采樣閾值作為關(guān)系間注意力權(quán)重。針對(duì)多層NCI-GNN,節(jié)點(diǎn)vi的最終嵌入如下:

        2.3 中心優(yōu)化模塊

        中心優(yōu)化模塊為每個(gè)中心節(jié)點(diǎn)的損失進(jìn)行動(dòng)態(tài)加權(quán)是為了解決中心不平衡問題,這里的中心不平衡就是樣本不均衡現(xiàn)象,現(xiàn)有的不平衡解決方法可分為兩組,即數(shù)據(jù)采樣和代價(jià)敏感學(xué)習(xí),數(shù)據(jù)采樣在一定程度上解決了正負(fù)樣本比例的失衡,但其默認(rèn)錯(cuò)誤分類代價(jià)是對(duì)稱的,即沒有考慮分類代價(jià)的不平衡。代價(jià)敏感學(xué)習(xí)通過將不同樣本的誤分代價(jià)體現(xiàn)在學(xué)習(xí)過程中,對(duì)樣本進(jìn)行加權(quán),使錯(cuò)誤分類的總代價(jià)最低,解決比例失衡問題。在訓(xùn)練過程中將錯(cuò)分代價(jià)與損失函數(shù)相結(jié)合,通過將不同類別的錯(cuò)分代價(jià)加權(quán)到損失函數(shù)上,對(duì)損失函數(shù)進(jìn)行優(yōu)化,給一個(gè)非代價(jià)敏感分類算法添加代價(jià)敏感因子,得到一個(gè)具有傾向性的算法[19]。本文的損失L 包含MLP損失和GNN 損失。

        其中:Lmlp為MLP損失函數(shù);Lgnn為GNN損失函數(shù);λ為超參數(shù)。通過重寫交叉熵?fù)p失函數(shù),并對(duì)其進(jìn)行加權(quán)來訓(xùn)練MLP 和GNN 的參數(shù)以最小化損失。二分類交叉熵?fù)p失函數(shù)如下:

        其中:p為真實(shí)標(biāo)簽集;q為預(yù)測標(biāo)簽集。

        本文將二分類交叉熵?fù)p失函數(shù)重寫為:

        其中:p(x)表示x元素的真實(shí)標(biāo)簽;q(x,p(x))表示x元素的標(biāo)簽為真實(shí)標(biāo)簽p(x)的預(yù)測概率。對(duì)L 使用該損失函數(shù),計(jì)算總損失。MLP 損失如下:

        其中:ci表示節(jié)點(diǎn)vi的真實(shí)標(biāo)簽表示節(jié)點(diǎn)vi的標(biāo)簽為真實(shí)標(biāo)簽ci的預(yù)測概率,通過softmax 函數(shù)歸一化得到。對(duì)MLP 僅考慮節(jié)點(diǎn)的原始特征,不考慮其拓?fù)浣Y(jié)構(gòu),因此節(jié)點(diǎn)之間是相互獨(dú)立的。在相互獨(dú)立的節(jié)點(diǎn)中考慮到中心節(jié)點(diǎn)不平衡問題,在Lmlp中添加了兩個(gè)權(quán)重參數(shù)α和β,其中,α表示易分錯(cuò)樣本的參數(shù),β表示數(shù)量不平衡樣本參數(shù),即:

        其中:γ為超參數(shù),一般取為2;|Vb|表示一個(gè)batch 的節(jié)點(diǎn)集的數(shù)目;Vc表示一個(gè)batch中標(biāo)簽為c的節(jié)點(diǎn)集,c?{0,1};參數(shù)α主要針對(duì)難分類樣本,當(dāng)趨近于1 時(shí),α趨近于0,說明該節(jié)點(diǎn)是易分樣本,被正確分類,對(duì)損失貢獻(xiàn)較小,相反當(dāng)很小時(shí),樣本被錯(cuò)誤分類,α趨近于1,損失函數(shù)幾乎不受影響;對(duì)參數(shù)β,本文欺詐節(jié)點(diǎn)數(shù)目遠(yuǎn)小于良性節(jié)點(diǎn),需要給欺詐節(jié)點(diǎn)賦予更高的權(quán)重。MLP 的損失函數(shù)如下:

        在GNN 中,通過節(jié)點(diǎn)之間的依賴關(guān)系得到節(jié)點(diǎn)的最終嵌入,使得欺詐節(jié)點(diǎn)中難分樣本較于MLP 層減少,而參數(shù)α是針對(duì)難分樣本的,對(duì)GNN 的優(yōu)化并不大,所以對(duì)GNN 計(jì)算損失時(shí),不考慮易分錯(cuò)樣本的參數(shù)α,僅考慮數(shù)量不平衡參數(shù)β。GNN 的損失函數(shù)如下:

        NCI-GNN 的訓(xùn)練過程如算法1 所示。

        算法1NCI-GNN 算法

        3 實(shí)驗(yàn)結(jié)果與分析

        本節(jié)評(píng)估NCI-GNN 模型在兩大真實(shí)的數(shù)據(jù)集上欺詐檢測的有效性,介紹實(shí)驗(yàn)設(shè)置在數(shù)據(jù)集中的展示結(jié)果,并對(duì)NCI-GNN 進(jìn)行消融實(shí)驗(yàn)和敏感性分析。

        3.1 數(shù)據(jù)集

        Yelp 數(shù)據(jù)集[15]:Yelp 數(shù)據(jù)集是美國最大的評(píng)論網(wǎng)站Yelp 的公開內(nèi)部數(shù)據(jù)集,涵蓋業(yè)務(wù)、評(píng)論、用戶信息等。實(shí)驗(yàn)中使用評(píng)論來構(gòu)建包含45 954 個(gè)節(jié)點(diǎn)(14.5%是欺詐評(píng)論)和3 846 979 條邊的圖。圖中的節(jié)點(diǎn)之間存在3 種類型的關(guān)系:

        1)R-U-R:同一用戶發(fā)表的評(píng)論;

        2)R-S-R:同一產(chǎn)品在同一星級(jí)下的評(píng)論;

        3)R-T-R:同一個(gè)月發(fā)布的同一產(chǎn)品的評(píng)論。

        Amazon 數(shù)據(jù)集[20]:是由Amazon 平臺(tái)創(chuàng)建的開源數(shù)據(jù)集,包含24 個(gè)產(chǎn)品類別下的超過1.4 億條評(píng)論和產(chǎn)品元數(shù)據(jù)。使用樂器下的評(píng)論,并將用戶作為圖的節(jié)點(diǎn),圖中包括11 944 個(gè)節(jié)點(diǎn)(9.5%是欺詐者)和4 398 392 條邊。圖中的節(jié)點(diǎn)之間存在3 種類型的關(guān)系:

        1)U-P-U:至少評(píng)論過同一產(chǎn)品的用戶;

        2)U-S-U:在一周內(nèi)打過相同星級(jí)的用戶;

        3)U-V-U:評(píng)論在TF-IDF 相似度方面排名前5%的用戶。

        3.2 實(shí)驗(yàn)設(shè)置及實(shí)施

        實(shí)驗(yàn)將數(shù)據(jù)集中40%的數(shù)據(jù)作為訓(xùn)練集,60%的數(shù)據(jù)作為測試集。在模型優(yōu)化中,選擇一種Adam優(yōu)化算法并將學(xué)習(xí)率設(shè)置為0.01。利用小批量訓(xùn)練技巧來提高訓(xùn)練效率[21],批量大小設(shè)置為256(Amazon)和1 024(Yelp)。節(jié)點(diǎn)的最終嵌入維度為16,NCI-GNN 模型層數(shù)為3 層。

        3.3 評(píng)價(jià)標(biāo)準(zhǔn)

        本文研究的問題是圖上不平衡節(jié)點(diǎn)的欺詐檢測,采用曲線下面積(Area Under Curve,AUC)、召回率(Recall)和F1 值作為評(píng)估指標(biāo)。AUC 表示分類模型正確判斷欺詐節(jié)點(diǎn)的值高于良性節(jié)點(diǎn)的概率。Recall 表示分類模型正確分類的欺詐節(jié)點(diǎn)與真實(shí)數(shù)據(jù)集中欺詐節(jié)點(diǎn)的比值。F1 值可以看作是分類模型準(zhǔn)確率和召回率的一種加權(quán)平均。3 個(gè)指標(biāo)的值越大,模型效果越好。

        3.4 圖不平衡分析

        鄰域不平衡:使用鄰域節(jié)點(diǎn)的標(biāo)簽信息表征鄰域不平衡。在不同關(guān)系中,和CARE-GNN 類似,計(jì)算相鄰節(jié)點(diǎn)對(duì)的平均標(biāo)簽相似度:

        其中:I(u,v)?{0,1}為指示函數(shù);Er為邊的集合。數(shù)據(jù)集統(tǒng)計(jì)分析結(jié)果如表1 所示。在Yelp 數(shù)據(jù)集中的R-T-R、R-S-R 和Yelp-ALL 關(guān)系中,相鄰節(jié)點(diǎn)之間的標(biāo)簽相似度不足10%,在Amazon 數(shù)據(jù)集的所有關(guān)系中相鄰節(jié)點(diǎn)之間的標(biāo)簽相似度不足20%,這意味欺詐中心節(jié)點(diǎn)在這些關(guān)系中連接大量的良性節(jié)點(diǎn)導(dǎo)致其鄰域不平衡。

        表1 數(shù)據(jù)集統(tǒng)計(jì)分析Table 1 Statistical analysis of data sets

        中心不平衡:在Yelp 和Amazon 數(shù)據(jù)集中僅有14.5%和9.5%的欺詐節(jié)點(diǎn),剩余為良性節(jié)點(diǎn),存在數(shù)量不平衡。

        3.5 基準(zhǔn)模型

        基準(zhǔn)模型如下 :

        GCN[22]:該模型通過在譜域中擴(kuò)展圖卷積來表示節(jié)點(diǎn)。

        GAT[23]:該模型采用注意機(jī)制并構(gòu)建圖注意網(wǎng)絡(luò)以提高嵌入性能。

        GraphSAGE[21]:是一種空間GNN 方法,提出了4 種聚合機(jī)制,并從固定數(shù)量的采樣節(jié)點(diǎn)聚合信息來表示節(jié)點(diǎn)。

        GEM[24]:該模型是一個(gè)異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型,用于在支付寶中檢測惡意賬戶。

        FdGars[25]:該模型基于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的模型,專用于檢測垃圾郵件。

        Player2Vec[26]:與GEM 類似,Player2Vec 也是基于GCN 的模型,專用于檢測地下論壇的非法交易。

        GraphConsis[13]:該模型 考慮了 圖的不 一致性,并通過基于固定閾值過濾節(jié)點(diǎn)的不同鄰居來實(shí)現(xiàn)。

        CARE-GNN[14]:該模型考慮了圖中節(jié)點(diǎn)的偽裝行為,通過自適應(yīng)閾值過濾節(jié)點(diǎn)的鄰居。

        PC-GNN[16]:該模型提出對(duì)少數(shù)類節(jié)點(diǎn)的鄰域使用過采樣,對(duì)多數(shù)類節(jié)點(diǎn)的鄰域使用欠采樣來解決圖類不平衡問題。

        NCI-GNN-N:本文所提出的模型的變體。在NCI-GNN-N 中使用固定閾值過濾鄰域節(jié)點(diǎn)。

        NCI-GNN-C:本文所提出的模型的變體。在NCI-GNN-C 中不考慮中心不平衡問題,使用標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練

        3.6 結(jié)果分析

        表2 和 表3 展示了100 個(gè)epoch 中NCI-GNN 模 型以及基準(zhǔn)模型在兩個(gè)數(shù)據(jù)集最好的測試數(shù)據(jù),其中,加粗字體為最優(yōu)值。表2 和表3 可以看出,NCI-GNN模型的性能優(yōu)于11 個(gè)基準(zhǔn)模型。對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析如下:

        表2 100 個(gè)epoch 中Yelp 數(shù)據(jù)集欺詐檢測模型的性能Table 2 Performance of the fraud detection model in the Yelp dataset in 100 epochs %

        表3 100個(gè)epoch中Amazon數(shù)據(jù)集欺詐檢測模型的性能Table 3 Performance of the fraud detection model in the Amazon dataset in 100 epochs %

        1)GCN、GAT、GraphSAGE 為GNN 的經(jīng)典模型,將這些模型直接應(yīng)用于欺詐檢測問題時(shí),并未考慮現(xiàn)實(shí)世界中欺詐者遠(yuǎn)遠(yuǎn)少于正常用戶的問題,導(dǎo)致性能較差,在這3 種模型中,GAT 的效果最好,這是由于GAT 使用注意力機(jī)制為不同的鄰居分配不同的聚合權(quán)重,使得不相似鄰居的聚合權(quán)重非常小,在一定程度上緩解了類不平衡問題。

        2)GEM、FdGars、Player2Vec、GraphConsis 和CARE-GNN 都是基于圖的欺詐檢測模型。GraphConsis 和 CARE-GNN 分別研究了圖不一致和圖節(jié)點(diǎn)的偽裝問題,其中CARE-GNN 是目前基于圖的欺詐檢測中最先進(jìn)的模型。NCI-GNN 同樣研究圖的欺詐檢測,但更關(guān)注圖類不平衡問題。實(shí)驗(yàn)結(jié)果表明,在Yelp 數(shù)據(jù)集中,NCI-GNN 模型在3 個(gè)評(píng)價(jià)指標(biāo)上 分別提升了8.16%、6.79% 和7.19%。在Amazon 數(shù)據(jù)集中,NCI-GNN 模型在3 個(gè)評(píng)價(jià)指標(biāo)上分別提升了4.33%、6.46%和2.06%。

        3)PC-GNN 是目前基于圖類不平衡的欺詐檢測中最先進(jìn)的模型。在Yelp 數(shù)據(jù)集中,NCI-GNN 模型在3 個(gè)評(píng)價(jià)指標(biāo)上分別提升了5.52%、5.42% 和4.98%。在Amazon 數(shù)據(jù)集中,NCI-GNN 模型在AUC和Recall 評(píng)價(jià)指標(biāo)中分別提升了1.57%、4.31%,F(xiàn)1 值與PC-GNN 基本持平。

        3.7 消融實(shí)驗(yàn)

        為了證明NCI-GNN 模型的有效性,本文進(jìn)行了消融實(shí)驗(yàn)。

        1)模塊有效性。為了證明鄰域平衡模塊和中心優(yōu)化模塊的有效性,提出了兩個(gè)變體模型:NCIGNN-C 和NCI-GNN-N。在表2 和表3 中,NCI-GNN相比兩個(gè)變體模型,在兩個(gè)數(shù)據(jù)集中的AUC 和Recall 指標(biāo)上都取得了較好的性能,這說明了鄰域平衡模塊和中心優(yōu)化模塊在基于圖的欺詐檢測類不平衡問題的有效性。

        2)采樣方法有效性。NCI-GNN 使用馬爾可夫決策進(jìn)行自適應(yīng)欠采樣,為了證明采樣方法的有效性,設(shè)計(jì)NCI-GNN-M1 模型,該模型使用CARE-GNN 的采樣方法進(jìn)行自適應(yīng)欠采樣。不同采樣方法有效性分析如圖2 所示。

        圖2 不同采樣方法有效性分析Fig.2 Effectiveness analysis of different sampling methods

        從圖2 的Yelp 數(shù)據(jù)集中可以看出,本文使用的采樣方法在AUC 上取得了更好的結(jié)果,在Recall 指標(biāo)上提升效果不明顯,而Recall 指標(biāo)是AUC 的縱坐標(biāo),這說明了NCI-GNN 減少了將良性節(jié)點(diǎn)分類為欺詐節(jié)點(diǎn)的概率。從Amazon 數(shù)據(jù)集中可以看出,本文使用的采樣方法在Recall 上取得了更好的結(jié)果,性能也更穩(wěn)定,在AUC 指標(biāo)上提升效果不明顯,這是由于Amazon 數(shù)據(jù)集數(shù)據(jù)量較少,節(jié)點(diǎn)之間聯(lián)系較為密切,NCI-GNN 的采樣方法能獲取更精確的采樣閾值,提升正確分類欺詐節(jié)點(diǎn)的概率。

        3)層數(shù)有效性。NCI-GNN 模型是一個(gè)三層模型,為了證明三層模型的性能,將NCI-GNN-1、NCI-GNN-2和NCI-GNN-4 分別表示一層、二層和四層模型,在圖3 中的Yelp 數(shù)據(jù)集中,可以看出將一層NCI-GNN模型拓展到多層對(duì)模型性能有較大提升,但多層NCI-GNN 模型之間性能差異受層數(shù)影響較小,二層模型已經(jīng)擁有了較好的選擇能力,四層模型效率較低且穩(wěn)定性較差。在Amazon 數(shù)據(jù)集中,一層模型較為穩(wěn)定,但性能相對(duì)較差,將其拓展到多層時(shí)會(huì)降低穩(wěn)定性,這是因?yàn)锳mazon 數(shù)據(jù)集中數(shù)量較少且每個(gè)中心節(jié)點(diǎn)都有許多鄰域節(jié)點(diǎn),多層模型會(huì)導(dǎo)致過擬合現(xiàn)象,圖中四層模型的AUC 和Recall 不如二層和三層模型,三層模型在AUC 指標(biāo)上表現(xiàn)最好,在Recall 指標(biāo)中表現(xiàn)也相對(duì)穩(wěn)定,綜合兩個(gè)數(shù)據(jù)集考慮,選定NCI-GNN 模型為三層,這也說明了本文模型在大數(shù)據(jù)集中表現(xiàn)更好。

        圖3 層數(shù)有效性分析Fig.3 Effectiveness analysis of layer number

        4)聚合方法有效性。NCI-GNN 在每一層隱藏嵌入都是用原始特征聚合加上前一層隱藏嵌入,為了證明聚合方法的有效性,設(shè)計(jì)NCI-GNN-M2、NCIGNN-M3 模型。NCI-GNN-M2 使用傳統(tǒng)的聚合方式,僅使用前一層的隱藏嵌入作為下一層的輸入特征;NCI-GNN-M3 在每一層中僅使用原始特征聚合。從圖4 的Yelp 數(shù)據(jù)集中可以看出,在42 次epoch 之后,3 個(gè)模型性能趨于穩(wěn)定,NCI-GNN 的性能明顯優(yōu)于另外2 個(gè)模型的性能,NCI-GNN-M2 模型優(yōu)于NCI-GNN-M3,這是因?yàn)樵继卣骶酆喜蛔阋员鎰e節(jié)點(diǎn)屬性,而NCI-GNN-M2 使用前一層的隱藏嵌入作為下一層的輸入特征會(huì)造成比較大的偏差,這個(gè)偏差是由于前一層的隱藏嵌入可能聚集了不相似鄰居造成的,而在Amazon 數(shù)據(jù)集中,NCI-GNN 在42 次epoch 之前的AUC 和Recall 中表現(xiàn)最好,但 在42 次epoch 之后,3 種聚合方式的性能總體來說差異并不大,這是因?yàn)锳mazon 數(shù)據(jù)集節(jié)點(diǎn)之間聯(lián)系較為緊密,通過中心優(yōu)化模塊和自適應(yīng)欠采樣操作就足以達(dá)到目前最優(yōu)的性能,聚合方式不再是主要影響因素。

        3.8 敏感性分析

        本文研究NCI-GNN 的不同嵌入維度對(duì)模型性能的影響,NCI-GNN 最終嵌入維度為16,將其修改為32、64、128,并分別在Yelp 數(shù)據(jù)集和Amazon 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5 所示。從圖5 可以看出,NCI-GNN 模型具有魯棒性,在嵌入維度為16時(shí)具有很好的性能,但太大的嵌入維度會(huì)給內(nèi)存和計(jì)算帶來負(fù)擔(dān)。

        圖5 不同維度對(duì)模型性能的影響Fig.5 Influence of different dimensions on model performance

        4 結(jié)束語

        本文提出NCI-GNN 模型來解決基于圖的欺詐檢測的兩個(gè)不平衡問題,在鄰域不平衡中,對(duì)中心節(jié)點(diǎn)鄰域進(jìn)行多層自適應(yīng)欠采樣平衡鄰域,在中心不平衡中,采用動(dòng)態(tài)加權(quán)交叉熵?fù)p失函數(shù)平衡中心節(jié)點(diǎn)。在Yelp 和Amazon 兩個(gè)欺詐數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了NCI-GNN 模型的有效性。下一步將研究圖的拓?fù)浣Y(jié)構(gòu)對(duì)圖不平衡的影響,并把NCI-GNN 模型擴(kuò)展到圖神經(jīng)網(wǎng)絡(luò)的更多應(yīng)用領(lǐng)域,提高該模型的泛化能力。

        猜你喜歡
        欺詐鄰域損失
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
        少問一句,損失千金
        胖胖損失了多少元
        稀疏圖平方圖的染色數(shù)上界
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于鄰域競賽的多目標(biāo)優(yōu)化算法
        關(guān)于-型鄰域空間
        網(wǎng)購遭欺詐 維權(quán)有種法
        精品午夜福利1000在线观看| 国产一区二区三区av天堂| 99久久久无码国产精品秋霞网| 国产成人一区二区三区在线观看| 国产精品国产三级国产专播| 国产精品女同二区五区九区| 欧美国产激情18| 无套内射无矿码免费看黄| 亚洲男人的天堂精品一区二区| 色老板在线免费观看视频日麻批| 一本色道久久婷婷日韩| 特级做a爰片毛片免费看无码| 亚洲色大成在线观看| 日本视频一区二区这里只有精品| 亚洲av无码专区国产乱码4se| 午夜精品久久久久久| 加勒比黑人在线| 国产人妖在线观看一区二区三区| 人妻丰满熟av无码区hd| 亚洲欧美综合在线天堂| 日韩不卡无码三区| 偷拍一区二区三区高清视频| 久久天天躁狠狠躁夜夜2020一| 亚洲综合色一区二区三区小说| 精品一区二区亚洲一二三区| 中文字日产幕码三区的做法大全 | 成 人 免费 黄 色 视频| 中文字幕无码免费久久99| 亚洲av手机在线观看| 亚洲av永久无码一区二区三区| 又大又粗弄得我出好多水| 女优免费中文字幕在线| 日本一级特黄aa大片| 怡红院免费的全部视频| 亚洲综合伦理| 成人av资源在线播放| 品色堂永远免费| 久久精品国产亚洲vr| 麻豆三级视频网站在线观看| 日本一道综合久久aⅴ免费 | 99久久精品无码专区无|