亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電子商務(wù)水軍檢測的新方法:自適應(yīng)鄰域精準(zhǔn)化采樣的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)

        2022-03-13 08:49:04徐瑞卿張志旺孫宏亮
        圖書情報知識 2022年6期
        關(guān)鍵詞:欺詐概率神經(jīng)網(wǎng)絡(luò)

        徐瑞卿 張志旺 孫宏亮

        (南京財經(jīng)大學(xué)信息工程學(xué)院,南京,210046)

        1 引言

        隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,欺詐檢測是一項至關(guān)重要的技術(shù),有著廣闊的前景,在安全[1]、金融[2]、醫(yī)療[3]和審查管理[4]等領(lǐng)域有許多具備影響力的應(yīng)用。例如,網(wǎng)絡(luò)商鋪通過購買水軍刷好評,來夸大自己店鋪的聲譽(yù),或者是通過惡意評論來抹黑競爭對手的評價[5]。在金融行業(yè)中,有欺詐的借貸者通過偽造良好信譽(yù)形象,或者和高信譽(yù)的人產(chǎn)生關(guān)聯(lián),來提高自己的信譽(yù),進(jìn)行欺詐。如今,欺詐檢測技術(shù)早已應(yīng)用到諸如淘寶、京東等電子商務(wù)平臺,但水軍也在提高欺詐能力,欺詐檢測的精確度仍需要進(jìn)一步提升。

        在過去已經(jīng)出現(xiàn)了許多用于檢測多維點(diǎn)集合中欺詐者的技術(shù)[6]。隨著圖數(shù)據(jù)變得無處不在,圖神經(jīng)網(wǎng)絡(luò)(GNN)技術(shù)快速發(fā)展,基于圖的欺詐檢測[7]受到了關(guān)注。從本質(zhì)上講,基于圖的欺詐檢測的基本假設(shè)是,用戶和欺詐者在購買產(chǎn)品或發(fā)布評論時有豐富的行為交互,這種交互可以表示為類似于圖的數(shù)據(jù),為欺詐檢測提供有效的多方面信息。

        圖卷積網(wǎng)絡(luò)(GCN)的核心是通過將節(jié)點(diǎn)特征傳遞給相鄰節(jié)點(diǎn)來操作圖結(jié)構(gòu)上的各種聚合函數(shù);每個節(jié)點(diǎn)聚集其鄰居的特征向量,結(jié)合其自身的特征,計算更新為新的特征向量表示。電子商務(wù)中的水軍欺詐檢測問題可以看成是圖上的節(jié)點(diǎn)分類問題,因此GCN可被用于異常檢測并且逐漸成為一種有效且常用的手段。

        最開始的基于GNN的欺詐檢測工作僅在狹窄的范圍內(nèi)應(yīng)用,而忽略了欺詐者的偽裝行為,偽裝有以下兩種類型。

        (1)特征偽裝:聰明的欺詐者可以調(diào)整自己的行為,在評論中添加特殊字符(所謂的惡意用戶),或者使用深層語言生成模型來掩蓋明顯的可疑結(jié)果[8]。這有助于繞過基于特征的檢測器,以往簡單的評分信譽(yù)系統(tǒng)漸漸失去優(yōu)勢。

        (2)關(guān)系偽裝:水軍用戶在在線社交網(wǎng)絡(luò)上積極進(jìn)行意見欺詐,他們可以調(diào)查辯護(hù)人使用的圖表,并調(diào)整他們的行為以減輕猜疑。這些狡猾的欺詐者通過連接到許多良性實體(例如,發(fā)布定期評論或連接到信譽(yù)良好的用戶)來偽裝自己[9]。

        隨著圖深度學(xué)習(xí)技術(shù)的興起,將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于欺詐檢測的研究層出不窮。遺憾的是,對于新興的欺詐節(jié)點(diǎn)的偽裝行為,目前并沒有太好的檢測方案,普通的方法對于欺詐節(jié)點(diǎn)的檢測準(zhǔn)確率較低。

        除了欺詐節(jié)點(diǎn)會有偽裝行為,電商欺詐檢測任務(wù)還存在欺詐節(jié)點(diǎn)不平衡的問題。在欺詐檢測問題中,我們會將用戶節(jié)點(diǎn)分成兩大類,一個是正常用戶,一個是欺詐用戶,正常用戶占多數(shù),欺詐用戶只占少數(shù)部分,因此兩種類別的占比分配不平衡。在機(jī)器學(xué)習(xí)中,樣本類別不平衡會影響神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的精度,因此這種節(jié)點(diǎn)類別的不平衡會影響欺詐檢測任務(wù)中對欺詐節(jié)點(diǎn)檢測的精確性。在來自Yelp的真實世界評論數(shù)據(jù)集YelpChi中,14.5%的評論是惡意用戶的評論,而其他評論被視為推薦評論[10];在阿里巴巴集團(tuán)的真實金融數(shù)據(jù)集中,只有0.5%的用戶是違約者,無法償還從金融平臺借來的信用債務(wù)[11]。因此,基于圖的欺詐檢測算法常常存在類不平衡問題,并且表現(xiàn)不佳,特別是對于少數(shù)但更重要的欺詐者。同時,專門研究類不平衡問題的圖神經(jīng)網(wǎng)絡(luò)算法還沒有得到充分的研究。

        針對上述問題,本文提出了一種基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN(Multi Graph Neural Network Based on Precise Sampling from Adaptive Neighborhood),針對類別不平衡問題,我們引入精準(zhǔn)化采樣策略,采樣后的節(jié)點(diǎn)的類別不平衡情況得到緩解;為了應(yīng)對偽裝行為,我們結(jié)合多關(guān)系神經(jīng)網(wǎng)絡(luò)的聚合機(jī)制,先對各個關(guān)系下各節(jié)點(diǎn)信息作嵌入表達(dá),再對各關(guān)系作關(guān)系間的聚合。該方法在兩個真實世界數(shù)據(jù)集Yelp和Amazon上表現(xiàn)很好,對比目前主流的方法在準(zhǔn)確性上提升了0.06%-4.73%。

        2 欺詐檢測相關(guān)研究

        現(xiàn)有的欺詐檢測模型大多數(shù)都基于圖神經(jīng)網(wǎng)絡(luò)方法。圖神經(jīng)網(wǎng)絡(luò)(GNN)的進(jìn)步使多種領(lǐng)域的有效表示學(xué)習(xí)成為可能,包括生物信息學(xué)、化學(xué)信息學(xué)、社會網(wǎng)絡(luò)、自然語言處理[12]、社會事件、推薦系統(tǒng)[13]、時空交通[14]、計算機(jī)視覺和物理學(xué),其中圖形主要是表示。GNN模型被證明能夠在大量數(shù)據(jù)集(引文網(wǎng)絡(luò)[15]、生化網(wǎng)絡(luò)[16]、社交網(wǎng)絡(luò)、知識圖、商品網(wǎng)絡(luò)、API調(diào)用網(wǎng)絡(luò)等)的不同任務(wù)上達(dá)到性能目標(biāo),如節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類、鏈接預(yù)測、圖分類[17]等。

        異構(gòu)圖在現(xiàn)實世界系統(tǒng)中無處不在。圖通常由具有多種類型的節(jié)點(diǎn)和節(jié)點(diǎn)之間的多關(guān)系邊組成。例如,在Yelp惡意用戶數(shù)據(jù)中,存在異構(gòu)節(jié)點(diǎn)(例如,業(yè)務(wù)、評論、用戶等)和關(guān)系(例如,由同一用戶發(fā)布,在同一產(chǎn)品下具有相同的星級,以及在兩次評論之間的同一月份發(fā)布的同一產(chǎn)品)?,F(xiàn)有的GNN迭代聚合機(jī)制尚未仔細(xì)考慮語義關(guān)系的多樣性和所提出模型的可用性。同質(zhì)GNN如GraphSAGE[18]、GCN[19]、GAT[20]、GIN[21]忽 略或簡化了實際網(wǎng)絡(luò)中節(jié)點(diǎn)和邊的多樣性和復(fù)雜性,不足以表示數(shù)據(jù)的異質(zhì)性。為了解決上述問題,Michael Schlichtkrull[22]等人提出了多關(guān)系GNN,在多關(guān)系GNN下,模型先將多關(guān)系拆分成一個個單關(guān)系,在各個單關(guān)系下作節(jié)點(diǎn)嵌入表示,最后匯總聚合為多關(guān)系。

        近年來,研究人員致力于解決傳統(tǒng)的基于特征的監(jiān)督學(xué)習(xí)環(huán)境中的類別失衡問題,主要分為兩個方向,即重新采樣和重新加權(quán)方法:重新采樣方法通過對少數(shù)類進(jìn)行過采樣或?qū)Χ鄶?shù)類進(jìn)行欠采樣來平衡示例數(shù)量;重新加權(quán)方法通過對成本敏感的調(diào)整或基于元學(xué)習(xí)的方法將不同的權(quán)重分配給不同的類別或甚至不同的樣本。為了解決圖上類不平衡問題,Huang等[23]提出了DR-GCN,該方法包括類條件對抗正則化其和分布對齊正則化器,但不能擴(kuò)展到大型圖。

        總體而言,雖然傳統(tǒng)特征空間中的類不平衡監(jiān)督學(xué)習(xí)得到了很好的研究,但專門研究類不平衡問題的圖神經(jīng)網(wǎng)絡(luò)算法還沒有得到充分的研究。我們的方法是在多關(guān)系的大型圖上,將各個關(guān)系先分開聚合信息,引入精準(zhǔn)化采樣機(jī)制,賦予各類別節(jié)點(diǎn)不同的采樣概率,在緩解節(jié)點(diǎn)不平衡影響的同時,化大圖為小圖,簡化算法操作,使得在大型多關(guān)系圖上的操作成為可能。

        3 基礎(chǔ)知識

        本文所提方法主要基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò),下面就相關(guān)概念和基本知識予以介紹。

        3.1 問題定義

        3.2 多關(guān)系圖神經(jīng)網(wǎng)絡(luò)

        圖神經(jīng)網(wǎng)絡(luò)(GNN)是一種深度學(xué)習(xí)框架,通過聚合來自其相鄰節(jié)點(diǎn)的信息來嵌入圖形結(jié)構(gòu)化數(shù)據(jù)。其公式原理可以表示成:

        其中,對于一個中心節(jié)點(diǎn)v,表示第l層v節(jié)點(diǎn)的隱藏嵌入表示,能將高維特征信息用低維向量表示出來,Nv表示v節(jié)點(diǎn)的鄰域節(jié)點(diǎn)集合,AGG是表示將來自鄰域信息映射到向量中的聚合函數(shù),例如均值聚合和注意力聚合。是組合節(jié)點(diǎn)信息的運(yùn)算符以及通過級聯(lián)或求和來獲得其相鄰信息,是激活函數(shù),可以是比如ReLU函數(shù)。d維特征向量xi作為初始化節(jié)點(diǎn)嵌入。

        然而我們面對的多關(guān)系圖,需要考慮圖中邊緣的復(fù)雜性和多樣性,因此基于問題定義3.1,我們可以根據(jù)不同關(guān)系從多層鄰居聚合的角度概述多關(guān)系GNN的統(tǒng)一公式。

        4 基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN

        鑒于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力和特征表示能力,本文提出一種基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN,該方法由3部分組成。具體框架如圖1所示。首先,我們對部分標(biāo)記節(jié)點(diǎn),使用二分類損失函數(shù)監(jiān)督訓(xùn)練GNN,作全圖節(jié)點(diǎn)標(biāo)簽預(yù)測。接著,設(shè)計了精準(zhǔn)化采樣策略,賦予節(jié)點(diǎn)一個采樣概率,對于不平衡的少數(shù)類節(jié)點(diǎn)給與更高的采樣概率,對于多數(shù)類的節(jié)點(diǎn)減少其采樣概率,平衡最后參與特征學(xué)習(xí)和鄰域聚合的節(jié)點(diǎn)類別,構(gòu)建用于小批量訓(xùn)練的子圖。接下來,對于每個中心節(jié)點(diǎn),在每個關(guān)系下,利用Top-p采樣以及自適應(yīng)濾波閾值來構(gòu)造每個關(guān)系下的相似鄰居,自適應(yīng)閾值p由強(qiáng)化學(xué)習(xí)學(xué)得不同關(guān)系下的動態(tài)閾值。最后,基于為每個關(guān)系選擇相似的鄰居,在關(guān)系之間聚合所有這些鄰居信息,以進(jìn)行全面嵌入并獲得目標(biāo)節(jié)點(diǎn)的最終表示,最后一層的節(jié)點(diǎn)嵌入用于預(yù)測。

        圖1 基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)模型框架圖Fig.1 Framework of Multi-relationship Graph Neural Network Based on Precise Sampling and Adaptive Neighborhood

        4.1 標(biāo)簽感知預(yù)測度量

        與無監(jiān)督相似性度量(如余弦相似性或神經(jīng)網(wǎng)絡(luò))相比,許多實際問題(如財務(wù)欺詐、疾病診斷等)需要額外的領(lǐng)域知識(例如,高保真數(shù)據(jù)注釋)來識別異常實例。為此,我們基于來自領(lǐng)域?qū)<业谋O(jiān)督信號設(shè)計了一個節(jié)點(diǎn)相似性度量,即標(biāo)簽感知神經(jīng)相似性度量。

        此任務(wù)是半監(jiān)督學(xué)習(xí)任務(wù),所以數(shù)據(jù)是不完整的,而收集全部數(shù)據(jù)需要耗費(fèi)太多的人力,故依據(jù)現(xiàn)有的部分?jǐn)?shù)據(jù),受到RioGNN[24]啟發(fā),結(jié)合了完全卷積網(wǎng)絡(luò)(FCN)和線性正則化,我們在圖神經(jīng)網(wǎng)絡(luò)的每一層采用FCN作為節(jié)點(diǎn)標(biāo)簽預(yù)測器。

        其中,F(xiàn)CN是完全卷積網(wǎng)絡(luò),它將輸入的特征,輸出為分類結(jié)果,此文中分類為0(正常用戶)和1(欺詐用戶)。是激活函數(shù),即是第l層v節(jié)點(diǎn)的標(biāo)簽預(yù)測,最后用l1距離范式衡量v節(jié)點(diǎn)和u節(jié)點(diǎn)的距離。因此,兩個節(jié)點(diǎn)的相似性就可以定義為:

        在訓(xùn)練標(biāo)簽相似性預(yù)測器時,結(jié)合已知的標(biāo)簽作直接監(jiān)督信號,我們可以定義l層FCN的交叉熵?fù)p失函數(shù)為:

        yv是節(jié)點(diǎn)標(biāo)簽的真實分布,是全卷積網(wǎng)絡(luò)作標(biāo)簽分類預(yù)測的分布。對于整個神經(jīng)網(wǎng)絡(luò)預(yù)測階段的損失函數(shù),最后在訓(xùn)練網(wǎng)絡(luò)參數(shù)的時候,是全網(wǎng)絡(luò)損失函數(shù)的一部分。其預(yù)測階段損失函數(shù)為:

        4.2 精準(zhǔn)化采樣

        由于欺詐用戶的類別不平衡,可以借鑒傳統(tǒng)機(jī)器學(xué)習(xí)欠采樣的思想,在模型學(xué)習(xí)節(jié)點(diǎn)特征表示時,減少正常用戶的采樣,增加對欺詐用戶的采樣率。如何精準(zhǔn)的對欺詐用戶進(jìn)行采樣,可以從下面兩個方向切入:一是盡可能選取較多稀少的不平衡節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)子圖中同類別節(jié)點(diǎn)的個數(shù)約束采樣概率,對節(jié)點(diǎn)數(shù)多的,給與小的采樣權(quán)重,對于節(jié)點(diǎn)數(shù)少的,說明是不平衡的節(jié)點(diǎn),給與較大的概率;二是只選取一部分多數(shù)節(jié)點(diǎn),對同一類別下的多數(shù)節(jié)點(diǎn),根據(jù)節(jié)點(diǎn)的度指標(biāo),分配其重要性,度越大,默認(rèn)其更具備采樣留取價值,度越小,默認(rèn)其舍棄的概率就越大。

        首先對于選取稀少的不平衡節(jié)點(diǎn)階段,我們會統(tǒng)計子圖中每個節(jié)點(diǎn)的標(biāo)簽,對子圖中每個節(jié)點(diǎn)v,會得到子圖下與v節(jié)點(diǎn)相同標(biāo)簽節(jié)點(diǎn)的個數(shù)

        其中,N(v)表示子圖中所有節(jié)點(diǎn)的集合,表示子圖中除v節(jié)點(diǎn)以外的所有節(jié)點(diǎn)。顯然,在每個子圖中,最后我們會得到兩個值,一個是良性節(jié)點(diǎn)標(biāo)簽個數(shù),一個是欺詐節(jié)點(diǎn)標(biāo)簽個數(shù)。

        針對剔除部分多類節(jié)點(diǎn),我們同時統(tǒng)計子圖內(nèi)每個節(jié)點(diǎn)的度d(v),表示如下:

        最終對每個節(jié)點(diǎn),給予其一個采樣概率p(v),結(jié)合式(1)和式(2),具體如下:

        其中,A(:v)是v節(jié)點(diǎn)的歸一化鄰接矩陣的列,可以協(xié)助衡量v節(jié)點(diǎn)的一階鄰居節(jié)點(diǎn)數(shù)量信息,w是權(quán)重系數(shù),一般取0.01。ΣL(v)越大,顯示子圖中與v節(jié)點(diǎn)相同標(biāo)簽的節(jié)點(diǎn)就越多,屬于多類節(jié)點(diǎn),選取概率就越??;d(v)一定程度上衡量了v節(jié)點(diǎn)的重要程度,在面對眾多多類節(jié)點(diǎn)時,可以有更大概率選取d(v)值較大的節(jié)點(diǎn)。

        4.3 自適應(yīng)鄰域聚合方法

        基于為每個關(guān)系選擇相似的鄰居,下一步是在關(guān)系之間聚合所有這些鄰居信息,以進(jìn)行全面嵌入。先前的方法使用注意力機(jī)制[23]或加權(quán)參數(shù)[26]來學(xué)習(xí)聚合過程中的關(guān)系權(quán)重。

        不同關(guān)系下的閾值p由強(qiáng)化學(xué)習(xí)學(xué)得。形式上,用于中心節(jié)點(diǎn),關(guān)系r下,在第l層,可以如下定義關(guān)系內(nèi)鄰居聚合:

        4.4 訓(xùn)練方法

        欺詐檢測問題屬于節(jié)點(diǎn)分類問題,神經(jīng)網(wǎng)絡(luò)最后一層的輸出是節(jié)點(diǎn)的最終嵌入表示,通過softmax函數(shù)進(jìn)行分類預(yù)測。我們將節(jié)點(diǎn)分類階段產(chǎn)生的交叉熵?fù)p失函數(shù)定義為:

        其中zv表示節(jié)點(diǎn)的最終嵌入表示。結(jié)合節(jié)點(diǎn)預(yù)測階段的損失函數(shù),在整個欺詐檢測的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)過程中,我們可以得到需要訓(xùn)練的損失函數(shù)為:

        5 實驗分析

        5.1 實驗數(shù)據(jù)

        本研究在真實世界數(shù)據(jù)集Yelp和Amazon上進(jìn)行實驗。在這些數(shù)據(jù)集中,欺詐者成分的占比分別為14.5%和9.5%。表1給出了數(shù)據(jù)集所對應(yīng)的詳細(xì)項目信息。

        表1 實驗數(shù)據(jù)集Table 1 Experimental Data Sets

        我們使用Yelp評論數(shù)據(jù)集[27]和Amazon評論數(shù)據(jù)集[28]來研究欺詐者偽裝和基于GNN的欺詐檢測問題。Yelp數(shù)據(jù)集包括Yelp過濾(惡意用戶)和推薦(合法)的酒店和餐廳評論。Amazon數(shù)據(jù)集包括樂器類別下的產(chǎn)品評論。我們將超過80%有幫助投票的用戶標(biāo)記為良性實體,將低于20%有幫助投票用戶標(biāo)記為欺詐實體。盡管先前的工作提出了其他欺詐數(shù)據(jù)集,如Epinion[29]和Bitcoin[30],但它們只包含圖結(jié)構(gòu)和壓縮特征,我們無法使用這些結(jié)構(gòu)構(gòu)建有意義的多關(guān)系圖。在本文中,我們對Yelp數(shù)據(jù)集和Amazon數(shù)據(jù)集執(zhí)行垃圾郵件審查檢測(欺詐用戶檢測)任務(wù),這是一個二進(jìn)制分類任務(wù)。

        Yelp數(shù)據(jù)集下存在三個關(guān)系:(1)R-U-R:它連接同一用戶發(fā)布的評論;(2)R-T-R:它連接了具有相同星級的相同產(chǎn)品(1-5星級);(3)R-S-R:它將同一個月發(fā)布的同一產(chǎn)品下的兩篇評論聯(lián)系起來。

        Amazon數(shù)據(jù)集下存在三個關(guān)系:(1)U-P-U:它將審查至少一個相同產(chǎn)品的用戶連接起來;(2)U-S-U:連接一周內(nèi)至少有一個相同星級的用戶;(3)U-V-U:它將所有用戶中相互審查文本相似度最高的5%(由TF-IDF衡量)的用戶聯(lián)系起來。

        5.2 評價指標(biāo)與基準(zhǔn)模型

        在本次實驗中,我們采用常用的評價指標(biāo)ROC-AUC(AUC)和Recall來評估欺詐檢測方法的效果,AUC和Recall也是欺詐檢測領(lǐng)域常用的兩種性能指標(biāo)衡量方法。

        Recall表示的是樣本中的正例有多少被預(yù)測正確了,即所有正例中被正確預(yù)測出來的比例,其公式表達(dá)如下:

        其中,TP表示將正類預(yù)測為正類的數(shù)量,F(xiàn)N表示將正類錯誤地預(yù)測為負(fù)類的數(shù)量,因此TP+FN表示樣本中所有正類的個數(shù)。

        在介紹AUC指標(biāo)之前,我們先了解以下兩個概念,偽陽性率FPR和真陽性率TPR,它們的計算表達(dá)分別如下:

        其中FP表示將本該為負(fù)類樣本預(yù)測判定為正類樣本的數(shù)量,TN表示本來為負(fù)類樣本,正確預(yù)測為負(fù)類樣本的數(shù)量,因此偽陽性率FPR表示將原本負(fù)類樣本錯誤判定為正類的概率,并且偽陽性率FPR值越小代表算法表現(xiàn)越好;真陽性率TPR表示將原本正類樣本正確判定為正類的概率,并且真陽性率TPR值越大代表算法表現(xiàn)越好。

        我們以FPR值為橫軸,以TPR值為縱軸,可以得出算法的ROC曲線,AUC便是ROC曲線下的面積,顯然此面積越大代表算法性能越好。故結(jié)合式(14)和式(15),AUC計算ROC曲線下的面積表達(dá)公式如下,其中m表示樣本個數(shù):

        為了驗證PS-GNN在解決欺詐檢測中類別不平衡問題的效果,我們將其與半監(jiān)督學(xué)習(xí)設(shè)置下的各種GNN基線進(jìn)行了比較。我們選擇GCN和GraphSAGE來表示一般的GNN模型。我們選擇CARE-GNN[31]、SemiGNN[32]和Rio-GNN作為三種最先進(jìn)的基于GNN的欺詐檢測器。

        5.3 實驗方法

        在Yelp 和Amazon 數(shù)據(jù)集中,我們選取40%作訓(xùn)練集,60%數(shù)據(jù)作為測試集,并進(jìn)行小批量重復(fù)實驗。例如,Yelp 數(shù)據(jù)集中,訓(xùn)練集由4777 個節(jié)點(diǎn)組成,在每一批次訓(xùn)練中,數(shù)據(jù)集會被重新隨機(jī)欠采樣欺詐節(jié)點(diǎn)。

        在我們的實驗中,模型由神經(jīng)網(wǎng)絡(luò)構(gòu)成,實現(xiàn)方法基于Python以及pytorch框架,其中超參數(shù)λ1默認(rèn)為2、λ2默認(rèn)為1e-3,隱藏層數(shù)默認(rèn)為2層,神經(jīng)元個數(shù)默認(rèn)為64。在實驗結(jié)果中匯報的值是多個源項目進(jìn)行驗證后的平均值。其中,每次驗證的結(jié)果是在最優(yōu)的參數(shù)配置下模型收斂時的平均性能。我們采用的策略是對于每個目標(biāo)項目的同一種參數(shù)配置,以其能在所有的源項目取得最優(yōu)平均值的參數(shù)組合作為最佳的參數(shù)配置。

        5.4 實驗結(jié)果與分析

        為了評估基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)PS-GNN在欺詐檢測中的有效性,我們研究了以下兩個問題。

        RQ1:PS-GNN是否比目前的其他欺詐檢測器有更好的性能效果?

        RQ2:調(diào)整神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)和神經(jīng)元個數(shù)是否能有更好的效果?

        為了驗證RQ1,我們將PS-GNN模型與其他幾個比較常見和較新的欺詐檢測模型方法進(jìn)行了對比實驗,比較的指標(biāo)是AUC分?jǐn)?shù)和Recall分?jǐn)?shù),實驗的結(jié)果見表2。

        表2 PS-GNN 與其他欺詐檢測方法性能比較Table 2 Performance Comparison Between PS-GNN and Other Fraud Detection Methods

        一般的GNN模型方法GCN和GraphSAGE并沒有考慮不同關(guān)系下的鄰居聚合,也沒有精準(zhǔn)化采樣策略。與這兩種方法相比,在Yelp數(shù)據(jù)集中,在AUC指標(biāo)和Recall指標(biāo)上,我們的方法提高了45%-55%。在Amazon數(shù)據(jù)集中,AUC指標(biāo)和Recall指標(biāo)上,我們的方法提高了27%-32%。

        最先進(jìn)的基于GNN的欺詐檢測算法CARE-GNN與Rio-GNN,考慮了圖上的多關(guān)系,卻沒有精準(zhǔn)化采樣策略。與這兩種方法相比,在Yelp數(shù)據(jù)集中,在AUC指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了3.94%-10.1%;在Recall指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了4.73%-5.62%。在Amazon數(shù)據(jù)集中,在AUC指標(biāo)上我們的方法分別 比CARE-GNN和RioGNN提高了3.94%-7.62%;在Recall指標(biāo)上我們的方法分別比CARE-GNN和RioGNN提高了0.06%-0.7%。

        為了強(qiáng)化顯示在大型多關(guān)系圖上引入新型精準(zhǔn)化采樣策略的效果,我們將PS-GNN與CARE-GNN進(jìn)行對比,比較每個訓(xùn)練批次下的AUC和Recall分?jǐn)?shù)變化。實驗結(jié)果如圖2和圖3所示。

        圖2、圖3、圖4顯示,隨著訓(xùn)練批次的增加,在Recall,AUC和F1指標(biāo)上,PS-GNN表現(xiàn)效果均比CARE-GNN要好,證明了我們增加新型精準(zhǔn)化采樣策略后有提升效果。綜上,PS-GNN明顯優(yōu)于傳統(tǒng)一般GNN欺詐檢測模型算法,并且對比現(xiàn)有最新模型,仍有提升。

        圖2 隨訓(xùn)練批次Recall 分?jǐn)?shù)對比Fig.2 Comparison of Recall Scores Between Training Batches

        圖3 隨訓(xùn)練批次AUC 分?jǐn)?shù)對比Fig.3 Comparison of AUC Scores Between Training Batches

        圖4 隨批次F1分?jǐn)?shù)的對比Fig.4 Comparison of F1 Scores Between Training Batches

        為了驗證RQ2,我們選擇上述實驗中表現(xiàn)比較好的CARE-GNN,RioGNN以及我們的PS-GNN進(jìn)行進(jìn)一步實驗,調(diào)整神經(jīng)網(wǎng)絡(luò)隱藏層數(shù)layer和神經(jīng)元個數(shù)embed-size,實驗結(jié)果如表3、表4所示。

        從表3、表4中可以看出,針對不同欺詐檢測算法,控制其神經(jīng)元個數(shù)與網(wǎng)絡(luò)層數(shù),對其效果有波動影響,選擇合理的網(wǎng)絡(luò)層數(shù)和神經(jīng)元個數(shù),會促進(jìn)模型收斂到一個好的性能。

        表3 Yelp 數(shù)據(jù)集下調(diào)整網(wǎng)絡(luò)層數(shù)和神經(jīng)元性能比較Table 3 Performance Comparison of Adjusting Network Layers and Neuron Using Yelp Data Set

        表4 Amazon 數(shù)據(jù)集下調(diào)整網(wǎng)絡(luò)層數(shù)和神經(jīng)元性能比較Table 4 Performance Comparison of Adjusting Network Layers and Neuron Using Amazon Data Set

        總之,我們提出的PS-GNN對比其他方法有較好的性能提升并有著魯棒性,具有指導(dǎo)意義和實踐價值。

        6 案例分析

        為了更好的闡釋我們的模型中的精準(zhǔn)化采樣策略,我們結(jié)合實驗中在Yelp數(shù)據(jù)集上的一個具體例子進(jìn)一步分析說明。

        如圖5,給出的是在Yelp數(shù)據(jù)集下,某一個批次訓(xùn)練中,子圖節(jié)點(diǎn)樣本圖的采樣示例,其中,為了方便表述與區(qū)分,我們給這8個節(jié)點(diǎn)標(biāo)注序號a,b,c,d,e,f,g,h(實驗中為索引數(shù)字序號)。Yelp數(shù)據(jù)集下存在三種關(guān)系,分別用關(guān)系1、關(guān)系2、關(guān)系3表示,a、c節(jié)點(diǎn)表示欺詐節(jié)點(diǎn),其余節(jié)點(diǎn)表示良性正常節(jié)點(diǎn)。

        圖5 Yelp 數(shù)據(jù)集下精準(zhǔn)化采樣策略示意說明圖Fig.5 Schematic Diagram of Precise Sampling Strategy Using Yelp Dataset

        a節(jié)點(diǎn)的度為d(a)=4,a節(jié)點(diǎn)的采樣概率為

        b節(jié)點(diǎn)的度為d(b)=2,b節(jié)點(diǎn)的采樣概率為

        c節(jié)點(diǎn)的度為d(c)=3,c節(jié)點(diǎn)的采樣概率為

        d節(jié)點(diǎn)的度為d(d)=2,d節(jié)點(diǎn)的采樣概率為

        e節(jié)點(diǎn)的度為d(e)=1,e節(jié)點(diǎn)的采樣概率為

        f節(jié)點(diǎn)的度為d(f)=1,f節(jié)點(diǎn)的采樣概率為

        g節(jié)點(diǎn)的度為d(g)=1,g節(jié)點(diǎn)的采樣概率為

        h節(jié)點(diǎn)的度為d(h)=2,h節(jié)點(diǎn)的采樣概率為

        根據(jù)計算得出的采樣概率,最終采樣出a、b、c、d、h這5個節(jié)點(diǎn),欺詐節(jié)點(diǎn)和正常用戶節(jié)點(diǎn)個數(shù)比例為2:3,消除了原先的不平衡性。

        觀察各個采樣概率發(fā)現(xiàn),欺詐節(jié)點(diǎn)a、c節(jié)點(diǎn)采樣概率明顯高于其它正常節(jié)點(diǎn),這也說明了少數(shù)類的節(jié)點(diǎn)往往有更大的可能性被納入采樣。而普通節(jié)點(diǎn)中,只有b、d、h被納入采樣,這是因為同為多數(shù)類的節(jié)點(diǎn),b、d、h節(jié)點(diǎn)的度卻高于其他正常節(jié)點(diǎn),因此會被認(rèn)為相對更加“重要”,也就對比其它正常節(jié)點(diǎn)更有概率被選中。

        同理,在關(guān)系2下,采樣出a、c、d、e、g、h節(jié)點(diǎn),在關(guān)系3下采樣出a、b、c、f、h節(jié)點(diǎn),然后再進(jìn)行下一步的多關(guān)系聚合嵌入操作。

        7 總結(jié)

        基于精準(zhǔn)化采樣自適應(yīng)鄰域的多關(guān)系圖神經(jīng)網(wǎng)絡(luò)方法是我們在電子商務(wù)水軍檢測領(lǐng)域提出的一種新型方法,該類方法可應(yīng)用于日益流行的多關(guān)系大型圖上,因此具有非常強(qiáng)大的實用性。

        針對現(xiàn)有的電子商務(wù)水軍檢測算法并不能在大型多關(guān)系圖上解決欺詐節(jié)點(diǎn)類別不平衡的問題,本文基于多關(guān)系圖神經(jīng)網(wǎng)絡(luò)算法原理,結(jié)合全卷積網(wǎng)絡(luò)對未標(biāo)注標(biāo)簽預(yù)測,接著引入新型的精準(zhǔn)化采樣策略,緩解欺詐節(jié)點(diǎn)類別不平衡帶來的影響,通過自適應(yīng)鄰域下的多關(guān)系信息聚合,可以更加精確地進(jìn)行節(jié)點(diǎn)特征的嵌入表達(dá),最終進(jìn)行節(jié)點(diǎn)的二分類。通過在兩個真是數(shù)據(jù)集上的實驗,對比多種先進(jìn)的水軍欺詐檢測算法,驗證了本文所提出的新型電子商務(wù)水軍檢測算法可以緩解大型多關(guān)系圖上欺詐節(jié)點(diǎn)類別不平衡的問題,有一定的創(chuàng)新性和有效性。

        作者貢獻(xiàn)說明

        徐瑞卿:提出研究思路,設(shè)計研究方案,進(jìn)行實驗,論文初稿撰寫與修訂;

        張志旺:修改論文;

        孫宏亮:提供研究思路,指導(dǎo)研究方向,論文修訂。

        支撐數(shù)據(jù)

        支撐數(shù)據(jù)由作者自存儲,E-mail:hlsun84@mail.ustc.edu.cn。

        1.徐瑞卿,孫宏亮.Amazon.csv.Amazon 用戶點(diǎn)評數(shù)據(jù).

        2.徐瑞卿,孫宏亮.Yelp.csv.Yelp 用戶點(diǎn)評數(shù)據(jù).

        猜你喜歡
        欺詐概率神經(jīng)網(wǎng)絡(luò)
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        關(guān)于假冒網(wǎng)站及欺詐行為的識別
        第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
        第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
        概率與統(tǒng)計(一)
        概率與統(tǒng)計(二)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        警惕國際貿(mào)易欺詐
        中國外匯(2019年10期)2019-08-27 01:58:04
        網(wǎng)購遭欺詐 維權(quán)有種法
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        我要看免费久久99片黄色| 日韩久久久久中文字幕人妻| 国产人妖一区二区在线| 亚洲高清视频在线播放| 中文字幕日本人妻一区| 日韩有码在线一区二区三区合集 | 99久久精品免费看国产情侣| 一本加勒比hezyo无码视频| 蜜桃视频中文字幕一区二区三区| 熟女不卡精品久久av| 爽爽影院免费观看| 国产成人精品a视频| 日韩人妻无码精品久久免费一| 国产精品jizz视频| 波多野结衣一区二区三区视频| 久久婷婷国产五月综合色| 粉嫩极品国产在线观看免费一区| 波多野结衣av一区二区全免费观看 | 一区二区特别黄色大片| 亚洲天堂亚洲天堂亚洲色图| 国内免费高清在线观看| 免费做爰猛烈吃奶摸视频在线观看 | 免费人成黄页网站在线一区二区| 国产一区二区三区不卡视频| 一本色道久久88加勒比一| 亚洲av无码专区首页| 亚洲色大成网站www在线观看| 国产精品美女黄色av| 偷偷夜夜精品一区二区三区蜜桃| 色呦呦九九七七国产精品| 亚洲乱色伦图片区小说| 国产农村乱子伦精品视频| 免费二级毛片在线播放| 亚洲一区二区懂色av| 青春草在线视频观看| 免费无码毛片一区二区三区a片| 中文字幕亚洲无线码| AV无码人妻一区二区三区牛牛| 色噜噜亚洲精品中文字幕| 久久亚洲色一区二区三区| 免费人成再在线观看网站|