亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法

        2023-01-30 01:10:30崔彩霞龐天杰梁吉業(yè)
        模式識別與人工智能 2022年11期
        關(guān)鍵詞:視圖復(fù)雜度語義

        崔彩霞 王 杰 龐天杰 梁吉業(yè)

        圖數(shù)據(jù)分析挖掘在服務(wù)經(jīng)濟(jì)和社會(huì)發(fā)展中具有基礎(chǔ)性作用,有效感知、挖掘、利用圖數(shù)據(jù),可為相關(guān)產(chǎn)業(yè)的發(fā)展提供巨大的助推力.圖數(shù)據(jù)分析挖掘任務(wù)包括節(jié)點(diǎn)分類[1]、鏈路預(yù)測[2]、推薦系統(tǒng)[3]等,節(jié)點(diǎn)分類作為其中一項(xiàng)重要的任務(wù)受到越來越多的關(guān)注.例如:在社交網(wǎng)絡(luò)中識別用戶是人類用戶還是機(jī)器人用戶[4];在蛋白質(zhì)互作用網(wǎng)絡(luò)中預(yù)測蛋白質(zhì)功能類型[5];在引文網(wǎng)絡(luò)中識別文檔主題[6]等.

        近年來,圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNNs)[7-10]因其對非歐數(shù)據(jù)強(qiáng)大的表示學(xué)習(xí)能力,在節(jié)點(diǎn)分類任務(wù)上表現(xiàn)出良好的性能.然而,現(xiàn)有圖神經(jīng)網(wǎng)絡(luò)的研究大多基于不同類節(jié)點(diǎn)平衡的假設(shè),即不同類標(biāo)記節(jié)點(diǎn)數(shù)量大致是相同的.而在一些實(shí)際問題中,收集到的標(biāo)記節(jié)點(diǎn)往往是不平衡的,某些類的標(biāo)記節(jié)點(diǎn)數(shù)量遠(yuǎn)大于其它類別.同時(shí)由于標(biāo)注代價(jià)較高、涉及個(gè)人隱私等原因,節(jié)點(diǎn)分類任務(wù)也面臨只有少部分的節(jié)點(diǎn)被標(biāo)注而大量的節(jié)點(diǎn)沒有標(biāo)注的問題.例如,在社交網(wǎng)絡(luò)虛假賬號識別[11]中,正常賬號遠(yuǎn)多于虛假賬號,數(shù)量嚴(yán)重失衡,而且由于賬號涉及隱私等原因,只有少部分賬號被標(biāo)注,而大量的賬號是無標(biāo)記的.因此,監(jiān)督信息缺乏和節(jié)點(diǎn)不平衡給節(jié)點(diǎn)分類任務(wù)帶來巨大的挑戰(zhàn).

        已有一些研究將傳統(tǒng)的重采樣[12]、重加權(quán)[13]、集成學(xué)習(xí)[14]等不平衡處理技術(shù)應(yīng)用到不平衡節(jié)點(diǎn)分類問題上,使其分類性能得到一定程度的提升.

        在重采樣方面,Zhao等[15]和Qu等[16]利用上采樣技術(shù)改善節(jié)點(diǎn)的不平衡問題.具體來說,Zhao等[15]提出GraphSMOTE,將SMOTE(Synthetic Mino-rity Over-sampling Technique)上采樣算法[17]推廣到圖上,通過插值方式在潛在空間合成少數(shù)類節(jié)點(diǎn),再使用一個(gè)預(yù)訓(xùn)練的邊緣生成器預(yù)測合成節(jié)點(diǎn)與原節(jié)點(diǎn)之間的連通性.通過這種方式,使不同類節(jié)點(diǎn)達(dá)到平衡,提升節(jié)點(diǎn)分類的性能.Qu等[16]提出ImGAGN(Imbalanced Network Embedding via Generative Ad-versarial Graph Networks),利用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)生成少數(shù)類節(jié)點(diǎn),實(shí)現(xiàn)對少數(shù)類的上采樣,使標(biāo)記節(jié)點(diǎn)達(dá)到平衡,提升不平衡節(jié)點(diǎn)二分類的性能.

        在重加權(quán)方面,Chen等[18]提出ReNode,根據(jù)標(biāo)記節(jié)點(diǎn)對類邊界的相對位置自適應(yīng)地重新加權(quán),緩解節(jié)點(diǎn)不平衡對分類性能的影響,然而該方法依賴類邊界,在監(jiān)督信息缺乏時(shí)確定的類邊界可能不準(zhǔn).

        在集成學(xué)習(xí)方面,Sun等[19]提出AdaGCN(Ada-boosting Graph Convolutional Network),以圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[7]為基分類器,利用前一個(gè)GCN的誤差更新下一個(gè)GCN的樣本權(quán)值,以此糾正錯(cuò)分樣本,提高分類性能.Shi等[20]提出Boosting-GNN,使用GNN作為基分類器進(jìn)行Boosting集成,即在每次提升訓(xùn)練時(shí),為前一次未正確分類的訓(xùn)練樣本設(shè)置更高的權(quán)重,從而提高分類精度和可靠性.

        綜上所述,現(xiàn)有方法側(cè)重于使用重采樣、重加權(quán)或集成學(xué)習(xí)的方式處理節(jié)點(diǎn)的不平衡問題,未同時(shí)考慮監(jiān)督信息缺乏與節(jié)點(diǎn)不平衡這兩個(gè)問題,從而不能保證節(jié)點(diǎn)分類性能的提升.

        自監(jiān)督學(xué)習(xí)[21]可在不依賴標(biāo)簽的情況下,從數(shù)據(jù)本身信息學(xué)習(xí)到數(shù)據(jù)的有效表示,已成功應(yīng)用到計(jì)算機(jī)視覺[22-23]、自然語言處理[24-25]、圖數(shù)據(jù)分析挖掘[26-30]等領(lǐng)域.根據(jù)模型結(jié)構(gòu)與目標(biāo)的不同,自監(jiān)督學(xué)習(xí)通常分為兩類[31]:基于生成的自監(jiān)督學(xué)習(xí)與基于對比的自監(jiān)督學(xué)習(xí).基于生成的自監(jiān)督學(xué)習(xí)的目的是恢復(fù)輸入數(shù)據(jù)中缺失的部分,通過重構(gòu)誤差學(xué)習(xí)表示,如自編碼器[32]、BERT(Bidirectional En-coder Representations from Transformers)[24]等.基于對比的自監(jiān)督學(xué)習(xí)(即對比學(xué)習(xí))通過對比正負(fù)樣本的相似度,拉近正樣本,推開負(fù)樣本,構(gòu)建有效表示,如MoCo(Momentum Contrast)[22]、SimCLR[23]等.

        類似地,圖自監(jiān)督學(xué)習(xí)也分為基于生成的圖自監(jiān)督學(xué)習(xí)與基于對比的圖自監(jiān)督學(xué)習(xí).基于生成的圖自監(jiān)督學(xué)習(xí)關(guān)注節(jié)點(diǎn)/邊特征或鄰接矩陣的重構(gòu)問題,如經(jīng)典的圖自編碼器(Graph Auto-Encoder, GAE)[33]與GraphMAE[34].基于對比的圖自監(jiān)督學(xué)習(xí)旨在最大化輸入圖在不同視圖上的表示一致性,如GraphCL(Graph Contrastive Learning)[26]、DGI(Deep Graph Infomax)[29]等.特別地,自監(jiān)督學(xué)習(xí)也應(yīng)用到不平衡分類研究中.Yang等[35]和Liu等[36]探索自監(jiān)督學(xué)習(xí)在不平衡圖像分類上的應(yīng)用,通過實(shí)驗(yàn)分析得出自監(jiān)督學(xué)習(xí)可增強(qiáng)圖像數(shù)據(jù)的表達(dá)能力,提升分類性能.

        因此,本文將自監(jiān)督學(xué)習(xí)這一有效工具引入不平衡節(jié)點(diǎn)分類問題中,提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(Imbalanced Node Classification Algorithm Based on Self-Supervised Learning, ImSSL).一方面借助自監(jiān)督學(xué)習(xí)擴(kuò)充監(jiān)督信息,另一方面增強(qiáng)節(jié)點(diǎn)的表達(dá)能力.此外,在交叉熵?fù)p失和自監(jiān)督對比損失的基礎(chǔ)上,設(shè)計(jì)語義約束損失(Semantic Constraint Loss, SCL),以此保持圖數(shù)據(jù)增強(qiáng)中語義的一致性.在3個(gè)真實(shí)的圖數(shù)據(jù)集上執(zhí)行的大量實(shí)驗(yàn)表明,ImSSL性能較優(yōu).

        1 問題描述

        本文研究的問題是半監(jiān)督不平衡節(jié)點(diǎn)分類,即在有標(biāo)記節(jié)點(diǎn)集D中,一些類的節(jié)點(diǎn)數(shù)遠(yuǎn)多于另一些類.

        假設(shè)圖G的節(jié)點(diǎn)有m個(gè)類C1,C2,…,Cm,|Ci|表示屬于第i個(gè)類的標(biāo)記節(jié)點(diǎn)的數(shù)目,則不平衡比(Imbalance Ratio, IR)定義如下:

        (1)

        2 基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法

        為了彌補(bǔ)監(jiān)督信息的不足,同時(shí)學(xué)習(xí)對少數(shù)類分類有利的特征表示,本文提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(ImSSL).算法總體框架如圖1所示,包括數(shù)據(jù)增強(qiáng)模塊、圖神經(jīng)網(wǎng)絡(luò)編碼模塊與綜合損失模塊.

        圖1 ImSSL總體框架圖Fig.1 Framework of ImSSL

        2.1 圖數(shù)據(jù)增強(qiáng)模塊

        圖數(shù)據(jù)增強(qiáng)[26]的目的是在不改變語義的情況下,通過一定的變換,創(chuàng)建新的、異于原圖的、合理的圖數(shù)據(jù).目前有如下一些常用方法.

        1)基于節(jié)點(diǎn)丟棄的方法.對于給定圖,通過隨機(jī)丟棄一定比例的節(jié)點(diǎn)及其相關(guān)聯(lián)的邊生成原圖的新視圖.此方法基于一個(gè)假設(shè):丟棄部分節(jié)點(diǎn)不會(huì)影響圖的語義,每個(gè)節(jié)點(diǎn)的丟棄概率遵循某一分布,例如相同的均勻分布或其它分布.

        2)基于邊擾動(dòng)的方法.對于給定圖,隨機(jī)增加或丟棄一定比例的邊,產(chǎn)生原圖的新視圖.此方法基于這樣的假設(shè):圖的語義信息對邊有一定的魯棒性.

        3)基于節(jié)點(diǎn)屬性掩碼的方法.對于給定圖,隨機(jī)對節(jié)點(diǎn)屬性掩碼進(jìn)行一定比例的更改,更改其屬性值.選擇掩碼比例要考慮這種改動(dòng)不會(huì)對模型的預(yù)測造成太大影響.

        4)基于子圖的方法.對于給定圖,通過隨機(jī)游走采樣圖的子圖,前提是假設(shè)圖的語義在它的局部結(jié)構(gòu)中可得到較大程度的保留.

        本文使用基于節(jié)點(diǎn)屬性掩碼的增強(qiáng)方法,框架具有一般性,也可使用其它圖增強(qiáng)方法.

        2.2 圖神經(jīng)網(wǎng)絡(luò)編碼模塊

        本文采用經(jīng)典的圖卷積網(wǎng)絡(luò)(GCN)[7]作為圖編碼器.一個(gè)兩層的圖卷積網(wǎng)絡(luò)的預(yù)測結(jié)果為:

        (2)

        其中:W(0)∈RF×S表示第0層的參數(shù);W(1)∈RS×m表示第1層的參數(shù);

        ReLU(·)=max(0,·).

        嵌入矩陣

        zi表示Z的第i行,

        第i個(gè)視圖的預(yù)測結(jié)果為:

        (3)

        其中X(i)表示第i個(gè)視圖的特征矩陣.

        第i個(gè)視圖的嵌入矩陣為:

        在ImSSL中,GCN學(xué)習(xí)不同視圖的嵌入表示時(shí)權(quán)重是共享的,可減少計(jì)算量.值得注意的是,本文所提框架具有一般性,也可適應(yīng)于其它的GNN模型.

        2.3 綜合損失模塊

        ImSSL的損失函數(shù)包含3部分:分類損失LCE、語義約束損失LSCL和自監(jiān)督對比損失LSSL,則

        L=λ1LCE+λ2LSCL+λ3LSSL,

        (4)

        其中,λ1、λ2和λ3表示權(quán)衡參數(shù).

        本文采用交叉熵?fù)p失函數(shù)計(jì)算分類損失,則

        (5)

        在進(jìn)行圖數(shù)據(jù)增強(qiáng)時(shí),本文希望能保證圖語義的一致性,即不能因?yàn)閿?shù)據(jù)增強(qiáng)使其預(yù)測標(biāo)簽發(fā)生大的變化.為此,設(shè)計(jì)語義約束損失,用于衡量不同視圖下類分布與原圖語義接近程度,則

        (6)

        (7)

        其中,

        sim(·)表示度量兩節(jié)點(diǎn)的相似度,τ表示溫度系數(shù),

        表示節(jié)點(diǎn)u與同一視圖其它節(jié)點(diǎn)的相似度之和,

        表示節(jié)點(diǎn)u與不同視圖的節(jié)點(diǎn)間的相似度之和.

        算法1基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法

        輸入圖G的特征矩陣X,鄰接矩陣A,標(biāo)記集Y,

        訓(xùn)練集D,驗(yàn)證集V,測試集U,

        最大迭代次數(shù)MaxIter,溫度系數(shù)τ,

        權(quán)衡參數(shù)λ1、λ2、λ3

        輸出測試集U的預(yù)測結(jié)果

        2.FORi= 1 TOMaxIterDO

        編碼,得到V個(gè)節(jié)點(diǎn)嵌入表示Z(1),Z(2),…,Z(V);

        4. 利用式(5)計(jì)算交叉熵?fù)p失LCE;

        5. 利用式(6)計(jì)算語義約束損失LSCL;

        6. 利用式(7)計(jì)算自監(jiān)督對比損失LSSL;

        7. 利用式(4)計(jì)算綜合損失函數(shù)L;

        8. 應(yīng)用梯度下降法最小化L,更新參數(shù).

        9.END FOR

        10.利用式(2)計(jì)算測試集U的預(yù)測標(biāo)簽.

        11.RETURNU的預(yù)測結(jié)果.

        2.4 時(shí)間復(fù)雜度分析

        算法1的計(jì)算復(fù)雜性包括3階段:數(shù)據(jù)增強(qiáng)階段(第1行)、學(xué)習(xí)階段(第2~9行)和預(yù)測階段(第10行).

        在數(shù)據(jù)增強(qiáng)階段,數(shù)據(jù)增強(qiáng)算法的時(shí)間復(fù)雜度為O(NF),生成V個(gè)視圖執(zhí)行數(shù)據(jù)增強(qiáng)的時(shí)間復(fù)雜度為O(VNF).

        在學(xué)習(xí)階段,時(shí)間復(fù)雜度如下:GCN編碼的時(shí)間復(fù)雜度為

        O(|ε|FS+|ε|Sm),

        對V個(gè)視圖進(jìn)行GCN編碼的時(shí)間復(fù)雜度為

        O(V(|ε|FS+|ε|Sm)),

        注意到m

        在預(yù)測階段(第10行),計(jì)算U個(gè)未標(biāo)記樣本的預(yù)測標(biāo)簽的時(shí)間復(fù)雜度為O(Um)=O(N).

        綜上所述,算法1的時(shí)間復(fù)雜度為

        O(V|ε|FS+VN3).

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文選用3個(gè)廣泛使用的引文網(wǎng)絡(luò)數(shù)據(jù)集Cora、CiteSeer和PubMed(https://linqs.soe.ucsc.edu/data)作為實(shí)驗(yàn)對象.

        Cora數(shù)據(jù)集由2 708篇來源于Cora數(shù)據(jù)庫上的機(jī)器學(xué)習(xí)相關(guān)論文組成, 論文之間的文獻(xiàn)引用鏈接有5 229條.這些文獻(xiàn)分別屬于機(jī)器學(xué)習(xí)理論、概率方法、基于案例的機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)、規(guī)則學(xué)習(xí)、遺傳算法和增強(qiáng)學(xué)習(xí)這7種類別.這些論文經(jīng)過提取詞語,去掉停用詞,再選擇文檔中出現(xiàn)頻次小于10的詞語作為文獻(xiàn)特征,最終得到1 433個(gè)特征詞.數(shù)據(jù)集上每個(gè)節(jié)點(diǎn)使用1 433維0-1向量作為該節(jié)點(diǎn)的特征.

        CiteSeer數(shù)據(jù)集由3 327部來源于CiteSeer數(shù)據(jù)庫的計(jì)算機(jī)相關(guān)的科學(xué)出版物組成,文獻(xiàn)引用鏈接有4 732條.這些文獻(xiàn)分別屬于人工智能、數(shù)據(jù)庫、信息檢索、機(jī)器學(xué)習(xí)、智能體和人機(jī)交互這6個(gè)類別.特征提取模式同Cora數(shù)據(jù)集一樣,最終數(shù)據(jù)集上每個(gè)節(jié)點(diǎn)使用3 703維的0-1向量作為節(jié)點(diǎn)特征信息.

        PubMed數(shù)據(jù)集由19 717部來源于PubMed數(shù)據(jù)庫的與糖尿病有關(guān)的科學(xué)出版物組成,文獻(xiàn)引用鏈接有44 338條.這些文獻(xiàn)根據(jù)研究的糖尿病種類分為3類:實(shí)驗(yàn)性糖尿病、1型糖尿病和2型糖尿病.文獻(xiàn)特征由500個(gè)單詞組成,每篇文獻(xiàn)對應(yīng)一個(gè)詞頻-逆文檔頻率向量(Term Frequency-Inverse Document Frequency, TF-IDF),因此,數(shù)據(jù)集上的每個(gè)節(jié)點(diǎn)均使用500維向量作為節(jié)點(diǎn)特征.

        本文沿用文獻(xiàn)[7]和文獻(xiàn)[38]的半監(jiān)督節(jié)點(diǎn)分類設(shè)置及文獻(xiàn)[18]中的不平衡設(shè)置進(jìn)行分析和實(shí)驗(yàn).具體地,在3個(gè)基準(zhǔn)數(shù)據(jù)集上,每類 20個(gè)標(biāo)記節(jié)點(diǎn)用于訓(xùn)練,500個(gè)節(jié)點(diǎn)用于驗(yàn)證,1 000個(gè)節(jié)點(diǎn)用于測試.在此基礎(chǔ)上,選訓(xùn)練集上一些類作為少數(shù)類,每個(gè)少數(shù)類中隨機(jī)選取20/IR個(gè)節(jié)點(diǎn),不平衡比IR設(shè)為10.數(shù)據(jù)集的詳細(xì)信息如表1所示.

        表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental datasets

        3.2 對比算法

        為了測試本文算法的性能,選擇如下半監(jiān)督不平衡節(jié)點(diǎn)分類中的算法進(jìn)行對比.

        1)GraphSMOTE[15].SMOTE在不平衡圖數(shù)據(jù)上的擴(kuò)展.

        2)ReNode[18].以拓?fù)洳黄胶饨嵌妊芯坎黄胶夤?jié)點(diǎn)分類問題的方法,根據(jù)拓?fù)湮恢脤?biāo)記節(jié)點(diǎn)重加權(quán).

        3)AdaGCN[19].Adaboost與圖神經(jīng)網(wǎng)絡(luò)結(jié)合的集成學(xué)習(xí)模型,在Adaboost訓(xùn)練中以GCN作為基分類器.

        4)DR-GCN[39].雙正則圖卷積網(wǎng)絡(luò),解決圖數(shù)據(jù)中類不平衡學(xué)習(xí)問題.

        3.3 參數(shù)設(shè)置與評價(jià)指標(biāo)

        在ImSSL中,最大迭代次數(shù)設(shè)為500,模型參數(shù)τ=0.5.在每個(gè)訓(xùn)練階段使用全批次訓(xùn)練ImSSL.采用Adam(Adaptive Moment Estimation)優(yōu)化器,在PyTorch上運(yùn)行.對于基線算法,使用原始文獻(xiàn)中的代碼.所有算法運(yùn)行實(shí)驗(yàn) 5次,取平均值作為最終結(jié)果.

        借鑒不平衡多分類的常用評價(jià)方法[15,40-41],使用如下3個(gè)評價(jià)指標(biāo):Accuracy,AUC和Macro_F.這些評價(jià)指標(biāo)建立在多分類的混淆矩陣上,如表2所示,表中Nij表示分類為Cj類但實(shí)際上屬于Ci類的樣本數(shù)量.

        表2 多分類的混淆矩陣Table 2 Confusion matrix for multi-class classification

        第i類的查準(zhǔn)率

        第i類的查全率

        由Pi和Ri計(jì)算平均值,可得到宏查準(zhǔn)率

        宏查全率

        宏F(Macro_F)為:

        Accuracy表示正確分類的樣本數(shù)量與測試樣本總數(shù)的比率,廣泛應(yīng)用于評估分類器的性能.然而,在不平衡學(xué)習(xí)的情況下,Accuracy可能會(huì)忽略少數(shù)類.因此,除了Accuracy,本文還選擇AUC和Macro_F,這兩個(gè)指標(biāo)專門用于不平衡分類.對每個(gè)類分別計(jì)算AUC和Macro_F,再進(jìn)行非加權(quán)平均,這樣可更好地反映少數(shù)類的分類效果.

        3.4 實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證ImSSL的有效性,首先與4種基線算法進(jìn)行對比,結(jié)果如表3所示.由表可看出,相比基線方法,ImSSL的所有指標(biāo)值都最優(yōu),可提高少數(shù)類的識別率.由此可得出:在監(jiān)督節(jié)點(diǎn)極度受限且不平衡時(shí),采用解決不平衡問題的常規(guī)辦法,不論是重采樣、重加權(quán)還是集成學(xué)習(xí),沒有同時(shí)考慮監(jiān)督信息缺

        表3 各算法在3個(gè)數(shù)據(jù)集上的性能對比Table 3 Performance comparison of different algorithms on 3 datasets %

        乏與節(jié)點(diǎn)不平衡這兩個(gè)問題,不能保證節(jié)點(diǎn)分類的性能.而ImSSL有效利用自監(jiān)督學(xué)習(xí)能挖掘數(shù)據(jù)內(nèi)在的結(jié)構(gòu)獲得監(jiān)督信息的特點(diǎn),彌補(bǔ)半監(jiān)督不平衡節(jié)點(diǎn)分類中監(jiān)督信息的不足,同時(shí)能學(xué)習(xí)有益于少數(shù)類分類的表示,提高分類性能.

        下面研究ImSSL損失函數(shù)(式(4))中約束損失與自監(jiān)督對比損失的貢獻(xiàn),定義如下對比算法.

        1)w/oLSCL.移除約束損失.

        2)w/oLSCLLSSL.移除約束損失與自監(jiān)督對比損失.

        在不平衡比為10的Cora數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn).取各自設(shè)置下5次實(shí)驗(yàn)的平均結(jié)果,3種算法的消融實(shí)驗(yàn)結(jié)果如表4所示.由表可見,相比w/oLSCLLSSL,增加自監(jiān)督對比損失后,w/oLSCL的3個(gè)指標(biāo)值皆有大幅提升,這說明通過自監(jiān)督方式訓(xùn)練可學(xué)習(xí)數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征,是解決不平衡節(jié)點(diǎn)分類的有效手段.對比w/oLSCL和ImSSL可知,增加約束損失是有必要的,約束損失可以從語義上對數(shù)據(jù)增強(qiáng)進(jìn)行指導(dǎo),彌補(bǔ)圖數(shù)據(jù)上數(shù)據(jù)增強(qiáng)中語義的一致性.

        表4 各算法在Cora數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results of different algorithms on Cora dataset %

        下面對比GCN與ImSSL在不同不平衡比下的性能,評估不同不平衡比對ImSSL的影響.以Cora數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集,IR分別設(shè)置為1,2,5,10,20.每次實(shí)驗(yàn)進(jìn)行5次,平均結(jié)果如圖2所示.由圖可得,ImSSL在各種不平衡比下都能達(dá)到最優(yōu)值.隨著不平衡程度的加劇,ImSSL的改善越發(fā)顯著.下面進(jìn)一步驗(yàn)證自監(jiān)督學(xué)習(xí)對不平衡節(jié)點(diǎn)分類任務(wù)的有效性.

        隨著參數(shù)λ1、λ2、λ3的取值變化,ImSSL在Cora數(shù)據(jù)集上不平衡節(jié)點(diǎn)的分類結(jié)果如圖3所示.λ1、λ2、λ3的取值都在[0,1]內(nèi)變化,取值間隔為0.2.

        (a)Accuracy (b)Macro_F (c)AUC圖2 不平衡比不同時(shí)ImSSL與GCN的性能對比Fig.2 Performance comparison of ImSSL and GCN with different imbalance ratios

        由圖3可得到如下結(jié)論.

        1)當(dāng)λ1=0時(shí),由于沒有交叉熵?fù)p失監(jiān)督指導(dǎo)優(yōu)化方向,導(dǎo)致隨機(jī)分類,表明在節(jié)點(diǎn)分類中交叉熵?fù)p失是不可或缺的.

        2)當(dāng)λ1> 0時(shí),在交叉熵?fù)p失指導(dǎo)下分類效果明顯提升,但當(dāng)λ2=0,λ3=0時(shí)表現(xiàn)最差,這是由于當(dāng)λ1> 0,λ2=0,λ3=0時(shí)等同于GCN,不適合不平衡節(jié)點(diǎn)分類.

        3)對于每個(gè)圖(對應(yīng)固定的λ1取值)來說,當(dāng)λ2取值為0.8或1且λ3取值為0.8時(shí),性能相對最好,這表明自監(jiān)督對比損失和語義約束損失在訓(xùn)練中起到重要作用,可促使不平衡節(jié)點(diǎn)分類獲得更優(yōu)效果.

        (a)λ1=0 (b)λ1=0.2 (c)λ1=0.4

        為了考察參數(shù)λ1對分類結(jié)果的影響,選取結(jié)果相對較優(yōu)的λ2、λ3的取值,即λ2=0.8、λ3=0.8,AUC值變化如圖4所示.由圖可看到,當(dāng)λ1從0開始變大時(shí),性能提升,當(dāng)λ2達(dá)到0.2時(shí),性能最優(yōu),之后呈現(xiàn)下降趨勢.

        圖4 λ1對分類性能的影響Fig.4 Effect of λ1 on classification performance

        上述分析表明,交叉熵?fù)p失、自監(jiān)督對比損失和語義約束損失三者共同作用才能獲得較優(yōu)的不平衡節(jié)點(diǎn)分類結(jié)果.

        4 結(jié) 束 語

        監(jiān)督信息不足與節(jié)點(diǎn)不平衡是圖數(shù)據(jù)分析挖掘中面臨的一個(gè)重要問題.本文提出基于自監(jiān)督學(xué)習(xí)的不平衡節(jié)點(diǎn)分類算法(ImSSL).一方面通過自監(jiān)督學(xué)習(xí)擴(kuò)充監(jiān)督信息,另一方面通過自監(jiān)督學(xué)習(xí)增強(qiáng)節(jié)點(diǎn)的表達(dá)能力.通過對比實(shí)驗(yàn)驗(yàn)證本文算法在不平衡節(jié)點(diǎn)分類問題上的優(yōu)勢.在下一步的研究工作中,將針對圖數(shù)據(jù)的動(dòng)態(tài)性,開展不平衡節(jié)點(diǎn)分類問題的研究.

        猜你喜歡
        視圖復(fù)雜度語義
        語言與語義
        一種低復(fù)雜度的慣性/GNSS矢量深組合方法
        5.3 視圖與投影
        視圖
        求圖上廣探樹的時(shí)間復(fù)雜度
        Y—20重型運(yùn)輸機(jī)多視圖
        SA2型76毫米車載高炮多視圖
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
        出口技術(shù)復(fù)雜度研究回顧與評述
        91spa国产无码| 国产福利一区二区三区在线视频| 亚洲精品一区二区国产精华液| 55夜色66夜色国产精品视频| 亚洲人成网站在线播放观看| 插入中文字幕在线一区二区三区| 精华国产一区二区三区| 放荡的少妇2欧美版| 国产内射性高湖| 无码吃奶揉捏奶头高潮视频| 精品亚洲一区二区三区在线播放| 暖暖 免费 高清 日本 在线| 热re99久久精品国产99热 | 日本怡春院一区二区三区| 就去吻亚洲精品欧美日韩在线| 亚洲日本人妻中文字幕| 最新国产女主播在线观看| 妺妺窝人体色www看美女| 亚洲精品第一页国产精品| 亚洲综合一区二区三区蜜臀av| 国产一区二区a毛片色欲| 精品麻豆一区二区三区乱码| 国产麻豆剧果冻传媒一区| 亚洲精品久久无码av片软件| 日韩欧美精品有码在线观看| 免费在线国产不卡视频| 乱色精品无码一区二区国产盗 | 精品欧洲av无码一区二区14| 日韩一欧美内射在线观看| 熟女人妻中文字幕一区| 中文字日产幕码三区国产| 亚洲 另类 日韩 制服 无码| 日韩欧美国产丝袜视频| 亚洲女同高清精品一区二区99| 麻豆md0077饥渴少妇| 亚洲精品国产精品国自产观看| 精品人妻av一区二区三区不卡| 亚洲人成网站色在线入口口| 亚洲第一se情网站| 一区二区三区不卡在线| 在线不卡av一区二区|