基于剪邊策略的圖殘差卷積深層網(wǎng)絡(luò)模型

2022-11-09 07:15:06毛國君王者浩

電子學(xué)報(bào) 2022年9期

毛國君，王者浩，黃山，王翔

（福建工程學(xué)院福建省大數(shù)據(jù)挖掘與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,福建福州 350118）

1 引言

圖是描述對(duì)象及其相互關(guān)系的直觀表達(dá)，基于圖結(jié)構(gòu)的圖數(shù)據(jù)在現(xiàn)實(shí)世界中普遍存在而且具有強(qiáng)大的表示能力，已經(jīng)成為學(xué)習(xí)的一種重要的數(shù)據(jù)來源［1］.圖數(shù)據(jù)具有以下特征：（1）節(jié)點(diǎn)特征：節(jié)點(diǎn)自身的屬性（作為觀察對(duì)象需要關(guān)注的特征集）.（2）結(jié)構(gòu)特征：圖數(shù)據(jù)中的節(jié)點(diǎn)之間構(gòu)成的拓?fù)浣Y(jié)構(gòu)（由節(jié)點(diǎn)之間的邊來刻畫）.圖數(shù)據(jù)分析有著廣泛的應(yīng)用價(jià)值，如：圖分類任務(wù)［2］、圖形圖像的結(jié)構(gòu)推理［3～5］、社交網(wǎng)絡(luò)的鏈路預(yù)測和節(jié)點(diǎn)聚類［6～8］等.

在圖數(shù)據(jù)分析領(lǐng)域，圖神經(jīng)網(wǎng)絡(luò)（Graph Neural Networks，GNN）已經(jīng)被提出，近年成為一個(gè)重要的研究分支.它的一個(gè)直接動(dòng)力來自于深度神經(jīng)網(wǎng)絡(luò)的成功.深度學(xué)習(xí)作為人工智能第三次浪潮的標(biāo)志性成果，已經(jīng)在包括圖像、語音分析應(yīng)用上取得重要突破.但是一個(gè)不容忽略的事實(shí)是：目前最熱門的卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）仍然在傳統(tǒng)的歐氏空間來思考和解決問題.如圖1所示，傳統(tǒng)的CNN把觀察的對(duì)象獨(dú)立當(dāng)做輸入來迭代分析，忽略了對(duì)象之間的關(guān)系對(duì)分析的影響，而近年提出的GNN則可以把對(duì)象的結(jié)構(gòu)圖作為輸入來直接進(jìn)行分析.毋容置疑，GNN突破了傳統(tǒng)的圖像處理的歐氏空間限制，有著巨大潛在的應(yīng)用價(jià)值.

圖1 CNN和GNN在圖像處理上的輸入數(shù)據(jù)

簡言之，相比于使用CNN，GNN特點(diǎn)主要有：（1）現(xiàn)實(shí)世界中，一組對(duì)象及其關(guān)系是不可分割的整體，GNN更符合人類思維模式，應(yīng)用范圍會(huì)更廣；（2）在處理對(duì)象關(guān)系時(shí)，對(duì)象及其關(guān)系作為整體來輸入，而傳統(tǒng)的CNN沒有處理關(guān)系的機(jī)制，需要人為設(shè)計(jì)進(jìn)而很難避免主觀因素的影響.當(dāng)然，GNN仍在發(fā)展中，即使是研究最早的圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional Network，GCN）在關(guān)鍵的卷積核和池化等操作的有效性上仍然面臨挑戰(zhàn).

目前困擾圖卷積神經(jīng)網(wǎng)絡(luò)的最主要問題是過平滑現(xiàn)象［9］.事實(shí)上，最初提出的GCN模型只有2層［10］，而且發(fā)現(xiàn)隨著深度加深，GCN模型并不像深度CNN那樣推理能力得到有效提升，甚至效果會(huì)變差［11，12］，這種過平滑現(xiàn)象已經(jīng)成為GCN發(fā)展的主要障礙.究其原因是圖數(shù)據(jù)結(jié)構(gòu)沒有點(diǎn)陣圖像所擁有的空間平移等恒定性質(zhì)，本質(zhì)上是多層的拉普拉斯變換，因此圖中的大部分節(jié)點(diǎn)的特征值很容易到達(dá)某一固定平滑值.快速的拉普拉斯平滑本身沒有錯(cuò)，問題是由于快速的平滑會(huì)導(dǎo)致調(diào)整空間變窄，很難實(shí)施精細(xì)化地學(xué)習(xí)，模型的性能就很難得到持續(xù)地提升.

通過加深網(wǎng)絡(luò)層次來改善圖神經(jīng)網(wǎng)絡(luò)的表達(dá)能力研究已經(jīng)開始被關(guān)注［13～15］，其中Chen等在ICML2020中提出了GCNII（Graph Convolutional Network via Initial residual and Identity mapping），是目前已知的最具代表性的深度圖神經(jīng)網(wǎng)絡(luò)模型［13］.簡單地說，GCNII就是在恒等連接的學(xué)習(xí)中通過附加了初始輸入信息，來實(shí)現(xiàn)了跨層跳躍的平穩(wěn)連接.此外，之前引入跨層跳轉(zhuǎn)思想來實(shí)現(xiàn)深度GCN的一個(gè)比較成功的工作是JKNet（Jumping Knowledge Networks）［14］.JKNet模型中提出了自適應(yīng)選擇性聚合機(jī)制，利用跨層的跳轉(zhuǎn)鏈接將淺層的特征值融入到深層中，使得每個(gè)節(jié)點(diǎn)可以根據(jù)多層信息融合結(jié)果來自適應(yīng)實(shí)現(xiàn)聚合半徑的動(dòng)態(tài)調(diào)整，從一定程度上有效避免過平滑帶來的語義偏差.簡言之，GCNII和JKNet都在深度GCN模型上進(jìn)行了有效嘗試，可以預(yù)見深度的圖神經(jīng)網(wǎng)絡(luò)將是未來一個(gè)重要的研究方向.

另一方面，圖卷積本質(zhì)是特征聚合問題，所謂的學(xué)習(xí)實(shí)質(zhì)上就是尋找聚合收斂的狀態(tài)，而且收斂結(jié)果只有和領(lǐng)域本身語義相一致才是成功的學(xué)習(xí).事實(shí)上，GCN中的輸入是信息更豐富的圖結(jié)構(gòu)（不僅節(jié)點(diǎn)還考慮邊），相鄰節(jié)點(diǎn)特征的重復(fù)利用加速了GCN收斂速度，極易產(chǎn)生過平滑現(xiàn)象.從這個(gè)角度說，對(duì)輸入的圖數(shù)據(jù)進(jìn)行“裁剪”可以增加圖網(wǎng)絡(luò)的泛化能力，增強(qiáng)語義的可擴(kuò)展性，進(jìn)而可以預(yù)防過平滑現(xiàn)象的過快出現(xiàn).裁剪GCN大致有3條路徑：剪輸出（DropOut）［16］、剪點(diǎn)（DropNode）［17］和剪邊（DropEdge）［18］.剪輸出就是通過適度地裁剪隱含層節(jié)點(diǎn)的輸出值（使之不到下一層），它在普通的深度神經(jīng)網(wǎng)絡(luò)中就被提出，而且得到廣泛應(yīng)用［19］.顧名思義，剪點(diǎn)就是裁剪輸入圖中的節(jié)點(diǎn)，而剪邊就是裁剪輸入圖中的邊.直觀上講，剪點(diǎn)比剪邊力度更大，即一個(gè)節(jié)點(diǎn)被裁減不僅它對(duì)應(yīng)的實(shí)體不存在、而且依附它的邊也會(huì)自然消失.Rong Y等人的研究證實(shí)了剪點(diǎn)技術(shù)很難被控制，可能剪邊比剪點(diǎn)更適合于GCN網(wǎng)絡(luò)［18］；對(duì)應(yīng)實(shí)驗(yàn)也驗(yàn)證了在GCN中適度剪邊可以延緩過平滑現(xiàn)象發(fā)生，使構(gòu)建深度GCN成為可能［18］.

本文的主要工作及貢獻(xiàn)包括：將殘差卷積（residual convolution）、恒等映射（identity mapping）和剪邊處理融合到圖神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)中，提出了dri_GCN深度網(wǎng)絡(luò)模型，并在多個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上完成了比較性實(shí)驗(yàn).

2 相關(guān)工作

Gori等人最先關(guān)注圖數(shù)據(jù)的處理，在2009年提出了圖神經(jīng)網(wǎng)絡(luò)模型（GNN）［20］.它借鑒了普通神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來直接處理圖結(jié)構(gòu)數(shù)據(jù).這個(gè)模型可以被認(rèn)為是圖神經(jīng)網(wǎng)絡(luò)的開創(chuàng)性工作，為后續(xù)圖神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ).2013年，Bruna等人利用拉普拉斯算子與傅里葉變換等技術(shù)，解決了圖數(shù)據(jù)的卷積計(jì)算問題，提出了第一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò)［21］.2016年，Kipf和Welling運(yùn)用了一階鄰階聚合思想，提出了GCN模型［10］，被之后大多數(shù)研究作為基礎(chǔ)GCN模型來使用.當(dāng)然Kipf和Welling提出的GCN模型的最優(yōu)性能層數(shù)只有2層，而且之后的許多研究都證實(shí)這個(gè)GCN模型不適合構(gòu)建深層網(wǎng)絡(luò)，即繼續(xù)加深模型深度會(huì)導(dǎo)致聚合效果急劇下降.

2018年，Xu等人提出了一種改進(jìn)型的圖神經(jīng)網(wǎng)絡(luò)模型JKNet［14］.JKNet利用跳躍鏈接和自適應(yīng)選擇性聚合機(jī)制，運(yùn)用跳躍鏈接在構(gòu)建深層GCN網(wǎng)絡(luò)上進(jìn)行了有效嘗試.2020年，Chen等人設(shè)計(jì)了GCNII模型［13］，它是目前為止比較成功的一個(gè)深層GCN模型.另一個(gè)比較成功的工作來自于Rong等人［18］，他們發(fā)現(xiàn)對(duì)圖結(jié)構(gòu)數(shù)據(jù)適度進(jìn)行剪邊可以很好地解決GCN的過平滑問題.事實(shí)上，通過刪除輸入圖數(shù)據(jù)的部分邊，一定程度上改變了節(jié)點(diǎn)間的連接方式，使節(jié)點(diǎn)的聚合產(chǎn)生了差異化，增強(qiáng)了訓(xùn)練數(shù)據(jù)的多樣性，進(jìn)而提升了模型的泛化能力.

近年對(duì)圖數(shù)據(jù)的應(yīng)用也成為了熱門的研究方向.例如：2020年，郭嘉琰等人把GCN應(yīng)用到動(dòng)態(tài)網(wǎng)絡(luò)異常檢測中，提出一種基于圖神經(jīng)網(wǎng)絡(luò)的異常檢測算法［22］；2020年，Wang等人利用GCN網(wǎng)絡(luò)實(shí)現(xiàn)了人體姿態(tài)估計(jì)［23］；2020年，Yu等人利用GCN解決了社交網(wǎng)絡(luò)中謠言檢測問題［24］.

3 dri_GCN：融入剪邊操作的圖殘差卷積網(wǎng)絡(luò)設(shè)計(jì)

首先明確幾個(gè)GCN相關(guān)的名詞和表示：

（1）圖：G=（V，E），其中V是節(jié)點(diǎn)集，E是邊集.特別地，和CNN不同，GCN的輸入就是圖本身.

（2）鄰接矩陣：圖G的鄰接矩陣A=（aij）是一個(gè)方陣，aij=1意味著第i個(gè)節(jié)點(diǎn)和第j個(gè)節(jié)點(diǎn)存在邊，否則為0.很顯然，無向圖的鄰接矩陣是一個(gè)對(duì)稱矩陣.

（3）度矩陣：圖G的度矩陣D=（dij）是一個(gè)對(duì)角陣，對(duì)于無向圖而言，dii就是第i個(gè)頂點(diǎn)的度，并且dij=0（i≠j）.對(duì)于有向圖，需要通過頂點(diǎn)的出度和入度來分別表示.

（4）單位矩陣：是一個(gè)特殊對(duì)角陣圖I=（pij），pii=1，并且pij=0（i≠j）.

（5）拉普拉斯矩陣：圖G的拉普拉斯矩陣定義為L=D-A，其中D和A是G的度矩陣和鄰接矩陣.

3.1 基于譜域的GCN的預(yù)備知識(shí)

基本的圖卷積神經(jīng)網(wǎng)絡(luò)是基于譜域（Spectral domain）方法構(gòu)建的，其中的核心是拉普拉斯矩陣及其計(jì)算.

圖卷積神經(jīng)網(wǎng)絡(luò)在利用拉普拉斯矩陣之前需要使用了兩個(gè)小技巧來改善其性能：（1）對(duì)所有節(jié)點(diǎn)增加自環(huán)保證節(jié)點(diǎn)自身和鄰居節(jié)點(diǎn)一起參與推理，即A=A+I（本文仍記為A）；（2）進(jìn)行歸一化以預(yù)防梯度爆炸或者消失問題.

定義1（適用拉普拉斯矩陣）［10］給定增加自環(huán)的圖G，設(shè)G的鄰接矩陣、度矩陣及單位矩陣分別為A、D和I，則一種適用的拉普拉斯矩陣歸一化方法是：

定義1被稱為對(duì)稱歸一化的拉普拉斯矩陣（Symmetric-normalized Laplacian）.設(shè)?=D-1/2AD-1/2，則作為一個(gè)適用的操作單元被目前大多數(shù)GCN模型作為推演的基礎(chǔ)（本文亦是）.

定義2（拉普拉斯矩陣的傅里葉變換）給定圖G，設(shè)它的拉普拉斯矩陣L的特征值和對(duì)應(yīng)的特征向量分別為Λ=(λ1，λ2，…，λn)(λ1≤λ2≤…≤λn)和U=(u1，u2，…，un)，對(duì)G上的任意信號(hào)x∈Rn，定義它的傅立葉變換為=f(x)=UTxˉ，對(duì)應(yīng)逆傅立葉變換為x=f-()=.

基于譜域分析的卷積一般是在傅里葉域上完成的，依靠定義2的傅里葉變換和逆傅里葉變換，我們就可仿照CNN的卷積方法完成圖的卷積計(jì)算.

定義3（簡化的圖卷積）［10］一個(gè)簡化的GCN模型的卷積公式為：

其中?=D-1/2AD-1/2（A含自環(huán)），W（l）是第l層的學(xué)習(xí)權(quán)重，σ（.）是某個(gè)激活函數(shù).

和普通CNN一樣，卷積運(yùn)算解決了輸入的前向傳播問題，但是還要依靠反向傳播來進(jìn)行誤差評(píng)估.當(dāng)然，圖卷積需要依據(jù)圖結(jié)構(gòu)進(jìn)行，因此反向傳播的基礎(chǔ)是邊導(dǎo)數(shù).

定義4（GCN中的梯度）［21］給定圖G，eij是G中節(jié)點(diǎn)vi到vj的一條邊，A=（aij）和D=（dij）分別是的G的鄰接矩陣和度矩陣.設(shè)J∈Rn是G上一個(gè)n維向量，則eij在vi節(jié)點(diǎn)上的邊導(dǎo)數(shù)如下計(jì)算：

節(jié)點(diǎn)相關(guān)的梯度表示為

3.2 殘差網(wǎng)絡(luò)與跨層連接

帶殘差的圖卷積模型主要在一個(gè)殘差單元中引入淺層到深層的跳轉(zhuǎn)鏈接.如圖2所示，對(duì)于l+l層而言，除了l層輸出作為輸入之外，通過增加（l層）之前的跳轉(zhuǎn)鏈接來防止計(jì)算偏差地蔓延，提升聚合效能.

圖2 一個(gè)殘差塊的連接結(jié)構(gòu)示意

定義5（帶殘差的圖卷積）［13］一個(gè)帶殘差的GCN模型的基本卷積公式為：

其中H（*）表示*層或者更淺層次的輸出.

引入殘差的初始動(dòng)機(jī)是為了防止梯度消失問題［25］.近年研究也發(fā)現(xiàn)：在GCN中引入殘差進(jìn)行卷積計(jì)算可以加強(qiáng)深層與淺層之間信息互補(bǔ).此外，引入殘差的卷積網(wǎng)絡(luò)需要恒等映射機(jī)制，這不僅保證了淺層和深層信息的兼容性，而且可以使網(wǎng)絡(luò)結(jié)構(gòu)更加均勻化，更利于通過加深網(wǎng)絡(luò)層次來提高學(xué)習(xí)精度.

圖2給出的殘差塊只是個(gè)示意，淺層跳轉(zhuǎn)到深層的途徑可以有許多，需要和實(shí)際應(yīng)用結(jié)合起來考慮.如：GCNII［13］就是采用一種稱為初始?xì)埐睿↖nitial residual）的技術(shù)，即所有的中間層殘差塊都是直連初始的輸入.再如：JKnet［14］則是僅在最后一層選擇之前的卷積層的輸出進(jìn)行融合聚集.從本質(zhì)上說，通過跨層連接來改善殘差卷積網(wǎng)的性能是目前一個(gè)探索最多的方法之一，相信未來還會(huì)繼續(xù)得到關(guān)注.

圖3給出了引入殘差和恒等映射的GCN的工作原理示意.

圖3 殘差和恒等映射在GCN中工作原理示意

如圖3所示，假如在GCN網(wǎng)絡(luò)中，不使用殘差連接，節(jié)點(diǎn)的特征值會(huì)很快趨于同質(zhì)（如圖3的l和l+1層的黃色部分），即出現(xiàn)過平滑現(xiàn)象.假如加入淺層的第*層到深層的第l層的跳轉(zhuǎn)通路，那么第l+1層的節(jié)點(diǎn)就需要綜合考慮第l層和第*層計(jì)算結(jié)果，這樣就利用淺層信息修正了學(xué)習(xí)中的偏差，延緩了過平滑現(xiàn)象過早發(fā)生，為深層GCN提供有力支撐.

當(dāng)然，節(jié)點(diǎn)特征的有效疊加，要?dú)w功于恒等映射技術(shù).就是說，經(jīng)過若干層的GCN推理后，恒等映射保證了各個(gè)節(jié)點(diǎn)處于同一量綱上，讓引入殘差的節(jié)點(diǎn)特征能夠成功的疊加在到深層單元.

3.3 dri_GCN模型設(shè)計(jì)

集成圖剪邊、初始網(wǎng)絡(luò)和恒等映射技術(shù)，結(jié)合上一節(jié)的相關(guān)定義，本文提出了一種圖神經(jīng)網(wǎng)絡(luò)模型dri_GCN.

剪邊被證明是實(shí)現(xiàn)深層GCN的一個(gè)有效技術(shù)［18］，其主要作用概括為：

（1）剪邊可以看作一種數(shù)據(jù)增強(qiáng)技術(shù)，在訓(xùn)練過程中對(duì)輸入的鄰接矩陣進(jìn)行隨機(jī)地刪減，可以增加模型的輸入數(shù)據(jù)的多樣性.

（2）剪邊技術(shù)用于訓(xùn)練中，使用得當(dāng)可以增強(qiáng)節(jié)點(diǎn)之間的區(qū)分度，減少信息的重復(fù)利用率，進(jìn)而減緩了過平滑現(xiàn)象.

融入剪邊和初始?xì)埐罴夹g(shù)，圖4給出了對(duì)應(yīng)的恒等卷積網(wǎng)絡(luò)模型dri_GCN的運(yùn)行框架，其中表示剪邊操作后并歸一化后的鄰接矩陣.

圖4 dri_GCN運(yùn)行框架

定義6（dri_GCN的圖卷積）對(duì)于圖G，設(shè)：剪邊概率為1-p，則用表示剪邊后歸一化的鄰接矩陣；α和β為用來控制跳躍連接的兩個(gè)超參數(shù)；σ為激勵(lì)函數(shù)；W（l）為l層的權(quán)重.dri_GCN的圖卷積公式表示為：

其中H（l）為l層的輸出向量，I是單位陣.

如式（6）所示，dri_GCN只使用初始?xì)埐頗（0），這主要是我們的實(shí)驗(yàn)發(fā)現(xiàn)初始?xì)埐顚?duì)該模型更有效.

基于初始?xì)埐詈秃愕扔成洌谌爰暨叢僮鞯膁ri_GCN模型的第l層的處理步驟如下.

步驟1設(shè)定剪邊系數(shù)p，按概率隨機(jī)丟棄：←re-normalization(A-A')．

步驟2設(shè)定控制參數(shù)α，按α導(dǎo)入初始輸入αH（0）．

步驟3融合H（l）和H（0），生成帶有殘差的l層輸出：H*←(1-α)(l)+αH(0)．

步驟4設(shè)定控制參數(shù)β，對(duì)權(quán)重實(shí)施恒等映射：W*←(1-β)I+βW(l)．

步驟5選定激勵(lì)函數(shù)σ，生成層l輸出：H(l+1)←σ(H*，W*).

值得注意的是，dri_GCN模型中參數(shù)p、α和β以及激勵(lì)函數(shù)σ的設(shè)定是個(gè)經(jīng)驗(yàn)問題，需要根據(jù)應(yīng)用背景來逐步嘗試獲得優(yōu)化值.我們在實(shí)驗(yàn)中獲得的經(jīng)驗(yàn)包括：

（1）p是圖保留邊的比例（剪邊的比例為1-p），對(duì)應(yīng)的就是正則化的輸入矩陣.一般地，p不宜過小，過小會(huì)導(dǎo)致圖結(jié)構(gòu)性的數(shù)據(jù)不足，喪失圖網(wǎng)絡(luò)的優(yōu)勢；當(dāng)然p也不宜過大，過大會(huì)使迭代過程的數(shù)據(jù)多樣性不足，容易產(chǎn)生過平滑.我們實(shí)驗(yàn)的經(jīng)驗(yàn)p值在0.7～0.9之間.

（2）控制初始?xì)埐畹膮?shù)α不宜過大，一般設(shè)置在0.1或者0.2比較適中［13］.如式（6）所示，α過大將直接減弱上層計(jì)算對(duì)本層計(jì)算的作用，嚴(yán)重影響學(xué)習(xí)效率.

（3）式（6）使用（1-β）I+βW（l）來替換普遍使用的權(quán)值向量W（l），這可以保證與淺層模型具有等價(jià)的性能，有利于跨層信息聚合.事實(shí)上，（1-β）I+βW（l）是W（l）的正則化結(jié)果，當(dāng)β足夠小時(shí)，（1-β）I+βW（l）的奇異值會(huì)接近于1［26］.這樣就可以通過合適的β值設(shè)定，來達(dá)到權(quán)重向量修正和網(wǎng)絡(luò)等價(jià)性維護(hù)的平衡目的，提升系統(tǒng)的自適應(yīng)性.我們實(shí)驗(yàn)中β設(shè)為隨層數(shù)l變換的變量，為為控制系數(shù)，一般設(shè)為0.5.

為了說明dri_GCN模型的基本原理，對(duì)2層的dir_GCN網(wǎng)絡(luò)學(xué)習(xí)過程的主要結(jié)構(gòu)進(jìn)行了跟蹤和解析，其中數(shù)據(jù)集使用的是標(biāo)準(zhǔn)數(shù)據(jù)集Citeseer［27］.圖5給出了2層dri_GCN網(wǎng)絡(luò)的處理過程示意.

圖5 dri_GCN網(wǎng)絡(luò)的學(xué)習(xí)過程示意

依據(jù)圖5，設(shè)定p=0.9、α=0.1和λ=0.5，2層dri_GCN網(wǎng)絡(luò)對(duì)Citeseer數(shù)據(jù)集處理的基本過程是：

（1）由Citeseer數(shù)據(jù)集的原始數(shù)據(jù)，得到輸入特征H（0）和剪邊后歸一化的鄰接矩陣A?p（如式（7））.值得注意地是，剪邊僅僅是將鄰接矩陣部分?jǐn)?shù)值置零，并不改變鄰接矩陣維度.

（2）H（0）經(jīng)過全連接層后特征維度變?yōu)?4，以便與預(yù)先設(shè)置的權(quán)重矩陣W維度相匹配，其中權(quán)重矩陣的值是隨機(jī)生成的.經(jīng)過第一個(gè)dri_GCN卷積層后與初始?xì)埐瞀罤（0）疊加得到中間特征向量H（1）.

（3）將更新后的H（1）和A?p輸入到下一個(gè)dri_GCN卷積層，再經(jīng)過全連接層后，得到最后的輸出特征向量H（2）.

式（8）給出了100次網(wǎng)絡(luò)學(xué)習(xí)后最終輸出的H（2）與分類結(jié)果.式（9）中分類結(jié)果（3 0 1…）只給出了前三個(gè)節(jié)點(diǎn)1、2、3被分成的類標(biāo)識(shí)“3”、“0”、“1”.具體得到方式是：節(jié)點(diǎn)對(duì)應(yīng)行在H（2）中的最大值所在的位置.

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)集

實(shí)驗(yàn)采用了標(biāo)準(zhǔn)數(shù)據(jù)集Cora、Citeseer和Pubmed進(jìn)行評(píng)估和比較［27］.對(duì)于所有數(shù)據(jù)集，都按照無向圖進(jìn)行處理，并且僅考慮最大的連通部分，即每個(gè)數(shù)據(jù)集都對(duì)應(yīng)一個(gè)無向連通圖.表1給出了本文實(shí)驗(yàn)中的3種數(shù)據(jù)集的基本信息.

表1 三個(gè)數(shù)據(jù)集的基本信息

按照目前大多數(shù)論文的處理慣例和本文需求，實(shí)驗(yàn)前對(duì)3個(gè)數(shù)據(jù)集做無向圖處理，之后使用它們評(píng)估本文模型和對(duì)比模型.圖6展示了3個(gè)數(shù)據(jù)集的部分連通圖，其中對(duì)一些節(jié)點(diǎn)進(jìn)行了標(biāo)識(shí)以直觀地反映對(duì)應(yīng)數(shù)據(jù)集情況.

圖6 數(shù)據(jù)集對(duì)應(yīng)的部分無向連通圖

4.2 學(xué)習(xí)準(zhǔn)確率與分類精度的比較性實(shí)驗(yàn)

實(shí)驗(yàn)中準(zhǔn)確率和精度由式（10）和式（11）計(jì)算得到：

其中式（10）和式（11）對(duì)應(yīng)的符號(hào)及含義如下：

（1）P（Positive）和N（Negative）：分別代表訓(xùn)練樣本中的正例和負(fù)例數(shù)目.

（2）TP（True Positives）：被正確劃分為正例的數(shù)目，即實(shí)際為正例且被模型劃分為正例的樣本數(shù).

（3）TN（True negatives）：被正確劃分為負(fù)例的數(shù)目，即實(shí)際為負(fù)例且被分類器劃分為負(fù)例的樣本數(shù).

（4）FP（False Positives）：被錯(cuò)誤劃分為正例的數(shù)目，即實(shí)際為負(fù)例但被分類器劃分為正例的樣本數(shù).

（5）FN（False Negatives）：被錯(cuò)誤劃分為負(fù)例的數(shù)目，即實(shí)際為正例但被分類器劃分為負(fù)例的樣本數(shù).

從式（10）、式（11）的計(jì)算方式可以看出：準(zhǔn)確率主要反映一個(gè)學(xué)習(xí)方法或算法的整體學(xué)習(xí)效果；精度只關(guān)心正例集的分類情況，深入到一個(gè)具體的類別進(jìn)行評(píng)價(jià)，可以更準(zhǔn)確地反映某個(gè)類別分類的效果.

首先使用式（10），比較性地評(píng)價(jià)本文模型的準(zhǔn)確率.表2給出了對(duì)比實(shí)驗(yàn)中使用的主要參數(shù)設(shè)置情況，其中的參數(shù)是根據(jù)數(shù)據(jù)集和模型特點(diǎn)，在多次實(shí)驗(yàn)后獲得的優(yōu)化值.

表2 實(shí)驗(yàn)?zāi)Ｐ退玫膮?shù)

根據(jù)本文使用的主要技術(shù)，從基本的GCN模型（簡稱G）、剪邊技術(shù)（簡稱d）和恒等映射下的初始?xì)埐罴夹g(shù)（簡稱r）3個(gè)維度來擇選比較算法：

（1）單獨(dú)考慮G.實(shí)驗(yàn)中使用的是典型算法GCN［10］；

（2）考慮d+G.文獻(xiàn)［18］提出了在GCN中進(jìn)行剪邊的理由和部分效果的展示，我們在此基礎(chǔ)上進(jìn)行了完善，并命名為d_GCN來用于本文比較性實(shí)驗(yàn)；

（3）考慮r+G.GCNII［13］屬于這類模型的典型代表.

（4）考慮d+r+G.本文提出的dri_GCN模型屬于該類.

按照如上4個(gè)方法類別，擇選了GCN、d_GCN、GCNII和本文的dri_GCN模型，在Cora、Citeseer和Pubmed數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn).表3至表5給出了實(shí)驗(yàn)結(jié)果（下劃線數(shù)據(jù)為獲得的最高準(zhǔn)確率），其中的準(zhǔn)確率是100次實(shí)驗(yàn)獲得的平均值.

表3 不同方法在Cora數(shù)據(jù)集上的分類準(zhǔn)確率(%)

表4 不同方法在Citeseer數(shù)據(jù)集上的分類準(zhǔn)確率(%)

表5 不同方法在Pubmed數(shù)據(jù)集上的分類準(zhǔn)確率(%)

從表3～表5可以看出：

（1）本文dri_GCN模型在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上最高準(zhǔn)確率均有所提升.

（2）GCN模型在2層網(wǎng)絡(luò)上還能獲得較好的學(xué)習(xí)準(zhǔn)確率，但是隨著深度加深，學(xué)習(xí)準(zhǔn)確率會(huì)急劇下降，而且簡單地使用剪邊技術(shù)（對(duì)應(yīng)d+G模型）也很難支撐深度GCN的構(gòu)建.

（3）dri_GCN和GCNII模型可以支撐深層卷積網(wǎng)的構(gòu)建，而且在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上dri_GCN比GCNII的學(xué)習(xí)準(zhǔn)確率都有不同程度地提升.

究其原因，dri_GCN融合了初始?xì)埐睢⒑愕扔成浼凹暨吋夹g(shù)，整體上減緩了過平滑現(xiàn)象，使圖結(jié)構(gòu)的信息聚合更精細(xì).具體地說，初始?xì)埐罴夹g(shù)將最初的節(jié)點(diǎn)特征疊加在深層模型上，阻止了節(jié)點(diǎn)聚合偏差的放大或累加，延長了網(wǎng)絡(luò)的生命周期；恒等映射技術(shù)使初始?xì)埐钅苡行У厝谌氲缴顚拥木矸e單元，保證網(wǎng)絡(luò)加深后的繼續(xù)學(xué)習(xí)能力；剪邊技術(shù)進(jìn)一步削弱了殘差網(wǎng)絡(luò)退化的可能性，通過圖結(jié)構(gòu)數(shù)據(jù)的變化使得殘差單元的數(shù)據(jù)輸入的相異度增加，避免某些節(jié)點(diǎn)的特征向量在相鄰殘差層的快速同化，因而提升了學(xué)習(xí)的精細(xì)度.

此外，依據(jù)式（11），對(duì)單個(gè)類別的分類精度進(jìn)行了跟蹤實(shí)驗(yàn).圖7給出了dir_GCN在Cora數(shù)據(jù)集上4個(gè)類別的精度比較實(shí)驗(yàn).圖7的橫坐標(biāo)是一次dir_GCN網(wǎng)絡(luò)學(xué)習(xí)的迭代次數(shù)，縱坐標(biāo)的精度值采用的是20次dir_GCN網(wǎng)絡(luò)學(xué)習(xí)在對(duì)應(yīng)迭代次數(shù)上得到平均精度值.

仔細(xì)分析圖7，可以看出：

圖7 dri_GCN在Cora數(shù)據(jù)集的精度對(duì)比

（1）在Cora數(shù)據(jù)集上，對(duì)于前面3個(gè)類（類標(biāo)識(shí)為0，1，2），剪邊后的分類精度在所有迭代階段均好于未剪邊的圖神經(jīng)網(wǎng)絡(luò)；

（2）對(duì)于類標(biāo)識(shí)為3，前面的剪邊效果不是很理想，但是迭代270次后剪邊效果開始顯現(xiàn).可以推斷，對(duì)于分類精度不佳的類來說，可以通過適當(dāng)增加學(xué)習(xí)過程中的迭代次數(shù)來提升分類精度.

4.3 剪邊有效性分析

為了更詳盡地說明剪邊技術(shù)對(duì)模型的影響，我們通過設(shè)置不同的層數(shù)和不同p值，對(duì)模型dri_GCN的剪邊效果進(jìn)行了實(shí)驗(yàn).表6給出了在Cora數(shù)據(jù)集上不同p值對(duì)應(yīng)的學(xué)習(xí)準(zhǔn)確率（實(shí)驗(yàn)的結(jié)果也是采用20次網(wǎng)絡(luò)學(xué)習(xí)的平均值）.

從表6可以看出：

表6 Cora數(shù)據(jù)集p參數(shù)實(shí)驗(yàn)(%)

（1）針對(duì)Cora數(shù)據(jù)集，剪邊技術(shù)在p=0.9或0.8，層數(shù)在16層以上，dri_GCN模型的準(zhǔn)確率基本都在84%左右，說明通過設(shè)置合適的剪邊系數(shù)p，通過加深模型層次可以獲得穩(wěn)定的更高的學(xué)習(xí)準(zhǔn)確率.

（2）當(dāng)p在0.6以下，dri_GCN模型的準(zhǔn)確率不高，說明剪邊效果不理想.這是因?yàn)檫^多的剪邊丟失了圖數(shù)據(jù)結(jié)構(gòu)，也從一個(gè)側(cè)面說明圖神經(jīng)網(wǎng)絡(luò)的科學(xué)性，即合理利用節(jié)點(diǎn)的關(guān)聯(lián)信息能夠提升節(jié)點(diǎn)的評(píng)估效果.

為了更直觀地表達(dá)剪邊在GCN上的有效性，實(shí)驗(yàn)跟蹤了4層dri_GCN模型在3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的損失值.圖8給出了隨著迭代訓(xùn)練次數(shù)增多時(shí)剪邊（p=0.9）和不剪邊（p=1）的損失值變化趨勢.

圖8表明：融入剪邊技術(shù)可以使驗(yàn)證集的損失值平穩(wěn)而迅速地下降（相對(duì)于不剪邊）.說明剪邊技術(shù)很好利用了數(shù)據(jù)多樣性，可以及時(shí)修正迭代過程中的偏差，更有利于實(shí)現(xiàn)精細(xì)化學(xué)習(xí).

圖8 dri_GCN損失函數(shù)對(duì)比

圖神經(jīng)網(wǎng)絡(luò)中的驗(yàn)證集的準(zhǔn)確率反映了所使用模型的聚合能力.實(shí)驗(yàn)跟蹤了3個(gè)數(shù)據(jù)集在剪邊前后（p=1，p=0.9）的驗(yàn)證集準(zhǔn)確率變化.實(shí)驗(yàn)的準(zhǔn)確率也是采用每組數(shù)據(jù)進(jìn)行20次網(wǎng)絡(luò)學(xué)習(xí)取平均值.實(shí)驗(yàn)結(jié)果如圖9所示.

圖9 dri_GCN驗(yàn)證集準(zhǔn)確率對(duì)比

從圖9可以看出：在維持學(xué)習(xí)準(zhǔn)確率的前提下，剪邊可以加速聚合速度.在迭代100次之前，剪邊后3個(gè)數(shù)據(jù)集的在驗(yàn)證集的準(zhǔn)確率快速提升（相比未剪邊），說明剪邊技術(shù)的確可以提升聚合效率.此外，迭代100次之后，剪邊模型的準(zhǔn)確率也和剪邊前相當(dāng)，說明剪邊技術(shù)不會(huì)減弱模型的學(xué)習(xí)能力.

5 總結(jié)與展望

圖神經(jīng)網(wǎng)絡(luò)已經(jīng)成為圖學(xué)習(xí)中的一個(gè)重要而活躍的研究分支.現(xiàn)存的圖神經(jīng)網(wǎng)絡(luò)的關(guān)鍵瓶頸是過平滑問題.本文集成了剪邊、初始?xì)埐詈秃愕扔成浼夹g(shù)，提出了一種圖神經(jīng)網(wǎng)絡(luò)模型dri_GCN.本文提出的模型直接面向于圖神經(jīng)網(wǎng)絡(luò)研究中亟待解決的過擬合和過平滑問題，通過多種技術(shù)集成來提升圖學(xué)習(xí)的性能，在深層圖殘差卷積的結(jié)構(gòu)及其計(jì)算方法等方面進(jìn)行了相關(guān)工作.實(shí)驗(yàn)結(jié)果表明，dri_GCN可以提升學(xué)習(xí)數(shù)據(jù)的多樣性，減少訓(xùn)練數(shù)據(jù)的過擬合現(xiàn)象；可以更精細(xì)地完成基于圖結(jié)構(gòu)的信息聚合，有效防止過平滑現(xiàn)象；具備構(gòu)建深層圖神經(jīng)網(wǎng)絡(luò)的能力，為實(shí)現(xiàn)深層圖學(xué)習(xí)提供一個(gè)有效途徑.

本文模型為構(gòu)建深層GCN網(wǎng)絡(luò)提供新的解決途徑.從結(jié)果來看，所提模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的學(xué)習(xí)準(zhǔn)確率和分類精度方面得到有效提升.未來的工作包括：本文模型在實(shí)際應(yīng)用場景上的應(yīng)用研究；融合其他技術(shù)進(jìn)一步改進(jìn)深層圖神經(jīng)網(wǎng)絡(luò)性能等.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放