亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        圖卷積網(wǎng)絡(luò)與自注意機(jī)制在文本分類任務(wù)上的對(duì)比分析

        2022-01-20 12:48:00蔣浩泉張儒清郭嘉豐范意興程學(xué)旗
        中文信息學(xué)報(bào) 2021年12期
        關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)分類

        蔣浩泉,張儒清,郭嘉豐,范意興,程學(xué)旗

        (1. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

        0 引言

        表示學(xué)習(xí)(RepresentationLearning)對(duì)于分類、匹配、生成等任務(wù)都至關(guān)重要,傳統(tǒng)特征表征工程需要人工設(shè)計(jì)特征。但深度學(xué)習(xí)可利用神經(jīng)網(wǎng)絡(luò)技術(shù)根據(jù)設(shè)定的任務(wù)目標(biāo)自動(dòng)學(xué)習(xí)得到輸入及中間環(huán)節(jié)良好的分布式向量表示。多層感知機(jī)(Multi-Layer Perceptron,MLP)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[2-3]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[4]是此前最常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),被廣泛用于自然語(yǔ)言處理、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等領(lǐng)域文本、圖像及語(yǔ)音等信息的表示。

        隨著深度學(xué)習(xí)研究的發(fā)展,近期圖卷積網(wǎng)絡(luò)(Graph Convolutional Networks,GCN)和自注意(self-attention)機(jī)制獲得了機(jī)器學(xué)習(xí)從業(yè)者們的大量關(guān)注。作為深度學(xué)習(xí)領(lǐng)域的最新進(jìn)展,兩者近期眾多相關(guān)研究成果紛紛涌現(xiàn)。

        目前最常采用的圖卷積網(wǎng)絡(luò)形式作為譜圖卷積的局部一階近似被提出,是一種簡(jiǎn)單而有效的圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)。相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)只能用于一般如文本序列、圖像柵格等的網(wǎng)格狀數(shù)據(jù),圖神經(jīng)網(wǎng)絡(luò)能夠?qū)Ψ菤W氏度量空間的數(shù)據(jù)進(jìn)行建模。圖卷積網(wǎng)絡(luò)是傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)在圖數(shù)據(jù)上的推廣,它本質(zhì)是一種可直接作用于圖上的多層神經(jīng)網(wǎng)絡(luò)。圖卷積網(wǎng)絡(luò)基于每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)生成該節(jié)點(diǎn)的嵌入向量表示,該嵌入表示能將局部的圖結(jié)構(gòu)以及臨近節(jié)點(diǎn)的特征信息編碼入其中。圖卷積網(wǎng)絡(luò)通過一層卷積操作只能獲取到其直接鄰居節(jié)點(diǎn)的信息,而通過多層圖卷積網(wǎng)絡(luò)堆疊,就能整合更大范圍的臨近信息。

        自注意機(jī)制是一種特殊的注意力(attention)機(jī)制。注意力機(jī)制現(xiàn)已成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域最重要的概念之一,它使得神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)自身需求靈活自動(dòng)地關(guān)注輸入數(shù)據(jù)或特征中重要的部分,極大地提高模型的表達(dá)能力。注意力機(jī)制最初是與編碼器-解碼器(encoder-decoder)架構(gòu)相結(jié)合而被用于機(jī)器翻譯領(lǐng)域[5],其要求輸入與輸出都是一個(gè)序列。但是對(duì)于諸如文本分類等任務(wù),其輸入是一個(gè)序列,而輸出并不是序列的形式,故自注意機(jī)制的思想被提出,直接在一個(gè)序列內(nèi)部實(shí)現(xiàn)注意力機(jī)制的運(yùn)用。此后,Transformer架構(gòu)[6]橫空出世,為自然語(yǔ)言處理領(lǐng)域預(yù)訓(xùn)練模型[7]研究的熱潮奠定了基礎(chǔ),而這些模型的共同核心思想之一就是自注意機(jī)制。

        在將圖卷積網(wǎng)絡(luò)與自注意機(jī)制在工作原理上進(jìn)行對(duì)比分析后,我們發(fā)現(xiàn)兩者在形式上極其相似。一次圖卷積操作和一次自注意步驟之間的區(qū)別僅在于對(duì)表示節(jié)點(diǎn)間連接關(guān)系的鄰接矩陣的計(jì)算方式不同。從某種角度上可以認(rèn)為,自注意機(jī)制也以其所有輸入樣本為節(jié)點(diǎn),構(gòu)建了一個(gè)全連接的圖。并且,圖卷積網(wǎng)絡(luò)中用于表示節(jié)點(diǎn)間關(guān)系的鄰接矩陣往往是訓(xùn)練之前人為預(yù)先給定的,而自注意機(jī)制中與之相對(duì)應(yīng)表示節(jié)點(diǎn)之間連接關(guān)系的矩陣則是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)特性學(xué)習(xí)得到的,即各節(jié)點(diǎn)之間連邊的權(quán)重甚至圖的結(jié)構(gòu)(連邊權(quán)重為0則代表無(wú)連接,否則代表有連接)都是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)的學(xué)習(xí)目標(biāo)自適應(yīng)地決定的。因此,自注意機(jī)制在某種程度上可以說(shuō)是圖卷積網(wǎng)絡(luò)的一種泛化,具有較圖卷積網(wǎng)絡(luò)更強(qiáng)的表達(dá)能力。我們進(jìn)一步推測(cè),相比圖卷積網(wǎng)絡(luò),在實(shí)際任務(wù)中使用更具表達(dá)能力的自注意機(jī)制將可能帶來(lái)性能上的提升。

        為了在實(shí)際任務(wù)中驗(yàn)證上述想法,我們選擇了自然語(yǔ)言處理最基本問題之一——文本分類任務(wù),將其作為代表進(jìn)行對(duì)比實(shí)驗(yàn)。最終的實(shí)驗(yàn)結(jié)果顯示,在相對(duì)對(duì)等的條件下,采用自注意機(jī)制的模型在多個(gè)文本分類數(shù)據(jù)集上的表現(xiàn)都顯著優(yōu)于使用圖卷積網(wǎng)絡(luò)的對(duì)照模型,甚至超過了目前圖卷積網(wǎng)絡(luò)用于文本分類任務(wù)的最先進(jìn)水平。除此之外,我們還觀察到,隨著數(shù)據(jù)規(guī)模的增加,使用自注意機(jī)制的模型和使用圖卷積網(wǎng)絡(luò)模型之間的性能差距也逐漸擴(kuò)大。這些結(jié)果從實(shí)際任務(wù)表現(xiàn)方面,驗(yàn)證了自注意機(jī)制確實(shí)具有較圖卷積網(wǎng)絡(luò)更強(qiáng)表達(dá)能力的觀點(diǎn)。

        需要指出的是,雖然本文對(duì)圖卷積網(wǎng)絡(luò)和自注意機(jī)制之間關(guān)系的理論分析,以及隨后在文本分類任務(wù)上的實(shí)驗(yàn)驗(yàn)證等部分,對(duì)其他任務(wù)或領(lǐng)域可能也具有一定的啟發(fā)作用,但是本文的目標(biāo)和討論范圍實(shí)際上是緊密限制在文本分類任務(wù)以及模型的文本分類效果上的。對(duì)于其他任務(wù)和領(lǐng)域,以及性能表現(xiàn)和更深層的數(shù)學(xué)原理等其他課題,則是已經(jīng)超出了本文的研究范圍。對(duì)于這些研究課題,我們將在本文最后進(jìn)行一些拋磚引玉式的列舉,并作為后續(xù)工作考慮的一個(gè)研究方向。

        本文第1節(jié)簡(jiǎn)要介紹圖卷積網(wǎng)絡(luò)和自注意機(jī)制的一些相關(guān)工作;第2節(jié)對(duì)比圖卷積網(wǎng)絡(luò)與自注意機(jī)制的工作原理,證明后者在某種程度上可被視為前者的一種泛化;第3節(jié)通過文本分類任務(wù)對(duì)比實(shí)驗(yàn)的實(shí)際表現(xiàn),驗(yàn)證自注意機(jī)制較圖卷積網(wǎng)絡(luò)具有更強(qiáng)的表達(dá)能力,可獲得更佳性能。最后,對(duì)本文進(jìn)行總結(jié),并提供一些未來(lái)可能進(jìn)行的工作和研究方向。

        1 相關(guān)工作

        本節(jié)將簡(jiǎn)要介紹一些圖卷積網(wǎng)絡(luò)和自注意機(jī)制的主要相關(guān)工作。

        1.1 圖卷積網(wǎng)絡(luò)

        深度學(xué)習(xí)能有效捕獲歐氏度量空間下數(shù)據(jù)的潛在模式,然而如今越來(lái)越多的數(shù)據(jù)則是通過圖的形式表示。例如,電子商務(wù)中顧客與商品間的交互關(guān)系、生物化學(xué)中分子與藥物構(gòu)成的網(wǎng)絡(luò),以及引文網(wǎng)絡(luò)中文獻(xiàn)之間的引用關(guān)系等。圖的不規(guī)則性使得一些如卷積等重要的操作在圖像域可以很容易計(jì)算,但卻難以直接運(yùn)用到圖數(shù)據(jù)上。此外,現(xiàn)有機(jī)器學(xué)習(xí)算法的一大重要前提假設(shè)就是樣本之間相互獨(dú)立。而這在圖數(shù)據(jù)上顯然是不成立的,因?yàn)榇順颖镜墓?jié)點(diǎn)之間都通過邊相互關(guān)聯(lián)在一起[8]。

        近年來(lái),研究者們將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的如卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了拓展推廣,重新定義了在圖數(shù)據(jù)上的卷積操作。類似在圖像上的卷積操作,圖上的卷積可以定義為取節(jié)點(diǎn)所有鄰近信息的加權(quán)平均。第一項(xiàng)在譜圖卷積網(wǎng)絡(luò)領(lǐng)域的先驅(qū)工作是由Bruna等人[9]進(jìn)行的,他們基于譜圖理論定義了一個(gè)圖卷積的概念。此后,又有眾多工作對(duì)譜圖卷積網(wǎng)絡(luò)進(jìn)行了改進(jìn)、拓展和近似[10-12]。這些工作中,Kipf等人[12]提出了一個(gè)譜圖卷積的局部一階近似版本的圖神經(jīng)網(wǎng)絡(luò),即圖卷積網(wǎng)絡(luò),在多個(gè)標(biāo)準(zhǔn)圖數(shù)據(jù)集上實(shí)現(xiàn)了當(dāng)時(shí)最好的分類結(jié)果。此外,Marcheggiani等人[13]為了使圖卷積網(wǎng)絡(luò)能夠處理更復(fù)雜的,如包含語(yǔ)法等信息的圖結(jié)構(gòu)等,他們?yōu)閳D卷積網(wǎng)絡(luò)引入了處理連邊方向和標(biāo)簽種類的新機(jī)制。

        圖卷積網(wǎng)絡(luò)也被應(yīng)用于多個(gè)自然語(yǔ)言處理任務(wù)上,例如,文本分類[14-15]、機(jī)器翻譯[16-17]、摘要生成[18]、閱讀理解和問答[19]等。有關(guān)圖卷積網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)更全面的介紹可以參考Zhang等人[20]和Wu等人[8]的綜述文獻(xiàn)。

        1.2 自注意機(jī)制

        注意力機(jī)制最初是與編碼器-解碼器(encoder-decoder)架構(gòu)相結(jié)合被用于機(jī)器翻譯領(lǐng)域[5]的,使得模型能夠根據(jù)自身需求靈活地自動(dòng)關(guān)注輸入數(shù)據(jù)中重要的部分。但是對(duì)于諸如文本分類、推薦等任務(wù),其輸入是一個(gè)序列而輸出并不是序列的形式,故Yang等人[21]提出了自注意機(jī)制,用于直接在序列內(nèi)部實(shí)現(xiàn)注意機(jī)制的運(yùn)用。

        此后,Transformer架構(gòu)[6]橫空出世,為自然語(yǔ)言處理領(lǐng)域預(yù)訓(xùn)練模型[7]研究的熱潮奠定了基礎(chǔ),而這些模型的共同核心思想之一就是自注意機(jī)制。每一層的自注意機(jī)制將同一輸入序列中各字符的特征表示向量相互關(guān)聯(lián)起來(lái),用序列中所有位置的向量表示經(jīng)過映射變換后的加權(quán)平均來(lái)作為每個(gè)位置新的向量表示。Transformer架構(gòu)還引入了多頭(multi-head)自注意機(jī)制的概念,將多個(gè)自注意模塊并行而不是前后按順序地堆疊在一起,并在之后進(jìn)行匯總。不同的并行自注意模塊輸入數(shù)據(jù)相同,有助于捕獲輸入數(shù)據(jù)中不同層面的特征信息,提高了模型的表達(dá)能力。

        除被用于眾多預(yù)訓(xùn)練模型外,不同形式的自注意機(jī)制的思想也被運(yùn)用于推薦系統(tǒng)[22]、自然語(yǔ)言理解[23]及對(duì)句子的表示學(xué)習(xí)[24]。自注意機(jī)制是一種特殊的注意力機(jī)制,而注意力機(jī)制現(xiàn)已成為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要概念。關(guān)于其更全面的介紹,可以參考Chaudhari等人[25]的綜述文獻(xiàn)。

        1.3 圖卷積網(wǎng)絡(luò)與自注意機(jī)制

        注意力機(jī)制已被廣泛運(yùn)用于基于序列的任務(wù)中,它最大的優(yōu)點(diǎn)就是使得神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)自身需求靈活自動(dòng)地關(guān)注輸入數(shù)據(jù)或特征中重要的部分,極大提高了模型的表達(dá)能力。眾多研究開始嘗試將注意力機(jī)制融入各種神經(jīng)網(wǎng)絡(luò)模型中去,圖神經(jīng)網(wǎng)絡(luò)也不例外。

        Velickovic等人[26]在聚合臨近節(jié)點(diǎn)特征信息時(shí)使用注意力機(jī)制確定各節(jié)點(diǎn)的權(quán)重,并且融入了多頭注意力機(jī)制提出了圖注意力網(wǎng)絡(luò)(Graph Attention Networks,GAT)。Zhang等人[27]提出的門控注意網(wǎng)絡(luò)(Gated Attention Network,GAAN)進(jìn)一步引入了自注意機(jī)制,用于計(jì)算不同注意力頭部的權(quán)重而非直接加和平均。對(duì)于注意力機(jī)制在圖上運(yùn)用的更全面介紹,可參考Lee等人[28]的綜述文獻(xiàn)。

        然而據(jù)我們所知,現(xiàn)有的已正式發(fā)表的文獻(xiàn)中,尚未對(duì)圖卷積網(wǎng)絡(luò)與自注意機(jī)制之間的關(guān)系進(jìn)行分析和討論。

        2 模型分析

        本節(jié)將對(duì)比分析圖卷積網(wǎng)絡(luò)與自注意機(jī)制的工作原理,證明后者在某種程度上可被視為前者的一種泛化,繼而推斷自注意機(jī)制具有較圖卷積網(wǎng)絡(luò)更強(qiáng)的表達(dá)能力。

        2.1 圖卷積網(wǎng)絡(luò)

        目前,普遍被采用的圖卷積網(wǎng)絡(luò)形式是由Kipf等人[12]作為譜圖卷積的局部一階近似提出的,是一種簡(jiǎn)單而有效的圖神經(jīng)網(wǎng)絡(luò)。圖卷積網(wǎng)絡(luò)本質(zhì)是一種可直接作用于圖上的多層神經(jīng)網(wǎng)絡(luò),它基于每個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)生成該節(jié)點(diǎn)的嵌入向量表示,該嵌入表示能將局部的圖結(jié)構(gòu)以及臨近節(jié)點(diǎn)的特征信息編碼入其中。

        考慮包含n個(gè)節(jié)點(diǎn)的圖G,每個(gè)節(jié)點(diǎn)都有一條自連邊。圖G的鄰接矩陣為A,由于自連邊,其對(duì)角線上的元素全為1。度矩陣D計(jì)算如式(1)所示。

        Dii=∑jAij

        (1)

        令X∈Rn×m為包含所有節(jié)點(diǎn)特征的矩陣,m為特征表示向量的維度。

        圖卷積網(wǎng)絡(luò)通過一層卷積操作只能獲取到其直接鄰居節(jié)點(diǎn)的信息,而通過多層圖卷積網(wǎng)絡(luò)堆疊,就能整合更大范圍的臨近信息。對(duì)一層圖卷積網(wǎng)絡(luò)來(lái)說(shuō),新的節(jié)點(diǎn)特征矩陣H(l+1)∈Rn×k通過式(2)得到:

        (2)

        通常還要通過激活函數(shù)σ,即H(l+1):=σ(H(l+1))。其中,W(l)∈Rm×k是對(duì)特征矩陣H(l)進(jìn)行線性變換的參數(shù)矩陣;l代表層數(shù),網(wǎng)絡(luò)的輸入特征矩陣即為初始節(jié)點(diǎn)特征矩陣,如式(3)所示。

        H(0)=X

        (3)

        (4)

        此外,Marcheggiani等[13]為了使圖卷積網(wǎng)絡(luò)能夠處理更復(fù)雜的,如包含語(yǔ)法等信息的圖結(jié)構(gòu),他們?yōu)閳D卷積網(wǎng)絡(luò)引入了處理連邊方向和標(biāo)簽種類的新機(jī)制。在他們經(jīng)過拓展后的圖卷積網(wǎng)絡(luò)中,一個(gè)新節(jié)點(diǎn)v的特征表示向量表示如式(5)所示。

        (5)

        其中,N(v)代表節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)集合;W(l)和b(l)代表可學(xué)習(xí)的參數(shù)矩陣或參數(shù);L(u,v)是返回兩節(jié)點(diǎn)u和v之間連邊方向和類型的函數(shù)。相對(duì)式(2)中的W(l),不同方向和不同類型的連邊在這里由不同的可學(xué)習(xí)參數(shù)表示。同樣,最后將所有鄰居節(jié)點(diǎn)變換后的表示被聚合起來(lái),得到該節(jié)點(diǎn)新的特征表示向量。

        引入處理連邊方向和標(biāo)簽種類機(jī)制的圖卷積網(wǎng)絡(luò)的工作原理可大致由圖1的左半部分示意。由于不同指向、不同類型的連邊,其節(jié)點(diǎn)變換參數(shù)矩陣也不相同,所以總的圖卷積網(wǎng)絡(luò)可按照不同方向、不同類型邊拆分成多個(gè)子圖分別進(jìn)行圖卷積,最后再將所有子圖相加得到最終新的節(jié)點(diǎn)表示。為了簡(jiǎn)化表示,這里忽略了邊的方向,只按照邊的類型對(duì)圖卷積網(wǎng)絡(luò)進(jìn)行了分解。

        圖1 圖卷積網(wǎng)絡(luò)(左)與(多頭)自注意機(jī)制(右)的對(duì)比示意圖

        2.2 自注意機(jī)制

        現(xiàn)被廣泛使用的自注意機(jī)制見于由Vaswani等人[6]提出的Transformer結(jié)構(gòu)中,最早用于機(jī)器翻譯。自注意機(jī)制是一種特殊的注意力機(jī)制,相對(duì)初始的注意力機(jī)制[5]更擅長(zhǎng)捕捉數(shù)據(jù)特征內(nèi)部的相關(guān)性,減少了對(duì)其他外部信息的需求依賴。它使得神經(jīng)網(wǎng)絡(luò)模型能夠根據(jù)自身需求靈活、自動(dòng)地關(guān)注輸入數(shù)據(jù)或特征中重要的部分,極大地提高了模型的表達(dá)能力。

        為了簡(jiǎn)化且不失一般性,我們略去層數(shù)標(biāo)識(shí),并如同Transformer編碼器部分,自注意力機(jī)制包含三個(gè)特征矩陣Query、Key、Value(下文分別用Q、K、V表示),且三個(gè)矩陣相同,,用H∈Rn×dmodel表示。自注意機(jī)制可表示如式(6)、式(7)所示。

        其中,參數(shù)矩陣WQ∈Rdmodel×dk、WK∈Rdmodel×dk、WV∈Rdmodel×dv;softmax是對(duì)矩陣按行進(jìn)行softmax歸一化。實(shí)際上,按行softmax歸一化可以分解為先對(duì)矩陣逐元素求指數(shù)的exp運(yùn)算,再按行進(jìn)行歸一化。令

        (8)

        (9)

        作為自注意機(jī)制的一種泛化,多頭自注意機(jī)制將多個(gè)自注意模塊并行而不是前后按順序地堆疊在一起,并在之后進(jìn)行匯總。不同的并行自注意模塊輸入數(shù)據(jù)相同,有助于捕獲輸入數(shù)據(jù)中不同層面的特征信息,提高了模型的表達(dá)能力。多頭自注意力機(jī)制的計(jì)算如式(10)所示。

        Multi-Head(H)=Cat(SA1,…,SAh)WO

        (10)

        其中SA是自注意機(jī)制的簡(jiǎn)寫,表示多個(gè)并行的自注意模塊;Cat是矩陣的拼接操作;h為自注意頭的數(shù)目;多個(gè)自注意力頭拼接后,再與WO∈R(h×dv×dmodel)參數(shù)矩陣進(jìn)行計(jì)算,如式(11)所示。

        SAi=Self-Attentioni(H)

        (11)

        實(shí)際上,將多個(gè)向量或矩陣拼接后再利用矩陣相乘進(jìn)行線性變換,在最終數(shù)值計(jì)算得到的結(jié)果上等價(jià)于分別進(jìn)行矩陣相乘線性變換后再相加,如式(12)所示。即就計(jì)算結(jié)果而言,式(10)可與式(12)等價(jià)。

        Multi-Head(H)=SA1W1+…+SAhWh

        (12)

        2.3 圖卷積網(wǎng)絡(luò)和自注意機(jī)制的對(duì)比

        首先,從對(duì)原始鄰接矩陣的歸一化方式上看,圖卷積網(wǎng)絡(luò)與自注意機(jī)制存在細(xì)微差異,這也導(dǎo)致了兩者所構(gòu)建圖連邊的類型不同。通過表示兩者對(duì)原始鄰接矩陣的歸一化的式(4)和式(9)可以看出,圖卷積網(wǎng)絡(luò)采用的是對(duì)稱歸一化,而自注意機(jī)制采用的則是行歸一化。因此,圖卷積網(wǎng)絡(luò)所構(gòu)建的是一個(gè)無(wú)向圖,而自注意機(jī)制構(gòu)建的則是一個(gè)有向圖。

        其次,相比圖卷積網(wǎng)絡(luò)中原始鄰接矩陣A往往是訓(xùn)練之前人為預(yù)先給定的,自注意機(jī)制中與之相對(duì)應(yīng)表示節(jié)點(diǎn)之間連接關(guān)系的矩陣是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)特性學(xué)習(xí)得到,即各節(jié)點(diǎn)之間連邊的權(quán)重甚至圖的結(jié)構(gòu)(連邊權(quán)重為0則代表無(wú)連接,否則代表有連接)都是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)的學(xué)習(xí)目標(biāo)自適應(yīng)地決定的。

        通過圖1中央虛線方框部分可清晰地看到單層圖卷積網(wǎng)絡(luò)與單頭注意力機(jī)制之間的關(guān)系。左側(cè)的圖卷積網(wǎng)絡(luò)構(gòu)建了一個(gè)無(wú)向圖,且節(jié)點(diǎn)之間的連接關(guān)系及權(quán)重是人為預(yù)先給定的。而自注意機(jī)制則是構(gòu)建了一個(gè)有向全連接圖,其各節(jié)點(diǎn)之間連邊的權(quán)重甚至圖的結(jié)構(gòu)都是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)的學(xué)習(xí)目標(biāo)自適應(yīng)地決定的。圖中只表示了結(jié)構(gòu),沒有表示邊的相對(duì)權(quán)重大小。

        即使是對(duì)于引入處理連邊方向和標(biāo)簽種類機(jī)制的圖卷積網(wǎng)絡(luò),通過圖1我們也可以直觀地看到,多頭自注意機(jī)制也能通過多個(gè)并行的自注意模塊以及可學(xué)習(xí)的參數(shù)對(duì)圖卷積網(wǎng)絡(luò)進(jìn)行表達(dá)。實(shí)際上,每個(gè)自注意頭并不一定如圖中所示那樣是一一對(duì)應(yīng)的。因?yàn)橄啾扔谧髠?cè)圖卷積網(wǎng)絡(luò)中邊的類型需要提前定義,自注意機(jī)制則可以根據(jù)不同任務(wù)目標(biāo)、通過可學(xué)習(xí)的參數(shù)自動(dòng)學(xué)習(xí)捕獲到模型各部分的良好表示,而這并不一定與前者預(yù)先定義的一致。

        試想在極端的情況下,如果完全符合任務(wù)的目標(biāo),那么自注意機(jī)制中的矩陣A也可通過可學(xué)習(xí)參數(shù)的改變表示為與圖卷積網(wǎng)絡(luò)中鄰接矩陣A數(shù)值相等。由此可以看出,可學(xué)習(xí)參數(shù)的引入,使得自注意機(jī)制較圖卷積網(wǎng)絡(luò)具有更強(qiáng)的模型表達(dá)能力。換而言之,在某種程度上,我們可以說(shuō)自注意機(jī)制實(shí)際上是圖卷積網(wǎng)絡(luò)的一種泛化。

        3 實(shí)驗(yàn)設(shè)計(jì)與分析

        本節(jié)在文本分類任務(wù)上,對(duì)分別使用圖卷積網(wǎng)絡(luò)和自注意機(jī)制的模型進(jìn)行實(shí)驗(yàn)。具體來(lái)說(shuō),在從原理上分析得到自注意機(jī)制可看作是圖卷積網(wǎng)絡(luò)的一種泛化形式后,從實(shí)際任務(wù)表現(xiàn)方面驗(yàn)證: 是否使用自注意機(jī)制的模型確實(shí)具有較圖卷積網(wǎng)絡(luò)更強(qiáng)的表達(dá)能力,從而性能更佳。

        3.1 模型設(shè)計(jì)

        首先,我們與多個(gè)圖卷積網(wǎng)絡(luò)相關(guān)的文本分類基準(zhǔn)模型進(jìn)行比較,主要包括:

        ?Text-GCN: Yao等[14]將圖卷積網(wǎng)絡(luò)應(yīng)用于文本分類任務(wù),提出了Text GCN模型。該模型為整個(gè)數(shù)據(jù)集構(gòu)建一張圖,以整個(gè)數(shù)據(jù)集的所有詞和句子作為節(jié)點(diǎn),基于詞的共現(xiàn)信息和文檔-詞的關(guān)系(點(diǎn)互信息PMI和TF-IDF)設(shè)計(jì)連邊權(quán)重。模型采用堆疊的兩層圖卷積網(wǎng)絡(luò),其中,節(jié)點(diǎn)被初始化為詞和文檔的獨(dú)熱向量,即X=I,且訓(xùn)練過程中該輸入層參數(shù)固定。

        ?Conv-GNN: Huang等[15]認(rèn)為,以往的圖神經(jīng)網(wǎng)絡(luò)往往是在整個(gè)數(shù)據(jù)集上構(gòu)建一個(gè)大圖。這導(dǎo)致極高的內(nèi)存消耗,以及無(wú)法對(duì)新來(lái)的數(shù)據(jù)進(jìn)行在線測(cè)試,因?yàn)樾聰?shù)據(jù)并不包含在已經(jīng)構(gòu)建好的圖中。為此,他們?yōu)槊總€(gè)輸入文本構(gòu)建圖,連邊權(quán)重由可學(xué)習(xí)的參數(shù)決定,且各參數(shù)共享以保留全局信息。雖采用的不是圖卷積網(wǎng)絡(luò)的形式,但也是一種卷積圖神經(jīng)網(wǎng)絡(luò)。其中,節(jié)點(diǎn)采用GloVe向量[29]初始化。

        ?Text-GCN*: 為了與實(shí)驗(yàn)組進(jìn)行公平的對(duì)比,消除引入GloVe向量可能帶來(lái)的影響差異,我們也用GloVe向量初始化Text-GCN的節(jié)點(diǎn)特征,并且在訓(xùn)練過程中節(jié)點(diǎn)向量的參數(shù)是可變的。若無(wú)特別說(shuō)明,本文中特征表示向量都采用GloVe向量初始化,且都是在訓(xùn)練過程中可變的。

        為了對(duì)圖卷積網(wǎng)絡(luò)和自注意機(jī)制進(jìn)行較為公平的對(duì)比,我們?cè)O(shè)計(jì)了如下實(shí)驗(yàn)組:

        ?GCN: 采用Conv-GNN的做法,該模型以每個(gè)輸入文本的所有詞和該文本作為節(jié)點(diǎn)構(gòu)圖,再用兩層的圖卷積網(wǎng)絡(luò)對(duì)該文本進(jìn)行類別預(yù)測(cè),詞節(jié)點(diǎn)向量表示全局參數(shù)共享。圖的鄰接矩陣即節(jié)點(diǎn)之間的連邊權(quán)重計(jì)算方式則與Text GCN相同,由點(diǎn)互信息PMI和TF-IDF所確定,計(jì)算如式(13)所示。

        其中,Aij表示節(jié)點(diǎn)i和節(jié)點(diǎn)j的連邊權(quán)重。

        ?SA: 輸入與GCN相同,以單個(gè)文本為單位,可視為所構(gòu)圖節(jié)點(diǎn)相同。但模型是兩層先后次序堆疊的自注意機(jī)制,因此節(jié)點(diǎn)之間連邊權(quán)重完全是由可學(xué)習(xí)參數(shù)決定的。

        3.2 數(shù)據(jù)集與評(píng)價(jià)方法

        我們?cè)谌齻€(gè)被廣泛使用的文本分類數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),即R8、R52(1)https://www.cs.umb.edu/smimarog/textmining/datasets/,以及Ohsumed(2)http://disi.unitn.it/moschitti/corpora.htm。

        ? R8和R52都是Reuters 21 578數(shù)據(jù)集的兩個(gè)子集,分別包含8種和52種類別標(biāo)簽。

        ? Ohsumed來(lái)自于多標(biāo)簽分類數(shù)據(jù)集MEDLINE,然而我們僅關(guān)注單標(biāo)簽分類,因此含有多個(gè)標(biāo)簽的樣本沒有包含在最終的數(shù)據(jù)集中。

        表1展示了所采用數(shù)據(jù)集的部分統(tǒng)計(jì)數(shù)據(jù),包括訓(xùn)練集和測(cè)試集的樣本數(shù)、所構(gòu)成圖的總節(jié)點(diǎn)數(shù),以及所含類別數(shù)目。

        表1 數(shù)據(jù)集的統(tǒng)計(jì)信息

        此外,我們采用了與Text GCN[14]工作相同的模型評(píng)價(jià)指標(biāo),即通用的分類準(zhǔn)確率。其計(jì)算方式為類別預(yù)測(cè)正確的樣本占總待預(yù)測(cè)樣本的比例。

        3.3 實(shí)驗(yàn)設(shè)置

        對(duì)于Text-GCN、Conv-GNN和Text-GCN*這三個(gè)對(duì)照模型,其參數(shù)及訓(xùn)練過程可參考其原論文[14-15]。

        對(duì)GCN和SA兩個(gè)實(shí)驗(yàn)?zāi)P停覀兪褂肁dam優(yōu)化器[30],初始學(xué)習(xí)率為0.001。Dropout概率為0.5,L2正則化權(quán)重為0。其他預(yù)處理方法、數(shù)據(jù)集劃分方式以及參數(shù)設(shè)置均與Text GCN[14]相同。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        表2展示了各模型在各文本分類數(shù)據(jù)集上的分類準(zhǔn)確率,都是運(yùn)行多次取均值和標(biāo)準(zhǔn)差后的結(jié)果,部分?jǐn)?shù)據(jù)來(lái)自于Yao等人[14]和Huang等人[15]。

        表2 模型在測(cè)試集上的準(zhǔn)確率

        對(duì)比代表圖卷積網(wǎng)絡(luò)的GCN模型和代表自注意機(jī)制的SA模型的分類準(zhǔn)確率我們可以看到,使用自注意機(jī)制的模型在多個(gè)文本分類數(shù)據(jù)集上的表現(xiàn)都明顯超越了使用圖卷積網(wǎng)絡(luò)的模型,且存在較大差距。GCN模型相對(duì)SA模型的區(qū)別僅在于: GCN模型的鄰接矩陣計(jì)算方式即節(jié)點(diǎn)間的連接關(guān)系及權(quán)重是提前根據(jù)經(jīng)驗(yàn)人為設(shè)計(jì)并固定的,而SA模型由于采用的是自注意機(jī)制,相對(duì)應(yīng)地表示節(jié)點(diǎn)之間連接關(guān)系的矩陣則是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)特性學(xué)習(xí)得到,即各節(jié)點(diǎn)之間連邊的權(quán)重甚至圖的結(jié)構(gòu)都是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)的學(xué)習(xí)目標(biāo)自適應(yīng)地決定的。該現(xiàn)象表明,可學(xué)習(xí)參數(shù)的引入,使得自注意機(jī)制較圖卷積網(wǎng)絡(luò)具有更強(qiáng)的模型表達(dá)能力。

        繼續(xù)觀察GCN和SA這兩組實(shí)驗(yàn),我們發(fā)現(xiàn)隨著數(shù)據(jù)集規(guī)模的增大,兩模型的性能差距也相應(yīng)擴(kuò)大,如圖2所示。橫軸依次代表的是R8、R52以及Ohsumed數(shù)據(jù)集構(gòu)圖所含的節(jié)點(diǎn)總數(shù)依次增大,縱軸表示分類準(zhǔn)確率,圖中深色部分即表示了使用自注意機(jī)制的SA模型與使用圖卷積網(wǎng)絡(luò)的GCN模型之間的分類準(zhǔn)確率差異??梢灾庇^地看到,隨著代表數(shù)據(jù)集規(guī)模的構(gòu)圖節(jié)點(diǎn)數(shù)目的增加,深色部分的縱向距離不斷增大。這說(shuō)明,隨著數(shù)據(jù)規(guī)模的增加,更具表達(dá)泛化能力的自注意機(jī)制能夠更好地捕獲并表示數(shù)據(jù)中與任務(wù)目標(biāo)一致的特征,從而取得較圖卷積網(wǎng)絡(luò)更優(yōu)異的性能表現(xiàn)。

        圖2 分類準(zhǔn)確率差距與數(shù)據(jù)集規(guī)模的關(guān)系

        我們還發(fā)現(xiàn),使用自注意機(jī)制的SA模型在三個(gè)文本分類數(shù)據(jù)集上的分類準(zhǔn)確率也都顯著優(yōu)于目前使用圖卷積網(wǎng)絡(luò)最先進(jìn)的文本分類模型Text-GCN(使用T檢驗(yàn)進(jìn)行顯著性檢驗(yàn),滿足p<0.05的條件,說(shuō)明該差異是顯著的)。在R52和Ohsumed兩個(gè)數(shù)據(jù)集上更是超過了Conv-GCN,達(dá)到了目前最先進(jìn)的文本分類水平。兩者在R8數(shù)據(jù)集上的表現(xiàn)也相當(dāng),可歸因?yàn)閰?shù)優(yōu)化上的隨機(jī)性。

        綜合之前的分析結(jié)果,這些證據(jù)表明,在文本分類任務(wù)中自注意機(jī)制更具表達(dá)能力,或可替代圖卷積網(wǎng)絡(luò),帶來(lái)潛在的性能提升。

        4 結(jié)語(yǔ)

        本文對(duì)深度學(xué)習(xí)的兩項(xiàng)前沿技術(shù)即圖卷積網(wǎng)絡(luò)和自注意機(jī)制進(jìn)行了比較研究,從原理上分析發(fā)現(xiàn),自注意機(jī)制可視為圖卷積網(wǎng)絡(luò)的一種泛化形式,具有較圖卷積網(wǎng)絡(luò)更強(qiáng)的表達(dá)能力。自注意機(jī)制可認(rèn)為也以所有輸入樣本為節(jié)點(diǎn),構(gòu)建有向全連接圖進(jìn)行卷積。此外,圖卷積網(wǎng)絡(luò)中用于表示節(jié)點(diǎn)間關(guān)系的鄰接矩陣往往是訓(xùn)練之前人為預(yù)先給定的,而自注意機(jī)制中與之相對(duì)應(yīng)表示節(jié)點(diǎn)之間連接關(guān)系的矩陣則由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)特性學(xué)習(xí)得到,即各節(jié)點(diǎn)之間連邊的權(quán)重甚至圖的結(jié)構(gòu)都是由可學(xué)習(xí)的參數(shù)根據(jù)不同任務(wù)的學(xué)習(xí)目標(biāo)自適應(yīng)地決定的。最后,在多個(gè)文本分類數(shù)據(jù)集上進(jìn)行了圖卷積網(wǎng)絡(luò)與自注意機(jī)制的對(duì)比實(shí)驗(yàn)。結(jié)果顯示,使用自注意機(jī)制的模型較使用圖卷積網(wǎng)絡(luò)的對(duì)照模型分類效果更佳,甚至超過了目前圖卷積網(wǎng)絡(luò)用于文本分類任務(wù)的最先進(jìn)水平。并且隨著數(shù)據(jù)規(guī)模的增大,兩者性能差距也隨之?dāng)U大。這些證據(jù)表明自注意機(jī)制更具表達(dá)能力,或可替代圖卷積網(wǎng)絡(luò)帶來(lái)潛在的性能提升。

        需要特別指出的是,本文對(duì)圖卷積網(wǎng)絡(luò)和自注意機(jī)制的討論實(shí)際上是限制在自然語(yǔ)言處理領(lǐng)域內(nèi)的。除本文的內(nèi)容之外,還可以許多角度對(duì)兩者之間的關(guān)系進(jìn)行探討,例如,在非歐氏度量空間的數(shù)據(jù)上兩者表現(xiàn)的比較、兩者的計(jì)算代價(jià)等,還可以利用可視化的方法在原理上探索兩者表現(xiàn)差異的緣由。未來(lái)工作中,可以嘗試在其他更多任務(wù)上進(jìn)行圖卷積網(wǎng)絡(luò)與自注意機(jī)制的對(duì)比研究和實(shí)驗(yàn),例如,機(jī)器翻譯、文本摘要等,甚至是其他領(lǐng)域的任務(wù)??紤]到所采用技術(shù)的相似性,也可以進(jìn)一步對(duì)融入了注意力機(jī)制的許多圖神經(jīng)網(wǎng)絡(luò)和自注意機(jī)制進(jìn)行對(duì)比研究。

        猜你喜歡
        卷積神經(jīng)網(wǎng)絡(luò)分類
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        分類算一算
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        教你一招:數(shù)的分類
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        欧美一欧美一区二三区性| 成av人片一区二区三区久久| 国产又大大紧一区二区三区| 日本免费久久高清视频| 欧美做受又硬又粗又大视频| 免费高清av一区二区三区 | 正在播放一区| 性色av成人精品久久| 国产精品亚洲av高清二区| 亚洲精品色婷婷在线影院| 丰满爆乳无码一区二区三区| 日韩精品区欧美在线一区| 亚洲中出视频| 韩国三级黄色一区二区| 中文字幕人妻无码视频| 亚洲乱妇老熟女爽到高潮的片| 无码视频一区=区| 亚洲一区第二区三区四区| 亚洲中文字幕成人无码| 国产婷婷丁香久久综合| 亚洲精品成人久久av| 久久综合九色欧美综合狠狠 | 伊人色综合视频一区二区三区| 开心五月婷婷综合网站| 日韩亚洲无吗av一区二区| 精品久久欧美熟妇www| 国产精品亚洲片夜色在线| 日韩精品视频中文字幕播放| 99久久久无码国产精品性| 无码午夜人妻一区二区三区不卡视频 | 北条麻妃在线中文字幕| 亚洲va中文字幕无码毛片| 一级片麻豆| 国产不卡一区二区三区视频| 有坂深雪中文字幕亚洲中文| 99在线精品免费视频九九视| 中文字幕亚洲精品第1页| 国内自拍视频在线观看| 成人日韩精品人妻久久一区| 婷婷色婷婷开心五月四房播播| 在线播放a欧美专区一区|