亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合圖卷積的深層神經(jīng)網(wǎng)絡(luò)用于文本分類

        2022-04-08 03:42:26董春陽(yáng)
        關(guān)鍵詞:單詞分類特征

        鄭 誠(chéng),陳 杰,董春陽(yáng)

        1.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601

        2.計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601

        文本是傳遞信息的重要途徑和載體,在如今的大數(shù)據(jù)的時(shí)代,海量文本信息的管理成為了一個(gè)難點(diǎn)。文本分類作為自然語(yǔ)言處理的基本任務(wù)和核心技術(shù),如何快速準(zhǔn)確的判別文本所屬類別從而更好地服務(wù)自然語(yǔ)言其他任務(wù),一直以來(lái)都是研究的重點(diǎn)方向。

        最近有研究人員將文本表示成圖結(jié)構(gòu),通過(guò)圖卷積網(wǎng)絡(luò)捕獲文本的結(jié)構(gòu)信息還有單詞間非連續(xù)和長(zhǎng)距離的依賴關(guān)系,但是圖卷積網(wǎng)絡(luò)應(yīng)用在文本上存在有兩方面的限制:一是由于將單詞表示為節(jié)點(diǎn),通過(guò)鄰接矩陣聚合節(jié)點(diǎn)的鄰域信息,忽略了文本的順序結(jié)構(gòu),導(dǎo)致?lián)p失了文本的上下文語(yǔ)義信息;二是對(duì)文本局部特征信息(如關(guān)鍵短語(yǔ))的提取不足。從而在一些上下文語(yǔ)義信息和局部特征信息豐富的文本上表現(xiàn)欠佳。

        為解決上述提到的問(wèn)題,本文提出了一種新的模型,該模型主要由3個(gè)特征提取層和一個(gè)圖池化層組成。第一個(gè)特征提取層是由GCN和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi_LSTM)組成,利用Bi_LSTM模型在建模上下文語(yǔ)義信息的優(yōu)勢(shì)對(duì)文本的上下文語(yǔ)義信息特征進(jìn)行提取。第二個(gè)特征提取層是由GCN和CNN組成,利用CNN模型對(duì)局部特征信息提取的優(yōu)勢(shì)對(duì)文本的局部特征信息進(jìn)行提取。然后通過(guò)圖池化層篩選出重要節(jié)點(diǎn)送入第三個(gè)由GCN和CNN組成的特征提取層,目的是幫助CNN捕獲文本更深層次的局部特征信息。其中GCN模型起到的作用有兩方面:一方面是捕獲文本中非連續(xù)和長(zhǎng)距離的單詞依賴關(guān)系;第二方面是通過(guò)聚合鄰域信息擴(kuò)大模型的信息感知能力。模型中文本圖的節(jié)點(diǎn)由詞性為名詞、形容詞和動(dòng)詞3種類型的單詞構(gòu)成,節(jié)點(diǎn)之間的邊由單詞是否在滑動(dòng)窗口中決定。最后,將提取的特征信息送入全連接層再通過(guò)SoftMax函數(shù)得到文檔的預(yù)測(cè)類別。

        本文的貢獻(xiàn)如下:提出了一種新型模型,通過(guò)Bi_LSTM和CNN混合提取文本的上下文語(yǔ)義信息和局部特征信息去彌補(bǔ)GCN在文本特征信息提取上的不足。并采用了圖池化層幫助CNN提取更深層次的局部特征,以更好地表示文本信息。

        在3個(gè)英文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型相較于基準(zhǔn)模型,取得了一定的效果。

        1 相關(guān)工作

        傳統(tǒng)的文本分類方法主要是基于特征工程,特征工程有詞袋模型[1]和n-grams等,后來(lái)也有將文本轉(zhuǎn)換為圖形并對(duì)圖形進(jìn)行特征工程的研究[2-3],但這些方法不能自動(dòng)學(xué)習(xí)節(jié)點(diǎn)的嵌入表示。

        基于深度學(xué)習(xí)的文本分類方法相較于傳統(tǒng)文本分類方法,有自動(dòng)獲取特征和進(jìn)行端到端學(xué)習(xí)的能力,并且深度學(xué)習(xí)模型能夠?qū)W習(xí)到文本深層的語(yǔ)義信息。深度學(xué)習(xí)在詞嵌入研究方面,文獻(xiàn)[4]提出Word2Vec模型,該模型通過(guò)使用深度學(xué)習(xí)的方法將單詞表示為低維度且稠密的向量,使用詞向量距離衡量單詞之間的語(yǔ)義相似度,能更好地表達(dá)出單詞本身所具有的語(yǔ)義信息。2016年,文獻(xiàn)[5]提出fastText模型,該模型與Word2Vec模型中的CBOW相似,但是兩者的任務(wù)不同。fastText模型在維持較高精確度的情況下加速了模型的訓(xùn)練過(guò)程,詞向量表示效果良好。在深度學(xué)習(xí)模型方面,文獻(xiàn)[6]提出使用文本卷積神經(jīng)網(wǎng)絡(luò)(textCNN)用于文本分類,利用多個(gè)不同尺寸的濾波器來(lái)捕獲文本的局部特征信息,在多個(gè)數(shù)據(jù)集上獲得很好的效果。但是僅提取文本的局部特征信息在文本表示上仍有不足,因?yàn)槲谋镜纳舷挛氖怯新?lián)系的,脫離了上下文對(duì)于文本的理解是不充分的。為此文獻(xiàn)[7]提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)用于文本分類,由于循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列相關(guān)任務(wù)時(shí)有著獨(dú)特的優(yōu)勢(shì),能夠捕獲序列的歷史信息,使得循環(huán)神經(jīng)網(wǎng)絡(luò)在文本分類任務(wù)中能夠捕獲文本的上下文語(yǔ)義信息,成為了文本分類中重要的深度學(xué)習(xí)模型之一。此外,大部分基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型往往只關(guān)注于文本內(nèi)容本身的信息而忽略了標(biāo)簽信息在文本分類中的重要性,文獻(xiàn)[8]提出聯(lián)合嵌入單詞和標(biāo)簽信息的模型,通過(guò)將標(biāo)簽和單詞共同嵌入到同一個(gè)向量空間中,以獲取標(biāo)簽信息進(jìn)行文本分類。

        近年來(lái),許多研究嘗試將卷積運(yùn)算應(yīng)用到圖形數(shù)據(jù)上,文獻(xiàn)[9]提出了圖卷積網(wǎng)絡(luò)(GCN),該網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)的一種變種,采用半監(jiān)督的方式學(xué)習(xí)圖中內(nèi)在結(jié)構(gòu)的特征,并且模型在節(jié)點(diǎn)分類任務(wù)上取得了不錯(cuò)的效果。由于GCN中節(jié)點(diǎn)之間邊的權(quán)重是固定不變的,在聚合節(jié)點(diǎn)的鄰域信息時(shí)不能聚合那些具有重要特征的信息。為此文獻(xiàn)[10]提出圖注意網(wǎng)絡(luò)(GAT)使用注意力機(jī)制文獻(xiàn)[11]對(duì)節(jié)點(diǎn)的鄰域信息進(jìn)行權(quán)重分配,突出與分類任務(wù)相關(guān)的重要信息,給鄰居節(jié)點(diǎn)中較為重要的節(jié)點(diǎn)分配較高的權(quán)重,相比于沒有添加權(quán)重的圖卷積網(wǎng)絡(luò)有較好的提升。后來(lái),文獻(xiàn)[12]提出了textGCN模型,首次將圖卷積網(wǎng)絡(luò)引入到文本分類中,通過(guò)將文本建模成圖,圖中的節(jié)點(diǎn)由單詞和文檔構(gòu)成,然后在圖上應(yīng)用圖卷積網(wǎng)絡(luò)進(jìn)行文本分類最終獲得了不錯(cuò)的效果。

        2 結(jié)合圖卷積的深層神經(jīng)網(wǎng)絡(luò)

        2.1 模型總體框架

        為解決上文中的問(wèn)題,本文提出一種新的模型,其總體框架如圖1所示。

        圖1 模型總體框架Fig.1 Overall framework of model

        2.2 文本圖構(gòu)建和單詞表示

        首先,利用NLTK工具包篩選出文本中的名詞、形容詞和動(dòng)詞,其他詞性的詞作為停用詞刪除。圖中節(jié)點(diǎn)的邊由滑動(dòng)窗口決定,規(guī)則是如果兩個(gè)單詞在同一個(gè)滑動(dòng)窗口出現(xiàn)則在兩個(gè)單詞間添加一條無(wú)向邊,從而構(gòu)成本文的文本圖。如圖2所示為將一個(gè)文本轉(zhuǎn)化為圖的例子。

        圖2 文本圖示例Fig.2 Text diagram example

        因?yàn)檫x取名詞、形容詞和動(dòng)詞作為圖的節(jié)點(diǎn),所以選取了“Jim”“person”“who”“plays”“football”作為圖中的節(jié)點(diǎn),并且使用了一個(gè)大小為4的滑動(dòng)窗口在文本上滑動(dòng)。例如,在文本中“Jim”和“person”在同一個(gè)滑動(dòng)窗口中,所以圖中“Jim”和“person”兩個(gè)節(jié)點(diǎn)間存在一條無(wú)向邊。

        本文模型的單詞表示由單詞嵌入向量和位置嵌入向量共同組成,使用fastText預(yù)訓(xùn)練詞向量作為單詞嵌入向量。它包含超過(guò)200萬(wàn)個(gè)預(yù)訓(xùn)練的單詞向量,與其他預(yù)訓(xùn)練的單詞嵌入向量如Glove[13]相比,使用fastText能幫助人們避免大量的未知單詞。例如在AG News數(shù)據(jù)集中,使用fastText預(yù)訓(xùn)練詞向量只有幾百個(gè)未知單詞,這比使用Glove預(yù)訓(xùn)練詞向量要少得多。除了單詞嵌入向量以外,還使用了文獻(xiàn)[14]提出的位置嵌入方法,將文本中單詞的位置編碼成一個(gè)獨(dú)熱向量,然后將其與單詞嵌入向量連接。最后將單詞的向量表示相疊加,得到模型所需要的特征矩陣。

        2.3 圖卷積網(wǎng)絡(luò)

        圖卷積網(wǎng)絡(luò)是一種處理圖數(shù)據(jù)的模型,該模型通過(guò)卷積運(yùn)算將節(jié)點(diǎn)的鄰域信息聚合到自身節(jié)點(diǎn),經(jīng)過(guò)多次聚合能夠提取到高階的鄰域信息和節(jié)點(diǎn)間非連續(xù)的依賴關(guān)系。

        假設(shè)一個(gè)圖表示為G=(V,E),V是圖中節(jié)點(diǎn)的集合,E是圖中邊的集合。一個(gè)一層的圖卷積網(wǎng)絡(luò)運(yùn)算公式如下:

        其中H0=X,X∈?N×D是圖卷積網(wǎng)絡(luò)的第一層輸入,N為圖中節(jié)點(diǎn)的個(gè)數(shù),D代表節(jié)點(diǎn)的嵌入維度,A∈?N×N為鄰接矩陣表示圖中節(jié)點(diǎn)之間的連接關(guān)系,W0∈?D×K為權(quán)重參數(shù)矩陣,σ(·)代表一個(gè)非線性激活函數(shù)。若要捕獲節(jié)點(diǎn)的高階領(lǐng)域信息,則需要進(jìn)行多層GCN疊加,其運(yùn)算過(guò)程如下:

        其中l(wèi)表示層數(shù)。

        2.4 GCN+Bi_LSTM層

        圖卷積神經(jīng)網(wǎng)絡(luò)在對(duì)圖型數(shù)據(jù)進(jìn)行處理時(shí),往往是對(duì)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)進(jìn)行卷積運(yùn)算,從而通過(guò)鄰域信息來(lái)更新自身節(jié)點(diǎn)。但其中忽略了節(jié)點(diǎn)之間的順序信息,尤其是對(duì)于文本這種有著豐富的上下文語(yǔ)義信息的數(shù)據(jù),讓模型具有提取這種信息的能力尤為重要。雖然本文試圖將文本數(shù)據(jù)建模為圖形數(shù)據(jù),但這些文本數(shù)據(jù)本質(zhì)上仍是網(wǎng)格狀的數(shù)據(jù),進(jìn)而保留了節(jié)點(diǎn)間的順序信息,所以可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本的上下文語(yǔ)義信息。

        循環(huán)神經(jīng)網(wǎng)絡(luò)是一種處理時(shí)序數(shù)據(jù)的模型,在處理與序列相關(guān)的任務(wù)時(shí)獲得了優(yōu)異的表現(xiàn)。但在利用反向算法和梯度更新算法對(duì)模型進(jìn)行權(quán)重更新時(shí),循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)了嚴(yán)重的梯度消失問(wèn)題。于是本文采用循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型Bi_LSTM。該模型通過(guò)前向LSTM和后向LSTM組合而成,前向LSTM使單詞獲取上文信息,后向LSTM使單詞獲取下文信息。所以在建模上下文語(yǔ)義信息方面有著獨(dú)特的優(yōu)勢(shì)。GCN+Bi_LSTM層如圖3所示。

        圖3 GCN+Bi_LSTM層Fig.3 GCN+Bi_LSTM layer

        本文將文本表示為鄰接矩陣和節(jié)點(diǎn)的特征矩陣,文本圖中的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)著文本中一個(gè)單詞,模型保留了文本中節(jié)點(diǎn)初始位置的順序信息,即本模型中的特征矩陣是具有順序信息的網(wǎng)格狀數(shù)據(jù)。通過(guò)圖卷積網(wǎng)絡(luò)捕獲單詞間長(zhǎng)距離依賴關(guān)系的同時(shí)利用Bi_LSTM去提取文本的上下文語(yǔ)義信息,進(jìn)而彌補(bǔ)傳統(tǒng)圖卷積網(wǎng)絡(luò)在上下文語(yǔ)義信息方面捕獲能力不足的問(wèn)題。

        2.5 GCN+CNN層

        由于傳統(tǒng)的圖卷積網(wǎng)絡(luò)只在單個(gè)節(jié)點(diǎn)上進(jìn)行卷積運(yùn)算,并沒有使用像卷積神經(jīng)網(wǎng)絡(luò)那樣的可訓(xùn)練空間濾波器,所以導(dǎo)致圖卷積網(wǎng)絡(luò)在提取局部特征方面不如卷積神經(jīng)網(wǎng)絡(luò)。并且因?yàn)閳D中節(jié)點(diǎn)的鄰居數(shù)量不統(tǒng)一進(jìn)而導(dǎo)致圖中禁止使用卷積核大于1的卷積運(yùn)算。由于本文的文本數(shù)據(jù)是網(wǎng)格狀的數(shù)據(jù),所以可以使用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征信息。

        卷積神經(jīng)網(wǎng)絡(luò)最先在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用,后來(lái)才應(yīng)用在自然語(yǔ)言領(lǐng)域。相比于循環(huán)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)更注重局部特征信息的提取,如在文本中對(duì)一些關(guān)鍵短語(yǔ)信息進(jìn)行識(shí)別等,而這些關(guān)鍵短語(yǔ)對(duì)于文本的分類有著關(guān)鍵的作用。GCN+CNN層如圖4所示。

        圖4 GCN+CNN層Fig.4 GCN+CNN layer

        文中卷積神經(jīng)網(wǎng)絡(luò)使用的是一維卷積,即只在文本序列的一個(gè)方向做卷積。由于是文本數(shù)據(jù),所以網(wǎng)絡(luò)中卷積核寬度和單詞向量的嵌入緯度相等,高度分別采用2、3、4,即采用3種不同尺寸的卷積核提取文本不同類型的局部信息。

        經(jīng)過(guò)GCN+Bi_LSTM層得到的新特征矩陣X1作為本層的輸入之一,另一個(gè)輸入仍為鄰接矩陣A。經(jīng)過(guò)CNN輸出得到HCNN,經(jīng)過(guò)GCN輸出得到HGCN,然后將兩者連接得到新的特征矩陣X2,運(yùn)算過(guò)程如下:

        由于本文的圖形數(shù)據(jù)是具有節(jié)點(diǎn)間的順序信息的,即特征矩陣為具有順序信息的網(wǎng)格狀數(shù)據(jù)。所以可以使用卷積核大于1的卷積運(yùn)算在特征矩陣上進(jìn)行文本局部特征信息的提取。通過(guò)圖卷積神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的組合,可以充分利用兩個(gè)模型的優(yōu)點(diǎn)并克服兩者各自的局限性。具體來(lái)說(shuō),一方面,卷積神經(jīng)網(wǎng)絡(luò)利用了可訓(xùn)練的空間濾波器提取局部信息,在提取過(guò)程中為了避免產(chǎn)生大量的可訓(xùn)練參數(shù),使用了尺寸較小的卷積核。但這會(huì)導(dǎo)致卷積運(yùn)算在特征矩陣上的感受野較小,對(duì)于遠(yuǎn)距離的文本特征捕獲能力不足。而圖卷積神經(jīng)網(wǎng)絡(luò)通過(guò)文本圖中節(jié)點(diǎn)之間的連邊可以迅速地增加模型的感受野,從而捕獲文本長(zhǎng)遠(yuǎn)距離的特征,補(bǔ)充了卷積神經(jīng)網(wǎng)絡(luò)的不足。另一方面,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)其在捕獲局部特征信息方面的優(yōu)勢(shì)去彌補(bǔ)圖卷積神經(jīng)網(wǎng)絡(luò)在該方面的不足,二者相輔相成。

        本文模型包含兩個(gè)GCN+CNN層,第一個(gè)GCN+CNN層是為了初步提取文本的局部特征信息,捕獲文本淺層的詞與詞之間的關(guān)系。第二個(gè)GCN+CNN層在經(jīng)過(guò)池化層篩選后的新的文本子圖上進(jìn)行更深層次的局部特征信息提取,從而捕獲文本中潛在的、深層次的詞與詞之間的語(yǔ)義相關(guān)性,能使模型更好地提取文本特征信息。

        Ruff項(xiàng)目[13],把邊緣計(jì)算的概念和區(qū)塊鏈結(jié)合在一起,提供了統(tǒng)一的IoT應(yīng)用接口,并提供IoT主控設(shè)備和受控設(shè)備的全局管理,它屬于IoT數(shù)據(jù)應(yīng)用層面的項(xiàng)目。該項(xiàng)目中輕節(jié)點(diǎn)代表具體的IoT受控設(shè)備,該設(shè)備通過(guò)存儲(chǔ)主控設(shè)備的公鑰來(lái)識(shí)別主控設(shè)備的命令。通過(guò)智能合約,主控設(shè)備可以把受控設(shè)備的部分功能以租賃或轉(zhuǎn)移的形式提供服務(wù)。該項(xiàng)目搭建自己的公鏈,采用了股份授權(quán)證明(DPoS)共識(shí)算法,每輪選擇105個(gè)節(jié)點(diǎn)參與區(qū)塊生成。該公鏈能否承載其設(shè)備租賃的服務(wù)模式,還需要在實(shí)踐中檢驗(yàn)。

        2.6 池化層

        在使用卷積神經(jīng)網(wǎng)絡(luò)在網(wǎng)格狀數(shù)據(jù)上提取局部特征信息時(shí),池化層非常重要,因?yàn)槌鼗瘜幽軌蚩焖贁U(kuò)大卷積神經(jīng)網(wǎng)絡(luò)的感受野捕獲更大范圍的信息。于是本文使用圖池化層選擇出重要的節(jié)點(diǎn)構(gòu)成新的子圖送入下一層卷積神經(jīng)網(wǎng)絡(luò)中,有助于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步捕獲更深層次的局部特征信息。圖池化層結(jié)構(gòu)如圖5所示。

        圖5 圖池化層Fig.5 Graph pooling layer

        其中,圖池化層的輸入由特征矩陣X l∈?N×D和鄰接矩陣A l∈?N×N構(gòu)成,D表示節(jié)點(diǎn)的嵌入維度,N表示圖中節(jié)點(diǎn)的個(gè)數(shù)。整個(gè)圖池化層的傳播規(guī)則定義如下:

        其中k是從文本圖中被選出來(lái)構(gòu)成新的文本子圖的節(jié)點(diǎn)數(shù)量。p是一個(gè)可訓(xùn)練的投影向量,通過(guò)p與X l相乘的結(jié)果z來(lái)衡量節(jié)點(diǎn)的重要性,其中從中選擇數(shù)值最大的k個(gè)節(jié)點(diǎn)作為新文本圖的節(jié)點(diǎn)。rank(·)操作表示選取z中最大的k個(gè)數(shù)所對(duì)應(yīng)節(jié)點(diǎn)的序號(hào),并且這些序號(hào)對(duì)應(yīng)于圖中的節(jié)點(diǎn)。?是將z(idx)進(jìn)行sigmoid[16]歸一化后的結(jié)果。是根據(jù)rank(·)操作所得到的節(jié)點(diǎn)序號(hào)提取到的節(jié)點(diǎn)特征矩陣,同理A l+1是依據(jù)rank(·)操作得到的節(jié)點(diǎn)序號(hào)對(duì)鄰接矩陣進(jìn)行行列提取所獲得的新鄰接矩陣。X l+1表示新特征矩陣,1TC表示一個(gè)單位向量的轉(zhuǎn)置,將其與?相乘會(huì)得到?每個(gè)元素的和,X l+1中第i行的向量由中第i行向量和?中對(duì)應(yīng)的標(biāo)量按元素相乘得到。圖池化層的輸出X l+1和A l+1作為下一層特征提取層的輸入。

        2.7 分類

        初始數(shù)據(jù)在經(jīng)過(guò)模型3個(gè)特征提取層和1個(gè)池化層處理后,得到最終的特征矩陣X4。這里,將之前每一層得到的特征矩陣和X4進(jìn)行拼接操作,然后將X4輸入到全連接層再通過(guò)SoftMax函數(shù)得到最終的預(yù)測(cè)值。其運(yùn)算過(guò)程如下:

        對(duì)于模型中的所有參數(shù)采用梯度下降算法進(jìn)行更新優(yōu)化,使用交叉熵?fù)p失函數(shù)作為模型的損失函數(shù)。

        3 實(shí)驗(yàn)及結(jié)果分析

        3.1 數(shù)據(jù)集介紹

        本文在3個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),下面是對(duì)3個(gè)英文數(shù)據(jù)集的介紹。

        AG News:數(shù)據(jù)集來(lái)自文獻(xiàn)[17]是一個(gè)包含4個(gè)主題的新聞數(shù)據(jù)集:世界、體育、商業(yè)和科技。

        R8:是路透社新聞數(shù)據(jù)集的一個(gè)子集,來(lái)自文獻(xiàn)[12],包含8個(gè)主題。共有5 485個(gè)訓(xùn)練數(shù)據(jù)和2 189個(gè)測(cè)試數(shù)據(jù),并且每個(gè)數(shù)據(jù)只與一個(gè)主題相關(guān)。

        MR:是一個(gè)電影評(píng)論數(shù)據(jù)集,其中每個(gè)評(píng)論只有一句話[18]。同時(shí)每個(gè)評(píng)論的情感極性只能從積極和消極中選一個(gè),是一個(gè)二分類。

        表1展示了3個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息。

        表1 數(shù)據(jù)集統(tǒng)計(jì)表Table 1 Dataset statistics

        3.2 對(duì)比實(shí)驗(yàn)

        (1)CNN:卷積神經(jīng)網(wǎng)絡(luò)[6],這里使用隨機(jī)初始化的單詞嵌入向量作為輸入。

        (2)LSTM:長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型[19],使用模型最后一層隱向量作為文本的表示。

        (3)PTE:大規(guī)模預(yù)測(cè)文本嵌入[20],模型將標(biāo)簽和共生單詞表示成一個(gè)異質(zhì)信息網(wǎng)絡(luò),然后將該網(wǎng)絡(luò)降維到一個(gè)低維度向量空間,進(jìn)而得到文本表示。

        (4)fastText:一種文本分類方法[5],模型由輸入層、隱含層和輸出層組成。輸入層是由多個(gè)向量表示的單詞組成,隱含層是對(duì)多個(gè)詞向量的平均,輸出層輸出類別。

        (5)LEAM:一種聯(lián)合嵌入單詞和標(biāo)簽的文本分類方法[8],通過(guò)將標(biāo)簽信息嵌入到單詞向量中,以更好地獲得文本表示。

        (6)textGCN:一種使用圖建模文本的文本分類方法[12],將文本中單詞和文檔作為節(jié)點(diǎn),其中文檔和單詞的邊基于單詞在文檔中的出現(xiàn)信息,單詞和單詞的邊基于詞的全局詞共現(xiàn)信息。

        3.3 實(shí)驗(yàn)參數(shù)設(shè)置

        在生成文本圖的過(guò)程中,滑動(dòng)窗口大小設(shè)置為4,滑動(dòng)窗口的步長(zhǎng)設(shè)為1。圖中最大節(jié)點(diǎn)數(shù)設(shè)置為100,單詞嵌入維度設(shè)為300,使用Adam訓(xùn)練器[21]進(jìn)行epoch=30的訓(xùn)練,學(xué)習(xí)率初始化為0.001,在15至25 epoch之間衰減0.1;dropout率設(shè)為0.55,批處理大小設(shè)為256。在模型中使用RELU作為非線性激活函數(shù),基線實(shí)驗(yàn)中的參數(shù)均采用原論文或者復(fù)現(xiàn)的設(shè)置。

        3.4 實(shí)驗(yàn)結(jié)果

        表2為本文在3個(gè)數(shù)據(jù)集上實(shí)驗(yàn)的結(jié)果,分類的評(píng)價(jià)標(biāo)準(zhǔn)是錯(cuò)誤率。從表中可以看出本文模型相較與各基線模型有著良好的分類效果,證明了本文模型的有效性。其中本文模型相比于textGCN模型有著一定程度上的效果提升,說(shuō)明本文模型引入了CNN和LSTM兩種模型,確實(shí)豐富了GCN的上下文語(yǔ)義信息和局部特征信息,使得本文模型相較于textGCN有著較好的分類性能。

        表2 實(shí)驗(yàn)結(jié)果(錯(cuò)誤率)Table 2 Experimental results(Error rate)%

        3.5 消融實(shí)驗(yàn)

        本文對(duì)所構(gòu)建模型的有效性進(jìn)行了消融實(shí)驗(yàn),其結(jié)果如表3所示,其中(w/o)表示刪除該模塊的模型。從表中可以看到刪除相應(yīng)模塊的模型相較于總模型在性能上均存在一定程度的下降,說(shuō)明模塊之間是相輔相成的。從中可以觀察到不同的模塊在不同的數(shù)據(jù)集中有著不同的作用。例如,在不使用GCN+Bi_LSTM模塊的情況下,在MR數(shù)據(jù)集上取得了最壞的分類結(jié)果。這是因?yàn)镸R數(shù)據(jù)集是情感分類數(shù)據(jù)集,文本中帶有情感信息,而Bi_LSTM能夠捕獲文本的上下文語(yǔ)義信息進(jìn)而提取到文本的情感信息。對(duì)比消融實(shí)驗(yàn)中第二個(gè)實(shí)驗(yàn)和第三個(gè)實(shí)驗(yàn)的結(jié)果,可以看出第一個(gè)GCN+CNN層在初步提取文本局部特征信息和淺層詞與詞之間關(guān)系上的有效性。此外,第三個(gè)實(shí)驗(yàn)的錯(cuò)誤率比總模型高,說(shuō)明了第二個(gè)GCN+CNN層在進(jìn)一步提取文本的局部特征信息,捕獲文本深層次的關(guān)鍵短語(yǔ)信息上有著重要的作用,能幫助模型更好地表示文本信息,從而說(shuō)明了該模塊的有效性。

        表3 消融實(shí)驗(yàn)結(jié)果(錯(cuò)誤率)Table 3 Ablation experimental results(error rate)%

        3.6 參數(shù)分析

        本文模型中引入了池化層,為了探究增加池化層帶來(lái)的參數(shù)變化對(duì)分類效果的影響,在AGNews數(shù)據(jù)集上進(jìn)行參數(shù)分析實(shí)驗(yàn),得到了表4的實(shí)驗(yàn)結(jié)果。從表中看出,使用了池化層的模型相比于未使用池化層的模型,模型參數(shù)增加了0.08個(gè)百分點(diǎn),分類效果卻提升了0.6個(gè)百分點(diǎn)。這表明雖然引入了池化機(jī)制增加了模型的參數(shù)數(shù)量,但數(shù)量很少不會(huì)增加模型過(guò)度擬合的風(fēng)險(xiǎn),且在這種情況下模型獲得了一定程度的效果提升。

        表4 池化層參數(shù)分析Table 4 Parameter analysis of pool layer

        圖6~8分別展示了模型在3個(gè)數(shù)據(jù)集上使用不同滑動(dòng)窗口大小對(duì)分類的影響,從圖中可以看出模型在R8和AG News兩個(gè)數(shù)據(jù)集上錯(cuò)誤率是先減少,當(dāng)窗口大小大于4時(shí)錯(cuò)誤率反而增加。而在MR數(shù)據(jù)集上錯(cuò)誤率的變換是先增加,在窗口大小為4時(shí)錯(cuò)誤率取得最小值,當(dāng)窗口大小繼續(xù)增大時(shí)錯(cuò)誤率也接著增加。從3個(gè)數(shù)據(jù)集上錯(cuò)誤率的變化可以看出,滑動(dòng)窗口過(guò)大過(guò)小都不好,窗口過(guò)大導(dǎo)致一個(gè)窗口中容納的單詞數(shù)量增加,進(jìn)而使得文本圖中節(jié)點(diǎn)之間的邊數(shù)增多,在為節(jié)點(diǎn)增加更多鄰域信息的同時(shí)會(huì)引入與分類無(wú)關(guān)的信息;而窗口過(guò)小會(huì)導(dǎo)致一個(gè)窗口中的單詞數(shù)量減少,使得文本圖中的節(jié)點(diǎn)之間的邊數(shù)減少,這樣會(huì)將節(jié)點(diǎn)的一些關(guān)鍵信息丟失從而降低分類性能。

        圖6 窗口大小W對(duì)MR分類效果影響Fig.6 Effect of window size W on MR classification

        圖9~11分別展示了模型在3個(gè)數(shù)據(jù)集上使用不同的節(jié)點(diǎn)數(shù)k對(duì)分類的影響。從圖中可以看出當(dāng)節(jié)點(diǎn)數(shù)k過(guò)多或者過(guò)少,分類的錯(cuò)誤率相比于k=50的時(shí)候要高。節(jié)點(diǎn)數(shù)k過(guò)多導(dǎo)致池化后留下較多節(jié)點(diǎn),一些與分類無(wú)關(guān)的信息被保留下來(lái)使得池化的作用被削弱。節(jié)點(diǎn)數(shù)k過(guò)少導(dǎo)致重要的節(jié)點(diǎn)被丟棄,節(jié)點(diǎn)中包含的關(guān)鍵信息沒有捕獲到,也違反了池化的目的。所以本文選擇k=50作為模型的重要節(jié)點(diǎn)數(shù)。

        圖9 重要節(jié)點(diǎn)數(shù)k對(duì)MR分類效果影響Fig.9 Effect of number of important nodes k on MR classification

        4 總結(jié)

        圖7 窗口大小W對(duì)R8分類效果影響Fig.7 Effect of window size W on R8 classification

        圖8 窗口大小W對(duì)AG News分類效果影響Fig.8 Effect of window size W on AG News classification

        圖10 重要節(jié)點(diǎn)數(shù)k對(duì)R8分類效果影響Fig.10 Effect of number of important nodes k on R8 classification

        圖11 重要節(jié)點(diǎn)數(shù)k對(duì)AG News分類效果影響Fig.11 Effect of number of important nodes k on AG News classification

        本文構(gòu)建了一個(gè)深層神經(jīng)網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)相結(jié)合的模型,利用卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)能夠捕獲局部特征信息和上下文語(yǔ)義信息的優(yōu)點(diǎn)去補(bǔ)充圖卷積網(wǎng)絡(luò)在文本表示上的不足,同時(shí)采用了圖池化層進(jìn)一步提升了模型對(duì)深層局部特征信息的提取能力,豐富了模型對(duì)文本信息的表示,提高了文本分類的效果。本文在3個(gè)英文數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),相較于基線模型均取得了一定程度的提升。在將來(lái)的工作中,會(huì)考慮在深層學(xué)習(xí)模型中添加常識(shí)信息,以提升模型的泛化能力。

        猜你喜歡
        單詞分類特征
        分類算一算
        單詞連一連
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        看圖填單詞
        教你一招:數(shù)的分類
        抓住特征巧觀察
        看完這些單詞的翻譯,整個(gè)人都不好了
        亚洲av永久无码精品漫画| 日韩一区二区三区天堂| 国产亚洲综合另类色专区| 一本大道熟女人妻中文字幕在线 | 国产伦精品一区二区三区视| 日本第一区二区三区视频| 亚洲中文字幕乱码一二三| 99久久精品国产一区二区| 亚洲成人小说| 精品久久久久久99人妻| 国产交换精品一区二区三区| 7777色鬼xxxx欧美色妇| 青青青国产精品一区二区| 久久国产A∨一二三| 亚洲中文字幕精品久久吃奶| 亚洲国产成人av在线观看| 久久久久无码精品亚洲日韩| 国产成人综合久久三区北岛玲| 被灌醉的日本人妻中文字幕| 久久综合丝袜日本网| 宅男噜噜噜| 一区二区三区国产亚洲网站 | 亚洲av无码国产综合专区| 精品人妻无码一区二区色欲产成人| 国模少妇无码一区二区三区| 亚洲an日韩专区在线| 日韩av一区二区在线观看| 国产人妖乱国产精品人妖| 五月婷婷俺也去开心| 免费在线观看一区二区| 国产三区三区三区看三区| 久久国产色av免费观看| 国产呦精品系列在线播放| 亚洲一区二区久久青草| 亚洲av调教捆绑一区二区三区| 欧美成人精品a∨在线观看 | 国产主播一区二区三区在线观看| 日韩精品无码一区二区三区四区| 国产99久久亚洲综合精品| 亚洲AV色欲色欲WWW| 亚洲香蕉av一区二区三区|