亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合GCN和注意力機(jī)制的文本分類方法研究

        2022-01-22 02:46:20申艷光賈耀清范永健
        計(jì)算機(jī)仿真 2021年12期
        關(guān)鍵詞:標(biāo)準(zhǔn)偏差準(zhǔn)確率卷積

        申艷光,賈耀清,生 龍,范永健

        (1.河北工程大學(xué)信息與電氣工程學(xué)院,河北 邯鄲 056038;2.河北工程大學(xué)河北省安防信息感知與處理重點(diǎn)實(shí)驗(yàn)室,河北 邯鄲 056038)

        1 引言

        文本分類由來已久,利用文本分類技術(shù)對(duì)大量不同的文本進(jìn)行科學(xué)有效地分類是亟待解決的問題。文本分類有十分廣闊的應(yīng)用,如文章組織、意見挖掘、推薦系統(tǒng)、知識(shí)圖譜、垃圾郵件過濾、決策過程等[1]。

        上個(gè)世紀(jì)70年代,Salton等人提出了向量空間模型(Vector Space Model),在此基礎(chǔ)之上,F(xiàn)eigenbaum首次提出了知識(shí)工程(Knowledge Engineering)的概念[6],主要解決的是知識(shí)的分類、表示和推理,但這種分類技術(shù)由相關(guān)領(lǐng)域的專業(yè)人員來處理,分類方法過于單一,分類準(zhǔn)確率效果欠佳。上個(gè)世紀(jì)90年代,基于機(jī)器學(xué)習(xí)的文本分類方法逐漸興起,與基于知識(shí)工程的文本分類方法相比,該方法不需要專業(yè)人員的參與,并且能夠適用于各種領(lǐng)域的文本集合,成為當(dāng)時(shí)文本分類的主流方法,崔建明等人[7]提出了基于SVM算法的文本分類方法,解決了特征工程中的數(shù)據(jù)高維性和不平衡性的問題。傳統(tǒng)的文本分類方法首先建立特征工程,然后經(jīng)過特征選擇,最后經(jīng)過各種分類算法完成文本分類,現(xiàn)如今深度學(xué)習(xí)技術(shù)的興起,基于深度學(xué)習(xí)的文本分類方法占據(jù)主流,這是一種端到端的學(xué)習(xí)方式,有效解決了分類準(zhǔn)確率不高的問題。

        圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[8]是近年來的研究熱點(diǎn),非常適合處理具有圖結(jié)構(gòu)的數(shù)據(jù),例如社交網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、蛋白質(zhì)分子網(wǎng)絡(luò)等。GCN可以對(duì)圖結(jié)構(gòu)的數(shù)據(jù)進(jìn)行節(jié)點(diǎn)分類,邊預(yù)測(cè)和圖分類等。早期的圖卷積神經(jīng)網(wǎng)絡(luò)基于巴納赫不動(dòng)點(diǎn)定理,Bruna J等人[9]提出第一個(gè)真正意義上的圖神經(jīng)網(wǎng)絡(luò)(Graph neural network,GNN),其基本思想是基于卷積定理在譜空間上定義圖卷積。Yao L等人將提出了Text GCN模型,與其它模型相比準(zhǔn)確率較高[10]。Attention機(jī)制[11]最早應(yīng)用在機(jī)器翻譯任務(wù)中,其本質(zhì)是計(jì)算輸入的各個(gè)部分對(duì)輸出的貢獻(xiàn)權(quán)重,Yang Z等人基于層次結(jié)構(gòu)的Attention機(jī)制構(gòu)建了HAN網(wǎng)絡(luò)[12],并可視化了注意力層。

        因此,基于上述問題,提出一種結(jié)合GCN和Attention機(jī)制的文本分類方法。與傳統(tǒng)文本分類方法不同,該方法將文本分類問題轉(zhuǎn)化為圖結(jié)構(gòu)數(shù)據(jù)中的節(jié)點(diǎn)分類問題。首先建立整個(gè)語料庫的大型文本圖,然后將該文本圖的鄰接矩陣和特征矩陣輸入到圖卷積神經(jīng)網(wǎng)絡(luò)中,最后網(wǎng)絡(luò)的輸出與注意力機(jī)制相結(jié)合,利用注意力機(jī)制中Self-Attention機(jī)制充分學(xué)習(xí)文本表示,不斷調(diào)整網(wǎng)絡(luò)的輸出。與傳統(tǒng)的文本分類方法SVM,KNN,TF-IDF相比,該方法準(zhǔn)確率較高。

        2 基于GCN和Attention機(jī)制的文本分類方法

        2.1 文本圖的構(gòu)建

        一個(gè)文本圖的各個(gè)符號(hào)的含義見表1。

        表1 文本圖中各個(gè)符號(hào)的含義

        將語料庫中文檔和單詞轉(zhuǎn)化為節(jié)點(diǎn)的形式,如果相鄰兩個(gè)節(jié)點(diǎn)的聯(lián)系越緊密則連接線越粗,建立文本圖G=(V,E,A),如圖1。

        圖1 文本圖

        假設(shè)語料庫中有N個(gè)節(jié)點(diǎn)(Node),每個(gè)Node具有自己Z維度的特征,定義矩陣X=N×Z,稱X為特征矩陣。每個(gè)Node之間組成N×N的矩陣,定義矩陣A=N×N,稱A為鄰接矩陣。

        構(gòu)造GCN,模型簡(jiǎn)化為

        Z=f(X,A)

        (1)

        引入鄰接矩陣的度矩陣D,得到新的鄰接矩陣A。

        (2)

        其中,

        (3)

        (4)

        2.2 注意力機(jī)制的引入

        Attention機(jī)制的本質(zhì)可以看作是一種ENCODER-DECODER模型,如圖2。例如,輸入英文句子“He is a teacher”,首先經(jīng)過編碼階段將輸入語句轉(zhuǎn)化為高級(jí)文本表示,然后經(jīng)過解碼階段“翻譯”出想要的結(jié)果。在輸出“教師”時(shí),考慮到輸入序列的4個(gè)單詞“He”、“is”、“a”“teacher”,而Attention機(jī)制的作用在于可以為這4個(gè)單詞賦一個(gè)權(quán)重,例如將“He”、“is”、“a”賦權(quán)值為0.1,而單詞“teacher”賦權(quán)值為0.7。顯然,單詞“teacher”的重要性相對(duì)其它三個(gè)單詞更加重要。在編解碼過程中,輸出序列的每一個(gè)單詞都充分考慮了輸入序列的所有單詞,而Self-Attention是Attention機(jī)制的特殊形式,輸入序列的每個(gè)單詞都需要和該序列的所有單詞進(jìn)行Attention計(jì)算,這樣做的目的是充分考慮語句之間不同單詞之間的語義和語法聯(lián)系。

        圖2 ENCODER-DECODER模型

        利用Attention機(jī)制中的Self-Attention機(jī)制計(jì)算Word1和Word2的自我注意力需要經(jīng)過以下步驟:

        1)Word1的詞向量為x1,Word2的詞向量為x2,通過輸入詞向量計(jì)算得到Attention機(jī)制中的Query向量、Key向量和Value向量。

        2)計(jì)算score得分。其中,

        Score=q×k

        (5)

        3)通過softmax操作進(jìn)行歸一化,保持結(jié)果為正,和為1。

        4)計(jì)算總的加權(quán)值,產(chǎn)生輸出。其中,

        Sum=Softmax×Value

        (6)

        第2)步到第4)步可以合并,計(jì)算公式如下:

        (7)

        將原GCN的輸出引入Self-Attention機(jī)制,使網(wǎng)絡(luò)側(cè)重特征本身的內(nèi)部聯(lián)系,最后通過加權(quán)平均輸出結(jié)果,提高模型的表達(dá)能力,如圖3。

        圖3 Self-Attention機(jī)制

        3 實(shí)驗(yàn)與仿真

        3.1 數(shù)據(jù)集與技術(shù)指標(biāo)

        本仿真采用的公開數(shù)據(jù)集是20NewsGroups(20NG),20NG是文本分類領(lǐng)域的公開數(shù)據(jù)集,該數(shù)據(jù)集包含18846個(gè)新聞文檔,20個(gè)類別,其中訓(xùn)練集60%,測(cè)試集40%。

        在數(shù)據(jù)集20NG中,TP表示真正類,TN表示真負(fù)類,F(xiàn)P表示假正類,F(xiàn)N表示假負(fù)類,如圖4。

        分類結(jié)果屬于ci的文本不屬于ci的文本屬于ci的文本TPFP不屬于ci的文本FNTN

        圖4 樣本分類

        衡量文本分類系統(tǒng)性能的技術(shù)指標(biāo)有正確率(accuracy)、召回率(recall)、準(zhǔn)確率(precision),公式如下

        (8)

        (9)

        (10)

        (11)

        為了直觀有效表示分類的效果,本實(shí)驗(yàn)選用precision指標(biāo)來衡量系統(tǒng)的性能。

        3.2 實(shí)驗(yàn)環(huán)境與仿真結(jié)果

        本實(shí)驗(yàn)的硬件環(huán)境為:處理器為i5-9300H,內(nèi)存為16 GB RAM,顯卡為RTX2060。編程語言采用Python3.6.5,結(jié)合tensorflow深度學(xué)習(xí)框架。

        設(shè)定分類的準(zhǔn)確率precision為P,不同分類方法得到的P值見表2:

        表2 各種分類方法的P值

        GCN+Attention的方法比SVM、KNN、TF-IDF以及GCN方法表現(xiàn)良好的原因分析如下:

        1)SVM、KNN和TF-IDF方法同屬于基于機(jī)器學(xué)習(xí)的文本分類方法,而這些方法都需要經(jīng)過文本預(yù)處理、特征提取、特征選擇、分類等過程,由于沒有考慮到文檔與單詞以及單詞與單詞之間的內(nèi)部聯(lián)系,最終分類的準(zhǔn)確率表現(xiàn)不佳。

        2)GCN+Attention方法與GCN方法同屬于基于深度學(xué)習(xí)的文本分類方法,它能同時(shí)對(duì)節(jié)點(diǎn)特征信息與結(jié)構(gòu)信息進(jìn)行端對(duì)端的學(xué)習(xí)。由于不需要經(jīng)過特征提取、特征選擇等過程,避免了人工提取特征而引入的誤差,引入Attention機(jī)制之后,模型更加注重單詞與單詞之間的聯(lián)系,增強(qiáng)了文本表示。GCN+Attention方法中文檔節(jié)點(diǎn)的標(biāo)簽信息可以傳遞給相鄰的詞節(jié)點(diǎn),詞節(jié)點(diǎn)收集全面的文檔標(biāo)簽信息,在文本圖中充當(dāng)關(guān)鍵的連接,最終將標(biāo)簽信息傳播到整個(gè)文本圖中。

        設(shè)定GCN+Attention方法的網(wǎng)絡(luò)層數(shù)為K,在不同K值的情況下實(shí)驗(yàn),如圖5。

        圖5 不同K值分類方法的表現(xiàn)

        不同K值的分類方法表現(xiàn)不同的分析如下:

        圖卷積神經(jīng)網(wǎng)絡(luò)中文本圖的建立需要考慮到語料庫中所有單詞的信息,建立這些單詞之間以及文檔與單詞之間的聯(lián)系本身需要消耗大量的資源,而如果網(wǎng)絡(luò)層數(shù)過多會(huì)導(dǎo)致計(jì)算更加復(fù)雜,文本表示也更加抽象,使得每個(gè)節(jié)點(diǎn)的詞嵌入更加靠近,對(duì)后面文本圖的節(jié)點(diǎn)分類產(chǎn)生干擾。

        與卷積神經(jīng)網(wǎng)絡(luò)[13]類似,圖卷積神經(jīng)網(wǎng)絡(luò)的卷積核類似于一個(gè)滑動(dòng)的窗口,設(shè)窗口大小為H。在不同K值,不同H值的情況下實(shí)驗(yàn),其準(zhǔn)確率見表3。

        表3 不同K值,不同H值的準(zhǔn)確率

        表4 標(biāo)準(zhǔn)偏差

        根據(jù)表3的數(shù)據(jù),計(jì)算當(dāng)K為固定數(shù)值,H分別為5,10,15時(shí)兩種方法的標(biāo)準(zhǔn)偏差以及計(jì)算當(dāng)H為固定數(shù)值,K分別為1,2,3時(shí)兩種方法的標(biāo)準(zhǔn)偏差,得到標(biāo)準(zhǔn)偏差數(shù)據(jù),見表4。其中,計(jì)算標(biāo)準(zhǔn)偏差的公式為

        (12)

        其中,S為標(biāo)準(zhǔn)偏差,X為樣本數(shù)值,M為樣本平均數(shù),n為樣本數(shù)。

        通過分析表3和表4得到的實(shí)驗(yàn)數(shù)據(jù),可以得到如下結(jié)論:

        1)不管K與H為何值,GCN+Attention方法均比GCN方法的準(zhǔn)確率高,引入Attention機(jī)制之后提高了分類的準(zhǔn)確率。

        2)當(dāng)K值為固定數(shù)值時(shí),取H為5,10和15,其S值較小,P值波動(dòng)較小;當(dāng)H為固定數(shù)值時(shí),取K為1,2,3,其S值較大,P值波動(dòng)較大。所以,GCN+Attention方法中網(wǎng)絡(luò)層數(shù)(K值大小)的影響要比滑動(dòng)窗口(H的大小)的影響要大。

        分析得到以上結(jié)論的可能原因如下:

        圖卷積神經(jīng)網(wǎng)絡(luò)的本質(zhì)也是卷積神經(jīng)網(wǎng)絡(luò)的一種,而卷積神經(jīng)網(wǎng)絡(luò)的卷積核大小一般都是由經(jīng)驗(yàn)值設(shè)定的,但是網(wǎng)絡(luò)的層數(shù)卻不是由經(jīng)驗(yàn)值所確定,He K等人將ResNet網(wǎng)絡(luò)[14]的層數(shù)設(shè)計(jì)到了152層,但是卷積核的大小卻沒有設(shè)計(jì)的相對(duì)較大。

        最后,選擇最佳的K值與H值(K=3,H=10),實(shí)驗(yàn)5次取平均之后的準(zhǔn)確率,如圖6。SVM、KNN、TF-IDF、GCN和GCN+Attention方法分別用不同的填充圖案表示,GCN+Attention的方法表現(xiàn)良好。

        圖6 各種分類方法的準(zhǔn)確率

        4 結(jié)束語

        傳統(tǒng)的文本分類方法普遍存在分類準(zhǔn)確率不高的問題,針對(duì)此問題,本文提出了一種結(jié)合GCN與Attention機(jī)制的文本分類方法。與傳統(tǒng)文本分類方法不同,GCN+Attention機(jī)制的文本分類方法是將整個(gè)語料庫構(gòu)建成一個(gè)大型異構(gòu)文本圖,并將文本分類問題轉(zhuǎn)化為節(jié)點(diǎn)分類問題,有效避免了人工特征工程。仿真結(jié)果表明,本方法實(shí)現(xiàn)了較高的準(zhǔn)確率,但需要注意的是,GCN+Attention的方法在文本分類問題中網(wǎng)絡(luò)層數(shù)不宜設(shè)置過大。

        文本分類的應(yīng)用前景十分廣闊,但也面臨著許多挑戰(zhàn)。未來針對(duì)文本分類的研究還可以從以下幾個(gè)方向進(jìn)行:①短文本數(shù)據(jù)例如微博評(píng)論、視頻彈幕、手機(jī)短信等形式的迅速擴(kuò)增,短文本數(shù)據(jù)分類難度增大,這給文本分類領(lǐng)域帶來了更多的機(jī)遇與挑戰(zhàn)。②圖卷積神經(jīng)網(wǎng)絡(luò)正處于迅速發(fā)展階段,可以嘗試將圖卷積神經(jīng)網(wǎng)絡(luò)與其它神經(jīng)網(wǎng)絡(luò)相結(jié)合來解決文本分類領(lǐng)域的問題。③雖然提出的分類方法提高了準(zhǔn)確率,但這是在犧牲時(shí)間成本的前提下實(shí)現(xiàn)的,如何在保證準(zhǔn)確率的前提下縮短時(shí)間是未來的研究方向。

        猜你喜歡
        標(biāo)準(zhǔn)偏差準(zhǔn)確率卷積
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        傾斜改正在連續(xù)重力數(shù)據(jù)預(yù)處理中的應(yīng)用
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        互感器檢定裝置切換方式研究
        關(guān)于垂準(zhǔn)儀一測(cè)回垂準(zhǔn)測(cè)量標(biāo)準(zhǔn)偏差檢測(cè)方法的探討
        欧美一区二区三区激情| 在线观看中文字幕不卡二区 | av天堂手机在线看片资源| 虎白女粉嫩粉嫩的18在线观看| 亚洲sm另类一区二区三区| 精品一区二区三区免费播放| 久久波多野结衣av| 风韵丰满妇啪啪区老老熟女杏吧| 久久伊人精品中文字幕有| 天天做天天爱夜夜爽毛片毛片 | 粉嫩极品国产在线观看免费一区| 成视频年人黄网站免费视频| 欧妇女乱妇女乱视频| 亚洲国产精品中文字幕日韩| 99久久精品国产一区色| 黄片小视频免费观看完整版| 亚洲av成人网| 国产乱人伦av在线无码| 狼色在线精品影视免费播放 | av深夜福利在线| 在线观看免费的黄片小视频| 亚洲精品中文字幕乱码影院| 亚洲伊人一本大道中文字幕| 这里有精品可以观看| 扒开非洲女人大荫蒂视频 | 免费无码又黄又爽又刺激| 婷婷综合久久中文字幕蜜桃三电影| 人妻少妇喷水意淫诱惑| 亚洲最新精品一区二区| 国产伦人人人人人人性| 亚洲中文字幕无码爆乳av| 日本韩国黄色三级三级| 亚洲国产精品国自拍av| 久久天天躁狠狠躁夜夜不卡| 国产亚洲精品久久久久秋霞| 中文字幕乱码中文乱码毛片| 久久精品女同亚洲女同| 女人被狂躁c到高潮视频 | 男女好痛好深好爽视频一区 | 青青草手机免费播放视频| 无码人妻aⅴ一区二区三区|