亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的序列生成多標(biāo)簽文本分類

        2023-04-06 18:58:23支港鐘學(xué)燕王欣何山石佳
        關(guān)鍵詞:語義分類文本

        支港,鐘學(xué)燕,王欣,何山,石佳

        (西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)

        0 引言

        多標(biāo)簽文本分類已經(jīng)成為自然語言處理的一項(xiàng)重要的任務(wù),目前被廣泛應(yīng)用于情感分析[1]、安全生產(chǎn)事故分類[2]、在線問診[3]和許多其他現(xiàn)實(shí)場景。多標(biāo)簽文本分類任務(wù)中,復(fù)雜的語義信息可能隱含在文本中的各個(gè)部分,并且一個(gè)文本樣本對應(yīng)著多個(gè)標(biāo)簽。這些標(biāo)簽不僅和文本信息存在著一定的聯(lián)系,而且標(biāo)簽與標(biāo)簽之間也存在著復(fù)雜的依賴關(guān)系。為提高分類效果,現(xiàn)有研究重點(diǎn)關(guān)注三個(gè)方面[4]:①如何從文本信息中充分捕捉語義信息;②如何從每個(gè)文本中提取與對應(yīng)標(biāo)簽相關(guān)的判別信息;③如何準(zhǔn)確挖掘標(biāo)簽之間的相關(guān)性。

        傳統(tǒng)的機(jī)器學(xué)習(xí)算法把多標(biāo)簽問題轉(zhuǎn)換為多個(gè)相互獨(dú)立的二分類問題,如Binary Rele?vance[5]、ML-KNN[6]等,這類方法雖然簡單有效,但沒有考慮標(biāo)簽之間的相關(guān)性。為了捕獲標(biāo) 簽 相 關(guān) 性 ,Rank-SVM[7]、Calibrated Label Ranking[8],考慮了標(biāo)簽之間的成對關(guān)系,但是難以建立標(biāo)簽高階相關(guān)性。Classifier Chains[9]、Ensemble Classifier Chain[9]利用鏈?zhǔn)揭?guī)則和先前分類器的預(yù)測結(jié)果作為輸入來考慮標(biāo)簽之間的高階相關(guān)性,但是在大型數(shù)據(jù)集上的訓(xùn)練成本很高。

        使用基于序列到序列(sequence to se?quence, Seq2Seq)[10]的方法將多標(biāo)簽文本分類問題轉(zhuǎn)換為序列生成問題能夠很好地建立標(biāo)簽高階相關(guān)性。該方法提出了一個(gè)帶有decoder結(jié)構(gòu)的序列生成模型,并考慮到以前預(yù)測的標(biāo)簽,以先后順序的方式預(yù)測結(jié)果。Yang等[11]提出了由Bi-LSTM編碼器和基于加性注意力的LSTM解碼器組成的序列生成模型(SGM),當(dāng)模型預(yù)測不同的標(biāo)簽時(shí),注意力機(jī)制會考慮文本不同部分的貢獻(xiàn),但缺乏對編碼階段提取的信息文本的充分利用。

        鑒于Transformer使用多頭注意力機(jī)制提取多重語義信息且兼具可解釋性的特點(diǎn),本文在Seq2Seq模型中的解碼器部分采用Transformer,提出了基于Transformer解碼器的序列生成模型。在多層Transformer解碼器層中,通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性,利用其交叉注意力機(jī)制自適應(yīng)地對文本特征進(jìn)行多頭交叉關(guān)注,為不同的詞匯賦以相應(yīng)的權(quán)重,并聚合與標(biāo)簽相關(guān)的關(guān)鍵特征。序列生成Transformer能夠在建立標(biāo)簽相關(guān)性的同時(shí)更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。

        本文主要貢獻(xiàn)有如下三個(gè)方面:

        1) 將Transformer解碼器用于多標(biāo)簽文本分類任務(wù)??梢暬瘜?shí)驗(yàn)表明,Transformer解碼器中的多頭交叉注意力子層可以有選擇地關(guān)注上下文表征里不同子空間的語義信息來聚合更為全面的判別特征,提高分類性能的同時(shí)有著更好的可解釋性;

        2) 探究了位置編碼對模型效果的影響。實(shí)驗(yàn)表明,相對于標(biāo)準(zhǔn)Transformer外置的位置編碼,將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地識別不同詞匯間的順序關(guān)系;

        3) 通過在不同公開數(shù)據(jù)集上與當(dāng)前流行的RNN類基線模型進(jìn)行綜合實(shí)驗(yàn)對比,驗(yàn)證了序列生成Transformer的有效性和高效性。

        1 相關(guān)工作

        1.1 多標(biāo)簽文本分類

        近年來,大量基于深度學(xué)習(xí)的方法被應(yīng)用于多標(biāo)簽分類算法研究,如 CNN[12],RNN[13],R-CNN[14],注意力機(jī)制[15]等,然而,這些方法僅傾向于提取文本表示,將標(biāo)簽視為一個(gè)整體序列進(jìn)行預(yù)測,不但沒有考慮文本內(nèi)容的貢獻(xiàn)差異,而且忽略了標(biāo)簽間的相關(guān)性。

        文本中的一些關(guān)鍵詞,通常對分類結(jié)果起著決定性作用。例如,“一年一度的首都高校大學(xué)生籃球聯(lián)賽在北京林業(yè)大學(xué)隆重舉行”,它被分為校園和體育兩個(gè)類別。顯然“高?!薄按髮W(xué)生”等詞與校園的相關(guān)性遠(yuǎn)大于體育,而“籃球聯(lián)賽”則與體育密切相關(guān)。為此,Xiao等[16]提出LSAN方法利用文本和標(biāo)簽信息,借助自注意力和標(biāo)簽注意機(jī)制來建立文本內(nèi)容和標(biāo)簽之間的相關(guān)性,雖然取得不錯的效果,卻忽略了標(biāo)簽之間的相關(guān)性。Nam等[10]、Yang等[11]、Qin等[17]使用基于 Seq2Seq的方法來建立標(biāo)簽相關(guān)性,并使用注意力機(jī)制提取文本信息中的判別特征,然而,傳統(tǒng)的單頭注意力機(jī)制只考慮詞匯間單一層面的語義信息,不能全面地捕獲上下文信息。

        本文將Transformer解碼器用于Seq2Seq架構(gòu),借助其多頭注意力子層關(guān)注文本上下文表征里不同子空間的語義信息進(jìn)而獲取更為全面的判別特征,序列生成Transformer模型可以在建立標(biāo)簽相關(guān)性的同時(shí),更全面、更深層次地考慮文本信息和標(biāo)簽之間的語義相關(guān)性。

        1.2 Transformer在多標(biāo)簽文本分類任務(wù)中的應(yīng)用

        Transformer最 初 是 作 為 機(jī) 器 翻 譯[18]的Seq2Seq模型,并廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)[19-20]。最近研究表明,Transformer在多標(biāo)簽文本分類領(lǐng)域也有一定進(jìn)展。

        Adhikari等[21]通過對 BERT 進(jìn)行微調(diào)克服了原始BERT的幾個(gè)限制,并將BERT提煉成更簡單的神經(jīng)模型,從而以更小的計(jì)算成本建立多標(biāo)簽文本分類任務(wù)。Chang等[22]提出XTransformer模型,通過微調(diào)Transformer使得輸入文本到標(biāo)簽集有更好的映射。Gong等[23]使用多層Transformer編碼器從單詞、句子和圖形級別的文本當(dāng)中提取文本表征。Yarullin等[24]提出了序列生成BERT模型(BERT+SGM),首次將Transformer用于多標(biāo)簽分類任務(wù)的Seq2Seq架構(gòu)。Transformer編碼器有著強(qiáng)大的表征能力,然而,對于Transformer 解碼器在多標(biāo)簽文本分類任務(wù)的研究還有待進(jìn)一步探索。

        受上述研究啟發(fā),本文認(rèn)為Transformer解碼器可以很好地應(yīng)用于序列生成多標(biāo)簽分類任務(wù),通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性,并利用其交叉注意力子層捕獲文本序列內(nèi)各種范圍的語義信息,這與大多數(shù)現(xiàn)有工作使用Transformer編碼器中的自注意力機(jī)制來改進(jìn)文本表示有很大不同。

        2 基于Transformer的序列生成多標(biāo)簽文本分類

        2.1 多標(biāo)簽文本分類任務(wù)描述

        假設(shè)樣本空間X?Rd,d表示詞向量維度。標(biāo)簽空間 L={λ1,λ2,…,λq}。給定數(shù)據(jù)集 D=,其中n表示樣本總數(shù),假定這些樣本獨(dú)立且同分布在一個(gè)未知分布P(X,Y)中。則多標(biāo)簽文本分類任務(wù)旨在學(xué)習(xí)一個(gè)決策函數(shù)f:X→2L,其中2L為L的子集,使得每一段文本匹配一組標(biāo)簽集合。

        2.2 掩蔽自注意力機(jī)制

        在多標(biāo)簽分類的序列生成模型中,預(yù)測階段解碼器輸出的標(biāo)簽序列是逐個(gè)生成的,要將Transformer解碼器應(yīng)用于Seq2Seq架構(gòu)中,就得保留解碼器中自回歸的屬性。訓(xùn)練模型時(shí)在解碼器自注意力子層中添加了掩碼向量,以便任何查詢都只會與已經(jīng)生成的標(biāo)簽進(jìn)行注意力計(jì)算。

        在掩蔽自注意力機(jī)制的實(shí)現(xiàn)中,首先通過計(jì)算查詢Q∈RT1×d和鍵K∈RT2×d每一行向量的內(nèi)積,得到相似度矩陣A∈RT1×T2,其中 T1、T2分別為查詢和鍵對應(yīng)標(biāo)簽向量的數(shù)目,At,i表示標(biāo)簽t和標(biāo)簽i之間的注意力強(qiáng)度。為了防止計(jì)算得到的內(nèi)積過大,采用公式(1)平衡計(jì)算結(jié)果,

        為了確保每個(gè)標(biāo)簽只考慮該位置之前的所有標(biāo)簽,使用Softmax計(jì)算得到歸一化注意力權(quán)重之前,需要在矩陣A中加入n個(gè)標(biāo)簽所對應(yīng)的掩碼向量R mask∈Rn×m。最后將A與值向量V∈Rn×d相乘得到掩蔽自注意力的輸出。計(jì)算如公式(2)和(3)所示:

        2.3 模型框架

        如圖1所示,序列生成Transformer模型主要是由編碼和解碼兩個(gè)階段組成。首先將輸入文本傳入編碼器提取文本特征,編碼器可以是RNN、CNN或Transformer等。解碼階段由兩個(gè)模塊組成:用于更新查詢和聚合特征的多層Transformer解碼器塊,以及將輸出擴(kuò)展到與標(biāo)簽詞典大小一樣維度的全連接層。

        2.3.1 編碼階段

        給定單個(gè)樣本的文本信息W=[w1,w2,…,wK],K 表示文本信息長度。將詞 wi通過詞嵌入得到向量表示ei∈Rd從而形成嵌入矩 陣 X=[e1,e2,…,eK]∈ RK×d。 然 后 將 X 送 入編碼器進(jìn)行特征提取得到文本特征表示H=[h1,h2,…,hK]∈ RK×d。 為 了驗(yàn)證 Transformer解碼器的可行性,本文先后使用Transformer和GRU作為編碼器進(jìn)行實(shí)驗(yàn)。

        2.3.2 解碼階段

        解碼階段每個(gè)Transformer解碼器層包含了三個(gè)子層:掩蔽多頭自注意力(Masked Multi-Head Self-Attention)、多頭交叉注意力(Multi-Head Cross-Attention)和逐位前饋網(wǎng)絡(luò)(FFN)。這些子層都被殘差連接和緊隨的層歸一化(Layer Norm)圍繞,加速模型收斂的同時(shí),并防止其過擬合。為簡潔起見,本文省略了網(wǎng)絡(luò)層中的殘差連接、層歸一化以及網(wǎng)絡(luò)子層的參數(shù),詳細(xì)參考Transformer原文[17]。

        建立標(biāo)簽相關(guān)性:輸入文本在經(jīng)過編碼器編碼提取特征后,使用標(biāo)簽嵌入Q0∈RT×d作為初始查詢,并采用掩蔽多頭自注意力機(jī)制建立標(biāo)簽之間的相關(guān)性來更新查詢得到標(biāo)簽嵌入,其中T是輸入標(biāo)簽的數(shù)量。每一個(gè)Trans?former解碼器層l從其前一層的輸出Ql?1更新查詢,標(biāo)簽嵌入更新如下:

        其中,Concat表示拼接每一個(gè)頭部的注意力輸出,波浪上標(biāo)~表示為原始向量添加位置編碼,為可學(xué)習(xí)參數(shù),dq=dk=dv=d/h,h為注意力頭數(shù)。

        標(biāo)簽預(yù)測:假設(shè)Transformer解碼器共有L層,將在最后一層得到T個(gè)注入了標(biāo)簽信息以及文本信息的標(biāo)簽嵌入Ql∈RT×d。將每個(gè)標(biāo)簽嵌入 QL,t∈ Rd通過全連接層(Linear)和 Softmax計(jì)算得到q個(gè)不同標(biāo)簽的預(yù)測概率,q為標(biāo)簽空間大小。標(biāo)簽預(yù)測計(jì)算所下:

        其中 Wt∈Rd×p,bt∈ Rp,是全連接層中的權(quán)重參數(shù),引入It是為了避免重復(fù)預(yù)測前一時(shí)刻的預(yù)測結(jié)果。

        2.4 損失函數(shù)

        本文通過最小化交叉熵?fù)p失(Cross-Entro?py Loss)函數(shù)來訓(xùn)練模型,其定義見式(11):

        其中,ynt表示第n個(gè)樣本中標(biāo)簽t的真實(shí)值,表示第n個(gè)樣本中標(biāo)簽t的預(yù)測值,N表示樣本空間大小,q表示標(biāo)簽空間大小。

        3 實(shí)驗(yàn)

        3.1 訓(xùn)練過程及實(shí)驗(yàn)設(shè)置

        為了檢驗(yàn)序列生成Transformer的性能,本文在公開文本數(shù)據(jù)集AAPD[11]和 SLASH?DOT[17]進(jìn)行了對比實(shí)驗(yàn)。AAPD來源于arxiv網(wǎng)站收集的計(jì)算機(jī)科學(xué)領(lǐng)域的論文,SLASH?DOT來源于資訊科技網(wǎng)站中的新聞信息。數(shù)據(jù)集詳細(xì)信息如表1所示。

        文本序列和標(biāo)簽序列可能具有不同的長度,為了提高計(jì)算效率,本文對數(shù)據(jù)集進(jìn)行了填充操作,AAPD最大長度設(shè)置為400,SLASH?DOT最大設(shè)置長度為120,如果文本序列長度低于閾值,將在末尾添加“”進(jìn)行填充。為了加快模型收斂速度[25],本實(shí)驗(yàn)對標(biāo)簽序列按照頻率遞減順序進(jìn)行了重排序,對排序后的標(biāo)簽使用“”和“”作為首尾填充,再用“”填充保證標(biāo)簽數(shù)量一致。數(shù)據(jù)集隨機(jī)洗亂,按照80%、10%、10%比例劃分為訓(xùn)練集、驗(yàn)證集、測試集。訓(xùn)練過程中,編碼階段將文本信息使用編碼器進(jìn)行特征提取,編碼器使用預(yù)訓(xùn)練300維glove[26]詞向量作為詞嵌入,解碼階段使用Transformer解碼器建模標(biāo)簽信息間的相關(guān)性,然后利用文本特征信息來輔助解碼訓(xùn)練過程中參數(shù)的調(diào)整。預(yù)測過程中,本實(shí)驗(yàn)對每一時(shí)刻的預(yù)測結(jié)果使用了集束搜索(Beam Search),在以“”結(jié)尾的候選標(biāo)簽序列當(dāng)中尋找最佳標(biāo)簽序列,Beam Size設(shè)置為4。本實(shí)驗(yàn)中使用的編碼器和解碼器網(wǎng)絡(luò)層數(shù)均為2。 Transformer的dropout大小設(shè)置為0.1,位置編碼使用的是基于正弦函數(shù)和余弦函數(shù)的固定位置編碼[17],注意力頭數(shù)作為超參數(shù)在驗(yàn)證集上調(diào)節(jié)。優(yōu)化器使用Adam,學(xué)習(xí)率衰減使用(Factor Scheduler)因子調(diào)度器,初始學(xué)習(xí)率設(shè)置為3×10?4,衰減率為0.90,訓(xùn)練輪數(shù)為20。計(jì)算機(jī)配置為Ubuntu64位操作系統(tǒng),CPU型號 Intel(R) Core(TM) i9900KF@3.60 GHz 8核,內(nèi)存32 GB,GPU為GeForce RTX3080,顯存大小8 GB。

        本文使用的評估指標(biāo)為:Instance-F1、La?bel-F1和漢明損失(Hamming-Loss,HL),定義如下所示:

        本文使用的基線對比模型如下:

        (1) Binary Relevance(BR)[5]:將多標(biāo)簽分類問題分解為多個(gè)獨(dú)立二分類問題,忽略標(biāo)簽之間的相關(guān)性。

        (2) Classifier Chains(CC)[9]:將多標(biāo)簽分類問題轉(zhuǎn)化為有序的二分類問題,前一分類器預(yù)測結(jié)果作為后一分類器輸入,該方法能考慮到標(biāo)簽之間的相關(guān)性。

        (3) Ensemble Classifier Chains(ECC)[9]:利用集成學(xué)習(xí)隨機(jī)生成多種標(biāo)簽順序訓(xùn)練模型。

        (4) Seq2Seq--GRU[10]:帶有 GRU 編碼器和基于注意力機(jī)制的GRU解碼器的Seq2Seq架構(gòu),將多標(biāo)簽分類問題轉(zhuǎn)化為多標(biāo)簽序列生成問題。

        (5) set--RNN[17]:基于集合概率的原則提出了新的訓(xùn)練目標(biāo)和預(yù)測目標(biāo),使得模型能夠自適應(yīng)地發(fā)現(xiàn)最佳標(biāo)簽順序。

        3.2 結(jié)果和分析

        幾種方法的對比結(jié)果如表2所示,可以看出,本文的方法在Instance-F1和Label-F1上都明顯優(yōu)于其他方法,HL指標(biāo)表現(xiàn)僅比ECC差,可能的原因是基于Seq2Seq架構(gòu)的方法在預(yù)測階段受到先前錯誤預(yù)測結(jié)果的影響導(dǎo)致了誤差累計(jì)。對于傳統(tǒng)方法,BR忽略了標(biāo)簽之間的相關(guān)性,CC建模標(biāo)簽高階相關(guān)性,因此在In?stance-F1和Label-F1上都有著更好的表現(xiàn)。

        ECC在CC基礎(chǔ)上結(jié)合了集成學(xué)習(xí)方法,在各項(xiàng)指標(biāo)上優(yōu)于CC。基于深度學(xué)習(xí)的方法Seq2Seq-GRU相對于傳統(tǒng)方法能建立更復(fù)雜的標(biāo)簽相關(guān)性,在Instance-F1和Label-F1有著突破性的提升。set-RNN避免了Seq2Seq架構(gòu)對預(yù)定義標(biāo)簽順序依賴的問題,其各項(xiàng)指標(biāo)均優(yōu)于Seq2Seq-GRU。為了驗(yàn)證Transformer解碼器在Seq2Seq架構(gòu)中的可行性,本文測試了編碼器為GRU和Transformer兩種情況下的結(jié)果,在AAPD數(shù)據(jù)上,與傳統(tǒng)效果最優(yōu)的set-RNN相比,Instance-F1分別提高了1.37%和1.44%,La?bel-F1分別提高了1.24%和1.83%,HL指標(biāo)均降低了0.02%。在SLASHDOT數(shù)據(jù)集上,In?stance-F1分別提高了0.94%和1.09%,Label-F1分別提高了0.73%和3.25%,HL指標(biāo)分別降低了0.07%和0.08%。兩種模型不管在AAPD還是SLASHDOT數(shù)據(jù)集上都有著更好的表現(xiàn),尤其在Instance-F1和Label-F1指標(biāo)上都明顯優(yōu)于其他基線。說明序列生成Transformer在建立標(biāo)簽相關(guān)性的同時(shí),還能更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。

        3.3 注意力權(quán)重的可視化

        為了進(jìn)一步驗(yàn)證序列生成Transformer在預(yù)測不同的標(biāo)簽時(shí),能夠有選擇地捕獲不同單詞的權(quán)重,本文從數(shù)據(jù)集SLASHDOT中取出一篇文本, 計(jì)算每個(gè)頭部注意力權(quán)重的平均值,并在圖2中可視化了預(yù)測不同標(biāo)簽時(shí)對應(yīng)單詞的注意力權(quán)重??梢钥吹?,在預(yù)測兩個(gè)不同的標(biāo)簽時(shí),模型對文本中單詞的關(guān)注度是有差別的,顏色深的單詞為模型更加關(guān)注的關(guān)鍵詞匯,預(yù)測標(biāo)簽“IT”時(shí)模型更加關(guān)注單詞 “Help Net,networks”等,而預(yù)測標(biāo)簽“Security”則更加關(guān) 注“protect computer,intruders security,de?fense”等。

        除此之外,本文還繪制了解碼器使用單頭注意力時(shí)的權(quán)重?zé)崃D。如圖3所示,可以看到預(yù)測標(biāo)簽“IT”時(shí)兩者沒有明顯差別,可能是由于文本隱含的標(biāo)簽相關(guān)的語義信息有限。然而預(yù)測標(biāo)簽“Security”時(shí),從全局來看“neverending battle”以及“are deploying a,defense”等詞作為上下文語義信息,能更加突出文本的關(guān)鍵特征。而單頭注意力卻無法準(zhǔn)確捕獲這些單詞的權(quán)重。以上實(shí)驗(yàn)表明,多頭交叉注意力機(jī)制能進(jìn)一步捕獲更為全面的判別信息,提高分類性能的同時(shí)有著更好的可解釋性。

        3.4 注意力頭數(shù)對解碼器的影響

        為了探究注意力頭數(shù)對解碼器的影響,本文可視化了每個(gè)頭部單獨(dú)的注意力權(quán)重以及平均注意力權(quán)重。如圖4所示,不同的頭部能夠關(guān)注文本中不同內(nèi)容,對于標(biāo)簽“Software”,可以發(fā)現(xiàn)Head_1、Head_3、和Head_4分別或者共同關(guān)注“An experiment focusing open source tools,Ubuntu Linux,compete Aperture,find worthwhile open source solution,formidable raw processing tools”等,這些信息更像是對文本整體內(nèi)容進(jìn)行關(guān)于標(biāo)簽“Software”的精簡概括。Head_2關(guān)注的信息較少,相反Head_5則關(guān)注了許多與標(biāo)簽“Software”無關(guān)的冗余信息。因此,設(shè)置不同的頭數(shù)影響著解碼器從文本中捕獲標(biāo)簽相關(guān)的語義信息。通過設(shè)置不同的注意力頭數(shù)進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表3所示,在AAPD上設(shè)置為10時(shí)表現(xiàn)最好,設(shè)置為3和15時(shí)較差,在SLASHDOT上設(shè)置為5時(shí)最好,設(shè)置為3和15時(shí)較差。以上結(jié)果說明,在設(shè)置注意力頭數(shù)時(shí),應(yīng)該根據(jù)文本平均長度進(jìn)行設(shè)置,不宜過小或過大。當(dāng)頭數(shù)過小時(shí),難以從文本信息中捕獲足夠的語義信息;頭數(shù)設(shè)置過大效果則沒有明顯提升,甚至可能因?yàn)槿哂嘈畔⒈憩F(xiàn)更差。實(shí)際上,更多的注意力頭所帶來的模型參數(shù)會加大模型訓(xùn)練的開銷,因此選擇注意力頭數(shù)時(shí)需要在模型性能和計(jì)算開銷上進(jìn)行綜合考慮。

        3.5 位置編碼對Transformer的影響

        序列生成Transformer中的注意力機(jī)制是執(zhí)行多標(biāo)簽分類的關(guān)鍵部分,并且詞序信息對于模型學(xué)習(xí)句子間的語義關(guān)系有著十分重要的影響。然而,注意力機(jī)制由于其并行特性丟失了詞序信息,需要使用位置編碼(positional encod?ing, PE)把詞序信號加到詞匯上幫助模型學(xué)習(xí)這些信息。本節(jié)實(shí)驗(yàn)探究了外置PE以及內(nèi)嵌PE對模型的影響,結(jié)果如表4??梢钥吹剑庵肞E(和原始Transformer模型一致)效果一般,將可學(xué)習(xí)的PE或固定的PE內(nèi)嵌進(jìn)Transformer的注意力子層對于分類結(jié)果都有著顯著的提升,即使編碼器不加PE其各項(xiàng)指標(biāo)(尤其是HL)均有著可靠的效果。可能的原因是輸入信息在Transformer子層傳遞的過程中會丟失一定的詞序信息,將位置編碼內(nèi)嵌進(jìn)每個(gè)注意力子層可以幫助模型更好地識別不同詞匯間的順序關(guān)系。

        3.6 算法時(shí)間效能對比

        為驗(yàn)證序列生成Transformer在模型訓(xùn)練時(shí)的高效性,本節(jié)實(shí)驗(yàn)評估Transformer與RNN在兩種數(shù)據(jù)集上訓(xùn)練的時(shí)間損耗對比。如圖5所示,其中Totaltime為算法在不同數(shù)據(jù)集上訓(xùn)練一次所消耗的總時(shí)間。可以看到,基于Trans?former解碼器的序列生成模型耗時(shí)更少。而這得益于Transformer自身的并行特性,使得模型訓(xùn)練的解碼階段能夠同時(shí)處理多個(gè)標(biāo)簽達(dá)到節(jié)省時(shí)間開銷的目的。

        3.7 消融實(shí)驗(yàn)

        為了進(jìn)一步驗(yàn)證Transformer解碼器的重要性,本節(jié)在兩個(gè)數(shù)據(jù)集上進(jìn)行了相應(yīng)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。其中GRU表示僅使用GRU編碼器進(jìn)行文本特征提取,seq2seq-GRU表示編碼器解碼器均為GRU,GRUTransformer表示編碼器使用GRU,解碼器使用Transformer??梢钥吹剑瑑H使用GRU編碼器表現(xiàn)最差,基于Seq2Seq架構(gòu)的方法在Instance-F1和Label-F1指標(biāo)均有著更好的表現(xiàn)。說明解碼器建模標(biāo)簽相關(guān)性對提升模型的分類效果起到了很大的作用。并且Transformer解碼器在建模標(biāo)簽相關(guān)性的同時(shí),能夠更深層次地考慮文本和標(biāo)簽之間的語義相關(guān)性,幫助解碼階段聚合更為全面的判別特征,提高分類效果。

        4 結(jié)論

        本文提出基于Transformer的序列生成模型來處理多標(biāo)簽文本分類問題。相對于傳統(tǒng)的單頭注意力機(jī)制,Transformer解碼器中的多頭交叉注意力子層能進(jìn)一步捕獲更為全面的判別特征。將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地捕獲不同詞匯間的順序信息,這也為Transformer解碼器應(yīng)用于多標(biāo)簽文本分類任務(wù)提供了可能。

        雖然序列生成Transformer模型在捕獲文本語義關(guān)系上取得了不錯的效果,但沒有考慮標(biāo)簽間的層級關(guān)系;而且基于Seq2Seq架構(gòu)的方法在預(yù)測階段容易受到先前錯誤預(yù)測結(jié)果的影響導(dǎo)致誤差累計(jì);同時(shí)在SLASHDOT這類有大量標(biāo)簽的數(shù)據(jù)集上的分類效果還有著很大的提升空間;下一階段將針對以上問題進(jìn)行更深一步的研究。

        猜你喜歡
        語義分類文本
        分類算一算
        語言與語義
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        国产精品九九热| 精品露脸国产偷人在视频| 操国产丝袜露脸在线播放| 亚洲最大中文字幕熟女| 欧美伦费免费全部午夜最新| 无码精品日韩中文字幕| 亚洲av理论在线电影网| 久久久高清免费视频| 经典黄色一区二区三区| 亚洲字幕中文综合久久| 久久99精品九九九久久婷婷 | 欧美牲交a欧美牲交aⅴ| 久久精品中文字幕一区| 在线视频这里只有精品| 精品亚洲一区二区视频| 日韩精品极视频在线观看免费| 青青草精品视频在线播放| 国产国拍亚洲精品mv在线观看| 国产美熟女乱又伦av果冻传媒| 亚洲图片第二页| 风间由美中文字幕在线| 久久99热只有频精品8国语| 久久久精品一区aaa片| 色综合自拍| 久久99精品免费国产| 久久精品女同亚洲女同| 亚欧免费无码aⅴ在线观看| 伊人99re| 亚洲人妻中文字幕在线视频| 国产麻豆国精精品久久毛片| 三级全黄裸体| 精品久久久无码中文字幕 | 国产 无码 日韩| 日本中文一区二区在线| 亚洲色无码国产精品网站可下载| 日韩精品国产自在欧美| 国产少妇高潮在线视频| 插鸡网站在线播放免费观看| 久久久精品欧美一区二区免费 | 狠狠人妻久久久久久综合| 日本女优中文字幕在线观看|