亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer的序列生成多標(biāo)簽文本分類

2023-04-06 18:58:23支港鐘學(xué)燕王欣何山石佳

山西大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年1期

支港，鐘學(xué)燕，王欣，何山，石佳

（西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院，四川成都 610500）

0 引言

多標(biāo)簽文本分類已經(jīng)成為自然語言處理的一項(xiàng)重要的任務(wù)，目前被廣泛應(yīng)用于情感分析［1］、安全生產(chǎn)事故分類［2］、在線問診［3］和許多其他現(xiàn)實(shí)場景。多標(biāo)簽文本分類任務(wù)中，復(fù)雜的語義信息可能隱含在文本中的各個(gè)部分，并且一個(gè)文本樣本對應(yīng)著多個(gè)標(biāo)簽。這些標(biāo)簽不僅和文本信息存在著一定的聯(lián)系，而且標(biāo)簽與標(biāo)簽之間也存在著復(fù)雜的依賴關(guān)系。為提高分類效果，現(xiàn)有研究重點(diǎn)關(guān)注三個(gè)方面［4］：①如何從文本信息中充分捕捉語義信息；②如何從每個(gè)文本中提取與對應(yīng)標(biāo)簽相關(guān)的判別信息；③如何準(zhǔn)確挖掘標(biāo)簽之間的相關(guān)性。

傳統(tǒng)的機(jī)器學(xué)習(xí)算法把多標(biāo)簽問題轉(zhuǎn)換為多個(gè)相互獨(dú)立的二分類問題，如Binary Rele?vance［5］、ML-KNN［6］等，這類方法雖然簡單有效，但沒有考慮標(biāo)簽之間的相關(guān)性。為了捕獲標(biāo) 簽相關(guān) 性，Rank-SVM［7］、Calibrated Label Ranking［8］，考慮了標(biāo)簽之間的成對關(guān)系，但是難以建立標(biāo)簽高階相關(guān)性。Classifier Chains［9］、Ensemble Classifier Chain［9］利用鏈?zhǔn)揭?guī)則和先前分類器的預(yù)測結(jié)果作為輸入來考慮標(biāo)簽之間的高階相關(guān)性，但是在大型數(shù)據(jù)集上的訓(xùn)練成本很高。

使用基于序列到序列（sequence to se?quence， Seq2Seq）［10］的方法將多標(biāo)簽文本分類問題轉(zhuǎn)換為序列生成問題能夠很好地建立標(biāo)簽高階相關(guān)性。該方法提出了一個(gè)帶有decoder結(jié)構(gòu)的序列生成模型，并考慮到以前預(yù)測的標(biāo)簽，以先后順序的方式預(yù)測結(jié)果。Yang等［11］提出了由Bi-LSTM編碼器和基于加性注意力的LSTM解碼器組成的序列生成模型（SGM），當(dāng)模型預(yù)測不同的標(biāo)簽時(shí)，注意力機(jī)制會考慮文本不同部分的貢獻(xiàn)，但缺乏對編碼階段提取的信息文本的充分利用。

鑒于Transformer使用多頭注意力機(jī)制提取多重語義信息且兼具可解釋性的特點(diǎn)，本文在Seq2Seq模型中的解碼器部分采用Transformer，提出了基于Transformer解碼器的序列生成模型。在多層Transformer解碼器層中，通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性，利用其交叉注意力機(jī)制自適應(yīng)地對文本特征進(jìn)行多頭交叉關(guān)注，為不同的詞匯賦以相應(yīng)的權(quán)重，并聚合與標(biāo)簽相關(guān)的關(guān)鍵特征。序列生成Transformer能夠在建立標(biāo)簽相關(guān)性的同時(shí)更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。

本文主要貢獻(xiàn)有如下三個(gè)方面：

1）將Transformer解碼器用于多標(biāo)簽文本分類任務(wù)?？梢暬瘜?shí)驗(yàn)表明，Transformer解碼器中的多頭交叉注意力子層可以有選擇地關(guān)注上下文表征里不同子空間的語義信息來聚合更為全面的判別特征，提高分類性能的同時(shí)有著更好的可解釋性；

2）探究了位置編碼對模型效果的影響。實(shí)驗(yàn)表明，相對于標(biāo)準(zhǔn)Transformer外置的位置編碼，將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地識別不同詞匯間的順序關(guān)系；

3）通過在不同公開數(shù)據(jù)集上與當(dāng)前流行的RNN類基線模型進(jìn)行綜合實(shí)驗(yàn)對比，驗(yàn)證了序列生成Transformer的有效性和高效性。

1 相關(guān)工作

1.1 多標(biāo)簽文本分類

近年來，大量基于深度學(xué)習(xí)的方法被應(yīng)用于多標(biāo)簽分類算法研究，如 CNN［12］，RNN［13］，R-CNN［14］，注意力機(jī)制［15］等，然而，這些方法僅傾向于提取文本表示，將標(biāo)簽視為一個(gè)整體序列進(jìn)行預(yù)測，不但沒有考慮文本內(nèi)容的貢獻(xiàn)差異，而且忽略了標(biāo)簽間的相關(guān)性。

文本中的一些關(guān)鍵詞，通常對分類結(jié)果起著決定性作用。例如，“一年一度的首都高校大學(xué)生籃球聯(lián)賽在北京林業(yè)大學(xué)隆重舉行”，它被分為校園和體育兩個(gè)類別。顯然“高?！薄按髮W(xué)生”等詞與校園的相關(guān)性遠(yuǎn)大于體育，而“籃球聯(lián)賽”則與體育密切相關(guān)。為此，Xiao等［16］提出LSAN方法利用文本和標(biāo)簽信息，借助自注意力和標(biāo)簽注意機(jī)制來建立文本內(nèi)容和標(biāo)簽之間的相關(guān)性，雖然取得不錯的效果，卻忽略了標(biāo)簽之間的相關(guān)性。Nam等［10］、Yang等［11］、Qin等［17］使用基于 Seq2Seq的方法來建立標(biāo)簽相關(guān)性，并使用注意力機(jī)制提取文本信息中的判別特征，然而，傳統(tǒng)的單頭注意力機(jī)制只考慮詞匯間單一層面的語義信息，不能全面地捕獲上下文信息。

本文將Transformer解碼器用于Seq2Seq架構(gòu)，借助其多頭注意力子層關(guān)注文本上下文表征里不同子空間的語義信息進(jìn)而獲取更為全面的判別特征，序列生成Transformer模型可以在建立標(biāo)簽相關(guān)性的同時(shí)，更全面、更深層次地考慮文本信息和標(biāo)簽之間的語義相關(guān)性。

1.2 Transformer在多標(biāo)簽文本分類任務(wù)中的應(yīng)用

Transformer最初是作為機(jī) 器翻譯［18］的Seq2Seq模型，并廣泛應(yīng)用于計(jì)算機(jī)視覺任務(wù)［19-20］。最近研究表明，Transformer在多標(biāo)簽文本分類領(lǐng)域也有一定進(jìn)展。

Adhikari等［21］通過對 BERT 進(jìn)行微調(diào)克服了原始BERT的幾個(gè)限制，并將BERT提煉成更簡單的神經(jīng)模型，從而以更小的計(jì)算成本建立多標(biāo)簽文本分類任務(wù)。Chang等［22］提出XTransformer模型，通過微調(diào)Transformer使得輸入文本到標(biāo)簽集有更好的映射。Gong等［23］使用多層Transformer編碼器從單詞、句子和圖形級別的文本當(dāng)中提取文本表征。Yarullin等［24］提出了序列生成BERT模型（BERT+SGM），首次將Transformer用于多標(biāo)簽分類任務(wù)的Seq2Seq架構(gòu)。Transformer編碼器有著強(qiáng)大的表征能力，然而，對于Transformer 解碼器在多標(biāo)簽文本分類任務(wù)的研究還有待進(jìn)一步探索。

受上述研究啟發(fā)，本文認(rèn)為Transformer解碼器可以很好地應(yīng)用于序列生成多標(biāo)簽分類任務(wù)，通過其自注意力機(jī)制建立標(biāo)簽之間的高階相關(guān)性，并利用其交叉注意力子層捕獲文本序列內(nèi)各種范圍的語義信息，這與大多數(shù)現(xiàn)有工作使用Transformer編碼器中的自注意力機(jī)制來改進(jìn)文本表示有很大不同。

2 基于Transformer的序列生成多標(biāo)簽文本分類

2.1 多標(biāo)簽文本分類任務(wù)描述

假設(shè)樣本空間X?Rd，d表示詞向量維度。標(biāo)簽空間 L={λ1，λ2，…，λq}。給定數(shù)據(jù)集 D=，其中n表示樣本總數(shù)，假定這些樣本獨(dú)立且同分布在一個(gè)未知分布P(X，Y)中。則多標(biāo)簽文本分類任務(wù)旨在學(xué)習(xí)一個(gè)決策函數(shù)f：X→2L，其中2L為L的子集，使得每一段文本匹配一組標(biāo)簽集合。

2.2 掩蔽自注意力機(jī)制

在多標(biāo)簽分類的序列生成模型中，預(yù)測階段解碼器輸出的標(biāo)簽序列是逐個(gè)生成的，要將Transformer解碼器應(yīng)用于Seq2Seq架構(gòu)中，就得保留解碼器中自回歸的屬性。訓(xùn)練模型時(shí)在解碼器自注意力子層中添加了掩碼向量，以便任何查詢都只會與已經(jīng)生成的標(biāo)簽進(jìn)行注意力計(jì)算。

在掩蔽自注意力機(jī)制的實(shí)現(xiàn)中，首先通過計(jì)算查詢Q∈RT1×d和鍵K∈RT2×d每一行向量的內(nèi)積，得到相似度矩陣A∈RT1×T2，其中 T1、T2分別為查詢和鍵對應(yīng)標(biāo)簽向量的數(shù)目，At，i表示標(biāo)簽t和標(biāo)簽i之間的注意力強(qiáng)度。為了防止計(jì)算得到的內(nèi)積過大，采用公式（1）平衡計(jì)算結(jié)果，

為了確保每個(gè)標(biāo)簽只考慮該位置之前的所有標(biāo)簽，使用Softmax計(jì)算得到歸一化注意力權(quán)重之前，需要在矩陣A中加入n個(gè)標(biāo)簽所對應(yīng)的掩碼向量R mask∈Rn×m。最后將A與值向量V∈Rn×d相乘得到掩蔽自注意力的輸出。計(jì)算如公式（2）和（3）所示：

2.3 模型框架

如圖1所示，序列生成Transformer模型主要是由編碼和解碼兩個(gè)階段組成。首先將輸入文本傳入編碼器提取文本特征，編碼器可以是RNN、CNN或Transformer等。解碼階段由兩個(gè)模塊組成：用于更新查詢和聚合特征的多層Transformer解碼器塊，以及將輸出擴(kuò)展到與標(biāo)簽詞典大小一樣維度的全連接層。

2.3.1 編碼階段

給定單個(gè)樣本的文本信息W=[w1，w2，…，wK]，K 表示文本信息長度。將詞 wi通過詞嵌入得到向量表示ei∈Rd從而形成嵌入矩陣 X=[e1，e2，…，eK]∈ RK×d。然后將 X 送入編碼器進(jìn)行特征提取得到文本特征表示H=[h1，h2，…，hK]∈ RK×d。為了驗(yàn)證 Transformer解碼器的可行性，本文先后使用Transformer和GRU作為編碼器進(jìn)行實(shí)驗(yàn)。

2.3.2 解碼階段

解碼階段每個(gè)Transformer解碼器層包含了三個(gè)子層：掩蔽多頭自注意力（Masked Multi-Head Self-Attention）、多頭交叉注意力（Multi-Head Cross-Attention）和逐位前饋網(wǎng)絡(luò)（FFN）。這些子層都被殘差連接和緊隨的層歸一化（Layer Norm）圍繞，加速模型收斂的同時(shí)，并防止其過擬合。為簡潔起見，本文省略了網(wǎng)絡(luò)層中的殘差連接、層歸一化以及網(wǎng)絡(luò)子層的參數(shù)，詳細(xì)參考Transformer原文［17］。

建立標(biāo)簽相關(guān)性：輸入文本在經(jīng)過編碼器編碼提取特征后，使用標(biāo)簽嵌入Q0∈RT×d作為初始查詢，并采用掩蔽多頭自注意力機(jī)制建立標(biāo)簽之間的相關(guān)性來更新查詢得到標(biāo)簽嵌入，其中T是輸入標(biāo)簽的數(shù)量。每一個(gè)Trans?former解碼器層l從其前一層的輸出Ql?1更新查詢，標(biāo)簽嵌入更新如下：

其中，Concat表示拼接每一個(gè)頭部的注意力輸出，波浪上標(biāo)～表示為原始向量添加位置編碼，為可學(xué)習(xí)參數(shù)，dq=dk=dv=d/h，h為注意力頭數(shù)。

標(biāo)簽預(yù)測：假設(shè)Transformer解碼器共有L層，將在最后一層得到T個(gè)注入了標(biāo)簽信息以及文本信息的標(biāo)簽嵌入Ql∈RT×d。將每個(gè)標(biāo)簽嵌入 QL，t∈ Rd通過全連接層（Linear）和 Softmax計(jì)算得到q個(gè)不同標(biāo)簽的預(yù)測概率，q為標(biāo)簽空間大小。標(biāo)簽預(yù)測計(jì)算所下：

其中 Wt∈Rd×p，bt∈ Rp，是全連接層中的權(quán)重參數(shù)，引入It是為了避免重復(fù)預(yù)測前一時(shí)刻的預(yù)測結(jié)果。

2.4 損失函數(shù)

本文通過最小化交叉熵?fù)p失（Cross-Entro?py Loss）函數(shù)來訓(xùn)練模型，其定義見式（11）：

其中，ynt表示第n個(gè)樣本中標(biāo)簽t的真實(shí)值，表示第n個(gè)樣本中標(biāo)簽t的預(yù)測值，N表示樣本空間大小，q表示標(biāo)簽空間大小。

3 實(shí)驗(yàn)

3.1 訓(xùn)練過程及實(shí)驗(yàn)設(shè)置

為了檢驗(yàn)序列生成Transformer的性能，本文在公開文本數(shù)據(jù)集AAPD［11］和 SLASH?DOT［17］進(jìn)行了對比實(shí)驗(yàn)。AAPD來源于arxiv網(wǎng)站收集的計(jì)算機(jī)科學(xué)領(lǐng)域的論文，SLASH?DOT來源于資訊科技網(wǎng)站中的新聞信息。數(shù)據(jù)集詳細(xì)信息如表1所示。

文本序列和標(biāo)簽序列可能具有不同的長度，為了提高計(jì)算效率，本文對數(shù)據(jù)集進(jìn)行了填充操作，AAPD最大長度設(shè)置為400，SLASH?DOT最大設(shè)置長度為120，如果文本序列長度低于閾值，將在末尾添加“”進(jìn)行填充。為了加快模型收斂速度［25］，本實(shí)驗(yàn)對標(biāo)簽序列按照頻率遞減順序進(jìn)行了重排序，對排序后的標(biāo)簽使用“”和“”作為首尾填充，再用“”填充保證標(biāo)簽數(shù)量一致。數(shù)據(jù)集隨機(jī)洗亂，按照80%、10%、10%比例劃分為訓(xùn)練集、驗(yàn)證集、測試集。訓(xùn)練過程中，編碼階段將文本信息使用編碼器進(jìn)行特征提取，編碼器使用預(yù)訓(xùn)練300維glove［26］詞向量作為詞嵌入，解碼階段使用Transformer解碼器建模標(biāo)簽信息間的相關(guān)性，然后利用文本特征信息來輔助解碼訓(xùn)練過程中參數(shù)的調(diào)整。預(yù)測過程中，本實(shí)驗(yàn)對每一時(shí)刻的預(yù)測結(jié)果使用了集束搜索（Beam Search），在以“”結(jié)尾的候選標(biāo)簽序列當(dāng)中尋找最佳標(biāo)簽序列，Beam Size設(shè)置為4。本實(shí)驗(yàn)中使用的編碼器和解碼器網(wǎng)絡(luò)層數(shù)均為2。 Transformer的dropout大小設(shè)置為0.1，位置編碼使用的是基于正弦函數(shù)和余弦函數(shù)的固定位置編碼［17］，注意力頭數(shù)作為超參數(shù)在驗(yàn)證集上調(diào)節(jié)。優(yōu)化器使用Adam，學(xué)習(xí)率衰減使用（Factor Scheduler）因子調(diào)度器，初始學(xué)習(xí)率設(shè)置為3×10?4，衰減率為0.90，訓(xùn)練輪數(shù)為20。計(jì)算機(jī)配置為Ubuntu64位操作系統(tǒng)，CPU型號 Intel（R） Core（TM） i9900KF@3.60 GHz 8核，內(nèi)存32 GB，GPU為GeForce RTX3080，顯存大小8 GB。

本文使用的評估指標(biāo)為：Instance-F1、La?bel-F1和漢明損失（Hamming-Loss，HL），定義如下所示：

本文使用的基線對比模型如下：

（1） Binary Relevance（BR）［5］：將多標(biāo)簽分類問題分解為多個(gè)獨(dú)立二分類問題，忽略標(biāo)簽之間的相關(guān)性。

（2） Classifier Chains（CC）［9］：將多標(biāo)簽分類問題轉(zhuǎn)化為有序的二分類問題，前一分類器預(yù)測結(jié)果作為后一分類器輸入，該方法能考慮到標(biāo)簽之間的相關(guān)性。

（3） Ensemble Classifier Chains（ECC）［9］：利用集成學(xué)習(xí)隨機(jī)生成多種標(biāo)簽順序訓(xùn)練模型。

（4） Seq2Seq--GRU［10］：帶有 GRU 編碼器和基于注意力機(jī)制的GRU解碼器的Seq2Seq架構(gòu)，將多標(biāo)簽分類問題轉(zhuǎn)化為多標(biāo)簽序列生成問題。

（5） set--RNN［17］：基于集合概率的原則提出了新的訓(xùn)練目標(biāo)和預(yù)測目標(biāo)，使得模型能夠自適應(yīng)地發(fā)現(xiàn)最佳標(biāo)簽順序。

3.2 結(jié)果和分析

幾種方法的對比結(jié)果如表2所示，可以看出，本文的方法在Instance-F1和Label-F1上都明顯優(yōu)于其他方法，HL指標(biāo)表現(xiàn)僅比ECC差，可能的原因是基于Seq2Seq架構(gòu)的方法在預(yù)測階段受到先前錯誤預(yù)測結(jié)果的影響導(dǎo)致了誤差累計(jì)。對于傳統(tǒng)方法，BR忽略了標(biāo)簽之間的相關(guān)性，CC建模標(biāo)簽高階相關(guān)性，因此在In?stance-F1和Label-F1上都有著更好的表現(xiàn)。

ECC在CC基礎(chǔ)上結(jié)合了集成學(xué)習(xí)方法，在各項(xiàng)指標(biāo)上優(yōu)于CC。基于深度學(xué)習(xí)的方法Seq2Seq-GRU相對于傳統(tǒng)方法能建立更復(fù)雜的標(biāo)簽相關(guān)性，在Instance-F1和Label-F1有著突破性的提升。set-RNN避免了Seq2Seq架構(gòu)對預(yù)定義標(biāo)簽順序依賴的問題，其各項(xiàng)指標(biāo)均優(yōu)于Seq2Seq-GRU。為了驗(yàn)證Transformer解碼器在Seq2Seq架構(gòu)中的可行性，本文測試了編碼器為GRU和Transformer兩種情況下的結(jié)果，在AAPD數(shù)據(jù)上，與傳統(tǒng)效果最優(yōu)的set-RNN相比，Instance-F1分別提高了1.37%和1.44%，La?bel-F1分別提高了1.24%和1.83%，HL指標(biāo)均降低了0.02%。在SLASHDOT數(shù)據(jù)集上，In?stance-F1分別提高了0.94%和1.09%，Label-F1分別提高了0.73%和3.25%，HL指標(biāo)分別降低了0.07%和0.08%。兩種模型不管在AAPD還是SLASHDOT數(shù)據(jù)集上都有著更好的表現(xiàn)，尤其在Instance-F1和Label-F1指標(biāo)上都明顯優(yōu)于其他基線。說明序列生成Transformer在建立標(biāo)簽相關(guān)性的同時(shí)，還能更全面地考慮文本和標(biāo)簽之間的語義相關(guān)性。

3.3 注意力權(quán)重的可視化

為了進(jìn)一步驗(yàn)證序列生成Transformer在預(yù)測不同的標(biāo)簽時(shí)，能夠有選擇地捕獲不同單詞的權(quán)重，本文從數(shù)據(jù)集SLASHDOT中取出一篇文本，計(jì)算每個(gè)頭部注意力權(quán)重的平均值，并在圖2中可視化了預(yù)測不同標(biāo)簽時(shí)對應(yīng)單詞的注意力權(quán)重?？梢钥吹?，在預(yù)測兩個(gè)不同的標(biāo)簽時(shí)，模型對文本中單詞的關(guān)注度是有差別的，顏色深的單詞為模型更加關(guān)注的關(guān)鍵詞匯，預(yù)測標(biāo)簽“IT”時(shí)模型更加關(guān)注單詞 “Help Net，networks”等，而預(yù)測標(biāo)簽“Security”則更加關(guān) 注“protect computer，intruders security，de?fense”等。

除此之外，本文還繪制了解碼器使用單頭注意力時(shí)的權(quán)重?zé)崃D。如圖3所示，可以看到預(yù)測標(biāo)簽“IT”時(shí)兩者沒有明顯差別，可能是由于文本隱含的標(biāo)簽相關(guān)的語義信息有限。然而預(yù)測標(biāo)簽“Security”時(shí)，從全局來看“neverending battle”以及“are deploying a，defense”等詞作為上下文語義信息，能更加突出文本的關(guān)鍵特征。而單頭注意力卻無法準(zhǔn)確捕獲這些單詞的權(quán)重。以上實(shí)驗(yàn)表明，多頭交叉注意力機(jī)制能進(jìn)一步捕獲更為全面的判別信息，提高分類性能的同時(shí)有著更好的可解釋性。

3.4 注意力頭數(shù)對解碼器的影響

為了探究注意力頭數(shù)對解碼器的影響，本文可視化了每個(gè)頭部單獨(dú)的注意力權(quán)重以及平均注意力權(quán)重。如圖4所示，不同的頭部能夠關(guān)注文本中不同內(nèi)容，對于標(biāo)簽“Software”，可以發(fā)現(xiàn)Head_1、Head_3、和Head_4分別或者共同關(guān)注“An experiment focusing open source tools，Ubuntu Linux，compete Aperture，find worthwhile open source solution，formidable raw processing tools”等，這些信息更像是對文本整體內(nèi)容進(jìn)行關(guān)于標(biāo)簽“Software”的精簡概括。Head_2關(guān)注的信息較少，相反Head_5則關(guān)注了許多與標(biāo)簽“Software”無關(guān)的冗余信息。因此，設(shè)置不同的頭數(shù)影響著解碼器從文本中捕獲標(biāo)簽相關(guān)的語義信息。通過設(shè)置不同的注意力頭數(shù)進(jìn)行了對比實(shí)驗(yàn)，結(jié)果如表3所示，在AAPD上設(shè)置為10時(shí)表現(xiàn)最好，設(shè)置為3和15時(shí)較差，在SLASHDOT上設(shè)置為5時(shí)最好，設(shè)置為3和15時(shí)較差。以上結(jié)果說明，在設(shè)置注意力頭數(shù)時(shí)，應(yīng)該根據(jù)文本平均長度進(jìn)行設(shè)置，不宜過小或過大。當(dāng)頭數(shù)過小時(shí)，難以從文本信息中捕獲足夠的語義信息；頭數(shù)設(shè)置過大效果則沒有明顯提升，甚至可能因?yàn)槿哂嘈畔⒈憩F(xiàn)更差。實(shí)際上，更多的注意力頭所帶來的模型參數(shù)會加大模型訓(xùn)練的開銷，因此選擇注意力頭數(shù)時(shí)需要在模型性能和計(jì)算開銷上進(jìn)行綜合考慮。

3.5 位置編碼對Transformer的影響

序列生成Transformer中的注意力機(jī)制是執(zhí)行多標(biāo)簽分類的關(guān)鍵部分，并且詞序信息對于模型學(xué)習(xí)句子間的語義關(guān)系有著十分重要的影響。然而，注意力機(jī)制由于其并行特性丟失了詞序信息，需要使用位置編碼（positional encod?ing， PE）把詞序信號加到詞匯上幫助模型學(xué)習(xí)這些信息。本節(jié)實(shí)驗(yàn)探究了外置PE以及內(nèi)嵌PE對模型的影響，結(jié)果如表4?？梢钥吹剑庵肞E（和原始Transformer模型一致）效果一般，將可學(xué)習(xí)的PE或固定的PE內(nèi)嵌進(jìn)Transformer的注意力子層對于分類結(jié)果都有著顯著的提升，即使編碼器不加PE其各項(xiàng)指標(biāo)（尤其是HL）均有著可靠的效果。可能的原因是輸入信息在Transformer子層傳遞的過程中會丟失一定的詞序信息，將位置編碼內(nèi)嵌進(jìn)每個(gè)注意力子層可以幫助模型更好地識別不同詞匯間的順序關(guān)系。

3.6 算法時(shí)間效能對比

為驗(yàn)證序列生成Transformer在模型訓(xùn)練時(shí)的高效性，本節(jié)實(shí)驗(yàn)評估Transformer與RNN在兩種數(shù)據(jù)集上訓(xùn)練的時(shí)間損耗對比。如圖5所示，其中Totaltime為算法在不同數(shù)據(jù)集上訓(xùn)練一次所消耗的總時(shí)間。可以看到，基于Trans?former解碼器的序列生成模型耗時(shí)更少。而這得益于Transformer自身的并行特性，使得模型訓(xùn)練的解碼階段能夠同時(shí)處理多個(gè)標(biāo)簽達(dá)到節(jié)省時(shí)間開銷的目的。

3.7 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證Transformer解碼器的重要性，本節(jié)在兩個(gè)數(shù)據(jù)集上進(jìn)行了相應(yīng)的消融實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表5所示。其中GRU表示僅使用GRU編碼器進(jìn)行文本特征提取，seq2seq-GRU表示編碼器解碼器均為GRU，GRUTransformer表示編碼器使用GRU，解碼器使用Transformer?？梢钥吹剑瑑H使用GRU編碼器表現(xiàn)最差，基于Seq2Seq架構(gòu)的方法在Instance-F1和Label-F1指標(biāo)均有著更好的表現(xiàn)。說明解碼器建模標(biāo)簽相關(guān)性對提升模型的分類效果起到了很大的作用。并且Transformer解碼器在建模標(biāo)簽相關(guān)性的同時(shí)，能夠更深層次地考慮文本和標(biāo)簽之間的語義相關(guān)性，幫助解碼階段聚合更為全面的判別特征，提高分類效果。

4 結(jié)論

本文提出基于Transformer的序列生成模型來處理多標(biāo)簽文本分類問題。相對于傳統(tǒng)的單頭注意力機(jī)制，Transformer解碼器中的多頭交叉注意力子層能進(jìn)一步捕獲更為全面的判別特征。將位置編碼內(nèi)嵌進(jìn)Transformer多頭注意力子層可以幫助模型更好地捕獲不同詞匯間的順序信息，這也為Transformer解碼器應(yīng)用于多標(biāo)簽文本分類任務(wù)提供了可能。

雖然序列生成Transformer模型在捕獲文本語義關(guān)系上取得了不錯的效果，但沒有考慮標(biāo)簽間的層級關(guān)系；而且基于Seq2Seq架構(gòu)的方法在預(yù)測階段容易受到先前錯誤預(yù)測結(jié)果的影響導(dǎo)致誤差累計(jì)；同時(shí)在SLASHDOT這類有大量標(biāo)簽的數(shù)據(jù)集上的分類效果還有著很大的提升空間；下一階段將針對以上問題進(jìn)行更深一步的研究。