高 瑩,馬佳琳
(沈陽(yáng)師范大學(xué) 軟件學(xué)院,遼寧 沈陽(yáng) 110000)
早期,計(jì)算機(jī)處理自然語(yǔ)言等主觀任務(wù),通常使用語(yǔ)料庫(kù)的方法,將所有詞匯轉(zhuǎn)變?yōu)閿?shù)據(jù)再進(jìn)行處理,這種方法費(fèi)時(shí)又費(fèi)力。近年來(lái),深度學(xué)習(xí)技術(shù)引起了自然語(yǔ)言處理領(lǐng)域?qū)W者的廣泛關(guān)注。2017年,谷歌提出基于自注意力機(jī)制的預(yù)訓(xùn)練模型,解決了自然語(yǔ)言處理任務(wù)的瓶頸[1]。自注意力用于計(jì)算元素序列的分類分布,得到的概率可以反映每個(gè)元素的重要性,并作為生成上下文編碼的權(quán)重,即所有元素的加權(quán)平均和。自注意力機(jī)制降低了對(duì)外部信息的依賴,并且更擅長(zhǎng)于捕捉內(nèi)部信息關(guān)系。
自注意力有兩個(gè)分支,即軟注意力機(jī)制和硬注意力機(jī)制。在軟注意力機(jī)制計(jì)算中,通常會(huì)為瑣碎的元素分配少量權(quán)重,一旦這些瑣碎元素的數(shù)量達(dá)到一定數(shù)量級(jí),注意力矩陣會(huì)把很大一部分權(quán)重分配給這些瑣碎元素,從而導(dǎo)致模型對(duì)重要信息的注意力減弱。而硬注意力機(jī)制從樣本中選擇元素的子集并且一次只關(guān)注一個(gè)元素,強(qiáng)制模型只關(guān)注重要元素而不考慮其他信息。傳統(tǒng)的自注意力機(jī)制只能將兩個(gè)詞的相關(guān)性設(shè)置為零,這極大削弱了詞間的沖突程度。因此,本文提出在注意力矩陣中應(yīng)用負(fù)權(quán)重信息來(lái)幫助模型提取此類信息。
注意力機(jī)制首先被應(yīng)用在處理視覺(jué)領(lǐng)域的問(wèn)題中,接著人們又將注意力引入到自然語(yǔ)言處理中,如關(guān)系抽取、機(jī)器翻譯、情感分類等任務(wù)。XIAO等人[2]在2018年提出了注意力因子分解機(jī)AFM,在特征交叉層和輸出層之間加入注意力網(wǎng)絡(luò),為每一個(gè)交叉特征提供權(quán)重。SONG等人[3]在2019年提出了AutoInt模型,該模型使用多頭自注意力機(jī)制來(lái)自動(dòng)學(xué)習(xí)交互特征,通過(guò)堆疊多個(gè)注意力層以捕捉高階交互并增加注意力頭的數(shù)量以提高表達(dá)能力,從而提高CTR預(yù)測(cè)任務(wù)的準(zhǔn)確性。VASWANI等人[4]提出多頭注意力機(jī)制模型代替了傳統(tǒng)的seq2seq模型,大大提高了模型的并行性。張青博等人[5]提出規(guī)范化矩陣分解模型,利用項(xiàng)目屬性關(guān)注度獲取用戶偏好以提高推薦精準(zhǔn)度,但這種方法要求帶權(quán)重的注意力向量必須是連續(xù)的,分裂了長(zhǎng)關(guān)系依賴。
假定一個(gè)輸入序列X=(x1,…,xn),其中xi表示第i個(gè)元素的嵌入向量。句子的標(biāo)記分?jǐn)?shù)由Softmax函數(shù)生成,如式(1)所示。
式中:Qi表示原始注意力向量,n表示句子的長(zhǎng)度,S表示句子的最終嵌入。
然而,由于原始注意力向量是一維的,對(duì)句子不夠重視。因此,VASWANI等人[6]提出了一種自注意力機(jī)制,將源文件看成是鍵值對(duì)序列,用K表示鍵序列、V表示值序列和Q表示查詢序列,自注意力機(jī)制就可以被描述為鍵值對(duì)序列在該查詢上的映射,再使用Softmax函數(shù)對(duì)注意力矩陣得分做歸一化處理,如式(3)所示。
式中:dk是比例因子。
硬注意力克服了長(zhǎng)序列軟注意力的弱點(diǎn),強(qiáng)調(diào)只關(guān)注重要元素而忽視其他無(wú)關(guān)信息,同時(shí)解決一維向量存在的局限。使用變量ai表示注意力向量是否關(guān)注句子i中的位置,對(duì)于任何位置的句子注意力向量,只有一個(gè)位置為1,其余位置都等于0。這種一次只關(guān)注一個(gè)位置的技術(shù)構(gòu)成了硬注意力機(jī)制的基礎(chǔ),可以描述為:
由于傳統(tǒng)注意力機(jī)制產(chǎn)生的缺陷,本文使用稀疏注意力矩陣來(lái)提取句子的正負(fù)信息,從而更好地理解語(yǔ)言的內(nèi)部結(jié)構(gòu),并提出一種混合自注意力機(jī)制模型。首先,利用詞間的距離信息和注意力的權(quán)重信息來(lái)構(gòu)造注意力矩陣的稀疏性;其次,利用軟注意力機(jī)制提供的相對(duì)穩(wěn)定的環(huán)境來(lái)優(yōu)化模型的性能,從而幫助模型提取句子的雙向信息。
在計(jì)算硬注意力模型時(shí),考慮到詞間的距離信息,使用αe-x函數(shù)來(lái)逐漸減少距離遠(yuǎn)的詞之間的影響。其中α表示可訓(xùn)練參數(shù),x表示兩個(gè)詞間的距離。同時(shí),還需要充分考慮注意力權(quán)重對(duì)模型的影響。因此,信息增強(qiáng)注意力矩陣計(jì)算可表示為:
式中:α+和β+為可訓(xùn)練的參數(shù),將α+初始化為0.2,β+初始化為0.8。隨著后續(xù)訓(xùn)練,不斷調(diào)整參數(shù)值,以在距離因子和注意力之間得到更好的權(quán)重;H表示不考慮距離因素的情況下詞向量i和j之間的關(guān)聯(lián)值,H+計(jì)算重新訓(xùn)練了一個(gè)查詢矩陣Q+以區(qū)分硬注意機(jī)制和軟注意機(jī)制。如式(6)所示:
為了得到稀疏注意力矩陣并消除瑣碎信息的影響,設(shè)置閾值μ來(lái)過(guò)濾掉權(quán)重過(guò)小的元素,從而達(dá)到提取模型重要信息的效果。該方法將小于閾值的位置設(shè)置為負(fù)無(wú)窮大,大于或等于閾值的位置不處理。最終經(jīng)過(guò)歸一化指數(shù)函數(shù)處理后就會(huì)得到一個(gè)稀疏的權(quán)重矩陣。如式(7)、式(8)所示:
此信息增強(qiáng)矩陣A+把句子中不重要的信息設(shè)置為零,從而增加重要信息的權(quán)重。按照同樣的方法,訓(xùn)練信息縮減矩陣A-,用于提取句子中的負(fù)信息。融合信息增強(qiáng)矩陣和信息縮減矩陣,形成最終的混合注意力矩陣A,如式(9)所示,通過(guò)構(gòu)造注意力矩陣的負(fù)權(quán)重,讓注意力機(jī)制捕獲更多信息。最后將注意力矩陣A和值矩陣V相乘以獲得句子表示,如式(10)所示。
本文使用開源的IMDB數(shù)據(jù)集,有50 000條電影評(píng)論數(shù)據(jù),包含訓(xùn)練集、測(cè)試集和未標(biāo)記數(shù)據(jù)的二進(jìn)制分類數(shù)據(jù)集,如表1所示。
表1 IMDB數(shù)據(jù)集分類表
為了評(píng)估μ值對(duì)結(jié)果的影響,使用不同μ值(0.5/n、0.6/n、0.7/n、0.8/n、0.9/n和1/n),上限設(shè)置為1/n。實(shí)驗(yàn)結(jié)果如圖1所示。
圖1 不同μ值的準(zhǔn)確度曲線圖
圖1 表明模型在μ值為0.9/n時(shí)獲得最佳成績(jī)。模型的分?jǐn)?shù)隨著μ的增加而增加,即正負(fù)信息的提取變得更加集中,但過(guò)度集中可能會(huì)導(dǎo)致重要信息被忽略。因此需選擇合適的μ值以提高模型的性能。
為了驗(yàn)證模型的有效性,本文采用準(zhǔn)確率(Accuracy)和F1值(F1-Measure)作為模型評(píng)估指標(biāo),在IMDB公開數(shù)據(jù)集上與傳統(tǒng)的常用模型進(jìn)行對(duì)比實(shí)驗(yàn),具體如下:
(1)TextCNN,該模型采用三種大小的多通道卷積核,提取到了文本不同的N-grams特征;
(2)LSTM,長(zhǎng)短期記憶網(wǎng)絡(luò),使用一個(gè)神經(jīng)網(wǎng)絡(luò)模型對(duì)文本編碼獲取語(yǔ)義信息;
(3)BiLSTM,該模型采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò),從而提取到了文本的上下文信息;
(4)BGRU,該模型采用雙向在BiLSTM基礎(chǔ)上減少“門”的數(shù)量,使結(jié)構(gòu)更加簡(jiǎn)單;
(5)Self-Attention,此模型只包含自注意力機(jī)制。
經(jīng)過(guò)對(duì)比實(shí)驗(yàn),以上模型與本文混合自注意力模型的實(shí)驗(yàn)結(jié)果如表2所示。
通過(guò)表2的實(shí)驗(yàn)數(shù)據(jù)可知,在IMDB數(shù)據(jù)集上,本文模型相比Self-Attention模型準(zhǔn)確率和F1-值分別提高3.17%和1.5%,比其他模型表現(xiàn)更優(yōu)。
表2 模型實(shí)驗(yàn)對(duì)比結(jié)果表
本文提出的混合的自注意力機(jī)制模型改進(jìn)了現(xiàn)有的模型,該模型采用硬注意力機(jī)制來(lái)減輕軟注意力機(jī)制引入的瑣碎信息的高權(quán)重影響,并克服傳統(tǒng)自注意力模型無(wú)法提取負(fù)面信息的問(wèn)題。該方法具有普遍性,可以擴(kuò)展到其他自注意力機(jī)制的應(yīng)用場(chǎng)景,例如翻譯任務(wù)等。未來(lái)的工作將優(yōu)化模型以提高其性能。