尉楨楷 程 夢 周夏冰 李志峰 鄒博偉 洪 宇 姚建民
(蘇州大學計算機科學與技術學院 江蘇蘇州 215006)(20185227064@stu.suda.edu.cn)
屬性抽取(aspect extraction)是屬性級情感分析的子任務之一[1],其目標是:對于用戶評價的文本,抽取其中用戶所評價的屬性或?qū)嶓w.表1給出了3條評價文本樣例,前2條為餐館領域評價文本,其中“cheesecake(奶酪蛋糕)”、“pastries(糕點)”、“food(食物)”、“dishes(菜肴)”為待抽取的屬性,粗體顯示;最后一條為電腦領域評價文本,其中待抽取的屬性為“screen(屏幕)”、“clicking buttons(點擊按鈕)”,粗體表示.
Table 1 Example of User Review
目前,針對屬性抽取的研究方法主要分為3類:基于規(guī)則的方法、基于傳統(tǒng)機器學習的方法和基于深度學習的方法.基于規(guī)則的方法依賴于領域?qū)<抑贫ǖ囊?guī)則模板實現(xiàn)屬性抽取.例如,Hu等人[2]首次提出使用關聯(lián)規(guī)則實現(xiàn)屬性抽取,并且只抽取評論文本中顯式的名詞屬性或名詞短語屬性.Li等人[3]使用依存關系從影評中抽取“評價對象-評價意見”單元對.Qiu等人[4]利用依存關系獲得屬性詞與評價詞之間的關系模板,從而根據(jù)屬性詞抽取評價詞,根據(jù)評價詞抽取屬性詞.以上基于規(guī)則的方法遷移性差,無法抽取規(guī)則之外的屬性.在基于傳統(tǒng)機器學習的方法中,通常將屬性抽取任務指定為序列標注任務.其中,Jakob等人[5]首次將條件隨機場(conditional random field, CRF)應用于屬性抽取的研究,并融合了多種特征,在屬性抽取的任務上取得了較好的效果.Xu等人[6]在CRF的基礎上引入淺層句法分析和啟發(fā)式位置特征,在不增加領域詞典的情況下,有效地提高了屬性抽取的性能.然而,基于CRF的模型通常依賴于大量的手工特征,在特征缺失的情況下性能將會大幅下降.
深度學習的方法可以避免大量的手工特征,自動學習特征的層次結構完成復雜的任務,在屬性抽取的任務上取得了優(yōu)異的效果.例如,Liu等人[7]首次將長短期記憶網(wǎng)絡(long-short term memory, LSTM)應用于屬性抽取任務,與使用大量手工特征的CRF模型相比,該方法取得了更優(yōu)的性能.Toh等人[8]提出將雙向循環(huán)神經(jīng)網(wǎng)絡(bidirectional recurrent neural network, Bi-RNN)與CRF相結合的方法,在2016年SemEval屬性級情感分析評測任務中性能達到最優(yōu).
目前,注意力機制(attention mechanism)已被應用于屬性抽取的研究.Wang等人[9]提出一種多任務注意力模型,將屬性詞和情感詞的抽取與分類進行聯(lián)合訓練,從而實現(xiàn)學習抽取和分類過程中的特征共享,進而實現(xiàn)抽取和分類的相互促進,該模型應用的注意力機制為靜態(tài)注意力機制.Cheng等人[10]在基于雙向長短期記憶網(wǎng)絡的CRF模型(BiLSTM-CRF)中著重利用門控動態(tài)注意力機制,所使用的注意力機制為自注意力機制.BiLSTM-CRF的架構[11-13]既捕獲了句子中上下文的分布特征,又有效地利用上下文標記預測當前的標記類別,鑒于此本文將BiLSTM-CRF的架構作為基線模型.
目前面向?qū)傩猿槿〉淖⒁饬C制存在2個局限性.其一,注意力機制多為全局式注意力機制(本文將自注意力機制統(tǒng)稱為全局式注意力機制),全局式注意力機制在每個時刻(處理每個目標詞項時)將與之距離較遠且關聯(lián)不密切的詞分配了注意力權重.例如,評論句子“The service is great,but the icecream is terrible.”(譯文:服務很好,但冰淇淋糟糕),當目標詞為“service(服務)”時,“terrible(糟糕)”距離目標詞“service”較遠且關聯(lián)不緊密,若對“terrible”分配較高的注力權重,則為目標詞“service”的注意力分布向量帶來噪音.其二,目前面向?qū)傩猿槿〉淖⒁饬C制多為單層,注意力機制單層建模后缺少交互性.
針對上述局限,本文提出面向?qū)傩猿槿〉念惥矸e交互式注意力機制(convolutional interactive attention, CIA).該注意力機制在每個時刻(處理每個目標詞時)都通過滑動窗口控制目標詞的上下文詞的個數(shù),例如圖1,當前時刻的目標詞為“icecream(冰淇淋)”時,在滑動窗口內(nèi)計算“icecream”的注意力分布向量.在此基礎上,再將目標詞的注意力分布向量與句中各個詞進行交互注意力計算,將獲得的交互注意力向量與目標詞的注意力分布向量拼接,由此獲得最終的注意力分布向量.
本文提出在BiLSTM-CRF的基礎上著重利用CIA的模型CIA-CRF,CIA-CRF是針對屬性抽取任務形成的一種綜合神經(jīng)網(wǎng)絡和CRF的架構,在該架構中配以一套新型的注意力機制CIA.總體上,本文的貢獻包含2個方面:
1) 提出類卷積交互式注意力機制(即CIA),該注意力機制分為類卷積注意力層和交互注意力層,旨在解決目前面向?qū)傩猿槿〉娜质阶⒁饬C制將不相關的噪音帶入注意力向量的計算以及注意力機制缺少交互性的局限.
2) 利用Bi-LSTM對句中所有的詞提取字符級特征,將字符級特征與各自的詞向量拼接,以此獲得含有字符級特征的詞向量表示.字符級特征有助于未登錄詞的識別.
本文在國際屬性級情感分析公開數(shù)據(jù)集SemEval 2014[1],2015[14],2016[15]上對CIA-CRF進行測試,在4個數(shù)據(jù)集上F1值均獲得提升.
與Yu等人[16]方法類似,本文將屬性抽取任務指定為序列標注任務,使用的標簽模式為BMESO.對于包含多個詞的屬性,B代表屬性的開端,M代表屬性的中間,E代表屬性的結尾;對于單個詞的屬性,則用S表示;O統(tǒng)一代表非屬性詞.序列標注樣例如表2所示:
Table 2 Example of Sequence Labeling
2) 將S=(s1,s2,…,sn)輸入Bi-LSTM層,通過Bi-LSTM的編碼,借以獲得各個詞包含上下文信息的隱藏狀態(tài)H=(h1,h2,…,hn);
4) 將H′經(jīng)過交互注意力層,按序逐詞地對各個單詞的上下文所有詞分配注意力權重,進而通過注意力權重和類卷積注意力矩陣H′計算交互注意力矩陣Q=(q1,q2,…,qn),最后將類卷積注意力矩陣H′與交互注意力矩陣Q拼接,由此獲得雙層注意力矩陣表示R=(r1,r2,…,rn);
5) 經(jīng)過注意力層的表示學習后,本文繼承Cheng等人[10]的工作,將雙層注意力矩陣R輸入到門控循環(huán)單元(gated recurrent unit, GRU)中更新,從而獲得更新后的注意力矩陣U=(u1,u2,…,un),并經(jīng)過全連接降維后輸入到CRF層進行屬性標記,最終獲取各個單詞對應的預測標簽L={l1,l2,…,ln},其中l(wèi)i∈{B,M,E,S,O}.
Fig. 2 General structure of system
(1)
(2)
(3)
Fig. 3 Structure of word representation layer
由1.3節(jié)可以獲得各個含有字符特征的詞矩陣S=(s1,s2,…,sn),本文采用Bi-LSTM對詞矩陣S進行編碼.
Bi-LSTM由前向LSTM和后向LSTM組合而成.其中,LSTM有3個輸入,分別是當前時刻的輸入st、上一時刻LSTM的輸出ht-1、上一時刻的記憶單元狀態(tài)ct-1,LSTM的輸出有2個,分別是當前時刻的輸出ht和當前時刻的記憶單元狀態(tài)ct.LSTM的內(nèi)部結構由3個門組成,依次為遺忘門ft、輸入門it、輸出門ot.3個門控的功能各不相同,遺忘門選擇通過的信息量,輸入門控制當前輸入對記憶單元狀態(tài)的影響,輸出門控制輸出信息.LSTM的計算公式為:
ft=σ(Wsfst+Whfht-1+bf),
(4)
it=σ(Wsist+Whiht-1+bi),
(5)
ot=σ(Wsost+Whoht-1+bo),
(6)
ct=ft⊙ct-1+it⊙tanh(Wscst+Whcht-1+bc),
(7)
ht=ot⊙tanh(ct),
(8)
式中σ為sigmod激活函數(shù),tanh為tanhyperbolic激活函數(shù);W表示權重矩陣,b表示偏置項.
本文針對屬性抽取任務,提出一種面向?qū)傩猿槿〉念惥矸e交互式注意力機制方法.該注意力機制為雙層注意力機制.第1層為類卷積注意力層,旨在降低全局式注意力機制在計算注意力向量時帶入的噪聲;第2層為交互注意力層,是在類卷積注意力層降噪的基礎上引入的.之所以提出交互注意力層,是由于在類卷積注意力層中,滑動窗口大小為固定的超參數(shù),所以窗口外可能存在與當前詞關聯(lián)密切的詞.基于類卷積注意力向量,與所有詞做進一步地交互注意力計算,從而獲得對于類卷積注意力向量而言重要的全局信息.因此,類卷積交互式注意力機制既滿足了降噪,又獲得對于類卷積注意力向量而言重要的全局信息.
總之,類卷積注意力層布置于交互注意力層之前,專用于去噪.從而再次使用交互注意力層時,噪聲已獲得類卷積注意力層的處理,同時保留了交互注意力層自身的優(yōu)勢.下面將分別詳細介紹類卷積注意力層和交互注意力層.
1.5.1 類卷積注意力層
Kim[18]首次將卷積神經(jīng)網(wǎng)絡應用于文本分類任務,通過卷積核獲取每個目標詞的上下文特征.我們將這種卷積思想遷移到注意力機制的計算,設置類似于卷積核的滑動窗口,通過滑動窗口的大小限制每個目標詞的上下文詞的個數(shù),從而在滑動窗口內(nèi)計算每個目標詞的類卷積注意力向量.類卷積注意力層如圖4所示:
Fig. 4 Convolutional attention layer
(9)
(10)
(11)
(12)
1.5.2 交互注意力層
(13)
其中hj為第j個詞的隱藏狀態(tài),j∈[1,n].
Fig. 5 Interactive attention layer
(14)
(15)
(16)
(17)
ut=gru(ut-1,rt,θ),
(18)
其中,gru為GRU模型,θ為gru的參數(shù)矩陣.
CRF最早由Lafferty等人[19]于2001年提出,是一種判別式模型.線性鏈條件隨機場被廣泛應用于序列標注任務,其優(yōu)越性已被多次證明.CRF的主要作用是進一步增強前后標簽的約束,避免不合法標簽的出現(xiàn),例如標簽M的前一個標簽是O,即為不合法標簽,CRF輸出的是合法并且概率最大的標簽組合.CRF原理為:
(19)
其中,T是轉移特征函數(shù)的數(shù)量,S是狀態(tài)特征函數(shù)的個數(shù),u為降維后的類卷積交互式注意力向量,Y為輸出標簽,p(Y|U)表示在輸入為U的情況下標簽為Y的概率,Z(U)是歸一化因子.tk(yi-1,yi,u,i)為轉移特征函數(shù),其依賴于當前位置yi和前一位置yi-1,λk是轉移特征函數(shù)對應的權值.sl為狀態(tài)特征函數(shù),依賴于當前位置yi,μl是狀態(tài)特征函數(shù)對應的權值.特征函數(shù)的取值為1或0,以轉移特征函數(shù)為例,當yi-1,yi,u滿足轉移特征函數(shù)時,則特征函數(shù)取值為1,否則取值為0.狀態(tài)特征函數(shù)同樣如此.
在訓練CRF時,使用極大似然估計的方法訓練模型中的各個變量,對于訓練數(shù)據(jù)(U,Y),優(yōu)化函數(shù)為:
(20)
經(jīng)過訓練使得Loss最小化.測試時,選取概率最大的一組標簽序列作為最終的標注結果.
本文的實驗數(shù)據(jù)來自SemEval 2014—2016屬性級情感分析的4個基準數(shù)據(jù)集,數(shù)據(jù)集分為電腦(laptop)領域和餐館(restaurant)領域.4個基準數(shù)據(jù)集分別為:2014年語義評測任務4中的電腦領域(SemEval 2014 task 4 laptop, L-14)、2014年語義評測任務4中的餐館領域(SemEval 2014 task 4 restaurant, R-14)、2015年語義評測任務12中的餐館領域(SemEval 2015 task 12 restaurant, R-15)、2016年語義評測任務5中的餐館領域(SemEval 2016 task 5 restaurant, R-16).實驗過程中,隨機從訓練數(shù)據(jù)中選取20%的樣本作為開發(fā)集.各個數(shù)據(jù)集的訓練集、開發(fā)集以及測試集的樣本數(shù)量如表3所示.此外,表3還統(tǒng)計了各個數(shù)據(jù)集訓練樣本的平均長度.
Table 3 Statistics of Datasets
本文使用的預訓練詞向量的來源為Glove,詞向量的維度為100維,將詞的隱含變量(hidden size)以及更新注意力的GRU神經(jīng)網(wǎng)絡隱含變量(GRU size)同設為100維,字符的隱含變量(character size)、注意力向量維度(attention size)分別設為20和200,學習率(learning rate)的大小設為0.001,批量大小(batch size)設為20,各個目標詞項的上文(下文)詞的個數(shù)(N)設為5.為了防止過擬合,在各層間加入dropout,設dropout=0.5.梯度優(yōu)化使用adam優(yōu)化器.
與Yu等人[16]相同,本文采用F1值作為評價標準,評價過程采用精確匹配,只有當模型預測的結果與正確答案完全匹配才看作正確預測答案,換言之,預測答案從起始位置到結束位置的各個詞必須與正確答案的各個詞對應相同.例如,真實的答案為“sardines with biscuits”,如果模型預測的答案是“biscuits”,則不是正確答案.
為了驗證本文提出模型的有效性,本文設置3組對比模型.
第1組對比模型為傳統(tǒng)的融入大量手工特征的模型,具體模型為:
1) HIS-RD,DLIREC,EliXa.分別為L-14,R-14,R-15屬性抽取排名第一的評測模型.其中HIS-RD[20]與DLIREC[21]基于CRF,EliXa[22]基于隱馬爾可夫模型,并且它們都使用了大量的手工特征.
2) CRF.融合基本特征以及Glove詞向量[23]的CRF模型.
第2組對比模型是將深度學習的方法應用于屬性抽取任務,對比模型為:
1) LSTM.Liu等人[7]使用LSTM對詞向量編碼,并通過最后一層全連接獲得每個詞的概率分布.
2) DTBCSNN+F.Ye等人[24]提出基于依存樹的卷積堆棧神經(jīng)網(wǎng)絡的方法,該方法提取的句法特征用于屬性抽取.
3) MIN.Li等人[25]提出一種基于LSTM的聯(lián)合學習模型,使用2個LSTM聯(lián)合抽取屬性詞和評價詞,使用第3個LSTM判別情感句和非情感句.
4) MTCA.Wang等人[9]提出一種多任務注意模型,該模型是屬性抽取和屬性分類的聯(lián)合學習模型.
5) GMT.Yu等人[16]提出基于多任務神經(jīng)網(wǎng)絡全局推理的模型,該模型聯(lián)合抽取屬性詞和評價詞.
第3組對比模型是本文的基線模型以及在基線模型基礎上引入全局式注意力機制:
1) BiLSTM+CRF.在Toh等人[8]提出的基Bi-RNN的CRF模型上,將Bi-RNN替換為Bi-LSTM.本文將BiLSTM+CRF作為基線模型.
2) GA-CRF.在BiLSTM+CRF模型的基礎上,以一種全局式注意力的計算方式,對Bi-LSTM的輸出進行全局式注意力計算.
3) CA-CRF.在BiLSTM+CRF模型的基礎上,集成本文提出的類卷積注意力層.
4) CIA-CRF.在BiLSTM+CRF基礎上,集成本文提出的類卷積交互式注意力機制和字符級特征.
本文提出的模型以及對比模型的實驗結果如表4所示.從表4中可知,本文的模型CIA-CRF在L-14,R-14,R-16數(shù)據(jù)集上取得了最優(yōu)的F1值.
本文將CIA-CRF與現(xiàn)有方法進行比較分析.為了驗證類卷積注意力層的有效性,本文在基線模型的基礎上分別引入全局式注意力機制和類卷積注意力層,并進行比較分析.由于類卷積注意力層中的滑動窗口大小是重要超參數(shù),所以本文比較分析滑動窗口大小對實驗性能的影響.隨后分別分析交互注意力層的有效性和字符級特征的有效性.將預訓練模型BERT(bidirectional encoder representations from transformers)[26]分別與基線模型以及引入類卷積交互式注意力機制的基線模型進行結合,從而在結合BERT的前提下驗證類卷積交互式注意力機制的有效性.
Table 4 F1 Performance Comparison
2.4.1 與現(xiàn)有傳統(tǒng)模型和深度學習模型比較
在表4中,本文將CIA-CRF與現(xiàn)有傳統(tǒng)模型和深度學習模型進行了比較.與融入多種手工特征的傳統(tǒng)模型(HIS-RD,DLIREC,EliXa,CRF)相比,本文的模型CIA-CRF在L-14,R-14,R-15數(shù)據(jù)集上均取得了最優(yōu)的性能并且優(yōu)勢明顯.傳統(tǒng)模型(HIS-RD,DLIREC,EliXa,CRF)都使用將近10種不同的手工特征,然而在Bi-LSTM結合CRF的架構下引入本文提出的類卷積交互式注意力機制和字符級特征,取得了比融入大量手工特征的傳統(tǒng)模型更優(yōu)越的性能.
對近年來的深度學習模型進行比較分析.相比于LSTM模型,CIA-CRF在4個數(shù)據(jù)集上分別提升了3.41,2.9,2.25,3.27個百分點.LSTM模型將各個詞進行5分類(標簽模式為BMESO),然而最后的輸出可能會出現(xiàn)語法錯誤的情況,例如標簽E后的標簽為M,語法錯誤是LSTM模型的性能低于CIA-CRF的重要原因.相比于DTBCSNN+F,CIA-CRF在L-14,R-14數(shù)據(jù)集上的性能分別提高3.46和0.94個百分點.DTBCSNN+F依靠依存句法信息和堆棧神經(jīng)網(wǎng)絡,而本文提出的卷積交互式注意力機制能夠更直接捕獲到文本中重要的信息(即屬性信息),是DTBCSNN+F不具備的優(yōu)勢.
在本文所對比的深度學習模型中,還包含了聯(lián)合學習模型.相比于屬性詞與情感詞的聯(lián)合抽取模型MIN和GMT,CIA-CRF在L-14和R-16數(shù)據(jù)集上取得了最優(yōu)的F1值,并在R-15上取得了與GMT可比的性能.MIN和GMT均利用了情感詞信息,而本文方法CIA-CRF是單一的屬性抽取任務,然而在缺少情感詞信息輔助的條件下,CIA-CRF在大部分數(shù)據(jù)集上仍優(yōu)于MIN和GMT.
MTCA為屬性詞與情感詞抽取以及分類的聯(lián)合學習模型.CIA-CRF與MTCA相比,在L-14,R-16數(shù)據(jù)集上取得更優(yōu)的效果;而在R-15數(shù)據(jù)集上,CIA-CRF性能低于MTCA.經(jīng)過分析表3可知,R-15的訓練集數(shù)據(jù)量較少.因此,在訓練數(shù)據(jù)偏少時,MTCA借助情感詞抽取以及屬性詞與情感詞分類的輔助信息,從而促進了屬性詞抽取性能的提升.
本文的模型CIA-CRF與基線模型BiLSTM+CRF相比,在4個數(shù)據(jù)集上分別提升了2.21,1.35,2.22,2.21個百分點.可見,本文提出的類卷積交互式注意力機制應用于屬性抽取任務具有一定的優(yōu)越性.
2.4.2 與全局式注意力模型對比分析
由表4可知,在BiLSTM+CRF架構下,結合類卷積注意力層并且不引入詞的字符級特征(CA-CRF),與基于全局式注意力機制的GA-CRF相比,CA-CRF在4個數(shù)據(jù)集上的性能均得到了提升,分別提升了0.5,0.83,0.22,0.61個百分點.經(jīng)過分析,全局式注意力機制按序(從句首到句尾)動態(tài)地對目標詞的上下文的所有詞分配注意力權重,而距離目標詞較遠且關聯(lián)不密切的詞就會為目標詞的注意力向量帶來噪音.為了便于觀察評論文本中的注意力分布,我們將一條評論文本樣例的每個時刻(t1~t10)注意力得分輸出,繪制如圖6所示的注意力分布圖.在圖6的t2時刻,此時目標詞為“service”,全局注意力機制為目標詞上下文所有的詞都分配了注意力權重,而“terrible”這個詞距離“service”較遠且不相關,卻分配了較高注意力權重,從而對目標詞“service”的注意力向量帶來噪音.
Fig. 6 Attention distribution
本文提出的類卷積交互式注意力機制中的類卷積注意力層可降低上述噪音,通過設置滑動窗口限制目標詞的上下文詞的數(shù)量,給予窗口內(nèi)各個詞注意力權重,從而獲得受噪音干擾較小的注意力向量.實驗結果表明,CA-CRF性能優(yōu)于GA-CRF,在屬性抽取上,類卷積注意力層獲得的注意力向量更優(yōu).
2.4.3 滑動窗口大小設定分析
類卷積注意力層中滑動窗口的大小是重要的超參數(shù),本文將目標詞項的上文(下文)詞數(shù)指定為窗口大小.為了驗證滑動窗口大小對實驗結果的影響,本文將窗口大小分別設為2,5,8進行模型訓練,實驗過程中保存開發(fā)集上F1值最優(yōu)的模型,最后使用最優(yōu)模型在測試集上進行測試,實驗結果如表5所示:
Table 5 F1 of Different Window Sizes
從表5中可知,當窗口大小為2時(CIA-CRF#2),在數(shù)據(jù)集R-16上取得較優(yōu)的性能;當窗口大小為5時(CIA-CRF#5),在L-14,R-14,R-15等數(shù)據(jù)集上性能較優(yōu).結合表3可發(fā)現(xiàn),R-15和R-16的訓練數(shù)據(jù)平均長度較短,而L-14和R-14的訓練數(shù)據(jù)平均長度較長.因此,可推測當訓練語料的平均長度較短時,應選用較小或稍大的滑動窗口;而當訓練語料的平均長度較長時,應選用稍大的滑動窗口.實驗中將滑動窗口大小設為8時(CIA-CRF#8),在4個數(shù)據(jù)集上的性能均未達到較優(yōu)的效果,因為較大的滑動窗口會將較多的噪音帶入類卷積注意力向量.所以,實驗中滑動窗口的大小不能設置過大.由于在大部分數(shù)據(jù)集上,窗口大小設為5都取得了較優(yōu)的性能.所以,本文在4個數(shù)據(jù)集上統(tǒng)一選擇窗口大小為5的實驗結果作為性能的對比和相應分析.
2.4.4 交互機制對比分析
為了進一步驗證類卷積交互式注意力機制中交互注意力層的有效性,本文在CIA-CRF的基礎上去掉交互注意力層(CIA-CRF-NOI),實驗結果與CIA-CRF進行對比,如表6所示.
從表6可發(fā)現(xiàn),在CIA-CRF基礎上去掉交互注意力層,在4個數(shù)據(jù)集上性能都出現(xiàn)下降,分別下降了0.94,0.59,0.73,0.6個百分點.可見,交互注意力層有助于屬性詞的預測.原因在于,類卷積注意力層按序(從句首到句尾)通過滑動窗口控制每個詞(目標詞)的上下文詞的數(shù)量,由于滑動窗口的大小固定,且每個目標詞的上下文中與之關聯(lián)密切的詞分布迥異,所以窗口外可能存在與目標詞關聯(lián)密切的詞,類卷積注意力向量可進一步優(yōu)化.在類卷積注意力向量的基礎上,從交互注意力層可獲得對于類卷積注意力向量而言重要的全局信息,從而有助于屬性詞的預測.
Table 6 F1 of Interactive Attention
2.4.5 字符級特征對比分析
為了驗證詞的字符級特征對實驗結果的影響,本文在CIA-CRF的基礎上不使用字符級特征(CIA-CRF-NOC),與使用字符級特征的CIA-CRF進行對比,對比實驗結果如表7所示:
Table 7 F1 of Character Feature
從表7分析可知,在CIA-CRF的基礎上去掉字符級特征,在4個數(shù)據(jù)集上性能均下降,分別下降了0.41,0.29,0.89,0.42個百分點.對于不加入字符級特征的模型CIA-CRF-NOC,未登錄詞的表示采用隨機初始化的方法.若未登錄詞為待抽取的屬性詞或者與屬性詞有重要關聯(lián)的詞,隨機初始化的方法不利于模型對屬性詞的預測.與隨機初始化的方法相比,從未登錄詞的本身獲得的特征表示更有利于模型對未登錄詞的識別,進而有利于屬性詞的預測.表8統(tǒng)計了4個數(shù)據(jù)集中登錄詞和未登錄詞的數(shù)量.
Table 8 Statistics of Login Words and Un-login Words
2.4.6 結合BERT的對比分析
預訓練模型BERT[26]已經(jīng)在多個自然語言處理任務上取得了優(yōu)越性能.鑒于此,本節(jié)在4個數(shù)據(jù)集上使用BERT進行實驗.此外,本節(jié)還將BERT與基線模型BiLSTM+CRF結合(BERT+Baseline).同樣,本節(jié)在BERT+Baseline的基礎上與類卷積交互式注意力機制結合(BERT+Baseline+CIA).基于以上,進行實驗對比,實驗結果如表9所示:
Table 9 F1 of Combining BERT Models
從表9可知,在R-15和R-16數(shù)據(jù)集上,與BERT相比,BERT+Baseline和BERT+Baseline+CIA的性能均下降.結合表3分析可知,R-15和R-16的訓練數(shù)據(jù)較少,而 BERT+Baseline和BERT+Baseline+CIA的模型復雜度較高.對于數(shù)據(jù)量較少的訓練數(shù)據(jù),復雜度較高的模型容易對其產(chǎn)生過擬合,從而測試性能較差.因此,BERT+Baseline和BERT+Baseline+CIA在R-15和R-16數(shù)據(jù)集上,性能均未達到較優(yōu).
相比于R-15和R-16,L-14,R-14的訓練語料的數(shù)據(jù)量較多.在L-14和R-14數(shù)據(jù)集上,與BERT+Baseline相比,BERT+Baseline+CIA的性能分別提升0.4和1.01個百分點.因此,在訓練語料的數(shù)據(jù)量較多的情況下,在BERT+Baseline的基礎上引入類卷積交互式注意力機制,性能可獲得進一步提升,從而也證明了類卷積交互式注意力機制的有效性.
本文提出一種基于類卷積交互式注意力機制的屬性抽取方法.該注意力機制包含2層注意力,第1層是類卷積注意力層,第2層是交互注意力層.相比于全局式注意力機制,類卷積注意力層在滑動窗口內(nèi)為每個詞的上下文分配注意力權重,從而獲得受噪音干擾較小的類卷積注意力向量.在類卷積注意力層降噪的基礎上,通過交互注意力層獲得對于類卷積注意力向量而言重要的全局信息.此外,本文提出的模型融入詞的字符級特征,字符級特征有助于識別未登錄詞,從而有助于屬性詞的預測.實驗證明,本文提出的方法在4個數(shù)據(jù)集上性能均有提升.