王正佳,李 霏,姬東鴻,滕 沖
(武漢大學(xué) 國(guó)家網(wǎng)絡(luò)安全學(xué)院 空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430072)
立場(chǎng)檢測(cè)是指分析確定文本作者對(duì)目標(biāo)(如實(shí)體、事件、觀(guān)點(diǎn)等)的立場(chǎng),通常將立場(chǎng)分為三類(lèi),“支持(favor)”“反對(duì)(against)”和“其他(none)”[1]。該任務(wù)屬于文本分類(lèi)任務(wù),給定目標(biāo)(target)和文本(text),判斷文本作者對(duì)該目標(biāo)的立場(chǎng)(stance)類(lèi)別。立場(chǎng)檢測(cè)是輿情分析中的重要手段。隨著互聯(lián)網(wǎng)的快速發(fā)展,人群越來(lái)越多地在社交媒體平臺(tái)傳播和獲取信息,并針對(duì)于特定熱點(diǎn)發(fā)表看法、表明立場(chǎng)。通過(guò)立場(chǎng)檢測(cè),掌握社交媒體用戶(hù)對(duì)于重要目標(biāo)的立場(chǎng),是輿情風(fēng)險(xiǎn)控制的重要環(huán)節(jié)。比如英國(guó)數(shù)據(jù)公司劍橋分析曾在2016年美國(guó)大選中借助立場(chǎng)檢測(cè)手段判斷選民對(duì)候選人的立場(chǎng),并精準(zhǔn)投放廣告影響選民立場(chǎng)。因此,利用立場(chǎng)檢測(cè)掌握社交媒體上民眾對(duì)于特定事件的立場(chǎng),反制敵對(duì)勢(shì)力的輿論引導(dǎo),關(guān)乎網(wǎng)絡(luò)輿情安全乃至國(guó)家安全。
立場(chǎng)檢測(cè)方法早期主要是基于特征工程的機(jī)器學(xué)習(xí)方法,基于詞向量、詞頻等信息,利用SVM、詞袋模型、隨機(jī)森林、決策樹(shù)等方法進(jìn)行立場(chǎng)分類(lèi)[2-3]。隨著深度學(xué)習(xí)方法的興起,特征提取從人工轉(zhuǎn)為自動(dòng)學(xué)習(xí),基于LSTM,CNN以及基于大規(guī)模預(yù)訓(xùn)練模型的方法取得了相當(dāng)好的效果[4-5]。在特征的選取方面,提取并融合語(yǔ)義特征、情感特征、主題特征是目前主流的模型設(shè)計(jì)思路。通過(guò)特征提取網(wǎng)絡(luò)獲取文本或主題的句向量是諸多方法的基礎(chǔ),如近期采用bert模型獲取文本和主題句向量的方法[6-7]。通常獲取bert句向量有兩種手段,其一使用bert特殊符號(hào)[CLS]的隱層狀態(tài)作為句向量,該符號(hào)為bert自帶添加于句首,包含一定的全句信息;其二則將句子中每個(gè)詞對(duì)應(yīng)的bert隱層狀態(tài)進(jìn)行融合,如對(duì)每個(gè)詞隱層狀態(tài)求平均作為句向量。
提示學(xué)習(xí)是自然語(yǔ)言處理最近興起的方法,通過(guò)在輸入中添加若干提示(prompt),提高預(yù)訓(xùn)練模型的性能[8-10]。與過(guò)去的微調(diào)(tuning)方法不同,思路上提示學(xué)習(xí)方法不再是讓模型去適應(yīng)任務(wù),而是通過(guò)構(gòu)造合適的提示使任務(wù)向模型靠攏,保留原有的分類(lèi)器。提示學(xué)習(xí)方法發(fā)揮預(yù)訓(xùn)練模型自身學(xué)習(xí)的知識(shí),通過(guò)提示引入語(yǔ)義引導(dǎo)模型生成結(jié)果,或者配合提示進(jìn)行微調(diào)訓(xùn)練。掩碼語(yǔ)言模型(Masked Language Model,MLM)是提示學(xué)習(xí)中常用的預(yù)訓(xùn)練模型類(lèi)型(如bert模型)[11-12],通?;贛LM的提示學(xué)習(xí)提示模板中只有一個(gè)掩碼位置,然而中文詞匯或詞組常常超過(guò)一個(gè)字(詞),無(wú)法全部填入掩碼位置,因此常常只將第一個(gè)字(詞)填入。比如,“作者的態(tài)度是__。”,假如態(tài)度是“支持”,由bert分詞器分詞后包含兩個(gè)字“支”和“持”,只有一個(gè)掩碼位置,則通常只填入第一個(gè)字“支”,但僅填入一個(gè)字不利于形成通順語(yǔ)義。
針對(duì)前文所述要點(diǎn),該文提出了基于多掩碼與提示句向量融合分類(lèi)立場(chǎng)檢測(cè)模型。首先,對(duì)句向量的生成方法進(jìn)行改進(jìn),構(gòu)造提示模板利用bert生成句向量;其次,在結(jié)構(gòu)上進(jìn)行創(chuàng)新,設(shè)計(jì)了多掩碼提示學(xué)習(xí)分類(lèi)結(jié)構(gòu),支持多字填入,并構(gòu)造合適的模板將提示句向量和多掩碼提示學(xué)習(xí)相結(jié)合,提示句向量專(zhuān)注于對(duì)文本語(yǔ)義的聚合,通過(guò)訓(xùn)練新分類(lèi)器對(duì)立場(chǎng)進(jìn)行隱式的分類(lèi),多掩碼提示學(xué)習(xí)分類(lèi)利用具體的答案器,顯式判斷立場(chǎng),同時(shí)答案詞能為句向量引入立場(chǎng)詞信息,加強(qiáng)句向量與具體的如“支持”等立場(chǎng)詞的聯(lián)系。在NLPCC中文立場(chǎng)分類(lèi)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。與相關(guān)基線(xiàn)模型相比,該方法效果明顯,取得了79.3的總F1值,與最優(yōu)方法接近。
2016年Mohanmmad等[13]從推特上收集文本構(gòu)建了立場(chǎng)檢測(cè)英文數(shù)據(jù)集,SemEval-2016 Task6立場(chǎng)檢測(cè)任務(wù)使用了該數(shù)據(jù)集作為任務(wù)數(shù)據(jù)集。Xu等[1]構(gòu)建了基于中文微博文本的立場(chǎng)檢測(cè)數(shù)據(jù)集,并發(fā)布于NLPCC-2016會(huì)議的立場(chǎng)檢測(cè)任務(wù)。
早期的立場(chǎng)檢測(cè)方法基于特征工程利用機(jī)器學(xué)習(xí)方法進(jìn)行分類(lèi)。Dian等[2]提出基于多文本特征融合的立場(chǎng)檢測(cè)方法,綜合詞袋特征、共現(xiàn)特征、詞向量等多種特征信息,利用支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林等多種方法進(jìn)行立場(chǎng)分類(lèi)。在Zhang等[3]的工作中,提取了情感詞和主題詞作為特征詞,再利用對(duì)應(yīng)的詞向量使用SVM進(jìn)行分類(lèi)。
深度學(xué)習(xí)興起后利用深度網(wǎng)絡(luò)提取特征進(jìn)行立場(chǎng)檢測(cè)成為主流。Bai等[4]設(shè)計(jì)了基于雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory Network,BiLSTM)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行特征提取,經(jīng)過(guò)注意力池化,再連接特征嵌入進(jìn)行特征融合并分類(lèi)的方法。Du等[5]提出了特定目標(biāo)的注意力網(wǎng)絡(luò)立場(chǎng)檢測(cè)方法,利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)編碼文本,訓(xùn)練目標(biāo)特征嵌入,將文本與目標(biāo)信息進(jìn)行內(nèi)積計(jì)算融合特征,訓(xùn)練分類(lèi)器分類(lèi)。預(yù)訓(xùn)練模型出現(xiàn)后相關(guān)方法取得了更好的效果,由bert生成的句向量相比此前的RNN相關(guān)方法優(yōu)勢(shì)明顯。Wang等[6]設(shè)計(jì)的Bert-Condition-CNN模型采用bert的[CLS]作為句向量,構(gòu)建話(huà)題集與句向量間的關(guān)系矩陣,用CNN提取特征,對(duì)立場(chǎng)進(jìn)行分類(lèi)。Geng等[7]利用bert獲取話(huà)題和文本表示向量,其中話(huà)題句向量由詞隱層狀態(tài)平均得到,并用卷積注意力融合特征,提取文本的詞語(yǔ)級(jí)與句子級(jí)情感特征,將特征拼接進(jìn)行分類(lèi),取得了NLPCC2016數(shù)據(jù)集上目前的最佳結(jié)果。
提示學(xué)習(xí)方法通過(guò)合適的提示將下游任務(wù)轉(zhuǎn)化為適合模型的形式,通常無(wú)需訓(xùn)練新分類(lèi)器,可以在原分類(lèi)器上微調(diào),在監(jiān)督任務(wù)以及少樣本、零樣本任務(wù)中均有不錯(cuò)的表現(xiàn)[8]。在提示形式方面,Petroni等[11]提出的LAMA模型定義了完形填空形式的提示模板,Li等[14]使用了前綴形式的提示;在答案設(shè)計(jì)方面,Schick等[12]使用了人工設(shè)計(jì)的答案器(verbalizer),Hambardzumyan等[15]提出的WARP框架則使用了新定義的一組嵌入作為答案器。掩碼語(yǔ)言模型(Masked Language Model,MLM)是語(yǔ)言模型的一種,最具有代表性的是bert模型[16],在預(yù)訓(xùn)練過(guò)程中語(yǔ)料被隨機(jī)掩蔽部分位置,再由模型還原。單向生成語(yǔ)言模型(Left-to-Right LM,如GPT-3模型[10])、編解碼結(jié)構(gòu)語(yǔ)言模型(Encoder-Decoder LM,如T5模型[17])、前綴語(yǔ)言模型(Prefix LM,如UniLM1模型[18])也廣泛應(yīng)用于提示學(xué)習(xí)。該文使用了完形填空形式的提示模板以及人工設(shè)計(jì)的答案器。
對(duì)于立場(chǎng)檢測(cè)任務(wù),輸入是一個(gè)數(shù)據(jù)集D={(x1,t1),(x2,t2),…,(xn,tn)},x表示一個(gè)句子,t表示特定目標(biāo),D包含n個(gè)樣本;對(duì)于每一個(gè)樣本,輸出該文本x對(duì)于目標(biāo)t的立場(chǎng)標(biāo)簽y,其中y∈Y={favor,against,none},依次表示“支持”“反對(duì)”和“其他”三種類(lèi)別。例如對(duì)于句子“春節(jié)放鞭炮污染環(huán)境,建議禁止”和目標(biāo)“春節(jié)放鞭炮”,應(yīng)輸出立場(chǎng)y=against。
如圖1所示,多掩碼與提示句向量融合立場(chǎng)檢測(cè)模型由四層組成。輸入層輸入文本(text)和目標(biāo)(target);提示層是一個(gè)經(jīng)過(guò)設(shè)計(jì)的提示模板,將文本和目標(biāo)填入,并包含若干掩碼位置[mask];bert編碼層得到模板填入內(nèi)容后的句子,在每個(gè)詞的位置進(jìn)行編碼;融合分類(lèi)層包括三個(gè)部分,圖1左側(cè)的bert提示句向量分類(lèi),由新訓(xùn)練的分類(lèi)器分類(lèi);右側(cè)通過(guò)答案器進(jìn)行分類(lèi),不需要訓(xùn)練新分類(lèi)器;最后由中間的融合概率分類(lèi)部分對(duì)句向量分類(lèi)和答案器分類(lèi)結(jié)果進(jìn)行融合,計(jì)算損失聯(lián)合優(yōu)化模型。
圖1 多掩碼與提示句向量融合立場(chǎng)檢測(cè)模型
提示層由一個(gè)完形填空形式的提示模板構(gòu)成,如圖1所示。模板中的[text]和[target]位置對(duì)應(yīng)填入數(shù)據(jù)樣本中的文本和目標(biāo)。
在“句子“[text]”的含義是[mask]”這一句中,[mask]掩碼位置用于句向量的生成,提示模板要求模型在[mask]處總結(jié)句子含義,以此生成能夠代表[text]語(yǔ)義的句向量。
在“對(duì)于主題“[target]”表達(dá)了[mask][mask]態(tài)度”這一句中,兩個(gè)[mask]掩碼位置對(duì)應(yīng)于答案器中的答案詞,如“反”和“對(duì)”。
由于bert模型在其注意力部分允許模型同時(shí)看到前后所有位置的信息,因此句向量生成位置雖然在前,也能夠捕獲主題信息和答案器引入的信息。
該文使用預(yù)訓(xùn)練模型bert作為提示學(xué)習(xí)框架中的掩碼語(yǔ)言模型。對(duì)于句子x,由bert分詞器對(duì)x進(jìn)行分詞,得到n個(gè)單詞,并自動(dòng)在句子頭尾分別添加[CLS]和[SEP]特殊符,得到x'。將分詞處理后的句子輸入bert模型,bert模型對(duì)上下文信息進(jìn)行綜合,在每一個(gè)詞的位置計(jì)算隱層表示,得到全句編碼H:
H=BERT(x')
(1)
其中,H={H0,H1,…,Hn+1}。bert包括多個(gè)隱層,對(duì)于第i位置的詞,其對(duì)應(yīng)的隱層可以表示為Hi={h0,h1,…,hj},j表示有j層隱藏狀態(tài)。
2.5.1 bert提示句向量分類(lèi)
如圖1,在第一個(gè)[mask]位置獲取bert提示句向量。此位置通過(guò)提示模板的構(gòu)造,引導(dǎo)模型概括句子含義。相比于采用[CLS]隱藏狀態(tài)的方法,提示句向量語(yǔ)義指向性更強(qiáng);而相比于對(duì)句子所有詞的隱藏表示取平均的做法,bert提示句向量利用了模型自身的注意力機(jī)制,避免了簡(jiǎn)單平均造成的重要信息權(quán)重不足。該bert提示句向量記為s0,s0由隱藏狀態(tài)的后k層求平均獲得,即:
(2)
其中,hi∈H0,k≤j。該文采用了k=4,即后四層隱藏狀態(tài)的平均。
如圖2所示,提示句向量由bert在圖中第一個(gè)[mask]位置給出,bert聯(lián)系上下文綜合文本、目標(biāo)和立場(chǎng)詞信息,將特征融合。圖2中的模板是簡(jiǎn)略示意,實(shí)際模板是符合語(yǔ)義的完整句子(如圖1),相比于簡(jiǎn)單拼接,使用提示模板能夠降低模型的困惑。
圖2 提示句向量的原理示意圖
該文采用了一個(gè)雙層前向神經(jīng)網(wǎng)絡(luò)(Feed Forward Neural Networks,FFNN)作為分類(lèi)器,將bert提示句向量輸入分類(lèi)器得到句向量分類(lèi)概率分布p0,即:
o=relu(W0·s0+b0)
(3)
p0=softmax(W1·o+b1)
(4)
其中,W0,b0和W1,b1分別表示第一層與第二層的矩陣與偏置,使用了relu激活函數(shù)。
2.5.2 多掩碼提示學(xué)習(xí)分類(lèi)
定義2:提示模板T(·),將x映射到帶有若干掩碼位置的完形填空句子中。一個(gè)模板可以有多個(gè)文本填充位置,T(·)的輸入可能是多個(gè)句子,如圖1。
前文所引彭紹升《儒行述》中的徐枋小傳,在其篇末是這樣表明史源的:“《居易堂集》《蘇州府志》?!笔莿t,傳主的自我人生選擇,特別是詩(shī)文集中的自我抒懷和陳情,對(duì)身后為其寫(xiě)作傳記、行狀者,還是起著至關(guān)重要的作用的。對(duì)此,徐枋本人是深信不疑的,這在其自編《居易堂集》的時(shí)候,就表現(xiàn)得尤為突出,在《自序》中,他這樣說(shuō)道:
定義3:答案器v(·),將分類(lèi)標(biāo)簽y映射到具體的詞組上,經(jīng)過(guò)分詞后詞數(shù)量可能大于1,因此定義v(y)={w1,w2,…,wm},m的大小也對(duì)應(yīng)于模板中掩碼的數(shù)量,用vk(y)表示wk,wk∈v(y),即v(y)中第k個(gè)單詞。以圖1中后半句為例,由于bert按單個(gè)漢字分詞,v(y=favor)={支,持},長(zhǎng)度為2即m=2,對(duì)應(yīng)有v1(y=favor)=w1=支,v2(y=favor)=w2=持。不同標(biāo)簽對(duì)應(yīng)的答案詞分詞后長(zhǎng)度不一致,則使用填充符補(bǔ)足長(zhǎng)度。對(duì)于不同類(lèi)別答案器的詞組確保是不同的。
圖3給出了單獨(dú)使用的多掩碼提示學(xué)習(xí)分類(lèi)示意圖,與圖1比較,多掩碼提示學(xué)習(xí)分類(lèi)與提示句向量分類(lèi)能夠自然地結(jié)合。
圖3 多掩碼提示學(xué)習(xí)分類(lèi)示意圖
對(duì)于掩碼位置k,分類(lèi)標(biāo)簽為y的概率可以表示為:
(5)
該過(guò)程使用模型本身的分類(lèi)器,無(wú)需訓(xùn)練新分類(lèi)器,記bert分類(lèi)器為bert_cf。記fv(·)表示根據(jù)答案器v(·)所定義的字選取這些字對(duì)應(yīng)位置的值,如圖3中答案器所示,fv(·)從詞表概率分布中選出答案詞對(duì)應(yīng)的字的概率,以此作為分類(lèi)依據(jù)。向bert分類(lèi)器輸入最后一層隱藏狀態(tài),同2.4節(jié),將圖1中后兩個(gè)掩碼位置概率分布分別記為p1,p2,可得:
p1=softmax(fv(bert_cf(H1[-1])))
(6)
p2=softmax(fv(bert_cf(H2[-1])))
(7)
顯然不同的[mask]位置都可以獨(dú)立完成分類(lèi)。
2.5.3 融合概率分類(lèi)
(8)
(9)
訓(xùn)練時(shí)采用交叉熵函數(shù)對(duì)模型參數(shù)φ進(jìn)行優(yōu)化:
(10)
提示句向量分類(lèi)器與bert指定不同的學(xué)習(xí)率進(jìn)行訓(xùn)練,通常提示學(xué)習(xí)中微調(diào)bert學(xué)習(xí)率設(shè)置較小。
采用了立場(chǎng)檢測(cè)中文數(shù)據(jù)集NLPCC2016[1]對(duì)文中方法進(jìn)行實(shí)驗(yàn)測(cè)試,包括了5個(gè)目標(biāo)上的總計(jì)4 000條已標(biāo)注立場(chǎng)類(lèi)別的中文微博文本數(shù)據(jù),并劃分了其中3 000條作為訓(xùn)練集,1 000條作為測(cè)試集。數(shù)據(jù)集統(tǒng)計(jì)信息如表1,括號(hào)內(nèi)為目標(biāo)的簡(jiǎn)寫(xiě),與后文實(shí)驗(yàn)表格對(duì)應(yīng)。
表1 NLPCC2016數(shù)據(jù)集統(tǒng)計(jì)信息
文中方法的實(shí)現(xiàn)使用了Pytorch[19]和Huggingface Transformers工具[20]。掩碼語(yǔ)言模型選擇了bert[16]模型(bert-base-chinese),該模型由12層transformer[21]編碼器組成,詞向量維度768。提示句向量分類(lèi)器維度為768*768*3。模型訓(xùn)練優(yōu)化使用了SGD優(yōu)化器。對(duì)于句向量分類(lèi)器學(xué)習(xí)率設(shè)置為0.01,bert的參數(shù)學(xué)習(xí)率設(shè)置為5e-4。將訓(xùn)練集的15%作為驗(yàn)證集選取最佳模型,對(duì)不同目標(biāo)的樣本單獨(dú)訓(xùn)練模型。提示模板、答案器設(shè)置如圖1。
機(jī)器學(xué)習(xí)方法:
Dian[2]:該方法基于詞頻統(tǒng)計(jì)的特征和文本深度特征,使用支持向量機(jī),隨機(jī)森林和梯度提升決策樹(shù)對(duì)特征進(jìn)行立場(chǎng)分類(lèi)。
深度學(xué)習(xí)方法:
CBL[22]:CNN-BiLSTM模型,CNN提取文本向量的局部特征,BiLSTM網(wǎng)絡(luò)提取文本的全局特征,兩者結(jié)合進(jìn)行立場(chǎng)檢測(cè)。
TAN[5]:該模型通過(guò)BiLSTM網(wǎng)絡(luò)與注意力機(jī)制提取文本與目標(biāo)之間的特征信息,實(shí)現(xiàn)了基于特定目標(biāo)的注意力深度分類(lèi)網(wǎng)絡(luò)。
BGA[23]:基于GCN(卷積圖網(wǎng)絡(luò))與BiLSTM,BiLSTM捕獲句子的特征,根據(jù)依存句法樹(shù)建立GCN,結(jié)合注意力得分進(jìn)行分類(lèi)。
CTB[24]:基于bert編碼文本和話(huà)題,將兩者拼接,并引入情感分類(lèi)輔助任務(wù)。
BCC[6]:該模型對(duì)微博文本進(jìn)行主題短語(yǔ)提取來(lái)擴(kuò)充目標(biāo)話(huà)題,利用Bert模型獲取文本的句向量,構(gòu)建話(huà)題集合與文本句向量間的Condition層關(guān)系矩陣,用CNN提取特征,對(duì)立場(chǎng)類(lèi)別進(jìn)行分類(lèi)。
BSECA[7]:該模型基于bert句向量,利用卷積注意力對(duì)文本和話(huà)題進(jìn)行信息提取,融合詞語(yǔ)級(jí)和句子級(jí)情感表示,形成最終的語(yǔ)義表示檢測(cè)文本立場(chǎng)。該模型額外使用了微博情感數(shù)據(jù)集訓(xùn)練情感分類(lèi)器。
按照此前的中文立場(chǎng)檢測(cè)研究的評(píng)價(jià)指標(biāo)慣例,對(duì)于特定目標(biāo),對(duì)支持和反對(duì)兩個(gè)類(lèi)別計(jì)算F1值,取二者平均作為該目標(biāo)上的評(píng)價(jià)指標(biāo):
(11)
總評(píng)價(jià)指標(biāo)使用各個(gè)目標(biāo)上F1的算術(shù)平均值:
(12)
其中,c表示目標(biāo)類(lèi)別的數(shù)量,近年來(lái)的中文立場(chǎng)檢測(cè)相關(guān)研究使用了式12衡量總體效果,與NLPCC立場(chǎng)檢測(cè)任務(wù)[1]評(píng)價(jià)指標(biāo)設(shè)置一致。
本節(jié)表中PBMSV(Prompt Bert with Multi-mask and Sentence Vector)表示該文提出的多掩碼與提示句向量融合立場(chǎng)檢測(cè)模型。
表2給出了文中方法與相關(guān)對(duì)比方法在NLPCC中文數(shù)據(jù)集上對(duì)五個(gè)目標(biāo)的數(shù)據(jù)單獨(dú)訓(xùn)練模型的實(shí)驗(yàn)結(jié)果。
表2 NLPCC中文數(shù)據(jù)集五個(gè)目標(biāo)單獨(dú)訓(xùn)練(F1)
從表2可以看出,在該中文數(shù)據(jù)集上五個(gè)目標(biāo)分開(kāi)單獨(dú)訓(xùn)練的實(shí)驗(yàn)中,PBMSV模型在五個(gè)目標(biāo)中有兩個(gè)目標(biāo)取得了最好的F1值,并取得了接近最優(yōu)的總F1值。相較于采用機(jī)器學(xué)習(xí)方法以及BiLSTM獲取句子信息的Dian,TAN,CBL,BGA方法,采用bert生成句向量特征的方法總F1提高較多,表現(xiàn)出bert預(yù)訓(xùn)練模型在特征提取方面的顯著優(yōu)勢(shì)。采用bert進(jìn)行編碼的方法中,BCC對(duì)數(shù)據(jù)進(jìn)行充分清洗,采用condition層和CNN進(jìn)一步融合特征,相比此前的方法優(yōu)勢(shì)明顯。
BSECA設(shè)計(jì)了更為復(fù)雜的特征提取網(wǎng)絡(luò),并且利用了額外的微博情感數(shù)據(jù)集訓(xùn)練單獨(dú)模型引入情感信息,大幅提高了此前的結(jié)果。PBMSV方法利用了新的提示句向量代替此前的[CLS]或平均句向量方法,利用多掩碼提示學(xué)習(xí)分類(lèi)和提示句向量相結(jié)合的方法,提高句向量生成質(zhì)量,思路上既融合了目標(biāo)和文本語(yǔ)義,又利用句向量和人工答案器提示學(xué)習(xí)相結(jié)合將“支持”“反對(duì)”等具體的立場(chǎng)詞信息引入,實(shí)驗(yàn)結(jié)果在兩個(gè)目標(biāo)上超過(guò)了BSECA方法,一個(gè)目標(biāo)F1相同,取得79.3的平均F1值。考慮BSECA方法使用了額外的微博情感數(shù)據(jù)集訓(xùn)練情感特征提取模型,文中方法效果上與之接近。
為驗(yàn)證PBMSV模型中各個(gè)模塊的有效性,設(shè)計(jì)了六個(gè)消融對(duì)比實(shí)驗(yàn),比較各個(gè)模塊的作用。
PBMSV:主要包括提示句向量(Prompt Sentence Vector,PSV)、多掩碼提示學(xué)習(xí)(Prompt with Multi-mask)和融合分類(lèi)(fusion classification,fc)三個(gè)部分。
-fc:去掉融合分類(lèi),將句向量分類(lèi)損失和答案器兩掩碼位置損失相加進(jìn)行優(yōu)化,分類(lèi)由句向量分類(lèi)器完成。
-PSV:去掉提示句向量,重新設(shè)計(jì)提示模板,掩碼位置損失相加進(jìn)行優(yōu)化,分類(lèi)由答案器首位置完成。
-PM:去掉多掩碼的答案器提示學(xué)習(xí)分類(lèi),保持提示模板不變,由句向量分類(lèi)器完成分類(lèi)。
PBSV:由圖1中的模板前半句生成提示句向量,再將目標(biāo)輸入bert模型取[CLS]隱藏狀態(tài)獲得目標(biāo)句向量,將二者拼接輸入分類(lèi)器。
BERT [CLS]:分別將文本和目標(biāo)輸入bert,它們各自的[CLS]隱藏狀態(tài)作為文本和目標(biāo)的句向量,將二者拼接輸入分類(lèi)器。
BERT avg.:分別將文本和目標(biāo)輸入bert,取它們各自每個(gè)詞的最后一層隱藏狀態(tài)平均值作為文本和目標(biāo)的句向量,將二者拼接輸入分類(lèi)器。
從表3可以看出,兩種BERT基礎(chǔ)句向量實(shí)驗(yàn)與PBSV比較,結(jié)構(gòu)基本一致,區(qū)別在于PBSV使用了提示句向量,PBSV的F1值略高表明了提示句向量在特征提取方面有一定的提升效果。-PM和PBSV比較,兩者差距不大,表明了使用模板引入目標(biāo)信息與直接拼接目標(biāo)句向量效果接近,而使用模板降低了分類(lèi)器維度,參數(shù)量更少。-PSV只使用多掩碼提示學(xué)習(xí)方法,取得了77.1的F1值,效果出色,相比于4.1節(jié)中的多數(shù)方法取得領(lǐng)先。PBMSV比-fc效果更好,驗(yàn)證了融合多個(gè)分類(lèi)結(jié)果優(yōu)化損失的有效性。相比于BERT [CLS]和BERT avg.,PBMSV分別取得了8.4%和9.5%的提高。
表3 NLPCC中文數(shù)據(jù)集上的消融實(shí)驗(yàn)(Avg. F1)
該文提出了一種基于多掩碼與提示句向量融合分類(lèi)的立場(chǎng)檢測(cè)模型(PBMSV)。該模型中對(duì)句向量的生成進(jìn)行了改進(jìn),采用提示學(xué)習(xí)思想,構(gòu)造語(yǔ)義通順的模板融合文本、目標(biāo)和立場(chǎng)詞信息,幫助bert生成更好的句向量進(jìn)行分類(lèi);采用模板-答案器結(jié)構(gòu)的多掩碼提示學(xué)習(xí)分類(lèi)方法,使用bert自身分類(lèi)器獲取詞表概率分布,由答案器分類(lèi),與提示句向量配合,在結(jié)構(gòu)上進(jìn)行創(chuàng)新改進(jìn);融合句向量分類(lèi)結(jié)果和答案器分類(lèi)結(jié)果,聯(lián)合優(yōu)化模型,完成立場(chǎng)檢測(cè)分類(lèi)。在NLPCC2016中文立場(chǎng)檢測(cè)數(shù)據(jù)集上的相關(guān)實(shí)驗(yàn)證明了PBMSV模型的有效性,并驗(yàn)證了提示句向量的效果。
現(xiàn)有研究大多采用bert生成特征,再進(jìn)一步通過(guò)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)相關(guān)特征進(jìn)行融合和分類(lèi)。而提示學(xué)習(xí)方法著重于發(fā)揮預(yù)訓(xùn)練模型知識(shí),利用提示幫助模型完成下游任務(wù)。除監(jiān)督方法之外,提示學(xué)習(xí)方法在少樣本場(chǎng)景下也表現(xiàn)出色。在未來(lái)的工作中,將進(jìn)一步地研究提示學(xué)習(xí)在立場(chǎng)檢測(cè)中的應(yīng)用,還將探索少樣本場(chǎng)景、遷移場(chǎng)景的立場(chǎng)檢測(cè)。