王天宇,張麗珩,臧天昊,文一涵
(1.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,北京100124;2.北京工業(yè)大學(xué)軟件學(xué)院,北京100124)
文本情感分析是自然語(yǔ)言處理的一個(gè)重要的研究方向,由于一詞多義、情感轉(zhuǎn)折、反語(yǔ)等現(xiàn)象的存在,導(dǎo)致情感分析較為困難,模型分類效果不理想。而新聞作為一種記錄與傳播信息的文體,不但篇幅較長(zhǎng),情感的表達(dá)也較為分散。文本中既有客觀的事實(shí)報(bào)道,也有主觀的情感表達(dá),一個(gè)主觀句中也可能含有多種情感,這使得新聞文本情感分析成為更具挑戰(zhàn)性的任務(wù)。由于新聞文本較長(zhǎng),大多需要對(duì)其內(nèi)容進(jìn)行精簡(jiǎn),以便進(jìn)一步分析。目前的工作的降維方法對(duì)于標(biāo)題和正文各有側(cè)重,但大多沒(méi)有綜合二者考量。此外,融合知識(shí)圖譜的方法在短文本的情感分析中已經(jīng)證明其有效性,但是目前有關(guān)新聞情感分析的工作大多忽略了外部知識(shí)的輔助作用。
針對(duì)目前工作存在的不足,本文以網(wǎng)絡(luò)新聞為研究對(duì)象,創(chuàng)新性地提出了基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型分類方法。該方法借助Trans?former的Seq2Seq結(jié)構(gòu),從根本上將新聞分為標(biāo)題和正文兩個(gè)獨(dú)立的部分考慮,既突出了新聞標(biāo)題的特殊地位,又可以較為全面地把握正文信息。同時(shí),通過(guò)知識(shí)圖譜引入的外部信息,改善了文本信息缺失和二義性等問(wèn)題。結(jié)果表明,該模型可以有效提升情感分析的正確性,且知識(shí)圖譜是提升新聞文本情感分析模型性能的有效手段。
文本的情感分析技術(shù)有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三大類。
情感詞典是一種判斷情感傾向性的傳統(tǒng)方法,其依賴于人工總結(jié)的情感用詞,通過(guò)文本用詞與情感詞典的比對(duì)來(lái)總體把握文本的情感傾向。顯而易見的是,詞典中有限列舉的情感用詞,既不能全面地表征情感用詞在不同語(yǔ)境下的語(yǔ)義差別,也無(wú)法應(yīng)對(duì)隨著時(shí)代發(fā)展而快速演變的用詞習(xí)慣。盡管學(xué)者們以情感詞典為基礎(chǔ),嘗試了結(jié)合搜索引擎拓展詞典,針對(duì)語(yǔ)義層次設(shè)定不同判斷標(biāo)準(zhǔn),在情感詞典中加入表情符號(hào)等多種手段[1-2],但文本情感分析效果并不理想。
機(jī)器學(xué)習(xí)方法在分類任務(wù)中已有廣泛的應(yīng)用,并同樣適用于情感的分類任務(wù)。特征工程是分類任務(wù)的關(guān)鍵,目前常用的分類特征有:情感詞、詞性、句法結(jié)構(gòu)、否定表達(dá)模板、連接、語(yǔ)義話題等[3],采用文本頻率、CHI統(tǒng)計(jì)量、互信息、信息增益等方法進(jìn)行特征選擇[4],并使用樸素貝葉斯、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等作為分類器?;跈C(jī)器學(xué)習(xí)的方法,相較基于情感詞典的方法具有更強(qiáng)的泛化能力,但其分類效果受特征工程的構(gòu)建影響較大,構(gòu)建的特征無(wú)法表示復(fù)雜語(yǔ)義,且需要人工進(jìn)行數(shù)據(jù)標(biāo)注,工作量較大。
深度學(xué)習(xí)方法與以上兩類方法相比,具有明顯的優(yōu)勢(shì)。這種方法可以自動(dòng)完成文本特征的抽取和學(xué)習(xí),所學(xué)習(xí)到的特征也更加復(fù)雜,可以提高文本分類的正確性。Xu等[5]對(duì)LSTM模型進(jìn)行改進(jìn),提出了CLSTM模型,對(duì)Context-Level詞向量序列進(jìn)行情感預(yù)測(cè),進(jìn)一步提升了情感極性判斷的正確性。梁斌等[6]提出了基于詞向量注意力機(jī)制,詞性注意力機(jī)制和位置注意力機(jī)制的多注意卷積模型,改善了模型應(yīng)對(duì)情感反轉(zhuǎn)的能力。
新聞文本情感分析不同于一般性文本,由于其篇幅較長(zhǎng)而存在大量無(wú)情感流露的中立表達(dá),因此,在進(jìn)行情感分析前大多需要對(duì)文本內(nèi)容進(jìn)行精簡(jiǎn)。目前主要有提取文本子集和標(biāo)題情感分析兩種思路:馮亮祖[7]構(gòu)建了情感關(guān)鍵句抽取算法,在得到的關(guān)鍵句集合的基礎(chǔ)上使用CHI統(tǒng)計(jì)法構(gòu)建特征向量,并進(jìn)一步訓(xùn)練了神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)作為分類器。李天賜等[8]將新聞標(biāo)題作為全文的代表,并將標(biāo)題分為兩個(gè)半句,構(gòu)建了前半句、后半句和全標(biāo)題三輸入通道卷積神經(jīng)網(wǎng)絡(luò)。以上兩種方法各有側(cè)重,但均沒(méi)有將標(biāo)題與正文綜合考量。
綜上所述,結(jié)合注意力機(jī)制的深度學(xué)習(xí)模型是解決長(zhǎng)文本情感分類的較為有效的處理手段。目前,有關(guān)新聞文本情感分析的工作大多缺乏對(duì)新聞結(jié)構(gòu)的考量,也沒(méi)有借助外部知識(shí)輔助情感分析。本文針對(duì)以上問(wèn)題提出基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型,改善了情感分析模型性能。
其中n為全部重點(diǎn)句包含的詞語(yǔ)數(shù)。
其中W3∈Rd×q,b3∈Rq,q為情感傾向性類別數(shù)。
圖1基于Transformer的情感分析模型結(jié)構(gòu)
在前人工作的基礎(chǔ)上,本文構(gòu)建了融合關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征和新聞標(biāo)題相關(guān)性特征的情感重點(diǎn)句抽取算法。通過(guò)對(duì)上述特征評(píng)價(jià)指標(biāo)加權(quán)求和,得到綜合評(píng)價(jià)分?jǐn)?shù),由此衡量各句的重要程度,以便提取重點(diǎn)句,從而降低文本緯度、減少噪音。
首先,對(duì)語(yǔ)料進(jìn)行了分句、分詞和詞性篩選處理,刪除了連詞、擬聲詞、介詞、代詞、數(shù)詞、助詞等對(duì)文本情感分析無(wú)意義的詞匯。其中分句的依據(jù)為中文常用標(biāo)點(diǎn)符號(hào),分詞與詞性篩選使用了Python語(yǔ)言編寫的jieba分詞工具。
本文使用了前人提出的關(guān)鍵詞特征計(jì)算方法[11],由于新聞?dòng)迷~豐富,可能出現(xiàn)一些分詞詞典以外的詞語(yǔ),為避免遺漏首先使用TF-IDF算法得到新聞的關(guān)鍵詞,記為ipw1,詞頻記為tf1,其對(duì)應(yīng)的集合記為關(guān)鍵詞表IP W1,而后使用N-Gram新詞發(fā)現(xiàn)算法,發(fā)現(xiàn)的新關(guān)鍵詞記為ipw2,詞頻記為tf2,其對(duì)應(yīng)的集合記為關(guān)鍵詞表IPW2。用于關(guān)鍵詞ipw2可能包含ipw1,因此,還需根據(jù)IPW2對(duì)IPW1進(jìn)行更新,再將兩個(gè)關(guān)鍵詞表融合得到最終的關(guān)鍵詞表IPWfinal,具體生成算法如下所示。
在得到新聞文本的關(guān)鍵詞表IPWfinal后,對(duì)其賦權(quán)以體現(xiàn)重要性的不同。首尾句子數(shù)φ確定方法為:φ=0.04m+2。其中m為文章中句子總數(shù)。各關(guān)鍵詞的權(quán)重設(shè)置如關(guān)鍵詞權(quán)重表(表1)所示。若同一個(gè)關(guān)鍵詞在文章中不同位置出現(xiàn),則取其權(quán)重最高值。最后,得出文章中各句關(guān)鍵詞特征值:
表1不同位置關(guān)鍵詞權(quán)重
按文本位置來(lái)說(shuō),新聞的開頭導(dǎo)語(yǔ)與結(jié)尾總結(jié)部分往往包含與主題相關(guān)的重點(diǎn)信息、作者觀點(diǎn)以及情感傾向。即在文章開篇提出包含重要信息的提要,中部陳述新聞事實(shí),在文章結(jié)尾集中發(fā)表觀點(diǎn)與態(tài)度[12]。因此,文章開頭與結(jié)尾的句子在情感分析中往往更為重要,由此不同位置的句子需要計(jì)算其重要性,即:
其中si表示新聞文本的第i句句子,m為該文本的句子總數(shù)。
作者在表達(dá)情感時(shí)可能出現(xiàn):“因此”、“可以預(yù)見”、“不難看出”等流露傾向性的線索詞,參照以往工作提出的線索詞表可以構(gòu)造各句傾向性表述程度計(jì)算公式[11],如下式所示。
一般來(lái)說(shuō),句子中包含的情感詞越多,其表達(dá)的情感傾向越強(qiáng)烈。本研究使用中國(guó)知網(wǎng)HowNet與清華大學(xué)李軍的中文褒貶義詞典作為漢語(yǔ)情感詞典,根據(jù)句子所包含的情感詞來(lái)衡量句子情感的表達(dá)程度,其衡量指標(biāo)為fewf(si),即:
其中 |h|為標(biāo)題所含詞語(yǔ)數(shù),|si|為第i句所含詞語(yǔ)數(shù)。
最后,在以上計(jì)算的基礎(chǔ)上通過(guò)計(jì)算二者的余弦相似度f(wàn)tf(si),即:
得到標(biāo)題相關(guān)性特征,其中w2v(h)為標(biāo)題的向量表示,w2v(si)為句子的向量表示。
在上文中,分別考量了關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征以及標(biāo)題相關(guān)性特征,現(xiàn)在,以加權(quán)求和的方式對(duì)這些特征進(jìn)行融合,獲得文章中句子si最終重要性評(píng)分fweight,即:
其中λ代表各特征權(quán)重,其總和為1。
上述5個(gè)特征權(quán)重的取值,如特征權(quán)重表(表2)所示。通過(guò)對(duì)各句重要程度的量化計(jì)算,可以按fweight值從高到低選取適當(dāng)數(shù)量的句子,來(lái)作為一篇新聞的情感重點(diǎn)句集,以實(shí)現(xiàn)文本的降維。
表2本文五個(gè)特征值的權(quán)重
在文本信息中引入知識(shí)圖譜可以增加外部知識(shí),豐富情感重點(diǎn)句的文本特征,在一定程度上可以提高情感分析的效果。因此,本文使用ConceptNet 5的中文部分作為知識(shí)圖譜。ConceptNet是常識(shí)知識(shí)庫(kù),由RDF三元組形式的關(guān)系型知識(shí)構(gòu)成,節(jié)點(diǎn)與節(jié)點(diǎn)間的關(guān)系由關(guān)系類型和關(guān)系權(quán)重來(lái)標(biāo)識(shí)。
本文新聞數(shù)據(jù)集來(lái)源于網(wǎng)絡(luò),共計(jì)2283篇新聞資訊,將其情感傾向性標(biāo)注為正面、中立和負(fù)面3類,數(shù)據(jù)集較為平衡。數(shù)據(jù)集中的新聞按7:3劃分為訓(xùn)練集和測(cè)試集,采用F1-score作為評(píng)價(jià)指標(biāo)。
為驗(yàn)證模型結(jié)構(gòu)的有效性,本文由于算力有限本文使用Albert-tiny預(yù)訓(xùn)練語(yǔ)言模型和TextRCNN作為基線模型,并進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證知識(shí)圖譜的有效性,實(shí)驗(yàn)結(jié)果見模型性能對(duì)比表(表3)。由該表可見,相較于基線模型,本文的模型有較為明顯的性能提升,相較于去除知識(shí)圖譜的模型也有一定的提升,這表明本文提出的算法具有一定的實(shí)用性和有效性。
表3 模型性能對(duì)比
本文基于情感重點(diǎn)句對(duì)新聞情感展開研究,通過(guò)Transformer模型的注意力機(jī)制有效地捕捉了長(zhǎng)文本的情感信息,并結(jié)合其Seq2Seq的模型結(jié)構(gòu)在突出了標(biāo)題的重要性的同時(shí)兼顧了正文,使得文本信息的把握更加全面合理。通過(guò)引入ConceptNet知識(shí)圖譜,增加了上下文的常識(shí)信息,豐富了文本的維度。
本文的模型算法在與基線模型的對(duì)比中具有一定的優(yōu)越性,但同時(shí)也存在一些不足:本文使用的情感重點(diǎn)句抽取算法較為依賴統(tǒng)計(jì)自然語(yǔ)言處理方法,缺乏對(duì)于上下文語(yǔ)境的考量,在后續(xù)的工作中可以考慮使用預(yù)訓(xùn)練語(yǔ)言模型,結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的方法完成重點(diǎn)句的自動(dòng)抽取。
最后,本文使用的知識(shí)圖譜嵌入方法雖然簡(jiǎn)潔有效,但是部分知識(shí)圖譜內(nèi)容陳舊,在一定程度可能引入噪音,需要構(gòu)建更加貼合現(xiàn)代常識(shí)認(rèn)知的知識(shí)圖譜。且該方法也忽略了同一詞語(yǔ)在不同知識(shí)關(guān)系中的語(yǔ)義差別,在后續(xù)的工作中將使用TransE、TransR等知識(shí)圖譜嵌入模型表征這些語(yǔ)義差別,進(jìn)一步提升模型性能。