亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Transformer的新聞情感分析算法

2021-10-18 08:13:46王天宇張麗珩臧天昊文一涵

現(xiàn)代計(jì)算機(jī) 2021年24期

王天宇，張麗珩，臧天昊，文一涵

（1.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院，北京100124；2.北京工業(yè)大學(xué)軟件學(xué)院，北京100124）

0 引言

文本情感分析是自然語(yǔ)言處理的一個(gè)重要的研究方向，由于一詞多義、情感轉(zhuǎn)折、反語(yǔ)等現(xiàn)象的存在，導(dǎo)致情感分析較為困難，模型分類效果不理想。而新聞作為一種記錄與傳播信息的文體，不但篇幅較長(zhǎng)，情感的表達(dá)也較為分散。文本中既有客觀的事實(shí)報(bào)道，也有主觀的情感表達(dá)，一個(gè)主觀句中也可能含有多種情感，這使得新聞文本情感分析成為更具挑戰(zhàn)性的任務(wù)。由于新聞文本較長(zhǎng)，大多需要對(duì)其內(nèi)容進(jìn)行精簡(jiǎn)，以便進(jìn)一步分析。目前的工作的降維方法對(duì)于標(biāo)題和正文各有側(cè)重，但大多沒(méi)有綜合二者考量。此外，融合知識(shí)圖譜的方法在短文本的情感分析中已經(jīng)證明其有效性，但是目前有關(guān)新聞情感分析的工作大多忽略了外部知識(shí)的輔助作用。

針對(duì)目前工作存在的不足，本文以網(wǎng)絡(luò)新聞為研究對(duì)象，創(chuàng)新性地提出了基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型分類方法。該方法借助Trans?former的Seq2Seq結(jié)構(gòu)，從根本上將新聞分為標(biāo)題和正文兩個(gè)獨(dú)立的部分考慮，既突出了新聞標(biāo)題的特殊地位，又可以較為全面地把握正文信息。同時(shí)，通過(guò)知識(shí)圖譜引入的外部信息，改善了文本信息缺失和二義性等問(wèn)題。結(jié)果表明，該模型可以有效提升情感分析的正確性，且知識(shí)圖譜是提升新聞文本情感分析模型性能的有效手段。

1 相關(guān)研究

文本的情感分析技術(shù)有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三大類。

情感詞典是一種判斷情感傾向性的傳統(tǒng)方法，其依賴于人工總結(jié)的情感用詞，通過(guò)文本用詞與情感詞典的比對(duì)來(lái)總體把握文本的情感傾向。顯而易見的是，詞典中有限列舉的情感用詞，既不能全面地表征情感用詞在不同語(yǔ)境下的語(yǔ)義差別，也無(wú)法應(yīng)對(duì)隨著時(shí)代發(fā)展而快速演變的用詞習(xí)慣。盡管學(xué)者們以情感詞典為基礎(chǔ)，嘗試了結(jié)合搜索引擎拓展詞典，針對(duì)語(yǔ)義層次設(shè)定不同判斷標(biāo)準(zhǔn)，在情感詞典中加入表情符號(hào)等多種手段[1-2]，但文本情感分析效果并不理想。

機(jī)器學(xué)習(xí)方法在分類任務(wù)中已有廣泛的應(yīng)用，并同樣適用于情感的分類任務(wù)。特征工程是分類任務(wù)的關(guān)鍵，目前常用的分類特征有：情感詞、詞性、句法結(jié)構(gòu)、否定表達(dá)模板、連接、語(yǔ)義話題等[3]，采用文本頻率、CHI統(tǒng)計(jì)量、互信息、信息增益等方法進(jìn)行特征選擇[4]，并使用樸素貝葉斯、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等作為分類器?；跈C(jī)器學(xué)習(xí)的方法，相較基于情感詞典的方法具有更強(qiáng)的泛化能力，但其分類效果受特征工程的構(gòu)建影響較大，構(gòu)建的特征無(wú)法表示復(fù)雜語(yǔ)義，且需要人工進(jìn)行數(shù)據(jù)標(biāo)注，工作量較大。

深度學(xué)習(xí)方法與以上兩類方法相比，具有明顯的優(yōu)勢(shì)。這種方法可以自動(dòng)完成文本特征的抽取和學(xué)習(xí)，所學(xué)習(xí)到的特征也更加復(fù)雜，可以提高文本分類的正確性。Xu等[5]對(duì)LSTM模型進(jìn)行改進(jìn)，提出了CLSTM模型，對(duì)Context-Level詞向量序列進(jìn)行情感預(yù)測(cè)，進(jìn)一步提升了情感極性判斷的正確性。梁斌等[6]提出了基于詞向量注意力機(jī)制，詞性注意力機(jī)制和位置注意力機(jī)制的多注意卷積模型，改善了模型應(yīng)對(duì)情感反轉(zhuǎn)的能力。

新聞文本情感分析不同于一般性文本，由于其篇幅較長(zhǎng)而存在大量無(wú)情感流露的中立表達(dá)，因此，在進(jìn)行情感分析前大多需要對(duì)文本內(nèi)容進(jìn)行精簡(jiǎn)。目前主要有提取文本子集和標(biāo)題情感分析兩種思路：馮亮祖[7]構(gòu)建了情感關(guān)鍵句抽取算法，在得到的關(guān)鍵句集合的基礎(chǔ)上使用CHI統(tǒng)計(jì)法構(gòu)建特征向量，并進(jìn)一步訓(xùn)練了神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)作為分類器。李天賜等[8]將新聞標(biāo)題作為全文的代表，并將標(biāo)題分為兩個(gè)半句，構(gòu)建了前半句、后半句和全標(biāo)題三輸入通道卷積神經(jīng)網(wǎng)絡(luò)。以上兩種方法各有側(cè)重，但均沒(méi)有將標(biāo)題與正文綜合考量。

綜上所述，結(jié)合注意力機(jī)制的深度學(xué)習(xí)模型是解決長(zhǎng)文本情感分類的較為有效的處理手段。目前，有關(guān)新聞文本情感分析的工作大多缺乏對(duì)新聞結(jié)構(gòu)的考量，也沒(méi)有借助外部知識(shí)輔助情感分析。本文針對(duì)以上問(wèn)題提出基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型，改善了情感分析模型性能。

2 基于情感重點(diǎn)句融合知識(shí)圖譜的新聞文本情感分析算法

其中n為全部重點(diǎn)句包含的詞語(yǔ)數(shù)。

其中W3∈Rd×q，b3∈Rq，q為情感傾向性類別數(shù)。

圖1基于Transformer的情感分析模型結(jié)構(gòu)

3 多特征情感重點(diǎn)句抽取算法

在前人工作的基礎(chǔ)上，本文構(gòu)建了融合關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征和新聞標(biāo)題相關(guān)性特征的情感重點(diǎn)句抽取算法。通過(guò)對(duì)上述特征評(píng)價(jià)指標(biāo)加權(quán)求和，得到綜合評(píng)價(jià)分?jǐn)?shù)，由此衡量各句的重要程度，以便提取重點(diǎn)句，從而降低文本緯度、減少噪音。

3.1 文本預(yù)處理

首先，對(duì)語(yǔ)料進(jìn)行了分句、分詞和詞性篩選處理，刪除了連詞、擬聲詞、介詞、代詞、數(shù)詞、助詞等對(duì)文本情感分析無(wú)意義的詞匯。其中分句的依據(jù)為中文常用標(biāo)點(diǎn)符號(hào)，分詞與詞性篩選使用了Python語(yǔ)言編寫的jieba分詞工具。

3.2 關(guān)鍵詞特征

本文使用了前人提出的關(guān)鍵詞特征計(jì)算方法[11]，由于新聞?dòng)迷~豐富，可能出現(xiàn)一些分詞詞典以外的詞語(yǔ)，為避免遺漏首先使用TF-IDF算法得到新聞的關(guān)鍵詞，記為ipw1，詞頻記為tf1，其對(duì)應(yīng)的集合記為關(guān)鍵詞表IP W1，而后使用N-Gram新詞發(fā)現(xiàn)算法，發(fā)現(xiàn)的新關(guān)鍵詞記為ipw2，詞頻記為tf2，其對(duì)應(yīng)的集合記為關(guān)鍵詞表IPW2。用于關(guān)鍵詞ipw2可能包含ipw1，因此，還需根據(jù)IPW2對(duì)IPW1進(jìn)行更新，再將兩個(gè)關(guān)鍵詞表融合得到最終的關(guān)鍵詞表IPWfinal，具體生成算法如下所示。

在得到新聞文本的關(guān)鍵詞表IPWfinal后，對(duì)其賦權(quán)以體現(xiàn)重要性的不同。首尾句子數(shù)φ確定方法為：φ=0.04m+2。其中m為文章中句子總數(shù)。各關(guān)鍵詞的權(quán)重設(shè)置如關(guān)鍵詞權(quán)重表（表1）所示。若同一個(gè)關(guān)鍵詞在文章中不同位置出現(xiàn)，則取其權(quán)重最高值。最后，得出文章中各句關(guān)鍵詞特征值：

表1不同位置關(guān)鍵詞權(quán)重

3.3 句子位置特征

按文本位置來(lái)說(shuō)，新聞的開頭導(dǎo)語(yǔ)與結(jié)尾總結(jié)部分往往包含與主題相關(guān)的重點(diǎn)信息、作者觀點(diǎn)以及情感傾向。即在文章開篇提出包含重要信息的提要，中部陳述新聞事實(shí)，在文章結(jié)尾集中發(fā)表觀點(diǎn)與態(tài)度[12]。因此，文章開頭與結(jié)尾的句子在情感分析中往往更為重要，由此不同位置的句子需要計(jì)算其重要性，即：

其中si表示新聞文本的第i句句子，m為該文本的句子總數(shù)。

3.4 線索詞特征

作者在表達(dá)情感時(shí)可能出現(xiàn)：“因此”、“可以預(yù)見”、“不難看出”等流露傾向性的線索詞，參照以往工作提出的線索詞表可以構(gòu)造各句傾向性表述程度計(jì)算公式[11]，如下式所示。

3.5 情感詞特征

一般來(lái)說(shuō)，句子中包含的情感詞越多，其表達(dá)的情感傾向越強(qiáng)烈。本研究使用中國(guó)知網(wǎng)HowNet與清華大學(xué)李軍的中文褒貶義詞典作為漢語(yǔ)情感詞典，根據(jù)句子所包含的情感詞來(lái)衡量句子情感的表達(dá)程度，其衡量指標(biāo)為fewf(si)，即：

3.6 標(biāo)題相關(guān)性特征

其中 |h|為標(biāo)題所含詞語(yǔ)數(shù)，|si|為第i句所含詞語(yǔ)數(shù)。

最后，在以上計(jì)算的基礎(chǔ)上通過(guò)計(jì)算二者的余弦相似度f(wàn)tf(si)，即：

得到標(biāo)題相關(guān)性特征，其中w2v(h)為標(biāo)題的向量表示，w2v(si)為句子的向量表示。

3.7 特征融合

在上文中，分別考量了關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征以及標(biāo)題相關(guān)性特征，現(xiàn)在，以加權(quán)求和的方式對(duì)這些特征進(jìn)行融合，獲得文章中句子si最終重要性評(píng)分fweight，即：

其中λ代表各特征權(quán)重，其總和為1。

上述5個(gè)特征權(quán)重的取值，如特征權(quán)重表（表2）所示。通過(guò)對(duì)各句重要程度的量化計(jì)算，可以按fweight值從高到低選取適當(dāng)數(shù)量的句子，來(lái)作為一篇新聞的情感重點(diǎn)句集，以實(shí)現(xiàn)文本的降維。

表2本文五個(gè)特征值的權(quán)重

4 使用知識(shí)圖譜技術(shù)對(duì)關(guān)鍵句進(jìn)行特征加強(qiáng)

在文本信息中引入知識(shí)圖譜可以增加外部知識(shí)，豐富情感重點(diǎn)句的文本特征，在一定程度上可以提高情感分析的效果。因此，本文使用ConceptNet 5的中文部分作為知識(shí)圖譜。ConceptNet是常識(shí)知識(shí)庫(kù)，由RDF三元組形式的關(guān)系型知識(shí)構(gòu)成，節(jié)點(diǎn)與節(jié)點(diǎn)間的關(guān)系由關(guān)系類型和關(guān)系權(quán)重來(lái)標(biāo)識(shí)。

5 實(shí)驗(yàn)結(jié)果

5.1 實(shí)驗(yàn)數(shù)據(jù)

本文新聞數(shù)據(jù)集來(lái)源于網(wǎng)絡(luò)，共計(jì)2283篇新聞資訊，將其情感傾向性標(biāo)注為正面、中立和負(fù)面3類，數(shù)據(jù)集較為平衡。數(shù)據(jù)集中的新聞按7:3劃分為訓(xùn)練集和測(cè)試集，采用F1-score作為評(píng)價(jià)指標(biāo)。

5.2 實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證模型結(jié)構(gòu)的有效性，本文由于算力有限本文使用Albert-tiny預(yù)訓(xùn)練語(yǔ)言模型和TextRCNN作為基線模型，并進(jìn)行了消融實(shí)驗(yàn)，以驗(yàn)證知識(shí)圖譜的有效性，實(shí)驗(yàn)結(jié)果見模型性能對(duì)比表（表3）。由該表可見，相較于基線模型，本文的模型有較為明顯的性能提升，相較于去除知識(shí)圖譜的模型也有一定的提升，這表明本文提出的算法具有一定的實(shí)用性和有效性。

表3 模型性能對(duì)比

6 結(jié)語(yǔ)

本文基于情感重點(diǎn)句對(duì)新聞情感展開研究，通過(guò)Transformer模型的注意力機(jī)制有效地捕捉了長(zhǎng)文本的情感信息，并結(jié)合其Seq2Seq的模型結(jié)構(gòu)在突出了標(biāo)題的重要性的同時(shí)兼顧了正文，使得文本信息的把握更加全面合理。通過(guò)引入ConceptNet知識(shí)圖譜，增加了上下文的常識(shí)信息，豐富了文本的維度。

本文的模型算法在與基線模型的對(duì)比中具有一定的優(yōu)越性，但同時(shí)也存在一些不足：本文使用的情感重點(diǎn)句抽取算法較為依賴統(tǒng)計(jì)自然語(yǔ)言處理方法，缺乏對(duì)于上下文語(yǔ)境的考量，在后續(xù)的工作中可以考慮使用預(yù)訓(xùn)練語(yǔ)言模型，結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的方法完成重點(diǎn)句的自動(dòng)抽取。

最后，本文使用的知識(shí)圖譜嵌入方法雖然簡(jiǎn)潔有效，但是部分知識(shí)圖譜內(nèi)容陳舊，在一定程度可能引入噪音，需要構(gòu)建更加貼合現(xiàn)代常識(shí)認(rèn)知的知識(shí)圖譜。且該方法也忽略了同一詞語(yǔ)在不同知識(shí)關(guān)系中的語(yǔ)義差別，在后續(xù)的工作中將使用TransE、TransR等知識(shí)圖譜嵌入模型表征這些語(yǔ)義差別，進(jìn)一步提升模型性能。