亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Transformer的新聞情感分析算法

        2021-10-18 08:13:46王天宇張麗珩臧天昊文一涵
        現(xiàn)代計(jì)算機(jī) 2021年24期
        關(guān)鍵詞:特征文本情感

        王天宇,張麗珩,臧天昊,文一涵

        (1.北京工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,北京100124;2.北京工業(yè)大學(xué)軟件學(xué)院,北京100124)

        0 引言

        文本情感分析是自然語(yǔ)言處理的一個(gè)重要的研究方向,由于一詞多義、情感轉(zhuǎn)折、反語(yǔ)等現(xiàn)象的存在,導(dǎo)致情感分析較為困難,模型分類效果不理想。而新聞作為一種記錄與傳播信息的文體,不但篇幅較長(zhǎng),情感的表達(dá)也較為分散。文本中既有客觀的事實(shí)報(bào)道,也有主觀的情感表達(dá),一個(gè)主觀句中也可能含有多種情感,這使得新聞文本情感分析成為更具挑戰(zhàn)性的任務(wù)。由于新聞文本較長(zhǎng),大多需要對(duì)其內(nèi)容進(jìn)行精簡(jiǎn),以便進(jìn)一步分析。目前的工作的降維方法對(duì)于標(biāo)題和正文各有側(cè)重,但大多沒(méi)有綜合二者考量。此外,融合知識(shí)圖譜的方法在短文本的情感分析中已經(jīng)證明其有效性,但是目前有關(guān)新聞情感分析的工作大多忽略了外部知識(shí)的輔助作用。

        針對(duì)目前工作存在的不足,本文以網(wǎng)絡(luò)新聞為研究對(duì)象,創(chuàng)新性地提出了基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型分類方法。該方法借助Trans?former的Seq2Seq結(jié)構(gòu),從根本上將新聞分為標(biāo)題和正文兩個(gè)獨(dú)立的部分考慮,既突出了新聞標(biāo)題的特殊地位,又可以較為全面地把握正文信息。同時(shí),通過(guò)知識(shí)圖譜引入的外部信息,改善了文本信息缺失和二義性等問(wèn)題。結(jié)果表明,該模型可以有效提升情感分析的正確性,且知識(shí)圖譜是提升新聞文本情感分析模型性能的有效手段。

        1 相關(guān)研究

        文本的情感分析技術(shù)有基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法三大類。

        情感詞典是一種判斷情感傾向性的傳統(tǒng)方法,其依賴于人工總結(jié)的情感用詞,通過(guò)文本用詞與情感詞典的比對(duì)來(lái)總體把握文本的情感傾向。顯而易見的是,詞典中有限列舉的情感用詞,既不能全面地表征情感用詞在不同語(yǔ)境下的語(yǔ)義差別,也無(wú)法應(yīng)對(duì)隨著時(shí)代發(fā)展而快速演變的用詞習(xí)慣。盡管學(xué)者們以情感詞典為基礎(chǔ),嘗試了結(jié)合搜索引擎拓展詞典,針對(duì)語(yǔ)義層次設(shè)定不同判斷標(biāo)準(zhǔn),在情感詞典中加入表情符號(hào)等多種手段[1-2],但文本情感分析效果并不理想。

        機(jī)器學(xué)習(xí)方法在分類任務(wù)中已有廣泛的應(yīng)用,并同樣適用于情感的分類任務(wù)。特征工程是分類任務(wù)的關(guān)鍵,目前常用的分類特征有:情感詞、詞性、句法結(jié)構(gòu)、否定表達(dá)模板、連接、語(yǔ)義話題等[3],采用文本頻率、CHI統(tǒng)計(jì)量、互信息、信息增益等方法進(jìn)行特征選擇[4],并使用樸素貝葉斯、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等作為分類器?;跈C(jī)器學(xué)習(xí)的方法,相較基于情感詞典的方法具有更強(qiáng)的泛化能力,但其分類效果受特征工程的構(gòu)建影響較大,構(gòu)建的特征無(wú)法表示復(fù)雜語(yǔ)義,且需要人工進(jìn)行數(shù)據(jù)標(biāo)注,工作量較大。

        深度學(xué)習(xí)方法與以上兩類方法相比,具有明顯的優(yōu)勢(shì)。這種方法可以自動(dòng)完成文本特征的抽取和學(xué)習(xí),所學(xué)習(xí)到的特征也更加復(fù)雜,可以提高文本分類的正確性。Xu等[5]對(duì)LSTM模型進(jìn)行改進(jìn),提出了CLSTM模型,對(duì)Context-Level詞向量序列進(jìn)行情感預(yù)測(cè),進(jìn)一步提升了情感極性判斷的正確性。梁斌等[6]提出了基于詞向量注意力機(jī)制,詞性注意力機(jī)制和位置注意力機(jī)制的多注意卷積模型,改善了模型應(yīng)對(duì)情感反轉(zhuǎn)的能力。

        新聞文本情感分析不同于一般性文本,由于其篇幅較長(zhǎng)而存在大量無(wú)情感流露的中立表達(dá),因此,在進(jìn)行情感分析前大多需要對(duì)文本內(nèi)容進(jìn)行精簡(jiǎn)。目前主要有提取文本子集和標(biāo)題情感分析兩種思路:馮亮祖[7]構(gòu)建了情感關(guān)鍵句抽取算法,在得到的關(guān)鍵句集合的基礎(chǔ)上使用CHI統(tǒng)計(jì)法構(gòu)建特征向量,并進(jìn)一步訓(xùn)練了神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)作為分類器。李天賜等[8]將新聞標(biāo)題作為全文的代表,并將標(biāo)題分為兩個(gè)半句,構(gòu)建了前半句、后半句和全標(biāo)題三輸入通道卷積神經(jīng)網(wǎng)絡(luò)。以上兩種方法各有側(cè)重,但均沒(méi)有將標(biāo)題與正文綜合考量。

        綜上所述,結(jié)合注意力機(jī)制的深度學(xué)習(xí)模型是解決長(zhǎng)文本情感分類的較為有效的處理手段。目前,有關(guān)新聞文本情感分析的工作大多缺乏對(duì)新聞結(jié)構(gòu)的考量,也沒(méi)有借助外部知識(shí)輔助情感分析。本文針對(duì)以上問(wèn)題提出基于情感重點(diǎn)句融合知識(shí)圖譜的Transformer模型,改善了情感分析模型性能。

        2 基于情感重點(diǎn)句融合知識(shí)圖譜的新聞文本情感分析算法

        其中n為全部重點(diǎn)句包含的詞語(yǔ)數(shù)。

        其中W3∈Rd×q,b3∈Rq,q為情感傾向性類別數(shù)。

        圖1基于Transformer的情感分析模型結(jié)構(gòu)

        3 多特征情感重點(diǎn)句抽取算法

        在前人工作的基礎(chǔ)上,本文構(gòu)建了融合關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征和新聞標(biāo)題相關(guān)性特征的情感重點(diǎn)句抽取算法。通過(guò)對(duì)上述特征評(píng)價(jià)指標(biāo)加權(quán)求和,得到綜合評(píng)價(jià)分?jǐn)?shù),由此衡量各句的重要程度,以便提取重點(diǎn)句,從而降低文本緯度、減少噪音。

        3.1 文本預(yù)處理

        首先,對(duì)語(yǔ)料進(jìn)行了分句、分詞和詞性篩選處理,刪除了連詞、擬聲詞、介詞、代詞、數(shù)詞、助詞等對(duì)文本情感分析無(wú)意義的詞匯。其中分句的依據(jù)為中文常用標(biāo)點(diǎn)符號(hào),分詞與詞性篩選使用了Python語(yǔ)言編寫的jieba分詞工具。

        3.2 關(guān)鍵詞特征

        本文使用了前人提出的關(guān)鍵詞特征計(jì)算方法[11],由于新聞?dòng)迷~豐富,可能出現(xiàn)一些分詞詞典以外的詞語(yǔ),為避免遺漏首先使用TF-IDF算法得到新聞的關(guān)鍵詞,記為ipw1,詞頻記為tf1,其對(duì)應(yīng)的集合記為關(guān)鍵詞表IP W1,而后使用N-Gram新詞發(fā)現(xiàn)算法,發(fā)現(xiàn)的新關(guān)鍵詞記為ipw2,詞頻記為tf2,其對(duì)應(yīng)的集合記為關(guān)鍵詞表IPW2。用于關(guān)鍵詞ipw2可能包含ipw1,因此,還需根據(jù)IPW2對(duì)IPW1進(jìn)行更新,再將兩個(gè)關(guān)鍵詞表融合得到最終的關(guān)鍵詞表IPWfinal,具體生成算法如下所示。

        在得到新聞文本的關(guān)鍵詞表IPWfinal后,對(duì)其賦權(quán)以體現(xiàn)重要性的不同。首尾句子數(shù)φ確定方法為:φ=0.04m+2。其中m為文章中句子總數(shù)。各關(guān)鍵詞的權(quán)重設(shè)置如關(guān)鍵詞權(quán)重表(表1)所示。若同一個(gè)關(guān)鍵詞在文章中不同位置出現(xiàn),則取其權(quán)重最高值。最后,得出文章中各句關(guān)鍵詞特征值:

        表1不同位置關(guān)鍵詞權(quán)重

        3.3 句子位置特征

        按文本位置來(lái)說(shuō),新聞的開頭導(dǎo)語(yǔ)與結(jié)尾總結(jié)部分往往包含與主題相關(guān)的重點(diǎn)信息、作者觀點(diǎn)以及情感傾向。即在文章開篇提出包含重要信息的提要,中部陳述新聞事實(shí),在文章結(jié)尾集中發(fā)表觀點(diǎn)與態(tài)度[12]。因此,文章開頭與結(jié)尾的句子在情感分析中往往更為重要,由此不同位置的句子需要計(jì)算其重要性,即:

        其中si表示新聞文本的第i句句子,m為該文本的句子總數(shù)。

        3.4 線索詞特征

        作者在表達(dá)情感時(shí)可能出現(xiàn):“因此”、“可以預(yù)見”、“不難看出”等流露傾向性的線索詞,參照以往工作提出的線索詞表可以構(gòu)造各句傾向性表述程度計(jì)算公式[11],如下式所示。

        3.5 情感詞特征

        一般來(lái)說(shuō),句子中包含的情感詞越多,其表達(dá)的情感傾向越強(qiáng)烈。本研究使用中國(guó)知網(wǎng)HowNet與清華大學(xué)李軍的中文褒貶義詞典作為漢語(yǔ)情感詞典,根據(jù)句子所包含的情感詞來(lái)衡量句子情感的表達(dá)程度,其衡量指標(biāo)為fewf(si),即:

        3.6 標(biāo)題相關(guān)性特征

        其中 |h|為標(biāo)題所含詞語(yǔ)數(shù),|si|為第i句所含詞語(yǔ)數(shù)。

        最后,在以上計(jì)算的基礎(chǔ)上通過(guò)計(jì)算二者的余弦相似度f(wàn)tf(si),即:

        得到標(biāo)題相關(guān)性特征,其中w2v(h)為標(biāo)題的向量表示,w2v(si)為句子的向量表示。

        3.7 特征融合

        在上文中,分別考量了關(guān)鍵詞特征、句子位置特征、線索詞特征、情感詞特征以及標(biāo)題相關(guān)性特征,現(xiàn)在,以加權(quán)求和的方式對(duì)這些特征進(jìn)行融合,獲得文章中句子si最終重要性評(píng)分fweight,即:

        其中λ代表各特征權(quán)重,其總和為1。

        上述5個(gè)特征權(quán)重的取值,如特征權(quán)重表(表2)所示。通過(guò)對(duì)各句重要程度的量化計(jì)算,可以按fweight值從高到低選取適當(dāng)數(shù)量的句子,來(lái)作為一篇新聞的情感重點(diǎn)句集,以實(shí)現(xiàn)文本的降維。

        表2本文五個(gè)特征值的權(quán)重

        4 使用知識(shí)圖譜技術(shù)對(duì)關(guān)鍵句進(jìn)行特征加強(qiáng)

        在文本信息中引入知識(shí)圖譜可以增加外部知識(shí),豐富情感重點(diǎn)句的文本特征,在一定程度上可以提高情感分析的效果。因此,本文使用ConceptNet 5的中文部分作為知識(shí)圖譜。ConceptNet是常識(shí)知識(shí)庫(kù),由RDF三元組形式的關(guān)系型知識(shí)構(gòu)成,節(jié)點(diǎn)與節(jié)點(diǎn)間的關(guān)系由關(guān)系類型和關(guān)系權(quán)重來(lái)標(biāo)識(shí)。

        5 實(shí)驗(yàn)結(jié)果

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        本文新聞數(shù)據(jù)集來(lái)源于網(wǎng)絡(luò),共計(jì)2283篇新聞資訊,將其情感傾向性標(biāo)注為正面、中立和負(fù)面3類,數(shù)據(jù)集較為平衡。數(shù)據(jù)集中的新聞按7:3劃分為訓(xùn)練集和測(cè)試集,采用F1-score作為評(píng)價(jià)指標(biāo)。

        5.2 實(shí)驗(yàn)結(jié)果與分析

        為驗(yàn)證模型結(jié)構(gòu)的有效性,本文由于算力有限本文使用Albert-tiny預(yù)訓(xùn)練語(yǔ)言模型和TextRCNN作為基線模型,并進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證知識(shí)圖譜的有效性,實(shí)驗(yàn)結(jié)果見模型性能對(duì)比表(表3)。由該表可見,相較于基線模型,本文的模型有較為明顯的性能提升,相較于去除知識(shí)圖譜的模型也有一定的提升,這表明本文提出的算法具有一定的實(shí)用性和有效性。

        表3 模型性能對(duì)比

        6 結(jié)語(yǔ)

        本文基于情感重點(diǎn)句對(duì)新聞情感展開研究,通過(guò)Transformer模型的注意力機(jī)制有效地捕捉了長(zhǎng)文本的情感信息,并結(jié)合其Seq2Seq的模型結(jié)構(gòu)在突出了標(biāo)題的重要性的同時(shí)兼顧了正文,使得文本信息的把握更加全面合理。通過(guò)引入ConceptNet知識(shí)圖譜,增加了上下文的常識(shí)信息,豐富了文本的維度。

        本文的模型算法在與基線模型的對(duì)比中具有一定的優(yōu)越性,但同時(shí)也存在一些不足:本文使用的情感重點(diǎn)句抽取算法較為依賴統(tǒng)計(jì)自然語(yǔ)言處理方法,缺乏對(duì)于上下文語(yǔ)境的考量,在后續(xù)的工作中可以考慮使用預(yù)訓(xùn)練語(yǔ)言模型,結(jié)合深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的方法完成重點(diǎn)句的自動(dòng)抽取。

        最后,本文使用的知識(shí)圖譜嵌入方法雖然簡(jiǎn)潔有效,但是部分知識(shí)圖譜內(nèi)容陳舊,在一定程度可能引入噪音,需要構(gòu)建更加貼合現(xiàn)代常識(shí)認(rèn)知的知識(shí)圖譜。且該方法也忽略了同一詞語(yǔ)在不同知識(shí)關(guān)系中的語(yǔ)義差別,在后續(xù)的工作中將使用TransE、TransR等知識(shí)圖譜嵌入模型表征這些語(yǔ)義差別,進(jìn)一步提升模型性能。

        猜你喜歡
        特征文本情感
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        在808DA上文本顯示的改善
        不忠誠(chéng)的四個(gè)特征
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        抓住特征巧觀察
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        亚洲色在线视频| 久久婷婷国产综合精品| 亚洲免费精品一区二区| 国产成人久久精品一区二区三区 | 国产在线一区二区视频免费观看 | 亚洲不卡免费观看av一区二区| 国产夫妇肉麻对白| 久久久久亚洲精品无码网址| 欧美激情精品久久999| 国产精品夜色视频久久| 久久无码字幕中文久久无码| 国产精品亚洲综合色区韩国| 国产精品久久国产精品99gif| 免费在线观看亚洲视频| 国产女主播大秀在线观看| 久久久久人妻精品一区二区三区| 久久99热狠狠色精品一区| 美女扒开内裤让男生桶| 熟女白浆精品一区二区| 蜜臀av一区二区三区久久| 精品无码国产一区二区三区av| 欧美精品一区视频| 女同久久精品国产99国产精| 久久久99精品免费视频| 成人片黄网站色大片免费观看cn| av资源在线看免费观看| 视频国产一区二区在线| 国产人妖网站在线视频| 99精品国产一区二区三区| 亚洲AV秘 片一区二区三| 日本超骚少妇熟妇视频| 亚洲 日本 欧美 中文幕| 边啃奶头边躁狠狠躁| 日本中文字幕不卡在线一区二区| 亚洲女同人妻在线播放| 欧洲美女熟乱av| 天码av无码一区二区三区四区| 色人阁第四色视频合集网 | 国产成人av乱码在线观看| 免费无码成人av在线播| 国产美女自拍国语对白|