亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        情感子句預(yù)測與原因子句提取方法

        2021-08-23 04:12:32陸丁天張志遠(yuǎn)
        關(guān)鍵詞:語義文本情感

        陸丁天,張志遠(yuǎn)

        (中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

        0 引 言

        近年來,文本情感分析引起學(xué)術(shù)界與工業(yè)界的研究興趣,對帶有各種情感色彩的評論文本進(jìn)行情感分析具有很大的研究和應(yīng)用價(jià)值[1]。

        Zhang Y等[2]認(rèn)為文本情感分析建模面臨的主要挑戰(zhàn)是如何捕捉文本的局部語義信息、情感依賴信息以及情感表達(dá)關(guān)鍵部分;于是提出CCLA模型,提取這3類信息特征并融合得到完整的句子特征進(jìn)行情感分析。卷積神經(jīng)網(wǎng)絡(luò)(CNN)更加關(guān)注局部特征,對文本情感分析的準(zhǔn)確率有一定影響[3,4]。RNN能提取文本上下文語義信息,但其存在梯度爆炸和梯度消失問題,故常用LSTM來代替RNN進(jìn)行文本情感分析任務(wù)[5-8]。然而LSTM是一個(gè)有偏模型,其更多注重句子末尾的詞,當(dāng)關(guān)鍵詞不在句子末尾時(shí),LSTM就無法很好捕獲句子語義信息來進(jìn)行文本分類任務(wù),于是又常用雙向的LSTM來代替單向的LSTM進(jìn)行文本情感分析任務(wù)[9]。Bahdanau等[10]對Encoder-Decoder神經(jīng)機(jī)器翻譯方式的改進(jìn)引出了注意力機(jī)制。注意力機(jī)制是用來表示文本句子中的詞與輸出結(jié)果之間的相關(guān)性,表示句子中每個(gè)詞與句子相對應(yīng)標(biāo)簽之間的重要程度[11,12]。注意力機(jī)制與深度學(xué)習(xí)模型的結(jié)合大大提高了文本情感分析的效果[13]。

        然而,知道情感傾向還需知道其產(chǎn)生的原因,因此目前相關(guān)研究重點(diǎn)正從日趨成熟的文本情感分析向挖掘文本情感的產(chǎn)生原因深入,即文本情感原因發(fā)現(xiàn)[14]。情感原因發(fā)現(xiàn)與抽取最早是由Lee等[15]提出。此后Gao K等[16]提出了基于規(guī)則的詞水平原因提取模型?;谠~水平的情感原因提取任務(wù)的語料庫構(gòu)建需要大量復(fù)雜的標(biāo)注,使得語料庫規(guī)模很小,無法為機(jī)器學(xué)習(xí)提供足夠信息。為此Gui等[17]使用新浪都市新聞建立了一個(gè)帶標(biāo)注且以子句作為原因提取基本單元的語料庫,并提出了一種基于事件驅(qū)動(dòng)的多核SVM情感原因提取方法。即使訓(xùn)練集有限,仍然可以提取足夠的特征進(jìn)行分析。Li X等[18]認(rèn)為情感子句與原因子句之間有相互作用的關(guān)系,于是提出了一種基于多注意力的神經(jīng)網(wǎng)絡(luò)模型(MANN)來捕捉情感分句與候選分句之間的相互關(guān)系。

        傳統(tǒng)的情感原因提取需要預(yù)先標(biāo)注情感標(biāo)簽,該方式增加了人工成本,限制了情感原因提取任務(wù)在現(xiàn)實(shí)中的使用。為此Xia R等[19]提出情感-原因?qū)μ崛》椒↖nter-EC,所提方法分兩步,先通過兩個(gè)子任務(wù)分別進(jìn)行情感提取和原因提取,最后得到一個(gè)情感子句集合和原因子句集合;然后通過笛卡爾積將情感子句集和原因子句集構(gòu)造成對,再訓(xùn)練一個(gè)過濾器將沒有包含因果關(guān)系的情感-原因?qū)μ蕹?。此方法為情感原因提取任?wù)的研究提供了一種思路。然而Inter-EC模型存在兩個(gè)問題:①在情感子句提取時(shí),句子特征不完整,使得情感子句提取效果不夠好;②在原因提取時(shí),情感和原因之間的聯(lián)系體現(xiàn)的不夠充分,使得原因提取效果不夠好。為此本文在Inter-EC模型的基礎(chǔ)上提出了一種基于注意力的情感子句預(yù)測與原因子句提取模型(emotion prediction & cause extraction model,EPCEM),實(shí)驗(yàn)結(jié)果表明該模型具有不錯(cuò)的效果。

        1 方法描述

        1.1 任務(wù)定義

        圖1 情感子句預(yù)測與原因子句提取任務(wù)示例

        1.2 模型描述

        圖2 EPCEM模型

        1.2.1 情感子句預(yù)測部分

        (1)

        (2)

        (3)

        (4)

        為獲得情感表達(dá)的關(guān)鍵部分,將Bi-LSTM的輸出作為注意力層的輸入。注意力機(jī)制的定義如下

        (5)

        (6)

        (7)

        (8)

        (9)

        (10)

        (11)

        1.2.2 原因子句提取部分

        情感與原因之間是有聯(lián)系的,找到與情感信息相關(guān)聯(lián)的上下文語義信息是確定原因的先決條件,為找到與情感信息相關(guān)的原因信息,引入一種情感導(dǎo)向的注意力機(jī)制,該機(jī)制能夠?qū)νㄟ^帶有注意力的詞水平Bi-LSTM獲得的句子特征進(jìn)行加權(quán)表示,以獲得與情感相關(guān)的句子特征。情感引導(dǎo)的注意力機(jī)制的使用定義如下

        (12)

        (13)

        (14)

        (15)

        (16)

        (17)

        模型的損失函數(shù)由兩部分的交叉熵?fù)p失組成

        LP=λLe+(1-λ)Lc

        (18)

        其中,Le為情感子句預(yù)測部分的交叉熵?fù)p失,Lc為原因子句提取部分的交叉熵?fù)p失,λ為權(quán)衡參數(shù)。

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)集

        本文使用情感原因分析ECPE數(shù)據(jù)集[19],數(shù)據(jù)集一共有1945篇文檔,每篇文檔由多個(gè)分句構(gòu)成。數(shù)據(jù)統(tǒng)計(jì)信息見表1。模型訓(xùn)練集大小與測試集大小的比例為9∶1。

        表1 ECPE數(shù)據(jù)集統(tǒng)計(jì)信息

        2.2 模型參數(shù)設(shè)置

        使用word2vec預(yù)訓(xùn)練好的微博語料庫詞向量,詞向量維度為300維。對于未登錄詞,采用均勻分布U(-0.01,0.01)來隨機(jī)初始化詞向量。CNN窗口大小為3和4,每個(gè)窗口過濾器數(shù)量為100。Bi-LSTM的隱藏層單元個(gè)數(shù)為100。模型訓(xùn)練時(shí),Adam優(yōu)化算法的初始學(xué)習(xí)率為0.005,Batch大小為32,dropout為0.8,L2正則化的權(quán)重設(shè)置為10-5。

        2.3 評價(jià)指標(biāo)

        評價(jià)指標(biāo)實(shí)驗(yàn)結(jié)果評估采用精確率p(Precision)、召回率r(Recall)和f1值來進(jìn)行評估。定義如下

        (19)

        (20)

        (21)

        其中,correct_causes為原因子句預(yù)測標(biāo)簽與真實(shí)標(biāo)簽一致且為Y的數(shù)量;proposed_causes為原因子句預(yù)測標(biāo)簽為Y的數(shù)量;annotated_causes為真實(shí)標(biāo)簽為Y的原因子句數(shù)量。情感子句預(yù)測部分的評價(jià)指標(biāo)與原因子句提取的評價(jià)指標(biāo)相似。

        2.4 實(shí)驗(yàn)結(jié)果分析

        2.4.1 不同詞向量表示

        為了評估不同詞向量表示對模型的影響,使用不同的向量表示對模型進(jìn)行評估。Rand200d:詞向量隨機(jī)初始化為200維;w2v200:通過Word2vec預(yù)訓(xùn)練好的微博語料庫詞向量200維;Rand300d:詞向量隨機(jī)初始化為300維;w2v300:通過Word2vec預(yù)訓(xùn)練好的微博語料庫詞向量300維。

        不同詞向量表示對模型的影響見表2,在情感子句預(yù)測上,用預(yù)訓(xùn)練好的微博語料庫詞向量得到的f1比隨機(jī)初始化方式得到的f1值高了近10%,其中300維的預(yù)訓(xùn)練詞向量比200維的預(yù)訓(xùn)練詞向量效果更好;在原因子句提取上,預(yù)訓(xùn)練得到的f1值比隨機(jī)初始化得到的f1更是高出了10%。從而驗(yàn)證,詞向量用隨機(jī)初始化的方式得到的結(jié)果較差;預(yù)訓(xùn)練詞向量對句子特征表示是有效的,預(yù)訓(xùn)練的詞向量能提高情感子句預(yù)測與原因子句提取的效果。

        表2 不同詞向量表示對模型的影響

        2.4.2 CNN窗口大小對模型的影響

        目前大部分情感分類模型僅僅使用Bi-LSTM加上注意力來提取句子的上下文語義依賴信息和與情感相關(guān)的關(guān)鍵部分來進(jìn)行情感分析。然而在進(jìn)行情感分析時(shí),一個(gè)完整的句子特征要包含局部語義信息、上下文語義依賴信息以及情感表達(dá)的關(guān)鍵部分。為驗(yàn)證結(jié)論,在情感子句預(yù)測部分,模型提取句子特征時(shí),進(jìn)行了融入局部語義信息和不融入局部語義信息的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果見表3,從表3中可以看出,在進(jìn)行句子特征提取時(shí),融入局部語義信息使句子特征更完整,能提高情感子句預(yù)測的效果,并且CNN窗口大小為{3,4}(注:表示窗口大小分別為3和4兩個(gè)過濾器)時(shí),情感子句預(yù)測效果最好。

        表3 CNN對情感子句預(yù)測的影響

        2.4.3 情感子句預(yù)測標(biāo)簽對原因子句提取的影響

        表4 消融實(shí)驗(yàn)對原因提取的影響

        從表4可以看出忽略情感與原因之間的關(guān)系,情感子句預(yù)測與原因子句獨(dú)立進(jìn)行時(shí),原因子句提取效果最差。在考慮情感與原因之間的關(guān)系后,通過Concat方式與Att方式將情感與原因聯(lián)系起來提高了原因子句提取的效果。通過Concat與Att結(jié)合的方式(即EPCEM)進(jìn)一步增強(qiáng)了情感與原因之間的聯(lián)系,從而提高原因子句提取的效果。因此驗(yàn)證了在進(jìn)行原因子句提取時(shí),考慮情感與原因的關(guān)系,將情感特征融入句子特征去進(jìn)行原因子句提取能進(jìn)一步提高原因提取的效果這一結(jié)論。

        2.4.4 相同任務(wù)定義下的模型對比

        相同任務(wù)定義是指在未給定文檔情感標(biāo)簽的情況下,找出文檔情感子句,并提取相應(yīng)的原因子句。目前在此任務(wù)定義下的模型僅為文獻(xiàn)[19]的Inter-EC模型。本文模型與Inter-EC模型對比結(jié)果見表5。從表中可以看出,在情感子句預(yù)測上,本文模型的f1值比Inter-EC模型的f1值高出了1.1%,這是因?yàn)楸疚哪P驮谶M(jìn)行情感子句預(yù)測時(shí)考慮了局部語義信息,使得句子特征更完整,從而提高了情感子句預(yù)測的效果。在原因子句提取效果上,本文模型得到的f1值比Inter-EC模型得到的高出了2.35%,原因在于本文模型使用了情感導(dǎo)向注意力,使得情感與原因更相關(guān),從而提高了原因子句提取的效果。

        表5 相同任務(wù)定義的模型對比

        2.4.5 與傳統(tǒng)的原因提取任務(wù)模型對比

        傳統(tǒng)的情感原因提取任務(wù)ECE(emotion cause extraction)是指在標(biāo)注好情感信息后,提取引起情感信息的潛在原因,需要在測試集中對文本情感信息進(jìn)行標(biāo)注。而本文的情感原因提取任務(wù)是預(yù)測情感信息,并提取引起情感信息的原因。對比結(jié)果見表6,其中:

        RB:手工定義語義規(guī)則方法[15]。

        CB:基于常識定義的方法[17]。

        RB+CB+ML:RB與CB結(jié)合并通過機(jī)器學(xué)習(xí)SVM分類訓(xùn)練。

        SVM:使用1-grams、2-grams和3-grams作為特征通過SVM分類器進(jìn)行分類[17]。

        CNN:使用CNN提取候選子句和已確定的情感子句的特征進(jìn)行情感原因提取[18]。

        MANN:基于多注意力的上下文情感原因分析神經(jīng)網(wǎng)絡(luò)模型[18]。

        從表6可以看出,即使在測試集中沒有對文檔進(jìn)行情感信息標(biāo)注,所取得結(jié)果仍然優(yōu)于大部分傳統(tǒng)模型,僅次于MANN模型,這是由于MANN模型是預(yù)先標(biāo)注好情感標(biāo)簽的原因提取,而本文模型是預(yù)測情感標(biāo)簽后再去提取原因,預(yù)測情感標(biāo)簽的效果會(huì)影響到原因提取的效果。

        表6 與傳統(tǒng)情感原因提取任務(wù)方法比較

        3 結(jié)束語

        本文提出了一種基于注意力的情感子句預(yù)測與原因子句提取方法,與傳統(tǒng)的情感原因提取方法的不同之處在于該方法不需要預(yù)先對文本進(jìn)行情感標(biāo)注,在未給定情感標(biāo)簽的情況下,在預(yù)測文本情感的同時(shí)匹配其對應(yīng)的原因。該方法節(jié)約了人工標(biāo)注的成本,擴(kuò)大了情感原因提取任務(wù)在現(xiàn)實(shí)中的應(yīng)用范圍。

        實(shí)驗(yàn)結(jié)果表明,在預(yù)測情感子句時(shí),一個(gè)完整的句子特征需要包括局部語義信息、上下文語義依賴信息以及情感表達(dá)的關(guān)鍵部分。在進(jìn)行原因子句提取時(shí),融入預(yù)測的情感信息能更好提高原因子句提取的準(zhǔn)確率,且通過注意力的方式的融合使原因子句提取的準(zhǔn)確率有更進(jìn)一步的提高。

        猜你喜歡
        語義文本情感
        如何在情感中自我成長,保持獨(dú)立
        語言與語義
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        情感
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        如何在情感中自我成長,保持獨(dú)立
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        中文字幕日本韩国精品免费观看 | 久久精品熟女亚洲av艳妇| 日本美女中文字幕第一区| 天天做天天添av国产亚洲| 男女啪啪永久免费观看网站| 亚洲av无码专区亚洲av网站| 国内精品久久久久久中文字幕| AV无码一区二区三区国产| 亚洲人妻av在线播放| 国产精品一区二区三区自拍| 肥臀熟女一区二区三区| 久久精品国产亚洲AV成人公司| 日本在线视频二区一区| 日韩精品免费视频久久| 国产在线观看91一区二区三区| 免费操逼视频| 欧美成人精品一区二区综合| 91精品国产91久久久无码色戒| 亚洲肥婆一区二区三区| 白白在线视频免费观看嘛| 国产办公室沙发系列高清| 国内少妇偷人精品视频免费| 东京热无码人妻中文字幕| 手机在线播放av网址| 国产av一区二区三区传媒| 99久久国产露脸精品竹菊传媒| 国产尤物二区三区在线观看| 黄色潮片三级三级三级免费| 强开少妇嫩苞又嫩又紧九色| 欧洲-级毛片内射| 天堂岛国精品在线观看一区二区| 午夜福利视频合集1000| 九色91精品国产网站| 亚洲国产成人久久精品美女av| 日本免费一区二区在线视频播放| 99热爱久久99热爱九九热爱| 高清国产日韩欧美| 美女福利视频网址导航| 中文区中文字幕免费看| 久久久久久久性潮| 久久精品国产亚洲av成人擦边 |