亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本細粒度情感分析研究綜述

        2022-08-04 02:44:30譚翠萍
        大學圖書館學報 2022年4期
        關鍵詞:細粒度三元組觀點

        譚翠萍

        1 引言

        情感分析又名意見挖掘[1],主要研究如何從文本中發(fā)現(xiàn)或挖掘人們對于某種事物、產(chǎn)品或服務所表達出的情感、意見或情緒[2]。情感分析結果為主觀態(tài)度,一般分為三類:積極的、消極的和中立的。隨著大數(shù)據(jù)時代的到來,情感分析已經(jīng)成為一個活躍的研究領域,目前在產(chǎn)品評論、社交媒體和在線博客等領域均有一定應用[3]。從分析的粒度層次來看,文本情感分析可分為粗粒度和細粒度層次分析,粗粒度層次分析有篇章級(文檔級)和句子級情感分析,細粒度層次情感分析則是基于評價對象及其屬性的分析[4]。由于實際應用場景中,人們不光要識別一篇文檔或者一個句子中包含的觀點,還需要識別觀點或情感所表達或評價的對象,以及針對這些對象所具體表達的觀點傾向[5]。在這種情況下,學者們逐步深入細粒度情感分析領域,研究基于方面、屬性或主題、實體的情感抽取、分類[6-9]。

        為了深入研究細粒度情感分析方法,歸納現(xiàn)有成果、存在問題與面臨挑戰(zhàn),本文以“細粒度情感分析”[4,10]、“方面級情感分析”[4,10]、“屬性級情感分析”[4]、“實體級情感分析”[4]、“意見挖掘”[10];“Fine Grained Sentiment Analysis”[4,10]、“Aspect Level Sentiment Analysis”[4,10]、“Attribute Level Sentiment Analysis”[4]、“Entity Level Sentiment Analysis”[4]、“Opinion Mining”[10]為關鍵詞在CNKI平臺、Web of Science核心合集檢索近十年細粒度情感分析研究文獻,發(fā)現(xiàn)2017年至今該領域發(fā)展較快(見圖1),值得深入研究與總結;其中:Web of Science 2017—2021年相關文獻932篇,CNKI2017—2021年相關文獻166篇。筆者結合文獻相關度、引用情況、最新發(fā)表情況,對重點文獻向前追溯、向后追蹤,精讀有代表性研究87篇,發(fā)現(xiàn)隨著細粒度情感分析研究的深化,不同層次粒度的情感分析研究也得到了推動與發(fā)展。

        圖1 2012—2021年細粒度情感分析研究文獻數(shù)量

        經(jīng)研究,筆者發(fā)現(xiàn)細粒度情感分析在社交媒體、在線評論、商業(yè)投資等領域有了一定應用[11]。實際的應用需求不斷倒逼領域研究發(fā)現(xiàn)新問題,產(chǎn)生新任務,創(chuàng)造新方法。本文利用Citespace工具,采用基于研究主題數(shù)量變化的定量分析與基于代表性文獻調(diào)研的定性分析相結合的方法,從細粒度情感分析領域年度研究主題變化(如圖2),發(fā)現(xiàn)現(xiàn)階段細粒度文本情感分析研究的新任務及新技術;同時結合文獻精讀,對該領域最新任務、最新技術的研究進展進行總結。

        圖2 2017—2021年細粒度情感分析研究文獻主題變化圖

        從最新任務角度,筆者欣喜地發(fā)現(xiàn)方面級情感分析三元組、多粒度情感分析、隱式情感分析、情感依賴關系抽取等任務不僅引起國外學者們的關注,成為領域研究熱點,同時也取得了一定的實質(zhì)性進展。尤其是方面級情感分析三元組任務研究成果,可以一次性給出方面術語、觀點詞與情感極性的解決方案,可使細粒度情感分析向?qū)嶋H應用更進一步。從最新技術角度,筆者發(fā)現(xiàn)機器學習、情感詞典、遷移學習為細粒度情感分析的主要技術,其中圖卷積神經(jīng)網(wǎng)絡GCN等深度學習方法在處理情感依賴關系抽取方面表現(xiàn)優(yōu)異,而遷移學習技術在解決跨語言、跨領域的情感分析方面潛力巨大。具體研究框架如圖3所示。

        圖3 本文研究框架

        2 相關研究

        2.1 篇章級情感分析

        篇章級情感分析(Document-Level Sentiment Analysis,DLSA)是對整個篇章(文檔)進行情感極性分類的任務,一般分為積極或消極[5]。這一層次的分析是假設該文檔表達了對單個實體的意見,因此它不適用于評估或比較多個實體的文檔[9]。文檔級情感分析一般采用基于監(jiān)督的情感分類方法,比如SVM、樸素貝葉斯等機器學習算法;或采用基于詞典的無監(jiān)督情感分類方法,比如SentiWordNet等[10]。雖然文檔級情感分析研究早期是特征工程與機器學習算法在實際中的直接應用,但隨著細粒度情感分析研究的深入,該領域研究也由粗及細,由細補粗,成為多粒度相互結合的應用場景[12-14]。郝飛(Hao F)等從細粒度情感分析中得到啟發(fā),嘗試首先了解文檔背后潛在的目標意見分布,然后利用這些細粒度的先驗知識進行分類[12]。吳正浩(Wu Z H)等針對現(xiàn)有的基于方面的情感分類主要是從短文本(少于100字)中獲取情感極性,幾乎沒有分析長文檔(超過500字),提出了面向方面的長文檔分層框架[13]。魏凌偉(Wei L W)等提出了一種層次交互網(wǎng)絡(Hierarchical Interactions Networks,HIN),用于探索摘要和文檔之間在多粒度上的雙向交互學習,以提高情感分類性能[14]。

        從以上篇章級情感分析研究可以看出,隨著細粒度情感分析方法的研究深入,粗粒度情感分析也得到了改進與提升。

        2.2 句子級情感分析

        相較于篇章,句子較短,包含的情感信息也更少,因此句子級情感分析(Sentence-Level Sentiment Analysis,SLSA)較篇章級情感分析更難。句子級情感分析假設一個句子只表達一個觀點,即一種情感[5]。無法使用劉冰(Liu B)的五元組(ej; ajk; soijkl; hi; tl) 對其定義,因為句子級情感分析不關注觀點評價對象ej、觀點持有者hi和觀點發(fā)布時間tl等信息的抽取與識別[15]。句子級情感分析與篇章級情感分析的技術方法相似,但解決的重點問題不同。(1)該項任務的第一步為主客觀分類,即是對含觀點和不含觀點的句子進行劃分[16]。針對這一問題,桑吉塔(Sangeetha K)等利用雙積分條件隨機場(Bi-Integrated Conditional Random Fields,Bi-CRF)來尋找給定句子的目標,取得了很好的效果[17]。(2)每個句子在一篇文檔中,不是單獨存在的,需要理解上下文信息。針對這一問題,亞達夫(Yadav A)等提出了一種基于深度語言無關的多級注意的卷積雙門控網(wǎng)絡(A Deep Language-independent Multilevel Attention-based Conv-BiGRU Network,MACBiG-Net),通過關注文本的局部特征以及上下文信息,來捕捉文檔中句子情感分類線索[18]。(3)原有句子級情感分析往往忽略每個句子對整個文本重要性的差異。針對這一問題,王平(Wang P)等提出一種多頭自我注意的句對句注意網(wǎng)絡(A Sentence-To-Sentence Attention Network,S2SAN)[19],取得較好的效果。

        盡管篇章級、句子級情感分析已較為成熟,但它們都是假定一段文本表達的情感是統(tǒng)一的、一致的,這在現(xiàn)實中往往不成立,如“這是一個超薄、時尚、好看的計算機,但是觸摸板非常令人沮喪!”在這個描述中,“計算機”有三個正向觀點:“超薄”“時尚”“好看”,“觸摸屏”有一個負向觀點:“令人沮喪”;無法簡單將句子歸結成統(tǒng)一情感,因此篇章級、句子級情感分析方法無法滿足更細粒度的情感分析需求[4,20-21]。

        2.3 方面級情感分析

        細粒度情感分析,主要包括方面級情感分析(Aspect-Level Sentiment Analysis,ALSA;或Aspect-based Sentiment Analysis,ABSA),旨在明確特定方面相關的情感,一般包括三個要素[22]:方面術語(Aspect Term )、觀點詞(Opinion Term)和情感極性(SP,Sentiment Polarity)。如圖4所示:

        圖4 方面級情感分析的三要素關系示例

        句子中“meat”“bread”為方面術語,情感極性都為正向,“delicious”“very good”為觀點詞。圍繞這三個要素,共有7項任務[23],如表1所示。

        表1 細粒度情感分析的子任務

        方面提取(Aspect Term Extraction,ATE):從句子中提取所有方面術語。觀點提取(Opinion Term Extraction,OTE):從句子中提取所有觀點詞。方面級情感分類(Aspect-level Sentiment Classification,ALSC):預測句子中每個給定方面術語的情感極性。面向方面的觀點抽取(Aspect-oriented

        Opinion Extraction,AOE):為句子中的每個給定方面抽取成對的觀點詞。方面提取和情感分類(Aspect Term Extraction and Sentiment Classification,AESC):同時提取方面術語以及相應的情感極性。關聯(lián)對抽取(Pair Extraction,Pair):同時抽取方面術語和相應的觀點詞。三元組抽取(Aspect Sentiment Triplet Extraction,ASTE):同時抽取方面術語、相應的觀點詞和情感極性。

        其中,方面級情感三元組抽取(Aspect Sentiment Triplet Extraction,ASTE)是方面級情感分析領域最新的子任務[24],在本文第3章會重點闡述。

        為清晰反映現(xiàn)階段細粒度文本情感分析領域的研究熱點,發(fā)現(xiàn)領域最新研究任務與研究方法,筆者將2020—2021年的細粒度情感分析數(shù)據(jù)導入Citespace工具,通過Keyword聚類,對比各個年度關鍵詞分布,發(fā)現(xiàn)方面提取(對應圖5中aspect extration、aspect level、aspect category detection、aspect weight、aspect term extraction等關鍵詞)、方面級情感分類(對應圖5中emotion recognition、feature extraction等關鍵詞)等傳統(tǒng)子任務仍為研究熱點,同時也發(fā)現(xiàn)了一些新的研究任務與技術方法(詳見第3、4節(jié))。

        圖5 2020—2021年方面級情感分析的研究熱點

        3 細粒度情感分析最新任務及研究進展

        細粒度情感分析領域的研究是循序漸進的,新任務的發(fā)展離不開傳統(tǒng)子任務的成果積淀。傳統(tǒng)子任務主要解決的是顯性方面、觀點的提取與情感分類,并取得了一定成果,如拉馬斯瓦米(Ramaswamy S L)等人在Rest16測試集上的方面級情感分析F1值達到93.77%[25]。而伴隨著細粒度情感分析方法的深入應用,方面級情感分析研究由單項任務到組合任務,方面提取研究也從顯式走向隱式,相繼產(chǎn)生了一些新的任務。

        筆者通過分年度對比細粒度情感分析最新任務(圖4紅色框標注部分),結合文獻精讀,總結出近兩年細粒度文本情感分析的最新任務為方面級情感分析三元組、多粒度情感分析、隱式情感分析、依賴關系抽取。

        3.1 方面級情感三元組抽取

        方面級情感三元組抽取(Aspect Sentiment Triplet Extraction,ASTE)是方面級情感分析領域最新的子任務[24],包括方面術語、觀點詞、情感極性,即:。以往三元組抽取方法通常單獨抽取三個組成部分,或者首先識別方面和觀點術語,再預測情感極性。自彭海云(Peng H Y)等人首次一次性給出方面級情感分析三元組的解決方案后[24],該方向就引起一些研究者的重視[23-24,26-29],筆者查到近兩年三元組抽取文獻雖然只有14篇,但有12篇為2021年發(fā)表,且該項任務基于基準數(shù)據(jù)集(14Lap、14Rest、15Rest、16Rest)[23-24,26-29]的F1值提高速度很快(見表2),說明該子任務值得關注與總結。

        表2 ASTE研究對比表

        現(xiàn)有針對ASTE任務的解決方法可分為基于分層、機器閱讀理解、文本生成、端到端的三元組抽取方法。

        (1)分層/分階段的ASTE方法

        彭海云(Peng H Y)等人構建了雙層LSTM神經(jīng)結構,用于方面抽取、方面情感分類和觀點詞抽取,并使用圖卷積網(wǎng)絡組件捕獲依賴信息,一次性回答了方面術語是什么(What)、其情感極性如何(How)以及為什么是這樣的情感極性(Why)[24]。該方法第一階段通過聯(lián)合標記抽取候選方面術語、情感極性及觀點詞。第二階段將候選方面術語和觀點詞結合起來,確定它們之間的成對情感關系。該方法無需特定領域或三元組的訓練數(shù)據(jù),通過距離來獲取方面術語與觀點詞之間的關系,該研究在14Rest數(shù)據(jù)集上ASTE任務的F1值達到51.89,成為ASTE領域的重要基線。

        經(jīng)過后面的研究(詳見表2),發(fā)現(xiàn)該方法存在一定的不足,主要是方面情感往往由方面上表達的觀點詞所決定,這種分階段的方法打破了三元組結構中的相互作用。此外,流水線方法通常會遇到錯誤傳播問題。這在后面的研究中得到了改進,從而提升了性能。

        簡(Jian S Y B)等(2021)采用分層強化學習方法,將ASTE任務分解為面向方面的情感分類、觀點詞抽取、方面術語抽取等3個子任務,并將其分為兩個層級[26]。首先通過高層級的情緒掃描,識別并標記某個方面數(shù)據(jù)表達的情感極性;然后在低層級開展觀點詞和方面術語抽取,并將抽取結果作為情緒的參數(shù)進行序列標注;從低層級處理完后返回高層級情感掃描,直至完成。該模型中加入了多輪機器閱讀理解方法,以進一步改進子任務間的交互。經(jīng)實驗,ASTE任務在14Rest數(shù)據(jù)集的F1值為69.61%。

        徐璐(Xu L)等提出了一種雙通道span剪枝策略,該策略結合了來自方面術語抽取(ATE)和觀點詞抽取(OTE)任務的監(jiān)督[28]。該策略不僅提高了計算效率,而且能更準確地區(qū)分觀點和目標范圍。該模型使用BiLSTM、BERT編碼器在4個基準數(shù)據(jù)集上進行了驗證,其中14Rest數(shù)據(jù)集的F1值為71.85%。

        (2)基于端到端的ASTE方法

        嚴航(Yan H)等將包含方面級情感三元組抽取等7個子任務目標重新定義為由指針索引和情感類索引混合的序列,而后將所有子任務轉(zhuǎn)換為統(tǒng)一的生成公式[23]。在統(tǒng)一公式的基礎上,利用BART預訓練模型在端到端框架中求解所有子任務。經(jīng)實驗證明,該框架性能優(yōu)異,基于14Rest數(shù)據(jù)集的ASTE任務F1值為65.25%。

        (3)基于文本生成的ASTE方法

        基于彭海云(Peng H Y)的研究[24],張文軒(Zhang W X)等提出基于生成方面的情感分析(the Generative Aspect-based Sentiment analysis,GAS),為此定制了兩種范式,即注釋樣式和提取樣式建模[27]。在注釋風格范例中,為了指出方面和觀點術語之間的關系,以[aspect | opinion | sentiment polarity]的形式將相關的觀點修飾符附加到每個方面術語,以構建目標句子;在提取樣式建模中,將所需的方面(包括隱式方面)三元組(aspect1,opinion1,sentiment polarity1);(aspect2,opinion2,sentiment polarity2)串聯(lián)起來作為目標輸出?;谏鲜鯣AS統(tǒng)一框架,張文軒(Zhang W X)等對包含ASTE在內(nèi)的4種方面級情感分析任務進行了對比實驗,經(jīng)實驗驗證,該框架在14Rest數(shù)據(jù)集上ASTE任務的F1值達到72.16[27]。該研究是將ABSA任務轉(zhuǎn)化為文本生成問題的初步嘗試。

        (4)基于機器閱讀理解框架的ASTE方法

        機器閱讀理解MRC方法是基于給定的上下文來回答特定的問題?;贐ERT的MRC一般會把問題和上下文進行拼接,送入BERT中得到隱藏層表示。陳少偉(Chen S W)等將ASTE任務轉(zhuǎn)化為多輪機器閱讀理解(Multi-turn Machine Reading Transform, MTMRC)任務,并提出了一個雙向機器閱讀理解框架,設計了三種類型的查詢,包括非限制性抽取查詢、限制性抽取查詢和情感分類查詢,以建立不同子任務之間的關聯(lián)[29]。此外,考慮到一個方面情感三元組可以來自一個方面或一個觀點表達,設計了一個雙向機器閱讀理解結構。一個方向依次識別方面、觀點和情感極性以獲得三元組,而另一個方向首先識別觀點,然后識別方面,最后識別情感極性。這兩個方向相互補充,可以更全面地識別方面情感三元組。經(jīng)實驗驗證,該研究在14Rest數(shù)據(jù)集上ASTE任務的F1值達到70.69。

        經(jīng)過以上研究,相較于最初彭海云(Peng H Y)的研究結果[24],ASTE任務在4個基準數(shù)據(jù)集的F1值增長超過10個百分點,總體而言,針對句子中單個方面的情感分析三元組方面抽取有了很大進步,但在多重三元組抽取方面仍不夠理想,是未來努力的方向。

        3.2 多粒度情感分析

        多粒度情感分析(Multi-grained Sentiment Analysis)是根據(jù)表達情感信息量的多少來區(qū)分粒度層次[30],并對不同粒度層次的內(nèi)容進行情感分析。在線評論的細粒度情感分析在許多應用中發(fā)揮著越來越重要的作用,這里的關鍵技術是如何有效地提取多粒度方面,識別相關的觀點,并對情感極性進行分類,如圖6所示。

        圖6 多粒度情感分析元素關系示例

        在這個描述中,需提取多個方面,即一個是一般方面“computer”和一個特殊方面“touch pad”。其中有三個具體意見“slim”“fashion”“good-looking”,以及一個總體意見“frustrating”。最后,對提取的方面進行分類和匯總。“computer”上的“slim”“fashion”“good-looking”是積極的觀點,而“touch pad”上的“frustrating”是消極的觀點。

        由此可見,多粒度情感分析對于分析復雜語境、明確多重方面的總體觀點具有實際的研究意義,具有代表性的方案有:

        在粒度的區(qū)分方面,一些研究者通過粗細粒度分類器或變換器,以獲得上下文的短語級表示,取得了一些進展[31-32]。唐飛龍(Tang F L)等提出了一種聯(lián)合的基于方面的情感主題模型(Joint Aspect-Based Sentiment Topic,JABST),用于識別方面和觀點粒度的方法,該模型對方面、觀點、情感極性和粒度聯(lián)合建模,以提取多粒度的方面和觀點[33]。在這項工作中,方面和觀點粒度分為一般和特定粒度。一般方面和觀點指的是大多數(shù)評論中包含的基本觀點或背景詞,而特定方面和觀點則用于捕捉一些細粒度的特征,因此特定方面的觀點可以在評論中捕捉到比單粒度情緒分析更準確的信息。最后,對提取的方面進行分類和匯總。此外,通過監(jiān)督學習,提出了基于最大熵的JABST模型(MaxEnt-JABST),以提高觀點和方面提取的準確性和性能。該模型通過對電子設備和餐廳的評論實驗結果表明,所提出的模型優(yōu)于基線,可以較好地識別細粒度的方面和觀點。

        注意力機制被廣泛應用于多粒度情感分析領域[34-36]。其中,甘陳泉(Gan C Q)等提出了一種用于多實體情緒分析的基于自注意的分層擴張卷積神經(jīng)網(wǎng)絡(SA-HDCNN,Self-Attention based Hierarchical Dilated Convolutional Neural Network),該網(wǎng)絡將任務直接轉(zhuǎn)化為避免分解的序列標記問題,并適用于并行計算[35]。具體來說,SA-HDCNN主要由編碼、特征提取和解碼模塊組成。編碼模塊將輸入句子映射到一個包含語義和情感信息的單詞嵌入矩陣中。接下來,由特征提取模塊分別通過HDCNN結構和自我注意機制學習編碼句子的多尺度局部特征和詞間全局相關性。然后,解碼模塊輸出標簽序列,從而完成對多個目標實體及其對應情感極性的自動識別。該模型在Review(F1:63.33%)和Twitter(F1:73.04%)多方面數(shù)據(jù)集上進行了驗證,既不限制目標實體的數(shù)量,也不依賴任何特定領域的信息或優(yōu)先功能,表明該方法具有很好的適用性。

        在提升多粒度預訓練任務方面,陳越澤(ChenY Z)等提出了基于ALBERT的多粒度注意力表示方法(MGAR-ALBERT),它可以學習句子和多個方面的相關信息表示,同時將其集成到多粒度的句子建模過程中,最終得到全面的句子表示;同時在n-gram中引入噪聲線性余弦衰減方法,以避免預訓練中對方面遮掩的影響,優(yōu)化預訓練任務[36]。該方法基于Rest14數(shù)據(jù)集得到的F1值為77.68%。

        國內(nèi)也有一些研究者利用序貫三支決策方法來構建多層粒結構,從最粗粒度層級到最細粒度層級進行一系列的多階段三支決策,在每步?jīng)Q策時對信息不充分的對象采取延遲決策的策略[30,37-39]。三支情感分類決策分別是正向決策、負向決策和延遲決策。在每一粒層,當現(xiàn)有信息充分時,可以直接作出接受或拒絕的判斷;而對當前信息不能支持其作出決策時,可以將對象劃分到邊界域中,并在更細粒層下獲取更充分的信息后對其進行劃分,依此類推,直到邊界域中的對象被逐漸劃分到正域或負域中。楊新等在原有的基礎上,提出了基于時空多粒度的序貫三支情感分析方法,利用隨時間增加的數(shù)據(jù)和擬合度較高的特征空間,構造具有時空特性的多層粒結構,平衡誤分類代價和訓練代價[39]。

        總體而言,多粒度情感分析復雜度較高,目前在分層或分類決策、注意力機制等方面開展了一些研究,但其性能、準確度仍有待進一步提高。

        3.3 隱式情感分析

        隱式情感分析(Implicit Sentiment Analysis)的核心任務是對隱式方面的提取。在方面級情感分析過程中,特征提取是一個關鍵過程,它可以是隱式的,也可以是顯式的[40]。已有研究多數(shù)都是針對顯式方面進行抽取,而較少對隱式方面進行深入研究。圖比沙(Tubishat M)等、甘甘沃(Ganganwar V)等對2005年至2018年間的隱式方面情感分析文獻進行調(diào)研,發(fā)現(xiàn)以往研究主要是基于無監(jiān)督和半監(jiān)督的方法提取句子中的隱性特征[40-41]。筆者重點對2020年以來的隱式方面抽取進行了研究,發(fā)現(xiàn)研究主要通過詞共現(xiàn)、屬性聚類、依賴關系分析等方法提高隱式方面抽取效果(見表3)。

        表3 隱式方面抽取研究對比表

        拉納(Rana T A)等提出了一種使用共現(xiàn)和基于相似性技術來識別隱含方面的多層次方法[44]。該模型不僅使用了觀點詞共現(xiàn),而且還利用了顯式方面和領域相關的觀點詞(概念)來正確識別用戶意見的隱含方面。該研究的重點是提取用戶意見的隱式方面線索(Implicit Aspect Clues,IACs),并借助隱式方面線索識別用戶意見的真實目標。具體方法分為兩步: 第一步是制定句子中隱式方面線索的識別規(guī)則;第二步是將提取出來的線索分配給句子中的方面。該模型不僅可以提取與意見詞相關的隱式方面線索,還可以將線索分配給未識別出關聯(lián)的觀點詞。該方法基于SemEval 2014、數(shù)碼產(chǎn)品用戶評論數(shù)據(jù)集進行了實驗,結果優(yōu)于Importance Score(IS)、Context-based(CB)、Context-Weight(CW)等3種隱式方面識別基線方法。許倩楠(Xu Q N)等提出了一種基于非負矩陣分解(NMF)的隱式方面識別方法[45]。該方法基于方面和觀點詞之間的相互關系對方面進行聚類,并利用方面集合和觀點集合之間的內(nèi)在關系來提高聚類性能;同時構造了一個分類器來識別和預測目標隱含方面。該研究在CR和ABSA15數(shù)據(jù)集上得到了驗證,F(xiàn)1值為0.722,取得了很好的性能,尤其適合在大型數(shù)據(jù)集上的隱式方面識別。

        現(xiàn)有的隱式方面識別研究大多是針對特定方面的產(chǎn)品評論,而忽略了句子的依賴性。針對這一問題,米爾(Mir J)等提出了一種多層次的電影隱式方面識別知識工程方法[42]。第一步是使用BiLSTM-CRF來識別顯式方面,而后將識別出的顯式方面作為方面映射算法的輸入來推斷隱式方面。它可以從獨立句和三種依賴句中識別隱式方面。這項研究基于5萬條大型電影評論數(shù)據(jù)集進行了實驗。結果表明,隱式方面提取的F1值為0.76,優(yōu)于NMFIAD和ML-KB+模型。

        為了識別隱藏在在線評論中的評價屬性,張晶(Zhang J)等提出了一種結合詞嵌入、共現(xiàn)信息和依賴性分析的方法,該方法可以幫助以無監(jiān)督方式獲取詞義信息和依賴關系,并能有效地發(fā)現(xiàn)隱藏的屬性[43]。該研究定義了一個情緒三元組(名詞、形容詞和副詞)來表示在線評論中包含的情緒元素,并使用依賴關系解析技術來識別情緒元素之間的依賴關系,有效地提高了評價屬性及其情感值的識別性能。該方法基于攜程網(wǎng)在線酒店評論數(shù)據(jù)進行了驗證,F(xiàn)1值為0.73。結果表明,這種結合詞嵌入、共現(xiàn)信息和依賴性分析的隱式方面提取方法優(yōu)于單一方法。

        3.4 情感依賴關系抽取

        多個方面的情感極性之間的潛在相關性,即為情感依賴(Sentiment Dependency),情感依賴問題是方面級情感分析需要解決的問題[46-50]。目前主要是基于句法結構的情感依賴關系抽取。

        (1)基于句法結構樹的情感依賴建模

        雖然情感依賴和句法依賴不是嚴格等價,但研究人員試圖基于句法依賴樹建立情感依賴模型,并取得了一些進展。孫凱(Sun K)等提出了基于獨立樹的情感依賴關系抽取模型,并獲得了很好的性能[46]。徐寬弘(Xu K H)等和張晨(Zhang C)等, 使用帶有注意機制的GCN(Graph Convolutional Network)來學習依賴樹,依賴樹可以縮短語法相關單詞之間的距離,可以有效地從圖形結構數(shù)據(jù)中提取信息,以獲得預期效果[47-48]。

        (2)基于情感模式的情感依賴建模

        楊航(Yang H)等發(fā)現(xiàn)大多數(shù)情感依賴發(fā)生在相鄰的方面之間,并將具有相同情緒的連續(xù)方面定義為情緒簇[49]?;诖?,該研究提出了利用情緒模式(Sentiment Patterns)來指導模型的依賴關系學習。該情緒模式包括情緒集群(Sentiment Cluster)、情緒一致性(Sentiment Coherency)兩種,情緒集群是指用戶傾向于根據(jù)情感極性類別對方面進行聚類;情緒一致性,是指在啟發(fā)式思維的情況下,用戶可能會在任何思維暫停時,提出一個與預先評論的方面具有相同極性的方面。情緒一致性模式分為全局一致性和局部一致性。

        該研究引入局部情緒聚合(LSA)機制,重點學習情緒聚類中的情緒依賴性;同時提出了聚合窗口構建的差異權重來衡量情緒依賴的重要性,并在Lap14(F1:78.35%)、Rest14(F1:81.04%)、Rest15(F1:72.22%)、Rest16(F1:79.50%)等四個公共數(shù)據(jù)集上進行實驗,實現(xiàn)了很好的性能。由于沒有額外的依賴矩陣構造和建模,該方法比原有基于依賴樹的模型更有效。

        4 細粒度文本情感分析最新技術

        基于原有研究成果[4,6,11,50-55],筆者通過分年度對比細粒度情感分析最新技術情況(見前文圖2、圖5),發(fā)現(xiàn)目前細粒度文本情感方法仍為基于機器學習的方法、基于情感詞典的方法,其中在機器學習方法中,深度學習方法被廣泛應用?,F(xiàn)階段使用最多的技術方法依次為CNN、DNN、GCN、SVM、LSTM/BiLSTM、RNN、Ontology、LDA、lexicon等,如前文圖5藍色框標注部分所示。

        細粒度情感分析是一個活躍而蓬勃發(fā)展的研究領域,具有很強的實際應用價值。在該領域,研究人員不斷提出、評估和比較不同的方法,目的是提高細粒度情感分析的性能,找到可以解決該領域挑戰(zhàn)的方法。本節(jié)的目的是對細粒度情感分析的近期常用方法進行概述。

        4.1 基于機器學習的情感分析方法

        深度學習方法優(yōu)于傳統(tǒng)機器學習方法,目前已被廣泛應用于細粒度情感分析領域,主要包括圖形卷積網(wǎng)絡GCN、深度神經(jīng)網(wǎng)絡DNN、卷積神經(jīng)網(wǎng)絡CNN、遞歸神經(jīng)網(wǎng)絡RNN等,相關理論方法已在相關研究中有所闡述[51-52],本節(jié)重點總結現(xiàn)階段細粒度情感分析領域的深度學習技術特點、基線,具體見表4。

        表4 深度學習方法對比表

        4.2 基于詞典的情感分析方法

        利用情感詞典和語言規(guī)則的方式解決方面級情感分析任務,更接近于傳統(tǒng)情感分析方法利用情感詞典的解決思路,需要使用標注好的情感詞典或語言規(guī)則來判別情感極性[63]。隨著網(wǎng)上一些新詞匯的大量出現(xiàn),基于情感詞典的方法在這些新的語料上表現(xiàn)不佳,甚至出現(xiàn)錯誤[64]。目前SentiWordNet在細粒度情感分析領域使用最為廣泛[52],如:伊曼(Aboelela E M )等將SentiWordnet應用于方面術語提取,構建了基于語義關系的方面術語提取(SALOM)模型,該模型在M-phone數(shù)據(jù)集上的F1值達到97.7,效果很好[65]。經(jīng)歸納,筆者認為基于詞典的情感分析研究呈現(xiàn)以下趨勢。

        (1)情感詞典逐漸不再獨立使用,而是與深度學習算法相結合,通過知識增強[66],提升細粒度情感分析的性能。如:梁斌(Liang B)等將SenticNet與GCN相結合,構建圖神經(jīng)網(wǎng)絡,以增強句子的依賴圖,取得了很好的效果[56]。詹恩(Jain P K)等將SenticNet納入BERT-DCNN模型,使其能夠?qū)崿F(xiàn)概念層面的情感分析[67]。

        (2)MPQA、How net、NTUSD、情感詞匯本體庫等傳統(tǒng)情感詞典逐漸成為種子詞典,成為特定領域情感詞典構建的基礎組件[68-71]。

        本節(jié)對常用的情感詞典進行了梳理,并總結了相應特點與最新利用情況,具體見表5。

        表5 常見的詞典

        4.3 遷移學習

        遷移學習(Transfer Learning,TL)是一種利用數(shù)據(jù)、數(shù)據(jù)分布、模型任務等的相似性,將一個領域中已經(jīng)學習到的知識應用到新領域的方法[77]。方面級情感分析是針對一個評論中涉及多種方面類別時的情感分析,現(xiàn)有方法通常利用方面級數(shù)據(jù)集在神經(jīng)網(wǎng)絡模型上直接進行訓練,但已標注的方面級訓練數(shù)據(jù)規(guī)模較小,導致模型不能充分學習而性能受限[44]。遷移學習非常有用,可用于將獲得的情感分類能力從一個領域轉(zhuǎn)移到另一個領域,快速構建方面級數(shù)據(jù)集[78-79]。孫佳慧等通過目標函數(shù)及注意力融合方法,將文檔級情感分析模型中的注意力權重融合到方面級情感分析模型中,從而使方面級文本情感分析性能得到提升[78]。

        原有遷移學習模型輸出層使用的softmax功能僅支持單標簽分類任務,故原有遷移學習模型并不支持多標簽分類[77-79];針對這一問題,陶杰(Tao J)等設計了一種多標簽的語義分析方法,并在Yelp 數(shù)據(jù)集上做了驗證,效果超過基線[80]。另外在跨語言學習方面,苯索坦(Bensoltane R)等提出一種面向阿拉伯語的方面級情感分析遷移學習模型,該模型在方面術語提取、方面類別檢測任務的總體增強率分別超過基線6%和19%[81]。

        5 總結與展望

        近年來細粒度情感分析研究熱度很高,對于方面和觀點抽取、情感分類等基礎任務已經(jīng)有了很多研究與闡述[4,11,15,51-55],本文重點聚焦該領域的新近問題,探討細粒度情感分析的最新任務、關鍵技術與發(fā)展趨勢。

        本文基于Citespace對文本細粒度情感分析領域文獻進行了主題變化研究,研究發(fā)現(xiàn),方面級情感三元組抽取、多粒度情感分析、隱式情感分析、情感依賴關系抽取為本領域最新任務,且取得了明顯的研究進展。筆者認為,隨著深度學習、遷移學習等技術在該領域的不斷深化,以上任務有望取得更大進步。

        盡管細粒度情感分析領域發(fā)展整體走勢良好,但長期以來一直橫亙于該領域科學研究與實際應用之間的難點仍然存在,主要包括諷刺識別、復指與共指消解、語義消歧、跨語言情感分析等,這些難點不僅屬于文本細粒度情感分析領域,更是自然語言處理范疇需要解決的難題。

        (1)諷刺識別

        由于諷刺表達在我們?nèi)粘I钪斜粡V泛使用,而諷刺的復雜性和模糊性使得諷刺識別成為一項極具挑戰(zhàn)性的工作[82]。雖然一些研究者已經(jīng)開展了這方面的研究[82-84],其中:任路(Ren L)等采用基于BERT的方面級情感分析方法提取上下文關系,并確定其是否具有諷刺性,該模型在Reddit數(shù)據(jù)集上的F1值為73.4%[84]。但目前諷刺對象的精準識別仍是難點,因為即便面對同一句話,不同的人對諷刺目標的識別也可能會有很大差異[72]。

        (2)復指與共指消解

        復指與共指都是語言術語之間的相互參照關系[73]。在情感分析中,尤其是基于方面的分析中,識別代詞在句子中指代的具體內(nèi)容非常有用,有助于提取給定實體的所有方面。然而,現(xiàn)有的研究處理中,代詞通常被忽略或刪除。雖然已有一些學者研究了復指與共指算法[85-86],但該領域仍需深入研究與不斷改進。

        (3)詞義消歧

        詞義消歧是在特定語境下正確識別詞義的過程。不同語境下,單詞的含義不同,這對細粒度情感分析非常重要。一些研究利用WordNet與深度學習方法相結合[72-73,87],來進行詞義消歧,取得了一定進展。如:阿布達拉噶(Abdalgader K)等提出了一種基于圖的語義消歧方法,該方法通過WordNet獲得所有可用語義信息,以增加圖形語義連接性,從而識別給定上下文中單詞的預期含義[73]。與現(xiàn)有的無監(jiān)督語義消歧方法相比,取得了優(yōu)異的性能,在SemEval-15基準數(shù)據(jù)集上的ACC值達到83.9%。

        (4)跨語言情感分析

        在現(xiàn)有細粒度情感分析領域,大多數(shù)研究集中在英語[56]。由于不同語種的句法、語法都有較大差異,往往在英語基準數(shù)據(jù)集上驗證可行的技術方法,移植到其他語種數(shù)據(jù)集上就不能適用。而對于非英語的情感分析研究而言,最大的問題是缺少足夠可用的語料庫,而構建適合不同用途的語料庫往往需要很長時間,且花費大量人力,遷移學習為快速構建相近領域的語料庫提供了一種方法[78-81],但從長期看,構建多語言語料庫仍是一件非常基礎且非常重要的工作。

        從以上難點來看,筆者認為解決跨語言情感分析問題雖工程浩大,但從長期來看,已有英語語種的情感分析經(jīng)驗可以借鑒,遷移學習技術也日漸成熟,只要研究者們不斷付諸努力,仍然有望攻克此難題。詞典的運用可以從一定程度上輔助詞義消歧,但要想完全消除詞語歧義是不可能的,未來可結合GCN等深度學習技術,提高詞義消歧效果。另外,諷刺識別、復指與共指消解這兩個難點需要在自然語言處理技術整體提高后,才有望解決。

        文本細粒度情感分析的發(fā)展帶動著情感分析領域的整體發(fā)展,隨著新技術的不斷深化,領域難點將逐漸轉(zhuǎn)化為新任務,各項任務的解決也推動著領域的不斷應用與發(fā)展,未來該領域還將遇到新的機遇與挑戰(zhàn)。

        猜你喜歡
        細粒度三元組觀點
        基于語義增強雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
        融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
        紅外技術(2022年11期)2022-11-25 03:20:40
        細粒度的流計算執(zhí)行效率優(yōu)化方法
        高技術通訊(2021年1期)2021-03-29 02:29:24
        關于余撓三元組的periodic-模
        觀點
        基于雙線性卷積網(wǎng)絡的細粒度圖像定位
        支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
        業(yè)內(nèi)觀點
        營銷界(2015年22期)2015-02-28 22:05:04
        新銳觀點
        清風(2014年10期)2014-09-08 13:11:04
        国语自产偷拍精品视频偷| 亚洲人妻御姐中文字幕| 国产一区二区三区视频在线观看| 欧美黑人又大又粗xxxxx| 在线亚洲欧美日韩精品专区| 免费国产黄线在线播放| 一区二区三区在线观看精品视频| 日本一区二区三区高清在线视频 | 我把护士日出水了视频90分钟 | 国产精品无码一本二本三本色| 99久久精品免费看国产| 久久综合精品国产二区无码| 久久精品视频91| 亚洲女同精品一区二区久久| 欧美精品欧美人与动人物牲交| 无码人妻精一区二区三区| 性做久久久久久久| 国产我不卡在线观看免费| 久久久久久自慰出白浆| 国产精品久久婷婷六月丁香| 亚洲av中文aⅴ无码av不卡| 毛片在线视频成人亚洲| 娜娜麻豆国产电影| 人妻少妇精品中文字幕专区| 国产精品无码午夜福利| 连续高潮喷水无码| 国产91久久精品成人看网站| 日韩av高清在线观看| 无码人妻一区二区三区免费| 极品粉嫩小仙女高潮喷水视频| 日本成年一区久久综合| 少妇高潮喷水久久久影院| 91久久国产精品视频| 久久久精品久久久国产| 色多多性虎精品无码av| 国产在线精品一区二区不卡| 国产三级黄色的在线观看| 老熟女老女人国产老太| 国产成人综合久久亚洲精品| 欧美日韩一区二区三区色综合| 亚洲综合中文日韩字幕|