陳 龍 管子玉 何金紅 彭進業(yè)
(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院 西安 710127)
情感分類研究進展
陳 龍 管子玉 何金紅 彭進業(yè)
(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院 西安 710127)
(longchen@stumail.nwu.edu.cn)
文本情感分析是多媒體智能理解的重要問題之一.情感分類是情感分析領(lǐng)域的核心問題,旨在解決評論情感極性的自動判斷問題.由于互聯(lián)網(wǎng)評論數(shù)據(jù)規(guī)模與日俱增,傳統(tǒng)基于詞典的方法和基于機器學(xué)習(xí)的方法已經(jīng)不能很好地處理海量評論的情感分類問題.隨著近年來深度學(xué)習(xí)技術(shù)的快速發(fā)展,其在大規(guī)模文本數(shù)據(jù)的智能理解上表現(xiàn)出了獨特的優(yōu)勢,越來越多的研究人員青睞于使用深度學(xué)習(xí)技術(shù)來解決文本分類問題.主要分為2個部分:1)歸納總結(jié)傳統(tǒng)情感分類技術(shù),包括基于字典的方法、基于機器學(xué)習(xí)的方法、兩者混合方法、基于弱標注信息的方法以及基于深度學(xué)習(xí)的方法;2)針對前人情感分類方法的不足,詳細介紹所提出的面向情感分類問題的弱監(jiān)督深度學(xué)習(xí)框架.此外,還介紹了評論主題提取相關(guān)的經(jīng)典工作.最后,總結(jié)了情感分類問題的難點和挑戰(zhàn),并對未來的研究工作進行了展望.
情感分析;情感分類;深度學(xué)習(xí);弱監(jiān)督;主題提取
進入Web2.0時代已歷十余載,互聯(lián)網(wǎng)的迅猛發(fā)展和移動終端的快速普及為用戶提供了發(fā)表和分享個人言論的廣闊平臺.日常生活中,人們經(jīng)常登陸不同類型網(wǎng)站(如社交網(wǎng)站、電商網(wǎng)站等)發(fā)表和分享個人觀點:在社交網(wǎng)站上評論新聞時事、在電商網(wǎng)站上快速瀏覽商品評論、在影評網(wǎng)站上發(fā)表影片觀后感等.這些評論中包含個人情感取向,通過分析評論中的情感取向可以有效把握輿情趨勢,進而惠及政府和民眾.政府可以通過分析社交媒體數(shù)據(jù)來體察民意,從而合理制定或調(diào)整相關(guān)政策;商家能夠從商品評論摘要中得到消費者的反饋信息,進而優(yōu)化營銷策略;消費者則可以通過閱讀其他用戶發(fā)表的商品評論來決定是否購買.圖1所示為一條商品評論摘要,其中紅色文字為商品的正面評論摘要,綠色文字為商品的負面評論摘要,深紅色方框中文字表示勾選的正面評論摘要示例.
Fig. 1 Summarization of product reviews圖1 商品評論摘要
分析上述不同類型評論數(shù)據(jù)中所包含的個人主觀情感取向需要使用情感分析技術(shù).情感分析(sentiment analysis),又稱評論挖掘(opinion mining),它利用自然語言處理(natural language processing, NLP)、文本分析、機器學(xué)習(xí)、計算語言學(xué)(computa-tional linguistics)等方法對帶有情感色彩的文本進行分析、處理、推理和歸納.其標準定義為:情感分析是對文本中關(guān)于某個實體的觀點、情感、情緒及態(tài)度的計算研究[1].通俗地講,情感分析的目標就是明確評論者對所評論對象的態(tài)度.而情感分析最基本任務(wù)是在文檔(document)、句子(sentences)或主題(topic,也稱為feature或aspect,下文統(tǒng)稱aspect)等不同層次上,將給定的評論文本分為積極(positive)、消極(negative)、中立(neutral)三個類別.在此基礎(chǔ)之上,還可以根據(jù)實際問題設(shè)定多極情感分類目標,如將新聞評論分為“悲傷”、“樂觀”、“憤怒”.
目前,情感分析技術(shù)已經(jīng)在政治、金融等領(lǐng)域嶄露頭角.文獻[2]通過情感分析技術(shù)分析社交網(wǎng)站Twitter上用戶的情感變化,結(jié)果顯示通過情感分析技術(shù)得到的用戶情感變化趨勢與傳統(tǒng)問卷調(diào)查方法的結(jié)果驚人地一致.如圖2所示,研究人員對比了2008年5月至2010年5月期間美國民意調(diào)查結(jié)果(黑色實線)與同時期Twitter用戶情感指數(shù)分析結(jié)果(藍色實線),參數(shù)window表示天數(shù),參數(shù)r表示圖2中2個結(jié)果的相關(guān)度.圖2中兩者的相關(guān)性竟高達80%.文獻[3]將情感分析技術(shù)用于股票行情預(yù)測,如圖3所示.圖3中藍線表示“冷靜”情緒指數(shù)(CALM),該指數(shù)通過情感分析技術(shù)獲得;紅線表示道瓊斯工業(yè)平均指數(shù)(DIJA).實驗結(jié)果表明,“冷靜”情緒指數(shù)沿時間軸向后推移3 d和道瓊斯工業(yè)平均指數(shù)具有很高的一致性.因此,可以根據(jù)“冷靜”情緒指數(shù)來預(yù)測股票行情.
Fig. 2 Comparison between the result of sentiment analysis and polls[2]圖2 情感分析結(jié)果與民意調(diào)查結(jié)果對比[2]
Fig. 3 Comparison between CALM and Dow Jones industrial average (DIJA)[3]圖3 CALM指數(shù)與道瓊斯工業(yè)平均指數(shù)(DIJA)對比[3]
當前,互聯(lián)網(wǎng)用戶規(guī)模與日俱增.據(jù)《2016年互聯(lián)網(wǎng)趨勢報告》統(tǒng)計顯示,目前全球互聯(lián)網(wǎng)用戶數(shù)已超30億,互聯(lián)網(wǎng)全球滲透率達到42%.其中,中國互聯(lián)網(wǎng)用戶數(shù)量達6.68億,位居世界首位.日益膨脹的互聯(lián)網(wǎng)用戶群產(chǎn)生了規(guī)模龐大的評論文本數(shù)據(jù).據(jù)《2015年度微博用戶發(fā)展報告》統(tǒng)計,微博的日活躍用戶量達1億,日均產(chǎn)生數(shù)據(jù)量達1 037 GB.另據(jù)統(tǒng)計*https://about.twitter.com/company,世界知名社交網(wǎng)站Twitter日均發(fā)布的推文(tweet)數(shù)量達5億條.如何有效分析和處理如此規(guī)模龐大的評論數(shù)據(jù)成為了研究者們面臨的新挑戰(zhàn).為了應(yīng)對該挑戰(zhàn),研究者們提出了多種情感分析技術(shù),如評論摘要技術(shù)[4-5]、對比句分析方法[6]、評論投票技術(shù)[7]等.這些情感分析技術(shù)的關(guān)鍵問題有2個:1)提取評論主題;2)對評論內(nèi)容進行情感分類.
評論主題(topic),又稱方面(aspect)、特征(feature),表示用戶評論的對象.評論主題的提取目標是提取或推測出評論對象的文字表達,如詞匯、短語等.評論中的主題一般分為2類:1)顯式(explicit)主題;2)隱式(implicit)主題.顯式主題是指主題的文字表達直接存在于評論中,如手機評論“The apps are amazing.”中的主題詞“apps”;而隱式表達中不包含主題的文字表達,但可以從語義上推測出評論的主題,如從數(shù)碼相機評論“While light, it will not easily fit in pockets.”中可以推測出2個主題詞“weight”和“size”.以下內(nèi)容將分為2個部分來梳理這2類主題的提取方法.
1.1 顯式主題的提取方法
顯式主題的提取方法主要分為2類:基于語言規(guī)則的方法和基于概率模型的方法.
基于語言規(guī)則的方法中,文獻[8]所提出的方法最為經(jīng)典.該方法首先利用自然語言處理工具NLProcessor 2000對評論數(shù)據(jù)進行分詞和詞性標注(part-of-speech tag, POS tag);再使用Apriori算法挖掘評論數(shù)據(jù)中頻繁出現(xiàn)的詞匯和短語(即集合大小小于3的頻繁項集),用這些頻繁項集構(gòu)建候選主題集合;之后,對候選主題集合進行過濾.該文提出了2種過濾方法.
1) 緊密度過濾.該方法用于判斷候選主題集合中的短語是否緊密,若不緊密則被過濾掉.判斷標準有2個:①在一條評論語句S中,若存在候選集中的一個短語,則計算組成該短語的2個詞匯在語句S中的距離,若距離小于3個詞則稱該短語在語句S中緊密;②在整個數(shù)據(jù)集中,若滿足標準1的語句至少有2條,則稱該詞組是緊密的.因此,不滿足標準2的短語會被過濾掉.例如3條評論語句:“Thebatterylifeis long.”,“The phone has longbatterylife.”,“Thebatteryis good enough, but I spent wholelifeto get used to the huge screen.”其中,候選主題詞 “batterylife”在第1,2句是緊密的.第3句話中,“battery”和“l(fā)ife”的距離大于3,不滿足標準1.如果在整個評論數(shù)據(jù)集中同時出現(xiàn)上述3句話,則“batterylife”是一個緊密詞組,因為滿足“batterylife”緊密條件的句子在整個數(shù)據(jù)集中出現(xiàn)了2次.該方法目的是過濾掉那些頻繁共現(xiàn)但無法構(gòu)成詞組的詞集合.
2) 冗余過濾.該方法定義了一個判定值p-support.p-support指滿足下列2個條件的評論語句數(shù)量:①該語句中出現(xiàn)的主題詞或短語是名詞或者名詞詞組;②該語句中不能出現(xiàn)任何詞組是該主題詞的超集(superset).我們通過舉例說明p-support如何取值.例如,候選集中詞匯“manual”出現(xiàn)在10個句子中,它的超集“manual mode”和“manual setting”也出現(xiàn)在評論數(shù)據(jù)中,2個詞組出現(xiàn)在不同評論語句里的次數(shù)分別為4次和3次,且2個詞組沒有出現(xiàn)在同一句話里.那么,“manual”的p-support值為10-4-3=3.論文中將p-support的閾值設(shè)為3,候選集中p-support值小于3的詞會被過濾掉.該方法主要目的是過濾掉非名詞詞匯和詞組.
在過濾步驟之后,文獻[8]作者還提出了一種非頻繁主題的提取方法.該文作者通過分析數(shù)據(jù)發(fā)現(xiàn)了如下規(guī)律:評論者評價頻繁主題所用到的情感詞與其評價非頻繁主題所用到的情感詞相同.例如,“Redeyeis veryeasyto correct.”和“The camera comes with an excellenteasyto installsoftware”這2句話都用到了情感詞“easy”,分別評價2個不同的主題“Redeye”和“software”.其中,“software”為評論中頻繁出現(xiàn)的主題,“Redeye”則是非頻繁主題,情感詞“easy”將兩者聯(lián)系了起來.通過“頻繁主題”→“情感詞”→“非頻繁主題”的挖掘模式可以獲得更多非頻繁主題.Zhuang等人[9]提出利用主題和情感詞之間的關(guān)系來提取主題.該方法首先利用語法依賴關(guān)系解析工具(如MINIPAR[10])得到如圖4所示的語法依賴關(guān)系圖,圖4中例句為“Thismovieis not amasterpiece.”其中,“movie” 和“masterpiece”分別被標注為主題和情感詞.圖4中的依賴關(guān)系為“NN-nsubj-VB-dobj-NN”.其中,“NN”和“VB”是詞性標簽,“nsubj”和“dobj”是依賴關(guān)系標簽.文獻[9]作者通過大量訓(xùn)練數(shù)據(jù)來捕捉這種依賴關(guān)系,再利用這種依賴關(guān)系提取“主題-情感詞”對兒,從而得到評論語句的主題.
Fig. 4 Grammatical dependency graph on a review sentence[9]圖4 評論語法依賴關(guān)系圖
Fig. 5 The cluster-based method for apect words’ extraction[18]圖5 基于聚類的主題詞提取方法
也有研究工作提出使用基于概率模型的方法來進行主題提取.Jin等人[11]提出了一種詞匯化隱馬爾可夫模型(lexicalized HMM)來提取評論主題.不同于傳統(tǒng)隱馬爾可夫模型,該文作者將詞性標注、詞典等特征融入了HMM.Lu等人[12]則提出了一種基于概率的隱含情感分析方法(probabilistic latent semantic analysis, PLSA)來提取短評論中的主題.該文作者認為短評論的組成要素有2個:1)修飾詞modifier;2)被修飾對象head term.因此,一條評論可以表達為〈head term,modifier〉的形式,如〈quality,good〉,〈ship,fast〉等.一般來說,被修飾詞為主題,修飾詞為情感詞.文獻[12]作者利用head term與modifier之間的共現(xiàn)信息將這種表達形式融入到PLSA模型中.該文中提出的基于PLSA的方法將k-unigram語言模型定義為k個主題模型(topic model),每個模型都是head term的多項式分布,用來捕捉對應(yīng)的主題;再利用EM算法估計模型參數(shù).其他研究工作還使用到了條件隨機場(conditional random fields)[13]、LDA模型(latent Dirichlet allocation)[14-16].
1.2 隱式主題的提取方法
隱式主題的表達形式呈現(xiàn)多樣化特點.其中,形容詞表達是最常見的一種形式[17].在評論數(shù)據(jù)中,一個形容詞常用來評價某一特定的主題.例如,“heavy”常用于評價“weight”,“beautiful”常用來評價“l(fā)ook”或“appearance”.但是,隱式主題的提取工作的難點在于:對于不同領(lǐng)域的評論,相同的文字表達形式(如形容詞)可能會指代不同的主題.例如,“heavy”在數(shù)碼相機評論“the camera is too heavy”指代“weight”,而在一條微博“Alas! The heavy day!”中則指代“weather”.因此,如何捕捉文字表達與隱式主題之間的對應(yīng)關(guān)系成為隱式主題提取方法的關(guān)鍵.前人研究工作中,多數(shù)研究者都嘗試捕捉這種隱含關(guān)系.Hai等人[18]提出一種兩步驟的方法來挖掘評論中的隱式主題:步驟1利用關(guān)聯(lián)規(guī)則挖掘方法挖掘評論集中頻繁共現(xiàn)的情感詞和主題詞,以情感詞作為條件、主題詞作為結(jié)論生成關(guān)聯(lián)規(guī)則[情感詞,主題詞];步驟2對步驟1生成的關(guān)聯(lián)規(guī)則[情感詞,主題詞]中的主題詞進行聚類,形成多個主題詞簇.將主題詞簇與情感詞再次組合形成新的關(guān)聯(lián)規(guī)則[情感詞,主題詞簇].對于給定的情感詞,該方法能夠找到對應(yīng)的主題詞簇,并將該簇中最有代表性的主題詞作為所要提取的隱式主題.Su等人[19]則提出一種聚類方法,如圖5所示.圖5中,實線左側(cè)為主題詞或短語,右邊為情感詞.該方法先分別對實線兩側(cè)詞匯進行相似度聚類,再利用互增強關(guān)系(mutual reinforcement principle)來挖掘主題詞或短語與情感詞的對應(yīng)關(guān)系.當句子只有情感詞時,通過挖掘出的關(guān)系來找到最可能的主題詞.
總結(jié)上述主題提取方法的研究工作.針對顯式主題提取的研究工作中,基于語言規(guī)則的方法在同一領(lǐng)域內(nèi)具有較強的適用性,但是推廣能力有限,同一規(guī)則不一定適用于其他領(lǐng)域.此外,語言規(guī)則設(shè)計需要大量的數(shù)據(jù)分析和嚴謹?shù)囊?guī)則設(shè)定.基于概率模型的方法具有一定的推廣能力,但在大規(guī)模評論數(shù)據(jù)上的效率較低.隱式主題的提取難度較大,關(guān)鍵挑戰(zhàn)在于如何準確捕捉文字表達與隱含主題之間的映射關(guān)系.
情感分類(sentiment classification)是情感分析技術(shù)的核心問題,其目標是判斷評論中的情感取向.按區(qū)分情感的粒度可分成2種分類問題:1)正/負(positive/negative)二分類或者正面/負面/中立(positive/negative/neutral)三分類;2)多元分類,如對新聞評論進行“樂觀”、“悲傷”、“憤怒”、“驚訝”四元情感分類[20],對商品評論進行1星~5星五元情感分類[21]等.第1類分類問題因為更具一般性而受到廣泛關(guān)注.以下將著重介紹針對第1類分類問題的方法.主流情感分類方法按技術(shù)路線主要分為5類:1)基于詞典的方法;2)基于機器學(xué)習(xí)的方法;3)詞典與機器學(xué)習(xí)混合的方法;4)基于弱標注信息的方法;5)基于深度學(xué)習(xí)的方法.以下,我們將介紹這5類方法中的經(jīng)典工作.
2.1 基于詞典(Lexicon-based)的情感分類方法
基于詞典方法的核心模式是“詞典+規(guī)則”,即以情感詞典作為判斷評論情感極性的主要依據(jù)[22],同時兼顧評論數(shù)據(jù)中的句法結(jié)構(gòu),設(shè)計相應(yīng)的判斷規(guī)則(如but從句與主句情感極性相反).文獻[4-5,23]是基于詞典的情感分類方法中最具代表性的工作.文獻[23]中,Turney認為評論中包含形容詞或副詞的詞組是判定整條評論情感極性的依據(jù).該文提出分別計算待判定詞匯與“excellent”以及待判定詞與“poor”之間的互信息,然后對兩者求差得出詞組的情感分值:
SO(phrase)=PMI(phrase,“excellent”)-PMI(phrase,“poor”),
(1)
其中,SO(phrase)為詞組(phrase)的情感分值;PMI為互信息,利用詞之間的共現(xiàn)關(guān)系計算得到.計算整條評論中所有詞組互信息差值的均值,將該均值作為整條評論的情感分值.情感分值的正負和大小分別表示評論的情感極性和強弱.對一條評論的計算結(jié)果如表1所示,該條評論的情感分值大于零,因此被判斷為正面極性,分值越大情感極性越強.論文實驗數(shù)據(jù)共計410條評論,橫跨手機評論、電影評論等不同領(lǐng)域.實驗結(jié)果顯示,該方法實現(xiàn)了最低65.83%、最高84.0%的分類準確率.
Table 1 A Processed Review Judged to be Positive by Forlum (1) [23]
文獻[4]中,該文作者認為評論中形容詞的極性是判定評論情感極性的主要指標,提出將形容詞(如“good”,“bad”等)作為情感詞建立情感詞典,再根據(jù)詞典中情感詞的極性來判斷評論的情感極性.該文提出通過語義詞網(wǎng)絡(luò)WordNet中形容詞的近義詞集和反義詞集來判定評論中的形容詞極性.如圖6所示,實線箭頭表示近義詞關(guān)系,虛線箭頭表示反義詞關(guān)系.假設(shè)已知WordNet網(wǎng)絡(luò)中任何一個詞的情感極性,便可以利用網(wǎng)絡(luò)中的近義詞/反義詞關(guān)系獲取更多詞匯的情感極性,進而建立起相應(yīng)的情感詞典.情感極性關(guān)系為:互為近義詞關(guān)系的詞匯具有相同情感極性,互為反義詞關(guān)系的詞匯具有相反情感極性.該方法具體步驟如下:1)從評論中統(tǒng)計出最頻繁出現(xiàn)的n個形容詞(該文中實驗取值n=30)建立種子集,人工標注種子集中所有詞匯的極性;2)在WordNet中以種子集中的詞匯為源頭,根據(jù)上述近義詞、反義詞的情感極性關(guān)系,迭代地自動標注其他形容詞的情感極性,從而得到WordNet形容詞情感詞典;3)根據(jù)該詞典和簡單規(guī)則判別評論的極性.該文實驗數(shù)據(jù)來自亞馬遜購物網(wǎng)站,包含數(shù)碼相機、DVD播放器、MP3播放器及手機4類商品評論.該方法在測試數(shù)據(jù)集上實現(xiàn)了平均84.2%的準確率.文獻[5]在文獻[4]研究工作的基礎(chǔ)上,進一步考慮提出情感詞與評論主題詞之間的距離對整條評論情感極性的影響.如式(2)所示,其中,Score(f)指評論主題詞f的情感分值;wi是該評論語句中除主題詞外的所有詞匯;SO(wi)是詞匯wi的情感極性值,可查詢情感詞典獲得,若為正面極性則SO(wi)=1,若為負面極性則SO(wi)=-1;dis(wi,f)指詞wi與主題詞f之間的詞數(shù)目.
(2)
Fig. 6 Bipolar adjective structure[4]圖6 雙極性形容詞結(jié)構(gòu)
由式(2)可知,離主題詞越遠的詞對情感極性影響程度越弱;相反,離主題詞越近的詞對情感極性影響程度越強.此外,文獻[5]作者還提出了一些句法規(guī)則來調(diào)整評論語句的情感極性.該文實驗結(jié)果表明,該方法的分類性能顯著高于同類方法,在抓取的亞馬遜商品評論數(shù)據(jù)[2]上實現(xiàn)了92%的精確度和91%的召回率.
簡要總結(jié)2.1節(jié)工作.基于詞典的情感分類方法本質(zhì)上依賴于情感詞典和判斷規(guī)則的質(zhì)量,而兩者都需要人工設(shè)計,如建立詞典所使用的初始種子詞列表需要人工給定,判斷規(guī)則的設(shè)計則需要人工分析數(shù)據(jù)集中評論語句的句法結(jié)構(gòu).因此,這類方法的優(yōu)劣很大程度上取決于人工設(shè)計和先驗知識,推廣能力較差.如今,新事物借助于社交媒體平臺得以快速傳播,網(wǎng)絡(luò)新詞、舊詞新義的層出不窮使得語言的更新周期變短,詞匯的語義不斷衍變,從而導(dǎo)致原先情感詞典中的部分詞匯不再適用于新的語言環(huán)境.此外,基于詞典的方法無法解決隱含觀點(implicit opinions)的挖掘問題,如客觀評論語句“I bought the mattress a week ago, and a valley appeared today”指出床墊出現(xiàn)了質(zhì)量問題,但采用了一種客觀性的文字表達形式.這種客觀語句是評論的重要表達形式之一[24],包含比主觀表達更多的有價值信息,對用戶幫助更大.但是,由于句中沒有出現(xiàn)任何情感詞導(dǎo)致基于詞典的方法無法判斷情感極性.正如文獻[25]中所述,基于詞典的方法只能通過專案(ad-hoc)的方式提取顯式觀點.此外,情感詞的情感極性還依賴于上下文內(nèi)容,同一情感詞的情感極性會隨著所評價主題的不同發(fā)生變化[26].例如在手機評論中,“l(fā)arge”在評價“battery”時表達負面情感,而在評價“screen”時表達正面情感.
以下,我們羅列了較為成熟的開源情感詞典:
1) GI(the general inquirer)[27].該情感詞典給出了較全面的詞條屬性.對每一個情感詞都給出了對應(yīng)的情感極性(negative/positive)、詞性(如NN,NNs,ADJ等)、客觀性指數(shù)等屬性.
2) LIWC(linguistic inquiry and word count)[28].該情感詞典組織結(jié)構(gòu)如表2所示,表格第1列Category表示情感詞類別(如第1行為否定詞),第2列Example則給出了每個情感類別對應(yīng)的正則表達式.
Table 2 The Structure of Sentiment Lexicon LIWC表2 情感詞典LIWC的組織結(jié)構(gòu)
Notes: *means regular expression.
3) MPQA(multi-perspective question answering).
由Wiebe等人[29-30]建立,詞典包含2 718個正面情感詞和4 912個負面情感詞.每個詞條具有5個屬性:情感極性(Polarity:positive/negative)、情感強度(Strength:weaksubj/strongsubj)、詞個數(shù)、詞性(Part-of-speech:adj/noun/verb/anypos…)以及是否為過去式(Stemmed:y/n).
4) Opinion Lexicon[4].該詞典包含2 006個正面情感詞和4 783個負面情感詞.其獨特之處在于同時包含情感詞的標準形式和其他形式,如俚語、拼寫錯誤、語法變形以及社交媒體標記等.
5) SentiWordNet[31].該詞典對語義詞網(wǎng)絡(luò)WordNet中所有詞匯進行情感極性分類并給出情感極性的量化分數(shù)(PosScore/NegScore).
對基于詞典的情感分類方法而言,選擇最優(yōu)情感詞典也是需要注意的問題.對比同一詞匯在不同詞典中的一致性得到如表3所示的對比結(jié)果.表3中計算的分數(shù)表示2個詞典的不一致程度.其中,分數(shù)的分母代表2個不同詞典的交集中的詞匯總數(shù),分數(shù)的分子代表情感極性不一致的詞匯數(shù)目.對于不一致的詞條則需要根據(jù)實際數(shù)據(jù)進行人工修正,這也是基于詞典方法的缺點之一.
Table 3 The Degree of Inconsistency Between Different Sentiment Lexicons
2.2 基于機器學(xué)習(xí)的方法
Pang等人[32]于2002年首次提出使用標準的機器學(xué)習(xí)方法解決情感分類問題.該文針對文檔層次(document-level)的二元情感分類問題,即判斷整條評論的極性.該工作實驗對比了不同特征組合與不同機器學(xué)習(xí)方法在電影評論情感分類問題上的效果.實驗結(jié)果如表4所示,實驗結(jié)果表明,相比于樸素貝葉斯分類(naive Bayes, NB)和最大熵模型(maximum entropy, ME),支持向量機(support vector machine, SVM)的分類效果更好,它與Unigrams特征結(jié)合進行情感分類的準確率達到了82.9%.
Table 4 Performance Comparison of SVM, NB and ME[32]表4 SVM, NB and ME方法情感分類準確率對比[32]
Notes:The bold values mean the best accuracy value among the three classifiers.
此后,多數(shù)機器學(xué)習(xí)方法的研究工作將重點放在如何設(shè)計更多有效的分類特征上.研究者嘗試了不同類特征組合在情感分類上的效果,Dave等人[33]對比了Unigrams特征和Bigrams特征在情感分類問題上的效果,實驗結(jié)果如表5所示.該實驗證明了相同條件下使用Bigrams特征比使用Unigrams特征的分類準確率要高.
Table 5 Performance Comparison on Unigrams and Bigrams[33]表5 使用 Unigrams特征和Bigrams特征的分類結(jié)果比較[33]
Mullen和Collier[34]在前人研究工作基礎(chǔ)上,設(shè)計出更優(yōu)秀的特征組合,并利用支持向量機分類器進行情感極性分類.該方法所提出特征組合中包含特征:詞匯的互信息特征(pointwise mutual information, PMI)[23]、Osgood語義區(qū)分度(Osgood semantic differentiation with WordNet)[35]、主題相似度特征(topic proximity)和句法關(guān)系特征(syntactic-relation features)[22].其中,詞匯的Osgood語義區(qū)分度包括3個指標:強度(強或弱)、活躍度(積極或消極)、評估值(好或壞),這3個指標來源于查理斯·奧斯古德語義區(qū)分度理論(Charles Osgood’s theory of semantic differentiation)[36].為了提取詞匯的Osgood語義區(qū)分度特征,作者利用WordNet來傳播這3個指標,其思想與文獻[4]中生成情感詞典的思想相似:利用WordNet中少量已知詞匯的Osgood語義區(qū)分度指標來推斷更多詞匯的Osgood語義區(qū)分度指標.該工作結(jié)合上述多種特征對評論進行情感分類,實驗數(shù)據(jù)采用文獻[23]中的數(shù)據(jù)集.實驗結(jié)果如表6所示.從實驗結(jié)果上看,該文中提出的基于混合特征的分類方法Hybrid SVM(Turney/Osgood and Lemmas)在分類準確率上明顯優(yōu)于使用其他特征組合的分類方法.
Table 6 Performance Comparison of Different Features[34](SVM with Linear Kernel)
Notes:The bold values mean the best accuracy value among the different methods.
Saleh等人[37]在3個不同數(shù)據(jù)集上進行了27組實驗,分別測試了不同特征選擇方法對情感分類效果的影響.實驗選擇支持向量機作為分類模型,數(shù)據(jù)集有3個:1)Pang和Lee在文獻[38]中的數(shù)據(jù)集;2)Taboada和Grieve在文獻[39]中的數(shù)據(jù)集;3)SINAI數(shù)據(jù)集中的數(shù)碼相機子集,實驗采用10折交叉驗證(10-FCV)方法來測試分類器的性能.3組情感分類實驗結(jié)果如表7~9所示:
Table 7 Performance Comparison of Different Features on Pang Dataset[37]
Table 8 Performance Comparison of Different Features on Taboada Dataset[37]
Table 9 Performance Comparison of Different Features on SINAI Dataset[37]
實驗結(jié)果表明,使用TF-IDF和Trigrams的特征組合在Pang數(shù)據(jù)集上實現(xiàn)了最高84.65%的分類準確率;使用TF-IDF和Trigrams特征組合在Taboada數(shù)據(jù)集上實現(xiàn)了最高73.25%的分類準確率;使用TF-IDF和Bigrams特征組合在SINAI數(shù)據(jù)集上實現(xiàn)了最高91.51%的分類準確率.
Zhang等人[40]使用樸素貝葉斯(NB)和支持向量機(SVM)分類器對酒店評論進行情感分類.作者對評論數(shù)據(jù)分別提取Unigrams,Bigrams和Trigrams特征,如表10和表11所示.上述特征采用2種表達方式:二值(binary)和頻率(frequency).二值表達用0或1表示一個特征是否出現(xiàn)在評論文檔中;頻率表達則是統(tǒng)計特征在評論文檔中的出現(xiàn)次數(shù).實驗測試了使用不同數(shù)量n-gram特征進行情感分類的準確率,結(jié)果如表12所示,其中,表格第1列為不同類別特征,n-gram和n-gram_freq分別表示基于二值表達的n-gram特征和基于頻率表達的n-gram特征,NB和SVM對應(yīng)2種分類器,表格中分類結(jié)果由2部分組成:括號外數(shù)字為情感分類準確率,括號內(nèi)數(shù)字為特征數(shù)目.從結(jié)果可以看出,使用NB和基于二值的Bigram特征在特征數(shù)目落入900至1 100區(qū)間時,能夠達到最高95.67%的分類準確率(accuracy).使用SVM和基于頻率的Bigram特征在特征數(shù)目為1 950時,能夠達到最高分類準確率94.83%.
Table 10 n-gram Feature Selected from Binary-Based Documents[40]
Table 11n-gram Feature Selected from Frequency-Based Documents[40]
Table 12 The Best Performance on Different Number of Features[40]
Notes:The bold values mean best accuracy, and the values in the parentheses means the number ofn-gram features.
簡要總結(jié)上述基于機器學(xué)習(xí)技術(shù)的情感分類研究工作:
1) 特征工程(feature engineering)是此類研究工作的核心.情感分類任務(wù)中常用到的特征有n-gram特征(unigrams,bigrams,trigrams)、Part-of-Speech(POS)特征、句法特征[41]、TF-IDF特征等.然而,這類方法仍舊依賴于人工設(shè)計,研究過程中容易受到人為因素的影響.此外,人工設(shè)計的特征在不同領(lǐng)域的推廣能力較差,在某一領(lǐng)域表現(xiàn)優(yōu)秀的特征集不一定在其他領(lǐng)域也同樣優(yōu)秀[42].
2) 基于機器學(xué)習(xí)的情感分類方法多使用經(jīng)典分類模型如支持向量機、樸素貝葉斯、最大熵模型等.其中,多數(shù)分類模型的性能依賴于標注數(shù)據(jù)集的質(zhì)量[43],而獲取高質(zhì)量的標注數(shù)據(jù)則需要耗費大量的人工成本.
2.3 詞典與機器學(xué)習(xí)混合的方法
部分情感分類的研究工作將基于詞典的方法和基于機器學(xué)習(xí)的方法相融合.這類混合方法的思路主要分為2種:1)將“詞典+規(guī)則”視作簡單的分類器,然后融合多種不同分類器進行情感分類;2)將詞典信息作為一種特征與現(xiàn)有特征(如句法特征、POS特征等)進行組合,然后選擇最優(yōu)的特征組合進行情感分類.以下,我們對這類方法中的代表性工作進行簡要介紹.
Prabowo等人[44]提出了一種基于規(guī)則的分類器(rule-based classifier, RBC)和支持向量機分類器(SVM)[32]混合的方法,解決文檔級別的情感分類問題.其中,RBC設(shè)定了3種規(guī)則:
1) 基于情感詞的判定規(guī)則[情感詞]→[+/-].其中,“+/-”表示“正面情感/負面情感”.該規(guī)則根據(jù)出現(xiàn)在評論中的情感詞的極性來判斷整條評論的情感極性,情感詞的極性通過查詢GI詞典[27]獲得.具體實例如[excellent]→[+],[absurd]→[-].
2) 基于主題詞的判定規(guī)則,如[#more expen-sive than?]→[-].其中,“#”表示主題詞,“?”表示被比較的對象.該規(guī)則主要針對包含多主題詞的對比句的情感分類問題.例如“A is more expensive than B”,若主題詞為A,則該評論的情感極性為負,即[#more expensive than?]→[-];若B為主題詞,則評論的情感極性為正,即[?more expensive than #]→[+].
3) 基于互信息的判斷規(guī)則[PMI of review]→[+/-].該規(guī)則基于Turney的研究工作[23],計算整條評論中所有詞組互信息差值的均值,根據(jù)均值的正負來判斷評論的情感極性.
上述3種判定規(guī)則中,基于情感詞的判定規(guī)則和基于互信息的判定規(guī)則屬于基于詞典的情感分類方法.SVM采用文獻中[23]的方法,該方法屬于機器學(xué)習(xí)方法.該文作者將上述2種分類器混合進行情感分類:先使用RBC進行分類,若得到分類結(jié)果則返回該結(jié)果;若沒得到分類結(jié)果,則使用SVM分類器進行情感分類.實驗數(shù)據(jù)集來自文獻[38],該數(shù)據(jù)集包含電影、商品和社交網(wǎng)站3個不同領(lǐng)域的評論數(shù)據(jù).該混合方法在實驗數(shù)據(jù)集上達到了90.45%的準確率.
Fang Ji等人[45]提出將詞典信息融入到支持向量機分類器中,解決語句級別的情感分類問題.該方法中,作者將評論語句中的名詞、動詞、形容詞和副詞作為該語句的Unigrams特征詞.例如,一條評論語句“The case is rigid so it gives the camera extra nice protection.”通過判斷詞性可以抽取句中的Unigram特征詞序列:〈case,rigid,give,camera,extra,nice,protection〉.若Unigrams特征詞序列中出現(xiàn)了包含于MPQA[29]中的情感詞,則將該情感詞的極性詞(positive或negative)插入到特征詞序列中.例如,上述詞序列中“nice”的情感極性為“positive”,則將“postive”插入到語句的詞序列中得到〈case,rigid,give,camera,extra,nice,protection,positive〉.若詞序列中出現(xiàn)多個情感詞,仍按上述方法在Unigrams特征詞序列中插入相應(yīng)的極性詞.然后,利用Bag-of-Words模型將特征詞序列轉(zhuǎn)化成對應(yīng)的特征向量.特征向量中的元素代表詞序列中詞匯出現(xiàn)的次數(shù).例如,詞序列中出現(xiàn)了2個“positive”和2個“negative”,則對應(yīng)的特征向量中“positive”和“negative”位置都為2.通過這種方法將詞典信息融入到語句的特征向量中,再使用支持向量機分類器進行情感分類.不同于上述Fang Ji等人的工作,Abbasi等人[46]將研究重點放在特征工程上,提出了一種新的特征選擇技術(shù),稱為特征關(guān)系網(wǎng)絡(luò)(feature relation network, FRN).該技術(shù)融合了規(guī)則特征、n-grams特征、句法特征等多種特征,達到了較高的分類性能.
綜上所述,盡管混合方法改進了基于詞典和基于機器學(xué)習(xí)方法的性能,但本質(zhì)上并沒有從特征設(shè)計和詞典構(gòu)建中解放出來.
2.4 基于弱標注信息的方法
由于人工標注訓(xùn)練數(shù)據(jù)費時費力,近年來情感分析領(lǐng)域的研究者開始考慮從用戶產(chǎn)生的數(shù)據(jù)中挖掘有助于訓(xùn)練情感分類器的信息,如評論的評分(ratings)、微博中的表情符號等.由于互聯(lián)網(wǎng)用戶的“標注”行為沒有統(tǒng)一標準,具有較大隨意性,所產(chǎn)生的標注信息存在噪聲(如高評分的負面評論),因此我們將這種標注信息稱為弱標注信息.弱標注信息能夠在一定程度上反映評論的情感語義,因此很多研究者嘗試在情感分類研究工作中引入弱標注信息.
Qu等人[47]提出使用包含評分信息的評論數(shù)據(jù)作為弱標注數(shù)據(jù)訓(xùn)練概率模型來解決語句的情感分類問題.T?ckstr?m等人[48]提出利用條件隨機場(conditional random fields, CRF)模型結(jié)合文檔標簽(即評論評分)和語句標簽來解決情感分類問題.但是,上述2種方法都還依賴于人工設(shè)計的特征.
Maas等人[49]提出在概率模型中引入評論評分信息來學(xué)習(xí)反應(yīng)情感屬性的詞向量,然后用一篇文檔中所有詞的詞向量平均值作為特征學(xué)習(xí)情感分類器.Tang等人[50]提出利用推文中的表情符號(如“:)”表示開心)作為情感標簽來訓(xùn)練一種C&W模型[51]的變種,從而學(xué)習(xí)出反映情感屬性的詞向量.對于給定的一篇推文,對其詞的詞向量進行最大、最小和平均池化(pooling)操作,進而獲得該推文的特征表達向量.最后,利用該特征表達向量進行情感分類.上述2種方法都沒有考慮如何減輕弱標注信息中的噪聲影響.此外,盡管這2種方法能夠自動生成用于情感分類的特征表達,但只是簡單的池化操作,并不能很好地捕捉文本到高層語義的復(fù)雜映射函數(shù).而捕捉這種復(fù)雜映射函數(shù)正是深層神經(jīng)網(wǎng)絡(luò)的專長.接下來我們將介紹基于深度學(xué)習(xí)的情感分類方法.
2.5 基于深度學(xué)習(xí)的方法
自2006年無監(jiān)督逐層學(xué)習(xí)技術(shù)(greedy layer-wise training)[52]的提出,深度學(xué)習(xí)逐漸成為機器學(xué)習(xí)領(lǐng)域的熱門研究方向.深度神經(jīng)網(wǎng)絡(luò)模仿人腦的分層組織結(jié)構(gòu),具有指數(shù)倍于淺層計算模型的表達能力,理論上能夠更好地捕捉從數(shù)據(jù)本身到高層語義的復(fù)雜映射函數(shù).目前,深度學(xué)習(xí)模型在不同應(yīng)用問題上的推廣能力得到了一定驗證[53],如圖像識別[54-57]、語音識別[58-60]、藥物分子活性預(yù)測[61-62]等.更令人驚喜的是,深度學(xué)習(xí)還在很多自然語言理解任務(wù)上得到了令人滿意的效果,如智能問答系統(tǒng)[63]、自然語言翻譯[64-65]、情感分析[50,66-72]等.其中,情感分析作為自然語言理解的重要應(yīng)用之一,也受到了越來越多研究者的廣泛關(guān)注.
正如第2節(jié)第1段所述,情感分析的核心在于解決情感分類問題.因此,很多研究工作嘗試使用深度學(xué)習(xí)技術(shù)來解決情感分類問題.現(xiàn)有研究工作中,針對情感分類問題的深度學(xué)習(xí)方法有2個主要步驟:1)從海量評論語料中學(xué)習(xí)出語義詞向量(word embedding);2)通過不同的語義合成(semantic composition)方法用詞向量得到所對應(yīng)句子或文檔的特征表達[73].現(xiàn)有合成方法主要基于語義合成性原理(principle of compositionality)[74],該原理指出:長文本(如一個句子、一篇文檔)的語義由它的子成分(如詞匯、短語)的語義按不同規(guī)則組合而成.本質(zhì)上講,語義合成就是利用原始詞向量合成更高層次的文本特征向量.
Bespalov等人[66]提出通過潛在語義分析(latent semantic analysis)初始化詞向量,再用帶權(quán)重的n-gram特征進行線性組合從而得到整篇文檔的情感特征向量.Glorot等人[67]提出利用除噪堆疊自編碼器(stacked denoising autoencoder, SDA)來解決海量評論數(shù)據(jù)情感分類中的領(lǐng)域適應(yīng)性問題(domain adaptation)[75].自編碼器是一種通過重建自身輸入進行模型優(yōu)化的特征學(xué)習(xí)器.除噪堆疊自編碼器是Bengio等人提出的堆疊自編碼器(stacked autoencoder)[76]的一種擴展算法.作者用無監(jiān)督方法訓(xùn)練該深度模型去捕捉不同領(lǐng)域數(shù)據(jù)之間的共性表達,在22個不同類別的商品評論數(shù)據(jù)上進行模型的推廣能力測試.實驗結(jié)果顯示,與同類方法相比,SDA方法達到了較低的平均傳輸推廣誤差(averaged transfer generalization errors)10.9%.該文獻表明,基于除噪堆疊自編碼器的深度學(xué)習(xí)系統(tǒng)可以通過無監(jiān)督方法提取不同領(lǐng)域評論文本的潛在共性特征,從而有效地解決跨領(lǐng)域情感分類問題.Socher 等人在2011—2013年間的研究工作中[68-70]提出了一系列基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network, RecNN)的分類模型來解決情感分類問題.RecNN模型通過遞歸計算來學(xué)習(xí)變長語句的特征向量.Kim[71]則使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)來解決情感分類問題.實驗結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)的分類性能明顯優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò).對于卷積神經(jīng)網(wǎng)絡(luò)模型的研究,Kalchbrenner等人[72]提出了一種新穎的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型特點在于采用了動態(tài)k-max池化(dynamick-max pooling)操作和多層卷積神經(jīng)網(wǎng)絡(luò)層相結(jié)合的結(jié)構(gòu).不同于上述工作,有研究者提出使用序列模型如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)來解決情感分類問題,例如文獻[77]中,作者提出使用長短期記憶網(wǎng)絡(luò)(long short term memory, LSTM),將評論語句建模成詞序列來解決情感分類問題.與CNN相比,LSTM可以捕捉到評論語句中的長依賴關(guān)系(long-term dependencies),可以從整體上“理解”評論的情感語義.
相比于傳統(tǒng)機器學(xué)習(xí)方法,深層神經(jīng)網(wǎng)絡(luò)的表達能力有了質(zhì)的飛躍,并擺脫了特征工程的束縛.利用語義合成性原理通過不同深度模型將低層詞向量合成高層文本情感語義特征向量,從而得到文本的高層次情感語義表達,有效提升了模型的推廣能力.但是,上述針對文本情感分類問題的深度學(xué)習(xí)方法仍然在較大程度上依賴于有標注訓(xùn)練數(shù)據(jù),即依賴于有監(jiān)督學(xué)習(xí)方法來訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)[50-51,78].大規(guī)模的訓(xùn)練數(shù)據(jù)是深度學(xué)習(xí)成功的關(guān)鍵.然而,要獲得有標注訓(xùn)練數(shù)據(jù),便要耗費大量的人力成本.通過人工標注方式獲得大規(guī)模有標注訓(xùn)練數(shù)據(jù)的成本十分高昂.盡管傳統(tǒng)的無監(jiān)督預(yù)訓(xùn)練技術(shù)能夠利用無標注數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò),但是該方法只有在數(shù)據(jù)分布與要預(yù)測的語義之間具有較強相關(guān)性時才能很好地發(fā)揮作用[79].但是,文本中的詞共現(xiàn)信息通常與所要預(yù)測的情感語義沒有很強的相關(guān)性[49].因此,缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)已成為深度學(xué)習(xí)在情感分類問題上的瓶頸.
傳統(tǒng)的情感分類方法中,基于詞典的方法依賴詞典設(shè)計,基于機器學(xué)習(xí)的方法則倚重特征設(shè)計,兩者要求相關(guān)人員具有較高的領(lǐng)域知識和研究經(jīng)驗,且方法的推廣能力較差.近年來深度學(xué)習(xí)在情感分類問題上表現(xiàn)優(yōu)秀.但是,缺乏標注的訓(xùn)練數(shù)據(jù)是深度學(xué)習(xí)的瓶頸問題.互聯(lián)網(wǎng)用戶產(chǎn)生的弱標注信息給我提供了突破瓶頸的新思路.由于弱標注信息與評論情感語義具有一定的相關(guān)性,因此可以用于訓(xùn)練深度模型來解決情感分類問題.
Fig. 7 Network architecture in general for sentence sentiment classification圖7 語句情感分類的通用網(wǎng)絡(luò)結(jié)構(gòu)
為此,我們提出了一種利用深層神經(jīng)網(wǎng)絡(luò)和弱標注信息解決情感分類問題的新思路:利用互聯(lián)網(wǎng)上產(chǎn)生的海量弱標注評論數(shù)據(jù)作為訓(xùn)練集訓(xùn)練深度模型進行情感分類任務(wù).但是,使用弱標注數(shù)據(jù)的挑戰(zhàn)在于如何盡量減輕數(shù)據(jù)中噪聲對模型訓(xùn)練過程的影響.針對該挑戰(zhàn),我們設(shè)計了一種弱監(jiān)督深度學(xué)習(xí)框架(weakly-supervised deep learning, WDE)來解決文本情感分類問題.其總體框架如圖7所示.該框架以評論語句s作為輸入,抽取低層次定長的特征向量表達,并在隱含層引入了上下文信息.訓(xùn)練方法采用“弱監(jiān)督預(yù)訓(xùn)練+有監(jiān)督學(xué)習(xí)微調(diào)”的思路來訓(xùn)練深層網(wǎng)絡(luò)模型.框架的核心是弱監(jiān)督預(yù)訓(xùn)練方法,該方法利用弱標注數(shù)據(jù)預(yù)訓(xùn)練出一個能夠捕捉文本語句情感語義分布的嵌入空間(embedding layer),如圖7所示,使得具有相同情感極性的語句互相接近,而具有不同情感極性的語句互相遠離.得到較好的嵌入空間之后,再增加分類層(classification layer),如圖7所示,用少量有標注數(shù)據(jù)訓(xùn)練最終分類模型.
我們將該框架應(yīng)用在商品評論情感分類問題上.通過分析大量商品評論數(shù)據(jù),我們發(fā)現(xiàn):一條商品評論的評分在一定程度上能夠反映這條評論的情感取向.因此,我們提出利用一條評論的評分信息作為該評論中所有語句的情感標簽來訓(xùn)練深度模型.但是,商品評論的評分是一種弱標注標簽,評論中可能存在實際情感語義與評分不一致的情況,如一條5星級的評論中仍然存在負面評論語句,具體實例如圖8所示,圖8中框內(nèi)語句為負面評價語句.
Fig. 8 A negative sentence in a 5-stars review圖8 一條5星評論中的負面語句
我們將這種情感語義與評分不相符的標注數(shù)據(jù)稱為噪聲.為了確定噪聲的影響,我們?nèi)斯俗⒘艘恍┱Z句(人工標注集在實驗部分有詳細說明),并統(tǒng)計噪聲數(shù)據(jù)在人工標注語句中的占比情況,即:人工標注數(shù)據(jù)集中,屬于4,5星評論的語句中人工標注為負面評價的語句所占百分比,以及屬于1,2星評論的語句中人工標注為正面評價的語句所占百分比.統(tǒng)計結(jié)果如圖9所示.在人工標注數(shù)據(jù)中,上述2個占比值都超過了10%,總體上看,噪聲占總量的13.4%.這表明弱標注數(shù)據(jù)中存在一定噪聲,直接作為有標注信息會影響模型的訓(xùn)練效果,因此無法直接用于深度模型的有監(jiān)督訓(xùn)練.
Fig. 9 Percentages of wrong-labeled sentences by ratings in our labeled review dataset圖9 標注數(shù)據(jù)中以評分錯標語句的比例
為解決該問題,我們設(shè)計了一種抗噪聲的預(yù)訓(xùn)練方法,即前文所述的“弱監(jiān)督預(yù)訓(xùn)練”方法.該方法的目標是通過預(yù)訓(xùn)練得到一個能夠捕捉語句情感語義分布的嵌入空間,從弱標注數(shù)據(jù)中汲取有用信息的同時,避免其對最終分類模型的直接影響.以下內(nèi)容,我們將按如下順序組織:1)詳細介紹2種實現(xiàn)WDE框架的深度模型,包括基于CNN的深度模型和基于LSTM的深度模型;2)具體給出弱監(jiān)督預(yù)訓(xùn)練方法并簡要描述有監(jiān)督微調(diào)步驟;3)我們通過實驗驗證了2種深度模型在商品評論情感分類問題上的效果.
Fig. 10 The CNN network architecture for sentence sentiment classification WDE-CNN圖10 基于CNN的深度模型WDE-CNN
3.1 基于CNN的深度模型介紹
由于卷積神經(jīng)網(wǎng)絡(luò)在語句級別的情感分類問題上表現(xiàn)優(yōu)秀[71],因此我們選擇卷積神經(jīng)網(wǎng)絡(luò)作為WDE的一種模型實現(xiàn).該模型稱為WDE-CNN,是文獻[51,71]中CNN模型的一種變體結(jié)構(gòu),其結(jié)構(gòu)如圖10所示.圖10中,將一條評論語句s輸入到模型中,w1,w2,…,wt表示句子中的詞語,對每個詞語查詢詞向量列表X得到對應(yīng)的詞向量x1,x2,…,xt.從而將語句s=〈w1,w2,…,wt〉轉(zhuǎn)化為〈x1,x2,…,xt〉.我們使用Word2Vec在谷歌新聞?wù)Z料庫上的訓(xùn)練結(jié)果[80]來初始化詞向量列表,對于不在谷歌新聞訓(xùn)練結(jié)果中的詞匯則隨機初始化.
卷積層(convolutional layer)包含多個卷積濾波器,每個濾波器通過滑動能容納n個詞匯的窗口進行卷積計算,進而生成局部特征值,計算公式如下:
u(i)=f(WTxi:(i+h-1)+b),
(3)
最大池化層(max pooling layer)對向量u中所有u(i)求最大值以獲取其中最顯著的特征值[51]:
(4)
其中,j表示第j個卷積濾波器.在最大池化層中,最大池化操作提取特征圖顯著特征的同時還生成了定長的特征向量v.
需要說明的是,詞容量為g的卷積濾波器本質(zhì)上是一個特征采集器,用來提取句子的n-gram特征.對輸入的n-gram匹配其相應(yīng)的w從而得到高層次特征值.該方法雖然與傳統(tǒng)情感分類工作中的特征選擇方法[42]相像,但其優(yōu)勢在于特征是自動學(xué)習(xí)的而非人工設(shè)計.考慮到機器學(xué)習(xí)方法常使用unigrams,bigrams和trigrams特征[42],因此我們使用不同詞容量的卷積濾波器,設(shè)置參數(shù)n=1,2,3.
隱含層(Hidden layer)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同,所有神經(jīng)元之間全連接.該層以v(j)作為輸入,通過非線性激活函數(shù)得到更高層次的特征向量h.計算是標準的前向傳播(forward)計算:
h=f(Whidv+bhid),
(5)
其中,Whid為權(quán)重矩陣,bhid為偏置(bias)向量.
隱含層之后為嵌入層(embedding layer),該層輸入由2個部分拼接而成:隱含層的輸出向量h和句子s的上下文向量asen.在商品評論中,上下文向量是對商品某一具體主題(aspect)的語義表達,如“battery life”是“cell phone”的一個主題.引入上下文向量的原因在于,相似或相同文字表達對于不同的上下文可能會表現(xiàn)出完全相反的情感極性,例如“the screen is big”和“the size is big”.與輸入層獲取詞向量方法類似,所有上下文向量都可以從上下文向量列表A中查詢獲得,該列表的初始值由隨機初始化獲得.嵌入層的計算為
(6)
3.2 基于LSTM的深度模型
基于CNN的深度模型中,卷積濾波器的詞容量有限,導(dǎo)致其無法捕捉到句子中的長距離依賴關(guān)系.因此,我們提出一種基于LSTM的深度模型實現(xiàn),稱為WDE-LSTM.LSTM是RNN的一種特殊類型.RNN網(wǎng)絡(luò)根據(jù)前一次迭代過程的隱層輸出和當前的數(shù)據(jù)輸入來更新隱層的狀態(tài),使神經(jīng)元具有了“記憶”功能,可以更自然地處理文本數(shù)據(jù).LSTM則在RNN基礎(chǔ)上引入了門機制,利用3種不同的門函數(shù),即輸入門、遺忘門和輸出門,來控制記憶的長短.一個LSTM記憶單元在時刻t的前向計算過程為[81]
dt=f(Wiuxt+Uiuzt-1+biu).
(7)
it=σ(Wigxt+Uigzt-1+big).
(8)
ft=σ(Wfgxt+Ufgzt-1+bfg).
(9)
ot=σ(Wogxt+Uogzt-1+bog).
(10)
ct=it×dt+ft×ct-1.
(11)
zt=ot×f(ct-1).
(12)
Fig. 11 The LSTM network architecture for sentence sentiment classification (WDE-LSTM)圖11 基于LSTM的語句情感分類網(wǎng)絡(luò)結(jié)構(gòu)(WDE-LSTM)
式(7)~(11)中,{W*,U*,b*}*∈{ig,iu,og,fg}是模型的參數(shù)集合,×表示2個向量的元素乘積;dt,it,ft,ot分別表示時刻t記憶單元的輸入單元、輸入門、遺忘門和輸出門的輸出值;ct表示時刻t記憶單元的內(nèi)部狀態(tài),zt表示時刻t記憶單元的輸出;σ(·)是sigmoid激活函數(shù),f(·)是雙曲正切激活函數(shù).以上述結(jié)構(gòu)LSTM作為基本構(gòu)件,我們設(shè)計了基于LSTM的深度模型,如圖11所示:
模型的輸入與WDE-CNN模型相同.LSTM層包含2組不同方向的LSTM形成了一個雙向RNN結(jié)構(gòu)[82],該層的操作為
與WDE-CNN相似,在LSTM層之后,我們進行了最大池化操作以提取顯著特征值,從而得到定長的特征向量v,計算方法如式(13)所示.最大池化層之上各層結(jié)構(gòu)操作與WDE-CNN相同:
(13)
3.3 基于弱標注數(shù)據(jù)的預(yù)訓(xùn)練方法
3.1節(jié)和3.2節(jié)2種模型都采用嵌入層的弱監(jiān)督預(yù)訓(xùn)練方法.其思想是:通過預(yù)訓(xùn)練得到一個可以較好捕捉數(shù)據(jù)情感語義分布的嵌入空間,之后再使用少量有標注數(shù)據(jù)學(xué)習(xí)目標預(yù)測函數(shù).相較而言,前人基于弱標注信息的訓(xùn)練方法通常直接學(xué)習(xí)目標預(yù)測函數(shù).這種做法會使弱標注信息中的噪聲直接影響預(yù)測函數(shù).而我們提出的訓(xùn)練方法避免了直接使用弱標注信息訓(xùn)練目標預(yù)測函數(shù),能在一定程度上削弱噪聲對預(yù)測函數(shù)學(xué)習(xí)的影響.
弱監(jiān)督預(yù)訓(xùn)練方法首先將5級評分離散化為二值標簽,標簽分配的規(guī)則是:將評分高于3星的評論中的句子標為正面標簽l(s)=pos,將評分低于3星的評論中的句子標為負面標簽l(s)=neg,其中l(wèi)(s)表示句子s的弱標注標簽.通過標簽分配,我們將評論語句劃分到2個集合里.弱監(jiān)督學(xué)習(xí)的訓(xùn)練目標是讓P集合和N集合各自內(nèi)部的語句更接近,同時使分別屬于2個集合的語句相互遠離.
一種直觀的訓(xùn)練方法是,采樣句子對,利用隨機梯度下降法(stochastic gradient descent, SGD)對句子對進行操作[83]:如果2句話的弱標簽相同,則減小它們在嵌入空間中的距離;反之,則增大它們在嵌入空間中的距離.但是,當采樣到噪聲時會導(dǎo)致語句向錯誤類別移動.為了減弱噪聲影響,我們提出一種三元訓(xùn)練準則,每次采樣弱標注數(shù)據(jù)中的3條評論語句組成三元組,再利用Ranking Loss[51]目標函數(shù)對嵌入空間中語句的相對距離進行懲罰,目標函數(shù)為
dst(s1,s2)),
(14)
(15)
Fig. 12 Comparison between pair-based training and triplet-based training圖12 二元訓(xùn)練準則與三元訓(xùn)練準則對比
式(14)中,λ表示間隔;〈s1,s2,s3〉表示訓(xùn)練集中一組三元采樣,其中句子標簽l(s1)=l(s2)≠l(s3);dst(·)表示語句在神經(jīng)網(wǎng)絡(luò)嵌入層所表示的空間中的歐式距離,該距離的計算方法如式(15)所示.式(14)目標函數(shù)的含義是:讓具有相同弱標簽的語句s1與s2之間的距離至少比具有相反弱標簽的語句s1與s3之間的距離小λ.預(yù)訓(xùn)練過程中,三元采樣方法的具體步驟是:先從P或者N中隨機選其中之一,然后隨機抽取該集合中的2個語句,再從另一個集合中隨機抽取1個語句.
圖12為二元訓(xùn)練準則與三元訓(xùn)練準則的對比圖.圖12中,圓圈表示弱標簽為pos的樣本;三角表示弱標簽為neg的樣本;黑色為錯標語句(即噪聲,實際語義與標簽不符的句子);白色為正確標注語句;①,②,③為3種包含錯標語句的采樣實例.對于二元訓(xùn)練準則(圖12(a)所示),例①、例②中錯標語句在訓(xùn)練過程中會向錯誤類別的語句靠近;例③中,錯標語句則遠離了其正確類別的語句.對比來看,對于三元訓(xùn)練準則而言,目標函數(shù)確保s1與s2之間的距離至少比s1與s3之間的距離小λ.例①中由于同時采樣到2個錯標語句,因此仍然會導(dǎo)致s2和s3向錯誤類方向移動.例②和例③中則混合了2種情況:一個語句向正確方向移動,而另一個向錯誤方向移動.因此,在三元訓(xùn)練準則中,例②和例③中的噪聲對訓(xùn)練過程的影響弱于二元訓(xùn)練準則中的噪聲對訓(xùn)練過程的影響.此外,在三元準則訓(xùn)練過程中,如果2對句子的距離之差大于間隔參數(shù)λ,那么預(yù)訓(xùn)練目標函數(shù)Lweak的導(dǎo)數(shù)為零.這種情況下,在訓(xùn)練過程中句子不發(fā)生任何移動.例如,在圖12(b)的例②中,s2的真實類別是neg,因此s2不應(yīng)該向s1移動.由于s3與s1之間的距離較大,使得預(yù)訓(xùn)練目標函數(shù)中2對句子的距離之差大于λ.因此,訓(xùn)練過程中句子不發(fā)生任何移動,s1與s2不會互相靠近.對比來看,在圖12(a)的例①和例②中,s1與s2會朝對方移動直至兩者之間的距離變?yōu)?.此時,噪聲對訓(xùn)練過程的影響較大.上述分析表明,與二元訓(xùn)練準則相比,三元訓(xùn)練準則在一定程度上減弱了噪聲對訓(xùn)練過程的影響.
3.4 有監(jiān)督學(xué)習(xí)微調(diào)模型
通過弱監(jiān)督預(yù)訓(xùn)練步驟,我們得到了能夠較好捕捉情感語義分布的模型.有監(jiān)督微調(diào)步驟用該模型的參數(shù)作為有監(jiān)督訓(xùn)練的初始參數(shù),同時在嵌入層上添加分類層,學(xué)習(xí)目標分類函數(shù).分類層采用Softmax輸出函數(shù),用少量人工標注的數(shù)據(jù)對整個模型進行有監(jiān)督訓(xùn)練,從而得到最終的分類模型.
3.5 實驗驗證
我們在亞馬遜評論數(shù)據(jù)集上驗證2種實現(xiàn)WDE模型的性能.我們從公開的亞馬遜評論數(shù)據(jù)集[84]上收集了3類商品的評論數(shù)據(jù):數(shù)碼相機、手機和筆記本電腦,所有評論數(shù)據(jù)都包括相應(yīng)評分信息.我們利用文獻[5]中的方法提取了107個商品主題關(guān)鍵詞(aspect keywords).之后,我們對所有評論數(shù)據(jù)進行了分句并過濾掉無aspect keywords和多aspect keywords的語句.經(jīng)過以上預(yù)處理操作我們得到了1 143 721條弱標注語句.另外,我們?nèi)斯俗⒘?1 754條語句用于有監(jiān)督訓(xùn)練.標注工作包含2個部分:主客觀標注和正負情感標注.其中,主客觀標注的目的是為了進一步分析情感分類方法分別在主觀和客觀語句上的性能.標注數(shù)據(jù)被隨機劃分為訓(xùn)練集(50%)、驗證集(20%)和測試集(30%).標注數(shù)據(jù)詳細情況如表13所示:
Table 13 Statistics of the Labeled Dataset表13 人工標注數(shù)據(jù)集
3.5.1 WDE-CNN和WDE-LSTM與其他分類方法對比實驗
實驗中采用的對照組方法描述如下:
1) Lexicon.基于詞典的方法[5].
2) SVM.“支持向量機+n-gram特征”是情感分類中最常見的一種方法[32],實驗中我們使用trigrams特征,并使用Liblinear分類器[85].
3) NBSVM.文獻[86]中將NB分類器和SVM分類器融合在情感分類上取得了較好的效果.
4) SSWE.SSWE通過在弱標注信息上訓(xùn)練神經(jīng)網(wǎng)絡(luò)以得到詞向量.給定一條語句,對語句中所包含詞的詞向量求最大、最小和均值,從而得到語句的特征向量表達進行情感分類[50].
5) SentiWV.該方法使用評分信息訓(xùn)練詞向量,再使用線性分類器進行情感分類[49].用詞向量生成語句特征表達的過程與SSWE相同.
6) CNN-rand.在有標注數(shù)據(jù)集上訓(xùn)練基于CNN的網(wǎng)絡(luò)模型(如圖10所示),隨機初始化網(wǎng)絡(luò)參數(shù).
7) LSTM-rand.在有標注數(shù)據(jù)集上訓(xùn)練基于LSTM的網(wǎng)絡(luò)模型(如圖11所示),隨機初始化網(wǎng)絡(luò)參數(shù).
8) CNN-weak.直接將弱標注數(shù)據(jù)當作有標注數(shù)據(jù)訓(xùn)練基于CNN的網(wǎng)絡(luò)模型(使用基于LSTM的網(wǎng)絡(luò)模型效果相似,因此只展示基于CNN的網(wǎng)絡(luò)模型的結(jié)果).
表14展示了實驗結(jié)果.通過對比可以看出,WDE-CNN和WDE-LSTM的準確率和Macro-F1值都超越了其他方法;另外,WDE-CNN和WDE-LSTM在小規(guī)模有標注訓(xùn)練數(shù)據(jù)上的性能也明顯優(yōu)于其他方法.如圖13所示,在只采用10%訓(xùn)練數(shù)據(jù)的情況下,2種方法都達到了80%左右的分類準確率,顯著高于其他模型.原因在于WDE中引入了商品評分這種與句子情感語義有一定關(guān)聯(lián)性的弱標注信息,并通過三元訓(xùn)練準則和“弱監(jiān)督預(yù)訓(xùn)練+有監(jiān)督微調(diào)”訓(xùn)練框架減弱了噪聲對模型訓(xùn)練過程的影響,較好地將弱標注數(shù)據(jù)中的大量有用信息“記憶”到深度模型中.從表14中還可以看出,CNN-weak效果較差,說明弱標注數(shù)據(jù)并不能直接用于有監(jiān)督學(xué)習(xí).
Table 14 Performance Comparison表14 性能比較
Notes:The bold values mean the best accuracy and Marco-F1 values among the different methods.
Fig. 13 Impact of labeled training data size on each method’s performance圖13 不同規(guī)模訓(xùn)練集對模型分類性能的影響
3.5.2 WDE-CNN與WDE-LSTM對比
與WDE-CNN相比,WDE-LSTM模型中的LSTM層可以捕捉評論語句中的長距離依賴關(guān)系,因此WDE-LSTM更善于從整體上“理解”句子的語義.我們對2個模型在測試數(shù)據(jù)上的分類結(jié)果進行了詳細分析,發(fā)現(xiàn):1)WDE-CNN更善于對句法結(jié)構(gòu)簡單的語句進行分類,例如“Sound is not that good”;2)對于句法結(jié)構(gòu)復(fù)雜的語句,WDE-LSTM則更加適用.表15展示的是WDE-LSTM分類正確而WDE-CNN分類錯誤的例句,表格第2列是評論語句的真實情感標簽.可以看到,前兩句話都是轉(zhuǎn)折句,轉(zhuǎn)折詞前后子句的情感極性發(fā)生了反轉(zhuǎn).由于WDE-CNN提取的是局部特征,情感含義沖突的局部文字表達容易導(dǎo)致錯誤分類,如第1句中的“not the greatest”和“is ok”.最后1句話中,否定詞“None”和表達用戶觀點的內(nèi)容之間的距離超出了滑動窗口的最大容量,因此WDE-CNN很難捕捉到兩者之間的依賴關(guān)系.對于WDE-LSTM而言,它可以從整體上捕捉語句內(nèi)的長距離依賴關(guān)系,從而能夠正確分類句法結(jié)構(gòu)復(fù)雜的語句.
Table 15 Example Sentences on Which WDE-LSTM Makes Correct Prediction While WDE-CNN Fails
Fig. 14 Impact of λ on classification performance圖14 不同λ取值對情感分類性能的影響
3.5.3 預(yù)訓(xùn)練間隔參數(shù)λ對模型分類性能的影響
預(yù)訓(xùn)練目標函數(shù)式(14)中的間隔參數(shù)λ本質(zhì)上是控制我們要將弱標注正類和弱標注負類分開的程度.若λ參數(shù)設(shè)定過小會導(dǎo)致無法有效捕捉情感分布,而λ參數(shù)設(shè)定過大會導(dǎo)致噪聲影響被放大.在實驗中,我們測試了不同λ取值對分類結(jié)果的影響.首先需要設(shè)定λ的測試范圍.由于嵌入層特征是300維的向量且神經(jīng)元的輸出值范圍為[-1,1].這就形成了一個超立方體,立方體內(nèi)任意2點間的最大距離約為35.因此,我們將λ的測試范圍設(shè)為1~30之間.圖14展示了不同λ值對最終情感分類性能的影響.從圖14中可以看出,當λ>15時,分類性能嚴重下降;在λ<15時,WDE-CNN和WDE-LSTM都達到了較高的分類準確率.此外,當λ取值較大時(即大于嵌入空間最大距離的一半),模型經(jīng)過長時間訓(xùn)練更容易陷入飽和區(qū)域[87].綜合上述分析和實驗結(jié)果,我們將設(shè)置優(yōu)化目標間隔參數(shù)λ=5.
本文對情感分類技術(shù)進行了系統(tǒng)性歸納,并著重介紹了弱監(jiān)督深度學(xué)習(xí)在情感分類問題上的最新研究進展.本節(jié)我們簡要梳理傳統(tǒng)情感分類方法的不足,并總結(jié)弱監(jiān)督深度學(xué)習(xí)的要點和挑戰(zhàn).
傳統(tǒng)情感分類方法中,基于詞典的方法過于依賴情感詞典的構(gòu)建,而機器學(xué)習(xí)方法的關(guān)鍵在于特征設(shè)計.無論是生成情感詞典還是設(shè)計分類特征,都要求相關(guān)人員具有豐富的領(lǐng)域知識.此外,傳統(tǒng)機器學(xué)習(xí)方法中的分類特征一般只能針對特定問題,推廣能力有限.相比而言,深度模型擁有更強大的表達能力,能夠更好地學(xué)習(xí)從數(shù)據(jù)到情感語義的復(fù)雜映射函數(shù).但是,深度模型的訓(xùn)練是關(guān)鍵挑戰(zhàn).一方面,由于文本數(shù)據(jù)分布與所要預(yù)測的情感語義之間沒有很強的相關(guān)性,所以無監(jiān)督預(yù)訓(xùn)練方法在情感分類問題上效果欠佳;另一方面,有監(jiān)督訓(xùn)練方法需要大量有標注數(shù)據(jù)來訓(xùn)練深度模型,而獲得大規(guī)模有標注評論語句需要耗費大量人力進行數(shù)據(jù)標注工作.
基于弱監(jiān)督的深度學(xué)習(xí)方法則提供了一種解決情感分類問題的新思路:先使用互聯(lián)網(wǎng)用戶產(chǎn)生的大量評分信息對深度模型進行弱監(jiān)督預(yù)訓(xùn)練得到一個能夠捕捉情感語義分布的語句高層特征表達,再利用少量有標注數(shù)據(jù)進行監(jiān)督學(xué)習(xí)預(yù)測情感極性.該方法引入了互聯(lián)網(wǎng)用戶產(chǎn)生的弱標注數(shù)據(jù)作為深度模型的訓(xùn)練集,能夠較好地利用弱標注數(shù)據(jù)中的有用信息.對于采用其他互聯(lián)網(wǎng)用戶產(chǎn)生的弱標注數(shù)據(jù)(如tagging數(shù)據(jù)、表情符號等)來訓(xùn)練深度模型也有借鑒意義.相比于其他深度學(xué)習(xí)方法,基于弱監(jiān)督的深度學(xué)習(xí)方法的優(yōu)勢有3點:1)該方法更容易獲取訓(xùn)練數(shù)據(jù)且很大程度上減少了人工標注成本;2)該方法中深度模型的預(yù)訓(xùn)練方法具有抗噪能力,能有效減弱訓(xùn)練數(shù)據(jù)中噪聲對模型訓(xùn)練過程的影響;3)該方法可以推廣應(yīng)用到很多文本智能理解應(yīng)用問題上.互聯(lián)網(wǎng)中存在大量的用戶產(chǎn)生的文本弱標注信息,如百度知道問答社區(qū)的最佳答案*https://zhidao.baidu.com/.、美味書簽網(wǎng)站的用戶標簽*https://del.icio.us/.等.
因此,可以將基于弱監(jiān)督的深度學(xué)習(xí)方法推廣到相應(yīng)的文本智能理解應(yīng)用問題上,如智能問答系統(tǒng)、推薦系統(tǒng)等等.另一方面,基于弱監(jiān)督的深度學(xué)習(xí)方法性能的好壞一定程度上取決于弱標注數(shù)據(jù)中噪聲的影響.因此,如何有效過濾弱標注數(shù)據(jù)中的噪聲是未來研究工作中亟待解決的問題.
由于情感分類在不同現(xiàn)實場景中有著廣泛應(yīng)用,如電影票房預(yù)測、股指預(yù)測、政府政策調(diào)控等.因此,探索更好的情感分類方法仍然會是情感分類領(lǐng)域的熱點問題.另外,如何將WDE有效地應(yīng)用在其他包含弱標注信息的問題上也是未來的重要挑戰(zhàn)之一.
[1]Medhat W, Hassan A, Korashy H. Sentiment analysis algorithms and applications: A survey[J]. Ain Shams Engineering Journal, 2014, 5(4): 1093-1113
[2]O’connor B, Balasubramanyan R, Routledge B R, et al. From tweets to polls: Linking text sentiment to public opinion time series[C] // Proc of the 4th Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010: 122-129
[3]Bollen J, Mao Huina, Zeng Xiaojun. Twitter mood predicts the stock market[J]. Journal of Computational Science, 2011, 2(1): 1-8
[4]Hu Mingqi, Liu Bing. Mining and summarizing customer reviews[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 168-177
[5]Ding Xiaowen, Liu Bing, Yu P S. A holistic lexicon-based approach to opinion mining[C] //Proc of Int Conf on Web Search and Web Data Mining. New York: ACM, 2008: 231-240
[6]Liu Bing, Hu Miaowen, Cheng Junsheng. Opinion observer: Analyzing and comparing opinions on the Web[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2005: 342-351
[7]Zhu Jingbo, Wang Huizhen, Zhu Muhua, et al. Aspect-based opinion polling from customer reviews[J]. IEEE Trans on Affective Computing, 2011, 2(1): 37-49
[8]Hu Mingqi, Liu Bing. Mining opinion features in customer reviews[C] //Proc of the 19th National Conf on Artifical Intelligence. Menlo Park, CA: AAAI, 2004: 755-760
[9]Zhuang Li, Jing Feng, Zhu Xiaoyan. Movie review mining and summarization[C] //Proc of Conf on Information and Knowledge Management. New York:ACM, 2006: 43-50
[10]Lin D. Dependency-Based Evaluation of Minipar[G] //Treebanks. Berlin: Springer, 2003: 317-329
[11]Jin Weijin, Ho H H, Srihari R K. OpinionMiner: A novel machine learning system for Web opinion mining and extraction[C] //Proc of the 15th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2009: 1195-1204
[12]Lu Yue, Zhai Chengxiang, Sundaresan N. Rated aspect summarization of short comments[C] //Proc of Int World Wide Web Conf. New York: ACM, 2009: 131-140
[13]Jakob N, Gurevych I. Extracting opinion targets in a single- and cross-domain setting with conditional random fields[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 1035-1045
[14]Branavan S R K, Chen H, Eisenstein J, et al. Learning document-level semantic properties from free-text annotations[J]. Journal of Artificial Intelligence Research, 2014, 34(1): 569-603
[15]Zhao W X, Jiang Jing, Yan Hongfei, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2010: 56-65
[16]Brody S, Elhadad N. An unsupervised aspect-sentiment model for online reviews[C] //Proc of North American Chapter of the Association of Computational Linguistics. New York: ACM, 2010: 804-812
[17]Zhang Lei, Liu Bing. Aspect and Entity Extraction for Opinion Mining[M]. Berlin: Springer, 2014
[18]Hai Zhen, Chang Kuiyu, Kim J. Implicit feature identification via co-occurrence association rule mining[C] //Proc of Computational Linguistics and Intelligent Text Processing. Berlin: Springer, 2011: 493-514
[19]Su Qi, Xu Xinying, Guo Honglei, et al. Hidden sentiment association in Chinese Web opinion mining[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2008: 959-968
[20]Duan Xiuting, He Tingting, Song Le. Research on sentiment classification of blog based on PMI-IR[C] //Proc of 2010 Int Conf on Natural Language Processing and Knowledge Engineering (NLP-KE). Piscataway, NJ: IEEE, 2010: 1-6
[21]Lu Yao, Kong Xiangfei, Quan Xiaojun, et al. Exploring the sentiment strength of user reviews[C] //Proc of Int Conf on Web-Age Information Management. Berlin: Springer, 2010: 471-482
[22]Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C] //Proc of Int Conf on Knowledge Capture. New York: ACM, 2003: 70-77
[23]Turney P D. Thumbs up or thumbs down?: Semantic orientation applied to unsupervised classification of reviews[C] //Proc of the 40th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2002: 417-424
[24]Feldman R. Techniques and applications for sentiment analysis[J]. Communications of the ACM, 2013, 56(4): 82-89
[25]Zhang Lei, Liu Bing. Identifying noun product features that imply opinions[C] //Proc of the 49th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 575-580
[26]Lu Yue, Castellanos M, Dayal U, et al. Automatic construction of a context-aware sentiment lexicon: An optimization approach[C] //Proc of Int World Wide Web Conf. New York: ACM, 2011: 347-356
[27]Stone P J, Dunphy D C, Smith M S. The general inquirer: A computer approach to content analysis[J]. American Journal of Sociology, 1968, 73(5): 375-376
[28]Pennebaker J W, Francis M E, Booth R J. Linguistic inquiry and word count 2001[J]. Lawrence Erlbaum Associates Mahwah Nj, 2001, 10(2): 22-32
[29]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C] //Proc of the Conf on Human Language Technology and Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2005: 347-354
[30]Riloff E, Wiebe J. Learning extraction patterns for subjective expressions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2003: 105-112
[31]Baccianella S, Esuli A, Sebastiani F. SentiWordNet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining[C] //Proc of Int Conf on Language Resources and Evaluation. Piscataway, NJ: IEEE, 2010: 2200-2204
[32]Pang B, Lee L, Vaithyanathan S. Thumbs up?: Sentiment classification using machine learning techniques[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2002: 79-86
[33]Dave K, Lawrence S, Pennock D M. Mining the peanut gallery: Opinion extraction and semantic classification of product reviews[C] //Proc of Int World Wide Web Conf. New York: ACM, 2003: 519-528
[34]Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2004: 412-418
[35]Kamps J, Marx M. Words with attitude[C] //Proc of the 14th Belgian-Netherlands Conf on Artificial Intelligence. Menlo Park, CA: AAAI, 2002: 332-341
[36]Osgood C E. The nature and measurement of meaning[J]. Psychological Bulletin, 1952, 49(3): 197-237
[37]Saleh M R, Mart N-Valdivia M T, Montejo-R Ez A, et al. Experiments with SVM to classify opinions in different domains[J]. Expert Systems with Applications, 2011, 38(12): 14799-14804
[38]Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C] //Proc of Meeting on Association for Computational Linguistics. Cambridge, MA: MIT Press, 2004: 271-278
[39]Taboada M, Grieve J. Analyzing appraisal automatically[C] //Proc of AAAI Spring Symp. Menlo Park, CA: AAAI, 2004: 158-161
[40]Ye Qiang, Zhang Ziqiong, Law R. Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J]. Expert Systems with Applications, 2009, 36(3): 6527-6535
[41]Feng Shi, Fu Yongchen, Yang Feng, et al. Blog sentiment orientation analysis on dependency parsing[J]. Journal of Computer Research and Development, 2012, 49(11): 2395-2406 (in Chinese)
(馮時, 付永陳, 陽鋒, 等. 基于依存句法的博文情感傾向分析研究[J]. 計算機研究與發(fā)展, 2012, 49(11): 2395-2406)
[42]Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135
[43]Sindhwani V, Melville P. Document-word co-regularization for semi-supervised sentiment analysis[C] //Proc of the 8th IEEE Int Conf on Data Mining. Piscataway, NJ: IEEE, 2008: 1025-1030
[44]Prabowo R, Thelwall M. Sentiment analysis: A combined approach[J]. Journal of Informetrics, 2009, 3(2): 143-157
[45]Fang Ji, Chen B. Incorporating lexicon knowledge into SVM learning to improve sentiment classification[C] //Proc of the Workshop on Sentiment Analysis Where AI Meets Psychology (SAAIP). New York: ACM, 2011: 94-100
[46]Abbasi A, Chen H, Salem A. Sentiment analysis in multiple languages: Feature selection for opinion classification in Web forums[J]. ACM Trans on Information Systems, 2008, 26(3): 12-47
[47]Qu Lizhen, Gemulla R, Weikum G. A weakly supervised model for sentence-level semantic orientation analysis with multiple experts[C] //Proc of the 2012 Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 149-159
[48]T?ckstor?m O, Mcdonald R. Semi-supervised latent variable models for sentence-level sentiment analysis[C] //Proc of the Meeting of the 49th Annual Meeting of Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 569-574
[49]Maas A L, Daly R E, Pham P T, et al. Learning word vectors for sentiment analysis[C] //Proc of the Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2011: 142-150
[50]Tang Duyu, Qin Bing, Liu Ting. Deep learning for sentiment analysis: Successful approaches and future challenges[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2015, 5(6): 292-303
[51]Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(Aug): 2493-2537
[52]Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554
[53]Yu Kai, Jia Lei, Chen Yuqiang, et al. Deep learning: Yesterday, today and tomorrow[J]. Journal of Computer Research and Development, 2013, 50(9): 1799-1804 (in Chinese)
(余凱, 賈磊, 陳雨強, 等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機研究與發(fā)展, 2013, 50(9): 1799-1804)
[54]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012: 1097-1105
[55]Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1915-1929
[56]Tompson J, Jain A, Lecun Y, et al. Joint training of a convolutional network and a graphical model for human pose estimation[J]. Eprint Arxiv, 2014: 1799-1807
[57]Szegedy C, Liu Wei, Jia Yangqing, et al. Going deeper with convolutions[C] //Proc of the IEEE Conf on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1-9
[58]Mikolov T, Deoras A, Povey D, et al. Strategies for training large scale neural network language models[C] //Proc of Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 196-201
[59]Hinton G, Deng Li, Yu Dong, et al. Deep neural networks for acoustic modeling in speech recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97
[60]Sainath T N, Mohamed A R, Kingsbury B, et al. Deep convolutional neural networks for LVCSR[C] //Proc of Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2013: 8614-8618
[61]Leung M K, Xiong H Y, Lee L J, et al. Deep learning of the tissue-regulated splicing code[J]. Bioinformatics, 2014, 30(12): 121-129
[62]Xiong Huiyuan, Alipanahi B, Lee L J, et al. The human splicing code reveals new insights into the genetic determinants of disease[J]. Science, 2015, 347(6218): 1254806-1254806
[63]Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. Computer Science, 2014, 8(4): 23-33
[64]Jean S, Cho K, Memisevic R, et al. On using very large target vocabulary for neural machine translation[J]. Computer Science, 2015(10): 35-45
[65]Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014: 3104-3112
[66]Bespalov D, Bai Bing, Qi Yanyu, et al. Sentiment classification based on supervised latentn-gram analysis[C] //Proc of ACM Conf on Information and Knowledge Management. New York: ACM, 2011: 375-382
[67]Glorot X, Bordes A, Bengio Y. Domain adaptation for large-scale sentiment classification: A deep learning approach[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2011: 513-520
[68]Socher R, Huval B, Manning C D, et al. Semantic compositionality through recursive matrix-vector spaces[C] //Proc of Joint Conf on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Cambridge, MA: MIT Press, 2012: 1201-1211
[69]Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2011: 151-161
[70]Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C] //Proc of Empirical Methods in Natural Language Processing. Cambridge, MA: MIT Press, 2013: 1631-1642
[71]Kim Y. Convolutional neural networks for sentence classification[J]. arXiv preprint, arXiv: 1408. 5882, 2014
[72]Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[J]. arXiv preprint, arXiv: 1404. 2188, 2014
[73]Mitchell J, Lapata M. Composition in distributional models of semantics[J]. Cognitive Science, 2010, 34(8): 1388-1429
[74]Frege G. On sense and nominatum[J]. Philosophy of Science, 1949, 59(16): 35-39[75]Wu Qiong, Liu Yue, Shen Huawei, et al. A unified framework for cross-domain sentiment classification,[J]. Journal of Computer Research and Development, 2013, 50(8): 1683-1689 (in Chinese)
(吳瓊, 劉悅, 沈華偉, 等. 面向跨領(lǐng)域情感分類的統(tǒng)一框架[J]. 計算機研究與發(fā)展, 2013, 50(8): 1683-1689)
[76]Bengio Y, Lamblin P, Popovici D, et al. Greedy layer-wise training of deep networks[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007: 153-160
[77]Zhu Xiaodan, Sobihani P, Guo Hongyu.Long short-term memory over recursive structures[C] //Proc of Int Conf on Machine Learning. New York: ACM, 2015: 1604-1612
[78]Hu Baoting, Lu Zhengdong, Li Hang, et al. Convolutional neural network architectures for matching natural language sentences[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 2042-2050
[79]Bengio Y. Learning deep architectures for AI[J]. Foundations & Trends in Machine Learning, 2009, 2(1): 1-127
[80]Mikolov T, Sutskever I, Chen Kai, et al. Distributed representations of words and phrases and their compositionality[C] //Proc of Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2013: 3111-3119
[81]Greff K, Srivastava R K, Koutnik J, et al. LSTM: A search space odyssey[J]. IEEE Trans on Neural Networks & Learning Systems, 2016(7): 10-18
[82]Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5/6): 602-610
[83]Weston J, Ratle F, Mobahi H, et al. Deep Learning via Semi-Supervised Embedding[G] //Neural Networks: Tricks of the Trade. Berlin: Springer, 2012: 639-655
[84]Mcauley J, Pandey R, Leskovec J. Inferring networks of substitutable and complementary products[C] //Proc of the 21st ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2015: 785-794[85]Fan R E, Chang K W, Hsieh C J, et al. LIBLINEAR: A library for large linear classification[J]. Journal of Machine Learning Research, 2008, 9(Aug): 1871-1874
[86]Wang S, Manning C D. Baselines and bigrams: Simple, good sentiment and topic classification[C] //Proc of the 50th Annual Meeting of the Association for Computational Linguistics. Cambridge, MA: MIT Press, 2012: 90-94
[87]Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828
Guan Ziyu, born in 1982. Received his BSc and PhD degrees in computer science from Zhejiang University, in 2004 and 2010, respectively. Full professor in the School of Information Science and Technology of Northwest University. His main research interests include attributed graph mining and search, machine learning, expertise modeling and retrieval, and recommender systems.
He Jinhong, born in 1983. Received his BSc degree in management engineering from People’s Liberation Army Guilin Air Force Academy in 2009. After serving in the army for 3 years, he joined Northwest University. His main research interests include image processing, machine learning and information security.
Peng Jinye, born in 1964. Received his MSc degree in radio electronics from Northwest University in 1996 and received his PhD degree in signal and information processing from Northwestern Polytech-nical University in 2002. Full professor in Northwest University in 2003. He was awarded as “New Century Excellent Talent” by the Ministry of Education of China in 2007. His main research interests include machine learning, imagevideo analysis and retrieval, and face recognition.
A Survey on Sentiment Classification
Chen Long, Guan Ziyu, He Jinhong, and Peng Jinye
(SchoolofInformationScienceandTechnology,NorthwestUniversity,Xi’an710127)
Sentiment analysis in text is an important research field for intelligent multimedia understanding. The aim of sentiment classification is to predict the sentiment polarity of opinionated text, which is the core of sentiment analysis. With rapid growth of online opinionated content, the traditional approaches such as lexicon-based methods and classic machine learning methods cannot well handle large-scale sentiment classification problems. In recent years, deep learning has achieved good performance on the intelligent understanding of large-scale text data and has attracted a lot of attention. More and more researchers start to address text classification problems with deep learning. The content of this survey is organized as two parts. We firstly summarize the traditional approaches including lexicon-based methods, machine learning based methods, hybrid methods, methods based on weakly labeled data and deep learning based methods. Secondly, we introduce our proposed weakly-supervised deep learning framework to deal with the defects of the previous approaches. Moreover, we briefly summarize the research work on the extraction of opinion aspects. Finally, we discuss the challenges and future work on sentiment classification.
sentiment analysis; sentiment classification; deep learning; weak-supervision; aspects extraction
, born in 1989.
his BSc degree in electronic information engin-eering from City College, Xi’an Jiaotong University in 2012 and received his MSc degree in electronics and communications engineering from Northwest University, Xi’an, China, in 2015. PhD candidate at the School of Information Science and Technology, Northwest University, Xi’an, China. His main research interests include deep learning, sentiment analysis, text mining and natural language processing.
2016-11-10;
2017-03-14
國家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項目(61522206) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61522206).
管子玉(ziyuguan@nwu.edu.cn)
TP181