錢慎一,楊鐵松
(鄭州輕工業(yè)學(xué)院計算機與通信工程學(xué)院,鄭州 450001)
基于微博電影評論的情感分析研究
錢慎一,楊鐵松
(鄭州輕工業(yè)學(xué)院計算機與通信工程學(xué)院,鄭州 450001)
近幾年,數(shù)據(jù)挖掘分析成為一個熱點研究的課題,其中的文本研究分析更成為熱中之熱,而微博電影評論成為一種新的電影設(shè)計模式,也就自然成為研究對象。主要從數(shù)據(jù)采集、特征提取、情感詞典構(gòu)建及情感計算幾個方面進行研究,提出基于句法分析算法,并進行必要研究,進一步提高微博電影評論情感傾向分析的正確率。
數(shù)據(jù)挖掘;情感分析;特征提取
近些年,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)技術(shù)日新月異的變革,人們的各種思想也就充斥在各種網(wǎng)絡(luò)論壇之上。微博作為一種新興的社交平臺,憑借著快、短、靈活的特點,成為了最火熱的用戶發(fā)布、傳播、共享信息的平臺。隨著用戶量的增漲,微博對社會輿論的影響日益增加,并潛移默化的改變著人們的生活方式。微博里海量的文本信息,很多都有用戶的參與,存在著大量的有價值信息。微博電影評論就是其中一類,用戶借助微博平臺,表達著自己的觀點,成為了一種新的電影社交模式。
微博電影評論與傳統(tǒng)的網(wǎng)絡(luò)電影評論相比,信息量更大,及時性更強,獲得人們的關(guān)注度更高。因此對微博電影評論的情感分析研究意義重大,不僅可以引導(dǎo)觀眾的觀影決策,而且可以使制片商調(diào)整他們的營銷策略。微博電影評論挖掘是在一個特定的領(lǐng)域,所有它更有針對性,并且特征豐富,除了要關(guān)注電影品質(zhì)本身,還要關(guān)注演員、編劇、導(dǎo)演、制作人、出品公司等。這些都是電影評論的特征,相比其他產(chǎn)品可能更具挑戰(zhàn)性。目前,國內(nèi)外對于電影評論的研究相對較少,Chaovalit P等人[1]分別采用基于機器學(xué)習(xí)和語義傾向兩種方法進行研究,Zhuang L等人[2]通過提取特征詞對的方法等。本文主要是基于依存句法規(guī)則方法對微博電影品論情感分析進行研究。
首先我們先來明確情感的定義[3],情感就是人們情緒上的變化,例如喜怒哀樂。這樣我們就可以把情感劃分成正傾向、負(fù)傾向和中立態(tài)度幾類。正傾向的態(tài)度就是積極的、樂觀的、使人向上的態(tài)度。負(fù)傾向就正好相反,使人悲觀、憤怒。像生氣,郁悶等是屬于負(fù)傾向態(tài)度這類的。中立態(tài)度是指客觀的去分析,并沒有一自己的好惡去評判。
情感分析傾向的計算可分為以下幾步:(1)數(shù)據(jù)預(yù)處理;(2)聚類分析(特征提?。?;(3)情感詞典的建立;(4)情感計算。如圖1所示:
圖1 微博電影情感分析框架
首先就是行進數(shù)據(jù)預(yù)處理階段,在這個階段主要的工作是對需要分析的文本進行爬取收集,再就是進行簡單的分詞處理、去除停用詞、詞頻計算[4]等操作,把文本儲存到準(zhǔn)備好的數(shù)據(jù)庫中,以備后續(xù)使用。接著是特征提取,情感詞的抽取是短文本情感分析的重要部分。在聚類分類的過程中,詞語是基本特征,電腦若是想要理解人類的語言時,一般經(jīng)過兩步的加工量化,第一步是特征提取,確保主要的部分被篩選出來;第二步是特征權(quán)重計算,將文本量化,方便理解并計算。其中的特征提取,作用是為了降維,降低復(fù)雜度,去除噪聲,從而增加分類精度。再來就是情感詞典的建立,雖說眼下的情感詞典很多,卻還沒有一部完整且通用的情感詞典。在國外,目前較為流行且成熟的情感詞典資源有GI詞典[5]。該詞典給出的每個詞條都相當(dāng)全面。如褒義詞、貶義詞、反義詞等。還有LIWC詞典[6],該詞典的類別體系和CI詞典大致相同SentiWordNet詞典[7],該詞典是基于WordNet中的詞條進行情感分類的,國內(nèi)的情感分析研究起步不久,當(dāng)前能應(yīng)用的詞典資源自然有限。大概有知網(wǎng)的情感詞典[8]、臺灣大學(xué)的情感極性詞典、還有大連理工大學(xué)信息檢索樣就是整理標(biāo)注的情感詞匯本題庫等。目前比較常用的方法是,先對大規(guī)模的詞典庫進行分析研究,對常用的詞語進行標(biāo)注,選為基礎(chǔ)詞。然后具有針對性的獲得新的情感詞,從而擴展情感詞典。如下圖:
圖2 擴展詞典
最后是情感傾向分析,本文從句子的結(jié)構(gòu)角度出發(fā),采用基于依存句法的情感分析方法,對句子中的短語進行識別抽取、從細(xì)粒度的角度對基礎(chǔ)情感詞和極性短語進行量化計算,再對句子進行特定句式識別消除它們對句子極性的影響,進而以量化的文本極性值完成句子級細(xì)粒度的情感計算。
依存語法[9](Dependency Parsing,DP)是研究句子內(nèi)各個成分之間的句法依存關(guān)系來揭示其句法結(jié)構(gòu)。將漢語句子從一個線性序列轉(zhuǎn)換成一棵完整的依存分析樹。它的表達形式十分簡潔,無需額外添加語法符號,所以相對來說容易理解。由于句法分析是深入語言內(nèi)部結(jié)構(gòu)進行分析的,其分析結(jié)果能夠強有力的支持句子情感分析。依存句法分析的目的是構(gòu)建輸入句子的句法結(jié)構(gòu)樹。
圖3 句法結(jié)構(gòu)樹實例
圖中我們可以看出由“我”與“欣賞”、“很”與“欣賞”、“突出”與“的”、“欣賞”與“電影”、“突出”與“電影”等組成的短語。并且中間都有一條帶有箭頭的有標(biāo)記的弧線。每條弧線清晰的給出了每個詞語的依存關(guān)系。
(1)依存關(guān)系對的表示
微博句子的情感分析關(guān)鍵在于對情感詞依存關(guān)系的選取上,對于依存關(guān)系樹上存在的兩個節(jié)點x和y,x為子節(jié)點,y為父節(jié)點,通過分析依存關(guān)系樹,我們可以找到兩者在書中的節(jié)點id,從而給出的依存關(guān)系對的表達方式為:
RelationPair=
從上圖所示的例子中,抽取“很欣賞”和“突出動感”的依存關(guān)系對。表示如下:
<1,很,d,2,欣賞,v,ADV,0.8>
<3,突出,v,4,動感,n,VOB,0.4>
(2)依存關(guān)系的距離
依存距離這里是指兩個存在依存關(guān)系的詞匯之間的線性距離,也就是兩個節(jié)點次序之差的絕對值大小。例如下面的兩個句子:a:“這部電影不太好看”。B:“這部電影太不好看”。我們可以看出,雖然只有兩個字的次序不一樣,但這兩句話的感情程度是有很大的差異的。對兩句話進行句法分析,可得到的關(guān)系對如下:
a:<2,不,d,3,好看,a,ADV,0.8>
<1,太,d,3,好看,a,ADV,0.8>
b:<2,太,d,3,好看,a,ADV,0.8>
<1,不,d,3,好看,a,ADV,0.8>
可以看出a中否定詞“不”與“好看”的依存距離是2,b中的否定詞“不”與“好看”的依存距離是1,由此可知,依存距離越小,感情極性越強。由依存關(guān)系定義,若將依存距離看成是主導(dǎo)詞和從屬詞在句子中距離的差,我們不分正負(fù),只求句子距離上的差別,所以采用去計算的絕對值:
Distance(Wordx,Wordy)=|idx-idy|
其中Wordx、Wordy表示遍歷依存句法樹得到的節(jié)點id,也就是Wordx、Wordy的詞號。
(3)情感短語的計算
在進行句子級的情感計算時,主要對句子中出現(xiàn)的情感詞構(gòu)成的依存關(guān)系進行分析。先對文本分分句,再進行分詞、詞性標(biāo)注;繼而通過情感詞典來判斷是否有情感值,若有則將之添加到情感詞類表,如果有否定詞或程度副詞,則根據(jù)擴展的情感詞典進行相應(yīng)的處理。最后用句子中情感詞和情感短語的情感強度平均值作為整個文本的感情傾向值。
情感短語計算:
Value=degree(Word1)*polarity(Word2)/Distance(Word1,Word2)
其中Word1、Word2分別為副詞和情感詞,polarity表示情感詞,degree表示情感程度詞。
(4)句子級情感計算
有了依存關(guān)系對的情感極性,再加上句子中每個情感詞,并將其情感傾向值歸一求和。就得到了句子級的情感計算[10]公式:
其中βi為情感詞的權(quán)值,n為情感詞、情感短語總數(shù)。
這樣就計算出了句子的情感極性,先給出依存句法的情感計算方法,進行深入的討論,再分析了影響微博情感的詞語及短語情感傾向,最終完成了句子級的情感計算。
現(xiàn)如今,針對電影的情感分類方法有很多,其中基于協(xié)同訓(xùn)練的半監(jiān)督情感分類方法相對高效。那就用本文的算法與之相比較。
(1)先進行數(shù)據(jù)采集,從新浪網(wǎng)進行評論采集,有30000條微博電影評論數(shù)據(jù)。并進行人工標(biāo)注,把文本分類成褒義、貶義和中性3種。
(2)評價方法
對采集的文本進行情感傾向分析,將自動分析的結(jié)果和人工標(biāo)注的對比。測試結(jié)果越接近人工標(biāo)注,則說明實驗越正確。
評價指標(biāo)采用最被接受的,評測時使用準(zhǔn)確率(precision)和召回率(recall),并用綜合評分指標(biāo)F來衡量正確率。
準(zhǔn)確率(precision)=分析正確的文本數(shù)/總的文本數(shù)
召回率(recall)=分析正確的文本數(shù)/總的正確的文本數(shù)
其中P表示正確率,R表示召回率。
(3)實驗設(shè)計及分析
基于依存句法的算法,通過系統(tǒng)分析這30000條文本,在不同閾值下的F值的曲線變化如下圖:
表1
由上表可知,當(dāng)閾值達到0.15時,情感分析結(jié)果達到最優(yōu)。取閾值0.15進行實驗,與協(xié)同訓(xùn)練算法[11]進行比較。
表2
由上表可以看出本文的算法的各方面都是高于協(xié)同訓(xùn)練算法的,結(jié)果證明本文的實驗結(jié)果是達到預(yù)期效果的。
本文針對微博電影評論進行了情感分類研究,提出了基于依存句法規(guī)則對微博電影評論分類的方法。并進行了實驗和比對,取得了一些效果,但仍存在許多的不足。比如,情感詞典的多維構(gòu)造,以及有效地解決特征稀疏問題等。所有還需要我們更加努力地進行下一步的研究和改進。
[1]Chaovalit P,Zhou L.Movie Review Mining:A Comparison Between Supervised and Unsupervised Classification Approaches[C]. System Sciences,2005:112-148.
[2]Zhuang L,Jing F,Zhu X Y.Movie Review Mining and Summarization[C].2006:99-132.
[3]龐觀松,蔣盛益.文本自動分類技術(shù)研究綜述[J].情報理論與實踐,2012,35(1):96-123.
[4]Hung C,Lin H K.Using Objective Words in SentiWordNet to Improve Word-of-Mouth Sentiment Classification[J].IEEE Intelligent Systems,2013,28(2):147-154.
[5]Philip J.Stone,Dexter C Dunphy,Marshall S.Smith,Daniel M.Ogilvie.The General Inquirer:A Computer Approach to Content Analysis.MIT Press,1966.
[6]Pennebaker,J.W.,Booth,R.J.,&Francis,M.E.Linguistic Inquiry and Word Count:LIWC 2007.Austin,TX.2007.
[7]Stefano Baccianella,Andrea Esuli,F(xiàn)abrizio Sebastiani.An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining. LREC.2010.
[8]HowNet[R/OL].HowNet's Home Page.http//www.keenage.com.2011,12,10.
[9]劉海濤.依存語法的理論與實踐[M].北京:科學(xué)出版社,2009.
[10]施寒瀟.細(xì)粒度情感分析研究[D].蘇州大學(xué),2013.
[11]Blum A,Mitchell T.Combining Labeled and Unlabeled Data with Co-Training[C].Proceedings of the Eleventh Annual Conference on Computational Learning Theory.ACM,1998:92-100.
Research on Emotional Analysis Based on Micro-Blog Film Criticism
QIAN Shen-yi,YANG Tie-song
(College of Computer and Communication Engineering,Zhengzhou University of Light Industry,Zhengzhou 450001)
In recent years,data mining analysis has become a hot research topic,in which the text research and analysis has become a hot,microblog film commentary has become a new film design pattern.Mainly studies the data acquisition,feature extraction,emotion dictionary construction and emotion computation,proposes a syntax analysis algorithm and makes necessary research.And further improves the micro-blog movie comments emotional analysis of the correct rate.
Data Mining;Emotion Analysis;Feature Extraction
1007-1423(2017)05-0048-04
10.3969/j.issn.1007-1423.2017.05.012
錢慎一(1975-),男,江蘇揚州人,碩士,副教授,碩士生導(dǎo)師,研究方向為數(shù)據(jù)庫與信息集成、計算機應(yīng)用技術(shù)
2016-11-29
2017-02-12
楊鐵松,男,河南商丘人,碩士,研究方向為數(shù)據(jù)挖掘為大數(shù)據(jù)分析