劉志遠(yuǎn),高俊波
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
基于話題的微博多特征情感極性分類
劉志遠(yuǎn),高俊波
(上海海事大學(xué) 信息工程學(xué)院,上海 201306)
通過(guò)對(duì)新浪微博特點(diǎn)的分析與研究,利用話題下微博文本的多特征,建立微博情感極性分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)微博情感極性分類具有良好的效果。
多特征;機(jī)器學(xué)習(xí);微博;情感極性
隨著科學(xué)技術(shù)的快速發(fā)展,人與人之間的社交活動(dòng)逐漸偏向于網(wǎng)絡(luò),大眾慢慢地習(xí)慣了在網(wǎng)上瀏覽新聞,互動(dòng)交流,表達(dá)對(duì)生活中某些事情的觀點(diǎn)。微博,作為一個(gè)社會(huì)網(wǎng)絡(luò)平臺(tái),用戶可以獲得豐富的實(shí)時(shí)信息,也為用戶提供了方便的交流方式。根據(jù)統(tǒng)計(jì)表明,截止到2016年8月,每個(gè)月微博有2.82億使用者,每天有1.26億使用者。如此多的活躍用戶量使微博擁有很多的數(shù)據(jù),在這樣多的數(shù)據(jù)中,其中的大部分是帶有情感傾向的文本數(shù)據(jù),這樣的情感文本數(shù)據(jù)是特別有用的意見(jiàn)資源,對(duì)這些話題下的微博內(nèi)容使用文本情感分類的方法進(jìn)行情感極性的分類研究。
與傳統(tǒng)的文本相比,微博內(nèi)容相對(duì)簡(jiǎn)單,它的文本短小,其內(nèi)容不能超過(guò)140字。而且微博用戶會(huì)使用網(wǎng)絡(luò)用語(yǔ)、表情符號(hào)與鏈接,每個(gè)用戶關(guān)注事情的角度非常廣泛,這些都增加了微博情感分析的難度。
近年來(lái),對(duì)于微博情感的研究引起了許多學(xué)者的興趣,國(guó)內(nèi)外研究者已在文本情感分析方向做了許多的研究工作,并取得了很多的成果。目前,對(duì)文本的情感分類常用的研究方法大致概括為兩種:第一種是使用情感詞典分類的方法,第二種是使用機(jī)器學(xué)習(xí)分類的方法?;谇楦性~典的方法是通過(guò)利用詞典獲得文本的情感?;跈C(jī)器學(xué)習(xí)的方法重點(diǎn)是文本特征的準(zhǔn)確判定,利用選擇的特征進(jìn)行組合計(jì)算文本的情感極性。
本文通過(guò)觀察微博的特征提出了利用話題下微博內(nèi)容的多特征,建立話題下微博情感分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。
近年來(lái),微博的情感分類已經(jīng)成為自然語(yǔ)言研究的熱門方向,關(guān)于文本情感分類方法的研究學(xué)術(shù)界已經(jīng)取得了豐富的成果??偟膩?lái)說(shuō),情感分類的途徑可以概括為下面的兩種常用的方法。
1.1 基于情感詞典的分類方法
基于詞典的分類方法通常采用WordNet、HowNet詞典來(lái)判斷詞語(yǔ)的相同的程度。文獻(xiàn)[1]使用WordNet計(jì)算特征詞在積極種子詞與消極種子詞之間的距離,判斷情感極性。文獻(xiàn)[2]建立情感知識(shí)庫(kù)使用WordNet,對(duì)評(píng)論中的詞語(yǔ)的情感極性進(jìn)行選取并確認(rèn),判別評(píng)論的全體的情感極性。文獻(xiàn)[3]使用PMI方法,計(jì)算出微博內(nèi)容中與規(guī)則短語(yǔ)的語(yǔ)義傾向相符合的,判斷微博內(nèi)容的整體傾向。
1.2 基于機(jī)器學(xué)習(xí)的分類方法
基于機(jī)器學(xué)習(xí)方法的步驟:先人工識(shí)別文本情感類別并進(jìn)行標(biāo)注,把這些標(biāo)注了的語(yǔ)料作為訓(xùn)練集,然后運(yùn)用合適的方法進(jìn)行文本特征的表示,最后利用機(jī)器學(xué)習(xí)的方法建立可獲得待測(cè)文本的情感類別的分類器,得到希望的效果。文獻(xiàn)[4]使用樸素貝葉斯、最大熵和SVM的算法,實(shí)驗(yàn)結(jié)果顯示,SVM分類器在幾種分類方法得到了最理想的效果。文獻(xiàn)[5]使用語(yǔ)義特征和機(jī)器學(xué)習(xí)結(jié)合的方法,對(duì)褒貶詞、否定詞、程度副詞這幾種詞匯迭代遞增選取特征集,使用SVM分類器與對(duì)詞的頻率進(jìn)行加權(quán)統(tǒng)計(jì)的方法,對(duì)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行褒貶分類。文獻(xiàn)[6]在特征的提取方法上進(jìn)行了改進(jìn),提出了將詞性、詞組內(nèi)部組成形式、詞語(yǔ)上下文語(yǔ)境多種語(yǔ)法特征結(jié)合的方法。文獻(xiàn)[7]在分類方法的角度上進(jìn)行了研究,提出了一種組合的思路,即將不同的分類器進(jìn)行組合來(lái)提高情感分類的性能。
1.3 微博情感分類方法
微博是一個(gè)人們獲取消息,表達(dá)觀點(diǎn)的快速交流的信息平臺(tái),現(xiàn)在對(duì)微博內(nèi)容的情感分類研究已有了較多的方法。文獻(xiàn)[8]提出了對(duì)Twitter上的微博內(nèi)容使用距離監(jiān)督的方法來(lái)進(jìn)行情感判斷,把表情符當(dāng)成標(biāo)簽,訓(xùn)練集為采集到的英文語(yǔ)料,沒(méi)有了人工識(shí)別標(biāo)注語(yǔ)料的步驟。文獻(xiàn)[9]提出一種在微博文本上利用與評(píng)價(jià)目標(biāo)有關(guān)系的特征,以此增加情感分類精度。文獻(xiàn)[10]使用詞、詞性與句法模式利用CRF模型獲得評(píng)論句里評(píng)價(jià)對(duì)象,然后用SVM分類器對(duì)評(píng)論句中的情感進(jìn)行分類。文獻(xiàn)[11]選擇并自行標(biāo)明大規(guī)模微博沒(méi)有標(biāo)注的語(yǔ)料,把自動(dòng)標(biāo)注的語(yǔ)料運(yùn)用為訓(xùn)練集建立微博情感分類器,自動(dòng)對(duì)微博情感類別分類。
由于微博中存在轉(zhuǎn)發(fā)、回復(fù)等評(píng)論轉(zhuǎn)發(fā)方式,加上用戶可同時(shí)參與多個(gè)話題的談?wù)摚@種相互聯(lián)系,形成基于評(píng)論文本的交互信息網(wǎng)絡(luò)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具可以獲取文本內(nèi)容及相互間交流的過(guò)程,這些信息也可以加入到對(duì)微博短文本分析過(guò)程中。文獻(xiàn)[12]將微博使用者的社會(huì)關(guān)系聚類,將聚類所得作為特征用以提高分類的效果。文獻(xiàn)[13]針對(duì)文本特征向量的維度,對(duì)獲取信息的文本結(jié)構(gòu)以及情感表達(dá)特點(diǎn)進(jìn)行分析,使用一種改進(jìn)的KNN算法進(jìn)行文本情感分類。
與以上文獻(xiàn)的工作不同的是,本文利用話題下微博文本的多特征,建立微博文本情感分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。
本文主要研究微博文本情感極性的分類。本文的輸入是話題下所有采集的微博內(nèi)容,輸出是微博文本的情感極性。運(yùn)用3個(gè)步驟進(jìn)行情感極性分類的研究。第一步進(jìn)行主觀性分類,判斷輸入語(yǔ)料庫(kù)中的文本是主觀的還是客觀的。第二步進(jìn)行情感極性判斷,判斷第一步中被分類為主觀的文本的情感極性是積極的還是消極的。第三步性能優(yōu)化,提高分類的性能。本文使用LIBSVM分類器進(jìn)行研究。
對(duì)于文本情感分類的途徑已經(jīng)有許多有效的方法,例如:詞性特征、表情符號(hào)特征、上下文關(guān)系。在本文的實(shí)驗(yàn)中,有些特征被使用。但是這些特征都是文本本身的特征,忽略了微博文本的特殊性,微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的多因素是微博文本相對(duì)于其他文本特有的特征,本文將這些特征應(yīng)用于微博文本情感分類。
通常人們表達(dá)他們對(duì)于某個(gè)主題的情感,不是對(duì)主題本身,而是對(duì)跟主題有相關(guān)性的事情。例如,某個(gè)人表達(dá)對(duì)一部電影的評(píng)論,他可能選擇電影里面的一個(gè)片段或者背景音樂(lè)進(jìn)行評(píng)論,讀者可以從這些評(píng)論中得到他對(duì)于主題的觀點(diǎn)。
本文,文本多的特征一共有5個(gè),分別是:副詞加動(dòng)詞(例如:我很喜歡這電影,“很”加“喜歡”作為一個(gè)特征)、及物動(dòng)詞加主語(yǔ)、及物動(dòng)詞加賓語(yǔ)、及物動(dòng)詞單獨(dú)出現(xiàn)和形容詞單獨(dú)出現(xiàn)。利用一個(gè)二元關(guān)系表示這些特征,如果有某個(gè)特征即為1,否則為0。
主題通常模糊不清,把主題的外部關(guān)系考慮進(jìn)去可能有更好的效果。本文考慮了微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等。轉(zhuǎn)發(fā)別人的微博,通常不改變別人的內(nèi)容,通常表達(dá)了相同的情感。評(píng)論可能支持也可能反對(duì)本微博的情感。點(diǎn)贊大多數(shù)表達(dá)對(duì)微博的贊同,表達(dá)了相同的情感。粉絲大部分都對(duì)作者的微博認(rèn)同,也表達(dá)了相似的情感。
情感極性分為積極、消極和中立3種,本文利用下面的公式進(jìn)行圖優(yōu)化:
(1)
3.1 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)使用了“2017再出發(fā)”、“汽車”、“美聯(lián)儲(chǔ)加息”、“考研”、“霧霾來(lái)襲”這5個(gè)主題下的數(shù)據(jù),利用微博爬蟲(chóng)從網(wǎng)絡(luò)上采集實(shí)驗(yàn)需要的數(shù)據(jù),每個(gè)主題采集500個(gè)微博,然后進(jìn)行人工標(biāo)注微博的情感極性,最終得到實(shí)驗(yàn)使用的數(shù)據(jù)集,正向情感有1 056條微博,負(fù)向情感有856條微博,中立情感有553條微博,如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)
3.2 主客觀性分類
用不同的特征來(lái)對(duì)比主客觀性分類的效果,為了進(jìn)行對(duì)比,加入了Hownet詞典的分類方法作為對(duì)比。實(shí)驗(yàn)中,選取正向與負(fù)向的1 912條微博為主觀性的微博,中立的553條微博為客觀性的微博,選取1 400條的主觀性微博與410條客觀性微博為訓(xùn)練集,余下的512條主觀性微博與143條客觀性微博作為測(cè)試集。實(shí)驗(yàn)結(jié)果如表2所示。
表2 主客觀性分類的準(zhǔn)確性
從表2可以看出,只用文本特征得到的準(zhǔn)確率最低,為62.8%,情感詞典對(duì)提高準(zhǔn)確率有幫助,本文提出的方法的準(zhǔn)確率最高,為69.3%。結(jié)果表明,本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。
3.3 情感極性分類
選取每個(gè)主題每個(gè)極性下的2/3作為訓(xùn)練集,剩下的1/3作為測(cè)試集,選擇不同的特征,利用SVM方法分類。
表3 情感極性分類的準(zhǔn)確性
實(shí)驗(yàn)結(jié)果如表3所示。
從表3可以看出,只用文本特征得到的準(zhǔn)確率最低,為76.6%,情感詞典對(duì)提高準(zhǔn)確率有幫助,本文提出的方法的準(zhǔn)確率最高,為86.3%。結(jié)果表明,本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。
3.4 結(jié)果的優(yōu)化
主題下有的微博沒(méi)有轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊關(guān)系,使用擁有這些關(guān)系的微博進(jìn)行試驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表4所示。
表4 優(yōu)化的準(zhǔn)確率
從表4可以看出,優(yōu)化方法對(duì)極性分類的準(zhǔn)確率有所提高。
微博情感分類吸引了很多人去研究,本文提出結(jié)合微博文本本身與文本上下文的特征微博情感極性分類方法,并利用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化。與之前的利用微博文本方法不同,本文提出了利用文本上下文特征的方法進(jìn)行微博情感極性分類。實(shí)驗(yàn)結(jié)果表明,本文方法分類的準(zhǔn)確度優(yōu)于使用微博文本。
在本文方法中,有許多地方有待改進(jìn),如將聯(lián)系比較緊密的名詞或名詞短語(yǔ)作為擴(kuò)展目標(biāo),添加到話題詞的集合中,提高情感極性分類的效果,這是今后的研究方向。
[1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.
[2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.
[3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.
[4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.
[5] 徐琳宏,林鴻飛,楊志豪.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):98-102.
[6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.
[7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.
[8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.
[9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.
[10] 包亮,張莉,許鑫. 蘇州園林網(wǎng)絡(luò)評(píng)論意見(jiàn)挖掘研究[J]. 微型機(jī)與應(yīng)用,2016,35(13):86-89.
[11] 龐磊,李壽山,周國(guó)棟.基于情緒知識(shí)的中文微博情感分類方法[J]. 計(jì)算機(jī)工程,2012,38(13):156-158,162.
[12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.
[13] 劉曉菲,丁香乾,石碩,等.基于改進(jìn)KNN的消費(fèi)者評(píng)價(jià)信息情感分類研究[J].微型機(jī)與應(yīng)用, 2014,33(24):81-83,86.
Multi-feature based sentiment orientation identification for micro-blog topics
Liu Zhiyuan, Gao Junbo
(College of InformationEngineering,Shanghai Maritime University,Shanghai 201306, China)
Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.
multi-feature; machine learning; micro-blog; sentiment polarity
TP391
A
10.19358/j.issn.1674- 7720.2017.16.017
劉志遠(yuǎn),高俊波.基于話題的微博多特征情感極性分類[J].微型機(jī)與應(yīng)用,2017,36(16):60-62,66.
2017-02-25)
劉志遠(yuǎn)(1992-),通信作者,男,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。E-mail:liu770105275@163.com。
高俊波(1972-),男,博士,副教授,主要研究方向:計(jì)算智能、數(shù)據(jù)挖掘。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2017年16期