亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于話題的微博多特征情感極性分類

2017-09-04 00:31:10劉志遠(yuǎn)高俊波

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2017年16期

關(guān)鍵詞：博文極性分類器

劉志遠(yuǎn)，高俊波

(上海海事大學(xué) 信息工程學(xué)院，上海 201306)

基于話題的微博多特征情感極性分類

劉志遠(yuǎn)，高俊波

(上海海事大學(xué) 信息工程學(xué)院，上海 201306)

通過(guò)對(duì)新浪微博特點(diǎn)的分析與研究，利用話題下微博文本的多特征，建立微博情感極性分類模型，運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定，應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化，提出一種基于話題的微博多特征情感極性分類方法。實(shí)驗(yàn)結(jié)果表明，該方法對(duì)微博情感極性分類具有良好的效果。

多特征；機(jī)器學(xué)習(xí)；微博；情感極性

0 引言

隨著科學(xué)技術(shù)的快速發(fā)展，人與人之間的社交活動(dòng)逐漸偏向于網(wǎng)絡(luò)，大眾慢慢地習(xí)慣了在網(wǎng)上瀏覽新聞，互動(dòng)交流，表達(dá)對(duì)生活中某些事情的觀點(diǎn)。微博，作為一個(gè)社會(huì)網(wǎng)絡(luò)平臺(tái)，用戶可以獲得豐富的實(shí)時(shí)信息，也為用戶提供了方便的交流方式。根據(jù)統(tǒng)計(jì)表明，截止到2016年8月，每個(gè)月微博有2.82億使用者，每天有1.26億使用者。如此多的活躍用戶量使微博擁有很多的數(shù)據(jù)，在這樣多的數(shù)據(jù)中，其中的大部分是帶有情感傾向的文本數(shù)據(jù)，這樣的情感文本數(shù)據(jù)是特別有用的意見(jiàn)資源，對(duì)這些話題下的微博內(nèi)容使用文本情感分類的方法進(jìn)行情感極性的分類研究。

與傳統(tǒng)的文本相比，微博內(nèi)容相對(duì)簡(jiǎn)單，它的文本短小，其內(nèi)容不能超過(guò)140字。而且微博用戶會(huì)使用網(wǎng)絡(luò)用語(yǔ)、表情符號(hào)與鏈接，每個(gè)用戶關(guān)注事情的角度非常廣泛，這些都增加了微博情感分析的難度。

近年來(lái)，對(duì)于微博情感的研究引起了許多學(xué)者的興趣，國(guó)內(nèi)外研究者已在文本情感分析方向做了許多的研究工作，并取得了很多的成果。目前，對(duì)文本的情感分類常用的研究方法大致概括為兩種：第一種是使用情感詞典分類的方法，第二種是使用機(jī)器學(xué)習(xí)分類的方法?；谇楦性~典的方法是通過(guò)利用詞典獲得文本的情感?；跈C(jī)器學(xué)習(xí)的方法重點(diǎn)是文本特征的準(zhǔn)確判定，利用選擇的特征進(jìn)行組合計(jì)算文本的情感極性。

本文通過(guò)觀察微博的特征提出了利用話題下微博內(nèi)容的多特征，建立話題下微博情感分類模型，運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定，應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化，提出一種基于話題的微博多特征情感極性分類方法。

1 相關(guān)工作

近年來(lái)，微博的情感分類已經(jīng)成為自然語(yǔ)言研究的熱門方向，關(guān)于文本情感分類方法的研究學(xué)術(shù)界已經(jīng)取得了豐富的成果?？偟膩?lái)說(shuō)，情感分類的途徑可以概括為下面的兩種常用的方法。

1.1 基于情感詞典的分類方法

基于詞典的分類方法通常采用WordNet、HowNet詞典來(lái)判斷詞語(yǔ)的相同的程度。文獻(xiàn)[1]使用WordNet計(jì)算特征詞在積極種子詞與消極種子詞之間的距離，判斷情感極性。文獻(xiàn)[2]建立情感知識(shí)庫(kù)使用WordNet，對(duì)評(píng)論中的詞語(yǔ)的情感極性進(jìn)行選取并確認(rèn)，判別評(píng)論的全體的情感極性。文獻(xiàn)[3]使用PMI方法，計(jì)算出微博內(nèi)容中與規(guī)則短語(yǔ)的語(yǔ)義傾向相符合的，判斷微博內(nèi)容的整體傾向。

1.2 基于機(jī)器學(xué)習(xí)的分類方法

基于機(jī)器學(xué)習(xí)方法的步驟：先人工識(shí)別文本情感類別并進(jìn)行標(biāo)注，把這些標(biāo)注了的語(yǔ)料作為訓(xùn)練集，然后運(yùn)用合適的方法進(jìn)行文本特征的表示，最后利用機(jī)器學(xué)習(xí)的方法建立可獲得待測(cè)文本的情感類別的分類器，得到希望的效果。文獻(xiàn)[4]使用樸素貝葉斯、最大熵和SVM的算法，實(shí)驗(yàn)結(jié)果顯示，SVM分類器在幾種分類方法得到了最理想的效果。文獻(xiàn)[5]使用語(yǔ)義特征和機(jī)器學(xué)習(xí)結(jié)合的方法，對(duì)褒貶詞、否定詞、程度副詞這幾種詞匯迭代遞增選取特征集，使用SVM分類器與對(duì)詞的頻率進(jìn)行加權(quán)統(tǒng)計(jì)的方法，對(duì)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行褒貶分類。文獻(xiàn)[6]在特征的提取方法上進(jìn)行了改進(jìn)，提出了將詞性、詞組內(nèi)部組成形式、詞語(yǔ)上下文語(yǔ)境多種語(yǔ)法特征結(jié)合的方法。文獻(xiàn)[7]在分類方法的角度上進(jìn)行了研究，提出了一種組合的思路，即將不同的分類器進(jìn)行組合來(lái)提高情感分類的性能。

1.3 微博情感分類方法

微博是一個(gè)人們獲取消息，表達(dá)觀點(diǎn)的快速交流的信息平臺(tái)，現(xiàn)在對(duì)微博內(nèi)容的情感分類研究已有了較多的方法。文獻(xiàn)[8]提出了對(duì)Twitter上的微博內(nèi)容使用距離監(jiān)督的方法來(lái)進(jìn)行情感判斷，把表情符當(dāng)成標(biāo)簽，訓(xùn)練集為采集到的英文語(yǔ)料，沒(méi)有了人工識(shí)別標(biāo)注語(yǔ)料的步驟。文獻(xiàn)[9]提出一種在微博文本上利用與評(píng)價(jià)目標(biāo)有關(guān)系的特征，以此增加情感分類精度。文獻(xiàn)[10]使用詞、詞性與句法模式利用CRF模型獲得評(píng)論句里評(píng)價(jià)對(duì)象,然后用SVM分類器對(duì)評(píng)論句中的情感進(jìn)行分類。文獻(xiàn)[11]選擇并自行標(biāo)明大規(guī)模微博沒(méi)有標(biāo)注的語(yǔ)料，把自動(dòng)標(biāo)注的語(yǔ)料運(yùn)用為訓(xùn)練集建立微博情感分類器，自動(dòng)對(duì)微博情感類別分類。

由于微博中存在轉(zhuǎn)發(fā)、回復(fù)等評(píng)論轉(zhuǎn)發(fā)方式，加上用戶可同時(shí)參與多個(gè)話題的談?wù)摚@種相互聯(lián)系，形成基于評(píng)論文本的交互信息網(wǎng)絡(luò)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具可以獲取文本內(nèi)容及相互間交流的過(guò)程，這些信息也可以加入到對(duì)微博短文本分析過(guò)程中。文獻(xiàn)[12]將微博使用者的社會(huì)關(guān)系聚類，將聚類所得作為特征用以提高分類的效果。文獻(xiàn)[13]針對(duì)文本特征向量的維度，對(duì)獲取信息的文本結(jié)構(gòu)以及情感表達(dá)特點(diǎn)進(jìn)行分析,使用一種改進(jìn)的KNN算法進(jìn)行文本情感分類。

與以上文獻(xiàn)的工作不同的是，本文利用話題下微博文本的多特征，建立微博文本情感分類模型，運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定，應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化，提出一種基于話題的微博多特征情感極性分類方法。

2 情感極性分類器設(shè)計(jì)

本文主要研究微博文本情感極性的分類。本文的輸入是話題下所有采集的微博內(nèi)容，輸出是微博文本的情感極性。運(yùn)用3個(gè)步驟進(jìn)行情感極性分類的研究。第一步進(jìn)行主觀性分類，判斷輸入語(yǔ)料庫(kù)中的文本是主觀的還是客觀的。第二步進(jìn)行情感極性判斷，判斷第一步中被分類為主觀的文本的情感極性是積極的還是消極的。第三步性能優(yōu)化，提高分類的性能。本文使用LIBSVM分類器進(jìn)行研究。

對(duì)于文本情感分類的途徑已經(jīng)有許多有效的方法，例如：詞性特征、表情符號(hào)特征、上下文關(guān)系。在本文的實(shí)驗(yàn)中，有些特征被使用。但是這些特征都是文本本身的特征，忽略了微博文本的特殊性，微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的多因素是微博文本相對(duì)于其他文本特有的特征，本文將這些特征應(yīng)用于微博文本情感分類。

通常人們表達(dá)他們對(duì)于某個(gè)主題的情感，不是對(duì)主題本身，而是對(duì)跟主題有相關(guān)性的事情。例如，某個(gè)人表達(dá)對(duì)一部電影的評(píng)論，他可能選擇電影里面的一個(gè)片段或者背景音樂(lè)進(jìn)行評(píng)論，讀者可以從這些評(píng)論中得到他對(duì)于主題的觀點(diǎn)。

本文，文本多的特征一共有5個(gè)，分別是：副詞加動(dòng)詞(例如：我很喜歡這電影，“很”加“喜歡”作為一個(gè)特征)、及物動(dòng)詞加主語(yǔ)、及物動(dòng)詞加賓語(yǔ)、及物動(dòng)詞單獨(dú)出現(xiàn)和形容詞單獨(dú)出現(xiàn)。利用一個(gè)二元關(guān)系表示這些特征，如果有某個(gè)特征即為1，否則為0。

主題通常模糊不清，把主題的外部關(guān)系考慮進(jìn)去可能有更好的效果。本文考慮了微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等。轉(zhuǎn)發(fā)別人的微博，通常不改變別人的內(nèi)容，通常表達(dá)了相同的情感。評(píng)論可能支持也可能反對(duì)本微博的情感。點(diǎn)贊大多數(shù)表達(dá)對(duì)微博的贊同，表達(dá)了相同的情感。粉絲大部分都對(duì)作者的微博認(rèn)同，也表達(dá)了相似的情感。

情感極性分為積極、消極和中立3種，本文利用下面的公式進(jìn)行圖優(yōu)化：

(1)

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)使用了“2017再出發(fā)”、“汽車”、“美聯(lián)儲(chǔ)加息”、“考研”、“霧霾來(lái)襲”這5個(gè)主題下的數(shù)據(jù)，利用微博爬蟲(chóng)從網(wǎng)絡(luò)上采集實(shí)驗(yàn)需要的數(shù)據(jù)，每個(gè)主題采集500個(gè)微博，然后進(jìn)行人工標(biāo)注微博的情感極性，最終得到實(shí)驗(yàn)使用的數(shù)據(jù)集，正向情感有1 056條微博，負(fù)向情感有856條微博，中立情感有553條微博，如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)

3.2 主客觀性分類

用不同的特征來(lái)對(duì)比主客觀性分類的效果，為了進(jìn)行對(duì)比，加入了Hownet詞典的分類方法作為對(duì)比。實(shí)驗(yàn)中，選取正向與負(fù)向的1 912條微博為主觀性的微博，中立的553條微博為客觀性的微博，選取1 400條的主觀性微博與410條客觀性微博為訓(xùn)練集，余下的512條主觀性微博與143條客觀性微博作為測(cè)試集。實(shí)驗(yàn)結(jié)果如表2所示。

表2 主客觀性分類的準(zhǔn)確性

從表2可以看出，只用文本特征得到的準(zhǔn)確率最低，為62.8%，情感詞典對(duì)提高準(zhǔn)確率有幫助，本文提出的方法的準(zhǔn)確率最高，為69.3%。結(jié)果表明，本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。

3.3 情感極性分類

選取每個(gè)主題每個(gè)極性下的2/3作為訓(xùn)練集，剩下的1/3作為測(cè)試集，選擇不同的特征，利用SVM方法分類。

表3 情感極性分類的準(zhǔn)確性

實(shí)驗(yàn)結(jié)果如表3所示。

從表3可以看出，只用文本特征得到的準(zhǔn)確率最低，為76.6%，情感詞典對(duì)提高準(zhǔn)確率有幫助，本文提出的方法的準(zhǔn)確率最高，為86.3%。結(jié)果表明，本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。

3.4 結(jié)果的優(yōu)化

主題下有的微博沒(méi)有轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊關(guān)系，使用擁有這些關(guān)系的微博進(jìn)行試驗(yàn)，得到的實(shí)驗(yàn)結(jié)果如表4所示。

表4 優(yōu)化的準(zhǔn)確率

從表4可以看出，優(yōu)化方法對(duì)極性分類的準(zhǔn)確率有所提高。

4 結(jié)論

微博情感分類吸引了很多人去研究，本文提出結(jié)合微博文本本身與文本上下文的特征微博情感極性分類方法，并利用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化。與之前的利用微博文本方法不同，本文提出了利用文本上下文特征的方法進(jìn)行微博情感極性分類。實(shí)驗(yàn)結(jié)果表明，本文方法分類的準(zhǔn)確度優(yōu)于使用微博文本。

在本文方法中，有許多地方有待改進(jìn)，如將聯(lián)系比較緊密的名詞或名詞短語(yǔ)作為擴(kuò)展目標(biāo)，添加到話題詞的集合中，提高情感極性分類的效果，這是今后的研究方向。

[1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.

[2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.

[3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.

[4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.

[5] 徐琳宏,林鴻飛,楊志豪.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):98-102.

[6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.

[7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.

[8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.

[9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.

[10] 包亮,張莉,許鑫. 蘇州園林網(wǎng)絡(luò)評(píng)論意見(jiàn)挖掘研究[J]. 微型機(jī)與應(yīng)用,2016,35(13):86-89.

[11] 龐磊,李壽山,周國(guó)棟.基于情緒知識(shí)的中文微博情感分類方法[J]. 計(jì)算機(jī)工程,2012,38(13):156-158,162.

[12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.

[13] 劉曉菲,丁香乾，石碩，等.基于改進(jìn)KNN的消費(fèi)者評(píng)價(jià)信息情感分類研究[J].微型機(jī)與應(yīng)用, 2014,33(24):81-83,86.

Multi-feature based sentiment orientation identification for micro-blog topics

Liu Zhiyuan, Gao Junbo

(College of InformationEngineering,Shanghai Maritime University，Shanghai 201306, China)

Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.

multi-feature; machine learning; micro-blog; sentiment polarity

TP391

10.19358/j.issn.1674- 7720.2017.16.017

劉志遠(yuǎn)，高俊波.基于話題的微博多特征情感極性分類[J].微型機(jī)與應(yīng)用，2017,36(16)：60-62,66.

2017-02-25)

劉志遠(yuǎn)(1992-)，通信作者，男，碩士研究生，主要研究方向：數(shù)據(jù)挖掘。E-mail:liu770105275@163.com。

高俊波(1972-)，男，博士，副教授，主要研究方向：計(jì)算智能、數(shù)據(jù)挖掘。