亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于話題的微博多特征情感極性分類

        2017-09-04 00:31:10劉志遠(yuǎn)高俊波
        關(guān)鍵詞:博文極性分類器

        劉志遠(yuǎn),高俊波

        (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

        基于話題的微博多特征情感極性分類

        劉志遠(yuǎn),高俊波

        (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

        通過(guò)對(duì)新浪微博特點(diǎn)的分析與研究,利用話題下微博文本的多特征,建立微博情感極性分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)微博情感極性分類具有良好的效果。

        多特征;機(jī)器學(xué)習(xí);微博;情感極性

        0 引言

        隨著科學(xué)技術(shù)的快速發(fā)展,人與人之間的社交活動(dòng)逐漸偏向于網(wǎng)絡(luò),大眾慢慢地習(xí)慣了在網(wǎng)上瀏覽新聞,互動(dòng)交流,表達(dá)對(duì)生活中某些事情的觀點(diǎn)。微博,作為一個(gè)社會(huì)網(wǎng)絡(luò)平臺(tái),用戶可以獲得豐富的實(shí)時(shí)信息,也為用戶提供了方便的交流方式。根據(jù)統(tǒng)計(jì)表明,截止到2016年8月,每個(gè)月微博有2.82億使用者,每天有1.26億使用者。如此多的活躍用戶量使微博擁有很多的數(shù)據(jù),在這樣多的數(shù)據(jù)中,其中的大部分是帶有情感傾向的文本數(shù)據(jù),這樣的情感文本數(shù)據(jù)是特別有用的意見(jiàn)資源,對(duì)這些話題下的微博內(nèi)容使用文本情感分類的方法進(jìn)行情感極性的分類研究。

        與傳統(tǒng)的文本相比,微博內(nèi)容相對(duì)簡(jiǎn)單,它的文本短小,其內(nèi)容不能超過(guò)140字。而且微博用戶會(huì)使用網(wǎng)絡(luò)用語(yǔ)、表情符號(hào)與鏈接,每個(gè)用戶關(guān)注事情的角度非常廣泛,這些都增加了微博情感分析的難度。

        近年來(lái),對(duì)于微博情感的研究引起了許多學(xué)者的興趣,國(guó)內(nèi)外研究者已在文本情感分析方向做了許多的研究工作,并取得了很多的成果。目前,對(duì)文本的情感分類常用的研究方法大致概括為兩種:第一種是使用情感詞典分類的方法,第二種是使用機(jī)器學(xué)習(xí)分類的方法?;谇楦性~典的方法是通過(guò)利用詞典獲得文本的情感?;跈C(jī)器學(xué)習(xí)的方法重點(diǎn)是文本特征的準(zhǔn)確判定,利用選擇的特征進(jìn)行組合計(jì)算文本的情感極性。

        本文通過(guò)觀察微博的特征提出了利用話題下微博內(nèi)容的多特征,建立話題下微博情感分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。

        1 相關(guān)工作

        近年來(lái),微博的情感分類已經(jīng)成為自然語(yǔ)言研究的熱門方向,關(guān)于文本情感分類方法的研究學(xué)術(shù)界已經(jīng)取得了豐富的成果??偟膩?lái)說(shuō),情感分類的途徑可以概括為下面的兩種常用的方法。

        1.1 基于情感詞典的分類方法

        基于詞典的分類方法通常采用WordNet、HowNet詞典來(lái)判斷詞語(yǔ)的相同的程度。文獻(xiàn)[1]使用WordNet計(jì)算特征詞在積極種子詞與消極種子詞之間的距離,判斷情感極性。文獻(xiàn)[2]建立情感知識(shí)庫(kù)使用WordNet,對(duì)評(píng)論中的詞語(yǔ)的情感極性進(jìn)行選取并確認(rèn),判別評(píng)論的全體的情感極性。文獻(xiàn)[3]使用PMI方法,計(jì)算出微博內(nèi)容中與規(guī)則短語(yǔ)的語(yǔ)義傾向相符合的,判斷微博內(nèi)容的整體傾向。

        1.2 基于機(jī)器學(xué)習(xí)的分類方法

        基于機(jī)器學(xué)習(xí)方法的步驟:先人工識(shí)別文本情感類別并進(jìn)行標(biāo)注,把這些標(biāo)注了的語(yǔ)料作為訓(xùn)練集,然后運(yùn)用合適的方法進(jìn)行文本特征的表示,最后利用機(jī)器學(xué)習(xí)的方法建立可獲得待測(cè)文本的情感類別的分類器,得到希望的效果。文獻(xiàn)[4]使用樸素貝葉斯、最大熵和SVM的算法,實(shí)驗(yàn)結(jié)果顯示,SVM分類器在幾種分類方法得到了最理想的效果。文獻(xiàn)[5]使用語(yǔ)義特征和機(jī)器學(xué)習(xí)結(jié)合的方法,對(duì)褒貶詞、否定詞、程度副詞這幾種詞匯迭代遞增選取特征集,使用SVM分類器與對(duì)詞的頻率進(jìn)行加權(quán)統(tǒng)計(jì)的方法,對(duì)實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行褒貶分類。文獻(xiàn)[6]在特征的提取方法上進(jìn)行了改進(jìn),提出了將詞性、詞組內(nèi)部組成形式、詞語(yǔ)上下文語(yǔ)境多種語(yǔ)法特征結(jié)合的方法。文獻(xiàn)[7]在分類方法的角度上進(jìn)行了研究,提出了一種組合的思路,即將不同的分類器進(jìn)行組合來(lái)提高情感分類的性能。

        1.3 微博情感分類方法

        微博是一個(gè)人們獲取消息,表達(dá)觀點(diǎn)的快速交流的信息平臺(tái),現(xiàn)在對(duì)微博內(nèi)容的情感分類研究已有了較多的方法。文獻(xiàn)[8]提出了對(duì)Twitter上的微博內(nèi)容使用距離監(jiān)督的方法來(lái)進(jìn)行情感判斷,把表情符當(dāng)成標(biāo)簽,訓(xùn)練集為采集到的英文語(yǔ)料,沒(méi)有了人工識(shí)別標(biāo)注語(yǔ)料的步驟。文獻(xiàn)[9]提出一種在微博文本上利用與評(píng)價(jià)目標(biāo)有關(guān)系的特征,以此增加情感分類精度。文獻(xiàn)[10]使用詞、詞性與句法模式利用CRF模型獲得評(píng)論句里評(píng)價(jià)對(duì)象,然后用SVM分類器對(duì)評(píng)論句中的情感進(jìn)行分類。文獻(xiàn)[11]選擇并自行標(biāo)明大規(guī)模微博沒(méi)有標(biāo)注的語(yǔ)料,把自動(dòng)標(biāo)注的語(yǔ)料運(yùn)用為訓(xùn)練集建立微博情感分類器,自動(dòng)對(duì)微博情感類別分類。

        由于微博中存在轉(zhuǎn)發(fā)、回復(fù)等評(píng)論轉(zhuǎn)發(fā)方式,加上用戶可同時(shí)參與多個(gè)話題的談?wù)摚@種相互聯(lián)系,形成基于評(píng)論文本的交互信息網(wǎng)絡(luò)。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等工具可以獲取文本內(nèi)容及相互間交流的過(guò)程,這些信息也可以加入到對(duì)微博短文本分析過(guò)程中。文獻(xiàn)[12]將微博使用者的社會(huì)關(guān)系聚類,將聚類所得作為特征用以提高分類的效果。文獻(xiàn)[13]針對(duì)文本特征向量的維度,對(duì)獲取信息的文本結(jié)構(gòu)以及情感表達(dá)特點(diǎn)進(jìn)行分析,使用一種改進(jìn)的KNN算法進(jìn)行文本情感分類。

        與以上文獻(xiàn)的工作不同的是,本文利用話題下微博文本的多特征,建立微博文本情感分類模型,運(yùn)用機(jī)器學(xué)習(xí)的分類方法對(duì)微博情感極性進(jìn)行判定,應(yīng)用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化,提出一種基于話題的微博多特征情感極性分類方法。

        2 情感極性分類器設(shè)計(jì)

        本文主要研究微博文本情感極性的分類。本文的輸入是話題下所有采集的微博內(nèi)容,輸出是微博文本的情感極性。運(yùn)用3個(gè)步驟進(jìn)行情感極性分類的研究。第一步進(jìn)行主觀性分類,判斷輸入語(yǔ)料庫(kù)中的文本是主觀的還是客觀的。第二步進(jìn)行情感極性判斷,判斷第一步中被分類為主觀的文本的情感極性是積極的還是消極的。第三步性能優(yōu)化,提高分類的性能。本文使用LIBSVM分類器進(jìn)行研究。

        對(duì)于文本情感分類的途徑已經(jīng)有許多有效的方法,例如:詞性特征、表情符號(hào)特征、上下文關(guān)系。在本文的實(shí)驗(yàn)中,有些特征被使用。但是這些特征都是文本本身的特征,忽略了微博文本的特殊性,微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的多因素是微博文本相對(duì)于其他文本特有的特征,本文將這些特征應(yīng)用于微博文本情感分類。

        通常人們表達(dá)他們對(duì)于某個(gè)主題的情感,不是對(duì)主題本身,而是對(duì)跟主題有相關(guān)性的事情。例如,某個(gè)人表達(dá)對(duì)一部電影的評(píng)論,他可能選擇電影里面的一個(gè)片段或者背景音樂(lè)進(jìn)行評(píng)論,讀者可以從這些評(píng)論中得到他對(duì)于主題的觀點(diǎn)。

        本文,文本多的特征一共有5個(gè),分別是:副詞加動(dòng)詞(例如:我很喜歡這電影,“很”加“喜歡”作為一個(gè)特征)、及物動(dòng)詞加主語(yǔ)、及物動(dòng)詞加賓語(yǔ)、及物動(dòng)詞單獨(dú)出現(xiàn)和形容詞單獨(dú)出現(xiàn)。利用一個(gè)二元關(guān)系表示這些特征,如果有某個(gè)特征即為1,否則為0。

        主題通常模糊不清,把主題的外部關(guān)系考慮進(jìn)去可能有更好的效果。本文考慮了微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等。轉(zhuǎn)發(fā)別人的微博,通常不改變別人的內(nèi)容,通常表達(dá)了相同的情感。評(píng)論可能支持也可能反對(duì)本微博的情感。點(diǎn)贊大多數(shù)表達(dá)對(duì)微博的贊同,表達(dá)了相同的情感。粉絲大部分都對(duì)作者的微博認(rèn)同,也表達(dá)了相似的情感。

        情感極性分為積極、消極和中立3種,本文利用下面的公式進(jìn)行圖優(yōu)化:

        (1)

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)使用了“2017再出發(fā)”、“汽車”、“美聯(lián)儲(chǔ)加息”、“考研”、“霧霾來(lái)襲”這5個(gè)主題下的數(shù)據(jù),利用微博爬蟲(chóng)從網(wǎng)絡(luò)上采集實(shí)驗(yàn)需要的數(shù)據(jù),每個(gè)主題采集500個(gè)微博,然后進(jìn)行人工標(biāo)注微博的情感極性,最終得到實(shí)驗(yàn)使用的數(shù)據(jù)集,正向情感有1 056條微博,負(fù)向情感有856條微博,中立情感有553條微博,如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)

        3.2 主客觀性分類

        用不同的特征來(lái)對(duì)比主客觀性分類的效果,為了進(jìn)行對(duì)比,加入了Hownet詞典的分類方法作為對(duì)比。實(shí)驗(yàn)中,選取正向與負(fù)向的1 912條微博為主觀性的微博,中立的553條微博為客觀性的微博,選取1 400條的主觀性微博與410條客觀性微博為訓(xùn)練集,余下的512條主觀性微博與143條客觀性微博作為測(cè)試集。實(shí)驗(yàn)結(jié)果如表2所示。

        表2 主客觀性分類的準(zhǔn)確性

        從表2可以看出,只用文本特征得到的準(zhǔn)確率最低,為62.8%,情感詞典對(duì)提高準(zhǔn)確率有幫助,本文提出的方法的準(zhǔn)確率最高,為69.3%。結(jié)果表明,本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。

        3.3 情感極性分類

        選取每個(gè)主題每個(gè)極性下的2/3作為訓(xùn)練集,剩下的1/3作為測(cè)試集,選擇不同的特征,利用SVM方法分類。

        表3 情感極性分類的準(zhǔn)確性

        實(shí)驗(yàn)結(jié)果如表3所示。

        從表3可以看出,只用文本特征得到的準(zhǔn)確率最低,為76.6%,情感詞典對(duì)提高準(zhǔn)確率有幫助,本文提出的方法的準(zhǔn)確率最高,為86.3%。結(jié)果表明,本文的方法對(duì)情感極性分類的準(zhǔn)確率有所提高。

        3.4 結(jié)果的優(yōu)化

        主題下有的微博沒(méi)有轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊關(guān)系,使用擁有這些關(guān)系的微博進(jìn)行試驗(yàn),得到的實(shí)驗(yàn)結(jié)果如表4所示。

        表4 優(yōu)化的準(zhǔn)確率

        從表4可以看出,優(yōu)化方法對(duì)極性分類的準(zhǔn)確率有所提高。

        4 結(jié)論

        微博情感分類吸引了很多人去研究,本文提出結(jié)合微博文本本身與文本上下文的特征微博情感極性分類方法,并利用微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊、粉絲數(shù)與關(guān)注數(shù)等的關(guān)系進(jìn)行圖優(yōu)化。與之前的利用微博文本方法不同,本文提出了利用文本上下文特征的方法進(jìn)行微博情感極性分類。實(shí)驗(yàn)結(jié)果表明,本文方法分類的準(zhǔn)確度優(yōu)于使用微博文本。

        在本文方法中,有許多地方有待改進(jìn),如將聯(lián)系比較緊密的名詞或名詞短語(yǔ)作為擴(kuò)展目標(biāo),添加到話題詞的集合中,提高情感極性分類的效果,這是今后的研究方向。

        [1] KAMPS J,MARX M J,MOKKEN R J,et al.Using WordNet to measure semantic orientations of adjectives[C]. Proceedings of the 4th International and Evaluation, 2014:1115-1118.

        [2] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C]. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004: 168-177.

        [3] TURKEY P D.Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,2002:417-424.

        [4] Pang Bo,LEE L,VAITHYANATHAN S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the 2002 Conference on Empircal Method in Language Processing,2002:79-86.

        [5] 徐琳宏,林鴻飛,楊志豪.基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):98-102.

        [6] Wei Jin,HO H H,SRIHARI R K.Opinion miner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2009:1195-1204.

        [7] PRABOWO R,THELWALL M.Sentiment analysis: a combined approach[J].Journal of Informetrics,2009,3(2):143-157.

        [8] JOSHI A, BALAMURALI A R, BHATTACHEARYYA P, et al.C-feel-i:a sentiment analyzer for micro-blog[C].Proceeding of the ACL-HLT 2011 System Demonstration.Portland,Oregon,USA, 2011:127-132.

        [9] BARBOSA L,Feng Junlan. Robust sentiment detection on twitter from biased and noisy data[C].Proceedings of the 23th International Conference on Computational Linguistic.Poster,Stroudsburg,PA,USA,2010:36-44.

        [10] 包亮,張莉,許鑫. 蘇州園林網(wǎng)絡(luò)評(píng)論意見(jiàn)挖掘研究[J]. 微型機(jī)與應(yīng)用,2016,35(13):86-89.

        [11] 龐磊,李壽山,周國(guó)棟.基于情緒知識(shí)的中文微博情感分類方法[J]. 計(jì)算機(jī)工程,2012,38(13):156-158,162.

        [12] CHURCHILL A L,LIODAKIS E G,SIMON H Y. Twitter relevance filtering via joint bayes calssifiers from user clustering[EB.OL].(2013-02-26)[2017-02-25]http://cs229.stanford.edu/proj2010/churchill Liodakis Ye Twitter Relevance Filtering Via Joint Bayesclassifiers Fromllser Clustering.pdf.

        [13] 劉曉菲,丁香乾,石碩,等.基于改進(jìn)KNN的消費(fèi)者評(píng)價(jià)信息情感分類研究[J].微型機(jī)與應(yīng)用, 2014,33(24):81-83,86.

        Multi-feature based sentiment orientation identification for micro-blog topics

        Liu Zhiyuan, Gao Junbo

        (College of InformationEngineering,Shanghai Maritime University,Shanghai 201306, China)

        Basing on analyzing and researching the characteristics of micro-blog, by utilizing multiple features of micro-blog text under the topic, this paper establishes the micro-blog sentiment polarity classification model, judges the polarity of micro-blog by adopting a classification method of machine learning, uses the relationship between the repostment,the comment and the praise of micro-blog, the number of fans and the number of concerns to implement graph-based optimization, and proposes a method of micro-blog’s multi feature sentiment polarity classification based on the topic of micro-blog. The experimental results demonstrates that this method has a favorable effect on sentiment polarity classification of micro-blog.

        multi-feature; machine learning; micro-blog; sentiment polarity

        TP391

        A

        10.19358/j.issn.1674- 7720.2017.16.017

        劉志遠(yuǎn),高俊波.基于話題的微博多特征情感極性分類[J].微型機(jī)與應(yīng)用,2017,36(16):60-62,66.

        2017-02-25)

        劉志遠(yuǎn)(1992-),通信作者,男,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。E-mail:liu770105275@163.com。

        高俊波(1972-),男,博士,副教授,主要研究方向:計(jì)算智能、數(shù)據(jù)挖掘。

        猜你喜歡
        博文極性分類器
        第一次掙錢
        跟蹤導(dǎo)練(四)
        BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
        誰(shuí)和誰(shuí)好
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
        表用無(wú)極性RS485應(yīng)用技術(shù)探討
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        一種新型的雙極性脈沖電流源
        打電話2
        日本中文字幕一区二区在线观看 | 越猛烈欧美xx00动态图| 国产爆乳乱码女大生Av| 久久少妇呻吟视频久久久| 亚洲成人av在线第一页| 一区二区三区国产| 一级二级中文字幕在线视频| 精品少妇人妻久久免费| 亚洲精品成人无百码中文毛片| 国自产精品手机在线观看视频| 中文字幕久久久精品无码| 亚洲黄色官网在线观看| 中国一级黄色片久久久| 日本精品αv中文字幕| 亚洲精品黄网在线观看| 亚洲男人的天堂色偷偷| 国产suv精品一区二区四| 亚洲视频一区| 亚洲AV无码一区二区三区精神| 野花视频在线观看免费| 免费人成视频x8x8入口| 国产黄三级三·级三级| 亚洲综合天堂一二三区| 老熟女富婆激情刺激对白| 国产一线二线三线女| 国产精品免费_区二区三区观看| 亚洲中文字幕无码天然素人在线| 丁香五月缴情综合网| 亚洲av乱码国产精品色| 国语对白福利在线观看| 中文字幕乱伦视频| 国产一区二区三区国产精品| 人妻中文久久人妻蜜桃| 最新国产福利在线观看精品| 久久亚洲国产中v天仙www| 成人亚洲av网站在线看| 久久久久国色av免费观看性色| 国产乱沈阳女人高潮乱叫老| 亚洲一区二区三区成人在线| 欧美亅性猛交内射| 狠狠色狠狠色综合日日不卡|