亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于微博文本的情感傾向分析

        2017-04-14 02:05:53宋繼紅葛達(dá)明
        軟件工程 2016年12期
        關(guān)鍵詞:情感分析

        宋繼紅+葛達(dá)明

        摘 要:微博作為一種用戶發(fā)表看法和觀點的載體已成為互聯(lián)網(wǎng)上一個重要的情感交流平臺,博文搜索為這種交流提供了方便快捷的途徑?;贖owNet等中文情感詞典的微博情感詞的抽取和分類,計算詞語語義相似度和傾向性。對文本情感傾向的加權(quán)值、表情、和情感詞增強(qiáng)因素等進(jìn)行綜合考慮。實驗結(jié)果表明表情情感傾向?qū)ξ⒉┣楦袃A向起著重要作用;在表情和文本情感傾向比值固定的情況下,調(diào)整因素和中性區(qū)間的選擇會對情感傾向判斷準(zhǔn)確率產(chǎn)生影響;通過與基于HowNet語義相似度的計算模型比較,該文方法使得情感傾向判斷準(zhǔn)確率有所提高。

        關(guān)鍵詞:情感提?。磺楦蟹治觯晃⒉┪谋?/p>

        中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A

        1 引言(Introduction)

        微博文本中往往包含了大量的文本作者對于某事件的情感,例如對微博文本、時事的態(tài)度、意見、評價等,研究如何高效的對輿論信息進(jìn)行情感挖掘與趨勢分析,從而更好地分析網(wǎng)民群體的行為規(guī)律。通過分析,能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)流行事件或突發(fā)事件的快速分析,對于政府機(jī)構(gòu)輿情分析、企業(yè)市場決策、消費行為分析等方面具有重要意義。當(dāng)前,主要有兩大類針對情感分析的方法,分別是基于語義的方法與基于機(jī)器學(xué)習(xí)的方法[1]。一個詞匯的語義傾向是指通過對微博文本個體詞匯褒貶度進(jìn)行分析得到的度量值,取值區(qū)間為±1。微博文本的情感傾向值最終通過匯總組合個體詞匯的情感傾向度量值得到[2]?;跈C(jī)器學(xué)習(xí)的情感分析方法的思路是構(gòu)造一個分類器,并使用已分類的訓(xùn)練集來訓(xùn)練這一分類器,研究重點在于如何提高訓(xùn)練效果[3]與獲得高質(zhì)量的訓(xùn)練集[4]。

        中文微博的情感分析一般可以分為三個步驟。第一步為微博語料的收集和預(yù)處理;第二步根據(jù)給定的規(guī)則從微博文本中抽取出情感詞并且標(biāo)注情感詞極性;第三步依據(jù)情感傾向值計算方法,對微博文本進(jìn)行傾向性計算,得出整體情感傾向值。微博情感分析工作的主要流程如圖1所示。

        圖1 中文微博情感分析工作流程圖

        Fig.1 Flow chart of Chinese micro-blog

        emotion analysis

        2 微博語料的收集和文本預(yù)處理(Collection and

        text pretreatment of micro-blogging corpus)

        微博語料的獲取途徑主要有通過互聯(lián)網(wǎng)上提供的語料庫獲得和通過微博爬蟲程序或網(wǎng)站應(yīng)用程序編程接口(API)函數(shù)獲取三種方式[5]?;ヂ?lián)網(wǎng)上提供的微博語料數(shù)量大質(zhì)量優(yōu),但因需要經(jīng)過收集整理再發(fā)布的過程,往往難以獲得最新的數(shù)據(jù)?;谖⒉┑呐老x程序不同于傳統(tǒng)的爬蟲程序依靠超鏈接關(guān)系而是通過節(jié)點之間的社交關(guān)系來獲取整個微博的網(wǎng)絡(luò)數(shù)據(jù)。單獨采用微博爬蟲程序往往會在局部陷入深度優(yōu)先搜索,難以采集到大范圍的微博數(shù)據(jù)[6]。大多數(shù)網(wǎng)站都加入了反機(jī)器人機(jī)制如驗證碼、驗證滑塊等,進(jìn)一步增加了爬蟲程序獲取數(shù)據(jù)的難度;多數(shù)微博平臺都提供了使用API接口訪問的功能,但在實際使用過程中常常受到諸多限制,因此本文采用三者結(jié)合的方法進(jìn)行語料收集。

        文本預(yù)處理主要使用自然語言處理技術(shù)對微博文本進(jìn)行分詞與詞性標(biāo)注[7]。國內(nèi)對于自然語言處理技術(shù)的研究由來已久,目前已比較成熟。本文采用中國科學(xué)院計算技術(shù)研究所的漢語詞法分析系統(tǒng)(ICTCLAS)作為詞法分析器,該系統(tǒng)歷經(jīng)多次內(nèi)核升級,分詞速度與精度均處于國內(nèi)一流水平。

        3 微博情感分類抽取和標(biāo)注(The extraction and labeling

        of micro-blogging emotional classification)

        3.1 文本表情處理

        中文微博網(wǎng)站提供了豐富的表情符號,借助這些符號,可以比較容易地將微博分為主觀性文本和客觀性文本,從而使得分析結(jié)果更加精確。主觀性文本的情感傾向又分為積極和消極兩類,客觀性文本的情感傾向為中性。本文對表情強(qiáng)度采取了人工標(biāo)注強(qiáng)度的方法。強(qiáng)度值為(0,1)之間代表正向情感表情,消強(qiáng)度值為(-1,0)之間代表負(fù)向情感表情,強(qiáng)度值為0表示中性表情。下表列舉了一些具有代表性的正向、負(fù)向和中性表情,如表1所示。

        3.2 微博文本情感詞典構(gòu)建

        現(xiàn)有的中文情感詞典較少,比較成熟的有臺灣大學(xué)簡體情感詞典(NTUSD)[8]和知網(wǎng)(HowNet)中文情感詞典[9]。本文對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典等詞典進(jìn)行整理、去重,同時加入搜狗實驗室提供的互聯(lián)網(wǎng)詞庫,擴(kuò)充網(wǎng)絡(luò)流行語。加入了程度副詞和否定詞,整理后的情感詞典包括正向情感詞4800個、負(fù)向情感詞6200個。

        與基于句子的情感分析不同,微博文本段落的情感分析與判斷對情感詞典提出了更高的要求。對情感詞和程度副詞賦予權(quán)重,從而定量地度量文本傾向性可以提升文本情感的準(zhǔn)確性。情感詞的強(qiáng)度劃分在(-1,1),分別用(0,1)和(-1,0)代表正面情感詞語的權(quán)重和負(fù)面情感詞語的權(quán)重;程度副詞的權(quán)重劃分在(0.2,1.2),按照強(qiáng)度由強(qiáng)到弱劃分為5級,如表2所示。若出現(xiàn)多個程度副詞修飾一個詞語的情況,則多個程度副詞的綜合權(quán)重為所有程度副詞權(quán)重之乘積。

        4 基于文本和表情的情感計算方法(Emotional

        computing method based on text and emotion)

        基于表情的微博情感分析可以使用五元組Q(A,S,F(xiàn),E,T)表示,其中A、S、F、E、T分別表示程度副詞、情感傾向、表情情感傾向、增強(qiáng)因子與發(fā)表的時間。其中發(fā)表時間T對于微博情感分析結(jié)果影響可以忽略不計,特將五元組簡化為四元組Q(A,S,F(xiàn),E)。微博情感值的計算過程從而可以轉(zhuǎn)換為從微博文本中抽取出程度副詞、情感傾向、表情情感傾向、增強(qiáng)因子并對其進(jìn)行處理的過程。

        微博文本的情感傾向由表情和文本的情感兩部分組成,微博文本的情感傾向值可以通過對這兩部分的情感傾向值加權(quán)處理來得出。

        (1)

        其中,Q(P)、Q(PS)、Q(PT)分別為微博總體的情感傾向值、微博表情的情感傾向值,以及微博文s本的情感傾向值。其中λ為變量,取值區(qū)間為(0,1),代表總體情感傾向值中表情與文本情感傾向所占的比重。

        微博表情的情感傾向值可根據(jù)如公式(2)得到:

        (2)

        其中,Q(psi)為微博文本中第i個表情的情感強(qiáng)度。

        使用HowNet提供的詞匯語義相似度計算工具計算義原之間的相似度,可以得到詞語之間的相似程度。進(jìn)而計算出詞語的情感傾向,最終計算出微博文本的情感傾向值Q(PT)。對于兩個漢語詞語W1和W2,如果W1有n個義項:x1,x2,…,xn;W2有m個義項:y1,y2,…,ym,則規(guī)定W1和W2的相似度為各義項相似度之最大值,即

        (3)

        義原相似度的計算公式為

        (4)

        其中,α為變量,取值區(qū)間為(0,+∞);d(xi,yj)表示義原xi和義原yj的義原距離,由詞匯語義相似度計算工具得出。一般地對于一個不在情感詞典中的詞語,其情感傾向值可以通過對比其與情感詞典中的詞之間的距離得到。具體計算方法為:將詞語W分別與正面和負(fù)面情感詞典中的每個種子詞進(jìn)行比較得到其正、負(fù)面情感傾向值,再通過比較其與正負(fù)向情感值之間的均差,得出其情感傾向值。某個詞語W的情感傾向值可以通過下式計算得出

        (5)

        其中,Pi、Nj分別表示情感詞典中的一個正向情感種子詞與一個負(fù)向情感種子詞。

        對于得到的情感傾向值,可以應(yīng)用程度副詞和否定詞對其進(jìn)行修正,經(jīng)過修正后Q(W)的計算公式為

        (6)

        其中,Mn與Ma分別表示否定詞權(quán)重與程度副詞權(quán)重,,Ni為第i個否定詞的極性權(quán)重,,Ai代表情感詞典中第i個程度副詞的權(quán)重。

        對一個語句中多個情感詞傾向值進(jìn)行累加可以得到整個語句的情感傾向值Q(W),而對構(gòu)成微博文本的多條語句的情感傾向值求和可以得出微博文本的總體情感傾向值Q(PT),計算公式如下

        (7)

        微博情感傾向Q(P)的最終計算公式由表情和文本的情感兩部分組成,公式為

        5 實驗結(jié)果與分析(Experimental results and

        analysis)

        實驗?zāi)康氖菍y試集中的每條文本賦予一個情感傾向值來代表文本的褒貶意程度,文本的情感傾向值由其中包含的情感詞的情感值相加得到。情感傾向值判斷準(zhǔn)確率=判斷正確的文本數(shù)與測試集總文本數(shù)之比。實驗數(shù)據(jù)來源于微博搜索與搜狗實驗室提供的互聯(lián)網(wǎng)語料庫數(shù)據(jù),樣本集中共計含有微博文本5000余條,其中正向、負(fù)向、中性文本數(shù)量分別為1500條、2000條、1200條。對測試數(shù)據(jù)進(jìn)行比對分析,同時考慮微博表情符號、程度副詞和反向詞的影響因素對文本進(jìn)行加權(quán)處理,得到的實驗結(jié)果如圖2所示,P代表分析準(zhǔn)確率。

        分析圖中的折線數(shù)據(jù)中可以得出,λ使正面情感與負(fù)面情感的分析準(zhǔn)確率表現(xiàn)均較好的區(qū)間為(0.4,0.5)。表3給出了當(dāng)λ=0.4時程度副詞與否定詞等增強(qiáng)因素加權(quán)前后對正面情感,以及負(fù)面情感的分析準(zhǔn)確率對照情況。可以看出,當(dāng)λ取值區(qū)間為(±0.2,±0.8)時,加權(quán)后的判斷準(zhǔn)確率與加權(quán)之前均有提升,無論是正向情感還是負(fù)向情感,當(dāng)λ=±0.4準(zhǔn)確率達(dá)到最大值。超過±0.4后判斷準(zhǔn)確雖也有提升,但是幅度不及之前。同時,負(fù)面情感傾向的判斷準(zhǔn)確率要明顯高于正面情感傾向的判斷準(zhǔn)確率,其主要原因可能是受情感字典中正向與負(fù)向詞語數(shù)量不同和文本樣本空間中正向與負(fù)向文本的比例不同的影響。其中Pqz、Phz分別為加權(quán)修正前后正面情感判斷準(zhǔn)確率,Pqf、Phf分別為判斷準(zhǔn)確率以及加權(quán)修正后負(fù)面情感判斷準(zhǔn)確率。

        6 結(jié)論(Conclusion)

        本文方法通過對NTUSD、HowNet、情感詞匯本體庫和中文褒貶意詞典進(jìn)行整理,基于HowNet的義原情感判別,加入程度副詞和表情,以及否定詞對文本情感的影響。實驗結(jié)果顯示程度副詞與表情傾向?qū)ξ⒉┪谋厩楦袃A向起著至關(guān)重要的作用,當(dāng)λ參數(shù)取值一定時,情感值傾向判斷的準(zhǔn)確率會

        受到中性區(qū)間的影響。

        參考文獻(xiàn)(References)

        [1] Zhang L,et al.Sentiment Analysis Based on Light Reviews.Ruan Jian Xue Bao/Journal of Software,2014,25(12):2790-2807.

        [2] Wang Wei,et al.Extraction of Comparative Elements Using Conditional Random Fields.Acta Automatica Sinica,2015,41(8):1385-1393.

        [3] Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[A].Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP-03)[C].Sapporo,Japan:EMNLP,2003:105-112.

        [4] Seyed Ali Bahrainian Andreas Dengel.Sentiment Analysis of Texts by Capturing Underlying Sentiment Patterns[J].Web Intelligence and Agent Systems,2015(13):53-68.

        [5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計算機(jī)應(yīng)用研究,2015,32(4):978-981.

        [6] Anna Stavrianou,Caroline Brun.Expert Recommendations Based on Opinion Mining of User-Generated Product Reviews[J].Computational Intelligence,2015(31):165-183.

        [7] 李清敏.面向微博情感分析的本體自動抽取關(guān)鍵技術(shù)研究[D].北京:首都師范大學(xué),2014.

        [8] 李揚(yáng),潘泉.基于段文本情感分析的敏感信息識別[J].西安交通大學(xué)學(xué)報,2016,50(9):80-84.

        [9] Neviarouskaya Alena,Prendinger Helmut.Attitude Sensing in Text Based on a Compositional Linguistic Approach[J].Computational Intelligence,2015,2(31):256-300.

        作者簡介:

        宋繼紅(1963-),女,碩士,副教授.研究領(lǐng)域:計算機(jī)網(wǎng)絡(luò)通

        信,計算機(jī)網(wǎng)絡(luò)遠(yuǎn)程控制,嵌入式技術(shù).

        葛達(dá)明(1990-),男,碩士生.研究領(lǐng)域:智能信息處理.

        猜你喜歡
        情感分析
        基于多特征組合的在線產(chǎn)品評論情感挖掘研究
        基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究
        面向應(yīng)用比較的用戶評論挖掘工具的設(shè)計與實現(xiàn)
        基于word2vec擴(kuò)充情感詞典的商品評論傾向分析
        基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
        基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
        基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
        基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
        在線評論情感屬性的動態(tài)變化
        預(yù)測(2016年5期)2016-12-26 17:16:57
        歌曲《我的深情為你守候》的情感分析與演唱詮釋
        免费人成视频x8x8入口| 国内自拍偷拍亚洲天堂| 国产精品福利片免费看| 极品少妇在线观看视频| 国产一区二区三区免费av| 校园春色综合久久精品中文字幕| 亚洲熟妇色自偷自拍另类| 欧美成人一区二区三区| 亚洲中文字幕无线无码毛片| 中国女人a毛片免费全部播放| 美腿丝袜中文字幕在线观看| 天堂网日韩av在线播放一区| 亚洲国产精品无码久久一区二区| 久久综合九色综合欧美狠狠| 亚洲AV无码秘 蜜桃1区| 精品久久日产国产一区| 亚洲中文字幕精品久久a| 麻豆国产精品久久人妻| 午夜不卡av免费| 国产福利酱国产一区二区| 久久婷婷夜色精品国产| 亚洲av无码乱码国产麻豆| 中文无码熟妇人妻av在线| 99久久久久国产| 亚洲亚洲亚洲亚洲亚洲天堂| 久久精品av在线视频| 激情人妻另类人妻伦| 中文字幕乱伦视频| 制服丝袜视频国产一区| 亚洲综合精品在线观看中文字幕| 久久亚洲网站中文字幕| 成年女人vr免费视频| 少妇白浆高潮无码免费区| 人妻无码中文专区久久AV| 亚洲sm另类一区二区三区| 亚州性无码不卡免费视频| 精品久久人人爽天天玩人人妻 | 中文亚洲av片在线观看| 亚洲AV无码资源在线观看| 国产一区在线视频不卡| 国产精品国产三级国产aⅴ下载|