亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

情感傾向分析在輿情監(jiān)控方面的研究

2017-03-09 16:56:45李昀澤

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2017年5期

關(guān)鍵詞：傾向性義項(xiàng)輿情

王林,李昀澤

(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院，陜西西安 710048)

情感傾向分析在輿情監(jiān)控方面的研究

王林,李昀澤

(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院，陜西西安 710048)

針對(duì)Hownet經(jīng)典算法的應(yīng)用只是側(cè)重于詞句優(yōu)化方面的研究，忽視了因不同人群層次主觀色彩偏差而造成的判別準(zhǔn)確性下降問(wèn)題，文章提出了一種優(yōu)化Hownet判別方法。搭建閾值確定的新框架，并利用義源信息量衍生義項(xiàng)的方法動(dòng)態(tài)更新情感詞庫(kù)，一方面考慮到不同人群主觀色彩對(duì)傾向分析產(chǎn)生的影響問(wèn)題，另一方面針對(duì)某一事件或話題直接得出大眾情感傾向。實(shí)驗(yàn)表明，相較傳統(tǒng)的Hownet方法而言，優(yōu)化后的Hownet實(shí)現(xiàn)了對(duì)輿情傾向分析的跨人群分析，且有更高的準(zhǔn)確性。

義源信息量;衍生義項(xiàng);Hownet算法;傾向性分析

0 引言

在輿情媒體規(guī)模、媒體種類等發(fā)展迅猛的情況下，輿情監(jiān)測(cè)顯得愈發(fā)重要，其中人群傾向性偏差問(wèn)題尤為受到關(guān)注。研究不同領(lǐng)域的人群情感傾向偏差問(wèn)題，是解決輿情人群主觀色彩差異的重點(diǎn)[1]，也可為眾多輿情分析平臺(tái)提供幫助，并可為政府監(jiān)管系統(tǒng)對(duì)輿情的整體走勢(shì)和褒貶判斷提供重要依據(jù)。

針對(duì)主觀色彩偏差問(wèn)題，近年來(lái)研究者提出的解決方案主要有細(xì)粒度分析法[2]、挖掘新模式二次調(diào)用[3]、情感詞典邏輯結(jié)合[4]等方法。由于Hownet方法重點(diǎn)在于優(yōu)化情感詞庫(kù)和解決詞句[5]問(wèn)題，所以利用Hownet解決主觀情感差異并不常見(jiàn)。呂韶華等人[6]基于SimRank的跨領(lǐng)域情感傾向性分析算法構(gòu)建潛在空間向量，實(shí)現(xiàn)了領(lǐng)域分類，但僅限于分類階段。YZERBYT V等人[7]提出分類識(shí)別行動(dòng)傾向，引入傳播動(dòng)力學(xué)，但只側(cè)重于傳播方式研究。魏現(xiàn)輝[8]提出了一種基于加權(quán)SimRank的分析模型，實(shí)現(xiàn)了跨領(lǐng)域情感分類，但傾向性分析結(jié)果準(zhǔn)確性不高。張瑩[9]提出基于異構(gòu)信息源和邏輯斯諦回歸模型進(jìn)行情緒預(yù)測(cè)的方法，該方法是解決跨領(lǐng)域跨人群?jiǎn)栴}的一大突破，但是步驟過(guò)于繁瑣。馬鳳閘[10]將經(jīng)典遷移學(xué)習(xí)TrAdaBoost算法的樣本遷移機(jī)制應(yīng)用于情感傾向性分析，為跨領(lǐng)域分析做出了重大貢獻(xiàn)，但精確度有待提高。孟佳娜等人[11]提出歸納式遷移學(xué)習(xí)，通過(guò)領(lǐng)域采集的關(guān)聯(lián)問(wèn)題解決了情感色彩的不同影響，但是側(cè)重于領(lǐng)域采集研究而非傾向結(jié)果判斷。由此可知，跨領(lǐng)域研究既要解決不同人群傾向差異，又要提高總體分析的準(zhǔn)確度，利用機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘[12-15]的方法不僅步驟繁瑣，而且對(duì)整體分析結(jié)果的準(zhǔn)確性影響很大。

本文提出一種優(yōu)化Hownet算法，該方法通過(guò)計(jì)算不同的評(píng)論文本的正傾向和負(fù)傾向的加權(quán)平均值，并利用二次分類方法確定正負(fù)傾向的單一閾值，二次分類結(jié)合單邊帶[5]和向量機(jī)分類[16]的優(yōu)點(diǎn)，對(duì)主題和情感進(jìn)行再分類[18]，達(dá)到減少主觀情感影響的目的。并采用義源衍生義項(xiàng)方法[2，5，16-18]對(duì)Hownet詞典庫(kù)進(jìn)行實(shí)時(shí)更新，達(dá)到區(qū)分人群的目的，最后利用Hownet算法與優(yōu)化后的閾值進(jìn)行對(duì)比運(yùn)算。本文將針對(duì)詞句分析的Hownet算法應(yīng)用到分析人群主觀色彩偏差上，通過(guò)對(duì)閾值的優(yōu)化達(dá)到減少人群情感偏差影響的目的，大幅減小各類不同情感色彩帶來(lái)的影響，也能有效解決跨領(lǐng)域、跨人群的主觀表達(dá)問(wèn)題。該優(yōu)化方法也可直接針對(duì)某一話題或事件得出傾向性分析結(jié)果并提高了判斷的準(zhǔn)確性。

1 相關(guān)算法描述

1.1 存在的問(wèn)題和解決目標(biāo)

人群傾向偏差不是片面的一詞多義，也不局限于簡(jiǎn)單的褒貶相反，而是個(gè)人主觀色彩的不同。所以要從根源上對(duì)主觀色彩進(jìn)行區(qū)分，就要對(duì)人群進(jìn)行區(qū)分，建立區(qū)分的方法。

1.2 Hownet算法優(yōu)勢(shì)

(1) Hownet是自然語(yǔ)言處理系統(tǒng),解釋概念間的關(guān)系與屬性，有強(qiáng)大的動(dòng)態(tài)詞典數(shù)據(jù)庫(kù)；

(2)以網(wǎng)狀結(jié)構(gòu)反映整體與部分的關(guān)系；

(3)經(jīng)典Hownet算法如下；

(1)

其中,Orient為最終閾值，pword與nword分別為褒義詞結(jié)果集和貶義詞結(jié)果集。該方法方便理解，易于操作，詞典庫(kù)可動(dòng)態(tài)更新。

2 動(dòng)態(tài)更新詞典庫(kù)

2.1 主題提取

詞匯信息量基本公式：

(2)

其中p代表義原詞匯，C(p)代表詞匯p的信息量,H(p)表示詞匯p出現(xiàn)的數(shù)量，max 表示在語(yǔ)義詞庫(kù)中的總數(shù)。

2.2 主題分類

單邊帶分類是對(duì)于不同義原詞匯進(jìn)行分類，其基本公式為：

(3)

其中n代表某個(gè)義項(xiàng)，即某種衍生意。假設(shè)p1有n1個(gè)義原，p2有n2個(gè)義原。c1與c2是記錄下的n1與n2的數(shù)目，再計(jì)算相似度。

2.3 人群分類

利用前兩部分實(shí)現(xiàn)人群細(xì)分，即不用主動(dòng)去分類人群，而是對(duì)不同義項(xiàng)進(jìn)行分類：

假設(shè)某語(yǔ)句w1有s1個(gè)義項(xiàng)，w2有s2個(gè)義項(xiàng)，則w1與w2的相似度為：

(4)

2.4 加權(quán)平均

最終進(jìn)行正負(fù)閾值的加權(quán)平均，得到在不同人群基礎(chǔ)上的結(jié)果：

pword：積極詞集合，nwords消極詞集合

Orient(word) >&(閾值) 輿論積極

Orient(word) <& (閾值) 輿論消極

3 Hownet閾值優(yōu)化模型

3.1 優(yōu)化步驟

(1)根據(jù)TF/IDF權(quán)值法計(jì)算提煉主題，而不直接歸類其情感傾向,且同步利用式(1)對(duì)此情感庫(kù)進(jìn)行更新，避免了中文表達(dá)復(fù)雜帶來(lái)的情感傾向誤判：

(5)

其中，N表示文本集中的文本數(shù)量，n表示文本集中包含目標(biāo)項(xiàng)的文本數(shù)量，f表示目標(biāo)項(xiàng)出現(xiàn)的頻數(shù)。

可以看出，如果某個(gè)詞在某篇文檔出現(xiàn)的頻率高，而在其他文檔中出現(xiàn)的頻率低，說(shuō)明該詞對(duì)該文檔而言，具有更高的代表性，同時(shí)也應(yīng)有更高的權(quán)重值。

(2)先以向量空間模型歸類主題的相似性,再以single-pass算法判斷主題情感相似性,避免了因不同篇章的情感色彩強(qiáng)烈而帶來(lái)的誤判，向量空間模型算法基本公式為：

(6)其中di、dj代表兩個(gè)文本的sim相似度，wk代表目標(biāo)項(xiàng)的權(quán)重值。此步驟與式(3)、(4)算法同時(shí)進(jìn)行，目的在于對(duì)詞庫(kù)進(jìn)行義項(xiàng)衍生分類，在分類基礎(chǔ)上進(jìn)行第二步歸類。

(3)以single-pass算法判斷主題情感相似性，如果該新聞報(bào)道S是輸入的第一篇報(bào)道，則將該報(bào)道當(dāng)做第一個(gè)話題。后續(xù)輸入的新聞報(bào)道內(nèi)容向量與己有的話題內(nèi)容向量進(jìn)行比較用兩個(gè)向量之間的余弦?jiàn)A角sim(di,dj)作為衡量相似度的標(biāo)準(zhǔn)，如果其值小于設(shè)定的閾值，則認(rèn)為新輸入的新聞報(bào)道屬于該話題，否則將該新聞報(bào)道作為一個(gè)新的話題。

3.2 原理總結(jié)

由上面步驟可知：因中文表達(dá)中，不同句式(反問(wèn)句、否定句)褒貶相反，所以采用二次分類法，對(duì)單一的向量分類或算法分類組合使用，取各自優(yōu)點(diǎn)。向量空間模型通過(guò)權(quán)值歸類主題，與TF一樣避開(kāi)了情感部分，主題相似的wkj與wki的取值需通過(guò)單邊的情感分類，旨在確定是褒義值@+與貶義值@-，再界定中性范圍，計(jì)算加權(quán)平均值@：

(7)

4 試驗(yàn)結(jié)果與分析

實(shí)驗(yàn)?zāi)康脑谟隍?yàn)證優(yōu)化的Hownet方法傾向性分析模塊是否實(shí)現(xiàn)了互聯(lián)網(wǎng)信傾向性分析功能，且與傳統(tǒng)方式進(jìn)行比較，驗(yàn)證其優(yōu)點(diǎn)。

4.1 輿情走勢(shì)分析情感統(tǒng)計(jì)

本文以2016年7月17日～7月19日連續(xù)兩天的輿情走勢(shì)為樣本，以某個(gè)搜索引擎、新聞網(wǎng)站、論壇、微博、微信等平臺(tái)為目標(biāo)，得出正面、負(fù)面和中性的文本數(shù)量。

4.2 傾向性結(jié)果展示

表1為文本結(jié)果細(xì)分統(tǒng)計(jì)，加入了中度、輕度、重度的正負(fù)面文本評(píng)論。

隨著詞典庫(kù)的不斷更新，該話題輿情呈現(xiàn)出細(xì)分的趨勢(shì)，結(jié)果顯示出更新詞典庫(kù)的突出效果，通過(guò)對(duì)正負(fù)面程度的統(tǒng)計(jì)可以判斷輿情的正確走勢(shì)，如圖1所示。

圖1為輿情分析走勢(shì)圖，圖中可看出中性情感最為突出且走勢(shì)明顯，可判斷輿情發(fā)展主要由中性情感決定并且呈現(xiàn)出下降趨勢(shì)。

4.3 結(jié)果分析

4.3.1 評(píng)價(jià)指標(biāo)

本文分類評(píng)價(jià)指標(biāo)包括查準(zhǔn)率、查全率和F1值。

4.3.2 算法參數(shù)選取

(1)優(yōu)化步驟首先利用式(2)對(duì)詞典進(jìn)行初步主題統(tǒng)計(jì)，在此基礎(chǔ)上利用式(5)進(jìn)行文本分類，初始值f的頻率可選，先用擬固定值f=0.5。

(2)c1與c2是記錄下的n1與n2的數(shù)目，式(3)在c1與c2選取上初始值規(guī)定為c1=20和c2=30，此數(shù)據(jù)會(huì)根據(jù)后面步驟實(shí)時(shí)更新增長(zhǎng)。

(3)利用向量機(jī)和單邊帶算法統(tǒng)計(jì)情感分類，式(6)是建立在式(3)、(4)基礎(chǔ)上的，對(duì)單邊情感分類，隨機(jī)地抽取出正負(fù)面的感情色彩文本各 500 篇，其中正面被正確識(shí)別出來(lái)的數(shù)量為 400 篇，負(fù)面被識(shí)別出來(lái)的數(shù)量為 435篇。

(4)為了使更新詞典庫(kù)的義項(xiàng)分類與前三步模式更加緊密結(jié)合，對(duì)閾值的確定就尤為重要，初始@=1.87，第一次取400個(gè)正面的@+=0.81，435個(gè)負(fù)面@-=0.78。利用式(7)可以計(jì)算出@的加權(quán)平均值為1.122，該值小于初值，可判斷走勢(shì)下降。

4.3.3 對(duì)比試驗(yàn)

本文利用4個(gè)評(píng)價(jià)指標(biāo)對(duì)閾值進(jìn)行設(shè)定，確定初始閾值@+與@-，再利用式(7)確定最終閾值，分別對(duì)傳統(tǒng)方法與優(yōu)化方法的閾值進(jìn)行計(jì)算，得出正負(fù)面文本的查準(zhǔn)率、查全率和F1值。表2為優(yōu)化閾值與傳統(tǒng)閾值計(jì)算結(jié)果對(duì)比。

從表2可以看出，優(yōu)化后的P值、R值、F值都明顯高于傳統(tǒng)方法。

圖2為優(yōu)化方式與傳統(tǒng)方式對(duì)比圖，可更清晰地說(shuō)明問(wèn)題：實(shí)線、點(diǎn)線和虛線分別代表正面、負(fù)面及平均值。由圖2可以看出,優(yōu)化模式(左半部)線條值都普遍高于傳統(tǒng)模式(右半部)線條值，其原因在于對(duì)文本分類的文章，在Hownet判別時(shí)已經(jīng)用衍生義項(xiàng)原理實(shí)現(xiàn)了潛在的人群分類，所以基于最終的優(yōu)化閾值進(jìn)行判別時(shí)，很大程度上降低了人群情感色彩偏差帶來(lái)的影響。

5 結(jié)束語(yǔ)

本文采取優(yōu)化Hownet分析方法，對(duì)某一話題在不同領(lǐng)域或不同平臺(tái)進(jìn)行傾向性分析，通過(guò)對(duì)閾值的優(yōu)化界定并與傳統(tǒng)模式相對(duì)比，驗(yàn)證其優(yōu)化效果。優(yōu)化模式合理地結(jié)合了權(quán)值提煉與機(jī)器學(xué)習(xí)分類方法，通過(guò)采用義源衍生義項(xiàng)的分類方法實(shí)現(xiàn)人群分類的目的，在此基礎(chǔ)上優(yōu)化的閾值不僅大幅削弱了不同人群層次的情感偏差影響，而且使得分析結(jié)果更加可靠，具有更高的參考價(jià)值，且對(duì)輿情總體趨勢(shì)的情感傾向分析更加有利。

[1] YZERBYT V, DUMONT M, WIGBOLDUS D.The impact british of categorization emotions and action tendencies[J].Journal of Social on-Wiley Online Library,2013,23(8):62-66.

[2] 劉龍飛，楊亮，張紹武，等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 中文信息學(xué)報(bào)，2015,29(6):159-165.

[3] 黃高峰，周學(xué)廣.一種語(yǔ)句級(jí)細(xì)粒度情感傾向性分析算法研究[J]. 計(jì)算機(jī)應(yīng)用與軟件， 2015,32(4):239-242.

[4] YARDI S, BOYD D.Dynamic debates: an analysis of group polarization over time on twitter[J]. Bulletin of Science, Technology & Society, 2010,69(6): 066133.

[5] 呂韶華,楊亮,林鴻飛.基于SimRank的跨領(lǐng)域情感傾向性分析算法研究[J].中文信息學(xué)報(bào), 2012,26(6):38-44.

[6] 陸振東,張楠.基于句法與主題擴(kuò)展的中文微博情感傾向性分析模型[J]. 計(jì)算機(jī)應(yīng)用，2014,78(2):561-570.

[7] NABI R L.Exploring the framing effects of emotion do discrete emotions differentially influence information accessibility, information seeking, and policy preference[J]. Communication Research, 2010,69(6): 66-133.

[8] 魏現(xiàn)輝，張紹武，楊亮，等.基于加權(quán)SimRank的跨領(lǐng)域文本情感傾向性分析[J].模式識(shí)別與人工智能，2013,26(11): 1004-1009.

[9] 張瑩.在線新聞評(píng)論的情感分析研究[D].天津：南開(kāi)大學(xué)，2013.

[10] 馬鳳閘,吳江寧,楊光飛.基于雙重選擇策略的跨領(lǐng)域情感傾向性分析[J].情報(bào)學(xué)報(bào)， 2012,31(11):1202-1209.

[11] 孟佳娜，趙丹丹，于玉海，等.歸納式遷移學(xué)習(xí)在跨領(lǐng)域情感傾向性分析中的應(yīng)用[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)版)，2016,52(1):175-183.

[12] BARBOSA L, FENG J. Robust, sentiment detection on twitter from biased and noisy data[C].Proceedings & COLING,Beijing,China, 2010,91(7):12-20.

[13] 宋艷雪，張紹武，林鴻飛，等.基于語(yǔ)境歧義詞的句子情感傾向性分析[J].中文信息學(xué)報(bào), 2012,26(3):38-43.

[14] 周杰.網(wǎng)絡(luò)輿情話題情感傾向性分析技術(shù)研究[D] . 鄭州：解放軍信息工程大學(xué)， 2010.

[15] 烏達(dá)巴拉，汪增福.一種擴(kuò)展式CRFs的短語(yǔ)情感傾向性分析方法研究[J] .中文信息學(xué)報(bào)， 2015,29(1):155-161.

[16] LIU Q, FENG C, HUANG H.Emotional tendency identification for micro-blog topics based on multiple characteristics[J]. Proceedings of the 26th Pacific Asia Conf, 2012,24(7): 121-130.

[17] 黃挺，姬東鴻. 基于圖模型和多分類器的微博情感傾向性分析[J].計(jì)算機(jī)工程,2015,41(4):171-175.

[18] 熊德蘭，程菊明，田勝利.基于HowNet的句子褒貶傾向性研究[J].計(jì)算機(jī)工程與應(yīng)用, 2008, 44(22):143-145.

李昀澤(1990-), 男，碩士研究生，主要研究方向：輿情傳播及監(jiān)控。

The research of emotional tendency analysis in public opinion monitoring

Wang Lin, Li Yunze

(School of Automation and Information Engineering, Xi’an University of Technology, Xi’an 710048, China)

According to Hownet classic algorithms only focus on words on optimization, neglect the subjective color deviation due to different population levels, which will cause decrease in accuracy, an optimized Hownet discriminant method is proposed in this paper. It puts forward an optimized Hownet building threshold value to determine the new framework, uses Basemeaning information derived meanings to dynamic update emotional word library. On one hand, considering the different crowd with impact of subjective tendency to analysis hard problem, on the other hand,for an event or topic it directly gets emotional tendency of the masses.The experimental results show that compared with the traditional method of Hownet, the optimized Hownet realizes across population analysis for public opinion tendency, and gets higher accuracy.

basemeaning information,；derivative meanings；Hownet algorithm；tendency analysis

TN929.12

10.19358/j.issn.1674- 7720.2017.05.004

王林,李昀澤.情感傾向分析在輿情監(jiān)控方面的研究[J].微型機(jī)與應(yīng)用，2017,36(5)：11-13，17.

2016-11-13)

王林(1963-)，男，博士，教授，主要研究方向：復(fù)雜系統(tǒng)及輿情傳播。