亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于話題特征詞的情感傾向性研究

        2016-04-29 00:00:00林凌楊程程林夏玉
        中國(guó)管理信息化 2016年22期

        [摘 要]面對(duì)民眾觀點(diǎn)日益沸騰的互聯(lián)網(wǎng)時(shí)代,如何理解網(wǎng)絡(luò)輿情的傾向性,并且對(duì)輿情加以合理的引導(dǎo)是一個(gè)日益重要的課題。本文利用PLSA模型對(duì)不同時(shí)間段上的網(wǎng)絡(luò)輿情話題進(jìn)行子話題提取,采用基于HowNet的語義相似度模型對(duì)相應(yīng)的子話題進(jìn)行情感分析,通過與閾值的比較得出該話題的褒貶程度。

        [關(guān)鍵詞]話題特征詞;PLSA模型;語義相似度;情感傾向性

        doi:10.3969/j.issn.1673 - 0194.2016.22.098

        [中圖分類號(hào)]TP393.09 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2016)22-0-02

        0 引 言

        隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)逐漸成為民眾取得和發(fā)布信息的主要平臺(tái)。但是,正是由于網(wǎng)絡(luò)的便利性和虛擬性,網(wǎng)絡(luò)信息的真實(shí)性魚龍混雜,而面對(duì)稂莠不齊的信息源,廣大民眾不僅能夠隨時(shí)隨地接收,還能夠任意轉(zhuǎn)發(fā)。對(duì)網(wǎng)絡(luò)輿論進(jìn)行適當(dāng)?shù)囊龑?dǎo)是非常必要的,否則可能引發(fā)不良后果,以致形成一定程度的恐慌,更進(jìn)一步影響到其他民眾的正常社會(huì)生活。

        因此,準(zhǔn)確了解公眾的看法,對(duì)普通民眾情緒進(jìn)行及時(shí)有效的引導(dǎo)是人們一直以來不斷努力的方向。本文試圖通過PLSA模型和基于HowNet的語義相似度模型,探究網(wǎng)絡(luò)輿情的情感傾向性,從而提出對(duì)策,以滿足政府和企業(yè)輿情監(jiān)控以及控制的要求,為政府機(jī)構(gòu)輿論引導(dǎo)的方向和內(nèi)容提供依據(jù)明確的參考。

        1 網(wǎng)絡(luò)輿情情感傾向性分析模型

        網(wǎng)絡(luò)輿情話題情感傾向性分析模型共分為2個(gè)部分:話題提取和情感分析。其中話題提取主要采取的是PLSA模型,情感分析主要采取的是基于HowNet的語義相似度模型。

        1.1 話題提取

        1.1.1 文本采集

        本文研究的是網(wǎng)絡(luò)熱點(diǎn)事件的情感傾向性,因此在數(shù)據(jù)采集過程中,首先要確定一個(gè)網(wǎng)絡(luò)熱點(diǎn)事件,然后利用網(wǎng)絡(luò)爬蟲到知乎、豆瓣、微博、新聞等平臺(tái)上獲取該網(wǎng)絡(luò)熱點(diǎn)事件的信息。

        1.1.2 文本分詞

        本文主要采用ICTCLAS漢語分詞系統(tǒng)。具體ICTCLAS文本分詞處理過程如圖1所示。

        采用Java編程實(shí)現(xiàn)初步文本分詞,再利用停用詞表和Java程序,進(jìn)行停用詞處理,從而得到相應(yīng)的文檔-詞共現(xiàn)矩陣。

        1.1.3 子話題抽取

        采用PLSA模型對(duì)子話題進(jìn)行抽取,生成k個(gè)子話題,并得到特征詞在k個(gè)子話題上的概率分布。具體PLSA模型的應(yīng)用如下:

        PLSA模型,全稱為概率潛在語義分析模型,將概率統(tǒng)計(jì)模型與EM算法相結(jié)合,實(shí)現(xiàn)對(duì)子話題的抽取。PLSA的概率模型圖,如圖2所示。

        其中D表示文檔,Z表示主題,W表示觀察到的單詞。

        在該P(yáng)LSA概率模型中,已知(di,wj),Zk是隱含變量。則(di,wj)的聯(lián)合分布見公式(1)。

        其中,P(zk|di)和P(wj|zk)都對(duì)應(yīng)多項(xiàng)式分布,筆者通過最大期望(Expectation Maximization,EM)算法來估計(jì)多項(xiàng)式分布中的參數(shù)。該算法主要分為E步驟和M步驟,然后進(jìn)行迭代求解。

        針對(duì)PLSA模型中的參數(shù)估計(jì),在E步驟中,使用貝葉斯公式直接計(jì)算Zk的后驗(yàn)概率,見公式(2)。

        在M步驟中,是利用E步驟中的后驗(yàn)概率求得P(zk|di)和P(wj|zk),然后進(jìn)行迭代求解,得到參數(shù)值見公式(3)、(4)。

        1.2 情感分析

        本文對(duì)網(wǎng)絡(luò)輿情情感傾向性的分析主要是通過對(duì)話題特征詞傾向值的度量,判斷該網(wǎng)絡(luò)熱點(diǎn)事件的褒貶程度。其中,默認(rèn)0為閾值,即傾向值大于0時(shí)判斷為褒義,小于0時(shí)則判斷為貶義。

        對(duì)于話題特征詞傾向值的度量,本文是基于知網(wǎng)HowNet,進(jìn)行語義相似度的計(jì)算,從而計(jì)算得到相應(yīng)的情感傾向值。在知網(wǎng)中,詞語是通過義原來描述的,所以將詞語的情感相似度轉(zhuǎn)化為義原的情感相似度。義原相似度的計(jì)算公式為式(5)。

        其中,α為權(quán)值,w為詞語。

        將最大的義原相似度作為詞語相似度,公式為(6)。

        其中,y詞語的義原。

        假設(shè)共有k對(duì)基準(zhǔn)詞,則單詞w的語義傾向值計(jì)算公式(7)。

        其中,key-pi、key-ni分別為褒義基準(zhǔn)詞、貶義基準(zhǔn)詞,Orientation(w)為單詞w的語義傾向值:

        通過加權(quán)求和可以得到特征詞的情感傾向性值。

        2 基于話題特征詞的情感傾向性實(shí)證分析

        筆者通過實(shí)例進(jìn)行分析,從而驗(yàn)證本文所提網(wǎng)絡(luò)輿情情感分析方法的可行性。本文以2016年5月份的熱點(diǎn)輿論“江蘇高考減招”作為本文情感傾向性分析的對(duì)象。利用網(wǎng)絡(luò)爬蟲來爬取新浪微博2016年5月9日到5月11日關(guān)于“江蘇高考減招”話題的所有微博,設(shè)置的時(shí)間間隔為1天,劃分實(shí)驗(yàn)預(yù)料,在5月9日到5月11日這個(gè)時(shí)間段,新浪微博中關(guān)于這個(gè)話題的討論熱度從熱烈到逐漸平緩,因此,選擇這個(gè)時(shí)間段對(duì)輿情情感的變化和分布進(jìn)行探究。

        2.1 PLSA輿情子話題抽取

        筆者將半結(jié)構(gòu)化信息處理后,得到純文本語料。隨后,進(jìn)行分詞統(tǒng)計(jì)并且構(gòu)建“文檔-詞語”的共現(xiàn)矩陣。接著,采用PLSA模型進(jìn)行子話題抽取,得到每時(shí)段子話題及其概率矩陣。表1列出了抽取的4個(gè)時(shí)間點(diǎn)的子話題,以及出現(xiàn)概率在前5位的話題詞及其概率。

        在表1中,整個(gè)時(shí)間段都被一個(gè)子話題貫穿,計(jì)算后,兩個(gè)子話題之間語義上的關(guān)聯(lián)度均大于本文設(shè)定的閾值0.5,因此,子話題“北京本科率”存在語義上的延續(xù)性。

        2.2 基于特征詞的情感詞提取

        本文以5月9日江蘇高考減招消息出現(xiàn)當(dāng)天所產(chǎn)生的一個(gè)子話題為例,首先將與本話題有關(guān)的文本進(jìn)行資料篩選;隨后,重新進(jìn)行分類整理;接著,依據(jù)特征詞的不同,將句子保存到不同的特征詞文檔中,整理與之相對(duì)應(yīng)的情感詞。

        筆者通過BIYING搜索引擎對(duì)上述得出的情感詞進(jìn)行搜索,選擇出現(xiàn)頻率最高的詞匯作為基準(zhǔn)詞,選取依據(jù)為按照返回的Hits數(shù)進(jìn)行排序的詞組,再以特征詞“減招”的情感關(guān)鍵詞為例,通過基于How-Net的詞匯傾向性計(jì)算方法得到部分詞匯的傾向值,如下表所示:

        通過計(jì)算,最后可得到5月9日“江蘇高考減招”子話題中的特征詞“減招”的情感傾向值。計(jì)算的結(jié)果表明,對(duì)于江蘇高考減招,多數(shù)民眾認(rèn)為這一項(xiàng)新政策十分不公平,并且對(duì)此懷有強(qiáng)烈的憤怒和不滿情緒,但值得注意的是,盡管不滿情緒高漲,超過半數(shù)的群眾還是會(huì)接受這項(xiàng)政策。

        3 結(jié) 語

        網(wǎng)絡(luò)輿情情感傾向性分析主要包括子話題抽取和情感分析兩大部分。而本文在這兩大部分上都進(jìn)行了一定的創(chuàng)新,主要?jiǎng)?chuàng)新在子話題的抽取上采用Thomas Hofmann的PLSA模型,在情感分析上采用了基于HowNet的語義相似度分析。但是,這些模型仍然需要進(jìn)一步改進(jìn)。第一,將不同的句子結(jié)構(gòu)都統(tǒng)一看成是陳述句進(jìn)行分析,并沒有考慮其對(duì)情感表達(dá)的影響,就像反問句就與陳述句有完全不一樣的句意表達(dá)效果。第二,該模型需要花費(fèi)大量的時(shí)間進(jìn)行文本資料的人工整理,在大數(shù)據(jù)時(shí)代下,此種模型的實(shí)用性略差。所以未來的工作主要就是將現(xiàn)有的模型實(shí)現(xiàn)完全智能化,降低人工成本;考慮語法、句子結(jié)構(gòu)等因素,得到更準(zhǔn)確的情感傾向性。

        主要參考文獻(xiàn)

        [1]黃衛(wèi)東,陳凌云,吳美蓉.網(wǎng)絡(luò)輿情話題情感演化研究[J].情報(bào)雜志,2014(1).

        [2]黃衛(wèi)東,林萍,董怡,李宏偉.基于話題特征詞的網(wǎng)絡(luò)輿情參與情感演化分析[J].情報(bào)雜志,2015(11).

        [3]Thomas Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis[J].Machine Learning,2001(1/2).

        中文字幕乱码在线人妻| 在线视频一区色| 欧美性生交活xxxxxdddd| 色www永久免费视频| 亚洲不卡中文字幕无码| 亚洲欧美成人中文在线网站 | 日韩精品无码一区二区中文字幕| 国产精品一区二区久久乐下载 | 亚洲av资源网站手机在线| 草草影院发布页| 人妻少妇精品视频无码专区| 亚洲91av| 一区二区三区国产精品| 国产情侣亚洲自拍第一页| 国产不卡视频一区二区三区| 久久久久亚洲av无码专区网站| 国产亚洲精品自在久久77| 久久国产女同一区二区| 丝袜美腿一区二区国产| 被黑人猛躁10次高潮视频| 久久久久久久久久久熟女AV| av蜜桃视频在线观看| 国产在线91精品观看| 国产精品妇女一二三区| 国产亚洲视频在线观看网址| 欧洲国产成人精品91铁牛tv| 中文字幕亚洲高清精品一区在线 | 少妇高清精品毛片在线视频| 巨臀中文字幕一区二区| 国产精品美女一区二区av| 极品老师腿张开粉嫩小泬| 国产午夜三级一区二区三| 99在线无码精品秘 入口九色| 婷婷色精品一区二区激情| 日韩丰满少妇无码内射| 亚洲AⅤ永久无码精品AA| 人妻中文字幕一区二区三区| 国产精品理论片在线观看| aaaaa级少妇高潮大片免费看 | 久久99精品久久久久久噜噜| 欧美婷婷六月丁香综合色|