亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于表情詞典的中文微博情感分析模型研究

        2015-09-26 05:17:41梁亞偉上海海事大學(xué)信息工程學(xué)院上海201306
        現(xiàn)代計(jì)算機(jī) 2015年21期
        關(guān)鍵詞:詞匯分類文本

        梁亞偉(上海海事大學(xué)信息工程學(xué)院,上海 201306)

        基于表情詞典的中文微博情感分析模型研究

        梁亞偉
        (上海海事大學(xué)信息工程學(xué)院,上海201306)

        0 引言

        眾所周知,微博消息中包含了文本、表情、圖像和視頻等信息表達(dá)方式。其中,表情符號(hào)由于具有生動(dòng)、形象的信息表達(dá)特點(diǎn)而被用戶廣泛采納,在一些情感極性比較明顯的微博消息中,表情符號(hào)在情感表達(dá)中起著舉足輕重的作用。鑒于缺乏表情情感詞典的研究現(xiàn)狀,本文提出一種基于情感詞典的微博表情情感詞典的構(gòu)建與更新方法。首先,基于微博消息中文本的情感強(qiáng)度值,構(gòu)造出針對(duì)整條微博消息的情感曲線。然后,根據(jù)表情符號(hào)出現(xiàn)在情感曲線上的坐標(biāo)位置,按照就近原則和加窗方法,找到表情符號(hào)臨近的情感詞,根據(jù)情感詞的情感強(qiáng)度計(jì)算出表情符號(hào)的情感傾向性。最后,采用基于閾值的方法,對(duì)表情符號(hào)的情感傾向性進(jìn)行推理和歸納,得出表情符號(hào)的情感強(qiáng)度和極性,進(jìn)而構(gòu)建表情情感詞典。

        基于微博文本情感分析和微博表情情感詞典的研究成果,分析與量化微博消息的情感傾向性。抽取微博情感曲線波動(dòng)性、微博情感強(qiáng)度、微博情感傾向性、微博正向情感值、微博負(fù)向情感值、文本曲線波動(dòng)性、文本情感強(qiáng)度、文本情感傾向性、文本正向情感值、文本負(fù)向情感值、表情曲線波動(dòng)性、表情情感強(qiáng)度、表情情感傾向性、表情正向情感值、表情負(fù)向情感值?;谏鲜鎏卣?,手動(dòng)對(duì)微博情感進(jìn)行標(biāo)注,采用機(jī)器學(xué)習(xí)的方法對(duì)微博消息的情感類別進(jìn)行分類。首先基于15種特征,后來(lái)采用LDA特征選擇,基于選擇出來(lái)的特征進(jìn)行情感分類,選擇分類效果最好的分類方法評(píng)價(jià)微博情感。

        1 基于情感詞典的微博表情情感詞典的構(gòu)建

        本文基于現(xiàn)有的情感詞匯本體資源庫(kù),采取從文本情感類別倒推表情情感類別的方式,開發(fā)一種基于文本的表情情感詞典的構(gòu)建方法。

        1.1文本預(yù)處理以及微博表情符號(hào)抽取

        在微博情感分析的研究中,針對(duì)微博文本信息的分詞和詞匯情感強(qiáng)度量化操作是通過(guò)文本預(yù)處理操作來(lái)完成的。本文采用中科院分詞工具ICTCLAS和大連理工大學(xué)中文情感本體資源庫(kù)分別對(duì)微博文本進(jìn)行分詞和詞匯情感強(qiáng)度量化操作。表1是對(duì)該情感詞匯本體的格式舉例。

        表1 情感詞匯本體格式舉例

        微博消息轉(zhuǎn)換成文本格式后,其中包含的表情符號(hào)具有一定的文本格式。例如高興的表情符號(hào)在微博消息中的表達(dá)方式為“[高興]”,即用“[]”將情感詞匯包裹起來(lái)進(jìn)而區(qū)分微博文本消息和表情符號(hào)。因此,在抽取微博表情符號(hào)時(shí),采用正則表達(dá)式對(duì)微博文本進(jìn)行處理,抽取文本中包含的表情符號(hào)。

        1.2微博文本情感分析

        基于上文對(duì)文本分詞和詞匯情感強(qiáng)度量化的研究成果,本節(jié)對(duì)微博文本情感進(jìn)行量化分析。依據(jù)文本中出現(xiàn)的情感詞和副詞的情感強(qiáng)度,分別計(jì)算微博文本正向情感值、負(fù)向情感值和情感傾向性等特征。上述三種特征不僅可以作為后續(xù)基于情感詞典和表情詞典情感分析與評(píng)價(jià)工作的數(shù)據(jù)特征,而且可以通過(guò)上述三個(gè)特征值描繪出反映文本情感變化的微博文本情感曲線,并作為對(duì)表情符號(hào)情感傾向性、強(qiáng)度和極性等量化操作的數(shù)據(jù)基礎(chǔ)。

        1.3微博文本情感曲線

        微博文本情感曲線根據(jù)微博消息中出現(xiàn)的情感詞和語(yǔ)氣詞的情感強(qiáng)度,反映了微博消息所包含的情感變化。具體來(lái)說(shuō),根據(jù)微博的文本正向情感值和負(fù)向情感值,可以描繪出文本情感曲線來(lái)反映該文本所包含的情感變化。首先獲得文本中出現(xiàn)的每個(gè)情感詞匯的正向情感值和負(fù)向情感值,并記錄每個(gè)情感詞匯在文本中出現(xiàn)的相對(duì)位置;然后按照情感詞在文本中出現(xiàn)的先后順序,以1為單位勾畫出文本情感曲線。本節(jié)對(duì)具體的微博消息勾畫文本情感曲線,并展示相應(yīng)結(jié)果。具體的微博消息如下所示:

        誰(shuí)的佐料都沒自己的好,領(lǐng)老婆(自己家的)去看場(chǎng)電影也不錯(cuò)滴!

        要喝風(fēng)花雪月啤酒!

        我有!

        哈爾濱啤酒節(jié),我來(lái)了!

        明天我過(guò)節(jié),童心未泯呀!

        你就不怕事大,不過(guò)我同意!

        今天新聞?wù)f,9月起個(gè)稅起征點(diǎn)調(diào)到了3500,是不是意味著我們工資要上調(diào)了呢?盡管不多,也是漲啊,好兆頭!

        哎!因?yàn)槎萝?,我都不敢出門了!

        同感!

        奶奶的!藥廠又放味,熏得我頭疼,關(guān)鍵熏到孩子怎么辦,喪盡天良!放味者必遭天譴!

        也要上班了,肚子也消停了,真怪!看來(lái)2012的運(yùn)程不得不信啊!

        該微博文本情感曲線勾畫結(jié)果如圖1所示。圖中橫坐標(biāo)表示微博消息中出現(xiàn)的情感詞匯,縱軸表示每個(gè)情感詞匯的情感強(qiáng)度值。

        圖1 微博文本情感曲線

        1.4微博表情情感詞典的構(gòu)建

        根據(jù)1.2節(jié)微博文本情感分析的研究成果計(jì)算表情符號(hào)的情感傾向性、情感強(qiáng)度和極性等量化值,采用聚類的方法對(duì)表情符號(hào)進(jìn)行分類,結(jié)合本體理論對(duì)構(gòu)建的情感詞典進(jìn)行組織和管理。

        對(duì)于表情情感詞典構(gòu)建方法,其主要步驟敘述如下:

        (1)針對(duì)采集到的所有微博文本,依次輪循每個(gè)微博文本并計(jì)算其情感曲線;

        (2)對(duì)于沒有包含表情符號(hào)的微博文本進(jìn)行判斷。當(dāng)微博文本中沒有出現(xiàn)表情符號(hào)時(shí),則執(zhí)行(5),反之執(zhí)行(3);

        (3)對(duì)微博文本的分詞結(jié)果進(jìn)行位置編號(hào)。獲得表情符號(hào)在文本中的相對(duì)位置;

        (4)根據(jù)微博情感曲線計(jì)算并存儲(chǔ)表情符號(hào)情感強(qiáng)度和極性。確切地說(shuō),根據(jù)(3)獲得的相對(duì)位置,對(duì)表情符號(hào)所在的文本語(yǔ)句進(jìn)行情感強(qiáng)度和極性計(jì)算,即將該文本語(yǔ)句的情感強(qiáng)度作為表情符號(hào)的情感強(qiáng)度,對(duì)文本語(yǔ)句中出現(xiàn)的正向情感詞和負(fù)向情感詞的情感強(qiáng)度進(jìn)行求和再平均操作;

        (5)判斷所有文本是否輪循完畢。完畢后,執(zhí)行(6),反之,執(zhí)行(1);

        (6)針對(duì)所有微博文本中出現(xiàn)的每一個(gè)表情符號(hào)進(jìn)行情感傾向性計(jì)算,計(jì)算公式如式(1)所示。其中,F(xiàn)T表示表情符號(hào)情感傾向性,Efi表示所有微博文本中每個(gè)表情符號(hào)的情感強(qiáng)度,m為表情符號(hào)的個(gè)數(shù)。此外,根據(jù)存儲(chǔ)的表情符號(hào)情感強(qiáng)度和極性值,分別采用平均求和與投票的方法獲得每種表情符號(hào)的情感強(qiáng)度和極性;

        (7)針對(duì)所有表情符號(hào),將其情感強(qiáng)度、極性和情感傾向性作為數(shù)據(jù)特征,采用聚類的方法對(duì)所有表情符號(hào)進(jìn)行分類。獲得相應(yīng)的分類結(jié)果后,采用人工標(biāo)注的方法,將所有表情分為生氣、高興、厭惡和悲傷等四大類;

        (8)流程結(jié)束,采用定義好的表情詞典本體資源庫(kù)對(duì)表情符號(hào)進(jìn)行存儲(chǔ)和管理。表情情感詞典本體格式舉例如表2所示。其中,以[怒]、[吐]、[哈哈]和[傷心]等四個(gè)微博表情為例,分別給出本文計(jì)算出的情感傾向性、情感強(qiáng)度和極性值。

        表2 表情情感詞典本體格式舉例

        2 基于情感詞典和表情詞典的微博情感分析與評(píng)價(jià)方法

        基于上一節(jié)的研究成果,本文提出一種自動(dòng)化地基于情感詞典和表情詞典的微博情感分析與評(píng)價(jià)策略。該策略主要采用機(jī)器學(xué)習(xí)方法,將進(jìn)行了手動(dòng)式情感標(biāo)注的微博信息作為訓(xùn)練樣本,對(duì)新的微博測(cè)試樣本進(jìn)行情感傾向性評(píng)價(jià)。該策略主要流程敘述如下:

        (1)根據(jù)需要可以獲取單個(gè)用戶或者多個(gè)用戶的微博消息并將其轉(zhuǎn)化為文本格式,方便后續(xù)處理。針對(duì)單個(gè)用戶的微博消息獲取與處理,可以獲得該用戶某段時(shí)間內(nèi)的情感變化,主要應(yīng)用于面向個(gè)人喜好的人物情感追蹤。針對(duì)多個(gè)用戶的微博消息獲取與處理,可以獲得用戶對(duì)某一事件的情感傾向進(jìn)而應(yīng)用在面向政府機(jī)構(gòu)的輿情監(jiān)控;

        (2)對(duì)獲得的微博文本進(jìn)行情感詞匯和表情符號(hào)抽取,用于計(jì)算各種微博情感特征;

        (3)基于情感詞典和表情詞典的情感詞匯、表情符號(hào)屬性值查詢與獲??;

        (4)基于微博文本中包含的情感詞匯和表情符號(hào)情感強(qiáng)度屬性值,計(jì)算該微博的情感曲線;

        (5)基于微博文本中包含的情感詞匯、表情符號(hào)等各種屬性值,以及微博情感曲線,抽取微博消息的情感波動(dòng)性、情感強(qiáng)度和情感傾向性等多種情感特征;

        (6)基于抽取的情感特征,為了避免多種特征之間由于具有較強(qiáng)關(guān)聯(lián)性而出現(xiàn)共線性進(jìn)而影響分類器分類效果的現(xiàn)象,采用線性判別分析(LDA)的方法對(duì)多種特征進(jìn)行特征選擇操作;

        (7)基于特征選擇結(jié)果,首先采用人工標(biāo)注的方式對(duì)大量的微博文本進(jìn)行類別標(biāo)注,與微博表情情感類別一致,本文將微博情感分為生氣、厭惡、高興和悲傷四大類。然后采用Bayes分類器對(duì)微博消息進(jìn)行情感分類,并分析該分類器的分類效果;

        (8)采用Bayes分類器對(duì)每條微博消息進(jìn)行情感類別概率計(jì)算,設(shè)計(jì)多個(gè)閾值劃定情感類別界限,根據(jù)類別概率與類別界限之間的相對(duì)距離,對(duì)微博情感進(jìn)行評(píng)價(jià)。

        3 實(shí)驗(yàn)介紹

        本文使用的微博語(yǔ)料數(shù)據(jù)由第六屆中文傾向性分析評(píng)測(cè)(COAE2014)競(jìng)賽提供,共包含了279個(gè)用戶的微博數(shù)據(jù),每個(gè)用戶擁有10條微博消息,總共2790條微博語(yǔ)料。我們首先采用人工標(biāo)注的方法對(duì)下載的微博語(yǔ)料進(jìn)行情感標(biāo)注。經(jīng)過(guò)人工標(biāo)注后,2790條微博數(shù)據(jù)包含的正向情感微博數(shù)、負(fù)向情感微博數(shù)和中性情感微博數(shù)如表3所示。

        表3 微博數(shù)據(jù)統(tǒng)計(jì)表

        本文采用準(zhǔn)確率(precision)、召回率(recall)和F測(cè)度值(F-Measure)三種評(píng)估指標(biāo),評(píng)價(jià)基于情感詞典和表情詞典的微博情感分類結(jié)果。以計(jì)算正向情感分類準(zhǔn)確率、召回率以及F測(cè)度值為例,其數(shù)學(xué)公式分別如下:

        本文分別采用基于情感詞典的微博情感分析方法以及基于情感詞典和表情詞典的微博情感分析方法,將LDA的特征選擇結(jié)果作為Bayes分類方法的輸入,對(duì)微博數(shù)據(jù)分別進(jìn)行正向情感、負(fù)向情感和中性情感的三分類操作。一方面,說(shuō)明引入表情詞典有利于提高對(duì)微博情感進(jìn)行分析的準(zhǔn)確性。另一方面,驗(yàn)證本文提出的表情詞典構(gòu)建與更新方法在微博情感分析工作中具有有效性?;谇楦性~典的三種情感類別分類結(jié)果如表4所示。結(jié)果顯示,正向情感類別和負(fù)向情感類別的分類準(zhǔn)確率都在75%以上,中性情感類別的分類準(zhǔn)確率為56.3%。說(shuō)明采用大連理工情感詞匯本體庫(kù)對(duì)微博文本包含的情感詞匯進(jìn)行量化操作的方法具有有效性。

        表4 基于情感詞典的三種情感類別分類結(jié)果

        表5 基于情感詞典和表情詞典的三種情感類別分類結(jié)果

        基于情感詞典和表情詞典的三種情感類別分類結(jié)果如表5所示。結(jié)果顯示,正向情感類別和負(fù)向情感類別的分類準(zhǔn)確率都在85%以上,中性情感類別的分類準(zhǔn)確率達(dá)到了68.3%。經(jīng)過(guò)對(duì)比,各項(xiàng)分類指標(biāo)都優(yōu)于基于情感詞典的情感分類結(jié)果,不僅說(shuō)明了引入表情詞典對(duì)微博情感分析的有效性,而且驗(yàn)證了本文提出的自動(dòng)化表情詞典構(gòu)建與更新方法具有應(yīng)用價(jià)值。

        4 結(jié)語(yǔ)

        本文基于情感詞典和表情詞典的微博情感分類方法雖然取得了一定的成果,但仍然存在著一些不足和需要改進(jìn)的地方,仍有較大的提升空間。例如,本文方法對(duì)微博中性情感類別分類率不高,主要是因?yàn)槲⒉┱Z(yǔ)料中出現(xiàn)了較多字義上帶有主觀情緒但在特定語(yǔ)境下為中性情感的情感詞匯,因此,在不同場(chǎng)景下對(duì)情感詞匯進(jìn)行語(yǔ)義性識(shí)別、提高中性情感詞匯的識(shí)別率將在未來(lái)工作中加以考慮。

        [1]喻琦.中文微博情感分析技術(shù)研究[D].浙江工商大學(xué),2013.

        [2]李炤.基于微博情感分析的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)模型研究[D].蘭州大學(xué),2013.

        [3]王文遠(yuǎn).面向情感傾向分析的微博表情情感詞典構(gòu)建及應(yīng)用[D].東北大學(xué),2012.

        [4]楊希.基于情感詞典與規(guī)則結(jié)合的微博情感分析模型研究[D].安徽大學(xué),2014.

        [5]Yang C,Lin K H,Chen H H.Emotion classification using web blog corpora[C].Web Intelligence,IEEE/WIC/ACM International Conference on.IEEE,2007:275-278.

        [6]Quan C,Ren F.Sentence emotion analysis and recognition based on emotion words using Ren-CECps[J].International Journal of Advanced Intelligence,2010,2(1):105-117.

        [7]劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,01:1-4.

        [8]謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2012,01:73-83.

        [9]林江豪.中文微博情感分析關(guān)鍵技術(shù)研究[D].廣東外語(yǔ)外貿(mào)大學(xué),2013.

        [10]鄭毅.基于情感詞典的中文微博情感分析研究[D].中山大學(xué),2014.

        Microblog Emotion Analysis;Emotion Curve;Expression Dictionary;Emotion Dictionary

        Research on the Chinese Microblog Sentiment Analysis Model Based on Emotion Dictionary

        LIANG Ya-wei
        (College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

        1007-1423(2015)21-0007-05

        10.3969/j.issn.1007-1423.2015.21.002

        梁亞偉(1990-),男,河南鹿邑人,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘

        2015-05-26

        2015-07-14

        提出一種反映微博文本情感變化的文本情感曲線,采用加窗的方法計(jì)算表情符號(hào)情感強(qiáng)度,實(shí)現(xiàn)自動(dòng)化的微博表情情感詞典構(gòu)建。其次,基于情感詞典和表情詞典,計(jì)算出反映微博情感變化的微博情感曲線,抽取微博情感曲線波動(dòng)性、微博情感強(qiáng)度和微博情感傾向性等15種情感特征,采用線性判別分析和貝葉斯分類方法分別對(duì)微博進(jìn)行特征選擇和情感分類操作,從而判斷微博的情感傾向性。

        微博情感分析;情感曲線;表情詞典;情感詞典

        Proposes a text emotion curve to reflect the emotional changes of microblog text.Shifts the window to calculate emotional intensity of emoticons,develops an automatic construct and update method of emoticon dictionary.Then,based on emotion and emoticon dictionary,calculates the emotional curve to reflect the emotion changes of microblog,extracts the 15 emotion features such as volatility of emotion curve,emotion intensity and emotional bias,uses linear discriminant analysis and Bayesian method to select features and classify emotions,and then judge the emotional tendentiousness of microblog.

        猜你喜歡
        詞匯分類文本
        分類算一算
        本刊可直接用縮寫的常用詞匯
        一些常用詞匯可直接用縮寫
        在808DA上文本顯示的改善
        本刊可直接用縮寫的常用詞匯
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        日本三级吃奶头添泬| 国产成人av综合色| 亚洲精品国产第一区三区| 青青草在线免费视频播放| 日本高清视频xxxxx| 91日本精品国产免| 日本女同伦理片在线观看| 亚洲一区二区三区激情在线观看| 91亚洲国产成人久久精品网站 | 久久精品国产日本波多麻结衣| 亚洲日本VA午夜在线电影| 国产一区二区三区口爆在线| 国产精品99精品久久免费| 人人妻人人澡人人爽人人精品| 国产亚洲精品综合在线网址| 免费人成黄页网站在线一区二区| 国产办公室秘书无码精品99| 亚洲欧洲中文日韩久久av乱码| 欧洲亚洲色一区二区色99| 亚洲精品中文字幕一二三四| 日韩精品久久无码中文字幕| 久久国产成人午夜av影院| 男女激情床上视频网站| 久久精品蜜桃亚洲av高清| 亚洲av无码专区在线播放| 国产一毛片| 日韩视频午夜在线观看| 成人艳情一二三区| 亚洲av日韩av不卡在线观看| 欧美国产伦久久久久久久| 国产一区二区三区在线大屁股| a级毛片免费完整视频| 国产精品美女久久久久久大全| 久久亚洲一区二区三区四区五| 国产精品美女一区二区视频| 久久av无码精品人妻出轨| 如何看色黄视频中文字幕| 国产成人高清在线观看视频| 人人妻人人澡人人爽人人精品97| 国产91吞精一区二区三区| 成人影院视频在线播放|