亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多部情感詞典和規(guī)則集的中文微博情感分析研究

        2019-09-13 03:37:04吳杰勝
        關(guān)鍵詞:復(fù)句博文新詞

        吳杰勝 陸 奎

        (安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 安徽 淮南 232001)

        0 引 言

        微博是近些年來(lái)一個(gè)新生的適用于大眾的社交媒體平臺(tái),隨著移動(dòng)互聯(lián)網(wǎng)的普及,大眾對(duì)微博的使用率越來(lái)越高,微博也得以快速發(fā)展。廣大的用戶群體都可以通過(guò)微博來(lái)發(fā)表自己對(duì)當(dāng)前的一些熱點(diǎn)話題的看法,所以他們每天都在提供海量且豐富的觀點(diǎn)文本數(shù)據(jù),而這些數(shù)據(jù)中包含著很多情感信息。如何充分挖掘情感信息并進(jìn)行分析就是情感分析。情感分析在當(dāng)今的研究很廣泛,提取情感信息對(duì)社會(huì)發(fā)展起到一定的作用,而微博除了作為一個(gè)社交媒體平臺(tái)之外,還具有其他特性,因此對(duì)微博的情感分析研究至關(guān)重要。

        目前國(guó)內(nèi)外都在對(duì)微博進(jìn)行研究,但中文微博和英文微博的研究進(jìn)展差距很大,英文微博的研究成熟度高于中文微博,而且中文微博與英文微博的特性幾乎不同,因此如何能利用中文微博情感信息來(lái)進(jìn)行研究分析是我們現(xiàn)在要做的工作。本文利用多部情感詞典和中文語(yǔ)義規(guī)則集相結(jié)合的方式判斷中文微博的情感極性。

        1 相關(guān)工作

        文獻(xiàn)[1]中指出情感即文本作者的意見和觀點(diǎn),因此對(duì)情感的分析也可以理解為對(duì)意見的挖掘,文本意見挖掘?qū)儆跀?shù)據(jù)挖掘的子類,主要是利用現(xiàn)有的計(jì)算機(jī)技術(shù)挖掘出蘊(yùn)含在文本間的觀點(diǎn)、情緒等元素。在當(dāng)今可以通過(guò)構(gòu)造相應(yīng)的情感詞典和利用機(jī)器學(xué)習(xí)算法來(lái)對(duì)微博文本進(jìn)行情感分析、極性分類。構(gòu)造情感詞典來(lái)對(duì)微博進(jìn)行情感分析出現(xiàn)比較早,而且它對(duì)微博文本這種細(xì)粒度的情感分析效果極佳。文獻(xiàn)[2]就是在基礎(chǔ)情感詞典的基礎(chǔ)上,構(gòu)造了兩種計(jì)算詞匯語(yǔ)義的情感權(quán)值方法。文獻(xiàn)[3]也在基礎(chǔ)情感詞典的基礎(chǔ)上,構(gòu)造了一種分類器,可以對(duì)文本語(yǔ)義之間的歧義進(jìn)行消除,從而提高情感分析準(zhǔn)確率。

        基于機(jī)器學(xué)習(xí)的方法來(lái)進(jìn)行情感分析,主要是通過(guò)選取一些特征來(lái)標(biāo)注訓(xùn)練集和測(cè)試集,接著利用樸素貝葉斯、支持向量機(jī)等分類器進(jìn)行情感分類。文獻(xiàn)[5]利用支持向量機(jī)或樸素貝葉斯與支持向量機(jī)相結(jié)合的方法對(duì)微博進(jìn)行情感分析。文獻(xiàn)[7]首先構(gòu)造微博語(yǔ)料庫(kù),再用樸素貝葉斯算法進(jìn)行分類。

        總之,微博情感分析常用的兩種方法都有一定的作用,但誰(shuí)也不能做到更高的準(zhǔn)確率,只能在這個(gè)基礎(chǔ)上不斷地加以改進(jìn)方法提高準(zhǔn)確性。基于情感詞典的方法擅長(zhǎng)處理細(xì)粒度的文本情感分析,因此本文主要也是利用情感詞典,在此基礎(chǔ)上加以改進(jìn),并結(jié)合文本之間的語(yǔ)義規(guī)則集來(lái)對(duì)微博進(jìn)行情感分析,最后通過(guò)各個(gè)部分的情感權(quán)值加權(quán)求和得到微博的情感極性。微博的整體情感分析流程圖如圖1所示。

        圖1 微博整體情感分析流程

        2 情感詞典的構(gòu)建

        目前國(guó)外的情感詞典《General Inquirer》完善度很高,但在國(guó)內(nèi)還沒有一部這樣比較完善的詞典,所以對(duì)微博來(lái)說(shuō),有一部完善的情感詞典是很有必要的。現(xiàn)在國(guó)內(nèi)使用常見的代表性情感詞典有知網(wǎng)HowNet情感詞典,臺(tái)灣大學(xué)的正、負(fù)面情感詞典和大連理工大學(xué)中文情感詞典庫(kù)等等。所以本文在此基礎(chǔ)詞典的基礎(chǔ)上進(jìn)行整合和優(yōu)化,構(gòu)建一個(gè)擴(kuò)展的多部情感詞典,同時(shí)還需要單獨(dú)構(gòu)建一個(gè)微博特定領(lǐng)域的情感詞典來(lái)一起組成微博情感詞典,從而進(jìn)行微博情感分析。

        2.1 微博文本的預(yù)處理

        微博文本具有元素多樣性、隨意性、口語(yǔ)化等特點(diǎn),所以需要進(jìn)行預(yù)處理。預(yù)處理步驟如下:

        1) 將網(wǎng)頁(yè)中的鏈接、圖片、視頻、動(dòng)畫刪除;將“@+用戶名”刪除;將“#話題#”刪除。這些內(nèi)容雖對(duì)微博情感分析有一定作用,但是影響不大,可以刪除。

        2) 將文本中的繁體字、英文等其他語(yǔ)言都翻譯成中文,這是為了后續(xù)工作的方便,可使用特定的工具來(lái)進(jìn)行翻譯。

        3) 保留微博文本中的表情符號(hào)。因?yàn)楸砬槭乔楦袪顟B(tài)的外在表現(xiàn),與情感有關(guān),可以參與情感權(quán)值計(jì)算。

        4) 分詞,本文使用中科院ICTCLAS軟件進(jìn)行分詞與詞性標(biāo)注。

        5) 刪除停用詞,比如助詞“的”,代詞“她”、“他”等之類的詞。

        在預(yù)處理完成之后,微博文本就是詞語(yǔ)連接成串的形式,比如“我國(guó)運(yùn)動(dòng)員武大靖在短道速滑男子500米決賽中奪冠?!本蜁?huì)變?yōu)閧我國(guó),運(yùn)動(dòng)員,武,大靖,在,短道速滑,男子,500,米,決賽,中,奪冠 }。

        2.2 構(gòu)建多部情感詞典

        目前中文情感詞典還沒有完整成熟的情感詞典,所以除了構(gòu)造基礎(chǔ)情感詞典外,還有否定詞詞典和雙重否定詞詞典、程度副詞詞典、關(guān)系連詞詞典、表情符號(hào)詞典。

        2.2.1基礎(chǔ)情感詞典

        基礎(chǔ)情感詞典是取自大連理工大學(xué)的中文情感詞典庫(kù)。這個(gè)詞典庫(kù)將情感詞分成了五個(gè)強(qiáng)度和三類詞。本文用數(shù)字1表示正面詞,數(shù)字2表示反面詞,0表示中性詞且它的權(quán)值為0。示例如表1所示。

        表1 基礎(chǔ)情感詞典示例

        2.2.2否定詞詞典和雙重否定詞詞典

        否定詞詞典包括否定副詞和反問(wèn)詞這兩部分。文獻(xiàn)[10]中指出否定副詞和反問(wèn)詞修飾情感詞時(shí),都會(huì)改變?cè)~的情感極性,但反問(wèn)詞語(yǔ)氣更強(qiáng),而雙重否定不會(huì)改變?cè)~的情感極性,但是語(yǔ)氣會(huì)更加強(qiáng)烈。通過(guò)人工篩選共獲取25個(gè)否定詞,示例如表2所示。

        表2 否定詞詞典和雙重否定詞詞典示例

        2.2.3程度副詞詞典

        程度副詞詞典來(lái)自于知網(wǎng)詞典庫(kù)。將這些詞一共分為6個(gè)等級(jí)。等級(jí)分別是超、最、很、較、稍、欠。分別對(duì)這6個(gè)等級(jí)給予一定的權(quán)值,對(duì)所修飾的情感詞的情感強(qiáng)度擴(kuò)大一定的倍數(shù)。示例如表3所示。

        表3 程度副詞詞典示例

        2.2.4關(guān)系連詞詞典

        關(guān)系連詞主要有轉(zhuǎn)折、讓步、遞進(jìn)、因果、假設(shè)等關(guān)系,它們?cè)诰渥优c句子之間的連接起到作用。本文收集整理常用的一些詞構(gòu)建了一個(gè)關(guān)系連詞詞典,并賦予一定的權(quán)值,示例如表4所示。

        表4 關(guān)系連詞詞典示例

        2.2.5表情符號(hào)詞典

        微博表情在微博文本中具有很強(qiáng)的情感傾向性,可以通過(guò)它去判斷微博情感極性有一定的作用。本文通過(guò)微博抓取了一些頻率使用比較高的部分表情構(gòu)造表情詞典,共計(jì)217個(gè)表情。示例如表5所示。

        表5 表情符號(hào)詞典示例

        2.3 微博領(lǐng)域情感詞典的構(gòu)建

        由于基礎(chǔ)的情感詞典還不完整,對(duì)情感詞的概括是有限的,所以還需要針對(duì)微博上一些特有的情感新詞進(jìn)行識(shí)別,從而對(duì)這些新詞集合構(gòu)建一個(gè)詞典。首先要基于統(tǒng)計(jì)信息來(lái)識(shí)別新詞,然后在新詞中進(jìn)行情感識(shí)別。

        2.3.1基于統(tǒng)計(jì)信息的新詞識(shí)別

        文獻(xiàn)[6]中給出三個(gè)定義,分別稱作字串頻數(shù)、內(nèi)部耦合度、鄰字集信息熵,一個(gè)字串能否成詞與這三個(gè)定義有關(guān)。微博文本是由一連串詞語(yǔ)組成的文本,首先我們用一個(gè)長(zhǎng)字串來(lái)表示微博文本,同時(shí)將一個(gè)新詞的成詞長(zhǎng)度設(shè)定為一個(gè)值,本文設(shè)定為7。同時(shí)再考慮上面三個(gè)定義,它們每個(gè)都要設(shè)定一個(gè)參數(shù)閾值,如果有任何一個(gè)條件不滿足,即超過(guò)閾值范圍,則這個(gè)字串不是一個(gè)詞。最后剩下的能構(gòu)成的詞語(yǔ)集合中,仍需要比對(duì)情感詞典中的詞語(yǔ),若該詞在已有的詞典中找不到,即成為新詞。

        2.3.2新詞情感分析與PMI算法改進(jìn)

        通過(guò)以上方法能識(shí)別并挖掘出新詞,但是對(duì)這些詞的情感極性還需要繼續(xù)識(shí)別,從而構(gòu)建出一個(gè)微博特定領(lǐng)域的情感詞典。首先根據(jù)以上方法識(shí)別出新詞,按照詞頻進(jìn)行統(tǒng)計(jì)并排序,按照從上到下的方式來(lái)篩選,篩選出情感極性較強(qiáng)而且詞頻比較高的詞語(yǔ)作為種子詞。然后對(duì)這些詞的情感極性作出判斷,緊接著利用PMI算法計(jì)算其他未知詞與它們之間的語(yǔ)義相似度,最后計(jì)算未知新詞的情感極性,方法如下:

        點(diǎn)互信息主要是可以計(jì)算詞與詞之間的相似度。兩個(gè)詞w1和w2之間的相似度計(jì)算公式為:

        (1)

        式中:P(w1,w2)表示w1、w2共同出現(xiàn)的概率,p(w1)、p(w2)分別表示w1、w2單獨(dú)出現(xiàn)的概率。

        w1表示未知詞,w2表示種子詞,若式(1)的計(jì)算結(jié)果較大即相似度高,則可知兩個(gè)詞情感極性相同,否則就不同。但僅僅計(jì)算一對(duì)詞的語(yǔ)義相似度在微博情感分析中不具有說(shuō)服力,所以本文在考慮這個(gè)的基礎(chǔ)上,在詞閾的范圍內(nèi)選取了30對(duì)正負(fù)面情感極性的種子詞,同時(shí)考慮到使用頻率高的表情元素,選取了5對(duì)正負(fù)面情感極性表情符號(hào)作為種子詞,一起構(gòu)成正面的情感詞集合WP和負(fù)面情感詞集合WN,用來(lái)考察多詞之間的語(yǔ)義相似度。同時(shí)對(duì)PMI公式進(jìn)行改進(jìn),得出新詞w的情感極性判斷的新公式:

        (2)

        式(2)的值如果大于0,則新詞w的情感極性為正面;等于0,新詞w的情感極性為中性;小于0,新詞w的情感極性為負(fù)面。

        最后一起構(gòu)建成微博特定領(lǐng)域的情感詞典,本文識(shí)別并挖掘出2018年微博新詞共計(jì)164個(gè),將這些詞分為4個(gè)級(jí)別,并賦予一定權(quán)值,示例如表6所示。

        表6 微博新詞詞典示例

        3 微博文本規(guī)則集的情感分析

        微博文本也是普通文本,都是由漢字等其他元素構(gòu)成的表達(dá)文本,而文本之間肯定存在著一些語(yǔ)法關(guān)系和語(yǔ)義規(guī)則,它們對(duì)文本的情感分析也有一定作用。

        3.1 句間分析規(guī)則

        一條微博文本可以通過(guò)標(biāo)點(diǎn)符號(hào)劃分成若干個(gè)復(fù)句,一條復(fù)句可以分成若干個(gè)分句,句間分析規(guī)則就是考慮分句與分句之間的關(guān)系,而句間關(guān)系主要有三類:轉(zhuǎn)折、遞進(jìn)、假設(shè)。這里用S表示整個(gè)復(fù)句,Si表示復(fù)句的各個(gè)分句。定義集合{S1,S2,…,Si}為復(fù)句的分句集合,Ri表示句間規(guī)則對(duì)分句Si的情感權(quán)值。

        3.1.1轉(zhuǎn)折關(guān)系規(guī)則

        轉(zhuǎn)折關(guān)系中,基本都會(huì)實(shí)現(xiàn)前后的情感翻轉(zhuǎn)作用,轉(zhuǎn)折之前的分句情感會(huì)變?nèi)?,而主要突出后面分句的情感,后面分句與前面分句的情感極性相反。規(guī)則定義如下:

        1) 若復(fù)句S中只有單一的轉(zhuǎn)折后接詞出現(xiàn)(如“但”,“可是”,“卻”等)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為0,Si之后的分句權(quán)值Ri都設(shè)為1。

        2) 若復(fù)句S中只有單一的轉(zhuǎn)折前接詞出現(xiàn)(如“雖然”,“如”,“盡管”等)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為1,Si之后的分句權(quán)值Ri都設(shè)為0。

        3) 若復(fù)句S中出現(xiàn)成對(duì)的轉(zhuǎn)折連接詞(如“雖然…但是…”等),且轉(zhuǎn)折后接詞出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為0,Si之后的分句權(quán)值都Ri設(shè)為1。

        3.1.2遞進(jìn)關(guān)系規(guī)則

        遞進(jìn)關(guān)系,顧名思義,在這個(gè)關(guān)系規(guī)則中,復(fù)句的每個(gè)分句根據(jù)從前到后的順序逐漸增強(qiáng)情感。規(guī)則定義如下:

        若復(fù)句S中出現(xiàn)遞進(jìn)關(guān)系的連接詞(如“更”,“更加”,“更重要的是”等),則分句的權(quán)值為:

        Ri=1Ri+1=1.5 …Rj=1+0.5×(j-i)

        3.1.3假設(shè)關(guān)系規(guī)則

        假設(shè)關(guān)系建立在現(xiàn)實(shí)情況中的一種設(shè)想,它表達(dá)的情感主要在假設(shè)復(fù)句的前半分句,而對(duì)后半分句的情感相對(duì)弱化一些。比如:如果A,那么B。則句子強(qiáng)調(diào)的是內(nèi)容A。

        1) 若復(fù)句S中未出現(xiàn)否定的假設(shè)連接詞,但是出現(xiàn)假設(shè)關(guān)系的后接詞(如“那么”),且假設(shè)后接詞出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為1,Si之后的分句權(quán)值Ri都設(shè)為0.5。

        2) 若復(fù)句S中出現(xiàn)否定的假設(shè)連接詞,而且假設(shè)后接詞(如“那么”)出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為-1,Si之后的分句權(quán)值Ri都設(shè)為-0.5。

        上面描述的這三種句間關(guān)系都能影響到整個(gè)微博文本的情感極性,所以情感分析中要考慮到它們。至于其他的句間關(guān)系如因果、并列等,對(duì)情感分析的影響可以忽略不計(jì)。

        3.2 句型分析規(guī)則

        上一節(jié)所說(shuō)的是復(fù)句的分句之間的關(guān)系,這一節(jié)說(shuō)明的是復(fù)句的句型對(duì)整個(gè)文本的情感極性的影響。本文主要討論陳述句、疑問(wèn)句、反問(wèn)句和感嘆句這四類常見句型。它們常以“?”、“!”、“?!钡葮?biāo)點(diǎn)符號(hào)結(jié)尾。一個(gè)文本用D來(lái)表示,則文本分割成各個(gè)分句即復(fù)句,用集合定義為{D1,D2,…,Di,…,Dn}。復(fù)句用Di來(lái)表示,定義Ti為句型規(guī)則對(duì)復(fù)句Di的情感權(quán)值。具體的規(guī)則定義如下:

        1) 如果微博文本中有復(fù)句Di以感嘆號(hào)“!”結(jié)尾,則表示此復(fù)句為感嘆句,它的權(quán)值Ti設(shè)為1.5。

        2) 如果微博文本中有復(fù)句Di以反問(wèn)號(hào)“?”結(jié)尾且結(jié)尾處有反問(wèn)標(biāo)志詞或者沒有以反問(wèn)號(hào)“?”結(jié)尾但有反問(wèn)標(biāo)志詞,則表示此復(fù)句為反問(wèn)句,它的權(quán)值Ti設(shè)為-1。

        3) 如果微博文本中有復(fù)句Di以反問(wèn)號(hào)“?”結(jié)尾且結(jié)尾處無(wú)反問(wèn)標(biāo)志詞,則表示此復(fù)句為疑問(wèn)句,它的權(quán)值Ti設(shè)為0。

        4) 如果微博文本中有復(fù)句Di以句號(hào)“。”等其他標(biāo)點(diǎn)符號(hào)結(jié)尾,則表示此復(fù)句為陳述句,它的權(quán)值Ti設(shè)為1。

        4 微博綜合情感計(jì)算

        本文基于多部情感詞典和規(guī)則集的微博情感分析,對(duì)微博從詞到句進(jìn)行整體綜合情感計(jì)算。用D表示整個(gè)文本,文本中各個(gè)復(fù)句用Di表示;S對(duì)應(yīng)一個(gè)復(fù)句Si表示復(fù)句中的各個(gè)分句;E表示情感權(quán)值,Ri表示分句的句間關(guān)系規(guī)則情感權(quán)值,Ti表示復(fù)句的句型關(guān)系規(guī)則情感權(quán)值,seni表示詞典匹配得到的權(quán)值。

        1) 詞語(yǔ)情感值E(Wi)計(jì)算公式為:

        E(Wi)=N×A×seni

        (3)

        式中:N表示情感詞前對(duì)應(yīng)的否定詞或者雙重否定詞,A表示情感詞前對(duì)應(yīng)的程度副詞,seni表示情感詞與詞典匹配得到的權(quán)值,Wi表示情感詞語(yǔ)。

        詞語(yǔ)的情感權(quán)值計(jì)算不僅與它自身的權(quán)值有關(guān),還與在其前面修飾的程度副詞、否定詞有關(guān),所以在情感權(quán)值計(jì)算時(shí)要將它們考慮進(jìn)去。

        2) 分句情感值E(Si)計(jì)算公式為:

        (4)

        3) 復(fù)句情感值E(Di)計(jì)算公式為:

        (5)

        4) 文本情感值E的計(jì)算公式為:

        (6)

        5) 表情情感值Em計(jì)算公式為:

        (7)

        6) 微博情感值Elast計(jì)算公式為:

        Elast=m×E+n×Em

        (8)

        式(8)表示微博的最終情感值計(jì)算,m和n表示文本情感值和表情情感值在微博情感權(quán)值計(jì)算中所占分量的大小,本文根據(jù)文獻(xiàn)[9]中分析分別設(shè)置為0.6和0.4,計(jì)算得出Elast的大小。如果Elast大于0,則表示此微博的情感傾向?yàn)檎娴?,如果Elast小于0,則表示此微博的情感傾向?yàn)樨?fù)面的,如果Elast等于0,則表示此微博情感為中性的。

        5 微博情感分析實(shí)驗(yàn)

        5.1 實(shí)驗(yàn)方法

        首先通過(guò)爬蟲工具爬取了微博上兩個(gè)相關(guān)的微博話題,然后對(duì)這些數(shù)據(jù)進(jìn)行情感分析,具體的實(shí)驗(yàn)步驟如下:

        1) 獲取實(shí)驗(yàn)數(shù)據(jù)。利用爬蟲軟件爬取微博上比較兩個(gè)熱門話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會(huì)熱議#”的文本數(shù)據(jù)。

        2) 情感極性的人工標(biāo)注。獲取數(shù)據(jù)的情感極性沒有進(jìn)行標(biāo)注,采用人工方法對(duì)這兩個(gè)話題進(jìn)行標(biāo)注。人工標(biāo)注主要是通過(guò)統(tǒng)計(jì)抽取隨機(jī)選擇三名實(shí)驗(yàn)同學(xué)對(duì)這兩個(gè)話題進(jìn)行主觀判斷,標(biāo)注情感極性,最后統(tǒng)計(jì)結(jié)果。

        3) 預(yù)處理。根據(jù)上述對(duì)應(yīng)的方法構(gòu)建六部情感詞典。

        4) 話題情感分析。分別在一部基礎(chǔ)情感詞典、六部情感詞典和基于六部情感詞典與規(guī)則集的基礎(chǔ)之上對(duì)這兩個(gè)話題進(jìn)行三組實(shí)驗(yàn),得出微博的情感分析結(jié)果。

        5.2 實(shí)驗(yàn)數(shù)據(jù)

        本文通過(guò)爬蟲軟件爬取到關(guān)于兩個(gè)微博話題的數(shù)據(jù)集,接著利用人工標(biāo)注的方法,將這些文本進(jìn)行情感極性標(biāo)注,給出每條微博的情感權(quán)值并進(jìn)行分類。共篩選出話題“#短視頻整頓#”共計(jì)25 720條,其中正面數(shù)據(jù)18 634條,負(fù)面數(shù)據(jù)1 385條,中性數(shù)據(jù)5 701條;話題“#《我不是藥神》爆紅引社會(huì)熱議#”共計(jì)17 695條,其中正面數(shù)據(jù)10 672條,負(fù)面數(shù)據(jù)2 856條,中性數(shù)據(jù)4 167條。判斷標(biāo)準(zhǔn)是:微博情感權(quán)值大于0為正面,小于0為負(fù)面,等于0為中性。從篩選結(jié)果可知正面微博數(shù)據(jù)所占比例較大,負(fù)面微博數(shù)據(jù)和中性微博數(shù)據(jù)所占比例較小,且數(shù)據(jù)較少。

        5.3 實(shí)驗(yàn)性能評(píng)估指標(biāo)

        本實(shí)驗(yàn)根據(jù)本文提出的微博情感分析方法對(duì)每一條微博文本進(jìn)行情感分析,然后將在此方法下自動(dòng)分析得出的結(jié)果與我們?nèi)斯し诸惖贸龅慕Y(jié)果進(jìn)行比對(duì),看情感分析的效果如何。采用以下三個(gè)指標(biāo)進(jìn)行分析,分別是正確率P、召回率R和綜合度量F指標(biāo)值,具體公式如下:

        (9)

        (10)

        (11)

        5.4 實(shí)驗(yàn)分析與結(jié)果

        為了驗(yàn)證本文提出的方法具有更好的作用,還另外做了只基于一部情感詞典和只基于六部情感詞典的實(shí)驗(yàn)。將本文提出的方法實(shí)驗(yàn)結(jié)果與這兩種方法得出的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,利用性能評(píng)估指標(biāo)對(duì)結(jié)果進(jìn)行分析。

        對(duì)兩個(gè)話題分別做如下三組實(shí)驗(yàn):

        第一組實(shí)驗(yàn):分別對(duì)話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會(huì)熱議#”采用基于一部基礎(chǔ)情感詞典的微博情感分析,并進(jìn)行微博分類。

        第二組實(shí)驗(yàn):分別對(duì)話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會(huì)熱議#”采用基于六部基礎(chǔ)情感詞典的微博情感分析,并進(jìn)行微博分類。

        第三組實(shí)驗(yàn):分別對(duì)話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會(huì)熱議#”采用基于六部基礎(chǔ)情感詞典和規(guī)則集的微博情感分析,并進(jìn)行微博分類。

        實(shí)驗(yàn)結(jié)果如表7和表8所示。

        表7 #短視頻整頓#實(shí)驗(yàn)結(jié)果

        表8 #《我不是藥神》爆紅引社會(huì)熱議# 實(shí)驗(yàn)結(jié)果

        通過(guò)表7和表8的數(shù)據(jù),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行如下分析:

        1) 實(shí)驗(yàn)結(jié)果表明本文提出的方法提高了微博的情感分析的正確率。若只單純靠一部基礎(chǔ)情感詞典,那么正確率是較低的,因?yàn)槲⒉┑奶厥獾奈谋景撕芏嗥胀ㄎ谋静痪哂械奶匦?,所以要在原?lái)的基礎(chǔ)上擴(kuò)建多部情感詞典,提高詞典的覆蓋面,同時(shí)將文本語(yǔ)義規(guī)則集考慮進(jìn)去,更有利于微博的情感分析。

        2) 通過(guò)兩個(gè)話題的實(shí)驗(yàn)結(jié)果可以看出,話題“#短視頻整頓#”的正確率高于話題“#《我不是藥神》爆紅引發(fā)社會(huì)熱議#”的正確率。這是因?yàn)榍罢咚@取的正面數(shù)據(jù)居多,而且對(duì)后者話題中一些判斷失誤的微博文本進(jìn)行分析發(fā)現(xiàn)這是一部關(guān)于電影反諷刺的話題,有網(wǎng)友發(fā)表微博就使用了一些反諷刺的表達(dá)。比如“電影中的藥商真的好棒啊,竟然可以把藥賣給病人,真的是好樣的!”,這其中“好棒”“好樣”都是正面情感詞,但實(shí)際上是起到諷刺作用,是負(fù)面的微博,因此在后續(xù)對(duì)微博的情感分析中還可以繼續(xù)對(duì)語(yǔ)義規(guī)則進(jìn)行完善分析。

        3) 通過(guò)表格中數(shù)據(jù)發(fā)現(xiàn)正確率和F值都是正面微博偏高,通過(guò)微博分析得知是由于正面、負(fù)面、中性數(shù)據(jù)分布不平衡造成的,因?yàn)檫@兩個(gè)微博都是社會(huì)熱點(diǎn)話題,眾多網(wǎng)友持支持態(tài)度。

        4) 通過(guò)對(duì)比F值可以發(fā)現(xiàn)在引入六部情感詞典之后,F(xiàn)值相對(duì)于一部情感詞典下有很大提高,這是因?yàn)樵诹壳楦性~典下,匹配微博文本的面更廣,尤其加入了微博特定領(lǐng)域的情感詞典,而且在加入規(guī)則集以后,F(xiàn)值又有了一定的提升。雖然F值總體上提高了,但還可以繼續(xù)提高,因?yàn)閷?shí)驗(yàn)預(yù)處理過(guò)程中有個(gè)分詞過(guò)程,還有語(yǔ)義規(guī)則的分析過(guò)程,這兩個(gè)過(guò)程的優(yōu)劣程度都會(huì)影響最后結(jié)果。當(dāng)然還有一些其他因素,比如一詞多義現(xiàn)象等。

        實(shí)驗(yàn)表明,本文提出的方法利用多部情感詞典,并考慮文本語(yǔ)義規(guī)則集,對(duì)微博的情感分析效果有明顯的提升,且在三個(gè)指標(biāo)下,都驗(yàn)證了此方法對(duì)微博情感分析有效果。

        6 結(jié) 語(yǔ)

        基于詞典的情感分析是已有的研究方法,本文在基于詞典的基礎(chǔ)上,構(gòu)建了除基礎(chǔ)情感詞典之外的其他五部詞典,這些詞典范圍更廣,其中微博特定領(lǐng)域的情感詞典構(gòu)造至關(guān)重要,未來(lái)還需要繼續(xù)不斷完善這部詞典。最后在六部詞典的基礎(chǔ)上,考慮文本之間的語(yǔ)義規(guī)則,因此提出一種基于多部情感詞典和規(guī)則集的中文微博情感分析方法,通過(guò)實(shí)驗(yàn)驗(yàn)證了此方法具有很好的作用。

        微博的情感分析研究還有很多可以改進(jìn)之處,比如要考慮微博的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和閱讀數(shù)等。我們將繼續(xù)改進(jìn)方法,力爭(zhēng)使中文微博情感分析更上一個(gè)臺(tái)階。

        猜你喜歡
        復(fù)句博文新詞
        連動(dòng)結(jié)構(gòu)“VP1來(lái)VP2”的復(fù)句化及新興小句連接詞“來(lái)”的形成
        第一次掙錢
        漢語(yǔ)復(fù)句學(xué)說(shuō)的源流
        韓國(guó)語(yǔ)復(fù)句結(jié)構(gòu)的二分說(shuō)
        《微群新詞》選刊之十四
        誰(shuí)和誰(shuí)好
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        打電話2
        復(fù)句內(nèi)部不應(yīng)當(dāng)用句號(hào)
        小議網(wǎng)絡(luò)新詞“周邊”
        亚洲免费视频一区二区三区| 女人扒开屁股爽桶30分钟| 国产微拍精品一区二区| 最新在线观看精品国产福利片| 亚洲免费一区二区av| 精品无码人妻夜人多侵犯18| 亚洲国产精品成人无码区| 中文字幕永久免费观看| 青青草成人免费播放视频| 亚洲av丰满熟妇在线播放| 99久久er这里只有精品18| 久久精品免视看国产盗摄| 男人一插就想射的原因| 日本成本人片视频免费| 中文无码制服丝袜人妻av| 麻豆人妻无码性色AV专区| 青青久在线视频免费视频| 亚洲精品tv久久久久久久久久| 人人妻人人澡人人爽精品欧美| 91久久精品国产性色tv| 中文字幕漂亮人妻在线| 亚洲日韩国产精品乱-久| 国产精品27页| 久久久精品国产老熟女| 国产精品办公室沙发| 欧美白人最猛性xxxxx| 精品丝袜一区二区三区性色| 中文字幕漂亮人妻在线| 亚洲国产日韩欧美一区二区三区 | 日本高清一区二区三区在线| 国产日产欧产精品精品蜜芽| 亚洲精品国偷自产在线99正片| 日韩无码尤物视频| 久久伊人精品中文字幕有尤物| 美女av一区二区三区| av色综合网站| 白白色免费视频一区二区在线| 亚洲日韩av一区二区三区中文| 欧美自拍丝袜亚洲| 国产午夜视频高清在线观看| 欧美熟妇另类久久久久久不卡|