劉正,黃震華(同濟(jì)大學(xué)電子與信息工程學(xué)院,上?!?01804)
?
基于多項(xiàng)式貝葉斯分類模型的短文本多情感傾向分析及實(shí)現(xiàn)
劉正,黃震華
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海201804)
摘要:
關(guān)鍵詞:
文本情感分析一直是機(jī)器擬人交流的一個(gè)重點(diǎn)研究課題之一,隨著互聯(lián)網(wǎng)的普及,人們已經(jīng)習(xí)慣于利用智能終端設(shè)備發(fā)表各種言論和記錄生活所見(jiàn)所聞、情感狀況等,通過(guò)對(duì)文字進(jìn)行情感分析可以獲得其文本中潛在的情感傾向。
以往的情感建模的研究基本主要都是針對(duì)情感的正負(fù)向極性的情感建模研究,實(shí)際人機(jī)交流過(guò)程中,正負(fù)情感的辨別并不能很好地說(shuō)明人們所想表達(dá)的深層含義。
基于SVM、KNN等方法進(jìn)行二項(xiàng)性建模分析是通常學(xué)術(shù)界工業(yè)界的分析方法,在這幾年的研究發(fā)展過(guò)程中,已經(jīng)取得了不錯(cuò)的成績(jī)了。
但人的情感是具有豐富性、多樣性等特點(diǎn)的,二項(xiàng)性分析僅僅在文本情感分析中起著分析先鋒的作用,在實(shí)際生產(chǎn)中應(yīng)用較為局限。
為了使計(jì)算機(jī)能更好地和人溝通交流,本文主要針對(duì)短文本的多情感傾向性進(jìn)行建模分析。
本文以貝葉斯理論為基礎(chǔ),提出了基于貝葉斯的多情感模型。
1.1貝葉斯分類算法
根據(jù)貝葉斯理論,貝葉斯文本分類算法是一個(gè)經(jīng)典的文本分類算法,其在預(yù)測(cè)一個(gè)未知類別的可能屬性中有著較為詳細(xì)的理論和實(shí)踐基礎(chǔ)。通常我們要求在事件B發(fā)生的條件下事件A發(fā)生的概率時(shí),可以通過(guò)條件概率推導(dǎo)出:
讓其一般化我們可以得到,其中集合{Ai}表示事件集合里的部分集合:
針對(duì)文本分類主要存在著三種不同的貝葉斯模型:高斯模型、多變量的伯努利模型和多項(xiàng)式模型,根據(jù)以往的學(xué)者的研究經(jīng)驗(yàn),本文選取了后者,即多項(xiàng)式模型進(jìn)行實(shí)驗(yàn)。
該多項(xiàng)式貝葉斯分類模型算法的通用公式如下式:
其中Nki是wk類別ci的所有文檔中出現(xiàn)的總次數(shù),|V|是訓(xùn)練數(shù)據(jù)集的總單詞數(shù)。
1.2文本狀態(tài)空間
一般而言,在情感分析領(lǐng)域,文本的情感分析中,字詞往往帶有情感權(quán)重,情感詞的權(quán)重往往會(huì)影響整體詞匯的情感傾向辨別,例如:“很高興”和“很不高興”,這兩個(gè)短語(yǔ)中,“很”字加強(qiáng)了情感權(quán)重,而“不”字將情感極性進(jìn)行了反轉(zhuǎn),故而詞向量的表示關(guān)系到了最終情感分析的結(jié)果。
本文通過(guò)對(duì)短文本分詞,構(gòu)建文本結(jié)構(gòu)化向量,即文本的狀態(tài)空間來(lái)描述文本事實(shí),將其定義為一組有序集合[q0,q1,…,qr]T,其中每個(gè)元素qi(i=0,1,…,r)為狀態(tài)分變量。
狀態(tài)關(guān)系是用來(lái)定義狀態(tài)之間存在的某種過(guò)程性函數(shù)組f0,f1,…,ft,式中每個(gè)元素fi(i=0,1,…,t)為轉(zhuǎn)換過(guò)程的分函數(shù)。
則這里可將文本結(jié)構(gòu)化為一個(gè)狀態(tài)關(guān)系圖,該關(guān)系圖可以由一個(gè)二元組(S,O)所構(gòu)成的有向圖表示,其中:
S為所有“詞”的狀態(tài)空間集合S0,S1,…,Sn,其中Si=[q0,q1,…,qr]T
O為所有狀態(tài)關(guān)系過(guò)程性函數(shù)組的集合O0,O1,…,Ok,其中Oi= f0,f1,…,ft,如圖1所示:
圖1 狀態(tài)空間示例圖
從示例圖中,可以看出S0與S1,S2,S3存在著O0,O1,O2的狀態(tài)關(guān)系,S2與S1,S4存在著狀態(tài)關(guān)系,等等,在此種狀態(tài)空間表示的情況下,通過(guò)計(jì)算詞與詞之間的狀態(tài)關(guān)系,得到狀態(tài)空間表示圖。
根據(jù)文獻(xiàn)[1],本文將詞與詞之間的依存關(guān)系窗口定義為前后三個(gè)窗格,列如圖1中,S4就與S1,S2,S3存在著關(guān)系,但是關(guān)系圖中O4的影響則應(yīng)該是比較小的。
結(jié)合上節(jié)的多項(xiàng)式貝葉斯算法,其實(shí)
通過(guò)求解狀態(tài)空間最終獲得各個(gè)參數(shù)向量的綜合評(píng)定結(jié)果。
1.3程序算法
多項(xiàng)式貝葉斯分類模型的訓(xùn)練算法如下所示:
1 //C,類別集合,D,用于訓(xùn)練的文本文件集合
2 TrainMultinomialNB(C,D):
3//統(tǒng)計(jì)訓(xùn)練樣本包含多少種單詞
4V←ExtractVocabulary(D)
5//類ci下單詞wik在訓(xùn)練的文本文件集合中出現(xiàn)過(guò)的次數(shù)之和
6N←CountTokens(D)
7for c in C
8//計(jì)算類別ci下的單詞總數(shù)
9Nc←CountTokensInClass(D,c)
10prior[c]←Nc/N
11 //將類別ci下的文檔連接成一個(gè)大字符串
12textc←ConcatenateTextOfAllDocsInClass(D,c)
13for t in V
14 //計(jì)算類ci下單詞wi的出現(xiàn)次數(shù)
15ct←CountTokensOfTerm(textc,t)
16for t in V
17//計(jì)算P(wi|ci)
18condprob[t][c]←(Tct + 1)/(Sum(Tct)+ |V|)
19
return V,prior,condprob
狀態(tài)空間的帶權(quán)圖搜索算法的實(shí)現(xiàn)本文參考文獻(xiàn)[3]進(jìn)行修改實(shí)現(xiàn)。
1.4訓(xùn)練源數(shù)據(jù)
本文利用大連理工大學(xué)信息檢索研究室所做的標(biāo)記的情感詞匯本體庫(kù)作為訓(xùn)練樣本數(shù)據(jù),數(shù)據(jù)文本示例如下表所示。
情感強(qiáng)度分為1,3,5,7,9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小。
該本體庫(kù)有21種情感分類,如表所示:
表1 情感詞匯本體庫(kù)示例
表2 情感詞匯本體庫(kù)情感分類表
經(jīng)統(tǒng)計(jì)分析發(fā)現(xiàn)妒忌(NK)的詞匯過(guò)于稀少,其所占的概率權(quán)重極低,考慮到訓(xùn)練結(jié)果的合理性,本文不對(duì)該種情感特種做訓(xùn)練。
本實(shí)驗(yàn)挑取了兩條微博做結(jié)果展示,所有結(jié)果都經(jīng)過(guò)歸一化處理了,情感值在區(qū)間之間,值越大表示情感程度越強(qiáng)烈:
微博一[4]:為啥公共場(chǎng)合女生不能蹲一下?犯法了嗎?影響他人了嗎?既然沒(méi)有,那累了為啥不能蹲一下?蹲著也很好看啊,人家蹲一下都要被拍照發(fā)微博受批判指責(zé)人家沒(méi)教養(yǎng),瘋了吧?沒(méi)經(jīng)女生同意就拍人家發(fā)微博才沒(méi)教養(yǎng)好吧,這點(diǎn)事都要批判,智障。
圖2 微博一的情感結(jié)果展示
表3 微博一的情感結(jié)果
通過(guò)結(jié)果可以看出該條微博所主要隱含的三大類情感是失望、憤怒、羞。通過(guò)自然人對(duì)文字的理解大致也可以判斷出這三大類感情要素。
微博二[5]:【人生感悟】人生最悲哀的事情,就是你發(fā)現(xiàn)曾經(jīng)一路上,和你一起的人,漸漸地就離你遠(yuǎn)去了。也許是因?yàn)榻Y(jié)婚生子,也許是因?yàn)閯诶鄄豢柏?fù)荷,也許是因?yàn)槔硐霛u異,也許是因?yàn)榉茨砍沙?。但是你還是要繼續(xù)孤獨(dú)地走下去。在你想要放棄的那一刻,想想為什么當(dāng)初堅(jiān)持走到了這里。[春暖花開(kāi)]
通過(guò)對(duì)該條微博文本的計(jì)算,主要包含的三大類情感要素為:贊揚(yáng)、相信、快樂(lè),這和人的理解大致吻合。
本文給出了多情感分析的一種實(shí)現(xiàn)方法,該算法結(jié)合多項(xiàng)式貝葉斯分類模型算法和文本狀態(tài)空間模型,對(duì)文本多情感分析做了研究,具有一定的實(shí)際意義。通過(guò)對(duì)文本數(shù)據(jù)的訓(xùn)練研究,使得計(jì)算結(jié)果更貼切于人的理解,遺憾的是現(xiàn)階段對(duì)文本情感領(lǐng)域的研究基本停留在二項(xiàng)分析,沒(méi)有過(guò)多的算法研究可以對(duì)比。
圖3 微博二的情感展示圖
表4 微博二的情感結(jié)果
參考文獻(xiàn):
[1]趙軍,黃昌寧.漢語(yǔ)基本名詞短語(yǔ)結(jié)構(gòu)分析模型.計(jì)算機(jī)學(xué)報(bào),1999,22(2):141-146.
[2]維基百科.隱馬爾可夫模型[EB/OL].[2015-03-08].https://zh.wikipedia.org/wiki/隱馬爾可夫模型.
[3]衷路生,宋執(zhí)環(huán).局部加權(quán)組合狀態(tài)空間系統(tǒng)正交梯度辨識(shí)[J].控制與決策,2008,23(8):879-882,887.DOI:10.3321/j.issn:1001-0920.2008.08.007.
[4]http://weibo.com/1220291284/DjMMOB6ca
[5]http://weibo.com/1879549382/Dls8SiDlO
Analysis and Simulation of Multi-Emotion in Short Text Based on Bayes Multinomial Model
LIU Zheng,HUANG Zhen-hua
(School of Electronics and Information,Tongji University,Shanghai 201804)
Abstract:
Nowadays,text sentiment classification is mainly for text sentiment propensity analysis,positive and negative emotion classification.Studies the text short text in the field of multi-sentiment analysis work,through the establishment of a multinomial model of Bayes classifier and the state-space representation,to build and train the entire model.Experimental results show that emotional text classification has certain rationality in actual results,analysis results can be obtained through a variety of emotional analysis algorithm.
Keywords:
目前文本情感分類主要是針對(duì)文本情感的傾向性分析,主要研究正負(fù)情感的分類。主要研究短文本領(lǐng)域的文本多情感分析工作,通過(guò)建立多項(xiàng)式貝葉斯分類模型以及結(jié)合狀態(tài)空間,構(gòu)建并訓(xùn)練整個(gè)分析模型。實(shí)驗(yàn)結(jié)果表明,文本的情感分類在實(shí)際結(jié)果中具有一定的合理性,可以通過(guò)算法的分析得出多種情感的分析結(jié)果。
多項(xiàng)式貝葉斯分類模型;狀態(tài)空間模型;多情感分析
基金項(xiàng)目:
國(guó)家自然科學(xué)基金(No.71171148)
文章編號(hào):1007-1423(2016)14-0039-05
DOI:10.3969/j.issn.1007-1423.2016.14.008
作者簡(jiǎn)介:
劉正(1990-),男,浙江湖州人,碩士研究生,研究方向?yàn)槲谋緮?shù)據(jù)挖掘分析
黃震華(1980-),男,上海人,博士,副教授,研究方向?yàn)樾畔z索、不確定數(shù)據(jù)處理、數(shù)據(jù)挖掘
收稿日期:2016-03-21修稿日期:2016-04-30
Bayes Multinomial Model;State-Space Representation;Multi-Emotion Analysis