宋芷萱
(沈陽師范大學(xué)教育技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)系,沈陽 110034)
博客評(píng)論的情感傾向性分析
宋芷萱
(沈陽師范大學(xué)教育技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)系,沈陽 110034)
現(xiàn)如今,隨著網(wǎng)絡(luò)的快速發(fā)展,博客逐漸成為一種流行趨勢(shì),人們通過博客來進(jìn)行交流,那如何來對(duì)博客評(píng)論進(jìn)行情感傾向性分析就成為首要解決的問題。博客評(píng)論的內(nèi)容簡(jiǎn)短而且有一定的格式,顯然不能用傳統(tǒng)的分類方法進(jìn)行分類,因此,以對(duì)候選人A的個(gè)人博客為例,選擇用支持向量機(jī)和樸素貝葉斯分類器來進(jìn)行文本分類,再遵循信息檢索的查準(zhǔn)率、查全率和精確度這些指標(biāo)來評(píng)估文本分類和情感分析。
博客評(píng)論;文本情感分析;支持向量機(jī);樸素貝葉斯
博客,也被稱為網(wǎng)絡(luò)日志,是一種在網(wǎng)絡(luò)上發(fā)布個(gè)人信息的一種形式。從個(gè)人角度來說,博客是一種表達(dá)個(gè)人思想,以及與他人分享有價(jià)值的資源和知識(shí)的一種方式。隨著博客用戶量的俱增,越來越多的用戶不再面對(duì)面的交流,而是通過博客來進(jìn)行廣泛的交流以及知識(shí)的共享。
文本分類已經(jīng)成為許多數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用領(lǐng)域,尤其是,從社會(huì)網(wǎng)絡(luò)、微博、博客或?qū)I(yè)網(wǎng)絡(luò)等社交媒體服務(wù)中提取數(shù)據(jù)[1]。參與者利用這些服務(wù)來分享自己的觀點(diǎn)、與親友聯(lián)系、保持自己的專業(yè)素養(yǎng)或者追蹤相關(guān)新聞以及熱門話題。文本情感分析[2]又稱為意見挖掘,是以包含主觀情感和作者觀點(diǎn)的文本作為研究對(duì)象,通過識(shí)別這些文本的主觀性句子或詞語,來對(duì)這些文本進(jìn)行傾向性分析的問題。
本文對(duì)博客評(píng)論的情感傾向性作了系統(tǒng)的研究,重點(diǎn)討論博客評(píng)論的分析算法。
從網(wǎng)頁上收集到的內(nèi)容較比傳統(tǒng)的文本欠缺的是:形式不規(guī)范,雜亂無章,文本長(zhǎng)度較短;內(nèi)容密集,其中包含許多網(wǎng)絡(luò)用語、錯(cuò)別字、超鏈接等,這些都會(huì)影響博客評(píng)論分析的準(zhǔn)確性。因此,進(jìn)行情感傾向性分析之前,需要經(jīng)過一系列的文本預(yù)處理。
要對(duì)博客評(píng)論進(jìn)行情感傾向性分析,首先,需要通過一系列訓(xùn)練得到一個(gè)分類器[3],這個(gè)分類器通過訓(xùn)練預(yù)料的學(xué)習(xí),能夠找出該類文本的特征,并通過這些特征來進(jìn)行傾向性的判斷,最終,將該待分類的博客評(píng)論分成褒義和貶義兩類。在進(jìn)行預(yù)處理的時(shí)候,要注意停止詞、數(shù)字、符號(hào)、空格以及英文字母大小寫的處理。Baeza-Yates和Ribeiro-Neto[4]提出,信息和字詞可共同通過字詞-信息矩陣體現(xiàn)出來,C={x1,…,xn}和m維字詞T={t1,…,tn}為例,在這個(gè)矩陣中,每一列代表一個(gè)信息,與每列信息相對(duì)應(yīng)的每一行代表一個(gè)字詞,項(xiàng)(i,j)是在信息xj上字詞ti頻繁項(xiàng)集,下面是一個(gè)n維信息和m維字詞的字詞-信息矩陣。如表1:
表1
由于字詞T序列符合字詞詞典,因此,我們能夠把每一列看作Rm與相對(duì)于的m維信息,可以使用不同的學(xué)習(xí)方法一句信息的向量表示法來執(zhí)行。
我們?nèi)祟惤?jīng)過系統(tǒng)的學(xué)習(xí),可以通過自己的理解來辨別出一句話、一段話,是褒義還是貶義的,那如何能讓計(jì)算機(jī)自主的進(jìn)行文本情感分析呢?本文采用的是把文本信息轉(zhuǎn)變成計(jì)算機(jī)能夠識(shí)別的向量,和使用兩種對(duì)文本內(nèi)容進(jìn)行情感分析較為準(zhǔn)確的方法:支持向量機(jī)和樸素貝葉斯。
過去的二十年中,支持向量機(jī)技術(shù)較于其他算法能夠更好的應(yīng)用于數(shù)據(jù)分析問題。本文主要介紹支持向量機(jī)的兩類分類版本,其中,兩類分類版本中類通常被定義為{+1,-1}及其主要特征。支持向量機(jī)算法是幾何方法[5],這些方法允許通過解決形式的優(yōu)化問題來構(gòu)建分類函數(shù)[6]。
對(duì)于SVM分類的情況,損失函數(shù)通常被定義為:
L(yi,f(xi))=max(1-yi*,f(xi),0)
如此定義損失函數(shù),就是為了找到一個(gè)平滑函數(shù)f*(x)屬于HK來解決上述的優(yōu)化問題。因此,屬于HK的平滑函數(shù),有如下形式:
其中,K(x,y)=(x)T(y)是產(chǎn)生HK的核函數(shù)。這樣,f*(x)在幾何上是把數(shù)據(jù)從“輸入空間”映射到“特征空間”。
樸素貝葉斯算法是建立在貝葉斯定理和假設(shè)特征條件獨(dú)立之上的一種應(yīng)用非常廣泛的文本自動(dòng)分類方法[7],算法簡(jiǎn)單、穩(wěn)定、且在假定特征條件獨(dú)立的情況下,準(zhǔn)確率很高。
使用樸素貝葉斯進(jìn)行分類過程可以分為三個(gè)階段:
①訓(xùn)練集準(zhǔn)備階段
這個(gè)階段主要是根據(jù)實(shí)際情況來進(jìn)行特征屬性的選擇,并進(jìn)行適當(dāng)?shù)膭澐郑缓笕斯?duì)一部分?jǐn)?shù)據(jù)進(jìn)行分類標(biāo)注,形成訓(xùn)練數(shù)據(jù)集。
假設(shè) x={a1,a2,...,an}是一個(gè)待分類項(xiàng),其中,a1,a2,...,an是 x 的特征屬性。
②分類器訓(xùn)練階段
這個(gè)階段是通過計(jì)算每個(gè)類別在每個(gè)特征屬性條件下的條件概率估計(jì)以及在訓(xùn)練樣本中的出現(xiàn)頻率來訓(xùn)練生成分類器,并將這些結(jié)果記錄下來。
類別的集合定義為 T={t1,t2,…,tm},并計(jì)算 P(t1|x),P(t2|x),…,P(tm|x)。
③分類階段
這個(gè)階段是使用通過訓(xùn)練的得到的分類器來對(duì)未知的分類項(xiàng)進(jìn)行分類。
通 過 貝 葉 斯定 理,求 出 P(ti|x)=max{P(t1|x),P(t2|x),…,P(tm|x)},那么就可以判斷出 x 屬于哪一個(gè)類別y。
以一個(gè)參與大學(xué)選舉的大學(xué)教授為候選人A和可以評(píng)論參加選舉過程的人為候選人B,通過兩種學(xué)習(xí)算法來比較不同的內(nèi)容分類技術(shù)和博客評(píng)論的情感傾向性分析。首先,先用樸素貝葉斯分類器把這些信息手動(dòng)分類,分為{+1,-1}兩個(gè)類別,形成訓(xùn)練樣本,再根據(jù)對(duì)候選人A和候選人B進(jìn)行分類的分類消息,計(jì)算并估計(jì)出該分配給哪個(gè)類別,如此重復(fù)操作。
本文遵循信息檢索[8]的查準(zhǔn)率、查全率和精確度這些指標(biāo)來評(píng)估文本分類和情感分析的不同方法。
類別Ci的查準(zhǔn)率:類別Ci中實(shí)際屬于該類所有信息的分?jǐn)?shù)
類別Ci的查全率:類別Ci中應(yīng)該正確屬于該類所有信息的分?jǐn)?shù)
類別Ci的精確度:整體的正確分類結(jié)果的比例
本文通過多次使用樸素貝葉斯和支持向量機(jī)兩種方法,求其平均值來進(jìn)行文本分類,再根據(jù)信息檢索的三個(gè)指標(biāo)來評(píng)估評(píng)論的情感傾向性。通過多次實(shí)驗(yàn)看出,傳統(tǒng)的分類方法中推薦消除停止詞這個(gè)方法可能會(huì)刪除一些情緒分析中的有價(jià)值的信息,因此,停止詞不能盲目地去消除,而是應(yīng)該仔細(xì)過濾,來保留提高情感分析的準(zhǔn)確性的術(shù)語。
博客評(píng)論是非常短的消息,當(dāng)停止詞和其他多余的文本信息被刪除時(shí)會(huì)變得更短。普通文本的文檔通常較長(zhǎng),并且定義每個(gè)主題或類別的特征術(shù)語往往更頻繁出現(xiàn),因此,用來分析文本的情感傾向性的重要詞語的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)低于文本分類的典型問題。那么我們是否可以通過改進(jìn)績(jī)效指標(biāo),以保留通常在傳統(tǒng)文本分類方法中過濾的停止詞。因此,我們決定重復(fù)上述實(shí)驗(yàn),但這次保留停止詞,試圖保留任何可以作為有價(jià)值并且可能在我們以前的測(cè)試中已經(jīng)被消除的組成部分來區(qū)分不同的意見趨勢(shì)。
近年來,隨著網(wǎng)絡(luò)的飛速發(fā)展,如何更快速、更準(zhǔn)確地分析博客文本的情感傾向性就變得尤為重要??梢酝ㄟ^使用潛在語義分析等情感分析的替代方法,或者通過創(chuàng)建用于情緒分析的特定詞典,此外,還使用從正在研究的語料庫導(dǎo)出的術(shù)語等來定制特定的博客文件。我們可以通過對(duì)SVM和Naive Bayes得到的結(jié)果求平均值,可以提高整體的準(zhǔn)確性[9]。這個(gè)方法可以在新的法律和公共策略的設(shè)計(jì)過程中、營銷和促銷的活動(dòng)、商業(yè)產(chǎn)品和服務(wù)相關(guān)的自動(dòng)分類和檢測(cè)反饋消息等中進(jìn)行應(yīng)用,得到有價(jià)值的文本信息。
[1]Li,N.,&Wu,D.D.(2010).Using Text Mining and Sentiment Analysis for Online Forums Hotspot Detection and Forecast.Decision Support Systems,48(2):354-368.
[2]周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008:2725-2728
[3]李浩.基于評(píng)論的博客搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D].重慶大學(xué),2016
[4]Baeza-Yates,R.,&Ribeiro-Neto,B.(2011).Modern Information Retrieval:the Concepts and Technology Behind Search.Reading:Addison-Wesley.http://www.mir2ed.com.
[5]Moguerza,J.,&Munoz,A.(2006).Support Vector Machines with Applications.Statistical Science,21(3):322-336.
[6]Tikhonov,A.,&Arsenin,V.(1977).Solutions of Ill-Posed Problems.Scripta Series in Mathematics.New York:Winston
[7]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:229.
[8]Olson,D.L.,&Delen,D.(2008).Advanced Data Mining Techniques(1st ed.).Berlin:Springer.
[9]Dietterich,T.(2000).Ensemble Methods in Machine Learning.In Lecture Notes in Computer Science:Vol.1857.Multiple Classifier Systems(pp.1-15).Berlin:Springer.doi:10.1007/3-540-45014-9_1.
Analysis of Emotional Orientation on Weblog Comments
SONG Zhi-xuan
(Department of computer application technology,College of Educational Technical,Shenyang Normal University,Shenyang 110034)
Nowadays,with the rapid development of the network,the blog has gradually become a popular trend,people through the blog to communicate,then how to comment on the emotional commentary of blog comments has become the primary solution to the problem.The content of blog comment is short and has a certain format,obviously cannot be classified by traditional classification method.Therefore,chooses to use support vector machine and naive Bayesian classifier for text classification,and then follows the information retrieval precision,recall and accuracy of these indicators to assess the text classification and emotional analysis.
Weblog Comments;Naive Bayes;Support Vector Machines;Emotional Orientation
1007-1423(2017)32-0052-03
10.3969/j.issn.1007-1423.2017.32.012
宋芷萱(1991-),女,遼寧省遼陽市人,沈陽師范大學(xué)教育技術(shù)學(xué)院計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),在讀研究生,研究方向?yàn)閿?shù)據(jù)挖掘
2017-08-29
2017-10-23