袁月戎
(南京農(nóng)業(yè)大學(xué) 信息管理學(xué)院,江蘇 南京 210095)
隨著社交網(wǎng)絡(luò)的快速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧>W(wǎng)絡(luò)的普及,極大地方便了我們的生活。在進(jìn)行網(wǎng)上購(gòu)物或者瀏覽社交媒體平臺(tái)時(shí),很多用戶(hù)喜歡在公眾平臺(tái)上表達(dá)自己的態(tài)度[1]。廣義上的情感分析,是通過(guò)相關(guān)的算法識(shí)別出文本中能夠表達(dá)情感的詞語(yǔ),再經(jīng)過(guò)相關(guān)計(jì)算,得出該文本內(nèi)容的情感傾向。這樣的方法被廣泛應(yīng)用于客戶(hù)滿(mǎn)意度調(diào)查、市場(chǎng)監(jiān)測(cè)等多個(gè)領(lǐng)域。用戶(hù)評(píng)論可為其他用戶(hù)的決策起到參考作用,也是開(kāi)發(fā)者把握用戶(hù)需求的重要信息[2]。為了探討基于樸素貝葉斯算法在文本情感分類(lèi)中的應(yīng)用,本次研究以豆瓣網(wǎng)站上的書(shū)籍評(píng)論為分析對(duì)象,根據(jù)熱門(mén)標(biāo)簽中文學(xué)類(lèi)別下的小說(shuō)分類(lèi),最終選取了路遙的《平凡的世界》和林奕含的《房思琪的初戀樂(lè)園》,對(duì)這兩本書(shū)的在線(xiàn)評(píng)論進(jìn)行情感分類(lèi)研究。
早期的情感分析都以篇章為對(duì)象,情感只分為正負(fù)兩種,后續(xù)的研究逐漸深入到語(yǔ)句,除了關(guān)注語(yǔ)句的情感極性,還進(jìn)一步強(qiáng)調(diào)了情感程度,同時(shí)關(guān)注情感對(duì)象,甚至上下文情境[3]。隨著情感分析研究的不斷深入,不少學(xué)者借鑒心理學(xué)相關(guān)研究,逐漸將正負(fù)情感細(xì)化為情緒特征。在進(jìn)行情感分析時(shí)融入心理學(xué)理論,促進(jìn)了情緒詞典的發(fā)展。在英文領(lǐng)域,普遍公認(rèn)的是由加拿大國(guó)家研究委員會(huì)專(zhuān)家創(chuàng)建的情緒和情感詞典(簡(jiǎn)稱(chēng)NRC),該詞典具有廣泛的應(yīng)用程序開(kāi)發(fā),可以在多種環(huán)境中使用,例如情緒分析,產(chǎn)品營(yíng)銷(xiāo),消費(fèi)者行為,甚至是政治活動(dòng)分析,借助NRC詞典,情感分析得以更加細(xì)化。在中文領(lǐng)域,大連理工大學(xué)信息檢索實(shí)驗(yàn)室中文情感詞匯本體參考 Ekman 情感模型將情感分為樂(lè)、懼、驚、哀、惡、怒和好7個(gè)大類(lèi)21個(gè)小類(lèi)[4],該資源的宗旨是在情感計(jì)算領(lǐng)域,為中文文本情感分析和傾向性分析提供一個(gè)便捷可靠的輔助手段。中文情感詞匯本體可以用于解決多類(lèi)別情感分類(lèi)的問(wèn)題,同時(shí)也可以用于解決一般的傾向性分析的問(wèn)題。
情緒代表著人們的主觀感受與想法,人的情感極具復(fù)雜性。因此,情感分類(lèi)一直都是相關(guān)研究探討的重點(diǎn)。著名的普拉切克(Plutchik)情緒輪盤(pán)(如圖1)。將情緒分為生氣、厭惡、恐懼、悲傷、期待、快樂(lè)、驚訝、信任8個(gè)基本類(lèi)型。 復(fù)雜情緒一般也都是由基本情緒派生而來(lái),如具備“快樂(lè)”和“信任”的情感就是“愛(ài)”[4]。
圖1 普拉切克的情緒輪盤(pán)
“中文情感詞匯本體庫(kù)”是林鴻飛教授帶領(lǐng)大連理工大學(xué)信息檢索研究室全體教研室成員,整理和標(biāo)注的一個(gè)中文情感詞典,含有情感詞匯共計(jì)27 466個(gè)。該情感分類(lèi)體系,是建立在國(guó)外比較有影響的Ekman的六大類(lèi)情感分類(lèi)體系的基礎(chǔ)之上的,并在其中加入情感類(lèi)別“好”對(duì)褒義情感進(jìn)行了更細(xì)致的劃分,該情感詞典中的情感共分為七大類(lèi)21小類(lèi),情感強(qiáng)度分為1、3、5、7、9五檔,9表示強(qiáng)度最大,1為強(qiáng)度最小,該情感詞典的一般格式見(jiàn)表1。
表1 情感詞匯本體格式舉例
關(guān)于“樂(lè)”“懼”“驚”“哀”“惡”“怒”和“好”這7 個(gè)大類(lèi) 21 個(gè)小類(lèi)的具體分類(lèi)可見(jiàn)表2。
表2 情感分類(lèi)
樸素貝葉斯是基于概率論的分類(lèi)算法,是目前應(yīng)用最為廣泛的分類(lèi)算法之一。概率即指一件事情發(fā)生的可能性。聯(lián)合概率:包含多個(gè)條件,且所有條件同時(shí)成立的概率,記作:p(A,B)。條件概率:事件A在另一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率,記作:p(A|B)。相互獨(dú)立:如果p(A,B)=p(A)p(B),則稱(chēng)事件A與事件B相互獨(dú)立。貝葉斯公式:P(A|B)=P(B|A)P(A)/P(B)[5]。例如,“你在街上看到一個(gè)黑人,我們十有八九猜非洲?!痹谀愕哪X海中,有這么一個(gè)判斷流程:
這個(gè)人的膚色是黑色<特征>
黑色人種是非洲人的概率最高?
<條件概率:黑色條件下是非洲人的概率>
沒(méi)有其他輔助信息的情況下,最好的判斷就是非洲人。這就是樸素貝葉斯的思想基礎(chǔ)。再擴(kuò)展一下,假如在街上看到一個(gè)黑人講英語(yǔ),那我們是怎么去判斷他來(lái)自哪里?
提取特征:膚色(黑) 語(yǔ)言:英語(yǔ)
黑色人種來(lái)自非洲的概率:80%
黑色人種來(lái)自美國(guó)的概率:20%
講英語(yǔ)的人來(lái)自非洲的概率:10%
講英語(yǔ)的人來(lái)自美國(guó)的概率:90%
在我們的自然思維方式中,就會(huì)這樣判斷:
這個(gè)人來(lái)自非洲的概率:80% * 10% = 0.08
這個(gè)人來(lái)自美國(guó)的概率:20% * 90% =0.18
我們的判斷結(jié)果就是:此人來(lái)自美國(guó)!
通過(guò)這樣的計(jì)算就可以得出該問(wèn)題的結(jié)果,可以看出,樸素貝葉斯算法可以通過(guò)這樣的計(jì)算得出看似不具有規(guī)律或者完全不相關(guān)的一個(gè)問(wèn)題的概率問(wèn)題。樸素貝葉斯實(shí)際應(yīng)用場(chǎng)景包括文本分類(lèi)、垃圾郵件過(guò)濾、病人分類(lèi)和拼寫(xiě)檢查。
本研究首先運(yùn)用python從豆瓣讀書(shū)上面去獲取所需的評(píng)論數(shù)據(jù);其次,用excel、Notepad++對(duì)文本數(shù)據(jù)清洗和預(yù)處理,文本清洗包括了標(biāo)點(diǎn)符號(hào)的去除、人工篩選等,預(yù)處理包括了文本分詞;然后,運(yùn)用大連理工大學(xué)標(biāo)注的中文情感詞匯本體庫(kù)提取表達(dá)用戶(hù)情緒特征的詞語(yǔ),對(duì)評(píng)論中的內(nèi)容進(jìn)行情感詞語(yǔ)的抽取和情感分析,抽取的內(nèi)容主要是評(píng)論文本中帶有傾向性特征的詞語(yǔ);最后,根據(jù)上文所述的情感詞典,計(jì)算出每條評(píng)論的情感綜合值;最終確定該評(píng)論屬于中文情感詞匯本體七大類(lèi)中樂(lè)、好、怒、哀、懼、惡、驚下的具體哪一類(lèi)。最終對(duì)這些產(chǎn)生結(jié)果的評(píng)論采用樸素貝葉斯算法,對(duì)情感傾向進(jìn)行分類(lèi)(如圖2)。
圖2 研究思路
豆瓣網(wǎng)是國(guó)內(nèi)知名且用戶(hù)數(shù)量較多的網(wǎng)絡(luò)評(píng)論社區(qū),它包含了書(shū)籍、電影等多個(gè)評(píng)論版塊,是一個(gè)理想的研究對(duì)象。豆瓣讀書(shū)上的讀書(shū)板塊收錄了很多的國(guó)內(nèi)外書(shū)籍?dāng)?shù)據(jù),并有大量用戶(hù)對(duì)上面的書(shū)籍進(jìn)行評(píng)價(jià),因此選擇豆瓣讀書(shū)上的相關(guān)評(píng)論為研究對(duì)象。
采用python爬取豆瓣讀書(shū)中《平凡的世界》和《房思琪的初戀樂(lè)園》這兩本書(shū)的用戶(hù)評(píng)論,截至2020年2月1號(hào)分別采集到了33 810和28 295條數(shù)據(jù),獲取的原始數(shù)據(jù)十分混亂,每條數(shù)據(jù)包含一些xml標(biāo)簽,并且有各種無(wú)意義字符,筆者使用notepad++和excel等工具對(duì)這些數(shù)據(jù)進(jìn)行整理清洗,去除了只有數(shù)字、表情包、無(wú)內(nèi)容和不相關(guān)評(píng)論的文本,得到的有效數(shù)據(jù)分別是33 676、27 284條。在完成簡(jiǎn)單的數(shù)據(jù)清洗后,又對(duì)采集到的數(shù)據(jù)進(jìn)行了預(yù)處理,包括jieba分詞、詞性標(biāo)注以及停用詞去除,最終得到的數(shù)據(jù)如圖3所示。
圖3 數(shù)據(jù)收集與預(yù)處理
將上述清洗過(guò)的數(shù)據(jù)與中文情感詞匯本體中的詞語(yǔ)進(jìn)行匹配,逐條分析每句評(píng)論中出現(xiàn)的情感詞,并利用notepad++和excel等工具進(jìn)行特征詞統(tǒng)計(jì)(如圖4)。
圖4 評(píng)論詞語(yǔ)與詞典匹配
本研究采用基于詞典和有監(jiān)督的機(jī)器學(xué)習(xí)的方法進(jìn)行結(jié)合,采用大連理工中文情感詞匯本體進(jìn)行情感分析,用該詞典統(tǒng)計(jì)待分析文本中每句評(píng)論表達(dá)“樂(lè)”“好”“怒”“哀”“懼”“惡”“驚”這7個(gè)情感詞的強(qiáng)度的加權(quán)值,取最大值來(lái)表達(dá)這句話(huà)的情感趨向。最后得出的結(jié)果分別用A、B、C、D、E、F、G來(lái)表達(dá),其中H表達(dá)該句沒(méi)有情感特征詞,即判斷不出該句的情感趨向(如圖5)。
圖5 文本情感標(biāo)注
單個(gè)詞語(yǔ)情感的標(biāo)注如圖5所示,通過(guò)對(duì)一句話(huà)中相同情感的情感值進(jìn)行加權(quán),比較每種情感值的大小,最后選取數(shù)值最大的情感詞來(lái)代表該句話(huà)的感情趨向(見(jiàn)表3)。
表3 情感類(lèi)別計(jì)算
根據(jù)樂(lè)(A)、好(B)、怒(C)、哀(D)、懼(E)、惡(F)、驚(G)、無(wú)(H)這8種情感值對(duì)該書(shū)評(píng)論進(jìn)行統(tǒng)計(jì)(如圖6)。
圖6 文本情感傾向性分析
對(duì)每條評(píng)論進(jìn)行情感傾向統(tǒng)計(jì)分析(如表4)。
表4 中文情感詞典標(biāo)注結(jié)果
從統(tǒng)計(jì)數(shù)據(jù)上看,《平凡的世界》一書(shū)中情感值有高到底依次是:好(49.6%)、無(wú)(33.2%)、惡(6.1%)、樂(lè)(4.2%)、哀(4.8%)、懼(1.7%)、驚(0.4%)。用戶(hù)對(duì)該本書(shū)的情感為好的占到了49.6%,其次是“無(wú)”到了33.2%,說(shuō)明大多人對(duì)該本書(shū)的情感態(tài)度大多都為好,很少有其他的負(fù)面情感。而《房思琪的初戀樂(lè)園》一書(shū)中情感值有高到底依次是:惡(31%)、好(27.4%)、哀(18.3%)、無(wú)(15.8%)、樂(lè)(5%)、懼(2.2%)、驚(0.4%)。用戶(hù)對(duì)該本書(shū)的情感為好的只占到了27.4%,其余的幾乎都是惡、哀等負(fù)面情緒,說(shuō)明用戶(hù)在看這本書(shū)的時(shí)候都是懷著一種憤怒并且悲涼的心態(tài)。分析其具體原因,用戶(hù)的情感可能會(huì)受到書(shū)的主題內(nèi)容的影響,《平凡的世界》主要講述的是中國(guó)20世紀(jì)70年代到80年代中期普通人在大時(shí)代歷史進(jìn)程中所走過(guò)的艱難曲折,在大時(shí)代的背景下普通人的奮斗故事容易引發(fā)讀者共鳴,產(chǎn)生的情感也大多是正向的,充滿(mǎn)正能量的?!斗克肩鞯某鯌贅?lè)園》的主題是性侵,這一內(nèi)容本就會(huì)引發(fā)大眾的抵觸情緒,讀者可能大多數(shù)都在討論書(shū)中塑造的人物,表達(dá)自己的憤怒和不滿(mǎn),而忽略了作者的寫(xiě)作能力和寫(xiě)作手法。通過(guò)分析可以觀察出:讀者評(píng)論的情感傾向可能會(huì)受到書(shū)籍主題的影響。
在對(duì)所有評(píng)論進(jìn)行情感傾向計(jì)算后,運(yùn)用樸素貝葉斯的分類(lèi)方法,將計(jì)算好的評(píng)論按照3∶1(訓(xùn)練集∶測(cè)試集)進(jìn)行運(yùn)算,最后訓(xùn)練出樸素貝葉斯模型,將評(píng)論進(jìn)行分類(lèi)(見(jiàn)表5)。其中,準(zhǔn)確率:判斷正確的類(lèi)別數(shù)目與判斷為該類(lèi)別的數(shù)目之比;召回率:判斷正確的類(lèi)別數(shù)目與應(yīng)判斷為該類(lèi)別的數(shù)目之比;F 值:作為前兩者的調(diào)和平均數(shù)來(lái)衡量評(píng)估分析的準(zhǔn)確性,F(xiàn)=2PR/(P+R)。通過(guò)對(duì)比發(fā)現(xiàn),該算法對(duì)“樂(lè)”的情感判斷,效果較好,準(zhǔn)確率和召回率都較高。好(A)的準(zhǔn)確率分別達(dá)到了0.72、0.81。準(zhǔn)確率較高的還有哀(D)和無(wú)(H)這兩個(gè)情感,相較于用詞典標(biāo)注的結(jié)果,樸素貝葉斯算法的準(zhǔn)確率還有很大的提高,尤其是好(B)這一情感,在標(biāo)注的結(jié)果中占比最高,運(yùn)用樸素貝葉斯的算法準(zhǔn)確率和召回率還有待改進(jìn)。這是因?yàn)榉诸?lèi)效果的好壞,跟所采用的情感詞典有很大關(guān)系,詞典中包含的該類(lèi)別的情感詞越多,覆蓋范圍越廣,就越能夠從讀者評(píng)論中提取到更多的情感特征,從而才能夠準(zhǔn)確把握該書(shū)評(píng)的總的情感傾向,才能夠獲得更加準(zhǔn)確的分類(lèi)效果。
表5 自動(dòng)分析結(jié)果
最終,我們運(yùn)用樸素貝葉斯算法對(duì)豆瓣網(wǎng)上書(shū)評(píng)進(jìn)行分類(lèi),分類(lèi)效果(見(jiàn)表6),訓(xùn)練集的準(zhǔn)確率都在70%~80%這一范圍,測(cè)試集的準(zhǔn)確率都在60%~70%這一范圍。研究發(fā)現(xiàn),樸素貝葉斯算法能夠?qū)崿F(xiàn)評(píng)論文本的情感分類(lèi),分類(lèi)效果較好,但仍需結(jié)合規(guī)則匹配和人工校對(duì)的方式,提升分類(lèi)效果。后期也可以?xún)?yōu)化情感詞典,擴(kuò)充情感詞典中的與本領(lǐng)域相關(guān)的情感詞,提高書(shū)評(píng)情感傾向分析的準(zhǔn)確度。
表6 分類(lèi)效果
研究發(fā)現(xiàn),樸素貝葉斯算法能夠?qū)崿F(xiàn)評(píng)論文本的情感分類(lèi),分類(lèi)效果較好,但仍需結(jié)合規(guī)則匹配和人工校對(duì)的方式,提升分類(lèi)效果。另外本次研究沒(méi)有自己建立針對(duì)書(shū)評(píng)的情感詞典,采用的是通用的中文情感詞典。可能會(huì)因?yàn)閭€(gè)別的評(píng)論只有幾個(gè)字,或者個(gè)別情感詞在詞典中找不到,可能在情感分類(lèi)時(shí)略有誤差,不能精確把握每句話(huà)總的情感傾向。這樣一來(lái),就會(huì)導(dǎo)致在情感值計(jì)算的時(shí)候匹配不到相關(guān)的情感詞,最后無(wú)法得到這部分的得分,這樣的數(shù)據(jù)就存在無(wú)法判斷的問(wèn)題。此外,本次研究抓取選取的數(shù)據(jù)全部來(lái)源于豆瓣網(wǎng),用來(lái)分析的書(shū)籍只有兩本,選取的數(shù)據(jù)量還不夠多,因此在后面的研究中,怎樣去選擇更加合適的研究對(duì)象值得我們進(jìn)一步去考慮。