唐 利
(安徽三聯(lián)學(xué)院,安徽合肥230601)
近些年來(lái),隨著計(jì)算機(jī)的迅猛發(fā)展與信息化技術(shù)的日漸成熟,互聯(lián)網(wǎng)已逐漸在人們的生活、學(xué)習(xí)與工作中普遍開(kāi)來(lái)并占據(jù)不可或缺的地位[1]。據(jù)統(tǒng)計(jì),截止到2017年6月,中國(guó)的網(wǎng)絡(luò)普及率高達(dá)百分之五十四點(diǎn)三,這意味著中國(guó)目前有超過(guò)七點(diǎn)五億的網(wǎng)絡(luò)用戶(hù)使用互聯(lián)網(wǎng)進(jìn)行娛樂(lè)、工作或?qū)W習(xí)[2]?;ヂ?lián)網(wǎng)普及的同時(shí),也在慢慢改變著人們生活的方方面面,其中變化最為明顯的是娛樂(lè)休閑的方式。
經(jīng)過(guò)前期的網(wǎng)絡(luò)調(diào)研與大量的文獻(xiàn)查閱發(fā)現(xiàn),網(wǎng)絡(luò)電影評(píng)論的情感分析具有不可估量的市場(chǎng)前景。目前,相比于實(shí)體影院,選擇在線(xiàn)觀(guān)看電影的觀(guān)眾越來(lái)越多,并且這種方式已經(jīng)成為一種趨勢(shì)。網(wǎng)絡(luò)在線(xiàn)影院除了具備方便快捷、足不出戶(hù)便可點(diǎn)播觀(guān)看用戶(hù)想看的電影這方面的優(yōu)勢(shì)以外,還為廣大用戶(hù)提供了一個(gè)在線(xiàn)交流與評(píng)論的平臺(tái)[3],它沒(méi)有實(shí)體影院的種種約束,用戶(hù)可以隨時(shí)隨地發(fā)表自己對(duì)所觀(guān)看電影的評(píng)論,還可以與其他人對(duì)某部電影進(jìn)行交流。而這一部分海量的信息數(shù)據(jù),相對(duì)于一些企業(yè)的推廣信息或宣傳廣告來(lái)說(shuō),更具真實(shí)性,更能代表用戶(hù)的主觀(guān)體驗(yàn)感受,更容易被接受。相應(yīng)地,本課題主要針對(duì)這些數(shù)據(jù)進(jìn)行挖掘分析,分析結(jié)果不僅可以為其他用戶(hù)提供較為可靠的參考,還可以幫助電影網(wǎng)站或制片公司更好地了解網(wǎng)絡(luò)觀(guān)眾的需求和某一類(lèi)電影的前景,以輔助其對(duì)電影的制作的投放分配做出更加合理的決策來(lái)保證企業(yè)價(jià)值的最大化。
文本情感傾向性分類(lèi)是近幾年來(lái)基于文本分類(lèi)挖掘領(lǐng)域流行起來(lái)的研究課題,同時(shí)也是情感分析領(lǐng)域中很重要的一部分內(nèi)容。目前的文本情感傾向性分類(lèi),主要將一段包含感情色彩的文本作為研究對(duì)象,通過(guò)處理、分類(lèi)和分析來(lái)判斷該段文本的情感傾向性??偟膩?lái)說(shuō),情感傾向性主要有兩種分類(lèi)方法:一種將情感分為喜怒哀樂(lè)四種傾向[4];另一種是將情感傾向分為正面情感傾向、中性情感、負(fù)面情感傾向三種類(lèi)型[5]、[6]。本文采用第二種分類(lèi)方法來(lái)研究網(wǎng)絡(luò)電影評(píng)論文本的正負(fù)情感傾向。
目前研究的文本情感傾向性分類(lèi)過(guò)程如下:首先進(jìn)行訓(xùn)練語(yǔ)料庫(kù)與測(cè)試語(yǔ)料庫(kù)的收集與生成[7]、[8],訓(xùn)練語(yǔ)料庫(kù)的作用是生成分類(lèi)模型,而測(cè)試語(yǔ)料庫(kù)是用來(lái)測(cè)試所生成的分類(lèi)模型的分類(lèi)效果如何。一般來(lái)說(shuō),要求測(cè)試語(yǔ)料庫(kù)和訓(xùn)練語(yǔ)料庫(kù)中要包含不同的數(shù)據(jù)集。然后進(jìn)行的是訓(xùn)練語(yǔ)料庫(kù)文本的預(yù)處理、向量化、特征提取與選擇[9]、[10]、[11]。最后,處理后的訓(xùn)練語(yǔ)料庫(kù)通過(guò)三個(gè)不同算法分別進(jìn)行三個(gè)不同分類(lèi)模型的構(gòu)建與訓(xùn)練,再將測(cè)試語(yǔ)料庫(kù)的數(shù)據(jù)輸入分類(lèi)模型,根據(jù)分類(lèi)結(jié)果來(lái)評(píng)估分析不同分類(lèi)模型的性能。
文本預(yù)處理的對(duì)象是文本中沒(méi)有實(shí)際意義的虛詞和不帶感情色彩中性詞語(yǔ),使得到的結(jié)果便于計(jì)算機(jī)的處理與進(jìn)一步分析。文本預(yù)處理工作主要包括中文文本分詞、去停用詞、詞性標(biāo)注等。本課題研究過(guò)程中使用ICTCLAS3(Institute of computer technology,Chinese lexical analysis system)分詞系統(tǒng)[12]。
文本在經(jīng)過(guò)預(yù)處理之后形成的是詞語(yǔ)集,這些詞語(yǔ)表示的是中文文本的情感傾向性,詞語(yǔ)與情感傾向性的類(lèi)別之間有著相對(duì)應(yīng)的關(guān)系,如何將這種關(guān)系表示成為計(jì)算機(jī)可以識(shí)別的文本表示模型,便于后面文本的分類(lèi)處理,是文本向量化所要做的工作。本文采用的是向量空間模型,不僅形式簡(jiǎn)單,而且準(zhǔn)確率相對(duì)于其他方法來(lái)說(shuō)較高。
特征提取是為了從文本中提取出可以和其他類(lèi)別的文本相區(qū)別的數(shù)據(jù)項(xiàng),從而選出最有效的特征。目前特征提取的算法有很多,如文檔頻率(Document Frequency,DF)、期望交叉熵(Excepted Cross Entropy,ECE)、信息增益(InformationGain,IG)[13]。本文采用的是信息增益算法,并將其作為特征提取的標(biāo)準(zhǔn)。
本課題關(guān)于網(wǎng)絡(luò)電影評(píng)論的情感傾向分類(lèi)模型的建立過(guò)程包括海量網(wǎng)絡(luò)電影評(píng)論文本數(shù)據(jù)的收集、數(shù)據(jù)的規(guī)范化預(yù)處理、數(shù)據(jù)向量化及特征降維以及最終的主觀(guān)識(shí)別和情感極性分類(lèi)。
新浪微博目前已經(jīng)成為網(wǎng)絡(luò)推廣、品牌宣傳、用戶(hù)交流的重要平臺(tái),對(duì)于電影行業(yè)來(lái)說(shuō)亦是如此??偟膩?lái)說(shuō),本課題針對(duì)網(wǎng)絡(luò)電影評(píng)論的數(shù)據(jù)對(duì)象首先是新浪微博中微博電影模塊中來(lái)源于普通用戶(hù)的原創(chuàng)評(píng)論,不包括官方微博;其次,評(píng)論內(nèi)容應(yīng)該圍繞電影本身,而非個(gè)人情感表述。我們收集到的評(píng)論不僅工作量大而且不利于分類(lèi)工作,為了能快速的收集網(wǎng)絡(luò)電影評(píng)論,我們將采用專(zhuān)業(yè)的數(shù)據(jù)抓取工具。
1.網(wǎng)絡(luò)電影評(píng)論樣本抓取程序
本課題采用的是專(zhuān)用的數(shù)據(jù)抓取工具M(jìn)etaSeeker實(shí)現(xiàn)新浪微博電影網(wǎng)頁(yè)中電影評(píng)論數(shù)據(jù)的抓取。該工具是Gooseeker公司設(shè)計(jì)并推出的一種抓取網(wǎng)頁(yè)信息數(shù)據(jù)的插件,根據(jù)用戶(hù)的指定的需求,該工具可以實(shí)現(xiàn)網(wǎng)頁(yè)中目標(biāo)信息的篩選和提取,最終以XML文件的形式提交給用戶(hù)。目前為止,火狐瀏覽器通過(guò)插件的方式支持MetaSeeker網(wǎng)頁(yè)數(shù)據(jù)抓取工具的使用。抽取的內(nèi)容如設(shè)定為普通用戶(hù)的原創(chuàng)非轉(zhuǎn)發(fā)評(píng)論內(nèi)容,包括評(píng)論用戶(hù)的用戶(hù)名、認(rèn)證狀態(tài)和評(píng)論內(nèi)容,篩選條件包括電影名稱(chēng)、時(shí)間、類(lèi)型等,而不關(guān)注用戶(hù)評(píng)論內(nèi)容的轉(zhuǎn)發(fā)和收藏次數(shù)。
2.網(wǎng)絡(luò)電影評(píng)論樣本抓取結(jié)果解析
由于通過(guò)抓取工具是以30個(gè)XML文件的形式向用戶(hù)提交最后的抓取結(jié)果,我們需要將這30個(gè)文件進(jìn)行解析處理,得到適合本課題研究的初步的數(shù)據(jù)形式。通過(guò)perl對(duì)結(jié)果文件進(jìn)行自動(dòng)處理,刪除掉@后的文字和連接以及標(biāo)簽文字之后,生成一個(gè)包含三列內(nèi)容的結(jié)果文件。形式如表1所示:
表1 解析后結(jié)果文件樣式表
經(jīng)過(guò)初步整理后得到的電影評(píng)論總共 48736條,經(jīng)過(guò)進(jìn)一步的篩選處理后,符合本課題研究?jī)?nèi)容的評(píng)論數(shù)據(jù)最終有24923條。最后將評(píng)論的內(nèi)容存儲(chǔ)到TXT文本中,同時(shí)隨機(jī)抽取其中的2400條評(píng)論,將其作為情感傾向分類(lèi)的樣本數(shù)據(jù)。對(duì)著2400條評(píng)論樣本進(jìn)行手動(dòng)分類(lèi),類(lèi)別包括情感傾向?yàn)檎?、?fù)面、中性的評(píng)論以及噪聲評(píng)論,最終得到表2的樣本集統(tǒng)計(jì):
表2 網(wǎng)絡(luò)電影評(píng)論數(shù)據(jù)樣本統(tǒng)計(jì)表
1.分詞和詞性標(biāo)注
本課題采用的基礎(chǔ)訓(xùn)練語(yǔ)料庫(kù)來(lái)自于ICTCLAS3分詞系統(tǒng),該詞法分析系統(tǒng)是由中科院開(kāi)發(fā),但是對(duì)于本課題的研究?jī)?nèi)容來(lái)說(shuō)是遠(yuǎn)遠(yuǎn)不夠的,因此在研究過(guò)程中還需添加電影行業(yè)相關(guān)的專(zhuān)業(yè)名詞以及目前流行的網(wǎng)絡(luò)詞語(yǔ),將最后生成的新的語(yǔ)料庫(kù)作為本課題的詞典。
電影行業(yè)專(zhuān)業(yè)詞匯本課題采用的是百度的中文分詞詞庫(kù)和相關(guān)的細(xì)胞詞庫(kù),還使用了已經(jīng)整理成型的電影名稱(chēng)詞典、影視明星詞典;流行網(wǎng)絡(luò)詞語(yǔ)方面,使用的是目前發(fā)展相對(duì)成熟的搜狗輸入法的詞庫(kù)和其細(xì)胞詞庫(kù)。另外微博中還提供表情的功能,用戶(hù)評(píng)論中的表情在數(shù)據(jù)庫(kù)中會(huì)轉(zhuǎn)換成文字形式存儲(chǔ),如鼓掌、大笑等。因此還需統(tǒng)計(jì)微博表情轉(zhuǎn)換后的詞匯,通過(guò)相應(yīng)的文本算法,將其連同以上詞庫(kù)及詞典導(dǎo)入到本課題的基礎(chǔ)語(yǔ)料庫(kù)中,形成適合本課題的非結(jié)構(gòu)化網(wǎng)絡(luò)電影評(píng)論語(yǔ)料庫(kù),其中包括24735個(gè)流行網(wǎng)絡(luò)詞語(yǔ)、10276個(gè)電影評(píng)論相關(guān)詞匯、1250個(gè)表情詞匯。其中包括 18624個(gè)正面情感詞匯和17637個(gè)負(fù)面情感詞匯,將其作為對(duì)上一小節(jié)所整理的網(wǎng)絡(luò)電影評(píng)論文本數(shù)據(jù)的樣本集進(jìn)行分詞和詞性標(biāo)注的依據(jù)。
2.去除停用詞
本課題所涉及的停用詞主要包括通用停用詞和電影領(lǐng)域的停用詞。前者主要有一般文本中出現(xiàn)頻率比較高、但對(duì)于情感傾向貢獻(xiàn)值很小的修飾性詞語(yǔ),如量詞(“一部”,/q)、代詞(“我”,/r)、介詞(“在”,/p)等。后者主要指的是一些電影的名稱(chēng)以及專(zhuān)業(yè)詞語(yǔ),這類(lèi)詞語(yǔ)僅僅有指示作用,也可以停用。
本課題選擇通過(guò)計(jì)算信息增益的方法來(lái)進(jìn)行特征選擇,最后所提取的特征結(jié)果中每一個(gè)特征對(duì)應(yīng)的是一個(gè)分詞,并得到最后的特征權(quán)值后,每一個(gè)特征向量可以表示一條電影評(píng)論內(nèi)容,如表3所示:
表3 一條網(wǎng)絡(luò)電影評(píng)論文本的特征向量表示
本課題采用N折交叉驗(yàn)證的方式進(jìn)行主觀(guān)性?xún)?nèi)容識(shí)別檢驗(yàn)評(píng)估。結(jié)合樣本的收集與手工分類(lèi)過(guò)程可以知道,中性評(píng)價(jià)中對(duì)于課題研究的意義不是很大,情感分類(lèi)過(guò)程中只針對(duì)正面情感的評(píng)論和負(fù)面情感的評(píng)論。該電影評(píng)論的情感傾向性分類(lèi)是建立在樣本主觀(guān)識(shí)別的基礎(chǔ)上的,顯而易見(jiàn),該過(guò)程中的識(shí)別率與最終的情感分類(lèi)精確度以及分類(lèi)效果是成正比的。
本課題的數(shù)據(jù)挖掘平臺(tái)采用的是Weka[14]平臺(tái),它的一個(gè)很重要的組成部分就是分類(lèi)器,包括了決策樹(shù)、貝葉斯分類(lèi)等,而訓(xùn)練與檢測(cè)工作通過(guò)Java來(lái)實(shí)現(xiàn)。實(shí)驗(yàn)過(guò)程中首先要對(duì)三種分類(lèi)器進(jìn)行訓(xùn)練、學(xué)習(xí),然后才可以利用其對(duì)測(cè)試集進(jìn)行分類(lèi)。其中貝葉斯分類(lèi)器分類(lèi)是線(xiàn)性可分的,故而不需要進(jìn)行參數(shù)的設(shè)置,而其他兩種分類(lèi)器則需要事先設(shè)置好參數(shù)。
本課題采用模型性能評(píng)價(jià)常用的評(píng)價(jià)指標(biāo):查全率(Recall)、查準(zhǔn)率(Precision)和F1 測(cè)度(F1-Measure)。以下通過(guò)模擬分類(lèi)結(jié)果建立矩陣來(lái)更清楚地表示查準(zhǔn)率、查全率和F1測(cè)度的計(jì)算方法。
其中,查全率(O)和查準(zhǔn)率(O)是代表客觀(guān)性評(píng)論的查全率和查準(zhǔn)率,查全率(S)查準(zhǔn)率(S)是代表主觀(guān)性評(píng)論的查全率和查準(zhǔn)率。查全率和查準(zhǔn)率反映了分類(lèi)質(zhì)量的兩個(gè)不同方面,兩者必須綜合考慮。三種分類(lèi)器分類(lèi)的混淆矩陣在此不在贅述,表4是以上者三種分類(lèi)器對(duì)測(cè)試數(shù)據(jù)進(jìn)行主客觀(guān)分類(lèi)的的結(jié)果性能評(píng)估:
表4 主客觀(guān)分類(lèi)測(cè)試結(jié)果
從檢驗(yàn)結(jié)果來(lái)看,文本算法結(jié)合三種分類(lèi)器后進(jìn)行主客觀(guān)分類(lèi)的精確度都比較高,在百分之九十左右,說(shuō)明通過(guò)文本算法結(jié)合三種分類(lèi)器對(duì)網(wǎng)絡(luò)電影評(píng)論進(jìn)行分類(lèi)的方法是可行的。從精確度的角度來(lái)看,經(jīng)過(guò)文本算法初分類(lèi)后,支持向量機(jī)的精確度最高,其次是決策樹(shù),最后是樸素貝葉斯。主觀(guān)性評(píng)論分類(lèi)中三個(gè)分類(lèi)器的性能如圖1所示:
本課題中對(duì)于網(wǎng)絡(luò)電影評(píng)論的主觀(guān)判別結(jié)果分析時(shí)候,查準(zhǔn)率要比F1測(cè)度更重要,查全率重要性最低。由上圖可知,盡管樸素貝葉斯的查全率最高,但是它的查準(zhǔn)率并不是最高的,最高的分類(lèi)器是支持向量機(jī),針對(duì)網(wǎng)絡(luò)電影評(píng)論情感分類(lèi),文本算法結(jié)合SVM來(lái)作為該網(wǎng)絡(luò)電影評(píng)論的主觀(guān)識(shí)別分類(lèi)器比較合適。
表5是三種分類(lèi)器對(duì)網(wǎng)絡(luò)電影評(píng)論的正負(fù)情感傾向性進(jìn)行極性分類(lèi)所得到的各個(gè)評(píng)價(jià)指標(biāo)的結(jié)果:
表5 網(wǎng)絡(luò)電影評(píng)論的正負(fù)情感傾向性分類(lèi)結(jié)果
對(duì)于本課題的網(wǎng)絡(luò)電影評(píng)論文本的正負(fù)情感傾向性進(jìn)行分類(lèi)的時(shí)候,需要同時(shí)對(duì)具備正面和負(fù)面傾向性的評(píng)價(jià)有很好的識(shí)別度,所以此時(shí)每個(gè)分類(lèi)的精確度以及相應(yīng)的F1測(cè)度的重要性是相同的,然后再查看的是查全率和查準(zhǔn)率這兩個(gè)指標(biāo)。F1測(cè)度的結(jié)果圖如2所示:
通過(guò)上圖三個(gè)分類(lèi)器的F1值進(jìn)行分析、對(duì)比之后,可以很直觀(guān)地看出支持向量機(jī)算法對(duì)于positive和Average這兩項(xiàng)都是具有最高值的,雖然樸素貝葉斯算法在negative時(shí)是最高的,但是它的精確度卻只有65.72%,決策樹(shù)雖然比較平衡,但是由之前的研究可知,在數(shù)據(jù)量極大的時(shí)候,其處理時(shí)間會(huì)增長(zhǎng)很快,而支持向量機(jī)則相對(duì)穩(wěn)定。
總的來(lái)說(shuō),非結(jié)構(gòu)化的網(wǎng)絡(luò)電影評(píng)論文本的情感傾向性通過(guò)將文本算法與三種機(jī)器學(xué)習(xí)的分類(lèi)器結(jié)合后可以進(jìn)行有效的分類(lèi),本文不僅可以并識(shí)別出正負(fù)面情感,還可以識(shí)別出主觀(guān)情感。并且如上的實(shí)驗(yàn)數(shù)據(jù)還顯示出,支持向量機(jī)的分類(lèi)器對(duì)于本網(wǎng)絡(luò)電影評(píng)論的情感傾向性分類(lèi)中有較好的效果,其中表現(xiàn)在準(zhǔn)確率和F1測(cè)度值上,相較于其他兩種分類(lèi)器,該分類(lèi)器的表現(xiàn)穩(wěn)定均衡,效果突出。
關(guān)于網(wǎng)絡(luò)電影評(píng)論的情感傾向性的分類(lèi)研究,對(duì)電影市場(chǎng)投放何種類(lèi)型,投放比例等方面都有很重要的意義。通過(guò)我們的研究可以知道將文本情感分析與機(jī)器學(xué)習(xí)算法結(jié)合是可行的,并且能構(gòu)建出既減小工作量又提高準(zhǔn)確率的算法模型。
這里,我們的主要工作是對(duì)網(wǎng)絡(luò)電影評(píng)論的情感傾向性進(jìn)行分類(lèi)研究。通過(guò)文本算法構(gòu)建適合本研究的新的情感詞典。最后,選用了三種目前運(yùn)用比較普遍的情感分類(lèi)模型,通過(guò)比較和深入地分析三種分類(lèi)模型的分類(lèi)結(jié)果,總結(jié)三種機(jī)器學(xué)習(xí)算法的優(yōu)劣,找到更適合網(wǎng)絡(luò)電影評(píng)論傾向性分類(lèi)的模型。當(dāng)然這里的研究并不是完美無(wú)缺的,因?yàn)榉N種原因限制,使得本文還有提升的空間。在今后的研究中會(huì)針對(duì)以上提到的可提升之處進(jìn)一步完善,使得該課題更加豐富、更加具備應(yīng)用價(jià)值。