侯艷輝,董慧芳,郝 敏,崔雪蓮
(山東科技大學(xué)經(jīng)濟(jì)管理學(xué)院,山東青島266590)
(?通信作者電子郵箱Coolhyh@126.com)
隨著國(guó)民經(jīng)濟(jì)水平的提高,電影已經(jīng)成為一種大眾化的休閑娛樂(lè)方式。網(wǎng)絡(luò)媒體的發(fā)展進(jìn)一步擴(kuò)大了電影的影響范圍,繁榮的前景也加劇了電影行業(yè)的競(jìng)爭(zhēng)。如何把握消費(fèi)者偏好,創(chuàng)作出高質(zhì)量、受歡迎的影視作品是制片方始終要考慮的重大問(wèn)題。
與搜索型產(chǎn)品不同,電影屬于體驗(yàn)型產(chǎn)品,需要體驗(yàn)過(guò)之后才有具體的效用感知。影評(píng)作為一種重要的信息載體,傳達(dá)了評(píng)價(jià)者的情感態(tài)度,影響著潛在消費(fèi)者的購(gòu)買(mǎi)決策。已有研究說(shuō)明了在線電影短評(píng)的研究?jī)r(jià)值[1-4],這為影評(píng)的情感分析奠定了理論基礎(chǔ)。海量的在線影評(píng)也為研究分析提供了豐富的數(shù)據(jù)資源。對(duì)影評(píng)進(jìn)行情感分析能夠了解消費(fèi)者偏好,進(jìn)而為制片方制片和宣傳提供參考依據(jù),為消費(fèi)者購(gòu)票決策提供意見(jiàn)支持。
本文針對(duì)影評(píng)情感分析中對(duì)電影特征關(guān)注度不足,對(duì)文本粒度和情感強(qiáng)度劃分粗糙的現(xiàn)狀,從特征-觀點(diǎn)對(duì)視角,在文本粒度和情感強(qiáng)度兩個(gè)方面對(duì)中文影評(píng)進(jìn)行情感細(xì)粒度分析。
文本粒度、情感強(qiáng)度、分類(lèi)算法這三個(gè)方面的確定是完成情感分類(lèi)任務(wù)的三個(gè)漸進(jìn)子任務(wù)。鑒于此,本文將針對(duì)這三個(gè)方面的現(xiàn)有研究成果進(jìn)行述評(píng)。
情感分析中文本粒度的研究現(xiàn)狀主要分為兩個(gè)層次,分別為基于文檔級(jí)、句子級(jí)的粗粒度分析和基于評(píng)價(jià)對(duì)象及其屬性的細(xì)粒度分析。由于搜索型產(chǎn)品有產(chǎn)品說(shuō)明書(shū)作為屬性參考,所以基于評(píng)價(jià)對(duì)象及其屬性的細(xì)粒度分析主要針對(duì)搜索型產(chǎn)品的在線評(píng)論。在屬性細(xì)粒度文本分析的基礎(chǔ)上,尹裴等[5-6]又針對(duì)搜索型產(chǎn)品提出了基于本體的特征觀點(diǎn)對(duì)的情感分析方法。相對(duì)而言,對(duì)于體驗(yàn)型產(chǎn)品在線評(píng)論的文本研究粒度遠(yuǎn)不如搜索型產(chǎn)品。聶卉等[7]以書(shū)評(píng)為研究對(duì)象借助情感詞典與主題模型LDA(Latent Dirichlet Allocation)方法識(shí)別了正負(fù)情感傾向;樊振等[8]利用影評(píng)數(shù)據(jù)實(shí)現(xiàn)了評(píng)論文本的自動(dòng)標(biāo)注并提高了情感分類(lèi)的準(zhǔn)確性。但兩者的研究都未涉及屬性特征層面的分析。侯銀秀等[9]利用圖書(shū)評(píng)論語(yǔ)料實(shí)現(xiàn)了用戶對(duì)圖書(shū)屬性情感偏好的個(gè)性化推薦,但研究文本為英文,由于中英文之間的差異,研究成果較難直接應(yīng)用于中文評(píng)論。目前還沒(méi)有利用基于本體的特征觀點(diǎn)對(duì)的方法對(duì)體驗(yàn)型產(chǎn)品的在線評(píng)論進(jìn)行情感分析的研究。
情感分析的另一重要任務(wù)是對(duì)情感強(qiáng)度的界定,國(guó)內(nèi)外學(xué)者已經(jīng)對(duì)情感強(qiáng)度分類(lèi)進(jìn)行了深入的研究。這里的情感強(qiáng)度不僅指一種情感上的程度量化(如:開(kāi)心、比較開(kāi)心、很開(kāi)心等),而且指各種情感的分類(lèi)(如快樂(lè)、憤怒、焦慮、悲傷等)。鑒于人類(lèi)情緒的多維性、多變性,研究通常將情感強(qiáng)度進(jìn)行離散化,但是并沒(méi)有統(tǒng)一的分類(lèi)標(biāo)準(zhǔn)[10]。在情感強(qiáng)度劃分方面,目前比較有代表性的研究成果如表1所示。
表1 代表性的情感強(qiáng)度劃分對(duì)比Tab.1 Comparison of representative emotional intensity classifications
對(duì)于搜索型產(chǎn)品評(píng)論的情感強(qiáng)度劃分為二分類(lèi)(正負(fù))和三分類(lèi)(積極、消極、中性)即可滿足消費(fèi)者肯定或否定的態(tài)度識(shí)別;但對(duì)于體驗(yàn)型產(chǎn)品評(píng)論而言,此種劃分方式不足以描述消費(fèi)者豐富的體驗(yàn)情感。已有學(xué)者將更細(xì)膩的情感強(qiáng)度與產(chǎn)品評(píng)論相結(jié)合進(jìn)行研究,如:劉麗娜等[11]研究了滿意、失望、贊美、譴責(zé)、喜愛(ài)、討厭6 種離散情感在評(píng)論星級(jí)中的分布;聶卉等[7]研究了樂(lè)、好、怒、哀、懼、惡、驚7 種情感在圖書(shū)評(píng)論中的分布。因此,對(duì)于影評(píng)的情感強(qiáng)度劃分也應(yīng)考慮多分類(lèi)的情感強(qiáng)度。
分類(lèi)算法的準(zhǔn)確性是情感分類(lèi)任務(wù)能否完成的關(guān)鍵。對(duì)于影評(píng)的情感分類(lèi)問(wèn)題現(xiàn)有研究方法主要有:基于情感詞典、基于機(jī)器學(xué)習(xí)、基于神經(jīng)網(wǎng)絡(luò)以及算法融合四類(lèi)研究方法[16]?;谇楦性~典的研究方法主要通過(guò)擴(kuò)展情感詞典對(duì)影評(píng)進(jìn)行情感分析。如Mishra 等[17]擴(kuò)展了電影和酒店詞匯資源,提高了分類(lèi)準(zhǔn)確性?;跈C(jī)器學(xué)習(xí)用到的方法主要有樸素貝葉斯、決策樹(shù)、支持向量機(jī)等。如:Anand 等[18]基于聚類(lèi)方法實(shí)現(xiàn)了影評(píng)屬性的情感分類(lèi);Tripathy等[19]驗(yàn)證了在影評(píng)數(shù)據(jù)集中支持向量機(jī)比樸素貝葉斯算法分類(lèi)準(zhǔn)確度更高;García-Díaz 等[20]在影評(píng)數(shù)據(jù)集上訓(xùn)練了樸素貝葉斯分類(lèi)器,提高了情緒分析的準(zhǔn)確性?;谏窠?jīng)網(wǎng)絡(luò)的方法提升了模型的推廣能力。如:Lee 等[21]基于卷積神經(jīng)網(wǎng)絡(luò)計(jì)算了影評(píng)中句子整體的情感傾向。基于算法融合的方法相對(duì)于單一的算法能夠在一定程度上提高模型的準(zhǔn)確率。如:Khan 等[22]融合了機(jī)器學(xué)習(xí)與基于詞匯的方法提高了影評(píng)情感分類(lèi)的準(zhǔn)確性;Araque等[23]結(jié)合詞嵌入模型和線性機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的影評(píng)情感分類(lèi)。由于情感分析具有領(lǐng)域依賴(lài)性,不同的模型在不同的任務(wù)上有不同的表現(xiàn),對(duì)于方法的優(yōu)劣不能一概而論。
本體被人工智能領(lǐng)域引入特指概念化的規(guī)格說(shuō)明。已有國(guó)內(nèi)外學(xué)者對(duì)電影本體進(jìn)行了探索。如Pe?alver-Martinze等[24]提出了電影本體概念模型,屬性層面包括電影、導(dǎo)演、演員、影片類(lèi)型。姜霖等[25]構(gòu)建了內(nèi)容、形式、價(jià)值的本體模型。但存在如下不足:前者“電影”屬性包含范圍大、概念模糊;后者“內(nèi)容”屬性符合非專(zhuān)業(yè)人士觀影人群的評(píng)價(jià)認(rèn)知體系,但部分“形式”屬性、“價(jià)值”屬性在短評(píng)中較少體現(xiàn),直接應(yīng)用現(xiàn)有模型會(huì)造成特征混淆和特征稀疏。故本文在前人研究的基礎(chǔ)上,重新構(gòu)建屬性特征,并驗(yàn)證特征的有效性。
借鑒尹裴等[5]的研究并加以改進(jìn)。構(gòu)建電影本體四元組,即S ={Cid,Cterm,Csynanym,Chyponym}。其中:Cid表示特征唯一標(biāo)識(shí)符;Cterm表示特征;Csynanym為同義詞集;Chyponym為下位詞集。由于影評(píng)的特殊性,對(duì)于某一個(gè)特征詞如“演技”只用來(lái)形容人物,“彩蛋”只用來(lái)形容劇情,其標(biāo)識(shí)性唯一。因此,去掉隸屬度概念只基于特征構(gòu)建本體概念模型。電影本體概念模型示例如表2所示。
表2 電影本體概念模型示例Tab.2 Examples of movie ontology conceptual model
利用TF-IDF 算法、TextRank 算法對(duì)預(yù)處理后的文本提取關(guān)鍵詞。為了提高特征的代表性,取關(guān)鍵詞的交集作為候選特征詞。再考慮與電影特征有關(guān)的其他關(guān)鍵詞進(jìn)行人工篩選,構(gòu)建電影本體概念模型。電影本體概念模型的特征描述如表3所示。
表3 電影本體概念模型的特征描述Tab.3 Feature description of film ontology conceptual model
利用構(gòu)建的電影本體概念模型,分析觀影人重點(diǎn)關(guān)注的電影特征。由于中性評(píng)論難以說(shuō)明偏好,分析時(shí)不考慮中性情感的評(píng)論。觀影人對(duì)電影特征的關(guān)注度如圖1所示。
從圖1 可看出,觀影人對(duì)故事(story)屬性關(guān)注度最高,其次 是 題 材(theme)、人 物(character)、場(chǎng) 景(scene)、導(dǎo) 演(director)等特征。這說(shuō)明電影制作、影片宣傳要依次考慮故事、題材、人物、場(chǎng)景、導(dǎo)演五個(gè)方面的特征;若資源有限應(yīng)優(yōu)先考慮影片故事、題材、人物三個(gè)方面的特性,抓住觀影人的眼球。
圖1 觀影人對(duì)電影特征的關(guān)注度Fig. 1 Viewer's attention to movie's features
至此,本文融合了前人在電影領(lǐng)域的本體概念模型和在搜索型產(chǎn)品領(lǐng)域的本體建模方法,構(gòu)建了電影本體概念模型。為下一步在電影特征層面識(shí)別觀影人電影屬性偏好做好基礎(chǔ)工作。
為細(xì)化當(dāng)前三分類(lèi)(積極、消極、中性)為主的情感強(qiáng)度劃分現(xiàn)狀,本文借鑒了普魯契克多維度情緒模型,首次將其引入到電影影評(píng)的情感偏好研究,以實(shí)現(xiàn)情感強(qiáng)度上更細(xì)粒度的劃分。
Plutchik被認(rèn)為是情感研究領(lǐng)域的思想領(lǐng)袖,提出了情緒心理進(jìn)化理論和一種多維度情緒模型,即著名的“普魯契克情感之輪”[5,15]。本文在考慮情感詞典情感值的基礎(chǔ)上,選取該模型作為情感強(qiáng)度劃分的標(biāo)準(zhǔn)。根據(jù)Plutchik 提出的多維度情緒模型,將情感強(qiáng)度(1:積極,0:中性,-1:消極)三分類(lèi)拓展為(-4~4)八分類(lèi),其中(+4:狂喜,-4:悲痛)、(+3:欽佩,-3:厭惡)、(+2:令人驚異,-2:警惕)、(+1:恐怖,-1:憤怒),0代表中性,來(lái)進(jìn)行更細(xì)粒度的情感分類(lèi)。影評(píng)的情感態(tài)度不同于普通產(chǎn)品評(píng)論的情感態(tài)度,如:“恐怖”在一般產(chǎn)品評(píng)論中為負(fù)向情感,而在影評(píng)評(píng)論中該詞反映了電影的情節(jié)吸引力或令人印象深刻的視聽(tīng)效果,對(duì)于一部電影的制作是一種肯定的評(píng)價(jià),所以情感值為+1。
為實(shí)現(xiàn)在特征粒度層面和多維度情感強(qiáng)度下的細(xì)粒度情感分類(lèi)模型,本文提出了一個(gè)將電影特征屬性和普魯契克多維度情緒模型與雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)融合的算法。具體思路為:利用電影本體概念模型,在情感詞典中匹配特征觀點(diǎn)對(duì),得到電影特征屬性偏好;利用普魯契克多維度情緒模型按2.2 節(jié)的劃分標(biāo)準(zhǔn),將情感值細(xì)化為八分類(lèi);再利用Bi-LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類(lèi)。
在此基礎(chǔ)上,為驗(yàn)證該模型的有效性,文章還設(shè)計(jì)了單純基于情感詞典、機(jī)器學(xué)習(xí)、Bi-LSTM網(wǎng)絡(luò)的3種算法,在整體粒度和三分類(lèi)情感強(qiáng)度下的分類(lèi)模型。具體闡述如下:
1)基于情感詞典的方法:采用BosonNLP 情感詞典(玻森情感詞典)匹配特征觀點(diǎn)對(duì)。該詞典是從微博、新聞、論壇等數(shù)據(jù)來(lái)源的上百萬(wàn)篇情感標(biāo)注數(shù)據(jù)中自動(dòng)構(gòu)建的情感極性詞典,共包括114 767個(gè)詞語(yǔ),滿足日常評(píng)論的常用語(yǔ)覆蓋。
2)基于機(jī)器學(xué)習(xí)的方法:本文采用了5 種特征提取算法構(gòu)建文本特征。其中:①利用詞頻(Term Frequency,TF)計(jì)算某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的次數(shù);②利用潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)通過(guò)分析文章來(lái)挖掘文章的潛在語(yǔ)義;③利用詞頻逆文檔頻率詞頻-逆文檔頻度(TFInverse Document Frequency,TF-IDF)計(jì)算一個(gè)詞對(duì)于文檔集中某個(gè)文檔的重要程度;④利用主題模型LDA 計(jì)算文檔集中每篇文檔的主題概率分布;⑤利用Doc2Vec 計(jì)算句子向量表達(dá),通過(guò)計(jì)算向量之間的距離來(lái)找句子之間的相似性。
3)基于Bi-LSTM 網(wǎng)絡(luò)的方法:引入基于人民日?qǐng)?bào)預(yù)訓(xùn)練的詞向量,利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。Bi-LSTM是長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的一種改進(jìn),能更好地對(duì)序列數(shù)據(jù)進(jìn)行表達(dá),尤其是有語(yǔ)言順序的文本數(shù)據(jù)。通過(guò)Bi-LSTM 可以更好地捕捉雙向的語(yǔ)義依賴(lài)。
首先,對(duì)文本進(jìn)行預(yù)處理;接著,提取電影特征,構(gòu)建電影本體概念模型;然后,分別從文本粒度和情感強(qiáng)度兩個(gè)方面進(jìn)行粒度細(xì)化。其中,文本粒度指影評(píng)句子整體和影評(píng)特征屬性的不同劃分。實(shí)驗(yàn)基本流程如圖2所示。
圖2 實(shí)驗(yàn)基本流程Fig.2 Basic flowchart of the experiment
1)數(shù)據(jù)獲取:選取國(guó)內(nèi)影響力較大的電影網(wǎng)站——豆瓣電影,以最近熱門(mén)電影作為實(shí)驗(yàn)對(duì)象。通過(guò)網(wǎng)絡(luò)爬蟲(chóng)爬取了201 部電影影評(píng),去掉只有數(shù)字和詞數(shù)小于2 的評(píng)論,最終得到32 762條在線短評(píng)數(shù)據(jù)。
2)標(biāo)簽標(biāo)注:以星級(jí)評(píng)分作為標(biāo)注信息,將其分為三種情感強(qiáng)度:1、2 星級(jí)標(biāo)注為-1,4、5 星級(jí)標(biāo)注為+1,3 星級(jí)標(biāo)注為0。隨機(jī)對(duì)其中的6 070 條評(píng)論進(jìn)行人工標(biāo)注,標(biāo)注時(shí)基于前文構(gòu)建的本體模型進(jìn)行情感打分(消極:-1,積極:1,中性:0),以屬性值的線性加和作為本條評(píng)論的總體情感傾向。并通過(guò)了Kappa 統(tǒng)計(jì)量的一致性檢驗(yàn),說(shuō)明了標(biāo)注信息的無(wú)偏性。對(duì)標(biāo)注比例進(jìn)行統(tǒng)計(jì),其中,中性情感占34.78%,積極情感占44.12%,消極情感占21.10%,說(shuō)明標(biāo)注類(lèi)別基本平衡。
3)預(yù)處理過(guò)程:分詞(jieba,結(jié)巴分詞)→去停用詞(利用自己構(gòu)建的停用詞表)→詞性標(biāo)注。
4)實(shí)驗(yàn)環(huán)境:Python3.6、Pycharm。
實(shí)驗(yàn)將數(shù)據(jù)劃分為75%的訓(xùn)練集和25%的驗(yàn)證集,模型評(píng)估指標(biāo)為F1值。下文報(bào)告的準(zhǔn)確率均為10 折交叉驗(yàn)證后模型在驗(yàn)證集上的F1值。
3.3.1 基于影評(píng)整體層級(jí)的情感分類(lèi)
實(shí)驗(yàn)1(dic) 利用情感詞典的方法。將預(yù)處理后的評(píng)論與BosonNLP 情感詞典匹配,以標(biāo)記信息作為標(biāo)簽,計(jì)算影評(píng)整體的情感傾向。
實(shí)驗(yàn)2(ml) 利用機(jī)器學(xué)習(xí)的方法。通過(guò)2.3 節(jié)中提及的特征工程對(duì)預(yù)處理后的文本提取電影特征。具體思路如下:提取詞頻特征(TF),利用LDA 主題模型降維為L(zhǎng)DA 特征;提取詞頻逆文檔頻率特征(TF-IDF),利用截?cái)嗥娈愔捣纸猓═runcated Singular Value Decomposition,TSVD)降維為L(zhǎng)SA特征;利用Doc2vec 算法將原始數(shù)據(jù)數(shù)字化為Doc2vec 特征。最后,將LDA、LSA、Doc2vec 三種特征進(jìn)行融合,并將得到的特征轉(zhuǎn)換為稀疏矩陣,合并到TF-IDF 特征中,完成特征組合。最后,使用LinearSVC(Linear Support Vector Classifier)算法進(jìn)行分類(lèi)。
實(shí)驗(yàn)3(nn) 利用神經(jīng)網(wǎng)絡(luò)的方法。引入人民日?qǐng)?bào)預(yù)訓(xùn)練的詞向量,基于kashgari 開(kāi)源框架,利用Bi-LSTM 模型進(jìn)行數(shù)據(jù)訓(xùn)練。
實(shí)驗(yàn)結(jié)果分析:實(shí)驗(yàn)1(dic)的準(zhǔn)確率為48.7%。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),僅用情感詞典對(duì)影評(píng)進(jìn)行整體粗粒度分析結(jié)果很不理想。實(shí)驗(yàn)2(ml)的準(zhǔn)確率為55.1%。與實(shí)驗(yàn)1(dic)相比,模型分類(lèi)的準(zhǔn)確率有6.4 個(gè)百分點(diǎn)的提升,說(shuō)明基于機(jī)器學(xué)習(xí)的方法能學(xué)習(xí)到更多的數(shù)據(jù)特征,但模型準(zhǔn)確率仍不理想。實(shí)驗(yàn)3(nn)的準(zhǔn)確率為93.7%;與實(shí)驗(yàn)2(ml)相比,模型分類(lèi)的準(zhǔn)確率有38.6 個(gè)百分點(diǎn)的提升,實(shí)驗(yàn)結(jié)果較理想,但基于整體層級(jí)的影評(píng)分析,不能滿足當(dāng)前市場(chǎng)分析的需求。
3.3.2 基于影評(píng)特征層級(jí)的情感分類(lèi)及情感強(qiáng)度細(xì)分
由于需要特征屬性情感值的標(biāo)簽,以下實(shí)驗(yàn)以人工標(biāo)注的數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。
實(shí)驗(yàn)4(dic+tz) 利用情感詞典的方法。在實(shí)驗(yàn)1(dic)的基礎(chǔ)上,利用電影本體概念模型匹配特征觀點(diǎn)對(duì),計(jì)算特征層面的情感傾向。
實(shí)驗(yàn)5(nn+tz) 融合情感詞典的神經(jīng)網(wǎng)絡(luò)模型。在整體層級(jí)分類(lèi)表現(xiàn)最好的模型(即實(shí)驗(yàn)3(nn))的基礎(chǔ)上,結(jié)合實(shí)驗(yàn)4(dic+tz)匹配到的特征觀點(diǎn)對(duì)進(jìn)行特征層面的情感分析,并設(shè)置情感強(qiáng)度為積極、消極、中性三個(gè)等級(jí)。
實(shí)驗(yàn)6(nn+tz+ei) 情感強(qiáng)度細(xì)分實(shí)驗(yàn)。在實(shí)驗(yàn)5(nn+tz)構(gòu)建的Bi-LSTM 模型的基礎(chǔ)上,根據(jù)Plutchik 提出的多維度情緒模型,利用情感詞原有的分值進(jìn)行情感強(qiáng)度細(xì)分,分值所代表的情感按2.2 節(jié)的說(shuō)明進(jìn)行劃分,情感強(qiáng)度范圍為-4~4,在情感強(qiáng)度層面進(jìn)行研究。
實(shí)驗(yàn)結(jié)果分析:實(shí)驗(yàn)4(dic+tz)的平均準(zhǔn)確率為78.5%,與同利用情感詞典方法的實(shí)驗(yàn)1(dic)對(duì)比可知,基于特征層級(jí)的情感分類(lèi)比基于整體層級(jí)的情感分類(lèi)準(zhǔn)確率提高了29.8個(gè)百分點(diǎn)。這不僅驗(yàn)證了本文構(gòu)建的本體概念模型的有效性,而且也說(shuō)明了基于特征層面的細(xì)粒度情感分類(lèi)更容易識(shí)別評(píng)論人的情感傾向。實(shí)驗(yàn)5(nn+tz)的平均準(zhǔn)確率為90.2%,模型準(zhǔn)確率雖略小于整體層級(jí)的最優(yōu)結(jié)果,但比基于特征層級(jí)的情感詞典方法(即實(shí)驗(yàn)4(dic+tz))的準(zhǔn)確率提高了11.7 個(gè)百分點(diǎn)且分類(lèi)效果也較理想?;谔卣鲗用娴那楦蟹治鲇欣诹私庀M(fèi)者在電影各個(gè)特征層級(jí)的情感偏好,更有助于市場(chǎng)分析。實(shí)驗(yàn)6(nn+tz+ei)的平均準(zhǔn)確率為93.0%。其中,情感強(qiáng)度高的情感詞能被完全識(shí)別,相對(duì)于情感強(qiáng)度三分類(lèi)的融合算法(即實(shí)驗(yàn)5(nn+tz))準(zhǔn)確率提高了2.8 個(gè)百分點(diǎn)。這說(shuō)明對(duì)情感強(qiáng)度細(xì)化分類(lèi)準(zhǔn)確率仍有提升空間,即多維情感強(qiáng)度細(xì)粒度有利于實(shí)現(xiàn)更準(zhǔn)確的情感分類(lèi)。
實(shí)驗(yàn)4(dic+tz)匹配到的特征觀點(diǎn)對(duì)的舉例說(shuō)明如表4 所示,為了便于閱讀,對(duì)語(yǔ)序稍作一些調(diào)整。實(shí)驗(yàn)4 在特征層級(jí)的準(zhǔn)確率如表5所示。
從表6所示的實(shí)驗(yàn)結(jié)果可看出:
1)實(shí)驗(yàn)3(nn)基于神經(jīng)網(wǎng)絡(luò)對(duì)影評(píng)整體層級(jí)進(jìn)行情感分類(lèi)的模型表現(xiàn)最好,但它無(wú)法區(qū)別電影特征層面的情感傾向。實(shí)驗(yàn)6(nn+tz+ei)分類(lèi)效果也較理想,并實(shí)現(xiàn)了基于影評(píng)特征和情感強(qiáng)度的情感細(xì)粒度劃分,驗(yàn)證了研究的理論價(jià)值和實(shí)踐意義。
2)在相同文本粒度和情感強(qiáng)度水平上,基于情感詞典、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)算法的分類(lèi)準(zhǔn)確率逐步提升,如實(shí)驗(yàn)1(dic)、實(shí)驗(yàn)2(ml)、實(shí)驗(yàn)3(nn)的模型分類(lèi)結(jié)果對(duì)比,實(shí)驗(yàn)4(dic+tz)和實(shí)驗(yàn)5(nn+tz)的模型分類(lèi)結(jié)果對(duì)比。這說(shuō)明隨著模型復(fù)雜度增大,學(xué)習(xí)到的數(shù)據(jù)特征越多,分類(lèi)越準(zhǔn)確。
3)在不同文本粒度和情感強(qiáng)度水平上,即使用同一種算法進(jìn)行處理,其分類(lèi)準(zhǔn)確度也會(huì)隨粒度細(xì)化得到一定幅度提升,例如:實(shí)驗(yàn)1(dic)和實(shí)驗(yàn)4(dic+tz)的對(duì)比,同用情感詞典的方法對(duì)不同文本粒度進(jìn)行分析,結(jié)果從48.7%提升到78.5%,準(zhǔn)確率提升29.8 個(gè)百分點(diǎn)。實(shí)驗(yàn)5(nn+tz)和實(shí)驗(yàn)6(nn+tz+ei)的比對(duì),同用詞典與神經(jīng)網(wǎng)絡(luò)融合的算法對(duì)不同情感強(qiáng)度劃分水平進(jìn)行分析,結(jié)果從90.2%提升到93.0%,準(zhǔn)確率提升2.8 個(gè)百分點(diǎn)。以上兩點(diǎn)再次說(shuō)明了情感分析任務(wù)從文本粒度和情感強(qiáng)度兩個(gè)角度對(duì)文本進(jìn)行細(xì)化研究的科學(xué)性。
表4 特征觀點(diǎn)對(duì)(舉例)Tab.4 Feature view pairs(examples)
表5 實(shí)驗(yàn)4特征層級(jí)的準(zhǔn)確率 單位:%Tab.5 Accuracy in the experiment 4 on feature level unit:%
表6 模型實(shí)驗(yàn)結(jié)果匯總表Tab.6 Summary of model experiment results
本文以在線電影短評(píng)為研究對(duì)象,利用基于本體的特征觀點(diǎn)對(duì)的研究方法,在不同文本粒度和不同情感強(qiáng)度上進(jìn)行細(xì)粒度情感分類(lèi)研究,細(xì)化了影評(píng)情感分類(lèi)的粒度,有利于制片方電影制作和宣傳,同時(shí)為消費(fèi)者購(gòu)票決策提供意見(jiàn)參考。本文研究結(jié)論如下:
首先,通過(guò)構(gòu)建電影本體概念模型,分析得出:觀影人對(duì)電影本體特征的關(guān)注度依次為故事(story)、題材(theme)、人物(character)、場(chǎng)景(scene)、導(dǎo)演(director)特征。其次,本文提出了一種針對(duì)影評(píng)本體特征和融合普魯契克多維度情緒模型的情感分類(lèi)模型。同時(shí),對(duì)比分析了不同文本粒度、不同情感強(qiáng)度、不同實(shí)驗(yàn)方法對(duì)分類(lèi)準(zhǔn)確率的影響。實(shí)驗(yàn)結(jié)果表明,本文提出的分類(lèi)模型,不僅具有較高準(zhǔn)確率,而且還能提供觀影人對(duì)電影本體特征和情感強(qiáng)度的偏好,實(shí)現(xiàn)了影評(píng)更細(xì)粒度的情感分類(lèi)。
由于時(shí)間和人力限制,實(shí)驗(yàn)所用數(shù)據(jù)集較小,實(shí)驗(yàn)所用方法有限。其次,電影特征中“人物(character)”特征的劃分沒(méi)有將表演人員和電影中塑造的人物相區(qū)別,希望在未來(lái)的研究中能夠加以完善。