黑珍珍 孫琦
摘要:本文以豆瓣網(wǎng)為實(shí)例,通過爬蟲技術(shù),爬取豆瓣網(wǎng)上具有代表性的兩部電影的短評數(shù)據(jù),對其進(jìn)行文本情感分析,了解觀眾評論中的情感傾向?qū)τ诙拱昃W(wǎng)上電影各個方面數(shù)據(jù)的影響,電影票房在這些影響下呈現(xiàn)出什么樣的狀態(tài)。
關(guān)鍵詞:電影;文本情感;票房
據(jù)中商情報網(wǎng)2018年1月31日有關(guān)《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r分析》一文中提到:截止2017年12月,中國網(wǎng)民規(guī)模達(dá)到7.72億人,全年共計新增網(wǎng)民4074萬人。與此同時根據(jù)國家新聞出版廣電總局電影局2017年12月31日晚發(fā)布的數(shù)據(jù)顯示,2017年全國電影總票房為559.11億元,同比增長13.45%;國產(chǎn)電影票房301.04億元,占票房總額的53.84%;票房過億元影片92部,其中國產(chǎn)電影51部;城市院線觀影人次16.2億,同比增長18.08%。國產(chǎn)電影海外票房和銷售收入42.53億元,同比增長11.19%。[1]
豆瓣網(wǎng)是一個集結(jié)了大部分年輕人的社交平臺,其用戶對于電影的評論,也代表著國內(nèi)大多數(shù)年輕人的想法,這些數(shù)據(jù)是做文本情感分析的極好的樣本。
一、電影和情感文本分析技術(shù)現(xiàn)狀概述
(一)電影發(fā)展史及現(xiàn)狀
電影是19世紀(jì)美國國民生活水平質(zhì)量上升,滿足溫飽的前提下,為了滿足大眾精神層次上的需求應(yīng)運(yùn)而生的娛樂產(chǎn)物。作為政治、經(jīng)濟(jì)、文化三位一體的產(chǎn)物,商人看到了電影行業(yè)巨大的潛在利益,政治家看到了電影獨(dú)特的意識形態(tài),創(chuàng)作者將個人的價值思想寄托在電影中傳播給世界,每個人都是電影行業(yè)發(fā)展的推動者。在這樣的時代背景中,電影獲得了飛躍式的發(fā)展。而近些年來由于電腦技術(shù)的發(fā)展,使得電腦特技在電影領(lǐng)域愈受追捧。
(二)文本情感技術(shù)
文本情感分析又可稱作意見挖掘、傾向性分析,是人們自身的觀點(diǎn),情緒,評估對諸如產(chǎn)品,服務(wù),事件等實(shí)體的態(tài)度。大數(shù)據(jù)時代中互聯(lián)網(wǎng)上沉淀了大量用戶對于人物、事件、產(chǎn)品等有價值的評論信息,而通過瀏覽這些帶有主觀性色彩的文本信息,潛在用戶便可以了解大眾輿論對于某一事件或產(chǎn)品的看法。
在2018 全球人工智能與機(jī)器人峰會上秦兵教授說過,人們的情感表達(dá)中有20%-30%是沒有情感詞的,它屬于隱式情感,而隱式情感多使用事實(shí)型陳述和語言修辭表達(dá)。[2]
本文所選擇的研究主體為豆瓣網(wǎng)的短評。短評的字?jǐn)?shù)限制在200字以內(nèi),而大多數(shù)人在短評中僅僅只會提到最直觀的感受,所以大多短評的字?jǐn)?shù)都在二三十個字左右。這樣簡潔卻飽含情感傾向的句子是做情感分析的最好的對象。
本文通過基于情感詞典的情感分析方法來進(jìn)行情感分析。計算方法就是通過構(gòu)建一個包含各類情緒的情感詞典,制定評價規(guī)則,對文本進(jìn)行拆句、分析及匹配詞典,通過分析文本中的正向情感詞和負(fù)向情感詞數(shù)目來計算情感值,從而得到每部電影正向、負(fù)向和中立情緒的比例,最后以情感值來作為文本評論數(shù)據(jù)情感傾向判斷的依據(jù)。[3]
二、數(shù)據(jù)采集和處理
(一)數(shù)據(jù)采集與清洗
利用python爬蟲從豆瓣網(wǎng)上爬取《我不是藥神》和《李茶的姑媽》兩部電影的短評論,以這些數(shù)據(jù)為基礎(chǔ),在整理和加工之后,做分析。
得到數(shù)據(jù)之后我們要將獲得的數(shù)據(jù)進(jìn)行處理,選出有用的部分。使用re正則表達(dá)式對數(shù)據(jù)進(jìn)行清洗,主要是刪除不必要的逗號、句號、表情,只留下中文或者英文內(nèi)容。在python中,通過內(nèi)嵌集成re模塊,可以直接調(diào)用來實(shí)現(xiàn)正則匹配,對于不完整的數(shù)據(jù)和無效數(shù)據(jù)進(jìn)行剔除,確保留下來的數(shù)據(jù)的有效性。
(二)數(shù)據(jù)可視化
詞云是對數(shù)據(jù)文本中出現(xiàn)的頻率比較高的關(guān)鍵詞放大,以更加夸張的視覺效果表現(xiàn)出來,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,通過過濾掉大量冗雜的文本信息,使瀏覽的人能非常直觀的看出文本中哪些信息的頻次較高。我們將整理出來的數(shù)據(jù),制作成詞云圖,這樣就可以清晰的看出大多數(shù)人對于這個電影的印象。圖1就是用爬取下來的數(shù)據(jù)制成的詞云圖,主要由數(shù)據(jù)樣本中的高頻詞匯組成。詞語出現(xiàn)的頻次代表了單詞在圖片中字體的大小,圖中的字體越大,說明該詞匯在數(shù)據(jù)樣本中出現(xiàn)的頻次越高。從下圖可以清楚的看到,觀眾對于《李茶的姑媽》的評價的高頻詞匯大多是負(fù)面的。
(三)snownlp庫情感分析功能解析
snownlp是一個python寫的類庫,全稱叫Simplified Chinese Text Processing譯作簡體中文文本處理。該庫可以方便的處理中文文本內(nèi)容,并且自帶了一些訓(xùn)練好的數(shù)據(jù),主要是買賣東西時用戶的評價。它的功能包括分詞、詞性標(biāo)注、情緒判斷、短句、拼音、繁體轉(zhuǎn)簡體、關(guān)鍵詞抽取、概括總結(jié)文章、文本相似性等。本文的情感分析就是在這個庫的支持下完成的。
Snownlp中使用的是樸素貝葉斯的分類算法。依據(jù)樸素貝葉斯定律,設(shè)訓(xùn)練樣本集分為k類,記為C={C1, C2, …Ck},則每個類Ci的先驗概率為P(Ci),i=1, 2, …, k。對于新樣本d,其屬于Ci類的條件概率是P(d|Ci)。根據(jù)貝葉斯定理,Ci類的后驗概率為P(Ci|d)。則
P(d)對于所有的類都是常數(shù),可以忽略。樣本d是一個由特征項W1, W2, ……, Wm組成的向量d=(W1, W2, ……, Wj, ……, Wm)。樸素貝葉斯分類器(Na?ve Bayes classifier,NBC)假設(shè)特征對于給定類的影響?yīng)毩⒂谄渌卣?,即特征?dú)立性假設(shè)。對文本分類來說,它假設(shè)各個特征之間兩兩獨(dú)立。則
(四)情感分析
判別所獲取的數(shù)據(jù)樣本中的情緒偏向性時,我們使用snownlp庫中的情緒判斷功能,通過大量積極樣本和消極樣本數(shù)據(jù)訓(xùn)練過的樸素貝葉斯模型可以很好的預(yù)測文本的情感傾向,積極樣本:稱賞、出眾、得宜、合適;消極樣本:鄙賤、不周、粗淺、泛泛。圖中的橫坐標(biāo)表示的是文本情感為積極的可能性,1.0為最高,0為最低,縱坐標(biāo)表示的是分析數(shù)據(jù)的數(shù)量。通過觀察分析下面的圖表,我們可以清楚的看到,圖2中《李茶的姑媽》的文本情感分析圖中的數(shù)據(jù)從0到1分布不等,其中聚集在兩端的數(shù)據(jù)量較多,而其中又以聚集在0上的數(shù)據(jù)最多,我們可以推斷不喜歡這部電影的觀眾居多,但仍有小部分粉絲愿意買賬。
三、文本情感與電影票房的關(guān)系
(一)文本情感與電影評分的相關(guān)性
就目前而言電影《我不是藥神》的豆瓣評分為9.0分,而《李茶的姑媽》豆瓣評分為4.7分。通過對比進(jìn)行數(shù)據(jù)分析可以非常清晰的看出,當(dāng)一部電影評論中的文本情感大多都是積極的時候,電影的評分便呈現(xiàn)出一個比較好的趨勢。而當(dāng)一部電影的評論中的文本情感消極情緒占比較高的情況下,電影的評分便顯得不盡人意。由此我們可以知道,一部電影的評分與觀眾的情感是成正相關(guān)的,觀眾評論中的積極情感越多,說明電影越受喜歡,觀眾評論中的消極情感越多,說明電影越不被人喜愛。
(二)文本情感與豆瓣網(wǎng)上相關(guān)數(shù)據(jù)的聯(lián)系
通過之前的對比我們可以將《我不是藥神》這部電影作為評論中積極情感較多的標(biāo)志,將《李茶的姑媽》這部電影作為評論中消極情感較多的代表,然后對比兩部電影。以此為前提的情況下,分析文本情感與其余數(shù)據(jù)的相關(guān)聯(lián)系。可以得出結(jié)論,對于電影來說,其文本情感中的積極情感和消極情感的占比在一定程度上代表了電影的評分。通過討論區(qū)的討論條數(shù)和整部電影的評價人數(shù)進(jìn)行計算,我們可以大致模糊的得出人們對于電影討論的一個概率?!段也皇撬幧瘛窞?.003,《李茶的姑媽》為0.002可以得出,評論中的積極情感越多人們對于電影的印象越好,越能調(diào)動起人們討論的欲望。
四、結(jié)論
通過這次對于兩部電影數(shù)據(jù)的爬取和分析,本文以豆瓣網(wǎng)為例分析了電影短評中的文本情感和豆瓣網(wǎng)上所呈現(xiàn)的各種類型的數(shù)據(jù)之間的相關(guān)聯(lián)系。但是本次研究仍然還有許多不足之處需要好好反思:①事前沒有做好準(zhǔn)備工作,并不清楚出豆瓣網(wǎng)對于短評的數(shù)據(jù)只開放五百條,導(dǎo)致了數(shù)據(jù)量太少,不夠客觀。②選擇豆瓣網(wǎng)上的用戶作為研究對象并不能代表廣大群眾,豆瓣網(wǎng)上的用戶較為集中,大多都為白領(lǐng)、學(xué)生一族。而電影的受眾群體不僅只是學(xué)生白領(lǐng),相對來說研究對象有些狹窄。
參考文獻(xiàn):
[1]2017年全國總票房559.11億元同比增長13.45%[J].廣電時評,2018(1).
[2]2018全球人工智能與機(jī)器人峰會在深圳召開[J].信息技術(shù)與信息化,2018,No.220(07):8.
[3]馮莎.豆瓣電影評論文本的情感分析研究——基于2017年電影《乘風(fēng)破浪》爬蟲數(shù)據(jù)[J].中國統(tǒng)計,2017(7):30-33.