摘 要:彈幕作為視頻網(wǎng)站與用戶互動的新興媒介,具有一般評論不可具有的實時互動性。同時彈幕更多是用戶基于視頻場景的共鳴,富有情緒化。本文嘗試利用彈幕的情感分析技術(shù),結(jié)合群體智慧,利用協(xié)同推薦,更好內(nèi)容與用戶。
關(guān)鍵詞:彈幕;互動;情感分析;協(xié)同推薦
一、引言
彈幕(barrage),類似于小說中行間彰顯的夾批,它是視頻中屏間飄過的評論點,是用戶在觀看視頻網(wǎng)站時候所產(chǎn)生的基于視頻內(nèi)容所產(chǎn)生用戶評論。大量吐槽評論從屏幕飄過時效果看上去像是飛行射擊游戲里的彈幕。
彈幕評論具有一般評論不可具有的實時性,更能準確的具體反應(yīng)用戶在觀看視頻的即時情感和褒貶評價。
現(xiàn)有的關(guān)于彈幕的研究主要集中在文化價值定性的研究上,研究多從彈幕本身的形式和功能入手,研究用戶的動機和行為,關(guān)于彈幕作為評論的量化分析的研究少有。文本情感分析方面,研究對象的選取主要是商品評論、微博文本等常見文本,對彈幕文本在情感分析方面的關(guān)注度尚有不足。對于用戶的個性化推薦,主要集中在于收集用戶的個人信息,了解用戶的偏好選擇,并根據(jù)用戶需求即時的調(diào)整推薦內(nèi)容和服務(wù)方式更好滿足用戶的需求。這樣就忽略了群體智慧和結(jié)晶,如果能夠結(jié)合群體智慧,結(jié)合人的社會屬性,同時挖掘單個用戶之前的產(chǎn)生的信息基礎(chǔ)之上,使兩者有機的結(jié)合起來,這樣就可以更好,更合理利用大眾智慧為用戶提供更加合理化的推薦策略。
二、數(shù)據(jù)處理及研究方法
(一)數(shù)據(jù)處理和研究方法框架
1.數(shù)據(jù)來源
首先是彈幕數(shù)據(jù)的選取,選取的是《爸爸去哪兒》這一綜藝節(jié)目第四季共13集所有集數(shù)的彈幕。
2.選取數(shù)據(jù)來源理由
(1)全面性(2)唯一性(3)可得性
個人用戶評論數(shù)據(jù)的選取,由于優(yōu)酷對于個人彈幕用戶的數(shù)據(jù)保護,無法抓取個人的彈幕數(shù)據(jù),所以選取的是豆瓣網(wǎng)上兩位用戶的影視評論數(shù)據(jù)作為替代。
(二)推薦指數(shù)計算
通過對《爸爸去哪兒》第四季彈幕進行特征級別情感分析,主要是通過統(tǒng)計評價對象中正負面信息的數(shù)量,進而發(fā)現(xiàn)大眾對于明星真人秀節(jié)目要素的認可度。同時收集個人用戶的評論信息,通過對評價對象的詞頻統(tǒng)計了解該用戶收視需求所關(guān)注的主要元素。因此,通過統(tǒng)計評價對象的詞頻數(shù)可以發(fā)現(xiàn)用戶的關(guān)注興趣,利用每個屬性占所有詞頻統(tǒng)計的百分比作為推薦指數(shù)的權(quán)重wi。
(三)數(shù)據(jù)處理和操作
使用python在“優(yōu)酷”視頻網(wǎng)站中爬取綜藝節(jié)目《爸爸去哪兒》(第四季)中所出現(xiàn)彈幕文本數(shù)據(jù)。
對所得文本數(shù)據(jù)進行預處理操作:
彈幕短文本:口語化,用詞不規(guī)范,自稱體系。因此需要構(gòu)建彈幕情感詞典。
借鑒鄭飏飏等處理彈幕文本的方法,對所得文本數(shù)據(jù)進行預處理操作:隨機抽取彈幕文本10000條,使用分詞工具python結(jié)巴分詞完成彈幕去除停用詞,添加自定義詞典,進行分詞、標注詞性等工作。
通過觀察彈幕數(shù)據(jù),我們從形容詞、動詞和感嘆詞中詞語選取具有明顯情感傾向進入彈幕情感詞典,并將其分為正向情感詞和負向情感詞。
正向情感詞:666,可愛,親和等,負向的情感詞,不好看差評等。
從名詞中抽取明星真人秀的節(jié)目要素,首先參考姜霖,對于一般藝術(shù)作品的研究分類,將其分為內(nèi)容、形式、價值、三大類。
結(jié)合豐家喜對于明星真人秀研究,按所得詞詞義、筆者理解等將其分為服裝、廣告、后期、情節(jié)、人物、剪輯、拍攝,等共計7類節(jié)目要素特征。
在彈幕情感詞典中,根據(jù)正向或負向的情感分類分別對彈幕文本中的每個情感詞予以1或-1的分值,根據(jù)節(jié)目要素詞典,將彈幕文本中的相應(yīng)關(guān)鍵詞替換為對應(yīng)的節(jié)目要素,統(tǒng)計節(jié)目要素詞的正向負向的次數(shù),記為QP表示節(jié)目要素正向(Positive)的個數(shù),QN表示節(jié)目要素負向(Negative)的個數(shù)。通過對彈幕文本的抽取替換處理,將完成賦值的彈幕文本數(shù)據(jù)按照節(jié)目要素詞進行分類,統(tǒng)計次數(shù),通過對統(tǒng)計數(shù)據(jù)的分析,發(fā)現(xiàn)《爸爸去哪兒》彈幕的正面評價多于負面評價,這樣符合其在豆瓣平臺上的7點多的評分。
同時我們通過網(wǎng)絡(luò)爬蟲采集豆瓣網(wǎng)上兩位用戶的評論信息進行節(jié)目要素特征進行詞頻統(tǒng)計。我們選取的兩位豆瓣用戶中“柏邦妮”是知名度較高的業(yè)余影評人,共發(fā)表評論 307 篇;福根兒,是一名愛好電影的普通用戶, 發(fā)表了 48 篇電影評論。對于兩位用戶的評價對象進行詞頻統(tǒng)計,統(tǒng)計相應(yīng)的對象以及他們所占的權(quán)重Wi。
在對人物評價對象進行詞頻統(tǒng)計時考慮到真人秀節(jié)目主要是該季的明星嘉賓相對較窄,而個人影視人物評價相對較廣,通過對分詞的詞性標記,從名詞中抽取人物名稱包括演職人員和電影中的人物角色,通過人工篩選并對其進行詞頻統(tǒng)計構(gòu)建評價詞典。其余評價對象借鑒明星真人秀綜藝節(jié)目詞典進行詞頻統(tǒng)計。
通過分析結(jié)果我們發(fā)現(xiàn)柏邦妮和福根兒對于人物都比較關(guān)注,而其他評價對象的關(guān)注各有所不同。
然后我們將統(tǒng)計出來的權(quán)重帶入到推薦指數(shù)的計算公式中,這樣就可以算出整季《爸爸去哪兒》的推薦指數(shù),以及單集的推薦指數(shù)。
三、結(jié)論
綜上結(jié)果所述我們發(fā)現(xiàn):
1.人物方面
人物所占比重最高,不論是彈幕內(nèi)容,還是用戶個人影評,說明人物對于明星真人秀的重要性。節(jié)目組要重視明星人選,好的明星人選是收視的保障。
2.節(jié)目情節(jié)方面
我們發(fā)現(xiàn)彈幕用戶群體負向情感略高于正向情感,說明節(jié)目情節(jié)設(shè)計需要改進。
節(jié)目情節(jié)設(shè)計,最能引起觀眾情緒波動。而《爸爸去哪兒》經(jīng)過幾季的播放,觀眾對于嘉賓參與節(jié)目情節(jié)已經(jīng)很熟悉,同時基于真人秀節(jié)目即時性特點,要最大限度保證節(jié)目情節(jié)的真實有趣,所以需要對現(xiàn)有的節(jié)目情節(jié)進行改造和創(chuàng)新,如此一來才能提高觀眾對節(jié)目的正向口碑,有利于節(jié)目進一步的傳播發(fā)展。
3.廣告方面
我們發(fā)現(xiàn)其正向的情感高于負向情感,這與我們平時所想的有所出入,說明適當而有趣的廣告植入能讓觀眾減輕抵觸情緒,甚至能引起觀眾的好評。觀眾通過發(fā)彈幕等形式,無形提高了商家品牌知名度,明星真人秀節(jié)目的運營也需要一定的贊助商支持,這樣實現(xiàn)節(jié)目方、廣告商、觀眾等的多方共贏局面。
同時我們嘗試結(jié)合用戶的個人發(fā)表評論信息,了解用戶的關(guān)注點,將用戶喜歡的內(nèi)容推薦給用戶,減少用戶信息檢索難度,提高用戶的滿意度,也增加節(jié)目內(nèi)容播放量和認可度。
參考文獻:
[1] 張? 帥,王文韜,周華任,et al.基于扎根理論的彈幕視頻網(wǎng)站用戶使用行為驅(qū)動因素研究[J].情報理論與實踐,2018,v.41;No.294(07):121-126.
[2] 陳? 一,曹圣琪,王? 彤.透視彈幕網(wǎng)站與彈幕族:一個青年亞文化的視角[J].青年探索,2013(6):19-24
[3] 杜嘉忠,徐? 健,劉? 穎.網(wǎng)絡(luò)商品評論的特征-情感詞本體構(gòu)建與情感分析方法研究[J].現(xiàn)代圖書情報技術(shù),2014(5):74-82
[4] 張紫瓊,葉? 強,李一軍.互聯(lián)網(wǎng)商品評論情感分析研究綜述[J].管理科學學報,2010(6):84-96.
[5] 鄭飏飏,徐? 健,肖? 卓.情感分析及可視化方法在網(wǎng)絡(luò)視頻彈幕數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2015(11):82-90
[6] 姜? 霖,張麒麟.基于評論情感分析的個性化推薦策略研究——以豆瓣影評為例[J].情報理論與實踐,2017(08):103-108.
[7] 豐家喜.明星真人秀節(jié)目要素分析[J].人民論壇,2016(2):189-191.
作者簡介:
劉奧運,2016級管理科學工程碩士。