張?zhí)熳?/p>
摘 要:《后浪》發(fā)布以來,在社會上產生了重大的影響。本文使用基于BERT編碼的深度情感分析模型來進行視頻評論中的情感分析。本文選擇B站和YouTube兩個視頻網站,對兩個平臺中的《后浪》視頻評論進行情感分析,并將結果進行對比,進一步得出了每一類的觀點想表達的情感。在此基礎上,本文對實驗結果得出了一些思考和分析。實驗分析結果表明:Youtube網站上的負面評論情緒顯著高于B站。其負面情緒者的主要觀點在于:現實中青年的平均生活水平與“后浪”們之間存在著巨大差距,即《后浪》視頻不夠真實。
關鍵詞:《后浪》,BERT,情感分析,視頻評論
1.引言
現如今人們在使用B站、Youtube等平臺觀看視頻的同時,也會通過評論表達自己的想法與意見。視頻《后浪》自發(fā)布以來就成為了社會關注的焦點,截至2020年7月18日為止,B站累計播放量已有2781.4萬,巨大的播放量也帶來了海量的視頻評論信息[1]。本文中,我們研究了人們觀看《后浪》視頻后產生評論中的情感觀點。本文選擇對B站、Youtube兩個網站上的視頻評論進行分析。除此之外,本文對兩個平臺中視頻評論的情感分析結果進行對比,并概括出每類情感想表達的觀點。在此基礎上,筆者對這些結果給出了一些思考。
2.研究方法
2.1數據爬取
Requests庫是基于Python實現的簡單易用的HTTP庫。Requests是用Python語言編寫的,基于urllib3來改寫的,采用Apache2 Licensed 來源協(xié)議的HTTP庫。它比urllib更加方便,可以節(jié)約我們大量的工作,完全滿足HTTP測試需求[2]。
本文對兩網站的爬取均使用基本的requests庫進行。對B站的數據爬取過程中,我們需要填入視頻的BV號,代碼會將BV號轉換為視頻的AV號,然后組成url進行爬取。而對Youtube的評論數據爬取中,需要先申請google的開發(fā)者API,然后將自己的密鑰填入代碼,就可以進行爬取。
最終,我們獲得了B站中的熱度最高的評論1969條,Youtube中點贊數大于10的評論1164條。
2.2基于BERT的情感分析模型
本文采用社交媒體預料訓練了一個針對社交媒體語料進行情感分析的機器學習模型。
作為2018年自然語言處理領域的新秀,BERT做到了過去幾年NLP重大進展的集大成,一出場就技驚四座碾壓競爭對手,刷新了11項NLP測試的最高紀錄,甚至超越了人類的表現,是未來NLP研究和工業(yè)應用中最有潛力的語言模型之一[3]。
本文使用Bert作為encoder,將文本傳入Bert后,獲得第一個字符[CLS]的表示作為輸出,因其已經蘊含了整個句子之中的信息。將其傳入一個全連接層,完成分類任務。我們使用第九屆全國社會媒體處理大會微博情緒分類技術評測(SMP2020-EWETC)中提供的數據作為訓練數據。數據集從微博評論中產生,與本文的應用場景類似,并且不僅標注了積極消極的情緒,也標注了中立的情緒,可以更加方便我們對不同類別情感進行分析。
3.數據分析
3.1不同平臺之間的結果對比及其原因
使用情感分析器對我們爬取到的數據進行情感分析。一條數據如果是積極,標為0,中立,標為1,消極,標為2。本文基于BERT的模型的標注結果示例如表1所示。
可見兩平臺之間的評論情感存在巨大差距,bilibili上的評論偏向積極,Youtube上的評論則偏向消極。
通過調查網上資料,以及閱讀評論數據,筆者認為其中的主要原因可能有以下幾點:
1)bilibili會手動刪除負面評論;
2)Youtube平臺上存在大量對中國帶有嚴重偏見的人群,如亂港廢青等。
3.2不同情感評論人的觀點及其原因
本文通過生成積極、中立、消極三種評論的詞云的方式,更加直觀的展現三類評論的差別。由于詞云將單詞在語料庫中出現的頻率進行了可視化,我們可以更容易的了解出現頻率最高的詞(已去除常用詞)。其結果如圖1所示。
從三幅圖中可以看出,除“后浪”、“演講”、“生活”等詞在三幅圖都出現外,負面評論中,“惡心”、“抱怨”、“韭菜”、“不公”,等詞經常被提及,與之鮮明對比的是,積極評論中“希望”、“奮斗”、“奔涌”等詞有著較高的出現頻率。而中立情感動的評論常常是在評論中記錄演員的身世背景、記錄視頻中部分臺詞、記錄打卡自己看了這個視頻。
正面情緒出現的原因是明顯的,作為一個歌頌年輕人活力的視頻,視頻中up主們的“心里有火,眼里有光”確實激人奮進。而一些中立情緒的原因也是明顯的,一部分是因為這條評論只是想打卡留念,一部分是因為評論中摻雜著正面和負面情緒。
對于負面的情緒,筆者總結上面詞云結果,并且分析部分數據,認為其原因總結如下:
1、認為視頻中的生活與現實青年生活嚴重不符,對比自己慘淡的人生感到無比自卑;
2、認為這個視頻只是b站宣傳自己的廣告;
3、認為這個視頻容易誤導青年,追求不符合自己收入狀況的浮華生活。
4.總結
本文使用情感分析技術,對B站、Youtube評論進行對比,并總結出三種情感的可能成因。
參考文獻
[1] 經琦.探析嗶哩嗶哩《后浪》遇見五四的價值與意義[J].傳媒論壇,2020,3(16):133+135.
[2] 岑沛斯. 基于文本分析的互聯網視頻搜索引擎技術研究[D].杭州電子科技大學,2013.