王汝夢 張劭賢 殷笑語 徐天晟
摘要:為了避免視頻網(wǎng)站中視頻彈幕對于青少年的不良影響,筆者通過使用深度學習的文字分級算法來實現(xiàn)用戶彈幕的分層、分類、分級,對用戶的彈幕進行規(guī)范引導,營造良好的網(wǎng)絡語言生態(tài)環(huán)境。彈幕分級展示的算法需要實時更新,在數(shù)據(jù)方面需要實時擴大機器學習訓練的樣本,并且對語言文字的分數(shù)歸類進一步的細化和精確。在技術方面可以結合心理學、傳播學、統(tǒng)計學等學科的最新發(fā)展情況,讓彈幕的分級分類更加精準。
關鍵詞:彈幕過濾;文本分類;彈幕分級
1緒論
“彈幕”是當下最為流行的在線視頻實時互動交流方式,評論內容雖然轉瞬即逝,但再次觀看視頻時還可在對應彈幕發(fā)出的節(jié)點看到該彈幕的內容,彈幕文化是一種將屏幕傳播與文字傳播相結合的融合文化。用戶通過彈幕信息交流不僅可以與其他用戶進行實時互動,使得觀看視頻的過程變得有趣,在交流中獲得歸屬感[2],還可以通過彈幕了解額外的劇情知識,增強視頻內容的可讀性和趣味性,但由于彈幕的無限制性,用戶可以隨意表達自己的觀點,卻不用承擔任何后果,促使彈幕文字有呈現(xiàn)低俗化的傾向,也讓很多低俗語言在這種環(huán)境中進化甚至是病毒式傳播。
李欣茹學者認為,視頻彈幕的流行也存在一些隱患,尤其是一些血腥暴力或者黃色內容,極易被青少年模仿,造成不良影響,因此視頻彈幕的交際環(huán)境必須加以引導和凈化 [1] 。鄭珺、尹文漢學者認為,隨著網(wǎng)絡傳播匿名環(huán)境的推進和演化,人們在彈幕的吐槽狂歡呈現(xiàn)出了低俗色情、暴力攻擊等傾向,彈幕視頻的網(wǎng)絡表達存在失范現(xiàn)象。網(wǎng)絡表達的失范現(xiàn)象在一定程度上給其他觀看視頻的用戶造成了觀影心理的影響,對青少年用戶的健康成長也非常不利[2] 。彈幕對青少年網(wǎng)絡社群產生影響有多方面原因,彈幕作為影響的載體與介質,依靠其媒介特征發(fā)揮作用;青少年自身獵奇、不成熟的特質使得這種影響被放大。彈幕對青少年網(wǎng)絡社群的健康發(fā)展產生影響,如何消除影響的消極方面、增強影響的積極方面是亟待解決的問題[3]。
基于先前學者的調查研究,以及本著保護青少年健康上網(wǎng)和構建綠色和諧上網(wǎng)環(huán)境的目的,我們可以得出結論:視頻彈幕市場對彈幕分級算法是有需求的。
2 分級算法研究
本文主要論述了如下兩部分內容。
首先,研究數(shù)據(jù)獲取,通過彈幕爬蟲收集數(shù)據(jù),針對當下流量最大的中文彈幕視頻分享網(wǎng)站B站編寫彈幕爬蟲程序,爬取網(wǎng)站中已有彈幕進行研究。這其中包括對B站彈幕文件爬蟲的編寫,對于爬取的彈幕,基于分類研究的基礎上進行數(shù)據(jù)標注,為之后深度學習算法的訓練提供分類訓練集。
其次,彈幕分級研究,根據(jù)前面所爬取的彈幕數(shù)據(jù),以及之前學者對于彈幕語言的研究,設置分類級別,對不同級別的用戶進行彈幕分級的展示。在充分學習應用軟件工程的開發(fā)方法以及編程語言、架構、數(shù)據(jù)庫等知識能夠解決實際問題的基礎上,根據(jù)用戶和管理者的需求,開發(fā)彈幕展示的分級算法。
2.1研究數(shù)據(jù)獲取
為了本次研究的需要,筆者在開發(fā)網(wǎng)站爬蟲時基本是針對某個網(wǎng)站中一類相同的文件里特定的公開內容進行爬取,與觀看時進行實時摘錄無異,只是從技術上起到節(jié)省時間的效果。本項目所爬取彈幕的目標為嗶哩嗶哩網(wǎng)站中的非直播的視頻文件,由于B站彈幕是存在單獨的XML文件中用于每次播放時的調用,所以可以爬取。
爬蟲程序所爬取的彈幕會存放在CSV文件中,表格中第一列是對每一個彈幕進行的哈希編碼,第二列是每條彈幕的具體內容,第三列score是記錄其分類的打分數(shù)字,當前剛爬取下來默認值設置為“-1”,便于與日后人工或者算法給出的分數(shù)進行區(qū)分。如此設計以方便未來深度學習算法作為訓練集樣本調用。詳見下圖。
2.2彈幕分級模型
筆者依據(jù)從B站中爬取的彈幕文件,對其中的語言文字結合先前學者的研究[1-3]進行了簡單的歸納總結。大概可分為文學用語的積極詞匯、日常用語的常見詞匯、專業(yè)用語、對于生活的諷刺用語和經過加工躲避敏感詞匯的不良言論。筆者根據(jù)百分制的原則和對這些用語的分類,對爬取的彈幕文字進行標注,最后將數(shù)據(jù)用于機器學習算法的訓練。
根據(jù)各個年齡階段我國法律對其責任義務的規(guī)定,將彈幕分級展示的用戶分為以下四個等級:6-14歲屬于幼兒兒童,14-18歲屬于青少年,18歲及以上屬于成年人,其中如有注冊用戶所填年齡未滿6周歲系統(tǒng)將不予以注冊。還有一類是完全權限,是系統(tǒng)管理員以及應該有相應權限的監(jiān)督和管理人員,可以看到系統(tǒng)所有用戶的全部發(fā)表言論。用戶彈幕分級年齡如下圖2所示:
每個等級可看到的彈幕分級分數(shù)為:
0至不滿14周歲屬于幼兒兒童,可看0-40分,讓處在義務教育階段的兒童看到包括文學用語和日常用語的彈幕,更多接觸健康社會,理解語言正確使用。文學用語包括正確引導兒童成長的馬列主義哲學詞匯,中國傳統(tǒng)文化精髓的成語,日常用語包括生活用語甚至方言與科技以及帶有擬人比喻等修辭方法的短語。
14至不滿18周歲屬于青少年,可看0-60分,讓處在高級中等教育的青少年在上述基礎上加上動漫與游戲相關彈幕,讓其有對想象世界的判斷能力上進行交流,他們正在形成世界觀、人生觀、價值觀,雖然具備了基本判別是非能力,但仍然很容易被誤導。
年滿18周歲以后,世界公認此時已經是成年人,可看0-80分,可以發(fā)表對事物的看法和觀點,但對成年人來說黃賭毒依然是被禁止的,所以需將這一類話語對其進行屏蔽。
還有一類是管理員以及監(jiān)督人員查看全部彈幕的權限,可看0-100分。
3 總結與展望
視頻彈幕分級算法通過對用戶年齡階段來劃分用戶所能看到的彈幕類型,以此來達到保護青少年健康綠色觀影和學到更多知識的目的。在開發(fā)的過程中以基礎功能作為底板,對用戶的發(fā)言過濾,不是隨意設立“禁言”關鍵字,而是通過真實的數(shù)據(jù)作為支撐來實現(xiàn)有效過濾,讓管理者只需要不斷的對新興詞匯進行歸納總結評分。
日后的研究還可以對彈幕的情感、輿論的興起、定向引導等方面進行深入進行。分級彈幕電影系統(tǒng)也是在提醒網(wǎng)民和網(wǎng)絡的管理者要時刻保持網(wǎng)絡空間的綠色和諧,讓更多的人意識到做和諧社會的一份子的重要性,更多的關注青少年在互聯(lián)網(wǎng)時代的健康成長,同時我們也要在制度上為其保駕護航。
本研究報告系國家社會科學基金項目《數(shù)據(jù)賦能的智慧媒體對青少年行為模式變化影響的研究》(項目編號:19BXW120)支持的階段性成果。
參考文獻
[1]李茹欣. 視頻彈幕的語言學研究[D].陜西師范大學,2018.
[2]鄭珺,尹文漢.網(wǎng)絡傳播語境下彈幕視頻熱潮解析[J].遼東學院學報(社會科學版),2020,22(05):69-72.
[3]陳家瑋.視頻彈幕基礎下的青少年網(wǎng)絡社群研究——以嗶哩嗶哩和斗魚直播為例[J].視聽,2020(10):134-136.