王雨婷
隨著視頻App針對移動端的優(yōu)化與升級,用戶沉浸手機的時間大幅度提升,短視頻已經(jīng)成為用戶短時間娛樂與多感官滿足的主要選擇。經(jīng)過2016年短視頻元年與2020年直播元年的助推,短視頻的內(nèi)容已不再局限于娛樂這一領域,而是根據(jù)用戶多樣化的內(nèi)容期待與需求對自身進行拓展,知識類短視頻應運而生。知識類短視頻將知識或科普內(nèi)容以輕松、可視、去抽象化的方式進行呈現(xiàn),以期最終達到降低專業(yè)知識獲取門檻、擴大學習群體、提高傳播效率的效果。這類短視頻憑借生動有趣、理解門檻低的特點,滿足了用戶的信息需求。2020年年初暴發(fā)的新冠肺炎疫情為知識類短視頻的迅速發(fā)展提供了條件,疫情期間在家辦公和外出受限的狀況也給予了非全職視頻制作者更多的自由時間,為自由時間轉(zhuǎn)化為“認知盈余”提供了基礎條件。
知識類短視頻近幾年在各視頻平臺發(fā)展迅速?!?021 B站創(chuàng)作者生態(tài)報告》顯示,2021年泛知識內(nèi)容占B站視頻總播放量的45%,知識區(qū)UP主數(shù)量增長92%,泛知識品類活動“知識分享官”中活動視頻的總播放量達182億次。B站、抖音、快手等視頻平臺更是通過推出科普內(nèi)容扶持計劃、引入優(yōu)質(zhì)用戶生成內(nèi)容等手段,積極搶占知識和科學類傳播這一長尾市場。B站近幾年突破“二次元”“亞文化”的標簽,立足“趣傳播”這一主題,對自身進行板塊拓展,打造多元內(nèi)容,打入更多興趣圈層,突破了原有的用戶群體局限性問題。2020年6月5日,B站上線了一級分區(qū)“知識區(qū)”,其中包含科學科普、社科人文、野生技術協(xié)會等6個二級分區(qū),旨在分享知識、經(jīng)驗、技能、觀點、人文等內(nèi)容。B站已經(jīng)成為Z世代用戶深度使用,進行內(nèi)容輸入與輸出的重要場所。知識類短視頻也成為用戶觀看的重要選擇。
在眾多B站短視頻制作者中,“無窮小亮的科普日?!保ㄒ韵潞喎Q“無窮小亮”)是名副其實的知識區(qū)UP主,其視頻內(nèi)容專注于生物學相關知識和常識的科普,其發(fā)布的177個視頻中有166個投放在知識區(qū)。他還推出熱門欄目“亮記生物鑒定”,憑借幽默的語言風格和活潑的互動方式博得了眾多用戶的關注,更是創(chuàng)造出“水猴子”和“藏狐”等頗具個人特色的“?!薄!盁o窮小亮”在B站粉絲數(shù)為589萬,視頻總播放量為4億,近90天的視頻平均播放量為405.1萬,在B站的知識區(qū)用戶中具有相當?shù)闹扰c影響力。
本文以“無窮小亮”為研究對象,對其播放量最高的五個視頻的評論文本進行詞頻統(tǒng)計和LDA主題建模,旨在挖掘用戶對科普短視頻的關注重點,進而分析用戶對科普短視頻的關注傾向與討論角度。
根據(jù)研究實際需要,本文在分析從B站獲取的相關評論文本時,選用詞頻分析法和LDA主題模型作為主要研究方法。這兩種研究方法通過對文本進行挖掘與分析,可以較為清晰直觀地描述繁復、模糊的文本數(shù)據(jù),并對文本的相關主題進行較為客觀的呈現(xiàn)。此方法在國內(nèi)外相關研究中已得到較為廣泛的使用。
詞頻指的是一個詞語在特定范圍文本內(nèi)的重復程度或出現(xiàn)頻率的高低,詞頻分析法則是基于此概念來判斷詞語重要性的研究方法。1917年,文獻學家科爾和伊爾斯開始使用定量的方法對比較解剖學文獻進行研究,并將相關圖書和期刊文章按照國別進行統(tǒng)計分類。20世紀六七十年代正式形成了文獻計量學。在文獻計量學的發(fā)展與應用過程中,詞頻一直是重要的統(tǒng)計項目和研究手段之一。學者鄧珞華認為詞頻的波動與社會現(xiàn)象、情報現(xiàn)象之間有著內(nèi)在的聯(lián)系,一定的社會現(xiàn)象和情報現(xiàn)象要引起一定詞頻波動現(xiàn)象①。如今,詞頻已被多次運用于國內(nèi)的文本數(shù)據(jù)分析中。學者梁立明等運用關鍵詞詞頻分析法,對我國8年間的納米科技的研究領域、研究動向等現(xiàn)狀進行分析,并通過總結研究熱點以及研究弱項為我國納米科技的未來發(fā)展提供信息②。學者儲節(jié)旺等基于文獻分析法對近十年幾種典型的知識管理研究方法進行簡要描述③。
LDA主題詞挖掘是自然語言處理中的重要挖掘方法,也是一種完全生產(chǎn)式的模型。LDA主題模型可以對潛藏在文本內(nèi)容下的主題進行挖掘與提取,并對各個主題下相關語項的集合和概率進行展示。這種研究方法能夠較為有效地降低研究者個人因素的影響④。LDA主題模型在國內(nèi)外的各項研究中已經(jīng)得到了大范圍的使用。學者唐曉波等發(fā)現(xiàn)LDA模型可以對微博短文本進行有效的主題檢索,并且能清晰地挖掘類簇中潛在主題⑤。學者吳江等認為利用LDA進行特征提取能顯著地降低數(shù)據(jù)維度,優(yōu)化分類模型,提高分類準確率和分類效率⑥。學者婁巖等認為LDA模型能夠分析用戶對各個主題的關注狀況和重視程度,以及關注熱點和情感態(tài)度隨時間遷移的變化情況與發(fā)展趨勢⑦。
為了解B站用戶對于知識類短視頻的關注點和討論點,本研究設計了以下四個步驟。首先,選取“無窮小亮”在B站知識區(qū)發(fā)布的播放量前五的視頻評論作為研究對象,運用Python對數(shù)據(jù)進行爬取與采集;其次,進一步整理和清洗已獲取到的文本數(shù)據(jù);再次,對清洗后的文本數(shù)據(jù)進行詞頻統(tǒng)計分析;最后,通過LDA模型對數(shù)據(jù)進行主題挖掘,對計算結果進行描述與分析。
本文選取B站知識類短視頻評論作為文本數(shù)據(jù)來源,旨在挖掘用戶對科普短視頻的潛在關注點,進而分析用戶對科普短視頻的關注傾向與討論角度。本文利用Python抓取“無窮小亮”播放量最高的五個視頻的評論內(nèi)容,五個視頻按照播放量降序排列依次分別為“【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定29”“【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定30”“【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定28”“【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定23”和“【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定24”。除去原始數(shù)據(jù)的缺失與重復數(shù)據(jù),最終獲得的文本量分別為 106200字、95464字、57113字、73429字和58457字。
為了準確地展現(xiàn)文本自身所涵蓋與表達的概念意義,本研究通過設置停用詞表對文本數(shù)據(jù)進行清洗,將無意義或?qū)Ρ狙芯繜o價值的詞匯從文本中剔除。最后,對經(jīng)過清洗的文本數(shù)據(jù)進行詞頻統(tǒng)計分析和LDA主題模型分析。
對清理后的文本進行分詞處理,得到文本數(shù)據(jù)中詞匯出現(xiàn)的頻率。隨后根據(jù)詞頻由高到低進行排序,排序結果如表1、表2、表3、表4、表5所示。
表2 “【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定30”評論文本詞頻
表3 “【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定28”評論文本詞頻
表4 “【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定23”評論文本詞頻
表5 “【亮記生物鑒定】網(wǎng)絡熱傳生物鑒定24”評論文本詞頻
通過對5張表格的觀察發(fā)現(xiàn),“藏狐”一詞出現(xiàn)最為頻繁,這一詞是“無窮小亮”的代名詞,與博主本人密切相關。“水猴子”“打人”等詞出現(xiàn)較為頻繁,這些詞與B站用戶根據(jù)其視頻形成的獨特“梗文化”息息相關。將表格內(nèi)容與視頻內(nèi)容進行對比后可以發(fā)現(xiàn),如“兔子”“尾巴”“宿遷”“臭蟲”等詞,僅出現(xiàn)在一張表格中,但單次詞頻較高。這類詞與當期視頻內(nèi)容聯(lián)系緊密,多為視頻中討論度最高片段的關鍵詞。
本文對整個第三方評論文本數(shù)據(jù)進行LDA主題模型分析,運用Python語言和gensim庫進行主題生成和主題詞分布的統(tǒng)計。
從表6可以看出,在主題一概率最大的前12個主題詞中,“知識”“增加”“叮當貓”“生產(chǎn)隊”等反映了評論文本中鮮明的互聯(lián)網(wǎng)語言特征。其中,“奇怪的知識增加了”“生產(chǎn)隊的驢都不敢這么歇”等圈層化、個性化的表達,突顯了用戶在評論時對自我形象的展示,以及用戶表達與B站社區(qū)文化的順應與融合。在主題二概率最大的前12個詞中,“藏狐”“水猴子”“打人”“雙節(jié)棍”等主題詞則勾勒出“無窮小亮”在B站的基本形象?!盁o窮小亮”本人酷似藏狐的外形,每期視頻必不可少的“水猴子”環(huán)節(jié),以及對辟謠內(nèi)容感到無奈與憤怒時對著鏡頭甩雙節(jié)棍的經(jīng)典動作,成為指代其形象的獨特符號。用戶對這些符號的反復記憶與利用,在促進評論區(qū)共鳴情緒的產(chǎn)生與交流互動的同時,也間接構造出“無窮小亮”評論區(qū)差異化的景象。在主題三概率最大的前 12 個詞中,“宿遷”“臭蟲”“放生”“沭陽”等主題詞與視頻內(nèi)容緊密相關,用戶在觀看后將科普知識與自身經(jīng)歷相結合,提出問題,發(fā)表感想,形成了科普知識在評論區(qū)的內(nèi)容拓展與二次傳播。
表6 主題詞分布表
通過對文本數(shù)據(jù)詞頻統(tǒng)計結果深入分析發(fā)現(xiàn),用戶在使用B站觀看知識類科普短視頻時,評論的關注點主要在于賬號運營者本人和科普內(nèi)容本身,同時評論的文字表達具有很強的圈層化與年輕化語態(tài)特征,體現(xiàn)出B站活潑幽默、極具平臺特征的社區(qū)氛圍。
結合詞頻進行整體分析,“藏狐”等詞高頻出現(xiàn),顯示出用戶在觀看知識類短視頻時對于運營者本人的高度關注。運營者作為該賬號內(nèi)容的主要生產(chǎn)者,對視頻內(nèi)容感興趣的用戶也自然會對運營者本身產(chǎn)生興趣。對于運營者本人的廣泛討論,反映出運營者自身的個人吸引力與影響力,也反映出用戶對其個人形象塑造的肯定和認同。然而,運營者過于突出的個人特性有時也會成為與科普內(nèi)容無關的討論對象,導致討論議題的分散和討論重點的偏移,對科普知識的傳播效果造成了一定的影響。
同時,在部分視頻的評論區(qū)中,出現(xiàn)了與內(nèi)容相關的主題詞詞頻超過與運營者相關詞語的詞頻這一情況。這也側面證明了,當視頻內(nèi)容足夠吸引人,能調(diào)動起大部分用戶的分享欲和表達欲,能喚起大部分用戶的廣泛、熱烈討論時,對運營者的關注就會退居其次,評論區(qū)也會在針對科普知識的討論中形成一種良性的輿論氛圍和科學討論環(huán)境。
結合主題詞分布表分析,B站用戶對于知識類短視頻的主要討論與視頻本身聯(lián)系緊密,討論內(nèi)容的集中度較高。而評論內(nèi)容中網(wǎng)絡流行語的高頻使用和語言表達的不規(guī)范體現(xiàn)了評論區(qū)言論環(huán)境的輕松、隨意和包容。這側面證明了高理解門檻的專業(yè)知識,通過趣味化、輕松化的內(nèi)容表達和短視頻形式下的娛樂化、通俗化呈現(xiàn),能夠較為容易地被用戶獲知和攝取,并成為用戶交流討論的主要內(nèi)容。
B站是Z世代網(wǎng)絡化生存與社交的新園地,其逐漸擴張的影響范圍和日益增強的影響力,使其成為知識和科普工作者不容忽視的重要陣地。本文通過對詞頻和主題詞的統(tǒng)計發(fā)現(xiàn),用戶對知識類短視頻的關注點主要集中在視頻與視頻制作者本身。在語言表達上,用戶的討論與交流也脫離了嚴肅抽象的專業(yè)化表達,而是將B站內(nèi)圈層化的語言習慣與自身個性化表達相融合,在評論區(qū)形成個人特色鮮明又兼具共性、交流順暢的和諧景象。另外,評論區(qū)用戶的積極正向討論也印證了專業(yè)知識可以通過通俗化、娛樂化的方式進行有效的傳播。如何進一步使用戶的注意力集中在視頻內(nèi)容與知識科普上,則有待科普工作者進行更深入的探索。
注釋:
①鄧珞華.詞頻分析——一種新的情報分析研究方法[J].大學圖書館通訊,1988(02):18-25.
②梁立明,謝彩霞.詞頻分析法用于我國納米科技研究動向分析[J].科學學研究,2003(02):138-142.
③儲節(jié)旺,錢倩.基于詞頻分析的近10年知識管理的研究熱點及研究方法[J].情報科學,2014(10):156-160.
④廖海涵,王曰芬,關鵬.微博輿情傳播周期中不同傳播者的主題挖掘與觀點識別[J].圖書情報工作,2018(19):77-85.
⑤唐曉波,房小可.基于文本聚類與LDA相融合的微博主題檢索模型研究 [J].情報理論與實踐,2013(08):85-90.
⑥吳江,侯紹新,靳萌萌,胡忠義.基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J].情報學報,2017(11):1183-1191.
⑦婁巖,楊嘉林,黃魯成,苗紅.基于網(wǎng)絡問答社區(qū)的老年科技公眾關注熱點及情感分析——以“知乎”為例[J].情報雜志,2020(03):115-122.