封世龍,潘思宇,王嘉偉,王順曄
(廊坊師范學(xué)院計(jì)算機(jī)系,廊坊065000)
隨著新媒體技術(shù)的不斷發(fā)展,自媒體正以迅雷不及掩耳之勢(shì)影響著人們的生活,每個(gè)個(gè)體既是信息的生產(chǎn)者又是信息的傳播者,自媒體既有多媒體、交互性、傳播性的特點(diǎn),又兼具個(gè)性化、碎片化、群體性的優(yōu)勢(shì),逐漸成為大眾獲取知識(shí)及娛樂的主體。自媒體時(shí)代大眾不僅享有生活上的諸多便利,也擁有一個(gè)直觀便捷表達(dá)自身態(tài)度和意愿的渠道,大眾開始越來(lái)越多地利用自媒體行使自己的話語(yǔ)權(quán)與監(jiān)督管理權(quán)。
輿情是“輿論情況”的簡(jiǎn)稱,是指圍繞社會(huì)事件的發(fā)生、發(fā)展和變化,群眾對(duì)社會(huì)、個(gè)人及其他各類組織等方面的取向和社會(huì)態(tài)度。它是較多群眾關(guān)于社會(huì)中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等表現(xiàn)的總和[1]。
現(xiàn)代社會(huì)對(duì)自媒體視頻平臺(tái)的關(guān)注度越來(lái)越高,政府也在開始通過(guò)自媒體平臺(tái)發(fā)布信息,以體現(xiàn)其透明性。但由于網(wǎng)民的受教育水平存在差異,對(duì)知識(shí)的判斷能力有限,生活水平不同,就會(huì)產(chǎn)生和傳播各類謠言,影響和動(dòng)搖大眾的認(rèn)知,各級(jí)各類的謠言粉碎機(jī)也應(yīng)運(yùn)而生,可見重視網(wǎng)絡(luò)輿情刻不容緩。
自媒體視頻一個(gè)新生的信息傳播媒介,對(duì)各國(guó)政府提出了很高的監(jiān)管要求。同時(shí)自媒體平臺(tái)的信息密集度高,信息更新速度快,信息聚集度高等特點(diǎn)也決定了研究人們對(duì)自媒體平臺(tái)的關(guān)注方向是有意義的,是必要的。由此可見,群眾在自媒體平臺(tái)中發(fā)表的內(nèi)容在網(wǎng)絡(luò)輿情中的重要地位。
現(xiàn)代網(wǎng)絡(luò)已成為大眾生活不可或缺的一部分,而網(wǎng)絡(luò)短視頻、短評(píng)等能夠快速表達(dá)作者意愿的信息傳播方式最受大眾歡迎。除了信息的原作者,網(wǎng)友也可以在合法的范圍內(nèi)自由發(fā)表言論。這些評(píng)論文本往往包含著用戶自身所表達(dá)的情感傾向性,且這些大量的包含用戶主觀情緒的文本已經(jīng)成為決策支持的一個(gè)有價(jià)資源[2]。因此,如何有效地對(duì)其進(jìn)行監(jiān)管和引導(dǎo)成為重要問題。由于自媒體輿論的隨意性、隱匿性和模糊性,傳統(tǒng)的監(jiān)管方法難以對(duì)自媒體輿論進(jìn)行有效的監(jiān)管和引導(dǎo)。自媒體視頻平臺(tái)輿情分析會(huì)將大眾關(guān)注的信息內(nèi)容和大眾討論較多的信息內(nèi)容進(jìn)行分析,進(jìn)而實(shí)現(xiàn)管理部門對(duì)于輿情走向的準(zhǔn)確判斷。為此,現(xiàn)代網(wǎng)絡(luò)主流自媒體視頻平臺(tái)輿情分析已成為各單位、各部門預(yù)測(cè)以及監(jiān)管的重要部分。
從用戶數(shù)量及用戶粘度的角度分析,以下兩個(gè)自媒體視頻平臺(tái)有足夠作為研究對(duì)象的意義,本文所選擇的視頻平臺(tái):
(1)Bilibili:日均視頻播放量7.25 億,用戶日平均使用時(shí)長(zhǎng)83 分鐘(截止到2019 年11 月19 日)。
(2)抖音:日活躍用戶4 億(數(shù)據(jù)來(lái)自鈦媒體,截止到2020 年1 月6 日)。
通過(guò)數(shù)據(jù)爬蟲的技術(shù)抓取用戶的評(píng)論,分析用戶的情感傾向,并利用分析的結(jié)果輔助用戶決策、為政府及商家提供反饋[3]。網(wǎng)絡(luò)爬蟲技術(shù)是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。它可以模擬人類瀏覽網(wǎng)頁(yè)和網(wǎng)絡(luò)上的各種信息,同時(shí)還可以對(duì)信息進(jìn)行篩選、統(tǒng)計(jì)和保存。其實(shí)現(xiàn)過(guò)程為:用戶指定搜索關(guān)鍵詞或URL,網(wǎng)絡(luò)爬蟲開始對(duì)指定范圍的信息進(jìn)行爬取和保存,直到將所有信息爬取完畢。網(wǎng)絡(luò)爬蟲不同于人類,可以輕松準(zhǔn)確完成這種循環(huán)的工作。通過(guò)以上過(guò)程,網(wǎng)絡(luò)爬蟲可以將所需數(shù)據(jù)爬取下來(lái)。
網(wǎng)絡(luò)爬蟲被廣泛應(yīng)用于搜索引擎、信息平臺(tái)等地方。開發(fā)者利用網(wǎng)絡(luò)爬蟲可以快速準(zhǔn)確獲取所需信息并進(jìn)行發(fā)布,效率遠(yuǎn)高于人工檢索信息。
網(wǎng)絡(luò)爬蟲的運(yùn)行過(guò)程類似于瀏覽器,它模擬人類使用瀏覽器瀏覽網(wǎng)頁(yè),并完成數(shù)據(jù)響應(yīng)。以瀏覽某網(wǎng)站的視頻評(píng)論為例:網(wǎng)絡(luò)爬蟲首先對(duì)該網(wǎng)頁(yè)發(fā)起請(qǐng)求,網(wǎng)站服務(wù)器應(yīng)答請(qǐng)求并將網(wǎng)頁(yè)文件返回給網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲對(duì)收到的網(wǎng)頁(yè)文件進(jìn)行可視化解析,同時(shí)提取用戶指定的有效信息,最終將數(shù)據(jù)呈現(xiàn)在屏幕上。網(wǎng)絡(luò)爬蟲運(yùn)行的具體步驟如下:
(1)第一步:用戶指定網(wǎng)絡(luò)爬蟲的范圍,以URL 和種子文件居多。
(2)第二步:網(wǎng)絡(luò)爬蟲模擬人類對(duì)相應(yīng)服務(wù)器發(fā)起請(qǐng)求。
(3)第三步:網(wǎng)絡(luò)爬蟲收到服務(wù)器返回?cái)?shù)據(jù)并解析數(shù)據(jù)。
(4)第四步:將收集到的數(shù)據(jù)進(jìn)行整理并存儲(chǔ)。
(5)第五步:爬取下一條URL。循環(huán)爬取未爬取的URL。
圖1 網(wǎng)絡(luò)爬蟲工作原理
本案例分析中使用到的數(shù)據(jù)來(lái)自Bilibili 網(wǎng)頁(yè)端、抖音高熱度短視頻。其中我們提取了視頻的標(biāo)簽、熱度(尤其是短時(shí)間熱度增長(zhǎng)快速的視頻)、評(píng)論、彈幕、視頻分類等信息。
爬蟲爬取了Bilibili 視頻評(píng)論和標(biāo)簽的對(duì)應(yīng)代碼所在位置,如圖2 所示,利用Python 3 的BeautifulSoup 庫(kù)可以將對(duì)應(yīng)的評(píng)論、標(biāo)簽抓取并保存待后續(xù)處理及分析[4]。
圖2 Bilibili評(píng)論信息-網(wǎng)頁(yè)代碼
爬蟲從自媒體視頻平臺(tái)排行榜上爬取數(shù)據(jù),爬取的排行榜周期性更新,從不同更新周期的排行榜可以獲得不同時(shí)期的數(shù)據(jù),同理不同分區(qū)的排行榜也可以得到相應(yīng)數(shù)據(jù)。本文采用的數(shù)據(jù)截止2019 年底。圖3是一部分爬蟲爬取下來(lái)出現(xiàn)較多的詞語(yǔ),利用后續(xù)分析程序可以得到分析結(jié)果。
圖3 爬蟲爬取的部分信息
網(wǎng)絡(luò)爬蟲將所需的信息保存到本地后,由程序進(jìn)行中文分詞。整理“連詞介詞詞庫(kù)”和“情感詞庫(kù)”,使用jieba 庫(kù)對(duì)爬到的數(shù)據(jù)進(jìn)行分詞,編寫Python 程序比對(duì)停用詞庫(kù),刪除停用詞,并刪除如帶廣告性質(zhì)的評(píng)論信息和帶推廣的信息,清除數(shù)字英文字符和一些空文本,還需刪除必要的表情信息,最終只留下有含義和有情感趨向的詞語(yǔ)。
統(tǒng)計(jì)結(jié)果中的百分比數(shù)據(jù)僅代表該類型在全部熱詞中所占的比例。其中包含一個(gè)詞匯有多種類型或中性詞匯含義暫時(shí)無(wú)法劃分入統(tǒng)計(jì)結(jié)果。
隨后將這些詞語(yǔ)與情感類詞匯詞語(yǔ)庫(kù)中的詞語(yǔ)進(jìn)行對(duì)比,若匹配度達(dá)到閾值,則將其統(tǒng)計(jì)歸類為該類型的感情詞語(yǔ),最終得到了短視頻觀看用戶的情感趨向。不在詞匯庫(kù)中的詞語(yǔ)會(huì)被計(jì)算出現(xiàn)的頻次,如果頻次高于閾值則單獨(dú)列出,由人工進(jìn)行資料收集并整理存入統(tǒng)計(jì)計(jì)劃中。對(duì)于有實(shí)際含義的詞,程序會(huì)將其直接進(jìn)行搜索或經(jīng)加工后再進(jìn)行搜索。通過(guò)搜索結(jié)果中的關(guān)鍵詞可以得知該詞的實(shí)際含義及用法。最終通過(guò)人工檢查對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行驗(yàn)證,檢查統(tǒng)計(jì)結(jié)果中的明顯錯(cuò)誤,并進(jìn)行人工規(guī)避。
實(shí)際上部分詞語(yǔ)具有多重含義,如2019 年詞語(yǔ)“是個(gè)狼人”有驚訝、感嘆的含義。在統(tǒng)計(jì)時(shí)會(huì)將這類詞語(yǔ)按不同分類的匹配度進(jìn)行權(quán)重劃分后再做統(tǒng)計(jì),并總結(jié)出占比最高的3 種情感類型比例。
圖4 熱門詞匯情感分析統(tǒng)計(jì)
根據(jù)圖4 可以得出,樂觀、消極、中性這三個(gè)詞語(yǔ)占據(jù)了全部自媒體視頻平臺(tái)的信息內(nèi)容和評(píng)論,樂觀最高為51%,其次為中性31%,最后為消極18%。
根據(jù)樂觀占比最高可以得出參與網(wǎng)絡(luò)交流的群眾更傾向于追求更好的生活,更喜歡觀看高質(zhì)量、高水平、高幸福度的自媒體視頻。在這四個(gè)情感類型中,“家里有礦”、“檸檬精”、“社會(huì)”、“妙啊”等詞語(yǔ)出現(xiàn)頻率最高。如“家里有礦”、“檸檬精”被網(wǎng)友更多地應(yīng)用于高檔餐廳住所、高檔旅游、高成本實(shí)踐類視頻中,網(wǎng)友們往往想表達(dá)視頻作者有錢和自己很羨慕的感情?!吧鐣?huì)”這個(gè)詞往往出現(xiàn)在一些令人震驚的視頻中,多用于表達(dá)視頻主人公見過(guò)世面或做事很高調(diào)等情感。統(tǒng)計(jì)顯示,此類視頻相對(duì)更受歡迎?!懊畎 币辉~多用于對(duì)婦孺皆知的事提出了新的且清奇的看法或處理方式,從而達(dá)到讓觀眾耳目一新的視頻。
根據(jù)消極占比最低可知網(wǎng)民的主力軍青年人為追求美好生活而奮斗和生活壓力大等主要特征?!?96”、“禿”、“沖鴨”、“我太難了”等詞語(yǔ)出現(xiàn)頻率最高。其原因在于當(dāng)前青年人工作壓力過(guò)大,且因工作或生活無(wú)法得到充足睡眠和保養(yǎng)。“996”這個(gè)詞寓指工作時(shí)間過(guò)長(zhǎng)、工作時(shí)間計(jì)劃不合理等信息,該詞曾在無(wú)數(shù)網(wǎng)絡(luò)平臺(tái)引起熱議。而“禿”已成為網(wǎng)友的口頭禪,用以表達(dá)自己壓力過(guò)大,或用于自嘲?!皼_鴨”原意為沖呀,該詞由諧音變換而來(lái)。沖鴨一詞不僅體現(xiàn)了激勵(lì)類視頻進(jìn)入大眾的目光,也以可愛的方式鼓勵(lì)現(xiàn)代人積極進(jìn)取。同時(shí)有關(guān)于鴨子的表情包也在網(wǎng)友之間流傳,多表達(dá)可愛地去做某事?!拔姨y了”一詞源自某視頻作者的一個(gè)視頻。因該視頻主人公語(yǔ)氣和表情十分到位,該詞已快速成為廣大網(wǎng)友的口頭禪。
其他類型中出現(xiàn)頻率最高的詞語(yǔ)有“硬核”、“陳獨(dú)秀”、“垃圾分類”、“AWSL”和“注入靈魂”。“硬核”、“陳獨(dú)秀”皆表達(dá)了做事很強(qiáng)硬、很熟練甚至令人驚訝。“AWSL”是“啊,我死了”的拼音首字母縮寫,多用于表達(dá)可愛的事物令人著迷?!白⑷腱`魂”一詞多用于表達(dá)畫龍點(diǎn)睛之筆,寓意為一件事添加最重要的部分使其完整。
將當(dāng)下網(wǎng)絡(luò)熱詞進(jìn)行諧音分析,通過(guò)使用Python的第三方庫(kù)xpinyin 將詞語(yǔ)轉(zhuǎn)換為拼音,利用搜索引擎可以識(shí)別拼音并轉(zhuǎn)換為高頻率使用的漢字這一特點(diǎn),將拼音字符串在網(wǎng)絡(luò)上拼音字符串的信息進(jìn)行識(shí)別匹配。如果搜索結(jié)果中有高頻率出現(xiàn)的詞,則將該詞視為諧音詞。對(duì)于影視臺(tái)詞、歌詞、文章斷句類型的詞語(yǔ),將其添加“出處”(一個(gè)空格代表隔離關(guān)鍵詞)字符串進(jìn)行搜索,若搜索結(jié)果有高頻率出現(xiàn)的詞,則視之為影視臺(tái)詞、歌詞、文章斷句類型的詞語(yǔ)。
同時(shí)存在很多詞語(yǔ)有多種來(lái)源的情況,如“雨女無(wú)瓜”一次來(lái)自于影視作品,同時(shí)它也是“與你無(wú)關(guān)”的諧音詞,通過(guò)人工資料查證后確定其來(lái)源類型。
圖5 流行語(yǔ)傾向分析統(tǒng)計(jì)
由圖5 可知,一詞多義和諧音詞語(yǔ)的比例高達(dá)34%,許多熱門詞匯都被網(wǎng)友作為口頭禪使用,其比例達(dá)31%,有資料來(lái)源的詞語(yǔ)占42%。
在網(wǎng)絡(luò)熱詞中具有代表性的一詞多義和諧音的詞語(yǔ)有“陳獨(dú)秀”、“買橘子”、“正片開始”、“沖鴨”、“雨女無(wú)瓜”和“我可以”。從該類型詞語(yǔ)使用頻率的角度來(lái)看,當(dāng)代網(wǎng)友更喜歡隱含地表達(dá)自己的情感,或出于交流簡(jiǎn)便而使用含義較多的詞語(yǔ)。從詞語(yǔ)使用場(chǎng)景來(lái)看,“陳獨(dú)秀”一詞不僅僅指歷史上的人物陳獨(dú)秀,還寓指這個(gè)人的做法很“show-秀”,即令人驚奇的意思?!罢_始”一詞可指片頭廣告結(jié)束,正片即將開始,也可指視頻內(nèi)容已結(jié)束,但結(jié)尾曲或結(jié)尾彩蛋令人注目?!坝昱疅o(wú)瓜”、“沖鴨”皆取自諧音,原意為“與你無(wú)關(guān)”、“沖呀”。利用諧音表達(dá)可降低語(yǔ)氣的強(qiáng)烈度,也可結(jié)合場(chǎng)景包含多層含義。
多被用于口頭禪的詞匯往往與生活密切相關(guān)。如“我太難了”、“盤他”、“皮”、“妙啊”等詞語(yǔ)就可簡(jiǎn)單地表達(dá)日常生活中的感觸。詞語(yǔ)“盤他”出自相聲段子,意指不用管太多,做就行了。“皮”一詞意為很頑皮,可用于生活中被惡作劇后或視頻內(nèi)容非常頑皮搞笑。
出自影視、歌曲或文章的詞語(yǔ)也常被用于口頭禪中。它在現(xiàn)代使用中更多地體現(xiàn)了一種另類的俏皮。如“涼涼”、“佩奇”、“橘子”等詞語(yǔ)被廣泛流傳和應(yīng)用?!皼鰶觥背鲎愿枨稕鰶觥?,多被用于表達(dá)對(duì)象做的事注定失敗或已經(jīng)失敗,同時(shí)該詞還有惋惜、同情之意?!芭迤妗币辉~出自《小豬佩奇》動(dòng)畫片,但該詞是經(jīng)過(guò)網(wǎng)友的改編后才流傳在網(wǎng)絡(luò)上。該詞全句為:小豬佩奇身上紋,掌聲送給社會(huì)人。意義同中“社會(huì)”一詞?!伴僮印币辉~出自朱自清的短篇散文《背影》。原句為:我買幾個(gè)橘子去。你就在此地,不要走動(dòng)。該詞多被用于倫理中,有貶義。
綜上所述,自媒體視頻熱詞的使用往往與其出處有較大差別。但其包含的意義眾多,既可以隱含地表達(dá)個(gè)人的情感也可以用于復(fù)雜情感的表達(dá)。
自媒體視頻平臺(tái)輿情呈現(xiàn)出的感情色彩十分明顯[5]。從熱門詞匯來(lái)看,人們更加傾向于觀看令人耳目一新或非常有內(nèi)涵的視頻。與此同時(shí),人們對(duì)經(jīng)典動(dòng)畫作品和經(jīng)典影視文學(xué)作品的關(guān)注也有所上升。因此當(dāng)代網(wǎng)民更加關(guān)注對(duì)美好生活的追求,對(duì)休閑類事物的需求以及對(duì)高壓力工作的不滿與無(wú)奈。
與此同時(shí),通過(guò)調(diào)查發(fā)現(xiàn)有很多視頻作者依靠斷章取義、故作聲勢(shì)的行為來(lái)吸引觀眾以牟取利益。正是自媒體視頻平臺(tái)的急速發(fā)展與低門檻和高自由度的視頻制作滋生了“低創(chuàng)視頻”,甚至是誤導(dǎo)大眾的視頻。而群眾對(duì)于種網(wǎng)絡(luò)媒體的辨識(shí)能力差異較大,誤信誤傳,影響網(wǎng)絡(luò)傳播環(huán)境。
近年來(lái)版權(quán)問題也備受網(wǎng)友關(guān)注。字體版權(quán)、商標(biāo)問題、盜版軟件、盜版音樂等在大眾眼中還未形成正確的理解。2019 年商標(biāo)搶注事件引起國(guó)家關(guān)注,也為群眾敲響了版權(quán)、知識(shí)產(chǎn)權(quán)保護(hù)意識(shí)的警鐘。作為視頻作者或自媒體平臺(tái),應(yīng)對(duì)各類權(quán)益問題加以重視。
自媒體視頻平臺(tái)的輿論監(jiān)管需要自媒體平臺(tái)和政府機(jī)構(gòu)共同努力,努力創(chuàng)建以正確政治導(dǎo)向?yàn)橹鞯妮浾摥h(huán)境[6]。
對(duì)于自媒體網(wǎng)絡(luò)視頻平臺(tái)而言,積極響應(yīng)國(guó)家號(hào)召,及時(shí)向政府文化管理部門匯報(bào)網(wǎng)絡(luò)輿情信息,對(duì)網(wǎng)民開通便捷的反饋通道,加強(qiáng)視頻的審核力度是有必要的。作為群眾與群眾,群眾與政府交流的橋梁,自媒體視頻平臺(tái)有義務(wù)維護(hù)群眾輿論與國(guó)家信息導(dǎo)向相符,凈化網(wǎng)絡(luò)環(huán)境。特別要重點(diǎn)關(guān)注低創(chuàng)作者、斷章取義作者和網(wǎng)絡(luò)水軍的動(dòng)向,在平時(shí)對(duì)該類作者和人群加以培訓(xùn)和引導(dǎo),在輿論關(guān)鍵時(shí)期對(duì)其加以合理管控。對(duì)網(wǎng)絡(luò)謠言的創(chuàng)造者和傳播者,必要時(shí)需采取法律手段處理。
政府文化監(jiān)管部門應(yīng)加強(qiáng)與群眾的交流,緊跟時(shí)代潮流以正確合理引導(dǎo)大眾輿論走向。一方面可以建立政府及文化監(jiān)管部門對(duì)群眾的便捷反饋通道,另一方面也要積極加入社交平臺(tái)對(duì)輿論進(jìn)行合理的導(dǎo)向,并對(duì)監(jiān)管到的謠言及時(shí)用真相調(diào)查辟謠。例如“共青團(tuán)中央”官方賬號(hào)在Bilibili 已擁有600 萬(wàn)關(guān)注量,位列平臺(tái)前茅。同時(shí)政府工作人員也要緊跟民意,合理應(yīng)對(duì)網(wǎng)絡(luò)輿情突發(fā)事件。文化管理部門的公信力也影響到了網(wǎng)絡(luò)輿情的管理。最后,必要時(shí)需要以立法的形式來(lái)規(guī)范網(wǎng)絡(luò)輿論行為或網(wǎng)絡(luò)不當(dāng)行為。
基于自媒體視頻平臺(tái)的輿情分析,以自媒體輿情分析為核心,通過(guò)中文分詞分析自媒體視頻平臺(tái)的用戶評(píng)論的情感分析,獲取輿論傾向。本文結(jié)合網(wǎng)絡(luò)爬蟲、程序設(shè)計(jì)、大數(shù)據(jù)分析等機(jī)制,使現(xiàn)代網(wǎng)絡(luò)自媒體輿情的分析過(guò)程更加合理、快捷、準(zhǔn)確、高效,自媒體視頻平臺(tái)與網(wǎng)絡(luò)爬蟲兩方面的有機(jī)結(jié)合,為現(xiàn)代網(wǎng)絡(luò)自媒體輿情的分析和政府監(jiān)控監(jiān)管提供了一種新的解決方案。