楊 單,程 鍵,姚怡琦,李曉雨
(中南民族大學 管理學院,湖北 武漢 430074)
互聯(lián)網(wǎng)給人們的生活、工作等各方面帶來了巨大變化,同時也形成了全新的輿論環(huán)境,網(wǎng)絡輿情已經(jīng)成為網(wǎng)絡管理的重要內(nèi)容。網(wǎng)絡輿情是指由某事件的刺激而產(chǎn)生的通過互聯(lián)網(wǎng)平臺傳播的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合[1]。
高校大學生作為網(wǎng)民的重要組成部分,能借助網(wǎng)絡平臺便捷地獲取各種信息,并可相對自由地發(fā)表與自身利益相關或對各種社會公共熱點事件自主表達有傾向性的態(tài)度和看法,已經(jīng)成為了網(wǎng)絡輿情的主要生成力量和影響對象。[2]高校網(wǎng)絡輿情已經(jīng)成為了網(wǎng)絡輿情的重要組成部分,近年來已經(jīng)成為提升網(wǎng)絡治理能力的重要課題,受到相關輿情管理部門及相關學者的重視和關注。根據(jù)2018 年《中國高等教育輿情報告》顯示,高校輿情熱點事件的首曝光以網(wǎng)絡媒體為主,所占比例已至90%,并且社交媒體也是公眾獲取信息的主要來源,據(jù)統(tǒng)計,年度十大熱點高校輿情事件中有60%的話題來自社交媒體的爆料。[3]
社交媒體是指互聯(lián)網(wǎng)基于用戶關系的內(nèi)容生成與交換平臺,主要包括社交網(wǎng)站、即時通訊平臺、論壇、博客等[4]。微信、微博、知乎等社交媒體已經(jīng)成為高校學生獲取信息、相互交流、表達訴求的主要渠道,對社交媒體的使用促使輿情傳播具有一定的圈層化和私密性[5],同時正是由于傳播空間的相對自由和匿名評論的相對隱秘,再加上高校大學生生活閱歷較淺、容易受到輿論影響,一些比較極端和激烈的表達形式會在其表達觀點時采用,無法以邏輯鮮明的論述方式進行理性表達,其發(fā)表的評論往往帶有強烈的感情色彩。因此,對社交媒體中高校輿情相關的用戶評論進行情感分析具有重要意義。[6]
首先使用網(wǎng)絡爬蟲采集到近期新冠疫情期間被廣泛討論的“武漢高校宿舍被征用”及“考研擴招”兩個相關話題的用戶評論信息,對數(shù)據(jù)進行清洗級預處理后,基于詞頻統(tǒng)計繪制詞云圖,直觀分析熱點關注詞匯,然后分別對兩個話題評論信息進行了Rost 情感分析和Gooseeker 情感分析,基于Snownlp 情感判斷來判斷兩個話題的正面和負面情緒比例,并基于此有針對性的對于“考研擴招”的用戶情感走勢進行更具體的分析,接著對于兩個話題的用戶評論數(shù)據(jù)進行社會網(wǎng)絡分析,最后基于研究結果對于高校網(wǎng)絡輿情管理提出有針對性的建議。
圖1 基于文本挖掘的用戶情感分析流程
新冠疫情期間,武漢高校宿舍被征用及考研擴招這兩個與學生利益相關度非常高的話題引起了廣大高校學生的熱烈討論,選擇這兩個話題來研究高校網(wǎng)絡輿情具有一定代表性和時效性。而相對于QQ 和微信,微博和知乎由于其公共屬性特點,已經(jīng)成為了高校學生獲取社會信息、進行公眾話題討論、表達訴求的主要社交媒體,因此我們選擇的用戶評論數(shù)據(jù)來源是微博和知乎。我們利用自己設計編寫的網(wǎng)絡爬蟲程序在微博的相關話題的討論、超話和知乎相關話題的問答中采集與武漢高校宿舍被征用、考研擴招的相關話題討論的評論數(shù)據(jù)并進行存儲。初期共采集了約30000 條用戶評論數(shù)據(jù)。
3.2.1 刪除不規(guī)范數(shù)據(jù)
爬取到的初始數(shù)據(jù)存在冗余以及格式不規(guī)范等問題,對其進行簡單的預處理,刪除相關不規(guī)范數(shù)據(jù)后,獲得規(guī)范數(shù)據(jù)約16000 條。
3.2.2 文本預處理
文本預處理是對文本符號處理、分詞、提取關鍵詞、去除停用詞等一系列操作的統(tǒng)稱,經(jīng)過預處理操作后,能夠明顯提高文本表達的質(zhì)量。我們采用Python 語言對于文本進行預處理操作。主要的流程包括以下步驟:
數(shù)據(jù)清洗:首先將通過附件形式載入附件,并將數(shù)據(jù)記錄轉換為data_frame 形式存儲。我們發(fā)現(xiàn)評論數(shù)據(jù)中不僅包括了中文字符,還包括了數(shù)字、英文字符、標點等一些無明確意義的非常規(guī)字符,因此利用正則表達式定義了一個刪除除字母、數(shù)字、漢字以外的所有符號的函數(shù)。
jieba 分詞:分詞是中文文本分析的重要內(nèi)容,正確的分詞可以幫助更好的來構建模型、運用算法分析。在分詞過程過程匯總才用了jieba 庫進行分詞。
去除停用詞:無論是中文中,還是英文中,都有用來起連接作用的連詞、虛詞、語氣詞等無意義的詞,這些詞沒有具體含義,只是起著銜接句子的作用。這些詞對文本分析沒有任何幫助,因此需要對分詞后的數(shù)據(jù)進行停用詞處理。我們選用的停用詞表為中文停用詞表、哈工大停用詞表、四川大學機器智能實驗室停用詞庫、百度停用詞表。
3.3.1 詞頻統(tǒng)計
詞頻統(tǒng)計:將分詞后的詞語進行詞頻統(tǒng)計,并按照詞頻顯示詞語。
圖2 詞頻統(tǒng)計結果
通過詞頻統(tǒng)計可以看出,在武漢高校宿舍被征用話題中,高校學生比較關心在宿舍中的私人物品能否被好好保管、疫情以后宿舍是否能有效消毒、學生表示理解但希望能提前通知或者征用體育館這類地方等。在考研擴招話題中,高校學生希望自己未來能夠考上、在研究生時期獲得更好的學習發(fā)展,提高自己的能力、并認為考研擴招能夠緩解就業(yè)壓力等,并且可以看出專碩、人工智能、計算機是較多人的選擇方向。
3.3.2 繪制詞云
繪制詞云:將詞頻統(tǒng)計的結果用wordcloud 庫中的WordCloud.generate_from_frequencies 方法繪制詞云,并用matplotlib.pyplot 展示并保存詞云。通過詞云繪制,可以更直觀地了解到高校學生關心的熱點。
圖3 武漢高校宿舍被征用詞云圖
圖4 考研擴招詞云圖
對于“武漢高校宿舍被征用”話題,利用Rost 工具將評論數(shù)據(jù)分類為正面情緒、負面情緒和中性情緒三大類,并將結果繪制成餅狀圖。從圖5 中可以看出武漢高校宿舍被征用的事件中,負面情緒為多,占47.08%,中性情緒、正面情緒分別占23.79%、29.13%。通過觀察負面情緒的評論數(shù)據(jù),結合微博用戶歷史信息進行分析,發(fā)現(xiàn)這些評論數(shù)據(jù)呈現(xiàn)負面情緒微博用戶大多數(shù)是被征用宿舍高校學生,在疫情初期,“我的電腦怎么辦?”、“私人物品如何處理?”、“回去以后會傳染嗎?”多數(shù)負面評論對于自己宿舍被征用后的財產(chǎn)、衛(wèi)生狀況有所擔憂,這也屬于人之常情。但是也應該看到,正面情緒的評論也不少,尤其在看到相關報道政府和學校對于被征用宿舍的有序管理后,“支持國家做法,特殊時期,人命比學生宿舍重要”、“互相理解,和沖在一線的人員相比這也不算什么,同意被征用”,后期類似這樣的正面評論占主導地位,表現(xiàn)出了當代大學生極強的社會責任感。
對于“考研擴招話題”,選取的評論數(shù)據(jù)來自知乎,我們使用Gooseeker 進行情感分析,并將結果可視化。我們發(fā)現(xiàn),在考研擴招事件中,正面情緒最多,占48%,中性情緒占29%,負面情緒占23%?!翱蘖耍佳杏邢M恕?、“提升整體國民素質(zhì)”、“趕上了好時候,要努力了”,在正面情緒評論中,類似這樣的評論比較多,這些評論可能更多的來自于今年或者明年要準備考研的大學生,對于教育部研究生擴招的政策非常支持,提升了他們考上研究生的希望。當然也要注意到,評論中的負面情緒主要集中在“學歷可能會貶值吧”、“以后可能工作更難找了”類似于這樣的對于未來的擔憂之上。而暫時不考研或者已經(jīng)考過研的大學生用戶評論可能更多的會保持中立。
SnowNLP 是基于Python 中文文本的文本情感分析包,我們利用它來進行評論數(shù)據(jù)情感判斷,將評論數(shù)據(jù)分為正面情緒和負面情緒兩大類,返回值為情緒的概率,越接近1 表示正面情緒,越接近0 表示負面情緒。具體情感判斷結果如圖7 所示:
從圖7 中可以看出,在“武漢高校宿舍被征用”話題中,用戶評論的負面情緒較多,在“考研擴招”話題中,用戶的正面情緒較多。
考研一直是高校學生關注的一個熱點,2020 年受疫情影響教育部為緩解就業(yè)壓力而發(fā)布的研究生擴招信息使得這個話題更加火爆,因此我們對于“考研擴招”話題用戶評論數(shù)據(jù)的情感分析走勢進行了進一步深入的分析。
我們對于獲取到的“考研擴招”話題用戶評論數(shù)據(jù)進行處理后,繪制成了考研擴招情感走勢變化圖,如圖8 所示。從圖中可以看出,“考研擴招”話題在2015 年幾乎沒什么熱度,而近幾年隨著考研人數(shù)大幅度增加,競爭愈發(fā)激烈,因此關注度和話題量也逐步上升。在去年(2019)考試結束后,在今年(2020 年)1 月份開始,復試受到疫情影響話題度開始顯著上升,到2 月份教育部發(fā)布擴招相關文件后,話題度暴增。而從情感分析走勢來看,正面情緒和中性情緒還是一直占主導地位,負面情緒占比較少,說明高校學生還是比較理性地在看待“考研擴招”的這個政策,積極努力的在根據(jù)政策調(diào)整心態(tài),做好考研準備。
從社會網(wǎng)絡的視角看,詞語是網(wǎng)絡中的一個個節(jié)點,而它們的共現(xiàn)則體現(xiàn)為節(jié)點之間有直接的聯(lián)系。在虛擬的詞語網(wǎng)絡中,由于是否共現(xiàn)和共現(xiàn)頻次的不同,每個節(jié)點在網(wǎng)絡中具有不同的地位,承擔不同的角色。在一定的時間范圍內(nèi),有些關鍵詞反映的是該話題的討論熱點;有些詞之間的聯(lián)系非常緊密;有些詞會在網(wǎng)絡中顯得比較孤立。通過對詞語網(wǎng)絡的分析,可以發(fā)現(xiàn)隱藏在真實關系網(wǎng)背后的關系網(wǎng)絡,它對于了解一個話題的討論熱點、討論規(guī)模等有極大的幫助。因此,我們對于“武漢高校宿舍被征用”和“考研擴招”兩個話題進行了社會網(wǎng)絡分析。
在“武漢高校宿舍被征用”話題的評論數(shù)據(jù)中,通過社會網(wǎng)絡分析,可以發(fā)現(xiàn)“學生”、“物品”、“宿舍”處于網(wǎng)絡圖的中心位置,幾乎與其他所有關鍵詞都發(fā)生聯(lián)系。除此外,“學?!?、“武漢”、“征用”等與其他詞的關系也很緊密,說明很多學生也很關注這些關鍵詞,并且其他的關鍵詞也是圍繞這些關鍵詞開展的,因此可以推斷這些關鍵詞是話題熱點。
圖9 “武漢高校宿舍被征用”話題用戶評論數(shù)據(jù)社會網(wǎng)絡圖
在“考研擴招”話題的用戶評論數(shù)據(jù)中,通過社會網(wǎng)絡分析,可見“研究生”、“碩士”處于網(wǎng)絡圖的中心位置,幾乎與其他所有關鍵詞都發(fā)生聯(lián)系。除此之外,“就業(yè)”、“本科”、“考研”等與其他詞的關系也很緊密,說明很多學生也很關注這些關鍵詞,并且其他的關鍵詞也是圍繞這些關鍵詞開展的,因此可以推斷這些關鍵詞是話題熱點。其次,處于邊緣地帶的一些關鍵詞,如“復試”、“規(guī)劃”等,這些節(jié)點處于邊緣,與其他關鍵詞的聯(lián)系較少。最后,像“調(diào)劑”、“貶值”、“疫情”等處中間的關鍵詞,它們是連接中心關鍵詞和邊緣關鍵詞的橋梁。
圖10 “考研擴招”話題用戶評論數(shù)據(jù)社會網(wǎng)絡圖
本文關注的“武漢高校宿舍被征用”、“考研擴招”兩個話題都是在新冠疫情爆發(fā)這一特殊時期發(fā)生的影響比較大的高校網(wǎng)絡輿情事件,受到廣大高校學子的持續(xù)關注,對于研究高校輿情具有一定的典型性和代表性。在文章中,首先使用Python 網(wǎng)絡爬蟲技術從微博和知乎等社交媒體的這兩個話題的相關評論頁面抓取了相關評論數(shù)據(jù),對采集到的文本數(shù)據(jù)進行清洗和中文分詞,去除數(shù)據(jù)中停用詞,然后基于詞頻統(tǒng)計繪制了詞云圖,再結合相關工具和技術對兩個話題分別進行了情感分析,并利用Snowlp 模塊進行了情感判斷。從分析結果來看,“武漢高校宿舍被征用”話題評論數(shù)據(jù)中前期負面情緒較多,后期逐漸轉向正面情緒,可以看出高校學生對于宿舍被征用作為防疫用途初期是有所顧慮的,更多表現(xiàn)在對于私人財產(chǎn)和公共衛(wèi)生方面的擔憂,但隨著疫情的發(fā)展,越來越多的大學生表達了對特殊時期特殊政策的支持,體現(xiàn)出了高度的社會責任感和愛國精神;在“考研擴招”話題評論數(shù)據(jù)中正面情緒占主導地位,可以看出對于考研擴招大部分大學生持樂觀情緒,覺得自己考上研究生的希望增加,雖然也有部分負面情緒集中在對于學歷貶值、工作不好找的擔憂方面,但是整體來看態(tài)度是積極的。最后采用社會網(wǎng)絡圖的形式對于兩個話題中的關鍵詞匯之間的關聯(lián)關系進行了進一步分析。
在當前以社交媒體為主流的互聯(lián)網(wǎng)時代,高校網(wǎng)絡輿情已經(jīng)成為社會網(wǎng)絡輿情的一個重要組成部分。高校網(wǎng)絡輿情具有敏感事件多、傳播速度快、復雜程度高、影響范圍廣等特點,加大了網(wǎng)絡輿情管理的難度。網(wǎng)絡輿情危機的發(fā)生和輿情主體特征有密切關聯(lián),因此要做好高校網(wǎng)絡輿情工作,就需要展開大量基于實際熱點輿情問題的調(diào)研,分析高校網(wǎng)絡輿情主體特征,把握好網(wǎng)上輿論引導的時度和效度,對高校網(wǎng)絡輿情導控提出針對性的建議和指導方法,從而創(chuàng)建更加和諧的高校網(wǎng)絡環(huán)境。