白 健,洪小娟
(南京郵電大學(xué)管理學(xué)院,江蘇 南京 210003)
1535179246@qq.com;1291823970@qq.com
隨著新媒體技術(shù)的不斷蓬勃發(fā)展,人們獲取信息和表達(dá)情緒的方式更加多元化。以Bilibili為代表的新媒體傳播平臺(tái)在傳統(tǒng)評(píng)論的基礎(chǔ)上引入彈幕評(píng)論,為網(wǎng)民提供全新表達(dá)途徑的同時(shí),也構(gòu)建了全新的網(wǎng)絡(luò)輿情空間,逐漸成為新的“網(wǎng)絡(luò)輿情傳播載體”。
傳統(tǒng)評(píng)論是網(wǎng)民基于整體感知做出的“滯后”評(píng)論,因而更加偏于“理性”表達(dá)。而彈幕作為一種新媒體時(shí)代下的短信息表達(dá)方式,以實(shí)時(shí)評(píng)論的方式表達(dá)了用戶對(duì)于當(dāng)前視頻的即刻認(rèn)知與行為傾向,相比于傳統(tǒng)評(píng)論方式具有更強(qiáng)的情感色彩和時(shí)效性,這對(duì)于網(wǎng)絡(luò)輿情情感分析研究具有獨(dú)特的研究?jī)r(jià)值。通過(guò)對(duì)彈幕內(nèi)容進(jìn)行數(shù)據(jù)可視化、情感分析以及主題分類,有助于動(dòng)態(tài)把握網(wǎng)絡(luò)輿情態(tài)勢(shì)走向,追蹤網(wǎng)民關(guān)注熱點(diǎn),尋找彈幕背后所蘊(yùn)含的情感傾向和輿情熱點(diǎn),為防范化解網(wǎng)絡(luò)輿情風(fēng)險(xiǎn),完善輿情分析機(jī)制,構(gòu)建和諧穩(wěn)定網(wǎng)絡(luò)空間做出貢獻(xiàn)。
本文研究設(shè)計(jì)思路:首先,使用Python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)代碼進(jìn)行網(wǎng)絡(luò)輿情彈幕文本數(shù)據(jù)采集和數(shù)據(jù)清洗;其次,使用中文分詞組件Jieba進(jìn)行彈幕數(shù)據(jù)的分詞、去停用詞以及高頻詞統(tǒng)計(jì),得到網(wǎng)絡(luò)輿情的高頻關(guān)鍵詞及權(quán)重;再次,調(diào)用WordCloud庫(kù)設(shè)置詞云圖樣式并將經(jīng)過(guò)Jieba分詞器處理的彈幕數(shù)據(jù)進(jìn)行詞云圖呈現(xiàn);最后,基于SnowNLP進(jìn)行情感分析,判斷彈幕數(shù)據(jù)中積極、消極、中性的情感比例并進(jìn)行分析,得出情感分析占比圖、直方圖和波動(dòng)圖,并基于LDA主題模型得到焦點(diǎn)主題。具體研究流程如圖1所示。
圖1 基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析流程Fig.1 Text mining and sentiment analysis process of network public opinion based on bullet screen
Bilibili作為一個(gè)快速崛起的新媒體平臺(tái),具有超過(guò)3億的用戶數(shù)量,其活躍用戶群體大,彈幕數(shù)量豐富且具有較好的包容性,因而本文選擇Bilibili作為數(shù)據(jù)源,進(jìn)行數(shù)據(jù)采集操作。
首先使用開(kāi)發(fā)者工具獲取視頻彈幕的異步請(qǐng)求包,觀察和分析網(wǎng)頁(yè)變化規(guī)律,找到網(wǎng)絡(luò)數(shù)據(jù)來(lái)源。通過(guò)對(duì)目標(biāo)網(wǎng)頁(yè)數(shù)據(jù)來(lái)源地解析,從Headers中獲取爬蟲(chóng)所需的URL、Cookie及User-agent。其次,使用Python的Requests第三方庫(kù),使用解析獲得的Cookie以及User-agent構(gòu)建headers{}請(qǐng)求頭,結(jié)合URL地址調(diào)用request.get()方法獲取原始彈幕數(shù)據(jù);最后,使用Python內(nèi)置Re庫(kù)的正則表達(dá)式re.findall()函數(shù)精確匹配要爬取的內(nèi)容,剔除無(wú)關(guān)數(shù)據(jù),并將彈幕數(shù)據(jù)進(jìn)行存儲(chǔ)。
數(shù)據(jù)清洗是網(wǎng)絡(luò)爬蟲(chóng)的重要一環(huán),通過(guò)剔除原始彈幕文本中的表情符號(hào)、數(shù)字、空白值等無(wú)效信息,可以有效提升數(shù)據(jù)質(zhì)量。
在完成數(shù)據(jù)采集以及數(shù)據(jù)清洗后,調(diào)用第三方Jieba、WordCloud庫(kù)實(shí)現(xiàn)高頻詞統(tǒng)計(jì)與數(shù)據(jù)可視化。
Jieba分詞器是目前Python中最好的中文分詞組件,主要利用中文詞庫(kù)確定漢字間的相關(guān)概率,進(jìn)而產(chǎn)生正確分詞結(jié)果,此分詞方式的準(zhǔn)確率超過(guò)了97%,能夠很好地協(xié)助使用者完成主題詞抽取、潛在主題發(fā)現(xiàn)等工作,尤其適用于中文文本分類。Jieba支持用戶詞典和停用詞字典功能,這能夠在較大程度上提升分詞結(jié)果的準(zhǔn)確度,對(duì)分詞結(jié)果不太理想的詞組,也能夠采取引入用戶自定義字典的方法加以處理。因而本文選擇使用Jieba分詞器進(jìn)行彈幕文本數(shù)據(jù)的分詞、去停用詞及高頻詞統(tǒng)計(jì)。
首先,使用Pandas庫(kù)的read_csv()方法導(dǎo)入經(jīng)過(guò)簡(jiǎn)單數(shù)據(jù)清洗的彈幕文本數(shù)據(jù),并通過(guò)Jieba庫(kù)的jieba.lcut()方法實(shí)現(xiàn)對(duì)彈幕文本的分詞操作;其次,使用stopwords=[line.strip()for line in open().readlines()]導(dǎo)入停用詞詞典,并通過(guò)遍歷循環(huán)將“增加熱度、增熱專用、1、2”之類無(wú)效彈幕進(jìn)行剔除;最后,使用jieba.analyse.extract_tags()方法提取彈幕文本“Top10關(guān)鍵詞及權(quán)重”并通過(guò)遍歷操作實(shí)現(xiàn)存儲(chǔ)。
WordCloud庫(kù)以WordCloud對(duì)象為基礎(chǔ),以詞語(yǔ)為基本單位進(jìn)行詞云圖繪制。首先,通過(guò)wordcloud.WordCloud()函數(shù)進(jìn)行詞云圖參數(shù)設(shè)置,本文設(shè)置width=1200,height=900,font_path='msyh.ttc',background_color="white",max_words=1500,stopwords=stopwords,確定詞云圖的形狀、尺寸、背景色、字體等;其次,使用wordcloud.generate_from_text()方法將Jieba分詞處理后的彈幕文本數(shù)據(jù)傳入詞云圖中;最后通過(guò)wordcloud.to_file()方法輸出詞云圖。
傳統(tǒng)的Python自然語(yǔ)言處理庫(kù)大多都面向英文,對(duì)于中文文本處理兼容性較差,而SnowNLP庫(kù)的出現(xiàn)很好地彌補(bǔ)了這一點(diǎn)。SnowNLP庫(kù)自帶中文正負(fù)情感訓(xùn)練集,可以通過(guò)樸素貝葉斯原理實(shí)現(xiàn)情感分析、詞性標(biāo)注、文本分類等操作,很好地適用于中文文本數(shù)據(jù)的處理,故本文選取SnowNLP進(jìn)行網(wǎng)絡(luò)輿情的情感分析。通過(guò)SnowNLP情感分析可以獲得情感分析占比圖、直方圖、波動(dòng)圖以及情感得分表等可視化結(jié)果。SnowNLP情感預(yù)測(cè)基本原理如下。
式(2)即為SnowNLP情感預(yù)測(cè)過(guò)程使用的基本式,該式還可以進(jìn)一步簡(jiǎn)化為式(3)。
LDA是潛在語(yǔ)義分析和概率語(yǔ)義分析的擴(kuò)展,在文本數(shù)據(jù)挖掘等領(lǐng)域廣泛使用。LDA模型可以自動(dòng)將文本自動(dòng)編碼為一定數(shù)量具有實(shí)質(zhì)性意義的主題,可極大減少人為干預(yù)負(fù)擔(dān)。運(yùn)行LDA模型,可以獲得每個(gè)主題下的詞語(yǔ)分布概率,以及文檔對(duì)應(yīng)的主題概率,其模型結(jié)構(gòu)如圖2所示。
圖2 LDA模型結(jié)構(gòu)示意圖Fig.2 Structure diagram of LDA model
LDA模型分為文檔、主題和詞語(yǔ)三層,是典型的生成式主題模型,具體文檔生成過(guò)程如下。
為了驗(yàn)證基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析的可行性以及可靠性,以“鴻星爾克捐款”為主題構(gòu)建實(shí)驗(yàn)數(shù)據(jù),進(jìn)行效果檢驗(yàn)。
首先,爬取相關(guān)彈幕并對(duì)數(shù)據(jù)進(jìn)行清洗,獲得視頻地址、彈幕地址、彈幕時(shí)間以及彈幕內(nèi)容等數(shù)據(jù),如圖3所示。
圖3 爬蟲(chóng)結(jié)果展示(部分)Fig.3 Crawler results show (partial)
其次,經(jīng)過(guò)Jieba分詞、去停用詞、高頻詞統(tǒng)計(jì),獲得“Top10關(guān)鍵詞及權(quán)重”表,詳見(jiàn)表1。其中,“國(guó)貨、格局、鴻星爾克、支持”等網(wǎng)絡(luò)輿情關(guān)鍵詞赫然在列,其權(quán)重分別為1.426044、1.144364、0.934489、0.518985。同時(shí),通過(guò)WordCloud繪制詞云圖,可以得到以“鴻星爾克捐款”為主題的彈幕詞云圖,如圖4所示。圖中“支持國(guó)貨、格局、鴻星爾克”等關(guān)鍵詞詞頻較高。
圖4 詞云圖Fig.4 Word cloud
表1 Top10關(guān)鍵詞及權(quán)重Tab.1 Top10 keywords and their weights
最后,調(diào)用SnowNLP和LDA進(jìn)行最為重要的彈幕情感傾向分析和主題提取。通過(guò)SnowNLP情感分析,可以得到與“鴻星爾克捐款”相關(guān)的網(wǎng)絡(luò)輿情彈幕情感分析占比圖、直方圖和波動(dòng)圖,如圖5—圖7所示。圖5從情感得分占比的角度給出了情感分析數(shù)據(jù),可以直觀看出積極、消極及中性情感分別占比為87.93%、10.66%和1.41%。圖6以直方圖的形式呈現(xiàn)了情感得分的區(qū)間分布,從圖中可以看出整體情感分布靠右,說(shuō)明網(wǎng)民對(duì)于該網(wǎng)絡(luò)輿情事件呈現(xiàn)較為積極的態(tài)度。圖7以波動(dòng)圖的形式呈現(xiàn)了彈幕時(shí)間與情感得分的關(guān)系。圖中,橫軸為彈幕時(shí)間,縱軸為彈幕情感得分,波動(dòng)曲線整體分布靠上,且隨著時(shí)間推移越發(fā)穩(wěn)定于上側(cè)區(qū)間,一方面說(shuō)明情感得分均值高于0.5,網(wǎng)民對(duì)該事件大多持積極觀點(diǎn),另一方面說(shuō)明隨著時(shí)間推移持有積極觀點(diǎn)的網(wǎng)民逐漸占據(jù)多數(shù)。
圖5 鴻星爾克情感分析占比圖Fig.5 Proportion chart of sentiment analysis for Hongxing Erke
圖6 情感分析直方圖Fig.6 Histogram sentiment analysis
圖7 情感分析波動(dòng)圖Fig.7 Fluctuation graph of sentiment analysis
通過(guò)實(shí)驗(yàn)分析不難發(fā)現(xiàn),情感分析占比圖、直方圖和波動(dòng)圖三者分別從情感得分占比、分布和時(shí)間三個(gè)角度呈現(xiàn)了彈幕背后蘊(yùn)含的輿情信息,說(shuō)明以“鴻星爾克捐贈(zèng)”為主題的相關(guān)網(wǎng)絡(luò)輿情,整體情感傾向較為積極,網(wǎng)絡(luò)輿情態(tài)勢(shì)穩(wěn)步向好。
通過(guò)LDA進(jìn)行主題詞提取可以獲得彈幕數(shù)據(jù)主題聚類表,詳見(jiàn)表2。從表2可以看出“格局、國(guó)貨、鴻星爾克、吳榮照老板”四個(gè)主題是彈幕背后隱藏的核心主題詞,是網(wǎng)民真正的關(guān)注焦點(diǎn)。
表2 主題聚類表Tab.2 Theme clustering table
不難發(fā)現(xiàn),利用LDA進(jìn)行主題詞提取獲得的主題聚類表與Jieba分詞獲得的“Top10關(guān)鍵詞及權(quán)重”表及WordCloud繪制的詞云圖所示結(jié)果一致,三者相互印證,說(shuō)明無(wú)論是詞頻角度還是聚類角度,“格局、國(guó)貨、鴻星爾克、吳榮照老板”均為該網(wǎng)絡(luò)輿情的核心焦點(diǎn),進(jìn)一步呈現(xiàn)了彈幕與網(wǎng)絡(luò)輿情之間的潛在聯(lián)系,這對(duì)于切實(shí)把握網(wǎng)民關(guān)注焦點(diǎn),防范化解衍生輿情具有重要意義。
彈幕相較于傳統(tǒng)評(píng)論具有更強(qiáng)烈的情感色彩以及更強(qiáng)的時(shí)效性,本文通過(guò)對(duì)彈幕數(shù)據(jù)的文本挖掘和情感分析探索隱藏在彈幕背后的網(wǎng)絡(luò)輿情信息。實(shí)驗(yàn)結(jié)果顯示,歷經(jīng)網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)清洗、數(shù)據(jù)可視化、SnowNLP情感分析和LDA主題詞分類等步驟后,獲得的網(wǎng)絡(luò)輿情彈幕詞云圖、情感分析占比圖、直方圖、波動(dòng)圖及LDA主題聚類表等結(jié)果較好地呈現(xiàn)了網(wǎng)民的情感傾向與關(guān)注焦點(diǎn),這對(duì)于把握網(wǎng)絡(luò)輿情動(dòng)態(tài)走向、防范化解網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)具有一定的現(xiàn)實(shí)意義。新媒體時(shí)代下,網(wǎng)民群體意見(jiàn)表達(dá)渠道更加多元化,彈幕這一新興情感表達(dá)方式的出現(xiàn),是對(duì)現(xiàn)有輿情研究的良好補(bǔ)充,通過(guò)深入對(duì)網(wǎng)絡(luò)輿情彈幕的研究可以更好地響應(yīng)網(wǎng)民合理關(guān)切,完善輿情分析機(jī)制,進(jìn)而為構(gòu)建更加和諧清明的網(wǎng)絡(luò)空間做出貢獻(xiàn)。