胡貴芝 閆現(xiàn)磊
摘? 要: 為有效支持主流媒體利用情緒資源治理輿情,提出一種基于機器學(xué)習(xí)與交叉表分析的新聞情緒分析方法。先用Python爬蟲技術(shù)從微信平臺采集新聞數(shù)據(jù);再采用多種文本分類方法的對比研究構(gòu)建最優(yōu)情緒分類器,實現(xiàn)新聞情緒類型的快速劃分;然后用交叉表分析方法評估新聞文本與新聞評論情緒之間的相關(guān)性,幫助主流媒體考察輿情治理的效果。以主流媒體在微信平臺發(fā)布的“新冠肺炎”相關(guān)新聞為例,對該方法的可行性和有效性進(jìn)行了驗證。
關(guān)鍵詞: 情緒分析; 機器學(xué)習(xí); 輿情治理; 微信平臺; 新冠肺炎
中圖分類號:G202? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A? ? ? ?文章編號:1006-8228(2021)05-33-04
Application of machine learning and cross tabulation in news
sentiment analysis of COVID-19
Hu Guizhi, Yan Xianlei
(Institute of Media Convergence, Sichuan Vocational College of Cultural Industries, Chengdu, Sichuan 610213, China)
Abstract: To effectively support mainstream media to use emotional resources to manage public opinion, a sentiment analysis method based on machine learning and cross tabulation is proposed. The raw data is collected from the WeChat platform by using the Python crawler technology, and a comparative study of multiple text classification methods is carried out to construct an optimal sentiment classifier to achieve rapid classification of news sentiment types, then the cross tabulation method is used to evaluate the sentiment correlations between news text and its comment, thereby helping mainstream media to investigate the effect of public opinion governance. Taking the news of COVID-19 published by mainstream media on the WeChat platform as an example, the effectiveness and feasibility of the method are verified.
Key words: sentiment analysis; machine learning; public opinion governance; WeChat platform; COVID-19
0 引言
情緒是社會病灶的顯現(xiàn),情緒分析具有呈現(xiàn)公眾心理活動、誘導(dǎo)公眾行為、預(yù)警公眾狀態(tài)的作用[1]。移動媒體去中心化、圈層化、碎片化的傳播特性,促使情緒在現(xiàn)代輿論生態(tài)中被彰顯[2]。輿情監(jiān)管部門不僅需要提供準(zhǔn)確、清晰的事實信息,更需重視公眾對信息的情緒感知,把情緒作為現(xiàn)代輿情治理的新著力點[3]。網(wǎng)絡(luò)傳播情緒與受眾情緒之間存在微觀意義上的對應(yīng)性,有學(xué)者提出“情緒設(shè)置”理論[4],通過對信息載體的情緒設(shè)置牽制受眾以何種情緒去思考與表達(dá),從而進(jìn)行情緒引導(dǎo)。2019年12月,“新冠肺炎”爆發(fā),主流媒體把控著信息發(fā)布的主導(dǎo)權(quán),肩負(fù)輿情引導(dǎo)的職責(zé)[5]。通過分析主流媒體關(guān)于“新冠肺炎”的新聞文本與評論情緒,探究主流媒體“情緒設(shè)置”的效果對于網(wǎng)絡(luò)輿情治理具有重要意義。
目前,已有學(xué)者開展文本情緒分析的研究。早期的文本情緒識別主要依賴于人工方式,即召集人員閱讀文本然后手工判斷文本的情緒類型。顯然,該方式費時費力且難以適用于大樣本數(shù)據(jù)。隨著計算機技術(shù)的發(fā)展,機器學(xué)習(xí)方法被應(yīng)用于文本情緒識別中以提高情緒識別的效率[6]。例如,朱曉光[7]采用前饋神經(jīng)網(wǎng)絡(luò)與支持向量機作為監(jiān)督學(xué)習(xí)模型進(jìn)行中文微博的情感分類;赫苗苗[8]基于樸素貝葉斯、支持向量機、決策樹等算法的對比研究構(gòu)建最優(yōu)的情緒分類器,以實現(xiàn)微博情感的高效分類。
然而,雖然目前已有學(xué)者將機器學(xué)習(xí)應(yīng)用于文本情緒分類,但是依然缺乏分析新聞文本與新聞評論二者情緒之間的對應(yīng)性,進(jìn)而難以評估新聞輿情治理的效果,不利于網(wǎng)絡(luò)輿情環(huán)境的健康穩(wěn)定發(fā)展。因此,有必要在識別新聞文本與評論的情緒類型后,進(jìn)一步分析二者情緒之間的相關(guān)性。針對上述問題,本文提出一種基于機器學(xué)習(xí)與交叉表分析的新聞情緒分析方法,一方面結(jié)合多種機器學(xué)習(xí)分類方法的對比研究保證新聞情緒的識別效率,另一方面通過交叉表分析方法探究新聞文本與新聞評論情緒之間的相關(guān)性以有效考察輿情治理的效果。
1 研究方法
1.1 方法流程
本文的研究方法流程如圖1所示。研究步驟包括:首先,基于微信平臺,抓取主流媒體以“新冠肺炎”為主題的新聞文本數(shù)據(jù)與相應(yīng)的評論數(shù)據(jù)。其次,針對新聞文本數(shù)據(jù),提出“新冠肺炎”情緒分類體系,并以此為基礎(chǔ)通過人工方式識別新聞文本情緒;而針對新聞評論數(shù)據(jù),則采用機器學(xué)習(xí)算法構(gòu)建最優(yōu)的情緒分類器,以此實現(xiàn)新聞評論情緒的快速識別。最后,基于SPSS工具開展新聞文本與新聞評論的情緒交叉性分析,以此考察情緒設(shè)置的效果。
1.2 數(shù)據(jù)采集
數(shù)據(jù)采集是文本情緒分析的首要步驟,本文基于Scrapy框架,采用Python對微信平臺的文章進(jìn)行采集。主要用到的技術(shù)有:利用Filder抓包工具對公眾號文章的請求參數(shù)進(jìn)行分析,得到固定參數(shù)和變動參數(shù);采取Requests工具對文章的鏈接發(fā)起請求并獲得反饋數(shù)據(jù);通過Beautifulsoup工具對獲取的參數(shù)和數(shù)據(jù)進(jìn)行解析以判斷該文章是否符合要求;使用Mongodb數(shù)據(jù)庫將爬取過程中符合要求的文章進(jìn)行存儲,并轉(zhuǎn)化為Excel格式。
1.3 情緒識別
鑒于新聞文本的數(shù)據(jù)量一般較小,本研究將采用人工方式識別新聞文本的情緒,而由于新聞評論的數(shù)據(jù)量較大,故采用機器學(xué)習(xí)方式識別新聞評論的情緒。
1.3.1 新聞文本情緒識別
在識別新聞文本的情緒之前,需要構(gòu)建情緒分類體系,從而支持“新冠肺炎”新聞文本的情緒類型標(biāo)注。艾克曼曾提出包括六種核心情緒的經(jīng)典情緒分類體系[9],即快樂、悲傷、憤怒、恐懼、厭惡和驚訝。本研究針對“新冠肺炎”新聞包含疫情實況通報性信息,因此增加了“無情緒”這一分類指標(biāo)。在艾克曼情緒分類基礎(chǔ)上,本研究提出由三種情感效價、十七種情緒類型構(gòu)成的“新冠肺炎”情緒分類體系,見表1。
基于“新冠肺炎”情緒分類體系,采取分組交互式驗證的方法標(biāo)記新聞文本的情緒類型,從而確保人工劃分方式的準(zhǔn)確性。鑒于“新冠肺炎”情緒分類體系中情感效價與情緒類型具有映射關(guān)系,可基于情緒類型識別結(jié)果構(gòu)建產(chǎn)生式規(guī)則實現(xiàn)新聞情感效價的自動識別,如“IF{某新聞情緒類型=贊美},Then{該新聞情感效價=正向}”。
1.3.2 新聞評論情緒識別
采用機器學(xué)習(xí)方式識別新聞評論情緒,包括數(shù)據(jù)預(yù)處理、情緒分類器構(gòu)建及其應(yīng)用三大步驟。
⑴ 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是對粗采數(shù)據(jù)進(jìn)行數(shù)據(jù)標(biāo)注與特征提取,從而支持情緒分類器的構(gòu)建與應(yīng)用,具體過程如下。①數(shù)據(jù)標(biāo)注。首先,從所有新聞評論文本中隨機挑選約10%至20%的數(shù)據(jù)作為樣本數(shù)據(jù);然后,基于“新冠肺炎”情緒分類體系,采取分組交互式驗證的方法標(biāo)記新聞評論樣本數(shù)據(jù)的情緒類型(與新聞文本的情緒標(biāo)注過程相似)。②特征提取。首先,采用成熟的中文分詞工具Jieba對樣本與非樣本數(shù)據(jù)進(jìn)行文本分詞,得到每條樣本的文本分詞列表;然后,基于哈工大停用詞庫去掉“的”、“地”、“得”等停用詞,并且去掉單字與重復(fù)詞;最后,采用卡方統(tǒng)計方法計算每個分詞代表每個情感類的信息量,經(jīng)過特征降維以后選取前N個信息量最高的詞作為該條新聞評論的關(guān)鍵特征。
⑵ 情緒分類器構(gòu)建
在完成數(shù)據(jù)預(yù)處理以后,便可將樣本數(shù)據(jù)中每條評論的關(guān)鍵特征與情緒類型作為數(shù)據(jù)輸入,采取機器學(xué)習(xí)方法構(gòu)建情緒分類器?;赑ython中Scikit-learn提供的4種典型分類算法,即LinearSVC(線性支持向量機)、MultinomialNB(樸素貝葉斯)、BernoulliNB(伯努利貝葉斯)、以及LogisticRegression(邏輯回歸),通過對比研究將準(zhǔn)確率最高的分類器作為最終的情緒分類器。
⑶ 情緒分類器應(yīng)用
在完成情緒分類器構(gòu)建以后,便可將“特征提取”處理后的非樣本數(shù)據(jù)導(dǎo)入情緒分類器,從而實現(xiàn)新聞評論情緒類型的快速劃分。然后,與新聞文本情感效價識別方法類似,基于新聞評論的情緒類型識別結(jié)果,通過產(chǎn)生式規(guī)則實現(xiàn)新聞評論情感效價的自動識別。
1.4 情緒相關(guān)性分析
在完成新聞文本與新聞評論的情緒識別后,便可借助SPSS工具開展交叉表分析,從而挖掘新聞文本情緒與新聞評論情緒之間的影響關(guān)系。交叉表分析是指同時將兩個或兩個以上有一定聯(lián)系的變量及其變量值按照一定的順序交叉排列在一張統(tǒng)計表內(nèi),使各變量值成為不同變量的結(jié)點,從中分析變量之間的相關(guān)關(guān)系[10]。
SPSS工具提供了交叉表分析功能,通過[Analyze→Descriptive→Crosstabs],并且選擇Phi and Cramer's V可以評估交互分析中兩個變量的關(guān)系強度。本研究將從粗粒度(情感效價)與細(xì)粒度(情緒類型)兩方面,基于SPPS工具的交叉表分析功能開展新聞文本與新聞評論的情緒對應(yīng)度分析,以深入挖掘二者之間的影響關(guān)系。
2 實例分析
以2019年12月爆發(fā)的“新冠肺炎”為研究對象,采集主流媒體在微信平臺發(fā)布的相關(guān)報道進(jìn)行新聞情緒分析以考察情緒設(shè)置的效果。
2.1 數(shù)據(jù)采集
本文選擇主流媒體微信公眾號:人民日報、新華社、央視新聞、中國新聞周刊,在2019年12月8日(首例發(fā)病日)至2020年3月19日(疫情拐點)發(fā)布的與“新冠肺炎”相關(guān)的新聞文本與對應(yīng)新聞評論作為數(shù)據(jù)基礎(chǔ),以新冠肺炎、抗疫、疫情等為關(guān)鍵詞,基于Scrapy框架,采用Python對相關(guān)微信公眾號的文章進(jìn)行采集,共計有效新聞文本2511條、47668條評論,結(jié)果見表2。
2.2 情緒識別
2.2.1 新聞文本情緒識別
針對2511條新聞文本,8位標(biāo)注員采用人工標(biāo)注方式獲得新聞文本的情緒類型,結(jié)果如圖2所示。
2.2.2 新聞評論情緒識別
針對47668條采集的新聞評論,首先隨機挑選6000條新聞評論作為樣本數(shù)據(jù);然后采用4種機器學(xué)習(xí)算法(LinearSVC、MultinomialNB、BernoulliNB、LogisticRegression)構(gòu)建情緒分類器,其準(zhǔn)確率依次為76.9%、66.6%、60.8%、71.3%。因此,本研究最終基于LinearSVC算法構(gòu)建情緒分類器實現(xiàn)新聞評論情緒的識別,結(jié)果如圖3所示。
2.3 情緒相關(guān)性分析
2.3.1 粗粒度分析
基于新聞文本與新聞評論的情感效價識別結(jié)果,通過SPSS的Crosstabs開展粗粒度情緒相關(guān)性分析,以挖掘新聞文本情感效價與新聞評論情感效價之間的關(guān)系。新聞文本情感效價與新聞評論情感效價的交叉表分析結(jié)果見表3。
研究發(fā)現(xiàn)如下:新聞文本情感效價為正向時,所引發(fā)的新聞評論的情感效價以正向為主;新聞文本情感效價為負(fù)向或中性時,所引發(fā)的新聞評論的情感效價以正向為主。
2.3.2 細(xì)粒度分析
為進(jìn)一步分析新聞文本與新聞評論的情緒類型是否具有相同或同質(zhì)性關(guān)系,開展細(xì)粒度情緒相關(guān)性分析。基于SPSS的交叉表分析,將每種新聞文本情緒及其誘發(fā)占比最高的評論情緒進(jìn)行總結(jié),得到結(jié)果見表4。
由表4可知,正向情感效價的新聞文本情緒,會誘發(fā)相同或同質(zhì)的正向評論情緒,且排行較高的是鼓舞。中性情感效價的新聞文本情緒,主要誘發(fā)正向評論情緒,且排行前高的是鼓舞。負(fù)向情感效價的新聞文本情緒主要誘發(fā)正向評論情緒,且排行較高的是信任。
3 研究結(jié)論與分析
根據(jù)新聞文本與新聞評論的情緒識別結(jié)果以及兩者的相關(guān)性分析結(jié)果可得出如下結(jié)論。
⑴ 主流媒體在“新冠疫情”新聞報道中以正向情緒報道為主,并且誘發(fā)公眾評論以相同或同質(zhì)的正向情緒為主,兩者存在顯著的對應(yīng)性。
究其原因如下:主流媒體作為“新冠疫情”中信息發(fā)布主體,肩負(fù)疫情實況通報、穩(wěn)定輿論等傳播職責(zé),因此新聞文本正性情緒占比較高,具有現(xiàn)實合理性。此外,徐翔教授認(rèn)為網(wǎng)絡(luò)傳播情緒與受眾情緒之間存在對應(yīng)性[4],通過對新聞文本“情緒設(shè)置”,正向報道將會引導(dǎo)公眾以正性情緒進(jìn)行思考與表達(dá)。
⑵ 當(dāng)新聞文本為中性或負(fù)性情緒時,所誘發(fā)的新聞評論情緒以正向情緒為主,二者不存在明顯對應(yīng)性。
基于“情緒設(shè)置”理論,中性或負(fù)性情緒新聞文本將會引發(fā)中性或負(fù)性的公眾情緒,然而研究結(jié)果卻并不如此,究其原因,其一,主流媒體存在“降噪機制”。 雖然客觀中立作為新聞專業(yè)的核心價值,但是主流媒體承擔(dān)發(fā)布權(quán)威信息、引導(dǎo)社會輿論的功能,設(shè)立合理的情緒“降噪機制”,能夠促進(jìn)新聞報道在重大突發(fā)性事件中發(fā)揮積極作用。其二,危機事件中,受眾存在情緒認(rèn)知偏差。時勘教授發(fā)現(xiàn)重大突發(fā)性災(zāi)難事件中人們存在“臺風(fēng)眼效應(yīng)”[11],即受眾對疫情發(fā)展與防控方面的信息把控較好時,伴隨疫情逐漸被控制,人們心中產(chǎn)生樂觀情緒。換言之,當(dāng)國家采取有效方式應(yīng)對危機事件,受眾會將新聞報道中攜帶的負(fù)向或中性情緒轉(zhuǎn)化為正向樂觀情緒。
4 結(jié)束語
本文提出了一種基于機器學(xué)習(xí)與交叉表分析的新聞情緒分析方法。采用機器學(xué)習(xí)分類方法實現(xiàn)了新聞情緒類型的快速劃分,有利于網(wǎng)絡(luò)監(jiān)管機構(gòu)高效監(jiān)督新聞傳播者與接受者的情緒變化;基于SPSS的交叉表分析方法評估了新聞文本與新聞評論情緒之間的相關(guān)性,可以有效幫助主流媒體考察輿情治理的效果。
在未來的工作中,一方面可以進(jìn)一步對算法進(jìn)行改進(jìn),以提高情緒分類器的準(zhǔn)確率;另一方面將相關(guān)算法集成到一個應(yīng)用軟件中,以提高方法的實用性。
參考文獻(xiàn)(References):
[1] Mart I E. Sentiment analysis in Twitter[J]. InternationalJournal of Computer Science Issues,2018.9(4):372-378
[2] 隋巖,李燕.論群體傳播時代個人情緒的社會化傳播[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報),2012.34(12):10-15
[3] 喻國明.網(wǎng)絡(luò)輿情治理要素設(shè)計與操作關(guān)鍵[J].新聞與寫作,2017.1:10-13
[4] 徐翔,陽恬.網(wǎng)絡(luò)傳播中“情緒設(shè)置”的同質(zhì)效應(yīng)與傳導(dǎo)研究[J].中國新聞傳播研究,2018.1:144-155
[5] 張婕,劉召霞,劉贏憶,陳向一.新型冠狀病毒肺炎疫情下民眾信息獲取狀況與情緒影響[J].暨南大學(xué)學(xué)報(自然科學(xué)與醫(yī)學(xué)版),2020.41(6):527-533
[6] 殷昊.面向微博文本的情緒識別和分類方法研究[D].蘇州大學(xué),2018.
[7] 朱曉光,聶培堯,林培光.基于監(jiān)督學(xué)習(xí)的微博情感分類方法[J].計算機應(yīng)用與軟件,2015.8:238-242
[8] 郝苗苗,徐秀娟,于紅等.基于中文微博的情緒分類與預(yù)測算法[J].計算機應(yīng)用,2018.38(2):89-96
[9] Ekman P, Friesen W V. Constants across Cultures in the?Face and Emotion[J]. Journal of Personality and Social Psychology,1971.2:124-129
[10] Wagner, A, Kamakura, et al. Statistical Data Fusion forCross-Tabulation[J].Journal of Marketing Research,1997.34(4):485-498
[11] 時勘,范紅霞,賈建民等.我國民眾對SARS信息的風(fēng)險認(rèn)知及心理行為[J].心理學(xué)報,2003.35(4):546-554