邱澤國 賀百艷
(哈爾濱商業(yè)大學(xué),黑龍江哈爾濱 150028)
隨著近幾年互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,微博微信等社交平臺(tái)已經(jīng)成為人們獲取新聞信息的重要來源。據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第45次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020年3月,我國網(wǎng)民規(guī)模為9.04億,較2019年底新增網(wǎng)民7508萬,互聯(lián)網(wǎng)普及率達(dá)64.5%,手機(jī)網(wǎng)民規(guī)模為8.97億,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.3%[1],越來越多的人通過網(wǎng)絡(luò)獲取新聞等熱點(diǎn)事件。如新浪微博、微信等已經(jīng)成為人們社交生活中不可或缺的一部分。在社交平臺(tái)上,用戶可以通過點(diǎn)贊、評論、轉(zhuǎn)發(fā)等形式參與到發(fā)生的熱點(diǎn)事件中,不受約束的與眾多用戶互動(dòng)溝通。由于社交平臺(tái)具有開放性、便捷性和匿名性等特點(diǎn),導(dǎo)致新聞信息在社交網(wǎng)絡(luò)中的傳播廣度、傳播深度和傳播速度都有著驚人的潛力,輿論會(huì)在短時(shí)間內(nèi)發(fā)酵達(dá)到最后形成網(wǎng)絡(luò)輿情,引起社會(huì)大眾的廣泛關(guān)注。因此,十分有必要?jiǎng)討B(tài)跟蹤網(wǎng)民對輿情事件話題討論內(nèi)容以及情感的變化,了解網(wǎng)民對于輿情事件的主觀看法和情感傾向性,對于整體把握輿情事件的發(fā)展方向,引導(dǎo)和控制輿情有重要的意義。
關(guān)于微博話題發(fā)現(xiàn),學(xué)者們的研究主通過計(jì)算機(jī)領(lǐng)域,改進(jìn)經(jīng)典聚類算法來提高主題發(fā)現(xiàn)的有效性。Chen等人設(shè)計(jì)開發(fā)了一個(gè)增量聚類框架來檢測識別新的主題,并利用文本的內(nèi)容和時(shí)間特征來及時(shí)發(fā)現(xiàn)熱門主題[2];Stilo等人基于時(shí)間序列的相似性,提出了一種在微博中用于詞聚類的新方法[3];Hu等人從用戶評論中挖掘用戶的觀點(diǎn)看法[4];李亞星等人改進(jìn)了Single-Pass算法,提出一種基于實(shí)時(shí)共現(xiàn)網(wǎng)絡(luò)的微博話題發(fā)現(xiàn)模型[5];宋莉娜等人提出了SOM聚類方法用于微博的話題發(fā)現(xiàn),研究表明該方法可以有效改善傳統(tǒng)文本聚類不準(zhǔn)確的缺點(diǎn),從而有效的發(fā)現(xiàn)微博話題[6]。
情感分析,又被稱為觀點(diǎn)挖掘,是一種分析、處理、歸納和推理具有情感色彩的主觀文本的過程[7]。情感分析主要包括機(jī)器學(xué)習(xí)和基于情感詞典兩種方法。分析研究用戶發(fā)布的觀點(diǎn)看法在很多領(lǐng)域有著非常重要的作用,對于用戶情感的挖掘研究具有廣泛的應(yīng)用價(jià)值,目前對此國內(nèi)外已有諸多學(xué)者開展了研究。在國外,對于網(wǎng)民情感態(tài)度的研究主要集中于Twitter、Facebook等社交平臺(tái)上,Bollen等人對發(fā)布在Twitter平臺(tái)上的推文進(jìn)行情感分析,并以日為單位計(jì)算時(shí)間軸上的情緒向量,進(jìn)而對網(wǎng)民的情感態(tài)度進(jìn)行分析與預(yù)測[8]。由于基于中文環(huán)境的微博與基于英文環(huán)境的Twitter在語言表達(dá)習(xí)慣上存在著很大的差異,因此用于微博文本的情感分析工具與Twitter平臺(tái)上的情感分析相比有很大不同。劉智等人從集成學(xué)習(xí)的角度出發(fā),設(shè)計(jì)了一種基于樣本空間動(dòng)態(tài)劃分的機(jī)制,在此機(jī)制上構(gòu)建了微博文本情感分類器,通過實(shí)驗(yàn)實(shí)現(xiàn)了大規(guī)模評論集的情感分析以及用戶觀點(diǎn)挖掘[9]。史偉等人提出了一種基于KBANN的情感分析方法來解決沒有情感關(guān)鍵詞存在的文本,通過構(gòu)建隱性知識來推測文本的情感狀態(tài)[10]。
眾多研究學(xué)者為微博話題發(fā)現(xiàn)和輿情文本情感分析注入了新的研究方法和思想理念。而基于多源數(shù)據(jù)挖掘與融合來研究輿情文本情感與輿情演化規(guī)律的研究很少。故本文從多源數(shù)據(jù)角度出發(fā),利用文本情感分析技術(shù),對不同數(shù)據(jù)源中的網(wǎng)絡(luò)輿情情感狀況進(jìn)行分析,實(shí)現(xiàn)對網(wǎng)民情感的挖掘,為網(wǎng)絡(luò)輿情的引導(dǎo)和控制提供有益借鑒。
在中文語言環(huán)境中,輿情案例的數(shù)據(jù)源一般都來自新浪微博。它是一個(gè)為大眾提供信息交流共享和娛樂休閑的平臺(tái)。據(jù)央視財(cái)經(jīng)統(tǒng)計(jì),截止 2020年第三季度,微博的月活躍用戶數(shù)達(dá)5.11億。因此,以新浪微博為數(shù)據(jù)源進(jìn)行的研究具有一定的代表性。
在明確研究對象和數(shù)據(jù)來源后,要對輿情案例的相關(guān)數(shù)據(jù)進(jìn)行采集。根據(jù)新浪微博平臺(tái)的數(shù)據(jù)開放程度和網(wǎng)頁結(jié)構(gòu)特點(diǎn),采用Python軟件通過網(wǎng)絡(luò)爬蟲的方式獲取文本數(shù)據(jù),并且有針對性的編寫Python腳本抓取微博文本數(shù)據(jù)。
利用新浪微博的高級搜索功能,選定時(shí)間范圍為2019年3月1日到2019年8月30日,以“經(jīng)貿(mào)磋商”為搜索關(guān)鍵詞,編寫Python爬蟲程序進(jìn)行數(shù)據(jù)采集,采集的主要字段包括:用戶名、發(fā)布內(nèi)容、發(fā)布時(shí)間。共采集到17436條微博文本數(shù)據(jù)。
由于微博平臺(tái)具有大眾化,不受任何的時(shí)空限制,靈活度較高的特點(diǎn),用戶在發(fā)表博文的過程中,不會(huì)受到文字格式的約束,因此文本內(nèi)容中往往包含大量噪聲數(shù)據(jù),如網(wǎng)址HTML標(biāo)簽、話題標(biāo)簽、無用的表情符號等。這些噪聲數(shù)據(jù)對文本的分詞和詞頻統(tǒng)計(jì)都會(huì)造成影響,所以在數(shù)據(jù)預(yù)處理階段要對這些無意義的信息進(jìn)行清洗。
使用正則表達(dá)式對文本內(nèi)容數(shù)據(jù)進(jìn)行清洗,刪除重復(fù)的文本數(shù)據(jù),刪除@、數(shù)字、無用網(wǎng)址、表情等無關(guān)內(nèi)容,提取文本內(nèi)容,再將清洗后的數(shù)據(jù)進(jìn)行分詞處理,利用python中的JIEBA分詞工具包,對文本內(nèi)容逐條進(jìn)行分詞,去除停用詞、標(biāo)點(diǎn)符號等無意義的詞。對處理好的數(shù)據(jù)進(jìn)行高頻詞統(tǒng)計(jì)并繪制詞云圖,其結(jié)果如表1和圖1所示。
表1 微博文本詞頻Top10
由高頻詞可以看出,網(wǎng)民支持國家做出的決定,紛紛為國家加油打氣,表示中國絕不會(huì)被此事件嚇倒,此事件的發(fā)生會(huì)讓國家變得越來越強(qiáng)大,不畏懼對方提出的挑戰(zhàn),表現(xiàn)出了網(wǎng)民的愛國主義情懷。
情感詞典包含基礎(chǔ)詞典和基于特定事件情境下的情感詞典。利用大連理工大學(xué)開發(fā)的情感詞典作為基礎(chǔ)詞典,但在針對某一特定事件的研究,只利用基礎(chǔ)詞典中的情感詞往往不夠準(zhǔn)確,因此在研究特定事件中網(wǎng)民的情感態(tài)度時(shí),需要加入有關(guān)于該事件情境下的高頻詞匯。因此,通過人工篩選,對比大連理工大學(xué)情感詞典本體庫對情感詞的打分情況,構(gòu)建經(jīng)貿(mào)磋商事件情境下的特定情感詞典。最終統(tǒng)計(jì)得到情感詞包括“中國”、“中美”、“經(jīng)貿(mào)磋商”等在大部分文本中都出現(xiàn)的詞語,權(quán)重較高,因此需要去除這些詞語。利用大連理工大學(xué)情感詞典本體庫進(jìn)行對比,如詞庫中某個(gè)詞為積極情感詞,而計(jì)算后為消極情感詞,則對其分?jǐn)?shù)進(jìn)行校正。若校正之后大于0,則歸入積極情感詞典中,若校正后仍然小于 0,則繼續(xù)留在消極情感詞典中。將校正后的分?jǐn)?shù)作為該詞的最終情感分?jǐn)?shù)。表2中序號1~10為排名前十的積極情感詞,序號11~20為排名前十的消極情感詞。
表2 積極情感詞Top10(1~10)與消極情感詞Top10(11~20)
基于中文文本情感詞典,計(jì)算17436條微博文本數(shù)據(jù)的情感得分。情感得分取值范圍為[-1,1],若情感得分大于0則判定該文本情感為積極傾向,情感得分小于0則判定該文本情感為消極傾向,情感得分等于0則判定該文本情感為中性。根據(jù)計(jì)算結(jié)果,最終得到13526條積極情感微博,占比為77.6%;消極情感微博3298條,占比為18.9%,中性情感微博612條,占比為3.5%,圖2為微博情感極性分布結(jié)果。
圖2 微博情感極性分布結(jié)果
圖3為微博積極情感強(qiáng)度時(shí)序圖,可以從圖中看出2019年5月~2019年8月期間網(wǎng)民對經(jīng)貿(mào)磋商結(jié)果的情感強(qiáng)度高于2019年2月~2019年5月期間的情感強(qiáng)度。且網(wǎng)民的積極情感強(qiáng)度在2019年5月15日達(dá)到峰值,當(dāng)天積極情感博文為2669條。次高峰發(fā)生于2019年5月23日,博文數(shù)量為2352條。
圖3 微博積極情感強(qiáng)度時(shí)序圖
圖4為微博消極情感強(qiáng)度時(shí)序圖,整體的變化趨勢與積極情感強(qiáng)度時(shí)序圖呈現(xiàn)的效果一致,同樣在2019年5月15日消極情感強(qiáng)度到達(dá)低谷,當(dāng)天發(fā)文數(shù)量為1130條。次谷值同上也發(fā)生在2019年5月23日,發(fā)文數(shù)量為1091條。但消極情感強(qiáng)度的分值低于積極情感強(qiáng)度分值,大約為積極情感強(qiáng)度分值的一半,經(jīng)分析得到在經(jīng)貿(mào)磋商期間,微博上網(wǎng)民表現(xiàn)出的積極情感占多數(shù),并且積極情感強(qiáng)度要遠(yuǎn)大于消極情感強(qiáng)度。
圖4 微博消極情感強(qiáng)度時(shí)序圖
通過上述分析可以發(fā)現(xiàn)在微博平臺(tái)上網(wǎng)民的積極情感占多數(shù)。由整個(gè)事件可以看出,隨著事件的發(fā)展在主要時(shí)間節(jié)點(diǎn)上網(wǎng)民的情感狀態(tài)會(huì)產(chǎn)生波動(dòng),由于兩國之間存在著文化差異,導(dǎo)致雙方的觀點(diǎn)立場不同,造成情感傾向的主要原因也會(huì)不盡相同。
通過對情感分析之后的文本進(jìn)行主題聚類分析,挖掘每種情感下的子主題。通過構(gòu)建 LDA主題模型,將有關(guān)“經(jīng)貿(mào)磋商”的文本進(jìn)行聚類和主題提取。LDA主題模型是通過給出每個(gè)主題下的高頻詞來確定當(dāng)前的主題內(nèi)容,利用每個(gè)主題的主題詞還原網(wǎng)民討論的熱點(diǎn)話題。由于LDA主題模型沒有明確的主題個(gè)數(shù),因此要經(jīng)過不斷調(diào)試與對比分析才能得出最優(yōu)的主題數(shù)量。經(jīng)過調(diào)試最終確定積情感為5個(gè)討論主題。表3為LDA主題模型提取的各個(gè)主題關(guān)鍵詞。
表3 微博各主題關(guān)鍵詞
從微博積極情感主題1可以看出,國民表示支持華為、華為加油等,為民族企業(yè)加油打氣。主題2反映了鼓勵(lì)大眾進(jìn)行創(chuàng)新,不畏懼挑戰(zhàn)。主題3反映了中國不斷優(yōu)化對外貿(mào)易環(huán)境,營造了良好的對外貿(mào)易氛圍,塑造了大國形象。主題4反映了中國可以克服自身不足,擺脫對其他國家的技術(shù)依賴,在世界經(jīng)濟(jì)體系中更加自信自強(qiáng)。主題5反映了中國的產(chǎn)業(yè)結(jié)構(gòu)因此會(huì)做出調(diào)整,使得企業(yè)可以快速發(fā)展。
對爬取到的數(shù)據(jù)分析發(fā)現(xiàn),原創(chuàng)微博的占比為39.7%,轉(zhuǎn)發(fā)占比為60.3%。其中39.7%的網(wǎng)民利用微博平臺(tái),發(fā)表原創(chuàng)信息表達(dá)對此事件的看法和意見。對網(wǎng)民的情感分析可以發(fā)現(xiàn),大部分網(wǎng)民能夠理性看待該事件發(fā)生的前因后果,60.3%的網(wǎng)民通過轉(zhuǎn)發(fā)官方微博的方式表達(dá)自己對該事件的態(tài)度,將該事件話題傳播的范圍擴(kuò)大,并引導(dǎo)其他網(wǎng)民支持自己國家所做的決定,進(jìn)一步提高了該事件的積極影響力和傳播效果。
通過對網(wǎng)民的情感分析可以得到,網(wǎng)民對于事件的情感變化會(huì)受到主流媒體報(bào)道、周圍用戶和新聞內(nèi)容的影響,因此相關(guān)部門和政府應(yīng)該充分利用主流媒體,把控好網(wǎng)民情感變化的節(jié)點(diǎn),有針對地對網(wǎng)絡(luò)輿情進(jìn)行引導(dǎo)管控。輿情信息爆發(fā)快、蔓延廣、消散期后輿情信息不斷,相關(guān)管理部門要加強(qiáng)對突發(fā)事件網(wǎng)絡(luò)輿情的信息管理。在事件輿情突發(fā)期,把握輿論信息導(dǎo)向,引導(dǎo)網(wǎng)民參與正向的、積極的輿論討論中;在蔓延期應(yīng)發(fā)揮意見領(lǐng)袖作用,主流媒體應(yīng)及時(shí)發(fā)布信息資訊,避免輿情傳播的過程中謠言的產(chǎn)生;在消散期應(yīng)重視各大網(wǎng)站的信息推送,保證推送信息的準(zhǔn)確性,避免出現(xiàn)衍生輿情。