秦 洋,鄭楠昱
(佛山科學(xué)技術(shù)學(xué)院,廣東 佛山 528051)
2021年2月3 日,中國互聯(lián)網(wǎng)絡(luò)信息中心公布的《第47次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2020年12月,我國網(wǎng)民規(guī)模達(dá)9.89億,較2020年3月增長8 540萬,互聯(lián)網(wǎng)普及率達(dá)70.4%[1]。網(wǎng)絡(luò)是信息傳播的載體,而在這個信息高度發(fā)達(dá)的時代,輿情已經(jīng)變成了汪洋大海。網(wǎng)絡(luò)輿情在這種環(huán)境下的輿論導(dǎo)向作用異常明顯。在當(dāng)前的網(wǎng)絡(luò)環(huán)境下準(zhǔn)確、及時地對網(wǎng)絡(luò)輿情的發(fā)展動態(tài)進(jìn)行監(jiān)控、預(yù)測和控制變得尤為重要。
2013年8月19 日,習(xí)近平總書記在全國宣傳思想工作會議上提出,在當(dāng)今社會關(guān)系重構(gòu)的社交媒體時代,要建構(gòu)我國科學(xué)有效的社會輿情管理體系,必須正視輿論生態(tài)新變化,樹立大數(shù)據(jù)觀念,善用大數(shù)據(jù)技術(shù)預(yù)測和引導(dǎo)社會輿論。本系統(tǒng)基于大數(shù)據(jù),運(yùn)用人工智能、深度學(xué)習(xí)、多元統(tǒng)計等技術(shù),對熱點話題數(shù)據(jù)進(jìn)行分析,針對熱點話題的熱度和情感傾向進(jìn)行展示,使用戶精準(zhǔn)、及時地把握和預(yù)測輿情的走向。
本系統(tǒng)主要針對當(dāng)下熱點話題的輿情進(jìn)行分析。實事熱搜,熱點輿論,往往是都是輿論的戰(zhàn)場。網(wǎng)絡(luò)的多途徑又大大降低了人們發(fā)言成本,人們踴躍地在各大平臺發(fā)言。知乎、微博都有熱點話題的欄目,人們在熱點話題的輿論中,影響著輿論的同時也被輿論影響。
我國網(wǎng)民數(shù)量眾多,通過網(wǎng)絡(luò)的載體,每一個熱點話題在不同平臺都能產(chǎn)生大量的數(shù)據(jù)。單純的人工采集、抽樣調(diào)查等方式已經(jīng)滿足不了需求。本系統(tǒng)利用分布式爬蟲技術(shù)從多個平臺的多個相關(guān)話題點獲取大量的輿情數(shù)據(jù)。因為需要海量數(shù)據(jù),全面宏觀把控輿情為數(shù)據(jù)的質(zhì)量提供了保障。
本系統(tǒng)將結(jié)果進(jìn)行可視化,最終將輿情分析結(jié)果呈現(xiàn)出來。有助于公安、監(jiān)管、權(quán)力等部門,進(jìn)行實時監(jiān)控,把握輿論的走向,對輿論做出相應(yīng)的引導(dǎo),防止公共事件的發(fā)生。有助于協(xié)助企業(yè)的輿情監(jiān)測,為公關(guān)處理提供決策依據(jù),避免輿情持續(xù)發(fā)酵損害企業(yè)利益[2]。
本系統(tǒng)輿情熱度主要集中于時事熱點、頭條話題。本系統(tǒng)從微博、百度貼吧、今日頭條等多個網(wǎng)絡(luò)社交媒體平臺進(jìn)行話題提取,通過各大平臺的話題熱度排序,如微博的頭條排序等等,按照時間梯度進(jìn)行熱度分析,以多平臺、多層次、多角度等方式對同一熱點話題進(jìn)行多維分析,從而形成一定程度上的客觀熱度數(shù)據(jù),便于本系統(tǒng)的輿情檢索及輿情分析。
本系統(tǒng)對于熱點話題的輿情走向的情感分析和精準(zhǔn)把控,主要通過褒貶傾向性分析技術(shù)來發(fā)現(xiàn)輿論走向,以輿情事件的擴(kuò)散路徑、輿情不同時間節(jié)點的傳播趨勢變化和評估報道在社交媒體的擴(kuò)散情況等進(jìn)行分析研判,同時也從傳播焦點、輿論熱議的焦點、媒體聚焦點、輿論關(guān)注矛盾焦點等方面進(jìn)行深層次解讀,主要形成熱點話題情感傾向的積極與消極的二者偏差,實時把握輿情話題的情感傾向和輿情走向,便于對輿論傾向進(jìn)行實時監(jiān)控和有效引導(dǎo)。
本系統(tǒng)主要以實時動態(tài)的形式進(jìn)行輿情監(jiān)測,能夠根據(jù)用戶的需求,靈活高效地進(jìn)行用戶個性化配置,通過系統(tǒng)提供定性定量的輿情分析數(shù)據(jù),準(zhǔn)確研判具體輿情或者某一輿情專題的發(fā)展變化趨勢,從而自動生成輿情報告和各種統(tǒng)計報表,提高輿情管理的質(zhì)量和效率,輔助用戶掌握輿情動態(tài),及時進(jìn)行有效決策,并提供分析依據(jù)。
數(shù)據(jù)的來源既是輿情分析的數(shù)據(jù)基礎(chǔ),也是把握輿情的質(zhì)量保證。針對各大網(wǎng)絡(luò)平臺的主要對象可能有著年齡段、興趣領(lǐng)域等不同的特點,本系統(tǒng)采用分布式的爬蟲技術(shù),針對同一相關(guān)熱點話題,對不同的網(wǎng)絡(luò)輿情平臺進(jìn)行相關(guān)數(shù)據(jù)爬取。相關(guān)數(shù)據(jù)涉及話題點贊評論數(shù)、參與人數(shù)、評論內(nèi)容、評論時間等。利用HDFS分布式存儲系統(tǒng)對其進(jìn)行存儲。再利用數(shù)據(jù)清洗相關(guān)技術(shù)排除諸如“水軍評論”、無效評論等噪音的干擾。
自然語言處理技術(shù)是輿情分析當(dāng)中最為主要的技術(shù)手段。本系統(tǒng)結(jié)合百度AI輿情分析技術(shù)與深度學(xué)習(xí)LTSM+Attention模型對話題的評論進(jìn)行情感傾向分析。主要利用了百度AI情感傾向分析技術(shù),調(diào)用其API,可直接對話題評論進(jìn)行大規(guī)模打分。
由于自然語言處理技術(shù)對于應(yīng)用場景較為敏感,所以面對熱點話題的多樣性以及實時性,單純利用百度AI情感傾向分析API就沒有很高的適應(yīng)性。針對此問題,可采用深度學(xué)習(xí)LTSM+Attention模型,針對熱點話題涉及的場景領(lǐng)域進(jìn)行訓(xùn)練,具有較強(qiáng)的泛化能力。但因其訓(xùn)練成本較大,所以將其作為百度AI分析結(jié)果后的熱點話題輿情結(jié)果的修正。
本系統(tǒng)的輿情評分系統(tǒng)主要展示了熱度和情感傾向兩個方面。熱度分析的主要屬性集中在點贊評論數(shù)和評論的時間屬性上。運(yùn)用貝葉斯平均法和牛頓冷卻定律的結(jié)合方法對話題的熱度進(jìn)行評估,并對熱點話題的熱點詞條進(jìn)行提取。
通過自然語言情感分析技術(shù),可以得到不同網(wǎng)絡(luò)平臺的多個相關(guān)話題點的多條情感分析結(jié)果。再將海量的情感分析結(jié)果進(jìn)行綜合。本系統(tǒng)利用威爾遜區(qū)間法從單條情感分析結(jié)果維度、不同話題點維度、不同網(wǎng)絡(luò)輿情平臺維度3個維度進(jìn)行評分計算,得到單個熱點話題的初始總分。為避免不可靠評分導(dǎo)致評分結(jié)果之間差異過大,可以采用貝葉斯平均法對3個不同維度以及不同的熱點話題進(jìn)行評分修正,得到熱點話題的最終情感傾向得分。
輿情分析肩負(fù)著實時監(jiān)控,及時把控的使命。所以,及時為用戶提供可視化較好的輿情分析結(jié)果至關(guān)重要。本系統(tǒng)采用Django框架,前端結(jié)合Echarts制圖工作,對后臺所提供的實時輿情分析結(jié)果進(jìn)行Web端的可視化呈現(xiàn)[3]。動態(tài)地、多角度地展示輿情分析的相關(guān)結(jié)果,如熱點話題詞云圖、熱點話題情感變化曲線、熱點話題分布散點圖等,很好地起到了輿情可視化監(jiān)測的作用。
該系統(tǒng)能夠快速有效的區(qū)分出網(wǎng)絡(luò)中的各個熱點話題的輿情情況,通過數(shù)據(jù)可視化的手段,將此類數(shù)據(jù)更加直觀地展示給決策者,從而對輿情風(fēng)向進(jìn)行一個判別。輿情分析為決策者提供及時、準(zhǔn)確、客觀、全面的輿情信息,讓決策者弄清或測驗信息中本質(zhì)性的事實和趨勢,協(xié)助決策者做出決策。
未來,隨著我國的物質(zhì)水平不斷發(fā)展,人們的思想也會越來越開放。那時人們對于輿情態(tài)勢了解的需求更高,而企業(yè)、國家對于輿情的重視也將會越來越高。隨著相關(guān)技術(shù)的不斷發(fā)展與深入,輿情分析技術(shù)也在更多的領(lǐng)域大展拳腳,展現(xiàn)出更為強(qiáng)大的活力。