張榮顯 曹文鴛
網(wǎng)絡(luò)輿情研究新路徑:大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析
張榮顯 曹文鴛
張榮顯 亞太區(qū)互聯(lián)網(wǎng)研究聯(lián)盟主席,澳門易研網(wǎng)絡(luò)研究實驗室總裁,博士
曹文鴛 珠海橫琴博易數(shù)據(jù)技術(shù)有限公司資深研究顧問,碩士
國內(nèi)的輿情分析研究文獻顯示,輿情主要涵蓋分析社會的現(xiàn)實和變動的狀況,包括引發(fā)的事件本身及相關(guān)輿論生成的因素推論。針對當(dāng)前網(wǎng)絡(luò)輿情研究缺乏對輿情本質(zhì)的理解和系統(tǒng)的分析框架,分析結(jié)果亦只依據(jù)描述性統(tǒng)計來作出等缺憾,提出一種全新的網(wǎng)絡(luò)輿情研究路徑,以覆蓋度、測量和解釋為網(wǎng)絡(luò)輿情挖掘三大要素,搭建以人機結(jié)合的網(wǎng)絡(luò)輿情大數(shù)據(jù)分析平臺,即利用機器學(xué)習(xí)和網(wǎng)絡(luò)挖掘技術(shù)初步概覽輿情面貌,再以人工在線內(nèi)容分析方法深度挖掘和解釋輿情事件。將以具體案例說明此路徑的實用性和可操作性。
網(wǎng)絡(luò)輿情;大數(shù)據(jù)技術(shù);網(wǎng)絡(luò)挖掘;機器學(xué)習(xí);內(nèi)容分析
依據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心最新的統(tǒng)計報告(2016),截至2016年6月,中國大陸互聯(lián)網(wǎng)普及率達51.6%,網(wǎng)民數(shù)量為7億人,已經(jīng)形成具有龐大規(guī)模的網(wǎng)民體量,網(wǎng)絡(luò)成為重要的輿論平臺。
隨著網(wǎng)絡(luò)輿情研究進入大數(shù)據(jù)時代,網(wǎng)絡(luò)挖掘和機器學(xué)習(xí)等新技術(shù)使得快速甚至是即時搜集和處理大量網(wǎng)絡(luò)數(shù)據(jù)成為現(xiàn)實,但是,大數(shù)據(jù)技術(shù)并非萬能,在研究和探索輿情本質(zhì)的過程中,依然需要人工判斷作為主要的分析和解釋手段,我們以此嘗試解決當(dāng)前輿情研究中缺乏整合性和系統(tǒng)性不足,甚至是被技術(shù)導(dǎo)向主宰的問題。
本研究針對網(wǎng)絡(luò)輿情研究之現(xiàn)況及需要,提出一個全新的網(wǎng)絡(luò)輿情研究路徑,以覆蓋度、測量和解釋為網(wǎng)絡(luò)輿情挖掘要素,搭建以人機結(jié)合的網(wǎng)絡(luò)輿情大數(shù)據(jù)分析平臺。在實踐方面,將整個分析框架和機制,集合于一實時數(shù)據(jù)挖掘平臺上,透過一體化的輿情監(jiān)測和分析流程,力圖達到高效、準(zhǔn)確、廣度和深度并重,以及隨時跟蹤輿情事件發(fā)展動向之目的。
閔大洪(2016)總結(jié)過去對輿情理論的研究成果,尤其是對概念的定義方面,匯整并形成總結(jié)性的概念定義:“輿情,系指社會的現(xiàn)實和變動的狀況,包括各種原因引發(fā)的事件本身及相關(guān)輿論的生成?!陛浨楸O(jiān)測既有苗頭性又有全局性,苗頭性即是需要在事件未形成輿論之前及早察覺和監(jiān)測;全局性則是指需要對社會不同階層、政經(jīng)勢力、利益相關(guān)或某一專門領(lǐng)域狀況的整體呈現(xiàn)。
目前輿論陣地已大幅度延伸至網(wǎng)絡(luò)環(huán)境中,喻國明(2010)、謝耕耘(2011)及尹培培(2013)等學(xué)者對網(wǎng)絡(luò)輿情進行了全面論述,即是認(rèn)為網(wǎng)絡(luò)輿情是指民眾通過互聯(lián)網(wǎng)針對自己所關(guān)心或自身權(quán)益緊密相關(guān)的公共事件、社會現(xiàn)象等作出的主觀反映,是多重態(tài)度、意見等交互的綜合表現(xiàn)。網(wǎng)絡(luò)輿情特點包括自由、情緒化、分散、即時、多變等,影響力強。網(wǎng)絡(luò)輿情監(jiān)測的總體目標(biāo)是能夠在最短的時間內(nèi)發(fā)現(xiàn)所需要監(jiān)測的輿情信息,尋找到首發(fā)的信息源,接著監(jiān)測范圍擴大至所有涉及信息來源,并分析傳播的趨勢和范圍,時刻跟蹤事態(tài)發(fā)展及帶來的新情況(閔大洪,2016)。
相比傳統(tǒng)媒體信息,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容更新快速(Velocity),數(shù)據(jù)形式多樣(Variety),不僅限于傳統(tǒng)內(nèi)容的圖文形式,更具有視頻、動畫等內(nèi)容形式,網(wǎng)絡(luò)輿論趨勢不確定性高(Veracity),數(shù)據(jù)體量巨大(Volume),內(nèi)容復(fù)雜(Complexity)和數(shù)據(jù)的非結(jié)構(gòu)化(Unstructured)特征明顯,蘊含無法忽視的高價值(Value)屬性。從數(shù)據(jù)結(jié)構(gòu)上的特點來說,如果數(shù)據(jù)簡單、規(guī)律、重復(fù)性高,那么運用傳統(tǒng)分析手段或簡單的數(shù)據(jù)挖掘方法就能進行歸類分析,然而,正是因為當(dāng)前網(wǎng)絡(luò)輿情數(shù)據(jù)包括大量的社交媒體和移動互聯(lián)網(wǎng)數(shù)據(jù)在內(nèi),數(shù)據(jù)間存在關(guān)聯(lián)性,同時呈現(xiàn)明顯的非結(jié)構(gòu)化特征(胥琳佳,2013),使其分析難度加大。
從事件特征上來說,在網(wǎng)絡(luò)輿情的環(huán)境下,傳統(tǒng)新聞敘事上的5W1H較難以辨認(rèn),不再有明確的事件發(fā)生地點(Where),取而代之是多樣的來源;無固定的內(nèi)容發(fā)布時間(When),即時更新成為常態(tài);人物(Who)身份模糊、隱蔽;事件(What)本身焦點模糊;敘事(How)散亂;欲對事件原因(Why)的挖掘,則變成了難于理解事件的背后故事;難以測量理論;更難以發(fā)現(xiàn)形態(tài)。
因網(wǎng)絡(luò)輿情具有前述特點,加大了輿情研究工作的難度,加上輿情監(jiān)測行業(yè)發(fā)展年份尚淺,在當(dāng)前網(wǎng)絡(luò)輿情監(jiān)測和分析領(lǐng)域中,存在諸多問題和不足。
目前國內(nèi)網(wǎng)絡(luò)輿情監(jiān)測服務(wù)機構(gòu)主要區(qū)分為三類,分別是:(1)依托人民網(wǎng)、新華網(wǎng)等主流媒體建立的輿情監(jiān)測平臺,以服務(wù)政府有關(guān)部門為主;(2)由高校或?qū)W術(shù)機構(gòu)創(chuàng)辦的輿情研究所,具有學(xué)術(shù)傳統(tǒng);(3)由軟件公司或其與傳統(tǒng)的市場調(diào)查公司聯(lián)合成立的輿情監(jiān)測軟件企業(yè),抓取互聯(lián)網(wǎng)輿情數(shù)據(jù)能力較強。不同的網(wǎng)絡(luò)輿情監(jiān)測機構(gòu)由于背景不同,在產(chǎn)學(xué)研等方面各有其優(yōu)勢及不足,整體而言,相關(guān)產(chǎn)業(yè)存在不同程度發(fā)展產(chǎn)品單一,同質(zhì)化嚴(yán)重或缺乏產(chǎn)業(yè)內(nèi)融合機制等問題(于新?lián)P,2015)。
多位研究者在匯總和整理當(dāng)前網(wǎng)絡(luò)輿情研究文獻及行業(yè)發(fā)展現(xiàn)狀后,總結(jié)認(rèn)為大數(shù)據(jù)時代下的網(wǎng)絡(luò)輿情研究研究學(xué)科視角單一,缺乏跨學(xué)科的有關(guān)研究,未能進行動態(tài)化、立體化、全局化的綜合探討,為研究而研究,研究結(jié)果難以轉(zhuǎn)化為實際應(yīng)用系統(tǒng)。整體而言,存在系統(tǒng)性不足的問題(林源,2015)。由于當(dāng)前網(wǎng)絡(luò)輿情研究缺乏對數(shù)據(jù)的整合,未能有效地結(jié)合網(wǎng)絡(luò)輿情數(shù)據(jù)與相關(guān)外部數(shù)據(jù),導(dǎo)致數(shù)據(jù)割裂及解讀片面;研究偏于平面和孤立,未能精到地解析輿情事件或話題背后的深層原因(燕道成和姜超,2015;上海交通大學(xué)輿情研究實驗室,2014)。
更進一步,有研究者指出,當(dāng)前網(wǎng)絡(luò)輿情研究出現(xiàn)了技術(shù)導(dǎo)向的研究特點,即是過于圍繞大數(shù)據(jù)展開網(wǎng)絡(luò)輿情研究,缺少對社會輿情生成、發(fā)展、演化和衰退的內(nèi)在機理來研究社會輿情信息的獲取與識別、監(jiān)測分析與預(yù)警、導(dǎo)控等治理決策方案(蔡立輝和楊欣翥,2015)。
本研究提出一種新的輿情研究路徑——大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析,是以人機結(jié)合基本理念的輿情研究機制,有別于當(dāng)前主流的網(wǎng)絡(luò)輿情研究手段,以改善網(wǎng)絡(luò)輿情研究遇到的方法論問題,具有挖掘廣度、深度及監(jiān)測結(jié)果更為全面和準(zhǔn)確的特點。
(一)新輿情研究路徑的理論框架
大數(shù)據(jù)時代,網(wǎng)絡(luò)技術(shù)手段已可以支持以普查方式覆蓋處理海量的網(wǎng)絡(luò)數(shù)據(jù),不再如傳統(tǒng)輿情信息需要抽樣以代表母體的處理方式,也由此得出了“數(shù)據(jù)足夠大的時候,就可以自己說話結(jié)論”的論斷。然而,雖然不再擔(dān)心抽樣偏差,卻產(chǎn)生新的憂慮,即是需要考慮數(shù)據(jù)源本身的偏差。由于整體數(shù)據(jù)可能含有噪音,如不排除,則容易高估算法的精確度。同時,大部分的數(shù)據(jù)是孤島狀態(tài),在整合處理時,無法準(zhǔn)確地忽略和重合數(shù)據(jù),也易導(dǎo)致數(shù)據(jù)結(jié)果偏差??梢姡寯?shù)據(jù)“自己說話結(jié)論”是危險的論斷,其中需要對數(shù)據(jù)源的清理,才能避免潛在誤差。
本研究指出處理網(wǎng)絡(luò)輿情數(shù)據(jù)面臨的挑戰(zhàn),并提出以社會科學(xué)邏輯和業(yè)務(wù)思考為基礎(chǔ)的解決方式,包括覆蓋度(Coverage)、測量(Measurement)和解釋(Explanation)三大要素。
1. 覆蓋度(Coverage)
覆蓋度即是解決數(shù)據(jù)是否齊全、代表性及數(shù)據(jù)質(zhì)量的問題。輿情研究中,不論是傳統(tǒng)媒體條件下還是大數(shù)據(jù)時代,相比全部數(shù)據(jù)來源,數(shù)據(jù)信息是否具有代表性更為重要。數(shù)據(jù)的過度覆蓋易引入過多的含有歧義或無關(guān)的信息,會影響算法的精確度。同時應(yīng)高度關(guān)注關(guān)鍵字搜索的設(shè)計和操作。由于自然語言使用靈活和含義豐富,簡單的關(guān)鍵字設(shè)置搜索出的數(shù)據(jù)結(jié)果,與實際所需要的數(shù)據(jù)庫結(jié)果可能存在較大偏差,從而導(dǎo)致誤差存在。
不少學(xué)者也曾經(jīng)以“谷歌流感趨勢預(yù)測”(Google Flu Trend,GFT)為例,來說明這個問題。谷歌發(fā)現(xiàn)某些搜索關(guān)鍵詞能夠很好地標(biāo)示流感疫情的現(xiàn)狀,因此,谷歌使用經(jīng)過匯總的谷歌搜索數(shù)據(jù)來預(yù)測流感疫情,并將其預(yù)測結(jié)果與美國疾病預(yù)防控制中心(Centers for Disease Control and Prevention,CDC)的監(jiān)測報告作對比。然而在2009年,谷歌依據(jù)2008年前的資料建立起的數(shù)據(jù)模型所預(yù)測出來的結(jié)果遠低于2009年實際所發(fā)生。而后,修正模型后,在2013年,其數(shù)據(jù)再次出現(xiàn)高估的問題,至此,谷歌關(guān)閉了GFT的功能,并且未再更新資料(https://www.google.org/futrends/about/)。一項發(fā)表在《科學(xué)》雜志的研究指出,出現(xiàn)這種結(jié)果的兩個重要原因是“大數(shù)據(jù)傲慢(Big Data Hubris)”和算法變化。“大數(shù)據(jù)傲慢”即認(rèn)為大數(shù)據(jù)可以完全取代傳統(tǒng)的數(shù)據(jù)收集方法,而這種觀點最大的問題在于,絕大多數(shù)大數(shù)據(jù)與經(jīng)過嚴(yán)謹(jǐn)科學(xué)試驗得到的數(shù)據(jù)之間存在很大的差異,因為其忽略了最基本的有關(guān)測量、概念的信度與效度及數(shù)據(jù)之間的依賴性。另一方面,算法本身會經(jīng)過調(diào)整和改進,算法的改變合并用戶的搜索行為或是媒體的報道,均可能會影響GFT的預(yù)測,即是數(shù)據(jù)持續(xù)更新,算法無法做到隨時調(diào)整,由此帶來其結(jié)果的誤差(Lazer et al,2014)。
因此,為掌控研究質(zhì)量,需認(rèn)識到數(shù)據(jù)過度覆蓋和數(shù)據(jù)來源不足同樣易造成數(shù)據(jù)質(zhì)量不佳的情況,我們提出,輿情研究需要考慮合理的數(shù)據(jù)范圍,可利用搜索關(guān)鍵詞的邏輯設(shè)置,將輿論話題概念化,并利用可人工二度判斷的手段來解決數(shù)據(jù)覆蓋度的問題。
2. 測量(Measurement)
測量即是解決可以挖掘什么的問題。在大數(shù)據(jù)技術(shù)的協(xié)助下,機器已經(jīng)能夠完成許多自動化的測量工作,如網(wǎng)民行為(點贊數(shù)、閱讀數(shù)、分享數(shù)、來源、路徑、發(fā)展趨勢、評論聲量等)及文本的情感測量,當(dāng)前輿情監(jiān)測工作較為重視對行為的測量,準(zhǔn)確度高,但是對于態(tài)度的測量僅以正負(fù)面的標(biāo)尺為主,對輿情本質(zhì),如態(tài)度或意見的強度、有條件式的立場或意向等方面的測量較為欠缺,無法分析在什么情況下的“支持”或“反對”的意向,也難以辨別不同利益相關(guān)者之間的態(tài)度差異。
再者,往往對網(wǎng)民的意見數(shù)據(jù)測量存在缺乏理論概念、甚至偷換概念的情況,如以聲量代替影響力的測量、以正負(fù)面的情感來代替滿意度和支持度等情況,因此導(dǎo)致測量效度不確定。另一方面,以中文語義技術(shù)為手段的情感分析,準(zhǔn)確度尚不理想,與傳統(tǒng)民調(diào)結(jié)果難以相提并論。以語料匹配方式所能達到的分析準(zhǔn)確度少于60%,即便使用有優(yōu)良的訓(xùn)練集的機器學(xué)習(xí)方式,在理想的場景下,可將準(zhǔn)確度提高至80%(祝建華,2012),但此結(jié)果依然難以滿足需求。因此,需要在適合輿情研究的理論框架和依據(jù)的支持下,建立具有科學(xué)性和系統(tǒng)性的測量標(biāo)準(zhǔn),才能正確地進行輿情的深度挖掘。
3. 解釋(Explanation)
解釋即是解決如何分析和解釋發(fā)現(xiàn)的問題。網(wǎng)絡(luò)輿情的解釋度視乎分析的深度,而當(dāng)前主流的機器自動化分析,絕大多數(shù)基于描述性分析,即是以單變量分析為主,如各種排名榜單,分析單薄,解釋性不強,提煉洞察困難。因此,需要在掌握單變量的數(shù)據(jù)信息基礎(chǔ)之上,關(guān)注變量之間的差異和關(guān)系,以回答有意義和有深度的研究問題或檢驗假設(shè)。
(二)大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析研究機制
基于上述對輿情研究路徑的理論框架的探討,大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析研究機制設(shè)計使用人機結(jié)合的理念,力圖避免當(dāng)前網(wǎng)絡(luò)輿情研究的誤區(qū)和偏差。該路徑的執(zhí)行流程為,先采集網(wǎng)絡(luò)上的海量信息,再結(jié)構(gòu)化處理,隨后利用網(wǎng)絡(luò)挖掘和機器學(xué)習(xí)技術(shù),結(jié)合人工在線內(nèi)容分析,充分考慮分析結(jié)果的準(zhǔn)確度,深度挖掘輿情事件,最終獲得有價值的洞察。
1. 網(wǎng)絡(luò)挖掘與機器學(xué)習(xí)
網(wǎng)絡(luò)挖掘(Web Mining)是指互聯(lián)網(wǎng)中普遍使用的數(shù)據(jù)挖掘方式。以研究目的區(qū)分,網(wǎng)絡(luò)挖掘區(qū)分為三種類型:(1)內(nèi)容挖掘(Content Mining):以單個文件或網(wǎng)頁為分析單位,以文本分析為主,用于分析半結(jié)構(gòu)化或結(jié)構(gòu)化處理后的信息;(2)結(jié)構(gòu)挖掘(Structure Mining):分析網(wǎng)頁的節(jié)點和結(jié)構(gòu),包括從網(wǎng)頁超鏈接中提取規(guī)則,或是挖掘文本結(jié)構(gòu);(3)使用行為挖掘(Usage Mining):挖掘網(wǎng)頁訪問者的使用記錄(Herrouz et al., 2013)。
機器學(xué)習(xí)(Machine Learning)定義為“機器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對象是人工智能,特別是如何在經(jīng)驗學(xué)習(xí)中改善具體算法的性能(Langley,1996)”,是借助數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標(biāo)準(zhǔn)的方法(Alpaydin,2004)。
本研究綜合運用網(wǎng)絡(luò)挖掘與機器學(xué)習(xí)技術(shù),結(jié)合技術(shù)專長與社會科學(xué)研究知識的積累,設(shè)定合適輿情分析的網(wǎng)絡(luò)挖掘研究框架,具體為通過機器算法、語意分析技術(shù)和自動化關(guān)鍵字匹配等技術(shù),快速挖掘網(wǎng)絡(luò)輿情信息,以描述和挖掘輿情事件或現(xiàn)象的面貌。在網(wǎng)絡(luò)挖掘的研究框架下,當(dāng)前可透過機器挖掘自動化分析的主要面向和指標(biāo)包括(不限于):
分析面向分析指標(biāo)1傳播來源網(wǎng)絡(luò)數(shù)據(jù)來自具體的媒體來源,如社交網(wǎng)站(如Facebook、微博)、新聞網(wǎng)站、博客、論壇等;網(wǎng)絡(luò)輿情或口碑的聲量,以描繪事件的發(fā)展趨勢;詞云圖以字體在圖中的大小來表示聲量大小或關(guān)注點等;3傳播內(nèi)容2傳播量度網(wǎng)絡(luò)輿情所涉及的話題、人物、機構(gòu)、品牌等;4傳播特征以數(shù)量來描繪輿情話題的走勢、事件發(fā)生的路徑等,以解釋傳播過程和特征;5傳播力度點贊量、跟帖量、分享量、閱讀量、排行榜等,還有參與度、曝光量、KOL等,以多項參數(shù)來綜合解釋輿情的傳播力度;6傳播效果以情感分析作為尺度,衡量傳播效果。
以下分別以兩個發(fā)生在澳門的案例來說明上述的機器自動化分析結(jié)果。
例1:“臺風(fēng)“妮妲”襲澳事件輿論分析
本部分以臺風(fēng)“妮妲”襲澳事件為例,透過網(wǎng)絡(luò)挖掘和機器分析結(jié)果,綜合說明輿情事件的傳播來源、傳播量度、傳播內(nèi)容、傳播特征、傳播力度、傳播效果以及不同階段的態(tài)度差異和變遷。
背景:2016年8月,臺風(fēng)“妮妲”來襲,澳門于1日下午開始懸掛3號風(fēng)球。香港天文臺1日晚8點40分懸掛八號西北烈風(fēng)或暴風(fēng)信號(8號風(fēng)球),澳門未有像香港懸掛8號風(fēng)球,引發(fā)社會質(zhì)疑。
觀察期內(nèi)網(wǎng)絡(luò)輿論(包括Facebook、網(wǎng)絡(luò)論壇、新浪微博和YouTube)信息量明顯高于傳統(tǒng)媒體,其中以Facebook信息量最多,占97.6%,明顯高于其他傳播來源。
進一步觀察信息量最大的Facebook社交媒體,三個現(xiàn)場直播氣象局發(fā)布會的Facebook專頁獲得較高的點贊數(shù)、評論數(shù)和轉(zhuǎn)發(fā)數(shù),三條直播主帖短時間內(nèi)共獲得3.5萬回帖,占Facebook總帖數(shù)74.1%,引起網(wǎng)民極大回響。其中,以Facebook專頁「Lotus TV」直播發(fā)布會傳播力度最為顯著,共計獲得點贊數(shù)2,073個,27,910條回帖,轉(zhuǎn)發(fā)次數(shù)達2,491次。
三條直播主帖及其回帖談及“落臺”、“局長”、“下地獄”等詞最多,負(fù)面表達較為強烈,對局長的不滿意見明顯,要求其落臺呼聲較大。
注:詞云圖以相關(guān)文本數(shù)據(jù)源為分析基礎(chǔ),其結(jié)果的繁簡體表達受文本數(shù)據(jù)自身字體限制,下同。
觀察整個事件的發(fā)展趨勢及信息量,可明顯區(qū)分事件發(fā)展階段,以8月1日零時至次日15:00為升溫期,網(wǎng)絡(luò)輿情內(nèi)容有2,837條民意帖,該階段的反對態(tài)度達到75.6%,詞云圖顯示關(guān)鍵詞為“氣象局”、“妮妲”、“臺風(fēng)”等,可見民意討論集中于臺風(fēng)形勢本身;第二階段,8月2日15:01至16:30,短短一個半小時內(nèi)網(wǎng)絡(luò)民意猛烈增加,相關(guān)民意帖達到14,018帖,事件發(fā)展至爆發(fā)期,該階段輿論反對態(tài)度擴散至85.3%,“落臺”為最明顯的關(guān)鍵詞,信息量遠超其他關(guān)鍵詞,說明該意見占據(jù)主流輿論;隨后8月2日16:31至8月5日23:59,對該事件的探討明顯下降,網(wǎng)絡(luò)民意有9,326帖,討論進入降溫期,反對意見稍微減少,為82.6%,但是依然高于升溫期,關(guān)鍵詞為“局長”、“氣象局”、“落臺”等。
結(jié)合事件發(fā)展的趨勢及信息量,可以發(fā)現(xiàn),在輿論爆發(fā)期發(fā)帖量最為集中,同時發(fā)言的趨同性升高,由詞云圖反映出,輿論走向由對臺風(fēng)天氣本身的關(guān)注,轉(zhuǎn)向?qū)φ嚓P(guān)部門失職的問責(zé),表達出強烈的反對態(tài)度。
注:其中各階段態(tài)度取向分析為人工內(nèi)容分析結(jié)果,在此引用僅為了更好配合網(wǎng)絡(luò)挖掘數(shù)據(jù)進行解釋。
例2:“2015年澳門施政報告”四象限詞云圖
2015年11月17日下午,澳門特區(qū)政府行政長官崔世安在立法會發(fā)布2016年施政報告。報告范圍包括持續(xù)提升民生素質(zhì)、促進經(jīng)濟適度多元、建設(shè)宜居城市、深化公共行政改革等四方面。觀察施政報告發(fā)布前后整一個月的相關(guān)輿情內(nèi)容,利用分詞、機器學(xué)習(xí)及數(shù)據(jù)可視化等一系列的技術(shù)手段,制作出四象限的詞云圖,以初步解釋輿情的度量、內(nèi)容和傳播效果。在對詞云圖解讀方面,關(guān)鍵字的字體大小表示討論聲量的多少,橫坐標(biāo)為正面及負(fù)面,縱坐標(biāo)為討論什么和怎么討論。
如下圖,在涉及“2016年澳門施政報告”的輿情中,在詞云圖左側(cè)“正面”情感方向上,網(wǎng)民討論“施政”和“政府”最多(右上角),其次為“行政”和“博彩”,與施政報告內(nèi)容和熱點相關(guān)議題密切相關(guān);在如何討論(右下角)中,以“直播”為涉及最多,是對信息傳播方式的討論,再次為“保障”,說明其為網(wǎng)民提及施政報告時較為關(guān)心的方面。
詞云圖右側(cè)“負(fù)面”情感方向上,左上角網(wǎng)民討論什么中,最明顯的關(guān)鍵詞為“政府”和“施政”,與政府發(fā)布施政報告議題高度相關(guān),其余較為明顯且較為相關(guān)的關(guān)鍵詞為“公屋”、“土地”、“承建商”和“房屋”,說明住房問題為網(wǎng)民討論中較為負(fù)面的議題;右下角網(wǎng)民如何討論話題以“填?!睘樽铌P(guān)鍵詞,說明該議題的動作是討論較多負(fù)面的內(nèi)容。
2. 人工在線實時內(nèi)容分析
輿情研究的本質(zhì)是為在盡可能短的時間內(nèi)于茫茫信息中獲得所需要監(jiān)測的輿情內(nèi)容,并且深入解析輿情事件的方方面面,包括前因后果,即時動態(tài),未來可能的發(fā)展趨勢。因此,僅掌握機器挖掘出的數(shù)據(jù)并不足夠。機器可幫助掌握包括傳播來源、傳播量度等單變量數(shù)據(jù),然而在輿情研究中多變量之間的關(guān)系和差異是社會實證研究的核心問題,因此必須引入人工分析處理機制,以尋找更為深層次的解釋。本研究主要從差異和關(guān)系兩方面為挖掘重點。差異可使用交叉和聚類的方式獲得,如交叉可了解議題之間的態(tài)度差異、強度差異,聚類能夠幫助細(xì)分利益相關(guān)者等。對關(guān)系方面的挖掘,以相關(guān)關(guān)系、因果關(guān)系和預(yù)測及解釋力為主。
1) 內(nèi)容分析法
本研究中人工在線實時內(nèi)容分析以傳統(tǒng)內(nèi)容分析法(Content Analysis)為研究方法理論依據(jù),在此基礎(chǔ)上改進操作,以改善運作效率、提高數(shù)據(jù)及編碼的質(zhì)量、產(chǎn)出更有信度和效度的分析結(jié)果。
內(nèi)容分析法是社會科學(xué)研究方法中的一種對文本內(nèi)容進行編碼、分類、語義判斷及形成可供統(tǒng)計分析之用的量化分析方法。它是指一種以系統(tǒng)、客觀與量化的方式,來研究與分析傳播內(nèi)容,藉以測量及解讀內(nèi)容的研究方法(Kerlinger,1973)。在方法設(shè)計和執(zhí)行方面,強調(diào):(1)系統(tǒng)的方法,需采用隨機樣本、系統(tǒng)的類目建構(gòu)和編碼程序;(2)客觀的程序,需遵守明確的標(biāo)準(zhǔn)與規(guī)則;(3)量化的分析,需為所有的變量下操作性定義,確定測量標(biāo)尺,進行統(tǒng)計分析。
傳統(tǒng)的內(nèi)容分析流程包含多個程序,設(shè)計以保證理論和操作的合規(guī)和準(zhǔn)確性。整個流程以話題(研究題目)擬定為始,進而進行文獻探討,以確定研究問題及解釋;在對分析對象范疇的確定時,可考慮對母體進行分析,或者采取抽樣的方式,確定研究對象;通過資料搜集建立樣本集;定義分析單位后,建構(gòu)類目量化系統(tǒng),制作編碼簿,在正式編碼之前,對編碼員進行訓(xùn)練,進行前測編碼,計算信度,當(dāng)編碼員間信度達至一定水平時,可開始正式編碼,此后輸入數(shù)據(jù),分析資料,最終獲得結(jié)果呈現(xiàn)。
內(nèi)容分析可以支持多種資料類型作為研究范疇,如采訪稿、焦點小組結(jié)果、教材、新聞、論文、雜志、文章、政治演講、小說、廣告、社交媒體內(nèi)容等,呈現(xiàn)的格式包括文字、圖片、音頻、視頻等。內(nèi)容分析方法可靈活應(yīng)用于多種研究目的及不同領(lǐng)域,其中最為知名和經(jīng)典的案例之一為Harold Lasswell在一次世界大戰(zhàn)中的研究。Lasswell在其著作《世界大戰(zhàn)中的宣傳技巧》(Propaganda Technique in World War I)中以宣傳信息所使用的符號為分析對象,包括報紙、宣傳手冊、傳單、書籍、海報、電影、圖片等,發(fā)展出內(nèi)容分析法以研究宣傳運動中的技巧。還有其他的研究領(lǐng)域包括有研究者利用該方法確定文章作者的著作權(quán)的比例,例如Mosteller和Wallace(1963)采用基于詞頻的貝葉斯技術(shù),解決了《聯(lián)邦主義者》(The Federalist)文章中的原作者的分布問題。商業(yè)領(lǐng)域中,有研究者使用內(nèi)容分析法評估食品行業(yè)的發(fā)展趨勢,例如,1998年有一項研究鈣攝入和減肥之間的關(guān)系,研究范圍是青少年和女性雜志上的廣告、文章和專欄內(nèi)容(Kondracki, Wellman, Amundson , 2002)。社會服務(wù)方面,美國農(nóng)業(yè)部森林服務(wù)局(United States Department of Agriculture Forest Service)利用內(nèi)容分析法監(jiān)測社會環(huán)境對國家森林管理措施的評價意見(West , 2001)。
2) 編碼員之間信度(Inter-coder Reliability)
在內(nèi)容分析中,需要多于一個的編碼員來進行編碼工作,這些獨立的編碼員對一段信息/記錄內(nèi)容的特征(也就是記錄單位)作出判斷,并且達成一致的結(jié)論。這種一致性以量化方式呈現(xiàn),稱之為編碼者間的信度。不同的編碼員應(yīng)該對每一個分析的對象給予相同的評分(對等距或者等比標(biāo)尺而言,即使不是完全相同的數(shù)值,也應(yīng)該是相近的值),這種實質(zhì)的同意程度是檢驗“編碼者間的信度”的基礎(chǔ)(Tinsley & Weiss, 2000)。
通常我們研究的信息有明顯的內(nèi)容(manifest content)和隱藏的內(nèi)容(latent content)。對于明顯的內(nèi)容,例如文章字?jǐn)?shù)、消息來源、人物或單位名稱等,很容易以客觀的判斷來達成高度一致性。但是,對于隱藏的內(nèi)容來說,例如報導(dǎo)態(tài)度或者價值觀,編碼員必須根據(jù)他們自己的思維系統(tǒng)作出主觀的詮釋。這樣的話,編碼員之間的相互主觀判斷變得更加重要,因為當(dāng)這些主觀判斷由所有編碼員共享的時候,也就是它們更有可能讓讀者產(chǎn)生相同的意義(Potter and Levine-Donnerstein,1999)。
編碼員間信度評估流程由編碼指引開始,需要依據(jù)編碼簿制作編碼指引,幫助編碼員準(zhǔn)確理解編碼類目,幫助編碼員熟悉議題,理解編碼類目;之后選取少量樣本,各編碼員需要獨立進行編碼,不可相互討論或指導(dǎo),計算信度系數(shù)以觀察不同編碼員是否已經(jīng)達到可接受的認(rèn)知一致性水平,如未能達到理想的信度水平,則需要對編碼員再次進行培訓(xùn)和指導(dǎo),以確保編碼員達到理想信度水平,可開始正式編碼。學(xué)術(shù)上常用的編碼員間信度有Holsti的信度系數(shù)(Holsti's Coeffcient Reliability)及Krippendorff的alpha值(Lombard, Snyder-Duch 和 Bracken, 2002)。
3) 人工在線實時內(nèi)容分析流程
在參考傳統(tǒng)內(nèi)容分析法的理論和操作方法基礎(chǔ)上,本研究建立了由大數(shù)據(jù)技術(shù)輔助人工在線實時內(nèi)容分析機制及平臺—博易數(shù)據(jù)挖掘平臺(DataMiner),整個流程包括準(zhǔn)備階段、編碼及質(zhì)量控制和結(jié)果呈現(xiàn)三大部分。
在完成前期文獻搜索、確定研究問題等預(yù)備工作,可于平臺上進行準(zhǔn)備階段的設(shè)定數(shù)據(jù)源、通過設(shè)置多重關(guān)鍵詞以設(shè)定概念,在該過程中,可通過篩選工作以確保數(shù)據(jù)高度相關(guān)和精確度,并且完成編碼庫管理和設(shè)置類目的工作;進入編碼及質(zhì)量控制階段,該部分尤為重要,正式編碼前需要進行前測編碼,以確保編碼員間信度達到可接受的理想水平,在正式編碼過程中,透過平臺隨時監(jiān)控編碼結(jié)果,并可定期校對以保證編碼質(zhì)量;完成上述過程后,可對結(jié)果進行分析和可視化呈現(xiàn)。
該操作流程設(shè)置多種質(zhì)量保證機制,可隨時監(jiān)管編碼員效率、編碼準(zhǔn)確度,以確保最終的工作結(jié)果可真正為輿情研究提供價值。
下圖為線上內(nèi)容分析機制頁面,支持即時編碼、即時檢驗、即時監(jiān)控和即時結(jié)果。
以下分別以發(fā)生在澳門的兩個案例來進一步說明通過這種方法可以做到的分析結(jié)果。
例3:“澳門康復(fù)政策”的網(wǎng)民態(tài)度分析
在某些輿情事件中,涉及的話題面向多向且復(fù)雜,需要人工處理和區(qū)分,在此基礎(chǔ)上,才能得以進一步解析細(xì)分議題之間的態(tài)度差異及強度差異。
下圖著重于對澳門的一項康復(fù)政策不同范疇的態(tài)度差異的解讀??祻?fù)政策為總體政策類型,下屬多個細(xì)分政策范疇,情況較為復(fù)雜,必須使用人工判斷的方式予以分類和歸整。結(jié)果顯示,針對康復(fù)政策,除整體性的“康復(fù)服務(wù)十年規(guī)劃”,其余區(qū)分分類共14個細(xì)分范疇,進而需要判斷這14個范疇的態(tài)度如何。對態(tài)度的測量以七個層次劃分觀察網(wǎng)絡(luò)輿情,區(qū)分為是無條件認(rèn)同/完全認(rèn)同、主體認(rèn)同、有條件認(rèn)同、中立態(tài)度/無明確態(tài)度、有條件反對、主體反對和無條件反對/完全反對。觀察分析結(jié)果(模擬數(shù)據(jù)),以對“公眾教育”范疇的認(rèn)同程度較高,有42.9%為“無條件認(rèn)同/完全認(rèn)同”,42.9%為“主體認(rèn)同”;觀察另一個方向的認(rèn)同程度,以“學(xué)前訓(xùn)練及托兒所”和“醫(yī)療康復(fù)”兩個方面的反對態(tài)度最為明顯,分別有22.2%和20.0%表示了“有條件反對”態(tài)度。
例4:“食品安全問題”的網(wǎng)民意向分析
另一個案例是有關(guān)食品安全的輿情分析,探討關(guān)于不同利益相關(guān)者對于食品安全所持的立場差異。下圖為關(guān)于食品安全問題的分析結(jié)果,采用機器學(xué)習(xí)和人工編碼結(jié)合的方式得出。觀察不同媒體來源中對食品安全問題的整體立場,可以看到新聞評論、論壇、YouTube和Twitter上反對的聲音較多(71.4%、75.0%、76.9%、70.0%)。不同媒體來源對于不同利益相關(guān)者(包括政府單位、政黨和社團)的態(tài)度存在較明顯的分布差異,以Twitter上的反對聲音最多(77.8%),在論壇和新聞中表達出來的輿論聲音以中立為主(100%,89.2%)。該案例說明,不同媒體渠道上所收集到的輿論聲音可能存在差異,對事件的看法和立場會不一樣。如單獨使用網(wǎng)絡(luò)挖掘,僅僅能看到整體的聲量,無法解讀到不同層次的內(nèi)容,因此可見,僅僅看傳播量等內(nèi)容是遠不足夠的。
3. 大數(shù)據(jù)技術(shù)與人工在線實時內(nèi)容分析的互動和促進關(guān)系
在本研究的網(wǎng)絡(luò)輿情研究新機制中,以人機結(jié)合為核心理念,大數(shù)據(jù)技術(shù)框架下的網(wǎng)絡(luò)挖掘和機器學(xué)習(xí)可執(zhí)行廣度的自動化分析和快速挖掘輿情信息,人工在線內(nèi)容分析則能完成深度挖掘和解釋輿情間差異和關(guān)系的任務(wù)。從輿情分析和解讀的整體角度出發(fā),以網(wǎng)絡(luò)挖掘及機器學(xué)習(xí)為代表的大數(shù)據(jù)技術(shù)與人工在線內(nèi)容分析兩個體系是相輔相成的關(guān)系,構(gòu)成一個良性循環(huán),且存在彼此優(yōu)化的特點,具體體現(xiàn)在三個方面:
(1)機器技術(shù)改善人工編碼流程。通過網(wǎng)絡(luò)和計算機技術(shù)的輔助,提供編碼文本關(guān)鍵詞高亮設(shè)置,相似主題文本優(yōu)先派發(fā)等算法支持,得以提高人工編碼效率;另一方面,平臺提供快速簡單的前測編碼和即時質(zhì)量監(jiān)督功能,解決了傳統(tǒng)內(nèi)容分析中編碼質(zhì)量難以控制和校正延遲的難題。
(2)詞云圖幫助制作編碼類目。利用詞云分析技術(shù),能夠快速發(fā)現(xiàn)和掌握輿情事件主要面向,從某種程度上,以關(guān)鍵詞的形式,表達了相關(guān)內(nèi)容的熱度情況。在傳統(tǒng)的人工內(nèi)容分析法中,制作編碼類目前需大量檢視相關(guān)內(nèi)容文本,以獲得對研究問題的大致了解。有詞云的幫助,其快速挖掘的關(guān)鍵詞能提供編碼類目的線索,大大改善制作編碼類目的效率及效度。
(3)人工內(nèi)容分析結(jié)果幫助改良機器學(xué)習(xí)的準(zhǔn)確度。經(jīng)過信度檢驗的人工內(nèi)容分析所累積的大量人工編碼結(jié)果,可以作為優(yōu)質(zhì)的機器學(xué)習(xí)的訓(xùn)練集,用于改善自動化分析結(jié)果,如情感分析,以此方式不斷提升機器分析的準(zhǔn)確度。
回顧當(dāng)前網(wǎng)絡(luò)輿情研究發(fā)展現(xiàn)況,網(wǎng)絡(luò)輿情監(jiān)測和分析的工作難度大,面對復(fù)雜的輿論場景,單靠機器或人工方式無法解答我們的研究問題及現(xiàn)實需求。為此,本研究提出新的輿情研究路徑——大數(shù)據(jù)技術(shù)輔助網(wǎng)絡(luò)內(nèi)容挖掘與分析,并通過博易數(shù)據(jù)技術(shù)公司的“博易數(shù)據(jù)挖掘平臺-DataMinder”來實現(xiàn)。該路徑綜合匯總多年輿情研究經(jīng)驗,以社會科學(xué)實證研究的核心要素——覆蓋度、測量和解釋作為網(wǎng)絡(luò)輿情挖掘的理論框架,配合人工在線實時內(nèi)容分析方法,探索輿情事件變量間的差異與關(guān)系。其中所建立的分析機制及流程,乃將研究視角落實至研究輿情的本質(zhì),以回應(yīng)學(xué)術(shù)界、政府和業(yè)界期望了解輿情的真正意涵及價值。
本研究著重于提供一種輿情研究的思路與方法論,不限于特定輿情研究的目的和用途,適用于實務(wù)應(yīng)用,亦可用于學(xué)術(shù)研究;可用來掌握輿論形勢,又可用于深度挖掘某一個話題,以解決實際問題為目的。
以上作為網(wǎng)絡(luò)輿情分析路徑上的初步嘗試,乃經(jīng)過一段時間的實踐,并已取得一定的成效。然而作為新的探索,需要持續(xù)優(yōu)化,尤其是理論上需要強化和補充,在實踐上需要改善和提升。其中需要考慮是否能夠應(yīng)對各種輿情研究類型和情況,例如,當(dāng)需要處理的數(shù)據(jù)量特別大的時候,運用人工內(nèi)容分析時人力部分的壓力過大,時效性會大打折扣,可考慮按照一定規(guī)則抽樣處理,如對文本內(nèi)容采用系統(tǒng)抽樣或分層隨機抽樣方式,形成可供操作的編碼樣本庫,這也是筆者提出作為未來研究和探討的一個方向。
另一個值得關(guān)注的方向是,將質(zhì)化與量化結(jié)果的相互結(jié)合解讀的研究方法論。在對輿情的研究實踐中,網(wǎng)絡(luò)挖掘和機器學(xué)習(xí)是研究輿情的第一步,可快速獲得初步的量化結(jié)果;第二步是使用人工編碼和分析將文本內(nèi)容做量化處理,即是質(zhì)化文本材料的量化過程;第三步是量化和質(zhì)化內(nèi)容的相互補充,即是以原文文本補充和解讀量化結(jié)果。以此完成由質(zhì)化內(nèi)容得出量化結(jié)果,再次回到質(zhì)化內(nèi)容,量化結(jié)果與文本之間相互補充和解釋的循環(huán)方法論,未來或可進一步實踐和探索該方法對輿情或其他類型研究的解釋度和操作性。
[1]于新?lián)P.中國網(wǎng)絡(luò)輿情監(jiān)測發(fā)展現(xiàn)狀及不足?!秱髅接^察》,2015(1),8-9頁。
[2]上海交通大學(xué)輿情研究實驗室.大數(shù)據(jù)與社會輿情研究綜述。《新媒體與社會》,第十一輯。
[3]中國互聯(lián)網(wǎng)絡(luò)信息中心.《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告(2016年7月)》。http://www.cnnic.cn/gywm/ xwzx/rdxw/2016/201608/W020160803204144417902. pdf
[4] 尹培培.大數(shù)據(jù)時代的網(wǎng)絡(luò)輿情分析系統(tǒng)。《廣播與電視技術(shù)》,2013(07)。
[5]閔大洪.閔大洪:對中國網(wǎng)絡(luò)輿情監(jiān)測工作的觀察與思考。《網(wǎng)絡(luò)空間研究學(xué)刊》,2016年10月16日。
[6]林源.網(wǎng)絡(luò)輿情研究綜述?!犊萍记閳箝_發(fā)與經(jīng)濟》,第25卷,146-150頁。
[7]祝建華.一個文科教授眼中的大數(shù)據(jù)。中關(guān)村大數(shù)據(jù)日,2012年12月13日北京。
[8]胥琳佳.大數(shù)據(jù)對于傳播學(xué)研究內(nèi)容和方法的影響——基于社交媒體和移動互聯(lián)網(wǎng)的思考。中國出版,2013(18)。
[9] 喻國明.《中國社會輿情年度報告》。人民日報出版社。
[10] 謝耘耕主編.《中國社會輿情與危機管理報告》。社科文獻出版社。
[11]蔡立輝和楊欣翥.大數(shù)據(jù)在社會輿情監(jiān)測與決策制定中的應(yīng)用研究?!缎姓搲?,第128期,1-10頁。
[12] 燕道成和姜超.大數(shù)據(jù)時代網(wǎng)絡(luò)輿情研究綜述?!兑暵牎罚?015(9),133-146頁。
[13] Alpaydin, E. (2004). Introduction to Machine Learning; MIT Press: Cambridge, MA, USA, 2004.
[14] Herrouz, A, Khentout, C, & Djoudi, M. (2013). Overview of Web Content Mining Tools. The International Journal of Engineering and Science. 2(6).
[15] Kerlinger, F.N. (1973). Foundations of behavioral research (2nd ed.). New York: Holt, Rinehart & Winston.
[16] Kondracki, N. L., Wellman, N. S., Amundson, D.R. (2002). Content Analysis: Review of Methods and Their Applications in Nutrition Education, 2002(34), 224-230.
[17] Langley, P. (1996). Elements of Machine Learning. Morgan Kaufmann, San Francisco, CA.
[18] Lasswell. H. D.. (1971). Propaganda Technique in World War I. Mit Press.
[19] Lazer, D., Kennedy, R., King, G., Vespignani, A.. The Parable of Google Flu: Traps in Big Data Analysis Science 14 March 2014: Vol. 343 no. 6176 pp. 1203-1205.
[20] Lombard, M., Snyder-Duch, J., & Bracken, C. C. (2002). Content analysis in mass communication: Assessment and reporting of intercoder reliability. Human Communication Research, 28, 587-604.
[21] Mosteller, F., & Wallace, D. L. (1963). Inference in an authorship problem: A comparative study of discrimination methods applied to the authorship of the disputed Federalist Papers. Journal of the American Statistical Association, 58(302), 275-309.
[22] Potter, W. J., & Levine-Donnerstein, D. (1999). Rethinking validity and reliability in content analysis. Journal of Applied Communication Research, 27(3), 258.
[23] Tinsley, H. E. A. & Weiss, D. J. (2000). Interrater reliability and agreement. In H. E. A. Tinsley &S. D. Brown, Eds., Handbook of Applied Multivariate Statistics and Mathematical Modeling, pp. 95-124. San Diego, CA: Academic Press.
[24] West, M. D. (2001). Applications of Computer Content Analysis. Ablex Publishing Corporation.
(責(zé)任編輯:李曉暉)
New approaches to online public opinion research: Online content mining and analysis using big data technology
ZHANG Rong-xian CAO Wen-yuan
Previous domestic research shows that public opinion mainly covers the social events and changes in society including the deductive factors triggering these events and public opinions related. Nowadays, most of online public opinion research lacks the understanding of the nature of public opinion and the systematically analytical framework is rarely adopted. Descriptive statistics are widely used to draw conclusion. Considering the above limitations of the current public opinion research, this paper presents a novel approach for online public opinion research which takes three major elements into accounts: coverage, measurement and explanation and is achieved by the combination of an online big data analytics and human judgment methodology. It frst gives the overview of public opinion with the help of the machine learning and web mining technology built on the platform; then it mines deeply and explains events via a manual online content analysis method. Some cases will be elaborated in this paper to show the practicability and operability of this approach.
online public opinion; big data technology; web mining; machine learning; content analysis
G20
A