汪行東 胡志方
摘要:由于大數(shù)據(jù)技術(shù)的迅速普及,很多城市與媒體積極引入大數(shù)據(jù)輿情技術(shù)輔助輿情監(jiān)測、管理與應(yīng)對決策。從統(tǒng)計學(xué)角度來看,大數(shù)據(jù)技術(shù)存在著樣本截斷問題、系統(tǒng)性偏誤、情緒衡量偏誤、遺漏變量偏誤等缺陷,故應(yīng)積極革新大數(shù)據(jù)輿情技術(shù),創(chuàng)新輿情信息采集方式,增強輿情分析人員的統(tǒng)計素養(yǎng)和理論素養(yǎng),避免大數(shù)據(jù)輿情技術(shù)帶來輿情誤判的風(fēng)險。
關(guān)鍵詞:大數(shù)據(jù);輿情;統(tǒng)計
中圖分類號:G206.2文獻(xiàn)標(biāo)識碼:A文章編號:1672-8122(2019)11-0055-02
隨著大數(shù)據(jù)的發(fā)展,對海量的網(wǎng)絡(luò)信息進(jìn)行采集、挖掘、分析的技術(shù)日趨成熟,這為主流媒體應(yīng)用大數(shù)據(jù)綜合分析輿論、提高輿論引導(dǎo)力提供了新的可能。各地政府、機構(gòu)紛紛引入大數(shù)據(jù)輿情分析技術(shù)、建設(shè)大數(shù)據(jù)輿情決策平臺,通過互聯(lián)網(wǎng)海量信息進(jìn)行挖掘和處理,為敏感、重點輿情的引導(dǎo)工作助力[1, 2],其中典型輿情平臺包括百度輿情、新浪輿情、清博輿情等。從本質(zhì)上講,大數(shù)據(jù)技術(shù)是統(tǒng)計學(xué)的一種應(yīng)用,通過抓取海量媒介信息,使用統(tǒng)計建模相關(guān)的技術(shù),建立包括機器學(xué)習(xí)在內(nèi)的統(tǒng)計模型,對輿情的發(fā)生、發(fā)展和輿論引導(dǎo)過程進(jìn)行評估,為輿情應(yīng)對決策、決策評估提供依據(jù)。大數(shù)據(jù)技術(shù)雖然具有很多優(yōu)點,但從統(tǒng)計學(xué)的角度出發(fā),缺點也是十分明顯的。如何克服其缺陷,完善大數(shù)據(jù)決策,是本文探討的關(guān)鍵。
一、從統(tǒng)計層面看大數(shù)據(jù)輿情技術(shù)的主要缺陷
(一)樣本截斷問題
樣本截斷(Truncation)問題主要指樣本并非隨機抽取的,不是從全部個體,而是從其中一部分中獲取的觀測值,這部分觀測值可能會出現(xiàn)都大于或小于某個值,出現(xiàn)“掐頭”或“去尾”的問題。大數(shù)據(jù)輿情獲取的信息來源于網(wǎng)絡(luò)平臺,主要集中于網(wǎng)站及自媒體平臺的公開意見表達(dá)。第一,由于網(wǎng)絡(luò)、自媒體平臺的使用存在一定的門檻,從而天然地排除了很多不會使用網(wǎng)絡(luò)媒體的年長群體或者經(jīng)濟地位較低,無法負(fù)擔(dān)網(wǎng)絡(luò)媒體成本的人的意見。第二,雖然網(wǎng)絡(luò)存在一定的匿名性,但網(wǎng)絡(luò)意見的表達(dá)會受到各種因素的影響,并非所有的意見均呈現(xiàn)在網(wǎng)絡(luò)空間中。主要表現(xiàn)為:其一,意見表達(dá)行為受到主體性格、自信水平的影響,很多人并不愿意在網(wǎng)絡(luò)上表達(dá)自己的主張;其二,意見的表達(dá)會受到意見性質(zhì)的影響,如果主體認(rèn)為自己的意見會受到反對或招致攻擊,往往會選擇沉默,形成傳播學(xué)上所謂的“沉默的螺旋”效應(yīng)。隨著實名制的不斷推廣,網(wǎng)友在表達(dá)與主流意見不同的意見時更趨于減弱自己的聲音。第三,網(wǎng)上表達(dá)的意見也并非都能采集到。特別是由于自媒體具有一定的社交屬性,信息的擴散和意見的表達(dá)變得極為便利,但基于人際傳播裂變的意見擴散,因涉及隱私問題也是大數(shù)據(jù)技術(shù)所無法采集的。一方面,自媒體特有的社交屬性,使得信息的擴散較為方便。基于人際傳播的信息擴散和意見表達(dá),是大數(shù)據(jù)的數(shù)據(jù)采集無法進(jìn)入的領(lǐng)域;另一方面,網(wǎng)絡(luò)上的意見表達(dá)僅是網(wǎng)民意見表達(dá)行為的一部分,大量的輿情行為發(fā)生在線下,這也是無法觀察到的。從這個意義上,大數(shù)據(jù)搜集的是截斷數(shù)據(jù)(Truncated Data),忽略了人際傳播中的意見表達(dá)和線下行為,將大大影響輿情監(jiān)測的穩(wěn)健性(Robust)。
(二)系統(tǒng)性偏誤
系統(tǒng)性偏誤指與抽樣技術(shù)無關(guān),不會隨著抽樣的樣本容量擴大而減小的常數(shù)項偏誤。大數(shù)據(jù)輿情技術(shù)宣稱進(jìn)行全網(wǎng)信息采集,一般不存在樣本容量擴大的問題。但在實際操作中,受限于抓取能力和時間成本,大數(shù)據(jù)輿情平臺的數(shù)據(jù)抓取也局限于微博、微信公眾號、新聞客戶端、媒體網(wǎng)站等,由于輿情事件具有不同的突發(fā)性,是無法預(yù)料其會在微博爆發(fā)、微信公眾號爆發(fā),還是在許久文件未更新的博客中爆發(fā)。由于技術(shù)能力限制會導(dǎo)致樣本產(chǎn)生系統(tǒng)性偏誤,進(jìn)而影響大數(shù)據(jù)的輿情預(yù)警和決策能力。
(三)情緒衡量偏誤
輿情中包含了情緒,情緒是輿情研究中必然涉及的對象。要判斷網(wǎng)民在輿情事件中的情緒是“支持或反對”某一觀點或者“喜歡或不喜歡”某一事物和個體,一般是抽取其評論語句、留言語句中的某一個或某些字詞(即特征),判斷該詞屬于哪種情緒(即分類),意即分詞技術(shù)。國內(nèi)學(xué)者陳浩基于心理學(xué)情緒結(jié)構(gòu)理論、情緒分析技術(shù)、情緒詞庫等構(gòu)建了基本情緒詞庫和情緒維度詞庫,獲得了快樂、悲傷、憤怒、恐懼和厭惡等五種基本的社會情緒[3]。但實際上,由于情緒的高度復(fù)雜性和漢語的語義模糊性,對情緒進(jìn)行精確地區(qū)分的努力,即使是引入強大的機器學(xué)習(xí)技術(shù),對情緒分詞處理仍存在一定的困難。近年新產(chǎn)生的一些情緒詞匯,如“白骨精(白領(lǐng)+骨干+精英)、果醬(過獎)”等,由于語言的約定俗成性、新詞的不斷涌現(xiàn)會給情緒判斷帶來極大的困難。
(四)遺漏變量偏誤
一方面,沉默的螺旋理論認(rèn)為,人們趨向于表達(dá)與主流意見一致的觀點;當(dāng)個人意見與主流意見不一致時,個體會傾向于改變自己的意見或者干脆選擇沉默[5];另一方面,群體動力學(xué)的研究成果證實群體壓力和趨同心理的存在。網(wǎng)絡(luò)上發(fā)表意見的人,隸屬于不同小團體進(jìn)而在輿論領(lǐng)域進(jìn)行競爭,群體中的個體會表達(dá)趨同的意見,進(jìn)而隱藏個體的不同意見[6]。這兩種機制的存在導(dǎo)致個體的意見表達(dá)并不能反映個體的真實意見,而在大數(shù)據(jù)分析中又難以對這兩種機制的影響進(jìn)行剔除,可能會導(dǎo)致對輿情估計的偏大或偏小,也會導(dǎo)致輿情風(fēng)險評估模型出現(xiàn)遺漏變量偏誤(Omitted Variable Bias)。
二、避免大數(shù)據(jù)輿情技術(shù)缺陷的應(yīng)對方法
技術(shù)是一把雙刃劍,在帶來益處的同時不可避免的具有一定的局限性,警惕大數(shù)據(jù)輿情技術(shù)缺陷,構(gòu)建更為合理的大數(shù)據(jù)輿情監(jiān)測管理機制,是輿情工作發(fā)展的重要方向。
首先,革新大數(shù)據(jù)技術(shù),提升信息采集的范圍和分詞技術(shù),避免系統(tǒng)性偏誤、情緒衡量偏誤和遺漏變量偏誤。引入更為穩(wěn)健的計量工具模型,通過機器學(xué)習(xí)和人工采集等方式及時更新情緒分詞,將大大提升輿情分析的準(zhǔn)確性。
其次,應(yīng)破除對大數(shù)據(jù)技術(shù)的盲信盲從,增強輿情分析人員的統(tǒng)計素養(yǎng)。輿情分析人員對統(tǒng)計知識的理解,會方便其對輿情平臺呈現(xiàn)出的結(jié)果進(jìn)行判斷,更有利于做出正確的決策。
最后,加強輿情相關(guān)理論研究和總結(jié),特別是黨和政府的各級領(lǐng)導(dǎo)干部關(guān)于輿論和新聞傳播規(guī)律應(yīng)高度重視,做到先進(jìn)思想武裝人,方能更好地從事黨的輿論工作。
三、結(jié)語
隨著大數(shù)據(jù)輿情技術(shù)的日趨普及,越來越多的黨政部門與媒體部門傾向于采用大數(shù)據(jù)技術(shù)來監(jiān)控社會輿情,為黨政部門了解社情民意提供了新的通道。在依賴于新技術(shù)的同時,我們也應(yīng)意識到從統(tǒng)計技術(shù)層面而言,大數(shù)據(jù)輿情技術(shù)存在樣本截斷問題、系統(tǒng)性偏誤、情緒衡量偏誤、遺漏變量偏誤等問題,應(yīng)從不斷革新輿情分析技術(shù)、創(chuàng)新輿情采集方式、增強輿情分析人員素養(yǎng)等角度,避免大數(shù)據(jù)輿情技術(shù)的缺陷導(dǎo)致輿情誤判等風(fēng)險,更加科學(xué)地了解社情民意。
參考文獻(xiàn):
[1]李雙.從輿情起步,邁上大數(shù)據(jù)輿情和社會治理之路——以浙江在線輿情中心為例淺談黨媒如何做好“To G”服務(wù)[J].傳媒評論,2018(6): 12-14.
[2]喻國明.當(dāng)前社會輿情的結(jié)構(gòu)性特點與分析性發(fā)現(xiàn)——基于2014年中國社會網(wǎng)絡(luò)輿情的大數(shù)據(jù)分析[J].江淮論壇,2015(5): 136-143.
[3]陳浩.中國社會的脈搏:網(wǎng)絡(luò)集群情緒的測量與應(yīng)用: 第十七屆全國心理學(xué)學(xué)術(shù)會議[Z].北京: 2014.
[4]王世泓.基于情緒詞典擴展技術(shù)的中文微博情緒分析[D].南京航空航天大學(xué),2015.
[5](美)M·麥考姆斯,T·貝爾著.郭鎮(zhèn)之譯.大眾傳播的議程設(shè)置作用[J].新聞大學(xué),1999(2):32-36.
[6]高憲春,解葳.新媒體融合語境下網(wǎng)絡(luò)群體對輿論生成的影響[J].當(dāng)代傳播,2015(3): 76-79.
[責(zé)任編輯:楊楚珺]