杜洪濤,孟慶國,王君澤
(1. 清華大學(xué) 公共管理學(xué)院,北京 100084; 2. 華中科技大學(xué) 公共管理學(xué)院,湖北 武漢 430074)
?
互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用研究
杜洪濤1,孟慶國1,王君澤2
(1. 清華大學(xué)公共管理學(xué)院,北京100084; 2. 華中科技大學(xué)公共管理學(xué)院,湖北武漢430074)
摘要:雖然互聯(lián)網(wǎng)數(shù)據(jù)對于輿情研判工作具有重大價值,但由于互聯(lián)網(wǎng)數(shù)據(jù)的海量、多源、異構(gòu)等特性,以及數(shù)據(jù)噪聲的存在,使目前的互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)表現(xiàn)出了一定的局限性,影響了互聯(lián)網(wǎng)數(shù)據(jù)效用的發(fā)揮。大數(shù)據(jù)分析和計算實驗技術(shù)能夠提升互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用,在實際操作中應(yīng)注重人的主導(dǎo)作用與技術(shù)輔助功能的互動耦合。
關(guān)鍵詞:網(wǎng)絡(luò)輿情;輿情研判;互聯(lián)網(wǎng)數(shù)據(jù);Web數(shù)據(jù)挖掘;效用分析
一、引言
輿情是指在一定的社會空間內(nèi),圍繞中介性社會事項的發(fā)生、發(fā)展和變化,作為輿情主體的民眾對國家管理者產(chǎn)生和持有的社會政治態(tài)度[1]。及時準確地進行輿情研判,是順利開展輿情引導(dǎo)和管控工作的重要前提條件。
近年來,隨著互聯(lián)網(wǎng)尤其是移動互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)媒體特別是微博、微信等自媒體的出現(xiàn),網(wǎng)絡(luò)空間開始成為日益重要的輿論場,互聯(lián)網(wǎng)數(shù)據(jù)也日益受到輿情研判工作者的重視。傳統(tǒng)上依靠社會訪談、民意調(diào)查等來獲取社會輿情的方式,不僅成本高,而且獲取到的數(shù)據(jù)規(guī)模也相對有限。與此不同,互聯(lián)網(wǎng)數(shù)據(jù)可以通過Web爬蟲等技術(shù)手段來相對全面和廉價地加以獲取,這就為互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判工作中的大量使用提供了可能。
網(wǎng)絡(luò)輿情研究領(lǐng)域的諸多問題已經(jīng)吸引了學(xué)術(shù)界的廣泛關(guān)注,研究人員圍繞網(wǎng)絡(luò)輿情的形成[2]、演化[3]、管控[4]、評價指標[5]、引導(dǎo)策略[6]等問題,開展了大量的研究工作。數(shù)據(jù)挖掘、語義分析等領(lǐng)域中的不少模型和算法也被應(yīng)用于輿情信息處理領(lǐng)域,以描述網(wǎng)絡(luò)中傳播的輿情信息,推論網(wǎng)絡(luò)輿情信息傳播主體的意圖以及態(tài)度和情緒的傾向性,或分析網(wǎng)絡(luò)輿情信息的產(chǎn)生和演化趨勢[7],進而更科學(xué)地利用互聯(lián)網(wǎng)中的海量信息進行輿情研判[8]。其中,涉及到多種應(yīng)用場景,包括網(wǎng)民的情感傾向分析[9]、網(wǎng)頁轉(zhuǎn)載關(guān)系識別[10]、論壇和微博等網(wǎng)絡(luò)社區(qū)中意見領(lǐng)袖和網(wǎng)絡(luò)推手的識別[11-12]、輿情傳播網(wǎng)絡(luò)分析[13]等。
與已有工作不同的是,本文主要關(guān)注互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用問題。首先,介紹輿情研判工作中使用互聯(lián)網(wǎng)數(shù)據(jù)的目標;其次,論述輿情研判工作中互聯(lián)網(wǎng)數(shù)據(jù)的特征選取,以及應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)處理的常見技術(shù)及其處理的具體對象;繼而分析在發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)效用過程中所面臨的困難;最后給出可能提升互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮的策略。
二、輿情研判中的互聯(lián)網(wǎng)數(shù)據(jù)使用
目前,針對在輿情研判工作中如何使用互聯(lián)網(wǎng)數(shù)據(jù)的問題已開展了大量的研究工作,并取得了一些成果。本文從使用目標、特征選取、分析技術(shù)和處理對象等方面對這些成果的研究要素進行初步劃分,結(jié)果見表1。
(一)輿情研判中使用互聯(lián)網(wǎng)數(shù)據(jù)的目標
鑒于網(wǎng)絡(luò)空間已經(jīng)成為重要的輿論場,而互聯(lián)網(wǎng)數(shù)據(jù)又可以通過Web爬蟲等技術(shù)手段快速、大量地獲取,因此互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判工作中得到了廣泛的使用,以輔助輿情分析人員更好地開展輿情研判工作?;诨ヂ?lián)網(wǎng)數(shù)據(jù),輿情研判人員可以對網(wǎng)絡(luò)輿情進行描述;對網(wǎng)絡(luò)輿情的關(guān)聯(lián)性進行分析;對網(wǎng)絡(luò)輿情信息的真實性進行判別,對網(wǎng)絡(luò)輿情信息傳播主體的意圖及態(tài)度傾向進行推論;對網(wǎng)絡(luò)輿情的產(chǎn)生原因進行分析;預(yù)測和推論網(wǎng)絡(luò)輿情信息的產(chǎn)生和變化趨勢等[14]。更具體的,基于新聞或者網(wǎng)帖中的用戶評論信息,可以分析網(wǎng)民對于目標輿情事件的觀點態(tài)度和情感傾向[15];基于各種社交媒體中用戶之間的關(guān)系網(wǎng)絡(luò),以及用戶之間的交流和互動特征,可以評估用戶的影響力[16]和社群之間的互動模式[17];互聯(lián)網(wǎng)中的海量數(shù)據(jù),也為輿情研判人員分辨不同時期、不同環(huán)境中的輿情特征提供了依據(jù),有助于獲取個人與群體的態(tài)度和興趣,揭示網(wǎng)民關(guān)注的熱點話題等[18];同時,互聯(lián)網(wǎng)數(shù)據(jù)中的各類統(tǒng)計信息,如有關(guān)特定目標事件的總發(fā)文數(shù)、單位時間發(fā)文數(shù)、參與討論總?cè)藬?shù)等統(tǒng)計信息,也是輔助輿情研判的重要指標。
表1 輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)使用的研究分類
(二)輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的特征選取
目前,圍繞Web爬蟲技術(shù),已經(jīng)有大量的改進策略用于獲取互聯(lián)網(wǎng)數(shù)據(jù)[19-20]。但是,對于獲取到的互聯(lián)網(wǎng)數(shù)據(jù),需要有針對性地抽取其中的特征,并基于這些特征,結(jié)合相應(yīng)的模型算法或者處置流程,才能獲得對于輿情研判工作有價值的信息。
對互聯(lián)網(wǎng)數(shù)據(jù)特征的選取,主要包括以下幾個方面:
第一,語義特征。如文本信息的情感傾向(即正負面情感極性的標識)、數(shù)據(jù)內(nèi)容中所涉及的命名實體或者事件、數(shù)據(jù)內(nèi)容中包含的敏感詞或關(guān)鍵詞等。
第二,結(jié)構(gòu)特征。如網(wǎng)絡(luò)社區(qū)用戶之間互相“加關(guān)注”成為“粉絲”,服務(wù)器端記錄的人際關(guān)系等數(shù)據(jù),能夠描述用戶構(gòu)成的社會化網(wǎng)絡(luò)等。
第三,各類元數(shù)據(jù)。如信息的轉(zhuǎn)發(fā)數(shù)量、評論數(shù)量,以及信息發(fā)布者的資料等。在很多輿情指標體系中,對各類元數(shù)據(jù)都進行了明確的規(guī)定。如談國新等人設(shè)計的網(wǎng)絡(luò)輿情監(jiān)測評價指標體系,包含了輿情發(fā)布者影響力、輿情發(fā)布者活躍度、輿情受眾負面指數(shù)、輿情受眾參與頻度等多個指標。而這些指標中涵蓋了瀏覽次數(shù)、發(fā)帖數(shù)、回復(fù)數(shù)、轉(zhuǎn)載率、回帖總數(shù)、負面回帖總數(shù)、中性回帖總數(shù),以及點擊、評論、回復(fù)某一輿情的總次數(shù)等多個末級指標[21]。
(三)輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的分析技術(shù)
對于獲取到的互聯(lián)網(wǎng)數(shù)據(jù),可以從兩個方面對其進行分析:一是對網(wǎng)絡(luò)傳播的信息內(nèi)容進行研究,利用內(nèi)容分析法發(fā)現(xiàn)重要輿情內(nèi)容;二是構(gòu)建網(wǎng)民間的社會關(guān)系網(wǎng)絡(luò),利用社會網(wǎng)絡(luò)分析法分析網(wǎng)絡(luò)結(jié)構(gòu)特征[22]。基于以上兩個方面,可以對網(wǎng)絡(luò)輿情進行描述,對網(wǎng)絡(luò)輿情的關(guān)聯(lián)性和網(wǎng)絡(luò)輿情信息的真實性進行分析,對傳播主體的意圖及態(tài)度傾向進行推論,并對網(wǎng)絡(luò)輿情的演化趨勢加以預(yù)測。
1.內(nèi)容分析法
內(nèi)容分析法是輿情研判工作中分析互聯(lián)網(wǎng)數(shù)據(jù)的常用方法,能對具有明確特性的傳播內(nèi)容進行客觀、系統(tǒng)和定量的描述。內(nèi)容分析法在網(wǎng)絡(luò)信息處理方面的應(yīng)用,主要體現(xiàn)在對網(wǎng)絡(luò)信息的內(nèi)容挖掘、對網(wǎng)絡(luò)的結(jié)構(gòu)挖掘和對網(wǎng)絡(luò)的使用記錄挖掘上[23]。研究者們很早就注意到內(nèi)容分析法在輿情信息分析中的作用,情感分析、話題檢測與追蹤、文本摘要、熱點識別等多種技術(shù)都被嘗試用于互聯(lián)網(wǎng)數(shù)據(jù)的分析環(huán)節(jié)。如利用文本特征提取技術(shù)發(fā)現(xiàn)輿情信息涉及的目標事件、識別并追蹤社會熱點和焦點內(nèi)容;利用文本分類技術(shù)判斷目標事件所屬社會問題的類別;利用網(wǎng)絡(luò)信息內(nèi)容的主題檢測和追蹤技術(shù)發(fā)現(xiàn)突發(fā)事件的輿情信息流主題;利用多維分析對輿情信息進行跨時間、跨空間的綜合分析,描述起因事件發(fā)生的全貌及產(chǎn)生的影響等。
(1)數(shù)據(jù)預(yù)處理及表示技術(shù)
數(shù)據(jù)預(yù)處理及表示技術(shù)是計算機分析互聯(lián)網(wǎng)數(shù)據(jù)內(nèi)容的基礎(chǔ),其中涉及表示模型、特征表示和特征提取等。
在輿情研判工作中,互聯(lián)網(wǎng)數(shù)據(jù)的效用在很大程度上依賴于對互聯(lián)網(wǎng)數(shù)據(jù)的語義分析能力。其中,涉及到中文分詞、詞性標注、命名實體識別、新詞識別和人名消歧等技術(shù),同時配合關(guān)鍵詞抽取、自動摘要生成等技術(shù),以完成互聯(lián)網(wǎng)數(shù)據(jù)的預(yù)處理及表示。
(2)情感分析及觀點識別技術(shù)
情感分析技術(shù)可以對各種新聞資源、社會化媒體評論和其他用戶生成的內(nèi)容進行提取、分析、處理、歸納和推理,并可以對網(wǎng)絡(luò)輿情信息傳播主體的意圖以及態(tài)度和情緒的傾向性進行推論。針對目標輿情信息的相應(yīng)評論文本進行情感傾向性分析,有助于輿情研判人員明確網(wǎng)民關(guān)于目標輿情信息所持的觀點和態(tài)度。
(3)分類和聚類
文本分類和聚類技術(shù)也是對互聯(lián)網(wǎng)數(shù)據(jù)進行分析的主要手段。對于文本主題的分類,有助于從宏觀角度開展輿情研判的研究。如談國新等人將輿情信息主題分為六類,即生存危機、分配差距、腐敗現(xiàn)象、公共安全、時事政治和公共治理?;诖朔诸愺w系,利用文本分類技術(shù)對互聯(lián)網(wǎng)數(shù)據(jù)進行分類,有助于有針對性地進行輿情研判和應(yīng)對。
聚類是將一組未標定或未做出任何分類的信息按照某種相近程度的度量分成互不相同的類別。作為一種探索性的分析,聚類分析能夠從信息本身出發(fā)自動進行分類。聚類分析的結(jié)果是一系列相近信息組成的集合,同一組中的信息相近,不同組的信息相差較大,據(jù)此可以判別當前網(wǎng)絡(luò)輿情的共性話題和熱點話題。
(4)話題檢測與跟蹤
話題檢測與跟蹤可以針對目標事件完成報道邊界自動識別、鎖定和收集突發(fā)性新聞話題、跟蹤話題發(fā)展以及跨語言檢測與跟蹤等相關(guān)任務(wù)。針對輿情事件的突發(fā)性,也可以利用話題檢測與跟蹤技術(shù)來探測互聯(lián)網(wǎng)中的突發(fā)熱點事件。
(5)趨勢預(yù)測分析
通過跟蹤目標事件輿情在不同時間段內(nèi)被關(guān)注的程度,可以獲取輿情隨時間的發(fā)展變化趨勢或規(guī)律,以實現(xiàn)對輿情環(huán)境的監(jiān)控和預(yù)警,進行適時控制和疏導(dǎo)[24]。
2.社會網(wǎng)絡(luò)分析法
社會網(wǎng)絡(luò)分析法是適應(yīng)研究社會結(jié)構(gòu)和社會關(guān)系的需要而發(fā)展起來的一種分析方法。在輿情研判中,社會網(wǎng)絡(luò)指的是由多個結(jié)點(輿情參與者)和各結(jié)點之間的連線(輿情參與者之間的關(guān)系)組成的集合,通常被用于描述和測量輿情參與者之間的關(guān)系,或通過這些關(guān)系流動的各種信息資源等[25]。使用社會網(wǎng)絡(luò)分析法,可以在輿情研判工作中基于互聯(lián)網(wǎng)數(shù)據(jù)中的文本內(nèi)容開展輿情分析工作,也可以通過分析輿情參與者的網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)聯(lián)來探尋網(wǎng)絡(luò)輿情的發(fā)展規(guī)律[26]。
基于社會網(wǎng)絡(luò)分析所開展的互聯(lián)網(wǎng)數(shù)據(jù)研究主要包括三個方面:
(1)動態(tài)分級
研究社會網(wǎng)絡(luò)的動態(tài)變化,并根據(jù)社會網(wǎng)絡(luò)中結(jié)點之間的相互關(guān)系,對網(wǎng)絡(luò)中的結(jié)點進行動態(tài)的等級劃分。康偉以2011年重大突發(fā)事件“7·23”動車事故為實證研究對象,基于鄰接矩陣數(shù)據(jù)進行了網(wǎng)絡(luò)密度可達性聚類系數(shù)和中心性測度,依據(jù)測度結(jié)果和位置角色分析,通過將網(wǎng)絡(luò)中的節(jié)點分為中心核心、普通核心和邊緣三種類型,完成了對輿情參與者的等級劃分[13]。
(2)角色評價
依據(jù)社會網(wǎng)絡(luò)分析理論,網(wǎng)絡(luò)中的每個結(jié)點都扮演著不同的角色。角色評價的研究目標就是確定網(wǎng)絡(luò)中的結(jié)點對網(wǎng)絡(luò)的結(jié)構(gòu)和動態(tài)變化等所起到的不同作用。有研究者以突發(fā)事件“11·16”校車事故為實證研究對象,基于鄰接矩陣數(shù)據(jù)對信息傳播網(wǎng)絡(luò)進行了整體網(wǎng)絡(luò)結(jié)構(gòu)、內(nèi)部子結(jié)構(gòu)和個體位置結(jié)構(gòu)測度,并借助結(jié)構(gòu)對等性測度和結(jié)構(gòu)洞測量等手段,研究了網(wǎng)絡(luò)節(jié)點對輿情網(wǎng)絡(luò)中其他成員之間的交流及信息傳播和共享的控制力[25]。
(3)“意見領(lǐng)袖”和社群的發(fā)現(xiàn)
通過社會網(wǎng)絡(luò)分析法,研究社會網(wǎng)絡(luò)中結(jié)點之間的關(guān)系,可以發(fā)現(xiàn)其中潛在的“意見領(lǐng)袖”和社群?!耙庖婎I(lǐng)袖”是在社會網(wǎng)絡(luò)中占有核心位置的結(jié)點,它能夠影響網(wǎng)絡(luò)中的其它結(jié)點對事件的看法,社群則是由相互聯(lián)系緊密的結(jié)點組成。有研究者結(jié)合社會網(wǎng)絡(luò)分析方法在網(wǎng)絡(luò)輿情研究中的現(xiàn)有應(yīng)用,通過分析網(wǎng)絡(luò)輿情的結(jié)構(gòu),進而發(fā)掘網(wǎng)絡(luò)輿論領(lǐng)袖[25]。
綜上所述,通過運用內(nèi)容分析法或者社會網(wǎng)絡(luò)分析法等自動或半自動的技術(shù),能夠從海量的互聯(lián)網(wǎng)數(shù)據(jù)中快速分析和發(fā)現(xiàn)輿情信息,并有助于重組和優(yōu)化輿情信息處理和輿情研判的業(yè)務(wù)流程。
然而,目前各類分析技術(shù)大都并非針對輿情分析領(lǐng)域開發(fā)的,研究人員往往是將其它領(lǐng)域的成果直接應(yīng)用到輿情分析領(lǐng)域。在此背景下,如何充分發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用,就成為一個待解決的問題,需要對其進行深入的研究和創(chuàng)新。
(四)輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)處理的具體對象
就目前對于互聯(lián)網(wǎng)數(shù)據(jù)的研究工作來看,內(nèi)容分析法所研究的對象涵蓋了新聞?wù)募霸u論、論壇主帖及回帖、博客文章及評論,以及微博信息及相應(yīng)的轉(zhuǎn)發(fā)內(nèi)容和評論內(nèi)容。
在現(xiàn)階段,由于受技術(shù)的限制,內(nèi)容分析法主要的處理對象還停留于文本數(shù)據(jù)。對于語音數(shù)據(jù)、視頻數(shù)據(jù)、圖片數(shù)據(jù)等,可以采用的策略相對較少,主要還是對瀏覽量、轉(zhuǎn)發(fā)量,以及針對語音、視頻、圖片的網(wǎng)民評論文本進行處理。但恰恰是這類多媒體數(shù)據(jù),可能包含了對于輿情研判具有重要價值的信息。為提升輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的效用,應(yīng)該進一步關(guān)注光學(xué)字符識別、語音識別、圖像語義分析[27]、視頻語義分析[28]等技術(shù)的發(fā)展。
對互聯(lián)網(wǎng)數(shù)據(jù)的分析,還可以從數(shù)據(jù)發(fā)布者的網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)聯(lián)入手。社會網(wǎng)絡(luò)分析法通過對各種關(guān)系進行量化分析,從而揭示群體關(guān)系結(jié)構(gòu),研究關(guān)系結(jié)構(gòu)對群體功能或群體內(nèi)部個體的影響。較之內(nèi)容分析法,社會網(wǎng)絡(luò)分析側(cè)重于研究輿情事件之間或者輿情參與者之間的聯(lián)系,以及不同網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)下所引發(fā)的網(wǎng)民行為發(fā)展變化情況。如可以通過網(wǎng)絡(luò)論壇中的主題帖和回帖,在用戶間建立明顯的連接,并通過積累的有關(guān)網(wǎng)絡(luò)論壇的數(shù)據(jù),挖掘用戶間的復(fù)雜關(guān)系,以及最終形成的關(guān)系網(wǎng)絡(luò),在此關(guān)系網(wǎng)絡(luò)上開展輿情分析研究[29]。
三、互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮面臨的挑戰(zhàn)
雖然互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判領(lǐng)域得到廣泛重視,也有諸多技術(shù)策略被應(yīng)用于互聯(lián)網(wǎng)數(shù)據(jù)分析的實踐工作,但依然存在諸多因素制約著互聯(lián)網(wǎng)數(shù)據(jù)效用的發(fā)揮。網(wǎng)絡(luò)輿情分析流程大致可以劃分為互聯(lián)網(wǎng)數(shù)據(jù)采集、互聯(lián)網(wǎng)數(shù)據(jù)預(yù)處理、輿情關(guān)鍵信息抽取、網(wǎng)絡(luò)輿情內(nèi)容分析,以及輿情研判平臺構(gòu)建與服務(wù)等環(huán)節(jié)。下面結(jié)合上述部分環(huán)節(jié),對制約互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮的因素進行分析。
(一)互聯(lián)網(wǎng)數(shù)據(jù)采集方面
從Web1.0到Web2.0,網(wǎng)民從內(nèi)容的消費者轉(zhuǎn)變成為內(nèi)容的制造者,使互聯(lián)網(wǎng)產(chǎn)生數(shù)據(jù)的速度得到極大提升,同時也使對互聯(lián)網(wǎng)數(shù)據(jù)進行全面、實時的獲取和利用面臨著更多挑戰(zhàn)。目前,對于網(wǎng)絡(luò)輿情匯集分析的研究還不夠深入,尤其是實證研究很少,經(jīng)過實踐檢驗的輿情匯集方案和指標體系等還沒有出現(xiàn)[30]。例如:不少研究者嘗試利用總發(fā)文數(shù)、單位時間發(fā)文數(shù)、參與討論總?cè)藬?shù)和單位時間參與討論人數(shù)等指標對網(wǎng)絡(luò)輿情熱度進行評估。但針對目標輿情事件,其相關(guān)報道可能被發(fā)布在多個數(shù)據(jù)源,而這些報道又可能被諸多網(wǎng)站轉(zhuǎn)載,而且各個網(wǎng)站上的報道又引發(fā)大量的網(wǎng)民評論。從理論上講,如果需要統(tǒng)計針對目標輿情事件的總發(fā)文數(shù)和參與討論人數(shù)等指標,則必須要完整地獲取目標輿情事件相關(guān)信息在互聯(lián)網(wǎng)上的分布狀況,而這意味著需要在全網(wǎng)范圍內(nèi)檢索信息。該任務(wù)勢必會帶來極大的計算和存儲壓力,以及對網(wǎng)絡(luò)帶寬的消耗,并且很難保證數(shù)據(jù)獲取的實時性。而在輿情研判過程中,為了保證對敏感輿情的及時發(fā)現(xiàn)和快速處置,對數(shù)據(jù)獲取和分析的實時性要求較高,這無疑又對互聯(lián)網(wǎng)數(shù)據(jù)的快速獲取和處理能力提出了更高的要求。
可以看出,對于輿情研判而言,不但在互聯(lián)網(wǎng)數(shù)據(jù)的獲取上面臨著數(shù)據(jù)過載的挑戰(zhàn),而且還需滿足數(shù)據(jù)獲取及分析的時效性要求。在此狀況下,合理的策略是放棄獲取全網(wǎng)數(shù)據(jù),而是選擇互聯(lián)網(wǎng)中影響力較大的網(wǎng)站作為數(shù)據(jù)源,有針對性地完成數(shù)據(jù)獲取任務(wù)。這樣既可以緩解信息過載的壓力,又能保證獲取到的數(shù)據(jù)可以大致準確地反映目標輿情事件的狀況。
事實上,互聯(lián)網(wǎng)中各數(shù)據(jù)源的質(zhì)量良莠不齊,在網(wǎng)絡(luò)輿情分析時,如果可以對權(quán)威性較高的互聯(lián)網(wǎng)數(shù)據(jù)源所發(fā)布的信息加以重點關(guān)注,則可能提升輿情信息處理的效果。然而,目前雖然已有不少對網(wǎng)站影響力進行評價的工作,如借助入鏈接數(shù)、出鏈接數(shù)、網(wǎng)絡(luò)影響因子和網(wǎng)站訪問量等一些可量化的指標來對網(wǎng)站影響力進行評價分析[31],但是幾乎還沒有專門對網(wǎng)絡(luò)輿情信息源影響力進行評價的研究工作。有研究者構(gòu)建了網(wǎng)絡(luò)輿情信息源影響力的評估體系,但僅能得出定性分析的結(jié)果,且評估結(jié)果的客觀性和合理性仍有提升空間,距離實際應(yīng)用仍有距離[32]??紤]到互聯(lián)網(wǎng)中數(shù)據(jù)源的規(guī)模,以及各數(shù)據(jù)源的影響力和可信度等方面的差異,亟需對監(jiān)控范圍內(nèi)的各數(shù)據(jù)源進行信度和權(quán)重設(shè)置,以供后續(xù)的輿情研判工作參考。
此外,互聯(lián)網(wǎng)數(shù)據(jù)采集環(huán)節(jié)還存在著采集標準不統(tǒng)一的問題。先前已經(jīng)有研究人員嘗試構(gòu)建網(wǎng)絡(luò)輿情監(jiān)測評價指標體系,以明確互聯(lián)網(wǎng)數(shù)據(jù)采集的來源、范圍和方向,進而全面了解網(wǎng)絡(luò)輿情的發(fā)展狀況和動態(tài),將網(wǎng)絡(luò)輿情信息定量化,以保證輿情研判的客觀性。如談國新等人構(gòu)建了突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)測指標體系,其中包括輿情發(fā)布者、輿情受眾和輿情傳播等二級指標,利用綜合回帖數(shù)、回復(fù)數(shù)和轉(zhuǎn)載率等統(tǒng)計信息進行輿情態(tài)勢評估。但目前輿情監(jiān)測指標的設(shè)計仍具有一定程度的主觀性,缺少相應(yīng)的論證過程,也缺少對互聯(lián)網(wǎng)數(shù)據(jù)來源指標的權(quán)威度、準確度和公眾參與度等要素的考量。這也暴露出對于這類要素數(shù)據(jù)所存在的量化研究不足,缺少實證研究和數(shù)據(jù)分析等問題。
(二)數(shù)據(jù)噪聲處理方面
噪聲數(shù)據(jù)的存在使得互聯(lián)網(wǎng)數(shù)據(jù)的效用受到制約。一方面,并非所有的網(wǎng)頁內(nèi)容都蘊含著網(wǎng)民的信念、態(tài)度、意見和情緒等輿情相關(guān)信息,與目標事件輿情分析無關(guān)的互聯(lián)網(wǎng)信息應(yīng)視為輿情分析過程中的噪聲數(shù)據(jù);另一方面,即使對于輿情研判具有實際意義的新聞或者網(wǎng)帖頁面,在頁面中也會混雜著導(dǎo)航欄、相關(guān)鏈接、友情站點、廣告和推薦等內(nèi)容,這些內(nèi)容同樣屬于噪聲數(shù)據(jù)。
除了新聞和網(wǎng)帖等之外,網(wǎng)民評論中也會混雜著垃圾評論及廣告信息,如果不對其加以消除,同樣會對分析結(jié)果造成影響。Wang等人對網(wǎng)民評論的有用性進行評級,試圖找到與目標事件最相關(guān)的評論,以避免垃圾評論對于網(wǎng)民觀點分析的影響,提升信息匯聚的質(zhì)量[33]。但總體而言,現(xiàn)有的網(wǎng)絡(luò)輿情分析領(lǐng)域較少有關(guān)注該問題的工作。
同時,由于互聯(lián)網(wǎng)數(shù)據(jù)的來源問題,數(shù)據(jù)本身存在著真實性難以確定的狀況[34]。各類原始公開數(shù)據(jù)雖然在形式上是客觀的,但是在內(nèi)容上則未必可靠,需要對其進行信息甄別[35]。
此外,目前的推手研究和水軍研究等,也都蘊含了對互聯(lián)網(wǎng)數(shù)據(jù)進行真?zhèn)握鐒e的思想。但總體而言,噪聲因素對互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮的影響問題尚未得到足夠的重視。
(三)數(shù)據(jù)分析方面
在獲取互聯(lián)網(wǎng)數(shù)據(jù)并剔除數(shù)據(jù)噪聲之后,可以利用各種數(shù)據(jù)挖掘或者自然語言處理領(lǐng)域的技術(shù)對預(yù)處理后的互聯(lián)網(wǎng)數(shù)據(jù)進行分析。這其中涉及到兩個方面的要素,即分析技術(shù)和對分析結(jié)果的評價標準。如前文所述,對于獲取到的互聯(lián)網(wǎng)數(shù)據(jù),可以從內(nèi)容分析和社會網(wǎng)絡(luò)分析兩個方面著手。
1.內(nèi)容分析技術(shù)方面
內(nèi)容分析方面的常用技術(shù)包括情感分析、話題探測與追蹤、分類與聚類、觀點抽取等。其中,情感分析是指對包含用戶表示的觀點、喜好和情感等的主觀性文本進行檢測分析以及挖掘。情感分析最初被廣泛應(yīng)用于對互聯(lián)網(wǎng)上的產(chǎn)品評論進行挖掘與分析,主要目的是能夠比較精確地發(fā)現(xiàn)產(chǎn)品的優(yōu)缺點[36]。針對商品等實體應(yīng)用,其中的情感指向的客體基本上是明確的,或者是可以預(yù)先定義的。但在輿情分析領(lǐng)域,需要對關(guān)于目標事件的新聞和博客后的評論或者網(wǎng)帖后的回帖進行處理。然而,目標事件中可能涉及到多個不同的機構(gòu)、組織和特定人物,或者是其它事件,且這些評論或回帖可能是針對該事件本身發(fā)表意見,也可能是針對這些機構(gòu)、組織和人物,又或者是針對其它事件發(fā)表意見或做出評價。因此,需要在輿情分析環(huán)節(jié)中對評價對象加以抽取,以確定網(wǎng)民是針對何客體發(fā)表意見和評論。這相較于針對特定商品的評論處理,其難度更大。同時,在商品評論中,由于不需要顧忌網(wǎng)絡(luò)審查問題,消費者可以非常直接和明確地表達自己的觀點和態(tài)度。而在輿情分析領(lǐng)域,由于網(wǎng)絡(luò)審查機制的存在,網(wǎng)民或是選擇反諷的方式表達態(tài)度,或是利用各種策略規(guī)避敏感詞監(jiān)控,進一步增加了抽取評價對象和分析情感傾向性的難度。此外,情感分析的最大挑戰(zhàn)在于精確識別包括評價者和被評價者、情感類別和情感極性在內(nèi)的完整的情感表達式[37],這也是目前情感分析技術(shù)研究所亟待解決的問題。
還需要強調(diào)的是,輿情研判領(lǐng)域所存在的一些特殊情況,也對目前的觀點識別技術(shù)提出更高的要求。如對文本中蘊含的思想傾向進行分析(左派/右派),以識別網(wǎng)民的政治態(tài)度等。雖然在政治事件分析方面,先前有研究者通過分析大量美國大選時的網(wǎng)絡(luò)新聞評論,來推斷大部分選民是支持共和黨還是民主黨[38],且Lin等人也構(gòu)造過一個“巴以戰(zhàn)爭”評論分析系統(tǒng),來區(qū)分某一評論是支持巴方還是支持以方[39],但在如何判斷政治傾向性方面,仍未見到有相應(yīng)的研究工作。
2.社會網(wǎng)絡(luò)分析技術(shù)方面
在輿情研判中,基于社會網(wǎng)絡(luò)分析技術(shù)所開展的研究工作,主要集中在輿情參與者動態(tài)分級、輿情參與者角色評價、“意見領(lǐng)袖”和社群的發(fā)現(xiàn)等方面。不僅能夠考察行動者個體,還能夠考察行動者之間的關(guān)系以及網(wǎng)絡(luò)對個體的影響[40]。但是,在對于負面信息、敏感信息的分析識別和預(yù)警方面較為欠缺,需要同時應(yīng)用內(nèi)容分析技術(shù),才能更好地發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)的效用。比如在“意見領(lǐng)袖”識別方面,基于社會網(wǎng)絡(luò)分析技術(shù)可以通過分析行動者之間在網(wǎng)絡(luò)中的互動關(guān)系來挖掘社區(qū)中的活躍分子,而“意見領(lǐng)袖”不僅需要在互動關(guān)系上享有主動權(quán),還應(yīng)該在其他成員中享有較高的聲望。因此,挖掘網(wǎng)絡(luò)“意見領(lǐng)袖”時,還應(yīng)輔以內(nèi)容分析技術(shù),通過對其所表達觀點中涉及的情緒和態(tài)度進行分析,以確保網(wǎng)絡(luò)“意見領(lǐng)袖”識別的準確性。
應(yīng)用社會網(wǎng)絡(luò)分析法的基礎(chǔ)是構(gòu)建基于互聯(lián)網(wǎng)數(shù)據(jù)的關(guān)系網(wǎng)絡(luò)。但由于網(wǎng)絡(luò)水軍、用戶“馬甲”等形式的存在,使得相關(guān)的互聯(lián)網(wǎng)數(shù)據(jù)中存在噪聲,影響了關(guān)系網(wǎng)絡(luò)的構(gòu)建。甚至在很多網(wǎng)站中,由于網(wǎng)站本身的設(shè)置,在數(shù)據(jù)采集環(huán)節(jié)并不能獲得足夠的數(shù)據(jù),也就無法完成關(guān)系網(wǎng)絡(luò)的構(gòu)建。
可見,社會網(wǎng)絡(luò)分析法不僅需要關(guān)注輿情行動者,還需要關(guān)注輿情行動者之間的互動關(guān)系。但受限于客觀情況,互聯(lián)網(wǎng)數(shù)據(jù)獲取環(huán)節(jié)無法滿足這些要求,進而影響了互聯(lián)網(wǎng)數(shù)據(jù)的效用發(fā)揮。
還需要強調(diào)的是,隨著Twitter和新浪微博等應(yīng)用的興起,其中的轉(zhuǎn)發(fā)和推薦機制也會影響到互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)的實際應(yīng)用。轉(zhuǎn)發(fā)機制決定了信息多級流動的可能性與擴散的速度,而推薦機制決定了信息超越人際關(guān)系網(wǎng)絡(luò)鏈條的約束進行傳播的能力,重點信息推薦、熱門信息聚合、最新信息推薦以及標簽等方式,都可以帶來信息傳播速度和幅度的提升[41]。面對此種情況,單純使用內(nèi)容分析技術(shù)或者社會網(wǎng)絡(luò)分析技術(shù),都無法充分發(fā)揮微博客數(shù)據(jù)的效用,必須將兩者充分結(jié)合使用,才能收到更好的效果。
3.效果評價方面
對各種互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)的效果進行評估,是在輿情研判中發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)效用的重要步驟。
比如情感語料庫就是情感分析的重要前提和基礎(chǔ)。目前,情感語料庫研究多以英語情感語料庫為主,且多致力于觀點持有者和被評價對象的抽取。國外的情感語料庫主要有Hu&Liu的產(chǎn)品評論語料庫、Wiebe的新聞評論語料庫、TREC2006-2009博客數(shù)據(jù)庫、NTCIR2006新聞報道評測系統(tǒng)和Whissell語料庫等[42]。而國內(nèi)漢語情感語料庫建設(shè)方面主要有:清華大學(xué)標注的有關(guān)旅游景點描述的情感語料庫、大連理工大學(xué)建立的記敘文體情感語料庫、哈爾濱工業(yè)大學(xué)構(gòu)造的含有20000個情感句的無人工標注大規(guī)模語料庫等。
就目前狀況看,一方面,漢語情感語料庫標注方面的資源較少;另一方面,在輿情分析領(lǐng)域,還未形成專門的情感語料庫。這對情感分析技術(shù)在輿情分析領(lǐng)域的應(yīng)用構(gòu)成了障礙。事實上,對于特定領(lǐng)域的情感傾向性研究成果,尤以運用監(jiān)督分類方法所得出的實驗結(jié)果較為理想。但若將此類方法直接運用于不同領(lǐng)域的文本,其效果卻不能令人滿意。在這種情況下,利用已標注情感傾向性的源領(lǐng)域文本去判斷未知情感傾向性的目標領(lǐng)域文本的傾向性,即跨領(lǐng)域的情感傾向性分析,或許可以成為一種可行的解決方案[43]。
再比如輿情主題分類方面,前文已述及,談國新等將輿情信息主題分為生存危機、分配差距、腐敗現(xiàn)象、公共安全、時事政治和公共治理等,但并未涉及客觀分類標準,且主題之間也存在相互重疊的現(xiàn)象。
總體而言,對互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)在輿情研判領(lǐng)域的效果進行評測,缺少得到廣泛認同的數(shù)據(jù)集合。雖然這些技術(shù)最終的效用還需要在輿情研判實際工作中加以檢驗,但依據(jù)統(tǒng)一的評價標準,可以有助于學(xué)術(shù)界不斷提升相應(yīng)算法的性能和效果。
(四)指標體系方面
科學(xué)的網(wǎng)絡(luò)輿情指標體系有助于形成網(wǎng)絡(luò)輿情監(jiān)測、評估和預(yù)警的量化系統(tǒng),最大可能地發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)的效用,可以推進對網(wǎng)絡(luò)輿情的管控和治理工作。但是,在目前網(wǎng)絡(luò)輿情指標體系的構(gòu)建中,還存在著諸多影響互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮的因素。
首先,網(wǎng)絡(luò)輿情權(quán)重確定方法和模型無法完全排除主觀因素的干擾。在網(wǎng)絡(luò)輿情指標量化研究中,只能將主觀因素最小化,尚且沒有方法可以將其完全排除,這就對輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的效用發(fā)揮造成了影響。
其次,尚未形成完整系統(tǒng)的網(wǎng)絡(luò)輿情指標體系。網(wǎng)絡(luò)輿情研判工作過程涉及從網(wǎng)絡(luò)輿情信息匯集到網(wǎng)絡(luò)輿情信息分析等環(huán)節(jié),涵蓋了從網(wǎng)絡(luò)輿情監(jiān)測到網(wǎng)絡(luò)輿情安全評估,并進行預(yù)警的完整科學(xué)流程。但是,目前還未有指標體系可以全面涵蓋此流程,多數(shù)研究集中在網(wǎng)絡(luò)輿情預(yù)警及監(jiān)測指標體系和網(wǎng)絡(luò)輿情安全評估指標體系方面,而對于網(wǎng)絡(luò)輿情匯集和分析機制的具體量化指標的相關(guān)研究較少,致使網(wǎng)絡(luò)輿情指標體系未能形成一個完整的系統(tǒng)研究。缺乏系統(tǒng)化、全生命周期的網(wǎng)絡(luò)輿情指標體系,同樣影響了互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用[44]。
四、提升互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中效用的策略
網(wǎng)絡(luò)輿情監(jiān)測分析技術(shù)隨著網(wǎng)絡(luò)應(yīng)用的更新?lián)Q代而不斷推陳出新。以網(wǎng)絡(luò)輿情數(shù)據(jù)源為例,最早的數(shù)據(jù)僅有網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)論壇等傳統(tǒng)應(yīng)用,之后又出現(xiàn)了博客、維基、聚合新聞等新形態(tài)的信息交互模式,信息獲取技術(shù)也從早期的靜態(tài)頁面信息獲取過渡到動態(tài)數(shù)據(jù)獲取[45]。與此同時,信息分析技術(shù)也在不斷改進,數(shù)據(jù)挖掘、模擬仿真和文本挖掘等技術(shù)的不斷革新,使網(wǎng)絡(luò)輿情研究呈現(xiàn)細粒度和語義化發(fā)展趨勢[46]。
然而,從現(xiàn)有的實踐來看,一方面,基于內(nèi)容挖掘的輿情監(jiān)測分析方法受限于當前語義分析技術(shù)的精確度和速率,語義支持的缺失仍然是普遍存在的問題?,F(xiàn)有技術(shù)難以有效地處理復(fù)雜的人類語言和不斷變化的網(wǎng)絡(luò)語言,而且對大規(guī)模數(shù)據(jù)分析的支持也較弱[47],這些因素都影響了互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判任務(wù)中的效用發(fā)揮。而通過分析輿情參與者的網(wǎng)絡(luò)結(jié)構(gòu)和關(guān)聯(lián)來探尋網(wǎng)絡(luò)輿情的發(fā)展規(guī)律,如果僅依賴于公開的互聯(lián)網(wǎng)數(shù)據(jù),又會受制于數(shù)據(jù)完整性等方面的影響,這些因素都會影響互聯(lián)網(wǎng)數(shù)據(jù)效用的提升。另一方面,輿情研判的困境根本上還是由于復(fù)雜社會系統(tǒng)建模的困難性導(dǎo)致的。為了有效地解決復(fù)雜社會系統(tǒng)的建模問題,學(xué)術(shù)界引入了人工社會的概念[48],并在理論和應(yīng)用上都取得了一定研究成果。但目前還存在著許多難點,使其限于特定領(lǐng)域的小規(guī)模模擬,無法滿足對復(fù)雜社會系統(tǒng)的全方位模擬需求。
此外,在當前輿情監(jiān)控系統(tǒng)中,輿情應(yīng)對的策略最終是由人制定的,缺少智能化的決策機制。雖然可以從數(shù)據(jù)采集和清洗模塊、數(shù)據(jù)分析模塊和決策支持三大模塊來構(gòu)建輿情分析和決策支持系統(tǒng),且也有研究者提出在輿情監(jiān)測模型中整合決策支持模塊作為決策輔助工具[49-50],但這些工作并不能自主生成決策策略,無法在更深層次上將人的主導(dǎo)作用與技術(shù)的輔助功能進行互動耦合,也就無法通過不斷優(yōu)化來提升互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用發(fā)揮。
基于以上原因,可以認為無論是單純地提升互聯(lián)網(wǎng)數(shù)據(jù)的效用還是提升輿情研判能力,都需要在現(xiàn)有方法之外,尋求各領(lǐng)域研究成果的有效結(jié)合。而大數(shù)據(jù)和計算實驗領(lǐng)域的研究成果能夠提升輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的效用發(fā)揮,并能夠提升輿情研判能力。
(一)基于大數(shù)據(jù)分析技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)在體量、復(fù)雜性和產(chǎn)生速度等方面發(fā)生了巨大變化?;ヂ?lián)網(wǎng)的開放性使得網(wǎng)絡(luò)輿情的數(shù)據(jù)規(guī)模急速增長,多媒體的發(fā)展使網(wǎng)絡(luò)輿情的數(shù)據(jù)形態(tài)包括了文本、圖片、音頻和視頻等,呈現(xiàn)出多樣性特征。此外,各種觀點互動頻繁,輿論多元且多樣,網(wǎng)絡(luò)輿情變化快速。各種因素共同作用,使得網(wǎng)絡(luò)輿情數(shù)據(jù)越來越呈現(xiàn)出大數(shù)據(jù)特征[51]。
Science雜志在2011年推出關(guān)于數(shù)據(jù)處理的??癉ealing with Data”[52],其中特別指出,大數(shù)據(jù)中蘊含著海量信息、知識和智慧,借助有效組織和使用大數(shù)據(jù)的工具和技術(shù),將會極大提升人類的決策能力[53]。毋庸置疑,輿情研判工作也需要在大數(shù)據(jù)分析的思路下有所創(chuàng)新。需要注意的是,這里的大數(shù)據(jù),并不僅僅局限于傳統(tǒng)輿情研判工作所直接關(guān)注的互聯(lián)網(wǎng)數(shù)據(jù),而是包含了人類社會中各領(lǐng)域、各來源和各模式的數(shù)據(jù)。
大數(shù)據(jù)分析技術(shù)對于互聯(lián)網(wǎng)數(shù)據(jù)效用的提升,關(guān)鍵在于對互聯(lián)網(wǎng)數(shù)據(jù)之間的關(guān)系進行識別。為了對網(wǎng)絡(luò)輿情進行研判,需要匯集海量的互聯(lián)網(wǎng)數(shù)據(jù),這些數(shù)據(jù)涉及到人類社會生活的各個方面,是對人類現(xiàn)實社會的一個投影。在輿情研判工作中,需要處理的是由人類社會這個開放復(fù)雜的巨系統(tǒng)所產(chǎn)生的超大規(guī)模數(shù)據(jù)。但是,面對極大量的數(shù)據(jù),傳統(tǒng)的因果分析往往難以奏效。因為整個系統(tǒng)中各個組成部分之間相互有影響,甚至可能互為因果,因果關(guān)系隱藏在整個系統(tǒng)之中。而與傳統(tǒng)的邏輯推理研究有所不同,大數(shù)據(jù)研究主要側(cè)重于對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計性的搜索、比較、聚類和分類等分析歸納,更多的是關(guān)注數(shù)據(jù)之間的相關(guān)性或稱關(guān)聯(lián)性,大數(shù)據(jù)研究的目的即為尋找數(shù)據(jù)集合里隱藏的相關(guān)關(guān)系。比如將用戶職業(yè)數(shù)據(jù)、地域數(shù)據(jù)、年齡數(shù)據(jù)、專注領(lǐng)域等和社會網(wǎng)絡(luò)數(shù)據(jù)加以結(jié)合,把搜索數(shù)據(jù)、點擊數(shù)據(jù)、人際關(guān)系數(shù)據(jù)、網(wǎng)民個人特征數(shù)據(jù)、相關(guān)社會數(shù)據(jù)等進行關(guān)聯(lián),不僅可以分析出不同的輿情熱點在哪些職業(yè)、哪些地域、哪些年領(lǐng)段、哪些團體中傳播廣泛,深度挖掘出有價值的輿情,還有助于對復(fù)雜社會系統(tǒng)進行更細致的描述和建模。
互聯(lián)網(wǎng)數(shù)據(jù)中記錄的網(wǎng)民言論信息直接呈現(xiàn)出網(wǎng)民的態(tài)度和意見;搜索引擎服務(wù)器端的日志數(shù)據(jù),可以反映網(wǎng)民的搜索熱點;網(wǎng)絡(luò)社區(qū)中的人際關(guān)系數(shù)據(jù)能夠描述用戶構(gòu)成的社會化網(wǎng)絡(luò);用戶之間互相轉(zhuǎn)發(fā)和評論帖文所形成的轉(zhuǎn)發(fā)量和評論量數(shù)據(jù),可以反映帖文的重要程度等。這些數(shù)據(jù)雖然不是直接的網(wǎng)絡(luò)輿情內(nèi)容,卻也從側(cè)面客觀反映了網(wǎng)民的關(guān)注熱點、輿情主體之間的關(guān)系等,對這些數(shù)據(jù)加以整合,可以提升數(shù)據(jù)效用的發(fā)揮。
目前,基于大數(shù)據(jù)輿情研究還處于探索階段,諸多相關(guān)處理技術(shù)還未形成統(tǒng)一模式。有研究者通過對已有輿情預(yù)警系統(tǒng)模型的歸納并結(jié)合大數(shù)據(jù)處理相關(guān)技術(shù)和決策支持系統(tǒng)相關(guān)理論,提出將大數(shù)據(jù)輿情分析與決策支持流程劃分為數(shù)據(jù)搜集與存儲、數(shù)據(jù)分析和決策支持三個模塊,其中數(shù)據(jù)搜集與存儲和數(shù)據(jù)分析模塊在原有的輿情分析系統(tǒng)基礎(chǔ)上增加了大數(shù)據(jù)存儲和分析技術(shù),在決策支持模塊增加了專家知識庫[54]。利用該模型,不僅可以從數(shù)據(jù)挖掘和分析的視角來使用大數(shù)據(jù),以助力輿情研判工作,還可以在輿情處理中整合專家知識庫,將大數(shù)據(jù)分析與輿情研判人員的經(jīng)驗相結(jié)合,實現(xiàn)輿情研判人員的主導(dǎo)作用與技術(shù)輔助功能的互動耦合,即實現(xiàn)人與機器的良性互動機制,從而提升互聯(lián)網(wǎng)數(shù)據(jù)的效用。當然,在實踐中還需要不斷對人與機器的互動機制進行優(yōu)化和創(chuàng)新,以更好地發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用。
從現(xiàn)有的實踐來看,由于受限于當前語義分析技術(shù)的精確度和速率,語義支持的缺失仍然是普遍存在的問題,同時對大規(guī)模數(shù)據(jù)分析的支持也較弱。因此,要不斷創(chuàng)新網(wǎng)絡(luò)輿情大數(shù)據(jù)分析思路,借助大數(shù)據(jù)技術(shù)使輿情研究的視角更加多元化[55]。一是繞開語義分析的技術(shù)瓶頸,以大數(shù)據(jù)分析的視角,增強互聯(lián)網(wǎng)數(shù)據(jù)中結(jié)構(gòu)信息和其他元數(shù)據(jù)的使用;二是突破抽樣分析的思維,用大數(shù)據(jù)方法分析收集到的全體數(shù)據(jù);三是將搜索數(shù)據(jù)、點擊數(shù)據(jù)、人際關(guān)系數(shù)據(jù)、網(wǎng)民個人特征數(shù)據(jù)、相關(guān)社會數(shù)據(jù)等關(guān)聯(lián)起來進行分析,深度挖掘出有價值的輿情。只有這樣,才能從單向度的內(nèi)容研究轉(zhuǎn)向“內(nèi)容+關(guān)系”的多維度研究,改變僅注意網(wǎng)民話語表達的單向度研究視角,在話語這類外在社會表達的淺表層面以外,進一步分析網(wǎng)民群體的社會行為、社會心理和社會訴求。
(二)基于計算實驗技術(shù)
計算實驗是計算機仿真進一步發(fā)展的必然結(jié)果,但卻是由代理計算人工社會方法的出現(xiàn)和復(fù)雜系統(tǒng)研究的需要而引發(fā)和催生的。計算實驗方法不僅僅是把計算機簡單地作為一種仿真工具,而是把它作為“生長培育”自然實際系統(tǒng)的替代版本的“實驗室”,并進行各類有關(guān)系統(tǒng)行為和決策分析的“試驗”[56]。從宏觀角度看,基于多源多維的大數(shù)據(jù),利用計算實驗方法來構(gòu)建輿情事件發(fā)生、發(fā)展、轉(zhuǎn)化和演變的“情景”,仍然是解決輿情研判任務(wù)中各種困難的重要途徑。對以仿真為核心的、以實時監(jiān)測數(shù)據(jù)為驅(qū)動源的計算實驗展開研究,并通過信息網(wǎng)絡(luò)獲取實時監(jiān)測數(shù)據(jù),利用建模仿真工具和其它分析工具進行預(yù)測和分析,以輔助輿情研判工作,無疑是一條提升互聯(lián)網(wǎng)數(shù)據(jù)效用的科學(xué)路徑。在此過程中還可以利用海量的歷史數(shù)據(jù),對計算實驗中的具體參與實體和仿真機制本身進行模擬和驗證。
在大數(shù)據(jù)的支撐下,可以構(gòu)建開放式、可擴展的模擬仿真環(huán)境,提供基礎(chǔ)的自然、社會與人文環(huán)境的標準化建模支持,以實現(xiàn)輿情事件全過程的動態(tài)建模;可以自動獲取社交媒體等互聯(lián)網(wǎng)數(shù)據(jù)與其它多源異構(gòu)數(shù)據(jù),實現(xiàn)人工社會與真實事件系統(tǒng)的交互與協(xié)同演化[57];能夠提供基于模擬仿真平臺的綜合集成研討支持,實現(xiàn)通過對多種涌現(xiàn)過程與結(jié)果的研判。這些都將為輿情研判提供更有力的輔助,也更有利于互聯(lián)網(wǎng)數(shù)據(jù)效用的發(fā)揮。
此外,網(wǎng)絡(luò)輿情研究主要由社會科學(xué)領(lǐng)域的學(xué)者和計算機以及信息管理系統(tǒng)領(lǐng)域的學(xué)者所主導(dǎo),這些研究人員分別根據(jù)自己的理論基礎(chǔ)和研究背景開展研究??傮w上看,長期跟蹤研究和實證研究較少。如果能夠加強社會科學(xué)領(lǐng)域?qū)W者和計算機以及信息管理系統(tǒng)領(lǐng)域?qū)W者的交流與合作,也將有助于促進理論研究和應(yīng)用研究的融合。
五、結(jié)束語
互聯(lián)網(wǎng)上日益增多的數(shù)據(jù)為輿情研判工作提供了更多參考。然而,受限于數(shù)據(jù)處理技術(shù)和輿情研判思路等方面的因素,互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判工作中尚未充分發(fā)揮其效用,且目前專注于解決此問題的研究工作仍很缺乏。本文從輿情研判角度出發(fā),研究互聯(lián)網(wǎng)數(shù)據(jù)的效用發(fā)揮問題,對輿情研判中互聯(lián)網(wǎng)數(shù)據(jù)的使用情況進行了介紹與分析,從互聯(lián)網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)噪聲處理、數(shù)據(jù)分析和指標體系等方面對影響互聯(lián)網(wǎng)數(shù)據(jù)效用發(fā)揮的制約因素進行了論述。提出了使用大數(shù)據(jù)分析技術(shù)和計算試驗技術(shù)提升互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中效用的策略,強調(diào)在實際操作中應(yīng)注重輿情研判人員的主導(dǎo)作用與技術(shù)輔助功能的互動耦合,即實現(xiàn)人與機器的良性互動機制,并通過不斷對其進行優(yōu)化和創(chuàng)新來促進互聯(lián)網(wǎng)數(shù)據(jù)效用的提升,為輿情研判工作中充分發(fā)揮互聯(lián)網(wǎng)數(shù)據(jù)的效用提供了可借鑒的理論和方法。
利用互聯(lián)網(wǎng)數(shù)據(jù)開展輿情研判工作已成為現(xiàn)階段國家治理、政府治理和社會治理的重要工作,也是網(wǎng)絡(luò)空間治理的基礎(chǔ)性工作,且是其中的重要環(huán)節(jié)。在我國主張并致力于構(gòu)建公正合理的全球互聯(lián)網(wǎng)治理體系之際,對互聯(lián)網(wǎng)數(shù)據(jù)在輿情研判中的效用進行研究,對于建立一個安全、和諧的網(wǎng)絡(luò)秩序具有重要的理論和實踐意義。本文的研究有益于推進我國網(wǎng)絡(luò)空間治理新體系的構(gòu)建,有益于推進網(wǎng)絡(luò)強國戰(zhàn)略的實施,可以為構(gòu)建公正合理的全球互聯(lián)網(wǎng)治理體系做出積極的貢獻。
參考文獻:
[1]王來華, 林竹, 畢宏音. 對輿情、民意和輿論三概念異同的初步辨析[J]. 新視野, 2004(5):64-66.
[2]魏麗萍. 網(wǎng)絡(luò)輿情形成機制的進化博弈論啟示[J]. 新聞與傳播研究, 2010(6): 29-38.
[3]易承志. 群體性突發(fā)事件網(wǎng)絡(luò)輿情的演變機制分析[J]. 情報雜志, 2011, 30(12): 6-12.
[4]曾潤喜. 網(wǎng)絡(luò)輿情管控工作機制研究[J]. 圖書情報工作, 2009, 53(18): 79-82.
[5]曾潤喜, 徐曉林. 網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標與機制[J]. 情報雜志, 2009, 28(11): 52-54.
[6]肖文濤, 范達超. 網(wǎng)絡(luò)輿情事件的引導(dǎo)策略探究[J]. 中國行政管理, 2011(12): 24-28.
[7]劉毅. 內(nèi)容分析法在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 天津大學(xué)學(xué)報:社會科學(xué)版, 2006, 8(4): 307-310.
[8]謝海光, 陳中潤. 互聯(lián)網(wǎng)內(nèi)容及輿情深度分析模式[J]. 中國青年政治學(xué)院學(xué)報, 2006, 25(3): 95-100.
[9]楊超, 馮時, 王大玲等. 基于情感詞典擴展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J]. 小型微型計算機系統(tǒng), 2010, 31(4): 691-695.
[10]王君澤, 曾潤喜, 杜洪濤. 基于網(wǎng)頁轉(zhuǎn)載關(guān)系判別的網(wǎng)絡(luò)輿情傳播態(tài)勢分析[J]. 情報雜志, 2015, 34(1): 144-149.
[11]王君澤, 王雅蕾, 禹航等. 微博客意見領(lǐng)袖識別模型研究[J]. 新聞與傳播研究, 2011(6): 81-88.
[12]李綱, 甘停, 寇廣增. 基于文本情感分類的網(wǎng)絡(luò)推手識別[J]. 圖書情報工作, 2010, 54(8): 77-80.
[13]康偉.基于SNA的突發(fā)事件網(wǎng)絡(luò)輿情關(guān)鍵節(jié)點識別——以“7·23動車事故”為例[J].公共管理學(xué)報,2012,9(3): 101-111.
[14]黃曉斌, 趙超. 文本挖掘在網(wǎng)絡(luò)輿情信息分析中的應(yīng)用[J]. 情報科學(xué), 2009(1):94-99.
[15]李光敏, 張行文, 張磊等. 面向網(wǎng)絡(luò)輿情的評論文本情感分析研究[J]. 情報雜志, 2014, 33(5): 157-160.
[16]劉志明, 劉魯. 微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J]. 系統(tǒng)工程, 2011(6): 8-16.
[17]沈陽, 劉朝陽, 蘆何秋等. 微公益?zhèn)鞑サ膭訂T模式研究[J]. 新聞與傳播研究, 2013(3): 96-111.
[18]王偉, 許鑫. 基于聚類的網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)及分析[J]. 現(xiàn)代圖書情報技術(shù), 2009(3): 74-79.
[19]許笑, 張偉哲, 張宏莉等. 廣域網(wǎng)分布式Web爬蟲[J]. 軟件學(xué)報, 2010, 21(5): 1067-1082.
[20]周立柱, 林玲. 聚焦爬蟲技術(shù)研究綜述[J]. 計算機應(yīng)用, 2005, 25(9): 1965-1969.
[21]談國新, 方一. 突發(fā)公共事件網(wǎng)絡(luò)輿情監(jiān)測指標體系研究[J]. 華中師范大學(xué)學(xué)報(人文社會科學(xué)版), 2010, 49(3): 66-70.
[22]石彭輝. 基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情實證研究[J]. 現(xiàn)代情報, 2013, 33(2): 27-31.
[23]曾潤喜. 我國網(wǎng)絡(luò)輿情研究與發(fā)展現(xiàn)狀分析[J]. 圖書館學(xué)研究, 2009(8):2-6.
[24]張玉峰, 何超. 基于Web挖掘的網(wǎng)絡(luò)輿情智能分析研究[J]. 情報理論與實踐, 2011, 34(4): 64-68.
[25]康偉. 突發(fā)事件輿情傳播的社會網(wǎng)絡(luò)結(jié)構(gòu)測度與分析——基于“11·16 校車事故”的實證研究[J]. 中國軟科學(xué), 2012(7): 169-178.
[26]李卓卓, 丁子涵. 基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿論領(lǐng)袖發(fā)掘——以大學(xué)生就業(yè)輿情為例[J]. 情報雜志, 2011, 30(11): 67-70.
[27]張素蘭, 郭平, 張繼福等. 圖像語義自動標注及其粒度分析方法[J]. 自動化學(xué)報, 2012, 38(5): 688-697.
[28]白亮, 劉海濤, 老松楊等. 基于本體的視頻語義內(nèi)容分析[J]. 計算機科學(xué), 2009, 36(7): 170-174.
[29]董亞倩, 鄧尚民. 基于社會網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿情主體挖掘研究[J]. 情報資料工作, 2011(6): 45-49.
[30]蘇楠, 張璇, 楊紅崗,等. 基于知識圖譜的國內(nèi)網(wǎng)絡(luò)輿情研究可視化分析[J]. 情報雜志, 2012(10):42-47.
[31]陳斯杰. 基于用戶視角的科技信息服務(wù)網(wǎng)站影響力評估研究[D]. 南京理工大學(xué), 2009.
[32]郭巖, 劉春陽, 余智華, 等. 網(wǎng)絡(luò)輿情信息源影響力的評估研究[J]. 中文信息學(xué)報, 2011, 25(3): 64-71.
[33]Wang J, Yan Z, Yang L T, et al. An approach to rank reviews by fusing and mining opinions based on review pertinence[J]. Information Fusion, 2015, 23(3): 3-15.
[34]丁波濤. 國外開源情報工作的發(fā)展與我國的對策研究[J]. 情報資料工作, 2011(6): 103-106.
[35]曾鴻. 競爭情報與信息甄別[J]. 圖書館理論與實踐, 2006(4): 40-42.
[36]張紫瓊, 葉強, 李一軍. 互聯(lián)網(wǎng)商品評論情感分析研究綜述[J]. 管理科學(xué)學(xué)報, 2010, 13(6): 84-96.
[37]崔曉玲. 基于漢語網(wǎng)絡(luò)新聞評論的情感語料庫標注研究[J]. 北京郵電大學(xué)學(xué)報(社會科學(xué)版), 2013(6): 21-29.
[38]Kim M,Hovy E. Crystal: Analyzing predictive opinions on the web[C]. // Proc. of the Joint Conf.on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007:1056-1064.
[39]Lin H,Wilson T,Wiebe J. Which side are you on? Identifying perspectives at the document and sentence levels[C]. // Proc. of the Conf. on Natural Language Learning, 2006: 109-116.
[40]張玉峰, 王志芳. 基于內(nèi)容相似性的論壇用戶社會網(wǎng)絡(luò)挖掘[J]. 情報雜志, 2010, 29(8): 125-130.
[41]高承實, 榮星, 陳越. 微博輿情監(jiān)測指標體系研究[J]. 情報雜志, 2011, 30(9):66-70.
[42]Athanaselis T, Bakamidis S, Dologlou I. Recognizing verbal content of emotionally colored speech[C]. // European Signal Processing Conference,2006.
[43]呂韶華, 楊亮, 林鴻飛. 基于SimRank的跨領(lǐng)域情感傾向性分析算法研究[J]. 中文信息學(xué)報, 2012, 26(6): 38-44.
[44]曾潤喜, 杜換霞, 王君澤. 網(wǎng)絡(luò)輿情指標體系、方法與模型比較研究[J]. 情報雜志, 2014(4): 96-101.
[45]許鑫, 章成志, 李雯靜. 國內(nèi)網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 情報理論與實踐, 2009, 32(3):115-120.
[46]李綱, 陳璟浩. 突發(fā)公共事件網(wǎng)絡(luò)輿情研究綜述[J]. 圖書情報知識, 2014(2):111-119.
[47]李廣建, 楊林. 大數(shù)據(jù)視角下的情報研究與情報研究技術(shù)[J]. 圖書與情報, 2012(6): 1-8.
[48]Epstein J M, Axtell R. Growing artificial societies: social science from the bottom up[J]. MIT Press Books, 1996, 1(99): 113-116(4).
[49]Cao F, Zhan Z, Jing Y, et al. A model of ecological monitoring and response system for Internet public opinion[J]. International Journal of Multimedia & Ubiquitous Engineering, 2014, 9(5):373-390.
[50]Jie, Ding, Jungang, Xu. Ipoms: An Internet public opinion monitoring system[J]. Applications of Digital Information & Web Technologies, 2009(1): 433-437.
[51]唐濤. 基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析方法研究[J]. 現(xiàn)代情報, 2014, 34(3):3-6,11.
[52]Los W, Wood J. Dealing with data: upgrading infrastructure[J]. Science, 2011, 331(6024): 1515-1516.
[53]李國杰, 程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國科學(xué)院院刊, 2012, 27(6): 647-657.
[54]夏火松, 甄化春. 大數(shù)據(jù)環(huán)境下輿情分析與決策支持研究文獻綜述[J]. 情報雜志, 2015(2):1-6.
[55]李彪. 大數(shù)據(jù)視域下社會輿情研究的新境界[J]. 編輯之友, 2013(6):13-15.
[56]王飛躍. 計算實驗方法與復(fù)雜系統(tǒng)行為分析和決策評估[J]. 系統(tǒng)仿真學(xué)報, 2004, 16(5): 893-897.
[57]王飛躍, 邱曉剛, 曾大軍等. 基于平行系統(tǒng)的非常規(guī)突發(fā)事件計算實驗平臺研究[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2010, 7(4): 1-10.
(本文責編:王延芳)
Effectiveness of Internet Data in the Public Opinion Analysis Task
DU Hong-tao1, MENG Qing-guo1, WANG Jun-ze2
(1.SchoolofPublicPolicyandManagement,TsinghuaUniversity,Beijing100084,China;2.SchoolofPublicAdministration,HuazhongUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:The data on Internet is very useful for the public opinion analysis task. However, due to the massive amounts and the multi-source heterogeneous characteristics, and the noise data on the Internet, current Internet data processing techniques didn’t perform well. This situation has severely hampered the data on the Internet to play its effect. Big data analysis and computational experiments technologies can enhance the effectiveness of Internet data in the public opinion analysis task. In practice, we should pay more attention to the interaction between the leading role of human and assistive technologies.
Key words:online public opinion; public opinion analysis; Internet data; Web data mining; effectiveness analysis
中圖分類號:G353.12
文獻標識碼:A
文章編號:1002-9753(2016)04-0034-11
作者簡介:杜洪濤(1979-),男,山東高密人,清華大學(xué)公共管理學(xué)院助理研究員,博士,研究方向:互聯(lián)網(wǎng)治理、網(wǎng)絡(luò)輿情與公共政策。
基金項目:國家社會科學(xué)基金重大項目“意識形態(tài)視域下的網(wǎng)絡(luò)文化安全治理研究”(批準號:15ZDA039);國家社會科學(xué)基金特別委托項目“大數(shù)據(jù)治國戰(zhàn)略研究”(批準號:15@ZH012);中國博士后科學(xué)基金資助項目“面向輿情預(yù)警的微博社區(qū)潛在熱點信息識別研究”(資助編號:2015M570123)。
收稿日期:2015-11-08修回日期:2016-03-16