郭 巖,劉春陽,余智華,張 瑾,戴 媛
(1. 中國科學院計算技術研究所, 網絡重點實驗室, 北京 100190;2. 國家計算機網絡應急技術處理協調中心,北京 100029)
網絡輿情的傳播是一把“雙刃劍”。近年來,網絡輿情信息的分析和利用越來越受到相關研究人員的高度關注。網絡輿情的傳播途徑有很多,最主要的三大輿情通道是新聞、論壇和博客。本文中,輿情信息源主要包括新聞網站、新聞頻道、論壇網站、論壇版塊、博客托管網站、博客。輿情信息源如雨后春筍,繁雜多樣。來自這些信息源的海量信息給輿情信息處理帶來了巨大的挑戰(zhàn)。實際上,網絡輿情信息源良莠不齊。如果在網絡輿情分析時,能夠重點關注價值較大的網絡信息源傳播的信息,則將為輿情信息處理帶來事半功倍的效果。也就是說,如果我們能夠對網絡輿情信息源做出客觀而準確的評價,則對進一步的網絡輿情信息分析能夠具有重要的指導意義。對網絡信息源的評價有各種不同的方法、指標,本文將從影響力方面對網絡信息源進行評價。這是因為,影響力是指信息源在互聯網中傳播輿情的能力。影響力越大,其傳播的輿情信息的價值可能就越大,該信息源就越值得關注、甚至需要監(jiān)管。
目前,已有不少對網站影響力的評價工作。國內外的網站影響力評價方法主要有兩種: 定性方法和定量方法。當前大多數的影響力評價的研究都是使用定量的方法: 即基于網絡計量學的角度,通過入鏈接數、出鏈接數、網絡影響因子、網站的訪問量等一些可量化的指標來對網站影響力進行評價分析[1]。但是,據我們所知,幾乎沒有專門對網絡輿情信息源影響力的評價工作。
我們認為,輿情信息源影響的發(fā)出者是信息源,收受者是網民。信息源通過發(fā)布信息、轉載(引用)信息等方式向網民傳播輿情信息。同時,網民通過發(fā)表文章、點擊、回復等方式表達對各種輿情信息的感興趣程度,這些方式也隱含了網民被信息源影響的程度。因此,在評價網絡輿情信息源影響力時,首先要考慮信息源的自身表現力。該表現力通過發(fā)表文章的頻率體現。另外,網絡輿情是指由于各種事件的刺激而產生的通過互聯網傳播的人們對于該事件的所有認知、態(tài)度、情感和行為傾向的集合[2]。可以看到,網民作為輿情信息源影響的接收者,在網絡輿情傳播中占有非常重要的地位。因此,我們在評價影響力時,還要考慮網民對信息源的關注度。而這個關注度可以從信息源發(fā)布信息的頻率,以及網民對信息的點擊頻率、回復頻率中得以體現。最后,網絡信息源作為第四媒體,同行間的關注度也隱含了對信息源影響力的評價。因此,我們還要考慮媒體的關注度。而這種關注度則體現在信息源之間對于信息的轉載和被轉載關系中。轉載和被轉載說明了對有價值的信息的繼承與利用。重要度越高的信息源,其信息被轉載的數量越大;反之,亦然。
基于以上分析,利用層次分析法并結合專家打分,我們構建了網絡信息源影響力的評估模型,通過信息源表現力指標、網民關注度指標和媒體關注度指標等多個指標對影響力進行評估。值得一提的是,我們將借鑒經典的網絡鏈接算法PageRank計算媒體關注度指標。
文獻[1, 3-4]對網站影響力的評價方法做了較全面的闡述。網站影響力的評價方法可以分為定性和定量兩種。定性的評價方法主要有問卷調查法和效益評價。定量的方法則是基于網絡計量學的角度,通過一些可量化的指標來對網站影響力進行評價分析。
國內外對網站影響力評價的研究工作大多數是通過定量的方法,利用相關工具獲得實驗數據,然后通過網絡計量學的研究方法對影響力進行測評。定量的評價方法主要有:
? 鏈接分析: 超文本鏈接是互聯網的重要特征,任意兩個網頁都可以建立鏈接。站點B建立了與站點A的鏈接,證明站點B認為站點A質量高,站點A對站點B產生了影響力。一個站點被鏈接的次數越多,證明該站點影響越大。鏈接分析法就是基于站點的被鏈接次數來評價其影響力。以鏈接分析為基礎,并借鑒期刊影響因子的計算方法,Ingwersen于1998年提出了網絡影響因子的概念[5-6]。它的計算方法是用網絡空間中所有指向某網站的超鏈接總數除以該網站內的所有頁面總數。網絡影響因子越高,網絡影響力就越大。
? 流量分析: 在網絡營銷學中,網站流量泛指網站的訪問量,可用一個網站一段時間內訪問者的數量、訪問者所瀏覽的網頁的點擊率和平均停留時間等指標來描述[7]。用戶對網站的訪問量大,說明該網站蘊含的信息價值高,對網民的吸引力高。因此網站的訪問量可以作為評價網站影響力的一個較為客觀的指標。
網站影響力的評估指標已經有很多,可以歸納為流量指標、網絡鏈接指標和可見度指標。一些研究者針對特定領域的網站特點,制定了該領域網站的影響力評價指標。文獻[1, 3-4]對科技信息服務網站的影響力評價進行了研究。文獻[8]對中、美兩國部分綜合實力排名靠前的醫(yī)院網站的網絡影響力進行測度和分析。文獻[9]研究了中國重點大學網絡影響力的評價。文獻[10]對中外企業(yè)網站的網絡影響力進行了評價。
網絡輿情信息源的影響力有其獨特之處,直接套用已有指標去評價它是不盡合理的。淘寶網就是一個很好的例子,現有的流量指標、網絡鏈接指標和可見度指標都會把淘寶網排在一個非??壳暗奈恢茫欢渥鰹榫W絡輿情信息源的影響力并不高。因此需要針對網絡輿情信息源影響力獨有的特點,制定客觀、準確的評價指標。但是,據我們所知,目前在網絡輿情信息源的影響力評價方面尚無相關的研究工作。
PageRank算法[11-12]是Stanford大學研究人員開發(fā)的Google搜索引擎的頁面質量評價算法。該算法則基于網絡圖上的拓撲結構,計算網頁的重要度。算法基于這樣的假設: 1)被越多網頁鏈接到的網頁越重要;2)被越重要的網頁鏈接到的網頁越重要。
我們將借鑒PageRank算法的思路,計算網絡信息源的媒體關注度。與PageRank的主要不同之處在于,我們并不基于網頁間的超鏈接構成網絡圖,而是基于網站之間的信息轉載關系構成網絡圖。
期刊影響因子是表征期刊影響大小的一項定量指標,是一個國際上通行的期刊評價指標。它的計算方法是: 某期刊前兩年發(fā)表的論文在統(tǒng)計當年的被引用總次數除以該期刊在前兩年內發(fā)表的論文總數[13]。
近幾年,不少研究者[14]借鑒網頁排名算法Page-Rank的思路,基于期刊之間的引用關系構成網絡圖。并基于網絡圖上的拓撲結構對期刊的重要度進行排名。這種評價方法不但考慮了期刊被引用的次數,還區(qū)分了引用期刊的重要性,與影響因子單純考慮期刊被引用次數相比較,更為合理些。
我們在計算信息源的媒體關注度時,也借鑒了PageRank的思路,但是和期刊評價中的網絡圖的構成不同,我們是基于網站之間的信息轉載關系構成網絡圖。另外,我們將網站之間對信息的轉載關系類比成期刊之間的論文引用關系,參考期刊的影響因子的計算思路,基于轉載數計算網絡圖中邊的權重。但計算方法和期刊的影響因子不同。
層次分析法AHP(The Analytic Hierarchy Process)理論是美國著名運籌學家T.L.Saaty于1980年在他的著作《層次分析法》中確立的,是一種多準則的決策方法,是系統(tǒng)工程中對非定量事件作定量分析處理的一種簡便方法。它把一個復雜的問題表示為有序的遞階層次結構,將人的主觀判斷用數量形式加以表示和處理,通過人們的判斷對決策方案的優(yōu)劣進行排序。這種方法能夠將決策中的定性與定量因素統(tǒng)一處理,具有實用性、系統(tǒng)性、簡潔性等優(yōu)點,特別適用于在社會經濟系統(tǒng)的決策分析中使用。在指標體系研究中,層次分析法是常用的一種指標權重的確定方法。層次分析法有其一般步驟[15]。我們將采用層次分析法,按照信息源表現力、網民關注度、媒體關注度等指標的層次結構,構建網絡輿情信息源影響力評估體系。
根據對網絡輿情、網絡輿情信息源、網絡輿情信息源影響力等概念的深入研究,我們構建了網絡輿情信息源評估指標體系。這里需要說明的是,我們認為,新聞、論壇、博客這三大輿情通道各有特點,因此在構建指標體系時需要分別對待。表1~3分別展示了新聞、論壇、博客的指標體系中各級指標的層次關系。
表1 網絡新聞信息源影響力指標體系
表2 論壇信息源影響力指標體系
表3 博客信息源影響力指標體系
本節(jié)將詳細描述各級指標的含義和計算方法。
3.2.1 網絡輿情信息源影響力指標
網絡輿情信息源影響力指標描述了網絡輿情信息源在互聯網中傳播輿情的能力。信息源影響力越高,說明其傳播輿情的能力越強。
信息源的影響力首先體現在其自身的表現力中。同時,網民作為信息源影響的接收者,其對信息源傳播的信息的關注度也反映了信息源的影響力。另外,網絡信息源作為第四媒體,同行間的關注度也隱含了對信息源影響力的評價。因此,網絡輿情信息源影響力指標的計算基于信息源表現力指標、網民關注指標和媒體關注度指標。
需要說明的是,我們認為,對于論壇和博客而言,因為信息源中發(fā)表的文章基本都是網民張貼上去的,因此信息源自身的表現力實際上可納入網民關注度中。
3.2.2 信息源表現力指標
信息源表現力指標描述了網絡輿情信息源在傳播網絡信息時的自身表達能力。表現力越強,說明其表達能力越強,其影響力則可能越大。發(fā)表網絡文章是新聞信息源傳播信息的最直接、也是最主要的途徑。因此,信息源表現力指標的計算基于其發(fā)表文章頻率指標。
3.2.3 網民關注度指標
網民關注度指標描述了網民對網絡輿情信息源的關注程度。影響力越大信息源越容易獲得網民的關注度。也就是說,網民的關注度反映了信息源的影響力。
對于新聞而言,網民的關注度隱含在網民對信息源的訪問頻率中,即用戶對信息源發(fā)布信息的點擊頻率。訪問頻率越高,則說明網民的關注度越高。另外,網民對信息源發(fā)布信息的回復頻率則反映了網民的參與程度。網民的參與程度越高,則也反映了網民的關注度越高。因此,新聞信息源的網民關注度指標的計算基于點擊頻率指標和回復頻率指標。
對于論壇和博客而言,網民的關注度隱含在網民發(fā)表文章的頻率、對信息源的訪問頻率和對信息源發(fā)布信息的回復頻率中。發(fā)表文章的頻率越高,說明網民關注度越高。信息源的訪問頻率即為用戶對信息源發(fā)布信息的點擊頻率,訪問頻率越高,則說明網民的關注度越高。網民對信息源發(fā)布信息的回復頻率則反映了網民的參與程度。網民的參與程度越高,則也反映了網民的關注度越高。因此,論壇和博客的信息源的網民關注度指標的計算基于發(fā)表文章頻率、點擊頻率指標和回復頻率指標。
3.2.4 發(fā)表文章頻率指標
發(fā)表文章頻率指標描述了信息源發(fā)布信息的速度。速度越快,說明信息源在傳播信息方面的自身表現力越強。
發(fā)表文章頻率是指網絡輿情信息源在單位時間內發(fā)表文章的頻率。這里,單位時間取分鐘。因此該指標的計算公式如下:
假設t分鐘內,信息源發(fā)表文章數量為P篇,則
發(fā)表文章頻率=P/t
(1)
3.2.5 點擊頻率指標
點擊頻率指標描述了用戶對信息源發(fā)布信息的訪問速度。速度越快,說明發(fā)布的信息越吸引用戶,用戶的關注度越高。
點擊頻率是指網絡輿情信息源在單位時間內用戶對信息源發(fā)布文章的點擊(或稱瀏覽)頻率。這里,單位時間取分鐘。因此該指標的計算公式如下:
假設t分鐘內,信息源發(fā)布文章被用戶點擊的總次數為C次,則
點擊頻率=C/t
(2)
3.2.6 回復頻率指標
回復頻率指標描述了用戶對信息源發(fā)布信息的參與速度。速度越快,說明發(fā)布的信息越吸引用戶,用戶的關注度越高。
回復頻率是指網絡輿情信息源在單位時間內用戶對信息源發(fā)布文章的回復(或稱評論)頻率。這里,單位時間取分鐘。因此該指標的計算公式如下:
假設t分鐘內,信息源發(fā)布文章被用戶回復的總次數為R次,則
回復頻率=R/t
(3)
3.2.7 媒體關注度指標
媒體關注度指標描述了輿情網絡信息源對同行的關注程度。隱含了信息源同行之間對信息源重要度的評價。同行對信息源的關注度越高,其重要度越高。媒體關注度指標的計算基于信息源重要度指標。
3.2.8 信息源重要度指標
信息源重要度指標描述了網絡輿情信息源同行之間對信息源重要度的評價。我們借鑒PageRank的思路,提出算法SrcRank,基于信息源之間的信息轉載關系計算信息源的重要度。
網絡輿情信息源傳播信息的主要方式之一是轉載其他信息源的文章。對一篇文章的轉載,意味著對該文章的推薦。這就類似于網頁鏈接中,對一個網頁的鏈接,意味著對該網頁的鏈接。因此基于信息轉載關系,信息源之間可以構成信息源轉載網絡。盡管信息源轉載網絡與網頁鏈接網絡存在不少差異,但是信息源轉載網絡與網頁鏈接網絡均可看成一個有向圖,有向圖的一個結點代表一個信息源或網頁,節(jié)點間的邊代表信息源的轉載關系或者網頁的鏈接關系。另外,PageRank基于假設: 1)被越多網頁鏈接到的網頁越重要;2)被越重要的網頁鏈接到的網頁越重要。信息源轉載同行發(fā)布的文章,這一行為隱含了對其他信息源的重要度的評價。存在這樣的假設: 1)發(fā)表的文章被同行轉載得越多,說明該信息源被同行關注的程度越高,其重要度也有可能越高;2)被重要度高的信息源轉載次數越多的信息源的重要度也越高。因此,利用PageRank這種源自網頁重要度排序的算法來進行信息源重要度排序從理論上講是完全可行的。
仿照PageRank,算法SrcRank基于網絡中信息源之間的轉載關系構成網絡圖。網絡圖是有向圖,圖中的節(jié)點為網絡輿情信息源,節(jié)點之間的邊為信息源之間的轉載關系。假設信息源A和信息源B對應網絡圖中的節(jié)點a和節(jié)點b,則如果信息源A轉載了信息源B的文章,那么節(jié)點a和節(jié)點b之間存在一條邊,且邊的方向為a指向b。
互聯網中網絡輿情信息源的重要度之間存在如圖1所示的傳遞關系圖。
如果用r(i)表示信息源i的重要度,B(i)表示通過轉載指向信息源i的信息源集合,信息源i在一定統(tǒng)計時間內被其他信息源轉載的總次數為c(i),f(j,i)表示在一定統(tǒng)計時間內信息源j轉載信息源i發(fā)布文章的次數,則互聯網上所有信息源的重要度滿足如下關系:
(4)
下面給出算法SrcRank的形式描述:
令W是網絡輿情信息源集合,N=|W|,B(i)是通過轉載指向信息源i的信息源集合,信息源i在一定統(tǒng)計時間內被其他信息源轉載的總次數為c(i),f(j,i)表示在一定統(tǒng)計時間內信息源j轉載信息源i發(fā)布文章的次數,則對于信息源i,它的重要度SR(i)用下面公式計算:
(5)
公式(5)是遞歸定義的,實際計算中需要進行迭代。要保證迭代收斂,需要對公式(6)進行改進。改進策略與算法PageRank相似,改進后的公式如下:
(6)
從公式(6)可以看到,一個信息源的重要度由兩部分組成: 一部分是其自身固有的重要度,即1/N,另一部分是其他轉載它發(fā)布文章的信息源傳播給它的重要度。兩部分各自所占的比重由參數d決定。類似于PageRank,本文中我們取d=0.85。
與算法PageRank類似,數學上可以證明,公式(6)的計算過程是收斂的。
圖1 算法SrcRank中網絡輿情信息源的重要度傳遞關系圖
4.1.1 第一步: 建立遞階層次結構
在這一步驟中, 首先要求將需要解決的問題所含的要素進行分組,把每一組作為一個層次,并將它們按照: 最高層(目標層)——若干中間層(準則層)——最低層(屬性層)的次序排列起來。同一層次的元素作為準則,對下一層次的某些元素起支配作用,同時它又受上一層元素的支配。這種自上而下的支配關系形成了一個遞階層次。處于最高層的一般是分析問題的預定目標,中問的層次一般是準則層、子準則層,最低一層包括決策的方案。層次數與問題的復雜程度和所需要分析的詳盡程度有關,每一層次中的元素一般不超過九個[1]。
我們將表1中的網絡信息源影響力指標體系構建成如圖2所示的模型。
圖2 網絡信息源影響力評估模型
4.1.2 第二步: 構造比較判斷矩陣
這一步驟是層次分析法中的一個關鍵步驟。判斷矩陣表示針對上一層次中的某元素而言,該層次中各有關元素的相對重要性程度,其形式如下[1]:
或者B=[bij],i,j=1,2,…n
其中,bij是就上層某元素而言bi與bj兩元素的相對重要性標度。
我們通過專家打分法構建判斷矩陣。首先專家需要填寫調查問卷,如表4~6所示,填表時參考如表4所示的層次分析法比例標度表。然后,將每個指標的評分取均值,兩兩相比較,構建比較判斷矩陣。
表4 網絡信息源影響力指標重要程度兩兩比較調查表
表5 網民關注度指標重要程度兩兩比較調查表
4.1.3 第三步: 計算權重并一致性校驗
得到了各準則層的比較判斷矩陣后,需要計算對該準則下的各元素的相對權重,并進行一致性檢驗。
常用的權重計算方法有冪法、和法及根法。其中,冪法較精確,后兩種方法較近似??紤]到我們在精度方面要求不高,且要求計算簡便,故采用根法。具體步驟為:
表6 層次分析法比例標度表
(1) 將比較判斷矩陣A中的元素按行相乘;
(2) 對得到的乘積分別開n次方(n為矩陣的階);
(3) 將方根向量歸一化得排序權向量W;
(4) 進行一致性判斷,具體過程為:
1) 計算比較判斷矩陣A的最大特征根λmax;
2) 計算一致性指標CI=(λmax-n)/(n-1);
3) 計算一致性比例CR=CI/RI
對n=1,2, ...,9,RI的值如表7所示。
表7 RI取值表
當CR<0.1時,認為判斷矩陣的一致性是可以接受的,否則應對判斷矩陣作適當修正。若判斷能通過一致性檢驗,第(3)步得到的排序權向量即為各指標的權重;若不能通過,需要重新設置判斷矩陣,進行計算,直至通過為止。
按照第4.1節(jié)的模型構建方法,我們分別構建了新聞、論壇、博客的信息源影響力評估模型,各模型的指標遞階層級關系與相應權重如表8所示。
表8 新聞、論壇、博客三大信息源通道的影響力評估指標體系權重表
我們從近200個國內較活躍的信息源獲取如下數據:
? 數據時間跨度: 一年半的數據,從2009年1月1日至2010年6月1日;
? 新聞數據: 來自91個網絡新聞信息源,共 1 495 482條記錄,每條記錄包含了一張新聞網頁的發(fā)布時間、對該網頁的點擊數、評論數,以及轉載它的網頁;
? 論壇數據: 來自87個論壇信息源,共 2 865 447條記錄,每條記錄包含了一個論壇帖子的發(fā)布時間、對該帖子的點擊數、回復數,以及轉載它的網頁;
? 博客數據: 來自10個博客信息源,共 897 097條記錄,每條記錄包含了一篇博文的發(fā)布時間、對該博文的點擊數、評論數,以及轉載它的網頁。
我們將已經構建好的影響力評估模型用于以上數據集,得到如表9所示的影響力排名。限于篇幅,我們只展示了排名前10名的網絡新聞信息源、論壇信息源、博客信息源。
從表9可以看到,影響力排在前10名的信息源確實是比較著名的信息源,基本符合我們的直觀印象。這也說明了我們提出的網絡輿情信息源評估模型是客觀、合理的。
在這里需要指出的是,有些信息源并沒有在網頁中顯示出點擊數(例如新浪網),使得我們無法獲得這樣的數據。對于這種情況,我們只能憑經驗為該數據源賦予點擊數值。主要方法是: 憑借直觀經驗,找出5個與該信息源影響力相當的信息源,將這5個信息源在相應時間段的點擊數求平均值,作為該信息源的點擊數。另外,因為我們的分析數據有限,所以排名結果難免會有不夠客觀的地方,僅供參考。
根據對網絡輿情、網絡輿情信息源、網絡輿情信息源影響力等概念的深入研究,我們構建了網絡輿情信息源評估指標體系。本文的貢獻主要有兩點: 一是與已有的網站影響力評估方法相比較,文章提出的評估方法從根本上抓住了網絡輿情信息源影響力的本質特點。不僅考慮到了信息源自身的表現力,還考慮到了網民對影響力的反饋,以及信息源轉載信息這一行為中隱含的對同行信息源影響力的反饋。二是在對信息源重要度進行排名時,借鑒網絡鏈接分析算法PageRank,提出了算法SrcRank。實例分析結果表明,該評估方法能夠客觀而合理地評價網絡輿情信息源的影響力。
表9 網絡輿情信息源影響力排名
我們在這個方向的工作只是一個初步的結果,目前對結果的分析僅是定性的,在后續(xù)的研究中,我們將進行定量分析。此外,我們對網絡輿情信息源影響力進行評估時,并沒有考慮網頁內容的觀點傾向。在未來工作中,我們將加入此方面內容,使得評估更加客觀,合理。
[1] 陳斯杰. 基于用戶視角的科技信息服務網站影響力評估研究[D]. 南京:南京理工大學, 2009.
[2] 曾潤喜. 我國網絡輿情研究與發(fā)展現狀分析[J]. 圖書館學研究, 2009(8): 2-6.
[3] 范闖. 基于網絡計量學的科技信息服務網站影響力評估研究[D]. 南京:南京理工大學, 2009.
[4] 劉雁書, 方平. 網絡信息影響力評價方法[J]. 高校圖書館工作, 2002, 22(88):16-19.
[5] Ingwersen, P.. The Calculation of Web Impact Factors[J]. Journal of Documentation. 1998, 54(2) :236-243.
[6] Almind, T.C.I., Peter. Informetric Analyses on the World Wide Web: Methodological Approaches to “WEBOMETRICS”[J]. Journal of Documentation, 1997, 53(4): 404-426.
[7] 姜旭平. 網絡營銷[M]. 北京:清華大學出版社, 2003.
[8] 朱雷. 中美兩國醫(yī)院網站網絡影響力指標對比評測研究[J]. 現代圖書情報技術, 2006(134): 64-81.
[9] 邱均平, 程妮. 中國重點大學的網絡影響力評價研究[J]. 科學學研究, 2009,27(2): 190-195.
[10] 陳太洋,任全娥. 中外企業(yè)網站的鏈接分析與網絡影響力評價[J]. 信息系統(tǒng), 2008,31(4): 614-619.
[11] Larry Page, S.B., R. Motwani, T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web[R]. Stanford InfoLab, 1999[R/OL]. http://en.scientificcommons.org/42893894
[12] Haveliwala, T.H.. Efficient computation of PageRank[R]. Stanford University, 1999[R/OL]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.65.3145&rep=rep1&type=pdf
[13] Garfield, E.. Citation indexing: Its theory and application in science, technology, and humanities. Institute for Scientific Information,1979[EB/OL]. http://www.garfield.library.upenn.edu/cifwd.html
[14] 蘇成, 潘云濤, 袁軍鵬,等. 基于PageRank的期刊評價研究[J]. 中國科技期刊研究, 2009, 20(4): 614-617.
[15] 郝海, 蹤家峰. 系統(tǒng)分析與評價方法[M]. 北京:經濟科學出版社, 2007.