潘夏暉 虞欣平 鄒軍
摘要:由于網(wǎng)絡(luò)數(shù)據(jù)覆蓋領(lǐng)域廣、信息量大的特征,通過在線話題聚類得到的話題數(shù)量仍然繁多,并且話題重要程度也不同,其中大多數(shù)話題都無關(guān)緊要。那些涉及敏感問題,具有爆發(fā)力的話題往往決定了整個網(wǎng)絡(luò)輿情的發(fā)展趨勢,才是需要研究的重點。通過對話題熱度的計算可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)輿情的熱點話題。
關(guān)鍵詞:話題;聚類;熱度
就目前對話題熱度計算的研究,主要都是從話題的媒體關(guān)注度和用戶關(guān)注度這兩方面考慮的。話題的媒體關(guān)注度是從輿情數(shù)據(jù)的發(fā)送方來考察話題的熱度,其主要包括話題的報道頻率和分布率等信息。而話題的用戶關(guān)注度則是從輿情數(shù)據(jù)的接收方來考察話題的熱度,其主要包括瀏覽報道的次數(shù)、評論的次數(shù)等一些用戶的行為信息。一般來說,網(wǎng)絡(luò)應(yīng)用上的信息發(fā)送方對熱點話題的形成起到了主導(dǎo)作用,因為只有網(wǎng)絡(luò)上出現(xiàn)了一個新的報道,才會有用戶去瀏覽、評論,引發(fā)該報道的關(guān)注,從而形成有大規(guī)模報道的話題,使該話題成為熱點話題。而對于論壇、微博一些應(yīng)用,信息的接收方在網(wǎng)絡(luò)傳播中占到主導(dǎo)地位,用戶的轉(zhuǎn)發(fā)、評論使得話題傳播越來越迅速,因此用戶關(guān)注度對話題的熱度影響將更大。本文根據(jù)層次化在線話題聚類的方法,從媒體關(guān)注度來評估新聞話題熱度,從媒體關(guān)注度和用戶關(guān)注度來評估論壇和微博話題熱度。
1話題熱度特征
通過對一般熱點話題的考察與分析,并結(jié)合網(wǎng)絡(luò)輿情傳播模式的特點,一個話題在成為熱點的過程中一般都具備如下特征:
(1)在話題發(fā)生的初期,話題受關(guān)注程度并不高,相關(guān)的報道數(shù)量較少,用戶瀏覽數(shù)回復(fù)數(shù)也少,有的甚至不被人注意。
(2)在某個時間段內(nèi),該話題被廣泛關(guān)注,網(wǎng)絡(luò)上出現(xiàn)大量的相關(guān)報道,報道的數(shù)量迅速上升,用戶的關(guān)注度也迅速上升,網(wǎng)絡(luò)用戶大量瀏覽回復(fù)轉(zhuǎn)發(fā)相關(guān)內(nèi)容。
(3)在引起廣泛關(guān)注后,有關(guān)該話題的報道會大量轉(zhuǎn)載,甚至與話題相關(guān)的人、事件都會一一被報道,相關(guān)網(wǎng)站或媒體也會持續(xù)跟進的進行大量的報道,話題在此時是整個話題生命周期最熱的時候。
(4)熱度在達到一定高度之后,由于媒和網(wǎng)民的官方關(guān)注,熱度會持續(xù)一段時間的高峰值,然隨著關(guān)注的減少,熱度開始下降,話題逐漸消失在關(guān)注視野中,最后開始消亡。
這整個過程就是一個熱點話題的生命周期,從生長到發(fā)展,從巔峰到最后的消亡,而話題的熱度也會伴隨著這些過程進行演化。
2話題熱度量化
基于熱點話題的上述特征分別用下面幾個不同的參數(shù)進行刻畫[1][2][3],其中話題的持續(xù)時間是指該話題有報道的天數(shù):
1、報道數(shù)rn(report number):表示話題在持續(xù)時間內(nèi)的報道數(shù);2、持續(xù)天數(shù)rd(report days):話題持續(xù)時間的天數(shù);3、點擊數(shù)hn(hitting number):表示論壇話題的點擊數(shù);4、回帖數(shù)an(answer number):表示論壇話題的回帖數(shù);5、轉(zhuǎn)發(fā)數(shù)fn(forwarding number):表示微博話題的轉(zhuǎn)發(fā)數(shù);6、評論數(shù)cn(comment number):表示微博話題的回復(fù)數(shù);
報道數(shù)和持續(xù)天數(shù)都屬于媒體關(guān)注度范疇,而點擊數(shù)、回帖數(shù)、轉(zhuǎn)發(fā)數(shù)和評論數(shù)屬于網(wǎng)民關(guān)注度范疇。
因為報道數(shù)和持續(xù)天數(shù)都和話題的關(guān)注度成正比,并且話題的關(guān)注度還和話題的分布率成正比,所以一定時間內(nèi)站點上話題的媒體關(guān)注度用下述公式來定量描述:
式(3.10)
其中,rn是該話題在持續(xù)時間內(nèi)的報道的文檔的數(shù)量,RN是在這段時間里所有話題報道的文檔的總數(shù),N是這段時間里出現(xiàn)還在活躍的話題的數(shù)目,前一個分式的比值反映的正是相對的話題的文檔頻率。rd是該話題持續(xù)被關(guān)注的天數(shù),而RD是所有話題被關(guān)注的天數(shù)的和,后一個分式衡量的是話題持續(xù)的天數(shù)和每個話題平均持續(xù)天數(shù)的相對比值。
另外,對于論壇來說網(wǎng)民的一次點擊瀏覽和一次回帖評論所表現(xiàn)的關(guān)注程度是不同的,網(wǎng)民進行回復(fù)帖子比網(wǎng)民只是點擊瀏覽更加值得關(guān)注。定義論壇網(wǎng)民關(guān)注度衡量公式為:
式(3.11)
由于論壇中網(wǎng)民對話題的回帖比只瀏覽更表現(xiàn)網(wǎng)民對其的關(guān)心,因此對進行了倍加權(quán),取對數(shù)是為了使其值在(0,1)之間。
而對于微博來說,微博獨特的用戶瀏覽模式不能將用戶的瀏覽行為記錄下來,能夠記錄下來的用戶行為只有轉(zhuǎn)發(fā)或者回復(fù)。對于一個用戶來說,轉(zhuǎn)發(fā)一條微博所能表現(xiàn)的關(guān)注程度遠遠沒有回復(fù)此條微博來的強烈。所以定義微博網(wǎng)民關(guān)注度衡量公式為:
式(3.12)
由于微博中網(wǎng)民對微博的評論比轉(zhuǎn)發(fā)更表現(xiàn)網(wǎng)民對其的關(guān)心,因此的值小于0.5,式子前面乘了0.5是因為使關(guān)注度的其值在(0,1)之間。
對于所有的網(wǎng)民關(guān)注度,通過調(diào)節(jié)參數(shù)使網(wǎng)民關(guān)注度和媒體關(guān)注度在同一個數(shù)量級并具有不同的權(quán)重。因而,綜合所有網(wǎng)絡(luò)應(yīng)用,本文定義話題的熱度計算公式為:
式(3.13)
在實際情況下,對于新聞數(shù)據(jù)而言,話題的熱度只有媒體關(guān)注度,而對于論壇和微博數(shù)據(jù),則既有媒體關(guān)注度,又有網(wǎng)民關(guān)注度,而且網(wǎng)民關(guān)注度更具有參考價值。
3 結(jié)束語
層次化的話題聚類在每一批的文本話題聚類完成,話題得到調(diào)整后,將從新對每一個話題進行熱度計算,并根據(jù)其熱度值進行排名,將熱度值排名靠前的話題作為熱點話題。不難看出,隨著時間的往前推移,文檔數(shù)多的話題一直可以保持較高的熱度,話題報道天數(shù)多的時間也可以一直保持較高的熱度。但是此公式考察話題的熱度演化有缺陷,而且較難發(fā)現(xiàn)話題生命周期初期文檔數(shù)量相對較少的突發(fā)熱點話題,未來可考慮基于衰減因子的熱度演化來分析熱點話題進行研究。
參考文獻:
[1] 殷風(fēng)景,肖衛(wèi)東,葛斌,李芳芳.一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J].計算機應(yīng)用研究,2011.1:54-57
[2] 何婷婷,朱惹,張勇,任函.基于詞語屬性的計算機輔助獲取流行詞語研究[J].中文信息學(xué)報,2006,6(06):38-45.
[3] Tingting He,Guozhong Qu,Xinhui Tu,Yong Zhang,Han Ren.Semi-automatic Hot Event Detection.AMDA 2006:1008-1016.
(作者單位:中國華藝廣播公司)