陳 婷,胡改麗,陳福集
(福州大學(xué) 經(jīng)濟(jì)與管理學(xué)院,福建 福州305106)
據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《第33 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2013年12 月底,我國網(wǎng)民規(guī)模已達(dá)6.18 億,互聯(lián)網(wǎng)普及率為45.8%[1]。人們可以在互聯(lián)網(wǎng)上自由發(fā)表言論和觀點(diǎn),各種不同的觀點(diǎn)、思想和言論碰撞交匯,形成一種強(qiáng)大的漩渦,即網(wǎng)絡(luò)輿情。網(wǎng)絡(luò)輿情是互聯(lián)網(wǎng)上公眾對某事件的認(rèn)知、態(tài)度、情感和行為傾向的集合[2]。
對突發(fā)事件發(fā)生后的相關(guān)輿情話題的收集和追蹤,是分析事態(tài)發(fā)展的重要依據(jù)。由于網(wǎng)絡(luò)輿情的傳播路徑不確定,輿情話題在傳播過程中可能朝任意方向發(fā)展,某一特定的輿情話題可以衍生出多個(gè)相關(guān)的新輿情話題。話題衍生性是網(wǎng)絡(luò)輿情傳播演化的一個(gè)主要特點(diǎn),特別是在輿情衰退期,由于網(wǎng)民對原始輿情話題的相關(guān)元素已失去興趣、訴求和需要,原始輿情話題失去生命力,被新的衍生話題所替代,這就是輿情對社會(huì)的“二次影響”。衍生話題與原始話題相互交織而形成動(dòng)態(tài)的衍生網(wǎng)絡(luò)會(huì)延長原始事件的生命周期,其持續(xù)期和消退期的持續(xù)時(shí)間均延長,加大了突發(fā)事件應(yīng)急處理難度,有時(shí)衍生話題的社會(huì)影響遠(yuǎn)大于原事件,給社會(huì)環(huán)境帶來極大的損失。因此,把握輿情話題及其衍生話題之間的交錯(cuò)復(fù)雜的遷移關(guān)系,構(gòu)建話題演化動(dòng)態(tài)模型,設(shè)計(jì)話題追蹤方法,通過對輿情話題進(jìn)行追蹤了解,預(yù)測事件的發(fā)展態(tài)勢,避免事件的無限衍生蔓延,能夠?yàn)檎话l(fā)事件應(yīng)急管理工作提供重要的決策支持。
在輿情話題演化模型的構(gòu)建方面,MATSUMURA 等提出的影響力傳播模型即IDM 模型,該模型基于用戶間交互模式的視角,發(fā)現(xiàn)網(wǎng)絡(luò)論壇中有影響力的任務(wù)和話題[3]。文獻(xiàn)[4]提出了一種基于小波分析和神經(jīng)網(wǎng)絡(luò)建模的非線性時(shí)間序列的預(yù)報(bào)方法,并基于該方法將話題分為不同序列構(gòu)建模型以實(shí)現(xiàn)對熱點(diǎn)話題的預(yù)測。文獻(xiàn)[5]通過分析新聞報(bào)道中種子事件與后續(xù)新穎事件間的演化關(guān)系,強(qiáng)調(diào)命名實(shí)體詞的貢獻(xiàn)度,并及時(shí)調(diào)整話題的重心向量,建立了一種動(dòng)態(tài)的話題檢測和追蹤模型。張曉艷等[6]使用一個(gè)基于話題的權(quán)重計(jì)算方法,在學(xué)習(xí)相關(guān)信息時(shí)盡可能減小偽相關(guān)報(bào)道中的噪音影響,并利用最新的話題無關(guān)報(bào)道來定位過濾當(dāng)前話題模型中的動(dòng)態(tài)噪音,提出一種能動(dòng)態(tài)調(diào)整發(fā)生偏移的話題模型。文獻(xiàn)[7]針對輿情信息的特點(diǎn),建立網(wǎng)絡(luò)輿情信息模型,進(jìn)一步提出基于動(dòng)態(tài)主題模型OLDA(online latent dirichlet allocation)的話題演化模型。
在話題追蹤算法方面,馬雯雯等針對傳統(tǒng)的話題發(fā)現(xiàn)算法中僅基于關(guān)鍵詞匹配而未考慮話題語義相關(guān)性的問題,引入隱含語義分析的方法對語料信息進(jìn)行建模,通過兩階段的聚類策略發(fā)現(xiàn)網(wǎng)絡(luò)上較受關(guān)注的話題[8]。文獻(xiàn)[9]利用LDA模型對網(wǎng)絡(luò)熱點(diǎn)話題主題進(jìn)行提取,利用時(shí)間標(biāo)簽發(fā)現(xiàn)熱點(diǎn)話題,并設(shè)計(jì)了基于時(shí)序主題模型的網(wǎng)絡(luò)熱點(diǎn)話題演化分析系統(tǒng)。趙華等關(guān)注話題隨時(shí)間的動(dòng)態(tài)變化,提出了基于話題持續(xù)時(shí)間的動(dòng)態(tài)閾值模型[10]。互聯(lián)網(wǎng)輿情所具有的衍生性和動(dòng)態(tài)性使得輿情呈現(xiàn)出復(fù)雜的演化特性,而以往學(xué)者構(gòu)建的話題模型在話題演化的動(dòng)態(tài)過程和微觀結(jié)構(gòu)方面缺乏有效的描述,導(dǎo)致其不足以揭示出輿情話題的演化機(jī)理,且輿情發(fā)展后期的話題漂移是話題追蹤中不可忽視的問題,因此以往的話題追蹤算法中基于話題內(nèi)容相似度計(jì)算兩者相關(guān)性的方法難以滿足實(shí)際的應(yīng)用需求。筆者在分析話題演化特性和拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,構(gòu)建了基于時(shí)間片的輿情話題動(dòng)態(tài)演化模型,該模型增加了對輿情話題的時(shí)序關(guān)聯(lián),為了克服話題演化中的話題漂移,話題相關(guān)度分析中對僅基于內(nèi)容相似度的方法進(jìn)行了改進(jìn),在內(nèi)容分析的基礎(chǔ)上結(jié)合對網(wǎng)頁鏈接關(guān)系的分析,進(jìn)而通過實(shí)驗(yàn)驗(yàn)證了改進(jìn)方法的有效性。
輿情動(dòng)態(tài)演變網(wǎng)絡(luò)的組成要素包括原輿情話題、衍生子話題及話題的多維屬性,研究突發(fā)事件的衍生機(jī)理,需要對熱點(diǎn)話題進(jìn)行評估。跟蹤熱點(diǎn)話題與發(fā)現(xiàn)話題之間的演化路徑是構(gòu)建話題演化動(dòng)態(tài)網(wǎng)絡(luò)的重要內(nèi)容。話題關(guān)注度是評估話題熱度的重要參考指標(biāo),因此將話題關(guān)注度作為話題的重要屬性。而話題的內(nèi)容和關(guān)注度均隨時(shí)間的發(fā)展而變化,故時(shí)序信息是輿情話題的重要內(nèi)容。此外,話題熱度的變化具有一定的時(shí)序性和規(guī)律性,時(shí)序信息描述了衍生話題產(chǎn)生和發(fā)展的序列關(guān)系,時(shí)序性是輿情話題的重要屬性。
動(dòng)態(tài)性是網(wǎng)絡(luò)輿情演化的一大特性,隨著時(shí)間推進(jìn),話題關(guān)注的焦點(diǎn)不斷變化,焦點(diǎn)子話題也不斷變化,衍生出的新話題與原輿情話題在內(nèi)容上發(fā)生了較大偏移。此外,在輿情衰退期的話題漂移現(xiàn)象是不可忽視的問題,隨著突發(fā)事件的演進(jìn),與之相關(guān)的話題重心也在動(dòng)態(tài)變化。
輿情話題除了結(jié)構(gòu)化的文本信息,還包括網(wǎng)頁鏈接信息,話題的發(fā)布者(用戶)之間的關(guān)聯(lián)信息,話題之間的時(shí)序特性是描述話題演變關(guān)系的重要依據(jù)。通過對輿情話題微觀組成和演化特征的分析,確定話題演化模型組成元素的映射關(guān)系:模型將話題抽象為節(jié)點(diǎn),節(jié)點(diǎn)之間的連接弧表示話題之間存在關(guān)聯(lián),弧的權(quán)值表示話題的相關(guān)度。話題演化模型根據(jù)話題的多元信息組成確定其拓?fù)浣Y(jié)構(gòu)為層次結(jié)構(gòu),每個(gè)層次對應(yīng)話題的一種信息。輿情話題動(dòng)態(tài)演化模型如圖1 所示。
圖1 輿情話題動(dòng)態(tài)演化模型
(1)話題信息層。將話題演變過程在時(shí)間上進(jìn)行劃分即形成了時(shí)間片。話題信息層是由不同時(shí)序信息的話題組成的體系結(jié)構(gòu),可表示為:
式中:T為某一特定的突發(fā)事件;ti為對應(yīng)的時(shí)間片;eij為在時(shí)間片ti內(nèi)產(chǎn)生的與突發(fā)事件相關(guān)的輿情話題;Ei為對應(yīng)時(shí)間片ti的話題集合。
(2)網(wǎng)頁信息層。網(wǎng)頁信息層是具有特定時(shí)序信息的網(wǎng)頁集合P={p1,p2,…,pT}及網(wǎng)頁間的鏈接關(guān)系集合PR={PR1,PR2,…,PRT},pi為時(shí)間片ti產(chǎn)生的網(wǎng)頁集合,PRt表示前t個(gè)時(shí)間片內(nèi)的網(wǎng)頁集合,且PRt={(pi,pj)|pi,pj∈∪t1pt},網(wǎng)頁pi通過鏈接指向網(wǎng)頁pj。
(3)用戶信息層。用戶信息層是網(wǎng)絡(luò)用戶的信息及其關(guān)系的集合UG=(UG1,UG2,…,UGT),UGi表示第i個(gè)時(shí)間片內(nèi)的話題討論者的關(guān)系集合。當(dāng)大多數(shù)用戶對某一用戶的觀點(diǎn)持否定態(tài)度時(shí),該用戶極有可能放棄該觀點(diǎn),當(dāng)絕大多數(shù)用戶對某一用戶的觀點(diǎn)呈現(xiàn)一邊倒的支持態(tài)度時(shí),該用戶更有可能堅(jiān)持自己的觀點(diǎn)。因此,用戶觀點(diǎn)的轉(zhuǎn)化受用戶間交互關(guān)系和自身特質(zhì)的綜合作用。而網(wǎng)民觀點(diǎn)的演化是輿情話題演化的主要?jiǎng)恿?,特別是在輿情衰退期,網(wǎng)民關(guān)注點(diǎn)的轉(zhuǎn)移是衍生話題產(chǎn)生的主要原因。故在模型中引入用戶信息層。
筆者構(gòu)建的三層話題模型是一種動(dòng)態(tài)的信息表示模型,隨著時(shí)間的演進(jìn)和與話題相關(guān)的網(wǎng)頁的不斷加入,話題模型要隨著網(wǎng)頁間的鏈接關(guān)系進(jìn)行實(shí)時(shí)更新。由于模型的目的是探測新話題,因此判斷新加入的網(wǎng)頁與種子話題的相關(guān)度是首要任務(wù),互聯(lián)網(wǎng)中輿情報(bào)道語料與原始輿情話題的相關(guān)性是判斷新報(bào)道是否為新話題的主要依據(jù)。分析突發(fā)事件的種子話題與新話題之間的演化關(guān)系可以得出,新的話題往往是在對前一個(gè)話題或種子話題的回顧性描述或評論中產(chǎn)生的,而這種描述或評論一般是通過網(wǎng)頁鏈接進(jìn)行互動(dòng)的。因此,針對圍繞突發(fā)事件的輿情話題的相關(guān)報(bào)道的語料信息,話題模型中話題信息層中的節(jié)點(diǎn)與輿情話題的相關(guān)度計(jì)算需要綜合考慮節(jié)點(diǎn)網(wǎng)頁之間的鏈接關(guān)系和內(nèi)容相似度?;诰W(wǎng)頁間鏈接關(guān)系和內(nèi)容相關(guān)度,筆者提出網(wǎng)頁間話題相關(guān)度的計(jì)算公式:
式中:RC為根據(jù)網(wǎng)頁內(nèi)容計(jì)算得到的相關(guān)度,具體做法是計(jì)算互聯(lián)網(wǎng)新聞報(bào)道語料的內(nèi)容空間向量與輿情話題的內(nèi)容空間向量兩者之間的相似度;RL為根據(jù)網(wǎng)頁間的鏈接關(guān)系,在區(qū)分鏈接性質(zhì)的前提下計(jì)算出的網(wǎng)頁主題之間的相關(guān)度;⊕表示RL與RC之間的運(yùn)算是廣義加法運(yùn)算,即網(wǎng)頁間的話題相關(guān)度R滿足max(RL,RC)≤R≤min(1,RL+δRC),δ 是依據(jù)RL和RC的相對重要性設(shè)置的調(diào)節(jié)系數(shù)。
新入網(wǎng)頁P(yáng)a與原輿情話題相關(guān)度RL(Pa)的具體計(jì)算公式為:
式中:RC(Pi)為網(wǎng)頁P(yáng)a與原有報(bào)道的網(wǎng)頁P(yáng)i的內(nèi)容相似度;N(a)為網(wǎng)頁P(yáng)a發(fā)出的鏈接總數(shù)。由于原話題可能涉及多個(gè)網(wǎng)頁,而新入的輿情報(bào)道網(wǎng)頁若與多個(gè)原有報(bào)道的網(wǎng)頁之間均有鏈接關(guān)系,則新入網(wǎng)頁的話題與原話題的相似度需取與原有網(wǎng)頁報(bào)道的相關(guān)度總和的平均值。
突發(fā)事件的互聯(lián)網(wǎng)輿情報(bào)道是按時(shí)序連續(xù)更新的,對于一系列連續(xù)的報(bào)道,為了反映出輿情話題隨時(shí)間的演化路徑,先將時(shí)間軸劃分為一定長度的時(shí)間片,然后按照輿情報(bào)道發(fā)布的時(shí)間將其劃歸到相應(yīng)的時(shí)間片中,同時(shí)對與報(bào)道相關(guān)的新入網(wǎng)頁進(jìn)行特征抽取,獲得特征項(xiàng),用權(quán)重較高的特征項(xiàng)對報(bào)道進(jìn)行描述,將報(bào)道轉(zhuǎn)化為特征項(xiàng)形成的多元向量空間,然后計(jì)算其與原輿情報(bào)道話題之間的內(nèi)容相似度。
定義Rnewc(S,T)為互聯(lián)網(wǎng)輿情報(bào)道語料S和話題T的內(nèi)容相似度,式(3)表示新輿情報(bào)道的內(nèi)容相似度的調(diào)整。
由于話題的衍生和漂移現(xiàn)象常發(fā)生在時(shí)間距離較近的話題之間,時(shí)間相隔越久的話題存在衍生、次生關(guān)系的可能性越小,因此計(jì)算新的輿情報(bào)道話題的相似度時(shí)只需考慮同一時(shí)間片內(nèi)的話題。對于RL,主要根據(jù)新入輿情報(bào)道的網(wǎng)頁與原網(wǎng)頁之間的鏈接指向關(guān)系進(jìn)行調(diào)整。如果新入的網(wǎng)頁P(yáng)a有指向原話題T的鏈接,則根據(jù)式(4)調(diào)整RL。
計(jì)算出新的輿情報(bào)道的RL,RC后,根據(jù)式(1)調(diào)整話題相關(guān)度R。為了判斷新話題的產(chǎn)生,需要預(yù)先設(shè)定閾值θ,當(dāng)R≤θ 時(shí),則認(rèn)為報(bào)道中出現(xiàn)了新話題,反之,則認(rèn)為是對已有話題的重復(fù)報(bào)道。
互聯(lián)網(wǎng)輿情報(bào)道隨著時(shí)間的演進(jìn)不斷更新,新話題產(chǎn)生與否是未知的,因此話題的識別是一種增量式的聚類過程,并且話題挖掘過程是無監(jiān)督的。首先,對于一系列的輿情報(bào)道,按照發(fā)布的時(shí)間信息將其劃歸到對應(yīng)的時(shí)間片,在一個(gè)特定的時(shí)間片內(nèi)對報(bào)道進(jìn)行特征抽取。某特定時(shí)間的輿情報(bào)道中可能涉及多個(gè)話題,因此通過特征抽取形成多個(gè)話題向量,并將其轉(zhuǎn)換為對應(yīng)的話題向量矩陣。
話題追蹤方法是從兩個(gè)方面捕捉輿情報(bào)道的動(dòng)態(tài)變化。①在模型的話題信息層中保存當(dāng)前時(shí)刻的話題信息,主要是通過話題挖掘已經(jīng)得到的聚類結(jié)果;②根據(jù)話題模型更新策略計(jì)算新入報(bào)道的話題相關(guān)度,用追蹤到的輿情報(bào)道的話題挖掘結(jié)果動(dòng)態(tài)擴(kuò)充新的信息到話題模型。這種增量式的話題聚類過程相當(dāng)于是對整個(gè)報(bào)道集的聚類算法,算法按照時(shí)間片的順序,對報(bào)道集進(jìn)行增量聚類,依次處理輿情報(bào)道信息流中的報(bào)道網(wǎng)頁,該方法為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)使用較多的批處理學(xué)習(xí)算法[11]。具體算法步驟如下:
輸入:R=(R1,R2,…,Rn)(輿情報(bào)道集合)
輸出:T={T1,T2,…,Tn}(話題集合)
(1)T1={R1};num(T1)=1;k=1//將R1作為種子報(bào)道,對其進(jìn)行特征抽取,得到種子話題T1,初始化話題模型;
(2)for eachRi//Ri為后續(xù)的輿情報(bào)道網(wǎng)頁;
(3)if(RC(Ri)≥δ)then//判斷Ri是否為與原始話題內(nèi)容相關(guān)的報(bào)道;
(4)R=R.add(Ri)//若Ri為相關(guān)報(bào)道,則將Ri加入話題模型,并更新話題模型;
(5)to extract effective link fromRi//區(qū)分Ri發(fā)出的網(wǎng)頁鏈接類型,去除友情鏈接和廣告鏈接;
(6)for each linkLj
(7)if (Pj?Ti)then //鏈接Lj指向網(wǎng)頁P(yáng)j,且Pj不在已有的話題集中;Tj=Tj+{Pj};
(8)num(Ti)+ +;//將網(wǎng)頁P(yáng)j加入話題模型;update(Tj);
(9)T=T.addLink(Ri,Pj)//更新話題模型的網(wǎng)頁信息層,添加Ri指向Pj的鏈接信息;
(10)T=T.computeRL(Ri)//基于鏈接關(guān)系分析報(bào)道Ri的相似度;
(11)for each linkLj
(12)T=T.updateR(Ri,Pj);//根據(jù)式(4)調(diào)整與報(bào)道Ri有鏈接關(guān)系的所有網(wǎng)頁P(yáng)j的相關(guān)度;
(13)if(R(Ri)≥θ)then
(14)Tj=Tj+{Rj};
(15)num(Ti)+ +;//報(bào)道Ri的相關(guān)度超過了預(yù)設(shè)的閾值,認(rèn)為輿情報(bào)道Ri出現(xiàn)了新話題,更新話題集;
update(Tj);
(16)return{T1,T2,…,Tm};//返回追蹤到的話題集;
(17)End。
從算法中可以看出,話題模型是隨著新入輿情報(bào)道的更新而不斷調(diào)整的,當(dāng)突發(fā)事件發(fā)生后,將最初的輿情報(bào)道作為種子報(bào)道,種子報(bào)道中包含的話題為種子話題,在此基礎(chǔ)上逐步構(gòu)建和更新話題模型。
為對話題識別的性能進(jìn)行實(shí)際測試,筆者進(jìn)行了實(shí)證分析。實(shí)驗(yàn)以網(wǎng)易新聞為實(shí)驗(yàn)平臺,選取發(fā)生于2014 年3 月8 日的“馬航MH370 失聯(lián)”事件作為分析的案例。
為了保證數(shù)據(jù)的穩(wěn)定性,實(shí)驗(yàn)中語料信息選取的時(shí)間范圍固定在2014 年3 月8 日至4 月15日,事件涉及的話題包括飛機(jī)失聯(lián)、馬航MH370搜救、馬來西亞政府應(yīng)對、失聯(lián)原因分析、乘客名單公布、多國民眾集體祈福、墜落地點(diǎn)預(yù)測、飛機(jī)殘骸多國搜尋、國際賠償程序和善后處理,以及澳政府?dāng)M建馬航MH370 紀(jì)念碑等話題。實(shí)驗(yàn)語料的獲取主要利用網(wǎng)易提供的API 接口,輔以網(wǎng)絡(luò)爬蟲的數(shù)據(jù)采集方式,通過輸入以上話題的關(guān)鍵詞對特定時(shí)間段內(nèi)涉及到的10 多個(gè)話題的相關(guān)網(wǎng)絡(luò)報(bào)道進(jìn)行采集。
事件發(fā)生初期,網(wǎng)絡(luò)報(bào)道數(shù)量相對密集,由于時(shí)間片的大小對話題演化分析的準(zhǔn)確性具有一定的影響,為了更好地分析各話題之間的演化關(guān)系,實(shí)驗(yàn)中將時(shí)間片{t1,t2,…,tm}的時(shí)間跨度設(shè)置為3 天,實(shí)驗(yàn)將采集的語料集合S={S1,S2,…,Sn}按照其發(fā)布時(shí)間劃歸到對應(yīng)的時(shí)間片,并按照先后順序排序。經(jīng)過這樣處理的語料集可以模擬出真實(shí)網(wǎng)絡(luò)輿情事件的報(bào)道信息流。通過對語料集中的報(bào)道進(jìn)行聚類,得到報(bào)道中涵蓋的話題集合E={E1,E2,…,Em},其中Ei為所有發(fā)生在時(shí)間片t的話題集合。根據(jù)報(bào)道頻率排序,得到報(bào)道頻率較高的10 個(gè)話題,表1 列出了前5 個(gè)時(shí)間片內(nèi)的話題特征和報(bào)道分布情況。
由表1 可看出,在事件發(fā)生后的初期,輿情報(bào)道相對密集,報(bào)道頻率較高,且事件的衍生話題較多,在以3 天為跨度的5 個(gè)時(shí)間片內(nèi)出現(xiàn)了15 個(gè)報(bào)道頻率較高的話題,從表1 中也可看出輿情話題的演化具有很強(qiáng)的時(shí)效性,一個(gè)報(bào)道頻率較高的話題不會(huì)同時(shí)出現(xiàn)在兩個(gè)相鄰的時(shí)間片內(nèi)。從而說明時(shí)序信息是輿情話題的重要屬性,刻畫了衍生子話題發(fā)生和發(fā)展階段的序列關(guān)系,是話題追蹤的重要依據(jù),因此,筆者考慮了話題演化的時(shí)序特征和時(shí)間片對話題演化的影響,并通過鏈接關(guān)系和內(nèi)容相似度兩個(gè)因素計(jì)算話題之間的相關(guān)度。為了驗(yàn)證筆者提出的話題追蹤方法的有效性,將該方法與傳統(tǒng)的方法進(jìn)行對比分析。實(shí)驗(yàn)中對算法的實(shí)現(xiàn)選擇的編程語言是Java 語言,并通過開源的CRF 中文分詞工具對文集進(jìn)行分詞、停用詞過濾等預(yù)處理。將經(jīng)過預(yù)處理后的這10 個(gè)話題的相關(guān)語料作為測試報(bào)道流,分別采用兩種話題追蹤方法對“馬航MH370 失聯(lián)”事件進(jìn)行輿情話題追蹤,進(jìn)行對比實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行人工分析和判斷。
表1 時(shí)間片的話題特征和分布情況
話題追蹤方法的評價(jià)是考察方法的話題檢索能力的優(yōu)劣,簡而言之,相關(guān)的話題能被識別出來的正確率越高,說明方法的性能越好。話題識別效果一般借助于類別與話題雙向表[12]表達(dá),具體形式如表2 所示。
表2 話題識別評測的類別與話題雙向表
實(shí)驗(yàn)采用準(zhǔn)確率P、召回率R和模型綜合指標(biāo)F作為方法性能優(yōu)劣的評價(jià)指標(biāo)。根據(jù)話題識別雙向表,對以上指標(biāo)作出如下定義:
根據(jù)廣義加法的定義域,有如下運(yùn)算法則:
文獻(xiàn)[13]的實(shí)驗(yàn)結(jié)果說明,進(jìn)行多次實(shí)驗(yàn),比較分析后,當(dāng)運(yùn)算法則選取式(5)時(shí),綜合指標(biāo)F的平均值最大,說明不同的話題相關(guān)度計(jì)算公式確實(shí)會(huì)影響話題追蹤結(jié)果,因此,在實(shí)驗(yàn)中,計(jì)算話題的相關(guān)度時(shí),選取式(5)進(jìn)行計(jì)算。
表3 基于測試語料集的實(shí)驗(yàn)結(jié)果
新話題出現(xiàn)與否的預(yù)設(shè)閾值大小直接影響到話題追蹤的準(zhǔn)確率和召回率,當(dāng)閾值較大時(shí),會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果的召回率均太小,當(dāng)閾值較小時(shí),又會(huì)導(dǎo)致準(zhǔn)確率均較低,閾值過大或過小都會(huì)增大實(shí)驗(yàn)誤差,因此實(shí)驗(yàn)中將閾值范圍設(shè)定為[0. 1,0.4],每設(shè)定一次閾值,分別用兩種方法進(jìn)行多次實(shí)驗(yàn),計(jì)算性能評價(jià)指標(biāo)的平均值,實(shí)驗(yàn)結(jié)果如表3 所示。表3 的實(shí)驗(yàn)結(jié)果顯示方案②的準(zhǔn)確率平均值不及方案①,但是相差不大,說明在突發(fā)事件爆發(fā)后輿情演化初期,大部分的話題是圍繞事件本身展開的,話題在內(nèi)容上具有很高的相似度,因此在前3 組時(shí)間片{t1,t2}{t3,t4}{t5,t6}傳統(tǒng)的話題追蹤方法在準(zhǔn)確率上高于筆者設(shè)計(jì)的方法,但是兩者相差不大,基于內(nèi)容相似度計(jì)算話題相關(guān)度的話題追蹤方法的精準(zhǔn)度要大于筆者提出的方法,在突發(fā)事件發(fā)生初期,各大媒體和網(wǎng)民對飛機(jī)失聯(lián)的信息非常敏感,話題與事件具有較高的相似度,與事件無關(guān)的話題衍生率較低,話題的重心仍然是與突發(fā)事件所引發(fā)的原始話題相關(guān)的話題,尚未發(fā)生話題漂移。此時(shí),話題之間的內(nèi)容相似度仍可作為判斷兩者是否相關(guān)的主要依據(jù)。在時(shí)間片{t7,t8}{t9,t10}的方案②的P值超過了方案①,說明在輿情擴(kuò)散期和高漲期,衍生話題大量出現(xiàn),且衍生話題與原始輿情話題的內(nèi)容相似度較低,這時(shí)如果僅僅將內(nèi)容相似度作為話題相關(guān)的判斷標(biāo)準(zhǔn),會(huì)引起話題追蹤查準(zhǔn)率的降低,而原話題與衍生子話題之間往往會(huì)有鏈接指向關(guān)系,如果將話題之間的相似度和鏈接關(guān)系作為判斷相關(guān)度的主要依據(jù),會(huì)提高話題的查準(zhǔn)率。在時(shí)間片{t9,t10}輿情的演化處于衰退期,此時(shí)話題的重心由原來的空難事故的相關(guān)話題轉(zhuǎn)變?yōu)榕c其在內(nèi)容上大相徑庭的關(guān)于國家政治領(lǐng)土主權(quán)的政治敏感話題,在極易發(fā)生話題漂移現(xiàn)象的輿情衰退期,傳統(tǒng)的話題追蹤方法已經(jīng)失去了生命力,而方案②的話題追蹤性能顯示出了很大的優(yōu)勢。當(dāng)閾值較低時(shí),方案②檢索出了方案①中尚未檢索出的兩篇報(bào)道“馬航引發(fā)中國安全戰(zhàn)略思考”和“MH370 陰謀論再起:美澳同在演戲”,這是由于這兩個(gè)話題是與飛機(jī)失事事件在內(nèi)容上相關(guān)度甚小的兩個(gè)衍生子話題。
實(shí)驗(yàn)結(jié)果還反映出方案②在召回率上明顯高于方案①,方案②的F值要大于方案①,說明準(zhǔn)確率和召回率雖然具有互逆性,但方案②比方案①更有效。在時(shí)間片{t1,t2}{t3,t4}中,當(dāng)閾值設(shè)置為0.1 時(shí),方案①的F值均大于方案②,這是由于此時(shí)兩種方案的召回率R值均較高,而此時(shí)影響F值的主要指標(biāo)成為準(zhǔn)確率P,結(jié)果表現(xiàn)為方案①優(yōu)于方案②。
針對突發(fā)事件網(wǎng)絡(luò)輿情中的話題漂移現(xiàn)象和衍生效應(yīng),通過分析話題的衍生路徑和拓?fù)浣Y(jié)構(gòu),構(gòu)建了基于時(shí)間片的話題演化動(dòng)態(tài)模型,根據(jù)衍生話題的特點(diǎn)提出了基于內(nèi)容相似性和鏈接關(guān)系的話題相關(guān)度計(jì)算方法,并在此基礎(chǔ)上提出了話題模型的動(dòng)態(tài)更新策略,進(jìn)而設(shè)計(jì)了話題追蹤算法。由于話題模型隨著網(wǎng)絡(luò)報(bào)道動(dòng)態(tài)更新而改變,由此提出的話題追蹤算法能夠?qū)崿F(xiàn)對互聯(lián)網(wǎng)輿情話題的實(shí)時(shí)追蹤。實(shí)驗(yàn)證明,筆者提出的方法能夠有效解決傳統(tǒng)的話題探測算法中不能兼顧話題漂移和衍生問題的缺陷,但是實(shí)驗(yàn)結(jié)果也反映出在輿情發(fā)生期,當(dāng)閾值較低時(shí),該方法的優(yōu)勢較不明顯,主要表現(xiàn)為召回率較低,進(jìn)而造成綜合指標(biāo)較低。
[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心.CNNIC 發(fā)布《第31 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告》[EB/OL].[2014 -10- 17]. http://www. cnnic. cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/t20135_38508.htm.
[2] 曾潤喜.網(wǎng)絡(luò)輿情管控工作機(jī)制研究[J].圖書情報(bào)工作,2009 (18):79 -82.
[3] MATSUMURA N ,OHSAWA Y,ISHIZU K A M.Influence diffusion model in text - based communication[J]. Journal of the Japanese Society for Artificial Intelligence,2002,3(13):259 -267.
[4] 張虹,鐘華,趙兵.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)論壇話題熱度趨勢預(yù)報(bào)[J].計(jì)算機(jī)工程與應(yīng)用,2013,57(9):96 -118.
[5] 胡耀斌,林培光,聶培堯,等.種子事件與新穎事件演化關(guān)系的話題檢測與追蹤[J]. 微型機(jī)與應(yīng)用,2013,32(6):65 -71.
[6] 張曉艷.新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D].長沙:國防科學(xué)技術(shù)大學(xué)圖書館,2010.
[7] 胡艷麗,白亮,張維明.網(wǎng)絡(luò)輿情中一種基于OLDA的在線話題演化方法[J]. 國防科技大學(xué)學(xué)報(bào),2012,34(1):150 -154.
[8] 馬雯雯,魏文晗,鄧一貴.基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)工程與應(yīng)用,2014,50(1):96 -100.
[9] 廖君華,孫克迎,鐘麗霞.一種基于時(shí)序主題模型的網(wǎng)絡(luò)熱點(diǎn)話題演化分析系統(tǒng)[J]. 圖書情報(bào)工作,2013,57(9):96 -118.
[10] 趙華,趙鐵軍,趙霞.時(shí)間信息在話題檢測中的應(yīng)用研究[J].計(jì)算機(jī)科學(xué),2008,35(1):221 -223.
[11] 許彪,李明楚.基于終身學(xué)習(xí)RBF 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全態(tài)勢預(yù)測[EB/OL].[2014-10-17].http://www.paper.edu.cn/html/releasepaper/2008/09/690/.
[12] 張思龍. 微博熱點(diǎn)話題預(yù)判技術(shù)研究[D]. 鄭州:中國人民解放軍信息工程大學(xué)圖書館,2013.
[13] JANSEN B J,ZHANG M,SOBEL K,et al. Twitter power:tweets as electronic word of mouth[J]. Journal of the American Society for Information Science and Technology,2009,11(60):2169 -2188.