陳振春 劉學軍 李 斌
(南京工業(yè)大學計算機科學與技術學院 江蘇 南京 211816)
基于內容和信任度的輿情擴散研究
陳振春 劉學軍 李 斌
(南京工業(yè)大學計算機科學與技術學院 江蘇 南京 211816)
為提高微博網(wǎng)絡中預測輿情轉發(fā)規(guī)模和擴散深度的準確度,提出一種基于內容和信任度的輿情擴散預測算法。首先,依據(jù)微博網(wǎng)絡中用戶和輿情的內容信息,提取影響輿情擴散的特征指標,同時,結合用戶間的信任關系,建立在單一鄰居已轉發(fā)輿情情況下用戶轉發(fā)行為的預測模型。繼而,基于該模型和線性閾值模型,對多鄰居已轉發(fā)輿情的情況進行深入分析,最終完成對輿情轉發(fā)規(guī)模和擴散深度的預測。實驗結果表明,該算法顯著提高了轉發(fā)規(guī)模和擴散深度的預測準確性。
輿情 內容 信任度 轉發(fā)規(guī)模 擴散深度 預測
隨著科學技術的發(fā)展,社會網(wǎng)絡作為一種網(wǎng)絡應用,為用戶提供了信息共享和交互式服務,逐漸變成了輿情擴散的重要平臺。如新浪微博,作為國內最大的社會網(wǎng)絡,截止2015年9月30日,僅微博日均活躍用戶數(shù)(DAU)已達到1億,月活躍用戶數(shù)(MAU)達到2.22億。在微博網(wǎng)絡中用戶可以通過手機終端在任意時間進行訪問和交互,高效的信息交互模式極大地縮短了輿情產(chǎn)生和擴散的時間。
目前主要的輿情擴散預測方法包括基于內容的預測、基于信息擴散模型與內容的預測、基于時間序列的預測等。其中基于內容的預測是目前微博網(wǎng)絡上輿情擴散預測研究中所采用的最為重要也是最成功的技術之一,其認為要分析用戶的轉發(fā)行為[1-2],首先要從用戶、輿情中提取內容,然后建立用戶轉發(fā)行為的預測模型?;诖四P瓦M行各項研究,如輿情的變化狀態(tài)(包括輿情的產(chǎn)生、發(fā)展和衰落)、輿情分析系統(tǒng)的建立,以及輿情擴散預測等。
目前已有的輿情擴散預測算法在預測接收用戶的轉發(fā)行為時,通常僅僅依靠內容信息,而忽略了接收用戶對傳播用戶的信任關系。且在研究中只考慮在單一鄰居已轉發(fā)輿情的情況下接收用戶的轉發(fā)行為,忽略了已轉發(fā)了某一輿情的多鄰居對接收用戶的影響,從而導致預測結果的片面性。針對上述問題,本文從內容信息和用戶間的信任關系出發(fā),提出了一種基于內容和信任度的輿情擴散預測算法CT-PODP。
近年來國內外學者對輿情擴散預測開展了一系列工作。Xu等[3]提出了傾向性預測算法來預測網(wǎng)絡輿情的發(fā)展狀況,作者首先將輿情分為產(chǎn)生、發(fā)展、消亡三個階段,然后用二次方程式方法預測輿情的走向。Hong等[4]提出了基于復雜網(wǎng)絡的建模方法,將微博作為研究對象,通過產(chǎn)生邊、增加邊、隨機增加邊的方式來反映用戶行為和微博輿情傳播的特性,于是建立起了微博網(wǎng)絡輿情的增長模式;再利用MATLAB工具箱建立起了仿真模型,以便有助于發(fā)現(xiàn)傳播過程中微博網(wǎng)絡輿情增長規(guī)律。Zhao等[5]考慮了節(jié)點度、社會網(wǎng)絡獨特的擴散規(guī)則以及用戶習慣等特性,利用傳播學和復雜網(wǎng)絡理論,提出了在社會網(wǎng)絡中基于SEIR的輿情傳播模型。通過用戶的參與度和輿情主題的流行度來研究輿情擴散率。周東浩等[6]從多個角度提取信息傳播特性,包含節(jié)點屬性和信息內容的特征,對節(jié)點間的傳播概率和傳播延遲進行建模,基于AsIC模型提出一個細粒度的在線社會網(wǎng)絡信息傳播模型。Zhao等[7]基于跟隨者的意圖和影響力提出了信息轉發(fā)量預測模型BCI。在這個模型中,信息主要來自直接跟隨者和間接跟隨者,且跟隨者的轉發(fā)量主要由他們的轉發(fā)意圖和影響力決定,通過行為和內容信息來評估直接跟隨者的轉發(fā)意圖,用影響力來評估間接跟隨者的轉發(fā)量。Ding等[8]研究了轉發(fā)活動中所用的反應時間,并引入了時間序列的預測模型,該研究表明反應時間具有重尾分布特性,且對數(shù)正態(tài)分布能很好地擬合反應時間的數(shù)據(jù)。在時間序列預測框架下,對于直接的轉發(fā)者,作者通過解決截斷對數(shù)正態(tài)分布的參數(shù)評估問題做出預測;對于間接的轉發(fā)者,作者基于通用的信息擴散理論做出預測。Hong等[9]等人通過測量信息轉發(fā)量的方式來研究其流行度的問題,并闡述了在推特上影響信息擴散的因素,進而預測信息是否會被轉發(fā)。Adali等[10]認為信任是用戶間重要的社會關系,在算法上提出了對信任關系的量化標準,即通過觀察社會網(wǎng)絡中的通信行為來量化信任關系。Hou等[11]基于轉發(fā)行為的分析,提出了預測信息轉發(fā)規(guī)模和擴散深度的算法,然而該算法沒有考慮用戶間的信任關系,在多鄰居作用下的用戶轉發(fā)預測也需要優(yōu)化、改進。
本文在前人研究的基礎上,改進了輿情轉發(fā)行為的預測模型,提出了基于內容和信任度的輿情轉發(fā)規(guī)模與擴散深度的預測算法,從而使得預測用戶的轉發(fā)行為、輿情轉發(fā)規(guī)模和擴散深度更準確。本文通過研究三個方面來分析擴散預測效果。第一,微博中轉發(fā)行為的預測,即用戶是否會轉發(fā)某一輿情;第二,輿情的轉發(fā)規(guī)模,即轉發(fā)某一輿情的用戶總數(shù);第三,輿情的擴散深度,即輿情的最遠傳播距離。對這三個問題的研究有助于捕捉現(xiàn)實生活中發(fā)生的輿情熱點,了解微博社會網(wǎng)絡中的擴散機制,且在市場應用、輿情監(jiān)管方面起到重要作用。
給定一個有向無權圖G(V,E)來表示微博網(wǎng)絡,u∈V是網(wǎng)絡中的節(jié)點集合,u代表著微博用戶,∈E表示節(jié)點之間邊的集合,代表著用戶間的關注關系,圖1中箭頭所指的方向表示輿情的擴散方向。當用戶v發(fā)布了一條輿情后,他的粉絲們有可能看見它,如果對其感興趣,有一定概率轉發(fā)這條輿情。圖1所示的就是輿情擴散圖。
圖1中實心圓表示轉發(fā)用戶,處于傳播狀態(tài);空心圓表示非轉發(fā)用戶;雙圓表示發(fā)布用戶,即輿情的原創(chuàng)用戶。
在微博網(wǎng)絡中,影響輿情擴散的因素有很多,諸如傳播用戶對接收用戶的影響力、接收用戶對輿情的喜好程度以及輿情自身的流行度等。除了考慮這些內容因素外,還需要考慮用戶間的信任度,且信任度越大,接收用戶轉發(fā)的可能性也就越大。
本文根據(jù)影響輿情擴散的因素以及信任關系,綜合度量微博用戶的轉發(fā)行為,并給出了具體的計算方法。
傳播用戶影響力In(u):即傳播用戶對鄰接用戶在轉發(fā)行為方面的影響程度。相關研究表明,傳播用戶的影響力是影響用戶轉發(fā)行為的重要因素[12],且社會網(wǎng)絡中擁有大量跟隨者的用戶更有可能成為有影響力的節(jié)點,這意味著他們的輿情有更大的概率被他人轉發(fā)。在社會網(wǎng)絡中,PageRank算法經(jīng)常用來評估用戶的影響力。因為社會網(wǎng)絡中用戶的跟隨者可被認為網(wǎng)頁中的入鏈,其關注的用戶類似網(wǎng)頁中的出鏈,所以算法可使用用戶關系特征來測量用戶影響力。初始時賦予所有用戶相同的影響力權重,In(u)值為1;然后將每個用戶的影響力權重按照其關注的人數(shù)等量分配;最終根據(jù)式(1)計算用戶新的影響力值In(u)。PageRank算法是在搜索引擎中確定網(wǎng)頁重要性的方法,其計算公式如下:
(1)
In(ui)是用戶ui的影響力,I(ui)是用戶u的跟隨者集合,O(vj)是用戶vj所指向的用戶集合。
d為0~1 之間的一個阻尼系數(shù),取d為0.85[13]使最后結果收斂。
為了避免對度量單位選擇的依賴性,需要對數(shù)據(jù)進行規(guī)范化處理,以解決數(shù)據(jù)指標之間的可比性。記社會網(wǎng)絡中用戶所擁有最大入度為Max(InDegree),該用戶擁有最大的粉絲量。
(2)
接收用戶興趣度Sim(u,w):即接收用戶對輿情感興趣的程度。由于TF-IDF算法簡單快速,結果比較符合實際情況。所以本文首先將用戶過去一段時間內發(fā)布的輿情匯總成一篇文檔,用詞項的TF-IDF值構建文檔向量U。同樣的方法也用于構建輿情的文檔向量W。采用余弦相似度計算接收用戶對輿情的感興趣程度。
(3)
其中,U、W分別代表用戶u和輿情w的文檔向量。Sim(u,w)越大,接收用戶對輿情越感興趣;Sim(u,w)越小,接收用戶對輿情興趣度很低或不感興趣。
輿情流行度Popularity(w):即輿情被微博用戶關注的程度,可用當前輿情的轉發(fā)量Tw(w)進行衡量,因為轉發(fā)量越大,輿情越流行。微博用戶可直接轉發(fā)或間接轉發(fā)輿情。因為輿情轉發(fā)量數(shù)值可能會很大,因此需對其進行歸一化處理。
(4)
在輿情傳播的過程中,信任機制也起到了重要作用。當接收用戶對傳播用戶很信任時,該用戶越容易轉發(fā)其輿情;當對傳播用戶信任度很低或不信任時,其轉發(fā)輿情的可能性就很小。在一時間段t內,接收用戶u轉發(fā)傳播用戶v微博的數(shù)量與v所有微博數(shù)量的比率。
(5)
ri是接收用戶在第i天轉發(fā)微博的數(shù)量;All是傳播用戶在時間段t內所有微博的數(shù)量,包括用戶v轉發(fā)、發(fā)布、評論等行為產(chǎn)生的微博。
邏輯回歸是解決二分類問題一種有效方式,在此我們使用它來對接收用戶的轉發(fā)率進行計算。
g(u)=p(yu|u,v,w)=
(6)
式(6)考慮內容信息的同時,也考慮了信任度,通過基于內容和信任度的加權融合來對用戶的轉發(fā)行為進行預測。調和級數(shù)α表示權重(0≤α≤1)。當α越大時,信任關系在輿情擴散過程中越重要;當α越小時,用戶、輿情中的內容在輿情擴散過程中起到主導作用。
在接收用戶u、傳播用戶v,以及輿情消息w已知的條件下,p(yu|u,v,w)就是接收用戶u對用戶v擴散的輿情w的轉發(fā)率。
Cu是用戶u轉發(fā)行為的特征集合,包括:傳播用戶影響力InNomalized(v)、接收用戶興趣度Sim(u,w)、輿情流行度Popularity(w),ω表示其不同特性對轉發(fā)行為重要性的特征向量;ω可通過比較方便的最大似然函數(shù)的方法獲得。
(7)
這位家長稱:“名字挺好——《葉問》,一年級才學一個半月,字都寫不了幾個,要完成科學老師完全沒有帶過的12頁手寫項目學習報告,我看,名字還是改成《咋整》吧?!边@位爸爸是個工科男,花了整整兩天完成作業(yè),“更氣人的是,有一項還要收集一棵樹不同時期的樹葉,坑死了,上哪找去?”
(8)
(9)
通過分析2.3節(jié)提出的轉發(fā)行為預測模型,可以得出如下結論:在微博網(wǎng)絡中,當用戶接收到某一輿情時,就能獲取到其轉發(fā)該輿情的概率?;诖耍竟?jié)進一步研究了微博網(wǎng)絡中輿情的轉發(fā)規(guī)模和擴散深度。假定微博網(wǎng)絡中用戶有兩種狀態(tài):激活狀態(tài)、免疫轉態(tài)。實心圓表示用戶處于激活狀態(tài),即用戶轉發(fā)了輿情;空心圓表示用戶處于免疫狀態(tài),即用戶未轉發(fā)輿情。距離中間節(jié)點最遠的傳播用戶與發(fā)布用戶的距離代表著輿情擴散的最長路徑。為了描述方便,我們定義距離發(fā)布用戶為1的跟隨用戶為第1級跟隨者;如果距離為m,我們定義其為m級跟隨者。
由于輿情沿著用戶間關系進行擴散,因此,從發(fā)布用戶開始,遍歷跟隨用戶來預測每個用戶的轉發(fā)行為,當接收用戶的轉發(fā)率大于給定的閾值時,則判定該用戶轉發(fā)該輿情,反之,則判定其沒有轉發(fā)。然后,對轉發(fā)輿情的用戶進行遍歷,重復上面的過程,直到?jīng)]有傳播用戶為止,最終獲得轉發(fā)輿情的用戶集合。
輿情擴散預測的主要流程如圖2所示。
圖2 輿情擴散流程
圖3 社會網(wǎng)絡中多鄰居已轉發(fā)輿情的情形
此時,上節(jié)給出的公式并不適用,但為研究多個鄰接傳播用戶情形下計算接收用戶的轉發(fā)率提供了基礎。
(10)
(11)
為了使轉發(fā)率進行歸一化,在此引入了2.1節(jié)提出的社會網(wǎng)絡中最大入度Max(InDegree)。該公式適用于研究一個或多個鄰接傳播用戶影響下接收用戶轉發(fā)輿情的可能性。
因此可以通過比較歸一化后的轉發(fā)率與閾值θ的大小來判斷用戶是否轉發(fā)了輿情,同時記錄當前輿情的轉發(fā)量。當用戶的轉發(fā)率滿足等式(12),m的最大值就是擴散深度Rd。
(12)
最后計算集合A(N)中的用戶總量,轉發(fā)規(guī)模Rs=count(A(N))。
根據(jù)上述算法思想,結合圖2中輿情擴散流程,給出基于內容和信任度的輿情擴散預測算法(CT-PODP)如下:
輸入:G(V,E),發(fā)布用戶u,輿情w,轉發(fā)u的輿情的用戶集合A(N),u的第m級轉發(fā)輿情的用戶集合Am
輸出:轉發(fā)規(guī)模Rs,擴散深度Rd
Begin
1)A(N)←φ,Am(N)←φ,Rs←0,Rd←0,m←0,t←1;
2)Am(N)←u;
3) For each userj∈Am(N)
4)Fj←j的跟隨著集合;
5) For each userk∈Fj
6) 根據(jù)式(11)計算轉發(fā)率g(k);
7) If(g(k)≥θ)
8)At(N)←k;
9) End for
10) End for
11)A(N)←At(N);
12) If(At(N)==?)
13) 根據(jù)式(12)獲取Rd;
14)Rs←count(A(N));
15) Else
16)m←t;
17)t←t+1;
18) 重復步驟3;
End
本實驗數(shù)據(jù)來自新浪微博開放的API接口(http://open.weibo.com/wiki/微博API)。從指定用戶出發(fā),獲取其用戶信息和發(fā)布的輿情。接著對他的跟隨者做同樣的爬蟲行為。通過不斷地重復以上步驟,最終獲取到數(shù)據(jù)集。本實驗獲取從2015年4月1日至2015年4月30日的微博數(shù)據(jù),統(tǒng)計出用戶數(shù)量是7 000,微博總量是330 763,其中原創(chuàng)微博數(shù)量是110 157。
數(shù)據(jù)按時間分為兩部分。一部分為訓練集,它包括4月1日至4月15日所爬取的數(shù)據(jù),微博數(shù)量為175 114,這些數(shù)據(jù)用于建立轉發(fā)行為的預測模型。另一部分作為測試數(shù)據(jù)來測試模型的性能,微博數(shù)量為155 649,轉發(fā)量為98 385,剩余的就是未轉發(fā)微博的數(shù)量。
為了評估轉發(fā)預測模型的影響,本文采用混淆矩陣展示預測結果。
表1 混淆矩陣
其中a、b、c、d分別表示每種情況的百分比。我們采用準確率Acc來評估預測效果,作為選擇閾值α的標準。
(13)
本文在計算接收用戶轉發(fā)輿情的概率時引入了權重α,通過研究α調節(jié)內容和信任機制所占的比重,以獲得最優(yōu)擴散預測效果。因此選擇恰當?shù)臋嘀卅翆︻A測擴散準確率起著至關重要的作用。我們以權重α的取值為橫坐標,縱坐標為準確率Acc。
從圖4可以看出,當α=0.18時,準確率Acc最大,值為0.902,擴散預測效果最好。當α=0時,即只考慮內容,忽略用戶間的信任關系,此時準確率Acc不是很高;隨著α的逐步增加至0.18時,Acc值逐步增大;權重α繼續(xù)逐步遞增,并越來越趨向于1,準確率又逐步遞減,在α=1時達到最小值0.51。準確率始終高于α=1和低于α=0.18時的Acc值。通過實驗,我們認為權重α在輿情擴散中起著重要作用,只有選擇恰當?shù)摩敛拍塬@取最佳擴散效果,準確率才能最高。在接下來的實驗中,將權重α的值均設置為0.18進行實驗。
圖4 準確率Acc隨著權重α的變化
與上述評估標準一樣,本節(jié)也采用Acc作為選擇閾值θ的標準。且社會網(wǎng)絡中最大入度取值500,即爬取的社會網(wǎng)絡中用戶所擁有的最大粉絲量為500個。
圖5顯示了準確率Acc和閾值θ之間的關系。隨著θ值的增長,準確率Acc在θ取值0.001 6時到達最大值,值為90.2%。隨后,隨著θ的增長和轉發(fā)率的歸一化,準確率急劇下降。這個現(xiàn)象顯示了存在一個合理的θ值使預測性能最優(yōu)。因此,我們選擇0.001 6作為閾值θ的值。實際的預測結果在表2中展示出來。
圖5 準確率Acc隨著閾值θ的變化
預測轉發(fā)預測未轉發(fā)實際轉發(fā)89.3%10.7%實際未轉發(fā)9.98%90.02%
從表2中,我們可以發(fā)現(xiàn)正式事件的預測準確率為89.67%。
根據(jù)文獻[8,11],我們可以得知轉發(fā)規(guī)模的分布極不平衡,具有長尾分布的特征,且其符合冪率分布。因此在預測輿情轉發(fā)規(guī)模時,可以定義一個范圍來評價預測結果。
假設實際轉發(fā)規(guī)模是Np,預測規(guī)模是Nf。當精度滿足式(14)時,則認為預測的轉發(fā)規(guī)模是可接受的。
(14)
其中「·?表示向上取整,?·」表示向下取整。
首先,我們選擇1 800名用戶,他們的微博已經(jīng)被轉發(fā)且轉發(fā)規(guī)模相當大。于是我們基于所提出的算法,對被選擇用戶的20 017條原創(chuàng)微博做出預測,計算了每個用戶的預測準確率。圖6顯示了按式(13)得到的轉發(fā)規(guī)模準確率分布。
圖6 轉發(fā)規(guī)模預測的準確率
在圖6中,藍色點是各種用戶的準確率分布,可見,對于這些用戶的預測準確率絕大多數(shù)都在81%以上,算法對93%的用戶有較好的預測,只有對一小部分用戶的預測效果是不理想的,對這1 800個用戶預測的準確率平均值是89.3%。我們根據(jù)式(14)評價轉發(fā)規(guī)模的精度,上述預測精度是可接受的。
平均絕對偏差MAE(Mean Absolute Error)[7]是一種統(tǒng)計精度的度量方法,同時也是最常用的一種預測擴散效果的度量方法。因此采用MAE對這1 800個轉發(fā)規(guī)模大的用戶在轉發(fā)規(guī)模和擴散深度方面和其他算法進行衡量。
(15)
n表示被選擇用戶總共發(fā)布的微博數(shù)量,且用戶數(shù)量依次取值200、400、600、800、1 000、1 200、1 400、1 600、1 800。針對圖7,式(15)中pi是第i條微博轉發(fā)規(guī)模的預測值,ri是轉發(fā)規(guī)模的實際值;針對圖8,式(15)中pi是第i條微博擴散深度的預測值,ri是擴散深度的實際值。MAE越小,算法的效率越高,也就是說預測值越接近實際值。
本實驗的目的是評價CT-PODP算法預測轉發(fā)規(guī)模和擴散深度的準確性,將本文提出的基于內容和信任度的輿情擴散算法(CT-PODP)與基于用戶行為、推文內容、跟隨者影響力的預測算法(BCI)[7]和基于對數(shù)正態(tài)分布的轉發(fā)預測算(Log-Normal)[8]進行了實驗對比,實驗結果如圖7、圖8所示。
圖7 CT-PODP算法與其他擴散算法在轉發(fā)規(guī)模方面的比較
圖8 CT-PODP算法與其他擴散算法在擴散深度方面的比較
從圖7、圖8可以看出,隨著用戶數(shù)量增加,在預測轉發(fā)規(guī)模和擴散深度上的MAE值逐步減小,且更趨于穩(wěn)定化,且CT-PODP的 MAE值都明顯小于BCI、Log-Normal。由此可見,采用內容和信任度的擴散預測算法的預測效果都優(yōu)于BCI、Log-Normal,說明了將用戶間的信任度引入到輿情轉發(fā)預測模型中,結合線性閾值模型研究轉發(fā)率,可以改善轉發(fā)規(guī)模和擴散深度的預測效果。因此,我們得到結論:同時使用內容和用戶信任度的預測算法比單獨使用內容的預測算法更有效果,即本文提出的基于內容和信任度的輿情擴散預測算法CT-PODP取得的效果最優(yōu)。
隨著互聯(lián)網(wǎng)的迅速發(fā)展,現(xiàn)在已有的輿情擴散算法在其預測精度上已遠遠不能滿足用戶的需求,為此本文提出了一種基于內容和信任度的輿情擴散預測算法。從內容信息出發(fā),結合用戶間的信任機制來完成對轉發(fā)行為的預測,運用線性閾值模型改善多個鄰接傳播用戶已轉發(fā)輿情的情形,并給出了CT-PODP算法的具體實現(xiàn)過程,該算法有效地提高了預測精度。
本文所提出的算法適用于中小型網(wǎng)絡,對提高大型網(wǎng)絡中輿情轉發(fā)規(guī)模及擴散深度的準確率和效率將是下一步的研究重點。
[1] Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th ACM international conference on Information and knowledge management.ACM,2010:1633-1636.
[2] Xu Z,Yang Q.Analyzing user retweet behavior on twitter[C]//Proceedings of the 2012 International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012).IEEE Computer Society,2012:46-50.
[3] Xu B,Zhou H,Ge Y.Quick tendency forecast on Internet public opinions[C]//Fuzzy Systems and Knowledge Discovery (FSKD),2010 Seventh International Conference on,2010:2493-2497.
[4] Jia H Y,Hao J W,Qiu C Z.A model for studying public opinion hotspot growth regulation in microblog network[C]//Management Science and Engineering (ICMSE),2013 International Conference on.IEEE,2013:173-178.
[5] Zhao J,Cheng J,Gao H.Public Opinion Propagation Model on Social Networks[C]//Computational Sciences and Optimization (CSO),2014 Seventh International Joint Conference on.IEEE,2014:325-328.
[6] 周東浩,韓文報,王勇軍.基于節(jié)點和信息特征的社會網(wǎng)絡信息傳播模型[J].計算機研究與發(fā)展,2015,52(1):156-166.
[7] Zhao H,Liu G,Shi C,et al.A Retweet Number Prediction Model Based on Followers’ Retweet Intention and Influence[C]//IEEE International Conference on Data Mining Workshop.IEEE,2014:952-959.
[8] Ding H,Wu J.Predicting Retweet Scale Using Log-Normal Distribution[C]//IEEE International Conference on Multimedia Big Data.IEEE Computer Society,2015:56-63.
[9] Hong L,Dan O,Davison B D.Predicting popular messages in twitter[C]//Proceedings of the 20th international conference companion on World wide web.ACM,2011:57-58.
[10] Adali S,Escriva R,Goldberg M K,et al.Measuring behavioral trust in social networks[C]//Intelligence and Security Informatics (ISI),2010 IEEE International Conference on.IEEE,2010:150-152.
[11] Hou W,Huang Y,Zhang K.Research of micro-blog diffusion effect based on analysis of retweet behavior[C]//Cognitive Informatics & Cognitive Computing,2015 IEEE 14th International Conference on.IEEE,2015:255-261.
[12] Cha M,Haddadi H,Benevenuto F,et al.Measuring User Influence in Twitter:The Million Follower Fallacy[C]//International Conference on Weblogs and Social Media,Icwsm 2010,Washington,Dc,Usa,May.DBLP,2010.
[13] Gupta S,Duhan N,Bansal P,et al.Page ranking algorithms in online digital libraries:A survey[C]//Reliability,Infocom Technologies and Optimization (ICRITO)(Trends and Future Directions),2014 3rd International Conference on.IEEE,2014:1-6.
[14] 李棟,徐志明,李生,等.在線社會網(wǎng)絡中信息擴散[J].計算機學報,2014,37(1):189-206.
PUBLICOPINIONDIFFUSIONPREDICTIONALGORITHMBASEDONCONTENTANDTRUSTDEGREE
Chen Zhenchun Liu Xuejun Li Bin
(CollegeofComputerScienceandTechnology,NanjingTechUniversity,Nanjing211816,Jiangsu,China)
To improve the public opinion’s retweet scale and diffusion depth of prediction accuracy in microblogging network, a public opinion diffusion prediction algorithm based on content and trust degree is proposed. First, according to the content about users and public opinions from microblogging networks, the characteristic index influencing public opinion diffusion is extracted. Meanwhile, the algorithm obtains the trust relationship between users. Thus, the model of predicting user’s retweeting behavior is established with only single neighbor who had retweeted the public opinion. Based on the above public opinion diffusion model and linear threshold model, a deep research on many neighbors who had retweeted the public opinion is done. Finally, the prediction about retweet scale and diffusion depth is completed. Meanwhile, the experimental results show that the algorithm improves the accuracy of predicting retweet scale and diffusion depth obviously.
Public opinion Content Trust degree Retweet scale Diffusion depth Prediction
TP301
A
10.3969/j.issn.1000-386x.2017.10.010
2016-10-29。國家自然科學基金項目(61203072);江蘇省重點研發(fā)計劃(社會發(fā)展)項目(BE2015697)。陳振春,碩士生,主研領域:輿情分析,數(shù)據(jù)挖掘。劉學軍,教授。李斌,講師。