葉 鴻,張勤學(xué)
(華南理工大學(xué),廣東 廣州 510641)
在線網(wǎng)絡(luò)的普及和網(wǎng)絡(luò)技術(shù)的發(fā)展,促進(jìn)了線下網(wǎng)絡(luò)和線上網(wǎng)絡(luò)的融合,微博熱點(diǎn)事件特點(diǎn)的顯著性越來越大[1]。微博中熱點(diǎn)事件的演化會(huì)引發(fā)群體性事件,對(duì)社會(huì)的穩(wěn)定產(chǎn)生一定的影響[2]。熱點(diǎn)事件在現(xiàn)實(shí)社會(huì)中不僅通過人們口述相傳,也在BBS論壇、微信、微博等互聯(lián)網(wǎng)平臺(tái)中進(jìn)行演化和傳播。因?yàn)樯鐣?huì)結(jié)構(gòu)與網(wǎng)絡(luò)結(jié)構(gòu)不同,因此在不同傳播領(lǐng)域中微博熱點(diǎn)事件的特點(diǎn)之間存在差異[3]。在上述背景下,研究微博熱點(diǎn)事件的演化過程具有重要意義[4]。
康偉等[5]提出基于SD模型的微博熱點(diǎn)事件演化方法,該方法以調(diào)研數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和文獻(xiàn)分析為基礎(chǔ),提煉影響微博熱點(diǎn)事件演化的因素,通過系統(tǒng)動(dòng)力學(xué)方法建立SD模型,利用SD模型對(duì)微博熱點(diǎn)事件的演化過程進(jìn)行模擬,該方法沒有分析微博信息在網(wǎng)絡(luò)中的傳播特點(diǎn),在熱點(diǎn)事件傳播過程中獲得的反對(duì)人數(shù)變化趨勢(shì)誤差較大,存在演化精準(zhǔn)度低的問題。孫冰[6]提出基于科學(xué)知識(shí)圖譜視角的微博熱點(diǎn)事件演化方法,該方法將Web of Science核心集數(shù)據(jù)庫中的文獻(xiàn)作為樣本數(shù)據(jù),在CiteSpace軟件中對(duì)樣本數(shù)據(jù)進(jìn)行知識(shí)圖譜分析,獲得關(guān)鍵詞被引和時(shí)空分布等知識(shí)圖譜,實(shí)現(xiàn)微博熱點(diǎn)事件演化的分析,該方法沒有構(gòu)建信息傳播模型,無法準(zhǔn)確的獲取支持人數(shù)在微博熱點(diǎn)事件演化過程中的變化情況,導(dǎo)致演化精準(zhǔn)度較低。朱立龍等[7]運(yùn)用系統(tǒng)動(dòng)態(tài)演化路徑圖和Matlab 2016軟件分析不同策略選擇的演變趨勢(shì),求解了不同情況下演化博弈的穩(wěn)定均衡解,討論對(duì)兩個(gè)行為主體演化策略的影響,但是其忽略了信息傳播機(jī)制。
為了解決上述方法中存在的問題,提出基于用戶行為屬性的微博熱點(diǎn)事件演化仿真,其關(guān)鍵在于通過分析熱點(diǎn)事件信息在微博中的傳播特點(diǎn),分析用戶行為屬性,對(duì)微博熱點(diǎn)事件的演化過程進(jìn)行模擬,以圖提高演化結(jié)果的精準(zhǔn)度。
基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法以Python為主要工具利用網(wǎng)絡(luò)爬蟲獲取微博信息。
在數(shù)據(jù)挖掘中,信息獲取涉及到人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、決策分析、文本處理等多個(gè)領(lǐng)域,是一項(xiàng)重要技術(shù)。微博文本信息獲取包括微博文本拓?fù)浍@取、結(jié)構(gòu)獲取和內(nèi)容獲取等。在微博網(wǎng)絡(luò)中非結(jié)構(gòu)化信息的采集和處理過程中,將統(tǒng)一格式的數(shù)據(jù)文件存儲(chǔ)在本地?cái)?shù)據(jù)庫中,涉及正則表達(dá)式、數(shù)據(jù)結(jié)構(gòu)和網(wǎng)絡(luò)爬蟲等關(guān)鍵技術(shù)。
網(wǎng)絡(luò)爬蟲根據(jù)設(shè)定的規(guī)則遍歷微博信息,自動(dòng)獲取微博信息的腳本或程序。通常情況下網(wǎng)絡(luò)爬蟲分為以下兩種:
1)在互聯(lián)網(wǎng)上,搜索引擎提供商設(shè)計(jì)的網(wǎng)絡(luò)爬蟲可以利用網(wǎng)頁中的鏈接來實(shí)現(xiàn)跳轉(zhuǎn),并收集不同微博頁面的信息。網(wǎng)絡(luò)搜索引擎利用網(wǎng)絡(luò)爬蟲獲得的信息建立相關(guān)引擎,用戶在通過已建立的搜索引擎搜索相關(guān)信息時(shí)將獲得所需的信息和數(shù)據(jù)[8]。
2)抓取指定網(wǎng)站中存在的數(shù)據(jù),采集用戶所需的信息。
基于Python的網(wǎng)絡(luò)爬蟲采集信息的過程為:在種子采集中,微博頁面內(nèi)容和頁面中的鏈接都是通過網(wǎng)絡(luò)獲取的。網(wǎng)絡(luò)爬蟲利用網(wǎng)頁中的鏈接獲取下層子網(wǎng)頁中存在的信息,并對(duì)收集到的信息進(jìn)行分類整理?;赑ython的網(wǎng)絡(luò)爬蟲信息采集結(jié)構(gòu)如圖1所示。
圖1 基于Python的網(wǎng)絡(luò)爬蟲信息采集結(jié)構(gòu)
基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法利用上述結(jié)構(gòu)采集的信息構(gòu)建信息傳播模型,模型假設(shè)條件為:當(dāng)網(wǎng)絡(luò)處于全端可用度的情況,此時(shí)的傳播規(guī)則是在網(wǎng)絡(luò)中所確認(rèn)的傳播節(jié)點(diǎn)感染的可識(shí)別性。
設(shè)s(k,t)表示無知節(jié)點(diǎn)在t時(shí)刻的密度;c(k,t)表示接觸節(jié)點(diǎn)在t時(shí)刻的密度;i(k,t)表示感染節(jié)點(diǎn)在t時(shí)刻的密度;r(k,t)表示免疫節(jié)點(diǎn)在t時(shí)刻的密度;psi(k,t)表示在時(shí)間間隔[t,t+Δt]內(nèi)無知節(jié)點(diǎn)被感染的概率;pci(k,t)表示在時(shí)間間隔[t,t+Δt]內(nèi)接觸節(jié)點(diǎn)被感染的概率。無知節(jié)點(diǎn)在網(wǎng)絡(luò)中通過傳播節(jié)點(diǎn)感染,因此度k節(jié)點(diǎn)在網(wǎng)絡(luò)中平均感染鄰居的密度P1可通過下述公式計(jì)算得到
(1)
式中,P(k′|k)表示節(jié)點(diǎn)度在網(wǎng)絡(luò)G中的相關(guān)性。
在網(wǎng)絡(luò)內(nèi)指定源S的可用度AG為:
(2)
式中,表示節(jié)點(diǎn)度子參數(shù)反衍系數(shù),P表示微博信息規(guī)則遍歷次數(shù)。
定義網(wǎng)絡(luò)內(nèi)處于維修狀態(tài)下,G網(wǎng)絡(luò)的隨意一個(gè)節(jié)點(diǎn)間維持連通概率,即為網(wǎng)絡(luò)全端的可用度,標(biāo)記成AG全端。在鏈路、節(jié)點(diǎn)故障率以及修復(fù)率都相等時(shí),具體網(wǎng)絡(luò)的全端可用度AG全端公式為
(3)
在網(wǎng)絡(luò)G處于維修的狀態(tài)下,通信網(wǎng)絡(luò)G內(nèi)規(guī)定兩個(gè)節(jié)點(diǎn)s-t間最少具有一條通路概率fi,即為網(wǎng)絡(luò)端對(duì)端的可用度,標(biāo)記成AG端穩(wěn),在保證網(wǎng)絡(luò)可用度最高即AG端穩(wěn)最大的情況下,密度的變換量如下
(4)
在上式的基礎(chǔ)上獲得感染節(jié)點(diǎn)密度i(k,t)的變化率
(5)
同理獲得t時(shí)刻無知節(jié)點(diǎn)密度s(k,t)、接觸節(jié)點(diǎn)密度c(k,t)和免疫節(jié)點(diǎn)密度r(k,t)的變化率
(6)
?tr(k,t)=δ×c(k,t)
(7)
對(duì)上述公式進(jìn)行積分處理,獲得下式
s(k,t)=s(k,0)exp[-kφ(t)]
(8)
其中,參數(shù)φ(t)的計(jì)算公式如下
(9)
通過上述分析,構(gòu)建信息傳播模型
(10)
式中,δ為狄拉克函數(shù)下的密度分布系數(shù),λ為密度比不變的調(diào)節(jié)因子。
基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法,在信息傳播模型的基礎(chǔ)上分析用戶在微博熱點(diǎn)事件演化過程中的行為屬性。
設(shè)A表示采納或支持事件;B為拒絕或反對(duì)事件。個(gè)體對(duì)事件的認(rèn)可程度可以通過個(gè)體的內(nèi)在觀點(diǎn)進(jìn)行反映,設(shè)pA表示個(gè)體對(duì)A的內(nèi)在觀點(diǎn);pB表示個(gè)體對(duì)B的內(nèi)在觀點(diǎn),兩者之間符合下式
(11)
設(shè)p表示個(gè)體對(duì)事件A的內(nèi)在觀點(diǎn),當(dāng)p的值為1時(shí),表明針對(duì)事件A,個(gè)體持完全同意的觀點(diǎn);當(dāng)p的值為0時(shí),表明針對(duì)事件A,個(gè)體持完全反對(duì)的觀點(diǎn)。設(shè)置對(duì)數(shù)偏好Odd,在區(qū)間-∞ (12) 個(gè)體的觀點(diǎn)傾向也可以通過外在行為σ進(jìn)行反映,外在行為σ的表達(dá)式如下 (13) 在n時(shí)間步長內(nèi),節(jié)點(diǎn)i的外在行為、對(duì)數(shù)偏好、對(duì)事件A的支持觀點(diǎn)分別用σi(n)、Oddi(n)和pi(n)進(jìn)行表示。 社會(huì)作用描述的是想象的、隱含的或真實(shí)的其它個(gè)體的行為或表現(xiàn),對(duì)個(gè)體事件能夠改變其行為、認(rèn)知和感受的作用效果[11-12]。由社會(huì)作用理論可知,在社會(huì)環(huán)境中社會(huì)作用力是由作用群體、作用直接性和作用源強(qiáng)度一起決定的,設(shè)i表示目標(biāo)個(gè)體在社會(huì)環(huán)境中受到的社會(huì)作用,其表達(dá)式如下 i=f(SIN) (14) 式中,f描述的是社會(huì)作用函數(shù);N描述的是作用群體對(duì)應(yīng)的規(guī)模、數(shù)量;I表示作用對(duì)應(yīng)的直接性,用來描述在空間或時(shí)間上作用個(gè)體與作用源之間的親疏度。 信息在傳統(tǒng)網(wǎng)絡(luò)中接觸的方式較為單一,可用統(tǒng)一的常量描述作用直接性,為了反映目標(biāo)個(gè)體受各個(gè)作用源的影響,用下式描述社會(huì)作用關(guān)系i i=Nts (15) 式中,指數(shù)t的作用是對(duì)個(gè)體數(shù)量增多產(chǎn)生的作用增益衰減現(xiàn)象進(jìn)行反映,在區(qū)間(0,1)內(nèi)取值,且相關(guān)實(shí)證數(shù)據(jù)分析研究表明,t取值在0.5附近波動(dòng);s表示社會(huì)作用力和相關(guān)常量特征在具體情境下縮放比例的綜合。 基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法在用戶行為屬性的基礎(chǔ)上實(shí)現(xiàn)微博熱點(diǎn)事件的演化,具體步驟如下: 1)設(shè)時(shí)間步長n=0為微博熱點(diǎn)事件演化的初始狀態(tài)。 2)節(jié)點(diǎn)i在第n時(shí)間步中觀察到其它個(gè)體在總數(shù)為N的群體中的外在行為,其中反對(duì)者和支持者的數(shù)量分別為Nn,-、Nn,+,兩者之間滿足下式 Nn,++Nn,-=N (16) 設(shè)impacti,+(n)表示支持者在微博熱點(diǎn)事件中施加的社會(huì)作用大?。籭mpacti,-(n)表示反對(duì)者在微博熱點(diǎn)事件中施加的社會(huì)作用大小 (17) 式中,dij表示節(jié)點(diǎn)i與節(jié)點(diǎn)j之間存在的距離。接受個(gè)體的距離、影響力強(qiáng)度、作用源和觀點(diǎn)強(qiáng)度都會(huì)對(duì)個(gè)體對(duì)應(yīng)的社會(huì)作用分量產(chǎn)生影響,基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法設(shè)定作用分量函數(shù)|σj(n)|=1。因此,在社會(huì)作用中個(gè)體的異質(zhì)性主要受到傳播距離和影響力的影響。 3)降低隨機(jī)因素產(chǎn)生的干擾。根據(jù)灰色系統(tǒng)理論定義參考數(shù)列C0與比較數(shù)列Ci之間存在的關(guān)聯(lián)系數(shù)ξi(j) (18) 其中,xi(j)為隨機(jī)因素影響量,即 (19) 其中 (20) 式中,j=1,2,…,m,Cj表示微博熱點(diǎn)事件間的關(guān)聯(lián)系數(shù),當(dāng)關(guān)聯(lián)系數(shù)越高,隨機(jī)因素影響量的影響程度越小,降低之間存在的差異顯著性,進(jìn)一步降低隨機(jī)因素產(chǎn)生的干擾。 4)勸說人群在本次觀點(diǎn)一次更新成功時(shí),獲得相應(yīng)的影響力反饋增益。勸說人群在影響力反饋機(jī)制的基礎(chǔ)上獲得一定影響力的增加量。 影響力反饋機(jī)制可通過下述公式進(jìn)行描述 (21) 式中,fk(n)描述的是指示函數(shù),當(dāng)判斷條件屬于真實(shí)值時(shí)指示函數(shù)的值為1;當(dāng)判斷條件屬于反之值時(shí),指示函數(shù)的值為0。 5)重復(fù)上述步驟2)-步驟4),當(dāng)系統(tǒng)穩(wěn)定或觀點(diǎn)收斂時(shí)停止迭代,完成微博熱點(diǎn)事件的演化。 為了驗(yàn)證基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法的整體有效性,需要對(duì)基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法進(jìn)行測(cè)試,本次測(cè)試所用的實(shí)驗(yàn)軟件為MyEclipse,實(shí)驗(yàn)來源為data.gov(https:∥www.data.gov/)數(shù)據(jù)集,從中隨機(jī)選取350個(gè)有關(guān)微博熱點(diǎn)事件演化趨勢(shì)的樣本集,從中選出最優(yōu)實(shí)驗(yàn)價(jià)值的某微博熱點(diǎn),本次研究中將其稱為熱點(diǎn)1,因該熱點(diǎn)參與人數(shù)眾多,因此,從中選取社會(huì)作用關(guān)系i相同的演化趨勢(shì)數(shù)據(jù)10000個(gè),在操作系統(tǒng)為 JDK 1.7,內(nèi)存為64G的實(shí)驗(yàn)環(huán)境中進(jìn)行對(duì)比實(shí)驗(yàn)。 分別采用基于用戶行為屬性的微博熱點(diǎn)事件演化仿真方法(方法1)、基于SD模型的微博熱點(diǎn)事件演化方法(方法2)和基于科學(xué)知識(shí)圖譜視角的微博熱點(diǎn)事件演化方法(方法3)對(duì)微博熱點(diǎn)事件演化過程進(jìn)行模擬,模擬微博熱點(diǎn)事件中支持人數(shù)和反對(duì)人數(shù)的變化,模擬結(jié)果如圖2所示。 圖2 不同方法的模擬結(jié)果 分析圖2中的數(shù)據(jù)可知,隨著微博熱點(diǎn)事件演化時(shí)間的不斷增加,方法1在演化模擬過程中獲得的支持人數(shù)和反對(duì)人數(shù)變化曲線與實(shí)際人數(shù)變化曲線基本相似,方法2和方法3在演化模擬過程中獲得的支持人數(shù)和反對(duì)人數(shù)變化曲線與實(shí)際人數(shù)變化曲線之間的誤差較大,通過分析可知,方法1在微博熱點(diǎn)事件中可準(zhǔn)確的模擬支持和反對(duì)人數(shù)的變化情況,表明方法1的演化精準(zhǔn)度較高,高達(dá)96%,因?yàn)榉椒?利用采集的微博信息構(gòu)建信息傳播模型,分析信息在微博中的傳播特點(diǎn),根據(jù)分析結(jié)果建立信息傳播模型,分析用戶在微博熱點(diǎn)事件中的行為屬性,根據(jù)分析結(jié)果模擬微博熱點(diǎn)事件的演化,提高了演化精準(zhǔn)度。 1)互聯(lián)網(wǎng)的發(fā)展成為人們進(jìn)行信息交流的重要平臺(tái),而微博獨(dú)特的組織模式促進(jìn)了觀點(diǎn)傳播的碎片化和網(wǎng)絡(luò)生態(tài)的復(fù)雜化,對(duì)此,提出了基于用戶行為屬性的微博熱點(diǎn)事件演化仿真。 2)針對(duì)微博熱點(diǎn)事件演化精準(zhǔn)度低的問題,構(gòu)建信息傳播模型并分析用戶在微博熱點(diǎn)事件中的行為屬性,其支持人數(shù)和反對(duì)人數(shù)的實(shí)際變化模擬程度與實(shí)際擬合度較高,達(dá)到96%和95%。 3)分析用戶行為屬性,根據(jù)分析結(jié)果在信息傳播模型的基礎(chǔ)上準(zhǔn)確的模擬微博熱點(diǎn)事件的演化過程,為網(wǎng)絡(luò)輿論的應(yīng)用和研究工作提供了重要依據(jù)。3.2 微博熱點(diǎn)事件演化仿真
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié)束語