鐘 磊 宋香榮 孫瑞娜
(1.新疆財(cái)經(jīng)大學(xué) 信息管理學(xué)院 烏魯木齊 830012;2.新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院 烏魯木齊 830012)
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計(jì)報(bào)告顯示,截至2020年3月,中國網(wǎng)民規(guī)模已經(jīng)達(dá)到9.04億,互聯(lián)網(wǎng)普及率達(dá)到64.5%,移動(dòng)互聯(lián)網(wǎng)用戶達(dá)13.19億[1]。網(wǎng)絡(luò)成為人們?nèi)粘I钪薪涣餍畔⒉豢苫蛉钡氖侄?。在網(wǎng)絡(luò)信息傳播中,“意見領(lǐng)袖”扮演著非常重要的角色。各種“意見領(lǐng)袖”在社會(huì)生活的各個(gè)方面對(duì)網(wǎng)絡(luò)民意產(chǎn)生了重要且深遠(yuǎn)的影響。從已有的研究來看,“意見領(lǐng)袖”可以對(duì)網(wǎng)絡(luò)社區(qū)用戶的行為產(chǎn)生正面或者負(fù)面的作用,但無論是正面還是負(fù)面的影響,都會(huì)左右他人的決策和選擇[2]?!耙庖婎I(lǐng)袖”對(duì)網(wǎng)絡(luò)民意具有強(qiáng)大的引導(dǎo)作用。一個(gè)好的“意見領(lǐng)袖”可以使網(wǎng)絡(luò)社區(qū)成為人們交流和互相促進(jìn)的和諧空間,引導(dǎo)網(wǎng)絡(luò)“正能量”。而一個(gè)負(fù)面的“意見領(lǐng)袖”則可能引起用戶的思想沖突,經(jīng)過網(wǎng)絡(luò)放大之后,甚至可能形成洶涌的輿論浪潮,引發(fā)現(xiàn)實(shí)世界中的沖突。因此,識(shí)別網(wǎng)絡(luò)社區(qū)中的“意見領(lǐng)袖”;認(rèn)識(shí)其特征和規(guī)律,并通過“意見領(lǐng)袖”引導(dǎo)網(wǎng)絡(luò)社區(qū)的發(fā)展,促成網(wǎng)絡(luò)空間的和諧成為了諸多學(xué)者關(guān)心和研究的課題。
1.1意見領(lǐng)袖定義及其識(shí)別研究所謂“意見領(lǐng)袖”是指網(wǎng)絡(luò)社區(qū)中積極的意見傳播者和思想與觀點(diǎn)的提供者[3]。網(wǎng)絡(luò)社區(qū)“意見領(lǐng)袖”將自己的信息經(jīng)過加工處理,傳播給其他參與者,影響他人對(duì)事物的觀點(diǎn)和態(tài)度,進(jìn)一步影響他人的行為決策。
國內(nèi)學(xué)者劉志明等人在用戶活躍度和影響力的基礎(chǔ)上,建立了一套微博意見領(lǐng)袖的識(shí)別指標(biāo)。運(yùn)用層次分析法歸納意見領(lǐng)袖的特征,并利用粗糙集理論進(jìn)行微博意見領(lǐng)袖的識(shí)別[4]。王君澤等學(xué)者利用信息發(fā)布數(shù)量、關(guān)注數(shù)量、粉絲數(shù)量和用戶是否認(rèn)證等指標(biāo)進(jìn)行識(shí)別微博意見領(lǐng)袖的多維建模,提出評(píng)價(jià)用戶重要性的公式,并用實(shí)證分析來驗(yàn)證模型的有效性[5]。
蔡淑琴等學(xué)者將個(gè)人情感因素納入到用戶評(píng)價(jià)指標(biāo)中,提出了一種基于情感詞判別的識(shí)別意見領(lǐng)袖的模型,使用這種情感詞判別模型得出用戶的重要度,再利用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行意見領(lǐng)袖的識(shí)別[6]。馬寧等學(xué)者運(yùn)用動(dòng)態(tài)網(wǎng)絡(luò)分析法和評(píng)價(jià)指標(biāo)體系,識(shí)別出以下6種具有不同特征的網(wǎng)絡(luò)輿論意見領(lǐng)袖:關(guān)鍵詞獨(dú)占人、信息互動(dòng)獨(dú)占人、信息傳播人、潛在活躍人、行為活躍人和熱點(diǎn)人物[7]。闕文暉等學(xué)者采用滑動(dòng)窗口和段落劃分的方法,分析網(wǎng)絡(luò)社區(qū)用戶之間的文本影響關(guān)系,利用數(shù)學(xué)方法判斷聯(lián)系的強(qiáng)度,建立網(wǎng)絡(luò)社區(qū)用戶關(guān)系網(wǎng)絡(luò),然后利用一種類似PageRank的算法對(duì)網(wǎng)絡(luò)用戶節(jié)點(diǎn)的重要度進(jìn)行計(jì)算,從而識(shí)別意見領(lǐng)袖[8]。郭勇等學(xué)者利用輿情場(chǎng)勢(shì)理論、群際關(guān)系理論和社會(huì)認(rèn)同構(gòu)建、系統(tǒng)動(dòng)力學(xué)等理論,對(duì)輿情網(wǎng)絡(luò)意見領(lǐng)袖的作用、動(dòng)因等進(jìn)行了分析,構(gòu)建網(wǎng)絡(luò)輿情用戶重要度評(píng)價(jià)指標(biāo)體系,并利用變權(quán)重灰色關(guān)聯(lián)度模型進(jìn)行意見領(lǐng)袖的識(shí)別[9]。許睿等學(xué)者構(gòu)建出虛擬學(xué)習(xí)社區(qū)網(wǎng)絡(luò),分析各用戶的中心性和社會(huì)網(wǎng)絡(luò)角色特征,選取入度、出度、介數(shù)、特征向量中心性、用戶活躍度、用戶貼子轉(zhuǎn)發(fā)量、用戶貼子評(píng)論量等7個(gè)特征值作為篩選條件,提出基于K-means算法的意見領(lǐng)袖識(shí)別模型。將該識(shí)別模型應(yīng)用于某虛擬社區(qū),根據(jù)各個(gè)聚類子類的特征向量,提取理論意義上的意見領(lǐng)袖集合[10]。
1.2網(wǎng)絡(luò)節(jié)點(diǎn)重要性圖理論的早期研究包括AGM[11]、FSM[12]、GSAPN[13]、FFSM[14]等為復(fù)雜網(wǎng)絡(luò)的理論和應(yīng)用研究奠定了基礎(chǔ)。一個(gè)復(fù)雜社會(huì)網(wǎng)絡(luò)圖由網(wǎng)絡(luò)節(jié)點(diǎn)和邊構(gòu)成。每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)代表參與社會(huì)生活的組織或個(gè)人,邊代表人與人或人與組織之間的關(guān)系[15-16]。常用的復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)重要性評(píng)價(jià)指標(biāo)為中心度。節(jié)點(diǎn)、邊、子網(wǎng)絡(luò)甚至是整個(gè)網(wǎng)絡(luò)都可以是中心度的主體。目前常用的中心度指標(biāo)包括接近中心度、節(jié)點(diǎn)中心度、介中心度等[17-18]。Google著名的網(wǎng)頁重要度算法—PageRank,就是一種類似特征向量中心度的算法,它們都是具有反饋機(jī)制的算法。本文利用改進(jìn)的PageRank算法來衡量網(wǎng)絡(luò)社區(qū)用戶節(jié)點(diǎn)的重要性。
1.3本文研究與已有研究的不同本研究范疇屬于圖理論在網(wǎng)絡(luò)信息傳播中的應(yīng)用研究。該方面的圖應(yīng)用研究主要包括:網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)、標(biāo)簽傳播、用戶影響力等。網(wǎng)絡(luò)社區(qū)意見領(lǐng)袖發(fā)現(xiàn)和識(shí)別就屬于用戶影響力的研究范疇。用戶影響力的研究大部分是通過建立評(píng)價(jià)指標(biāo),用指標(biāo)體系對(duì)用戶影響力進(jìn)行評(píng)價(jià)。一些研究建立一套能夠反映用戶影響力的評(píng)價(jià)指標(biāo)體系,而另一些研究則采用相關(guān)理論和方法推導(dǎo)單一的指標(biāo)進(jìn)行評(píng)價(jià)。在研究結(jié)果方面更注重識(shí)別方法的創(chuàng)新性和識(shí)別的準(zhǔn)確性,而對(duì)方法的適用性和穩(wěn)定性以及結(jié)果的實(shí)際應(yīng)用考慮不多。
本文將上述兩種方式結(jié)合,用BP神經(jīng)網(wǎng)絡(luò)方法進(jìn)行識(shí)別和預(yù)測(cè),以網(wǎng)絡(luò)論壇數(shù)據(jù)進(jìn)行實(shí)驗(yàn),取得了很好的識(shí)別效果。實(shí)驗(yàn)中還發(fā)現(xiàn),在不考慮新增網(wǎng)絡(luò)節(jié)點(diǎn)的情況下,隨著網(wǎng)絡(luò)社區(qū)傳播信息量的不斷增加,最終形成一個(gè)穩(wěn)定的網(wǎng)絡(luò)圖,并利用該網(wǎng)絡(luò)進(jìn)行深入挖掘,得到具有實(shí)踐意義的信息。為提高用戶活躍度,提高用戶黏性,改進(jìn)用戶互動(dòng)體驗(yàn)等應(yīng)用提供支持。
2.1模型構(gòu)建總體流程整個(gè)模型的構(gòu)建及應(yīng)用框架流程如圖1所示,主要包括四個(gè)步驟:
第1步,獲取網(wǎng)絡(luò)社區(qū)用戶的信息交互文本,經(jīng)過分詞處理,然后計(jì)算每個(gè)用戶交互文本中詞的TF-IDF值,并計(jì)算用戶文本之間相似度。
第2步,以網(wǎng)絡(luò)社區(qū)用戶為節(jié)點(diǎn),建立一個(gè)網(wǎng)絡(luò)圖,然后計(jì)算每個(gè)用戶的LeaderRank值。
第3步,將每個(gè)用戶的LeaderRank值及其他指標(biāo)代入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和識(shí)別。
第4步,利用LeaderRank和其他數(shù)據(jù)進(jìn)行深入分析。
圖1 模型構(gòu)建及其應(yīng)用框架
2.2社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)的定義首先我們把網(wǎng)絡(luò)用戶映射到圖模型中,其具體定義如下:
定義1 設(shè)V={V1,V2,…,Vi,…,Vn}為網(wǎng)絡(luò)社區(qū)用戶集合,無序偶對(duì)(Vi,Vj)是用戶Vi與用戶Vj之間的邊,表示用戶Vi與用戶Vj之間的聯(lián)系,如果兩個(gè)網(wǎng)絡(luò)用戶之間有發(fā)貼行為,即代表存在這種聯(lián)系。G(V,E)是以V為用戶集合,以E?{(Vi,Vj)|Vi,Vj∈V}為聯(lián)系集合的有向圖。
定義2 用戶Vi的度Di是指與其他用戶相關(guān)聯(lián)的邊數(shù),Di=|{(Vi,Vj)|Vi,Vj∈E,Vi,Vj∈V}|。
2.3計(jì)算網(wǎng)絡(luò)社區(qū)用戶連接強(qiáng)度先將網(wǎng)絡(luò)社區(qū)用戶的信息文本進(jìn)行分詞和詞性標(biāo)注處理,然后進(jìn)行去停用詞處理,只保留基本的名詞、動(dòng)詞和形容詞,最后計(jì)算詞的TF-IDF值。TF值代表詞頻,其計(jì)算如公式(1)所示,其中分子代表一個(gè)詞在一個(gè)文本中出現(xiàn)的頻數(shù),分母代表整個(gè)文本的總詞數(shù)。用來代表該詞在文本中的重要程度。
tfi,j=ni,j/∑knk,j
(1)
IDF值代表逆向文檔頻率,其計(jì)算如公式(2)所示,其中分子代表某個(gè)語料庫中全部文本的個(gè)數(shù),分母代表某個(gè)詞在所有文本中的不重復(fù)出現(xiàn)的次數(shù),結(jié)果取對(duì)數(shù)即得到IDF值。
(2)
將TF值與IDF值相乘即得到TF-IDF值,如公式(3)所示:
tfidfi,j=tfi,j×idfi,j
(3)
得到詞的TF-IDF值后,根據(jù)公式(4)和公式(5)得出網(wǎng)絡(luò)社區(qū)用戶的連接強(qiáng)度。其中tfidfV1代表網(wǎng)絡(luò)用戶節(jié)點(diǎn)V1的信息文本特征向量,tfidfV2代表網(wǎng)絡(luò)用戶節(jié)點(diǎn)V2的信息文本特征向量。通過計(jì)算兩個(gè)向量的余弦相似度來代表用戶節(jié)點(diǎn)間的連接強(qiáng)度W。以W為權(quán)值建立的加權(quán)網(wǎng)絡(luò)G(V,E,W)如圖2所示,圖中用邊的粗細(xì)來代表節(jié)點(diǎn)間連接強(qiáng)度的大小。
(4)
W(v1,v2)=cos (tfidfv1,tfidfv2)
(5)
圖2 社區(qū)用戶網(wǎng)絡(luò)圖
2.4用戶在社區(qū)網(wǎng)絡(luò)結(jié)構(gòu)中的重要度計(jì)算計(jì)算用戶在社區(qū)網(wǎng)絡(luò)中的重要度(即社區(qū)網(wǎng)絡(luò)中用戶頂點(diǎn)的半徑大小),就是將網(wǎng)絡(luò)中節(jié)點(diǎn)的重要程度表示為一個(gè)具體數(shù)值,其原理與Google著名的Web頁面鏈接分析算法PageRank的思想類似。PageRank的計(jì)算結(jié)果簡(jiǎn)稱PR值,其取值范圍為[0,10],也可以使用[0,1]區(qū)間進(jìn)行度量,這并不影響其原理。PR值越高說明網(wǎng)站在網(wǎng)絡(luò)中的重要程度越高。參照Google的PageRank算法思想,本文提出計(jì)算網(wǎng)絡(luò)社區(qū)用戶重要度的計(jì)算方法,其計(jì)算方法如公式(6)所示:
(6)
使用前面定義的G(V,E,W)表示網(wǎng)絡(luò)社區(qū)有向圖,對(duì)于一個(gè)給定的網(wǎng)絡(luò)節(jié)點(diǎn)Vi,In(Vi)表示給該節(jié)點(diǎn)發(fā)送信息的節(jié)點(diǎn)集合。Out(Vj)為接受節(jié)點(diǎn)Vj發(fā)送信息的節(jié)點(diǎn)集合,即Vj的出度。w表示兩個(gè)節(jié)點(diǎn)之間的連接強(qiáng)度。LR(Vi0表示該用戶節(jié)點(diǎn)在社區(qū)網(wǎng)絡(luò)中的重要程度,即LeaderRank值,其取值范圍為[0,1],這個(gè)值越大說明該用戶在社區(qū)網(wǎng)絡(luò)中的重要程度越高。α稱為阻尼系數(shù),其取值范圍為[0,1],一般設(shè)置為0.85。 我們?cè)O(shè)每個(gè)網(wǎng)絡(luò)社區(qū)用戶的初始LR值為1/N,N為網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)。然后根據(jù)公式(6)進(jìn)行迭代計(jì)算,直到所有用戶節(jié)點(diǎn)的LR值收斂為止,然后就可以根據(jù)最終得分對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的重要程度進(jìn)行排序。加入節(jié)點(diǎn)重要度的網(wǎng)絡(luò)如圖3所示,節(jié)點(diǎn)越大表示節(jié)點(diǎn)的LR值越大,其重要程度越高。
圖3 社區(qū)用戶重要度網(wǎng)絡(luò)圖
2.5使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練用戶網(wǎng)絡(luò)我們使用用戶發(fā)送信息數(shù)量、轉(zhuǎn)發(fā)數(shù)量、點(diǎn)贊數(shù)量,LR值作為BP神經(jīng)網(wǎng)絡(luò)的輸入。輸出為二分類變量,1代表是意見領(lǐng)袖,0代表不是意見領(lǐng)袖。本文假設(shè)粉絲數(shù)為500以上的用戶為意見領(lǐng)袖。可以按照公式(7)計(jì)算出神經(jīng)網(wǎng)絡(luò)的隱藏層神經(jīng)元個(gè)數(shù)N。
N=
(7)
其中,m為輸入層神經(jīng)元個(gè)數(shù),n為輸出節(jié)點(diǎn)個(gè)數(shù)。
可以選擇樣本中80%~90%的數(shù)據(jù)作為訓(xùn)練集訓(xùn)練BP神經(jīng)網(wǎng)絡(luò),10%~20%的樣本作為測(cè)試集用來實(shí)驗(yàn)。
3.1實(shí)驗(yàn)過程本文以某知名網(wǎng)絡(luò)論壇作為數(shù)據(jù)采集源,爬取論壇討論貼子鏈接,如果一個(gè)用戶回復(fù)了一個(gè)主題貼,則該回復(fù)用戶和發(fā)貼用戶之間建立一條邊。在實(shí)驗(yàn)中,最終獲取貼子數(shù)據(jù)986條,實(shí)際用戶數(shù)量為72。按照前面所述的方法計(jì)算用戶節(jié)點(diǎn)連接強(qiáng)度,計(jì)算用戶節(jié)點(diǎn)的LR值,最后建立一個(gè)有72個(gè)節(jié)點(diǎn),246條邊的用戶網(wǎng)絡(luò)圖(如圖4所示)。
圖4 實(shí)驗(yàn)樣本用戶重要度網(wǎng)絡(luò)圖
使用該樣本中90%的數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練一個(gè)BP神經(jīng)網(wǎng)絡(luò),訓(xùn)練該BP神經(jīng)網(wǎng)絡(luò)的Matlab核心代碼如下:
核心代碼:用戶BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練程序.
(1) k=rand(1,72);
(2)[m,n]=sort(k);
(3)in=data(:,1:4);
(4)out =data(:,5);
(5)in_train=in(n(1:57),:)';
(6) out_train=out(n(1:57),:)';
(7) (in_test=in(n(58:72),:)';
(8)out_test=out(n(58:72),:)';
(9) [inputn,inputps]=mapminmax(in_train);
(10) net=newff(inputn,out_train,4,{'logsig' 'logsig'});
(11)net.trainParam.epochs=500;
(12) net.trainParam.lr=0.05;
(13)net.trainParam.goal=0.0000001;
(14) net=train(net, inputn, out_train);
(15)inputn_test=mapminmax('apply',in_test, inputps);
(16)BPout=sim(net,inputn_test);
(17) BPout(BPout<0.5)=0;
(18)BPout(BPout≥0.5)=1。
圖5 LR值、預(yù)測(cè)值和實(shí)際值對(duì)比圖
運(yùn)行程序后,輸出的意見領(lǐng)袖預(yù)測(cè)值、真實(shí)值和計(jì)算所得的LR值對(duì)比結(jié)果如圖5所示。從圖5中可以看出,在15個(gè)樣本中,神經(jīng)網(wǎng)絡(luò)正確識(shí)別出了3個(gè)意見領(lǐng)袖和8個(gè)非意見領(lǐng)袖,總體識(shí)別正確率達(dá)到了接近70%的水平。圖中,LR值較高的用戶有6個(gè),分別是第2個(gè)、第8個(gè)、第9個(gè)、第10個(gè)、第12個(gè)和第14個(gè)用戶。涵蓋了神經(jīng)網(wǎng)絡(luò)所識(shí)別的3個(gè)“意見領(lǐng)袖”。圖6是由15個(gè)樣本節(jié)點(diǎn)組成的局部網(wǎng)絡(luò)圖,由圖6可知,這6個(gè)LR值較高的用戶都處于局部網(wǎng)絡(luò)的核心位置,其相應(yīng)貼子的被收藏?cái)?shù)、點(diǎn)贊數(shù)和轉(zhuǎn)發(fā)數(shù)也較高,我們認(rèn)為這6個(gè)用戶節(jié)點(diǎn)是該局部網(wǎng)絡(luò)的“意見領(lǐng)袖”。因此,相較于神經(jīng)網(wǎng)絡(luò),LR值多識(shí)別出2個(gè)“意見領(lǐng)袖”,具有更高的識(shí)別率。
圖6 15個(gè)樣本節(jié)點(diǎn)的局部網(wǎng)絡(luò)圖
3.2 LR值對(duì)網(wǎng)絡(luò)社區(qū)信息傳播的影響我們將用戶節(jié)點(diǎn)數(shù)據(jù)進(jìn)行縱向和橫向的對(duì)比,縱向?qū)Ρ仁且詴r(shí)間為單位,觀察一個(gè)網(wǎng)絡(luò)社區(qū)內(nèi)部的數(shù)據(jù)變化情況。橫向?qū)Ρ仁怯^察多個(gè)網(wǎng)絡(luò)社區(qū)之間的數(shù)據(jù)情況。在縱向?qū)Ρ戎?,我們觀察和收集了一個(gè)版塊連續(xù)50天的用戶數(shù)據(jù),把每天的數(shù)據(jù)統(tǒng)計(jì)、計(jì)算和整理后,結(jié)果如圖7所示。
圖7 每日平均LR值與發(fā)貼數(shù)對(duì)比圖
我們發(fā)現(xiàn)隨著發(fā)貼量的增加,每日平均LR值先增加,然后降低,后期在0.4左右趨于穩(wěn)定。這說明后期網(wǎng)絡(luò)結(jié)構(gòu)基本定型,形成一種較穩(wěn)定的結(jié)構(gòu)。在數(shù)據(jù)的橫向?qū)Ρ戎校覀兪占砹?個(gè)不同主題論壇版塊在某一個(gè)時(shí)間點(diǎn)的相關(guān)用戶數(shù)據(jù),包括意見領(lǐng)袖人數(shù)、意見領(lǐng)袖平均發(fā)貼數(shù)、平均LR值等,經(jīng)過整理和計(jì)算后,結(jié)果如表1所示。從表1中我們可以看出,并不是LR值越大,總發(fā)貼數(shù)越高,總發(fā)貼數(shù)與用戶的平均LR值似乎關(guān)系不大,這和我們初始的設(shè)想不符,仔細(xì)考慮,其實(shí)這并不奇怪,因?yàn)樵谝粋€(gè)社區(qū)內(nèi)部,平均LR值才對(duì)發(fā)貼數(shù)起作用,高的發(fā)貼數(shù)對(duì)應(yīng)了高的平均LR值,正如圖7中所示,最大的LR值基本出現(xiàn)在發(fā)貼數(shù)最大的時(shí)刻。
表1 8個(gè)社區(qū)版塊相關(guān)用戶數(shù)據(jù)匯總和對(duì)比
而在幾個(gè)論壇的橫向比較中,由于論壇主題不同,人群不同,LR值并沒有橫向的可比性,不代表一個(gè)平均LR值高的論壇就一定比一個(gè)平均LR值低的論壇發(fā)貼數(shù)高。如圖8(a)所示,圖8(a)進(jìn)行了不同論壇平均LR值與總發(fā)貼數(shù)的比較。圖8(b)表示的是意見領(lǐng)袖人數(shù)和總發(fā)貼數(shù)的關(guān)系,從圖中我們可以看出,論壇意見領(lǐng)袖參與人數(shù)和總發(fā)貼數(shù)具有較強(qiáng)的相關(guān)性,參與意見領(lǐng)袖人數(shù)越多,發(fā)貼量越大。圖8(c)表示,意見領(lǐng)袖平均發(fā)貼數(shù)與發(fā)貼總數(shù)也有較強(qiáng)的相關(guān)性。意見領(lǐng)袖平均發(fā)貼數(shù)越大,論壇總發(fā)貼數(shù)越高。
圖8 8個(gè)論壇版塊總發(fā)貼數(shù)、平均LR值、意見領(lǐng)袖人數(shù)與意見領(lǐng)袖平均發(fā)貼數(shù)對(duì)比圖
本文利用網(wǎng)絡(luò)社區(qū)用戶文本大數(shù)據(jù)計(jì)算出用戶間的連接強(qiáng)度,再結(jié)合PageRank算法的主要思想原理,設(shè)計(jì)了一種LeaderRank算法,用來評(píng)價(jià)網(wǎng)絡(luò)社區(qū)“意見領(lǐng)袖”的重要程度。經(jīng)過實(shí)驗(yàn)證明用該方法識(shí)別網(wǎng)絡(luò)社區(qū)“意見領(lǐng)袖”是行之有效的。相較于神經(jīng)網(wǎng)絡(luò),該方法計(jì)算所使用的數(shù)據(jù)量較小,計(jì)算時(shí)所需迭代次數(shù)少,具有更高的識(shí)別率,即使用在小型網(wǎng)絡(luò)中也有較好的效果。利用該方法建立實(shí)際的用戶網(wǎng)絡(luò)圖時(shí),我們發(fā)現(xiàn)隨著網(wǎng)絡(luò)社區(qū)信息量的不斷增長(zhǎng),LeaderRank趨于收斂,即最終將形成穩(wěn)定的用戶網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí)將LeaderRank結(jié)合其他指標(biāo)觀察發(fā)現(xiàn),在網(wǎng)絡(luò)社區(qū)內(nèi)部意見領(lǐng)袖的LeaderRank、參與程度對(duì)發(fā)貼量有著重要影響。而在社區(qū)之間,較高的平均LeaderRank值不代表就會(huì)具有較高的發(fā)貼量。本方法可以配合其他指標(biāo)進(jìn)行靈活運(yùn)用,具有良好的擴(kuò)展性、適用性和穩(wěn)定性。進(jìn)行相應(yīng)擴(kuò)展后可以方便的應(yīng)用于其他一些研究工作:
a.可以利用該方法進(jìn)一步監(jiān)控網(wǎng)絡(luò)輿情的發(fā)展情況、預(yù)測(cè)網(wǎng)絡(luò)輿情風(fēng)險(xiǎn)和預(yù)防以及應(yīng)對(duì)網(wǎng)絡(luò)輿情突發(fā)事件。
b.該方法可以進(jìn)一步與機(jī)器學(xué)習(xí)方法相結(jié)合,既可以提高識(shí)別的準(zhǔn)確率,也可以增強(qiáng)算法的可拓展性和適應(yīng)性。
c.結(jié)合大數(shù)據(jù)和其他指標(biāo),用來發(fā)現(xiàn)團(tuán)隊(duì)體育運(yùn)動(dòng)中的核心運(yùn)動(dòng)員、識(shí)別犯罪團(tuán)伙重要成員以及發(fā)現(xiàn)金融網(wǎng)絡(luò)中的洗錢和欺詐行為等。