仇麗青 范鑫
摘要:在社交網(wǎng)絡(luò)中進(jìn)行意見領(lǐng)袖的識別對信息傳播分析、輿情監(jiān)測、網(wǎng)絡(luò)營銷等有著重要意義。目前,很多挖掘意見領(lǐng)袖的研究僅基于簡單的粉絲關(guān)注或轉(zhuǎn)發(fā)方式,而忽視了用戶關(guān)系中的權(quán)重因素,不符合信息傳播的實(shí)際情況。因此,提出加權(quán)網(wǎng)絡(luò)下基于微博轉(zhuǎn)發(fā)關(guān)系的FW-Rank(ForwardingWeightRank)算法。該算法使用新浪微博數(shù)據(jù)進(jìn)行實(shí)驗(yàn),相比于通過簡單關(guān)注關(guān)系形成社交網(wǎng)絡(luò)的方式,F(xiàn)W-Rank算法的最終結(jié)果更加合理準(zhǔn)確。
關(guān)鍵詞:社交網(wǎng)絡(luò);意見領(lǐng)袖;微博;FW-Rank
DOI:10.11907/rjdk.181151
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2018)007-0111-05
Abstract:Identificationofopinionleadersinsocialnetworkshasgreatsignificanceontheanalysisofinformationdissemination,publicopinionmonitoring,networkmarketingandsoon.Atpresent,mostoftheresearchonopinionleadersinsocialnetworkisbasedonsimplefansorrewardconcernedaboutthelinkmerelyfocusedonfansattentionorforwardingmethod,andignorestheweightfactorsintheuserrelationship,whichmakesthefinalresultunreasonable.Therefore,thepaperproposesanovelalgorithmcalledFW-Rankwhichtakestheforwardingrelationshipofthenetworkintoaccount.AtlastweconducttheexperimentsonSinaMicroBlogdataset.Comparedtothebaselinealgorithms,thefinalresultsoftheproposedalgorithmismorereasonableandaccurate.
KeyWords:socialnetworks;opinionleader;micro-blog;FW-Rank
0引言
隨著移動互聯(lián)網(wǎng)的迅速發(fā)展,社交網(wǎng)絡(luò)使用戶之間可以隨時隨地進(jìn)行交流和溝通,微博作為社交網(wǎng)絡(luò)中的典型應(yīng)用,已成為如今應(yīng)用最廣泛的信息傳播媒介之一。微博作為一種分享和交流平臺,更注重時效性和隨意性,并具有便捷性、原創(chuàng)性和用戶草根化等特點(diǎn)。在微博傳播過程中,通常存在著一些很有影響力的用戶,他們在網(wǎng)絡(luò)口碑效應(yīng)、突發(fā)事件傳播、社會輿論等方面起著重要作用,這些用戶被稱為“意見領(lǐng)袖”?!耙庖婎I(lǐng)袖”最早由美國學(xué)者拉扎斯菲爾德提出,他認(rèn)為信息是按照“媒體—意見領(lǐng)袖—受眾”的模式傳播[1],后續(xù)學(xué)者研究結(jié)果表明,“意見領(lǐng)袖”具有“信息中間人”和“有影響力的人”兩種角色特點(diǎn)[2]。在微博的信息網(wǎng)絡(luò)中挖掘意見領(lǐng)袖,對微博營銷、輿論引導(dǎo)、網(wǎng)絡(luò)干預(yù)等都有著重大意義。
微博平臺上的用戶數(shù)量龐大,用戶的任何一次“轉(zhuǎn)發(fā)”行為都可看作信息的一次傳播,用戶的個人觀點(diǎn)和影響力可沿著信息的“轉(zhuǎn)發(fā)”網(wǎng)絡(luò)進(jìn)行傳播。本文提出基于微博“轉(zhuǎn)發(fā)”網(wǎng)絡(luò)的新型排序算法,用于挖掘微博用戶中的意見領(lǐng)袖,同時驗(yàn)證算法的有效性。
1相關(guān)研究
微博網(wǎng)絡(luò)是社會網(wǎng)絡(luò)的一種形式,屬于復(fù)雜網(wǎng)絡(luò)的范疇[3]。在微博網(wǎng)絡(luò)中可以將用戶的注冊ID作為網(wǎng)絡(luò)節(jié)點(diǎn),進(jìn)而在用戶節(jié)點(diǎn)之間建立聯(lián)系。目前用于挖掘意見領(lǐng)袖的方法主要分為兩大類:指標(biāo)聚類法和鏈接排序法。
(1)指標(biāo)聚類法。指標(biāo)聚類法是以節(jié)點(diǎn)基本特征為基礎(chǔ),通過對節(jié)點(diǎn)基本特征的分析,建立相應(yīng)的評分指標(biāo)體系,運(yùn)用聚類算法進(jìn)行意見領(lǐng)袖的挖掘。例如劉志明等[4]采用粗糙集理論,進(jìn)行聚類并挖掘意見領(lǐng)袖;祝帥等[5]采用X-means迭代聚類算法挖掘意見領(lǐng)袖;尹衍騰等[6]建立領(lǐng)袖影響體系,提出D-means聚類算法;王鈺等[7]采用EM期望最大化算法識別意見領(lǐng)袖。
以上采用指標(biāo)聚類方法,通過獲取符合條件的節(jié)點(diǎn)簇識別社交網(wǎng)絡(luò)的意見領(lǐng)袖,但其數(shù)據(jù)的條目性過于清晰,破壞了用戶之間的聯(lián)系[6]。指標(biāo)聚類法較為全面,同時也使用較多,但是屬性指標(biāo)選取很大程度上由個人主觀決定,因此推廣時具有一定難度。
(2)鏈接排序法。鏈接排序法通常是根據(jù)用戶之間的相互關(guān)系構(gòu)建社會網(wǎng)絡(luò),然后利用網(wǎng)絡(luò)結(jié)構(gòu)算法分析用戶間的關(guān)系,進(jìn)而進(jìn)行重要性排名,識別意見領(lǐng)袖。自從Pagerank算法[8]被提出以來,不僅被谷歌成功應(yīng)用于搜索引擎排序,還被廣泛應(yīng)用于社交網(wǎng)絡(luò)分析中。Weng等[9]提出基于PageRank算法的TwitterRank算法實(shí)現(xiàn)某一特定主題下的意見領(lǐng)袖識別;肖宇等[10]在PageRank基礎(chǔ)上加入感情權(quán)重,提出挖掘意見領(lǐng)袖的LeaderRank算法;熊濤等[11]構(gòu)建基于微博轉(zhuǎn)發(fā)關(guān)系的社交網(wǎng)絡(luò),通過改進(jìn)后的HITS算法識別意見領(lǐng)袖;席運(yùn)江等[12]綜合考慮微博博主粉絲質(zhì)量和微博用戶的交互行為,提出MUR-IBM算法對微博用戶進(jìn)行影響力排名。
鏈接排序法與信息傳播路徑的關(guān)系密切,因此在客觀性上占有很大優(yōu)勢。但是在傳統(tǒng)的基于網(wǎng)絡(luò)鏈接排序算法中,存在以下不足之處:①大量的基于網(wǎng)絡(luò)鏈接排序算法通過用戶“關(guān)注”關(guān)系建立社會網(wǎng)絡(luò)。相關(guān)研究表明,由于意見領(lǐng)袖屬于信息中間人的角色,相對于用戶之間的關(guān)注關(guān)系,微博轉(zhuǎn)發(fā)情況更能準(zhǔn)確地衡量用戶影響力[13]。即使轉(zhuǎn)發(fā)者的觀點(diǎn)與原文相反,也體現(xiàn)出該信息對轉(zhuǎn)發(fā)者產(chǎn)生了一定影響。因此,研究基于微博轉(zhuǎn)發(fā)關(guān)系的社會網(wǎng)絡(luò)有重要意義;②在已有微博的意見領(lǐng)袖挖掘研究中,多數(shù)使用用戶的注冊ID作為網(wǎng)絡(luò)節(jié)點(diǎn),進(jìn)而形成有向社會網(wǎng)絡(luò)。但在使用排序算法處理網(wǎng)絡(luò)結(jié)構(gòu)時,很少提出節(jié)點(diǎn)之間信息傳播流量對節(jié)點(diǎn)之間交互的影響。
基于以上研究,本文以微博中意見領(lǐng)袖的識別為目的,考慮到用戶之間的交互活躍度,采用能夠代表社交網(wǎng)絡(luò)中信息流向的轉(zhuǎn)發(fā)關(guān)系構(gòu)建網(wǎng)絡(luò)模型,提出一種基于轉(zhuǎn)發(fā)關(guān)系的帶權(quán)新型算法——FW-Rank算法。
2FW-Rank算法
現(xiàn)階段大多數(shù)基于網(wǎng)絡(luò)鏈接排序法識別微博網(wǎng)絡(luò)意見領(lǐng)袖都采用用戶之間“關(guān)注”關(guān)系形成的有向網(wǎng)絡(luò),且關(guān)系過于單一。因此,提出基于微博“轉(zhuǎn)發(fā)”關(guān)系形成的帶權(quán)有向社會網(wǎng)絡(luò),并利用FW-Rank算法進(jìn)行意見領(lǐng)袖識別。
假設(shè)A、B、C、D為4個微博用戶,用戶A關(guān)注了用戶B,用戶B關(guān)注了用戶C,用戶C關(guān)注了用戶A,用戶D則沒有關(guān)注其他人,同時也沒有被其他人關(guān)注,如圖1所示。
在圖中,假設(shè)用戶B發(fā)表原創(chuàng)微博,用戶A對其進(jìn)行了轉(zhuǎn)發(fā);用戶B是用戶C的粉絲,用戶C卻并未關(guān)注用戶B,但用戶C依舊可以轉(zhuǎn)發(fā)用戶B的微博;用戶D雖然與其他用戶沒有關(guān)注關(guān)系,但其依舊可以轉(zhuǎn)發(fā)相關(guān)微博。圖1充分體現(xiàn)了信息傳播路徑和轉(zhuǎn)發(fā)路徑的密切關(guān)系,同時也能體現(xiàn)出網(wǎng)絡(luò)中用戶之間的影響力是沿信息傳播路徑逆向傳播的。
根據(jù)圖1可以得到用戶之間基于轉(zhuǎn)發(fā)關(guān)系的鄰接關(guān)系矩陣:
Tr=0100000001000010
FW-Rank采用有向加權(quán)的人際網(wǎng)絡(luò)模型,以便準(zhǔn)確識別意見領(lǐng)袖。因此,將模型定義為G=(V,E,W)。V代表網(wǎng)絡(luò)中的用戶集合,E表示邊集,
其中rj表示j用戶發(fā)布帖子被轉(zhuǎn)發(fā)的總次數(shù)之和,rij表示i轉(zhuǎn)發(fā)j的總次數(shù)。其轉(zhuǎn)發(fā)關(guān)系模型及其影響力關(guān)系模型如圖2所示。
根據(jù)以上論述,定義FW-Rank算法公式為:
其中,F(xiàn)W(Vi)表示當(dāng)前Vi節(jié)點(diǎn)權(quán)重,Vj為Vi指向節(jié)點(diǎn)的所有節(jié)點(diǎn)集合中第j個節(jié)點(diǎn)。S(Vi)表示指向Vi節(jié)點(diǎn)的所有節(jié)點(diǎn)集合,d為阻尼系數(shù),一般取值為0.85;C(Vj)表示Vj節(jié)點(diǎn)的所有出鏈權(quán)重之和,wjk表示節(jié)點(diǎn)Vj指向節(jié)點(diǎn)Vk邊的權(quán)重。
假設(shè)在圖2中用戶vi、vj和vk初始權(quán)值都為1,各自被轉(zhuǎn)發(fā)的總次數(shù)分別為0次、3次和8次,其中vi轉(zhuǎn)發(fā)過vj3次,vi轉(zhuǎn)發(fā)過vk7次,vj轉(zhuǎn)發(fā)過vk1次,由公式(1)可以得出wij=1,wik=0.875,wjk=0.125;由公式(3)得出C(Vi)=0.875+1=1.875,C(Vj)=0.125,C(Vk)=0;由公式(2)得出FW(vi)=1-0.85=0.15,F(xiàn)W(vj)=(1-0.85)+0.85*(1*1/1.875)=0.6033,F(xiàn)W(vk)=(1-0.85)+(1*0.875/1.875+1*0.125/0.125)=1.3967。
FW-Rank算法使用節(jié)點(diǎn)出鏈權(quán)重之和作為公式的分母,克服了PageRank算法平均分配權(quán)值的缺點(diǎn);采用轉(zhuǎn)發(fā)關(guān)系形成的影響力有向網(wǎng)絡(luò)圖,從而使社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)指向符合信息傳播軌跡,使用時更加符合現(xiàn)實(shí)情況。FW-Rank的偽代碼如下:
算法:FW-Rank
INPUT:“邊起點(diǎn)+終點(diǎn)+邊的權(quán)值”格式的文件nodes.txt,迭代次數(shù)N,阻尼系數(shù)d
OUTPUT:排名+節(jié)點(diǎn)號+FW值
對所有節(jié)點(diǎn)設(shè)置初始值1,循環(huán)進(jìn)行以下過程,直至收斂:
依次遍歷所有節(jié)點(diǎn),執(zhí)行以下過程:
(1)獲取當(dāng)前節(jié)點(diǎn)所有鏈出邊的數(shù)量n。
(2)循環(huán)n次{
計算每條邊的權(quán)重wij=rijrj;
}
(3)計算與當(dāng)前節(jié)點(diǎn)相連鏈出邊的權(quán)值和C(Vj)=∑Vk∈S(Vj)wjk。
(4)計算并重新設(shè)置當(dāng)前節(jié)點(diǎn)的權(quán)值FW(Vi)=(1-d)+d∑Vj∈S(Vi)FW(Vj)·wjiC(Vj)。
3實(shí)驗(yàn)分析
3.1實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
使用“中國爬盟”論壇提供的爬蟲工具對新浪微博進(jìn)行爬取,上傳爬取結(jié)果后利用獲得的積分下載微博數(shù)據(jù)。由于意見領(lǐng)袖大多是話題依賴的,因此針對“轉(zhuǎn)基因”、“霧霾”、“小米”、“火箭”、“房價”和“公務(wù)員”6個較為具體的話題進(jìn)行數(shù)據(jù)集下載。原始數(shù)據(jù)主要內(nèi)容有:①用戶信息:用戶ID、用戶昵稱、省份城市、性別、粉絲數(shù)、狀態(tài)數(shù)、創(chuàng)建時間;②微博信息:微博ID、發(fā)布時間、微博內(nèi)容、被轉(zhuǎn)發(fā)次數(shù)、被評論次數(shù)、源用戶、話題類型;③用戶關(guān)注關(guān)系:用戶ID、關(guān)注ID;④微博關(guān)系:微博ID、來源微博ID。獲得數(shù)據(jù)統(tǒng)計情況如表1所示。
經(jīng)過對數(shù)據(jù)的去重、噪聲數(shù)據(jù)識別等預(yù)處理,最終獲得質(zhì)量較高的6個主題微博數(shù)據(jù),各主題的基本數(shù)據(jù)情況如表2所示。
將各個主題的數(shù)據(jù)集使用開源軟件Gephi進(jìn)行處理,可以得到各個主題的社會網(wǎng)絡(luò)圖,其中節(jié)點(diǎn)大小代表節(jié)點(diǎn)度數(shù)大小,如圖3所示。
由圖3可以看出,6個話題中的用戶關(guān)系并不是非常密切,網(wǎng)絡(luò)平均度較低,形成的鄰接矩陣皆屬于稀疏矩陣,與現(xiàn)實(shí)社會相似。其中“房價”、“小米”和“轉(zhuǎn)基因”3個話題的節(jié)點(diǎn)數(shù)較多且圖密度較大,更切合實(shí)際社交網(wǎng)絡(luò)。
3.2實(shí)驗(yàn)及結(jié)果分析
在得到各個話題數(shù)據(jù)集的基本屬性之后,對每個話題使用FW-Rank算法進(jìn)行排序,得到的前10名用戶如表3所示。
為了比較FW-Rank算法的實(shí)際效果,使用PageRank算法在基于關(guān)注關(guān)系形成的社會網(wǎng)絡(luò)上進(jìn)行實(shí)驗(yàn),結(jié)果如表4所示。
由表3、表4的實(shí)驗(yàn)結(jié)果可以明顯觀察到,某些官方微博賬號始終占有較為重要的社交地位,如“轉(zhuǎn)基因”話題中的“崔永元”,“霧霾”話題中的“新周刊”和“學(xué)習(xí)粉絲團(tuán)”,“小米”話題中的“小米公司”、“小米手機(jī)”等。但是相比于給予關(guān)注關(guān)系的PageRank算法,F(xiàn)W-Rank算法是按照信息傳播路徑進(jìn)行意見領(lǐng)袖識別的,因此結(jié)果中的官方賬號明顯少于前者,即更容易挖掘普通用戶中的潛在意見領(lǐng)袖,例如“轉(zhuǎn)基因”話題中的“洞庭湖面風(fēng)11”和“武漢陳國恩”,“霧霾”話題中的“五行屬二”、“腐宅集中營”、“鐵人唐吉柯德”等都是在基于關(guān)注關(guān)系的PageRank算法結(jié)果中不曾出現(xiàn)的。
以上兩種算法平均運(yùn)行時間隨節(jié)點(diǎn)數(shù)變化折線圖如圖4所示。在運(yùn)行時間方面,F(xiàn)W-Rank與PageRank運(yùn)行時間相差無幾,雖然FW-Rank屬于基于PageRank算法的一種演變,但是該算法是基于轉(zhuǎn)發(fā)網(wǎng)絡(luò)進(jìn)行計算的,更符合信息傳播實(shí)際;此外,F(xiàn)W-Rank算法克服了PageRank平均分配權(quán)值的缺點(diǎn),在加強(qiáng)重要節(jié)點(diǎn)地位的同時,弱化了普通節(jié)點(diǎn)作用,加快了計算速度。
中心性可以定義網(wǎng)絡(luò)中的節(jié)點(diǎn)重要性,通過中心性度量方案,可以識別網(wǎng)絡(luò)中的部分中心界定[14]。為了驗(yàn)證FW-Rank算法的有效性,選取社會網(wǎng)絡(luò)研究領(lǐng)域較為熟知的度中心性、接近中心性和中介中心性3個典型的中心性度量指標(biāo),并將FW-Rank算法計算結(jié)果中排名前10位和前20位用戶分別與3種中心性結(jié)果進(jìn)行相關(guān)性計算,結(jié)果如表5所示。
由表5可以看出,在該測試數(shù)據(jù)集中,F(xiàn)W-Rank算法與度中心性的相關(guān)性非常強(qiáng),相關(guān)系數(shù)均達(dá)到0.9以上;而FW-Rank算法接近中心性與中介中心性在不同話題中的相關(guān)系數(shù)有所不同,例如在“小米”話題中中介中心性達(dá)到0.86以上,相關(guān)性非常強(qiáng),而在“霧霾”和“公務(wù)員”話題中的相關(guān)性較弱。
4結(jié)語
本文在分析社會網(wǎng)絡(luò)意見領(lǐng)袖識別研究現(xiàn)狀的同時,根據(jù)社會網(wǎng)絡(luò)中的信息傳播路徑,提出基于微博轉(zhuǎn)發(fā)關(guān)系的加權(quán)FW-Rank算法。實(shí)驗(yàn)結(jié)果表明,F(xiàn)W-Rank算法在識別意見領(lǐng)袖時得到的結(jié)果更加符合實(shí)際需求,且算法執(zhí)行效率較高,有助于挖掘社會網(wǎng)絡(luò)中的潛在意見領(lǐng)袖。然而,在執(zhí)行FW-Rank算法之前對數(shù)據(jù)質(zhì)量要求較高,原始數(shù)據(jù)預(yù)處理過程較為繁瑣,后續(xù)研究將進(jìn)一步尋找符合算法要求的更加高效便捷的數(shù)據(jù)預(yù)處理方法。
參考文獻(xiàn):
[1]LAZARSFELDPF,BERELSONB,GAUDETH.Thepeople′schoice[M].NewYork:ColumbiaUniversityPress,1948.
[2]ROGERSEM,SHOEMAKERFF.Communicationofinnovations:across-culturalapproach[M].NewYork:FreePress,1971.
[3]熊濤,何躍.微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中意見領(lǐng)袖的識別與分析[J].現(xiàn)代圖書情報技術(shù),2013(6):55-62.
[4]DorogovtsevSN,MendesJFF.Evloutionofnetworks[J].AdvPhys,2002,51:1079-1187.
[5]劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識別及分析[J].系統(tǒng)工程,2011(6):8-16.
[6]祝帥,鄭小林,陳德人.論壇中的意見領(lǐng)袖自動發(fā)現(xiàn)算法研究[J].系統(tǒng)工程理論與實(shí)踐,2011(S2):7-12.
[7]尹衍騰,李學(xué)明,蔡孟松.基于用戶關(guān)系與屬性的微博意見領(lǐng)袖挖掘方法[J].計算機(jī)工程,2013(4):184-189.
[8]王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計算機(jī)工程,2011(5):44-46,49.
[9]BRINS,PAGEL.Theanatomyofalarge-scalehypertextualWebsearchengine[J].ComputerNetworks&IsdnSystems;,1998,30:107-117.
[10]WENGJS,LINEP,JINGJ,etal.Twitterrank-findingtopic-sensitiveinfluentialtwitterers[C].Proceedingofthe3rdACMInternationalConferenceonWebSearchandDataMining,2010:261-270.
[11]肖宇,許煒,夏霖.一種基于情感傾向分析的網(wǎng)絡(luò)團(tuán)體意見領(lǐng)袖識別算法[J].計算機(jī)科學(xué),2012(2):34-37,46.
[12]席運(yùn)江,吳柯,廖曉.改進(jìn)PageRank算法對微博用戶交互行為的影響[J].計算機(jī)仿真,2015(11):437-440.
[13]KWAKH,LEEC,PARKH,etal.Whatistwitter,asocialnetworkoranewsmedia?[C].Proceedingofthe19thInternationalConferenceonWorldWildWeb,2010:591-600.
[14]LUJ,WANGW.Identificationofkeynodesinmicroblognetworks[J].EtriJournal,2016,38(1):52-61.
(責(zé)任編輯:黃?。?/p>