[摘 要]涉軍論壇是聚焦涉軍主題的社交服務(wù)平臺,分析其用戶屬性、關(guān)系及其影響力對于輿情引導(dǎo)具有重要的現(xiàn)實意義。本文使用特定的數(shù)據(jù)采集策略,獲取了某涉軍論壇的上萬名用戶數(shù)據(jù),運用基于用戶屬性和社會網(wǎng)絡(luò)的9個指標(biāo)對用戶影響力進(jìn)行具體的分析和排名,最后使用投票法對結(jié)果進(jìn)行了綜合分析,從而查找最具影響力的前10名用戶,找出地位特殊的用戶,為輿情引導(dǎo)提供重要依據(jù)。
[關(guān)鍵詞]涉軍論壇;用戶;屬性;關(guān)系;影響力
doi:10.3969/j.issn.1673 - 0194.2016.22.099
[中圖分類號]G25.2 [文獻(xiàn)標(biāo)識碼]A [文章編號]1673-0194(2016)22-0-03
在美國實施重返亞太戰(zhàn)略后,我國東南海方向軍情越發(fā)復(fù)雜,聯(lián)合軍演、自由巡航、南海仲裁等大量涉軍話題在主流媒體中不斷曝光。由于涉軍論壇具有表現(xiàn)能力強、參與用戶廣、互動方式多等特點,自然成為涉軍輿情引導(dǎo)的主要戰(zhàn)場之一。針對具體的涉軍論壇,本文分析其用戶影響力,發(fā)現(xiàn)“論壇領(lǐng)袖”,為輿情引導(dǎo)提供重要依據(jù)。
1 用戶屬性及關(guān)系數(shù)據(jù)的采集
分析用戶影響力的一般過程,首先是通過采集器采集用戶屬性數(shù)據(jù)及其關(guān)系數(shù)據(jù),然后對采集到的數(shù)據(jù)進(jìn)行規(guī)整和建模,最后建立評價指標(biāo)對用戶影響力進(jìn)行評價。
1.1 采集策略的制定
采集論壇用戶數(shù)據(jù)的最有效方法是論壇管理員直接獲得后臺數(shù)據(jù),但是這種方法往往難以實施,常用的方法是使用網(wǎng)絡(luò)爬蟲對特定論壇進(jìn)行抓取。要想高效地獲取有價值的用戶數(shù)據(jù),必須遵循一定的抓取策略。抓取策略主要包括初始用戶集合的確定、搜索算法的選取、干擾用戶的鑒別、終止條件的確定等方面。
(1)初始用戶集合的確定。可以有多種方法,例如可以選擇論壇熱帖的樓主和跟帖者作為初始用戶集合,也可以選擇某主題新帖的樓主和跟帖者作為初始用戶集合,還可以以各版塊版主作為初始用戶集合等。
(2)搜索算法的選取。主要分為廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先策略三種算法。廣度優(yōu)先算法以初始用戶集合為中心進(jìn)行逐層擴展,采集的用戶與初始用戶關(guān)系密切;深度優(yōu)先算法以初始用戶集合為起點進(jìn)行深度搜索,易搜索出復(fù)雜的關(guān)系網(wǎng)。
(3)干擾用戶的鑒別。論壇中除了大量的僵尸用戶外,還有不少水軍,排除這些用戶更利于提高用戶分析的效率和準(zhǔn)確性??梢酝ㄟ^查看用戶登錄時間、發(fā)帖數(shù)量、發(fā)帖質(zhì)量來進(jìn)行有效鑒別。
(4)終止條件的確定。用戶搜索必須設(shè)置終止條件,例如:可以設(shè)定用戶數(shù)量上限、可以設(shè)定搜索次數(shù)、可以設(shè)定搜索深度等。不同的用戶分析需求應(yīng)該選擇不同的終止條件。
依據(jù)采集目的,本文采取的策略為:以涉軍板塊新帖樓主和跟帖者為初始用戶集合,采用廣度優(yōu)先的搜索算法,屏蔽長時間沒有登錄的用戶和發(fā)帖質(zhì)量較低的用戶,直至搜索不到新的有效用戶為止。
1.2 采集步驟的設(shè)計
本文采集的論壇中,用戶可以通過添加關(guān)注的方式將其他用戶加自己的“好友”,好友的最近動態(tài)將被自動推送給關(guān)注用戶。關(guān)注某用戶的用戶稱之為被關(guān)注用戶的“粉絲”。
本文以涉軍板塊近期新帖樓主和跟帖者為初始用戶集合,采用廣度優(yōu)先搜索近期登錄的用戶和發(fā)帖質(zhì)量較高的用戶,循環(huán)以上步驟直至搜索不到新的有效用戶為止。采集步驟設(shè)計如下。
①查找該論壇11個涉軍板塊近一個月的新帖,將樓主和跟帖用戶確定為待搜索用戶集合。②遍歷待搜索用戶集合中的用戶,選擇粉絲數(shù)大于10或者年發(fā)帖量大于50或者年精華帖大于2的用戶,采集該用戶的粉絲。③遍歷待搜索用戶集合中的用戶,選擇關(guān)注數(shù)大于10或者年發(fā)帖量大于50或者年精華帖大于2的用戶,采集該用戶的好友。④將待搜索用戶集合清空,并將步驟②和步驟③中采集到的新用戶添加到待搜索集合。⑤重復(fù)②、③、④步驟,直至待搜索集合為空。
1.3 采集的量化結(jié)果
經(jīng)過兩天時間的采集,用戶關(guān)系網(wǎng)絡(luò)得到收斂,獲得一個聯(lián)通有向圖。本次采集,共抓取用戶14 509個,用戶關(guān)系163 647個。分析該聯(lián)通有向圖,存在13個環(huán),平均度數(shù)為22.56。用戶網(wǎng)齡最長的為12年,用戶最多發(fā)帖222 076個,用戶最多精華帖1 604個,用戶最多粉絲數(shù)432個,用戶最多好友數(shù)為353個。
2 從用戶屬性分析用戶的影響力
用戶影響力是指用戶驅(qū)使其他用戶認(rèn)同某觀點或使信息廣泛傳播的能力。國外較早開始對社交網(wǎng)絡(luò)的研究,主要是針對Twitter用戶,多數(shù)算法是基于著名的網(wǎng)頁排名算法PageRank算法,對影響因子的選取主要有轉(zhuǎn)貼、回復(fù)、提及的能力。不同論壇的用戶屬性數(shù)據(jù)有所區(qū)別,但最重要的是發(fā)帖數(shù)量、精華貼數(shù)量及點贊數(shù)等屬性。
2.1 用戶影響力相關(guān)主要屬性
直接采集到的論壇用戶屬性主要包括發(fā)帖數(shù)量、精華帖數(shù)、好友數(shù)和粉絲數(shù)。
(1)發(fā)帖數(shù)量。發(fā)帖數(shù)量指的是用戶發(fā)表的主題帖和評論帖的總數(shù)。發(fā)帖數(shù)量的多少直接體現(xiàn)了用戶的活躍度,顯然用戶發(fā)帖數(shù)量越多,影響力就可能越大。經(jīng)統(tǒng)計,用戶發(fā)帖量符合二八原則,發(fā)帖最多的前21.7%用戶發(fā)布了80%的帖子,而近3%的用戶沒有發(fā)帖。用戶發(fā)帖量與用戶數(shù)分布近似指數(shù)分布。
(2)精華帖。精華帖是指引起熱議的原創(chuàng)帖。精華帖數(shù)體現(xiàn)了用戶的發(fā)帖質(zhì)量,是其他用戶對該用戶發(fā)帖的認(rèn)可度,可以體現(xiàn)出用戶影響力。
(3)好友數(shù)。好友數(shù)是指用戶關(guān)注其他用戶的數(shù)量。好友數(shù)的多少反映了該用戶獲取信息的愿望和能力,可以在一定程度上提高用戶影響力。經(jīng)統(tǒng)計,26.7%的用戶關(guān)注了多于10名的好友,其中1%的用戶關(guān)注了多于100名的好友,沒有好友的用戶幾乎沒有。
(4)粉絲數(shù)。粉絲數(shù)是其他用戶對該用戶關(guān)注程度的直接反映,是反映用戶影響力最為直接的屬性。經(jīng)統(tǒng)計,35.3%的用戶擁有超過10名的粉絲,其中1.3%的用戶擁有超過100名的粉絲,56%的用戶沒有粉絲。
2.2 用戶影響力分析
用戶屬性中與用戶影響力相關(guān)的屬性主要有發(fā)帖數(shù)量、精華帖數(shù)、好友數(shù)和粉絲數(shù)。使用4種屬性對用戶進(jìn)行評價并對用戶進(jìn)行排序,得到4種不同的結(jié)果,見表1。
2.3 屬性相關(guān)性分析
用戶的發(fā)帖數(shù)量、精華帖數(shù)、好友數(shù)和粉絲數(shù)是與用戶影響力最為相關(guān)的幾個屬性。經(jīng)分析,發(fā)帖數(shù)量、精華帖數(shù)與粉絲數(shù)均沒有明顯的線性相關(guān)性,存在很多精華帖不多、但粉絲數(shù)很多的用戶;也存在不少精華帖較多、但粉絲數(shù)較少的用戶。發(fā)帖數(shù)量、精華帖數(shù)與好友數(shù)也不存在明顯的線性相關(guān)性,發(fā)帖數(shù)量與精華貼數(shù)也不存在明顯線性相關(guān)性,好友數(shù)與粉絲數(shù)也不存在明顯線性相關(guān)性。
3 從用戶關(guān)系分析用戶影響力
社會網(wǎng)絡(luò)分析方法是由社會學(xué)家根據(jù)數(shù)學(xué)方法﹑圖論等發(fā)展起來的定量分析方法,以社會結(jié)構(gòu)為主要研究對象,而不特別關(guān)注個體屬性。
3.1 社會網(wǎng)絡(luò)中的用戶影響力
從社會網(wǎng)絡(luò)角度分析,用戶影響力主要表現(xiàn)為信息獲取能力、信息傳播能力和信息控制能力。
信息獲取能力是指用戶收集特定主題信息的能力。在社會網(wǎng)絡(luò)中,好友越多,越容易獲得信息;好友影響力越大,越容易獲得高質(zhì)量信息。信息傳播能力是指用戶發(fā)布的帖子傳播的廣度和速度。在社會網(wǎng)絡(luò)中,粉絲越多的用戶,發(fā)布的帖子傳播越廣;粉絲的影響力越大,發(fā)布的帖子傳播得越快。信息控制能力是指用戶在信息傳播過程中作為“消息中間人”所發(fā)揮的作用。在社會網(wǎng)絡(luò)中,經(jīng)常作為其他用戶中間人的用戶信息控制能力較強。
在社會網(wǎng)絡(luò)分析中,“中心度”是用來描述個人或組織在社會網(wǎng)絡(luò)中居于怎樣地位的一種度量,主要度量有“度數(shù)中心度”“中間中心度”和“鄰近中心度”等。
(1)度數(shù)中心度是描述節(jié)點度數(shù)的一種度量,用節(jié)點的度數(shù)表示。如果某節(jié)點具有較高的度數(shù),自然與其他節(jié)點“關(guān)系密切”。在有向圖中又分為“內(nèi)中心度”和“外中心度”,分別對應(yīng)“點入度”和“點出度”?!皟?nèi)中心度”可以描述用戶傳播信息的能力,粉絲越多,傳播能力越強;“外中心度”可以描述用戶獲取信息的能力,好友越多,獲取信息能力越強,從而進(jìn)一步影響其粉絲。
(2)中間中心度是描述節(jié)點發(fā)揮“中間人”作用的一種度量,用節(jié)點通過任意其他兩個節(jié)點最短路徑的次數(shù)表示。如果最短路徑是某兩個節(jié)點的唯一最短路徑,則次數(shù)增加1,否則增加m/n(其中n為最短路徑的條數(shù),m為經(jīng)過該節(jié)點的最短路徑條數(shù))。如果一個節(jié)點多次位于其他節(jié)點的最短路徑上,則此節(jié)點居于重要地位。該指標(biāo)可以描述用戶在傳播信息中發(fā)揮“消息中間人”作用的重要程度。
(3)鄰近中心度是描述節(jié)點與其他節(jié)點鄰近程度的一種度量,用節(jié)點與其他節(jié)點最短路徑之和的倒數(shù)表示。如果某節(jié)點與其他所有節(jié)點的總距離較短,則該節(jié)點對其他節(jié)點的影響則較為直接。在有向圖中,該度量又分為內(nèi)鄰近性和外鄰近性。內(nèi)鄰近性越大表示該節(jié)點的消息擴散越快,外鄰近性越大表示該節(jié)點能夠較快獲得其他節(jié)點的消息。
3.2 用戶影響力分析
使用復(fù)雜網(wǎng)絡(luò)分析軟件,計算用戶關(guān)系網(wǎng)絡(luò)的“度數(shù)中心度”“中間中心度”和“鄰近中心度”3個度量共5個指標(biāo),并對用戶進(jìn)行排序,得到5種不同的結(jié)果,見表2。5種結(jié)果從不同角度分析了用戶在關(guān)系網(wǎng)絡(luò)中的中心地位。
3.3 指標(biāo)相關(guān)性分析
“度數(shù)中心度”“中間中心度”和“鄰近中心度”從不同角度分析了用戶在社會網(wǎng)絡(luò)中的地位,從計算方法來看,可能有一定的相關(guān)性。經(jīng)分析用戶度數(shù)中心度與鄰近中心度存在相關(guān)性,內(nèi)中心度與外中心度不存在明顯的相關(guān)性,中間中心度與其他中心度指標(biāo)不存在明顯的相關(guān)性。
4 用戶影響力的綜合評價
從用戶屬性分析用戶的影響力,主要關(guān)注用戶創(chuàng)造信息的能力,而從社會網(wǎng)絡(luò)分析用戶的影響力,則主要關(guān)注用戶傳播信息的能力。筆者使用投票法對多種結(jié)果進(jìn)行綜合評價,對該投票法計算方法進(jìn)行如下所述。
假設(shè)存在m種評價指標(biāo),分別表示為Ci(i=1,2,…,m)。用Ci(n)表示節(jié)點n在第i種評價指標(biāo)中的得分,用Si(n)表示節(jié)點n在第i種評價指標(biāo)中的排名,用Nia={n|Si(n) ≤a}表示在第i種評價指標(biāo)中排名在前a名的節(jié)點集合。用C表示使用m種評價指標(biāo)進(jìn)行投票的綜合評價指標(biāo),則Ca(n)=F1a (n)+ F2a (n)+…+ Fma (n)(其中Fia(n)=1當(dāng)且僅當(dāng)n∈Nia,否則=0)。用Sa(n)表示節(jié)點n在綜合評價指標(biāo)中的排名,用Nba={n|Sa(n) ≤b}表示在綜合評價指標(biāo)中排名在前b(b≤a)名的節(jié)點集合,則Nba即為綜合評價的結(jié)果。
從兩種視角共9種指標(biāo)中選取相互獨立的發(fā)帖數(shù)量、精華貼數(shù)、好友數(shù)、粉絲數(shù)和中間中心度5種指標(biāo)對用戶進(jìn)行綜合評價,取a=20,b=10,則可以計算出綜合影響力排名前10名的用戶,見表3。
從表3中看出,影響力前10名的用戶中,“1306246”和“1857202”在關(guān)系網(wǎng)絡(luò)中地位最為重要,在5項分指標(biāo)中3次進(jìn)入前20名;其他用戶則僅有2次進(jìn)入前20名。因此,用戶影響力綜合評價方法充分考慮了用戶的主要屬性和社會網(wǎng)絡(luò)關(guān)系,能較為客觀地對用戶按照影響力進(jìn)行了排名。
主要參考文獻(xiàn)
[1]張殿芳.基于網(wǎng)頁分塊的論壇爬蟲關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.
[2]唐飛龍,葉施仁,肖春.基于用戶質(zhì)量的微博社區(qū)博主影響力排序算法[J].計算機工程與應(yīng)用,2015(4).
[3]路遠(yuǎn)聰,劉云.基于用戶能量排序的論壇用戶影響力分析[J].鐵路計算機應(yīng)用,2014(12).
[4]陽德青.面向社會網(wǎng)絡(luò)的用戶行為挖掘與應(yīng)用研究[D].上海:復(fù)旦大學(xué),2013.