江一帥,王 澎
(杭州師范大學(xué)阿里巴巴商學(xué)院,浙江 杭州 311121)
隨著移動(dòng)互聯(lián)網(wǎng)的深入發(fā)展,以微信,qq空間為代表,越來越多社交工具的不斷涌現(xiàn),早年紅極一時(shí)的新浪微博出現(xiàn)了普通用戶退潮.與此同時(shí),受益于微博本身的開放性,出于個(gè)人宣傳的初衷,名人及其粉絲群體逐漸成為微博社交網(wǎng)絡(luò)中越來越主導(dǎo)的部分.基于此的微博營(yíng)銷也成為各路名人實(shí)現(xiàn)個(gè)人影響力變現(xiàn)的一種重要途徑.
微博營(yíng)銷所帶來的經(jīng)濟(jì)利益也使得它成為網(wǎng)絡(luò)水軍肆虐的新陣地.各路明星或是網(wǎng)絡(luò)名人依托公關(guān)公司,利用大批傀儡賬號(hào)推高其微博的各項(xiàng)數(shù)據(jù),以獲得表面數(shù)據(jù)的虛假繁榮,借此來提高其聲勢(shì).以水軍的密集交互形成的虛假熱點(diǎn)也是微博營(yíng)銷的重要手段之一.正是因?yàn)槲⒉┨摷傩畔⒌膹浡沟梦⒉┚W(wǎng)絡(luò)水軍的識(shí)別研究成為微博研究的一個(gè)重要課題.通過微博用戶的“粉絲數(shù)”、“關(guān)注數(shù)”等基本特征一直是區(qū)分水軍的重要手段[1-3];李濤等人[4]更是利用事件參與度、二階關(guān)聯(lián)性、關(guān)系緊密度和引導(dǎo)工具使用率這 4 個(gè)新特征獲得了更高的識(shí)別率.另一方面通過粉絲之間的關(guān)系網(wǎng)絡(luò)來識(shí)別水軍也是一個(gè)重要研究方向[5-6].葉施仁等[7]從單個(gè)水軍種子為起點(diǎn)擴(kuò)展粉絲關(guān)系,用Fast Unfolding算法進(jìn)行社區(qū)檢測(cè)來發(fā)現(xiàn)水軍集團(tuán);陶永才等人[8]通過獲取用戶的全部粉絲信息,從中挖掘凝聚子群,結(jié)合用戶的社會(huì)網(wǎng)絡(luò)關(guān)系,提出一種基于用戶粉絲聚類現(xiàn)象的水軍檢測(cè)模型.
如果說水軍識(shí)別是為了剝離虛假數(shù)據(jù),那么影響力的研究則是為了更好地衡量現(xiàn)有數(shù)據(jù).雖然現(xiàn)有的影響力研究[9-10]多少考慮了水軍的影響,但被忽略的一點(diǎn)是,刻意提高微博互動(dòng)數(shù)據(jù)量(點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論)的行為,不僅屬于虛假的水軍賬號(hào),同時(shí)也廣泛存在于真實(shí)的明星粉絲群體.很多狂熱的粉絲群體通常有自己的組織,并且從維護(hù)明星個(gè)人“面子”的角度出發(fā),自發(fā)地在各個(gè)平臺(tái)刷數(shù)據(jù),形成了愈演愈烈的所謂“粉絲控評(píng)”現(xiàn)象[11-12].這種行為產(chǎn)生的效果很多時(shí)候遠(yuǎn)大于水軍,使得用微博數(shù)據(jù)來衡量其真實(shí)的影響力變得愈發(fā)不可信.
從圖1中可以看到相比華晨宇,當(dāng)紅演員趙麗穎的平均評(píng)論量?jī)H其五分之一不到,這顯然和兩人的真實(shí)影響力是不匹配的.另一方面,一般認(rèn)為關(guān)注此明星的粉絲量越大,其微博的平均轉(zhuǎn)發(fā)量必然也越大,但是從圖1可以看到,關(guān)系顯然并不是這么簡(jiǎn)單,而且隨著粉絲量的增加,這種比例的差異越來越大.圖1充分反映出粉絲群體特性差異巨大.
圖1 名人的粉絲量與其微博平均評(píng)論數(shù)的散點(diǎn)圖Fig.1 The scatter chart of the number of some celebrities’ fans and the average number of comments on their blogs
這些極高的互動(dòng)數(shù)據(jù)很可能是其“死忠粉”和網(wǎng)絡(luò)水軍合力的結(jié)果.因此僅僅識(shí)別水軍,要么會(huì)導(dǎo)致誤殺了很多真實(shí)的粉絲,要么就無法真正區(qū)分所有虛假數(shù)據(jù).在本文的研究里,希望通過對(duì)比研究各名人粉絲的群體特征,來展現(xiàn)刻意行為對(duì)數(shù)據(jù)的真實(shí)影響.我們首先通過爬蟲獲取了若干名人微博內(nèi)活躍粉絲的特征及其行為記錄,著重研究了點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)3類互動(dòng)數(shù)據(jù)與粉絲特征之間的關(guān)系,并基于此對(duì)不同類別粉絲群進(jìn)行聚類分析,并通過對(duì)不同類別粉絲群的行為分析,發(fā)現(xiàn)若干有趣的現(xiàn)象,對(duì)于真實(shí)影響力的衡量具有重要意義.
通過新浪微博的API獲取了180位各個(gè)方面的名人微博互動(dòng)數(shù)據(jù),包括其最近所發(fā)的部分微博,并且從這些微博下抽樣提取了對(duì)其轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊的粉絲用戶行為記錄以及這些粉絲基本資料.總計(jì)5308條微博下的1432998個(gè)轉(zhuǎn)發(fā)者,2361913個(gè)評(píng)論者,2136245個(gè)點(diǎn)贊者的基本信息(未去除重復(fù)用戶).這180位名人中,粉絲數(shù)最小的用戶有487605位,最大的為125287237,由于我們這里主要選擇的是微博頭部用戶數(shù)據(jù),而頭部用戶數(shù)量有限,這里的樣本已經(jīng)包含了相當(dāng)數(shù)量的一部分頭部用戶.
我們的微博數(shù)據(jù)大致包含3個(gè)方面的信息:一個(gè)是博主的特征信息,這包括粉絲數(shù)(被關(guān)注)、關(guān)注數(shù)、等級(jí)(主要由博主的注冊(cè)時(shí)間和活躍度決定)、性別等等;一個(gè)是博主微博里參與了互動(dòng)(點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā))的粉絲特征信息,維度和博主的是一樣的;最后就是這些粉絲的微博互動(dòng)記錄,互動(dòng)行為包含了點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)3個(gè)方面.我們不僅考慮了上述行為的均值,并且還把行為后續(xù)被再次點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)的次數(shù)作為重要的考察特征.由于粉絲數(shù)或是關(guān)注數(shù)不同用戶差異非常大,我們都取中位數(shù)來表示,而其他數(shù)據(jù)比如等級(jí)(通常是1到7級(jí))差異不大,仍然使用均值.各個(gè)特征的特征矩陣具體計(jì)算見表1.
表1 部分特征計(jì)算說明Tab.1 The description of some features
圖2展示的是提取的所有博主36個(gè)特征之間相關(guān)系數(shù)的可視化.圖中每個(gè)色塊對(duì)應(yīng)兩個(gè)特征之間的相關(guān)系數(shù),顏色越白說明特征向量之間越是正相關(guān);顏色越黑說明特征之間越是負(fù)相關(guān).這里最重要的特征就是表示微博互動(dòng)活躍程度的平均點(diǎn)贊數(shù)、平均評(píng)論數(shù)、平均轉(zhuǎn)發(fā)數(shù).首先我們看到這3個(gè)量和博主的粉絲數(shù)雖然是正相關(guān),但并不明顯,反而和“評(píng)論被評(píng)論的均值”以及“評(píng)論被點(diǎn)贊的均值”有最強(qiáng)的相關(guān)性.一個(gè)評(píng)論被再次評(píng)論通常意味著粉絲雙方都是有關(guān)聯(lián)的,這和有組織的團(tuán)體粉絲特性非常符合.“所有點(diǎn)贊者的平均點(diǎn)贊數(shù)”等特征反映了粉絲在微博里的重復(fù)行為特征,我們可以看到這些忠實(shí)粉絲的重復(fù)行為很大程度推高了互動(dòng)數(shù)據(jù).另一方面,表示粉絲群體本身影響力的“轉(zhuǎn)發(fā)者關(guān)注數(shù)中值”,“轉(zhuǎn)發(fā)者粉絲中值”,“轉(zhuǎn)發(fā)者等級(jí)均值”則與活躍度相關(guān)量呈現(xiàn)很強(qiáng)的反向變化;更有意思的是,我們發(fā)現(xiàn)“評(píng)論中的男性比例”越高微博的活躍程度越低,這充分體現(xiàn)出推高微博互動(dòng)數(shù)據(jù)的主要來源于狂熱的女性粉絲團(tuán)體.
圖2 所有博主特征向量的相關(guān)系數(shù)矩陣圖Fig.2 The correlation coefficient matrix of all bloggers’ feature vectors
“點(diǎn)贊者粉絲中值”、“轉(zhuǎn)發(fā)者粉絲中值”、“轉(zhuǎn)發(fā)者關(guān)注中值”3個(gè)特征反映了粉絲群體本身的影響力.可以看到,男性比例高的粉絲群體會(huì)有更高的影響力.而高影響力的群體看起來不那么愿意去評(píng)論與轉(zhuǎn)發(fā)(與“評(píng)論者的勛章數(shù)均值”負(fù)相關(guān)),更不會(huì)在同一微博下多次評(píng)論(與“所有評(píng)論者的平均評(píng)論數(shù)”等特征負(fù)相關(guān)).此影響力也和“評(píng)論的評(píng)論數(shù)的均值”呈現(xiàn)負(fù)相關(guān),這說明高影響力的群體內(nèi)部互動(dòng)的傾向是不明顯的.這從另外一個(gè)角度也說明對(duì)微博互動(dòng)數(shù)據(jù)影響巨大的“死忠粉”群體的特性.
可以看到,互動(dòng)數(shù)據(jù)大小和粉絲群體特征及其行為有著很強(qiáng)的關(guān)聯(lián)性,一個(gè)微博互動(dòng)數(shù)據(jù)高并不一定代表其真實(shí)影響力高,更多是說明其粉絲群體特征不同.我們認(rèn)為,可以把微博粉絲群體分為兩類,一類是高活躍粉絲群體,這類群體支撐下的微博評(píng)論轉(zhuǎn)發(fā)均值會(huì)很高;另一類是低活躍粉絲群體,有這樣群體的微博評(píng)論轉(zhuǎn)發(fā)均值會(huì)低很多,但這樣的群體影響力并不弱.
因此,基于上面的特征矩陣,通過K-Means聚類方法,我們對(duì)不同的微博進(jìn)行了聚類分析.K-Means算法是一種廣泛使用的聚類算法.假定輸入樣本為S=X1,X2,……,Xm,則算法步驟為:
1.人為給定k個(gè)類別,并隨機(jī)初始化k個(gè)聚類中心;
2.對(duì)于每個(gè)樣本的Xi,將其中標(biāo)記為距離聚類中心最近的類別,即
3.將每個(gè)聚類中心更新為隸屬該類別所有樣本的均值
4.重復(fù)第2步和第3步,直到聚類中心變化小于某閾值或者迭代次數(shù)達(dá)到設(shè)定值.
這里我們?cè)O(shè)定k=2,如圖3所示,列舉了5個(gè)特征兩兩組合的散點(diǎn)圖,其中每個(gè)點(diǎn)對(duì)應(yīng)于某個(gè)名人的微博,其顏色的不同對(duì)應(yīng)于不同的分類;對(duì)角線處的分布圖為兩種分類下各微博特征分布.可以看到我們的聚類效果非常明顯.其中一類的“平均轉(zhuǎn)發(fā)數(shù)”、“評(píng)論被點(diǎn)贊的均值”等表征微博活躍程度的數(shù)據(jù)相對(duì)于另外一類都處于非常低的水平,這顯然證實(shí)了我們的觀點(diǎn).表2—表4更詳細(xì)地展示了兩種分類主要特征的中位數(shù)(以避免因?yàn)閭€(gè)別微博數(shù)據(jù)太高而造成統(tǒng)計(jì)誤差).從表1的微博基本特征可以看到,兩類微博的粉絲數(shù)差距并不大,但是平均點(diǎn)贊與評(píng)論卻相差數(shù)十倍,而平均轉(zhuǎn)發(fā)的甚至則超過100倍.
圖3 聚類后的部分結(jié)果展示圖Fig.3 The partial results after clustering
表2 微博基本特征表Tab.2 The features of microblog
表4 粉絲行為特征表Tab.4 The features of behavior of fans
通過表3粉絲群體特征表可以看到,高活躍粉絲群體本身的粉絲數(shù)與關(guān)注都偏低,雖然這個(gè)群體通常存在很強(qiáng)的互粉.從這個(gè)角度來看,我們可以猜測(cè)這個(gè)群體非常封閉.而此群體更強(qiáng)的活躍性可以通過其博文數(shù)量和勛章數(shù)看出;高認(rèn)證比例則顯示出其對(duì)待微博更刻意的態(tài)度,或許粉絲團(tuán)內(nèi)部本身對(duì)其就有要求;在我們的數(shù)據(jù)中,女性粉絲占比接近80%,而在高活躍粉絲群體中能看到更高的女性比例.
表3 粉絲群體特征表Tab.3 The features of fans
在表4粉絲的行為特征表中,更高的“評(píng)論者的平均評(píng)論數(shù)”顯示出活躍粉絲群體極強(qiáng)的忠誠(chéng)度.相比低活躍群體,超出10倍“評(píng)論被點(diǎn)贊均值”充分顯示這個(gè)群體是多么不吝嗇自己的點(diǎn)擊.低活躍群體轉(zhuǎn)發(fā)之后更高的被評(píng)論與被點(diǎn)贊值,則進(jìn)一步顯示出其更強(qiáng)的影響力.
通過上面的研究,可以知道趙麗穎和華晨宇兩位微博名人,為什么前者粉絲數(shù)遙遙領(lǐng)先,有著更廣泛的影響,但是點(diǎn)贊評(píng)論數(shù)據(jù)卻遠(yuǎn)遠(yuǎn)落后了.顯然高活躍的粉絲群體的“控評(píng)”行為決定了這樣的差異,特別是趙麗穎的粉絲明顯會(huì)有更多的男性,根據(jù)我們的研究,其粉絲群體相對(duì)低的活躍度也可想而知.
研究發(fā)現(xiàn)常見的水軍識(shí)別算法依賴的特征在識(shí)別這種粉絲群體中是失效的.例如,在基于關(guān)系網(wǎng)絡(luò)的水軍識(shí)別中,有研究者[4,7,13]認(rèn)為真實(shí)用戶之間的關(guān)系網(wǎng)有更高的簇系數(shù)而水軍彼此獨(dú)立;在基于行為的水軍識(shí)別研究中也假設(shè)水軍之間是缺乏互動(dòng)的[3,14].然而,本文通過“所有評(píng)論者的平均評(píng)論數(shù)”,“所有點(diǎn)贊者的平均點(diǎn)贊數(shù)”等特征研究發(fā)現(xiàn),高活躍度用戶彼此之間有比一般用戶更強(qiáng)的互動(dòng)行為,而這部分用戶正是“粉絲控評(píng)”行為的主體.我們認(rèn)為要評(píng)估這種行為對(duì)數(shù)據(jù)的扭曲,需要重新考慮現(xiàn)有的識(shí)別算法.
粉絲間的高頻互動(dòng)很可能是維持粉絲高活躍度的一個(gè)重要原因,而另一方面粉絲本人的興趣顯然也是非常重要的一環(huán).有研究認(rèn)為水軍用戶因?yàn)榉?wù)于任務(wù)而使得其完全不存在個(gè)人興趣,正常用戶的興趣會(huì)相對(duì)集中[15].而我們認(rèn)為高活躍粉絲的興趣很可能和水軍完全相反,是非常單一,甚至比一般用戶更單一.粉絲間的網(wǎng)絡(luò)效應(yīng)很可能加強(qiáng)了這種興趣的集中度,這將是理解“粉絲控評(píng)”這種集體行為的重要思路.
毫無疑問,高活躍粉絲群體中多少都會(huì)有水軍的存在,明星雇傭水軍提升數(shù)據(jù)已經(jīng)是很普遍的現(xiàn)象.但是僅僅通過水軍識(shí)別來剔除虛假數(shù)據(jù),對(duì)于還原其真實(shí)影響力是遠(yuǎn)遠(yuǎn)不夠的.從高活躍粉絲的特性:高的交互性、低的群體粉絲數(shù)、極高的活躍性.可以看到,這樣的群體產(chǎn)生的影響基本只在群體內(nèi)部回響.低活躍粉絲群體的傳播力顯然更加真實(shí)和廣泛.從這個(gè)角度看,高活躍粉絲可以說是一種另類的網(wǎng)絡(luò)水軍,識(shí)別這種粉絲群,并重新評(píng)估其群里產(chǎn)生的數(shù)據(jù)質(zhì)量顯然對(duì)于指導(dǎo)微博營(yíng)銷有著重要的價(jià)值,同時(shí)也將是我們未來研究的方向.
杭州師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年5期