董雨辰,劉 琰,羅軍勇,張 進
(數(shù)學(xué)工程與先進計算國家重點實驗室,鄭州450001)
基于支持向量機的炒作微博識別方法
董雨辰,劉 琰,羅軍勇,張 進
(數(shù)學(xué)工程與先進計算國家重點實驗室,鄭州450001)
微博是輿論傳播的中心和渠道,同時參與輿論的形成、發(fā)展與引導(dǎo)過程,其自媒體發(fā)布、意見領(lǐng)袖參與等因素在一定程度上造成了微博謠言、虛假炒作、社會動員等現(xiàn)象。針對炒作微博的傳播特點,分析其群體的隱蔽策劃現(xiàn)象,挖掘出普通微博和炒作微博在傳播網(wǎng)絡(luò)結(jié)構(gòu)、轉(zhuǎn)發(fā)增量統(tǒng)計等方面的差異。通過社交網(wǎng)站的應(yīng)用程序接口對目標(biāo)微博的所有評論、轉(zhuǎn)發(fā)和點贊用戶進行信息獲取,構(gòu)建該微博的傳播網(wǎng)絡(luò),利用社團模塊度、平均最短路徑和網(wǎng)絡(luò)直徑這3個屬性度量該網(wǎng)絡(luò)的緊密程度,基于支持向量機對所抽取的微博進行分類,進而識別出炒作微博。實驗結(jié)果表明,該方法對微博傳播用戶的屬性信息依賴小以及傳播網(wǎng)絡(luò)結(jié)構(gòu)特征敏感,并且具有較高的炒作微博識別準(zhǔn)確率。
社交網(wǎng)絡(luò);炒作群體;炒作微博;社團模塊度;網(wǎng)絡(luò)直徑;平均最短路徑;支持向量機
隨著移動終端的大規(guī)模普及,微博、Twitter、Facebook等社交網(wǎng)站迅速地融入到人們的日常生活中。微博傳播是一把雙刃劍,一方面,為突發(fā)事件中的信息公開提供了一個快速響應(yīng)平臺,在一定程度上彌補了傳統(tǒng)媒體和其他網(wǎng)絡(luò)的不足。另一方面,由于微博新聞的發(fā)布真實性無法得到保證,可能會被利用成為謠言傳播的載體和不滿情緒的導(dǎo)火索,甚至給國家和社會穩(wěn)定造成嚴重的后果。顯示社交網(wǎng)絡(luò)能量的一個標(biāo)志性事件是2008年奧巴馬的公關(guān)團隊嫻熟地運用Facebook,Twitter,YouTube和Flickr等平臺,為奧巴馬的成功競選起到關(guān)鍵作用,在此之后的2010年“茉莉花事件”、2011年的倫敦
騷亂以及2011年和2013年埃及的2次政變等事件,都能看到社交網(wǎng)站在背后推波助瀾的痕跡。研究發(fā)現(xiàn),熱門微博傳播中人為操縱的虛假信息轉(zhuǎn)發(fā)量極大,1%的垃圾消息發(fā)送者創(chuàng)造了49%的轉(zhuǎn)發(fā)量[1]。出現(xiàn)在互聯(lián)網(wǎng)上的“網(wǎng)絡(luò)水軍”、“網(wǎng)絡(luò)推手”等利用社會媒體散布謠言和虛假信息,開展不正當(dāng)商業(yè)競爭,買賣粉絲,操控網(wǎng)絡(luò)輿論,這些網(wǎng)絡(luò)公關(guān)行為,嚴重干擾了正常網(wǎng)絡(luò)輿論秩序[2]。
社交網(wǎng)站上的熱門微博按轉(zhuǎn)發(fā)、評論、點贊數(shù)量以及在一定時間內(nèi)被轉(zhuǎn)發(fā)和評論的頻率等一系列參數(shù)綜合計算排出。這樣就使得一些個體或商家甚至不法分子為了達到某種宣傳作用,不惜借助微博營銷公司,雇傭草根大號、名人微博,乃至于雇傭控制大量僵尸粉絲的黑客對自身的博文進行廣泛傳播,在短時間內(nèi)造成熱門微博的假象,以此擠進社交網(wǎng)站的熱門微博榜單,然后信息就像被吹開的蒲公英,向不同方向進行擴散,屬于典型的蒲公英式傳播模型,也稱之為裂變式傳播或爆炸式傳播。簡單來說,蒲公英效應(yīng)就是以一個動作為出發(fā)點,最終達到多重效果。事實上,在微博營銷中存在大量蒲公英效應(yīng)。
本文對炒作微博的轉(zhuǎn)發(fā)、評論行為進行有效預(yù)測和識別,并挖掘出起到重要傳播作用的關(guān)鍵節(jié)點,提出基于支持向量機(Support Vector Machine, SVM)的炒作微博識別方法。在微博傳播網(wǎng)絡(luò)中使用模塊度峰值、平均最短路徑和網(wǎng)絡(luò)直徑作為傳播網(wǎng)絡(luò)結(jié)構(gòu)度量的主要參數(shù),基于SVM綜合多種參數(shù)進行分析,進而識別炒作微博。
隨著Web2.0的發(fā)展,社交類網(wǎng)站的影響能力和輻射人群日益壯大,消息的真?zhèn)我约笆欠翊嬖谌藶榈牟倏匮哉摰淖呦?逐漸成為網(wǎng)絡(luò)輿情研究的新熱點。文獻[3]運用基于關(guān)鍵詞的信息監(jiān)視器,收集數(shù)據(jù)自動評估信息的新聞價值的方法,對Twitter的信息可信度進行評估。文獻[4]提出基于事件圖表優(yōu)化的可信度分析方法。文獻[5]提出社會性網(wǎng)絡(luò)信息傳播模式下的網(wǎng)絡(luò)議題升級模型,從受眾升級、媒體升級、輿情升級3個方面剖析議題的發(fā)展趨勢。在傳播時間上,文獻[6]將網(wǎng)絡(luò)媒體按信息來源進行區(qū)分,發(fā)現(xiàn)網(wǎng)絡(luò)論壇信息傳播隨時間變化的相似性與論壇作者在發(fā)表量上的不平等特征。一些學(xué)者利用傳染病傳播模型對輿情傳播進行研究。文獻[7]把傳染病模型應(yīng)用在媒體環(huán)境下,利用免疫的輿情傳播模型對信息的傳播進行控制。網(wǎng)絡(luò)結(jié)構(gòu)對社會網(wǎng)絡(luò)信息的傳播有很大影響,利用復(fù)雜網(wǎng)絡(luò)方法對網(wǎng)絡(luò)傳播動力機制進行分析開辟了輿情信息傳播的新領(lǐng)域。文獻[8]通過研究發(fā)現(xiàn)規(guī)則網(wǎng)絡(luò)比小世界網(wǎng)絡(luò)中信息傳播的范圍更大,速度也更快。文獻[9]認為網(wǎng)絡(luò)信息傳播不僅依賴于小世界網(wǎng)絡(luò)中的最短路徑,還與網(wǎng)絡(luò)行為的多次社會性強化有關(guān)。意見領(lǐng)袖在信息傳播中充當(dāng)了重要的角色,影響力和感召力大的名人,可以影響人們的購買行為和政治觀點。文獻[10-11]使用粉絲數(shù)量和微博轉(zhuǎn)發(fā)數(shù)量對用戶影響力進行衡量,結(jié)果表明粉絲數(shù)量多的用戶微博不一定會得到很多的轉(zhuǎn)發(fā)或者評論。文獻[12]借鑒PageRank算法的思想,設(shè)計了TwitterRank算法來衡量一個用戶在某一主題內(nèi)的影響力,主要思想是給定一個主題,用戶的影響力定義為他的所有粉絲的影響力之和。
上述學(xué)者對于微博的可信度和用戶的影響力的研究,基本上解決了有關(guān)鍵用戶且由其引起的信息傳播的微博輿情分析。實際上網(wǎng)絡(luò)炒作中還有一種情況是其傳播的主體為數(shù)量龐大的水軍;這些水軍由網(wǎng)絡(luò)公關(guān)公司雇傭的大批社會閑散人員組成,并由公關(guān)公司挑選出來的組長負責(zé)管理,統(tǒng)一行動[13]。有的組長是網(wǎng)絡(luò)紅人或微博草根大號,炒作的行為是有組織、有計劃、有目的的群體策劃。本文將針對此類炒作微博,在真實的社交網(wǎng)絡(luò)環(huán)境中,分析其傳播模式,研究其特殊的成員組成結(jié)構(gòu),梳理出其炒作目標(biāo),尋找出其隱含的炒作痕跡。然后運用社團模塊度、平均最短路徑、網(wǎng)絡(luò)直徑和基于支持向量機挖掘炒作團體的潛在屬性,識別出炒作微博。
3.1 炒作微博的群體策劃現(xiàn)象
炒作社團組成結(jié)構(gòu)緊密且封閉,從炒作微博單位時間內(nèi)的轉(zhuǎn)發(fā)量(某化妝品炒作廣告轉(zhuǎn)發(fā)量見圖1)上看也異于熱門微博的單位時間內(nèi)的轉(zhuǎn)發(fā)量(2013年4月20日四川雅安地震一條微博轉(zhuǎn)發(fā)量見圖2)。可以看出,一條熱門微博的產(chǎn)生到其傳播量的爆發(fā)經(jīng)歷了一定的潛伏期,并逐漸成指數(shù)型增長,在增長到一定數(shù)量級后,呈現(xiàn)平衡狀態(tài),隨著時間的增加,逐步衰減消亡。
圖1 某炒作微博單位時間內(nèi)的轉(zhuǎn)發(fā)量
炒作微博單位時間內(nèi)的轉(zhuǎn)發(fā)量生成圖并沒有出現(xiàn)潛伏期和成長期,而是直接在經(jīng)過幾個數(shù)據(jù)量低的時間片后,傳播量飆升到爆發(fā)狀態(tài),緊接著便迅速衰落至初始狀態(tài),在隨后的時間片內(nèi)呈現(xiàn)出極低的傳播量,直至死亡,或者再出現(xiàn)幾次這種規(guī)律性的爆發(fā),這是由于博主在付費給水軍客服后,水軍客服安排炒作團體為指定的微博進行轉(zhuǎn)發(fā)和評論;然后博主對效果進行評估,選擇是否繼續(xù)雇傭水軍為其博文進行后續(xù)炒作,所以炒作微博的轉(zhuǎn)發(fā)圖會呈現(xiàn)出特殊的傳播走勢。
圖3(a)展示了一個典型蒲公英式的熱門微博傳播圖,體現(xiàn)出核爆式一二三級沖擊波和大小V(指在微博上十分活躍、又有著大群粉絲的公眾人物。通常把粉絲在5×105以上的稱為網(wǎng)絡(luò)大V)轉(zhuǎn)發(fā)的典型傳播方式。圖3(b)是一條典型的炒作微博信息傳播,其傳播過程中充斥著大量的炒作團體,少有離散節(jié)點的信息傳播,主要是依附于大V下的粉絲在擴撒信息。
圖3 典型熱門微博和炒作微博的信息傳播結(jié)構(gòu)
3.2 微博傳播網(wǎng)絡(luò)
與人人網(wǎng)、QQ好友等傳統(tǒng)的社交網(wǎng)絡(luò)不同,微博的用戶與用戶之間以一種“弱關(guān)系”的形式存在的,用戶關(guān)注某人成為其粉絲也只需要單方面的認可,人與人之間并不存在太多的感情聯(lián)系[14]。圖4(a)是從人人網(wǎng)中提取的一個基于強關(guān)系的社交網(wǎng)絡(luò)結(jié)構(gòu),網(wǎng)絡(luò)中的節(jié)點呈現(xiàn)出同構(gòu)的特性。圖4(b)為新浪微博的一個弱關(guān)系社交網(wǎng)絡(luò)結(jié)構(gòu),其中,黑點是用戶節(jié)點;白點是粉絲節(jié)點;實線為關(guān)注關(guān)系;虛線是信息的傳播關(guān)系。正是這種微博用戶彼此間“弱關(guān)系”的存在,促使信息不斷地向外擴散,以及不同影響力的節(jié)點對信息傳播的強弱起到了關(guān)鍵性作用,組成了微博特殊的傳播方式。由于微博用戶的社會地位與公眾認知度的不同,使得其在信息傳播的影響力度方面也有天壤之別。因此,若能找出個人或者團體在微博信息傳播中的影響范圍或者說在微博傳播節(jié)點存在社團(群體策劃行為)的可能性,是預(yù)防與識別網(wǎng)絡(luò)惡意炒作、煽動的關(guān)鍵[15]。
圖4 典型強弱關(guān)系社交網(wǎng)絡(luò)結(jié)構(gòu)
微博用戶間存在關(guān)注關(guān)系和傳播關(guān)系的雙重特征,以圖4(b)所示微博關(guān)注網(wǎng)絡(luò)為例,用戶A關(guān)注了用戶D,A與D之間存在關(guān)注關(guān)系A(chǔ)→D;當(dāng)用戶D發(fā)表一條微博M時,A會收到微博M(D的所有粉絲A,B和C都會收到該微博),A與D之間又存在傳播關(guān)系D→A;這樣用戶A與D之間同時存在A→D表示的關(guān)注關(guān)系以及D→A表示的傳播關(guān)系。若用A?D統(tǒng)一表示用戶間的這種復(fù)合關(guān)系,可以定義微博傳播網(wǎng)絡(luò)G=(V,E),其中,V為微博用戶集合;?v∈V表示微博中的一個用戶;E={eij|?vi,vj∈V,vi關(guān)注vj或vj關(guān)注vi}為微博中用戶間的傳播路徑集合,?eij∈E為無向邊,表示用戶間的關(guān)注關(guān)系和傳播關(guān)系。
3.3 傳播節(jié)點的重要性
在微博的傳播中,關(guān)鍵節(jié)點(網(wǎng)絡(luò)大V、名人、不同領(lǐng)域的意見領(lǐng)袖)的轉(zhuǎn)發(fā)起到了重要作用[16]。關(guān)鍵節(jié)點是指在信息傳遞和人際互動過程中具有影響
力和活動力的少數(shù)人[17],這些關(guān)鍵節(jié)點在某種程度上引導(dǎo)人們的消費、言論和政治觀點。使用粉絲數(shù)和轉(zhuǎn)發(fā)數(shù)對用戶影響力進行研究,發(fā)現(xiàn)粉絲數(shù)多的用戶微博不一定會有很多的轉(zhuǎn)發(fā)及評論數(shù)[11]。由于炒作微博是為了進入運營商的熱門微博榜單,進而被更廣泛的傳播。
4.1 微博傳播網(wǎng)絡(luò)的參數(shù)度量與選擇
微博前期的炒作行為伴隨著大量的刻意轉(zhuǎn)發(fā)和評論,這都需要巨大的人力資源投入。為了達到數(shù)量上的要求,炒作用戶一般會聚集為一個個團體,聽從某些關(guān)鍵人物的領(lǐng)導(dǎo),對指定微博進行轉(zhuǎn)發(fā)和評論。微博傳播過程中,傳播節(jié)點的聚集程度是本文研究和識別炒作微博的關(guān)鍵問題。
4.1.1 社團模塊度
微博的傳播網(wǎng)絡(luò)符合社團網(wǎng)絡(luò)的無向圖結(jié)構(gòu),為了判斷傳播節(jié)點的聚集程度,引入社團模塊度的概念,用一個模塊函數(shù)[18]來模擬、判定社團的緊密程度,定量地描述網(wǎng)絡(luò)中社團存在的可能性,并衡量網(wǎng)絡(luò)社團結(jié)構(gòu)的劃分。模塊度是指網(wǎng)絡(luò)中連接社團結(jié)構(gòu)內(nèi)部頂點的邊所占的比例與另外一個隨機網(wǎng)絡(luò)中連接社團結(jié)構(gòu)內(nèi)部頂點的邊所占比例的期望值相減得到的差值。這個隨機網(wǎng)絡(luò)的構(gòu)造方法為:保持每個頂點的社團屬性不變,頂點間的邊根據(jù)頂點的度隨機連接。利用函數(shù)Q定量描述社團劃分的模塊化水平:
其中,ki和kj是節(jié)點的度值;Ci是節(jié)點i所屬社團;m是網(wǎng)絡(luò)總邊數(shù)。當(dāng)Ci=Cj時,δ(Ci,Cj)=1,否則為0;Q值在0~1之間,一般以Q=0.3作為網(wǎng)絡(luò)具有明顯社團結(jié)構(gòu)的下限。如果社團內(nèi)部頂點間的邊沒有隨機連接得到的邊多,則Q函數(shù)的值為負數(shù)。相反地,當(dāng)Q函數(shù)的值接近1時,表明相應(yīng)的社團結(jié)構(gòu)其內(nèi)部聯(lián)系高度緊密。在實際網(wǎng)絡(luò)中,Q存在峰值,模塊度越接近峰值,社團結(jié)構(gòu)越明顯,峰值常位于0.3~0.7之間。
4.1.2 平均最短路徑
最短路徑是指在一個賦權(quán)圖的2個節(jié)點間找出一條最小權(quán)的路徑,平均最短路徑是指一個網(wǎng)絡(luò)中兩點之間最短路徑的平均值。而社交網(wǎng)絡(luò)拓撲特征則體現(xiàn)了現(xiàn)實網(wǎng)絡(luò)中最短路徑的一些內(nèi)在規(guī)律。不同于隨機網(wǎng)絡(luò),社交網(wǎng)絡(luò)中的大部分節(jié)點多在小范圍內(nèi)相互連接,呈現(xiàn)出一定的高聚集系數(shù)特性,也不同于規(guī)則網(wǎng)絡(luò),社交網(wǎng)絡(luò)結(jié)構(gòu)中任意兩點間的距離都較短,其原因在于一些連接不同簇的“長邊”。文獻[19]提出弱連接,認為弱連接比強連接更能穿越不同的群體,因此能觸及更多的人,穿過更大的社會距離。從這個角度出發(fā),解釋了小團體內(nèi)部的互動如何匯聚成了大規(guī)模的結(jié)構(gòu)形態(tài)。因此,弱聯(lián)結(jié)理論將微觀的和宏觀的社會網(wǎng)模型聯(lián)系在一起。在此利用最短路徑來識別微博的擴散范圍。如果2條微博的傳播數(shù)目相同,而傳播節(jié)點間的平均最短路徑差距較大,便認為平均最短路徑值大的微博,其傳播層數(shù)多,影響力大,而平均最短路徑小的微博,傳播多集中在某個或幾個轉(zhuǎn)發(fā)者的粉絲間傳遞,以致于傳播層數(shù)少,影響力弱。通過計算微博傳播中節(jié)點平均最短路徑,判斷節(jié)點間的緊密程度,以此識別出炒作微博。本文先使用Floyd[20]算法求解出微博傳播圖中所有節(jié)點之間的最短距離,再求距離的平均值得出平均最短路徑長度。主要思想是從任意2個頂點vi到vj距離的帶權(quán)鄰接矩陣開始,依次插入一個頂點vk,然后將vi到vj間的已知最短路徑與插入頂點vk后可能產(chǎn)生的vi到vj的距離比較,取兩者之間的較小值,得到新的距離矩陣。通過循環(huán)迭代,得到的最后帶權(quán)鄰接矩陣Dn就反映了所有頂點對之間的最短距離信息。算法具體描述如下:
(1)定義初始的距離矩陣D0:
(2)根據(jù)以下公式構(gòu)造迭代矩陣Dk:
(3)當(dāng)Dk=Dk+1,終止算法;否則,重復(fù)步驟(2)。
4.1.3 網(wǎng)絡(luò)直徑
網(wǎng)絡(luò)直徑是指網(wǎng)絡(luò)中任意節(jié)點間距離的最大值,一般用鏈路數(shù)來度量。網(wǎng)絡(luò)直徑能在一定方面反映社交網(wǎng)絡(luò)中信息的傳播廣度,對于傳播節(jié)點相同的微博信息傳播網(wǎng)絡(luò)來說,網(wǎng)絡(luò)直徑越長,傳播的廣度越大。本文用網(wǎng)絡(luò)直徑來表示微博信息傳播的廣度。由于炒作微博大多是由水軍團體傳播的,其傳播范圍也僅限于幾個水軍群體之間。而熱門微博符合蒲公英的傳播方式,擴散范圍廣、受眾人群多、網(wǎng)絡(luò)直徑大。本文使用網(wǎng)絡(luò)直徑來判斷微博傳播的范圍。
4.2 基于SVM的炒作微博識別方法描述
支持向量機的主要思想是:對給定有限數(shù)量的訓(xùn)練樣本的機器學(xué)習(xí),通過在原空間或投影后的高維空間中構(gòu)造最佳超平面,將2種類別的訓(xùn)練樣本
線性可分,再使用線性可分的原理判斷分類邊界。在高維空間中,它是一種線性劃分,而在原有數(shù)據(jù)空間中,它是一種非線性劃分。
首先考慮炒作微博和正常微博的分類問題,設(shè)置模式樣本點(xi,yi)服從樣本空間X×Y上的某個未知概率分布P(x,y),其中,X代表二維向量(x1表示平均最短路徑,x2表示微博傳播網(wǎng)絡(luò)直徑);Y為模塊度(x1∈(1,+∞),x2∈(1,+∞),y∈(0,1))。目的是尋找一個超平面將數(shù)據(jù)劃分開。本文使用最大間隔法,分類邊界是值從分類面分別向2個類的點平移,直到遇到第1個數(shù)據(jù)點,2個類的分類邊界的距離就是分類間隔。
分類平面表示為(w·x)+b=0,其中,x是多維向量。分類間隔的倒數(shù)為:。所以,該最優(yōu)化問題表示為:
s.t.yi((w·xi)+b)+1)≥1,i=1,2,…,l(4)其中,約束要求各數(shù)據(jù)點(xi,yi)到分類面的距離大于等于1,yi為數(shù)據(jù)分類。
4.3 基于SVM的炒作微博識別框架
基于SVM的炒作微博識別框架主要由數(shù)據(jù)預(yù)處理器、SVM分類器、SVM訓(xùn)練和決策響應(yīng)等主要部分組成,如圖5所示。
圖5 基于SVM的炒作微博識別框架
其中,數(shù)據(jù)預(yù)處理是對大量微博數(shù)據(jù)流進行獲取、分類和提取,包括數(shù)據(jù)采集、特征提取、節(jié)點數(shù)向量化處理、參數(shù)值計算功能。數(shù)據(jù)采集是通過API對微博社交網(wǎng)站運營商服務(wù)器上的數(shù)據(jù)進行采集。特征提取是對傳播微博的用戶ID及傳播路徑進行提取。節(jié)點數(shù)據(jù)量化處理是對這些TXT文本數(shù)據(jù)按照微博信息傳遞的路徑和向量的指向性質(zhì),對其擴散指向進行量化,映射出整條微博的傳遞方向。參數(shù)值計算是計算社團模塊度和最短路徑。SVM分類器是對這些參數(shù)進行分類后把結(jié)果輸入相應(yīng)單元進行最后決策。
整個過程由2個階段完成,即訓(xùn)練階段和測試階段。首先把訓(xùn)練數(shù)據(jù)(例如,某冷飲廠商在一時間段的全部微博數(shù)據(jù),包括炒作微博和正常微博)通過數(shù)據(jù)轉(zhuǎn)換轉(zhuǎn)化為SVM分類器可識別的數(shù)據(jù)。在訓(xùn)練階段,利用訓(xùn)練數(shù)據(jù)訓(xùn)練SVM對炒作微博進行分類,分析訓(xùn)練結(jié)果。在測試階段,將未知的測試數(shù)據(jù)進行數(shù)據(jù)預(yù)處理,得到判斷參數(shù),進行炒作微博的識別。最后對檢測結(jié)果進行人工識別,給出識別準(zhǔn)確率,并對識別誤差進行分析。
5.1 訓(xùn)練數(shù)據(jù)集的選取與采集
本文的訓(xùn)練數(shù)據(jù)集采自于2013年5月-10月人工識別某冷飲廠家雇傭水軍炒作傳播數(shù)在10 000以上的數(shù)據(jù)以及微博風(fēng)云榜上的熱門微博。提取單條微博的傳播路徑和節(jié)點信息,對傳播節(jié)點進行分析,獲取其粉絲和關(guān)注者的數(shù)據(jù),用于計算單條微博傳播節(jié)點間的緊密程度以及判斷是否有社團存在的可能性。
在對炒作微博的傳播路徑節(jié)點信息進行分析后,發(fā)現(xiàn)炒作微博的社團模塊度峰值Q都超過了0.8,模塊度峰值最高的是某冷飲廠商雇傭水軍詆毀競爭對手的微博,2天傳播30 883條,模塊度峰值Q=0.903,并且出現(xiàn)微博評論數(shù)接近轉(zhuǎn)發(fā)數(shù)的狀況。對其官方微博進行分析,其擁有百萬粉絲量,日均微博數(shù)4.79條,發(fā)布微博分為4類:(1)產(chǎn)品宣傳; (2)別人對其的炒作,官方進行轉(zhuǎn)發(fā);(3)貶低競爭對手;(4)原創(chuàng)或轉(zhuǎn)發(fā)的一般微博。經(jīng)對其半年官方微博進行跟蹤發(fā)現(xiàn),對自己產(chǎn)品進行宣傳促銷和詆毀直接競爭對手這2類微博,轉(zhuǎn)發(fā)數(shù)和評論數(shù)超過其發(fā)布的原創(chuàng)微博和轉(zhuǎn)發(fā)微博幾十個數(shù)量級。在對其歷史微博數(shù)據(jù)和粉絲數(shù)目演化進行還原,存在明顯買粉絲情況,在個別時期達到50%(25.6×104)的增長量(圖6),而平時僅百余人的粉絲增長數(shù)目。對粉絲質(zhì)量進行分析可見,在大規(guī)模粉絲增長的情況下,粉絲明顯呈現(xiàn)出僵尸粉絲和水軍的特性(注冊時間集中、評論及轉(zhuǎn)發(fā)內(nèi)容多是廣告和詆毀性質(zhì)的博文)。在與對手競爭最激烈的2013年5月-6月,其雇傭的大量水軍對其博文進行轉(zhuǎn)發(fā)與評論(圖7),造成了極大的社會影響力。
圖6 某冷飲微博粉絲增長趨勢
圖7 某冷飲微博每千人粉絲的評論與轉(zhuǎn)發(fā)量
5.2 結(jié)果分析
在對某冷飲廠家傳播量超10 000的微博數(shù)據(jù)進行分析后,再與之前獲取的熱門微博數(shù)據(jù)進行對比分析,通過SVM分類器對2種類型的微博數(shù)據(jù)進行分類(圖8),可以看出兩者存在明顯區(qū)別,炒作微博的模塊度峰值遠超出正常社團的0.3~0.7的區(qū)域,并且平均最短路徑為3.395,也明顯背離六度分隔理論,最長網(wǎng)絡(luò)直徑在7以內(nèi),與傳播數(shù)相同的熱門微博最長網(wǎng)絡(luò)直徑23相比,存在明顯差距。對已識別出疑似的炒作微博進行傳播節(jié)點的出度分析(一個節(jié)點被直接轉(zhuǎn)發(fā)一次,稱其出度值為1)。按節(jié)點出度大小進行排列后,可知出度大的節(jié)點與出度小的節(jié)點存在指數(shù)倍差距(圖9)。
圖8 炒作微博與熱門微博的SVM分類
圖9 炒作微博中的大V參與程度
某些出度較大的節(jié)點在此冷飲廠商的多條炒作微博中重復(fù)出現(xiàn),而該廠家正常的微博轉(zhuǎn)發(fā)節(jié)點并沒有這些大V參與。
對這些疑似炒作微博中的大V進行分析,提取大V的用戶名,在國內(nèi)某水軍炒作網(wǎng)站上進行查詢,如圖10的博主列表,在某冷飲廠商的炒作及抨擊競爭對手的博文中,參與轉(zhuǎn)發(fā)的大V,有93%的炒作大號存在于此網(wǎng)站的列表中。
圖10 參與炒作的大V及其報價表
不同的粉絲量、轉(zhuǎn)評值(一條微博中進行轉(zhuǎn)發(fā)和評論數(shù)目的比值)決定了其不同的定價,并且每個炒作大V都表明了硬廣轉(zhuǎn)發(fā)報價、軟廣轉(zhuǎn)發(fā)報價、硬廣直發(fā)報價、軟文直發(fā)報價和炒作平臺等信息,甲方可根據(jù)自己的需求和傳播量進行選擇。本文所選取的炒作微博廠家為了得到更好的傳播效果和影響力,每次發(fā)布產(chǎn)品宣傳和詆毀競爭對手的博文,都會雇傭多個炒作大號對其博文進行傳播。如果把其雇傭炒作團體進行轉(zhuǎn)發(fā)與評論的微博從炒作賬號的出度刪除后,炒作微博的平均轉(zhuǎn)發(fā)數(shù)目為116.45條,與其正常微博平均轉(zhuǎn)發(fā)數(shù)的61.48條相比,炒作微博的影響力并沒有得到有效提升。
圖11反映了圖10中炒作微博(1)的傳播路徑圖。圖10中顯示了此條炒作微博包含了10個出度在2 000以上的大V賬號ID、出度為347和247的2個較小賬號ID以及其余的出度在10以內(nèi)的賬號ID。展現(xiàn)了10個大V和2個較小賬號的微博傳播消息結(jié)構(gòu)。
圖11 對應(yīng)圖10炒作微博(1)的微博信息傳播結(jié)構(gòu)
5.3 測試數(shù)據(jù)集的選取與采集
本文選取國內(nèi)新浪微博2013年7月2日前轉(zhuǎn)發(fā)量超過10 000的433條微博數(shù)據(jù)進行測試實驗。通過新浪微博開放API得到相關(guān)數(shù)據(jù)(2013年7月2日API升級后,非授權(quán)用戶的數(shù)據(jù)只能通過business API獲取)。數(shù)據(jù)及數(shù)據(jù)間的關(guān)系為:
(1)微博屬性:發(fā)布時間,轉(zhuǎn)發(fā)數(shù),評論數(shù),轉(zhuǎn)發(fā)者ID,評論者ID;
(2)用戶關(guān)系:用戶ID,關(guān)注用戶ID,粉絲ID。
5.4 測試結(jié)果誤差分析
通過對這433條轉(zhuǎn)發(fā)量超過10 000的微博數(shù)據(jù)進行實驗,使用基于SVM的炒作微博識別方法發(fā)現(xiàn)疑似炒作微博57條,然后對測試數(shù)據(jù)進行人工識別,確定為炒作微博的有43條,如表1所示。
表1 基于模塊度與最短路徑的炒作微博識別
對誤判為炒作微博的數(shù)據(jù)進行分析,發(fā)現(xiàn)其主要由三部分組成:(1)大V或名人粉絲之間的口水戰(zhàn);(2)大V或名人重復(fù)轉(zhuǎn)發(fā)自己的微博;(3)低俗博主的微博。它們的相同特征是在微博的傳播過程中,參與的人群相對單一。如圖12所示,它的社團模塊度峰值Q=0.776,L=3.739,微博是由一網(wǎng)絡(luò)名人L某評論另一網(wǎng)絡(luò)名人Z某后,對方回應(yīng),而引起的雙方粉絲在此條微博的評論中互相攻擊。參與傳播的人群為雙方的粉絲,這是造成了此條微博的模塊度增高,最短路徑降低的原因。
圖12 網(wǎng)絡(luò)名人間口水戰(zhàn)的微博信息傳播結(jié)構(gòu)
圖13 社團模塊度峰值Q=0.799,L=3.662,被誤判為炒作微博的原因是此大V為了突出這條微博的重要性,不斷的重復(fù)轉(zhuǎn)發(fā)自己的微博,由于在傳播過程中,主要是其粉絲團對本條微博進行轉(zhuǎn)發(fā)或多次轉(zhuǎn)發(fā),在微博傳播過程中呈現(xiàn)出的社團結(jié)構(gòu)單一,而被誤判為疑似炒作微博。
圖13 大V多次轉(zhuǎn)發(fā)迅速擴散的微博信息傳播結(jié)構(gòu)
圖14 社團模塊度峰值Q=0.817,L=3.657被誤判為炒作微博是其大V博主的特性決定的,此類博主的粉絲多是占廣大網(wǎng)民中基數(shù)較大的普通網(wǎng)民,其帶有娛樂感的搞笑微博引發(fā)粉絲互動帶動網(wǎng)民跟風(fēng),評論數(shù)超過了轉(zhuǎn)發(fā)數(shù)的2倍以上。微博大V們顧及自己的社會影響力與自身形象往往不會關(guān)注與轉(zhuǎn)發(fā)此類博主的微博,從而造成此類微博雖然擁有眾多轉(zhuǎn)發(fā)數(shù),但沒有轉(zhuǎn)發(fā)深度,只是粉絲們的直接轉(zhuǎn)發(fā),并不能引起深層次的轉(zhuǎn)發(fā)效果。
圖14 某女星的微博信息傳播結(jié)構(gòu)
檢測時間為在API獲取單條微博全部傳播節(jié)點后,對數(shù)據(jù)進行分析的時間。由于新浪微博對不同權(quán)限的開發(fā)者提供了不同的API調(diào)用權(quán)限(以Business API為例,作為開發(fā)者的最高權(quán)限,數(shù)據(jù)的獲取速度僅和帶寬有關(guān)),因此檢測時間并不包括數(shù)據(jù)獲取的時間消耗。實驗在CPU為2核、主頻2.53 GHz,內(nèi)存為4 GB的一臺筆記本上運行,其結(jié)果如表2所示。
表2 算法檢測時間
從表2可以看出,本文算法復(fù)雜度是隨著微博傳播數(shù)的增多及傳播節(jié)點間聯(lián)系的復(fù)雜程度成線性增長。測試數(shù)據(jù)中最大的傳播數(shù)為124 768,算法平均消耗時間在3 min以內(nèi),其中最快檢測時間達到13.07 s,傳播數(shù)為97 654條的炒作微博進入了當(dāng)日的熱門微博榜單。
在發(fā)生有組織的炒作事件后,定位信息發(fā)生源和其轉(zhuǎn)發(fā)關(guān)鍵用戶,對信息進行實時監(jiān)控預(yù)警是防止惡意網(wǎng)絡(luò)造謠事件發(fā)生的關(guān)鍵。本文基于社團模塊度與六度分隔理論,設(shè)計基于群體策劃現(xiàn)象的炒作微博識別方法。實驗結(jié)果表明,基于模塊度與最短路徑的炒作微博識別方法,可以有效識別炒作微博,并且具有較高的準(zhǔn)確性。通過實驗證明了該方法具有一定的合理性和優(yōu)勢,但在今后工作中還將對以下問題展開研究:(1)區(qū)分炒作微博的類型以鑒別微博營銷的目的,加入情感分析,對于炒作微博的博文情感值和評論的情感值進行分析和判斷,建立炒作微博字典,以便能準(zhǔn)確地區(qū)分炒作微博是自我營銷行為還是惡意的詆毀和攻擊;(2)對名人或官方微博的影響因子進行細度優(yōu)化,克服微博名人效應(yīng)對識別準(zhǔn)確率的干擾。
[1]Yu L L,Asur S,Huberman B A.Artificial Inflation:The True Story of Trends in Sina Weibo[C]//Proceedings of 2012 International Conference on Social Computing.Amsterdam,Holland:IEEE Press,2012:514-519.
[2]任一其,王雅雷,王國華,等.微博謠言的演化機理研究[J].情報雜志,2012,31(5):50-54.
[3]Castillo C,MendozaM,PobleteB.Information Credibility on Twitter[C]//Proceedings of WWW’11.New York,USA:ACM Press:[s.n.],2011:675-684.
[4]Gupta M,Zhao Peixiang,Han Jiawei.Evaluating Event Credibility on Twitter[C]//Proceedings of SDM’12.Anaheim,USA:IEEE Press,2012:153-164.
[5]顧明毅,周忍偉.輿情及社會性網(wǎng)絡(luò)信息傳播模式[J].新聞與傳播研究,2009,16(5):67-72.
[6]劉 穎,李欲曉.網(wǎng)絡(luò)輿情傳播特征分析[J].北京郵電大學(xué)學(xué)報:社會科學(xué)版,2011,13(4):1-6.
[7]陳 波,于 泠,劉君亭,等.泛在媒體環(huán)境下的網(wǎng)絡(luò)輿情傳播控制模型[J].系統(tǒng)工程理論與實踐,2011, 31(11):2140-2150.
[8]Centola D.The Spread of Behavior in an Online Social Network Experiment[J].Science,2010,329(5995): 1194-1197.
[9]Lu Linyuan,Chen Duanbing,Zhou Tao.The Small World Yields the Most Effective Information Spreading[J].New Journal of Physics,2011,13(12):1230-1235.
[10]Kwak H,Lee C,Park H,et al.What is Twitter,A Social Network or a News Media?[C]//Proceedings of the 19th International Conference on World Wide Web.New York,USA:ACM Press,2010:591-600.
[11]Meeyoung C C.Measuring User Influence in Twitter: The Million Follower Fallacy[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.Palo Alto,USA:AAAI Press,2010: 174-179.
[12]Weng J.TwitterRank:Finding Topic-sensitive Influential Twitterers[C]//Proceedingsofthe3rdACM International ConferenceonWebSearchandData Mining.New York,USA:ACM Press,2010:261-270.
[13]丁乙乙,周元英.誰在操控網(wǎng)絡(luò)輿論?[J].IT時代周刊,2010,(1):5.
[14]Facebook Research Report:TheImportanceofSocial Network of Weak Ties[EB/OL].(2012-05-11).http:// www.sina.com.cn/i/2012-01-18/13286651169.shtml.
[15]Han Yanni,Li Deyi,Wang Teng.Identifying Different Community Members in Complex Networks Based on Topology Potential[J].Frontiers of Computer Science in China,2011,5(1):87-99.
[16]Wang Chenying,Yuan Xiaojie,Wang Xin.An Efficient Numbering Scheme for Dynamic XML Trees[C]// Proceedings of InternationalConference on Computer Science and Software Engineering.Washington D.C.,USA: IEEE Press,2008:704-707.
[17]Lazarsfield P.The People’s Choice[M].New York, USA:Columbia University Press,1948.
[18]Newman M E J,GirvanM.FindingandEvaluating Community Structure in Networks[J].Physical Review E,2004,69(2).
[19]Granovetter M S.The Strength ofWeak Ties[J].American Journal of Sociology,1973,78(6):1360-1380.
[20]Lin S.Computer Solutions of the Traveling Salesman Problem[J].Bell System Technical Journal,1995, 44(10):2245-2269.
編輯 陸燕菲
Hype Microblog Recognition Method Based on Support Vector Machine
DONG Yuchen,LIU Yan,LUO Junyong,ZHANG Jin
(State Key Laboratory of Mathematical Engineering and Advanced Computing,Zhengzhou 450001,China)
Microblog is not only a center or channel of mass media,but also involved in the formation,development and guidance of public opinions.The propagation of speculation microblog which is released from We-media,opinion leaders or some other users,causes microblog rumors,false hype,social mobilization and other problems.This paper analyzes the phenomenon of covert planning,mines the difference of the structure in communication networks and the incremental statistics of forwardings between the ordinary and the speculation.A novel algorithm for hype microblog recognition is proposed in this paper based on Support Vector Machine(SVM)which uses the modularity peak spread and the average diameter of the shortest path in propagation network.The proposed method has advantages of less dependence on user profile information and is sensitive to the structure of propagation networks,and it has higher recognition accuracy.
social network;hype group;hype microblog;community module degree;network diameter;average shortest path;Support Vector Machine(SVM)
董雨辰,劉 琰,羅軍勇,等.基于支持向量機的炒作微博識別方法[J].計算機工程,2015,41(3):7-14.
英文引用格式:Dong Yuchen,Liu Yan,Luo Junyong,et al.Hype Microblog Recognition Method Based on Support Vector Machine[J].Computer Engineering,2015,41(3):7-14.
1000-3428(2015)03-0007-08
:A
:TP393
10.3969/j.issn.1000-3428.2015.03.002
國家自然科學(xué)基金資助項目(61309007);國家“863”計劃基金資助項目(2012AA012902);國家科技支撐計劃基金資助項目(2012BAH47B01)。
董雨辰(1988-),男,碩士研究生,主研方向:網(wǎng)絡(luò)信息安全,網(wǎng)絡(luò)態(tài)勢感知;劉 琰(通訊作者),副教授、博士;羅軍勇,教授;張 進,碩士研究生。
2014-04-11
:2014-05-19E-mail:ms_dyc39@aliyun.com