張寧 饒婕 張書(shū)卿 陳虹 羅楊
摘 要: 網(wǎng)絡(luò)是一個(gè)包含了大量個(gè)體及個(gè)體之間相互作用的系統(tǒng),近年來(lái)在對(duì)復(fù)雜網(wǎng)絡(luò)的研究過(guò)程中,科學(xué)家們發(fā)現(xiàn)了眾多的冪律分布現(xiàn)象。不僅網(wǎng)頁(yè)的點(diǎn)擊次數(shù)存在冪律分布現(xiàn)象,微博也同樣存在著冪律分布現(xiàn)象。利用新浪微博的API技術(shù)抓取了新浪微博數(shù)據(jù),對(duì)其進(jìn)行了詳細(xì)的數(shù)據(jù)清理和統(tǒng)計(jì),對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析發(fā)現(xiàn),新浪微博的轉(zhuǎn)發(fā)數(shù)也同樣存在著冪律分布現(xiàn)象。只有為數(shù)不多的微博,才能被大量的閱讀和轉(zhuǎn)發(fā),進(jìn)而成為熱點(diǎn)微博,而絕大多數(shù)微博的閱讀次數(shù)和轉(zhuǎn)發(fā)次數(shù)都是非常少的。
關(guān)鍵詞: 新浪微博; 轉(zhuǎn)發(fā)數(shù); 冪律分布; Zipf定律
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)03-33-03
Abstract: Network contains a large number of interaction between the individual and the individual system.In recent years, the scientists find a large number of power-law distribution phenomenon in the research of complex networks. The power-law distribution phenomenon exists not only in the page clicks, but also in the number of micro- blog access. In this paper, we use API technology of Sina micro-blog to capture the recent micro-blog data, make the data cleaning and statistic , by analysing the final statistical results,we find that the phenomenon of power-law distribution also exists in the number of forwards in Sina micro-blog. Only a few micro-blog, can be a hot micro-blog which has a large number of reading and forwarding,in contrast the vast majority of others have very few number of reading and forwarding.
Key words: Sina micro-blog; number of forwards; phenomenon of power-law distribution; Zipf's Law
0 引言
全球復(fù)雜網(wǎng)絡(luò)權(quán)威、無(wú)尺度網(wǎng)絡(luò)的創(chuàng)立者、匈牙利計(jì)算機(jī)學(xué)會(huì)馮·諾依曼金質(zhì)獎(jiǎng)?wù)芦@得者Barabasi揭開(kāi)人類(lèi)行為背后隱藏的 “爆發(fā)”模式,指出人類(lèi)活動(dòng)模式不是隨機(jī)的,而是具有“爆發(fā)性”的。爆發(fā)的本質(zhì)規(guī)律就是冪律分布。冪律分布現(xiàn)象的共性是絕大多數(shù)事件的規(guī)模很小,而只有少數(shù)事件的規(guī)模相當(dāng)大。著名的Zipf定律是冪律的主要形式之一,哈佛大學(xué)的語(yǔ)言學(xué)專(zhuān)家Zipf發(fā)現(xiàn),如果把單詞出現(xiàn)的頻率按由大到小的順序排列,則每個(gè)單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡(jiǎn)單的反比關(guān)系。這一定律表明:只有極少數(shù)的單詞被經(jīng)常使用,而絕大多數(shù)單詞很少被使用。冪律分布的通式可記為y=cx-r,重要特征是個(gè)體的尺度相差懸殊,缺乏一個(gè)具有代表性的規(guī)模,或者說(shuō),存在“爆發(fā)”(或稱(chēng)“涌現(xiàn)”)現(xiàn)象。
本文抓取了新浪微博的微博數(shù)據(jù),并獲得轉(zhuǎn)發(fā)數(shù),對(duì)微博的轉(zhuǎn)發(fā)現(xiàn)象進(jìn)行統(tǒng)計(jì)并試著分析產(chǎn)生該現(xiàn)象的原因。
1 抓取數(shù)據(jù)來(lái)源說(shuō)明
數(shù)據(jù)來(lái)源于新浪微博8月份實(shí)時(shí)微博??紤]到每天新浪微博的數(shù)據(jù)量巨大,每天新產(chǎn)生微博約1億條左右。隨機(jī)抽樣需要樣本空間巨大。所以我們采取隨機(jī)抓取關(guān)注列表里的820人的微博
1.1 數(shù)據(jù)抓取技術(shù)
數(shù)據(jù)的抓取是基于新浪API的信息獲取。新浪微博 API 是應(yīng)用編程接口(Application Programming Interface)的縮寫(xiě)。開(kāi)放API就是“在互聯(lián)網(wǎng)時(shí)代,把互聯(lián)網(wǎng)產(chǎn)品的服務(wù)封裝成一系列計(jì)算機(jī)易識(shí)別的數(shù)據(jù)接口開(kāi)放出去,供第三方開(kāi)發(fā)者使用”。微博開(kāi)放平臺(tái)包含了新浪微博平臺(tái)海量的微博信息、用戶(hù)間的關(guān)注關(guān)系以及隨時(shí)隨地信息的擴(kuò)散式的傳播機(jī)制。通過(guò)API,用戶(hù)可以實(shí)時(shí)地獲取監(jiān)控微博賬號(hào)的各種相關(guān)數(shù)據(jù),包括微博的轉(zhuǎn)發(fā)數(shù),評(píng)論數(shù)等。用戶(hù)使用新浪微博API的前提是需要通過(guò)身份認(rèn)證。OAuth用戶(hù)身份認(rèn)證:開(kāi)放授權(quán)(OAuth)是一個(gè)開(kāi)放標(biāo)準(zhǔn),允許用戶(hù)讓第三方應(yīng)用訪問(wèn)該用戶(hù)在某一網(wǎng)站上存儲(chǔ)的私密資源(如照片、視頻、聯(lián)系人列表),而無(wú)需將用戶(hù)名和密碼提供給第三方應(yīng)用。因此,OAuth 為新浪微博API提供了一個(gè)安全、高效的認(rèn)證機(jī)制,其具體過(guò)程如下。
⑴ 用戶(hù)向新浪微博開(kāi)放平臺(tái)提出開(kāi)發(fā)者服務(wù)申請(qǐng),提交實(shí)名身份認(rèn)證。
⑵ 向新浪微博開(kāi)放平臺(tái)OAuth服務(wù)商提交創(chuàng)建應(yīng)用請(qǐng)求,獲得應(yīng)用資料,并將其中的應(yīng)用編號(hào)App Key和應(yīng)用口令A(yù)pp Secret寫(xiě)入認(rèn)證程序配置文件。
⑶ 利用新浪微博 SDK 提供的認(rèn)證程序,向新浪微博服務(wù)器提交API使用申請(qǐng),填寫(xiě)申請(qǐng)者微博賬號(hào)、口令,獲取第三方軟件應(yīng)用許可。
⑷ 申請(qǐng)成功后,服務(wù)器在瀏覽器返回URL地址中提供一個(gè)由32位十六進(jìn)制數(shù)組成的認(rèn)證碼Access_code,用戶(hù)將此認(rèn)證碼提交給認(rèn)證服務(wù)器,服務(wù)器同意用戶(hù)請(qǐng)求,
向其頒發(fā)通過(guò)新浪微博授權(quán)的API調(diào)用令牌Access_Token與對(duì)應(yīng)的密鑰。
⑸ 用戶(hù)利用此令牌作為參量調(diào)用相應(yīng)的API接口。通過(guò)上述OAuth認(rèn)證登錄新浪微博開(kāi)放平臺(tái)成功后,用戶(hù)便可調(diào)用開(kāi)放平臺(tái)的各種接口,令牌使用期限為24小時(shí),超過(guò)期限后需重新進(jìn)行認(rèn)證才能繼續(xù)調(diào)用API接口。
1.2 轉(zhuǎn)發(fā)數(shù)獲取
2 數(shù)據(jù)統(tǒng)計(jì)分布情況
所統(tǒng)計(jì)的微博數(shù)量去除重復(fù)后,共計(jì)4253條。以2000為區(qū)間單位,統(tǒng)計(jì)轉(zhuǎn)發(fā)數(shù)落在每個(gè)區(qū)間內(nèi)的微博條數(shù)。統(tǒng)計(jì)表明,以轉(zhuǎn)發(fā)數(shù)在0-2000區(qū)間內(nèi)的微博最多,共計(jì)3963條。最少的轉(zhuǎn)發(fā)數(shù)區(qū)間的微博條數(shù)為0條,極差為3963。按微博轉(zhuǎn)發(fā)數(shù)分段統(tǒng)計(jì)情況如表2和圖2所示??梢耘袛?,轉(zhuǎn)發(fā)數(shù)的分布范圍很大,一定程度上符合Zipf定律,存在“爆發(fā)”現(xiàn)象。
從表2和圖2可見(jiàn),微博轉(zhuǎn)發(fā)數(shù)分布較大程度上符合Zipf定律。熱門(mén)的微博非常少,越冷門(mén)的微博數(shù)量越多。其中,轉(zhuǎn)發(fā)數(shù)在區(qū)間0-2000的微博數(shù)明顯高于其他區(qū)間,可視為“爆發(fā)點(diǎn)”。在該區(qū)間內(nèi),主要分布的大多是粉絲人數(shù)較少的用戶(hù)發(fā)布的微博,沒(méi)有龐大的粉絲基礎(chǔ),所以轉(zhuǎn)發(fā)數(shù)普遍很低。還有一部分微博雖然是有粉絲數(shù)較多的用戶(hù)發(fā)布的,但是該微博不能吸引用戶(hù)的興趣,不能成為熱點(diǎn)事件,轉(zhuǎn)發(fā)數(shù)也就普遍偏低。其中轉(zhuǎn)發(fā)數(shù)最高的微博為張杰在發(fā)布新單曲“我在這”時(shí),自己在路上邊走邊拍攝的一段視頻,該微博轉(zhuǎn)發(fā)數(shù)介于82000-84000區(qū)間。
3 原因分析
新浪微博中的冪律分布現(xiàn)象屬于復(fù)雜網(wǎng)絡(luò)中普遍存在的冪律分布現(xiàn)象的一種。在網(wǎng)絡(luò)動(dòng)態(tài)演化的過(guò)程中,成長(zhǎng)性和優(yōu)先連接性是無(wú)標(biāo)度網(wǎng)絡(luò)度分布呈現(xiàn)冪律的兩個(gè)最根本原因。所謂成長(zhǎng)性是指網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)的增加,在本文中主要指新浪微博數(shù)量的增加,新微博的增加更多的是依靠大多數(shù)沒(méi)有巨大粉絲數(shù)量基礎(chǔ)的普通用戶(hù)發(fā)布的,也包括有巨大粉絲數(shù)量基礎(chǔ)的用戶(hù)所發(fā)布的那些不能引起用戶(hù)興趣和轉(zhuǎn)發(fā)欲望的微博。優(yōu)先連接性是指,轉(zhuǎn)發(fā)數(shù)高的熱門(mén)微博總是由粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)發(fā)布或者轉(zhuǎn)發(fā),比如,一條新的有轉(zhuǎn)發(fā)價(jià)值的微博由普通用戶(hù)直接發(fā)布后,因?yàn)樵撚脩?hù)的粉絲數(shù)量很少,也不能被大量的用戶(hù)閱讀和轉(zhuǎn)發(fā),往往是這條微博在自己的少量用戶(hù)的粉絲圈里轉(zhuǎn)發(fā)后就被新熱點(diǎn)微博淹沒(méi)掉了。如果該條微博被粉絲數(shù)量基礎(chǔ)巨大的用戶(hù)轉(zhuǎn)發(fā)后,能閱讀和轉(zhuǎn)發(fā)該微博的用戶(hù)呈現(xiàn)出跳躍式增加的方式增多,就會(huì)被大量粉絲用戶(hù)轉(zhuǎn)發(fā),而轉(zhuǎn)發(fā)次數(shù)就呈現(xiàn)飆升的現(xiàn)象。并且隨著時(shí)間的演進(jìn),微博的轉(zhuǎn)發(fā)數(shù)逐漸呈現(xiàn)出一種轉(zhuǎn)發(fā)數(shù)多的會(huì)被轉(zhuǎn)的更多,轉(zhuǎn)發(fā)數(shù)少的微博直接被淹沒(méi)掉的現(xiàn)象。
參考文獻(xiàn):
[1] 姚科.開(kāi)放API:新浪微博必經(jīng)之路[J].互聯(lián)網(wǎng)天地,2010.8:73-74
[2] 胡海波,王林.冪律分布研究簡(jiǎn)史[J].物理,2005.12:889-890
[3] 黃延煒,劉嘉勇.新浪微博數(shù)據(jù)獲取技術(shù)研究[J].信息安全與通信保
密,2013.6:71-72
[4] 張嗣瀛.復(fù)雜系統(tǒng)、復(fù)雜網(wǎng)絡(luò)自相似結(jié)構(gòu)的涌現(xiàn)規(guī)律[J].復(fù)雜系統(tǒng)與
復(fù)雜性科學(xué),2006.4:41-51
[5] 胡泳.冪律分布[J].商務(wù)周刊,2009.22:94
[6] 方愛(ài)麗,高齊圣,張嗣瀛.引文網(wǎng)絡(luò)的冪律分布檢驗(yàn)研究[J].統(tǒng)計(jì)與決
策,2007.14:22-24