李 凱,張錫哲,申毓佩,陳恩紅
1.中國科學(xué)技術(shù)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230022
2.大數(shù)據(jù)分析與應(yīng)用安徽省重點實驗室,合肥 230022
3.東北大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,沈陽 110819
對人類自身行為特性的研究吸引了心理學(xué)、社會學(xué)、人類學(xué)、物理學(xué)、計算機(jī)等各個學(xué)科的共同關(guān)注。在現(xiàn)代社會中,人的行為特性與許多實際問題息息相關(guān),如網(wǎng)絡(luò)或街區(qū)零售業(yè)改進(jìn)倉儲和服務(wù)設(shè)置,交通部門模擬交通流量的模式或事故發(fā)生頻率,以及通信運營商估計移動通信中占線的電話數(shù)量并優(yōu)化資源配置等。
傳統(tǒng)上,在研究這些涉及人類行為特性問題時,常常把人的行為簡化為可以使用泊松過程描述的穩(wěn)態(tài)隨機(jī)過程。這種假設(shè)的一個推論是人類行為的時間統(tǒng)計特征是較為均勻的,兩個相繼行為之間的時間間隔偏離其平均值很多的概率很小。但是,Barabási在2005年的工作[1]改變了傳統(tǒng)認(rèn)識,其結(jié)果顯示人類行為具有冪率特性:密集的活動出現(xiàn)在很長時間的空白之間。
隨后的一系列研究結(jié)果顯示冪率特性在人類的各種行為中廣泛存在,如電子郵件[1]、商業(yè)交易[2]、書信往來[3-4]、生活旅行[5]、發(fā)送短信[6]、網(wǎng)頁瀏覽[7-8]、在線協(xié)作[9]等,甚至多種動物的覓食行為也符合這種規(guī)律[10]。
同時,針對移動通信數(shù)據(jù)的研究也取得了一定的成果。文獻(xiàn)[11]聚焦在個體和群體的手機(jī)通信行為模式,手機(jī)通信網(wǎng)絡(luò)的其他特性也得到了關(guān)注,如鏈接強(qiáng)度與網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系[12],網(wǎng)絡(luò)結(jié)構(gòu)與鏈接的持久性之間的關(guān)系[13],手機(jī)通信數(shù)據(jù)觀測到的朋友關(guān)系與自我報告結(jié)果的差異[14]等。
在移動通信用戶行為模式研究方面,現(xiàn)有工作仍然有限。本文提出了多重時變通信網(wǎng)絡(luò)概念,并采用相應(yīng)方法對更大規(guī)模數(shù)據(jù)集進(jìn)行分析。
本文的主要貢獻(xiàn)如下:
(1)提出一種能夠表達(dá)移動網(wǎng)絡(luò)用戶通信結(jié)構(gòu)和時間屬性的圖結(jié)構(gòu):多重時變通信網(wǎng)絡(luò)。
(2)基于多重時變通信網(wǎng)絡(luò),對移動通信數(shù)據(jù)進(jìn)行了分析,揭示了其中蘊含的人類行為學(xué)特性。其中對群體通話時長、個體行為與聯(lián)系人數(shù)量關(guān)系等內(nèi)容的分析在其他工作中未見報告。
移動通信在現(xiàn)代社會生活中具有舉足輕重的地位,相應(yīng)地,研究手機(jī)通信的網(wǎng)絡(luò)特性和人類行為特性對認(rèn)識社會網(wǎng)絡(luò)和人類自身都有著重要意義。但是由于數(shù)據(jù)的高度敏感性,導(dǎo)致數(shù)據(jù)獲取難度極大,相關(guān)工作總體上比較有限。
文獻(xiàn)[12]使用一個包含460萬用戶、覆蓋廣大區(qū)域(society-wide)的手機(jī)通信網(wǎng)絡(luò),來研究用戶相互作用強(qiáng)度與網(wǎng)絡(luò)的局部結(jié)構(gòu)之間的耦合,觀察到了與直覺相反的結(jié)果。值得注意的是,其報告的網(wǎng)絡(luò)度分布冪率的指數(shù)為8.6,異于通常值。
文獻(xiàn)[11]使用一組相鄰基站(不少于160個)的呼叫數(shù)據(jù)分析個體和群體的行為模式。結(jié)果顯示基站呼叫量隨時間而波動,這顯然與作息時間有關(guān);以周為單位的統(tǒng)計結(jié)果顯示一般情況下周呼叫的波動較小,而當(dāng)出現(xiàn)異常事件時則存在明顯的偏差,采用滲流理論描述了這種異常事件導(dǎo)致的偏差。在按照電話使用量對用戶分組的基礎(chǔ)上,考察了不同組別用戶的呼叫間隔,結(jié)果顯示間隔分布是無標(biāo)度的。
本文提出一種多重時變通信網(wǎng)絡(luò)結(jié)構(gòu),基于此在一個比以往工作規(guī)模更大的手機(jī)通信數(shù)據(jù)集上,考察個體和群體的行為特性。
本文主要介紹多重時變通信網(wǎng)絡(luò)的概念。
首先在動態(tài)時變網(wǎng)絡(luò)[15]的基礎(chǔ)上給出多重時變通信網(wǎng)絡(luò)的定義。
定義1(動態(tài)時變網(wǎng)絡(luò))將開始時刻記作t0,動態(tài)網(wǎng)絡(luò)G=<G1,G2,…,GT>是在時間上有序的圖集,其中Gt=(Vt,Et)是從t0時刻到t時刻的網(wǎng)絡(luò)拓?fù)鋱D,Vt和Et分別表示此時間段的圖頂點集和邊集。
本文研究內(nèi)容不僅包括通常的網(wǎng)絡(luò)統(tǒng)計特性,如度分布,而且涉及了通信交互行為更加具體的特性,如通話時長。方便起見,下面擴(kuò)展動態(tài)時變網(wǎng)絡(luò)為加權(quán)網(wǎng)絡(luò)。
定義2(多重時變通信網(wǎng)絡(luò))將開始時刻記作t0,一個多重時變通信網(wǎng)絡(luò)MTG=<MTG1,MTG2,…,MTGT>為在時間上有序的圖集,其中MTGt=(MTVt,MTEt,MTWt)表示從t0時刻到t時刻的網(wǎng)絡(luò)拓?fù)鋱D,MTVt和MTEt分別表示此時段網(wǎng)絡(luò)圖的頂點集和邊集,MTWt表示邊權(quán)值的集合。
上面定義中的節(jié)點(MTV)代表電話號碼,節(jié)點與節(jié)點之間的連邊(MTE)代表通話記錄,權(quán)值(MTW)為通話時長。
多重時變通信網(wǎng)絡(luò)(MTG)是一種節(jié)點和邊都隨著時間改變而不斷變化的網(wǎng)絡(luò),在網(wǎng)絡(luò)所界定的時間段內(nèi),某對用戶之間的通話次數(shù)即為其所對應(yīng)節(jié)點之間的邊的條數(shù),而邊的權(quán)值則是通話的持續(xù)時間。需要強(qiáng)調(diào)的是,只有當(dāng)通話開始時刻和通話結(jié)束時刻都在網(wǎng)絡(luò)所界定的時間段之內(nèi)時,才會添加這條邊到網(wǎng)絡(luò)中,否則這條邊將不會存在。
圖1給出了一個多重時變通信網(wǎng)絡(luò)的示例,圖中顯示了從t0時刻到t時刻的網(wǎng)絡(luò)狀態(tài),其中t1到t30的時間點都在區(qū)間[t0,t]內(nèi)。顯然,圖中多重時變通信網(wǎng)絡(luò)完整地展現(xiàn)了該時間段內(nèi)各個用戶的通話行為。例如節(jié)點4和節(jié)點9有兩次通話記錄,第一次通話從時刻t7到t8,第二次通話從時刻t9到t10;同樣可見節(jié)點3在此時間段與3個不同聯(lián)系人進(jìn)行了3次通話。
本文的研究基于某通信公司所提供的兩個省級行政區(qū)域31天的通信記錄。其中,A省數(shù)據(jù)包含6千多萬用戶,接近8億條電話記錄;B省數(shù)據(jù)包含1億多用戶,超過18億條電話記錄。需要指出的是,這里所說的用戶是指電話號碼,而非具體的人。
多重時變通信網(wǎng)絡(luò)最重要的特點是能夠保留用戶完整的通信行為,因此在構(gòu)建網(wǎng)絡(luò)之時,需要用戶完整通信行為的數(shù)據(jù)。數(shù)據(jù)應(yīng)至少包含有撥打電話用戶、被打電話用戶、通話開始時間、通話結(jié)束時間等信息。
Fig.1 An example of multiple timestamp communication network圖1 多重時變通信網(wǎng)絡(luò)示例
(1)部分記錄的號碼值為空,經(jīng)過向運營商確認(rèn),知其為經(jīng)過技術(shù)偽裝的呼叫,多屬于詐騙電話,此部分?jǐn)?shù)據(jù)做刪除處理。
(2)為保證單個用戶通話行為的完整性,需要號碼之間屬于同省同網(wǎng)的通信記錄。同省是指主叫號碼和被叫號碼都屬于同一個省份,同網(wǎng)是指主叫號碼和被叫號碼都是同一個通信公司的網(wǎng)段,例如彼此通話的用戶電話號碼都屬于聯(lián)通公司。保證用戶之間為同網(wǎng)的通信是因為數(shù)據(jù)來自某公司,只取通話雙方都是該公司的記錄,以保證一段時間內(nèi)用戶通話行為的完整性。
本文將在展示網(wǎng)絡(luò)總體屬性的基礎(chǔ)上,從整體和個體兩方面分析多重時變通信網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),從而揭示群體和個體的手機(jī)通信行為特性。特別的,當(dāng)對兩省數(shù)據(jù)的分析呈現(xiàn)相同的結(jié)果時,將只報告其中一個。
本文節(jié)點的度定義為與該節(jié)點相連的邊的數(shù)目,于是網(wǎng)絡(luò)節(jié)點度的總和除以2即為網(wǎng)絡(luò)表征的總的通話次數(shù)。
網(wǎng)絡(luò)的度分布體現(xiàn)了通話次數(shù)的分布,即通話次數(shù)與對應(yīng)的用戶數(shù)量之間的關(guān)系。圖2給出了B省31天多重時變通信網(wǎng)絡(luò)的度分布。
Fig.2 Distribution of network degrees圖2 網(wǎng)絡(luò)度分布
由圖2可見,度分布服從冪律分布,冪指數(shù)為2.397,介于[2,3]之間,與一般認(rèn)識大體一致。通話次數(shù)特別多的用戶只有為數(shù)不多的幾個,絕大多數(shù)用戶的通話量并不大。圖3的聯(lián)系人分布與度分布大體一致。這一結(jié)果表明大多數(shù)人的通話量和聯(lián)系人多少情況可以通過度分布顯示出來,二者大體呈現(xiàn)正比關(guān)系。
Fig.3 Distribution of contact persons圖3 聯(lián)系人分布
為了挖掘手機(jī)通信的總體規(guī)律,從而刻畫大多數(shù)人的通話行為,下面將對網(wǎng)絡(luò)度之和與平均度演化進(jìn)行分析,觀察通話量、平均通話量隨時間變化的趨勢,以及總體的通話時長與通話時間間隔。
采用A、B兩省數(shù)據(jù)分別構(gòu)建的通信網(wǎng)絡(luò),結(jié)果表明二者31天的度之和隨時間變化趨勢大體一致,而且此項指標(biāo)的波動與工作日和節(jié)假日沒有明顯關(guān)聯(lián)。因此,圖4僅呈現(xiàn)B省某3天的網(wǎng)絡(luò)度之和演化過程。其中橫坐標(biāo)為日期序號,次級網(wǎng)格劃分為一天中的24小時,縱坐標(biāo)為網(wǎng)絡(luò)度總和。
Fig.4 Sum of network degrees changes with time圖4 網(wǎng)絡(luò)度之和隨時間變化
由圖4可見,上午9:00到下午6:00為通話的高峰區(qū)間,期間通話量大,并且早晨通話量上升的速度明顯高于傍晚通話量下降的速度,這一變化規(guī)律與正常社會生活中人們一般的作息規(guī)律及工作、交往規(guī)律相符(因工作性質(zhì)不同,人們多在早上8點或9點快速進(jìn)入工作狀態(tài),而下午下班的17點、18點則對應(yīng)一個個體交流的高峰),白天相對夜間、工作時間相對非工作時間,前者通話量遠(yuǎn)高于后者。
對照文獻(xiàn)[11]的結(jié)果,發(fā)現(xiàn)曲線形狀大體相同,如每天有兩個通信量的高峰,高峰所處時間大體一致,二者之間大約在14點附近有一個相對低值。但區(qū)別也很明顯,如0點時候文獻(xiàn)[11]結(jié)果的通信量值要高于本文結(jié)果,而本文結(jié)果每天通話量最低值到來的時間要早于文獻(xiàn)[11]的結(jié)果。這表明不同地區(qū)人們生活規(guī)律既相似又存在差別,文獻(xiàn)[11]數(shù)據(jù)來源區(qū)域人們的夜間活動要強(qiáng)于本文數(shù)據(jù)來源區(qū)域。
考察A、B兩省31天的通話網(wǎng)絡(luò)平均度的演化過程,即平均每個人的通話量隨時間變化情況。與圖4的處理方式對應(yīng),取B省3天時間的變化情況作為示意,結(jié)果如圖5所示。
Fig.5 Average degree of network changes with time圖5 網(wǎng)絡(luò)平均度隨時間變化
與圖4的分布情況相反,單個用戶白天的平均通話量相對較少,而晚上的平均通話量則較多。對這種情況,可以通過一個猜想進(jìn)行解釋:白天的工作時間多為上下級之間的溝通,局部拓?fù)涑尸F(xiàn)星型結(jié)構(gòu),于是每個用戶的平均通話量較少;晚上個人時間多為平等交流,圖中邊的出現(xiàn)近于隨機(jī),整體通話量不如工作時間多,但參與人數(shù)更少,于是每個用戶的平均通話量反倒比白天多。
在B省31天的多重時變通信網(wǎng)絡(luò)中,考察通話時間間隔,即每個用戶的每次通話結(jié)束時刻與相鄰的下次通話開始時刻時間差,記作TI(單位:min),TI的分布如圖6。
Fig.6 Distribution of the number ofTI圖6 通話時間間隔頻次分布
由圖6可見,此分布近似于冪律分布,下文還會多次出現(xiàn)這種近似于冪率的分布。造成這種表象的原因是多個分布的疊加,眾多個體單獨的活動符合冪率分布,但參數(shù)彼此不同,大量此種參數(shù)不同的冪率分布相疊加,于是產(chǎn)生此種外在表象。
在B省31天的多重時變通信網(wǎng)絡(luò)中,記通話時長(即邊的權(quán)值)為TT(單位:s),圖7展示了TT分布的情況。顯而易見,這仍是一種近似的冪率分布,大量的通話時長位于60~120 s之間,通話時長較短,且通話時長較長的次數(shù)相對較少,這與實際生活經(jīng)驗相一致。
Fig.7 Distribution of the number ofTT圖7 通話時長頻次分布
在對通話量進(jìn)行分析的過程中,發(fā)現(xiàn)雖然工作日和節(jié)假日的分布規(guī)律大體一致,但通話量在工作時間與休息時間的分布卻存在明顯不同,圖8展示了不同類型時段的通話時長分布情況。
由圖8可見,4種不同類型時間段的通話時長分布均近似服從冪律分布,由此可以確定個人的一般通話情況:在大多數(shù)情況下,通話持續(xù)時間很短,只有個別時候才會出現(xiàn)持續(xù)時間相對較長的通話。然而,4幅圖中的縱坐標(biāo)差異很大,工作日的通話量明顯高于非工作日的,這顯示在節(jié)假日多數(shù)人更愿意享受一段相對安靜的時光;與此同時,工作時間的通話量也比非工作時間高出很多,這再次驗證了前文結(jié)論。
此外,圖8(c)、(d)顯示,工作時間的通話次數(shù)多,但持續(xù)時間較長的卻不多,而休息時間的通話次數(shù)少,但持續(xù)時間較長的相對較多,這也符合人們在日常生活中參與社交活動的慣性規(guī)律,即工作時間電話傾向于追求效率,而休息時間電話交流則傾向于表達(dá)情感。
總體而言,圖8的結(jié)果符合日常生活中關(guān)于電話行為的直覺感受。
著名的“150定律”認(rèn)為人類智力允許個體擁有的穩(wěn)定社交關(guān)系數(shù)為150左右。當(dāng)然在通信網(wǎng)絡(luò)中,一段時間內(nèi)某人的聯(lián)系人并不能夠表明彼此間存在穩(wěn)定的社交關(guān)系,但是此定律可以作為選定研究對象的一個參考。另外根據(jù)圖3聯(lián)系人分布情況,本文選擇3個具有代表性的個體分別表示社會交往中的3類人:聯(lián)系人很少的個體1(10個)、聯(lián)系人中等的個體2(150個)和聯(lián)系人很多的個體3(372個)。
Fig.8 Distribution of the number ofTTat different time圖8 不同時間的通話時長頻次分布
Fig.9 Average degree of different users changes with time圖9 不同個體用戶平均度隨時間變化情況
單個用戶個體的平均度演變過程也就是該用戶的通話量隨著時間的變化情況,如圖9所示,總體看來用戶的聯(lián)系人越多其通話量也越多。
Fig.10 Distribution of the number ofTTabout user1圖10 用戶1通話時長頻次分布
圖10 ~圖12為個體用戶1、2、3的通話時長分布,其中橫坐標(biāo)為通話時長TT(單位:s),縱坐標(biāo)為通話時長的頻次。
十分明顯,用戶的聯(lián)系人越多相應(yīng)通話次數(shù)也越多,通話時間長度的跨度也越大。由此可以猜測:聯(lián)系人很少的用戶不善社交,有限的通話基本是有事說事;聯(lián)系人很多的用戶顯示長袖善舞的特性,維護(hù)著豐富多樣的社交關(guān)系。
Fig.11 Distribution of the number ofTTabout user2圖11 用戶2通話時長頻次分布
Fig.12 Distribution of the number ofTTabout user3圖12 用戶3通話時長頻次分布
Fig.13 Distribution of the number ofTIof different users圖13 不同個體用戶通話時間間隔頻次分布
圖13 為個體用戶1、2、3通話時間間隔的分布,其中橫坐標(biāo)為通話時間間隔TI(單位:s),縱坐標(biāo)為通話時間間隔的頻次。聯(lián)系人多的用戶因其通話量多,通話間隔就越短,這與日常經(jīng)驗一致。
本文首先提出了多重時變通信網(wǎng)絡(luò)模型,在給出多重時變通信網(wǎng)絡(luò)概念的基礎(chǔ)上,針對手機(jī)通話記錄,分別從整體和個體兩個角度來對多重時變通信網(wǎng)絡(luò)的拓?fù)涮卣鬟M(jìn)行分析研究,揭示了多種群體和個體手機(jī)通話行為特性。移動通信網(wǎng)絡(luò)作為一種社交網(wǎng)絡(luò),本文結(jié)果對于社會網(wǎng)絡(luò)的結(jié)構(gòu)分析和人類行為動力學(xué)研究都具有重要參考價值。
[1]Barabási A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[2]Vázquez A,Oliveira J G,Dezs? Z,et al.Modeling bursts and heavytails in human dynamics[J].Physical Review E,2006,73(3):036127.
[3]Oliveira J G,Barabási A L.Human dynamics:Darwin and Einstein correspondence patterns[J].Nature,437(7063):1251-1253.
[4]Li Nannan,Zhang Ning,Zhou Tao.Empirical analysis on temporal statistics on human correspondence patterns[J].Complex Systems and Complexity Science,2008,5(3):43-47.
[5]Brockmann D,Hufnagel L,Geisel T.The scaling laws of human travel[J].Nature,2006,439(7075):462-465.
[6]Hong Wei,Han Xiaopu,Zhou Tao,et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009,26(2):028902.
[7]Dezso Z,Almaas E,Lukacs A,et al.Dynamics of information access on the Web[J].Physical Review E,2006,73(6):066132.
[8]Zhao Gengsheng,Zhang Ning,Zhou Tao.Study on scaling behavior in webpage visiting[J].Statistics and Decision,2009(1):18-19.
[9]Zha Yilong,Zhou Tao,Zhou Changsong.Unfolding large-scale online collaborative human dynamics[J].Proceedings of the National Academy of Sciences,2016,113(51):14627-14632.
[10]Barabasi A L.Bursts:the hidden pattern behind everything we do[M].Ma Hui.Beijing:China Renmin University Press,2012.
[11]Candia J,González M C,Wang Pu,et al.Uncovering individual and collective human dynamics from mobile phone records[J].Journal of Physics A:Mathematical and Theoretical,2008,41(22):224015.
[12]Onnela J P,Saram?ki J,Hyv?nen J,et al.Structure and tie strengths in mobile communication networks[J].Proceedings of the National Academy of Sciences,2007,104(18):7332-7336.
[13]Hidalgo C A,Rodriguez-Sickert C.The dynamics of a mobile phone network[J].Physica A:Statistical Mechanics and ItsApplications,2008,387(12):3017-3024.
[14]Eagle N,Pentland A S,Lazer D.Inferring friendship network structure by using mobile phone data[J].Proceedings of the National Academy of Sciences,2009,106(36):15274-15278.
[15]Gao Lin,Yang Jianye,Qin Guimin.Methods for pattern mining in dynamic networks and applications[J].Journal of Software,2013,24(9):2042-2061.
附中文參考文獻(xiàn):
[4]李楠楠,張寧,周濤.人類通信模式中基于時間統(tǒng)計的實證研究[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2008,5(3):43-47.
[8]趙庚升,張寧,周濤.網(wǎng)頁瀏覽中的標(biāo)度行為研究[J].統(tǒng)計與決策,2009(1):18-19.
[10]BarabasiAL.爆發(fā)[M].馬慧,譯.北京:中國人民大學(xué)出版社,2012.
[15]高琳,楊建業(yè),覃桂敏.動態(tài)網(wǎng)絡(luò)模式挖掘方法及其應(yīng)用[J].軟件學(xué)報,2013,24(9):2042-2061.