趙倩文,吳 曄,王勝烽
(北京郵電大學(xué)理學(xué)院 北京 海淀區(qū) 100876)
一直以來(lái),人們都對(duì)日常生活中隱含的自身行為特性抱著強(qiáng)烈的好奇心,并不停地展開(kāi)探索和研究[1-7]。在大數(shù)據(jù)時(shí)代,人們的電子足跡越來(lái)越容易被各種電子產(chǎn)品所捕捉。電信、金融、交通及媒體等領(lǐng)域每時(shí)每刻都產(chǎn)生著大量數(shù)據(jù)。人們通過(guò)各種數(shù)據(jù)分析技術(shù)搜集、分析這些數(shù)據(jù),試圖挖掘出有意義的信息,以加深對(duì)自身的了解,促進(jìn)行業(yè)發(fā)展。
運(yùn)營(yíng)商所擁有的海量通訊數(shù)據(jù)一直是科研人員研究人類行為模式的重要來(lái)源。通過(guò)分析這些通話數(shù)據(jù),人們不僅發(fā)現(xiàn)了不為人知的人類行為特性,如人的行為不是一個(gè)泊松過(guò)程,而是間隔時(shí)間是冪率分布的復(fù)雜過(guò)程。這個(gè)發(fā)現(xiàn)得到了廣泛的認(rèn)可和應(yīng)用[8-9]。同時(shí)有些學(xué)者還通過(guò)數(shù)據(jù)分析的方式佐證了部分社會(huì)學(xué)和心理學(xué)領(lǐng)域的研究論點(diǎn),如文獻(xiàn)[10]用facebook數(shù)據(jù)驗(yàn)證了鄧巴觀點(diǎn),文獻(xiàn)[11-12]分別提出和驗(yàn)證了弱鏈接、強(qiáng)作用的理論。
關(guān)于人類如何構(gòu)建和維系自己的社交關(guān)系網(wǎng)絡(luò)同樣也備受關(guān)注,國(guó)內(nèi)外已有很多文章就此展開(kāi)討論。如文獻(xiàn)[13]認(rèn)為手機(jī)用戶的聯(lián)系人通話頻次排名反映了用戶特有的個(gè)人屬性,而且這種屬性不輕易受到網(wǎng)絡(luò)動(dòng)蕩的影響;文獻(xiàn)[14]通過(guò)分析用戶通話的時(shí)間間隔模式對(duì)社交網(wǎng)絡(luò)中的用戶行為進(jìn)行了分類;文獻(xiàn)[15]觀察了某在線游戲中男女玩家的不同游戲表現(xiàn),證實(shí)男女玩家無(wú)論在個(gè)人層面還是網(wǎng)絡(luò)層面,溝通模式都有很大的差別。通訊行為是人與人之間的典型社交行為之一,在一定程度上可以體現(xiàn)人與人之間的情感交互特點(diǎn)。本文通過(guò)中國(guó)某城市的運(yùn)營(yíng)商提供的用戶之間的通訊數(shù)據(jù),從通話行為的角度分析用戶在維護(hù)社交關(guān)系中的資源投入和分配行為,并研究了性別、年齡等因素的影響,從而加深人們對(duì)復(fù)雜社會(huì)行為模式的理解。
本文的數(shù)據(jù)來(lái)源于中國(guó)某地區(qū)電信運(yùn)營(yíng)商提供的33萬(wàn)手機(jī)用戶的基本屬性信息,主要關(guān)注其年齡和性別,以及他們?cè)?012年2月期間的所有通話數(shù)據(jù)(用戶作為撥打者),包括主叫號(hào)碼、被叫號(hào)碼、通話開(kāi)始時(shí)間、通話時(shí)長(zhǎng)。在不失一般性的前提下,對(duì)這些手機(jī)用戶數(shù)據(jù)進(jìn)行了以下處理:
1)由于20歲以下和60歲以上的人群中手機(jī)普及率比較低(在對(duì)33萬(wàn)手機(jī)用戶的年齡統(tǒng)計(jì)后證實(shí)了此觀點(diǎn)),因此本文只關(guān)注年齡在20~60歲之間的用戶。
2)通過(guò)觀察用戶的聯(lián)系人數(shù)量,發(fā)現(xiàn)有少量用戶在1個(gè)月內(nèi)與數(shù)千名聯(lián)系人有電話聯(lián)系,根據(jù)“鄧巴數(shù)字”[16](即“150定律”:人類智力允許人類擁有穩(wěn)定社交網(wǎng)絡(luò)的人數(shù)是148人,四舍五入大約是150人)、社會(huì)經(jīng)驗(yàn)等,這些用戶被認(rèn)為是機(jī)器人用戶、詐騙用戶等異常用戶[14]。本文研究人們?cè)谌粘I钪芯S持社交關(guān)系的資源投入和分配行為特性,所以只選取了在這個(gè)月期間,聯(lián)系人數(shù)在5~200人之間的手機(jī)用戶的數(shù)據(jù)。
經(jīng)過(guò)以上數(shù)據(jù)處理,最后被采用的數(shù)據(jù)集包括253 037名用戶的信息及其1個(gè)月內(nèi)的通話數(shù)據(jù),其中包括男性用戶170 906名,女性用戶82 131名,年齡跨度為20~60歲。其中各年齡段男、女性人數(shù)所占比例如圖1所示。
圖1 各年齡段的男女人數(shù)比例
人們通過(guò)不同的社會(huì)關(guān)系構(gòu)成了一個(gè)復(fù)雜的社會(huì)網(wǎng)絡(luò)[17-18]。本文在鄧巴數(shù)的基礎(chǔ)上進(jìn)一步分析了由于個(gè)人精力的局限性所引起的每個(gè)人在社交網(wǎng)絡(luò)中資源投入的差異性,研究不同年齡、性別個(gè)體在資源投入模式方面的差異。
為了研究人在社交網(wǎng)絡(luò)中的資源投入模式,本文認(rèn)為人們的平均通話次數(shù)
圖2
此外,圖2還顯示了
圖3 隨機(jī)兩位用戶通話頻次圖
前文主要討論了不同性別、年齡的人在維系社交關(guān)系時(shí)的資源投入差別;本節(jié)將主要討論個(gè)體在精力有限的前提下,對(duì)資源的分配模式差異。如有的人選擇將精力均勻分配給所有朋友,有的人選擇將資源集中分配給少數(shù)好友。如用戶A與10個(gè)好友通話100次,通話次數(shù)序列為:80,8,4,2,1,1,1,1,1,1,而用戶B與6個(gè)好友通話100次,通話次數(shù)序列為:25,20,18,17,10,10,這兩人對(duì)資源分配就存在著明顯差異。為了定量地研究性別和年齡對(duì)這種資源分配的影響,本文首先把該用戶與所有好友的通話次數(shù)按從大到小排序,得到通話次數(shù)的序列Xi,i=1,2,3,…。本文隨機(jī)挑選了兩名用戶的通話頻次情況,發(fā)現(xiàn)通話次數(shù)與排名的關(guān)系為冪率分布,滿足Zipf定律[19],如圖3所示。這一定律在文獻(xiàn)[20-22]的相關(guān)研究中也有類似發(fā)現(xiàn)。不同的人的Zipf定律的冪指數(shù)不一樣,冪指數(shù)的大小在一定程度上體現(xiàn)了該人對(duì)資源的分配模式。冪指數(shù)越大,說(shuō)明該人傾向于把大部分精力分配給少數(shù)的人;而冪指數(shù)越小,說(shuō)明該人傾向與把自己的資源平均分配給朋友。
Zipf定律是在分析自然語(yǔ)言的語(yǔ)料庫(kù)里單詞出現(xiàn)頻次時(shí)發(fā)現(xiàn)的,由于單詞量的龐大,可以比較清楚地觀察到冪律分布現(xiàn)象,然而在本研究1個(gè)月的通話數(shù)據(jù)中,人們的聯(lián)系人數(shù)比較有限,且部分聯(lián)系人的聯(lián)系頻次一樣。為了更準(zhǔn)確細(xì)致地理解人們資源分配的模式,本文提出了一個(gè)基于熵的刻畫分配均勻性的指標(biāo)Q。熵是一種簡(jiǎn)潔但是十分有效的計(jì)算指標(biāo)[23],在一些人類行為動(dòng)力學(xué)研究的文章中被廣泛應(yīng)用。如文獻(xiàn)[24]利用相對(duì)熵刻畫輿論傳播中的信息變化;文獻(xiàn)[25]通過(guò)熵指標(biāo)來(lái)度量會(huì)話對(duì)象的可預(yù)測(cè)性。本文引用了文獻(xiàn)[25]中的兩種熵:隨機(jī)熵和獨(dú)立熵。隨機(jī)熵為:
式中,i表示用戶的標(biāo)號(hào);ki表示該用戶的聯(lián)系人數(shù)量。獨(dú)立熵為:
式中,Ni表示用戶i的聯(lián)系人所構(gòu)成的集合,集合中聯(lián)系人的總數(shù)量就是式(1)中的ki;Pi(j)表示用戶i與所有聯(lián)系人打電話的總次數(shù)中,與用戶j打電話的次數(shù)所占的比例。因此,且均為非負(fù)數(shù)。
本文主要考慮人們?cè)诰S持朋友關(guān)系中的成本投入和資源分配模式,前者通過(guò)用戶的朋友數(shù)ki以及其通話的總次數(shù)Mi來(lái)刻畫,后者在的基礎(chǔ)上提出一個(gè)新的衡量指標(biāo)Qi??梢宰C明,當(dāng)用戶與每名聯(lián)系人通話次數(shù)一樣,即資源精力分配均勻時(shí),達(dá)到最大值,此時(shí)與相等,而分配越不均勻的時(shí)候,越小。但是對(duì)比不同的用戶的資源分配行為時(shí),僅僅比較是不夠的,其原因就在于:對(duì)于不同的用戶,聯(lián)系人數(shù)(即ki)在大多數(shù)情況下是不相等的。因此,本文提出了一個(gè)定義資源分配均勻性的指標(biāo):
不難看出,Q的大小可以體現(xiàn)出用戶的資源分配傾向性模式。Qi越小,表示該名用戶在維系朋友關(guān)系時(shí),資源分配越平均;反之,Qi越大,表示用戶在聯(lián)系朋友時(shí)傾向性越明顯。
圖4 隨年齡的變化
圖4反映了隨年齡的變化情況,并對(duì)當(dāng)前年齡下的男女對(duì)應(yīng)的
做了兩個(gè)分布是否具有統(tǒng)計(jì)顯著性的t檢驗(yàn),拒絕概率P=0.05??梢园l(fā)現(xiàn):無(wú)論男性、女性,其平均的資源分配傾向性在20~28歲左右期間逐漸增強(qiáng),之后減弱,但是在50歲左右時(shí)有一個(gè)小強(qiáng)度的增強(qiáng),之后又緩慢減弱。20~28歲期間隨著年齡的增加、個(gè)性發(fā)展的增強(qiáng)、以及尋找異性伴侶的需要,人的資源分配逐漸聚集到少數(shù)人身上,以求達(dá)到個(gè)人利益的最大化,隨著這種伴侶關(guān)系的穩(wěn)定,工作關(guān)系的拓寬需要,分配的傾向性逐漸減弱。
在人們50歲左右的時(shí)候,子女一般處于20~25歲左右,這正是他們初遇人生各種挑戰(zhàn)機(jī)會(huì)的黃金時(shí)期。于是在這段時(shí)期,父母溝通傾向性又明顯地偏向于孩子,和孩子之間的交流會(huì)格外頻繁,顯得分配不均勻[26]。從圖4還可以看出,在50歲左右,女性對(duì)資源的分配比男性更不均勻,這個(gè)是由于男女在祖父母關(guān)系中具有資源分配的差異性。
本文通過(guò)分析20余萬(wàn)手機(jī)用戶的通信數(shù)據(jù),從通話行為的角度分析人類在社交關(guān)系中的投資行為,發(fā)現(xiàn)人們?cè)谏缃痪W(wǎng)絡(luò)的資源投入方面具有這樣的特點(diǎn):平均層面上,男性比女性的資源投入更多,而且都是在35歲左右時(shí)投入達(dá)到最高峰。進(jìn)一步的研究發(fā)現(xiàn),男性的成本投入存在明顯的異質(zhì)性(45歲之前),相當(dāng)比例的男性或者極少投入,或者投入極大,而女性則穩(wěn)定得多;而在資源分配方面,女性的資源分配傾向性更加明顯,而且,隨著年齡的增長(zhǎng),無(wú)論男性、女性,在25~28歲期間,傾向性會(huì)達(dá)到巔峰,之后逐漸減弱,但在50歲左右時(shí),會(huì)有小階段的增強(qiáng)。需要指出的是,本文所采用的通話數(shù)據(jù)只是人們社交生活中的一部分,只能在一定層面上刻畫人們的情感交互行為,如能結(jié)合微博,微信等其他社交數(shù)據(jù),會(huì)更好地體現(xiàn)人與人之間的情感交互規(guī)律。本文的貢獻(xiàn)在于提出了從資源投入和資源分配兩個(gè)角度分析人們?cè)谏缃痪W(wǎng)絡(luò)中的資源整合模式。此外,還提出了一個(gè)基于熵的資源分配性指標(biāo)Q,以便于定量分析。本文的研究有助于理解人作為一種群居性動(dòng)物的內(nèi)在復(fù)雜性。
[1]BARABASI A L.The origin of bursts and heavy tails in human dynamics[J].Nature, 2005, 435(7039): 207-211.
[2]OLIVEIRA J G, BARABási A L.Human dynamics: Darwin and Einstein correspondence patterns[J].Nature, 2005,437(7063): 1251.
[3]WEI H, XIAO P H, TAO Z, et al.Heavy-tailed statistics in short-message communication[J].Chinese Physics Letters,2009, 26(2): 028902.
[4]ZHAO Z D, XIA H, SHANG M S, et al.Empirical analysis on the human dynamics of a large-scale short message communication system[J].Chinese Physics Letter, 2011,28(6): 68901.
[5]JO H H, KARSAI M, KERTéSZ J, et al.Circadian pattern and burstiness in mobile phone communication[J].New Journal of Physics, 2012, 14(1): 013055.
[6]ZHOU T, KIET H A T, KIM B J, et al.Role of activity in human dynamics[J].Euro Physics Letters, 2008, 82(2):28002.
[7]KARSAI M, KASKI K, KERTéSZ J.Correlated dynamics in egocentric communication networks[J].Plos One, 2012,7(7): e40612.
[8]BARABáSI A L, ALBERT R.Emergence of scaling in random networks[J].Science, 1999, 286(5439): 509-512.
[9]BARABASI A, FRANGOS J.Linked: the new science of networks science of networks[J].Physics Today, 2002, 6(5):243-270.
[10]CAMERON M.Maintained relationships on facebook[EB/OL].[2009-03-09].http://overstated.net/2009/03/09/aintained-relationships-on-facebook.
[11]GRANOVETTER M S.The strength of weak ties[J].Social Networks, 1973, 78(6): 1360-1380.
[12]BURT R S.Structural holes: the social structure of competition[M].Cambridge, MA: Harvard University Press, 2010.
[13]SARAM?KI J, LEICHT E A, LóPEZ E, et al.Persistence of social signatures in human communication[J].Proceedings of the National Academy of Sciences, 2014,111(3): 942-947.
[14]JIANG Z Q, XIE W J, LI M X, et al.Calling patterns in human communication dynamics[J].Proceedings of the National Academy of Sciences, 2013, 110(5): 1600-1605.
[15]SZELL M, THURNER S.How women organize social networks different from men[J].Scientific Reports, 2013,3(7435): 1214.
[16]Wikipedia.Dunbar’s number[EB/OL].[2017-12-06].http://en.wikipedia.org/wiki/Dunbar%27s_number.
[17]SCOTT J.Social network analysis[M].LA: Sage Publications, 2012.
[18]LAZER D, PENTLAND A S, ADAMIC L, et al.Life in the network: the coming age of computational social science[J].Science, 2009, 323(5915): 721.
[19]RIEMER S.Book review: Human behavior and the principle of least effort.An introduction to human ecology George K Zipf[J].American Journal of Sociology, 1949,110(110): 306.
[20]ZHANG Z K, Lü L, LIU J G, et al.Empirical analysis on a keyword-based semantic system[J].The European Physical Journal B, 2008, 66(4): 557-561.
[21]Lü L, ZHANG Z K, ZHOU T.Zipf's law leads to Heaps'law: Analyzing their relation in finite-size systems[J].Plos One, 2010, 5(12): e14139.
[22]Lü L, ZHANG Z K, ZHOU T.Deviation of Zipf's and heaps' laws in human languages with limited dictionary sizes[J].Scientific Reports, 2013, 3: 1082.
[23]Wikipedia.Entropy(information theory)[EB/OL].[2016-12-10].http://en.wikipedia.org/wiki/Entropy_ (information_theory).
[24]BORGE-HOLTHOEFER J, PERRA N, GON?ALVES B,et al.The dynamics of information-driven coordination phenomena: a transfer entropy analysis[J].Science advances, 2016, 2(4): e1501158.
[25]TAKAGUCHI T, NAKAMURA M, SATO N, et al.Predictability of conversation partners[J].Physical Review X, 2011, 1(1): 011008.
[26]PALCHYKOV V, KASKI K, KERTéSZ J, et al.Sex differences in intimate relationships[J].Scientific Reports,2012, 2(7394): 370.