孟 帆
(溫州大學物理與電子信息工程學院,浙江溫州 325035)
城市馬拉松賽參賽者位次變化分布及其與競爭程度的關聯的研究
孟 帆
(溫州大學物理與電子信息工程學院,浙江溫州 325035)
近十多年來,人類動力學領域關于時間特性和空間特性的研究迅猛發(fā)展.本文統計近十多年來紐約城市馬拉松賽和近四年來波士頓馬拉松賽前1000名男子參賽者和前1000名女子參賽者的參賽數據,分析參賽者在7個中間計時賽段中的位次變化情況,發(fā)現參賽者在各中間計時賽段中的位次變化均遵循洛倫茲分布(柯西分布).引入參賽者在各計時賽段內的位次變化的方均根值來描述該賽段內的競爭激烈程度,進一步研究各計時賽段內競爭激烈程度與位次變化分布參數的關聯,發(fā)現在各中間計時賽段中參賽者的位次變化分布圖形的尖銳程度能直觀地反映該賽段內參賽者的競爭激烈程度,參賽者在某賽段內的競爭激烈程度越低,該賽段內參賽者的位次變化分布曲線越尖銳.
人類動力學;城市馬拉松賽;中間計時賽段;位次變化分布
2005年Barabási發(fā)現了人類通訊行為的非泊松分布特性,開啟了挖掘人類行為大數據并從中揭示人類行為規(guī)律的研究熱潮[1],其中關于人類行為時間特性和空間特性的實證統計和模型的研究居多.在人類行為時間特性方面,物理學家和其它領域學者在大量實證統計和分析的基礎上發(fā)現人類行為時間特性普遍存在冪律分布現象,包括通信[1-3]、各種網上社交活動[4-6]等等.針對這些非泊松分布的時間行為,有關學者提出了許多種人類行為模型以解釋這些非泊松過程的微觀機制,主要有優(yōu)先級排隊模型[1-7]、社會交往模型[8-9]以及個人興趣模型[10]等等.
隨著對人類行為時間特性的研究深入,研究者又將人類動力學研究推向了另一個方面——人類行為的空間特性.Brockmann等人[11]通過對美國鈔票流通數據的研究間接地得出了人類的移動軌跡,發(fā)現在1到4天時間間隔里人類移動距離的概率服從冪律分布,他們認為人類移動軌跡類似于動物移動軌跡,可以用Lévy模型來描述人類的空間移動,認為人類運動軌跡非常符合連續(xù)時間隨機游走模型.隨后González等人[12]用100000名匿名用戶的手機統計了6個月的移動數據得出個體運動位移的分布近似滿足一個截斷冪律分布的結論,他們的研究結果表明,人類軌跡相對于Lévy飛行模型暗示的隨機軌跡有高度的空間規(guī)律性,即每個個體都有與時間無關的移動距離特征,并且返回幾個經常光顧的地點的概率很高.隨后,Song等人[13]表示針對手機用戶得到的數據得出整個的手機用戶群體的空間運動模式有 93%的可預測性,且不同個體運動模式的可預測性基本沒有差別.之后,又建立了探索偏好返回機制來解釋人們在到達一個新的地點之后還會在未來某一時刻返回該地點的行為,即每個個體會產生一個周期性的和相對穩(wěn)定的流動模式[14-16].此外,還有很多基于其它原因而建立的模型,例如社會交互模型[17],交通網絡分布模型[18]等.然而,之后一項研究表明,當集體位移分布符合截尾冪律分布時絕大多數的個體行為距離是偏離冪律分布的[19],說明不能由群體運動模式直接推出個體的運動模式.也有研究者根據出租車的數據得出短途行駛距離(小于 30英里)遵循冪律分布,而長途行程遵循指數衰減規(guī)律,并發(fā)現個體出租車的行駛距離規(guī)律并不是之前研究得出的截尾冪律[20].隨后研究者們將對人類運動行為的空間特性的探究拓展到了實際生活中.Wang等人對城市人口的流動方式及其空間分布對人口流動的影響進行了研究,發(fā)現在城市地區(qū)較大尺度空間中人類行程長度遵循的并不是冪律分布而是指數分布,并發(fā)現規(guī)模較大的城市區(qū)域一般有較小的指數行程長度分布,且行程長度有較大的平均數和標準差,空間人口密度和行程長度并沒有明顯的聯系[21].
在人類運動行為中,速度是一個不可忽略的重要特征,而在人類行為研究的多元化發(fā)展中,對于速度的研究卻寥寥無幾.有研究發(fā)現,在沒有駕駛員的起源地、目的地、駕駛習慣、導航策略和適應性行為的先驗知識情況下,只依賴于短期的歷史GPS車輛記錄,便可高度預測車在北京的三個主要環(huán)形公路的平均速度,從而可捕捉到城市道路上的交通模式[22].無論是采用混合還是單一的交通方式,速率隨著運動距離的增加都是呈現增加的趨勢,并遵循冪律分布[23].
馬拉松賽是一個競爭性項目,在比賽中較量的就是參賽者的速率,而跑過或看過馬拉松賽的人都知道,在比賽中保持穩(wěn)定的配速是明智之舉.起跑過快的人通常對自己的體力有一個錯誤的估計,認為自己的起跑速度可以一直保持下去,但是隨著比賽的進行速度往往會慢下來,甚至還會步行或麻木地拖著雙腿挪動,導致最終取得一個很差的位次.因為生理和心理上的差異,使得每個人的配速策略不同,這也是導致參賽者的位次發(fā)生改變的主要原因.本文將探究馬拉松賽中間計時賽段參賽者位次變化的分布規(guī)律,探究位次分布變化與競爭激烈程度之間的關系,間接地研究城市馬拉松賽賽程中參賽者的群體行為特征,從而進一步探究在群體層面上個體之間的相互作用的影響.
紐約城市馬拉松賽記錄數據中除了有各完成賽程者完成全程的時間之外,還記錄了參賽者到達賽程中間5km、10km、15km、20km、25km、30km、35km、40km處的時間,我們從紐約城市馬拉松賽記錄數據中收集了自2001年到2016年總計15年(2012年紐約馬拉松賽因為颶風“桑迪”而取消)共計615990條的完成賽程者的比賽記錄(平均每年完成賽程的人數為41066).波士頓馬拉松賽記錄數據中除了有所有完成賽程者完成全程的時間,僅記錄了男子組和女子組前1000名參賽者到達賽程中間5km、10km、15km、20km、25km、30km、35km、 40km處的時間,我們從波士頓馬拉松賽記錄數據中收集了自2013年到2016年共計4年8000條完成賽程者的比賽記錄.這些數據為我們研究參賽者在中間賽段內的速度和位次變化的分布規(guī)律提供了依據.考慮參賽者性別因素對速度和位次變化的影響,我們將全部完成賽程者分為男子組和女子組.根據紐約城市馬拉松賽和波士頓馬拉松賽中間計時位置,我們將馬拉松賽全程分成8個5km長的賽段,這里用i=1, 2,…, 8表示0–5km、5–10km、10–15km、15–20km、20–25km、25–30km、30–35km、35–40km等賽段,通過實證統計分析,研究參賽者在各中間賽段的位次變化規(guī)律.
根據每位參賽者到達賽程中間計時點的時間,我們得到各參賽者在各賽段結束時的位次和在該賽段的位次變化,如根據第k位參賽者是該場城市馬拉松賽的總人數)到達第i個計時點(即第i個賽段結束時)的時間tik,可得到該參賽者在第i賽段結束時的位次rik,以及在第i賽段中的位次變化由于第一賽段的起始點是整個賽程的起點,所有參賽者還沒有形成位次分布,故本文不分析參賽者在第一賽段的位次變化.
對每一賽段計算得到各參賽者的位次變化Δrik.考慮N位參賽者位次變化Δrik的數據波動往往會很大,我們建立一系列長度為10的區(qū)間,用n表示(n為整數),即第n區(qū)間的位次變化Δrik的范圍為由此來對參賽者位次變化Δrik進行裝箱(Binning),由于波士頓馬拉松賽僅記錄了前1000名參賽者到達賽程中間時段處的時間,因此對于波士頓馬拉松賽的數據裝箱的區(qū)間長度為5,即第n區(qū)間的位次變化Δrik的范圍為計算位次變化在第n區(qū)間內的參賽者的人數及其位次變化Δrik的平均值由此得出位次變化Δrik的各區(qū)間內的參賽者的人數占總人數的比例與位次變化落在該區(qū)間內的參賽者的位次變化的平均值的數據,進一步畫出第i賽段參賽者人數比例隨參賽者位次變化的分布圖(如圖1).2016年紐約馬拉松賽和波士頓馬拉松賽各中間計時賽段男子組和女子組的隨變化的情況見圖1.最后通過數據曲線擬合得出隨變化的分布函數,這里采用調整后值(Adjusted R-square)的大小來反映擬合的優(yōu)度,確定擬合的模型函數.結果發(fā)現,在紐約馬拉松賽和波士頓馬拉松賽中各中間計時賽段內男子組和女子組的位次變化分布基本保持一致,均遵循洛倫茲分布:
洛倫茲分布又名柯西分布,擁有比高斯分布更寬的尾部,是一個穩(wěn)定的“胖尾”分布,具有無窮大的方差[24-26],這種方差條件說明:非常高或者非常低的位次變化發(fā)生的頻率會比在正態(tài)分布中發(fā)生得更高,如在2016年紐約馬拉松賽中男子參賽者總人數為29549人,男子參賽者在5 –10km賽段中位次變化的絕對值大于2955(即在比賽中超過2955人或落后2955人)的人數占總人數的3%,而其它賽段的位次變化的絕對值大于2955的男子參賽者的人數約占總人數的1%,這部分參賽者的存在導致了位次變化分布的尾部比高斯分布的尾部寬.
洛倫茲分布,常出現在金融系統中,金融系統是一個人為作用非常大的復雜的經濟社會系統,43個國家57個行業(yè)中的13342家公司1999–2010年的利潤率分布滿足柯西分布[24],全世界167個國家1950–2011年的GDP增長率也遵循柯西分布[25].在金融系統中,經濟體的異質性和彼此之間的學習、競爭導致了生產力和盈利能力的增長率呈現“胖尾”分布的特性[27].與此類似,我們認為城市馬拉松賽中參賽人數眾多,參賽者之間的巨大能力差異和賽跑過程中的強競爭性是導致參賽者位次變化呈現“胖尾”分布的主要原因.
圖1 2016年紐約馬拉松賽和波士頓馬拉松賽男子組和女子組在7個中間計時賽段的位次變化分布Fig 1 Distributions of Ranking Changes of Male and Female Finishers in Seven Intermediate Time-trials in 2016 New York City Marathon and Boston Marathon
從圖1所示的參賽者在中間計時賽段的位次變化分布可以看出,參賽者在各段中的位次變化趨勢基本保持一致,但還是能觀察到一些不同的地方,因此在本小節(jié)將考慮各計時賽段位次變化分布之間的差異與影響因素.從圖1中可以觀察到不同年份的紐約馬拉松賽和波士頓馬拉松賽中男子組和女子組的位次變化分布基本保持一致,本節(jié)選取 2016年紐約馬拉松賽男子組為例進行數據處理與分析.
如圖2所示,將2016年紐約馬拉松賽男子組在各計時賽段位次變化的分布兩兩分開放到圖中比較,以避免由于數據點的堆積導致分布之間的差異被掩蓋.
從圖2可以明顯看出,2016年紐約馬拉松賽男子組在各中間計時賽段的位次變化分布高度與寬度的不同,在波士頓馬拉松賽中前1000名男子參賽者和前1000名女子參賽者的中間計時賽段的位次變化有同樣的現象.對男子組在7個中間計時賽段的位次變化分布分別擬合的曲線進行分析與研究,在男子組各計時賽段位次變化分布遵循的柯西分布擬合過程中,除了可以得到峰值位置x0和半峰半寬度ω外,還可以得到擬合分布的高度發(fā)現半峰半寬度ω值和高度 H值在不同計時賽段中的大小差異很大.我們設想在不同計時賽段的半峰半寬度ω值和高度 H值與該賽段內參賽者競爭的激烈程度有關,嘗試用各計時賽段內全部參賽者的位次變化的方均根值(σ)描述該賽段內參賽者的競爭激烈程度:
其中N為參賽者總數.
圖2 2016年紐約馬拉松賽男子組在7個中間計時賽段的位次變化分布Fig 2 Distributions of Ranking Changes of Seven Men’s Intermediate Time-trials in 2016 New York City Marathon
將2015年和2016年紐約馬拉松賽和波士頓馬拉松賽男子組和女子組在各計時賽段的位次變化的方均根值σ與位次變化分布的ω和H值列于表 1,不同計時賽段半峰半寬度ω值和分布高度H值隨位次變化方均根值σ的變化見圖3和圖4.
從圖3可以發(fā)現半峰半寬度ω值與位次變化方均根值σ成明顯的線性正相關,年和 2016年紐約馬拉松賽男子組的α值相差不大,α≈1;女子組的α值相差也不大,α≈0.89.2015年和2016年波士頓馬拉松賽男子組的α值相差不大,α≈0.9;女子組的α值相差較大,但還是成明顯的線性正相關.
從圖4可以發(fā)現高度H值與位次變化方均根值σ成明顯的線性負相關,2015年和 2016年紐約馬拉松賽男子組的β相差不大,女子組的β相差也不大,
2015年和2016年波士頓馬拉松賽男子組和女子組的β略微不同,但可以觀察到明顯的線性負相關.
由此,可以進一步得出一個結論,即馬拉松比賽各中間計時賽段中參賽者的位次變化分布圖形的尖銳程度可以直觀地反映該賽段內參賽者的競爭激烈程度,某賽段內競爭激烈程度越低,則該賽段內參賽者的位次變化分布曲線越尖銳.
表1 2015年2016年紐約馬拉松賽和波士頓馬拉松賽中間計時賽段位次變化的方均根值(σ)和位次變化分布ω和H值Table 1 The Ranking Change Distribution of ω and H and Root-mean Square Value of Ranking Change in Intermediate Time-trial in 2015 and 2016 of New York City Marathons and Boston Marathons
圖3 紐約馬拉松賽和波士頓馬拉松賽中間計時賽段半峰半寬度ω值與位次變化方均根值σ的關聯情況Fig 3 The Correlation between the Value ω of FWHM and the Root Mean-square Value σ of Ranking Changes for the Intermediate Time-trial in New York City Marathons and Boston Marathons
本文統計了近十來年紐約馬拉松賽和近四年來波士頓馬拉松賽前1000名男子參賽者和前1000名女子參賽者的參賽數據,分析研究了城市馬拉松賽過程中的人類運動行為.根據不同的計時點將紐約馬拉松賽和波士頓馬拉松賽全程分為8個計時賽段,分別是0–5km、5–10km、10–15km、15–20km、20–25km、25–30km、30–35km、35–40km.主要研究分析了紐約馬拉松賽和波士頓馬拉松賽中間計時賽段內參賽者位次變化的分布,由于第一賽段的起始點是整個賽程的起點,所有參賽者還沒有形成位次分布,故本文主要研究后面7個計時賽段內參賽者的位次變化.結果發(fā)現參賽者在各中間計時賽段的位次變化分布均遵循洛倫茲分布(柯西分布),說明了在馬拉松賽中間計時賽段中總有一部分參賽者有強大的競爭力會產生較大的位次變化,使位次變化分布呈現“胖尾”分布.對參賽者在中間計時賽段的位次變化分布進一步研究分析發(fā)現,競爭越激烈的賽段中,參賽者位次變化分布的半峰半寬度ω值越大,而高度H越小,即位次變化分布的圖形越平緩;而競爭較小的賽段中,位次變化分布的半峰半寬度ω值較小,高度H較大,位次變化的圖形比較尖銳,這說明在馬拉松比賽中參賽者在各中間計時賽段的位次變化分布在一定程度上能直觀反應競爭的激烈程度.
圖4 紐約馬拉松賽和波士頓馬拉松賽中間計時賽段分布高度H值與位次變化方均根值σ的關聯情況Fig 4 The Correlation between Distribution Height of the H and the σ of Ranking Changes of Intermediate Time-trial in New York City Marathon and Boston Marathons
對近十幾年來的紐約馬拉松賽和近幾年的波士頓馬拉松賽的分析得出同樣的結果,說明了在馬拉松賽這種群體運動過程中有著基本相同的機制存在,也說明了在群體運動中個體之間的相互作用確實存在,這對人類群體運動行為的研究具有重要意義.
[1] Albert-László B. The origin of bursts and heavy tails in human dynamics [J]. Nature, 2005, 435(7039): 207-211.
[2] Oliveira J G, Albert-László B. Human dynamics: darwin and Einstein correspondence patterns [J]. Nature, 2005,437(7063): 1251.
[3] Li N N, Zhang N, Zhou T. Empirical analysis on temporal statistics of human correspondence patterns [J]. Physica A,2008, 387(25): 6391-6394.
[4] Hu H B, Han D Y. Empirical analysis of individual popularity and activity on an online music service system [J].Physica A, 2008, 387(23): 5916-5921.
[5] Zhao Z D, Zhou T. Empirical analysis of online human dynamics [J]. Physica A, 2012, 391(11): 1019-1025.
[6] Dezs? Z, Almaas E, Lukács A, et al. Dynamics of information access on the web [J]. Phys Rev E, 2006, 73(6):066132.
[7] Vázquez A, Oliveira J G, Dezs? Z, et al. Modeling bursts and heavy tails in human dynamics [J]. Phys Rev E, 2006,73(3): 036127.
[8] Oliveira J G, Vazquez A. Impact of interactions on human dynamics [J]. Physica A, 2009, 388: 187-192.
[9] Zhou B, Qin S, Han X P, et al. A model of two-way selection system for human behavior [J]. Plos One, 2014, 9(1):e81424.
[10] Han X P, Zhou T, Wang B H. Modeling human dynamics with adaptive interest [J]. New J Phys, 2008, 10(7):1983-198.
[11] Brockmann D, Hufnagel L, Geisel T. The scaling laws of human travel [J]. Nature, 2006, 439(7075): 462-465.
[12] González M C, Hidalgo C A, Albert-László B. Understanding individual human mobility patterns [J]. Nature, 2008,453(7196): 779-782.
[14]Song C M, Qu Z H, Nicholas B, et al. Limits of predictability in human mobility [J]. Science, 2010, 327(5968):1018-1021.
[15] Song C M, Tal K, Wang P, et al. Modeling the scaling properties of human mobility [J]. Nat Phys, 2010, 6(10):818-823.
[16] Brockmann D, Brockmann D. Statistical mechanics: the physics of where to go [J]. Nat Phys, 2010, 6(10): 720-721.[17] Cho E, Myers S A, Leskovec J. Friendship and mobility: user movement in location-based social networks [EB/OL].[2017-01-08]. http://www-cs.stanford.edu/people/jure/pubs/mobile-kdd11.pdf.
[18] Jiang B, Yin J J, Zhao S J. Characterizing the human mobility pattern in a large street network [J]. Phys Rev E, 2009,80(2): 021136.
[19] Yan X Y, Han X P, Wang B H, et al. Diversity of individual mobility patterns and emergence of aggregated scaling laws [J]. Sci Rep, 2013, 3(9): 2678.
[20] Cai H, Zhan X W, Zhu J, et al. Understanding taxi travel patterns [J]. Physica A, 2016, 457: 590-597.
[21] Wang J, Mao Y, Li J, et al. Predictability of road traffic and congestion in urban areas [J]. Plos One, 2015, 10(4):e0121825.
[22] Chen W, Gao Q, Xiong H G. Uncovering urban mobility patterns and impact of spatial distribution of places on movements [J]. Int J Mod Phys C, 2016, 28(1): 1750004.
[23] Varga L, Kovács A, Tóth G, et al. Further We Travel the Faster We Go [J]. Plos One, 2016, 11(2): e0148913.
[24] Williams M A, Baek G, Park L Y, et al. Global evidence on the distribution of economic profit rates [J]. Physica A,2016, 458: 356-363.
[25] Williams M A, Baek G, Li Yiyang, et al. Global evidence on the distribution of GDP growth rates [J]. Physica A,2017, 468: 750-758.
[26] Williams M, Pinto B, Park D. Global evidence on the distribution of firm growth rates [J]. Physica A, 2015, 432:102-107.
[27] Dosi G, Lechevalier S, Secchi A. Introduction: interfirm heterogeneity: nature, sources and consequences for industrial dynamics [J]. Ind Corp Change, 2010, 19(6): 1867-1890.
(編輯:王一芳)
The Study on the Correlation between Participant Ranking Variation Distribution and the Level of Competition in City Marathons
MENG Fan
(College of Physics and Electronic Information Engineering, Wenzhou University,Wenzhou, China 325035)
In recent 10 more years, the research of the time response and spatial characteristics in human dynamics area has been rapidly developed. The datasets from the records of the participants of top1000 male athletes and top 1000 female athletes in both New York City marathons for recent 10 years and Boston marathons for recent 4 years are counted in this paper. From the above datasets, the runners’ ranking changes in 7 different internal timing lengths are also analyzed and therefore the ranking changes are always abide by Lorentz Distribution (Cauchy Distribution) during their participation in the mediate time trials. The competition fierce degree is described through the introduction of root-mean-square value of ranking changes in all time trial stages. The fierce degree of distribution graph for ranking changes in mediate time trials is discovered via further research on the correlation between the competition fierce degree and the variation distribution parameters, which reflects intuitively the competition fierce degree in such a contest. In conclusion, the lower the participant has competition fierce degree, the sharper the ranking change distribution curve of the participant becomes in such a time trial length.
Human Dynamics; City Marathons; Intermediate Time Trial Lengths; Distributions of Ranking Changes
N94
A
1674-3563(2017)04-0036-10
10.3875/j.issn.1674-3563.2017.04.006 本文的PDF文件可以從xuebao.wzu.edu.cn獲得
2017-04-06
國家自然科學基金(10875086)
孟帆(1993- ),女,江蘇鹽城人,碩士研究生,研究方向:復雜系統與統計物理