楊華磊,周曉波
奧運獎牌數(shù)據(jù)背后所凸顯的唯象法則
——基于數(shù)據(jù)挖掘視角的探究
楊華磊,周曉波
通過對奧運數(shù)據(jù)的唯象挖掘發(fā)現(xiàn),獎牌數(shù)量在空間上存在明顯的聚集效應(yīng),即地理空間上相近的區(qū)域都能獲得獎牌,或都不能獲得獎牌,抑或都獲得的多,或都獲得的少;獎牌數(shù)量下國家個數(shù)符合水平區(qū)段帶有諸多小峰的L型分布,這種分布在自然和社會中是一大類普適性的分布,在一定時間段內(nèi),獎牌榜序下的獎牌數(shù)的分布函數(shù)具有對時間和空間變換的結(jié)構(gòu)或總量的相對不變性,即獎牌數(shù)量可能在不同國家之間隨機游走,但是,獎牌數(shù)量在不同國家之間的總體分布保持著基本不變的性狀,歷屆奧運會都基本呈現(xiàn)相同的分布形式。同時,獎牌榜序下的獎牌數(shù)符合冪函數(shù)分布,這相近金融市場中價格波動的冪率法則。獎牌數(shù)量的不均勻程度近似為89%左右;每天奧運獎牌數(shù)據(jù)的更新路徑為Z型,即存在間歇性的階梯上升;氣候越熱的區(qū)域,獲得獎牌數(shù)越少,溫帶區(qū)域獲得的獎牌數(shù)量最多;總GDP與獎牌數(shù)量的正相關(guān)僅在某區(qū)段上成立;人均GDP對獎牌數(shù)的貢獻(xiàn)是一區(qū)域的整體性質(zhì),但在局部區(qū)段上不存在明顯的規(guī)律性,如果根據(jù)人均GDP對所有區(qū)域劃分為二,則人均GDP高的區(qū)域獲得獎牌數(shù)量多;越“民主國家”和越“集權(quán)國家”獲得獎牌數(shù)較多,其他較少,并且,最民主區(qū)域比最集權(quán)區(qū)域獲得的獎牌多,即左提的正U型。
聚集效應(yīng);冪函數(shù)分布;L型分布;氣候;民主;基尼系數(shù)
奧運會是人類的視覺盛宴,同時,其所彰顯的奧運精神也是人類的精神食糧。奧運場上的競技水平,不僅是一個國家(地區(qū))或者一個民族體質(zhì)水平的近似象征,也是一個國家(地區(qū))綜合實力的展現(xiàn),包括先天稟賦的自然地理條件,后天的制度、體制以及文化,當(dāng)然,經(jīng)濟發(fā)展水平和政治民主程度也是影響競技水平不可或缺的因素。雖然奧林匹克運動一直去政治化,但不可回避的是,競技水平同時也是一個國家(地區(qū))展現(xiàn)外部形象,進而提升國際影響力的一個途徑。這些因素對競技水平的影響是隱形的和復(fù)合的,其間的關(guān)系是不直接的弱關(guān)系,能否通過對奧林匹運動的考察,立足于邏輯實證主義的視角,對奧運會結(jié)果的相關(guān)數(shù)據(jù)進行從表到里的挖掘,尋找這些因素間的內(nèi)在機制。奧運會獎牌數(shù)在地理空間存在較強的集聚效應(yīng)(cluster effect)嗎?人均GDP和總GDP與奧運獎牌數(shù)存在正相關(guān)嗎?這種正相關(guān)是整體的,還是局域的?每個國家(地區(qū))的氣候影響其獲得的獎牌數(shù)嗎?是不是越熱的地區(qū),獲得獎牌數(shù)越少?一個國家(地區(qū))的民主程度影響其獲得的獎牌數(shù)嗎?是不是越民主的國家獲得的獎牌數(shù)越多?諸如南亞大國印度在歷屆奧運會上的表現(xiàn)都不如人意,對于這樣一個人口基數(shù)大、綜合國力較強、經(jīng)濟總量很大的國家為何與她的體育水平不匹配?這一點不免讓人產(chǎn)生好奇、詫異,這也正是本文所要討論的。
當(dāng)然,撇開上述這些問題,僅僅就學(xué)理性的問題探討,尋找奧林匹運動數(shù)據(jù)中較普適性的法則,是任何一個對奧林匹克運動感興趣的數(shù)理學(xué)者關(guān)心的問題。社會中的普適性法則不同于自然界,自然界中的法則是不變的,故自然界的普適性的法則較易尋找;社會中的研究,因文本是易變的,故其語境下孕育的普遍法則,更多的是一種軌跡或者分布上的普適性,在此考察與獎牌榜相對應(yīng)的獎牌數(shù),即獎牌榜序下的獎牌數(shù)的分布函數(shù)是否具有對時間和空間變換的結(jié)構(gòu)或總量的不變性,即獎牌數(shù)量可能在不同國家之間隨機游走,但是,獎牌數(shù)量在不同國家之間的總體分布是否維持著基本不變的性狀,無論哪屆奧運會都呈現(xiàn)相同的分布形式?抑或是這種分布隨時間變化的比較緩慢?獎牌數(shù)下的國家個數(shù)是否也呈現(xiàn)一種普適性分布,分布函數(shù)是一種L型的分布,還是在水平部分帶有諸多小峰的L型分布?以時間尺度較短的“天”為單位,是不是獎牌獲得越多的國家,其更新的路徑越平滑,間歇性越短,階梯數(shù)越多;而獲得獎牌越少的國家,獎牌量的更新路徑越曲折,階梯性越強,階梯越少,間歇性越久?獎牌數(shù)量的分布存在不均勻性,而這種類似貧富差距的不均勻的程度有多大,能否采用測度貧富差距的基尼系數(shù)加以計量?本文將圍繞這些問題加以展開。
獎牌(本文所指“獎牌”主要是指金牌)在空間上如何分布,是否呈現(xiàn)一些普適性的法則,如空間的聚集效應(yīng),這是對奧運會獎牌進行的學(xué)理性探討。獎牌在空間上如何分布,同樣對政策的實施也具有重要作用。為形象的表述奧運會獎牌在空間上的分布,在此統(tǒng)計了我國2002—2012年三屆奧運會出現(xiàn)的獎牌運動員的籍貫,根據(jù)籍貫對各省、自治區(qū)、直轄市進行分類排序。把全國各省份分為6類,第1類表示最近三屆奧運會累計貢獻(xiàn)的獎牌運動員數(shù)大于20名的省份,這類有遼寧?。坏?類表示累計貢獻(xiàn)的運動員大于15小于等于20的省份,有江蘇省和山東??;第3類主要是累計貢獻(xiàn)獎牌運動員大于10而小于等于15的省份,有北京市和廣東?。坏?類主要是累計貢獻(xiàn)獎牌運動員大于5而小于等于10的省份,有上海市、浙江省、福建省、四川省、湖北省;第5類貢獻(xiàn)獎牌運動員數(shù)量大于等于1小于等于5的省份,有黑龍江省、吉林省、河北省、陜西省、河南省、安徽省、江西省,湖南省、重慶市、貴州省以及云南??;第6類沒貢獻(xiàn)一名獎牌運動員的省份,為余下的省份。這樣劃分存在沒有對各類內(nèi)部再排序的問題,特別是第5類上,但基本能說明問題。
貢獻(xiàn)獎牌運動員較多的?。▍^(qū)、市),呈現(xiàn)出明顯的空間聚集效應(yīng)。最多的集中在東部沿海區(qū)域,東部沿海以遼寧省為首,空間上相近的江蘇省和山東省為一類,浙江省和福建省為一類,而天津市和北京市差別不是太大,這些幾乎占據(jù)了一、二、三以及四類,故東部區(qū)域內(nèi)空間聚集效應(yīng)呈現(xiàn)模塊化;次之是中部區(qū)域,中部區(qū)域以湖北省為中心,累計貢獻(xiàn)9名獎牌運動員,中部省(區(qū)、市)基本上屬于第5類,但山西省是一例外,沒有貢獻(xiàn)獲得獎牌的運動員,基本上在地理空間上相近的區(qū)域,在貢獻(xiàn)獎牌運動員上也呈現(xiàn)明顯的空間聚集效應(yīng);最次之是西部廣大區(qū)域,而西部的西南區(qū)域獎牌運動員貢獻(xiàn)相對較多且集中,最多為四川省,貢獻(xiàn)了9名,幾乎西南各?。▍^(qū)、市)對獎牌運動員都有所貢獻(xiàn),同為第5類,這表現(xiàn)為在空間上的另一聚集效應(yīng),但西北除陜西省外,幾乎都是空白,同樣呈現(xiàn)明顯的空間聚集效應(yīng)。綜合來說,對獎牌運動員的貢獻(xiàn)順序依次為東部的北部區(qū)域,東部的南部區(qū)域,中部的南部區(qū)域,中部的北部區(qū)域、西南區(qū)域以及西北區(qū)域。
同樣為獲得奧運獎牌在世界范圍內(nèi)分布的信息,以2012年各國(地區(qū))獲得獎牌數(shù)為樣本,對世界各國(地區(qū))重新聚類,同樣通過奧運數(shù)據(jù)在地理空間上的分布,挖掘數(shù)據(jù)里面所蘊含的信息,觀察獎牌數(shù)量在地理空間上的分布是否存在普適性的規(guī)律。在此分為8類:第1類是獎牌數(shù)量大于40的國家(地區(qū)),在此有美國;第2類獎牌數(shù)量大于30小于等于40的國家(地區(qū)),在此有中國;第3類是獎牌數(shù)量大于20小于等于30的國家(地區(qū)),在此有英國和俄羅斯;第4類是獎牌數(shù)量大于10小于等于20的國家(地區(qū)),在此有德國、法國以及韓國;第五類是獎牌數(shù)量大于5而小于等于10的國家(地區(qū)),在此有澳大利亞、日本、哈薩克斯坦、意大利、匈牙利以及烏克蘭;第6類是獲得的獎牌數(shù)量大于1而小于等于5個的國家(地區(qū)),在此有巴西、南非、伊朗、土耳其、白俄羅斯、波蘭、西班牙以及埃塞俄比亞等;第7類是獲得獎牌數(shù)量為1的國家(地區(qū)),在此有加拿大、墨西哥、阿根廷、瑞典等;第8類是沒有獲得獎牌的國家(地區(qū))。發(fā)現(xiàn)獲得獎牌數(shù)量越少的國家(地區(qū)),與其獲得相同或者相近獎牌數(shù)量的國家(地區(qū))就越多,相反則反之??傊S著類數(shù)的增大,類里的國家(地區(qū))個數(shù)在不斷增加,沒有獲得獎牌的國家(地區(qū))高達(dá)150多個,獲得獎牌的僅54個國家(地區(qū))。
圖1 2012年奧運會世界各國(地區(qū))獲得的獎牌(金牌)數(shù)量分布示意圖Figure 1. 2012Olympic Games,The Distribution of the Number of Gold Medals that Countries Receive
從圖1可看出,獎牌獲得最多的區(qū)域主要集中在歐洲區(qū)域,幾乎歐洲的大多數(shù)國家(地區(qū))都獲得了獎牌,而科技水平、教育以及幸福程度較高的芬蘭,竟然沒有獲得一枚,同樣,人均GDP最高的盧森堡也沒有獲得一枚;獲得最少的大陸應(yīng)該屬于非洲大陸,且非洲大陸上,獎牌獲得的區(qū)域具有明顯的模塊化和聚集效應(yīng),即集中在3個區(qū)域——東非高原、南非高原以及靠近地中海的阿爾及利亞和突尼斯,其他是一片空白;獲得獎牌最少的地域是南亞和東南亞,這個區(qū)域幾乎沒有獲得一枚獎牌,與其經(jīng)濟總量、經(jīng)濟發(fā)展速度及人口總量是不相稱的;對比之下,較有意思的是加勒比海上的國家(地區(qū)),獲得的獎牌數(shù)量之多,同樣與其國土、經(jīng)濟發(fā)展水平以及人口總量也是不相稱的;分量較大的是東北亞和大洋洲,就是中國、日本、韓國、朝鮮以及澳大利亞、新西蘭,獲得的獎牌數(shù)量都很可觀;令人惋惜的是加拿大和巴西,同樣獲得的獎牌數(shù)量與國土、經(jīng)濟發(fā)展水平以及人口是不相稱的;當(dāng)然,阿拉伯世界除去伊朗之外,多少還是有點獲得的獎牌數(shù)量與經(jīng)濟發(fā)展水平不相稱,如海灣石油富國,像沙特、阿聯(lián)酋以及卡塔爾等,沒有一枚獎牌。
從圖1還可以看出,在空間上具有很強的簇聚效應(yīng),就是在空間上鄰近的區(qū)域,獲得的獎牌數(shù)目差不多。較典型的如阿爾及利亞和突尼斯,埃塞俄比亞、肯尼亞以及烏干達(dá),委內(nèi)瑞拉、哥倫比亞以及墨西哥,古巴和牙買加,德國和法國,伊朗和土耳其,白俄羅斯和波蘭,當(dāng)然澳大利和新西蘭也較相似。這源于其所處地理空間相似,示范性效應(yīng)易于傳遞,同時地理空間的鄰近,諸如氣候的自然地理條件,引致風(fēng)俗以及飲食結(jié)構(gòu)相同,生理結(jié)構(gòu)和信仰較為相似,進而經(jīng)濟發(fā)展水平和政治文化背景也較為相似,這就是所謂空間上簇聚效應(yīng)的內(nèi)在原因。
表1 2004—2012年三屆奧運會各大洲的獎牌(金牌)數(shù)量分布一覽表Table 1 The Distribution of the Number of Gold Medals in all Continents in 2004—2012 (枚)
奧運數(shù)據(jù)背后是否隱藏著普適性的法則,這是很多研究奧運的專家以及統(tǒng)計學(xué)家等關(guān)心的話題。在挖掘歷屆和本屆奧運會數(shù)據(jù)中的信息時,發(fā)現(xiàn)兩種較普適性的分布:一是獎牌排行榜數(shù)據(jù)和獎牌獲得量數(shù)據(jù)中所凸顯的呈現(xiàn)階梯性下降的冪函數(shù)分布形式;二是獎牌數(shù)量下國家(地區(qū))個數(shù)的分布函數(shù)在水平區(qū)段呈現(xiàn)很多小峰的L型分布。
圖2表示,獎牌榜下獎牌數(shù)的分布函數(shù),其呈現(xiàn)向右稍微傾倒的L型分布,若對這個分布深度挖掘,可以把這個分布分為3個部分:第1部分就是排名靠前的國家(地區(qū)),隨著排行榜名次的下降,獎牌數(shù)呈現(xiàn)較平滑的極速下降,即不存在停頓性的間歇,獲得的獎牌數(shù)很少出現(xiàn)相同;第2部分是排名較靠前的區(qū)域,隨著排行名次的下降,獎牌數(shù)目出現(xiàn)了階梯性的停頓間歇性下降,就是獲得相同獎牌數(shù)目的國家(地區(qū))個數(shù)逐漸增大,且排名越靠后,獲得相同獎牌個數(shù)的國家(地區(qū))的個數(shù)越多;第3部分就是稍微向右傾斜的L型的水平部分,此部分的區(qū)域一枚獎牌都沒有獲得,即獲得相同獎牌個數(shù)的國家(地區(qū))最多,故其呈現(xiàn)水平的形式。
圖2 本研究獎牌榜與獎牌(金牌)數(shù)之間的關(guān)系示意圖Figure 2. The Relationship between the Number of Medals and Medals Table
這種近L型的分布具體呈現(xiàn)何種分布形式,能否找到一個具體的函數(shù)加以擬合這些現(xiàn)實的數(shù)據(jù),進而生成一經(jīng)驗上的公式。對經(jīng)驗公式以及普適性分布感興趣,這是科學(xué)的追求,也是探討學(xué)理性問題的需要,因其具有對變換的不變性,實際點,還可以更好的為預(yù)測和控制服務(wù)。在此加以嘗試尋找一種經(jīng)驗分布,即一種普適性的分布。通過對2008年奧運會、2012年奧運會以及其他年份的數(shù)據(jù)擬合發(fā)現(xiàn),上述分布基本符合最低次數(shù)為-2,最高次數(shù)為0的冪函數(shù)形式
圖3 本研究2008年和2012年按獎牌量排序與此序下獎牌(金牌)占總獎牌比例的散點圖及擬合曲線圖Figure 3. 2008and 2012,the Sequenceand the Ratio of the Scatter Plot and Fitted Curve
這是一多項式函數(shù),包含自變量的零次冪、負(fù)一次冪以及負(fù)二次冪的形式,也就是每一種序下獲得的獎牌數(shù)量占總獎牌數(shù)量的比例,不僅與位序的負(fù)一次方存在關(guān)系,還與位序的負(fù)二次方存在關(guān)系,而對2008年以及2012年的數(shù)據(jù)計算機擬合結(jié)果如下所示:
上述法則不論對于年份,就是說無論哪一屆奧運會,這種分布都具有相對穩(wěn)定性,即對時間變換下的不變性(invariance)。同時,獲得的金牌、銀牌以及銅牌數(shù)目同樣具有上述特征,即對獎牌變換的不變性;當(dāng)然,不論是倫敦奧運會,還是北京奧運會,還是將來的里約熱內(nèi)盧奧運會,依然還會呈現(xiàn)這種法則,即具有對空間變換的不變性??傊?,這種分布具有對時間、空間及文本變換的不變性。
圖4 本研究獎牌(金牌)獲得數(shù)量下國家(地區(qū))個數(shù)的分布圖Figure 4. The Distribution of the National Number in the Number of Gold Medals
從圖4的兩幅圖可以看出,雖然是兩屆不同的奧運會,但是獎牌數(shù)量下國家(地區(qū))個數(shù)的分布是一種較普適性的近似L型的分布(L Distribution),這種L型又不同于傳統(tǒng)的L型分布,即在L發(fā)生轉(zhuǎn)折的過程中,波動較為劇烈,并出現(xiàn)一小峰(Hinata)。接近水平的區(qū)域部分,存在很多小峰,當(dāng)獎牌比較少的時候,這些小峰比較高,隨著獲得獎牌數(shù)量的增加,小峰的高度逐漸趨于變低,進行一致。為清晰陳述,在圖形中,專門對這個水平區(qū)域進行放大,使之更清晰看到這些小峰。這些小峰分別代表不同的國家(地區(qū)),且小峰表示的國家(地區(qū))獲得的獎牌數(shù)都比較多,小峰很多是孤立的,如果忽略這些小峰,單純把這種分布看做L型的,將遺失掉很多重要的信息。
這些間接說明存在獎牌數(shù)量差距,初始獎牌比較少時,國家(地區(qū))個數(shù)的比例從一個很高的值,近似垂直衰減下來,就是拿獎牌比較少的國家(地區(qū))特別多,如73%的國家(地區(qū))一枚金牌都沒拿,58%的國家(地區(qū))一枚獎牌都沒拿,獎牌被少數(shù)的國家(地區(qū))占有,如不到10%的國家(地區(qū)),竟然拿走將近80%的獎牌,說明獎牌分配嚴(yán)重不均勻,這也說明為什么獎牌數(shù)量下國家(地區(qū))個數(shù)的分布是一個存在很多小峰的近似L型分布。近似垂直部分說明,獎牌數(shù)獲得較少的國家(地區(qū))比較多,且獲得獎牌數(shù)越少,則國家(地區(qū))越多;近似水平的部分,并且其上存在很多小峰,說明獎牌僅僅被個別幾個國家(地區(qū))拿走,這些國家(地區(qū))占所有參賽國家(地區(qū))比例很小,這是為什么水平上凸顯小峰的原因。同樣,上述L分布不論對于年份,就是過去哪一屆奧運會,都會呈現(xiàn)這樣的分布形式,即具有對時間變換穩(wěn)定性的性質(zhì);同時,總獎牌數(shù)和銀牌、銅牌數(shù)目,依然符合上述分布,這種分布具有對時間即屆次以及對文本依然成立的性質(zhì)。
在經(jīng)濟學(xué)中存在資源分配的不均勻性(heterogeneity),而衡量資源分配不均勻性通常采用廣義的基尼系數(shù)(Gini coefficient),就是累計人口的比例與累計資源比例數(shù)據(jù)生成的圖形與45°線圍成的面積占45°線與坐標(biāo)軸圍成的面積之比。無論在自然界還是人類社會,無論是對自然資源還是社會資源,都不是絕對均勻的分布,而是存在一定分配的不均勻性,這時對這種不均勻程度的測量就采用廣義的基尼系數(shù)。在此對2008年北京奧運會以及2012年倫敦奧運會獎牌數(shù)量分布的不均勻程度進行測量。首先,按照國家(地區(qū))獲得獎牌量從少到多排序,計算出國家(地區(qū))個數(shù)的累計比例量,把其當(dāng)做坐標(biāo)橫軸,進而計算出相應(yīng)的獎牌數(shù)量的累計數(shù)的比例值,當(dāng)做縱軸,把這些國家(地區(qū))個數(shù)的累計比例數(shù)和獎牌個數(shù)的累積比例數(shù)在圖5中繪制出來,同時繪制出45°線。
圖5 本研究2008年和2012年兩屆奧運會獎牌分配的不均勻程度示意圖Figure 5. Medal Assigned Degree of Inhomogeneity in the 2008—2012Two-time Olympic
從圖5可以清晰看出,國家(地區(qū))累計數(shù)比例高達(dá)73%時,這些國家(地區(qū))獲得的獎牌數(shù)占總獎牌數(shù)的比例值還是零,并且,2008年的北京奧運會和2012年的倫敦奧運會所呈現(xiàn)的分布曲線基本相似,都在國家(地區(qū))數(shù)累計73%之前,獲得的獎牌數(shù)累計的比例為零。這給計算獎牌數(shù)分布不均勻性的廣義基尼系數(shù)提供了思路。因為,基尼系數(shù)的計算是分布曲線與45°線圍成的面積占45°線以下面積的比例。分布曲線和45°線圍成的面積可以看做45°線以下面積減去分布曲線以下面積,而分布曲線以下的面積包括兩部分:第一部分面積是在累計國家(地區(qū))個數(shù)比例值73%之前的區(qū)域,這部分區(qū)域沒有一枚獎牌,故這部分區(qū)域的累計面積為零;另一部分是累計國家(地區(qū))個數(shù)達(dá)到73%以后,這部分分布曲線與坐標(biāo)軸圍成的面積不為零,故如果能計算出這部分面積,就可知道分布曲線和45°線圍成的面積,即拿45°線以下的面積減去這部分區(qū)域的面積,則基尼系數(shù)的計算:
又由于45°線與坐標(biāo)軸圍成的面積已知,就是一等腰直角三角型的面積,而這個三角形的腰長是一個單位,這部分的面積根據(jù)面積計算公式可得:
最終對獎牌數(shù)量分布不均勻的計算歸結(jié)到對分布曲線在區(qū)間[73%,1]的區(qū)段內(nèi)與坐標(biāo)x軸圍成的面積的計算,而對這部分面積的計算,首先要知道分布曲線的具體函數(shù)形式,故采取做出這些累計的國家(地區(qū))個數(shù)的比例與累計的獎牌數(shù)量的比例的數(shù)據(jù)組的散點圖,然后,對這個散點圖進行曲線擬合,找到這部分分布曲線的具體函數(shù)形式,而這部分曲線基本符合下述公式,為了把這個函數(shù)包含前一部分為零的區(qū)域,在此記住分段函數(shù),即:
圖6 本研究分布曲線的部分?jǐn)M合結(jié)果示意圖Figure 6. Fitting Results of the Portion of the Distribution Curve
因分段函數(shù)前半部分是恒為零,故計算出來的面積也為零,其不影響最終的計算值。在此只需要計算分段函數(shù)的后一部分,給出擬合曲線來,然后計算此擬合曲線與坐標(biāo)軸圍成的面積,通過擬合,則2008年奧運會以及2012年奧運會的擬合獲得的曲線分別為:
為計算分布曲線與坐標(biāo)軸圍成的面積,就歸結(jié)為對上述分段函數(shù)的積分,而積分的計算如下:
對分布曲線面積計算出來以后,拿上述45°線與坐標(biāo)軸圍成的面積減去這部分面積,得分布曲線和45°線圍成的面積,再拿著這部分面積比45°線下的面積,就得出類似基尼系數(shù)的獎牌分配的不均勻程度系數(shù),分別為:
從這些系數(shù)可以看出,獎牌分配極其不均勻,說明大多數(shù)獎牌被極少數(shù)的國家(地區(qū))拿走,以2012年為例,獲得獎牌的僅為54個國家(地區(qū)),而剩下150個參賽國家(地區(qū))竟然沒拿到一枚。在經(jīng)濟學(xué)中,0.5的基尼系數(shù)是很危險的,意味著社會中貧富差距很嚴(yán)重,如果不處理就會出現(xiàn)社會矛盾。從上述分析結(jié)果還可以看出,2012年奧運會的基尼系數(shù)比2008年奧運會的增大了,但在此不知道是趨勢還是短期波動,還有待于觀察的深入。反過來利用衡量貧富差距的指標(biāo)測度獎牌分配的不均勻程度,即獎牌的基尼系數(shù),當(dāng)然生成這種圖形取決于奧運機制和本國(地區(qū))自身的特點,而獎牌數(shù)據(jù)背后差距的機制,相反可為理解貧富差距提供隱喻,就是獎牌的生成機制和經(jīng)濟資源的生成機制應(yīng)較為相似。
對社會中數(shù)據(jù)的挖掘,在時間尺度上一般是以月、季度、年以及十年為單位,而對尺度更短的若秒、分、小時以及天,尺度更大的半個世紀(jì)、百年以及千年,這個研究譜段上卻很少涉及。為了更深、更廣的的窺探到數(shù)據(jù)中所蘊含的普遍性法則,在此以2012年奧運會為例,連續(xù)觀察16天每個國家(地區(qū))奧運獎牌的更新,進而以天為單位加以挖掘信息,尋找其中所蘊含的更新法則。
從圖7以可看出,3幅圖都呈現(xiàn)隨著時間增加,獎牌數(shù)量不嚴(yán)格上升的趨勢,雖然中間會出現(xiàn)間隙(interval)的性質(zhì)。這3幅圖形的區(qū)別是:第1幅一直上升,上升幅度較平穩(wěn),間隙時間較短,路徑較為光滑;第2幅圖雖一直上升,但表現(xiàn)出來階梯性(ladder)的間隙,間隙時間比第1幅圖的長;第3幅圖上升較慢,間歇時間最長,明顯的出現(xiàn)大階梯。把這3幅圖作為一個序列來看,就是根據(jù)獎牌獲得量的多少,獎牌數(shù)量更新的曲線逐漸的變得不平滑,階梯數(shù)變少,即上升的速度變慢;一個階梯變長,即在上升過程中,間歇時間越來越長,即呈現(xiàn)階梯性上升。獎牌越多的國家(地區(qū)),階梯數(shù)越多,且每階梯的長度較小,間歇的時間較短,越看不出階梯,行進越平滑??傊?,隨著獎牌數(shù)獲得的減少,越來越呈現(xiàn)大Z型的階梯性推進路徑。
圖7 2012年倫敦奧運會獎牌榜1~4、9~12以及20名以外的國家(地區(qū))每天獲得的獎牌(金牌)數(shù)示意圖Figure 7. 2012,The Medal Standings,in Some Countries the Number of Gold Medals Daily Obtained
這種在時間上獎牌獲得的簇聚效應(yīng),即一會兒沒有獎牌,一會兒連續(xù)來幾個獎牌,源于獎牌獲得少的國家(地區(qū)),參賽項目單一,優(yōu)勢項目也單一,賽事有一個規(guī)則,一個項目一般集中在一段時間。故如果參賽國家(地區(qū))項目單一,并且這個項目實力比較強,就會呈現(xiàn)出明顯的簇聚效應(yīng),而其他項目沒有參與,或?qū)嵙Σ粡?,一旦這個項目結(jié)束后,獎牌總數(shù)會出現(xiàn)長時間間歇,等待另一參賽或者優(yōu)勢項目的出現(xiàn),故呈現(xiàn)上升緩慢,間歇性較長,即階梯數(shù)較少且長,表現(xiàn)曲線不光滑的特性。獲得獎牌數(shù)量比較多的國家(地區(qū)),參賽項目較多,優(yōu)勢項目也多,即使賽事使得項目分布較為分散,但其每天都可以獲得獎牌,使得獎牌數(shù)得以更新,最終表現(xiàn)出階梯數(shù)較多,間歇時間較短,即曲線一直上升且比較光滑的特性。
上述階梯性的更新法則,能否找到一個函數(shù)把這個階梯路徑擬合出來,最先想到的就是簡單函數(shù)(simple function)。給出路徑的具體曲線形式,在此僅僅給出這樣一個更新函數(shù),這個函數(shù)具體模擬現(xiàn)實的結(jié)果,不再做出。以一個國家(地區(qū))為考察對象,考察獲得的獎牌數(shù)的更新,可這樣設(shè)想:一個國家(地區(qū))在這16天內(nèi)任一天,不妨設(shè)第t天獲得獎牌數(shù)包括兩部分:一部分是截止到昨天累計獲得的獎牌數(shù),一部分是今天所獲得的獎牌數(shù)。今天獲得的獎牌數(shù)取決于參賽項目以及這些參賽項目獲得獎牌的數(shù)目,就是今天要想獲得獎牌,則必須有參賽項目,同時這些參賽項目獲得獎牌,故今天獲得的獎牌數(shù)是所有今天參賽項目并且這些項目獲得獎牌的數(shù)目,可以用下述一個更新方程加以表示
進一步挖掘獎牌數(shù)據(jù)中所蘊含的其他規(guī)律性的東西,下述較為零散的考察氣候?qū)Κ勁偏@得數(shù)的影響,總GDP、人均GDP以及民主程度分別對各國家和地區(qū)獎牌數(shù)量獲得的影響,同時考察獎牌榜上各個國家(地區(qū))男性和女性分別對國家(地區(qū))獲得獎牌數(shù)的貢獻(xiàn)度。當(dāng)然,在此僅僅是唯象考察,而其中的內(nèi)在傳遞機制還未深究。
不同的氣候類型造就不同的風(fēng)俗文化以及信仰,不同的氣候造就不同的包括飲食習(xí)慣的生活方式,這會引致?lián)碛泄餐纳順?gòu)造,進而相近的體質(zhì)以及與這種體質(zhì)相近的鍛煉方式,進而相近的體育項目。同時,也會促使選擇相近的社會體制,如政治制度、文化氛圍,進而使得對體育的愛好以及某些體育項目重視程度相近。從圖8可以看出,具有熱帶氣候的國家(地區(qū))和區(qū)域獲得獎牌數(shù)小于具有溫帶氣候的國家(地區(qū))或者區(qū)域。而熱帶氣候里面獲得獎牌數(shù)從低到高依次是熱帶沙漠、熱帶雨林、熱帶季風(fēng)、熱帶草原以及亞熱帶季風(fēng);溫帶氣候里面近似依次是地中海氣候、溫度季風(fēng)氣候,溫度大陸氣候以及溫度海洋氣候。而圖中展現(xiàn)的如溫度海洋獲得的獎牌數(shù)量不如溫度季風(fēng)獲得的多,在此的排序更多指具有這種氣候類型的區(qū)域。
獎牌數(shù)前10名的國家(地區(qū)),除去第1名和第2名外,男性對獎牌的貢獻(xiàn)度基本上大于女性;10~20名前,男性比女性對獎牌數(shù)量的貢獻(xiàn)度大,但基本上呈現(xiàn)貢獻(xiàn)的聚集效應(yīng),就是無論是男性還是女性貢獻(xiàn)大的傾向在位序上靠近,如男性貢獻(xiàn)大的集中在14~18名,而女性集中在11~13名;在20~30位序間,同樣,男性貢獻(xiàn)的比例大于女性,當(dāng)然也呈現(xiàn)聚集效應(yīng),女性貢獻(xiàn)度集中在21~22位序區(qū)間,男性集中在18~20位序區(qū);而在30~40位序之間,女性的貢獻(xiàn)大于男性,聚集效應(yīng)不是那么明顯;排名在40~50名之間的國家(地區(qū)),男性貢獻(xiàn)明顯超過女性,呈現(xiàn)聚集效應(yīng),整體上男性貢獻(xiàn)大于女性的。按照經(jīng)濟發(fā)展水平,也就是經(jīng)濟總量最大的3個國家(美國、中國、日本),對獎牌貢獻(xiàn)大的是女性,而非男性,具體的內(nèi)在機理有待進一步考察。
圖8 本研究氣候與各個國家(地區(qū))獲得獎牌(金牌)數(shù)的關(guān)系示意圖Figure 8. The Relationship between Climate and the Number of Gold Medals
圖9 本研究男性和女性對各國家(地區(qū))獲得獎牌(金牌)數(shù)的貢獻(xiàn)示意圖Figure 9. Men and Women Contributing to the Number of Gold Medals
總GDP和獲得的總獎牌數(shù)量僅僅是在某個區(qū)段上呈現(xiàn)傳統(tǒng)認(rèn)為的正相關(guān),而非在整個區(qū)段上這個命題都成立,即獲得的總獎牌數(shù)與總GDP呈正相關(guān),但這種法則的成立也僅僅是在某個區(qū)段上成立,而非所有區(qū)段。對于總GDP大于3 000億美元的國家(地區(qū)),按照從高到低排序,相應(yīng)獲得的總獎牌數(shù)量基本與總GDP位序呈現(xiàn)正相關(guān),就是位序越高的國家(地區(qū)),獲得的總獎牌數(shù)量近似越多,擬合方程為 :
總GDP小于3 000億美元的,卻呈現(xiàn)較為隨機的特性,這個區(qū)段上的獲得的獎牌數(shù)量和總GDP位序間關(guān)系的解釋,不能僅用經(jīng)濟因素就能解釋,如先天的自然稟賦等,這些因素?zé)o法用后天經(jīng)濟因素加以完全替代。
人均GDP與獎牌數(shù)量間的關(guān)系更為隨機。從圖10的第2幅圖中可以看出,獎牌數(shù)量的峰部呈現(xiàn)模塊化,且這些峰分布在人均GDP的不同片段上,同時,其間差距很大。如果人均GDP與獎牌數(shù)量存在關(guān)系,那這種關(guān)系也是弱關(guān)系(Weak Ties)??梢哉f,人均GDP高的區(qū)域,就是作為一個整體區(qū)域,而不是某一部分,獲得的獎牌數(shù)相對人均GDP較低的整體區(qū)域可能會多點。當(dāng)然,獎牌數(shù)量與總GDP的關(guān)系上也是在某個區(qū)段上成立,獎牌數(shù)量與人均GDP的區(qū)段關(guān)系(Section relationship),沒有總獎牌與GDP的區(qū)段關(guān)系強烈,當(dāng)然,這種關(guān)聯(lián)的性質(zhì)更多是局部的整體性,而非局部的局部上的。
圖10 總GDP量及人均GDP與奧運會獎牌數(shù)間的關(guān)系示意圖Figure 10. The Relationship between the Amount of Total GDP and GDP Per Capita and the Number of Olympic Medals
表2 本研究人均GDP高的國家(地區(qū))與人均GDP低的國家(地區(qū))獲得的獎牌數(shù)對比一覽表Table 2 Comparison of the Number of Medals in Countries with High and Low Per Capita GDP
可以看出,人均GDP將近100 000美元的挪威,不如僅有350美元的埃塞俄比亞獲得的獎牌數(shù)量多;人均GDP 80 000美元的瑞士和人均GDP僅850美元的肯尼亞相近;人均GDP最高的盧森堡和人均GDP最低的烏干達(dá)差不多,說明人均GDP對奧運獎牌的獲得不是最重要的因素,如果有關(guān)系,其間也是弱關(guān)系,或者是局部的整體關(guān)系。
獎牌獲得量與民主程度無直接的關(guān)系,即無在整體上呈現(xiàn)正相關(guān)或者負(fù)相關(guān),但這也并不意味著沒有關(guān)系。這種關(guān)系對不同民主程度上集體模塊來說,展現(xiàn)為不同的關(guān)系。完全民主的國家(地區(qū)),獲得的獎牌數(shù)量最多;集權(quán)的國家(地區(qū)),獲得的獎牌量次之;較民主的國家(地區(qū))獲得的獎牌數(shù)量再次之;而較集權(quán)的國家(地區(qū)),獲得的獎牌數(shù)量最少??傊矫裰鞯膮^(qū)域獲得的獎牌數(shù)量越多,越集權(quán)區(qū)域獲得的獎牌數(shù)量也相對越多,而中間無太多民主的區(qū)域,獲得的獎牌數(shù)量相對較少,呈現(xiàn)左提的U型分布。
通過對上述奧運會數(shù)據(jù)進行唯象分析發(fā)現(xiàn):在地理空間上,獎牌數(shù)量的分布具有明顯的簇聚效應(yīng),也就是地理空間上相近的區(qū)域,獲得獎牌數(shù)量較為相近,獲得奧運獎牌和沒有奪取奧運獎牌的國家(地區(qū))、獲取獎牌數(shù)量多和獲取獎牌數(shù)量少的國家(地區(qū))在地理空間上呈現(xiàn)在某一區(qū)位上集中的態(tài)勢,即地理位置相近國家(地區(qū))之間形成具有板塊集聚的性狀。在世界獎牌的地理空間分布上發(fā)現(xiàn),東北亞地區(qū)、北美洲和中美洲地區(qū)、北歐和西歐地區(qū),這些板塊在奧運會上表現(xiàn)得都不錯,南亞和東南亞地區(qū)、南美洲地區(qū)、南非洲、西亞地區(qū)等這些板塊在奧運賽場上表現(xiàn)平平;同時發(fā)現(xiàn),中國近三屆奧運獎牌運動員的籍貫依次集中在東部、中部和西南,東部的北部比南部多,中部的南部比北部多,西北部的西南比西北多,西北部除去陜西省以外是空白。
奧運數(shù)據(jù)中存在對時間、空間及文本變換的結(jié)構(gòu)和總量的不變性,表征為按照從高到低排列的獎牌榜的序與此序下獲得的獎牌數(shù)的分布函數(shù)符合一最低次數(shù)為-2,最高次數(shù)為0的冪函數(shù)分布;獎牌數(shù)下的國家(地區(qū))個數(shù)的分布函數(shù),近似符合一個水平區(qū)段存在諸多小峰的L型分布,并且這種L型的分布在自然界和社會中普遍存在,如人口數(shù)下的國家(地區(qū))個數(shù)分布,這也同社會和自然中廣泛存在多數(shù)資源被極少數(shù)主體占有類似。在為天的時間尺度上,獲得獎牌越多的國家(地區(qū)),奧運獎牌更新越頻繁,即更新路線平滑,間歇性短,階梯數(shù)越多;獲得獎牌越少的國家(地區(qū)),更新慢,階梯較少,且間歇性較長。為測度奧運獎牌分配的不均勻程度,引入計算貧富差距的基尼系數(shù),發(fā)現(xiàn)如今奧運獎牌分配不均勻程度高達(dá)89%,社會中50%不均勻程度是警戒線。
圖11 本研究民主程度與奧運獎牌數(shù)間的關(guān)系示意圖Figure 11. The Relationship between the Degree of Democracy and the Number of Olympic Medals
本研究還發(fā)現(xiàn),氣候越熱的區(qū)域,獲得奧運獎牌數(shù)越少,根據(jù)不同的熱帶氣候劃分,獲得獎牌數(shù)從低到高依次近似為熱帶沙漠、熱帶雨林、熱帶季風(fēng)、熱帶草原以及亞熱帶季風(fēng),在溫帶里面獲得的獎牌數(shù)從低到高依次為地中海氣候、溫帶季風(fēng)氣候、溫帶大陸氣候以及溫帶海洋性氣候。同時發(fā)現(xiàn),在獎牌榜上前10名的國家(地區(qū))里,第1名和第2名的獎牌獲得數(shù)量中,女性貢獻(xiàn)超過男性,而其他是男性貢獻(xiàn)超過女性;在總GDP排名前3名國家(地區(qū))中,也是女性對獎牌量貢獻(xiàn)超過男性。總GDP與獎牌數(shù)量在局部上存在正相關(guān),此局部表現(xiàn)為總GDP大于3 000億美元的區(qū)段內(nèi),其他區(qū)段上不存在明顯的關(guān)系;而人均GDP與獎牌數(shù)量的關(guān)系更是很弱,只能說人均GDP高的區(qū)域比人均GDP低的區(qū)域獲得獎牌數(shù)多,但在局部上不存在這種關(guān)系。同時還發(fā)現(xiàn),一個國家(地區(qū))民主程度與其獲得的獎牌數(shù)的關(guān)系表現(xiàn)為,越民主的區(qū)域獲得的獎牌數(shù)越多,越集權(quán)區(qū)域獲得的獎牌數(shù)量相對較多,而中間無太多民主的區(qū)域,獲得的獎牌數(shù)量相對較少。
當(dāng)然,本文還有諸多不足,如對影響?yīng)勁茢?shù)量的分析僅僅是單因素分析;人口基數(shù)、人口結(jié)構(gòu)、東道主效應(yīng)等也是影響?yīng)勁偏@得量的重要因素,但本文中并沒有具體陳述;另外,不同國家(地區(qū))對體育事業(yè)的支持力度也沒有直接的測度標(biāo)準(zhǔn),而這里根據(jù)總量GDP和人均GDP的差異,間接地進行替代和補充,進而進行計量分析??傊?,本文分析還停留在唯象的層面,但為什么呈現(xiàn)這種表觀,還有待于對其內(nèi)部機制、機理研究的深入和跟進。
[1]吳殿廷,吳穎.2008北京奧運會中國獎牌趕超美國的可能性——基于東道主效應(yīng)的分析和預(yù)測[J].統(tǒng)計研究,2008,25(3):61-65.
[2]夏力.第23—29屆奧運會我國獎牌項目地域分布特征[J].體育成人教育學(xué)刊,2012,28(1):69-71.
[3]楊秉龍.中國獲得奧運會獎牌特征分析[J].山西大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2010,33(5):165-170.
[4]張洪潭.北京奧運啟示錄[J].體育與科學(xué),2009,30(2):1-8.
[5]張宇,張建瑋,王正行.金融市場中冪律分布的經(jīng)驗和理論研究進展——經(jīng)濟物理學(xué)研究的一個前沿[J].物理,2004,33(10):734-740.
[6]張玉超.第29屆奧運會中、美、俄獎牌分布特點及其啟示[J].體育學(xué)刊,2009,16(2):82-84.
[7]H E STANLEY.Econophysics:Can physicists contribute to the science of economics?[J].Physica A,1999,269(1):156-169.
[8]MARK B.It’s a(stylized)fact?。跩].Nature,2012,478(8):3-4.
[9]XAVIER G.A theory of power-law distributionsin in fiancial market fuctuations[J].Nature,2003,423(5):267-270.
The Phenomenological Laws Highlighted by the Data behind Olympic Medals—From Data Mining Perspective
YANG Hua-lei,ZHOU Xiao-bo
The Olympic data like the number of gold medals in the space rest upon the cluster effect,that is approximately the same number of gold medals obtained by the similar area on the geospatial;meet the level of section with many countries.The number of gold medals embodied peak L-type distribution,the distribution in nature and society is a large class of universal distribution;gold medal in the medals table sequence number coincided with the power function distribution,which is similar to the power law distribution of price fluctuations in financial markets;the number of gold medals uneven degree of approximation is about 89%,more than 50%of social vigilance of Gini coefficient;a daily update of the data path of Olympic gold medal is the Z-curve,there are intermittent ladder rise;the hotter climate of the region,gained the smaller number of medals,on the contrary the opposite;the number of gold medals positively related to total GDP,set up only in a section;GDP per capita contribution to the number of gold medals is the nature of the region as a whole,but it does not exist in the local section of the apparent regularity all zoning,according to per capita GDP between the two,the high per capita GDP of the region won the gold medal count;more democracies and more authoritarian countries won the gold medal more,others less,and most democratic region than in the most autocratic region won more gold medals,that is left U-shaped.
clustereffect;powerfunctiondistribution;L-typedistribution;climate;democracy;Ginicoefficient
G80-05
A
1000-677X(2012)10-0003-09
2012-08-22;
2012-09-17
楊華磊(1986-),男,河南平輿人,在讀碩士研究生,主要研究方向為數(shù)理統(tǒng)計學(xué)和經(jīng)濟物理學(xué),E-Mail:hualei0928@gmail.com;周曉波(1988-),男,安徽六安人,在讀碩士研究生,主要研究方向為空間計量經(jīng)濟學(xué),EMail:ddhizhouxiaobo@hotmail.com。
蘭州大學(xué)經(jīng)濟學(xué)院,甘肅蘭州730000
School of Economics,Lanzhou University,Lanzhou 730000,China.
①其中n(t)是截止到第t天獲得的獎牌數(shù),ai(t)表示第t天的第i個參賽項目,其取值為0或者1,bi(t)表示第i個項目是否獲得獎牌,其取值也為0與1,m(t)表示第t天總參賽的項目。