王國凡,趙 武,劉徐軍,豐淑慧,薛二劍,陳 林,王 波
目前,奧運(yùn)會(huì)成績預(yù)測方法主要有時(shí)間序列模型、以計(jì)量經(jīng)濟(jì)學(xué)原理建立的經(jīng)驗(yàn)?zāi)P秃蜕窠?jīng)網(wǎng)絡(luò)模型。其中,基于計(jì)量經(jīng)濟(jì)學(xué)原理建立的回歸分析模型能綜合分析奧運(yùn)會(huì)成績的影響因素,為定量預(yù)測奧運(yùn)會(huì)成績提供了依據(jù),也最受廣大學(xué)者關(guān)注[8]。經(jīng)筆者研究發(fā)現(xiàn),單純運(yùn)用經(jīng)濟(jì)學(xué)原理提出的預(yù)測模型可能適合一個(gè)或若干個(gè)國家,但把它應(yīng)用到所有國家是缺乏依據(jù)的,其預(yù)測結(jié)果也往往不能令人滿意[9]。為此,本研究提出了一種將遺傳算法(Genetic Algorithm,簡稱 GA)、競技體育實(shí)力評(píng)估和回歸分析有機(jī)結(jié)合的預(yù)測方法。基于 GA對(duì)競技體育實(shí)力進(jìn)行動(dòng)態(tài)優(yōu)化且實(shí)現(xiàn)有監(jiān)督評(píng)估,在此基礎(chǔ)上,依據(jù)回歸分析建立奧運(yùn)會(huì)成績預(yù)測模型。計(jì)算結(jié)果表明,該模型是一種較高精度的預(yù)測方法。
關(guān)于奧運(yùn)會(huì)成績預(yù)測模型的研究目前主要可歸納為基于時(shí)間序列預(yù)測模型、經(jīng)驗(yàn)?zāi)P图吧窠?jīng)網(wǎng)絡(luò)模型。時(shí)間序列預(yù)測模型由于沒有考慮其他任何影響因素,預(yù)測結(jié)果偶然性大[8];神經(jīng)網(wǎng)絡(luò)預(yù)測模型雖優(yōu)于多元線性回歸模型[13],但神經(jīng)網(wǎng)絡(luò)模型容易陷入局部最優(yōu)和“黑箱”式學(xué)習(xí)模式等缺陷;基于計(jì)量經(jīng)濟(jì)學(xué)原理建立的經(jīng)驗(yàn)?zāi)P褪钱?dāng)前國內(nèi)、外研究的熱點(diǎn)。奧運(yùn)會(huì)成績預(yù)測的計(jì)量經(jīng)濟(jì)學(xué)模型是基于計(jì)量經(jīng)濟(jì)學(xué)原理研究體育問題,根據(jù)影響因素集建立的經(jīng)驗(yàn)?zāi)P?。較早關(guān)于這方面的研究成果有 Ball (1972)[11]、Grimes A Ray等 (1974)[15]和 Levine N (1974)[16],即根據(jù)國家性質(zhì)與經(jīng)濟(jì)水平等因素集研究對(duì)國家在奧運(yùn)會(huì)競賽中成績的影響。隨后的研究案例中,由Bernard與Busse(2004)[12]提出利用柯布—道格拉斯生產(chǎn)函數(shù)建立了獎(jiǎng)牌數(shù)分部的多元非線性模型:
式中:
Me表示第i個(gè)國家在當(dāng)屆奧運(yùn)會(huì)取得的獎(jiǎng)牌數(shù)(medalsi)與當(dāng)屆奧運(yùn)會(huì)總獎(jiǎng)牌數(shù)(∑imedalsi)的比值。
(1)式中,t為時(shí)間趨勢;POP為當(dāng)年參賽國人口數(shù); PGDP為當(dāng)年參賽國人均 GDP;Home為虛擬變量,Home=1表示奧運(yùn)會(huì)主辦國,Home=0表示非主辦國;P為虛擬變量,P=1為社會(huì)主義國家,P=0為資本主義國家;β0為常數(shù);βj(j=1,…,5)為各解釋變量的系數(shù)。
此后,更多人們的目光聚集到該研究上,也使奧運(yùn)會(huì)成績預(yù)測一直為研究熱點(diǎn)[14]。王國凡等人(2010)[9]指出,傳統(tǒng)模型的缺陷在于:單純運(yùn)用經(jīng)濟(jì)學(xué)原理建立的預(yù)測模型可能適合一個(gè)或若干個(gè)國家,但把它應(yīng)用到所有國家是缺乏依據(jù)的,提出參賽國的競技體育實(shí)力對(duì)奧運(yùn)會(huì)成績存在重要的影響,并以此為依據(jù),在以Bernard與Busse的模型基礎(chǔ)上,建立了基于競技體育實(shí)力評(píng)估的多元非線性模型:
式中:C為參賽國競技體育實(shí)力等級(jí),其他參數(shù)與式(1)、(2)相同;各個(gè)國家的競技體育實(shí)力等級(jí)C是利用聚類分析獲得的。研究結(jié)果表明,此方法比傳統(tǒng)的回歸分析預(yù)測精度高,具有較高的可行性。
從模型(3)可以發(fā)現(xiàn),參賽國競技體育實(shí)力評(píng)估是該預(yù)測研究的重點(diǎn)也是難點(diǎn)。但現(xiàn)有的關(guān)于競技體育實(shí)力評(píng)估均是無監(jiān)督聚類方法[1-4,6],此方法的缺陷在于利用什么的數(shù)據(jù)集作為聚類分析、選擇何種聚類分析方法、金牌與獎(jiǎng)牌數(shù)評(píng)估是否等同、聚類數(shù)為多少等確定非常困難,往往只能根據(jù)經(jīng)驗(yàn)估計(jì)確定,這些憑主觀估值的方法必將帶來算法精確度的下降。
考慮到以上案例存在的缺陷,筆者考慮使用 GA對(duì)競技體育實(shí)力進(jìn)行監(jiān)督評(píng)估,GA將目標(biāo)函數(shù)轉(zhuǎn)化為基因組群,以適應(yīng)度函數(shù)為優(yōu)化目標(biāo),通過基因操作得到下一代優(yōu)化基因組合,如此反復(fù)迭代,直到滿足最優(yōu)收斂目標(biāo)為止。
3.1 GA優(yōu)化競技體育實(shí)力評(píng)估總描述
GA能得以廣泛應(yīng)用的一個(gè)重要原因,是它的全局收斂性,由于 GA群體的多樣性,使其盡可能在全方向上搜索,這比以往的梯度法只在單方向上搜索有很大改進(jìn),而且 GA在優(yōu)化問題上無需有連續(xù)性和可微性的限制[17]。最終可實(shí)現(xiàn)競技體育實(shí)力等級(jí)評(píng)估的動(dòng)態(tài)優(yōu)化,在此基礎(chǔ)上,依據(jù)競技體育實(shí)力的多元非線性模型進(jìn)行預(yù)測,保證了預(yù)測精度高、客觀性強(qiáng)。
本研究提出的基于 GA優(yōu)化競技體育實(shí)力評(píng)估的預(yù)測模型流程如圖1所示:
圖1 預(yù)測模型算法流程圖
GA是以擬合優(yōu)度 R2來評(píng)價(jià)競技體育實(shí)力評(píng)估的好壞及預(yù)測精度,并將此目標(biāo)函數(shù)轉(zhuǎn)化為適應(yīng)度函數(shù)。算法開始先隨機(jī)產(chǎn)生群體,群體中的每組染色體代表參賽國的競技體育實(shí)力等級(jí),根據(jù)適應(yīng)度函數(shù)對(duì)每1組染色體進(jìn)行評(píng)價(jià),得到相應(yīng)的適應(yīng)度值,染色體的適應(yīng)度越大,則染色體所代表的競技體育實(shí)力評(píng)估得到了優(yōu)化且預(yù)測效果越好。根據(jù)適應(yīng)值可以算出每一條染色體在選擇操作中被選中的概率。根據(jù)選擇概率,選擇使用隨機(jī)遍歷抽樣法選出一群染色體,構(gòu)成新種群。根據(jù)交叉概率,選擇染色體進(jìn)行 GA交叉操作,最后根據(jù)變異概率,對(duì)染色體上部分基因位進(jìn)行變異操作,該操作使得在整個(gè)搜索過程中染色體代表的競技體育實(shí)力等級(jí)集具有多樣性,對(duì)競技體育實(shí)力起到了優(yōu)化作用,從而保證能夠找到最優(yōu)解。算法的結(jié)束條件是設(shè)置一個(gè)最大迭代次數(shù) Epochmax,方能保證 GA在結(jié)束條件達(dá)到以后求得的解是最優(yōu)解。
3.2 染色體編碼方案
編碼是 GA求解問題的前提,本研究對(duì)競技體育實(shí)力等級(jí)采用整數(shù)型編碼。在進(jìn)行染色體編碼前,首先,應(yīng)確定所有參賽國競技體育實(shí)力等級(jí)數(shù) C值的范圍[Cmin, Cmax]。一般情況下,最佳的聚類數(shù)不會(huì)超過 Cmax≤(N為數(shù)據(jù)集總數(shù))[10],因而,C的取值范圍可以設(shè)定為[2,]。
每條染色體所代表的是參賽國競技體育實(shí)力等級(jí)集,染色體長度就是參賽國家數(shù),染色體中的基因表示競技體育實(shí)力等級(jí),具有相同基因表示競技體育實(shí)力等級(jí)為同一類。在C的取值范圍內(nèi)取一個(gè)整數(shù)k,表示該集合中參賽國含有k個(gè)競技體育實(shí)力等級(jí),染色體可表示為:
染色體:[Z1,Z2,Z3,…,ZN],0≤Zi≤k-1,且Zi為整數(shù)。
例如,在本研究中選取N=62個(gè)參賽國家作為研究對(duì)象(表3),故最佳競技體育實(shí)力等級(jí)數(shù)為2≤C≤8,若k= 6,那么,染色體編碼為:
3.3 適應(yīng)度函數(shù)
根據(jù)染色體的編碼,將此編碼轉(zhuǎn)換為虛擬變量,為了避免“虛擬變量陷阱”,利用k-1個(gè)虛擬變量D1,D2,…,D(k-1)分別表示k個(gè)類別(如表1所示),根據(jù)模型(3)進(jìn)行多元非線性回歸分析,將回歸模型擬合優(yōu)度R2轉(zhuǎn)化為如(4)所示的目標(biāo)函數(shù):
式中:yi為觀測值,^yi為擬合值,為均值[18]。
表1 參賽國競技體育實(shí)力等級(jí)的虛擬變量設(shè)定一覽表
適應(yīng)度函數(shù)通常是用于轉(zhuǎn)換目標(biāo)函數(shù)值為相對(duì)適應(yīng)度值。為了防止過早收斂,可根據(jù)目標(biāo)函數(shù)值在種群中的排序計(jì)算適應(yīng)度值。根據(jù)個(gè)體的目標(biāo)函數(shù)值obj由小到大的順序進(jìn)行排序,根據(jù)排序的序號(hào),給每一個(gè)等級(jí)的個(gè)體一個(gè)適應(yīng)度值,具有相同排序的非支配解分配相同的適應(yīng)度值,適應(yīng)度值按式(5)計(jì)算出:
式中:MAX表示選擇壓差,一般為[1,2]之間;xi是個(gè)體i在有序種群中的位置;Nid為種群數(shù);FinV(i)表示i位置上個(gè)體的適應(yīng)度值。本研究中選擇壓差設(shè)定為MAX=2。
由于R2值越高,預(yù)測越準(zhǔn)[5],那么,適應(yīng)度函數(shù)對(duì)于最終預(yù)測結(jié)果好的染色體給予一個(gè)較高的適應(yīng)值;反之,預(yù)測精度效果不好的染色體給予一個(gè)較低的適應(yīng)值。利用 GA對(duì)預(yù)測進(jìn)行優(yōu)化時(shí)其實(shí)質(zhì)就是要使擬合優(yōu)度R2優(yōu)化。
3.4 選擇算子
選擇算子是確定如何從父代群體中根據(jù)設(shè)定的代溝GGAP選出一定數(shù)目的優(yōu)良個(gè)體遺傳到下一代群體中的一種 GA,為了提高全局收斂性和計(jì)算效率,選擇方法采用隨機(jī)遍歷抽樣(SUS)。SUS是具有零偏差和最小個(gè)體擴(kuò)展的單狀態(tài)抽樣算法,替代用于輪盤方法的單個(gè)選擇指針, SUS使用S個(gè)相等距離的指針,這里S是指要求選擇的個(gè)數(shù)。種群被隨機(jī)排列,S個(gè)指針[ptr,ptr+1,ptr+2,…,ptr+S-1]確定S個(gè)個(gè)體,指針ptr+i(i=0,1,…,S-1)由在[1/S,i+1/S]內(nèi)產(chǎn)生的隨機(jī)數(shù)確定。
假定從10個(gè)個(gè)體中選擇S=6個(gè)個(gè)體且第一個(gè)指針的隨機(jī)位置為0.04(圖2),那么,指針間的距離為1/6= 0.17,故可根據(jù)指針ptr的位置和累計(jì)概率區(qū)間即可確定被選中的個(gè)體為:1,2,3,4,7,8。
圖2 隨機(jī)遍歷抽樣示意圖
3.5 變異算子
采用均勻變異(Simple Mutation),其操作是指分別用符合某一范圍內(nèi)均勻分布的隨機(jī)數(shù),以某一較小的概率來替換個(gè)體編碼串中各個(gè)基因座上的原有基因值,即對(duì)父代個(gè)體依變異概率Pm進(jìn)行操作,目的是防止過早收斂產(chǎn)生局部最優(yōu)解而非整體最優(yōu)解。
均勻變異的具體操作過程是:
1.依次指定個(gè)體編碼串中的每個(gè)基因座為變異點(diǎn);
2.對(duì)每一個(gè)變異點(diǎn),以變異概率Pm從對(duì)應(yīng)基因的取值范圍內(nèi)取一隨機(jī)數(shù)來替代原有值。
3.6 交叉算子
采用單點(diǎn)交叉,是指在個(gè)體編碼串中只隨機(jī)設(shè)置一個(gè)交叉點(diǎn),然后,在該點(diǎn)相互交換兩個(gè)配對(duì)個(gè)體的部分染色體。這里首先對(duì)群體中的個(gè)體隨機(jī)設(shè)定一個(gè)交叉位置,根據(jù)交叉概率Pc進(jìn)行操作,對(duì)兩個(gè)相互配對(duì)的染色體在交叉位置按單點(diǎn)交叉相互交換其部分基因,通過交換產(chǎn)生新一代群體。圖3為單點(diǎn)交叉運(yùn)算的示意圖。
單點(diǎn)交叉的具體執(zhí)行過程:
1.對(duì)個(gè)體進(jìn)行兩兩隨機(jī)配對(duì),若群體大小為M,則共有[M/2]對(duì)相互配對(duì)的個(gè)體組;
2.對(duì)每一對(duì)相互配對(duì)的個(gè)體,隨機(jī)設(shè)置某一基因座之后的位置為交叉點(diǎn),若染色體的長度為N,則共有N-1個(gè)可能的交叉點(diǎn)位置;
3.對(duì)每一對(duì)相互配對(duì)的個(gè)體,依設(shè)定的交叉概率Pc在其交叉點(diǎn)處相互交換兩個(gè)個(gè)體的部分染色體,從而產(chǎn)生出兩個(gè)新的個(gè)體。
圖3 單點(diǎn)交叉運(yùn)算示意圖
為了評(píng)價(jià)預(yù)測精度及模型優(yōu)劣,本研究引入以下幾種誤差:
1.均方根誤差:
2.平均絕對(duì)百分比誤差:
3.平均絕對(duì)誤差:
4.Pearson相關(guān)系數(shù):
式(6)~(9)中:yi,^yi分別為實(shí)際值和預(yù)測值。
本研究所采用的數(shù)據(jù)來源同文獻(xiàn)[9],利用1992—2004年奧運(yùn)會(huì)實(shí)際數(shù)據(jù)為樣本數(shù)據(jù),選取62個(gè)國家(地區(qū))作為研究對(duì)象,以2008年北京奧運(yùn)會(huì)成績檢驗(yàn)預(yù)測模型的效果。
實(shí)現(xiàn)算法的軟件為MATLAB軟件,GA的各控制參數(shù)設(shè)置為:初始種群數(shù)M=50;染色體長度為N=62;交叉率Pc=0.7;變異率Pm=0.01;代溝為GGAP=0.9。
5.1 競技體育實(shí)力等級(jí)數(shù)確定
為了比較競技體育實(shí)力等級(jí)數(shù)對(duì)多元回歸模型的影響,采用 GA優(yōu)化多元回歸非線性模型計(jì)算出競技體育實(shí)力等級(jí)個(gè)數(shù)C范圍內(nèi)所有最優(yōu)擬合優(yōu)度R2,計(jì)算結(jié)果如圖4所示。
從圖4中可以看出,對(duì)于獎(jiǎng)牌數(shù)預(yù)測,競技體育實(shí)力等級(jí)個(gè)數(shù)為C=7時(shí),擬合優(yōu)度R2最大,即參賽國(地區(qū))獲獎(jiǎng)牌數(shù)的最優(yōu)競技體育實(shí)力等級(jí)應(yīng)分為7類;對(duì)于金牌數(shù)預(yù)測,競技體育實(shí)力等級(jí)C=4時(shí),擬合優(yōu)度R2最大,即參賽國(地區(qū))獲金牌數(shù)的最優(yōu)競技體育實(shí)力等級(jí)應(yīng)分為4類。
5.2 預(yù)測結(jié)果
根據(jù)上述分析,將參賽國(地區(qū))獎(jiǎng)牌數(shù)預(yù)測模型的競技體育實(shí)力等級(jí)數(shù)設(shè)為7;金牌預(yù)測模型競技體育實(shí)力等級(jí)數(shù)設(shè)為4,對(duì)樣本數(shù)據(jù)進(jìn)行回歸分析(表2)。
圖4 競技體育實(shí)力等級(jí)數(shù)與擬合優(yōu)度R2的關(guān)系示意圖
表2 1992—2004年間奧運(yùn)會(huì)獎(jiǎng)牌與金牌占有率回歸結(jié)果一覽表
根據(jù)表2的結(jié)果,可對(duì)2008年北京奧運(yùn)會(huì)獎(jiǎng)牌數(shù)、金牌數(shù)進(jìn)行預(yù)測(表3)。
最后,分別計(jì)算文獻(xiàn)[9]的預(yù)測結(jié)果與本研究提出預(yù)測結(jié)果的預(yù)測能力評(píng)價(jià)指標(biāo)(表4)。
從表4中可以看出,本研究提出的預(yù)測模型在對(duì)獎(jiǎng)牌預(yù)測能力方面有明顯優(yōu)勢;在對(duì)金牌預(yù)測結(jié)果中除MAE指標(biāo)略小,其他指標(biāo)均優(yōu)于前者。
從表4中可以發(fā)現(xiàn),對(duì)于FCM-regression模型,由于基于無監(jiān)督模糊C均值聚類的競技體育實(shí)力評(píng)估難以客觀地描述,從而對(duì)參賽國(地區(qū))競技體育實(shí)力有效優(yōu)化組合能力有限,其預(yù)測能力自然無法保證,使得預(yù)測精確度相對(duì)較低。
對(duì)于本研究所提出的 GA-regression模型通過 GA可實(shí)現(xiàn)對(duì)參賽國(地區(qū))競技體育實(shí)力等級(jí)進(jìn)行監(jiān)督計(jì)算,能動(dòng)態(tài)挖掘最優(yōu)競技體育實(shí)力評(píng)估,使得基于競技體育實(shí)力的預(yù)測模型達(dá)到最優(yōu)化。同時(shí),降低了預(yù)測模型的主觀性,在獎(jiǎng)牌、金牌數(shù)預(yù)測中精度更高、穩(wěn)定性更好。
表3 各個(gè)國家(地區(qū))獎(jiǎng)牌數(shù)、金牌數(shù)和競技體育實(shí)力歸類結(jié)果一覽表
表4 兩種模型預(yù)測統(tǒng)計(jì)指標(biāo)結(jié)果一覽表
1.本文提出的 GA-regression模型
通過 GA可實(shí)現(xiàn)對(duì)參賽國(地區(qū))競技體育實(shí)力等級(jí)進(jìn)行有效監(jiān)督計(jì)算,能動(dòng)態(tài)挖掘最優(yōu)競技體育實(shí)力評(píng)估,使得基于競技體育實(shí)力的預(yù)測模型(3)達(dá)到最優(yōu)化。同時(shí),提高了預(yù)測模型的客觀性,在獎(jiǎng)牌(金牌)數(shù)預(yù)測中精度高、穩(wěn)定性好。
2.采用 GA優(yōu)化多元回歸非線性模型,能夠計(jì)算得出奧運(yùn)會(huì)參賽國(地區(qū))競技體育實(shí)力等級(jí)數(shù)。在參賽國(地區(qū))獎(jiǎng)牌數(shù)預(yù)測中,其競技體育實(shí)力等級(jí)數(shù)為7;在參賽國(地區(qū))金牌數(shù)預(yù)測中,其競技體育實(shí)力等級(jí)數(shù)為4。
[1]白海波,郭權(quán).我國與奧運(yùn)強(qiáng)國競技體育實(shí)力的比較研究[J].沈陽體育學(xué)院學(xué)報(bào),2004,23(2):163-117.
[2]鮑勇,劉新剛,劉偉.應(yīng)對(duì)第11屆全運(yùn)會(huì)我國主要省(市)區(qū)域競技實(shí)力分析[J].北京體育大學(xué)學(xué)報(bào),2009,32(2):127-128.
[3]陳紹艷,楊風(fēng)華.奧運(yùn)會(huì)對(duì)承辦國競技體育實(shí)力的影響[J].體育學(xué)刊,2006,13(4):119-121.
[4]高鴻輝.我國全運(yùn)會(huì)田徑競技實(shí)力各等級(jí)區(qū)域構(gòu)成的動(dòng)態(tài)演變研究[J].西安體育學(xué)院學(xué)報(bào),2009,26(1):86-91.
[5]古扎拉蒂.計(jì)量經(jīng)濟(jì)學(xué)[M].林少宮譯.北京:中國人民大學(xué)出版社,2000:333.
[6]雷英杰,張善文,李續(xù)武,等.MA TLAB遺傳算法工具箱及應(yīng)用[M].西安:西安電子科技大學(xué)出版,2005.
[7]李真.中國競技體育實(shí)力的地區(qū)格局分布與對(duì)比分析——對(duì)十運(yùn)會(huì)排行榜的分析[J].北京體育大學(xué)學(xué)報(bào),2006,29(8):1137-1139.
[8]王國凡,唐學(xué)峰.奧運(yùn)會(huì)獎(jiǎng)牌預(yù)測國內(nèi)、外研究動(dòng)態(tài)及發(fā)展趨勢[J].中國體育科技,2009,45(6):3-7.
[9]王國凡,薛二劍,唐學(xué)峰.對(duì)大型國際綜合性運(yùn)動(dòng)會(huì)獎(jiǎng)牌數(shù)的預(yù)測研究——以北京奧運(yùn)會(huì)為例[J].天津體育學(xué)院學(xué)報(bào),2010,25 (1):86-90.
[10]于劍,程乾生.模糊聚類方法中的最佳聚類數(shù)的搜索范圍[J].中國科學(xué)E輯,2002,32(2):274-280.
[11]BALL,DONALD W.Olympic games competition:structural correlates of national success[J].Int JComparative Soc,1972, 12:186-200.
[12]BERNARD,ANDREW B,M EGHAN R BUSSE.W ho w ins the olympic games:economic resources and medals totals[J].Rev Eco Statistics,2004,86(1):413-417.
[13]CONDON E M,GOLDEN B L,WASIL E A.Predicting the success of nations at the summer olympics using neural netwo rks[J].Computer Operations Res,1999,26:1243-1265.
[14]FORREST,DAV ID,SANZ,ISMAEL,TENA J D.Forecasting national team medal totals at the summer Olympic games[J]. Int J Forecasting,2010,26:576-588.
[15]GRIMES,A RA Y,W ILL IAM J KELLY,etal.A socioeconomic model of national Olympic performance[J].Soc Sci Q,1974, 55:777-782.
[16]LEV INE NED.Why do countries win olympic medals?some structural co rrelates of olympic games success:1972[J].Sociology Social Res,1974,58:353-360.
[17]LUCB,STEFAN S.Genetic algorithms:theory and application [J].J A,1997,38(2):13-23.
[18]Samp rit Chatterjee,A li S Hadi,Bertram Price.例解回歸分析(第3版)[M].鄭明,徐勤豐,胡瑾瑾譯.北京:中國統(tǒng)計(jì)出版社,2004.