□ 王詩語(青島經(jīng)濟技術(shù)開發(fā)區(qū)第一中學(xué) 山東 青島 266580)
基于非線性回歸和BP神經(jīng)網(wǎng)絡(luò)的奧運會獎牌預(yù)測模型
□ 王詩語(青島經(jīng)濟技術(shù)開發(fā)區(qū)第一中學(xué) 山東 青島 266580)
本文通過考察各國上一屆獎牌數(shù)、總?cè)丝?、人均GDP、社會制度和東道主等5個因素對奧運獎牌獲得能力的影響,并建立多元非線性回歸模型,經(jīng)參數(shù)優(yōu)化獲得最佳預(yù)測模型。同時在這些分類匯總數(shù)據(jù)的基礎(chǔ)上,建立BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型,最后實現(xiàn)對2020年東京奧運會獎牌榜前十位的預(yù)測。
奧運獎牌預(yù)測 多元非線性回歸 人工神經(jīng)網(wǎng)絡(luò)
2016年8月,第三十一屆夏季奧林匹克運動在巴西里約熱內(nèi)盧成功舉行,中國代表隊取得了金牌第三,獎牌榜第二的好成績。奧運會期間,獎牌榜排名成為人們關(guān)注的焦點,而在奧運會開賽之前,很多數(shù)學(xué)家、經(jīng)濟學(xué)家以及體育數(shù)據(jù)統(tǒng)計公司紛紛推出各自預(yù)測模型和虛擬獎牌榜。
達特茅斯大學(xué)塔克商學(xué)院的研究者發(fā)布了一份關(guān)于2016年里約奧運會各代表團奪金、銀牌數(shù)的預(yù)測報告,其在Bernard-Busse模型的基礎(chǔ)上并根據(jù)國家(或地區(qū))人口、財富的相對水平、歷屆奧運會表現(xiàn)和主辦國的加成實現(xiàn)獎牌榜預(yù)測。而國內(nèi)在奧運獎牌預(yù)測領(lǐng)域也有著廣泛的研究,董琦等采用支持向量機非線性擴展樣本對時間序列模型定階,通過分析新樣本加入訓(xùn)練集后支持向量集變化的情況,從而構(gòu)建一種支持向量機的奧運金牌預(yù)測的模型。該模型的預(yù)測效果和傳統(tǒng)時間序列模型預(yù)測相比,具有主觀度低,預(yù)測精度高,預(yù)測穩(wěn)定性更好的優(yōu)點。郭愛民等基于灰色理論預(yù)測里約奧運會金牌榜次序,張玉華等基于線性回歸動態(tài)模型對里約奧運會獎牌數(shù)進行預(yù)測。通過對2020年東京奧運會獎牌的科學(xué)預(yù)測,可以提高各項體育工作的預(yù)見性,促進訓(xùn)練工作的科學(xué)化。
在 Wikipedia(維基百科)All-time Olympic Games medal table詞條下,獲取到歷屆奧運會的獎牌數(shù)據(jù),用VLOOKUP函數(shù)進行獎牌數(shù)據(jù)的分類整理,從世界銀行數(shù)據(jù)庫獲得各國歷年的總?cè)丝跀?shù)和人均GDP數(shù)據(jù),而對數(shù)量級較大的數(shù)據(jù)需進行對數(shù)處理。
首先將上述分類匯總后奧運獎牌數(shù)據(jù)整理成時間序列形式,通過自回歸分析來求解模型參數(shù)。再根據(jù)回歸分析結(jié)果中R2(擬合優(yōu)度)、SSE(殘差平方和)Significance F、P value(顯著性水平)等參數(shù)以及通過測試集獲得的ρ(相關(guān)系數(shù))和MSE(均方差)兩個指標(biāo)進行權(quán)衡,對預(yù)測模型進一步的調(diào)優(yōu)。
利用Microsoft Excel軟件進行回歸分析,建立模型如式1所示。
式中A為各國獲得獎牌的能力(獎牌數(shù)占總獎牌數(shù)的比例),A0為各國獲得獎牌的能力,b為截距,P為總?cè)丝?,G為人均GDP,S為社會制度,H為東道主,其中 S和 H均采用虛擬變量(0,1),P和G均取對數(shù)形式。
首先根據(jù)自回歸分析的結(jié)果分析:從表1,可以看出log(G)和S的P-value值都遠大于0.05,log(P)的P-value值小于 0.05但大于0.01,擬合優(yōu)度R2的值為0.9313,結(jié)果不夠理想。
表1 自回歸分析結(jié)果Table1 The results of autoregressive analysis
因此,通過減少相關(guān)性弱的模型參數(shù)來考察模型預(yù)測性能的變化,結(jié)果如下表2。
表2 模型變量的增減對模型性能的影響Table2 The effect of model variables on model performance
從上表可以看出,舍棄變量log(G)、log(P)和S后,模型性能測試的相關(guān)系模型性能測試的相關(guān)系數(shù)略增大,均方差略增大。
由于選取是排名前30位的國家,人均GDP水平和奧運獎牌獲得能力相關(guān)性不好(相關(guān)系數(shù)0.23),相比之下,總?cè)丝诤蛫W運金(獎)牌獲得能力相關(guān)性較好(相關(guān)系數(shù)0.65),同時隨著全球化的趨勢,社會制度對奧運奪金(獎)能力影響日益減小,而且排名前三十的國家僅有兩個社會主義國家,因此從模型的穩(wěn)定性和拓展性上,考慮舍棄變量log(G)、S,保留變量log(P)。
經(jīng)過參數(shù)優(yōu)化后的預(yù)測模型如式1-2所示:
在模型參數(shù)方面,選用上一屆獲金(獎)牌數(shù)據(jù),總?cè)丝跀?shù)、人均GDP、社會制度和東道主來衡量各個因素對金(獎)牌總數(shù)的影響,經(jīng)過模型參數(shù)的優(yōu)化,舍棄了人均GDP、社會制度兩個參數(shù),整體預(yù)測效果良好。
圖1 模型預(yù)測結(jié)果Fig1 The results of model prediction
從預(yù)測結(jié)果來看,里約奧運會上,中國顯然沒有取得預(yù)期的成績,俄羅斯由于禁賽事件,也未能達到預(yù)期,第十三位的巴西充分發(fā)揮東道主的優(yōu)勢,取得了高于預(yù)期的成績。
人工神經(jīng)網(wǎng)絡(luò)作為一種智能算法,它對于那些變量之間相互關(guān)系不清楚,很難用簡單的線性或非線性數(shù)學(xué)模型進行描述的復(fù)雜問題,具有獨特的優(yōu)越性,且有容易擴充的優(yōu)點。
BP神經(jīng)網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)包括輸入層、隱層和輸出層,如圖2所示。該BP網(wǎng)絡(luò)采用訓(xùn)練方法是動量的梯度下降法。
圖2 BP神經(jīng)網(wǎng)絡(luò)模型Fig2 BP neural network model
(1)數(shù)據(jù)預(yù)處理。
主要包括的樣本數(shù)據(jù)的采集、分析和預(yù)處理。將匯總的120組數(shù)據(jù)隨機分為訓(xùn)練集和預(yù)測集兩組,同時為了提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率,需要對原始數(shù)據(jù)進行歸一化處理,使數(shù)值分布在[0,1]的區(qū)間上。
(2)網(wǎng)絡(luò)的創(chuàng)建。
將上一屆獲獎牌能力、總?cè)丝?、人均GDP、社會制度和東道主等五個變量作為輸入變量,將本屆獲金(獎)牌能力作為輸出變量,隱層神經(jīng)元數(shù)為4,確定包括網(wǎng)絡(luò)層數(shù)的確定、網(wǎng)絡(luò)神經(jīng)元數(shù)確定、傳遞函數(shù)選取Sigmoid函數(shù)中的tansig函數(shù)、初始權(quán)值以取[0,l]之間的隨機數(shù)、學(xué)習(xí)率為0.1等。構(gòu)建一個5-4-1型的三層BP神經(jīng)網(wǎng)絡(luò)。
(3)網(wǎng)絡(luò)的訓(xùn)練。
采用訓(xùn)練集數(shù)據(jù),對網(wǎng)絡(luò)進行訓(xùn)練,訓(xùn)練函數(shù)選為traingdm,動量因子設(shè)為0.9,最大迭代次數(shù)設(shè)為5000,最大迭代誤差為0.0001。
(4)網(wǎng)絡(luò)的測試。
訓(xùn)練完成后,調(diào)用sim函數(shù)對預(yù)測集數(shù)據(jù)進行仿真預(yù)測,得到預(yù)測結(jié)果與實驗值的誤差情況,考察網(wǎng)絡(luò)的精度。進行多次訓(xùn)練,根據(jù)測試集結(jié)果的相關(guān)系數(shù)和均方差選擇一個最優(yōu)的網(wǎng)絡(luò)保存并作為預(yù)測模型使用。部分測試結(jié)果如下表3所示:
表3 BP網(wǎng)絡(luò)模型測試結(jié)果Table3 Test results from BP net model
經(jīng)過訓(xùn)練,選擇最優(yōu)的BP網(wǎng)絡(luò)進行預(yù)測,測試結(jié)果如圖3所示。
圖3 BP網(wǎng)絡(luò)模型預(yù)測結(jié)果Fig3 The results of BP net model prediction
人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型能夠充分逼近復(fù)雜的非線性關(guān)系,快速進行大量運算,預(yù)測的精度也較高,適合作為奧運獎牌預(yù)測的模型。從預(yù)測結(jié)果來看,和多元非線性回歸模型獲得的信息基本一致。
為了實現(xiàn)對2020年奧運會獎牌的預(yù)測,現(xiàn)從世界銀行數(shù)據(jù)庫獲得2013-2015年的人口增長率和人均GDP增長率,計算平均值作為從2015-2020間的平均增長率,最終獲得2020年的總?cè)丝?、人均GDP等數(shù)據(jù),加上里約奧運獎牌數(shù)據(jù),代入到式2中,并將結(jié)果轉(zhuǎn)化成2020年獎牌的預(yù)測值,匯總后如表4所示:
表4 多元非線性回歸模型預(yù)測奧運獎牌榜Table4 Olympic Medal standings from multivariate nonlinear regression model
以BP網(wǎng)絡(luò)模型對2020年奧運會各國獲獎牌能力進行預(yù)測,再將結(jié)果轉(zhuǎn)化為2020年各國的獎牌數(shù)據(jù),并進行排名,結(jié)果如表5所示。
表5 BP網(wǎng)絡(luò)模型預(yù)測奧運獎牌榜Table5 Olympic Medal standings from BP net model
利用多元非線性回歸模型和人工神經(jīng)網(wǎng)絡(luò)模型對2020年東京奧運會的獎牌榜前十名進行預(yù)測。
從模型的評價來看,多元非線性回歸模型和人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型都適合作為奧運獎牌預(yù)測的模型,其中前者在預(yù)測精度方面表現(xiàn)更好,后者在建模時間和運算效率上占優(yōu),兩者均有不錯的提升空間和拓展能力。
從2020年東京奧運會獎牌榜的前十位的情況來看,日本由于是東道主,奧運會成績會有顯著的提升,美國、中國和英國依舊是三甲的有力競爭者,俄羅斯由于此次的禁賽事件的影響,預(yù)期成績有所下降,韓國由于在跆拳道和射箭項目上的強勢表現(xiàn),成績穩(wěn)定前十。
[1]Bernard A B,Busse M R.Who Wins the Olympic Games:Economic Resources and Medal Totals[J].Review of Economics&Statistics,2006,86(1).
[2]董琦,高峰.利用支持向量機方法預(yù)測2016年里約奧運會中國獎牌數(shù)目[J].運動,2016(3).
[3]張玉華.基于線性回歸動態(tài)模型的中國第31屆奧運會獎牌數(shù)預(yù)測[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2013,(02).
[4]郭愛民,趙明發(fā).基于灰色理論預(yù)測2016年夏季奧運會金牌榜次序[J].中國科技信息,2013(9).
[5]毛健,趙紅東,姚婧婧.人工神經(jīng)網(wǎng)絡(luò)的發(fā)展及應(yīng)用[J].電子設(shè)計工程,2011,(24).
G80
A
1006-8902-(2017)-12-ZL