劉 昊
體育成績預(yù)測(cè)可以反映體育項(xiàng)目運(yùn)動(dòng)成績的變化態(tài)勢(shì),幫助學(xué)校、運(yùn)動(dòng)隊(duì)、體育培訓(xùn)機(jī)構(gòu)制定科學(xué)的訓(xùn)練方法,為運(yùn)動(dòng)員和教練提供有價(jià)值的參考意見,以促進(jìn)體育教學(xué)和體育訓(xùn)練的改革,因此體育成績預(yù)測(cè)一直是體育研究領(lǐng)域的熱點(diǎn)[1]。
針對(duì)體育成績預(yù)測(cè)問題,國內(nèi)許多研究機(jī)構(gòu)和科研院所都進(jìn)行了廣泛、深入的研究,涌現(xiàn)出了許多體育成績預(yù)測(cè)模型。當(dāng)前體育成績預(yù)測(cè)主要分為兩類:線性預(yù)測(cè)模型和非線性預(yù)測(cè)模型,線性預(yù)測(cè)模型主要包括多元線性回歸分析、自回歸求和滑動(dòng)平均等[2],取得了不錯(cuò)的應(yīng)用效果,而體育成績與多種因素有聯(lián)系,各種因素之間又相互作用,導(dǎo)致體育成績變化十分復(fù)雜,但是線性模型假設(shè)體育成績一種周期性或上升的變化趨勢(shì),這與體育成績實(shí)際變化特點(diǎn)不相符,應(yīng)用范圍具有局限性[3]。非線性體育模型主要包括神經(jīng)網(wǎng)絡(luò)、灰色模型、馬爾可夫鏈以及支持向量機(jī)等[4],它們對(duì)體育成績與影響因子之間的變化關(guān)系進(jìn)行擬合,它們以較高的精度逼近體育成績變化函數(shù),取得了比線性模型更高的預(yù)測(cè)精度。然而在實(shí)際應(yīng)用中,這些模型也存在一定的缺陷,如灰色模型、馬爾可夫鏈要求體育成績與歷史數(shù)據(jù)變化是相吻合的,而且體育具有一定的非線性變化特點(diǎn),這樣假設(shè)常常不能夠滿足;當(dāng)學(xué)習(xí)本數(shù)量有限時(shí),神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度比較低,而當(dāng)學(xué)習(xí)本數(shù)量比較大時(shí),卻易出現(xiàn)“維數(shù)災(zāi)”、“過擬合”等問題;支持向量機(jī)的泛化能力好,但是學(xué)習(xí)速度比較慢,當(dāng)訓(xùn)練樣本比較大時(shí),建模時(shí)間十分驚人,實(shí)際應(yīng)用價(jià)值差[5,6]。相關(guān)向量機(jī)(RVM)是一種新發(fā)展起來的非線性學(xué)習(xí)算法,是一種基于高斯過程模型的稀疏概率模型,解決了神經(jīng)網(wǎng)路“過擬”等不足,同時(shí)具有較好的學(xué)習(xí)效率,避免了支持向量機(jī)學(xué)習(xí)過程耗時(shí)的缺陷,在網(wǎng)絡(luò)流量、陀螺儀隨機(jī)漂移補(bǔ)償?shù)确蔷€性預(yù)測(cè)領(lǐng)域取得了成功的應(yīng)用[6]。然而相關(guān)向量機(jī)作為一種新型的學(xué)習(xí)算法,在應(yīng)用實(shí)際中,核函數(shù)選擇十分關(guān)鍵,當(dāng)前還沒有一個(gè)統(tǒng)一指導(dǎo)理論,全憑經(jīng)驗(yàn)進(jìn)行設(shè)置,影響相關(guān)向量機(jī)的預(yù)測(cè)性能[7]。
結(jié)合體育成績復(fù)雜的變化特點(diǎn),利用相關(guān)向量機(jī)的非線性建模優(yōu)勢(shì),建立了一種基于組合核函數(shù)相關(guān)向量機(jī)的體育成績預(yù)測(cè)模型,并通過多個(gè)預(yù)測(cè)實(shí)例對(duì)模型的性能進(jìn)行綜合測(cè)試與分析。
設(shè)收集到的體育成績組成一個(gè)序列{y1,y2,…,yn},由于當(dāng)前體育成績yi與其影響因子有關(guān),它們之間存在一定的非線性變化關(guān)系,即有:
式中,d為輸入向量的嵌入維數(shù),其通過主成分分析進(jìn)行選擇;f()為非線性映射函數(shù)。
對(duì)式(1)進(jìn)行分析可知,在體育成績建模過程中,非線性映射函數(shù)f()的擬合是關(guān)鍵,當(dāng)前擬合該函數(shù)的算法相當(dāng)多,本文采用相關(guān)向量機(jī)進(jìn)行逼近非線性映射函數(shù)f(),建立體育成績預(yù)測(cè)模型。
式中,ωi為噪聲。
可以通過核函數(shù)K(x,xi)的線性組合形式描述相關(guān)向量機(jī),即
其中,w=[w0,w1,…,wN]T為權(quán)值向量。
相關(guān)向量機(jī)的概率模型可以描述為:
引入一個(gè)超參數(shù)β,將整個(gè)訓(xùn)練樣本數(shù)據(jù)組的似然函數(shù)表示為:
其中t=[t0,t1,…,tN]T,φ∈RN×(N+1)為設(shè)計(jì)矩陣。
將wj的先驗(yàn)分布定義為滿足0為均值,為方差的高斯分布,表示為:
其中,a=[a0,a1,…,aN]T為超參數(shù)。
利用式(4)和(5),根據(jù)貝葉斯公式即可得到w后驗(yàn)分布的數(shù)學(xué)表達(dá)式:
式中,p(w|a)與p(t|w,β)皆為高斯分布。
p(t|a,β)中不含有w,則可將其看作一個(gè)系數(shù),因此可寫為:
式中,∑是協(xié)方差矩陣,μ是均值向量,它們分別為:
其中,A=diag(a0,a1,…,aN)。
w的后驗(yàn)分布就必須對(duì)β和aj進(jìn)行優(yōu)化,可得到aj和β的計(jì)算公式:
其中,μj為μ的第j個(gè)元素,∑jj是矩陣∑的第j個(gè)對(duì)角元。
重復(fù)上述步驟進(jìn)行相向量機(jī)訓(xùn)練,同時(shí)更新∑和μ,直到達(dá)到最大迭代次數(shù),對(duì)于新輸入的一組數(shù)據(jù)x*,其對(duì)應(yīng)的輸出為t*。
在相關(guān)向量的體育成績建模與預(yù)測(cè)過程,首先要解決的一個(gè)問題就是核函數(shù)的選擇。由于任何函數(shù)均可以作為相關(guān)向量機(jī)的核函數(shù),然而不同核函數(shù)可以建模不同類別和性能的相關(guān)向量,目前核函數(shù)眾多,不同核函數(shù)均有各自的優(yōu)缺點(diǎn),當(dāng)前相向量機(jī)的核函數(shù)主要為多項(xiàng)式和徑向基核函數(shù),它們分別定義如下:
多項(xiàng)式核函數(shù)泛化能力比較強(qiáng),但學(xué)習(xí)能力差,徑向基核函數(shù)剛好相反,學(xué)習(xí)能力強(qiáng),泛化能力差,利用兩者的優(yōu)勢(shì),構(gòu)造一種組合核函數(shù),具體形式如下:
式中,ρ1和ρ2為兩個(gè)函數(shù)權(quán)重。
(1)首先進(jìn)行體育成績歷史樣本收集,并采用主成分分析選擇輸入向量,建立將體育成績的訓(xùn)練集和測(cè)試集,然后根據(jù)式(17)對(duì)它們進(jìn)行歸一化處理。
式中,xmin和xmax分別為最小和最大值函數(shù)。
(2)分別令ρ1=1,ρ2=0和ρ1=0,ρ2=1計(jì)算多項(xiàng)式核函數(shù)和徑向基核函數(shù)最優(yōu)核參數(shù)。
(3)根據(jù)多項(xiàng)式核函數(shù)和徑向基核函數(shù)最優(yōu)核參數(shù),采用粒子群算法對(duì)最優(yōu)ρ1和ρ2的值進(jìn)行確定。
(4)根據(jù)最優(yōu)組合核函數(shù)參數(shù),采用訓(xùn)練集對(duì)組合核函相關(guān)向量機(jī)進(jìn)行訓(xùn)練,建立基于組合核函數(shù)的相關(guān)向量成績成體預(yù)測(cè)模型模型,并對(duì)測(cè)試集進(jìn)行預(yù)測(cè),輸出體育成績的預(yù)測(cè)結(jié)果。
綜合上述可知,基于組合核函數(shù)相關(guān)向量機(jī)的體育成績預(yù)測(cè)模型工作流程如圖1所示。
圖1 體育成績的組合核函數(shù)相關(guān)向量機(jī)的工作流程
本文數(shù)據(jù)采用中南財(cái)經(jīng)政法大學(xué)的1000個(gè)學(xué)生(女生)立定跳遠(yuǎn)成績(y),影響因子為:身高(x1:cm)、體重(x2:kg)、肺活量(x3:ml)、50米跑(x4:s)、坐位體前屈(x5:cm)、800米跑(x6:s)、一分鐘仰臥起坐(x7:次),部分?jǐn)?shù)據(jù)見表1所示。
表1 立定跳遠(yuǎn)成績與其影響因子的值
表1中的身高、體重、肺活量、50米跑、坐位體前屈、800米跑、一分鐘仰臥起坐之間影響,而且存在一定的重復(fù)消息,因此對(duì)它們進(jìn)行主成分分析,影響因子的相關(guān)系數(shù)如表2所示,主成分方差累計(jì)貢獻(xiàn)率如圖2所示,從圖2可知,前4個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到90%以上,因此可以選擇這4個(gè)主成分作為立定跳遠(yuǎn)成績預(yù)測(cè)模型的輸入向量,從而建立立定跳遠(yuǎn)成績的學(xué)習(xí)樣本。
表2 影響因子的相關(guān)系數(shù)分析結(jié)果
圖2 體育成績的主成分方差累計(jì)貢獻(xiàn)率
3.3.1 組合核函數(shù)相關(guān)向量機(jī)的預(yù)測(cè)性能分析
隨機(jī)選擇900個(gè)樣本組成立定跳遠(yuǎn)成績的訓(xùn)練集,對(duì)組合核函數(shù)相關(guān)向量機(jī)進(jìn)行訓(xùn)練,并采用對(duì)粒子群算法確定最優(yōu)的ρ1=0.45,ρ2=0.55,建立立定跳遠(yuǎn)成績的預(yù)測(cè)模型,然后對(duì)100個(gè)立定跳遠(yuǎn)成績測(cè)試樣本進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果與預(yù)測(cè)偏差變化曲線如圖3和圖4所示,從圖3可知,立定跳遠(yuǎn)成績的預(yù)測(cè)值與實(shí)際值變化趨勢(shì)十分相似,組合核函數(shù)相關(guān)向量機(jī)得到了十分理想的立定跳遠(yuǎn)成績結(jié)果,同時(shí)從圖4可知,立定跳遠(yuǎn)成績的預(yù)測(cè)值與實(shí)際值之間的偏差比較小,而且預(yù)測(cè)偏差變化幅度也比較小,實(shí)驗(yàn)結(jié)果表明,本文將組合核函數(shù)相關(guān)向量機(jī)引入到立定跳遠(yuǎn)成績預(yù)測(cè)中是可行的、有效的。
圖3 組合核函數(shù)相關(guān)向量機(jī)的預(yù)測(cè)值與實(shí)際值擬合曲線
圖4 組合核函數(shù)相關(guān)向量機(jī)的預(yù)測(cè)偏差變化曲線
3.3.2 與其它體育預(yù)測(cè)模型的性能對(duì)比
為了使組合核函數(shù)相關(guān)向量機(jī)的預(yù)測(cè)結(jié)果更具有說服力,選擇自回歸求和滑動(dòng)平均、組合核函數(shù)支持向量機(jī)、RBF神經(jīng)網(wǎng)絡(luò)作為對(duì)比模型,并采用采用均方根誤差(RMSE)和平均相對(duì)百分比誤差(MPAE)進(jìn)行衡量,它們定義為:
式中,n表示樣本數(shù)。
自回歸求和滑動(dòng)平均、支持向量機(jī)、RBF神經(jīng)網(wǎng)絡(luò)和組合核函數(shù)相關(guān)向量機(jī)的RMSE、MAPE的值如表3所示。從表3知:
(1)ARIMA預(yù)測(cè)結(jié)果的RMSE、MAPE值均較大,這主要是由于ARMA假設(shè)立定跳遠(yuǎn)成績是一種規(guī)律性的變化趨勢(shì),難以描述立定跳遠(yuǎn)成績中的非線性變化趨勢(shì),導(dǎo)致預(yù)測(cè)的誤差較大。
(2)RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的RMSE、MAPE值也比較大,主要是由于RBF神經(jīng)網(wǎng)絡(luò)是一種基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的學(xué)習(xí)算法,易出現(xiàn)“過擬合”、“欠學(xué)習(xí)”缺陷,不能有效建立準(zhǔn)確描述立定跳遠(yuǎn)成績變化特點(diǎn)的預(yù)測(cè)模型,而且預(yù)測(cè)結(jié)果極不穩(wěn)定,有時(shí)偏差超過立定跳遠(yuǎn)成績的實(shí)際應(yīng)用要求。
(3)組合核函數(shù)支持向量機(jī)和組合核函數(shù)相關(guān)向量機(jī)預(yù)測(cè)結(jié)果的RMSE、MAPE相對(duì)較小,主要是由于它們均是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則建模,較好的擬合了立定跳遠(yuǎn)成績的變化特點(diǎn),提高了立定跳遠(yuǎn)成績的預(yù)測(cè)精度,預(yù)測(cè)結(jié)果更加理想,但是和組合核函數(shù)相關(guān)向量機(jī)預(yù)測(cè)性能要優(yōu)于支持向量機(jī),而且克服支持向量機(jī)的學(xué)習(xí)速度慢的缺陷,提高體育成績的建模效率。
表3 不同模型的立定跳遠(yuǎn)成績預(yù)測(cè)誤差對(duì)比
3.3.3 組合核函數(shù)相關(guān)向量機(jī)的通用性測(cè)試
選擇學(xué)生的50米跑成績、(女生)800米跑成績、(男生)1000米跑成績、(女生)一分鐘仰臥起坐成績進(jìn)行通用性測(cè)試,組合核函數(shù)相關(guān)向量機(jī)預(yù)測(cè)結(jié)果的RMSE、MAPE如表4所示。從表4可知,對(duì)于所有的體育成績,組合核函數(shù)相關(guān)向量機(jī)預(yù)測(cè)的RMSE均比較小,而且MAPE的值控制在了5%以內(nèi),可以滿足體育成績實(shí)際應(yīng)用要求。
表4 組合核函數(shù)相關(guān)向量機(jī)的不同體育成績預(yù)測(cè)誤差
為了對(duì)體育成績進(jìn)行準(zhǔn)確預(yù)測(cè),避免單一核函數(shù)的不足,建立了一種基于組合核函數(shù)相關(guān)向量機(jī)的體育成績預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果表明,組合核函數(shù)相關(guān)向量機(jī)不僅獲得了較好的體育預(yù)測(cè)精度,而且具有優(yōu)良的通用性,為體育成績預(yù)測(cè)提供了一種建模工具。
[1] 趙波.十項(xiàng)全能世界頂尖男子運(yùn)動(dòng)員成績分析及預(yù)測(cè)研究[J].體育文化導(dǎo)刊,2013,3(3).
[2] 鄧美蘭等.奧運(yùn)會(huì)男子十項(xiàng)全能前三名成績的灰色預(yù)測(cè)模型的研究[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2009,(18).
[3] 孫群,劉國璧,程偉等.基于模糊神經(jīng)網(wǎng)絡(luò)的劉翔110m欄成績預(yù)測(cè)[J].重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,10(2).
[4] 龍斌.基于支持向量機(jī)的劉翔110m欄成績預(yù)測(cè)[J].天津體育學(xué)院學(xué)報(bào),2009,24(4).
[5] 李征宇,閆生.神經(jīng)網(wǎng)絡(luò)模型在運(yùn)動(dòng)成績預(yù)測(cè)中的應(yīng)用[J].哈爾濱體育學(xué)院學(xué)報(bào),2009,27(2).
[6] 馬登武,范庚,張繼軍.相關(guān)向量機(jī)及其在故障診斷與預(yù)測(cè)中的應(yīng)用[J].海軍航空工程學(xué)院學(xué)報(bào),2013,28(2).
[7] 楊柳,張磊,張少勛等.單核和多核相關(guān)向量機(jī)的比較研究[J].計(jì)算機(jī)工程,2010,36(12).