全濤
足球在《運動訓(xùn)練學(xué)》項群訓(xùn)練理論中屬于技能主導(dǎo)類同場對抗性運動項目,其評定方法屬于命中類項目[1],進(jìn)球的結(jié)果直接影響著比賽成績的好壞[2]。在現(xiàn)代足球的發(fā)展歷史上,歐洲足球五大聯(lián)賽代表世界足壇的頂尖水平,引領(lǐng)世界足球運動的發(fā)展方向。進(jìn)球的特征和規(guī)律,從一定程度上體現(xiàn)職業(yè)聯(lián)賽足球技戰(zhàn)術(shù)打法體系的形成與革新,同時反映國家地區(qū)的足球水平和民族精神的文化特色。
近些年,統(tǒng)計學(xué)方法在足球相關(guān)研究中的運用逐漸增多,從簡單的計量統(tǒng)計,到卡方檢驗、t檢驗,再到復(fù)雜的回歸分析、因子分析[3]。時間序列分析是數(shù)理統(tǒng)計中的一個重要分支,主要通過隨機過程理論和數(shù)理統(tǒng)計方法來揭示數(shù)據(jù)的特點和規(guī)律,構(gòu)建不同的模型和未來預(yù)測,以解決社會生活中的實際問題。通過中國知網(wǎng)關(guān)于“時間序列分析”的計量可視化分析結(jié)果表明:(1)發(fā)文量在近20年出現(xiàn)逐年遞增的趨勢,并在近10年保持穩(wěn)定的狀態(tài);(2)主題分布在時間序列、數(shù)學(xué)模型、ARIMA模型、實證分析、小波分析等;(3)學(xué)科分類主要集中在數(shù)量經(jīng)濟(jì)、數(shù)學(xué)、金融、計算機、地球物理、測繪、環(huán)境、臨床醫(yī)學(xué)、公共衛(wèi)生與預(yù)防醫(yī)學(xué)、國民經(jīng)濟(jì)、控制工程、大氣、交通運輸、區(qū)域經(jīng)濟(jì)與農(nóng)業(yè)經(jīng)濟(jì)上??傊?,時間序列分析已經(jīng)廣泛運用于各個領(lǐng)域,吳懷宇認(rèn)為它在經(jīng)濟(jì)領(lǐng)域的研究和應(yīng)用一直很活躍,并擴(kuò)展到社會、氣象、水利、交通、信息、農(nóng)業(yè)、工業(yè)、教育等領(lǐng)域[4]。張美英和何杰強調(diào)時間序列的研究在理論及應(yīng)用中都取得了極其豐碩的成果,但還有待于完善其理論及開辟新的應(yīng)用領(lǐng)域,對于實際數(shù)據(jù)來說,沒有最好的模型,只有最適合的模型,新時間序列模型的建立仍然是今后學(xué)者要繼續(xù)研究的問題[5]。在體育方面,張小龍從理論的角度討論了其可行性,通過實例分析進(jìn)一步證實了在體育中應(yīng)用時間序列分析的優(yōu)越性[6];任波和戴俊通過時間序列計量分析我國城鄉(xiāng)居民消費支出與體育產(chǎn)業(yè)發(fā)展的互動關(guān)系[7];辛馳和趙雪晴通過SAS和E-view對NBA球員林書豪進(jìn)行了實例分析,建立時間序列模型并定量評價[8];陳頗等人先后運用了時間序列分析方法,研究中國體育事業(yè)財政投入與經(jīng)濟(jì)增長的關(guān)系[9-10]。總之,時間序列分析具有足球賽事數(shù)據(jù)研究的可行性,既可以通過數(shù)據(jù)直觀分析其特點,又可以豐富足球運動訓(xùn)練理論體系。
本文按照時間序列分析的方法對歐洲足球五大聯(lián)賽進(jìn)行多項賽事的模型構(gòu)建與趨勢預(yù)測,客觀探索高水平足球比賽進(jìn)球的特點和規(guī)律。
歐洲足球五大聯(lián)賽2000—2001賽季至2016—2017賽季的場均進(jìn)球。
1.2.1 文獻(xiàn)資料法
通過電子資源數(shù)據(jù)庫查閱了有關(guān)時間序列分析、足球比賽進(jìn)球分析的論文30余篇,閱讀學(xué)習(xí)了《時間序列數(shù)據(jù)分析》《世界優(yōu)秀統(tǒng)計工具SPSS-高級篇》《應(yīng)用統(tǒng)計學(xué)》相關(guān)教程與學(xué)術(shù)著作[11-15],并在足球數(shù)據(jù)庫網(wǎng)站上查找了關(guān)于歐洲足球五大聯(lián)賽進(jìn)球的數(shù)據(jù)統(tǒng)計與評論文章。
1.2.2 數(shù)理統(tǒng)計法
通過500彩票網(wǎng)[16]和足球之夜數(shù)據(jù)庫[17]收集了歐洲足球五大聯(lián)賽2000—2001賽季至2016—2017賽季共17年的年場均進(jìn)球數(shù)據(jù),并逐一核對,確定原始數(shù)據(jù)庫。利用SPSS22.0軟件在計算機上對數(shù)據(jù)進(jìn)行了時間序列分析,構(gòu)建歐洲五大聯(lián)賽的進(jìn)球ARIMA模型并預(yù)測。
1.2.3 對比分析法
在數(shù)理統(tǒng)計的基礎(chǔ)上,利用比較分析、邏輯歸納等對歐洲五大聯(lián)賽的進(jìn)球特征進(jìn)行分析。
首先把數(shù)據(jù)錄入到SPSS中(見圖1),共有1個字符串型“賽季”、5個數(shù)值型“進(jìn)球”變量,其中數(shù)值保留兩位小數(shù)。
圖1 歐洲五大聯(lián)賽進(jìn)球數(shù)據(jù)集(2000/2001—2016/2017)Figure 1 Goal Data of the Big Five European Football Leagues(2000/2001-2016/2017)
由于歐洲足球五大聯(lián)賽受到地中海氣候或海洋性氣候的影響,賽制實行跨年度舉行,如“2001—2002賽季意大利足球甲級聯(lián)賽”這一稱謂,因此軟件系統(tǒng)或者分析中的“2000年”等同于“2000—2001賽季”,其他依次類推。
2.1.1 離群點的檢驗
離群點是指一個時間序列中,遠(yuǎn)離序列一般水平的極端大值和極端小值。而形成離群點的系統(tǒng)外部干擾是多種多樣的,可能是采樣中的誤差,也可能是被研究現(xiàn)象本身由于受各種偶然非正常的因素影響而引起的[18]。為此,運用SPSS對五大聯(lián)賽17個賽季的場均進(jìn)球進(jìn)行了探索性分析,用箱圖檢驗離群點,以便提高構(gòu)建模型的準(zhǔn)確性(圖2)。
圖2 進(jìn)球數(shù)據(jù)箱圖Figure 2 Goal Data Boxplot
從圖2可以看出,法甲、英超不存在離群點,德甲、西甲、意甲存在離群點現(xiàn)象。由圖1數(shù)據(jù)對應(yīng)后得到:德甲 2013年數(shù)值 3.16,西甲 2005、2006年數(shù)值2.47、2.48和 2016年數(shù)值 2.94,意甲 2016年數(shù)值2.96,共計5個數(shù)值存在不同程度的離群。
2.1.2 平穩(wěn)性的判定
時間序列分析的前提條件是數(shù)據(jù)必須具有平穩(wěn)性特征,在統(tǒng)計學(xué)上可以運用序列圖觀察和自相關(guān)、偏相關(guān)分析圖判定時間序列平穩(wěn)性[19]。為判斷該數(shù)據(jù)是否平穩(wěn),原始數(shù)據(jù)的序列圖包含5個變量。
從圖3可以看出,從2001—2002賽季開始不同程度的出現(xiàn)下滑現(xiàn)象,2005—2006賽季逐漸回升,在2009—2010賽季開始處于2~3年的平穩(wěn)狀態(tài),之后隨著球員轉(zhuǎn)會自由市場和足球商業(yè)化的日益發(fā)展,五大聯(lián)賽進(jìn)球?qū)Ρ热找婵s小。
圖3 歐洲足球五大聯(lián)賽進(jìn)球序列圖Figure 3 Goal Sequence Diagram of the Big Five European Football Leagues
2.2.1 序列圖
從原始序列圖(3)來看,場均進(jìn)球數(shù)隨著時間的推移在起初下降后逐步上升,該序列線性特征明顯?,F(xiàn)對五大聯(lián)賽的原始數(shù)據(jù)進(jìn)行1階差分,序列圖(4)圍繞均線上下波動,狀態(tài)基本平穩(wěn),差分效果良好。
圖4 歐洲足球五大聯(lián)賽原始數(shù)據(jù)與1階差分序列對比圖Figure 4 Comparison of the Raw Data and 1st Order Difference Sequence in the Big Five European Football Leagues
2.2.2 自相關(guān)與偏自相關(guān)分析
為了更好地把握五大聯(lián)賽進(jìn)球特點,通過自相關(guān)系數(shù)(ACF)、偏自相關(guān)系數(shù)(PACF)分析圖進(jìn)一步識別模型和目標(biāo)序列定階。運用SPSS對數(shù)據(jù)進(jìn)行了自相關(guān)分析,輸出結(jié)果如圖5。
圖5 歐洲足球五大聯(lián)賽進(jìn)球自相關(guān)與偏自相關(guān)分析圖(0,1)Figure5 Analysis of Autocorrelation and Partial Autocorrelation of Goals in the Big Five European Football Leagues(0,1)
總體上隨著延遲數(shù)目的增加,自相關(guān)系數(shù)并沒有顯著的趨近于0,且有近一半數(shù)值落在了置信區(qū)間之外,同時,偏自相關(guān)系數(shù)也逐漸減弱,說明該時間序列并非平穩(wěn)。為了更好確認(rèn)數(shù)據(jù)的平穩(wěn)性,對原始數(shù)據(jù)進(jìn)行1階差分處理,得到自相關(guān)系數(shù)、偏自相關(guān)系數(shù)大多數(shù)進(jìn)入置信區(qū)間。
2.2.3 假設(shè)檢驗
假設(shè) H0:原始時間序列 Xi平穩(wěn),H1:序列 Xi不平穩(wěn);采用顯著性格水平α=0.05進(jìn)行檢驗。從表1來看,原始數(shù)據(jù)P<0.01,具有很強的顯著性差異,則拒絕H0假設(shè)接受H1假設(shè),證明該數(shù)列不平穩(wěn);進(jìn)行1階差分后,P>0.05,相反則接受H0假設(shè)判定該數(shù)列為平穩(wěn)序列,且數(shù)值逐漸增大總體態(tài)勢為上升,與序列圖的分析一致。
這里只列出法國足球聯(lián)賽自相關(guān)和偏相關(guān)函數(shù)的Box-Ljung統(tǒng)計量情況,其他聯(lián)賽可以采用類似的方法確定其初步模型。
2.2.4 p,q取值
Box-Jenkins方法是根據(jù)時間序列模型ACF和PACF圖的識別規(guī)則,建立相應(yīng)的ARIMA模型[20]。序列ACF、PACF性質(zhì)及其與模型參數(shù)之間的關(guān)系[21],整理如表2。
依據(jù)函數(shù)特征表的識別規(guī)則,對五大聯(lián)賽ACF、PACF函數(shù)分析圖進(jìn)行了詳細(xì)分析,統(tǒng)計了1階差分后的ACF和PACF落在置信區(qū)外、內(nèi)的數(shù)量,并對非常接近的特殊分布作了不確定、可能認(rèn)定,用來初步識別模型,分布和模型情況。
由表3得到初步模型,其中德甲為ARIMA(0,1,3)或 ARIMA(2,1,3),法甲為 ARIMA(0,1,0)或ARIMA (0,1,1),西 甲 為 ARIMA(1,1,2)或 ARIMA(1,1,3),意甲為 ARIMA(0,1,1)或 ARIMA(0,1,2),英超為 ARIMA(1,1,1)或 ARIMA(1,1,2)。 值得注意的是,在這個過程中,充分考慮了離群點(值)的影響,運用加權(quán)的方法將特定的時間點作為離群值來建模。
表1 法甲進(jìn)球自相關(guān)和偏相關(guān)函數(shù)對比表(原始與1階差分)TableⅠComparison of the Autocorrelation and Partial Correlation Functions of the French Armor Goals(Raw and 1st Order Difference)
表2 零均值平穩(wěn)序列的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)特征表Table II Characteristics of Autocorrelation Function and Partial Autocorrelation Function of Zero-mean Stationary Series
表3 歐洲五大聯(lián)賽進(jìn)球ACF、PACF分布和p,d,q取值一覽表(1階)Table III List of ACF,PACF Distribution and p,d,q Values of Goals in the Big Five European Football Leagues(1st Order)
運用SPSS22.0軟件計算,得到五大聯(lián)賽的模型結(jié)果分析見表4。
模型的適用性檢驗按白噪音獨立性檢驗準(zhǔn)則,其基本思想是:若由估計模型擬合的殘差純粹由干擾產(chǎn)生,則該模型是適用的,可用于外推預(yù)測;否則,估計模型不合適[22]。為此,對進(jìn)球殘差自相關(guān)和偏相關(guān)進(jìn)行了檢驗,結(jié)果如圖6。
通過建立ARIMA模型對歐洲足球各大聯(lián)賽的均進(jìn)球數(shù)據(jù)進(jìn)行擬合,并對2017-2020賽季的進(jìn)球數(shù)值進(jìn)行了結(jié)果預(yù)測,形成模型擬合及預(yù)測圖(圖7)。
同時,根據(jù)命令輸出了2017—2020年的預(yù)測值、UCL、LCL值詳見表5,以供參考。
表4 歐洲足球五大聯(lián)賽進(jìn)球模型參數(shù)表(d=1)Table IV Goal Model Parameter Table of the Big Five European Football Leagues(d=1)
圖6 歐洲足球五大聯(lián)賽進(jìn)球殘差自相關(guān)和偏相關(guān)檢驗圖Figure 6 Autocorrelation and Partial Correlation Test Card of Goal Scores in the Big Five European Football Leagues
圖7 歐洲足球五大聯(lián)賽進(jìn)球模型及預(yù)測圖(2017—2020)Figure 7 Predicted Value of the Goal Model of the Big Five European Football Leagues(2017-2020)
注:對于每個模型,預(yù)測都在請求的預(yù)測時間段范圍內(nèi)的最后一個非缺失值之后開始,在所有預(yù)測值的非缺失值都可用的最后一個時間段或請求預(yù)測時間段的結(jié)束日期(以較早者為準(zhǔn))結(jié)束
在體育運動項目的模型構(gòu)建過程中,原始數(shù)據(jù)本身具有隨機性,非穩(wěn)定性特征比較常見,這就需要采用合適的方法進(jìn)行序列分析,以保證研究結(jié)果的正確性。前期對離群點的分析和平穩(wěn)性的判定非常重要,否則會直接影響模型的擬合精度,得到一些虛假的信息,對后續(xù)的時間序列分析會造成一定影響。
對“五個離群點”的進(jìn)一步分析發(fā)現(xiàn):德甲2013年場均3.16個進(jìn)球,說明德甲保持較高的場均進(jìn)球,一直是崇尚進(jìn)攻的聯(lián)賽。西甲2005和2006年出現(xiàn)的2.47、2.48兩個最低的進(jìn)球數(shù)值,原因在于那個時期西甲球員出現(xiàn)新老交替,進(jìn)攻能力下降;意甲2016年的場均進(jìn)球為2.96,這與意甲改變傳統(tǒng)保守的技戰(zhàn)術(shù)打法有關(guān)。另一方面,從進(jìn)球序列圖的走勢來看,表現(xiàn)出單一賽事不同時期的波動性和不同賽事之間的橫向差異性特征。五大聯(lián)賽場均進(jìn)球的數(shù)據(jù)隨著時間的推移上下波動,并有上升的趨勢。在作時間序列分析時,首先初步判斷該序列的穩(wěn)定性特征,如果不穩(wěn)定需要對數(shù)據(jù)進(jìn)行自相關(guān)函數(shù)、偏相關(guān)函數(shù)、特征根的檢驗,采取1階或2階差分處理,直至數(shù)據(jù)平穩(wěn),才能繼續(xù)進(jìn)行模型的識別,以期構(gòu)建合理的模型和預(yù)測,探索歐洲足球五大聯(lián)賽的進(jìn)球特點和規(guī)律。路云亭把第五種足球描述為“盛傳于世界各地且?guī)в斜久褡逦幕瘋鹘y(tǒng)意味的多元化的足球”[23],筆者認(rèn)為歐洲五大聯(lián)賽具備不同的差異,反映著一個國家的民族精神和區(qū)域文化特色。如法甲最講究“思想性”與“公平性”,其競爭力有待于提升;意甲受到經(jīng)濟(jì)的影響較大,表現(xiàn)出傳統(tǒng)保守的特點;英超的商業(yè)化最為成熟,比賽更加注重身體對抗、比賽節(jié)奏較快,觀賞性高;西甲聯(lián)賽注重技術(shù)與進(jìn)攻,具有很強的觀賞性;德甲的民族特點突出,注重整體配合。
由于足球比賽中的場均進(jìn)球序列不存在季節(jié)性周期趨勢,這里的模型識別沒有考慮季節(jié)問題。在模型識別時,則是通過序列圖和自相關(guān)與偏相關(guān)的1階差分處理,為的是保證數(shù)據(jù)的平穩(wěn)性,使ACF和PACF進(jìn)入95%的置信區(qū)間,進(jìn)一步確定d=1,同時為下一步的參數(shù)估計做好準(zhǔn)備。
在這里需借助于自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)以及其相關(guān)分析圖來識別時序特性,如法甲(表1)運用BOX-JENKINS預(yù)測法假設(shè)檢驗,采用顯著性格水平0.05進(jìn)行1階的前后對比檢驗,統(tǒng)計量由小于0.01到大于0.05,表明效果良好,證明這一方法的可行性。在確定p,q值時,需根據(jù)自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)圖的拖尾、截尾兩個特征,內(nèi)外部的分布情況,參數(shù)之間的關(guān)系3個方面,初步建立相應(yīng)的ARIMA模型。運用SPSS軟件的“分析—預(yù)測—創(chuàng)建模型”命令,自動輸出的統(tǒng)計量和相關(guān)信息,包括平穩(wěn)的(R方)、離群值、參數(shù)估計、SE、t、Sig。 主要是通過比較平穩(wěn)的 (R 方)、P值、觀測值和擬合值的曲線擬合度情況,來確定各大聯(lián)賽的最終進(jìn)球模型。分析如下:德甲:平穩(wěn)R方分別為 0.715和 0.707,P值分別為 0.966和 0.866,第一個模型的兩項數(shù)值比第二模型高,所以模型定為ARIMA (0,1,3)。法甲:兩個模型的常數(shù)估計值為0.008和 0.010,P值分別為 0.605和 0.776,ARIMA(0,1,0)擬合度高于 ARIMA(0,1,1),加上 R 方相差不大,取 P值為 0.776,模型確定為 ARIMA(0,1,0)。西甲:因ARIMA(0,1,2)迭代在優(yōu)化期間不收斂,可能不可靠數(shù)據(jù)放棄。另兩個模型的平穩(wěn)R方分別為0.404和0.362,P值分別為0.474和0.696,結(jié)合模型的擬合情況確定為ARIMA (1,1,3)。同樣的方法推斷意甲模型為 ARIMA(0,1,2),英超模型為ARIMA(1,1,2)。
通過自相關(guān)和偏相關(guān)的殘差檢驗表明,數(shù)值都落在95%置信區(qū)間內(nèi),與0無顯著差異,模型的檢驗效果比較好,所以殘差通過白噪聲檢驗,由此診斷模型是可行的,可用于短期預(yù)測。
從預(yù)測圖(圖7)左側(cè)可以看出,進(jìn)球序列上整體上成波動狀態(tài),擬合值和觀測值曲線在整個區(qū)間整體上擬合情況良好,擬合值的波動非常接近實際觀察值波動性。從參考線右側(cè)預(yù)測了2017—2020賽季的場均進(jìn)球態(tài)勢,其中德甲趨于緩慢下降,法甲繼續(xù)穩(wěn)步上升,西甲處于上下波動、上升趨勢,意甲趨于穩(wěn)定,英超則呈上下波動、下降趨勢。當(dāng)然,這只是單純數(shù)據(jù)的預(yù)測,不排除有其他特殊因素的影響,在前期“進(jìn)球數(shù)量穩(wěn)定特征”[24]的研究結(jié)論有所論述,即在常態(tài)下,場均進(jìn)球應(yīng)該是一個比較平穩(wěn)的狀態(tài),不會有很大的波動,當(dāng)然不排除特殊情境(爭冠、降級、出線等)的影響??傊捎谧闱蜻\動是攻守平衡的一項同場對抗項目,進(jìn)球總體上應(yīng)該趨于穩(wěn)定狀態(tài),介于 2.5~3.0之間。
4.1足球在 《運動訓(xùn)練》學(xué)具有技能和命中的雙重屬性,決定了進(jìn)球是多種技戰(zhàn)術(shù)相互作用的結(jié)果,在現(xiàn)有足球規(guī)則倡導(dǎo)進(jìn)攻的條件下,場均進(jìn)球較少,有穩(wěn)定增加的態(tài)勢,這符合足球競技體育項目的發(fā)展規(guī)律。
4.2歐洲五大聯(lián)賽的進(jìn)球特征表現(xiàn)出單一賽事不同時期的波動性和不同賽事之間的橫向差異性。波動性主要是隨著時間的推移上下波動,并有上升的趨勢;差異性反映不同國家的民族精神和區(qū)域文化特色,從進(jìn)球曲線表現(xiàn)上,依次為:德甲、西甲、英超、意甲、法甲。
4.3在建模的過程中,要充分考慮離群值、數(shù)據(jù)平穩(wěn)性問題,嚴(yán)格按照時間序列分析的相關(guān)分析、假設(shè)檢驗、p與q取值等步驟建模。歐洲五大聯(lián)賽的模型是德甲為 ARIMA(0,1,3),法甲為 ARIMA(0,1,0),西甲為 ARIMA(1,1,3),意甲為 ARIMA(0,1,2),英超為 ARIMA(1,1,2)。
4.4通過模型的構(gòu)建可用于短期預(yù)測,進(jìn)球序列上整體上成波動狀態(tài),擬合值和觀測值曲線在整個區(qū)間整體上擬合情況良好。