賴琮霖,李力卡,張慧嫦
(中國電信股份有限公司廣東研究院,廣東 廣州 510630)
每屆世界杯前夕,對(duì)世界杯球隊(duì)實(shí)力的評(píng)估與預(yù)測始終是一個(gè)熱門的話題。影響比賽勝負(fù)的因素有很多,除了天時(shí)地利人和以及賽場上存在一定的偶然成分之外,球隊(duì)實(shí)力是決定比賽結(jié)果的一項(xiàng)很重要的因素[1-2]。按照慣例,國際足聯(lián)和一些官方網(wǎng)站會(huì)在每場比賽后發(fā)布球隊(duì)的一些相關(guān)數(shù)據(jù)(比如:進(jìn)球數(shù)、控球率、傳球數(shù)、搶斷數(shù)等),這些數(shù)據(jù)可以全面、有效、客觀地對(duì)球隊(duì)實(shí)力進(jìn)行評(píng)估,稱之為足球技戰(zhàn)術(shù)表現(xiàn)分析評(píng)價(jià)[1,3-6],其定義為“運(yùn)用技術(shù)統(tǒng)計(jì)數(shù)據(jù)反映比賽各方面、各環(huán)節(jié)、各部分間的數(shù)量關(guān)系和特征的研究方法”[3]。它存在著一套信息反饋機(jī)制,通過建立比賽技戰(zhàn)術(shù)指標(biāo)與比賽結(jié)果間的因果關(guān)系,更好地幫助教練員和球隊(duì)做下階段的調(diào)整、訓(xùn)練與應(yīng)戰(zhàn)。這使得足球技戰(zhàn)術(shù)分析從描述性向著探索指導(dǎo)方向轉(zhuǎn)變[3]。
當(dāng)前信息技術(shù)已可以對(duì)賽場上球隊(duì)表現(xiàn)做及時(shí)準(zhǔn)確地捕捉,數(shù)據(jù)的采集已經(jīng)不是一項(xiàng)技術(shù)難題。OPTA作為一個(gè)成熟的體育數(shù)據(jù)提供商,其數(shù)據(jù)搜集系統(tǒng)采集的結(jié)果能達(dá)到與實(shí)際比賽數(shù)據(jù)高度一致[4],取代了原先的人工描述性統(tǒng)計(jì)[5],它使得足球比賽進(jìn)入了“大數(shù)據(jù)”時(shí)代。數(shù)據(jù)是客觀、可量化、可分析整理的,而可量化的指標(biāo)是利用數(shù)學(xué)模型進(jìn)行球隊(duì)分析的必要前提,其完整性和正確性是模型有效性的重要保證。但目前,如何利用好數(shù)據(jù)去評(píng)價(jià)球隊(duì)實(shí)力的有效方法還相對(duì)欠缺[2,4]。已有研究指出足球大數(shù)據(jù)挖掘未來的方向可分為4個(gè)層次,分別為描述性和對(duì)比性分析、診斷性分析、預(yù)測性分析、治療性分析,除了最基本的表現(xiàn)分析,還能夠解釋現(xiàn)象發(fā)生原因、預(yù)測未來以及給出診斷建議,要如何達(dá)到這些目標(biāo),目前還處于探索階段[7]。主成分分析法作為一種多元統(tǒng)計(jì)的分析方法,它將一些相關(guān)性很高的變量轉(zhuǎn)化為彼此相互獨(dú)立或不相關(guān)的變量,通過提取相關(guān)度最高的少數(shù)指標(biāo)來解釋原始數(shù)據(jù),在指標(biāo)較多的情況下可有效起到數(shù)據(jù)降維的效果,方法已被廣泛應(yīng)用在工業(yè)生產(chǎn)、環(huán)境治理、政府決策等場景當(dāng)中[8-13]。聚類方法可對(duì)研究對(duì)象做預(yù)處理相似性評(píng)估,對(duì)事物有基本的概括總結(jié)與可行性檢驗(yàn)[9]。
本文基于2010、2014年世界杯的比賽技術(shù)指標(biāo)與歷屆比分結(jié)果建立模型,采用主成分分析法、聚類方法對(duì)各支球隊(duì)的實(shí)力進(jìn)行研究。主要解決以下2個(gè)問題:1)對(duì)2010年各國參加球隊(duì)的表現(xiàn)進(jìn)行相似性分析;2)評(píng)價(jià)各國球隊(duì)在2010年世界杯的實(shí)力,對(duì)32支球隊(duì)的綜合表現(xiàn)進(jìn)行綜合排名,并以此模型進(jìn)一步評(píng)價(jià)2014年世界杯32支球隊(duì)的實(shí)力,驗(yàn)證模型的有效性。
本文收集了2010年南非世界杯32支球隊(duì)的統(tǒng)計(jì)指標(biāo)共32項(xiàng),見表1;其球隊(duì)最終排名情況見表2;2014年巴西世界杯各球隊(duì)的相關(guān)統(tǒng)計(jì)指標(biāo)項(xiàng)見表3。
表2 南非世界杯球隊(duì)排名
表3 巴西世界杯小組賽的統(tǒng)計(jì)指標(biāo)
1)各球隊(duì)的綜合排名排除運(yùn)氣、球隊(duì)訓(xùn)練狀態(tài)、球員名氣、天氣、心理狀態(tài)、球場的熟悉程度、裁判判罰等因素帶來的影響,僅與其比賽統(tǒng)計(jì)指標(biāo)存在因果關(guān)系[14-15]。
2)各球隊(duì)的排名情況不考慮其比賽對(duì)陣流程順序。
相似性分析的目的在于檢驗(yàn)球隊(duì)實(shí)力的相關(guān)性,預(yù)處理判斷統(tǒng)計(jì)指標(biāo)是否能夠?qū)?2支球隊(duì)的實(shí)力進(jìn)行分類,為接下來的求解做可行性檢驗(yàn)。聚類分析是從數(shù)據(jù)分析的角度,給出一個(gè)定量評(píng)估分類方法[9]。
3.1.1 方法步驟
1)選出獨(dú)立性較強(qiáng)的統(tǒng)計(jì)指標(biāo)。
具有明顯較強(qiáng)相關(guān)的指標(biāo)會(huì)使結(jié)果具有傾向性。一般認(rèn)為技術(shù)實(shí)力好的球隊(duì)勢必會(huì)具有更多優(yōu)勢,而且比賽場次多的球隊(duì)其指標(biāo)更高,會(huì)使得結(jié)果自然傾斜,需予以剔除。
①去掉出場次數(shù)、勝平負(fù)場次數(shù)、積分影響。
②通過足球比賽規(guī)則可知,凈勝球=進(jìn)球數(shù)-失球數(shù),觸球數(shù)可計(jì)算出控球率,射門成功率=進(jìn)球數(shù)/射門數(shù),傳球成功率=成功傳球/傳球,成功長傳率=成功長傳/長傳數(shù),傳球≈前場傳球+后場傳球,越位數(shù)已算入了犯規(guī)數(shù)。因此,可剔除這些明顯相關(guān)的指標(biāo)。剩下的指標(biāo)有進(jìn)球數(shù)、控球率等17個(gè),如表1粗體所示。
③17個(gè)指標(biāo)需平等且地位相同,對(duì)它們做場均化和標(biāo)準(zhǔn)化處理后的分布情況如圖1所示,指標(biāo)基本分布在中位線附近,解決了因不同指標(biāo)范圍不等和量綱不同而造成無法有效評(píng)估的問題。
xij表示為第i支球隊(duì)的第j個(gè)場均化后的指標(biāo),之后按式(1)進(jìn)行標(biāo)準(zhǔn)化計(jì)算。
(1)
圖1 統(tǒng)計(jì)指標(biāo)標(biāo)準(zhǔn)化后的分布情況
2)計(jì)算出32個(gè)樣本點(diǎn)兩兩間的距離矩陣D=(dij)32×32。
距離的定義有歐氏距離、標(biāo)準(zhǔn)歐氏距離、馬氏距離、絕對(duì)值距離與閔氏距離5種。本文選用絕對(duì)值距離,即:
(2)
3)生成聚類。
初始構(gòu)造32個(gè)類G,并且根據(jù)每2個(gè)類之間的距離定位聚類圖的平臺(tái)高度。合并距離最近的2個(gè)類Gs、Gt為新的類,并且把這2類距離作為聚類圖的新平臺(tái)高度。以此不斷迭代,直到把所有類合并完為止。
距離合并的原則可按照最短、最長、平均距離、重心距離、離差平方和方法這5種,本文采用平均距離方法。即每2類間的平均距離為:
(3)
其中,ns、nt為Gs、Gt類中樣本點(diǎn)的個(gè)數(shù)。
4)生成聚類圖。
3.1.2 結(jié)果分析
從圖2可以看出,聚類算法把32支球隊(duì)分為了3類:1)第一梯隊(duì)是巴西、阿根廷等球隊(duì),屬于世界杯上表現(xiàn)最強(qiáng)的一類;2)第二梯隊(duì)是智利、墨西哥等,法國也屬于這一類,因?yàn)閷?shí)際上法國隊(duì)在2010年表現(xiàn)一般,小組并未出線;3)第三梯隊(duì)是新西蘭、朝鮮等,實(shí)力表現(xiàn)較弱。分類結(jié)果基本符合圖2所示,得出的統(tǒng)計(jì)指標(biāo)在一定程度上可以反映球隊(duì)實(shí)力,因此接下來可以運(yùn)用統(tǒng)計(jì)指標(biāo)對(duì)綜合排名進(jìn)行評(píng)估。
圖2 2010年世界杯各球隊(duì)綜合實(shí)力聚類分析
3.2.1 數(shù)據(jù)預(yù)處理
再進(jìn)一步看,17個(gè)統(tǒng)計(jì)指標(biāo)維度較高,增加了評(píng)估的復(fù)雜度,因此本模型運(yùn)用主成分分析法進(jìn)行降維。指標(biāo)相關(guān)性情況如圖3所示,大多為正相關(guān)(相關(guān)性為正),所以適用主成分分析法[9]。對(duì)于部分負(fù)相關(guān)參數(shù),比如紅牌數(shù)、犯規(guī)數(shù)等,需做取反處理。
圖3 相關(guān)系數(shù)統(tǒng)計(jì)直方圖
3.2.2 方法步驟
1)生成指標(biāo)相關(guān)系數(shù)矩陣R。
R=(rij)17×17
(4)
(5)
相關(guān)系數(shù)矩陣對(duì)角線為1,關(guān)于主對(duì)角線則對(duì)稱。
2)求解特征值與特征向量。
det (λE-R)=0,E表示單位矩陣,解出的特征值按從大到小排列λ1≥λ2≥…≥λ17≥0,對(duì)應(yīng)的特征向量為u1,u2,u3,…,u17,uj=(u1,j,u2,j,u3,j,…,u32,j)T。
(6)
其中,yj表示第j個(gè)主成分。
3)計(jì)算貢獻(xiàn)率,主成分篩選。
由步驟2計(jì)算得出特征值λj,選擇其中的前p(p17)個(gè)作為主成分。選擇原則采用累計(jì)貢獻(xiàn)率。
信息貢獻(xiàn)率:
(7)
累計(jì)貢獻(xiàn)率:
(8)
當(dāng)累計(jì)貢獻(xiàn)率ap高于85%的時(shí)候,可認(rèn)為前p個(gè)主成分有效。
4)計(jì)算綜合得分。
(9)
其中,bj表示第j個(gè)主成分的信息貢獻(xiàn)率。
3.2.3 結(jié)果分析
利用2010年南非世界杯各球隊(duì)的數(shù)據(jù)統(tǒng)計(jì)和球隊(duì)排名進(jìn)行主成分分析,將得到的主成分指標(biāo)與2014年巴西世界杯各球隊(duì)小組賽的數(shù)據(jù)統(tǒng)計(jì)相結(jié)合,得出巴西世界杯的球隊(duì)排名。
1)貢獻(xiàn)率。如圖4所示,直方圖代表信息貢獻(xiàn)率,線條代表累計(jì)貢獻(xiàn)率。當(dāng)p=7時(shí),前7個(gè)主成分達(dá)到了85%的累計(jì)貢獻(xiàn)率。因此接下來選取前7個(gè)特征值對(duì)應(yīng)的特征向量進(jìn)行主成分與指標(biāo)的相關(guān)性分析。
圖4 信息貢獻(xiàn)率與累計(jì)貢獻(xiàn)率
2)前7個(gè)主成分對(duì)應(yīng)的特征向量。
變量均為場均數(shù)據(jù),通過特征向量找到與主成分相關(guān)最大的變量。如表4所示,特征向量里的元素即為主成分的系數(shù),第1主成分主要反映了場均攔截、場均射門數(shù)、場均射正數(shù)、控球率、長傳成功率與場均進(jìn)球數(shù);第2主成分主要反映了場均頭球進(jìn)球、射正率、場均黃牌數(shù)等。
表4 標(biāo)準(zhǔn)化變量的前7個(gè)主成分的特征數(shù)據(jù)
圖5展示了各指標(biāo)的相關(guān)性情況。線段越長,表示該指標(biāo)與各主成分的相關(guān)性越大;線段越靠近的指標(biāo)表示其相關(guān)程度越高;點(diǎn)表示不同球隊(duì)在主成分坐標(biāo)系中的坐標(biāo),與聚類分析類似,可以用于分析不同球隊(duì)的相似度。從圖5中可以看出傳球成功率、長傳成功率與控球率的關(guān)系很大、犯規(guī)數(shù)與黃牌數(shù)的關(guān)系大等規(guī)律,符合事實(shí)。
由于第1主成分的貢獻(xiàn)率高,因此選用與第1主成分相關(guān)性最大的幾個(gè)指標(biāo)作為評(píng)價(jià)球隊(duì)的標(biāo)準(zhǔn)。
圖5 前3個(gè)主成分與統(tǒng)計(jì)指標(biāo)間關(guān)系圖
3)評(píng)估2014年世界杯各球隊(duì)的實(shí)力排名。
對(duì)表3的巴西世界杯小組賽的統(tǒng)計(jì)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化場均化計(jì)算,結(jié)合主成分指標(biāo)得出表5的排名結(jié)果。從表5可以看出,就個(gè)別情況出現(xiàn)的誤差(例如日本、俄羅斯、葡萄牙真實(shí)情況沒有進(jìn)入16強(qiáng)隊(duì)伍,而本算法估計(jì)結(jié)果是它們進(jìn)入了8強(qiáng),有的球隊(duì)小組出線,但其排名卻靠后,例如美國),可以解釋為這幾支球隊(duì)中作為主成分的幾個(gè)參數(shù)表現(xiàn)都比較好,也可以認(rèn)為與其對(duì)戰(zhàn)的對(duì)手將其克制使其未能出線。但從整體上來看,表5仍符合真實(shí)情況下球隊(duì)的排名情況,評(píng)估出的排名前8的球隊(duì)均進(jìn)入了世界杯16強(qiáng)。結(jié)合實(shí)際對(duì)陣情況,對(duì)于16強(qiáng)進(jìn)8強(qiáng),除了墨西哥比荷蘭排名靠前但最后荷蘭進(jìn)入了8強(qiáng)之外,其他幾場比賽都是對(duì)陣雙方排名靠前的進(jìn)入8強(qiáng);若根據(jù)8強(qiáng)進(jìn)4強(qiáng)的對(duì)陣情況來估測,則4強(qiáng)就是荷蘭、巴西、德國和阿根廷,最終冠軍屬于德國,完全符合真實(shí)情況。因此說明該模型具有一定的有效性,當(dāng)屆小組賽的數(shù)據(jù)在一定程度上可以估測球隊(duì)的排名晉級(jí)情況。
表5 評(píng)估2014世界杯球隊(duì)排名情況
對(duì)比預(yù)測結(jié)果和實(shí)際結(jié)果可以看出,本文的模型具有一定有效性。聚類結(jié)果表明,每支球隊(duì)的數(shù)據(jù)統(tǒng)計(jì)可以反映球隊(duì)整體水平,聚類分析能較好地把實(shí)力強(qiáng)隊(duì)與實(shí)力弱隊(duì)分開。同時(shí),主成分分析法能夠較好地提取統(tǒng)計(jì)指標(biāo)當(dāng)中的主要成分,在起到降低計(jì)算維數(shù)作用的同時(shí),還能對(duì)各支球隊(duì)起到評(píng)價(jià)作用,評(píng)測結(jié)果符合實(shí)際情況。
更重要的是,主成分分析能為球隊(duì)提高綜合實(shí)力提供針對(duì)性的意見。例如:從圖5中與第1主成分關(guān)聯(lián)較強(qiáng)的幾個(gè)參數(shù)來看,提高球隊(duì)綜合實(shí)力關(guān)鍵如下:
1)提高場均攔截就是提高球隊(duì)的防守實(shí)力,這樣可以減少對(duì)方進(jìn)攻的成功率。
2)提高場均射門數(shù)需要球隊(duì)增強(qiáng)進(jìn)攻的強(qiáng)度。同時(shí)還要提高場均射正數(shù),這就要求球隊(duì)提高進(jìn)攻的準(zhǔn)度。
3)提高控球率、長傳成功率就要求球隊(duì)增強(qiáng)對(duì)球的操控程度,盡可能地把球留在己方球員腳下。
以上3點(diǎn)統(tǒng)計(jì)指標(biāo)也被一些研究者們認(rèn)定為是球隊(duì)在世界杯取勝的關(guān)鍵性指標(biāo)[2,16-17]。2018是世界杯年,通過本研究方法,希望能為廣大體育從業(yè)者和愛好者們提供科學(xué)的參考。
有些研究已經(jīng)開始運(yùn)用人工智能和結(jié)構(gòu)模型等復(fù)雜理論分析足球技戰(zhàn)術(shù)表現(xiàn),其動(dòng)態(tài)地分析各指標(biāo)因素間的復(fù)雜關(guān)系,鑒于研究還沒有上升到理論層面,目前應(yīng)用較少[3],未來可作為一個(gè)方向繼續(xù)深入研究。此外,大多數(shù)針對(duì)比賽的研究仍脫離了比賽情景因素,實(shí)用性仍存在一定局限,下階段指標(biāo)的測量可引入更多維度,將技術(shù)指標(biāo)與環(huán)境、對(duì)手因素、時(shí)間因素、戰(zhàn)術(shù)目標(biāo)動(dòng)態(tài)結(jié)合,根據(jù)比賽的不同階段指定評(píng)估模型。同時(shí),應(yīng)區(qū)分不同對(duì)陣情形下的統(tǒng)計(jì)指標(biāo),例如區(qū)分不同程度球隊(duì)間的比賽,做更精細(xì)化分析。