王武
(天津理工大學中環(huán)信息學院 天津 300380)
中國足球超級聯(lián)賽(簡稱“中超聯(lián)賽”)是中國最頂級的足球聯(lián)賽,目前有16支隊伍,每個賽季進行主客場循環(huán)比賽,目前已成為東亞地區(qū)最有影響力的足球賽事。2019-2020賽季于近日結(jié)束,江蘇蘇寧、廣州恒大、北京中赫國安取得了聯(lián)賽前三名。本文選取中超聯(lián)賽在2019-2020賽季16支球隊的總數(shù)據(jù),通過模糊主成分分析,對相關(guān)數(shù)據(jù)做分析。
競技體育的最大魅力是比賽結(jié)果的不確定性,在足比賽中,影響最終比賽勝負的因素主要有射正、助攻、角球、任意球等。本文第一部分將選取中超聯(lián)賽在2019-2020賽季16支球隊的射正、助攻、角球、任意球四個數(shù)據(jù)的賽季總數(shù)據(jù),通過主成分分析,將其歸納為一個主成分,并對結(jié)果做出分析。
本文以“2019-2020賽季中超聯(lián)賽、比賽結(jié)果分析”等為主要關(guān)鍵詞,通過中國知網(wǎng)、萬方知識服務(wù)平臺等數(shù)據(jù)庫,對2003-2019年12月已有研究進行檢索,搜集期刊文章20余篇,權(quán)威報紙報道30余篇,并在“國際足聯(lián)、中國足協(xié)、網(wǎng)易、新浪、搜狐體育”等官網(wǎng)查閱和下載了與研究內(nèi)容有關(guān)的資料并進行整理,為本研究提供了理論支撐。同時,為更好的開展研究,對“天津體育學院、天津師范大學、天津泰達足球俱樂部等知名學者、運動員就“足球比賽的制勝因素、足球比賽勝負預測”進行訪談,以便獲得真實可靠的資料。表1。
表1
選取中超聯(lián)賽在2019-2020賽季16支球隊的射正、助攻、角球、任意球四個數(shù)據(jù)的賽季總數(shù)據(jù)。
未處理的數(shù)據(jù)具有離散性、隨機性等特點,故應(yīng)對選取的數(shù)據(jù)進行標準化處理,本文采用z-score標準化處理方法。具體步驟為:
(1)在上述11個影響因素中,失誤和犯規(guī)為負面影響因素,故對這兩類數(shù)據(jù)取相反數(shù);
(2)將(1)中處理后的數(shù)據(jù)記為矩陣 X=(Xij),i=1,…,5,j=1,…,11,即用xi·表示相應(yīng)比賽場次的比賽數(shù)據(jù),例如x3·表示第三場,中國對與委內(nèi)瑞拉對的比賽數(shù)據(jù)。記第i列數(shù)據(jù)的平均值為,則數(shù)據(jù)標準差為,則第j列數(shù)據(jù)的標準化為。
對選取的數(shù)據(jù)進行z-score標準化處理后,可得到變準化數(shù)據(jù)并采用z-score標準化進行標準化處理。得到處理后的數(shù)據(jù)如
表1選取中超聯(lián)賽在2019-2020賽季16支球隊的射正、助攻、角球、任意球四個數(shù)據(jù)的賽季總數(shù)據(jù),并采用z-score標準化進行標準化處理后的數(shù)據(jù)。
在統(tǒng)計學與概率論中,協(xié)方差矩陣的每個元素是各個向量元素之間的協(xié)方差,是從標量隨機變量到高維度隨機向量的自然推廣。
令 X=(x1,x2,…,Xn)為 n 維隨機變量,cij=Cov(Xi,Xj)為第 i 個向量與第j個向量的協(xié)方差。則其相應(yīng)的協(xié)方差矩陣為:
則其相應(yīng)的協(xié)方差矩陣為:
在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
設(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學上用來降維的一種方法。
主成分分析作為基礎(chǔ)的數(shù)學分析方法,其實際應(yīng)用十分廣泛,比如人口統(tǒng)計學、數(shù)量地理學、分子動力學模擬、數(shù)學建模、數(shù)理分析等學科中均有應(yīng)用,是一種常用的多變量分析方法。主成分分析的具體步驟如下。
通過MATLAB計算得到協(xié)方差矩陣的4個特征值,從大到小排列有:
表2 協(xié)方差矩陣的特征值
第一個特征值得和為2.09,四個特征值的和為3.99,則第一個特征值占總特征值的53%,即第一個特征值所對應(yīng)的綜合因子影響比賽的程度超過50%。
圖1 方差貢獻直方圖
圖2 方差貢獻散點圖
第一個特征值所對應(yīng)的特征向量為[0.65,0.48,0.58,0.07]。記其所對應(yīng)的綜合影響因子為第一主成分,記號分別為F1。第一主成分所對應(yīng)的綜合因子可表示為F1=0.65X1+0.48X2+0.58X3+0.07X4,16支球隊所對應(yīng)的第一主成分的取值z-值見下表
表3 16支球隊相應(yīng)的z-值
圖3 各球隊z-值散點圖
在上表中,z-值越大,說明球隊在2019-2020賽季的表現(xiàn)越好,z-值越小,說明球隊在2019-2020賽季的表現(xiàn)越差。
通過主成分分析對2019-2020賽季中超聯(lián)賽16支球隊數(shù)據(jù)進行分析,根據(jù)結(jié)論有如下結(jié)果。
在第一主成分中,射正所對應(yīng)的系數(shù)為0.65,這說明在足球比賽中,射正對比賽的勝負影響最大,誠然在比賽中,射正的次數(shù)越多,進球的可能性就越多,獲得比賽勝利的可能想就越大。任意球所對應(yīng)的系數(shù)為0.07,這說明任意球相對其他因素來說對比賽勝負的影響較小。
各球隊的z-值中,江蘇蘇寧、廣州恒大、北京中赫國安所對應(yīng)的z-值較大,說明這三支球隊在2019-2020賽季中超聯(lián)賽中表現(xiàn)最好。據(jù)查,江蘇蘇寧、廣州恒大、北京中赫國安獲得了2019-2020賽季沖超聯(lián)賽的前三名,這也與我們的結(jié)論一致。
用過上述結(jié)果越分析,現(xiàn)對中超聯(lián)賽各球隊給與以下建議。
首先,球隊射門數(shù)與射正數(shù)是獲得比賽的最根本保證,各球隊在訓練時應(yīng)該加強對射門的訓練以及有關(guān)射門的配合;
其次,相對于任意球來說,角球?qū)Ρ荣悇倮呢暙I度較大,故各球隊應(yīng)加強角球訓練,強調(diào)角球戰(zhàn)術(shù)的重要性;
最后,助攻數(shù)是球隊整體配合的表現(xiàn),各球隊應(yīng)加強相應(yīng)的戰(zhàn)術(shù)體系建設(shè)與戰(zhàn)術(shù)配合。
中國足球超級聯(lián)賽一直是世界上較強的足球聯(lián)賽,近年來由于人才培養(yǎng)、足球協(xié)會改革等因素影響,中超聯(lián)賽的影響力逐步提升。相信隨著中國足球體制改革、國內(nèi)足球人才的培養(yǎng)等因素的提升,中國足球超級聯(lián)賽一定能走向世界,逐步提升中國足球在國際足球領(lǐng)域的影響力。