林慶陽(yáng) 孫海濤 續(xù)衍法
在足球比賽中,射門進(jìn)球是決定比賽勝負(fù)的關(guān)鍵。然而為球隊(duì)打破僵局的第一進(jìn)球、鎖定勝局的進(jìn)球與錦上添花的進(jìn)球價(jià)值顯然不同。區(qū)別于簡(jiǎn)單依靠進(jìn)球個(gè)數(shù)的進(jìn)失球、射手榜等數(shù)量統(tǒng)計(jì),本文基于2012-2018中超聯(lián)賽歷史數(shù)據(jù),通過(guò)分類匯總、曲線擬合等方法量化表示足球比賽進(jìn)球與積分的關(guān)系,并以2018賽季中超聯(lián)賽進(jìn)球數(shù)據(jù)為例,分析不同進(jìn)球所獲得的積分,進(jìn)而量化球隊(duì)鋒線球員為球隊(duì)帶來(lái)的進(jìn)球價(jià)值貢獻(xiàn)。
1 引言
隨著足球世界的相互交流和融合,足球比賽攻防轉(zhuǎn)換速度加快,對(duì)抗越來(lái)越激烈。射門進(jìn)球作為攻防的焦點(diǎn),是足球比賽最直接的表現(xiàn)方式,決定一場(chǎng)比賽的勝負(fù)。在現(xiàn)代職業(yè)足球一場(chǎng)比賽中一支球隊(duì)最常見(jiàn)的分?jǐn)?shù)就是1,其次是0,即在一場(chǎng)比賽中攻入數(shù)粒進(jìn)球是相當(dāng)不容易的,所以進(jìn)球才令人欣喜若狂。因此,人們熱衷記錄、反復(fù)計(jì)算和比較總進(jìn)球、場(chǎng)均進(jìn)球、凈勝球、射手榜等與進(jìn)球相關(guān)的數(shù)據(jù)指標(biāo),并從多個(gè)維度進(jìn)行詳細(xì)的數(shù)據(jù)統(tǒng)計(jì)研究。
目前,在足球比賽進(jìn)球研究方面,國(guó)內(nèi)外文獻(xiàn)大部分聚焦在進(jìn)球特征分析方面。賀斌等人通過(guò)文獻(xiàn)資料法、錄像統(tǒng)計(jì)法對(duì)2013賽季中超聯(lián)賽的射門和進(jìn)球方式、身體部位、距離、時(shí)間和區(qū)域5個(gè)方面特征進(jìn)行分析研究。鐘云越等人在此基礎(chǔ)上對(duì)2018賽季中超聯(lián)賽進(jìn)球特征進(jìn)行分析。周哺心采用文獻(xiàn)資料法、專家訪談法、錄像分析法和數(shù)理統(tǒng)計(jì)法對(duì)以及邏輯分析法對(duì)2014-2017賽季歐洲冠軍聯(lián)賽皇家馬德里隊(duì)的共計(jì)38場(chǎng)比賽的射門及進(jìn)球情況進(jìn)行了研究。胡俊則對(duì)第21屆世界杯足球賽決賽階段169粒進(jìn)球的進(jìn)球數(shù)量、進(jìn)球時(shí)間、獲得球權(quán)方式、進(jìn)球前傳遞次數(shù)與傳遞時(shí)間、進(jìn)球前最后一傳方式與屬性、進(jìn)球球員場(chǎng)上位置、射門方式、射門部位、射門區(qū)域與球進(jìn)門區(qū)域等特征進(jìn)行統(tǒng)計(jì)分析。
近年來(lái),隨著信息技術(shù)的迅速發(fā)展,云計(jì)算、超算等技術(shù)的應(yīng)用普及,以大數(shù)據(jù)為核心的信息處理和分析技術(shù)在眾多行業(yè)領(lǐng)域深化應(yīng)用,促進(jìn)了行業(yè)技術(shù)發(fā)展水平的飛速提升。目前,在信息化較早、數(shù)據(jù)積累較多的行業(yè),如互聯(lián)網(wǎng)、電信、金融等領(lǐng)域,大數(shù)據(jù)技術(shù)已經(jīng)顯示出對(duì)行業(yè)發(fā)展的重大影響。如何合理利用大量數(shù)據(jù)進(jìn)行競(jìng)技體育分析是近年來(lái)關(guān)注的熱點(diǎn)。
足球是世界上非常受歡迎的運(yùn)動(dòng)之一,在全球范圍內(nèi)吸引了眾多的參與者。成千上萬(wàn)的職業(yè)足球運(yùn)動(dòng)員參與到專業(yè)的足球比賽中,許多重大的足球賽事(如國(guó)際足聯(lián)世界杯等)受到數(shù)以百萬(wàn)計(jì)的球迷的關(guān)注。足球比賽數(shù)據(jù)主要包括統(tǒng)計(jì)數(shù)據(jù)、事件數(shù)據(jù)和軌跡數(shù)據(jù)等。在足球比賽中,統(tǒng)計(jì)數(shù)據(jù)可以細(xì)分為球隊(duì)統(tǒng)計(jì)數(shù)據(jù)和球員表現(xiàn)統(tǒng)計(jì)數(shù)據(jù)。其中,針對(duì)球隊(duì)的統(tǒng)計(jì)數(shù)據(jù)主要包括每場(chǎng)比賽的進(jìn)球數(shù)、失球數(shù)、射門次數(shù)、犯規(guī)次數(shù)、紅黃牌次數(shù)、角球次數(shù)、撲救次數(shù)等,以及每場(chǎng)比賽后球隊(duì)的凈勝球數(shù)、球隊(duì)積分、球隊(duì)排名等。針對(duì)球員的統(tǒng)計(jì)數(shù)據(jù)主要包括出場(chǎng)次數(shù)、出場(chǎng)時(shí)間、球員位置、進(jìn)球數(shù)、助攻數(shù)、紅黃牌次數(shù)、跑動(dòng)距離、高強(qiáng)度跑距離、沖刺跑距離等。
在足球比賽中,積分和進(jìn)球二者之間有密切的聯(lián)系。為球隊(duì)打破僵局的第一進(jìn)球、鎖定勝局的進(jìn)球與錦上添花的進(jìn)球?yàn)榍蜿?duì)帶來(lái)的積分顯然不同。因此,衡量每個(gè)進(jìn)球?yàn)榍蜿?duì)帶來(lái)的積分可以針對(duì)性的量化進(jìn)球價(jià)值。本文首先對(duì)大量的中超歷史進(jìn)球數(shù)據(jù)進(jìn)行分類匯總,換算得出不同進(jìn)球數(shù)與積分的關(guān)系,進(jìn)而基于中超歷史數(shù)據(jù)進(jìn)行積分與進(jìn)球關(guān)系多項(xiàng)式曲線擬合,具體計(jì)算得出每個(gè)進(jìn)球所對(duì)應(yīng)的積分,最后再進(jìn)行球隊(duì)鋒線球員進(jìn)球價(jià)值分析。
2 分析方法
2.1 分類匯總
分類匯總用于交叉性研究,將變量按照一定規(guī)則進(jìn)行分組匯總。在日常工作中,我們離不開(kāi)要整理匯總數(shù)據(jù),分類匯總就是快速解決這一問(wèn)題的最好方法。結(jié)合自變量x的放置情況以及匯總類型的選擇情況,分為四種情況,如表1所示。
Excel中的數(shù)據(jù)透視表是個(gè)交互式的透視表,具有最快、最靈活的數(shù)據(jù)匯總功能,可快速合并和比較大量基礎(chǔ)數(shù)據(jù),且可以旋轉(zhuǎn)行、列以查看基礎(chǔ)數(shù)據(jù)的不同匯總結(jié)果,還可顯示用戶感興趣部分的明細(xì)數(shù)據(jù)等。首先按照列屬性整理需要處理的基礎(chǔ)數(shù)據(jù)表,創(chuàng)建“數(shù)據(jù)透視表”框架,然后在創(chuàng)建的“數(shù)據(jù)透視表”框架中添加需要分類匯總的 內(nèi)容則可以進(jìn)行簡(jiǎn)單數(shù)據(jù)項(xiàng)匯總和多重?cái)?shù)據(jù)項(xiàng)匯總。
2.2 多項(xiàng)式曲線擬合
最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。作為一種比較常用的曲線擬合方法,最小二乘法經(jīng)常應(yīng)用在科學(xué)研究和工程技術(shù)領(lǐng)域內(nèi),處理實(shí)驗(yàn)數(shù)據(jù)并確定變量之間的關(guān)系,所謂“擬合”就是找到數(shù)據(jù)的基本趨勢(shì),而不要求所作的曲線完全通過(guò)所有的數(shù)據(jù)點(diǎn),其中應(yīng)用最為廣泛的是多項(xiàng)式擬合。
從本質(zhì)上講,多項(xiàng)式曲線擬合也是一個(gè)廣義的線性模型,其數(shù)學(xué)表達(dá)式為:
(式1)
其中M是多項(xiàng)式自變量的最高次數(shù),xj代表的是x的j次冪,? 是xj的系數(shù)。
假設(shè)樣本的數(shù)目為N,則對(duì)于每一個(gè)樣本xn,其對(duì)應(yīng)的輸出為tn,用平方誤差和作為損失函數(shù),那么損失函數(shù)可以表示為:
(式2)
當(dāng)式2損失函數(shù)達(dá)到可以接受的誤差范圍得到的多項(xiàng)式即滿足條件的多項(xiàng)式。
3 分析實(shí)例
為考慮中超聯(lián)賽每個(gè)進(jìn)球的價(jià)值,我們首先匯總中超聯(lián)賽2012-2018賽季的場(chǎng)均進(jìn)球數(shù)及其對(duì)應(yīng)的積分,分析不同進(jìn)球數(shù)與積分的關(guān)系,直觀量化不同進(jìn)球的價(jià)值。隨后計(jì)算出每個(gè)進(jìn)球?qū)?yīng)的積分值,用于計(jì)算2018賽季中超聯(lián)賽鋒線球員在一個(gè)賽季中的進(jìn)球?yàn)榍蜿?duì)貢獻(xiàn)的積分。
以[賽季,場(chǎng)次,球隊(duì),進(jìn)球,積分]為數(shù)據(jù)項(xiàng)屬性整理2012-2018賽季中超2880條數(shù)據(jù),利用Excel中的透視表匯總得出每個(gè)進(jìn)球下的平均積分,如表2所示。對(duì)表2數(shù)據(jù)進(jìn)行多項(xiàng)式擬合,得出的多項(xiàng)式函數(shù)F曲線如圖1所示。
結(jié)果顯示,在2012-2018賽季中超聯(lián)賽的一場(chǎng)比賽中一個(gè)進(jìn)球基本相當(dāng)于得到一個(gè)積分,打入兩粒進(jìn)球后贏球概率更大。相對(duì)于一粒進(jìn)球,打入三個(gè)進(jìn)球并不能帶來(lái)三倍的積分。根據(jù)球隊(duì)已經(jīng)完成的進(jìn)球數(shù)的不同,每個(gè)進(jìn)球的積分轉(zhuǎn)化率是大相徑庭的,具體結(jié)果如圖2所示。
通過(guò)積分與進(jìn)球曲線換算2012-2018賽季中超聯(lián)賽每一個(gè)進(jìn)球產(chǎn)生的相應(yīng)的積分(如上圖),結(jié)果表明第一粒進(jìn)球和第二粒進(jìn)球通常被視為關(guān)鍵進(jìn)球;第三粒進(jìn)球可以換取0.67個(gè)積分,也是非常重要的;包括第四個(gè)進(jìn)球在內(nèi)的更多進(jìn)球則只能換取不足0.4個(gè)積分,球隊(duì)的第五粒進(jìn)球只能換取大約0.15個(gè)積分。
通過(guò)分析足球比賽中每個(gè)進(jìn)球影響力不同可知簡(jiǎn)單以進(jìn)球數(shù)衡量射手價(jià)值的方法存在局限性。本文根據(jù)比賽中每個(gè)進(jìn)球貢獻(xiàn)積分,計(jì)算2018賽季中超聯(lián)賽中每個(gè)進(jìn)球球員為球隊(duì)所貢獻(xiàn)的積分。按照[輪次,球隊(duì),第幾個(gè)進(jìn)球,進(jìn)球球員姓名,是否為烏龍球]數(shù)據(jù)屬性匯總2018賽季所有球隊(duì)的所有進(jìn)球,刪除烏龍球數(shù)據(jù)后按照每個(gè)進(jìn)球的積分進(jìn)行本賽季球員進(jìn)球積分/價(jià)值計(jì)算,得出的賽季進(jìn)球價(jià)值積分榜如表3所示。
結(jié)果表明,2018賽季中超聯(lián)賽上海上港隊(duì)的武磊不僅在進(jìn)球數(shù)上最多,而且為球隊(duì)創(chuàng)造的積分也最多。其次為球隊(duì)貢獻(xiàn)積分較多的射手是長(zhǎng)春亞泰的伊哈洛和廣州富力的扎哈維。
進(jìn)球數(shù)量相同的射手進(jìn)球價(jià)值積分卻可能相差較大。進(jìn)球數(shù)為16的射手中,山東魯能泰山隊(duì)的佩萊比廣州恒大的塔利斯卡高出3.51分。進(jìn)球數(shù)為13的射手中,江蘇蘇寧的特謝拉獲得了12.05個(gè)積分,廣州恒大的高拉特的10個(gè)積分,上海上港的胡爾克和廣州恒大的保利尼奧約獲得9.7個(gè)積分,而廣州恒大的阿蘭僅獲得9個(gè)積分。2018賽季為上海上港的攻入12球的奧斯卡只獲得8個(gè)積分,未能躋身這份榜單。
(作者單位:1.國(guó)網(wǎng)山東省電力公司體育文化分公司;2.山東魯軟數(shù)字科技有限公司)