高紅霞,楊 迪,蘇理云,黃丹妮
(重慶理工大學數(shù)學與統(tǒng)計學院,重慶 400054)
在NBA獲得總冠軍不僅是至高無上的榮譽,更能為球隊帶來不菲的經(jīng)濟效益。然而,季后賽是所有向往總冠軍球隊必須邁過的一道坎。因此,一個球隊能否進入季后賽至關(guān)重要,利用已知數(shù)據(jù)對球隊能否進入季后賽進行判斷變得具有實際意義。李杰林等[1]利用Logistic模型對季后成績進行研究。潘建武[2]采用Fisher判別分析對常規(guī)賽勝負進行判別,而國內(nèi)對NBA球隊能否進入季后賽的預測模型則較少。本文利用2011—2013兩年季的數(shù)據(jù)作為樣本,采用Fisher法建立判別模型,預測2014年季后賽資格,發(fā)現(xiàn)預測的誤判率較小。最后,本文基于2012—2014兩年的數(shù)據(jù)重新建立模型,對已經(jīng)過去1/3賽程的2014—2015季后賽資格進行判別。
本文參考李杰林[1]和潘建武[2]對 NBA 球賽勝負的分析,選擇2分命中率、3分命中率、罰球命中率、防守籃板、進攻籃板、助攻數(shù)、搶斷、阻擋、轉(zhuǎn)換得分、個人犯規(guī),場均得分等指標??紤]到影響籃球比賽勝負的兩大因素是對手和自己,僅選取自己的指標預測勝負具有片面性。比如一些進攻比較好的球隊雖然可能得到很漂亮的數(shù)據(jù),但因為防守漏洞導致對手得到更多分數(shù)而輸?shù)舯荣悾员疚膮⒖佳保?]在Logistic回歸模型中定義的優(yōu)勢比,根據(jù)式(1)定義所選指標的優(yōu)勢。
將所有指標及其優(yōu)勢的符號整理成表1。
本文從 NBA官方網(wǎng)站[4]上獲取2011—2014賽季常規(guī)賽的數(shù)據(jù)和2014—2015賽季1/3賽程的數(shù)據(jù)。其中,Ti是自己球隊每個指標的平均;Oi是對手每個指標的平均;Ωi是每個指標的優(yōu)勢比。
表1 選取指標的符號及含義
Fisher判別法也稱典型判別法[5],其基本思想是先將高維空間數(shù)據(jù)投影到低維空間,然后再進行判別。
對于本文來說,數(shù)據(jù)的維度即是選取指標的個數(shù)。所謂投影,即是將p=11維空間的樣本點投影到m(m<p)空間中。Fisher判別函數(shù)是各指標優(yōu)勢的線性函數(shù),即
首先,應在判別變量的p維空間中找到使各類別的平均值差異最大的線性組合作為第1維度,代表判別變量組間方差最大的一部分,得到第一Fisher判別函數(shù)。
然后,依次找到第二Fisher判別函數(shù)、第三Fisher判別函數(shù)等,且判別函數(shù)之間獨立。
從 k 個總體 Gt(t=1,2,3…k),分別從 Gt抽取nt個p維樣本,有
將Ω(t)i數(shù)據(jù)投影到p維常數(shù)向量C上,得到投影點的一元線性組合:
E和B分別具有自由度n-k和k-1,則一元方差分析統(tǒng)計量為:
式(7)中的F值越大,表明總體樣本Gt之間的均值有顯著性差異;F值越大,也使得對系數(shù)C的目標函數(shù)值Φ(C)達到極大值。
由特征值極值性質(zhì)可知,式(8)中求Φ(C)的極大值問題可轉(zhuǎn)化為求W-1U的最大特征值和特征向量問題,其極大值求解方程如下:
式(9)中的最大特征根則為W-1U的非零特征根,即 λ1≥λ2≥…λr(r≤p)。
根據(jù)λ1≥λ2≥…λr(r≤p)對應的特征值依次得到第一判別式。
式(10)中 i=1,2,…,r。
本文將所有球隊分為季后賽球隊和非季后賽球隊,即為兩總體的樣本,F(xiàn)isher判別規(guī)則如下:
其中
若y>y0,即判別為季后賽;反之,則判為非季后賽。
一個判別模型判別能力的高低表現(xiàn)為誤判率的高低。本文采取留一交叉驗證法來衡量模型的判別能力[6-7]。所謂交叉驗證法,是從樣本中抽取1個樣本作為驗證樣本,其余的樣本作為訓練樣本。它既避免了樣本數(shù)據(jù)在構(gòu)造判別函數(shù)的同時又被用來對該函數(shù)進行評價,造成不合理的信息重復使用,又幾乎避免了構(gòu)造判別函數(shù)時樣本信息的損失(只損1個樣本)。
本文根據(jù)以上對Fisher判別模型的求解思路,在 R 中編程[8-10]。對 2011—2012 和 2012—2013 NBA賽季的數(shù)據(jù)建立Fisher判別模型,求得交叉誤判率?;谠贾笜说呐袆e信息如表2所示。
表2 基于原始指標的Fisher判別信息
表2中的交叉驗證的誤判率為20%,可以看出判別效果不是太好。
籃球競技的勝負因素,取決于自己和競爭對手。在籃球比賽中能限制對手優(yōu)勢、發(fā)揮自己優(yōu)勢方能取得勝利。因此,本文選擇用每個指標的優(yōu)勢得分作為新的判別指標進行判別分析,判別結(jié)果如表3所示。
表3 基于優(yōu)勢得分的Fisher判別信息
從表3可以看出:采用優(yōu)勢得分作為新的指標進行判別分析,交叉誤判率降為13.3%。
本文將對誤判斷樣本以求能夠進一步降低誤判率,誤判樣本如表4所示。
從表4可以看出:在5支被誤判為非季后賽的球隊中,其中有3支是東部球隊;在3支被誤判為季后賽的球隊中有2支是西部球隊。究其原因,縱觀近年來NBA格局,西強東弱的格局越來越清晰,一些東部的季后賽球隊放在西部卻無法進入季后賽,一些在西部不能進入季后賽的球隊,放在東部卻可以進入季后賽。鑒于以上原因,分別對東、西部建立Fisher判別模型。
表4 誤判樣本信息表
對東、西部分別建立Fisher判別模型,采用交叉驗證法檢驗模型的判別能力,將判別信息整理,結(jié)果如表5所示。
表5 東西部球隊誤判樣本信息
從表5可以看出:分東、西部建立Fisher判別模型后,西部的交叉誤判率沒有降低,但東部的交叉誤判率降為10%,平均交叉誤判率降為11.65%,故分東、西部建立的判別模型能得到較優(yōu)的結(jié)果。
在進行Fisher判別分類時,2個總體的個數(shù)是未知的,但由于獲得季后賽資格的名額有限,每個賽區(qū)只有一個,所以本文選取Fisher函數(shù)值較大的前8個隊作為組2(季后賽組),其余為組1(非季后賽組)。根據(jù)以上規(guī)則,利用Fisher判別函數(shù)(11)和(12)進行預測分類,并對比2013—2014賽季實際季后賽情況,結(jié)果見表6。
表6 Fisher判別信息和真實信息
由表6可知:西部只有1支沒有進入季后賽,即認為誤判率為12.5%;而東部預測的8支季后賽球隊都進入季后賽,即誤判率為0%。由此可以看出:Fisher判別模型具有較好的預測能力,能夠較精確地預測出16支季后賽球隊。
在本文 3.3節(jié)中發(fā)現(xiàn)基于 2012—2013和2013—2013賽季數(shù)據(jù)建立的模型能夠較好地預測2013—2014賽季季后賽資格,所以本文考慮采用近2個賽季(即2012—2013和2013—2014賽季)的數(shù)據(jù)作為訓練樣本對已經(jīng)進行了1/3的2014—2015賽季季后賽資格進行預測,預測結(jié)果見表7。
表7 2014—2015賽季30支球隊的預測結(jié)果
從表7可以看出:傳統(tǒng)強隊諸如馬刺、公牛等隊都在預測的季后賽行列中。
作為世界三大主流球類之一,籃球市場越來越火爆。一支球隊能否在季后賽的大舞臺上表演,直接與球隊的經(jīng)濟利益相關(guān)聯(lián),因而對球隊能否進入季后賽的預測顯得十分有意義?;?011—2012和2012—2013賽季數(shù)據(jù)建立 Fisher判別模型來判別一支球隊能否進入季后賽,發(fā)現(xiàn)東、西部存在明顯差異;進而分東、西部建立另一個Fisher判別模型,回代誤判率僅為5%;然后對2013—2014賽季季后賽資格預測。對比已知信息,發(fā)現(xiàn)西部的8支球隊中只有1支誤判,預測誤判率為12.5%;東部的8支球隊全部預測準確,預測誤判率為0%,說明模型具有較好的預測效果。最后,本文基于2012—2013和2013—2014賽季的數(shù)據(jù)重新建立東、西部的判別模型,并根據(jù)已經(jīng)進行了1/3的2014—2015賽季的數(shù)據(jù)預測了今年的16支季后賽球隊。
[1]李林杰,張學東.影響NBA常規(guī)賽勝負的Logistic分析[J].統(tǒng)計教育,2008(4):40-41.
[2]潘建武.對NBA常規(guī)賽勝負影響因素及Fisher判別分析[J].四川體育科學,2012(5):47-48.
[3]薛薇.基于R的統(tǒng)計分析與數(shù)據(jù)挖掘[M].北京:中國人民大學出版社,2014.
[4]Sports Reference LLC[DB/OL].[2014-12-31].http://www.basketball-reference.com/seaons/.
[5]高慧璇.應用多元統(tǒng)計分析[M].北京:北京大學出版社,2005.
[6]趙萌,蘭德新.基于多元統(tǒng)計分析的大學生消費調(diào)查[J].重慶理工大學學報:自然科學版,2012,26(7):123-126.
[7]魏偉,顏醒華.基于多元回歸分析的中國旅游上市公司投資效率研究[J].重慶師范大學學報:自然科學版,2013(5):128-133.
[8]王斌會.多元統(tǒng)計分析及R語言建模[M].廣州:暨南大學出版社,2014.
[9]湯銀才.R語言與統(tǒng)計分析[M].北京:高等教育出版社,2008.
[10]薛薇.基于R的統(tǒng)計分析與數(shù)據(jù)挖掘[M].北京:中國人民大學出版社,2014.