謝向陽(yáng)
(廣州體育職業(yè)技術(shù)學(xué)院體育運(yùn)動(dòng)系 廣東廣州 510650)
隨著信息技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。因此可以用數(shù)據(jù)庫(kù)管理系統(tǒng)來存儲(chǔ)數(shù)據(jù),用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識(shí),它們的結(jié)合促成了數(shù)據(jù)挖掘的產(chǎn)生。數(shù)據(jù)挖掘是通過高度自動(dòng)化地分析原始數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的規(guī)律和知識(shí),來幫助決策人員作出正確的決策;隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,具有良好的準(zhǔn)確性、時(shí)間復(fù)雜度以及空間復(fù)雜度的數(shù)據(jù)挖掘算法被提出,使得數(shù)據(jù)挖掘技術(shù)在很多領(lǐng)域中的能夠得到廣泛應(yīng)用,數(shù)據(jù)挖掘技術(shù)越來越成為社會(huì)的研究和應(yīng)用熱點(diǎn)。
但是,數(shù)據(jù)挖掘技術(shù)在體育領(lǐng)域中的應(yīng)用極少,國(guó)內(nèi)外處于起步階段,例如在NBA球隊(duì)利用IBM公司開發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)找出球員的強(qiáng)弱點(diǎn),優(yōu)化球隊(duì)的戰(zhàn)術(shù)組合,來幫助教練制定相應(yīng)的訓(xùn)練計(jì)劃和布陣。隨著我國(guó)體育事業(yè)的信息化,在國(guó)民體質(zhì)健康、競(jìng)技體育、體育產(chǎn)業(yè)以及體育教育等方面積累了大量數(shù)據(jù)。如何充分利用這些數(shù)據(jù),并從中發(fā)掘出有用的,卻常被人們所忽視的重要信息,已經(jīng)成為體育科研人員的一項(xiàng)重要任務(wù)。
表1 不同球員出場(chǎng)對(duì)贏得比賽的影響顯著性
數(shù)據(jù)挖掘的基本理論包括數(shù)據(jù)挖掘的概念、分類、方法和挖掘流程。
1.1.1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘在國(guó)內(nèi)外都得到了廣泛的應(yīng)用,目前我國(guó)專家普遍比較認(rèn)同的定義是“數(shù)據(jù)挖掘是從大量、隨機(jī)、模糊、片段的數(shù)據(jù)中,提取隱含、潛在未知而又有用的信息或知識(shí)的過程,數(shù)據(jù)挖掘通常與數(shù)據(jù)分析、數(shù)據(jù)融合、決策知識(shí)和知識(shí)發(fā)現(xiàn)等技術(shù)結(jié)合應(yīng)用?!?/p>
1.1.2 數(shù)據(jù)挖掘分類
數(shù)據(jù)挖掘技術(shù)涉及多個(gè)學(xué)科,分類方法也多種多樣。綜合國(guó)內(nèi)外的研究成果,數(shù)據(jù)挖掘的分類方法主要有以下幾個(gè)維度。
1.1.2.1 根據(jù)挖掘?qū)ο蠓诸?/p>
數(shù)據(jù)挖掘技術(shù)根據(jù)挖掘?qū)ο罂梢苑譃槲谋緮?shù)據(jù)庫(kù)、關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)和環(huán)球網(wǎng)等。
1.1.2.2 根據(jù)挖掘方法分類
根據(jù)數(shù)據(jù)挖掘的不同方法可以分類為機(jī)械學(xué)習(xí)、統(tǒng)計(jì)、數(shù)據(jù)庫(kù)和神經(jīng)網(wǎng)絡(luò)等。
1.1.2.3 根據(jù)挖掘目標(biāo)分類
根據(jù)數(shù)據(jù)挖掘的目標(biāo)可以將數(shù)據(jù)挖掘分類為預(yù)測(cè)模型、數(shù)據(jù)總結(jié)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、聚類、序列模式或依賴關(guān)系發(fā)現(xiàn),發(fā)展趨勢(shì)發(fā)現(xiàn)等。
1.1.3 數(shù)據(jù)挖掘方法
目前國(guó)內(nèi)外常用的數(shù)據(jù)挖掘方法有遺傳算法、決策樹、聚類分析、關(guān)聯(lián)規(guī)則、粗糙集、模糊集、灰色系統(tǒng)和影響因素分析等。
1.1.4 數(shù)據(jù)挖掘流程
常用的數(shù)據(jù)流程包括以下七個(gè)步驟。
(1)清理數(shù)據(jù):清理與挖掘主題明顯無關(guān)的數(shù)據(jù)。
(2)集成數(shù)據(jù):將多元數(shù)據(jù)組合,形成數(shù)據(jù)倉(cāng)庫(kù)。
(3)選擇數(shù)據(jù):從數(shù)據(jù)倉(cāng)庫(kù)中提取和選擇與任務(wù)相關(guān)的數(shù)據(jù)。
(4)轉(zhuǎn)換數(shù)據(jù):將數(shù)據(jù)轉(zhuǎn)換為容易進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式。
(5)挖掘數(shù)據(jù):利用數(shù)據(jù)方法挖掘數(shù)據(jù)規(guī)律或知識(shí)。
(6)評(píng)估模式:根據(jù)一定評(píng)估標(biāo)準(zhǔn)從挖掘結(jié)果中篩選出有意義的模式知識(shí)。
(7)表示知識(shí):利用可視化和知識(shí)表達(dá)技術(shù),向用戶展現(xiàn)所挖掘的相關(guān)知識(shí)。
近年來,隨著我國(guó)國(guó)民生活物質(zhì)文化水平的逐漸提高,社會(huì)公眾對(duì)個(gè)人體質(zhì)的監(jiān)測(cè)和測(cè)試數(shù)據(jù)、社會(huì)各類體育競(jìng)技比賽數(shù)據(jù)逐漸增多,常年積累的社會(huì)公眾體質(zhì)數(shù)據(jù)和社會(huì)體育賽事競(jìng)技數(shù)據(jù)越來越多,如何發(fā)揮這海量體育領(lǐng)域數(shù)據(jù)的作用,為提高我國(guó)國(guó)民身體素質(zhì)和體育運(yùn)動(dòng)訓(xùn)練效率,對(duì)海量體育數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)其影響因素和各因素間的相互關(guān)系成為體育教學(xué)工作者和研究者的重要課題。
體育數(shù)據(jù)分析是指利用信息技術(shù)手段,從逐漸積累的海量數(shù)據(jù)中尋找各種因素間的相互關(guān)系,發(fā)現(xiàn)它們之間的變化規(guī)律,進(jìn)而對(duì)數(shù)據(jù)深入分析導(dǎo)致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導(dǎo)的技術(shù)。
數(shù)據(jù)挖掘技術(shù)在體育賽事分析中的典型應(yīng)用是NBA廣大球隊(duì)使用的IBM公司開發(fā)的Advanced Scout和美國(guó)職業(yè)棒球聯(lián)盟中各球隊(duì)廣泛使用的Inside-Edge、歐洲足球職業(yè)聯(lián)賽中廣泛使用的PASW數(shù)據(jù)分析工具。本研究以足球、籃球和田徑為例來闡述數(shù)據(jù)挖掘在體育賽事分析中的應(yīng)用。
2.1.1 足球
數(shù)據(jù)挖掘技術(shù)在足球中的應(yīng)用典型是意大利AC米蘭隊(duì),作為歐洲一流球隊(duì),意大利AC米蘭隊(duì)成立了專門的米蘭實(shí)驗(yàn)室,通過分析不同渠道的生理和心理數(shù)據(jù)識(shí)別與球員受傷的風(fēng)險(xiǎn)因素,防止球員受傷,2006年意大利國(guó)家隊(duì)的大部分成員都在米蘭實(shí)驗(yàn)接受過順利,并成功幫助意大利國(guó)家隊(duì)贏得了世界杯的冠軍。本研究以PASW的回歸模型為例來分析某支球隊(duì)各球員的出場(chǎng)情況及對(duì)比賽結(jié)果的影響,得出不同球員對(duì)贏得比賽的影響顯著性(如表1)。
從表1中的數(shù)據(jù)分析可以看出,van persie和Gallas的出場(chǎng)效率最高,因此球隊(duì)可以作為核心使用,而Arshavin和Diaby的出場(chǎng)效率最低,球隊(duì)可作為替補(bǔ)使用。
2.1.2 籃球
數(shù)據(jù)分析在NBA聯(lián)盟的運(yùn)用最多的是Advance Scout工具,如在2010年的魔術(shù)與熱火的某場(chǎng)比賽中,主教練通過運(yùn)用Advanced Scout系統(tǒng)分析魔術(shù)對(duì)先發(fā)陣容中的Hardaway和Shaw同時(shí)在場(chǎng)時(shí),球隊(duì)每48min的得分為-17分,而Hardaway和替補(bǔ)Armstrong同時(shí)在場(chǎng)時(shí)魔術(shù)隊(duì)的得分為+14分,魔術(shù)隊(duì)決定讓Armstrong進(jìn)入先發(fā)陣容,最后順利地贏得了比賽。
2.1.3 田徑
數(shù)據(jù)挖掘在田徑運(yùn)動(dòng)中的成功運(yùn)用案例是美國(guó)運(yùn)動(dòng)員的威爾金斯獲取蒙特利爾奧運(yùn)會(huì)冠軍的事跡。美國(guó)體育科學(xué)家埃里爾利用數(shù)據(jù)挖掘工具在分析威爾金斯的投擲技術(shù)及投擲動(dòng)作后,糾正了威爾金斯投擲拖成中沒有利用制動(dòng)腿部力量的缺陷,幫助威爾金斯改進(jìn)投擲技術(shù),一下就將成績(jī)提高了3m多,幫助威爾金斯奪取了蒙特利爾奧運(yùn)會(huì)冠軍并創(chuàng)造了新的世界紀(jì)錄。
數(shù)據(jù)挖掘技術(shù)在體育教學(xué)領(lǐng)域中有非常廣泛的應(yīng)用,如在教學(xué)管理、教學(xué)評(píng)價(jià)、課程設(shè)置、教學(xué)方法、教材選擇等方面等可以廣泛的應(yīng)用,如利用數(shù)據(jù)挖掘中的管理規(guī)則可根據(jù)不同學(xué)生的性別、年齡、身體機(jī)能等數(shù)據(jù)建立測(cè)試成績(jī)預(yù)測(cè)模型,尋找潛在知識(shí)以改進(jìn)教學(xué)方法,提高體育教學(xué)和訓(xùn)練效果。如本研究選用2002~2007年《中國(guó)體育事業(yè)統(tǒng)計(jì)年鑒》中的相關(guān)數(shù)據(jù)進(jìn)行建模研究,以“獲世界冠軍個(gè)數(shù)”為研究對(duì)象,將“優(yōu)秀運(yùn)動(dòng)隊(duì)經(jīng)費(fèi)”、“體育基本建設(shè)支出”、“國(guó)家級(jí)在隊(duì)優(yōu)秀運(yùn)動(dòng)隊(duì)員”、“教練員總?cè)藬?shù)”和“等級(jí)裁判員”作為相關(guān)因素,建立數(shù)據(jù)挖掘關(guān)聯(lián)模型,得出人力投入是優(yōu)異成績(jī)產(chǎn)出的基礎(chǔ),人力的投入對(duì)提高成績(jī)而言起著的決定性的作用;而經(jīng)費(fèi)投入則是優(yōu)異成績(jī)產(chǎn)出的關(guān)鍵因素。因此,在兩大類指標(biāo)中與人力投入相關(guān)的指標(biāo)相對(duì)于與經(jīng)費(fèi)投入相關(guān)的指標(biāo)更為重要。
數(shù)據(jù)挖掘的興起,為體育統(tǒng)計(jì)學(xué)與體育信息技術(shù)的結(jié)合帶來良好的契機(jī),數(shù)據(jù)挖掘技術(shù)將成為繼數(shù)學(xué)、計(jì)算機(jī)科學(xué)之后,又一推動(dòng)體育統(tǒng)計(jì)學(xué)發(fā)展的強(qiáng)大工具。本文在闡述數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘分類及挖掘基本流程的基礎(chǔ)上,研究了體育數(shù)據(jù)分析的作用及基本理論,重點(diǎn)就數(shù)據(jù)挖掘在國(guó)內(nèi)外體育賽事分析和體育教學(xué)改進(jìn)中的應(yīng)用進(jìn)行了研究,對(duì)我國(guó)體育學(xué)科研究者和數(shù)據(jù)挖掘研究者具有一定的指導(dǎo)意義和參考價(jià)值。
[1] 楊翠明,劉喜蘋,熊高峰,等.一種基于數(shù)據(jù)庫(kù)分解的關(guān)聯(lián)規(guī)則挖掘新算法[J].湖南師范大學(xué)自然科學(xué)學(xué)報(bào),2007(2):135-138.
[2] 趙唱玉.基于Web和數(shù)據(jù)挖掘的智能教學(xué)系統(tǒng)模型的研究與設(shè)計(jì)[D].湖南師范大學(xué),2007.