馬 靜,劉功聚
(浙江體育職業(yè)技術(shù)學(xué)院 科研處,浙江 杭州 311231)
?
數(shù)據(jù)挖掘技術(shù)在排球生化指標(biāo)分析中的應(yīng)用
馬靜,劉功聚
(浙江體育職業(yè)技術(shù)學(xué)院 科研處,浙江 杭州 311231)
目的:采用數(shù)據(jù)挖掘技術(shù)分析生化指標(biāo)與運(yùn)動(dòng)員技術(shù)等級(jí)間的關(guān)系,探索決策樹算法及關(guān)聯(lián)規(guī)則在排球生化分析中應(yīng)用的可行性。方法:應(yīng)用IBM SPSS Modeler 14.1軟件中C5.0決策樹及Apriori關(guān)聯(lián)規(guī)則算法,對(duì)30名浙江省優(yōu)秀女子排球運(yùn)動(dòng)員歷年來部分運(yùn)動(dòng)生化數(shù)據(jù)進(jìn)行分析。結(jié)果:生成11層決策樹,模型整體預(yù)測(cè)精度為86%。產(chǎn)生6條關(guān)聯(lián)規(guī)則。結(jié)論:C5.0決策樹與Apriori關(guān)聯(lián)規(guī)則算法可用于女子排球運(yùn)動(dòng)員技術(shù)等級(jí)的預(yù)測(cè)及規(guī)律分析。決策樹預(yù)測(cè)分析中,肌酸激酶為關(guān)鍵因素,其次為睪酮及皮質(zhì)醇。關(guān)聯(lián)規(guī)則分析中,睪酮為關(guān)鍵變量。
數(shù)據(jù)挖掘;決策樹;關(guān)聯(lián)規(guī)則;生化指標(biāo)
運(yùn)動(dòng)生化指標(biāo)對(duì)運(yùn)動(dòng)員機(jī)能狀態(tài)及運(yùn)動(dòng)能力判斷具有很好的指導(dǎo)作用,其針對(duì)性分析為競(jìng)技體育科學(xué)化訓(xùn)練的重要組成部分。運(yùn)動(dòng)生化數(shù)據(jù)的分析及處理多集中于應(yīng)用統(tǒng)計(jì)學(xué)方法展開一般性、階段性[1]、個(gè)體化研究[2]等,較少涉及更深層次的數(shù)據(jù)挖掘研究和決策分析,從而易丟失測(cè)試數(shù)據(jù)中的隱含信息[3]。數(shù)據(jù)挖掘是一種通過自動(dòng)或半自動(dòng)方式探索和分析大量數(shù)據(jù),以發(fā)現(xiàn)其中有意義的模式和規(guī)則的過程[4],可為抽取數(shù)據(jù)間隱藏的有用信息提供科學(xué)的方法。數(shù)據(jù)挖掘的常用方法有決策樹、人工神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等。其中決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測(cè)規(guī)律,并用于對(duì)新數(shù)據(jù)對(duì)象的分類預(yù)測(cè)。關(guān)聯(lián)規(guī)則一般用于分析大量數(shù)據(jù)項(xiàng)目之間的關(guān)聯(lián)或相關(guān)關(guān)系[5],能夠有效揭示數(shù)據(jù)中隱含的關(guān)聯(lián)特征。
本研究在前期對(duì)浙江省女子排球優(yōu)秀運(yùn)動(dòng)員運(yùn)動(dòng)生化數(shù)據(jù)整理的基礎(chǔ)上,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)據(jù)分析中,旨在挖掘運(yùn)動(dòng)員技術(shù)等級(jí)與生化指標(biāo)間的關(guān)系,探索決策樹算法及關(guān)聯(lián)規(guī)則在排球生化分析中應(yīng)用的可行性。
1.1研究對(duì)象
以30名浙江省優(yōu)秀女子排球運(yùn)動(dòng)員歷年來部分運(yùn)動(dòng)生化數(shù)據(jù)及運(yùn)動(dòng)員技術(shù)等級(jí)為分析對(duì)象,包括運(yùn)動(dòng)等級(jí)、肌酸激酶、血尿素、睪酮、鐵蛋白、皮質(zhì)醇、白細(xì)胞、紅細(xì)胞、血紅蛋白、紅細(xì)胞壓積、平均紅細(xì)胞血紅蛋白量、平均紅細(xì)胞血紅蛋白濃度、紅細(xì)胞分布寬度。
1.2研究方法
應(yīng)用IBM SPSS Modeler 14.1軟件中的C5.0決策樹及Apriori關(guān)聯(lián)規(guī)則算法對(duì)數(shù)據(jù)進(jìn)行分析,探索數(shù)據(jù)內(nèi)在的規(guī)律及新數(shù)據(jù)對(duì)象的分類預(yù)測(cè)模型。
2.1數(shù)據(jù)挖掘算法
2.1.1C5.0決策樹算法。決策樹是一種樹狀的結(jié)構(gòu)圖,根據(jù)不同的研究問題,將數(shù)據(jù)樣本劃分為不同的樣本子集,并在每個(gè)樣本子集上構(gòu)成一個(gè)子節(jié)點(diǎn),對(duì)測(cè)試數(shù)據(jù)結(jié)果進(jìn)行分類的過程。其生長(zhǎng)過程的本質(zhì)是對(duì)訓(xùn)練樣本的反復(fù)分組。構(gòu)建決策樹是為了快速找出或發(fā)現(xiàn)不同屬性和類別的關(guān)系,并用它來預(yù)測(cè)將來未知類別的類型[3]。
C5.0是在ID3算法基礎(chǔ)上發(fā)展起來的。決策樹的核心問題之一為分枝準(zhǔn)則的確定,C5.0以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量和分割點(diǎn),信息熵為其核心概念。
2.1.2Apriori關(guān)聯(lián)規(guī)則算法。最早的Apriori算法是Agrawal和Srikant于1994年提出的,后經(jīng)不斷改善,現(xiàn)已成為數(shù)據(jù)挖掘中簡(jiǎn)單關(guān)聯(lián)規(guī)則技術(shù)的核心算法。該算法包括兩大部分:第一,產(chǎn)生頻繁項(xiàng)集;第二,依據(jù)頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。所謂頻繁項(xiàng)集是指,對(duì)包含項(xiàng)目的項(xiàng)集,如果其支持度大于等于用戶指定的最小支持度,則稱為頻繁項(xiàng)集。
Apriori算法尋找頻繁項(xiàng)集的策略是自底向上,即從包含少量項(xiàng)目的項(xiàng)集開始依次向包含多個(gè)項(xiàng)目的項(xiàng)集搜索。尋找的過程是一個(gè)不斷迭代的過程,每次迭代均包含兩個(gè)步驟:第一,產(chǎn)生候選集,所謂候選集指有可能成為頻繁項(xiàng)集的項(xiàng)目集合;第二,基于候選集計(jì)算支持度,并確定頻繁項(xiàng)集。不斷重復(fù)上述過程,直至無法產(chǎn)生候選項(xiàng)集為止[4]。
2.2數(shù)據(jù)挖掘過程及分析
2.2.1決策樹生成及解釋。本研究以肌酸激酶、血尿素、睪酮、鐵蛋白、皮質(zhì)醇、白細(xì)胞、紅細(xì)胞、血紅蛋白、紅細(xì)胞壓積、平均紅細(xì)胞血紅蛋白量、平均紅細(xì)胞血紅蛋白濃度、紅細(xì)胞分布寬度為輸入變量,運(yùn)動(dòng)員技術(shù)等級(jí)為輸出變量。讀入數(shù)據(jù)后,先進(jìn)行預(yù)處理,而后對(duì)樣本集變量進(jìn)行分割,分為訓(xùn)練樣本集和檢驗(yàn)樣本集,最后應(yīng)用C5.0算法進(jìn)行建模。生成決策樹如下:
圖1 決策樹的前5層
本研究所得為一顆11層的決策樹,在此不充分展開。決策樹的第一個(gè)最佳分組變量為“肌酸激酶”,并以此形成二叉樹。主要的預(yù)測(cè)結(jié)論為:
①如果肌酸激酶小于或等于69U/L,且皮質(zhì)醇大于14.7ug/dL,則運(yùn)動(dòng)員的技術(shù)等級(jí)為一級(jí)運(yùn)動(dòng)員,置信度為90.714%。
②如果肌酸激酶小于或等于69U/L,皮質(zhì)醇小于或等于14.7 ug/dL,且紅細(xì)胞小于或等于4.34×10∧12/L,則為運(yùn)動(dòng)健將,置信度為92.857%。
③如果肌酸激酶小于或等于69U/L,皮質(zhì)醇小于或等于14.7 ug/dL,且紅細(xì)胞大于4.34×10∧12/L,則為一級(jí)運(yùn)動(dòng)員,置信度為100%。
④如果肌酸激酶大于69U/L,睪酮小于或等于0.39ng/mL,且平均紅細(xì)胞血紅蛋白量大于33.2PG,則為國(guó)際級(jí)運(yùn)動(dòng)健將,置信度為89.412%。
⑤如果肌酸激酶大于69U/L,睪酮大于0.39ng/mL,紅細(xì)胞分布寬度小于或等于36.8FL,且血尿素大于6mmol/L,則為運(yùn)動(dòng)健將,置信度為80.068%。
本模型評(píng)價(jià)中,檢驗(yàn)樣本集的整體預(yù)測(cè)精度為86%,且預(yù)測(cè)置信度均值在正確預(yù)測(cè)和錯(cuò)誤預(yù)測(cè)的樣本上存在差異,因此高置信度可在一定程度上能得到高的預(yù)測(cè)正確率。
綜上所述,C5.0決策樹算法可用于女子排球運(yùn)動(dòng)員技術(shù)等級(jí)的預(yù)測(cè)分析,其中,肌酸激酶為運(yùn)動(dòng)等級(jí)預(yù)測(cè)的最關(guān)鍵因素,其次為睪酮及皮質(zhì)醇。
2.2.2關(guān)聯(lián)分析及解釋。結(jié)合決策樹在分組變量的眾多取值中尋找最佳分割點(diǎn)的功能,利用以上決策樹所得分割點(diǎn)對(duì)數(shù)據(jù)進(jìn)行區(qū)間劃分,將數(shù)值型變量轉(zhuǎn)化為分類型變量,各變量分割點(diǎn)見表1。
表1 數(shù)值型變量分割點(diǎn)
經(jīng)整理所得的數(shù)據(jù)如下:
表2 運(yùn)動(dòng)生化指標(biāo)轉(zhuǎn)化后的數(shù)據(jù)
其中,X1為一級(jí)運(yùn)動(dòng)員,X2為運(yùn)動(dòng)健將,X3為國(guó)際級(jí)運(yùn)動(dòng)健將,A1表示肌酸激酶小于69U/L,A2表示肌酸激酶處于69~224 U/L范圍內(nèi),以此類推。
對(duì)以上數(shù)據(jù)進(jìn)行Apriori算法處理,最低條件支持度設(shè)置為10%,最小規(guī)則置信度設(shè)置為85%,所得結(jié)果見表3。
表3 關(guān)聯(lián)分析結(jié)果
第1條規(guī)則說明皮質(zhì)醇大于14.7ug/dL、血紅蛋白大于130g/L、睪酮小于0.39 ng/mL的運(yùn)動(dòng)員為一級(jí)運(yùn)動(dòng)員的置信度為85%。第2條規(guī)則說明睪酮為0.39~0.68 ng/mL范圍內(nèi)、白細(xì)胞4.4~6.04×10∧9/L范圍內(nèi)、紅細(xì)胞分布寬度-SD大于38.4 FL、平均紅細(xì)胞血紅蛋白濃度大于306 g/L的運(yùn)動(dòng)員為運(yùn)動(dòng)健將的置信度為95%。第4條規(guī)則的支持度最高。6條規(guī)則的前項(xiàng)中均包含睪酮變量,且不同的取值范圍對(duì)應(yīng)不同的運(yùn)動(dòng)等級(jí)。由此可見,運(yùn)動(dòng)員技術(shù)等級(jí)的關(guān)聯(lián)規(guī)則分析中,睪酮為關(guān)鍵變量。
C5.0決策樹算法與Apriori關(guān)聯(lián)規(guī)則算法可用于女子排球運(yùn)動(dòng)員技術(shù)等級(jí)的預(yù)測(cè)及規(guī)律分析。決策樹預(yù)測(cè)分析中,肌酸激酶為最關(guān)鍵因素,其次為睪酮及皮質(zhì)醇。關(guān)聯(lián)規(guī)則分析中,睪酮為關(guān)鍵變量。
總之,相對(duì)于生化指標(biāo)及運(yùn)動(dòng)員技術(shù)等級(jí)間關(guān)系的傳統(tǒng)一般性統(tǒng)計(jì)學(xué)研究,決策樹及關(guān)聯(lián)分析可進(jìn)行深層次的決策及預(yù)測(cè)分析,有利于隱含信息的發(fā)掘及規(guī)律性研究,更為競(jìng)技體育生化測(cè)試的信息反饋提供了新的探索思路。本研究由于數(shù)據(jù)量有限,模型及規(guī)則的預(yù)測(cè)準(zhǔn)確性及概括性不足,以后的研究可從建立較為全面的數(shù)據(jù)庫入手,擴(kuò)充各項(xiàng)指標(biāo),例如體能、身體素質(zhì)、訓(xùn)練強(qiáng)度、運(yùn)動(dòng)生物力學(xué)指標(biāo)等,在此基礎(chǔ)上結(jié)合數(shù)據(jù)挖掘技術(shù),可更好地為女子排球運(yùn)動(dòng)員選拔、訓(xùn)練等提供更充分的參考。
[1]趙鐘暉,韋益毅.女子自由式摔跤運(yùn)動(dòng)員賽前訓(xùn)練期部分生化指標(biāo)的監(jiān)測(cè)研究[J].北京體育大學(xué)學(xué)報(bào),2011,34(5):66-68.
[2]武露凌,季師敏,田春美,等.優(yōu)秀運(yùn)動(dòng)員機(jī)能評(píng)定中肌酸激酶、血尿素等指標(biāo)的個(gè)體化研究[J].體育與科學(xué),2008,29(2):75-77.
[3]于岱峰,鐘亞平,于亞光.基于數(shù)據(jù)挖掘技術(shù)在人體肌肉力量數(shù)據(jù)分析中的應(yīng)用——以人體握力肌肉力量測(cè)試數(shù)據(jù)研究為例[J].體育科學(xué),2010,30(2):70-74.
[4]薛薇,陳歡歌.SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2014.
[5]喬克滿,歐陽為民,孫衛(wèi).關(guān)聯(lián)規(guī)則挖掘技術(shù)在體質(zhì)指標(biāo)分析中的應(yīng)用研究[J].天津體育學(xué)院學(xué)報(bào),2010,25(5):453-455.
Application of Data Mining Technology in Volleyball Athletes’ Biochemical Indexes Analysis
MA Jing,LIU Gong-ju
(1.Scientific Research Department, Zhejiang College of Sports, Hangzhou 311231, China)
Objective:Analyze the relationship between biochemical indexes and the grade of athletes with data mining technology. Explore the practicability of using decision tree and association rule in volleyball athletes’ biochemical indexes analysis. Methods:We applied C5.0 and Apriori algorithm for analyzing 30 volleyball female athletes’ biochemical data, with the IBM SPSS Modeler 14.1 software. Results:A decision tree with 11 levels is built, and the model’s prediction accuracy is 86%. 6 association rules are found. Conclusion:C5.0 and Apriori algorithm can be used for the prediction and regularity analysis of the volleyball female athletes’ grade. Creatine kinase is the most important index for the decision tree, and the testosterone and cortisol are in the next place. Testosterone is the most important index for association rule analysis.
data mining;decision tree;association rule;biochemical index
1004-3624(2016)05-0096-04
2016-06-24
馬靜(1985-),女,助理研究員,碩士,主要研究方向?yàn)檫\(yùn)動(dòng)人體科學(xué).
G804.7
A