王曉貞
(中國礦業(yè)大學體育學院,江蘇 徐州 221116)
理論與方法探索
數(shù)據(jù)挖掘在普通高校大學生體質(zhì)健康數(shù)據(jù)中的應(yīng)用
王曉貞
(中國礦業(yè)大學體育學院,江蘇 徐州 221116)
本文運用數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則FP-growth算法,對普通高校大學生體質(zhì)健康數(shù)據(jù)進行數(shù)據(jù)分析,利用最小支持度和最小置信度,挖掘出滿足條件的頻繁項集,從挖掘的規(guī)則中發(fā)現(xiàn)有價值的數(shù)據(jù)模式,找出我國不同地區(qū)大學生體質(zhì)各項指標的等級分布情況,發(fā)現(xiàn)某地區(qū)大學生體質(zhì)某項指標的不足,進而分析出其中的原因,為有效地提高學生的體質(zhì)健康水平及體育教學的改革提供參考。
體質(zhì)數(shù)據(jù);數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;普通高校;大學生
教育部于2002年7月正式頒布試行《大學生體質(zhì)健康標準》(以下簡稱《標準》),開始對全國高校大學生進行“大學生體質(zhì)健康”測試。《標準》實施幾年來,大部分高校都有了較全面的體質(zhì)數(shù)據(jù)的記錄和統(tǒng)計,面對大量的數(shù)據(jù),原來對體質(zhì)數(shù)據(jù)進行均值分析或是套用規(guī)定的評價公式評價分析的數(shù)據(jù)庫管理方式和數(shù)據(jù)統(tǒng)計方法已經(jīng)逐漸不能適應(yīng)“健康體育”的建設(shè)需求。如何從這些大量的數(shù)據(jù)中,深入尋找體質(zhì)各項指標與其他各種因素間的相互聯(lián)系,發(fā)現(xiàn)諸多因素之間的動態(tài)變化規(guī)律,從而對大學生體質(zhì)數(shù)據(jù)進行深層分析,使之及時準確地提供有價值的信息成為我們研究的重點。本文運用數(shù)據(jù)挖掘技術(shù)對普通高校大學生體質(zhì)健康測試數(shù)據(jù)進行分析,找出體質(zhì)數(shù)據(jù)中有用的模式和規(guī)則,為有效地提高大學生體質(zhì)健康水平和高校的體育教學改革提供參考。
1.1 數(shù)據(jù)挖掘的產(chǎn)生及涵義
數(shù)據(jù)挖掘(DataMining)簡記為DM,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、先前未知的、對決策者有潛在價值的知識和規(guī)則。在1989年舉行的第11屆國際聯(lián)合人工智能學術(shù)會議上,人們首次提出了基于數(shù)據(jù)庫中知識技術(shù),直到1995年,人們才在美國計算機年會上首次提出數(shù)據(jù)挖掘概念。
1.2 數(shù)據(jù)挖掘的模式和方法
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前瞻的、基于知識的決策。其挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識模式。這些模式一般有兩種,即信息型模式和預(yù)測型模式。信息型模式不是用來解決一個特定的問題,而是從數(shù)據(jù)庫挖掘出某領(lǐng)域?qū)<铱赡懿恢赖摹⒂信d趣的知識模式,給這些專家提供一些建議,從而為決策提供指導。常用方法有聚類分析和關(guān)聯(lián)分析等。預(yù)測型模式通常用來解決一個特定的問題,根據(jù)數(shù)據(jù)庫中的已知的屬性的值來預(yù)測另一些未知的屬性值的分布,以此達到預(yù)測的目的。常用方法有回歸分析、線性模型、關(guān)聯(lián)規(guī)則、決策樹預(yù)測、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。
1.3 數(shù)據(jù)挖掘的基本過程和步驟
數(shù)據(jù)挖掘是一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。其基本過程見圖1。
數(shù)據(jù)挖掘的基本過程中各步驟的大體內(nèi)容如下:(1)確定研究對象,清晰地定義出研究問題。(2)數(shù)據(jù)準備。①數(shù)據(jù)的選擇。搜索所有與研究對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。②數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)的質(zhì)量,將數(shù)據(jù)中哪些噪聲數(shù)據(jù)、空缺數(shù)據(jù)和不一致數(shù)據(jù)清除掉,為進一步的分析做準備。③數(shù)據(jù)轉(zhuǎn)換。將預(yù)處理后的數(shù)據(jù)進行規(guī)范化和聚集,轉(zhuǎn)換成數(shù)據(jù)挖掘算法需要的格式。(3)數(shù)據(jù)挖掘。對所得到的經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)運用合適的數(shù)據(jù)挖掘算法進行數(shù)據(jù)的挖掘。(4)結(jié)果分析。解釋并評估結(jié)果,通常用可視化技術(shù)將挖掘結(jié)果以合適的形式提供給用戶,讓用戶對模型結(jié)果做出解釋。(5)知識的同化。將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
表1 示例數(shù)據(jù)庫
圖1 數(shù)據(jù)挖掘的基本過程和步驟
表2 通過創(chuàng)建FP-Tree挖掘頻繁模式
圖2 FP-Tree結(jié)構(gòu)圖
表3 全國地區(qū)分布表
表4 導出的我國六大地區(qū)大學生體質(zhì)各項指標的關(guān)聯(lián)規(guī)則
2.1 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則的概念和模型是1993年Rakesh Agrawal等人提出的。關(guān)聯(lián)規(guī)則挖掘是在大量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項之間的關(guān)系,是當前數(shù)據(jù)挖掘研究的主要模式之一,它側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的聯(lián)系,找出滿足事先給定支持度和可信度閾值的多個域之間的依賴關(guān)系。關(guān)聯(lián)規(guī)則的挖掘問題可以分解成兩個子問題:(1)找出所有頻繁項集。這些項集出現(xiàn)的頻率滿足最小支持度min_sup,即這些項集在數(shù)據(jù)庫中的頻繁性不小于最小支持計數(shù)。(2)從頻繁項目集合中生成所有置信度不小于用戶定義的最小置信度min_conf的關(guān)聯(lián)規(guī)則,即對于任一個頻繁項目集F和F的所有非空真子集S,如果sup(F)/sup(F - S)≥ min_conf,則(F - S)S就是一條有效的關(guān)聯(lián)規(guī)則。
圖3 體質(zhì)健康數(shù)據(jù)表結(jié)構(gòu)
圖4 部分體質(zhì)健康數(shù)據(jù)
經(jīng)典的關(guān)聯(lián)規(guī)則算法主要是Apriori和FP-Growth兩種算法,其他關(guān)聯(lián)規(guī)則的算法都是基于這兩種算法的改進。Apriori算法是最早提出的關(guān)聯(lián)規(guī)則算法,其優(yōu)點是能夠有效地產(chǎn)生出所有關(guān)聯(lián)規(guī)則,存在的問題是Apriori算法對數(shù)據(jù)庫掃描次數(shù)太多,產(chǎn)生的候選集過大,掃描數(shù)據(jù)庫需要花費大量的時間。FP-growth算法一種挖掘頻繁模式的有效算法。該算法的優(yōu)點運行速度快,運行過程中只需要兩次掃描數(shù)據(jù)庫,第一次掃描數(shù)據(jù)庫得到頻繁1-項集;第二次掃描利用頻繁1-項集過濾數(shù)據(jù)庫中那些非頻繁項,同時生成FP-tree。
FP-growth比Apriori算法相比要快一個數(shù)量級,特別是在數(shù)據(jù)項集大的情況下更顯得效率高些。因此,本文選擇使用的是一個基于FP-tree的頻繁模式挖掘算法對普通高校大學生體質(zhì)健康數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘。
2.2 FP-Growth算法
頻繁模式增長 FP-growth(frequent pattern-growth)算法是由 Han 等人于2000 年提出,該算法是一個具有影響力的頻繁模式挖掘算法。算法只需掃描 2 次數(shù)據(jù)庫,第一次掃描數(shù)據(jù)庫,得到 1-頻繁項集;第二次掃描數(shù)據(jù)庫,利用 1-頻繁項集過濾掉數(shù)據(jù)庫中的非頻繁項,同時生成 FP-tree。 由于 FP-tree 蘊涵了所有的頻繁項集,隨后的頻繁項集的挖掘只需要在 FP-tree 上進行。整個挖掘過程由兩個階段組成,第一階段建立 FP-tree,即將數(shù)據(jù)庫中的事務(wù)構(gòu)造成一棵 FP-tree;第二階段為挖掘 FP-tree,即針對 FP-tree挖掘頻繁模式和關(guān)聯(lián)規(guī)則。(表1)
第一階段,F(xiàn)P-tree 的創(chuàng)建。 圖2描述了一個基于表 1 所示的示例數(shù)據(jù)庫構(gòu)造的FP-tree 的例子。
第二階段,F(xiàn)P-tree 的挖掘。表 2 列舉了圖 2所示 FP-tree 挖掘的結(jié)果(最小支持度計數(shù)為 2)。
2.3 FP-growth 算法在普通高校大學生體質(zhì)健康數(shù)據(jù)中的應(yīng)用
2.3.1 挖掘前數(shù)據(jù)的準備本次挖掘的數(shù)據(jù)庫中主要包含以下一些數(shù)據(jù)表,如學生來源信息表(學號、姓名、系別、班級、生源所在地、城鄉(xiāng))、學生體質(zhì)測試成績表(學號、姓名、性別、班級、身高、體重、肺活量、柔韌力量類項目成績、速度靈巧類項目成績和耐力類項目成績)。全國地區(qū)分布表見表3。
2.3.2 使用關(guān)聯(lián)規(guī)則算法 FP-growth 挖掘大學生體質(zhì)數(shù)據(jù)主要過程
(1)數(shù)據(jù)的預(yù)處理。①數(shù)據(jù)的清洗:根據(jù)獲取的原始數(shù)據(jù)的特點,體質(zhì)測量數(shù)據(jù)中的身體情況異常的,如生病、受傷或身體殘疾的學生的測試數(shù)據(jù)以及因事請假或無故缺測的學生,其數(shù)據(jù)值為空或是不完整數(shù)據(jù),這些數(shù)據(jù)都將被視為噪聲刪除而被清理。②數(shù)據(jù)的消減:學生來源信息中只保留學號、性別、籍貫、城鄉(xiāng)與挖掘分析相關(guān)的屬性,學生體質(zhì)表中有些屬性重復反映身體素質(zhì)的某些因素,我們將選擇刪除這些冗余的屬性,如50米跑和立定跳遠兩項指標均反應(yīng)的是學生下肢爆發(fā)力和身體的協(xié)調(diào)性,臺階實驗和女生800米跑或男生1000米跑反應(yīng)的是學生的心血管系統(tǒng)的機能和肌肉耐力水平,根據(jù)研究需要選擇把反應(yīng)各類素質(zhì)的指標我們從中選擇一項。最后消減后的數(shù)據(jù)有身高、體重、肺活量、立定跳遠、臺階試驗、握力、仰臥起坐7項指標。③數(shù)據(jù)的變換:根據(jù)大學生體質(zhì)健康測試評分標準,我們將原學生體質(zhì)表中的成績先轉(zhuǎn)換成得分然后再轉(zhuǎn)化成相應(yīng)的等級,每項指標的等級都分為優(yōu)秀、良好、及格和不及格4個等級,使得每個數(shù)據(jù)指標對分析結(jié)果都具有相當?shù)挠绊懚龋瑥亩箶?shù)據(jù)挖掘的結(jié)果更加合理。另外,還要對某些指標進行組合。由于體質(zhì)數(shù)據(jù)指標中有些指標是幾個指標組合起來才有意義,因此要預(yù)先對一些指標進行組合。例如,將體重與握力指標組合在一起形成握力體重指數(shù),肺活量與體重指標組合在一起形成肺活量體重指數(shù),同樣將所得指數(shù)轉(zhuǎn)化成相應(yīng)的等級。
(2)數(shù)據(jù)的挖掘。將 FP-growth 算法應(yīng)用在普通高校大學生體質(zhì)健康數(shù)據(jù)中,挖掘出大學生體質(zhì)各項成績的等級分布與地區(qū)之間隱含著的關(guān)聯(lián)。
2.3.3 基于FP-Growth算法的體質(zhì)健康數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的實現(xiàn)采用SQL Server2005作為后臺數(shù)據(jù)庫,經(jīng)預(yù)處理以后,體質(zhì)健康數(shù)據(jù)在數(shù)據(jù)庫中的存儲情況如圖3和圖4所示。
當取最小支持度(Min-sup)為0.10,最小置信度(Min-conf)為0.45時,通過FP-Growth算對普通高校大學生體質(zhì)數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,得出我國六大地區(qū)大學生體質(zhì)各項指標的關(guān)聯(lián)規(guī)則見表4。
2.3.4 普通高校大學生體質(zhì)健康數(shù)據(jù)挖掘結(jié)果分析從表4中1~6的6條規(guī)則我們可以看出,我國6大地區(qū)身高體重指數(shù)等級中正常體重的百分比的數(shù)值基本上都在45%~50%之間,說明我國大學生體質(zhì)指標中身高體重等級的正常值相對較低。體質(zhì)指標中身高體重的等級分為肥胖、超重、體重較低、營養(yǎng)不良、正常體重5個等級,除正常體重等級外,其他4個等級均屬于不正常的等級。因此,從數(shù)據(jù)的挖掘結(jié)果來看,我國大學生的有近一半的學生出現(xiàn)體重指標不正常的現(xiàn)象,有的因體重過高出現(xiàn)肥胖或超重,有的體重過低而出現(xiàn)體重較低或營養(yǎng)不良。
身高、體重作為身體形態(tài)特征的兩項重要基本指標,不僅反映了學生骨骼生長發(fā)育的基本特點,而且可以較為準確地反映學生生長發(fā)育水平。隨著我國綜合國力的提高,生活水平的普遍改善,如若不加以正確引導,熱量、脂肪等會攝入過多及食物結(jié)構(gòu)不合理,加之營養(yǎng)科學知識的宣傳普及滯后,會導致學生肥胖和超重現(xiàn)象的發(fā)生。
另外,當前人們越來越注重體型,保持良好體型的觀念已經(jīng)深入人心。但由于受到女性“以瘦為美”審美觀的影響,使得許多在校女大學生過分追求苗條的身材,有些甚至不吃早餐和節(jié)食,造成營養(yǎng)不良,從而體重較輕和營養(yǎng)不良的比例較高。而大多數(shù)男生則很少受到這種思想觀念的影響,體重較輕的比例較小,但超重和肥胖率略高。因此,加強營養(yǎng)學知識的傳授,特別是一日三餐營養(yǎng)的合理搭配,要引導學生培養(yǎng)良好的飲食習慣。
從規(guī)則7和8可以看出,華北地區(qū)和西北地區(qū)大學生速度、靈敏類等級不及格分別是69%和66%,這兩條規(guī)則的置信度都較高,說明華北地區(qū)和西北地區(qū)大學生的速度、靈巧類素質(zhì)相對于我國其他地區(qū)較差。測試速度、靈巧類素質(zhì)我們所選的項目是立定跳遠,立定跳遠主要是測量向前跳躍時下肢肌肉的爆發(fā)力。力量(最大力量)在體育運動和日常生活中都是非常重要的身體素質(zhì)。腿部的爆發(fā)力是以腿部力量為基礎(chǔ),沒有力量就談不上爆發(fā)力,也談不上肌肉的耐力。立定跳遠成績較差的主要原因可能是我們的體育課教學中缺乏有針對性的下肢力量的練習或者在平時的體育鍛煉中下肢練習不足。
規(guī)則9反應(yīng)東北地區(qū)學生肺活量體重等級不及格的百分比達到63%,說明東北地區(qū)學生肺活量體重等級普遍低于我國其他地區(qū)。分析原因認為,可能與東北地區(qū)在校學生缺乏鍛煉尤其是有氧運動有關(guān),從而導致呼吸肌力量下降,呼吸機能的潛力減小,呼吸深度變淺。
規(guī)則10反應(yīng)出東北地區(qū)大學生耐力類項目不及格者達61%。規(guī)則9和10的數(shù)據(jù)說明心肺機能對于肺活體重指數(shù)和臺階試驗起著決定性的作用,當學生心肺機能較低時這兩項指標的也會較低,兩者之間有一定的相關(guān)性,而提高心肺機能最有效的鍛煉就是進行有氧運動。因此,應(yīng)注意加強有氧運動的練習,從而提高其心肺機能。
本文主要運用FP-Growth算法對普通高校大學生體質(zhì)健康測試數(shù)據(jù)進行關(guān)聯(lián)規(guī)則的挖掘,從大量的數(shù)據(jù)中我們得出我國普通高校大學生正常體重等級普通較低,各地區(qū)間沒有明顯差異,華北、西北地區(qū)學生下肢爆發(fā)力較差,東北地區(qū)學生心肺機能水平較其他地區(qū)低。這些有價值的規(guī)則和信息,對我們建立行之有效的體育教學改革思路提供參考依據(jù)。
[1] Fayyad U,Piatetsky-Shapiro G,Smyth P. the KDD process for extracting useful knowledge from volumes of data [J].Communications of the ACM,1996,39(11):27-34.
[2] Jiawei Han,Micheline Kambr.Data Mining Concepts and Techniques [M].San Francisco:Morgan Kaufmann Publishers,2000.
[3] 陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學出版社,2006.
G807.4
A
1674-151X(2011)05-109-04
10.3969/j.issn.1674-151x.2011.05.053
投稿日期:2010-11-17
王曉貞(1970 ~),副教授,碩士研究生導師。研究方向:體育教育訓練學和體育社會學。