姚曦
摘要:為提高大學生體質(zhì)健康數(shù)據(jù)利用率,通過聚類分析對數(shù)據(jù)進行分組,為大學生體質(zhì)分層次教學提供決策支持。在K均值聚類算法基礎上,分別從K值選取與初始點選取兩方面進行算法改進。實驗結(jié)果表明,改進的K均值聚類算法效率更高,分組結(jié)果更加合理且易于解釋,可為學校制訂智能化運動處方提供有效參考。
關鍵詞:大學生;體質(zhì)健康;聚類;K均值算法
DOIDOI:10.11907/rjdk.181806
中圖分類號:TP301
文獻標識碼:A 文章編號:1672-7800(2018)010-0055-05
英文摘要Abstract:In order to improve the physical health data utilization rate of college students, the data were grouped by cluster analysis, and the decision support was provided for college students′ physique stratification teaching. On the basis of k-means clustering algorithm, the algorithm is improved based on the selection of K value and the selection of initial point. The experimental results show that the improved k-means clustering algorithm is more efficient, grouping results are more reasonable and easier to explain, it provides effective reference for schools to carry out the intelligent exercise prescription.
英文關鍵詞Key Words:college students; physical health; clustering; K-Means
0 引言
為貫徹落實“健康第一”的指導思想,國家于2007年、2014年修訂完善了《國家學生體質(zhì)健康標準》[1],要求每年在小學、初中、高中、大學的各年級全面開展學生體質(zhì)健康標準測試工作[2],同時,學校將體質(zhì)健康等級納入學生整體素質(zhì)考核中。各級學校收集整理體質(zhì)健康數(shù)據(jù)后,統(tǒng)一上報國家學生體質(zhì)健康標準數(shù)據(jù)管理與分析系統(tǒng)。但學校收集的大量體質(zhì)健康數(shù)據(jù),只為完成每年的測試和上報任務,沒有得到有效利用。
學者對學生體質(zhì)健康標準進行了諸多研究。洪海瀟、蘇連勇[3]按照區(qū)域性別分類,篩選出天津市大學生1995年、2000年、2005年、2010年的身高、體重指標,通過BMI指數(shù)確定近15年來天津市大學生身體脂肪相對水平發(fā)展態(tài)勢。羅奇[4]、葉飛[5]運用體質(zhì)健康管理指標體系,開發(fā)了大學生個性化體質(zhì)健康管理系統(tǒng)。覃寅寅[6]對學生體質(zhì)健康數(shù)據(jù)進行了歸納整理,提出了學生體質(zhì)健康檔案分析系統(tǒng)。以上研究關注了學生體質(zhì)健康數(shù)據(jù)的系統(tǒng)化與檔案構(gòu)建,但數(shù)據(jù)挖掘涉及較少。
美國“總統(tǒng)挑戰(zhàn)”計劃和健身計劃(FITNESSGRAM)[7-11]在美國普遍實施,其對體質(zhì)數(shù)據(jù)進行科學分析,對各體質(zhì)群體生成報告并提出科學的運動建議,有效促進了全民體質(zhì)健康發(fā)展。綜上,對體質(zhì)健康數(shù)據(jù)進行挖掘分析,進而構(gòu)建準確、有效的學生體質(zhì)健康細分模型具有重要意義。
1 研究目的
本文采用聚類分析技術(shù)[12-14]對學生體質(zhì)健康數(shù)據(jù)進行挖掘,提出改進的聚類算法以提高聚類性能和準確度。根據(jù)改進的聚類算法構(gòu)建大學生體質(zhì)健康細分模型,并以該模型對數(shù)據(jù)進行評價,針對每個聚類分組提出健康運動處方,達到拓展體質(zhì)健康管理理論應用領域,優(yōu)化學校體育教學工作的目的。
2 研究對象與方法
以某學院2015-2017年大一、大二、大三的體質(zhì)健康測試數(shù)據(jù)為研究對象,以學年為單位分年級抽取數(shù)據(jù)進行聚類分析。在校學生每年進行一次體質(zhì)測試,每位學生共收集18項數(shù)據(jù),其中基本數(shù)據(jù)10項:年級、班級編號、班級名稱、學籍號、民族、姓名、性別、出生日期、身份證號、家庭住址。8項體質(zhì)測試數(shù)據(jù):身高(度量單位為cm)、體重(度量單位為kg)、肺活量、50m跑、立定跳遠、坐位體前屈、800m跑或1 000m跑(女生測800m跑、男生測1 000m跑)、一分鐘仰臥起坐或引體向上(女生測一分鐘仰臥起坐、男生測引體向上)。所有體質(zhì)測試數(shù)據(jù)均使用 Microsoft Excel進行存儲,而后使用R語言對數(shù)據(jù)進行標準化處理,最后選取反映身體素質(zhì)指標的5項數(shù)據(jù)(50m跑、立定跳遠、坐位體前屈、800m跑或1 000m跑、一分鐘仰臥起坐或引體向上)進行聚類挖掘。
本文選用R語言[15]作為數(shù)據(jù)分析的軟件平臺。R語言是一種面向統(tǒng)計分析和數(shù)據(jù)挖掘的共享軟件平臺,前身是1976年美國貝爾實驗室開發(fā)的S語言。R語言擅長統(tǒng)計計算和繪圖,是一套開源的數(shù)據(jù)分析解決方案,可運行在Windows、Linux、Mac OS X多操作系統(tǒng)上。
3 K-Means聚類
本文采用k-Means[16-17]聚類算法進行算法改進。K-Means是一種分割性的聚類算法,算法易于實現(xiàn),具有相當高的效率,算法流程如圖1所示。首先,從聚類數(shù)據(jù)中隨機選取K個對象作為初始點,也稱為質(zhì)心,對應K個類;然后計算其余各個對象與K個初始點的距離,將其分配給與之最近距離的初始點,形成初始的聚類分組。分配完后,重新計算每個類的平均值作為新的質(zhì)心,根據(jù)就近原則重新進行聚類分組,直至聚類質(zhì)心不再改變或迭代次數(shù)達到要求。由于初始聚類是在隨機選取質(zhì)心的基礎上產(chǎn)生的,無法確保所得的K個類就是客觀存在的“自然小類”,所以K-Means算法需要多次重復。
從圖3可以看出,K值從3-6類變化時,WSSE值有一個明顯的下降趨勢,即點的斜率變大。6類以后,下降速度放慢,說明聚成6類對數(shù)據(jù)是一個很好的擬合,再次驗證了最佳聚類個數(shù)選6。并不是每個聚類的拐點都能這樣找到,因此WSSE只作為輔助驗證。
4.2 初始點選取改進
初始點選取對算法的收斂速度和穩(wěn)定性產(chǎn)生很大影響。K-Means聚類算法如無指定初始點,將由系統(tǒng)從數(shù)據(jù)中隨機抽取K個對象作為初始點。
本研究采用選擇距離盡可能遠的改進方法。首先隨機選擇一個對象作為第一個初始點,其次選擇距離該對象最遠的對象作為第二個初始點,而后選擇距離前兩個對象的距離之和最大的對象作為第三個初始點,以此類推。按照同樣的原則直至選出K個初始點,選取流程如圖4所示。
研究結(jié)果顯示,相較于K-Means算法,改進的K-Means算法聚類在聚類效果與聚類解釋上都更加優(yōu)越。在參與聚類分析各個屬性上,簇間差異明顯且各個分組容易解釋,總體聚類效果良好。
5 結(jié)語
本文以大學生體質(zhì)健康數(shù)據(jù)為研究對象,基于K-Means算法提出了改進的K-Means算法,詳述了改進的方法。以某學院2015年大一學生體質(zhì)健康測試數(shù)據(jù)為例,對兩種算法進行了評估比較,證實改進的K-Means算法在技術(shù)可行性與優(yōu)越性上更佳,以此為基礎構(gòu)建大學生體質(zhì)健康評價細分級模型,為建立行之有效的高校體育教學體系提供了科學的數(shù)據(jù)支持。
參考文獻:
[1] 教育部.國家學生體質(zhì)健康標準[S]. GB/T 20027-2014.
[2] 教育部.關于印發(fā)《學生體質(zhì)健康監(jiān)測評價辦法》等三個文件的通知 [Z]. 教體藝[2014]3號,2014.
[3] 洪海瀟,蘇連勇.天津市大學生 BMI 指數(shù)的15年動態(tài)分析[J].首都體育學院學報,2014,26(3):279-283.
[4] 羅奇.大學生體質(zhì)健康管理的研究與應用[D].武漢:華中師范大學,2011.
[5] 葉飛.四川省職業(yè)技術(shù)學院學生體質(zhì)監(jiān)控系統(tǒng)的設計與實現(xiàn)[D].成都:電子科技大學,2011.
[6] 覃寅寅, 徐翔鴻. 學生體質(zhì)健康檔案(SPH)分析系統(tǒng)的構(gòu)建[J].北京體育大學學報,2011,34(5):69-72.
[7] 李紅娟,王正珍.美國青少年體質(zhì)測定系統(tǒng)的演進[J].北京體育大學學報,2013,36 (10):51-88.
[8] 張艷超.中美學生體質(zhì)測量與評價實證研究[D].南京:南京師范大學,2014.
[9] 石曉峰,王飛. SOM 和PCA對體質(zhì)健康數(shù)據(jù)的模式識別及可視化分析——以學生體質(zhì)地域特征為視角[J].天津體育學院學報,2015,30(4):282-287.
[10] 何江川,楊放.中國南方少數(shù)民族學生體質(zhì)特征聚類與因子結(jié)構(gòu)分析[J].中國組織工程研究,2012,16(2):362-366.
[11] ARDOY D,F(xiàn)ERN NDEZ-RODR GUEZ J,JIMNEZ-PAV N D,et al. A physical education trial improves adolescents′ cognitive performance and academic achievement:the EDUFIT study [J]. Scandinavian Journal of Medicine & Science in Sports,2014,24(1): 52-61.
[12] TAN P N,STEINBACH M,KUMAR V.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2011:305-347.
[13] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學學報,2010,23(2):109-113.
[14] 王剛.數(shù)據(jù)挖掘聚類算法研究綜述[J].科技導報, 2010,23(8)17:20.
[15] ROBERT I.KABACOFF.R語言實戰(zhàn)[M].北京:人民郵電出版社,2016:4-18.
[16] BAI L,LIANG J Y,SUI C.Fast global k-means clustering based on local geometrical Information[J].Information Sciences,2013(245):168-180.
[17] 黃解軍,潘和平.數(shù)據(jù)挖掘技術(shù)的應用研究[J].計算機工程與應用,2013,19(4):49-53.
[18] HAN J W,KANMBER M, PEI J.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012:315-319.
[19] WU M L,CHANG C H,LIU R Z.Integrating content-based filtering with collaborative filtering using co-clustering with augmented matrices[J].Expert Systems with Applications,2014,50(6):2754-2761.
[20] TREEATTANAPITAK K,JARUSKULCHAI C.Exponential Fuzzy C-Means for collaborative filtering[J].Journal of Computer Science Technology,2012(3):567-576.
(責任編輯:杜能鋼)