喬克滿,孫 衛(wèi)
身體形態(tài)、機(jī)能、素質(zhì)指標(biāo)的關(guān)聯(lián)分析
喬克滿1,孫 衛(wèi)2
(1.巢湖學(xué)院體育系,安徽巢湖238000;2.上海體育學(xué)院運(yùn)動(dòng)科學(xué)學(xué)院,上海200438)
以2005年上海市國(guó)民體質(zhì)監(jiān)測(cè)數(shù)據(jù)庫(kù)中11 407條20~39歲成年人數(shù)據(jù)為對(duì)象,運(yùn)用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),對(duì)市民身體形態(tài)、機(jī)能和素質(zhì)中的21項(xiàng)重要體質(zhì)指標(biāo)進(jìn)行了處理和分析,從中得到了一些體質(zhì)指標(biāo)關(guān)系:肺活量小則握力小、縱跳成績(jī)差,肺活量大則反應(yīng)速度快;握力小則身體平衡能力較差;握力與身體肥胖程度呈近似反比關(guān)系.
體質(zhì);身體形態(tài);身體機(jī)能;身體素質(zhì);關(guān)聯(lián)規(guī)則
體質(zhì)包含了身體形態(tài)、身體機(jī)能、身體素質(zhì)、心理素質(zhì)、適應(yīng)能力等五個(gè)大的方面.其中,身體形態(tài)、身體機(jī)能和身體素質(zhì)是當(dāng)前體質(zhì)數(shù)據(jù)采集的主要三大指標(biāo)群.對(duì)三大指標(biāo)群具體指標(biāo)項(xiàng)之間聯(lián)系的研究是體質(zhì)科研領(lǐng)域廣泛關(guān)注的一個(gè)重要方向.基于傳統(tǒng)統(tǒng)計(jì)方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行的分析研究,不易發(fā)現(xiàn)數(shù)據(jù)中隱藏較深的潛在規(guī)律.人工智能數(shù)據(jù)挖掘技術(shù)的發(fā)展為體質(zhì)研究提供了新思路,在醫(yī)療[1]、保險(xiǎn)[2]、通信[3]及競(jìng)技體育[4,5]等領(lǐng)域得到了廣泛應(yīng)用,可用于對(duì)大量的體質(zhì)數(shù)據(jù)進(jìn)行深層次分析,發(fā)掘體質(zhì)指標(biāo)之間潛在的聯(lián)系和規(guī)律,有利于體質(zhì)監(jiān)測(cè)方法的改進(jìn).
數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取出隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過(guò)程[6].它不僅僅局限于對(duì)數(shù)據(jù)的查詢和訪問(wèn),而且能夠找出數(shù)據(jù)之間潛在的聯(lián)系.在數(shù)據(jù)挖掘的知識(shí)模式中,關(guān)聯(lián)規(guī)則模式是比較重要和成熟的一種.
關(guān)聯(lián)規(guī)則(Association Rules)又稱關(guān)聯(lián)分析,是由Rakesh Agrgwal等人首先提出的一個(gè)重要的 KDD研究課題[7],它反映了大量數(shù)據(jù)中項(xiàng)目之間有趣的關(guān)聯(lián)或相關(guān)關(guān)系.關(guān)聯(lián)規(guī)則是描述在一個(gè)事務(wù)中事件之間同時(shí)出現(xiàn)的規(guī)律性知識(shí)模式,而體質(zhì)指標(biāo)問(wèn)題的關(guān)鍵是弄清楚各指標(biāo)項(xiàng)之間的關(guān)聯(lián)關(guān)系.因此,體質(zhì)指標(biāo)項(xiàng)之間的關(guān)系問(wèn)題很適合于轉(zhuǎn)化為關(guān)聯(lián)規(guī)則挖掘問(wèn)題.
關(guān)聯(lián)規(guī)則算法的過(guò)程主要分為兩步:第一步為挖掘頻繁項(xiàng)集.在事務(wù)數(shù)據(jù)庫(kù)中找出所有支持度滿足Support≥Minsup的項(xiàng)目集,即頻繁項(xiàng)集或大項(xiàng)集.挖掘頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則算法的核心部分,占據(jù)整個(gè)計(jì)算量的大部分.它是通過(guò)逐層搜索的迭代方法,首先找出所有頻繁1-項(xiàng)目集L1,L1用于搜索頻繁2-項(xiàng)目集L2,如此類推,直到找不到頻繁項(xiàng)集為止.第二步為產(chǎn)生規(guī)則,使用頻繁項(xiàng)目集產(chǎn)生期望的強(qiáng)規(guī)則,產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則的基本原則是其置信度不小于最小置信度閾值,即Confidence≥Minconf.
3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)對(duì)象是2005年上海市國(guó)民體質(zhì)監(jiān)測(cè)數(shù)據(jù)庫(kù)中的11 407條20~39歲成年人數(shù)據(jù).實(shí)驗(yàn)平臺(tái)是微軟Windows XP/Windows Server 2003,軟件環(huán)境為Visual Studio和Access數(shù)據(jù)庫(kù).本實(shí)驗(yàn)選取數(shù)據(jù)庫(kù)中身體形態(tài)(身高、體重等)、身體機(jī)能(安靜脈搏、肺活量等)和身體素質(zhì)(縱跳、握力等)21項(xiàng)體質(zhì)指標(biāo),分析它們之間的潛在關(guān)聯(lián).
原始數(shù)據(jù)的預(yù)處理:1)預(yù)處理數(shù)據(jù)庫(kù)字段.根據(jù)運(yùn)動(dòng)人體科學(xué)規(guī)律,在數(shù)據(jù)庫(kù)中創(chuàng)建了BMI指數(shù)(體重/身高2)、腰臀比(腰圍/臀圍)、皮褶厚度、臺(tái)階指數(shù)等新的指標(biāo)項(xiàng).2)缺失值處理.原始數(shù)據(jù)庫(kù)中缺失數(shù)據(jù)所占比率較低,本實(shí)驗(yàn)將這些數(shù)據(jù)(記錄)剔除及均值處理.3)連續(xù)型等量化數(shù)據(jù)的離散化處理.把連續(xù)型量化數(shù)據(jù)預(yù)處理為相對(duì)分布均勻的離散型數(shù)據(jù),滿足關(guān)聯(lián)規(guī)則挖掘?qū)嶒?yàn)的數(shù)據(jù)要求.數(shù)據(jù)預(yù)處理過(guò)程中保持了數(shù)據(jù)的完整性.
3.2 身體形態(tài)、機(jī)能和素質(zhì)的挖掘?qū)嶒?yàn)
身體形態(tài)、身體機(jī)能和身體素質(zhì),是實(shí)驗(yàn)研究的三大指標(biāo)群.實(shí)驗(yàn)設(shè)計(jì)中,三者既是實(shí)驗(yàn)的數(shù)據(jù)輸入項(xiàng),又是實(shí)驗(yàn)的數(shù)據(jù)輸出項(xiàng).實(shí)驗(yàn)的具體過(guò)程如圖1所示.
圖1 挖掘?qū)嶒?yàn)流程圖
數(shù)據(jù)挖掘過(guò)程中,需要設(shè)置和調(diào)整閾值參數(shù).按照關(guān)聯(lián)規(guī)則原理,首先查找頻繁項(xiàng)集,如表1所示:第一列是頻繁項(xiàng)集的支持?jǐn)?shù),第二列為項(xiàng)集的大小,第三列為具體的頻繁項(xiàng)集,表1只顯示出了一部分的頻繁項(xiàng)集.
表1 部分頻繁2-項(xiàng)目集
然后根據(jù)頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則,如表2所示:第一列是關(guān)聯(lián)規(guī)則的置信度,第二列是具體的規(guī)則.在產(chǎn)生的規(guī)則中,絕大多數(shù)為已知知識(shí),如表2所示第二條規(guī)則,握力小的人群中有79.3%的人背力也小.因而對(duì)產(chǎn)生的大量規(guī)則,需結(jié)合運(yùn)動(dòng)人體科學(xué)知識(shí)做進(jìn)一步的整理和分析.
表2 部分關(guān)聯(lián)規(guī)則
實(shí)驗(yàn)獲得的規(guī)則大致可以分為三類:1)驗(yàn)證型規(guī)則,即體質(zhì)研究專家的觀點(diǎn)、論斷等得到數(shù)據(jù)的支持性驗(yàn)證的規(guī)則,占了實(shí)驗(yàn)產(chǎn)生規(guī)則的97%以上;2)含有潛在新知識(shí)的規(guī)則,即事先未知的、隱含的、潛在有用的知識(shí)和信息;3)看似“不合理”的規(guī)則,即與傳統(tǒng)理論和實(shí)踐有明顯偏差的結(jié)果,一般是由于采集或?qū)嶒?yàn)方法不當(dāng)造成的.1)類規(guī)則證實(shí)了關(guān)聯(lián)規(guī)則算法用于體質(zhì)研究的有效性,也對(duì)現(xiàn)有的體質(zhì)相關(guān)知識(shí)給予了數(shù)據(jù)驗(yàn)證.研究中感興趣的是2)類及3)類規(guī)則,如表3所示.
表3 整理后的2)類及3)類規(guī)則
?
規(guī)則1表示“肺活量小的受訪者中有54.2%的握力也小”,該條規(guī)則的支持度為13.4%.結(jié)合規(guī)則2,當(dāng)體重也較輕時(shí),則有69.9%的受訪者握力小.可見(jiàn)握力與肺活量有一定的關(guān)系,特別是在體重較輕的人群中,兩者關(guān)系尤為明顯.同理,規(guī)則3和4分別反映出肺活量與爆發(fā)力以及反應(yīng)能力之間的關(guān)系.肺活量小,縱跳成績(jī)差;肺活量大,反應(yīng)速度很快.查閱相關(guān)文獻(xiàn),并未見(jiàn)肺活量與人體力量、爆發(fā)力和反應(yīng)能力有直接關(guān)系.規(guī)則5:握力較小的人群中有69.1%的人閉眼單腳站立成績(jī)很差.也就是說(shuō),人體力量與自身的協(xié)調(diào)平衡能力存在某種關(guān)聯(lián).經(jīng)查閱文獻(xiàn)及咨詢專家后,認(rèn)為這可能是力量、協(xié)調(diào)平衡能力均與人體柔韌性有關(guān).規(guī)則6:“握力大而皮褶厚度小”,反映出握力大小與身體肥胖成反比關(guān)系.規(guī)則7:歐姆龍?bào)w脂率很大而握力較小,反映出與規(guī)則6相似的規(guī)律.結(jié)合身高、體重、BMI指數(shù)以及背力來(lái)考慮,發(fā)現(xiàn)背力大小與身體的肥胖程度近似成正比關(guān)系,而握力大小則與身體肥胖程度近似成反比關(guān)系.
關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以在海量數(shù)據(jù)中發(fā)現(xiàn)那些事先不為人知的知識(shí)和信息,能很好的應(yīng)用于體育有關(guān)領(lǐng)域的研究.體質(zhì)監(jiān)測(cè)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘?qū)嶒?yàn),證明了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)應(yīng)用的有效性和可行性.通過(guò)運(yùn)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,對(duì)身體形態(tài)、機(jī)能和素質(zhì)的多項(xiàng)指標(biāo)的分析,從中發(fā)現(xiàn)了一些異乎尋常的有趣關(guān)聯(lián).如:1)肺活量大小與人體力量、爆發(fā)力以及反應(yīng)能力均有一定的關(guān)系;2)握力大小與身體協(xié)調(diào)平衡能力成近似正比關(guān)系;3)身體肥胖程度與背力大小成近似正比關(guān)系,與握力大小成近似反比關(guān)系.但實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),下一步的工作擬通過(guò)實(shí)驗(yàn)的方法來(lái)檢驗(yàn)這些規(guī)則的真?zhèn)涡耘c實(shí)用性.
致謝:本文實(shí)驗(yàn)結(jié)果的解析得到了上海體育學(xué)院運(yùn)動(dòng)科學(xué)學(xué)院莊潔副教授悉心指導(dǎo)和幫助,特此致謝!
[1]楊杰,沈利,胡英.結(jié)合數(shù)據(jù)融合和數(shù)據(jù)挖掘的醫(yī)療監(jiān)護(hù)報(bào)警[J].計(jì)算機(jī)仿真,2000(6):39-41.
[2]趙丹.數(shù)據(jù)挖掘技術(shù)在社會(huì)保險(xiǎn)決策分析上的應(yīng)用[J].信息技術(shù),2007(5):122-124.
[3]賈琳,李明.基于數(shù)據(jù)挖掘的電信客戶流失模型的建立與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2004(4):185-187.
[4]戴敏,唐樹剛.基于關(guān)聯(lián)規(guī)則挖掘的運(yùn)動(dòng)員體能指標(biāo)優(yōu)化分析[J].天津理工學(xué)院學(xué)報(bào),2001(3):76-79.
[5]高洪歌,趙會(huì)群.關(guān)聯(lián)規(guī)則挖掘在乒乓球比賽技戰(zhàn)術(shù)分析中的應(yīng)用[J].北方工業(yè)大學(xué)學(xué)報(bào),2006,18(1):15-20.
[6]Fayyad U,Piatetsky-Shapiro G,Smyth P.The KDD process for extracting useful knowledge from volumes of data[J].Communications of the ACM,1996,39 (11):27-34.
[7]Agrawal R,Imielinski T,Swami A.Mining Association Rules Between Sets of Items in Large Databases [M]//Proc of Very Large Data Bases Conf.San Francisco:Morgan Kaufmann,1993:207-216.
Association analysis on indices of body pattern,function and content
QIAO Keman1,SUN Wei2
(1.Department.P E,Chaohu College,Chaohu Anhui 238000,China;
2.School of Kinesiology,Shanghai University of Sport,Shanghai 200438,China)
Based on the 11407 data of adult between 20 and 39 in the database of citizens’fitness in shanghai and through association rules,this paper analyzed the citizens’body pattern,function and content and obtained the following potential relationship:low vital capacity shows low grip and low jump,high vital capacity shows quick speed,low grip reflects bad body balance,and nearly inverse ration between grip and body fatness.
fitness;body pattern;body function;body content;association rules
G80
A
1671-9476(2010)05-0144-03
2010-02-17;
2010-05-11
喬克滿(1979-),男,安徽宿松人,講師,碩士,研究方向?yàn)轶w育信息管理.