亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Weka軟件的數(shù)據(jù)挖掘技術在學生體質(zhì)健康分析中的應用

        2022-06-09 09:00:50高巖汪正焰王志玲
        文體用品與科技 2022年10期
        關鍵詞:數(shù)據(jù)挖掘體質(zhì)規(guī)則

        高巖 汪正焰 王志玲

        (江蘇信息職業(yè)技術學院基礎部體育部 江蘇 無錫 214153)

        信息技術革命衍生出的大數(shù)據(jù)時代讓世界上的每個角落通過互聯(lián)網(wǎng)絡聯(lián)系到一起,信息爆炸時代產(chǎn)生了海量數(shù)據(jù),應運而生的數(shù)據(jù)挖掘技術能夠在浩瀚無垠的信息海洋中去粗取精、去偽存真地將浩如煙海的數(shù)據(jù)轉(zhuǎn)換成知識。

        1、研究目的

        近年來,體育領域中不乏數(shù)據(jù)挖掘的身影,主要應用在競技體育訓練比賽、體質(zhì)健康監(jiān)測、體育教學、體育新聞報道和體育產(chǎn)業(yè)等領域之中。本文通過Weka軟件對學生體質(zhì)健康測試的相關數(shù)據(jù)進行分析,探究數(shù)據(jù)挖掘在學生體質(zhì)健康分析中的應用。

        2、研究方法

        2.1、文獻資料法

        通過登錄CNKI中國學術期刊網(wǎng)絡出版總庫、CNKI中國優(yōu)秀碩士學位論文全文數(shù)據(jù)庫、維普中文期刊數(shù)據(jù)庫、萬方學術期刊、萬方數(shù)據(jù)知識服務平臺和高校圖書館聯(lián)盟文獻共享服務平臺獲得國內(nèi)外足球運動訓練負荷研究的最新文獻。

        2.2、數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是一種信息提取活動,它是要用自動化的方法對大量數(shù)據(jù)進行系統(tǒng)分析,目標是發(fā)現(xiàn)在數(shù)據(jù)庫中有用的隱藏因素?;谶@些發(fā)現(xiàn),信息工作者能夠更好地做出決策和解決問題。數(shù)據(jù)挖掘是一門綜合性的學科,它的主要分析思想和方法來源于統(tǒng)計學、模式識別、公式發(fā)現(xiàn)、仿生物技術、人工智能、模糊數(shù)學等學科。

        本文使用Weka,一種使用java語言編寫的數(shù)據(jù)挖掘機器學習軟件,主要應用于科研、教育和應用領域,是目前掀起的數(shù)據(jù)挖掘和機器學習的熱潮中,較為友善的一款軟件,其代碼開源,可以免費下載使用,且操作界面友好。

        3、結(jié)果與分析

        3.1、數(shù)據(jù)挖掘?qū)ο蠹皵?shù)據(jù)收集

        本文以某高校大一、大二、大三、大四的體質(zhì)健康測試數(shù)據(jù)研究對象,對學生體質(zhì)健康數(shù)據(jù)挖掘進行分析。

        3.2、數(shù)據(jù)準備

        原數(shù)據(jù)格式為.xsl,通過Excel轉(zhuǎn)成.csv格式進行數(shù)據(jù)挖掘,男生數(shù)據(jù)556條,女生數(shù)據(jù)577條,8個屬性值,分別為身高體重分數(shù)H-Wr、 肺活量體重分數(shù)F-Wr、50m跑50mr、1000m/800m1000/800r、坐位體前屈ZWTQQr、立定跳遠LDTYr、仰臥起坐/引體向上Y/Yr、總分成績ZFDJ,除身高體重分數(shù)H-Wr屬性的值分為low Weight、normal、overWeight和obesity外,其他屬性的值均分別為fail、quality、good和excellent。

        在數(shù)據(jù)存取過程中由于人工失誤或機器故障可能導致數(shù)據(jù)出現(xiàn)噪聲、不完整和不規(guī)則。噪聲在這里特指的是數(shù)據(jù)背離有效區(qū)間而出現(xiàn)的錯誤,比方說,坐位體前屈的測試數(shù)據(jù)會出現(xiàn)負值,但年齡、跳遠等是不可能出現(xiàn)負數(shù)的;不完整是指缺乏要分析的屬性值,比如,要分析成績,某個學生被錄進系統(tǒng)中,有相關信息卻沒有錄入成績,或因病缺席等因素導致個別測試項目沒有測,某幾項數(shù)據(jù)出現(xiàn)空白;不規(guī)則也叫不一致,在不同的存儲單元儲存的某些相同的體質(zhì)測試數(shù)據(jù)可能存在名稱或格式上的差異。數(shù)據(jù)的這幾個性質(zhì)都給數(shù)據(jù)挖掘帶來難度,為了方便快捷的分析學生體質(zhì)建康,我們需要預先對數(shù)據(jù)進行處理,以便分析??梢圆捎靡韵绿幚矸椒▽τ性肼?、不完善、不規(guī)則的數(shù)據(jù)進行處理:

        (1)數(shù)據(jù)轉(zhuǎn)換。

        由于Weka數(shù)據(jù)處理的常用文件格式為.arff和.csv兩種,需要對數(shù)據(jù)進行格式的轉(zhuǎn)換可通過Excel和Ultra-Edit進行處理。

        (2)數(shù)據(jù)清理。

        數(shù)據(jù)因為測試機器或是人工原因?qū)е聰?shù)據(jù)出現(xiàn)的缺失、有噪音和非法數(shù)據(jù)可通過手動補全遺漏數(shù)據(jù)、算法(FP-Growth算法等)過濾對數(shù)據(jù)進行篩查和處理。

        (3)數(shù)據(jù)規(guī)約。

        對于一些大型的數(shù)據(jù)分析公司或單位來講,即使對數(shù)據(jù)庫中的數(shù)據(jù)進行了冗余和沖突處理后,其數(shù)據(jù)的體量依然龐大。這些海量的數(shù)據(jù)直接進行數(shù)據(jù)挖掘處理是不可行的,這會導致分析運行的時間出現(xiàn)較常的延時情況,效率就大打折扣了。此時,可以通過對數(shù)據(jù)進行規(guī)約處理,從而壓縮數(shù)據(jù)的實際數(shù)量。規(guī)約處理存在兩個必須滿足的條件:一是規(guī)約后的數(shù)據(jù)量應該比原數(shù)據(jù)量少;二是規(guī)約后的數(shù)據(jù)應該保持原數(shù)據(jù)的完整性。只有這樣,兩個數(shù)據(jù)集對于同一個分析算法才會生成相同或相近的分析結(jié)果。

        本文對學生體質(zhì)健康數(shù)據(jù)采用離散化,把一個線性空間中的數(shù)據(jù)劃分為多個線性子空間,對每個子空間的數(shù)據(jù)可用一個值來替代,以實現(xiàn)數(shù)據(jù)壓縮。

        經(jīng)過以上幾步的數(shù)據(jù)處理,得到如下圖的數(shù)據(jù)集(部分)。

        圖2 Weka中的數(shù)據(jù)集視圖(部分)

        3.3、數(shù)據(jù)挖掘過程及分析

        對數(shù)據(jù)庫中的數(shù)據(jù)進行了預處理后可以開始進行數(shù)據(jù)的挖掘工作。此次實驗數(shù)據(jù)來源于某高校體質(zhì)測試數(shù)據(jù),利用數(shù)據(jù)庫技術將多個數(shù)據(jù)源中的可能對體質(zhì)測試總成績造成影響的項目進行整合,合并成一個用于分析學生體質(zhì)測試成績的數(shù)據(jù)表。運用Weka軟件,挖掘出學生身高體重分數(shù)、肺活量體重分數(shù)、50m跑、1000m/800m、坐位體前屈、立定跳遠、仰臥起坐/引體向上這幾項測試成績與體質(zhì)測試成績之間潛在的關系。

        (1)分類分析。

        分類是數(shù)據(jù)挖掘中一個極其重要的技術,應用范圍非常廣泛。通過對學生體質(zhì)測試數(shù)據(jù)進行分類分析,找出測試數(shù)據(jù)所反映的各項身體素質(zhì)之間的共性特征和各項身體素質(zhì)之間的水平差異性。此外由于分類器的構造方法主要來源機器學習方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡方法等等,因此分類也可以用于預測。

        常用分類算法有:①決策樹算法:決策樹也稱為判定樹,它是以數(shù)據(jù)實例為基礎的機器學習方法。它從無序和無規(guī)則的訓練元組中推導出以分枝樹為表示形式的分類規(guī)則。未知數(shù)據(jù)可以從樹根節(jié)點沿唯一一條路徑到達葉子節(jié)點,每個葉子節(jié)點就是一個具體的分類。生成決策樹構造算法有ID3算法、C4.5算法、CART、SLIQ算法、SPRINT算法等;②貝葉斯分類算法:貝葉斯分類屬于統(tǒng)計學方法和參數(shù)判別方法,是一種應用數(shù)學概率統(tǒng)計知識來進行分類的算法。由于其算法簡單,分類精度高,常應用于大型數(shù)據(jù)庫系統(tǒng);③神經(jīng)網(wǎng)絡分類:其分類模型的建立,是在訓練階段通過調(diào)節(jié)神經(jīng)網(wǎng)絡中每個連接的權值,使之預測出輸入樣本的正確類別。這種方法有時又稱為連接者學習。目前應用最廣的神經(jīng)網(wǎng)絡算法是20世紀80年代提出的BP算法。此外還有關聯(lián)規(guī)則、支持向量機、惰性學習法等分類算法。

        本文采用決策樹中的J48算法分別對男生和女生的數(shù)據(jù)進行分類分析,采用cross-validation交叉驗證為測試模式,默認十折交叉驗證進行分析,分類器輸出結(jié)果如圖3和圖4所示,正確率為87.4101%和84.5754%。產(chǎn)生的決策樹如圖5和圖6所示。

        圖3 J48算法產(chǎn)生的決策樹的正確預測率圖(男)

        圖4 J48算法產(chǎn)生的決策的正確預測圖(女)

        圖5 J48算法產(chǎn)生的決策樹圖(男)

        圖6 J48算法產(chǎn)生的決策樹圖(女)

        結(jié)合《國家學生體質(zhì)健康標準(2014)》(以下簡稱《標準》)從建立的決策樹模型中推測影響該校女生體質(zhì)測試成績的主要因素為50m和800m成績,影響男生體質(zhì)測試成績的主要因素為1000m成績,其次為50m和坐位體前屈的成績。在《標準》中50m跑、長跑(800m、1000m)各占比20%,其次為體重指數(shù)、肺活量各占15%,剩余3項內(nèi)容各占10%。

        通過決策樹模型可以看出,該校大學生女生的測試成績,只要50m和800m成績能夠及格,其測試總分基本上能夠及格,說明這兩項成績對于女生體質(zhì)測試成績影響較為大。女生在爆發(fā)力上與男生來說相對薄弱一些,如果能在50m上及格,也能比較容易通過測試。對于該校男生來說除了1000m的長跑外,50m、坐位體前屈也是影響其體質(zhì)測試成績能否合格的因素。對于該校所有學生來說,長跑項目(800m和1000m)是較為薄弱的,說明學生的有氧耐力相對于其他身體素質(zhì)較為欠缺,在爆發(fā)力項目上男生成績比女生好,而在柔韌性上,女生的成績優(yōu)于男生。

        該校學生有氧耐力和爆發(fā)力有待進一步的訓練提升,除此之外,該校男生與女生相比,在柔韌性方面相對薄弱,在體育課和課余體育鍛煉中,男生應當適量增加柔韌性的針對性練習。

        (2)關聯(lián)規(guī)則分析。

        通過關聯(lián)規(guī)則挖掘算法,去描述測試所得的各項學生體質(zhì)測試數(shù)據(jù)中各項身體素質(zhì)數(shù)據(jù)項之間所存在的關系的規(guī)則,例如,在力量素質(zhì)中立定跳遠中出現(xiàn)的規(guī)律出現(xiàn)可能在力量素質(zhì)中引體向上中也會出現(xiàn),即找出隱藏在數(shù)據(jù)間的關聯(lián)或相互關系。典型的算法有Apriori算法,其側(cè)重于找出數(shù)據(jù)庫中某些特定事件一起發(fā)生的情況,以發(fā)現(xiàn)那些可信的并且具有代表性的規(guī)則。此算法的基本思想是首先通過迭代挖掘所有頻繁項集,然后利用頻繁項集構造滿足用戶最小置信度規(guī)則。

        圖7為采用Apriori算法得到男生體質(zhì)測試的五條關聯(lián)規(guī)則。對5條關聯(lián)規(guī)則進行解讀:規(guī)則1:1000m成績及格、立定跳遠及格、引體向上不及格的人,體測總分能夠及格;規(guī)則2:體型正常、1000m及格、引體向上不及格的人,體測總分能夠及格;規(guī)則3:1000m不及格的人,引體向上可能不及格;規(guī)則4:體型正常、50m及格、1000m及格的人,體測總分能夠及格;規(guī)則5:1000m及格、引體向上及格的人,體測總分能夠及格。

        圖7 男生體質(zhì)測試關聯(lián)規(guī)則

        圖8為采用Apriori算法得到女生體質(zhì)測試的五條關聯(lián)規(guī)則。5條關聯(lián)規(guī)則進行解讀:規(guī)則1:體型正常、體測總分及格的人,50m成績是及格的;規(guī)則2:仰臥起坐及格的人體型屬于正常一類;規(guī)則3:體測總分及格的人,50m能夠及格;規(guī)則4:肺活量能夠及格的人,體型一般正常;規(guī)則5:肺活量及格、50m及格的人,體型正常。

        圖8 女生體質(zhì)測試關聯(lián)規(guī)則

        對男生而言,引體向上雖然是最頭疼的測試項目,然而其單項成績能否及格對體質(zhì)測試總分是否及格的影響并不大,1000m與體測總分能否及格的關聯(lián)性較大。與男生相比較而言,體型對女生體質(zhì)測試總分的影響要更大一些,且體型與各項身體素質(zhì)的關聯(lián)度較男生更高。

        4、結(jié)論

        本文使用 Weka平臺數(shù)據(jù)挖掘技術對學生體質(zhì)健康測試成績進行分析,可以提高測試數(shù)據(jù)的利用水平,獲得測試數(shù)據(jù)之間潛在的規(guī)律和趨勢。數(shù)據(jù)挖掘技術在學生體質(zhì)健康分析中的應用中具有以下幾個特點:

        4.1、可行性

        通過本文對數(shù)據(jù)進行挖掘的過程和檢索過的文獻發(fā)現(xiàn),基于數(shù)據(jù)挖掘領域的關聯(lián)規(guī)則可應用在體質(zhì)監(jiān)測領域,通過對數(shù)據(jù)的篩選經(jīng)過算法的處理從而得到數(shù)據(jù)背后隱藏的關系;關聯(lián)規(guī)則反映了該校學生體質(zhì)指標間的潛在規(guī)律,分析該校學生在運動鍛煉和身體素質(zhì)方面存在的共性和薄弱點;可用于體質(zhì)監(jiān)測工作的改進,有助于進一步指導學生進行體育鍛煉和運動。

        4.2、有效性

        每年我國學生都要進行體質(zhì)健康測試,覆蓋到每位學生,其背后是海量的數(shù)據(jù),通過挖掘技術處理并分析這些體質(zhì)數(shù)據(jù)背后潛在的有用信息,通過運用體育領域知識,為體質(zhì)數(shù)據(jù)分析和體質(zhì)健康實際工作提供科學的決策依據(jù)。

        通過對不同指標之間的數(shù)據(jù)挖掘,發(fā)現(xiàn)其規(guī)律,分析原因,掌握規(guī)律,更深層次地去了解學生各項體質(zhì)測試數(shù)據(jù)之間的關聯(lián),更好地為體質(zhì)測試的后續(xù)工作提供,這些規(guī)則的發(fā)現(xiàn)一定程度地證明了關聯(lián)規(guī)則挖掘技術應用的有效性;數(shù)據(jù)挖掘作為可作為體質(zhì)測試數(shù)據(jù)分析的工具,進一步為體質(zhì)科研服務提供助力。

        4.3、指導性

        可以針對性地挖掘不同項目和體質(zhì)健康之間的關聯(lián),為校園體育服務提供幫助;挖掘不同特征學生的體質(zhì)健康水平,為學生健康管理服務和不同人群的體育運動負荷安排提供建議和指導;挖掘?qū)W生體質(zhì)規(guī)律,為學生體質(zhì)健康促進提供指導等。

        4.4、局限性

        通過實際操作,不難發(fā)現(xiàn)數(shù)據(jù)挖掘存在的局限性。像關聯(lián)規(guī)則挖掘技術作為一種工具,無法實現(xiàn)對結(jié)果的最終解析,需專業(yè)人員結(jié)合相關領域的知識對數(shù)據(jù)結(jié)果進行解釋、翻譯和表達。對于數(shù)據(jù)挖掘結(jié)果的利用與開發(fā),需要體育專業(yè)人員和數(shù)據(jù)挖掘?qū)I(yè)人員共同努力。數(shù)據(jù)挖掘結(jié)果的落地和對學生體質(zhì)測試后續(xù)服務問題,仍然需要體育工作者結(jié)合數(shù)據(jù)分析,根據(jù)學生的實際情況制定相關鍛煉計劃并實施。

        猜你喜歡
        數(shù)據(jù)挖掘體質(zhì)規(guī)則
        中醫(yī)“體質(zhì)”問答
        中老年保健(2022年2期)2022-08-24 03:21:38
        中醫(yī)“體質(zhì)”問答
        中老年保健(2022年4期)2022-08-22 03:00:28
        中醫(yī)“體質(zhì)”回答
        中老年保健(2022年6期)2022-08-19 01:42:20
        撐竿跳規(guī)則的制定
        數(shù)獨的規(guī)則和演變
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        28天吃出易瘦體質(zhì)
        海峽姐妹(2020年7期)2020-08-13 07:49:32
        讓規(guī)則不規(guī)則
        Coco薇(2017年11期)2018-01-03 20:59:57
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
        電力與能源(2017年6期)2017-05-14 06:19:37
        TPP反腐敗規(guī)則對我國的啟示
        男人的天堂av一二三区| 中文字幕午夜精品久久久| 亚洲天堂av福利在线| 色哟哟亚洲色精一区二区| 五月综合激情婷婷六月| 久久久久亚洲av无码专区首jn| 无遮挡边摸边吃奶边做视频免费| 亚洲中文字幕无码卡通动漫野外| 国产一区亚洲一区二区| 最新69国产精品视频| 少妇被粗大的猛进出69影院 | 国产乡下三级全黄三级| 精品无码一区在线观看| 午夜一级韩国欧美日本国产| 精品中文字幕手机在线 | 亚洲国产精品成人av| 97成人精品国语自产拍| 在线观看成人无码中文av天堂| 精产国品一二三产区m553麻豆| 亚洲av日韩av一卡二卡| 日本a一区二区三区在线| 日本一区二区三区精品免费| 中文字幕人妻熟女人妻| 欧美三级乱人伦电影| 国产日韩一区二区精品| 亚洲综合偷自成人网第页色| 午夜免费视频| 一区二区传媒有限公司| 日韩美无码一区二区三区 | 亚洲国产综合精品中久| 琪琪色原网站在线观看 | 三级全黄裸体| 久久婷婷国产剧情内射白浆| 日韩女人毛片在线播放| 国产一区二区资源在线观看| 日韩女同视频在线网站| 欧洲人妻丰满av无码久久不卡 | 日本一区二区三区看片| 亚洲中文字幕舔尻av网站| 狠狠色综合网站久久久久久久| 国产综合精品久久久久成人|