亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器學(xué)習(xí)在學(xué)生成績預(yù)測中的應(yīng)用

        2019-02-14 08:51:22徐銘希
        電子制作 2019年2期
        關(guān)鍵詞:特征模型學(xué)生

        徐銘希

        (南京市第十三中學(xué),江蘇南京,210036)

        1 研究背景

        我國正處于實(shí)現(xiàn)中華民族的偉大復(fù)興的最關(guān)鍵時(shí)期。發(fā)展是是十分重要的,而科技是發(fā)展的前提,要想科技發(fā)展,教育是最重要最根本的。教育領(lǐng)域急需像人工智能這樣的尖端技術(shù)手段來注入活力。人與人之間的競爭隨著社會的發(fā)展、進(jìn)步變得越來越激烈。每個(gè)人都為了自己的前途打拼,大家都在用功,不僅在成人的職場上,更在我們學(xué)生的校園里。這場競爭像一場競速賽,賽場上瞬息萬變,每一秒鐘都有人超越別人或被別人超越。同學(xué)們對于自身的定位沒有準(zhǔn)確及時(shí)的把握,過高或過低估計(jì)自己的情況經(jīng)常發(fā)生,平常學(xué)習(xí)的松懈可能會導(dǎo)致成績下滑而自己感覺不到,當(dāng)真正意識到的時(shí)候,再想追趕,已經(jīng)不容易了。同時(shí)科技的發(fā)展使得社會日新月異,每天都變得更好更方便,特別是計(jì)算機(jī)網(wǎng)絡(luò)方面,人工智能從上世紀(jì)五十年代崛起到現(xiàn)在成為生活中必不可少的一部分,讓我們看到了人工智能的巨大潛力和廣闊的發(fā)展前景。人工智能已經(jīng)在許多領(lǐng)域里面得到了應(yīng)用,它的每一次應(yīng)用都會帶來前所未有的改變,本文將把人工智能領(lǐng)域機(jī)器學(xué)習(xí)方面的相關(guān)知識應(yīng)用到教育領(lǐng)域中,通過一些模型來預(yù)測學(xué)生的學(xué)習(xí)成績,從而為學(xué)生的學(xué)習(xí)提供一定的指導(dǎo)。

        2 研究方法

        本次研究將采用多種機(jī)器學(xué)習(xí)算法對學(xué)生的成績進(jìn)行預(yù)測,包括邏輯回歸、決策樹、隨機(jī)森林、xgboost。通過對各個(gè)模型的對比,最終選擇出一個(gè)最優(yōu)的模型,并根據(jù)該最優(yōu)模型為學(xué)生的學(xué)習(xí)提供一定的指導(dǎo)。下面我們介紹一下每個(gè)模型的原理及思想。

        ■2.1 邏輯回歸

        邏輯回歸(Logistic Regression),又稱為對數(shù)幾率回歸,它是一種分類算法,可以處理二元或多元分類。該算法的核心思想體現(xiàn)在Sigmoid函數(shù),如式(1)所示。該函數(shù)限定預(yù)測值的區(qū)間為[0,1],這樣我們可以根據(jù)預(yù)測的值的大小與指定的閾值進(jìn)行對比,大于該閾值為一類樣本,小于該閾值為另一類樣本。根據(jù)處理任務(wù)的不同,應(yīng)采用不同的損失函數(shù)來對模型進(jìn)行優(yōu)化,其中在處理回歸任務(wù)時(shí)一般采用均方差損失函數(shù);在處理分類任務(wù)時(shí)一般采用交叉熵?fù)p失函數(shù)。

        ■2.2 決策樹

        決策樹(DT),該模型是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過求取凈現(xiàn)值大于等于零的概率來評價(jià)項(xiàng)目的風(fēng)險(xiǎn)并判斷其可行性的決策分析方法。由于根據(jù)這種決策分析方法畫出圖形很像一棵樹,所以我們一般稱它為決策樹。一般來說,一棵決策樹包括一個(gè)根結(jié)點(diǎn)、許多內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)。葉結(jié)點(diǎn)代表決策結(jié)果,內(nèi)部結(jié)點(diǎn)代表屬性測試,而根結(jié)點(diǎn)代表樣本全集。決策樹主要分為決策樹ID3、決策樹C4.5、CART這三種。決策樹的核心就在于如何去選擇一個(gè)最優(yōu)的特征進(jìn)行結(jié)點(diǎn)分裂,其中ID3采用信息增益作為度量,該度量傾向于特征值比較多的特征;于是C4.5算法在信息增益的基礎(chǔ)上引入了信息增益比作為衡量特征重要性的度量;但是信息增益比所涉及到的計(jì)算是非常大的,進(jìn)而CART又引入了基尼指數(shù)這一新的度量方式,從而使得決策樹在計(jì)算特征重要性是只涉及平方運(yùn)算,不再涉及耗時(shí)的對數(shù)運(yùn)算,同時(shí),CART決策樹在結(jié)點(diǎn)分裂時(shí),只分裂為二叉樹,這樣也比較適合計(jì)算機(jī)的運(yùn)算模式,能夠提高計(jì)算速度。

        ■2.3 隨機(jī)森林

        隨機(jī)森林(RF),它是集成學(xué)習(xí)的一種。集成學(xué)習(xí),是通過將多個(gè)單個(gè)學(xué)習(xí)器集合到一起使它們共同完成學(xué)習(xí)任務(wù)。它博采眾長,結(jié)合多個(gè)弱學(xué)習(xí)器組成了強(qiáng)學(xué)習(xí)器。如果個(gè)體學(xué)習(xí)器是同種的, 那么這個(gè)集成是同質(zhì)的。如果個(gè)體學(xué)習(xí)器是不同種的,那么它是異質(zhì)的。而根據(jù)個(gè)體學(xué)習(xí)器生成方式的不同可以將其分為兩大類。一種是串行化方法,這種方法具有很強(qiáng)的依賴關(guān)系,必須在個(gè)體學(xué)習(xí)設(shè)備之間串行生成,這種方法以Booke級數(shù)算法為代表;另一種是不存在強(qiáng)依賴關(guān)系的并行化方法,它可以在單個(gè)學(xué)習(xí)設(shè)備之間同時(shí)生成。它是用套袋系列算法來表示的。隨機(jī)森林是它的一個(gè)拓展變體,弱學(xué)習(xí)器采用CART決策樹,它的核心思想體現(xiàn)在“隨機(jī)”二字,即相對于傳統(tǒng)決策樹依次計(jì)算所有特征的重要性,隨機(jī)森林首先會隨機(jī)選擇一部分特征,然后在這些特征中再通過基尼指數(shù)選擇出最重要的特征作為分裂結(jié)點(diǎn)。該模型的特點(diǎn)是比較簡單易于實(shí)現(xiàn),而且計(jì)算量相對比較小,是數(shù)據(jù)挖掘領(lǐng)域經(jīng)常使用到的算法。

        ■2.4 xgboost

        上文在介紹隨機(jī)森林時(shí),有提到集成學(xué)習(xí)Boosting系列算法。Boost系列中一個(gè)比較典型的算法是GBDT(梯度提升樹),它也是一種表達(dá)能力比較強(qiáng)的算法。而xgboost可以看作是G B DT的一種優(yōu)化版本。相對于G B DT,xgboost引入了一些新的特質(zhì),使得模型的訓(xùn)練速度更快、更好的避免過擬合、有更強(qiáng)的擴(kuò)展性等。如xgboost的弱學(xué)習(xí)器支持其它線性分類器(LR),它引入了一些正則化方法與采樣技術(shù),可以更好的避免過擬合現(xiàn)象,它引入了“Shrinkage”思想,降低前一棵樹的學(xué)習(xí)效果,從而為后續(xù)的決策樹提供更多的學(xué)習(xí)空間;此外,xgboost還引入了特征并行的方法,大大提高了訓(xùn)練速度。xgboost是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)非常優(yōu)秀的模型。

        3 實(shí)驗(yàn)過程

        ■3.1 實(shí)驗(yàn)數(shù)據(jù)

        本次研究中用到的數(shù)據(jù)集為xAPL-Educational Mining Dataset。它是一個(gè)多變量數(shù)據(jù)集,該數(shù)據(jù)集中樣本的屬性可以分為三個(gè)類別:人口統(tǒng)計(jì)學(xué)特征,如性別國籍等;學(xué)術(shù)背景屬性,如學(xué)習(xí)教育階段、分?jǐn)?shù)段等;表現(xiàn)特征,如舉手次數(shù)、學(xué)習(xí)公開資料次數(shù)等。

        ■3.2 數(shù)據(jù)處理與探索

        首先修正數(shù)據(jù)中一些列名大小寫的不規(guī)范。然后進(jìn)行數(shù)據(jù)探索,查看標(biāo)簽各個(gè)類別的數(shù)目,觀察發(fā)現(xiàn)各個(gè)類別的數(shù)量相對均衡;通過可視化工具作圖查看數(shù)據(jù)的分布,實(shí)驗(yàn)數(shù)據(jù)為兩個(gè)學(xué)期的數(shù)據(jù),經(jīng)觀察我們發(fā)現(xiàn)學(xué)生在第二學(xué)期成績會更優(yōu)秀、女生表現(xiàn)的比男生好、越高年級學(xué)生觀看學(xué)習(xí)資源越多等現(xiàn)象。通過PairGrid圖觀察數(shù)值型特征之間的關(guān)系,如圖1所示,可以發(fā)現(xiàn)女同學(xué)在學(xué)習(xí)方面表現(xiàn)的相對積極,如舉手次數(shù)、觀看學(xué)習(xí)資源次數(shù)等。

        圖1

        ■3.3 模型構(gòu)建

        該部分分別采用了邏輯回歸、決策樹、隨機(jī)森林、Xgboost進(jìn)行了實(shí)驗(yàn),并從各個(gè)指標(biāo)觀察模型的性能。其中,各模型的準(zhǔn)確率對比如表1所示。

        表1

        接下來我們應(yīng)用網(wǎng)格搜索法對隨機(jī)森林與Xgboost進(jìn)行參數(shù)調(diào)優(yōu),主要對弱學(xué)習(xí)器的個(gè)數(shù)、每一個(gè)葉子節(jié)點(diǎn)上樣本個(gè)數(shù)、樹的深度與學(xué)習(xí)率等參數(shù)進(jìn)行調(diào)整。對參數(shù)調(diào)優(yōu)后,隨機(jī)森林與Xgboost的準(zhǔn)確率為表2所示。

        表2

        可以看到經(jīng)過參數(shù)調(diào)優(yōu)后,Xgboost模型的效果最好,準(zhǔn)確率為81.94%。我們分別看一下由Xgboost得到的特征重要性(圖2)與由隨機(jī)森林得到的特征重要性(圖3)。

        圖2

        可以看到圖1中觀看學(xué)習(xí)資源次數(shù)、參與討論次數(shù)、看公告次數(shù)和舉手次數(shù)是最重要的特征;圖2中觀看學(xué)習(xí)資源次數(shù)、舉手次數(shù)、看公告次數(shù)和缺勤次數(shù)是最重要的特征,而參與討論的重要性僅次于它們。而性別特征與國籍特征對學(xué)生成績的影響不大。

        圖3

        4 總結(jié)

        本文通過多個(gè)模型對學(xué)生成績進(jìn)行預(yù)測,并對影響學(xué)生成績的各個(gè)因素進(jìn)行了分析,根據(jù)實(shí)驗(yàn)分析結(jié)果可以為學(xué)生、家長及老師提供一些意見與建議。后續(xù)我們可以收集更大量的、更多種類的數(shù)據(jù),并采用更復(fù)雜的模型優(yōu)化預(yù)測結(jié)果。在此基礎(chǔ)上,還可以針對模型結(jié)果為學(xué)生制定學(xué)習(xí)計(jì)劃,提出不同的建議,進(jìn)為學(xué)生定制個(gè)性化作業(yè),針對弱點(diǎn)劣勢查缺補(bǔ)漏。由此看來,機(jī)器學(xué)習(xí)在教育領(lǐng)域的應(yīng)用前景光明,需要更多深入的研究來助其進(jìn)一步發(fā)展。

        猜你喜歡
        特征模型學(xué)生
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        趕不走的學(xué)生
        抓住特征巧觀察
        學(xué)生寫話
        3D打印中的模型分割與打包
        學(xué)生寫的話
        伊人婷婷在线| 国产精品国产三级国产av剧情| 东北少妇不带套对白| 巨熟乳波霸若妻在线播放| 亚洲中出视频| 国产福利不卡视频在线| 高h小月被几个老头调教| 无遮挡又黄又刺激又爽的视频 | 正在播放淫亚洲| 国产精品亚洲av一区二区三区 | 手机福利视频| 国内精品久久久久久久久齐齐| 丝袜人妻无码中文字幕综合网| 国产丝袜爆操在线观看| 东京热无码av一区二区| 熟女俱乐部五十路二区av| 亚洲啪啪AⅤ一区二区三区| 久久久精品亚洲人与狗| 国产精品精品自在线拍| 一二三四在线视频社区3| 亚洲AV无码日韩一区二区乱| 中文字幕综合一区二区三区| 67194熟妇人妻欧美日韩| 在线观看免费午夜大片| 日韩亚洲av无码一区二区三区| 中文字幕经典一区| 一本久道在线视频播放| 国产精品亚洲а∨无码播放| 18禁黄网站禁片免费观看| 丝袜美腿网站一区二区| 国产高清在线精品一区二区三区| 亚洲av首页在线| 国产午夜影视大全免费观看| 国产网友自拍亚洲av| 国内精品亚洲成av人片| 无人视频在线观看免费播放影院 | 亚洲欧洲日产国码av系列天堂| 又污又爽又黄的网站| 久久精品国产72国产精福利| 国产内射一级一片高清内射视频 | 日本久久久精品免费免费理论|