亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGBoost算法的研究生入學預測

        2020-10-26 06:58:45何葉子
        卷宗 2020年19期
        關鍵詞:預測

        何葉子

        摘 要:面對碩士研究生招生日益激烈的現(xiàn)狀,構(gòu)建一個高效的預測模型來預測學生被目標院校錄取的概率,為學生選擇院校提供幫助。根據(jù)國外研究生的錄取條件,確定7個申請國外研究生時相對重要的評價指標。基于國外研究生招生入學的樣本數(shù)據(jù),采用XGBoost來建立研究生錄取的預測模型,將其預測結(jié)果與Logistic回歸、隨機森林的結(jié)果進行比較分析。XGBoost模型正確率達到了87.43%,比Logistic回歸和隨機森林分別提高了6.9%、1.7%。

        關鍵詞:預測;XGBoost算法;研究生入學

        隨著大數(shù)據(jù)、人工智能新一代信息技術(shù)的深化研發(fā)與應用,為解決當前碩士研究生招生日益激烈的情況[1],本文將機器學習的知識應用到研究生入學領域中,通過構(gòu)建模型來預測學生被所目標院校錄取的概率,為其擇校提供幫助。

        鑒于國內(nèi)沒有公開統(tǒng)一的數(shù)據(jù)庫來管理大學生申請研究生的評價指標和具體數(shù)據(jù),為了科學地幫助學生結(jié)合個人情況,對獲取目標大學研究生指標有公平認識,本文針對國外研究生入學的樣本數(shù)據(jù),構(gòu)建了一個基于XGBoost算法的研究生錄取預測模型。實驗結(jié)果表明,該模型具有準確率高、運行時間短的優(yōu)點。

        1 預測模型

        1.1 Logistic回歸

        Logistic回歸一種是線性回歸,其核心思想是Sigmod函數(shù),該函數(shù)能將任意實數(shù)值映射成[0,1]的概率值。在對特征和權(quán)重進行線性回歸的基礎上,將其結(jié)果代入到,得到概率值。

        1.2 隨機森林

        隨機森林是一種基于Bootstraping的集成算法,首先在訓練樣本數(shù)據(jù)集N中有放回地重復隨機抽取n個樣本,生成足以代表原始樣本分布的新樣本集合[2]。再從數(shù)據(jù)集的K個特征中隨機選取k個特征,根據(jù)Gini系數(shù)選擇出最佳分割特征,作為CART決策樹的結(jié)點。進而重復上述步驟m次,得到m棵決策樹所組成的隨機森林。根據(jù)多顆決策樹共同執(zhí)行決策的預測結(jié)果,來代表最終預測的結(jié)果。

        1.3 XGBoost

        XGBoost是通過不斷增加分類樹,采用集成的思想,通過多個弱分類器的預測結(jié)果的組合,使整體預測效果提升。但隨著不斷加入決策樹,模型葉子結(jié)點過多,易出現(xiàn)過擬合的風險[3]。因此,引入樹的正則化懲罰項,對每棵樹的預測結(jié)果賦予一定權(quán)重,來防止模型過擬合。最終目標函數(shù)為每個樣本預測效果偏差值與每棵樹正則懲罰項之和。

        2 實驗過程

        2.1 數(shù)據(jù)來源與描述

        本文首先確定7個申請國外研究生時被認為重要的評價指標,分別為GRE成績、托福成績、大學評級、目的陳述、推薦信、成績平均累積學分績點、研究經(jīng)歷,上述選取的指標參考了加州大學洛杉磯分校的研究生招生指標(https://bioinformatics.ucla.edu/),具體各指標描述信息見表1?;谏鲜鲋笜?,采用來源于Mohan S Acharya所提供的400個樣本數(shù)據(jù)。[4](https://www.kaggle.com/mohansacharya/graduate-admissions)。

        2.2 數(shù)據(jù)探索與處理

        通過計算相關系數(shù)并比較其值的大小,來觀察指標之間的和各指標與最終錄取機會之間的關聯(lián)程度,并通過可視化工具作圖進行查看。結(jié)合圖1中兩圖,可以看到,CGPA、GRE成績、托福成績、大學評級與進入大學的機會相關性較高。其它參數(shù)如SOP、LOR、Research對入學機會的影響較小。

        參考近幾年國外高校的研究生錄取率,得出每年高校研究生招生的平均錄取率為6%,對錄取機會列的數(shù)據(jù)進行篩選,將其中數(shù)據(jù)值大于且等于0.7的學生視為錄取,錄取結(jié)果的值標記為1;反之標記為0。為了防止構(gòu)建預測模型時出現(xiàn)過擬合的現(xiàn)象,將樣本數(shù)據(jù)分為訓練集和測試集,分別占總樣本數(shù)據(jù)集的65%和35%。

        2.3 實驗結(jié)果

        本次實驗使用Python語言采用了Logistic回歸、隨機森林和XGBoost三種算法模型,對相同的樣本數(shù)據(jù)進行實驗,將預測結(jié)果與實際數(shù)據(jù)進行對比,分析三者的性能。各個模型的預測準確率數(shù)值如表2所示。從表可以得出XGBoost相較于Logictic回歸和隨機森林,準確率較高,運行時間較短。

        3 結(jié)論

        本文采用Mohan S Acharya提供的Admission_Predict數(shù)據(jù)集,基于XGBoost模型來預測樣本數(shù)據(jù)中學生的錄取機會概率值并根據(jù)實際設置錄取概率閾值,將錄取概率值進行二分類,得出預測錄取結(jié)果。進而將預測結(jié)果與Logistic回歸、隨機森林模型的預測結(jié)果進行比較分析,得出XGBoost具有預測準確率高、運行時間短的優(yōu)點。根據(jù)實驗分析結(jié)果,可以為學生進行院校決策提供一定幫助。

        參考文獻

        [1]鄭麗萍,鄧淼磊.美國計算機專業(yè)研究生教育特點與啟示[J].軟件導刊,2019,18(06):204-206+210.

        [2]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014,27(04) :327-336..

        [3]孫逸菲,袁德成,王建龍,白楊.基于XGBoost方法的葡萄酒品質(zhì)預測[J].沈陽化工大學學報,2018,32(04) :372-377.

        [4]Mohan S A, Asfia A, Aneeta S A. A Comparison of Regression Models for Prediction of Graduate Admissions[Z].IEEE International Conference on Computational Intelligence in Data Science, 2019.

        猜你喜歡
        預測
        無可預測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        基于PCC-CNN-GRU的短期風電功率預測
        選修2—2期中考試預測卷(A卷)答案與提示
        選修2-2期中考試預測卷(A卷)
        選修2-2期中考試預測卷(B卷)
        選修2—2期中考試預測卷(B卷)
        選修2—2期中考試預測卷(A卷)
        選修2—2期中考試預測卷(B卷)答案與提示
        “預測”得準
        不可預測
        日本高清一区二区三区色| 欧美亚洲精品一区二区| 欧美日韩国产在线观看免费| 91久久精品一区二区喷水喷白浆| 水蜜桃精品视频在线观看| 一本久久a久久精品vr综合| 国产日韩欧美亚洲精品中字| 久久久婷婷综合五月天| 国产一区二区三区最新地址 | 夜夜添夜夜添夜夜摸夜夜摸| 亚洲乱码视频在线观看| 亚洲毛片av一区二区三区| 免费的小黄片在线观看视频| 消息称老熟妇乱视频一区二区 | 亚洲中文字幕在线爆乳 | 久久女人精品天堂av影院麻| 超碰cao已满18进入离开官网| 亚洲成人中文| 女优视频一区二区三区在线观看| 亚洲国产成人久久精品不卡| 国产真实乱对白精彩| 国产女人18一级毛片视频| 91青青草视频在线播放| 无套熟女av呻吟在线观看| 成av人片一区二区三区久久 | 手机在线亚洲精品网站| 全部孕妇毛片丰满孕妇孕交| 久久中文字幕日韩无码视频| 青青草在线免费观看在线| 乱码1乱码2美美哒| 色婷婷日日躁夜夜躁| 日韩最新av一区二区| 在线免费观看黄色国产强暴av| 午夜无码片在线观看影视| 日本在线观看不卡| 国产精品久久婷婷六月丁香| 又嫩又硬又黄又爽的视频| 中文字幕在线免费| 伊人狼人影院在线视频| 狠狠色噜噜狠狠狠777米奇| 欧美精品免费观看二区|