亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SVM的高??佳蓄A測模型研究

        2021-04-15 04:41:02閆立強杜亞冰
        河南城建學院學報 2021年6期
        關鍵詞:內積考研樣本

        張 凱,閆立強,劉 暢,杜亞冰

        (河南城建學院,河南 平頂山 467036)

        是否報考研究生是本科生畢業(yè)前面臨的重要選擇之一,若能對考研結果進行預測,將對本科生的報考決策和學校分類教學管理產(chǎn)生積極影響。目前,已有一些文獻使用機器學習算法研究考研預測問題,如李楠等提出基于Logistics算法的考研成績變量預測方法[1];王西平提出了改進加權的KNN算法考研預測模型[2];鄭寶樂等提出了基于線性判決分析降維(LDA) 結合支持向量機(SVM) 建立學習模型的方法[3];黃炎對比了樸素貝葉斯算法、線性回歸和決策樹相結合的算法、LIBSVM向量機等三種算法的考研結果預測準確率[4];李馳利用基于遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡對考研結果進行了預測[5];張鳳霞等選取若干個家庭因素、個人因素、校園因素和專業(yè)因素等作為特征子集,使用CSVM、PSVM、TSVM分別對報考意愿進行了預測[6]。這些文獻大多將已報考學生的在校成績作為樣本集訓練預測模型,取得了較高的準確度。

        圖1 分階段考研預測示意圖

        考研預測按時間順序可劃分為“意愿預測”和“結果預測”(含成績預測)(見圖1)。“意愿預測”是在報考前,預測是否報考;“結果預測”是在報考后,預測考研結果(含考研成績)。以上文獻均為“意愿預測”或“結果預測”。而從考研預測的實際場景出發(fā),若合并兩種預測,將會大大增加預測模型的實用性,因此,本文嘗試以報考前某校所有理工科本科生的學業(yè)成績作為樣本集,建立一種基于支持向量機的考研結果預測模型。

        1 支持向量機

        (1)

        s.t.yi[(wxi)+b]≥1i=1,2,…,l

        (2)

        對線性不可分問題,引入一個松弛變量ξ≥0,可調的懲罰因子C,則二次規(guī)劃問題就變成:

        (3)

        s.t.yi[(wxi)+b]≥1-ξi=1,2,…,l

        (4)

        為了求解此二次規(guī)劃問題,引入Lagrange函數(shù):

        (5)

        其中αi>0為Lagrange乘子,求解后得到最優(yōu)分類函數(shù)[9]為:

        (6)

        其中:α*為最優(yōu)解,b*為最優(yōu)偏置。

        SVM通過選擇滿足Mercer條件的核函數(shù)K,即K(x,y)=?(x)·?(y),將輸入空間映射到高維特征空間(一般是Hiber空間),即對x作從輸入空間Rn到特征空間H的變換:

        x→?(x)=(?1(x),?2(x),…,?l(x))T,

        (7)

        在這個高維特征空間中求解最大間隔分類超平面,求解后得到最優(yōu)分類函數(shù)[10]為:

        (8)

        2 核函數(shù)

        選擇常用的內積(dot)、徑向基(RBF)、多項式(polynominal)等核函數(shù)分別進行模型訓練,通過對比結果,找到評估結果最優(yōu)的核函數(shù)建立預測模型。

        (1)內積核函數(shù):

        K(x,y)=x*y

        (9)

        (2)徑向基核函數(shù):

        K(x,y)=exp(-γ‖x-y‖2)

        (10)

        (3)多項式核函數(shù):

        K(x,y)=(x*y+1)d

        (11)

        其中,可調參數(shù)d是多項式的次數(shù)。

        3 SVM考研結果預測模型

        3.1 數(shù)據(jù)準備

        影響報考決策和考研結果的因素很多,如:高考成績、在校各科成績及排名、英語四六級考試成績、專業(yè)方向、就業(yè)前景、獎懲情況、家庭情況等[6]。這些影響因素內部和相互之間的關系復雜。雖然屬性越多,預測準確度越高,但是數(shù)據(jù)采集、數(shù)據(jù)清洗、模型建立等工作難度也會隨之增大,模型的執(zhí)行效率隨之降低。為增大模型的適用范圍、降低復雜性,本文選擇脫敏后的某校2020屆、2021屆4年制本科在生源地的理工畢業(yè)生的高考成績和在校成績作為樣本數(shù)據(jù),有效樣本數(shù)分別為1 612、1 504,合計3 116??佳薪Y果作為樣本標簽,屬性值為“Y”、“N”,分別對應“被錄取”、“未報考或未被錄取”。

        理工科考研的科目一般為外語、政治、數(shù)學和專業(yè)課。為適用所有理工科專業(yè),本文選擇考研科目相同且全校統(tǒng)考的科目成績作為數(shù)據(jù)集。這些科目包括高等數(shù)學(上/下)、線性代數(shù)、大學英語(一至四)、思想政治理論課等11門科目的成績以及高考語文、數(shù)學、外語、外語聽力和綜合等5門科目的成績。由于高校內不同科目的難易程度、考試類型不同,為增加成績的區(qū)分度,本文選取各科目的期末考試成績,不含平時成績、期中考試成績。

        3.2 數(shù)據(jù)預處理

        在數(shù)據(jù)采集與考研結果統(tǒng)計過程中,由于人為因素會導致個別數(shù)據(jù)不準確或數(shù)據(jù)缺失現(xiàn)象,但基于高質量的數(shù)據(jù)分析出的結果才更具有價值,所以首先要進行數(shù)據(jù)預處理,以清洗掉數(shù)據(jù)中的錯誤。本文將存在數(shù)據(jù)重復、部分數(shù)據(jù)缺失等問題的極少量樣本直接刪除,只保留完整、準確、無空缺、無異常的數(shù)據(jù)值。

        3.3 數(shù)據(jù)標準化與特征選擇

        數(shù)據(jù)的標準化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。最典型標準化方法是數(shù)據(jù)的歸一化處理,常見的數(shù)據(jù)歸一化方法有:min-max標準化、log函數(shù)轉換、atan函數(shù)轉換、z-score標準化。本文采用常見的z-score標準化。這種標準化是從所有值中減去數(shù)據(jù)的均值,然后除以標準差。z-score方法的轉換函數(shù)為:

        (12)

        式中:μ為數(shù)學期望;σ為標準差。

        本文采用Relief算法進行特征選擇。Relief算法最早由Kira等[11]提出,主要解決兩類的分類問題,是公認效果較好的 filter 式特征評估算法。它根據(jù)各個特征和類別的相關性賦予特征不同的權重,移除權重小于某個閾值的特征[12]。通過Relief算法過濾無關特征后,特征子集為高數(shù)上、高數(shù)下、高考外語聽力、高考外語、高考綜合、高考數(shù)學等(見表1)。

        表1 Relief算法評估的特征權重

        圖2 特征子集的箱線圖

        特征子集的箱線圖如圖2所示。由圖2可以看出,選擇的6個樣本特征沒有明顯的離群點。

        3.4 建立模型

        (1)劃分樣本集

        將2020屆、2021屆畢業(yè)生的樣本集分別定義為S1、S2,合集定義為S,即S=S1+S2。樣本集劃分為3種形式,均采用分層抽樣(如表1所示)。

        樣本集a:將S1作為訓練集、S2作為測試集;樣本集b:將S2作為訓練集、S1作為測試集;樣本集c:將S的70%作為訓練集、30%作為測試集。

        (2)選擇評估指標

        三個樣本集中的陽性樣本與陰性樣本的比例均顯著不平衡(約18),不能簡單地采用單值評估指標,而多值評估指標將會提高模型比較的難度,因此本文采用F-measure指標,該指標將陽性查全度和陽性查準度合并為一個單值,即

        (13)

        式中:precision為陽性查準度

        (14)

        recall為陽性查全度。

        (15)

        β為用戶對陽性查全度的重視程度,是陽性查準度的倍數(shù),本文β取1。

        圖3 三種SVM模型對三種樣本集的測試結果F1-measure

        (3)訓練模型

        采用5折交叉驗證法,分別使用三種核函數(shù)、三種樣本集訓練SVM模型。三種核函數(shù)的懲罰參數(shù)C均取0,超參數(shù)γ取1.0、d取2.0?;谌N樣本集、三種核函數(shù)訓練的SVM模型測試指標F1-measure如圖3所示。

        由圖3可以看出:采用內積核訓練的SVM模型的測評結果F1-measure值比徑向基核和多項式核的都高;采用內積核和徑向基核的SVM模型對三個樣本集的測試結果F1-measure值差異較小。因此,本文選擇內積核作為考研結果預測模型的核函數(shù)。

        (4)網(wǎng)格搜索算法超參數(shù)尋優(yōu)

        本文采用網(wǎng)格搜索算法對基于內積核的SVM模型超參數(shù)尋優(yōu)。尋優(yōu)過程使用樣本集c,訓練集與測試集比例為73。從尋優(yōu)過程(見圖4)可以看出,通過網(wǎng)格搜索算法找到的最優(yōu)結果對應的C值為2.2。懲罰參數(shù)C、參數(shù)間隔設置及結果最優(yōu)時的相應值如表2所示。

        (a)c∈{0~10} (b)c∈{0~30} (c)c∈{0~100}

        (d)c∈{0~1 000} (e)c∈{0~10 000}

        表2 基于內積核的SVM模型超參數(shù)尋優(yōu)設置

        3.5 結果分析

        分別使用三個樣本集,對基于內積核的SVM模型進行訓練和測試,懲罰參數(shù)C設置為2.2,測試結果如表3所示。從表3可以看出,在三個樣本集的測試結果中,準確度、查全度、差準度、AUC、F1-measure等指標比較接近,說明基于內積核的SVM模型對不同樣本集的預測能力較穩(wěn)定。

        表3 基于內積核的SVM測試結果

        三個樣本集對應的測試結果混淆矩陣如表4所示。從表4可以看出:(1)本文模型預測的選擇報考并被錄取的學生中平均有66.44%被預測錯誤,這部分學生存在報考并被錄取的可能,學??梢怨膭钸@部分學生積極報考;(2)本文模型預測的未選擇報考或未被錄取的學生中平均約有90%預測正確,陰性查準度較高,學??梢怨膭钸@部分學生創(chuàng)新創(chuàng)業(yè)或提高與就業(yè)相關的專業(yè)技能;(3)報考并被錄取學生中約71%與模型預測結果一致;(4)使用不同年份的樣本分別作為訓練集和測試集,模型測試結果基本穩(wěn)定。

        表4 三個樣本集對應的混淆矩陣結果

        4 對比實驗分析

        分別采用本文SVM算法、文獻[1]中的Logistic回歸分類算法和文獻[2]中的kNN算法對樣本集c訓練測試,對比測試結果如表5所示。其中kNN算法采用網(wǎng)格搜索算法找到最優(yōu)結果對應的k值為2(參數(shù)尋優(yōu)過程見圖5)。由表5可以看出,Logistic回歸算法的AUC值與本文SVM算法相近,且其accuracy、precision值均為最高,但其綜合評價指標F1-measure值明顯較低。說明此算法對于標簽比例不均衡的樣本集c來說,預測效果較差。kNN算法的F1-measure值、AUC值、recall(Y)、precision(Y)均比本文SVM算法低。本文SVM算法對于樣本集c的訓練測試結果明顯優(yōu)于Logistic回歸算法、kNN算法。

        表5 三種算法的對比測試結果

        圖5 kNN算法的參數(shù)尋優(yōu)過程

        5 結論

        為更加貼合實際的考研預測場景,采用上一年樣本數(shù)據(jù)訓練模型,預測下一年的考研結果,本文將兩年的樣本數(shù)據(jù)集分為三種樣本集分別進行訓練建模。通過對比實驗,本文SVM算法建立的預測模型綜合預測能力優(yōu)于Logistics算法、kNN算法。本文模型選擇的樣本數(shù)據(jù)獲取直接、訓練方法簡單、訓練時間短,適用于學校層面對所有理工科的所有專業(yè)學生進行考研預測,可以協(xié)助學校有針對性地指導學生做出報考決策。對預測結果為陽性的學生偏重指導理論學習,對預測結果為陰性的學生偏重培養(yǎng)職業(yè)技能。下一步的研究工作可以考慮利用其他機器學習方法或優(yōu)化方法,嘗試引入更多的因素,例如學生報考信息、四六級英語考試成績、文科學生成績等,以提高模型的預測精度和適用范圍。

        猜你喜歡
        內積考研樣本
        用樣本估計總體復習點撥
        考研,我是怎么堅持過來的
        考研,我是怎么堅持過來的
        推動醫(yī)改的“直銷樣本”
        工作十二年后,我才去考研
        海峽姐妹(2018年3期)2018-05-09 08:20:56
        隨機微分方程的樣本Lyapunov二次型估計
        基于矩陣的內積函數(shù)加密
        關于矩陣的Frobenius內積的一個推廣
        村企共贏的樣本
        關于概率內積空間定義的平凡性
        亚洲精品在线一区二区三区| 麻豆国产原创视频在线播放| 醉酒后少妇被疯狂内射视频 | 天天爽夜夜爽夜夜爽精品视频| 午夜精品久久久久久99热| 免费无码成人av在线播放不卡| 人妻精品一区二区三区视频| 在线亚洲免费精品视频| 曰日本一级二级三级人人| 国产69精品久久久久9999apgf| 免费人妻无码不卡中文字幕18禁| 日本动态120秒免费| 亚洲乱精品中文字字幕| 少妇熟女天堂网av天堂| 亚洲av福利院在线观看 | 国产精品va无码一区二区| 欧美综合区| 男女啪啪免费视频网址| 麻豆69视频在线观看| 山外人精品影院| 国产999精品久久久久久| 国产极品喷水视频| av黄色大片久久免费| 在线观看人成视频免费| 少妇放荡的呻吟干柴烈火动漫| 精品人妻丰满久久久a| 国产精品丝袜美腿诱惑| 国产一区二区三区在线观看完整版| 亚洲欧美乱综合图片区小说区| 国产乱沈阳女人高潮乱叫老| 日本一区二区视频免费观看| 中文字幕av熟女中文av| 免费超爽大片黄| 国产精品白浆一区二小说| 妇女自拍偷自拍亚洲精品| 亚洲国产系列一区二区| 亚洲av无码国产精品永久一区| 欧美黑人乱大交| 亚洲av精品一区二区三| 人妻制服丝袜中文字幕| 亚洲欧美乱综合图片区小说区|