亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于麻雀搜索算法和SVM的學(xué)生成績(jī)預(yù)測(cè)研究

        2023-09-22 06:31:10張廣海
        池州學(xué)院學(xué)報(bào) 2023年3期
        關(guān)鍵詞:麻雀準(zhǔn)確率分類

        張廣海,祖 璇

        (安徽師范大學(xué)皖江學(xué)院a.電子工程系;b.經(jīng)濟(jì)系,安徽蕪湖 241003)

        隨著信息技術(shù)的不斷革新,大數(shù)據(jù)分析技術(shù)已被應(yīng)用到了各個(gè)領(lǐng)域,進(jìn)而推動(dòng)著社會(huì)的進(jìn)步和發(fā)展。在大數(shù)據(jù)時(shí)代,如何利用數(shù)據(jù)挖掘方法探索出教育發(fā)展規(guī)律,從而有針對(duì)性地豐富教學(xué)模式、幫助同學(xué)們改進(jìn)學(xué)習(xí)過(guò)程,成為目前急需解決的問(wèn)題。研究[1]發(fā)現(xiàn),學(xué)生期末考試成績(jī)與平時(shí)測(cè)試、學(xué)生學(xué)習(xí)行為、學(xué)生學(xué)習(xí)背景及父母行為等有關(guān)。因此根據(jù)學(xué)生平時(shí)學(xué)習(xí)的各種因素,可以有效預(yù)測(cè)出學(xué)生的期末考試成績(jī),使老師和學(xué)校提前發(fā)現(xiàn)問(wèn)題,及時(shí)進(jìn)行干預(yù)。

        針對(duì)學(xué)生成績(jī)預(yù)測(cè),國(guó)內(nèi)外許多科研人員都開(kāi)展了大量的研究。目前已有多種學(xué)生成績(jī)預(yù)測(cè)的模型,大致可分為兩類:基于神經(jīng)網(wǎng)絡(luò)模型和基于概率統(tǒng)計(jì)模型[2]。姚明海等[3]把BP(back propagation)神經(jīng)網(wǎng)絡(luò)引入高校學(xué)生成績(jī)預(yù)測(cè)中,實(shí)驗(yàn)表明大一成績(jī)與學(xué)生的畢業(yè)成績(jī)間存在關(guān)聯(lián)關(guān)系。王芮[4]采用聯(lián)合粒子群算法(particle swarm optimization,PSO)和BP神經(jīng)網(wǎng)絡(luò)(PSO-BP)對(duì)目標(biāo)課程學(xué)習(xí)成績(jī)進(jìn)行預(yù)測(cè)。郭華偉等[5]采用SVM 分類器對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練學(xué)習(xí),并通過(guò)PSO 優(yōu)化SVM 的參數(shù),從而建立體育成績(jī)預(yù)測(cè)模型。劉艷杰等[6]利用貝葉斯網(wǎng)絡(luò)推理的聯(lián)合樹(shù)算法預(yù)測(cè)學(xué)生成績(jī)。FRANCIS B K等[7]運(yùn)用聚類和分類相結(jié)合的算法構(gòu)建成績(jī)預(yù)測(cè)模型。線性回歸[8-10]、決策樹(shù)[11-13]等基于概率統(tǒng)計(jì)的模型也被用于學(xué)生成績(jī)預(yù)測(cè)。目前,用于學(xué)生成績(jī)預(yù)測(cè)的機(jī)器學(xué)習(xí)算法還有SVM[14-16]、最小二乘支持向量機(jī)[17]、推薦算法[18]等。

        在分類領(lǐng)域中,SVM 模型的分類效果普遍較好,當(dāng)數(shù)量集較少時(shí)分類準(zhǔn)確率較高且泛化能力強(qiáng)[19-20]。但是,SVM 分類器的懲罰因子c 和核函數(shù)參數(shù)g 難以確定,如果將其直接用于學(xué)生成績(jī)預(yù)測(cè),預(yù)測(cè)的準(zhǔn)確率相對(duì)較低且運(yùn)行效率不高。麻雀搜索算法(sparrow search algorithm,SSA)[21]是一種新型智能優(yōu)化算法,該算法主要受麻雀捕食行為啟發(fā)。算法具有全局搜索尋優(yōu)能力強(qiáng)、穩(wěn)定性高且收斂速度快等優(yōu)點(diǎn),可以有效優(yōu)化SVM 分類器的參數(shù)。因此,提出了一種基于麻雀搜索算法優(yōu)化SVM(SSA-SVM)的學(xué)生成績(jī)預(yù)測(cè)模型,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的性能與可行性。

        1 算法原理

        1.1 SVM分類算法

        SVM 是在統(tǒng)計(jì)學(xué)習(xí)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論的基礎(chǔ)上發(fā)展起來(lái)的[22-23]??紤]到結(jié)構(gòu)風(fēng)險(xiǎn)是訓(xùn)練誤差和建模復(fù)雜性之間的合理權(quán)衡,因此SVM 具有很好的泛化能力,其思想是發(fā)現(xiàn)一個(gè)超平面來(lái)區(qū)分正負(fù)樣本。

        為了獲得最優(yōu)超平面分類樣本,SVM 通過(guò)核函數(shù)將輸入空間映射為高維特征空間。首先必須進(jìn)行二次規(guī)劃優(yōu)化:

        其中:ξi是一個(gè)松弛變量,用于控制訓(xùn)練誤差并保持約束;c是懲罰因子,其值越高,表示對(duì)誤差的容忍度越差,此時(shí)容易出現(xiàn)過(guò)擬合,反之,則容易出現(xiàn)欠擬合;Φ(xi)是方程系數(shù)。

        其次,由于RBF 核函數(shù)可以直觀有效地反映出兩個(gè)數(shù)據(jù)向量之間的距離,因此選擇徑向基核函數(shù):

        其中,g為核函數(shù)參數(shù),其值影響模型的訓(xùn)練速度和預(yù)測(cè)速度。

        1.2 麻雀搜索算法

        2020 年,受麻雀捕食行為啟發(fā),薛建凱等人提出了麻雀搜索算法。根據(jù)設(shè)定,麻雀算法事先將模擬麻雀分為三類:發(fā)現(xiàn)者、加入者和警戒者。

        發(fā)現(xiàn)者不僅需要負(fù)責(zé)尋找食物,還肩負(fù)著引導(dǎo)整個(gè)種群移動(dòng)的任務(wù)。因此,發(fā)現(xiàn)者可以在更廣泛的位置和區(qū)域?qū)ふ沂澄?。其位置更新公式為?/p>

        其中,X是一個(gè)矩陣,表示麻雀的位置,如式(5)所示。所有參數(shù)及說(shuō)明如表1所示。

        表1 公式(4)、(5)相關(guān)參數(shù)及說(shuō)明

        加入者時(shí)刻盯著發(fā)現(xiàn)者,當(dāng)其感知到發(fā)現(xiàn)者找到好的食物,他們會(huì)立刻向發(fā)現(xiàn)者聚集,去搶奪食物。其位置更新如公式(6)所示:

        其中,A+=AT(AAT)-1。其余參數(shù)及說(shuō)明如表2所示。

        表2 公式(6)、(7)相關(guān)參數(shù)及說(shuō)明

        在整個(gè)種群中,一般設(shè)定10%到20%的麻雀充當(dāng)警戒者,且隨機(jī)產(chǎn)生初始位置。其位置更新公式為:

        其中,所有參數(shù)及說(shuō)明如表2所示。

        為提高SVM 的預(yù)測(cè)準(zhǔn)確率,采用SSA 優(yōu)化SVM,即通過(guò)不斷迭代獲得全局最優(yōu)位置Xbest來(lái)確定SVM的懲罰因子c和核函數(shù)參數(shù)g。

        2 學(xué)生成績(jī)預(yù)測(cè)模型

        基于SSA-SVM的學(xué)生成績(jī)預(yù)測(cè)流程分為三個(gè)部分:數(shù)據(jù)預(yù)處理、SSA 優(yōu)化SVM 參數(shù)和分類預(yù)測(cè)。流程圖如圖1 所示。

        圖1 SSA-SVM學(xué)生成績(jī)預(yù)測(cè)流程圖

        (1)數(shù)據(jù)預(yù)處理

        為了對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,需要篩選和清洗原始特征。將樣本數(shù)據(jù)根據(jù)學(xué)生學(xué)習(xí)習(xí)慣等判定規(guī)則進(jìn)行特征選擇;數(shù)據(jù)集中的原始特征包含整型與字符型,需要將字符型進(jìn)行類型轉(zhuǎn)換,即字符型特征數(shù)值化。例如將“Yes”和“No”分別置換為1和0;將處理后的數(shù)據(jù)樣本按比例隨機(jī)分為訓(xùn)練樣本和測(cè)試樣本;將分類后的樣本數(shù)據(jù)利用公式(8)進(jìn)行歸一化處理。

        式中,xi為第i 個(gè)樣本的歸一化值,xmin、xmax為選取數(shù)據(jù)集中的最大值和最小值。

        (2)SSA優(yōu)化SVM參數(shù)

        對(duì)訓(xùn)練樣本特征向量進(jìn)行訓(xùn)練,利用SSA算法優(yōu)化SVM 參數(shù),將預(yù)測(cè)準(zhǔn)確率作為適應(yīng)度函數(shù)。根據(jù)適應(yīng)度值不斷迭代更新麻雀的最優(yōu)位置和全局最優(yōu)解,若達(dá)到最大迭代次數(shù),則獲得最優(yōu)的懲罰因子c和核函數(shù)參數(shù)g。

        (3)分類預(yù)測(cè)

        利用訓(xùn)練好的SVM 分類器進(jìn)行分類預(yù)測(cè),將優(yōu)化好的兩個(gè)參數(shù)帶入,對(duì)學(xué)生成績(jī)預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證。

        3 實(shí)驗(yàn)結(jié)果分析

        3.1 數(shù)據(jù)準(zhǔn)備與評(píng)價(jià)指標(biāo)

        (1)數(shù)據(jù)集

        為了驗(yàn)證成績(jī)預(yù)測(cè)模型的真實(shí)有效性,選用的數(shù)據(jù)集來(lái)源于UCI Machine Learning Repository(https://archive.ics.uci.edu/ml/datasets/Student + Performance),由葡萄牙米尼奧大學(xué)(Universidade do Minho)的Paulo Cortez 提供[24]。數(shù)據(jù)集中共有兩個(gè)文件,分別包含兩所中學(xué)學(xué)生的數(shù)學(xué)(UCI-Mat)成績(jī)和葡萄牙語(yǔ)(UCI-Por)成績(jī),數(shù)據(jù)屬性包括人口特征、學(xué)生學(xué)習(xí)行為特征和家長(zhǎng)特征等。兩種數(shù)據(jù)集調(diào)查方法和數(shù)據(jù)屬性基本一致,所以隨機(jī)選取了數(shù)據(jù)集UCI-Mat作為樣本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

        (2)評(píng)價(jià)指標(biāo)

        學(xué)生成績(jī)預(yù)測(cè)領(lǐng)域有4個(gè)主要評(píng)價(jià)指標(biāo),分別是準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)。

        如公式(9)所示為準(zhǔn)確率,它是指在所有樣本中,預(yù)測(cè)正確的樣本所占的比值。

        如公式(10)所示為精確率,它是指在所有預(yù)測(cè)為正樣本的樣本中,實(shí)際為正樣本所占的比值。

        如公式(11)所示為召回率,它是指在所有實(shí)際為正樣本的樣本中,預(yù)測(cè)正確的樣本所占的比值。

        如公式(12)所示為F1 分?jǐn)?shù),它是一個(gè)綜合評(píng)價(jià)指標(biāo)。其值越低,表明模型的穩(wěn)定性越差;反之,模型的穩(wěn)定性越好。

        其中,設(shè)1和0分別為正例和負(fù)例,則:

        TP:預(yù)測(cè)為1,實(shí)際為1,預(yù)測(cè)正確。

        FP:預(yù)測(cè)為1,實(shí)際為0,預(yù)測(cè)錯(cuò)誤。

        FN:預(yù)測(cè)為0,實(shí)際為1,預(yù)測(cè)錯(cuò)誤。

        TN:預(yù)測(cè)為0,實(shí)際為0,預(yù)測(cè)正確。

        3.2 數(shù)據(jù)處理

        UCI-Mat數(shù)據(jù)集中共有33個(gè)屬性,包括學(xué)生所在學(xué)校,學(xué)生性別、年齡,父母職業(yè)、受教育程度,學(xué)生行為習(xí)慣等,每一個(gè)特征對(duì)學(xué)生的學(xué)習(xí)成績(jī)都有一定的影響。為重點(diǎn)研究學(xué)生的行為習(xí)慣特征對(duì)成績(jī)的影響問(wèn)題,利用數(shù)據(jù)可視化方法分析了所有屬性后,從中選取13個(gè)屬性用于構(gòu)建預(yù)測(cè)模型,如表3所示。

        表3 數(shù)據(jù)集屬性信息及說(shuō)明

        本模型主要是對(duì)輸出目標(biāo)G3 進(jìn)行二分類研究,即將學(xué)生的期末考試成績(jī)預(yù)測(cè)結(jié)果分為合格和不合格兩類。因此,在數(shù)據(jù)集UCI-Mat中將分?jǐn)?shù)小于等于10 分設(shè)為0(0 表示不合格),其余設(shè)為1(1表示合格)。之后使用公式(9)所示的準(zhǔn)確率來(lái)度量二分類問(wèn)題。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)在UCI-Mat成績(jī)數(shù)據(jù)集上進(jìn)行,對(duì)數(shù)據(jù)預(yù)處理后將訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)按照9:1 隨機(jī)分配。麻雀算法中種群數(shù)量設(shè)定為20,發(fā)現(xiàn)者占比30%,預(yù)警值是0.6,迭代次數(shù)是30 次,意識(shí)到有危險(xiǎn)的麻雀占種群數(shù)量的20%。

        實(shí)驗(yàn)采用Python 編程環(huán)境,在配置為Intel(R)Core(TM)i5-10210U CPU@1.60GHz、2.11 GHz、內(nèi)存為16.00G、64位win10操作系統(tǒng)的計(jì)算機(jī)上進(jìn)行。

        利用SSA 優(yōu)化SVM 模型后,最優(yōu)值懲罰因子c和核函數(shù)參數(shù)g 分別為1.20737689 和0.10390249,學(xué)生成績(jī)預(yù)測(cè)的分類結(jié)果如圖2所示。由圖2中結(jié)果分析,在測(cè)試過(guò)程中,只有2個(gè)0類別的樣本被誤預(yù)測(cè)成了1 類別。如圖3 所示為SSA 適應(yīng)度曲線,在達(dá)到最大迭代次數(shù)時(shí),模型的分類準(zhǔn)確率為95.0%。

        圖2 測(cè)試集分類結(jié)果

        圖3 SSA適應(yīng)度曲線

        目標(biāo)屬性G3是第三期(期末)的成績(jī),G1和G2分別是第一期和第二期的成績(jī)。如果在沒(méi)有G1和G2的情況下預(yù)測(cè)G3,其分類結(jié)果如圖4所示,預(yù)測(cè)準(zhǔn)確率為67.5%。實(shí)驗(yàn)結(jié)果顯示在沒(méi)有平時(shí)成績(jī)的情況下,對(duì)期末成績(jī)進(jìn)行預(yù)測(cè),其準(zhǔn)確率會(huì)大大下降。這說(shuō)明了平時(shí)成績(jī)與期末成績(jī)具有很強(qiáng)的關(guān)聯(lián)性。

        圖4 沒(méi)有G1和G2情況下的測(cè)試集分類結(jié)果

        為了體現(xiàn)SSA-SVM分類預(yù)測(cè)的有效性和可行性,與SVM、隨機(jī)森林和BP算法3種分類方法進(jìn)行了比較,結(jié)果如表4 所示。圖5 是4 種分類方法性能比較的可視化示意圖,可以更直觀有效地觀測(cè)其性能變化。表5為4種分類方法的準(zhǔn)確率。

        圖5 4種分類方法性能比較

        表4 4種分類方法性能比較

        表5 4種分類方法準(zhǔn)確率比較

        對(duì)表4 和圖5 分析可知:1)在這些學(xué)生成績(jī)預(yù)測(cè)模型中,通過(guò)4種方法性能對(duì)比,除了基于BP神經(jīng)網(wǎng)絡(luò)模型在1類別上的精確率和0類別上的召回率稍高外,SSA-SVM模型具有較明顯的優(yōu)勢(shì);2)在0類別和1類別上,SSA-SVM分類預(yù)測(cè)方法的F1分?jǐn)?shù)都是最高的,說(shuō)明了該預(yù)測(cè)模型最穩(wěn)定,性能最好。

        對(duì)表5 分析可知:1)SVM 模型準(zhǔn)確率僅次于SSA-SVM 模型,達(dá)到了92.5%。這是由于在SVM分類器模型中,使用了網(wǎng)格搜索交叉驗(yàn)證方法,目的是最大程度上獲取最優(yōu)超參數(shù),在一定程度上可以獲得較好的懲罰因子c 和核函數(shù)參數(shù)g;2)與其他模型相比,SSA-SVM模型的分類準(zhǔn)確率最高,超出了其他方法2.5%,有較強(qiáng)的實(shí)用性。

        4 結(jié)語(yǔ)

        為輔助學(xué)校和老師適時(shí)動(dòng)態(tài)調(diào)整學(xué)生的學(xué)習(xí)狀態(tài),以幫助其更高質(zhì)量地完成學(xué)習(xí)要求,提出了一種基于SSA-SVM學(xué)生成績(jī)預(yù)測(cè)模型。首先利用麻雀搜索算法不斷迭代,以期得到支持向量機(jī)的最優(yōu)核心參數(shù),使分類器達(dá)到最優(yōu)效果;然后在UCIMat成績(jī)數(shù)據(jù)集上,與其他3種方法進(jìn)行性能對(duì)比,證明了SSA-SVM分類方法的優(yōu)越性。由于數(shù)據(jù)集樣本數(shù)量的限制,在一定程度上會(huì)影響預(yù)測(cè)的準(zhǔn)確性;麻雀搜索算法也有很大的改進(jìn)空間,所以下一步的重點(diǎn)工作是合理選擇、優(yōu)化數(shù)據(jù)集和進(jìn)一步探究學(xué)生成績(jī)預(yù)測(cè)模型的新方法。

        猜你喜歡
        麻雀準(zhǔn)確率分類
        分類算一算
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        拯救受傷的小麻雀
        分類討論求坐標(biāo)
        1958年的麻雀
        高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        數(shù)據(jù)分析中的分類討論
        麻雀
        国产三级韩三级日产三级| 东北寡妇特级毛片免费| 久久久久无码国产精品不卡| 亚洲精品一区网站在线观看| 美女射精视频在线观看| 亚洲av无码精品无码麻豆| 日本无码人妻波多野结衣| 国产欧美精品一区二区三区,| 久久精品av一区二区免费| 成人影院视频在线免费观看| 国产亚洲2021成人乱码| 1769国产精品短视频| 97中文字幕一区二区| 干日本少妇一区二区三区| 欧美黑人群一交| 精品四虎免费观看国产高清| 亚洲精品一区二区三区蜜臀| 91精品国产综合久久熟女| 久久精品噜噜噜成人| 亚洲午夜成人片| 亚洲精品国产av成人网| 极品老师腿张开粉嫩小泬| 欧美疯狂性xxxxxbbbbb| 一区二区三区国产美女在线播放| 国产精品亚洲综合久久系列| 欧美xxxx做受欧美| 成人在线激情网| 日本道免费一区日韩精品| 人妻少妇被猛烈进入中文字幕| 国产精品久久久久影院| 亚洲欧美日韩高清中文在线| 五月综合丁香婷婷久久| 久久99国产精品久久| 女同久久精品国产99国产精品 | 成年毛片18成年毛片| 扒开美女内裤舔出白水| 无码国产伦一区二区三区视频| 亚洲VA不卡一区| 亚洲乱熟妇一区二区三区蜜桃| 国产精品无码一区二区三区电影 | 国产福利片无码区在线观看 |