魏 超
(陜西財經(jīng)職業(yè)技術學院,陜西 咸陽 712000)
黨的二十大報告指出:“我們要堅持教育優(yōu)先發(fā)展、科技自立自強、人才引領驅動,加快建設教育強國、科技強國、人才強國,堅持為黨育人、為國育才,全面提高人才自主培養(yǎng)質量,著力造就拔尖創(chuàng)新人才,聚天下英才而用之”。學生是祖國的未來,如何培養(yǎng)出優(yōu)秀的接班人是學校管理部門常思的一個問題,即如何激發(fā)每一個學生的學習潛能,為中華民族的偉大復興貢獻一份力量。大多數(shù)高校往往是用學生的歷史考試成績,計算概率或計數(shù),從而對相應學生提出預警,但沒考慮到在學生的學習過程中進行預警提示,以避免考試不及格,本文將堅持以人為本原則,以對學生和家長、學校、社會負責為出發(fā)點,以學習過程預警機制為研究視角,探索預警機制。
綜合目前中國知網(wǎng)上相關研究文獻,可分為兩方面:一方面是對大學生綜合素質進行綜合評價研究,如謝國敏等[1]運用層次分析法(Analytic Hierarchy Process,AHP) 對大學生德智體三方面綜合評價進行了研究;吳瀛灝等[2]對大學生綜合素質評價指標進行了相關性分析和方差分析。另一方面是運用機器學習算法僅僅對高校學生學情進行研究,如吳鯤[3]運用機器學習技術包括隨機森林算法、支持向量機和回歸分類樹等算法對學生成績的預警系統(tǒng)進行建模研究;鐘新成[4]運用樸素貝葉斯分類算法對高校學生學情進行預警分類研究。我國的教育方針是培養(yǎng)德智體美勞綜合素質的人才,學習只是專業(yè)素質的表現(xiàn),還需要結合德、體、美、勞四方面進行研究,基于培養(yǎng)德智體美勞綜合素質人才目標,借助機器學習,以研究大學生綜合素養(yǎng)的預警機制。
本文借助于樸素貝葉斯分類算法,并進行算法改進,以研究大學生綜合素質的預警機制。
貝葉斯理論是在概率論的基礎上提出的,包括先驗概率、條件概率和后驗概率等概念。條件概率是指在A 發(fā)生的條件下,B 發(fā)生的概率,也稱為后驗概率。假定A、B 兩個事件,且先驗概率P(A)>0,則條件概率P(B|A)的表達式為
式中;P(AB)為聯(lián)合概率,其表達式為
假設B1,B2,…,Bn是相互獨立的,且其中任意P(Bi)>0,則全概率的表達式為
那么,在A 發(fā)生的條件下,Bi發(fā)生的概率為
式(4)即貝葉斯公式。
樸素貝葉斯分類器(Naive Bayes Classifier,NBC) 也稱為樸素貝葉斯分類算法,是一種常見的分類模型,數(shù)學理論基礎扎實,具有可解釋性強、模型處理過程簡單和易于實現(xiàn)等優(yōu)點,被廣泛應用于實際社會現(xiàn)象中?;谪惾~斯理論,假設滿足各屬性相互獨立的條件,可得樸素貝葉斯分類模型。設每個樣本有n 個特征值,即用n 維向量表示X=[x1x2… xn],樣本數(shù)據(jù)中存在m 個類Y= [y1y2…ym]。通過樸素貝葉斯分類算法,可計算最大后驗概率為
若式(5)滿足設定樣本所有特征屬性相互獨立,則求最大值。由于每個類在計算最大后驗概率時,分母P(X)均為常數(shù),因此求后驗概率最大值,即求分子P(X|yi)P(yi)的最大值,樸素貝葉斯分類模型(目標函數(shù)) 表示為
式中:P(yi)為先驗概率;P(xj|yi)為條件概率其中,先驗概率P(xj|yi)的極大似然估計為
式中:N(yi)為yi類的樣本總數(shù);N 為總的訓練樣本總數(shù)。條件概率P(xj|yi)的極大似然估計為
式中:(yi,xj) 為yi類中存在特征屬性xj的樣本總數(shù);N(yi)為yi類的樣本總數(shù)。
由于實際問題中受樣本個數(shù)限制,若某個特征屬性值在樣本訓練集中沒有與某個同類同時出現(xiàn)過,即可能出現(xiàn)式(6)中的條件概率為零,則導致連乘公式結果為零,其他特征屬性取任意值都不能改變結果為零的結果,因此需要對樸素貝葉斯公式進行拉普拉斯平滑處理。平滑處理后的先驗概率為
平滑處理后的條件概率為
式中:m 為樣本在第i個特征屬性上的取值個數(shù)。
樸素貝葉斯分類算法在假定所有特征屬性相互獨立,即條件概率相互獨立時,隱含了另一個前提,就是各條件概率的權重相等,即每個特征屬性對每個類的影響相同。但在實際問題中,每個特征屬性對類的影響程度是不同的,因此需要對條件概率賦予不同的權重,以提高分類結果的準確性,即加權樸素貝葉斯分類[5]。本文將借用熵的概念,定義不同特征屬性對分類的權重。
1948 年,克勞德·艾爾伍德·香農(nóng)將熵的概念引入到信息論中。利用熵的原理確定指標權重的方法稱為熵權法。熵權法根據(jù)指標的變異信息量確定權重。設有N 個樣本數(shù)據(jù)集,n 個特征屬性,形成原始指標數(shù)據(jù)矩陣X=(xki)N×n,對于某項指標xi,指標值xki的差異越大,則該指標在綜合評價中所起的作用越大。
1) 對決策矩陣X 進行標準化處理,消除各指標量綱不同或數(shù)量級不同對評價結果帶來的影響,從而形成標準化矩陣V=(vki)N×n。
2) 計算第i 項指標下,第k 個樣本對象的特征屬性比重
4) 計算第i 項指標的差異性系數(shù)di=1-ei。
因此,加權樸素貝葉斯分類模型(目標函數(shù))表示為
本文大學生綜合測評各項指標數(shù)據(jù)來自**學校,通過學校教務處、圖書館等部門取得2 000 名學生的調(diào)查數(shù)據(jù),經(jīng)數(shù)據(jù)清洗處理后得1 500 名學生的有效數(shù)據(jù)。借助加權樸素貝葉斯分類算法,以**學校為例進行大學生綜合測評預警機制的研究。
基于培養(yǎng)德智體美勞全面發(fā)展的教育方針,從德育、智育、體育、美育和勞育五方面構建大學生綜合測評評價指標體系,具體二級指標見表1。
表1 大學生綜合評測評價指標體系
預警類別值為需要預警(Y1) 和不需要預警(Y2)。根據(jù)大二學生上學年的學習情況,收集以上所有指標樣本數(shù)據(jù)。根據(jù)上學年德育成績標記為德育是否需要預警,若德育成績低于60 則標記為是(需要預警),否則標記為否(不需要預警);根據(jù)上學年掛科門數(shù)標記為智育是否需要預警,若掛科門數(shù)大于等于3 門則標記為是,否則標記為否;根據(jù)上學年體測成績標記為體育是否需要預警,若體測成績低于60 則標記為是,否則標記為否;根據(jù)美育成績標記為美育是否需要預警,若美育成績低于60 則標記為是,否則標記為否;根據(jù)上學年參與勞動周得分標記為勞育是否需要預警,若勞動得分成績低于60 則標記為是,否則標記為否。其中1 000 組數(shù)據(jù)用于進行模型訓練,500 組數(shù)據(jù)用于模型測試。
根據(jù)加權樸素貝葉斯分類模型(目標函數(shù)),借助python 軟件進行數(shù)據(jù)分析,其過程可描述為:首先,輸入學生訓練樣本集N(D)=1 500、學生測試樣本集N(T)=500、預警類別Y= [Y1Y2],屬性向量分別為A= [A1A2A3A4A5],B= [B1B2B3B4B5B6],C= [C1C2C3C4C5],D= [D1D2],E= [E1E2];然后,依次統(tǒng)計N(Y1),N(Y2),qi,N(Ai,xi),N(Y1,Ai=xi),p(Y1|t),p(Y2|t)的值,將歸為p(Yi|t)值最大的類別Y1;最后,輸出正確率和計算時間。
運用k 均值聚類(k-means)[6]、樸素貝葉斯和加權樸素貝葉斯3 種分類算法,分別對高校學生的德智體美勞綜合素質進行比較研究,對分類算法的評價指標包括正確率和計算時間。大學生綜合測評、大學生德育、大學生智育、大學生體育、大學生美育、大學生勞育的各分類算法實驗結果對比分別見表2~表7。
表2 大學生綜合測評各分類算法實驗結果對比表
由實驗結果表2 可知,從正確率來看,加權樸素貝葉斯分類算法更優(yōu),獲得了91.6%的正確率,而樸素貝葉斯分類算法和k-means 分類算法的正確率分別為88.4%和84.3%,均低于加權樸素貝葉斯分類算法。究其原因是加權樸素貝葉斯分類算法在樸素貝葉斯分類算法目標函數(shù)的基礎上,賦予了一個權重系數(shù),該系數(shù)體現(xiàn)了特征屬性xi包含信息量的多少,熵值越大,則說明該特征屬性對模型的貢獻越大。而樸素貝葉斯分類算法是將在各特征屬性相互獨立的基礎上建立的,忽略了各特征屬性間的關聯(lián)情況,比如網(wǎng)絡游戲時間長,則晚自習的次數(shù)會相應會減少等。從分類算法計算時間來看,3 種分類算法計算時間相差不大,由于計算方法的復雜性,加權樸素貝葉斯分類算法需要2.3 s。
同理,由表3~表7 可以得知,從正確率來看,加權樸素貝葉斯分類算法更優(yōu),即加權樸素貝葉斯分類算法的正確率比k-means 分類算法和樸素貝葉斯分類算法的正確率都高。從計算時間來看,3 種分類算法相差不大,由于計算的復雜性,加權樸素貝葉斯分類算法時間相對略長。
表3 大學生德育各分類算法實驗結果對比表
表4 大學生智育各分類算法實驗結果對比表
表5 大學生體育各分類算法實驗結果對比表
表6 大學生美育各分類算法實驗結果對比表
表7 大學生勞育各分類算法實驗結果對比表
綜上實驗結果所述,綜合正確率和計算時間的實驗結果,加權樸素貝葉斯分類算法適用于對高校大學生綜合測評預警,即進行綜合素質預警和德智體美勞五方面分別進行預警效果較好。
通過加權樸素貝葉斯分類算法和k-means 分類算法、樸素貝葉斯分類算法的對比研究可知,由于在目標函數(shù)中給每個條件概率賦予了不同的權重,即不同特征屬性對預警分類變量的重要性不同,從而加權樸素貝葉斯分類算法的正確率比其他兩種分類算法都高,最終本文利用加權樸素貝葉斯分類算法實現(xiàn)了對高校大學生綜合測評的預警研究。
該模型可用于高校教務處和學生管理部門對學生在校期間綜合素質培養(yǎng)過程的監(jiān)管和預警,從德智體美勞各方面進行具體指導。對于問題學生,可以提前進行提醒,將問題扼制在萌芽狀態(tài),避免出現(xiàn)預警或退學的結果,比如對于愛打游戲而缺乏自律的學生可以在學期中間進行預警,進而督促學生應該抓緊時間學習,以免期末考試不及格等。