摘要:學(xué)生資助以“家庭經(jīng)濟困難學(xué)生的資助全覆蓋且無遺漏”為工作目標(biāo),并重點幫助特困學(xué)生順利完成學(xué)業(yè)。在智慧校園平臺的基礎(chǔ)上,文章提出一種基于強化學(xué)習(xí)的代價敏感困難學(xué)生等級分類算法,將非平衡數(shù)據(jù)的代價敏感特性引入隨機森林的生成過程,使用強化學(xué)習(xí)的累計回報系數(shù)影響CART決策樹在屬性分裂時的選取,實現(xiàn)同時提升困難學(xué)生整體分類準(zhǔn)確率和特困學(xué)生類別分類準(zhǔn)確率的效果。實驗結(jié)果表明,與現(xiàn)有困難學(xué)生等級分類算法相比,該算法在困難學(xué)生整體分類和特困學(xué)生類別分類的準(zhǔn)確率上處理效果均較理想。
關(guān)鍵詞:困難學(xué)生;隨機森林;深度學(xué)習(xí);代價敏感
中圖分類號:TP311.13文獻(xiàn)標(biāo)志碼:A
0引言
困難學(xué)生認(rèn)定和困難等級分類一直是學(xué)生資助工作中比較重要且較難精準(zhǔn)識別的部分。在每一學(xué)年伊始,各高校均要完成家庭經(jīng)濟困難學(xué)生認(rèn)定,傳統(tǒng)的工作方法是讓學(xué)生填寫各種紙質(zhì)表格,上交相關(guān)困難佐證材料,再通過家訪、個別訪談、信函索證、量化評估、民主評議等多種方式開展家庭經(jīng)濟困難學(xué)生認(rèn)定工作,因此困難認(rèn)定和困難等級分類的結(jié)果在很大程度上與輔導(dǎo)員對學(xué)生的了解程度及主觀態(tài)度有直接關(guān)系。目前,隨著大數(shù)據(jù)和人工智能等技術(shù)的發(fā)展,越來越多的學(xué)者將數(shù)據(jù)挖掘、機器學(xué)習(xí)等技術(shù)應(yīng)用于困難學(xué)生識別和困難等級分類等工作中開展研究,主要的經(jīng)典算法包括關(guān)聯(lián)規(guī)則、聚類、神經(jīng)網(wǎng)絡(luò)、決策樹、隨機森林等。這些算法一般是基于數(shù)據(jù)較為均勻的平衡數(shù)據(jù)集進(jìn)行分析的,但困難學(xué)生數(shù)據(jù)往往存在不平衡的特點,其不平衡特點體現(xiàn)在特困學(xué)生的占比較小,一般困難類和困難類學(xué)生的占比較多。若特困學(xué)生被錯誤分為一般困難或困難類別,對整體的分類精確率不會有太大影響,但這類特困學(xué)生是困難學(xué)生群體中最需要救助和幫扶的一部分。因此特困學(xué)生分類對于學(xué)生資助工作而言是非常重要并且不能忽略的部分。傳統(tǒng)機器學(xué)習(xí)的分類方法一般追求總體的分類精準(zhǔn)率而忽略少數(shù)比較重要類別的準(zhǔn)確率,對于困難學(xué)生的困難等級分類效果不理想。若所用算法忽略了此類學(xué)生,將會導(dǎo)致特困學(xué)生得不到及時資助或者所獲資助資金減少,這就造成了資助的不公平,在很大程度上影響了特困學(xué)生的學(xué)習(xí)和生活。特困學(xué)生甚至?xí)驗榻?jīng)濟問題,無法專注于學(xué)習(xí),或萌生退學(xué)或休學(xué)的想法。
Leo[1]提出了隨機森林算法,其是一種集成學(xué)習(xí)算法,其核心思想在于構(gòu)建一個由諸多決策樹組成的“森林”,每個決策樹都是獨立訓(xùn)練的,并且在預(yù)測分類結(jié)果時其判斷結(jié)果會被綜合起來以得出最終的結(jié)果。這種方法有效地減少了單一決策樹可能出現(xiàn)的高誤差和過擬合問題。2019年,馬曉君等[2]基于粒子群算法優(yōu)化加權(quán)隨機森林模型,并將其應(yīng)用于企業(yè)信用評級領(lǐng)域,經(jīng)實驗證明了算法具有較高的預(yù)測精度。2020年,朱瑛等[3]基于計算節(jié)點匹配代價的方法對隨機森林進(jìn)行優(yōu)化,并以Kappa系數(shù)為權(quán)重對新隨機森林中每棵決策樹進(jìn)行加權(quán)處理,提高了隨機森林算法的預(yù)測精度。為了提高不平衡數(shù)據(jù)中重要類別的分類準(zhǔn)確率,本文采用基于強化學(xué)習(xí)的隨機森林困難等級分類算法,將錯分的代價影響因子引入不平衡數(shù)據(jù)分類的過程,使用強化學(xué)習(xí)理論中累計回報系數(shù)影響“森林”中決策樹的生長,從而達(dá)到提高特困學(xué)生分類準(zhǔn)確率的目的。
1代價敏感理論
傳統(tǒng)的分類方法認(rèn)為數(shù)據(jù)集中各個類別的數(shù)據(jù)是均勻分布的,也稱為平衡數(shù)據(jù)集,并將正樣本和負(fù)樣本錯誤分類帶來的代碼認(rèn)為是相等的。不平衡數(shù)據(jù)是指在數(shù)據(jù)集中的不同類別樣本的數(shù)據(jù)量存在不平衡的情況,數(shù)量上存在較大差異,某些類別的樣本數(shù)量較少被稱為正樣本,這些數(shù)據(jù)集樣本往往具有代價敏感性,即正樣品被錯分所帶來的代價較大。困難學(xué)生的數(shù)據(jù)樣本存在典型的代價敏感特性,困難學(xué)生中的特困學(xué)生在總體樣本中往往數(shù)量偏少,但這部分學(xué)生是更需要關(guān)注和資助的群體。特困學(xué)生的分類結(jié)果在整體數(shù)據(jù)分析結(jié)果中至關(guān)重要。在資助工作中,針對特困學(xué)生群體,學(xué)校應(yīng)給予更多比例的資助資金和關(guān)心關(guān)愛。若采用傳統(tǒng)基于平衡數(shù)據(jù)集的分類算法進(jìn)行分析,將導(dǎo)致無法精準(zhǔn)識別這類特困學(xué)生,且其及時資助受到影響。在數(shù)據(jù)分類過程中,引入錯分代價矩陣能夠提高正樣本的錯分代價,以提高正樣本對整體分類準(zhǔn)確率的影響,因此,本文提出基于困難等級分類的代價敏感矩陣[4]。在生成決策樹的過程中,本文使用屬性A作為決策樹分類節(jié)點屬性的整體誤分代價,如式(1)所式。
CA=∑2i=0
j=0Cij(1)
特別困難類、困難類和一般困難類3個類別形成的錯分代價矩陣如表1所示。
代價敏感學(xué)習(xí)的思想是增加誤分正樣本在訓(xùn)練集中的權(quán)重,從而提高分類器對正樣本的準(zhǔn)確率的影響。本文提高特困學(xué)生的誤分代價,當(dāng)特困學(xué)生被錯分時,雖然該類別數(shù)量占比較少,但系統(tǒng)得到的代價反饋得到保持,從而不會影響整體的分類效果。
2強化學(xué)習(xí)理論
強化學(xué)習(xí)的原理是根據(jù)當(dāng)前學(xué)習(xí)環(huán)境的影響,綜合分析各種影響所造成的結(jié)果,即回報信息,從而決策得出最佳的動作,并對學(xué)習(xí)方法作出相應(yīng)地調(diào)整,實現(xiàn)自我優(yōu)化,達(dá)到提高分類預(yù)測準(zhǔn)確率的目標(biāo)。目前比較成熟的理論有馬爾科夫決策過程(Markov Decision Process,MDP)[5],它是一個隨機過程,系統(tǒng)的下一個狀態(tài)僅依賴于當(dāng)前狀態(tài),而與以前的歷史狀態(tài)無關(guān)。MDP表達(dá)式為:
MDP=lt;S,A,P,Rgt;(2)
其中,S代表狀態(tài)集合;A代表動作集合;P代表狀態(tài)轉(zhuǎn)移概率矩陣,由在一個狀態(tài)執(zhí)行某個動作后轉(zhuǎn)移到其他狀態(tài)的概率組成;R代表在一個狀態(tài)下執(zhí)行某個動作后得到的回報函數(shù)[6-7]。根據(jù)當(dāng)前的狀態(tài)和回報函數(shù),系統(tǒng)在動作集合中選擇最優(yōu)的動作。在與環(huán)境交互的過程中,智能體利用狀態(tài)轉(zhuǎn)移概率來規(guī)劃行動策略,以獲得最大化累積獎勵[8]。本文算法的設(shè)計思想是將非平衡數(shù)據(jù)的錯分代價特性引入回報函數(shù)中,作為決策樹屬性選擇的影響因素。
3基于強化學(xué)習(xí)的隨機森林困難等級分類算法
3.1基于貧困等級分類的累計回報系數(shù)
將困難學(xué)生的樣本數(shù)據(jù)通過分類模型預(yù)測,得到的最終分類結(jié)果如表2所示。表中,T、F表示樣本的數(shù)量,Tii表示將實際為i類的樣本正確地分類為i類的樣本數(shù)量,F(xiàn)ij表示實際為i類但被錯誤地分類為j類的樣本數(shù)量。
在困難等級分類過程中,學(xué)校資助管理部門對特別困難類別的學(xué)生更加關(guān)注,故在建模的過程中單獨納入特別困難類準(zhǔn)確率為:
TP=T00T00+F01+F02(3)
困難等級整體準(zhǔn)確率為:
Acc(0)=T00+T11+T22N(4)
其中,N為所有困難學(xué)生樣本的總和。RMS為3個列表準(zhǔn)確率的加權(quán)均方根,其表達(dá)式如式(5)所示。
RMS=T00T00+F01+F02w02+T11F10+T11+F12w12+T22F20+F21+T22w223(5)
決策樹是用于樣本分類和回歸的經(jīng)典算法,模仿了人類的決策過程。決策樹算法以貪心算法為基本原則,自上而下地選擇當(dāng)前節(jié)點選擇最有利的分類規(guī)則,將數(shù)據(jù)集在不同分裂節(jié)點根據(jù)不同規(guī)則劃分為不同類別,從而形成一個樹形結(jié)構(gòu)模型,并用于預(yù)測新樣本類別。不同決策樹算法最佳分類樹形的選擇策略不同,ID3算法、C4.5是以信息增益、信息增益率作為屬性選擇的依據(jù)。CART決策樹算法使用Gini指數(shù)作為分裂屬性的選擇標(biāo)準(zhǔn)[9]。
隨機森林是一種集成的學(xué)習(xí)算法,通過隨機抽取樣本生成多棵決策樹,這些決策樹組成了“森林”,每一棵決策樹都是一個分類器,將對新樣本產(chǎn)生一個分類結(jié)果,隨機森林集成了所有樹的投票結(jié)果,將投票次數(shù)最多的分類結(jié)果作為隨機森林的最終分類結(jié)果。由于每棵樹通過不同的樣本和特征生成,可以防止過度擬合的情況,隨機森林的魯棒性和預(yù)測準(zhǔn)確性更強[10]。隨機森林中最重要的單元是決策樹,本文采用CART決策樹作為基本單元。
CART決策樹的Gini指數(shù)最早來源于經(jīng)濟學(xué),用于衡量分配是否公平,CART決策樹中的Gini指數(shù)表示數(shù)據(jù)的純度和確定性,也表示集合中樣本被錯分的概率,當(dāng)Gini指數(shù)越小時,這個數(shù)據(jù)集純度越高,樣本被錯分的概論越小。經(jīng)典的CART決策樹算法計算出所有類別的Gini值,結(jié)合Gini值設(shè)計AS值,選擇AS最小的值作為最優(yōu)分裂屬性。決策樹第i層節(jié)點的累計回報系數(shù)由TP、ACC和RMS的積組成,其表達(dá)式為:
CR(i)=TP×ACC×RMS(6)
根據(jù)各層的累計回報系數(shù)計算出該屬性在當(dāng)前節(jié)點(第i層)的累計回報系數(shù)為:
CRi=CR(1)CR(2)…CR(i)(7)
3.2基于累計回報系數(shù)的屬性選擇策略
基于強化學(xué)習(xí)的隨機森林困難等級分類算法,本文在每一棵樹的第i層節(jié)點上,針對第j個屬性,計算建模樣本數(shù)據(jù)中選擇該屬性進(jìn)行分裂的TP、ACC和RMS,并結(jié)合之前1-i層計算累計回報系數(shù)CR,計算出基于強化學(xué)習(xí)累計回報的屬性AS值為:
AS=(2Gini-1)×C(A)CRi(8)
C(A)=∑nt=1C(i)(9)
其中,C(i)是使用屬于A作為決策樹分類節(jié)點屬性時的整體誤分代價。C(A)越小,決策樹分裂錯誤的代價越小,馬爾可夫鏈的回報系數(shù)CRi越大,AS值越小,則決策樹的分裂效果越好。從決策樹的根節(jié)點開始,每一層選擇AS值最小的屬性作為分裂節(jié)點,逐層依據(jù)AS完成屬性的選擇,直到分裂至葉子節(jié)點,最終生成一棵基于強化學(xué)習(xí)的代價敏感決策樹。
本文通過隨機抽樣的方式提取樣本生成N棵基于強化學(xué)習(xí)的代價敏感決策樹,共同組成了隨機森林。在預(yù)測新樣本的類別時,每棵樹對新樣本預(yù)測分類結(jié)果進(jìn)行投票,將獲得票數(shù)最多的分類結(jié)果作為整個隨機森林對新樣本的預(yù)測結(jié)果。算法步驟如下:
(1)從樣本中隨機提取訓(xùn)練數(shù)據(jù);
(2)從根節(jié)點開始生成Gini決策樹;
(3)計算每層TP、ACC和RMS,計算出AS值,選擇最優(yōu)分裂屬性;
(4)重復(fù)步驟(1)—(3),直至森林生成結(jié)束。
4實驗結(jié)果及分析
本文實驗主要針對困難學(xué)生的數(shù)據(jù)進(jìn)行分類預(yù)測,故將本文算法與隨機森林、CART決策樹進(jìn)行比較。本文的實驗數(shù)據(jù)提取自智慧校園平臺學(xué)生行為等相關(guān)數(shù)據(jù),包括學(xué)生的一卡通消費數(shù)據(jù)、門禁系統(tǒng)數(shù)據(jù),學(xué)業(yè)數(shù)據(jù)、社交數(shù)據(jù)等[11-12],具體內(nèi)容如表3所示。
隨著手機支付的普及,很多學(xué)生采用微信或者支付寶進(jìn)行購物,導(dǎo)致學(xué)生在學(xué)校使用一卡通消費的數(shù)據(jù)減少,采用一卡通消費數(shù)據(jù)作為特張指標(biāo)進(jìn)行分析將會出現(xiàn)偏差。本文采用人臉識別和表情分析技術(shù),采集學(xué)生進(jìn)入食堂、寢室、超市、圖書館、洗衣房、體育館等場所的行為數(shù)據(jù),提取出貧困學(xué)生在這些場所出現(xiàn)的頻次。
困難學(xué)生等級分類的實驗結(jié)果如圖1—2所示。
本文算法將一般困難、困難和特別困難3個各類別的權(quán)重分別設(shè)置為:w1 =0.1;w2 =0.4;w3 =0.5。將數(shù)據(jù)源按隨機策略劃分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),訓(xùn)練數(shù)據(jù)占80%,測試數(shù)據(jù)占20%。按照往年獲得過助學(xué)金的學(xué)生設(shè)置家庭經(jīng)濟困難學(xué)生等級標(biāo)簽。實驗表明,由圖1可知,本文算法處理后的困難學(xué)生整體分類準(zhǔn)確率和特困類別的準(zhǔn)確率分別為89.3%和92.6%;由圖2可知,本文算法的總體準(zhǔn)確率為92.6%,均普遍高于其他2種算法,這說明特困學(xué)生類別分類準(zhǔn)確率得以有效提升[13]。
5結(jié)語
本文提出了一種基于強化學(xué)習(xí)的隨機森林困難等級分類算法。該算法首先引入代價敏感理論,將特困學(xué)生誤分為其他類別學(xué)生的情況賦予更大的錯分代價;再引入馬爾可夫模型中,基于隨機森林算法每棵CART決策樹的生成過程,根據(jù)之前層次的累計回報系數(shù)計算當(dāng)前的累計回報系數(shù),并將累計回報系數(shù)和整體錯分代價引入當(dāng)前層級的屬性選擇依據(jù);最后生成由基于深度學(xué)習(xí)的代價敏感CART決策樹組成的隨機森林。實驗結(jié)果表明,所提算法能夠有效提高特困學(xué)生的分類準(zhǔn)確率。下一步,課題組將圍繞隨機森林對每棵樹分類結(jié)果的選取方法以及各個類別賦值的權(quán)重進(jìn)行系統(tǒng)研究。
參考文獻(xiàn)
[1]LEO B.Random forests.[J].Machine Learning,2001(1):5-32.
[2]馬曉君,董碧瀅,王常欣.一種基于PSO優(yōu)化加權(quán)隨機森林算法的上市公司信用評級模型設(shè)計[J].數(shù)量經(jīng)濟技術(shù)經(jīng)濟研究,2019(12):165-182.
[3]朱瑛,謝睿,鄭若池.基于節(jié)點匹配代價優(yōu)化的隨機森林算法[J].計算機工程與設(shè)計,2020(11):3106-3111.
[4]郭佳君,楊波,朱劍林,等.面向不平衡樣本的高校學(xué)生資助等級分類模型[J].中南民族大學(xué)學(xué)報(自然科學(xué)版),2022(1):101-108.
[5]孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計算機應(yīng)用研究,2012(8):2806-2810.
[6]胡凱,鄭翡,盧飛宇,等.基于深度學(xué)習(xí)的行為識別算法綜述[J].南京信息工程大學(xué)學(xué)報,2021(6):730-743.
[7]殷昌盛,楊若鵬,朱巍,等.多智能體分層強化學(xué)習(xí)綜述[J].智能系統(tǒng)學(xué)報,2020(4):646-655.
[8]胡鴻翔,梁錦,溫廣輝,等.多智能體系統(tǒng)的群集行為研究綜述[J].南京信息工程大學(xué)學(xué)報,2018(4):415-421.
[9]江國薦.基于SAE-LBP網(wǎng)頁分類的研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.
[10]高藝文.基于多尺度面部特征的抑郁識別研究[D].蘭州:蘭州大學(xué),2021.
[11]王燁.高校學(xué)生資助管理系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機產(chǎn)品與流通,2019(3):210.
[12]王益成,王萍.基于用戶動態(tài)畫像的科技情報服務(wù)推薦模型構(gòu)建研究[J].情報理論與實踐,2019(4):83-88.
[13]李云.大數(shù)據(jù)分析技術(shù)及其在貧困生幫扶工作中的應(yīng)用研究[D].貴陽:貴州大學(xué),2018.
(編輯沈強編輯)
Random forest difficulty classification algorithm based on reinforcement learning
ZHU" Jing, SONG" Susu
(Chuzhou Polytechnic, Chuzhou 239000, China)
Abstract: The working goal of student financial assistance is “full coverage and no omission of financial assistance for students from poor families”, and it focuses on helping extremely poor students successfully complete their studies. Based on the smart campus platform, this paper proposes a classification algorithm for cost-sensitive students with difficulty based on reinforcement learning. The cost-sensitive characteristics of unbalanced data are introduced into the generation process of random forest, and the cumulative return coefficient of reinforcement learning is used to influence the selection of CART decision trees when the attributes are split, in order to achieve the effect of improving the overall classification accuracy of students with difficulties and the classification accuracy of students with special difficulties. The experimental results show that compared with the existing classification algorithms, the proposed algorithm is effective in both the overall classification of students with difficulty and the classification accuracy of students with extreme difficulty.
Key words: students from poor families; random forest; deep learning; cost sensitive