郝曉平
(上海理工大學 光電信息與計算機工程學院,上海 200093)
?
基于貝葉斯網(wǎng)絡的研究生入學獎學金評定
郝曉平
(上海理工大學 光電信息與計算機工程學院,上海 200093)
研究生入學獎學金評價體系的建立是我國高校研究生培養(yǎng)機制改革中的重要問題。為了公平、公正地對研究生入學獎學金進行評定,需要把握影響獎學金等級評定的相關(guān)因素,并分析這些因素之間的內(nèi)在關(guān)系。文中以歷史數(shù)據(jù)為依據(jù)采用K2算法構(gòu)建評定獎學金等級的貝葉斯網(wǎng)絡模型,并基于概率推理算法對獎學金的等級進行預測。研究結(jié)果表明,該方法是可行的,其準確率高達88%,為研究生入學獎學金的評定提供了科學依據(jù)。
獎學金等級;評定;K2算法;貝葉斯網(wǎng)絡
研究生全面收費帶來了研究生教育管理模式的轉(zhuǎn)變,同時對研究生獎學金的評定提出了更高的要求。目前,國內(nèi)眾多學者已對獎學金的評定開展了研究工作。文獻[1]從研究生管理的角度出發(fā),依據(jù)AHP的原理選擇評定指標體系,構(gòu)建研究生獎學金的評定模型。文獻[2]結(jié)合數(shù)學模型建立了基于多層次綜合定量的獎學金評價體系。文獻[3]提出了基于Q值法的先席位后金額獎學金自動分配方案,并取得了良好的應用效果。文獻[4]利用決策樹方法,對獎學金數(shù)據(jù)進行數(shù)據(jù)挖掘,構(gòu)建了一種科學合理的獎學金評價體系。這些研究表明如何正確評定獎學金,是研究生教育的一項重要內(nèi)容。
貝葉斯網(wǎng)絡(BayesianNetwork,BN)是基于概率論和圖論的不確定知識表示和推理模型[5],采用有向無環(huán)圖來表示變量之間獨立性的關(guān)系,通過計算概率值來預測和推斷不確定的事件。研究生獎學金的評定需要有效地表示各影響因素之間的相互關(guān)系,進而有效地描述并推演其中蘊含的不確定性,即需要構(gòu)建有效的不確定性知識框架、并進行概率的推理計算。因此,可將貝葉斯網(wǎng)絡方法運用于研究生獎學金評定的研究。
以上海理工大學研究生招生的歷史數(shù)據(jù)為根據(jù),構(gòu)建影響獎學金評定的各因素之間相互關(guān)系的貝葉斯網(wǎng)絡,包括有向無環(huán)圖(DirectedAcyclicGraph,DAG)構(gòu)建和條件概率表(ConditionalProbabilityTable,CPT)學習,然后基于概率推理算法來推斷研究生入學獎學金的等級。
1.1貝葉斯公式
(1)
1.2鏈式法則
貝葉斯網(wǎng)絡一般是指帶有概率信息的有向無環(huán)圖。圖的每個頂點代表隨機變量,邊代表變量之間的概率關(guān)系。假設y1,y2,…,yn是一貝葉斯網(wǎng)絡圖中的節(jié)點,如果節(jié)點yi與yj之間有依賴關(guān)系,則必有一條有向弧連接兩個節(jié)點[6]。在貝葉斯網(wǎng)絡中,每個節(jié)點在給定其父母節(jié)點后條件獨立于它的前輩節(jié)點,故有
(2)
圖1 貝葉斯網(wǎng)絡圖
如圖1所示,設有6個變量y1,y2,y3,y4,y5,y6,全部的概率分布則被分解為各個相關(guān)的部分。根據(jù)鏈式法則,聯(lián)合概率P(y1,y2,y3,y4,y5,y6)可基于各變量的條件概率組成
P(y1,y2,y3,y4,y5,y6)=
P(y1),P(y2),P(y3|y1),P(y4|y1,y2),
P(y5|y4),P(y6|y4)
(3)
1.3貝葉斯網(wǎng)絡學習
貝葉斯網(wǎng)絡的學習包括結(jié)構(gòu)學習和參數(shù)學習,其中結(jié)構(gòu)學習是貝葉斯網(wǎng)絡研究中的熱點和難點,并被證明是NP-Hard問題。因此在實際計算中,并不是對所有的結(jié)構(gòu)分別計算其評分值,再進行比較取最優(yōu),而是采用搜索算法,如K2算法[7]、爬山算法、禁忌搜索、模擬退火等。這些算法按照某種評分函數(shù)在可能的拓撲結(jié)構(gòu)空間中進行搜索,通過最高的評分來獲取一個最優(yōu)網(wǎng)絡結(jié)構(gòu)。最常用的評分函數(shù)有基于貝葉斯統(tǒng)計BDe(BayesianDirichlet-LikelihoodEquivalence)[8]、最小描述長度MDL(MinimumDescriptionLength)和貝葉斯信息標準BIC(BayesianInformationCriterion)。
一個完整的貝葉斯網(wǎng)絡除了具有網(wǎng)絡結(jié)構(gòu)外,還包括網(wǎng)絡參數(shù),即條件概率表[9]。貝葉斯網(wǎng)參數(shù)學習[9-10]一般可以分為似然估計方法和貝葉斯估計方法兩大類。似然估計方法是最簡單的方法,通過對樣本數(shù)據(jù)進行簡單的統(tǒng)計得出需要的概率值,如果網(wǎng)絡結(jié)構(gòu)和樣本數(shù)據(jù)已知,那么可以從樣本數(shù)據(jù)中進行統(tǒng)計得出相應概率[11]。根據(jù)貝葉斯公式可知,以X2和X3為父親結(jié)點集,X1的條件概率參數(shù)可由式(4)計算。
P(X1=x1|X2=x2,X3=x3)=
(4)
2.1影響入學獎學金評定的主要因素
①將所有與運維相關(guān)的活動納入一個統(tǒng)一、規(guī)范、透明、前臺化的管理軌道,有效克服傳統(tǒng)管理方式帶來的運維活動后臺性強、信息分散、過于依賴個體等弊端。
根據(jù)2014年上海理工大學碩士研究生復試辦法,研究生入學獎學金的評定依據(jù)學生的錄取成績,錄取成績?yōu)槌踉嚦煽兣c復試成績的加權(quán)計算和,即
錄取成績=(初始成績÷5)×55%+復試成績×45%
(5)
學校以優(yōu)先錄取第一志愿考生為原則,分別對第一志愿和調(diào)劑考生的錄取成績進行由高分到低分的排序,并以此確定錄取名單,進而評定獎學金等級。學校按照一定的比例和標準,將獎學金設置為3個等級,如表1所示。
表1 2014級研究生學業(yè)獎學金資助標準
2.2獎學金等級評定模型的構(gòu)造
全國碩士研究生報考自2005年開始采用全國統(tǒng)一網(wǎng)上報名的方式,教育部網(wǎng)上報名系統(tǒng)為各招生單位提供了考生超過60條的屬性信息,包含姓名、生源地、畢業(yè)院校、學歷、考生來源等信息。表2為從上海理工大學2014年的歷史數(shù)據(jù)(450行)中選取的與研究生入學獎學金評定相關(guān)的代表屬性。各變量均為離散型變量,例如,“是否畢業(yè)于985/211院?!钡娜≈悼纱_定為1和2,分別表示“985/211院?!焙汀捌渌盒!?;“考生類別”取值為1、2和3,分別表示“應屆生”、“往屆生”和“保送生”等。
貝葉斯網(wǎng)絡建模一般有3種方法:依靠專家建模、從數(shù)據(jù)中學習、從知識庫中創(chuàng)建。本文采用K2算法從數(shù)據(jù)中學習貝葉斯網(wǎng)絡的結(jié)構(gòu)。K2算法定義一種評價網(wǎng)絡結(jié)構(gòu)優(yōu)劣的評分函數(shù)如BDe評分函數(shù),從一個網(wǎng)絡開始,根據(jù)事先確定的最大父節(jié)點數(shù)目和節(jié)點次序,選擇分值最高的節(jié)點作為該節(jié)點的父節(jié)點。對于所研究的問題,選取其中2/3作為訓練集,1/3作為測試集,限制最大父節(jié)點數(shù)為2,采用K2算法可得到如圖2所示的有向無環(huán)圖。
表2 研究生入學獎學金評定的代表屬性
圖2 獎學金評定相關(guān)因素的貝葉斯網(wǎng)絡圖
2.3條件概率表的計算
采用似然估計法獲得條件概率表。例如X1無父節(jié)點,則它的邊緣概率為
同時有P(X1=2)=1-P(X1=1)≈0.86。
對于節(jié)點X4,其父節(jié)點為X5和X6,則條件概率為
P(X4=1|X5=1,X6=1)=
同理可求得P(X4=1|X5=1,X6=2)≈0.42;P(X4=1|X5=2,X6=1)≈0.44;P(X4=1|X5=2,X6=
2)≈0.28。類似可求出其它節(jié)點的條件概率,從而得到如圖3的條件概率表。
根據(jù)得到的貝葉斯網(wǎng)絡結(jié)構(gòu)圖和條件概率表,使用測試數(shù)據(jù)集對其進行測試,例如以預測條件X7=1和X8=1時獎學金各等級的條件概率為例,根據(jù)式(1)和式(2)分析獎學金等級預測的過程和結(jié)果,為
P(X9=1|X7=1,X8=1)=
同理可求得P(X9=2|X7=1,X8=1)≈0.14;P(X9=1|X7=1,X8=1)≈0.04。
由計算得出的各條件概率,將獎學金等級預測為一等。對測試集所有樣本測試后,得到結(jié)果如表3所示,其準確率達88%。
表3 研究生入學獎學金評定的預測結(jié)果
圖3 條件概率表
本文就研究生入學獎學金評定的問題構(gòu)建貝葉斯網(wǎng)絡模型,以圖形表示方法直觀、準確地描述影響研究生入學獎學金評定的各因素之間的相互關(guān)系,確定模型參數(shù)?;谪惾~斯網(wǎng)絡概率推理算法對獎學金等級進行預測,結(jié)果表明該網(wǎng)絡模型及其構(gòu)造方法是準確、有效的,為教學管理部門進行科學決策提供了參考。
[1]朱思瑋,朱宏.研究生獎學金評定的AHP模型構(gòu)建[J].廊坊師范學院學報:自然科學版,2014,14(2):22-24.
[2]常方圓,黃海.基于多層次綜合定量評價體系的研究生獎學金制度探索[J].蘭州教育學院學報,2013,29(2):76-78.
[3]邵正隆,王愨,鄒向榮.基于Q值法的獎學金自動分配方案的設計與應用[J].計算機應用,2011,31(11):3132-3134.
[4]盧錚松.研究生獎學金的決策樹分類數(shù)據(jù)挖掘研究[J].計算機工程與應用,2012,48(26):139-143.
[5]Pearl J.Probabilistic reasoning in intelligent systems:networks of plausible inference[M].San Mateo:Morgan Kaufmann Publishers,1988.
[6]Lin Xiaohui,Ma Ping,Li Xiaolan,et al.A learning method of bayesian network structure[C]. Shanghai: IEEE International Conference on Fuzzy Systems & Knowledge Discovery,2012.
[7]Cooper G,Herskovits E.A Bayesian method for theinduction of probabilistic networks from data[J].Machine Learning,1992,9(4):309-347.
[8]Heckerman D,Geiger D,Chickering D.Learningbayesian networks:The combination of knowledge and statistical data[J].Machine Learning,1995,20(9):197-243.
[9]Russel S,Norvig P.Artificial intelligence-A modernapproach[M].Boston: Publishingas Prentice-Hall,2002.
[10]黃建明.貝葉斯網(wǎng)絡在學生成績預測中的應用[J].計算機科學,2012,39(11A):280-282.
[11]徐瑾,岳昆,錢文華,等.一種基于概率圖模型的研究生生源質(zhì)量評價方法[J].云南大學學報:自然科學版,2011,33(S2):299-304.
Research on Scholarship Evaluation for Graduates Admission Based on the Bayesian Network
HAOXiaoping
(SchoolofOptical-ElectricalandComputerEngineering,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)
Theestablishmentofthesystemofgraduatescholarshipsevaluationisoneofthemostimportantproblemsinthegraduateeducationreform.Inordertoassessgraduatescholarshipsmorefairlyandequitably,itisneededtoanalyzetherelevantfactorsofscholarshiplevelsandtheirintrinsicrelationships.Basedonhistoricaldata,aBayesiannetworkmodelforevaluationofscholarshiplevelsisconstructedbyusingtheK2algorithmandtheprobabilisticinferencealgorithmsforprediction.Theresearchresultsshowthattheproposedmethodisfeasibleanditsaccuracyisashighas88%.Thestudypresentsascientificmethodfortheevaluationofgraduateadmissionscholarship,whichprovidesagoodguidanceforthefuturescholarshipevaluation.
scholarshiplevel;evaluation;K2algorithm;Bayesiannetwork
2016- 12- 08
滬江基金資助項目(C14002)
郝曉平(1991-),女,碩士研究生。研究方向:數(shù)據(jù)挖掘和機器學習。
10.16180/j.cnki.issn1007-7820.2016.09.010
TP311.12
A
1007-7820(2016)09-034-04