唐成龍,唐露新,楊旺功,孫道宗,薛秀云
(1. 廣州理工學(xué)院招生就業(yè)處,廣東廣州510540; 2. 廣東工業(yè)大學(xué) 機(jī)電工程學(xué)院,廣東廣州510006;3. 北京林業(yè)大學(xué)信息學(xué)院,北京100083; 4. 華南農(nóng)業(yè)大學(xué)電子工程學(xué)院,廣東廣州510642)
招生工作的自動(dòng)化與智能化是當(dāng)前高等學(xué)校(簡(jiǎn)稱高校)招生的研究熱點(diǎn)。結(jié)合當(dāng)前高校培養(yǎng)人才的多重因素[1],不僅更容易通過(guò)大數(shù)據(jù)分析來(lái)獲得更優(yōu)的招生信息,而且通過(guò)分析歷年的招生數(shù)據(jù),結(jié)合學(xué)校人才培養(yǎng)模式,發(fā)揮學(xué)校專業(yè)優(yōu)勢(shì)及就業(yè)形勢(shì),更有利于高校吸引考生報(bào)考。招生數(shù)據(jù)挖掘應(yīng)用廣泛[2],根據(jù)錄取情況,結(jié)合學(xué)生考試分?jǐn)?shù)、地域、所選專業(yè)及性別信息,對(duì)上述數(shù)據(jù)進(jìn)行有效挖掘,對(duì)學(xué)校招生計(jì)劃的制定及教學(xué)資源的配置具有指導(dǎo)作用。根據(jù)專業(yè)發(fā)展的需求及人才培養(yǎng)的歷史經(jīng)驗(yàn)數(shù)據(jù),不同專業(yè)在錄取過(guò)程中對(duì)學(xué)生進(jìn)行差異化招生,是數(shù)據(jù)挖掘技術(shù)為高校人才招生提供的新的研究方向。特別是在自主招生中,根據(jù)學(xué)生個(gè)人能力、競(jìng)賽獲獎(jiǎng)及社會(huì)實(shí)踐等情況,結(jié)合專業(yè)發(fā)展特點(diǎn),能夠更加精準(zhǔn)地進(jìn)行招生。
近年來(lái),通過(guò)數(shù)據(jù)挖掘及大數(shù)據(jù)分析方法進(jìn)行高校招生的研究成為熱點(diǎn),取得了一些成果。FP-growth算法作為數(shù)據(jù)挖掘常用的關(guān)聯(lián)分析方法之一,在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[3]中針對(duì)云計(jì)算環(huán)境下的需求,提出一種改進(jìn)的FP-growth算法,實(shí)現(xiàn)了算法的并行化,并與分布式計(jì)算框架的MapReduce模式進(jìn)行有機(jī)結(jié)合。文獻(xiàn)[4]中分析了大數(shù)據(jù)時(shí)代教育數(shù)據(jù)挖掘的新形勢(shì)與傳統(tǒng)分析模式之間的差異,指出數(shù)據(jù)挖掘技術(shù)在教育行業(yè),特別是招生數(shù)據(jù)分析方面,具有較大的應(yīng)用潛力。在國(guó)內(nèi)教育領(lǐng)域,已有不少研究者提出使用數(shù)據(jù)挖掘算法對(duì)教育教學(xué)領(lǐng)域的數(shù)據(jù)進(jìn)行挖掘分析。文獻(xiàn)[5]中運(yùn)用FP-growth算法對(duì)收集的貧困生數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,提高了貧困生認(rèn)定工作的效率。在學(xué)校招生方面,文獻(xiàn)[6]中提出了一種混合型貝葉斯決策樹挖掘方法并應(yīng)用到高職院校招生數(shù)據(jù)挖掘中,對(duì)新生報(bào)到情況進(jìn)行分析與預(yù)測(cè)。目前,F(xiàn)P-growth算法在招生領(lǐng)域的應(yīng)用還未見(jiàn)相關(guān)研究。由于高校招生數(shù)據(jù)挖掘需要結(jié)合學(xué)生層面變量與學(xué)校層面變量,分析這些變量對(duì)招生結(jié)果的影響較為困難,特別是分析這些變量與招生結(jié)果的定量關(guān)系,因此依靠單一算法很難完成。
本文中將FP-growth算法與分層線性模型相結(jié)合運(yùn)用于招生數(shù)據(jù)挖掘。由于在招生數(shù)據(jù)挖掘中有2個(gè)最重要的因素,即在考生層面是招生錄取期望值(錄取成績(jī)),在學(xué)校層面是報(bào)到率,因此,首先使用FP-growth算法對(duì)報(bào)到率進(jìn)行分析,根據(jù)學(xué)生數(shù)據(jù)及報(bào)到情況得到相關(guān)招生的決策支持;然后,結(jié)合學(xué)校學(xué)科及專業(yè)發(fā)展,將學(xué)校層面與考生層面相結(jié)合,充分分析學(xué)校層面變量與學(xué)生層面變量的交互影響,從而建立分層線性模型對(duì)招生期望值進(jìn)行分析。
FP-growth算法頻繁集的生成主要通過(guò)掃描數(shù)據(jù)庫(kù)完成[6]。以圖1為例對(duì)頻繁集生成過(guò)程進(jìn)行說(shuō)明。首先,設(shè)數(shù)據(jù)庫(kù)中有12組數(shù)據(jù)集合,每組集合包含英文26個(gè)小寫字母中的若干字母,將這12組原始集合稱為原始集,將原始集中的每個(gè)字母進(jìn)行數(shù)量統(tǒng)計(jì),得到字母候選頻繁集,設(shè)最小支持度為2,因此可以得到字母頻繁集。
圖1 FP-growth算法數(shù)據(jù)頻繁集生成
FP-growth算法構(gòu)造流程[7]如下:首先對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),獲得每個(gè)字母在所有元組的事務(wù)標(biāo)識(shí)符(transaction identifier,TID)的統(tǒng)計(jì)數(shù)。然后建立二維表,從第1個(gè)TID開始,對(duì)每個(gè)字母進(jìn)行計(jì)數(shù),并將計(jì)數(shù)結(jié)果存至哈希表中,接著進(jìn)行第2個(gè)TID統(tǒng)計(jì),若第2個(gè)TID的字母已經(jīng)在哈希表中有記錄,則直接將記錄中該字母的計(jì)數(shù)結(jié)果進(jìn)行更新,若第2個(gè)TID的字母在當(dāng)前哈希表中無(wú)記錄,則將該字母添加至哈希表的末尾,并將計(jì)數(shù)結(jié)果存至哈希表中。依據(jù)此操作,遍歷所有TID。
根據(jù)支持度要求,刪除小于設(shè)定的支持度的字母及所對(duì)應(yīng)的計(jì)數(shù)結(jié)果,并更新哈希表,同時(shí)根據(jù)計(jì)數(shù)結(jié)果從多至少的順序?qū)1淼男羞M(jìn)行重新排列,生成新的哈希表,即FP-table,這樣就可以通過(guò)序號(hào)及字母檢索查詢到各字母所對(duì)應(yīng)的計(jì)數(shù)結(jié)果。
FP-growth算法在對(duì)頻繁模式樹(FP-tree)實(shí)現(xiàn)第1次遍歷后,對(duì)原始集合的所有項(xiàng)進(jìn)行計(jì)數(shù),根據(jù)計(jì)數(shù)結(jié)果與設(shè)置的最小支持度,對(duì)原始集合進(jìn)行整理,就可以得到去掉了非頻繁集合的數(shù)據(jù)集合。表1所示為以8棵FP-tree為例描述FP-growth算法的關(guān)聯(lián)挖掘過(guò)程。
表1 FP-growth算法的關(guān)聯(lián)挖掘過(guò)程
由表可以看出,在對(duì)8棵FP-tree進(jìn)行第1次遍歷時(shí),對(duì)集合中較多的項(xiàng)進(jìn)行計(jì)數(shù)統(tǒng)計(jì),其中集合I9、I10的支持度均為1,集合I7、I8的支持度為2,小于設(shè)定的最小支持度3,因此經(jīng)過(guò)FP-growth算法整理后的集合刪除這4項(xiàng),對(duì)FP-tree進(jìn)行更新,并且根據(jù)支持度大小進(jìn)行遞減排序。第1次遍歷后得到的項(xiàng)頭表如表2所示。
表2 頻繁模式樹(FP-tree)算法項(xiàng)頭表
再次掃描數(shù)據(jù)庫(kù),對(duì)頻繁集進(jìn)行統(tǒng)計(jì),例如掃描到T2時(shí),〈I2、I1〉、〈I2、I6〉、〈I2、I8〉、〈I1、I6〉、〈I1、I8〉、〈I6、I8〉的各項(xiàng)計(jì)數(shù)加1。根據(jù)遍歷結(jié)果,可以得到計(jì)數(shù)矩陣[8-9]。根據(jù)計(jì)數(shù)矩陣,可以得到每個(gè)項(xiàng)的頻繁集及多對(duì)應(yīng)支持度值,根據(jù)頻繁集及支持度得到關(guān)聯(lián)規(guī)則挖掘結(jié)果。
分層模型的單層基礎(chǔ)模型只考慮單因素對(duì)模型目標(biāo)值的影響[10],設(shè)Yij為第j個(gè)學(xué)校對(duì)第i個(gè)考生的錄取期望值,β0j為第j個(gè)(j代表的是同一個(gè)挖掘值)學(xué)校中所有報(bào)考該??忌钠骄浫∑谕担瑀ij為第j個(gè)學(xué)校的第i個(gè)考生的錄取差異,服從正態(tài)分布N(0,δ2),方差var(rij)=δ2,那么單層基礎(chǔ)模型的計(jì)算方法[11]為
Yij=β0j+rij,
(1)
β0j=γ00+u0j,
(2)
式中:γ00為所有同類學(xué)校中所有報(bào)考該類??忌钠骄浫∑谕?;u0j為第j個(gè)學(xué)校在學(xué)校層的差異。
var(β0j)=var(u0j)=τ00,
(3)
var(Yij)=var(rij+u0j)=δ2+τ00,
(4)
式中τ00為平均錄取期望值之間的差值。
求解組內(nèi)相關(guān)系數(shù)(ICC)ρ的公式[12]為
(5)
為了進(jìn)一步挖掘高校招生數(shù)據(jù),充分考慮學(xué)生能力及學(xué)校因素,分別從學(xué)生層和學(xué)校層建立分層線性模型。
本文中以高校理工科專業(yè)招生為例,對(duì)理工科專業(yè)的定義學(xué)生綜合能力指標(biāo),如表3所示。
表3 高等學(xué)校理工科學(xué)生綜合能力指標(biāo)
以學(xué)生綜合能力指標(biāo)N1、N2、N3和N4作為第1層變量。在單層基礎(chǔ)模型增加一層,以便更好地反映學(xué)校層面因素對(duì)招生錄取帶來(lái)的影響。學(xué)校層面變量如表4所示。以學(xué)校層面變量m1、m2、m3、m4和m5作為第2層變量,建立以錄取率為因變量的多層線性模型(HLM)。
表4 學(xué)校層面變量
參照式(1),HLM計(jì)算方法[13-14]為
(6)
β0j=γ00+γ01(m1)+γ02(m2)+γ03(m3)+
γ04(m4)+γ05(m5) ,
(7)
β1j=γ10+γ11(m1)+γ12(m2)+γ13(m3)+
γ14(m4)+γ15(m5) ,
(8)
為了驗(yàn)證FP-growth算法與分層線性模型對(duì)招生數(shù)據(jù)挖掘的性能,首先在MATLAB平臺(tái)采用FP-growth算法對(duì)某高校2018年度的招生數(shù)據(jù)進(jìn)行仿真,分析該校2018年度學(xué)生的報(bào)到率; 然后運(yùn)用HLM對(duì)不同高校2018年度的8 671個(gè)數(shù)據(jù)進(jìn)行建模分析。
選取某高校2018年度招生數(shù)據(jù)集作為仿真對(duì)象,其中數(shù)據(jù)集數(shù)據(jù)個(gè)數(shù)為3 886,訓(xùn)練集數(shù)據(jù)個(gè)數(shù)為586,測(cè)試集數(shù)據(jù)個(gè)數(shù)為3 300。
考慮考生成績(jī)S、專業(yè)M、生源地D等對(duì)報(bào)到情況的影響,將考生正常報(bào)到設(shè)為T,未報(bào)到設(shè)為F。根據(jù)FP-growth算法得到頻繁集,計(jì)算頻繁集的支持度,由于篇幅所限,因此表5中只列出部分頻繁集的支持度。
通過(guò)統(tǒng)計(jì)可知該校的報(bào)到率均維持在80%以上,因此將最小置信度設(shè)為80%,由此篩選出符合最小置信度的數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則如表6所示。從表中數(shù)據(jù)可以看出,該校計(jì)算機(jī)專業(yè)的報(bào)到率超過(guò)了90%,表明該專業(yè)在該校的招生方面優(yōu)勢(shì)明顯。從該校官網(wǎng)上可以看到,該校的計(jì)算機(jī)專業(yè)是國(guó)家重點(diǎn)學(xué)科,師資隊(duì)伍和教學(xué)資源都是實(shí)力最強(qiáng)的,因此深受考生青睞。該校在華南、華中和華北地區(qū)的招生情況較好,報(bào)到率均超過(guò)了85%,而東北、東南、西南和西北地區(qū)的考生報(bào)到率略差。在報(bào)到率大于80%的14條關(guān)聯(lián)規(guī)則記錄中,專業(yè)主要集中在建筑、工程管理、計(jì)算機(jī)、通信工程等,這與該校是以理工科為主的背景一致。
表5 頻繁集支持度
表6 關(guān)聯(lián)規(guī)則表
將考生成績(jī)、所選專業(yè)、生源地等變量和學(xué)生報(bào)到率采用FP-growth算法進(jìn)行置信分析,可以根據(jù)學(xué)生數(shù)據(jù)及報(bào)到情況得到相關(guān)招生的決策支持。如果從學(xué)校學(xué)科及專業(yè)發(fā)展考慮,可以將學(xué)校層面與考生層面相結(jié)合,充分考慮到學(xué)校層面變量與學(xué)生層面變量的交互影響,建立分層線性模型。
選取8 671個(gè)樣本作為仿真對(duì)象,其中231個(gè)未錄取樣本,8 440個(gè)錄取樣本,然后進(jìn)行樣本初始化,數(shù)據(jù)集如表7所示。
表7 數(shù)據(jù)樣本集分布
采用HLM7.0軟件建立模型,輸入8 671個(gè)數(shù)據(jù)樣本,計(jì)算模型的顯著性水平p值及系數(shù)[15],p值小于0.05時(shí)模型才顯著。
3.2.1 學(xué)生層面變量分析
首先對(duì)影響招生錄取的4個(gè)學(xué)生層面變量進(jìn)行HLM分析,統(tǒng)計(jì)結(jié)果如表8所示。從表中數(shù)據(jù)可以看出,學(xué)生考試成績(jī)、獲獎(jiǎng)情況、科技創(chuàng)新及社會(huì)實(shí)踐均正向影響考生的招生錄取,即當(dāng)N1、N2、N3和N4數(shù)值越大,該考生越容易被錄取,而且N1的系數(shù)最大,表明在錄取的學(xué)生中,學(xué)生的考試成績(jī)?nèi)哉紦?jù)最重要的地位。從p值來(lái)看,與學(xué)生考試成績(jī)和競(jìng)賽獲獎(jiǎng)相比,科技創(chuàng)新和社會(huì)實(shí)踐對(duì)學(xué)生的錄取影響較小,這也符合我國(guó)的招生實(shí)際情況,考試分?jǐn)?shù)高且?jiàn)W林匹克競(jìng)賽等獲獎(jiǎng)的學(xué)生更受學(xué)校青睞。相比之下,科技創(chuàng)新與社會(huì)實(shí)踐影響較小,與學(xué)校招生的側(cè)重點(diǎn)有關(guān),同時(shí)也與學(xué)生在這2個(gè)方面的關(guān)注度及取得的成果數(shù)量有關(guān)。從標(biāo)準(zhǔn)差來(lái)看,在錄取過(guò)程中,學(xué)生的社會(huì)實(shí)踐成績(jī)差距并不大,考試成績(jī)分布更分散。
表8 分層線性模型的學(xué)生層面變量分析
3.2.2 學(xué)校層面變量分析
對(duì)影響招生錄取的5個(gè)學(xué)校變量進(jìn)行HLM分析,統(tǒng)計(jì)結(jié)果如表9所示。
表9 分層線性模型的學(xué)校層面變量分析
從表中數(shù)據(jù)可以看出,m1、m2、m3和m4的系數(shù)均為正,m5的系數(shù)為負(fù),表明學(xué)校排名、學(xué)校規(guī)模、專業(yè)排名和專業(yè)就業(yè)率對(duì)招生錄取有正向影響,其中學(xué)校規(guī)模對(duì)錄取的影響最大,系數(shù)達(dá)到了1.083 524,專業(yè)就業(yè)率次之,這可能是因?yàn)橐?guī)模大的學(xué)校在專業(yè)設(shè)置及招生規(guī)模方面具有優(yōu)勢(shì),所以錄取率高、就業(yè)率好的專業(yè),可能報(bào)考考生多,錄取率也較高。相比之下,學(xué)校排名和專業(yè)排名對(duì)錄取率影響并不大。學(xué)校地理位置對(duì)高校招生呈現(xiàn)負(fù)影響,系數(shù)為-0.734 293。當(dāng)學(xué)校地理位置量化數(shù)值越大,錄取率越不理想,表明學(xué)生在擇校時(shí)更傾向于大城市。
從顯著性來(lái)看,學(xué)校規(guī)模、專業(yè)就業(yè)率和學(xué)校地理位置對(duì)招生錄取的影響更加顯著,特別是學(xué)校規(guī)模和地理位置,p值均小于0.018。學(xué)校排名對(duì)招生錄取的影響敏感度最低。
本文中將FP-growth算法與分層線性模型運(yùn)用于高校招生數(shù)據(jù)挖掘,結(jié)果表明:FP-growth算法能夠較好地獲得大置信區(qū)間的報(bào)到率數(shù)據(jù),得到影響報(bào)到率的相關(guān)因素;采用分層線性模型,可以從學(xué)生層面和學(xué)校層面進(jìn)行因素定量分析,獲得影響招生錄取的顯著程度。后續(xù)研究將對(duì)分層線性模型的招生數(shù)據(jù)挖掘效果進(jìn)行有效評(píng)價(jià),通過(guò)科學(xué)評(píng)價(jià)方法不斷完善數(shù)據(jù)挖掘模型,不斷提高招生數(shù)據(jù)挖掘的有效性和準(zhǔn)確性。