摘要:本文以研究高職院校新生報到率為目的。以伊犁職業(yè)技術(shù)學(xué)院為例,通過關(guān)聯(lián)規(guī)則對高校學(xué)生的信息庫進(jìn)行數(shù)據(jù)挖掘,挖掘出影響學(xué)生報到率的有效信息。為學(xué)院的招生決策提供有價值的信息。
關(guān)鍵詞: 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;招生參考系統(tǒng)
引言
從2002年開始,國家教育部在全國實(shí)現(xiàn)高校招生網(wǎng)上遠(yuǎn)程錄取,高校招生手段發(fā)生了革命性變化,同時也給招生工作帶來了變革的契機(jī),計算機(jī)管理著大量的招生信息,使得采用信息領(lǐng)域的新技術(shù)、新成果為招生工作服務(wù)成為可能。利用數(shù)據(jù)挖掘技術(shù)在招生數(shù)據(jù)上的應(yīng)用,為有效利用招生信息進(jìn)行快速、準(zhǔn)確和方便的決策支持提供了新的思路。
2、數(shù)據(jù)挖掘
2.1數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(DateMining)就是從眾多的、有噪聲的、不完全的、模糊的、隨機(jī)的大量數(shù)據(jù)中,提取隱含在其中人們事先不知道但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘要經(jīng)過數(shù)據(jù)采集、預(yù)處理、數(shù)據(jù)分析、結(jié)果表示等一系列過程,最后將分析結(jié)果呈現(xiàn)在用戶面前。
2.2數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,作為前瞻的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)中發(fā)現(xiàn)隱含的、有意義的知識。具體的功能主要有以下4個方面。
1、概念描述
概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括其主要特征。
2、關(guān)聯(lián)分析
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)中存在的一類重要的可被發(fā)現(xiàn)的知識,若兩個或多個變量間存農(nóng)著某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。
3、自動預(yù)測趨勢和行為
挖掘技術(shù)會自動在大量數(shù)據(jù)中尋找出預(yù)側(cè)性的信息,以往需要使用大量人工手動分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論??梢詾闆Q策者們提供一種比較塊捷的方式。
4、聚類分析
聚類分析其目的在于客觀地按被處理對象的特征分類,將同特征的對象歸為一類。
2.3數(shù)據(jù)挖掘常用算法
一般說來,可以有多種算法用于數(shù)據(jù)挖掘,但不存在一個普通適用的算法。一個算法在某個領(lǐng)域可能很有效,但在另一領(lǐng)域可能就不太適用。因此,在實(shí)際應(yīng)用中,應(yīng)結(jié)合實(shí)際,選擇合適的挖掘算法。
我們可以把數(shù)據(jù)挖掘算法分為以下幾種。
1.人工神經(jīng)網(wǎng)絡(luò)
2.決策樹方法
3.遺傳算法
4.模糊論方法
5.粗糙集方法
6.關(guān)聯(lián)規(guī)則
7.覆蓋正例排斥反例方法
8.樸素貝葉斯模型
9.可視化技術(shù)
3、關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘中的應(yīng)用
3. 1關(guān)聯(lián)規(guī)則挖掘的基本概念
關(guān)聯(lián)規(guī)則是一種重要的數(shù)據(jù)挖掘方法,也是最活躍的一研究個分支。關(guān)聯(lián)規(guī)則挖掘主要是通過特定的搜索算法,挖掘出數(shù)據(jù)集中項(xiàng)集之間有價值的關(guān)聯(lián)關(guān)系,從而給出數(shù)據(jù)集的關(guān)聯(lián)特征描述。關(guān)聯(lián)規(guī)則最大的優(yōu)點(diǎn)就是能夠發(fā)現(xiàn)被大量日常操作行為所掩蓋的,蘊(yùn)藏于大童業(yè)務(wù)數(shù)據(jù)下的事務(wù)之間的關(guān)聯(lián)關(guān)系。具體來說,關(guān)聯(lián)規(guī)則就是形如“A→B(support,confidence)”的蘊(yùn)涵式,其中support是該規(guī)則的支持度,confidence是該規(guī)則的一可信度。
3.2關(guān)聯(lián)規(guī)則的應(yīng)用
對于伊犁職業(yè)技術(shù)學(xué)院來說,針對新生報到率不高的現(xiàn)狀,我們希望能在學(xué)院新生錄取、報到信息庫中的學(xué)生信息中找到影響學(xué)生不來報到的規(guī)則,以此制定出有效的招生決策,用以指導(dǎo)今后的招生工作。例如,我們發(fā)現(xiàn)扭內(nèi)學(xué)生的報到率要明顯高于疆外學(xué)生,那么在今后制定招生計劃時,我們可以適當(dāng)減少疆外計劃。
為了簡單的說明使用關(guān)聯(lián)規(guī)則算法對學(xué)生信息庫進(jìn)行挖掘的過程,我們在此權(quán)討論單維關(guān)聯(lián)規(guī)則((single-dimensional associarion rule),也就是在學(xué)生信息庫中挖掘出的與學(xué)生報到情況有關(guān)的關(guān)聯(lián)規(guī)則中的項(xiàng)或?qū)傩?,這些項(xiàng)或?qū)傩悦總€只涉及一個維。
我們僅考慮錄取時學(xué)生的某些因素(性別、考生類別、高考成績、考生生源地)和學(xué)生報到情況的關(guān)系,假設(shè)我們己在學(xué)生信息庫中找出頻繁項(xiàng)集,那么由它們所產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則是直接了當(dāng)?shù)?強(qiáng)關(guān)聯(lián)規(guī)則滿足最小支持度和最小置信度)。置信度可以用下式表示:
confidence(A=>B)=P(A|B)=support_count(A∪B)/support_count(A)
其中,support_count (A ∪B)是包含項(xiàng)集A∪B的事務(wù)數(shù),support_count (A)是包含項(xiàng)集A。
根據(jù)該式,關(guān)聯(lián)規(guī)則可以產(chǎn)生如下:
①對于每個頻繁頂集1,產(chǎn)生1的所有非空子集:
②對于1的每個非空子集s,如果support_count (A∪B)/support_count(A)min conf,則輸出規(guī)則“s=>(l-s)。其中min_canf是最小置閾值。
下面我們利用伊犁職業(yè)技術(shù)學(xué)院05級新生報到情況的樣本數(shù)據(jù)集為例,討論以下因素(性別、考生類別、高考成績、考生生源地)與學(xué)生報到情況的關(guān)系.05年錄取的學(xué)生總數(shù)為486人、而報到的學(xué)生只有248人。
1.討論性別與學(xué)生報到的關(guān)系。在錄取總?cè)藬?shù)甲有233名男生,報到總?cè)藬?shù)中有148個男生:
男=>報到[support=47.9%,
confidence==3 5%]
由此可以看出,男生的報到的置信度與女生比起來較高,而且支持度也比較高,所以這個關(guān)聯(lián)規(guī)則應(yīng)該成立,即男生=>報報到為強(qiáng)關(guān)聯(lián)規(guī)則。我們可以得出的結(jié)論是男生報到的可能性大于女生
2.討論考生類別與學(xué)生是否報到的關(guān)系。在錄取人數(shù)中考生類別為農(nóng)村往屆的學(xué)生有72人,來報到的有51人;城鎮(zhèn)應(yīng)屆考生錄取了112人,報到了51人;城鎮(zhèn)應(yīng)屆錄取了138人,報到了62人,農(nóng)村應(yīng)屆考生錄取了213人,報到了80人。根據(jù)關(guān)聯(lián)規(guī)則算法可以得出:
農(nóng)村往屆學(xué)生=>報到[support=13.81%, confidence=70. 83%]
城鎮(zhèn)往屆學(xué)生=>報到[support=13.96%, confidence=80. 95%]
農(nóng)村應(yīng)屆學(xué)生二>報到[support=13.81%,Confidence=70. 83%]
城鎮(zhèn)應(yīng)屆學(xué)生=>報到[support=43.82%, cnnfidexlce=37.55%]
由此可以看出,農(nóng)村往屆的學(xué)生、農(nóng)村應(yīng)屆的學(xué)生、城鎮(zhèn)往屆的學(xué)生的置信度基本相差不大,但支持度非常高,所以前面三類的關(guān)聯(lián)規(guī)則是應(yīng)該存在的。城市應(yīng)屆考生來報到的置信度較高,但支持度很低。在錄取時應(yīng)該考慮他們有可能不來報到,可以通過給這些考生打電話,來確認(rèn)他們是否來報到。從分析中我們還可以看出,城鎮(zhèn)往屆學(xué)生他們來報到的支持度是最高的,這與我們的實(shí)際情況甚至一致。
3.討論高考總分與學(xué)生是否報到的關(guān)系。我們根據(jù)學(xué)生的高考分?jǐn)?shù)劃分了5個本分?jǐn)?shù)段。即大于400分的,介于350與400分間的,介于300與350分之間的,介于200分與300分之間的,和小于200分的。分?jǐn)?shù)在300以下的學(xué)生都為“三校生”。在學(xué)院05年的錄取數(shù)據(jù)中,分?jǐn)?shù)在400分以上的有11人,前來報到的有7人;分?jǐn)?shù)在300-350分的有30人,來報到的有4人;分?jǐn)?shù)在300-350分的有134人,來報到的有44人:分?jǐn)?shù)200-300分的有235人,來報到的有109人;分?jǐn)?shù)在200以下的有80人,來報到的有80人。通過分析我們得到:
高考總分(gkzf<200)=>報到[support=16.46%, confidence=93.5%]
高考總分(200
高考總分(300
高考總分(350
高考總分(400
由以上結(jié)果可以看出,高考成績低于200分的同學(xué)報到的可能性是最大的,高考成績在200-300分之間的同學(xué)報到率次之。這符合我院的實(shí)際情況。因?yàn)椤叭I贝蟛糠譃槲以旱闹新殞W(xué)生,畢業(yè)后通過自冶區(qū)的“三校生”考試又重新考入高職院校就讀。一些成績較好的中職考生,選擇了烏魯木齊的一些學(xué)校繼續(xù)學(xué)習(xí)。成績較低的學(xué)生,就考入我院繼續(xù)學(xué)習(xí)。高考成績在3O0-350分的置信度與支持度均高于高考成績在350-400分的。這說明,分?jǐn)?shù)較低的學(xué)生的報到率要高。雖然從分析結(jié)果看,高考總分高于400的同學(xué)報到的支持度也很高,但是由于人數(shù)不多,所以也并不能說明考分高于400分的同學(xué)的報到率就高。這一規(guī)則可以刪去。
4、討論高考考生生源對學(xué)生是否報到的影響。在2005年,伊犁職業(yè)技術(shù)學(xué)院在疆外錄取了36人,報到了15人,在疆內(nèi)錄取了450人,報到了233人。
生源地為疆外考生補(bǔ)報到[support=7.04%,confidence=41.66%]
生源地為疆內(nèi)考生公報到[support=93.56%,confidence=51.77%]
由此結(jié)果可以觀察出,疆內(nèi)學(xué)生的報到率要高。
通對以上四類屬性、十二個因素的逐項(xiàng)分析,可以作出這樣的判斷:性別為女生、考生類別為城鎮(zhèn)應(yīng)屆、高考總分在350到400分之間、生源地為疆外,這些因素都是影響學(xué)生報到的主要原因。所以,為了保證該學(xué)院有一個較高的報到率,招生人員應(yīng)該在同等情況下,盡夏避開選擇具有這些因素的學(xué)生。
在此要說明一下,為了說明間題,以上數(shù)據(jù)大部分是手工計算的。而且如果要想更精確的說明問題,還應(yīng)該計算出報關(guān)度來。
4、結(jié)論
通過以上對學(xué)生信碑息庫的單維關(guān)聯(lián)規(guī)則的研究可以看出,挖掘結(jié)果對學(xué)院實(shí)際的招生工作是具有一定的指導(dǎo)作用的,但比較簡單。如果我們希望挖掘出更深層次的關(guān)聯(lián)規(guī)則,就需要合理的選擇最小置信度(minsup)或最小支持度(Minsupport)的值。這就需要根據(jù)具體實(shí)踐情況井和學(xué)降招生辦的工作人員進(jìn)行反復(fù)討論。只有聚焦到真正感興趣的關(guān)聯(lián)上,得出具有實(shí)踐意義的關(guān)聯(lián)規(guī)則,才能為學(xué)院的招生工作更供強(qiáng)有力的指導(dǎo),為學(xué)院的招生決策提供有價值的信息,