紀威 劉志偉
(天津商業(yè)大學寶德學院,天津 300384)
基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘技術在獨立院校招生中的研究
紀威劉志偉
(天津商業(yè)大學寶德學院,天津300384)
文章結(jié)合獨立院校招生工作的實際情況,簡要介紹了數(shù)據(jù)挖掘技術的基本概念、挖掘過程及模型,同時利用數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則及算法探討在獨立院校招生決策方面的基本應用。通過對大量招生數(shù)據(jù)及新生信息進行有效挖掘和分析,尋找學生入學信息諸多因素與在校培養(yǎng)結(jié)果之間的關聯(lián)關系,從而為我院招生決策者提供科學依據(jù)與決策支持,進而將對獨立院校在快速多變的生源競爭中把握發(fā)展方向起到引領作用。
數(shù)據(jù)挖掘獨立院校招生決策關聯(lián)規(guī)則
獨立院校相對普通高校而言是國家按照新機制、新模式與社會力量合作舉辦的具有本科層次的學院,其生源質(zhì)量是獨立院校的生存之本,在生源競爭越來越激烈的情況下,如何利用已有信息資源為招生決策服務,是我們面臨的緊迫課題。隨著數(shù)據(jù)挖掘技術在教育招生環(huán)境下的應用,可以對招生系統(tǒng)積累的海量數(shù)據(jù)進行挖掘和提煉,進行多維分析、合并歸類和高度集成,從而獲取有價值的信息,大大提高招生決策水平,有效增強獨立院校的競爭力。
2.1數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘又被稱作數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。它是從海量的、不完全的、有噪聲的、模糊的、具有不確定性的數(shù)據(jù)集中,提取蘊含在其中的、事先未知的、可信賴的、有用的規(guī)律和知識的過程。發(fā)現(xiàn)知識的方法可以是數(shù)學的,也可以是非數(shù)學的;可以是演繹的,也可以是歸納的[1]。發(fā)現(xiàn)的知識要可接受和理解,并能被用于信息處理,優(yōu)化查詢,支持決策和過程控制等,還可以用于數(shù)據(jù)自身的維護。
2.2數(shù)據(jù)挖掘過程
在數(shù)據(jù)挖掘過程中,被探討的對象是整個操作的基礎,數(shù)據(jù)挖掘的全部過程受它驅(qū)動,最終挖掘結(jié)果需要它的支撐,系統(tǒng)的整體研究工作需要它的指引。挖掘過程不是自動進行,多數(shù)需要人工的引導和干預。在數(shù)據(jù)挖掘整個過程中,大約有60%的時間需要對數(shù)據(jù)庫進行前期整理和數(shù)據(jù)準備,因為數(shù)據(jù)的準確性和格式化對數(shù)據(jù)挖掘的影響較大,而通常來說,數(shù)據(jù)挖掘的后續(xù)操作只占總工作量的10%左右。數(shù)據(jù)挖掘過程步驟的具體內(nèi)容如圖1所示:
圖1 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘模型的建立要從對數(shù)據(jù)的分析開始。針對選定的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化成一個分析模型。建立的分析模型是否適合挖掘算法對挖掘能否成功起著關鍵的作用[2]。數(shù)據(jù)挖掘模型主要分兩種,一種是Fayyad總結(jié)出的過程模型,以下稱為Fayyad過程模型:另一種是遵循CRISP-DM標準的過程模型,本文稱其為CRISP-DM過程模型。
3.1Fayyad過程模型
Fayyad過程模型偏向于技術方面,因此,數(shù)據(jù)挖掘可以理解為一個循環(huán)迭代過程,該模型從數(shù)據(jù)入手,到知識結(jié)束。從圖2中可以看出,該過程模型的執(zhí)行分以下幾個部分:
(1)數(shù)據(jù)預處理:包括數(shù)據(jù)提煉清洗、數(shù)據(jù)合成、選擇數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)等幾個過程;
(2)數(shù)據(jù)挖掘:這是知識挖掘的基本步驟之一,功能就是利用智能方法挖掘數(shù)據(jù)知識或規(guī)律模式;
(3)模式評估:根據(jù)規(guī)定的評估要求從數(shù)據(jù)挖掘結(jié)果中挑選出有價值的模式知識;
(4)知識表示:利用可視化的數(shù)據(jù)表達技術,提供給用戶需要挖掘出的有用知識。
圖2 Fayyad挖掘模型過程
3.2CRISP-DM過程模型
CRISP-DM(Cross-Industry Process for Data Mining交叉行業(yè)數(shù)據(jù)挖掘過程標準)如圖3所示。CRISP-DM過程模型注重技術的應用,解決了Fayyad模型存在的兩個問題。CRISP-DM過程模型從數(shù)據(jù)挖掘技術應用的角度劃分數(shù)據(jù)挖掘任務,將數(shù)據(jù)挖掘技術與應用緊密結(jié)合,更加注重數(shù)據(jù)挖掘的模型質(zhì)量和如何與業(yè)務聯(lián)系問題相結(jié)合。CRISP-DM強調(diào),數(shù)據(jù)挖掘不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計建模,而是一個從理解業(yè)務需求、尋求解決方案到接受實踐檢驗的完整過程。
圖3 CRISP-DM過程模型
該模型的執(zhí)行分以下六個步驟進行:
(1)業(yè)務理解:對客戶實際需求與目標的理解,轉(zhuǎn)換為數(shù)據(jù)挖掘的一個定義和為了達到此項目目標的初步解決方案;
(2)數(shù)據(jù)理解:檢測目前數(shù)據(jù)的基本質(zhì)量,對相關數(shù)據(jù)有初步的了解和掌握,探尋數(shù)據(jù)中有意義的子集數(shù)據(jù),從而形成對潛在數(shù)據(jù)信息的假設;
(3)預處理:包括從最原始海量數(shù)據(jù)中創(chuàng)建最終有價值數(shù)據(jù)集的所有工作,主要包括:數(shù)據(jù)制表,記錄參數(shù),數(shù)據(jù)轉(zhuǎn)換和選擇,以及清理數(shù)據(jù)等;
(4)建模:有針對性的選擇和使用多種建模方法,并將其參數(shù)結(jié)果校準為理想的數(shù)據(jù)值;
(5)評估:評估目前已經(jīng)建立的模型,確保構建的模型達到企業(yè)需求的目標;
(6)部署:把所有建模數(shù)據(jù)信息用客戶能夠操作的方式呈現(xiàn)和組織出來。
CRISP-DM過程模型從數(shù)據(jù)挖掘技術應用的角度劃分數(shù)據(jù)挖掘任務,將數(shù)據(jù)挖掘技術和應用緊密結(jié)合,注重數(shù)據(jù)挖掘的質(zhì)量和如何與業(yè)務問題相結(jié)合。
4.1關聯(lián)規(guī)則及其Apriori算法
4.1.1關聯(lián)規(guī)則的概念
關聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是最經(jīng)典的算法之一。它是指在交易數(shù)據(jù)、關系數(shù)據(jù)或其它信息載體中,查找存在于項目集或?qū)ο蠹现g的頻繁模式、關聯(lián)、相關性或因果關系,可以發(fā)現(xiàn)隱藏在數(shù)據(jù)之中、不易被發(fā)現(xiàn)的關聯(lián)事件。
設I={i1,i2…in。}是項的集合。記W為數(shù)據(jù)庫事務Z的集合,這里每個事務Z是項的集合,并且使得ZI。對應每一個交易有惟一的標識符,記作ZIW。設M是一數(shù)據(jù)項的集合,當且僅當MZ,那么稱交易Z包含M。關聯(lián)規(guī)則是具有MN的蘊涵式,其中MI,NI,并且M∩N=。規(guī)則MN在交易數(shù)據(jù)庫W中的支持度S是包含M和N的交易數(shù)與所有交易數(shù)之比,記為Support(MN),即Support(MN)=P(MUN);規(guī)則MN在交易集中的置信度C是指包含M和N的交易數(shù)與包含M的交易數(shù)之比,記為Confidence(MN),即 Confidence(MN)=P(N|M)。同時滿足最小支持度閡值(min_sup)和最小置信度閉值(min_conf)的關聯(lián)規(guī)則稱強規(guī)則,用0~100%之間的值表示支持度和置信度值。
4.1.2Apriori算法
Apriori算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法。該算法是由Agrawal等人在1993年設計的一種基本算法,這是一個基于兩階段頻集思想的方法[3],關聯(lián)規(guī)則挖掘算法的設計可以分解為兩個子問題:①找到所有支持度大于最小支持度的項集,稱為頻繁項集;②使用第1步找到的頻繁項集產(chǎn)生期望的規(guī)則。其算法的實現(xiàn)過程可描述為:首先, Apriori算法求出項數(shù)為1的頻繁集L1,然后,再由L1產(chǎn)生項數(shù)為2的候選集C2,掃描事務數(shù)據(jù)庫W,計算支持度求出L2,依次類推,產(chǎn)生Ck,掃描W求出Lk。一旦從數(shù)據(jù)庫中產(chǎn)生了頻繁集,則可以從中直接產(chǎn)生強關聯(lián)規(guī)則。
4.2關聯(lián)規(guī)則在獨立院校生源分析中的挖掘流程
4.2.1挖掘問題的提出
利用全國院校秋季高考統(tǒng)招考生基本信息和在校期間諸多成績等數(shù)據(jù),從高考分數(shù)、學生素養(yǎng)、生源區(qū)域等方面,對學生的入學基本信息與在校期間各項成績指標進行關聯(lián)性分析,從而提取在數(shù)據(jù)背后隱藏的有價值信息。
4.2.2數(shù)據(jù)前期準備
本系統(tǒng)需用到多個源信息數(shù)據(jù)庫,第一要將多個源數(shù)據(jù)庫中的信息進行整合;第二檢索全部相關因素的信息數(shù)據(jù),并從中挑選出信息用于數(shù)據(jù)挖掘的應用;第三再對選出數(shù)據(jù)實施相關的轉(zhuǎn)換操作,加工之后的數(shù)據(jù)不僅反映源信息的真實情況還要適合挖掘算法的實際需要。數(shù)據(jù)預處理進程中的一個難點工作就是數(shù)據(jù)的轉(zhuǎn)換,它需要在系統(tǒng)建設實施中不斷實踐摸索、逐步修正,進而完善數(shù)據(jù)的轉(zhuǎn)換方案,同時將系統(tǒng)數(shù)據(jù)的質(zhì)量問題得到最終解決[4]。數(shù)據(jù)準備工作大體上分為以下三部分:
(1)學生信息預處理工作
招生錄取結(jié)束后,學生的基本信息包括:新生錄取情況(招生的年份、錄取的專業(yè)方向);學生基本信息內(nèi)容(應試卷種、科類、考生號、姓名、出生日期、性別、身份證號、考何種外語、考生類別、民族、政治面貌、畢業(yè)學校、畢業(yè)類別、考試類型、戶口所在地、獲獎情況、專業(yè)志愿填報等);考試成績內(nèi)容(高考總成績、各門課程單獨成績、加分狀況、考生會考成績等)。為了方便進行數(shù)據(jù)挖掘操作,需要對以上信息進行適當?shù)霓D(zhuǎn)化與歸約等一系列預處理工作。在上述內(nèi)容中,操作最困難的預處理數(shù)據(jù)是:高考總成績和考生來源地。普通高等學校招生是在全國高考基礎上進行分省錄取操作,各個省份根據(jù)錄取院校所屬一本、二本、三本、高職的層次和錄取招生的計劃類型將各院校錄取時間劃分成不同的批次,然后按照所在省份招生計劃總數(shù)和考生報考總數(shù)按照一定比例(一般為1:1.1)規(guī)劃出各個院校錄取批次控制分數(shù)線。各錄取院校在所屬批次內(nèi)按照各省公布的專業(yè)招生計劃數(shù)來進行考生錄取工作,由于各個省份招生專業(yè)計劃不一樣,各個錄取批次的控制分數(shù)線不同,故院校在各省的最終錄取分數(shù)線也不同,直接導致錄取考生的分數(shù)也有較大的差異,所以無法將全部學生的高考分數(shù)直接進行對比,因此要將各個省份的學生考試總成績轉(zhuǎn)換成標準分數(shù)才能操作。
(2)考生來源地預處理工作
在普通高校招生考試中,對于考生來源地的原始數(shù)據(jù)信息統(tǒng)計工作,內(nèi)容過于詳細,與數(shù)據(jù)挖掘技術要求在操作上不太一致,因此要針對不同的數(shù)據(jù)挖掘目標,對考生來源地信息進行歸約操作。在這里,可將同省考生歸為一類;也可按全國各省份在版圖中的所屬位置大致規(guī)約為:東南地區(qū)、西南地區(qū)、西北地區(qū)、東北地區(qū)、華中地區(qū)、華東地區(qū)和華北地區(qū)等部分;還可按照省會、地區(qū)、城鎮(zhèn)、鄉(xiāng)村等將考生來源地進行規(guī)約操作。
(3)在校成績預處理工作
學生在校期間要進行四年的學習生活,在這個過程中包括8個學期,每個學期都有各門課程的考試成績、綜合測評、比賽獲獎及畢業(yè)設計、畢業(yè)論文、畢業(yè)實習和就業(yè)等相關數(shù)據(jù)內(nèi)容。其中,每個學期各門課程的成績只體現(xiàn)在專業(yè)學習中的情況,而綜合測評的成績則是學生在校期間德智體等多方面真實情況反映,它是一種量化和科學化的計算方法。每個學年的綜合測評成績按智育和德育來進行考核,其中智育成績占70%,德育成績占30%。在我院,將每名學生按年級、專業(yè)分別進行統(tǒng)計,其綜合測評成績以優(yōu)、良、中、及格、不及格五個等級標準來表示,從而進一步的推進數(shù)據(jù)挖掘工作。
4.2.3數(shù)據(jù)關聯(lián)規(guī)則的挖掘
通過上述預處理工作,同時在基于數(shù)據(jù)分析的基礎上,針對學生入學信息與在校間成績進行關聯(lián)操作,從而尋找學生在入學時的多因素與在校間成績的基本關系[5]。在這里,可參考不同的維度對學生高考成績、考生類別、來源地、畢業(yè)學校、獲獎狀況等與大學綜合測評成績之間的關聯(lián)關系進行有效的分析。通過數(shù)據(jù)的關聯(lián)分析,可得出不同科類、不同地區(qū)、不同入學成績水平以及不同素質(zhì)學生在經(jīng)過大學四年的教育培養(yǎng)后所產(chǎn)生結(jié)果的關聯(lián)性與差異性,然后再從人才專業(yè)培養(yǎng)結(jié)果的角度出發(fā),逆向分析出哪類學生更具有學習的潛質(zhì)、更能成為本專業(yè)優(yōu)秀畢業(yè)生等,從而總結(jié)出具有實際參考價值的結(jié)論,更好的指導學校招生計劃制定與宣傳工作的開展。4.2.4模型解釋與評價
在數(shù)據(jù)關聯(lián)分析之后,會導出一系列的關聯(lián)規(guī)則,我們則要在多種關聯(lián)規(guī)則中選取有用的規(guī)則條款,并進行解釋和評價,同時參考關聯(lián)規(guī)則分析結(jié)果,合理地設定最小支持度(min_sup)與最小可信度(min_conf)是非常必要的[6]。如果可信度過大或支持度過大,部分所需的關聯(lián)規(guī)則就不可能挖掘出來;如果可信度過小,則所產(chǎn)生的關聯(lián)規(guī)則冗余度相對較大,很難從中發(fā)現(xiàn)有價值的關聯(lián)規(guī)則數(shù)據(jù);如果支持度過小,則頻繁項集產(chǎn)生所需的時間可能無法忍受,頻繁項集的數(shù)量也會隨之非常巨大。
隨著數(shù)據(jù)挖掘技術在獨立院校招生領域的廣泛應用,其價值已經(jīng)不可估量,它能從海量學生信息中發(fā)現(xiàn)各種潛在規(guī)則,構建考生信息數(shù)據(jù)倉庫,為招生決策分析提供基礎,指導招生決策人員進行招生策略地調(diào)整,科學地指導招生、合理設置專業(yè)、高效地開展宣傳,從而達到提高新生報到率和保證生源質(zhì)量的目的。
[1]許碩.數(shù)據(jù)挖掘技術在民辦高校招生工作中的應用研究[J].遼寧師專學報(社會科學版),2012,(06):112-114.
[2]李霞.數(shù)據(jù)挖掘在高校教學和管理中的應用研究[J].廣東外語外貿(mào)大學學報,2012,(04):97-100.
[3]韋映梅,鄒海林.基于數(shù)據(jù)挖掘技術的招生電子檔案信息系統(tǒng)模型構建[J].蘭臺世界,2014,(14):19-20.
[4]徐健.數(shù)據(jù)挖掘技術在高校招生信息處理中的應用[J].農(nóng)業(yè)網(wǎng)絡信息,2013,(11):133-137.
[5]何小明,張自力.基于OLAP與數(shù)據(jù)挖掘的高考招生數(shù)據(jù)分析[J].計算機科學,2012,(06):175-187.
[6]何廣東.基于數(shù)據(jù)挖掘的高校招生決策支持系統(tǒng)的設計與實現(xiàn)[J].無線互聯(lián)科技,2012,(11):93-94.
Research of Independent Colleges Admissions Base on Data Mining Technology of Association Rules
JI Wei,LIU ZHI-wei
(Tian Jin University of Commerce Boustead College,Tianjin 300384,China)
In this paper,the actual situation of independent enrollment colleges,introduces the fundamental concepts of data mining technology,mining and modeling process,while using data mining techniques and algorithms of association rules on the fundamental application in independent colleges admissions decision-making.Through a large number of freshmen admissions data and information for effective mining and analysis,looking student enrollment information and culture and many other factors relationship between the results in the school,so as to provide a scientific basis and decision support to hospital admissions decision-makers,and thus will be independent hospital grasp the development direction of the school play a leading role in the students compete in the rapidly changing.
data mining;independent colleges;admissions decisions;association rules
TP274
A
1008-1739(2015)13-58-4
定稿日期:2015-06-12
本文系天津商業(yè)大學寶德學院科研基金規(guī)劃課題《基于B/S結(jié)構的新生報到系統(tǒng)網(wǎng)絡平臺的研究》成果,項目編號:BD20129106