古亮+劉培艷+楊菲
摘 要: 本文通過(guò)對(duì)高校招生現(xiàn)狀進(jìn)行了總結(jié)分析,通過(guò)分析發(fā)現(xiàn)其中存在的問(wèn)題,對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了闡述,并將數(shù)據(jù)挖掘技術(shù)引進(jìn)招生數(shù)據(jù)分析工作,旨在通過(guò)對(duì)招生數(shù)據(jù)的分析發(fā)現(xiàn)隱含的信息,據(jù)此優(yōu)化招生工作。
關(guān)鍵詞: 數(shù)據(jù)挖掘 高校招生 數(shù)據(jù)分析
一、高校招生現(xiàn)狀分析
近年來(lái),我國(guó)高校招生形勢(shì)發(fā)生了巨大的變化,造成這種狀況的原因很多,歸納起來(lái)有以下幾個(gè)方面。一是隨著國(guó)家教育政策的改革、高校擴(kuò)招擴(kuò)建及一些專(zhuān)科院校評(píng)估升級(jí)為本科院校等原因,導(dǎo)致高校本科招生總數(shù)逐年增加,但是生源數(shù)量有限,甚至呈逐年減少狀況,因此如何在保證生源質(zhì)量的前提下完成招生任務(wù),是當(dāng)前招生工作者面臨的重要問(wèn)題;二是國(guó)外教育機(jī)構(gòu)逐漸增多,學(xué)生有更多的機(jī)會(huì)選擇出國(guó)留學(xué),因此,高校的生源危機(jī)日漸嚴(yán)重,招生形勢(shì)日趨緊張。在這種情況下,高校如何通過(guò)創(chuàng)新的招生策略、準(zhǔn)確的生源信息爭(zhēng)取足夠的、高質(zhì)量的生源,是搞好招生工作的重中之重,也是關(guān)系到學(xué)校發(fā)展甚至生死存亡的關(guān)鍵。
除此之外,信息時(shí)代的到來(lái),給高校的招生工作帶來(lái)了新的契機(jī),各大高校分別用網(wǎng)站、微信平臺(tái)等進(jìn)行宣傳,并研發(fā)了各自的招生信息管理系統(tǒng),建立了招生信息數(shù)據(jù)庫(kù),用來(lái)存儲(chǔ)并處理歷年的招生數(shù)據(jù),這些處理只是簡(jiǎn)單地對(duì)數(shù)據(jù)的歸納整理、存儲(chǔ)和讀取,并未進(jìn)行深層的數(shù)據(jù)分析和信息提取,但是在這些數(shù)據(jù)中可能會(huì)隱含一些潛在的并且非常有價(jià)值的信息,這些信息將對(duì)今后的招生工作產(chǎn)生一定的指導(dǎo)作用,卻很少有人涉及。
二、數(shù)據(jù)挖掘技術(shù)
1.數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(data mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程[1]。一般認(rèn)為,廣義的數(shù)據(jù)挖掘又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD),是指面對(duì)海量的數(shù)據(jù),這些數(shù)據(jù)是冗余的、殘缺不齊的、有噪聲的、具有不確定性的數(shù)據(jù)集中,發(fā)現(xiàn)其中蘊(yùn)含的那些是先未知的、可信賴(lài)的和有用的那些規(guī)律和知識(shí)的過(guò)程。狹義的數(shù)據(jù)挖掘僅僅是指從特定的數(shù)據(jù)集中提煉知識(shí)的過(guò)程。
2.數(shù)據(jù)挖掘應(yīng)用
數(shù)據(jù)挖掘應(yīng)用研究是指開(kāi)發(fā)各種數(shù)據(jù)挖掘系統(tǒng)和工具,并在各個(gè)行業(yè)中應(yīng)用[2]。目前的典型應(yīng)用領(lǐng)域包括市場(chǎng)分析和預(yù)測(cè)、工業(yè)生產(chǎn)、金融、科學(xué)研究、Web數(shù)據(jù)挖掘、工程診斷等各個(gè)領(lǐng)域,如分析地殼的構(gòu)造活動(dòng)、網(wǎng)頁(yè)內(nèi)容自動(dòng)分類(lèi)和聚類(lèi)等。
數(shù)據(jù)挖掘技術(shù)的研究逐漸深入,其應(yīng)用非常廣泛,凡是有具備數(shù)據(jù)分析潛質(zhì)的數(shù)據(jù)庫(kù)都可以用相關(guān)數(shù)據(jù)挖掘工具進(jìn)行有目的的數(shù)據(jù)分析。近年來(lái),有一些高校招生開(kāi)始運(yùn)用數(shù)據(jù)挖掘技術(shù)分析本校的生源狀況,不斷調(diào)整本校的招生數(shù)、招生策略等,從而在現(xiàn)在的生源大戰(zhàn)中占得一席之地,但還未形成一套成熟的系統(tǒng)和方法。
三、數(shù)據(jù)挖掘技術(shù)在高校招生工作中的應(yīng)用
1.數(shù)據(jù)庫(kù)的建立
在進(jìn)行數(shù)據(jù)處理之前,首先應(yīng)建立數(shù)據(jù)庫(kù),規(guī)范標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)是數(shù)據(jù)分析處理的前提。在這里以每一位學(xué)生作為一條數(shù)據(jù),我們將歷年的招生信息作如下處理:
(1)考生ID。這是標(biāo)志每位學(xué)生的關(guān)鍵字,可以直接使用學(xué)生的考生號(hào)。
(2)考生姓名。用于核對(duì)、補(bǔ)全考生信息。
(3)考生性別。對(duì)于某些專(zhuān)業(yè)或者地區(qū),性別可能會(huì)成為影響考生志愿的一個(gè)因素。
(4)考生籍貫。在這里,我們按照地理位置,以天津?yàn)橹行模瑢⑻旖蜃鳛锳區(qū)向外輻射;北京、河北、山東、江蘇作為B區(qū);東北三省及陜西、山西、內(nèi)蒙古、河南、江蘇、安徽、湖北、上海、江西、浙江等省份作為C區(qū),其余地區(qū)為D區(qū)。
(5)錄取專(zhuān)業(yè)??忌浫〉膶?zhuān)業(yè)可能會(huì)和考生生源地及是否報(bào)到有關(guān)系;
(6)考生成績(jī)。我們以當(dāng)?shù)禺?dāng)前批次的提檔線(xiàn)為標(biāo)準(zhǔn),每超過(guò)10分為一檔,將考生劃分為五擋,分別是:0-10分為E檔,11-20分為D檔,21-30分為C檔,31-40分為B檔,40分以上的考生均為A檔。
(7)是否報(bào)到。0為未報(bào)到考生,1為報(bào)到考生。
2.數(shù)據(jù)的預(yù)處理
因?yàn)閿?shù)據(jù)是由手工錄入的,所以有些數(shù)據(jù)可能會(huì)出現(xiàn)一些錯(cuò)誤,比如說(shuō)值丟失、異常、冗余等,因此我們首先要對(duì)數(shù)據(jù)進(jìn)行清理工作。比如ID只能是n位數(shù)字格式的字符串,成績(jī)則限定在學(xué)校最低錄取分?jǐn)?shù)線(xiàn)和最高分之間,并且經(jīng)過(guò)處理之后只能是字符“A”、“B”、“C”、“D”、“E”,籍貫同理,專(zhuān)業(yè)則對(duì)應(yīng)成學(xué)校的專(zhuān)業(yè)代碼,是否報(bào)道同樣以0和1作為標(biāo)志。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,數(shù)據(jù)庫(kù)中的數(shù)據(jù)則變成統(tǒng)一的、精確的數(shù)據(jù),可以進(jìn)行下一步分析和處理。
3.確定數(shù)據(jù)挖掘模型
我們采用貝葉斯算法進(jìn)行數(shù)據(jù)挖掘處理。貝葉斯是一種分類(lèi)統(tǒng)計(jì)方法,用于預(yù)測(cè)類(lèi)成員關(guān)系的可能性,比如判斷某一樣本屬于某一特定類(lèi)的概率,它分為樸素貝葉斯分類(lèi)和貝葉斯網(wǎng)絡(luò)分類(lèi)兩種[3]。目前,這種算法已經(jīng)表現(xiàn)出非常高的準(zhǔn)確率。本文采用的是樸素貝葉斯算法。貝葉斯分類(lèi)是基于貝葉斯定理進(jìn)行分類(lèi)的,主要判斷給出的樣本屬于某一類(lèi)的概率,假設(shè)X是類(lèi)標(biāo)號(hào)未知的數(shù)據(jù)樣本,H為某種假定,如數(shù)據(jù)樣本X屬于一個(gè)特定的類(lèi)別C。分類(lèi)問(wèn)題就是決定P(HIX),即在獲得數(shù)據(jù)樣本X時(shí)假設(shè)成立的概率[4]。我們用2011-2013年天津師范大學(xué)的招生數(shù)據(jù)作為訓(xùn)練集樣本進(jìn)行訓(xùn)練,預(yù)測(cè)某一條件的考生錄取我校某專(zhuān)業(yè)報(bào)道的概率,假如預(yù)測(cè)的結(jié)果為是,說(shuō)明這類(lèi)條件的考生更有可能報(bào)考并進(jìn)入我校就讀,反之,則說(shuō)明此類(lèi)考生報(bào)考我校的可能性很小,或者即使錄取報(bào)道的可能性也很小,以此指導(dǎo)我校的招生計(jì)劃編制和招生錄取工作。
4.結(jié)果分析
經(jīng)過(guò)數(shù)據(jù)的分析和處理,我們可以得出以下結(jié)論:
(1)就考生籍貫與報(bào)到率之間的關(guān)系而言,A地區(qū)的考生報(bào)到率最高,原因可能在于本地的院校對(duì)于吸收本地生源還是存在很大優(yōu)勢(shì)的,因此我們?cè)谶M(jìn)行計(jì)劃編制的時(shí)候應(yīng)該適當(dāng)?shù)叵虮镜貎A斜,并加大在本地區(qū)的宣傳力度,包括招生宣傳和日常的學(xué)生工作及大學(xué)生實(shí)習(xí)就業(yè)等;B區(qū)次之,包括山東、河北等地區(qū)的生源,這部分地區(qū)由于距離天津近,且考生數(shù)量多而當(dāng)?shù)卦盒?shù)量有限,對(duì)周邊院校具有更高的傾向性,因此我們可以對(duì)這些地區(qū)加大宣傳力度,增加計(jì)劃數(shù)量等,以保證生源的穩(wěn)定;而C類(lèi)和D類(lèi)地區(qū)的考生報(bào)到率就相對(duì)較低,可能的原因有距離遠(yuǎn),有些考生可能不愿意到距離很遠(yuǎn)的院校就讀,一些氣候、生活習(xí)慣等原因也會(huì)成為影響這些考生報(bào)考志愿的原因之一。除此之外,地區(qū)的經(jīng)濟(jì)結(jié)構(gòu)也是影響考生志愿的一大因素,比如南方一些地區(qū)主要對(duì)于經(jīng)濟(jì)貿(mào)易類(lèi)的專(zhuān)業(yè)更感興趣一些,而我們主要專(zhuān)業(yè)集中在哲學(xué)、教育學(xué)等領(lǐng)域,對(duì)這類(lèi)生源的吸引力相對(duì)小一些,因此生源一直不理想,報(bào)到率相對(duì)較低。
(2)就考生性別、專(zhuān)業(yè)與報(bào)到率之間的關(guān)系而言,某些專(zhuān)業(yè)對(duì)于性別的傾向性特別高,比如說(shuō)學(xué)前教育專(zhuān)業(yè),男生第一志愿的填報(bào)率本省就非常低,即便是被錄取了,此專(zhuān)業(yè)的男生報(bào)到率也非常低。因此,我們?cè)谡猩驹覆粷M(mǎn)需要進(jìn)行調(diào)劑的時(shí)候,要根據(jù)這一結(jié)果制定相應(yīng)的原則進(jìn)行規(guī)避,盡量不對(duì)男考生調(diào)劑此專(zhuān)業(yè),否則會(huì)造成指標(biāo)的浪費(fèi),影響招生結(jié)果。除此之外,我們應(yīng)與相應(yīng)學(xué)院進(jìn)行溝通,加強(qiáng)這類(lèi)專(zhuān)業(yè)的宣傳,盡量調(diào)整此類(lèi)專(zhuān)業(yè)的性別分配不均衡狀態(tài)。
(3)就考生成績(jī)與地區(qū)的相關(guān)性而言,B類(lèi)地區(qū)的考生總體成績(jī)較高,集中在A,B檔,可能是由于這類(lèi)地區(qū)計(jì)劃少,生源多,相對(duì)競(jìng)爭(zhēng)較大,因此我們應(yīng)該適當(dāng)調(diào)整政策,向這類(lèi)地區(qū)傾斜。
(4)就專(zhuān)業(yè)與報(bào)到率而言,學(xué)校存在某些專(zhuān)業(yè)報(bào)到率低而另一些專(zhuān)業(yè)的報(bào)到率高等現(xiàn)象。因此,我們一方面應(yīng)該適當(dāng)調(diào)整各專(zhuān)業(yè)的計(jì)劃數(shù),另一方面應(yīng)該與相關(guān)學(xué)院一起商討應(yīng)對(duì)措施,提升專(zhuān)業(yè)影響力。
四、結(jié)語(yǔ)
隨著政策的變化和信息技術(shù)的發(fā)展,招生方式日漸多元化、規(guī)范化、公平化、合理化,而招生形勢(shì)日漸嚴(yán)峻,高校該如何在這種日趨緊張的形勢(shì)下脫穎而出,爭(zhēng)取足量的、優(yōu)質(zhì)的生源是高校生存和發(fā)展的關(guān)鍵所在,本文以天津師范大學(xué)近三年的招生數(shù)據(jù)為基礎(chǔ),建立標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),并對(duì)數(shù)據(jù)進(jìn)行分析處理,找出數(shù)據(jù)屬性之間的關(guān)系,并從中總結(jié)出相應(yīng)的隱含信息,尋找對(duì)我校興趣最高或者左右可能報(bào)考我校的考生特征及優(yōu)質(zhì)考生的興趣點(diǎn)所在,并以此指導(dǎo)招生工作進(jìn)行招生決策和招生策略的調(diào)整,科學(xué)地、合理地、高效地開(kāi)展招生宣傳、計(jì)劃編制、招生錄取和專(zhuān)業(yè)調(diào)劑等工作,對(duì)于高校招生工作的有效開(kāi)展及保證高校辦學(xué)質(zhì)量有重要的實(shí)踐意義。
參考文獻(xiàn):
[1]陳文文.數(shù)據(jù)挖掘在高校規(guī)模分析決策中的應(yīng)用研究[D].沈陽(yáng)理工大學(xué)碩士論文,2011-12-01.
[2]饒瑩心.數(shù)據(jù)挖掘技術(shù)在招生決策系統(tǒng)中的應(yīng)用[D].華東理工大學(xué)碩士論文,2013-4-15.
[3]沈偉.基于數(shù)據(jù)挖掘技術(shù)的高職院校招生決策倉(cāng)庫(kù)設(shè)計(jì)與實(shí)現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015,3.
[4]蔣瑩瑩.淺談數(shù)據(jù)挖掘技術(shù)在電大開(kāi)放教育招生中的應(yīng)用[J].現(xiàn)代教育,2011,9.
本論文受2014年天津師范大學(xué)教育科學(xué)研究基金項(xiàng)目資助(項(xiàng)目號(hào):52WT1404)
本論文受天津廣播電視大學(xué)2013年度校級(jí)課題項(xiàng)目資助(項(xiàng)目號(hào):13XY1032)