文/林瑤 李洪磊
數(shù)據(jù)挖掘“預(yù)言”學(xué)生行為
文/林瑤 李洪磊
采集和分析學(xué)生的基本信息,可預(yù)測學(xué)生可能出現(xiàn)的行為,從而有目標(biāo)、有針對性地實(shí)施干預(yù)措施
學(xué)生群體龐大、多樣性明顯,給學(xué)生管理工作帶來很大的困難。不過,目前學(xué)生自然人數(shù)據(jù)、學(xué)習(xí)成績、操行檔案等在各高校均已不同程度地實(shí)現(xiàn)計(jì)算機(jī)化管理。如此龐大、詳細(xì)的數(shù)據(jù),為我們利用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)學(xué)生群體劃分與行為模式識別奠定了基礎(chǔ)。
由此,我們可以建立較全面的學(xué)生群體行為模式知識庫,通過采集學(xué)生的基本信息,可預(yù)測學(xué)生可能出現(xiàn)的行為,從而有目標(biāo)、有針對性地實(shí)施干預(yù)措施,幫助提高高校安全穩(wěn)定的預(yù)警水平,確保正常教學(xué)秩序的正常進(jìn)行。
我們選擇Clementine軟件作為主要研究工具。Clementine是一個數(shù)據(jù)挖掘工具平臺,通過此平臺可以采用商業(yè)技術(shù)快速建立預(yù)測性模型,并將其應(yīng)用于管理活動中,從而改進(jìn)決策過程。Clementine參照行業(yè)標(biāo)準(zhǔn)CRISP-DM模型設(shè)計(jì)而成,可支持從數(shù)據(jù)到更優(yōu)成果的整個數(shù)據(jù)挖掘過程。
Clementine的常用模塊包括:
1.分類和回歸樹(C&RT)節(jié)點(diǎn)生成可用于預(yù)測和分類未來觀測值的決策樹。該法在每個步驟最大限度地降低不純潔度,使用遞歸分區(qū)來將訓(xùn)練記錄分割為組。
2.CHAID節(jié)點(diǎn)使用卡方統(tǒng)計(jì)量來生成決策樹,以確定最佳的分割,可生成非二元樹,故有些分割將有多于兩個的分支。
3.K-Means節(jié)點(diǎn)將數(shù)據(jù)集聚類到不同分組(或聚類)。此法將定義固定的聚類數(shù)量,將記錄迭代分配給聚類,調(diào)整聚類中心,直到進(jìn)一步優(yōu)化模型。作為一種非監(jiān)督學(xué)習(xí)機(jī)制,K-Means節(jié)點(diǎn)并不試圖預(yù)測結(jié)果,而是揭示隱含在輸入字段集中的模式。
4.廣義規(guī)則歸納法(GRI)節(jié)點(diǎn)可以發(fā)現(xiàn)數(shù)據(jù)關(guān)聯(lián)規(guī)則。
5.主成份分析/因子節(jié)點(diǎn)提供了功能強(qiáng)大的數(shù)據(jù)縮減技術(shù),以此來降低數(shù)據(jù)的復(fù)雜性。
6.線性回歸是一種通過擬合直線或平面以實(shí)現(xiàn)匯總數(shù)據(jù)和預(yù)測的普通統(tǒng)計(jì)方法,它可使預(yù)測值和實(shí)際輸出值之間的差異最小化。
表1 學(xué)生信息數(shù)據(jù)統(tǒng)計(jì)
本文主要探討學(xué)生信息數(shù)據(jù)中潛藏的知識和規(guī)律,這里主要討論的是挖掘?qū)W生信息數(shù)據(jù),從中得出有效結(jié)論。學(xué)生信息數(shù)據(jù)統(tǒng)計(jì)表如表1所示。
數(shù)據(jù)挖掘系統(tǒng)模塊設(shè)計(jì)
學(xué)生管理信息數(shù)據(jù)挖掘系統(tǒng)是在學(xué)生信息數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ)上建立的,系統(tǒng)將數(shù)據(jù)從數(shù)據(jù)集市中取出來,再放入工作站,而后對這些數(shù)據(jù)進(jìn)行預(yù)處理,對于處理后的數(shù)據(jù)進(jìn)行分析、決策,以各種圖和表的形式顯示數(shù)據(jù),最后應(yīng)用適當(dāng)?shù)哪P蛯?shù)據(jù)建模,最終挖掘出知識,并對得到的知識進(jìn)行解釋。
數(shù)據(jù)挖掘系統(tǒng)總共分為5個模塊:
1.數(shù)據(jù)倉庫模塊
該模塊分兩部分:
一部分是事實(shí)表的生成。該部分設(shè)計(jì)了一個簡單的目標(biāo)數(shù)據(jù)倉庫(ETL)工具,僅對數(shù)據(jù)進(jìn)行抽取和裝載,這里需要指定抽取的源IP地址和裝載的目標(biāo)IP地址。為了進(jìn)行學(xué)生畢業(yè)情況的聚類分析,我們單獨(dú)設(shè)計(jì)了一個自動生成各專業(yè)畢業(yè)狀況的工具,這個工具將根據(jù)選定的專業(yè)自動生成該專業(yè)己畢業(yè)學(xué)生的畢業(yè)狀況事實(shí)表;
另一部分是維表和元數(shù)據(jù)的生成與管理。生成各維表的層次關(guān)系表(LevelRelation表)生成各專業(yè)畢業(yè)狀況的工具。
2.項(xiàng)目存儲模塊
每一個主題挖掘都有一個項(xiàng)目,因此,系統(tǒng)要能夠新建項(xiàng)目(分類項(xiàng)目和聚類項(xiàng)目),保存當(dāng)前項(xiàng)目的狀態(tài)(包括各種參數(shù)、各個數(shù)據(jù)集,事實(shí)表字段),并打開一個已存在的項(xiàng)目。項(xiàng)目的名字、所登錄的服務(wù)器的IP地址和登錄的用戶名與密碼均保存在文本文件中,為了防止非法登錄,我們用加密算法對用戶名和密碼加密。
3.數(shù)據(jù)預(yù)處理模塊
Clementine數(shù)據(jù)挖掘的過程是:Clementine讀入數(shù)據(jù);通過一系列操作運(yùn)行數(shù)據(jù),把數(shù)據(jù)送到目的地,操作順序被稱為數(shù)據(jù)流,每次操作時(shí),數(shù)據(jù)流都會隨著相關(guān)操作發(fā)生變化;最后,目標(biāo)數(shù)據(jù)輸出一個模型或者可視化的結(jié)果。
現(xiàn)實(shí)世界中的數(shù)據(jù)不完整、不明確(模糊),含有很多“雜質(zhì)”,而數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)質(zhì)量。本系統(tǒng)的數(shù)據(jù)預(yù)處理包含如下內(nèi)容:數(shù)據(jù)清洗、數(shù)據(jù)離散化、樣本抽樣、概念分層、數(shù)據(jù)數(shù)值化。圖1為對2007工商管理2班學(xué)生的數(shù)據(jù)按照各個字段對輸出字段的重要性的計(jì)算后的排序,從而使42個字段降解到28個字段。
4.C4.5算法
C4.5是在ID3基礎(chǔ)上發(fā)展起來的決策樹生成算法。C4.5算法不僅能處理離散型的描述性屬性,還能夠處理描述性屬性是連續(xù)型的情況,此算法利用比較各個描述性屬性的信息增益值(Information Gain)的大小,來選擇Gain值最大的屬性進(jìn)行分類,能夠完成對連續(xù)屬性的離散化處理,能夠?qū)τ诓煌暾麛?shù)據(jù)進(jìn)行處理,并最終形成產(chǎn)生式規(guī)則。算法的結(jié)果是一棵判定樹,它是由樣本屬性作為節(jié)點(diǎn)構(gòu)成的一棵外向樹,其中非葉節(jié)點(diǎn)由判定對象屬性組成,葉節(jié)點(diǎn)由分類屬性構(gòu)成。判定樹自根開始按層構(gòu)造,每次選取一個屬性作為當(dāng)前測試節(jié)點(diǎn),節(jié)點(diǎn)選擇通過信息論中的信息增益的熵值作度量,選擇熵最大的屬性作為當(dāng)前的節(jié)點(diǎn)。
5.建模過程及結(jié)果分析模塊
該模塊是數(shù)據(jù)挖掘系統(tǒng)的核心,分類算法和聚類算法在這個模塊中實(shí)現(xiàn),使用C4.5算法對數(shù)據(jù)進(jìn)行挖掘,通過修改算法中的參數(shù),可以得到不同的挖掘結(jié)果,并在該模塊中對結(jié)果進(jìn)行分析。系統(tǒng)在實(shí)現(xiàn)數(shù)據(jù)挖掘的過程中,循環(huán)調(diào)用以上模塊,直至獲取滿意的決策信息為止。
我們運(yùn)用Clementine軟件建立數(shù)據(jù)流后執(zhí)行以上流程,并且以表格的形式輸出結(jié)果,如圖2所示。
圖1 Clementine中的字段選擇數(shù)據(jù)流
圖2 Clementine中的不規(guī)則測試數(shù)據(jù)流
圖3 決策樹
運(yùn)行結(jié)果分析
我們通過調(diào)查表采集的原始數(shù)據(jù)包括:學(xué)生學(xué)號、性別、專業(yè)、年級、成績、處分狀況、是否獨(dú)生子女、父母職業(yè)、家庭狀況、經(jīng)濟(jì)狀況、戀愛情況、考勤情況、健康狀況進(jìn)行了問卷調(diào)查,一共四個年級5000多個數(shù)據(jù)的統(tǒng)計(jì)。我們選用四個字段:將學(xué)生性別Sex男(女)轉(zhuǎn)化成數(shù)字01(02),是(否)獨(dú)生子女Only轉(zhuǎn)化成數(shù)字11(12),經(jīng)濟(jì)條件Economy良好(困難)轉(zhuǎn)化成數(shù)字21(22),家庭Family和諧(不和諧)轉(zhuǎn)化成數(shù)字31(32),用Clementine中的C4.5算法模塊進(jìn)行挖掘,最終生成的決策樹如圖3所示。
我們通過對派生字段運(yùn)用Clementine軟件進(jìn)行數(shù)據(jù)挖掘后,由最終的生成報(bào)告得出有心理狀況的規(guī)則為:11→01→31→22;11→01→32;11→02→32;12→01→32→22;12→02→32。由此可知,關(guān)系緊張的家庭及單親家庭對學(xué)生心理影響最為明顯,大學(xué)生需要更多的關(guān)心和愛護(hù),其次是經(jīng)濟(jì)困難或經(jīng)濟(jì)條件過好也對大學(xué)生形成心理問題起著不可忽視的影響,需要高校加大對學(xué)生的理想信念的培養(yǎng)力度。這些結(jié)論對我們指導(dǎo)學(xué)生工作起到重要的作用,但我們僅選取了其中四個字段進(jìn)行了分類的挖掘研究,當(dāng)然,還可以選取更多字段進(jìn)行進(jìn)一步的聚類、關(guān)聯(lián)分析算法的探討。
學(xué)生信息系統(tǒng)中含有大量有待挖掘的有用信息,這些信息對校方更好地制定學(xué)生培養(yǎng)計(jì)劃無疑具有重要的指導(dǎo)意義。本文通過在學(xué)生信息管理系統(tǒng)中的具體實(shí)踐和運(yùn)用,實(shí)現(xiàn)了一個實(shí)用的學(xué)生信息數(shù)據(jù)挖掘系統(tǒng),有效提高了學(xué)生管理工作的效率和質(zhì)量,但在學(xué)生行為預(yù)測方面涉及的面還不夠廣,這對我們進(jìn)一步深入的研究提出了要求和挑戰(zhàn)。
(作者單位為遼寧師范大學(xué)管理學(xué)院)