魏韞怡
(廣東廣播電視大學 廣東理工職業(yè)學院 廣東 廣州 510091)
隨著 “中央電大人才培養(yǎng)模式改革和開放教育試點”已經通過教育部的總結性評估,現代遠程開放教育成為電大辦學的常規(guī)形式,這表明電大教育進入新的發(fā)展階段。 開放教育事業(yè)的飛速發(fā)展,學生注冊人數不斷增加,畢業(yè)生的數據也在持續(xù)遞漲[1]。 由于電大主要面向成人教育,具有遠程教育特征、采用多種媒體教學、共享優(yōu)秀教育資源、開放的學習模式、學籍年限長等特點。 一方面學生們學習目的明確,學習主動性很高,他們都希望學到知識的同時能在教育部規(guī)定的最短年限內獲取畢業(yè)證書;另一方面作為學校,也希望在保證教學質量的同時,提高學生首次畢業(yè)通過率。 但如何才能在最短年限內取得證書? 這已成為制約學校招生、教學管理發(fā)展的棘手問題。 本文希望通過數據挖掘技術能在大量的教務管理系統數據中,發(fā)現潛在規(guī)律,找出隱含的模式,找出制約的原因, 為學校的管理決策提供有力的數據支持和依據,提高管理水平和辦學質量。
數據挖掘就是技術地從大型數據庫或數據倉庫中提取人們感興趣的信息和知識,這些知識或信息在被提取之前是是隱含的,事先未知而潛在有用的,被提取的知識表示為概念、規(guī)則、規(guī)律、模式等形式。
原則上講, 數據挖掘可以在任何類型的信息存儲上進行,包括關系數據庫、事務數據庫、數據倉庫、高級數據庫系統和面向特殊應用的數據庫系統(面向對象數據庫、對象-關系數據庫、空間數據庫、時間數據庫、時間序列數據庫、文本數據庫、多媒體數據庫、WWW 等)[2][3][4]。
數據庫中的知識挖掘是一個多步驟的處理過程, 數據挖掘的基本過程和主要步驟如圖1 所示。
圖1 數據挖掘的基本過程和主要步驟
常用的數據挖掘方法有關聯分析、序列模式分析、分類分析、聚類分析、預測分析、回歸分析;而常用的數據挖掘算法有人工神經網絡、決策樹、遺傳算法、最臨近技術、規(guī)則歸納、可視化技術等。 數據挖掘不是一個單向的過程,對同一個問題,可有多種不同的算法。 不同的數據挖掘方法作用于同一數據庫,對數據的理解可有不同的角度,每種方法的合理與否都有可能。 這就需要將發(fā)現結果在實際運用中反復求證,以檢驗其合理性。
1993 年IBMAldRhCt 的RkhAgawl 等人首先提出關聯規(guī)則挖掘,關聯規(guī)則挖掘目的是發(fā)現大量數據中項集之間有趣的關聯或相關聯系,可以幫助許多商務決策的制訂,如市場規(guī)劃、廣告策劃、分類設計等。
Apriori 算法是一種最有影響的挖掘布爾關聯規(guī)則頻繁項集的算法。 其核心是基于兩階段頻集思想的遞推算法。 該關聯規(guī)則在分類上屬于單維、單層、布爾關聯規(guī)則。 該算法的基本思想是:首先找出所有的頻集,這些項集出現的頻繁性至少和預定義的最小支持度一樣。 然后由頻集產生強關聯規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。 然后使用第1 步找到的頻集產生期望的規(guī)則,產生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項,這里采用的是中規(guī)則的定義。 一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。 為了生成所有頻集,使用了遞推的方法。
以廣東電大為例, 抽取2004 年級的12001 名本科學生為主要分析對象,根據這些學生的學籍及第一年考試成績作為分析的原始數據, 參考其他高校分析的一些指標定義,構造挖掘模型。 從教務管理廣東理工職業(yè)學院數據倉庫中導出相關的基本表進行集成、清理、轉換等數據預處理;使用關聯分析中的Apriori 算法對數據進行挖掘分析,從數據中發(fā)現某些規(guī)律和參考信息, 找出學生能在最短年限內畢業(yè)的因素,對教學等管理提出建議。
對電大學生數據建立分析模型,以選擇合適的方法和算法對數據進行分析,得到一個數據挖掘模型的過程。 一個好的模型沒必要與已有數據完全相符,但模型對未來的數據應有較好的預測。 建立分析模型如圖2。
圖2 電大學生數據分析模型
數據的預處理是數據挖掘過程中一個非常重要的環(huán)節(jié),一般需要用掉挖掘過程中70%的工作量。 本文以2004 年級的本科學生為主要分析對象,因此從教務管理系統倉庫中導出相關的三個表:學生基本檔案表、成績總表、畢業(yè)生名單,并對這三個表進行預處理。 經過數據采集、數據清理、數據集成、數據轉換、數據消減這五個步驟后,最終建立了可用于下一步數據挖掘的目標數據表。 如圖3 所示。
其中: xh(學號)字段值為
20041440000001-20041440011999;
kscs(考試次數)字段值定義為:1-16;
hgcs(合格次數)字段值定義為:1-16;
rxjd(入學季度)字段值如此定義:1 表示春季入學,2 表示秋季入學;
hydm(婚姻代碼) 字段值如此定義:根據全局統計只有兩種狀況:1 表示未婚,2 表示已婚;
nl(年齡)字段值如此定義:年齡采用等高方式劃分bucket,分成5 個年齡段:20、25、30、35、40;
dwdm(單位代碼)字段值如此定義:將廣東電大系統地區(qū)劃分為四個區(qū)域,A 代表粵北,B 代表粵東,C 代表粵西,D 代表珠三角。
圖3 目標數據表片段
從目標數據表中統計, 約25.5%的學生就讀五個學期后畢業(yè),約45.1%的學生就讀六個學期后畢業(yè),其余剩29.4%的學生不能在最短的第五或者第六個學期畢業(yè),下面通過Apriori 算法對該表進行挖掘應用,找出答案。
事務數據庫D 由已經經過預處理的目標數據倉庫中(見圖3) 給出, 設最小支持度Minimum support=0.05 (612 instances);Minimum metric <confidence>= 0.2,利用Apriori 算法找出D 的頻繁項集。
1)掃描整個表,計算出D 中所包含的每個項目出現的次數,得出C1。 將C1 各項計數,由最小事務支持計數為0.1,從C1 中可以確定出頻繁1-項集,得出L1:
3)執(zhí)行L2∪L2 產生C3,根據Apriori-gen 中剪枝步驟對C3 進行剪枝,然后掃描事務數據庫對C3 中的項目集進行計數,得出L3,同理得出L4、L5:
4)在執(zhí)行L5∪L5 后,通過剪枝與計數,得出C6,在掃描以及對比數據庫與最小支持計數后,得知C6=Φ ,算法終止。
經過以上4 個步驟的頻繁集生成規(guī)則共有228 條。
1)以全省總體來說:第五個學期畢業(yè)的置信度比第六個學期畢業(yè)要低,即使全部考試都合格的情況下,結果也一樣;但分布來說:粵東地區(qū)第五個學期畢業(yè)的置信度比第六個學期畢業(yè)要高;粵西地區(qū)就剛好相反;珠三角地區(qū)則有一半的學生在第六個學期畢業(yè);
2)以全省25 歲的學生為參照物,第一年參加考試次數7次比參加考試6 次在第六個學期畢業(yè)的置信度要高;
3)如果考試次數為8 次在不考慮合格率的情況下,其置信度比只考7 次的要低;
4)婚姻狀態(tài)與能否在最短年限內畢業(yè)結果無關;
5)年齡與學生畢業(yè)時間沒有太大關系;
6)入學季度與學生畢業(yè)時間沒有太大關系,但粵西地區(qū)春季入學的學生比秋季入學的學生,在第六個學期畢業(yè)的置信度高得多;
7) 綜合平均分為D 以上的學生在六個學期前畢業(yè)的置信度比較高,但綜合平均分為F 的,有八成多都不可能在六個學期前畢業(yè)。
根據以上分析,對學校招生管理部門建議:學生報讀時提醒學生學習態(tài)度是決定其能否最短時間拿到畢業(yè)證書的關鍵。 想按時畢業(yè)有幾個關鍵因素:第一年參加考試總次數要在6 次或者以上并且至少有6 次及格;第一年綜合平均分要為D 以上。 對學校教學管理部門建議:鼓勵學生以積極的態(tài)度去學習,第一年盡可能多的參加期末考試;進一步指導學生進行有效的學習、復習,提高考試通過率的同時盡量拿取高分數。
本文通過介紹數據挖掘的基本概念、對象、過程、方法和算法,分析了隨著電大辦學規(guī)模的不斷擴大,信息量大幅度增加,使用Apriori 關聯規(guī)則挖掘算法對數據倉庫中的部分數據進行挖掘,找出潛在的關聯規(guī)則,獲取影響學生能在最短年限內畢業(yè)的潛在因素與信息,用于指導教學,開展有針對性的教學安排與教學組織,借以提高教學質量,對學校教學管理提出建議。 將數據挖掘技術引入教育領域是可行的,可以對教務管理龐大的數據進行多方面、多角度的數據分析和挖掘,應該會得到大量的有指導意義的結果,以提高學校管理的決策,提高管理水平和辦學質量。
[1]田紅梅,彭愈強.論現代遠程開放教育學籍管理的特點及戰(zhàn)略意義[J].廈門廣播電視大學學報,2008(1):10-12.
[2]邵峰晶,于忠清.數據挖掘原理與算法[M].中國水利水電出版社,2003,8.
[3]Jiawei Han,Micheline Kamber.數據挖掘概念與技術[M].范明,孟小峰,譯.機械工業(yè)出版社,2001.
[4]談恒貴, 王文杰,李游華.數據挖掘分類算法綜述[J].微型計算機與應用,2005(2):4-9.
[5]陳京民,等.數據倉庫與數據挖掘技術[M].電子工業(yè)出版社,2002.
[6]黃麗莉.電大教務管理工作的改革與創(chuàng)新[J].科技傳播,2010(1):84.
[7]陳文慶.關聯規(guī)則挖掘APriori 算法的改進與研究[J].微機發(fā)展,2005:85-89
[8]于玲玲. 數據挖掘技術在獨立學院教務管理中的應用[J]. 計算機教學與教育信息化,2009(36):93-95.