徐成香
[摘要]隨著學生信息數(shù)據(jù)的急劇膨脹,為了更好的進行學生信息管理,提出基于數(shù)據(jù)挖掘技術(shù)的學生信息系統(tǒng)的開發(fā),并舉例說明如何利用數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)庫技術(shù)建立學生信息管理系統(tǒng),為相關(guān)專業(yè)人員提供參考。
[關(guān)鍵詞]數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則模型
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)0820057-01
目前我國很多學校均建立了學生信息系統(tǒng),隨著時間的推移學生信息系統(tǒng)中相關(guān)的信息數(shù)據(jù)也急劇膨脹。如何運用科學的技術(shù)和手段從海量數(shù)據(jù)中發(fā)現(xiàn)有用的信息并充分利用,發(fā)現(xiàn)各個學生的特點,了解學生的學習規(guī)律,更好地管理學生信息,這是學校管理者企盼解決的深層問題。因此采用數(shù)據(jù)挖掘技術(shù)對學生數(shù)據(jù)進行再次開發(fā)已成為新的趨勢。
一、數(shù)據(jù)挖掘的概念[1]
數(shù)據(jù)挖掘(DataMining,DM)是指從大量不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識的過程。其表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘是現(xiàn)代科學技術(shù)相互滲透與融合的產(chǎn)物,融合了數(shù)理統(tǒng)計、人工智能、可視化技術(shù)、數(shù)據(jù)庫技術(shù)和計算機技術(shù)等領(lǐng)域的理論技術(shù)。
二、學生信息數(shù)據(jù)倉庫的設計與建設
數(shù)據(jù)挖掘是建立在數(shù)據(jù)倉庫基礎(chǔ)之上的。數(shù)據(jù)倉庫概念是W.H.Inmon
在《建立數(shù)據(jù)倉庫》一書中提出的,數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程[2]。數(shù)據(jù)準備的好壞將影響到數(shù)據(jù)挖掘的效率和準確度以及最終模型的有效性,數(shù)據(jù)準備工作包括數(shù)據(jù)的選擇(選擇相關(guān)和合適的數(shù)據(jù))、探索(盡可能了解數(shù)據(jù),如分布情況和異常數(shù)據(jù)等)、修正(包括缺失數(shù)據(jù)的插值等)、變換(離散值數(shù)據(jù)與連續(xù)值數(shù)據(jù)之間的相互轉(zhuǎn)換,數(shù)據(jù)的分組分類,數(shù)據(jù)項之間的計算組合等)。
學生信息數(shù)據(jù)庫中的數(shù)據(jù)表主要有:學生學籍信息表,主要字段有學生學號(ID)、姓名(name)、性別(sex)、出生日期(age)、家庭住
址(address)等;學生班級信息表,主要字段有學號(ID)、班級(clas
S)、職務(duty)等;學生成績表,主要字段有學號(ID)、課程號(cI
D)、成績(result)等;學生選課表,主要字段有學號(ID)、選修課程號(xID)、任課教師(teacher)、成績(result)等;各學期成績匯總表,主要字段有學號(ID)、課程1成績(result1)、課程2成績(result
2)、課程3成績(result3)、總成績(results)、名次(rank)等。
三、數(shù)據(jù)挖掘在學生信息管理系統(tǒng)開發(fā)中的應用
(一)建立挖掘數(shù)據(jù)模型及數(shù)據(jù)預處理。數(shù)據(jù)預處理是對數(shù)據(jù)源進行加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進行平滑,對丟失的數(shù)據(jù)進行填補,消除“臟”數(shù)據(jù),消除重復記錄等,使之符合數(shù)據(jù)挖掘的要求。它的主要工作有檢查拼寫錯誤、去掉重復的記錄、補上不完全的記錄、推導計算缺失數(shù)據(jù)、完成數(shù)據(jù)類型轉(zhuǎn)換。數(shù)據(jù)變換的主要目的是精減數(shù)據(jù)維數(shù),即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時要考慮的特征或變量個數(shù)。
(二)數(shù)據(jù)挖掘的算法[3]。由于學生信息系統(tǒng)有多個不同的應用目標,以查詢不同的結(jié)果。因此要有與其相對應的挖掘任務和定制數(shù)據(jù)庫,針對這些數(shù)據(jù)庫有很多的數(shù)據(jù)挖掘算法。而每個算法都會提出一些諸如置信度、感興趣度、新穎度等統(tǒng)計屬性作為對產(chǎn)生模式的評估標準,從而進一步?jīng)Q定對模式的取舍,提高找出有興趣模式的效率。這里用最佳的數(shù)據(jù)挖掘方法進行計算,這些算法包括:人工神經(jīng)網(wǎng)絡、決策樹、遺傳算法、鄰近算法等。
(三)數(shù)據(jù)挖掘結(jié)果與分析。根據(jù)數(shù)據(jù)方面處理結(jié)果,設最小支持度為0.2,最小置信度設為0.4,利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘Apriori算法處理數(shù)據(jù)并得出關(guān)聯(lián)規(guī)則。
是否為班干部+學習成績,進行挖掘,挖掘結(jié)果如下:
[是否為班干部=“是”=>學習成績=“優(yōu)”] 0.588
[是否為班干部=“是”=>學習成績=“一般”] 0.450
[是否為班干部=“否”=>學習成績=“優(yōu)”] 0.500
[是否為班干部=“否”=>學習成績=“一般”] 0.655
結(jié)果表明:在班級擔任一定職務的學生并沒有因為學生工作耽誤學習,相反,班干部的學習成績要比普通同學的學習成績好。班干部經(jīng)常和老師聯(lián)系,在老師身上學到很多知識,并且任職班干部要給普通學生作表率。因此,班主任及任課教師要重視班干部,但不能忽視普通學生,要經(jīng)常找普通學生談心,以提高他們的學習成績。
實踐經(jīng)歷+學習成績,進行挖掘,挖掘結(jié)果如下:
[實踐經(jīng)歷=“多”=>學習成績=“優(yōu)”] 0.670
[實踐經(jīng)歷=“中”=>學習成績=“良”] 0.498
[實踐經(jīng)歷=“少”=>學習成績=“中”] 0.680
結(jié)果表明:社會實踐及參加活動多的學生的學習成績要好,而社會實踐及參加活動少的學生的學習成績一般。作為學校的管理者,應該多舉行有意義的活動,豐富學生的學校生活,提高他們的社會實踐能力,為以后步入社會奠定良好的基礎(chǔ)。
四、數(shù)據(jù)挖掘技術(shù)應用過程中要注意的問題
盡管數(shù)據(jù)挖掘有如此多的優(yōu)點,但數(shù)據(jù)挖掘也面臨著許多的問題,隨著這些問題的解決,也為數(shù)據(jù)挖掘的未來的發(fā)展提供了更大的空間。
1.數(shù)據(jù)挖掘的基本問題就在于數(shù)據(jù)的數(shù)量和維數(shù),數(shù)據(jù)結(jié)構(gòu)也因此顯得非常復雜。海量的數(shù)據(jù)一方面提供了挖掘的基礎(chǔ)和前提,但同時維數(shù)的增加也會給數(shù)據(jù)挖掘的實現(xiàn)帶來難度。如何進行探索,選擇元數(shù)據(jù),選擇分析變量,也就成為首要解決的問題。
2.面對如此大的數(shù)據(jù),數(shù)據(jù)中隱含一定的變化趨勢,對數(shù)據(jù)進行抽樣,怎么抽樣,抽取多大的樣本,又怎樣評價抽樣的效果,這些都是決定挖掘效果好壞的關(guān)鍵。
3.數(shù)據(jù)挖掘的結(jié)果是不確定的。不同的人對同樣的數(shù)據(jù)進行挖掘,可能產(chǎn)生不同的結(jié)果,甚至差異很大,要和專業(yè)知識相結(jié)合才能對其做出判斷,這就涉及到可靠性的問題。需要建立有效的評估體系來評價。
五、結(jié)束語
學校作為科學技術(shù)的傳播地,學生的管理和建設對學校的可持續(xù)發(fā)展具有深遠的影響。數(shù)據(jù)挖掘技術(shù)是一個研究活躍的領(lǐng)域,利用數(shù)據(jù)挖掘技術(shù)對學生信息積累的大量數(shù)據(jù)進行挖掘,挖掘出具有管理和決策的信息,使學校切實做到“以學生為本”,管理進一步走向規(guī)范化、科學化、現(xiàn)代化。
參考文獻:
[1]范明、孟小峰,數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.
[2]耿曉中、張冬梅,數(shù)據(jù)挖掘綜述[J].長春師范學院學報(自然科學版),2006.6,Vol.25,No.3,24~27.
[3]李國杰,數(shù)據(jù)挖掘綜述[J].廣東輕工職業(yè)技術(shù)學院學報,2006.3,Vol.5,No.1,19~21.
[4]夏瑞麗,淺談數(shù)據(jù)挖掘[J].科技創(chuàng)新導報,2008(24).