摘 要:本文首先介紹了數(shù)據(jù)挖掘技術(shù)對高校學(xué)生成績分析的意義與目標(biāo),在此基礎(chǔ)上對目前常用的挖掘算法進(jìn)行了分析與研究,最后以粗糙集算法為例實(shí)際介紹了學(xué)生成績數(shù)據(jù)挖掘?qū)嵗?/p>
關(guān)鍵詞:數(shù)據(jù)挖掘;高校;成績分析
中圖分類號(hào):TP311.13
高校教育中,學(xué)生成績能夠反映學(xué)生對所學(xué)知識(shí)的理解與掌握程度,是教師用于評估教學(xué)效果的主要依據(jù)之一。隨著高等教育的普及,現(xiàn)代高校的教學(xué)規(guī)模逐年擴(kuò)大,學(xué)生數(shù)量不斷增加,影響學(xué)生學(xué)習(xí)效果的因素從以個(gè)人因素為主逐漸拓展到多種因素的綜合作用,高校教務(wù)管理系統(tǒng)中也積累了大量的學(xué)生數(shù)據(jù)資源。信息時(shí)代中,數(shù)據(jù)收集、存儲(chǔ)與處理已經(jīng)成為推動(dòng)社會(huì)進(jìn)步的主要?jiǎng)恿χ?,特別是在目前對教學(xué)方式和學(xué)習(xí)內(nèi)容依賴性較強(qiáng)高校教育中,如何應(yīng)用先進(jìn)數(shù)據(jù)分析算法從海量數(shù)據(jù)中提取有價(jià)值的信息協(xié)助制定和完善教學(xué)決策,幫助學(xué)生獲得更具針對性,更符合個(gè)人學(xué)習(xí)特點(diǎn)的教學(xué)信息是現(xiàn)代科學(xué)化教學(xué)的主要考慮問題。
數(shù)據(jù)挖掘技術(shù)是一種以海量數(shù)據(jù)為基礎(chǔ)的有效知識(shí)挖掘和數(shù)據(jù)關(guān)系歸納技術(shù),該技術(shù)被廣泛應(yīng)用與多個(gè)領(lǐng)域的數(shù)據(jù)分析于檢索工作中,如市場營銷、風(fēng)險(xiǎn)預(yù)測、產(chǎn)品質(zhì)量分析等,但是在教育領(lǐng)域中,數(shù)據(jù)挖掘技術(shù)應(yīng)用仍處于初級(jí)階段。目前,高校教學(xué)管理普遍實(shí)現(xiàn)了信息化,學(xué)生學(xué)習(xí)過程中的多種信息都可以通過教務(wù)管理系統(tǒng)數(shù)據(jù)庫查詢得到,但是這些信息中有超過80%的部分只是停留在簡單的查詢、統(tǒng)計(jì)、打印、報(bào)表等應(yīng)用階段,其潛在特性并未被挖掘出來用于對教學(xué)進(jìn)行指導(dǎo)和預(yù)測。為提升學(xué)生成績的利用效果,適應(yīng)現(xiàn)代高等教育的教學(xué)需求,可以針對現(xiàn)有的成績數(shù)據(jù)庫應(yīng)用數(shù)據(jù)挖掘技術(shù)對其中的數(shù)據(jù)信息進(jìn)行挖掘和處理。通過該技術(shù)的應(yīng)用可以獲得以下兩方面效果:從數(shù)據(jù)庫中查找影響學(xué)生學(xué)習(xí)成績的多個(gè)因素并將其映射到具體問題中,幫助學(xué)生及時(shí)把握個(gè)人學(xué)習(xí)效果與學(xué)習(xí)方法、學(xué)習(xí)態(tài)度等之間的關(guān)系,明晰學(xué)生學(xué)習(xí)中存在的困難,對學(xué)生學(xué)業(yè)進(jìn)行預(yù)警;通過數(shù)據(jù)挖掘幫助教師和學(xué)校明確教學(xué)中存在的問題,幫助教師分析確定教學(xué)難點(diǎn),協(xié)助完善教學(xué)策略,以及幫助教師開展更具針對性的教學(xué)輔導(dǎo)工作。
1 高校學(xué)生成績數(shù)據(jù)挖掘的內(nèi)涵
對高校學(xué)生成績進(jìn)行數(shù)據(jù)挖掘主要是指對學(xué)生成績數(shù)據(jù)庫中存儲(chǔ)的大量數(shù)據(jù)進(jìn)行有效信息收集與轉(zhuǎn)換,建立適當(dāng)?shù)哪P蛯D(zhuǎn)換后數(shù)據(jù)進(jìn)行模型化處理和分析,進(jìn)而從中發(fā)掘感興趣的知識(shí)關(guān)系與知識(shí)規(guī)律,并從中提取出可以輔助教學(xué)決策的關(guān)鍵性數(shù)據(jù),幫助提升教學(xué)效率與管理效果。
如高校學(xué)生成績數(shù)據(jù)庫中包含了諸如學(xué)號(hào)、姓名、成績、課程、教學(xué)安排等諸多內(nèi)容,這些內(nèi)容中哪些對學(xué)生成績有影響,影響度是多少,哪些對學(xué)生成績無影響都是經(jīng)過數(shù)據(jù)挖掘分析與處理后得到的。這些分析結(jié)果可以幫助高校對現(xiàn)有的教學(xué)內(nèi)容和教學(xué)計(jì)劃等進(jìn)行調(diào)整或重新規(guī)劃,以便于讓學(xué)生更好的利用教學(xué)資源,獲得更高的教學(xué)質(zhì)量。
需要說明的是,進(jìn)行數(shù)據(jù)挖掘時(shí)所使用的數(shù)據(jù)信息必須是與挖掘目標(biāo)相關(guān)的、使用者感興趣的、真實(shí)有效的數(shù)據(jù)信息。
2 數(shù)據(jù)挖掘技術(shù)發(fā)展及其應(yīng)用現(xiàn)狀
數(shù)據(jù)挖掘技術(shù)融合了數(shù)據(jù)庫、人工智能以及數(shù)據(jù)并行處理等諸多技術(shù)可用于對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行隱含信息提取與挖掘,并根據(jù)算法需求進(jìn)行知識(shí)學(xué)習(xí)與積累。該技術(shù)是在1989年被正式提出的。經(jīng)過多年的發(fā)展與完善,目前國內(nèi)外的數(shù)據(jù)挖掘技術(shù)研究與應(yīng)用主要集中在以下幾種算法:決策樹算法、神經(jīng)網(wǎng)絡(luò)算法、粗糙集算法、遺傳算法、關(guān)聯(lián)規(guī)則算法以及人工智能相關(guān)算法等。
其中,粗糙集理論是由Pawlak于1982年提出的,理論以模糊性數(shù)據(jù)為基礎(chǔ),應(yīng)用分類機(jī)制對數(shù)據(jù)樣本空間中的不可分辨性關(guān)系進(jìn)行分析與處理?;诖植诩碚摰拇植诩惴ㄔ谶M(jìn)行數(shù)據(jù)挖掘時(shí)具有以下幾點(diǎn)特性:(1)該算法對包含噪聲的、分類不明確、具有模糊性的數(shù)據(jù)分類具有很好的應(yīng)用效果。(2)相對而言算法更加注重挖掘隱藏在數(shù)據(jù)樣本中的事實(shí),故按照其進(jìn)行的規(guī)則更具確定性與可能性。(3)該算法所構(gòu)造的形式模型具有清晰的定義,可應(yīng)用適當(dāng)?shù)臄?shù)學(xué)分析方法對數(shù)據(jù)進(jìn)行處理與分析。(4)算法支持并行運(yùn)算,可應(yīng)用于大數(shù)據(jù)信息挖掘。(5)算法的實(shí)現(xiàn)不需要附加信息的支持,可操作性強(qiáng),實(shí)現(xiàn)過程簡單。
3 數(shù)據(jù)挖掘的過程分析
在應(yīng)用數(shù)據(jù)挖掘算法對高校學(xué)生成績進(jìn)行分析時(shí)需要經(jīng)歷三個(gè)階段:數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及數(shù)據(jù)結(jié)果表達(dá)與解釋階段。
3.1 數(shù)據(jù)準(zhǔn)備。該階段用于提供可用于進(jìn)行直接處理與分析的數(shù)據(jù)信息,故在該階段中需要根據(jù)算法的數(shù)據(jù)信息使用需求對源數(shù)據(jù)進(jìn)行適當(dāng)?shù)募伞⒑Y選以及處理,以便于獲得可信度較高的分析結(jié)果。該部分工作在整個(gè)成績分析工作中占據(jù)了較大的比例。
(1)在高校學(xué)生成績分析中,用于數(shù)據(jù)挖掘的信息可能涉及多個(gè)數(shù)據(jù)庫或多個(gè)學(xué)科,這就需要將這些數(shù)據(jù)進(jìn)行收集與整理,消除數(shù)據(jù)源與源之間的語義模糊性,處理其中存在的信息缺陷,整理為統(tǒng)一規(guī)范的數(shù)據(jù)格式。(2)由源數(shù)據(jù)匯集而成的數(shù)據(jù)分析空間中可能存在大量的無關(guān)數(shù)據(jù),這些數(shù)據(jù)不為數(shù)據(jù)挖掘工作的開展提供支持,反而會(huì)增加工作量,故數(shù)據(jù)準(zhǔn)備的第二個(gè)內(nèi)容為數(shù)據(jù)的選擇,選擇后的數(shù)據(jù)應(yīng)該是對分析有用的、可有效縮小處理范圍的相關(guān)數(shù)據(jù)內(nèi)容。(3)篩選后的數(shù)據(jù)中可能存在噪聲問題、不完整問題或數(shù)據(jù)不一致問題等,此時(shí)還需要進(jìn)行數(shù)據(jù)預(yù)處理操作,進(jìn)一步完善和充實(shí)數(shù)據(jù)分析庫內(nèi)數(shù)據(jù)結(jié)構(gòu),確保分析結(jié)果的可靠性與可信度。(4)為便于算法分析,還需要將數(shù)據(jù)庫中屬性字段的信息轉(zhuǎn)換為可識(shí)別、可處理的編碼數(shù)據(jù)。
3.2 數(shù)據(jù)挖掘。該工作是整個(gè)學(xué)生成績分析的執(zhí)行部分。需要應(yīng)用多種數(shù)據(jù)挖掘算法對數(shù)據(jù)庫中的數(shù)據(jù)信息進(jìn)行處理和分析,發(fā)掘可用的內(nèi)在聯(lián)系或知識(shí)圖譜。
工作首先要確定挖掘目標(biāo)或任務(wù),然后再根據(jù)挖掘目標(biāo)選用適當(dāng)?shù)耐诰蛩惴?gòu)建數(shù)據(jù)模型和需要分析的具體參數(shù),并利用該模型對數(shù)據(jù)庫中相關(guān)參數(shù)進(jìn)行挖掘與分析,查找出符合要求的關(guān)聯(lián)規(guī)則、數(shù)據(jù)回歸結(jié)構(gòu)等,給出可用于評估與分析的模式表達(dá)式。
實(shí)際應(yīng)用中,在算法選擇完畢后可以直接選用數(shù)據(jù)挖掘工作自動(dòng)化完成數(shù)據(jù)挖掘工作。
3.3 結(jié)果評估與解釋。數(shù)據(jù)挖掘工作完畢后,用戶需要對所得到的模式分析結(jié)果或模式表達(dá)式進(jìn)行評估與判斷,查看其是否具有有效性,能否滿足成績分析需求,若用戶對挖掘結(jié)果不滿意可以更改算法或重新執(zhí)行數(shù)據(jù)挖掘過程。
4 粗糙集算法在高校學(xué)生成績分析中的實(shí)現(xiàn)過程
以高校學(xué)生為例,學(xué)習(xí)興趣、課堂前準(zhǔn)備、課堂學(xué)習(xí)等因素作為衡量因素來判斷與整理這些因素對學(xué)生成績的影響。
(1)對學(xué)生信息進(jìn)行采集。具體包括以下三部分內(nèi)容:一是學(xué)生的基本信息,二是數(shù)據(jù)挖掘涉及的調(diào)查信息如學(xué)習(xí)興趣、課前準(zhǔn)備、課堂學(xué)習(xí)效率、課后復(fù)習(xí)等,三是學(xué)生的具體考試成績,其中包括平時(shí)成績、考試成績以及綜合測評成績等。(2)對上述數(shù)據(jù)進(jìn)行預(yù)處理和數(shù)據(jù)轉(zhuǎn)換。既要對所收集的樣本進(jìn)行數(shù)據(jù)值補(bǔ)充完善,又要將其轉(zhuǎn)化為可用于分析的離散化屬性參數(shù)。(3)對數(shù)據(jù)進(jìn)行分類挖掘。針對粗糙集算法,需要執(zhí)行如下幾步算法操作:數(shù)據(jù)屬性約簡、成績值約減。(4)可以形成可直接用于信息分類與提取的分類規(guī)則,確定各屬性因素之間的關(guān)聯(lián)度。具體本例而言分類規(guī)則為:平時(shí)成績屬性AND課堂學(xué)習(xí)效果AND知識(shí)掌握程度AND課后復(fù)習(xí)。該分類規(guī)則下可以獲得每一屬性因素對應(yīng)的學(xué)生成績之間的關(guān)系。
5 總結(jié)
數(shù)據(jù)挖掘技術(shù)是一類可在海量數(shù)據(jù)信息庫中查找與發(fā)現(xiàn)知識(shí)內(nèi)在聯(lián)系的一種數(shù)據(jù)分析方法,其在高校學(xué)生成績分析中的應(yīng)用仍處于初級(jí)階段,應(yīng)用粗糙集算法對學(xué)生成績進(jìn)行挖掘可以獲得較為明確的分析結(jié)果,這對于指導(dǎo)開展教學(xué)改革,幫助學(xué)生制定更高效的學(xué)習(xí)計(jì)劃,改進(jìn)與完善現(xiàn)有教學(xué)中存在的問題具有非常實(shí)際的意義。為獲得更好的數(shù)據(jù)挖掘結(jié)果,在后續(xù)的工作中可以根據(jù)粗糙集算法特性對其進(jìn)行改進(jìn)或與其他算法進(jìn)行結(jié)合。
參考文獻(xiàn):
[1]劉宇陽.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用[J].交通科技與經(jīng)濟(jì),2008,10(3).
作者單位:南京郵電大學(xué),南京 210023
基金項(xiàng)目:南京郵電大學(xué)青藍(lán)計(jì)劃“基于數(shù)據(jù)挖掘技術(shù)的遠(yuǎn)程學(xué)習(xí)監(jiān)控與動(dòng)態(tài)評價(jià)”