林月嬌
隨著信息化和網(wǎng)絡(luò)化進(jìn)程的不斷演進(jìn),人類由于生活和生產(chǎn)作業(yè)所形成的數(shù)據(jù)信息量正以幾何級的增長速度不斷產(chǎn)生。目前,我國許多高校都開展了以校園網(wǎng)為平臺的“數(shù)字化”校園建設(shè),大量與學(xué)生成長相關(guān)的學(xué)科成績和其他評價分析數(shù)據(jù)被儲存記錄下來。本文主要研究利用知識發(fā)現(xiàn)的理論方法對這些數(shù)據(jù)做深度的研究分析,挖掘出數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系,以便更好地應(yīng)用管理創(chuàng)新理論,提高學(xué)生管理的信息化水平,提升高校教務(wù)管理水平。
一、知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的理論基礎(chǔ)
(一)知識發(fā)現(xiàn)的研究綜述
知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國底特律召開的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上[1]。1996年,知識發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數(shù)據(jù)庫的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識發(fā)現(xiàn)的最大效用。KDD過程是多個步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過程[3],基本流程包括:
(1)限定學(xué)習(xí)領(lǐng)域,儲備預(yù)先知識、確定學(xué)習(xí)目標(biāo);
(2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;
(3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;
(4)數(shù)據(jù)轉(zhuǎn)換;
(5)確定數(shù)據(jù)挖掘功能法則;
(6)獲得知識信息、運(yùn)用知識成果并重新選定學(xué)習(xí)目標(biāo)。
在創(chuàng)新的過程中,單單依靠顯性知識已經(jīng)不足以支撐整個思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長,傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時過境遷”成為無效信息,而且被長期積壓在數(shù)據(jù)庫中浪費(fèi)存儲資源。為了及時消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價值的信息得到有效利用。
(二)數(shù)據(jù)挖掘的理論探索
數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發(fā)現(xiàn)過程的一個重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識別、數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。
根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。而所要挖掘的對象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。
(三)小結(jié)
綜上,知識發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價值量,而數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對數(shù)據(jù)的簡單檢索調(diào)用,而是從數(shù)據(jù)集合中自動提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對未來可能發(fā)生的行為進(jìn)行預(yù)測,為決策者提供有力支持。
二、高校成績管理與學(xué)科建設(shè)
成績是學(xué)生在校學(xué)習(xí)期間對所學(xué)知識理解掌握情況和教師教學(xué)質(zhì)量評價的原始記錄,對學(xué)校的教學(xué)管理和教學(xué)改革措施評價具有重要的參考價值[5]。成績管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),
通過學(xué)生的實(shí)際量化考核分?jǐn)?shù)來進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績不僅限于學(xué)生的筆試成績,還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。
(一)高校成績管理所面臨的新形勢
從宏觀上講,隨著國家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時刻都更加繁重。
首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績管理上則是成績數(shù)據(jù)的時空容量同時增長。每多出一個學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績資料都會相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。
同時,素質(zhì)教育為學(xué)科成績管理如何更好地服務(wù)教師施教和學(xué)生學(xué)習(xí)提出了新的課題。素質(zhì)教育是我國長期以來所推行的一項(xiàng)基本國策。學(xué)科成績是高校學(xué)生在校的唯一量化評價指標(biāo),如何通過這些數(shù)據(jù)來及時反映出學(xué)生的學(xué)習(xí)效果和心理需求、反映出教師隊(duì)伍的教學(xué)質(zhì)量和教學(xué)改革進(jìn)度,已經(jīng)成為教務(wù)管理系統(tǒng)化的一個重要課題。
其次,教學(xué)管理模式改革為建立規(guī)范化的成績管理系統(tǒng)并進(jìn)行深度信息挖掘提出迫切需求。當(dāng)前許多高校都在積極推進(jìn)教學(xué)管理制度改革,逐步以學(xué)分制和選課制替代原有的學(xué)年制和班級授課制度,這種模式的改革在提高學(xué)生的學(xué)習(xí)積極性的同時,無形之中也為成績管理工作帶來了一定難度,比如增加了課程設(shè)置的不確定性,成績管理不能再以自然班級為單位,而是必須以單個的學(xué)生或者學(xué)生組合為單位,使得成績管理更加復(fù)雜。
最后,網(wǎng)絡(luò)化和信息化的需求為傳統(tǒng)成績管理模式的轉(zhuǎn)型升級提出新的任務(wù)和方向。隨著學(xué)分制等改革進(jìn)程的推進(jìn),學(xué)生成績管理系統(tǒng)的表單鏈路和字段設(shè)置都與傳統(tǒng)的數(shù)據(jù)庫有較大差異,如何及時處理這些數(shù)據(jù)并實(shí)現(xiàn)與其他系統(tǒng)的無縫鏈接,也是新時期高校成績管理的一大難題。