陸蒼海,吳漢強
(1.江蘇教育考試院,江蘇南京210024;2.揚州職業(yè)大學,江蘇揚州225009)
近年來,隨著經濟的發(fā)展和社會的進步,高校教育也得到了深入發(fā)展,高校招收人數急劇增加,使得傳統(tǒng)的高校教育已跟不上時代的發(fā)展,高校教育面臨著前所未有的挑戰(zhàn)。信息化的推進和網絡技術的發(fā)展,使得信息化規(guī)模不斷擴大。數據量的快速增長,加速了高校信息庫的建立與完善,高校各部門利用信息技術的能力也大幅提高,將數據挖掘技術應用到高校信息管理中來,通過數據挖掘技術,可以對高校積累的海量信息進行開采并加以提煉,把看似無關的數據信息合并集成,挖掘其潛在的聯(lián)系,獲取有價值的信息。根據挖掘結果,幫助高校管理工作者分析數據的各種特征和關系,從而對決策起到指導和預測作用,提高高校管理質量和教學水平,提升人才培養(yǎng)效果,有效增強學校競爭力。
數據挖掘是數據庫和信息決策領域的前沿研究方向之一,是一門交叉學科,它借鑒了數據庫系統(tǒng)、機器學習、模式識別、信息檢索、統(tǒng)計學習、人工智能等領域的理論和算法,利用多種分析工具從海量數據中發(fā)現(xiàn)數據間潛在的關系。
數據挖掘,是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,提取的知識一般可表示為概念、規(guī)則、規(guī)律、模式等形式[1]。
有人認為數據挖掘是數據庫中的知識發(fā)現(xiàn)過程,能夠從看似無關的雜亂無章的數據中提取有用的信息,也有人認為數據挖掘僅僅是知識發(fā)現(xiàn)過程中的一個步驟。一般而言,知識發(fā)現(xiàn)過程包含下列步驟:確定業(yè)務對象、數據準備、數據挖掘、模式評估和知識表示[2]。
1)確定業(yè)務對象:這一步要能清晰地定義出業(yè)務問題,確定研究方向和數據挖掘目的,獲取業(yè)務信息,解釋數據屬性特征,設置預見問題。
2)數據準備:針對挖掘目標收集、整理原始數據集,然后對數據集中的數據進行清洗,去除噪聲數據和不相關等問題數據,將數據集中的數據結合起來,轉換成有效形式,提供適合數據挖掘的數據集。數據準備包括數據清洗、集成、選擇和變換。
3)數據挖掘:是核心步驟,使用各種智能的數據挖掘算法和分析模型從數據中挖掘出重要模式。
4)模式評估和知識表示:依據一定的標準對所發(fā)現(xiàn)的模式進行解釋評估,從而發(fā)現(xiàn)真正的有意義的知識模式,然后通過可視化和知識表示技術,以用戶能理解的方式為其提供發(fā)現(xiàn)的知識。
數據挖掘過程不是自動完成的,大部分工作需要人工實現(xiàn)。圖1給出了數據挖掘過程中各個步驟的工作量比例。從圖中可以看出,數據準備占用了整個時間的60%,說明數據挖掘對數據的要求是非常嚴格的,而后挖掘工作僅占總工作量的10%[3]。
圖1 數據挖掘過程工作量比例
數據挖掘可以實現(xiàn)多種功能,如關聯(lián)分析、聚類分析、分類預測、孤立點分析、演變分析等,不同功能的實現(xiàn)技術會因功能的內在差異而不同。常用的數據挖掘技術主要有以下幾種:
1)信息論方法(即決策樹方法):以實例為基礎的歸納學習方法,利用信息論的原理建立決策樹,展示了一種在某種條件下得出某些值的分類方法。用于數據分類。
2)聚類方法:通過分析數據庫中的記錄數據,按照一定的分類規(guī)則,對物理或抽象對象的集合合理分組,形成多個類。用于分類和關聯(lián)規(guī)則的挖掘。
3)統(tǒng)計分析方法:利用統(tǒng)計學原理對數據倉庫中的數據進行處理,用于完成總結知識和關聯(lián)知識采掘。
4)仿生物技術:典型的方法是神經網絡方法和遺傳算法。
5)可視化技術:拓寬了傳統(tǒng)的圖表功能,使用戶對數據的剖析更清楚。
管理信息系統(tǒng)是一個由人、計算機等組成的能進行管理信息收集、傳遞、儲存、加工、維護和使用的系統(tǒng)[4]。由于高校具有先進技術和高學歷人才,加速了高校信息化建設的步伐。信息技術的不斷使用,使得高校信息管理系統(tǒng)中的數據量急劇增加,高校信息管理系統(tǒng)的使用已相對成熟。
高校信息管理系統(tǒng),收集到了關于教師教學、學生學習生活的幾乎所有信息,教師信息相對簡單穩(wěn)定,主要涉及教師的職稱、學歷、工齡、授課方式等信息;學生信息相對復雜,從學生入學開始,家庭背景、入學成績、學習習慣、個性特征、學習興趣等都不盡相同,到在校的學習、生活,在校表現(xiàn),成績排名,實習就業(yè)等,這些數不勝數的數據都被聚集在高校管理信息系統(tǒng)中,主要包括教師信息系統(tǒng)、教務管理信息系統(tǒng)管理系統(tǒng)、學生管理系統(tǒng)等。這些信息系統(tǒng)為高校的管理工作帶來了便利,方便了信息的查找和傳輸,提高了信息的準確率,節(jié)省了人力和紙張。但可以看到,目前各高校對信息管理系統(tǒng)的使用還處在初級階段,僅僅簡單實現(xiàn)了對數據的備份、查詢和統(tǒng)計,并沒有充分發(fā)揮其作用。因此,高校管理者可以利用高校管理信息系統(tǒng)中的海量數據,找出其內在聯(lián)系,獲取有用信息,提供高校管理決策支持,提高高校管理質量和教學水平。而數據挖掘技術恰恰可以實現(xiàn)這一目的。
在圖1中可以看到數據挖掘過程中各步驟所占工作量的比例,其中數據準備過程占了總工作量的60%,說明數據準備的要求還是比較嚴格的。而高校信息管理系統(tǒng)中的數據格式比較規(guī)范,表現(xiàn)形式也比較統(tǒng)一,且?guī)缀醪淮嬖跀祿s質和不規(guī)則數據,所以縮減了數據準備過程,只需將用到的不同高校管理信息系統(tǒng)中的相關數據集成到單個系統(tǒng)中,即完成數據集成就行。通過使用數據挖掘技術,分析高校管理信息系統(tǒng)中的數據間的潛在關聯(lián),獲取有價值的信息,幫助高校管理者做好決策指導,有效提升管理工作質量和效果。
隨著高校學生人數的增多,學生管理工作越來越復雜。可以從學生檔案系統(tǒng)中導出錄取學生表中的相關信息,抽取某個院系某專業(yè)各個班級學生的入學各科成績、家庭情況;從學生管理系統(tǒng)中導出在校表現(xiàn),抽取學生月曠課時數;學生從教務管理系統(tǒng)中導出各個班級綜合測評,抽取各科成績、綜合測評成績。通過運用數據挖掘中的偏差檢測算法,對學生入學成績、家庭情況、月曠課時數、綜合測評信息進行挖掘,找出影響班級管理的特殊學生,幫助學生管理工作者更高效的做好學生管理工作。
隨著社會的進步,高等教育的規(guī)?;?,人才需求理念的變化,高校人才的培養(yǎng)也要能跟上發(fā)展的步伐,實現(xiàn)個性化教育,不同的對象采取不同的培養(yǎng)方式??梢詮慕虅展芾硇畔⑾到y(tǒng)中導出各個班級綜合測評,抽取各科成績、測評成績;學生檔案系統(tǒng)中導出錄取學生表中的相關信息,抽取個性特征、學習興趣;通過數據挖掘中的聚類分析,對信息進行提取、分析、歸納、總結,找出共同點,為高校制定個性化培養(yǎng)模式提供有效指導和數據支持,幫助高校培養(yǎng)出更多的個性化、創(chuàng)新性和應用型的人才。
現(xiàn)在高校規(guī)模不斷擴大,學生數量越來越多,高校間的競爭也越來越激烈。更好的提高學生的學習成績和學習效果,加強學生在就業(yè)中的競爭力,是當前各高校關注的課題??梢詮膶W生檔案系統(tǒng)導出學生家庭情況,抽取學生貸款信息;從校園一卡通信息系統(tǒng)中導出學生消費記錄,抽取每月平均消費額;從教務管理信息系統(tǒng)中導出班級綜合測評,抽取學生每學期總評成績;從學生管理系統(tǒng)中導出學生日常表現(xiàn),抽取每月平均曠課時數;從圖書館管理系統(tǒng)中導出學生借閱信息,抽取每月平均借閱次數。通過數據挖掘技術,利用其中的C4.5算法,以學生貸款、消費金額、圖書借閱情況、曠課時數、總評成績?yōu)橐罁Q策樹模型的訓練集,采用C4.5算法構建決策樹,生成決策規(guī)則,找出學生學習成績影響的各種因素。去除無關和次要因素,對主要因素重點管理,以期進一步提高學生的學習成績。
影響學校教學質量的因素很多,其中最重要的是教師,如何提高教師素質、教學水平是當前高校關注的話題。通過高校信息管理系統(tǒng)收集學生的學習狀況及對教師授課的意見,建立教師評價數據庫,既對教師的教學起到積極的推動作用,激發(fā)教師工作的積極性,又對教學工作起到檢測作用??梢詮慕處熜畔⒐芾硐到y(tǒng)中抽取教師的職稱、學歷、工齡、授課方式;從學生評價系統(tǒng)中抽取教師評價結果。利用數據挖掘中的關聯(lián)規(guī)則Apriori算法,分析職稱、學歷、工齡、授課方式與評價結果間的關聯(lián)性,找出較高關聯(lián)因素。高??梢杂嗅槍π缘靥岣呋虬l(fā)展較高關聯(lián)因素,如提高教師學歷層次,改善教師職稱結構,做好教學策略設計,教師開設公開課,開展教學競賽等活動,以提高教師整體的教學水平。
數據挖掘作為一種新興技術工具,已經成為數據庫和信息決策領域的前沿研究方向之一,受到國內外學術界的關注,應用越來越廣泛。在教育領域,高校信息管理系統(tǒng)積累了大量的數據信息,且數據規(guī)范準確,系統(tǒng)使用也較為成熟。將數據挖掘技術應用到高校信息管理系統(tǒng)中,對高校信息系統(tǒng)中的數據信息進行分析研究,建立高校管理決策支持系統(tǒng),為高校各級管理者提供有價值、有決策參考的信息,必將在激烈的高校競爭中提高其競爭力,為高校未來的發(fā)展起到科學導向作用。
[1]陳安.數據挖掘技術及應用[M].北京:科學出版社,2006.
[2]董寧.數據挖掘技術在CRM中的應用[J].計算機工程與設計,2007,(6).
[3]田靜.數據挖掘技術在防范住房信貸風險中的應用[D].貴陽:貴州大學,2007.
[4]陸炯.數字化校園的總體框架與若干關鍵技術的研究[M].南京:南京大學出版社,2004.