劉 靜
(南京航空航天大學(xué)國(guó)際教育學(xué)院,江蘇南京,210016)
近幾年來(lái),隨著我國(guó)高等教育的迅速發(fā)展,各高校的辦學(xué)規(guī)模逐漸擴(kuò)大,導(dǎo)致教務(wù)處承擔(dān)的工作量也是越來(lái)越大,傳統(tǒng)的管理手段適應(yīng)不了新的要求,亟待提升教學(xué)教務(wù)管理手段,目前許多高校也開(kāi)發(fā)了教務(wù)管理系統(tǒng)方面的軟件,并且這些管理軟件已應(yīng)用于教務(wù)管理的各個(gè)流程,從而實(shí)現(xiàn)了成績(jī)管理、教學(xué)測(cè)評(píng)等方面的計(jì)算機(jī)自動(dòng)化,這些都對(duì)教務(wù)管理信息化發(fā)展起到了積極的推動(dòng)作用。由于目前的教務(wù)管理系統(tǒng)應(yīng)用軟件在多年的使用過(guò)程中,逐漸積累了大量的有用的教學(xué)數(shù)據(jù),如何將這些珍貴的并且又分散的數(shù)據(jù)變化為可分析的數(shù)據(jù),并進(jìn)行分析與發(fā)掘統(tǒng)計(jì),為教學(xué)管理決策提供參考依據(jù),對(duì)提高教學(xué)管理水平和能力,具有十分重要的意義,基于以上問(wèn)題,本次研究提出了數(shù)據(jù)倉(cāng)庫(kù)分析模型和數(shù)據(jù)挖掘的應(yīng)用問(wèn)題。
數(shù)據(jù)挖掘技術(shù)的功能主要是:通過(guò)開(kāi)可靠的數(shù)據(jù)挖掘方法,故而期望從大量的數(shù)據(jù)中發(fā)現(xiàn)潛藏其中的規(guī)律和模式,一般來(lái)說(shuō),該種方法都面向特定領(lǐng)域,需要前提和約束條件。在國(guó)外,數(shù)據(jù)挖掘技術(shù)的研究得到了迅猛發(fā)展并且應(yīng)用廣泛,近年來(lái),隨著數(shù)據(jù)倉(cāng)庫(kù)和新數(shù)據(jù)源的出現(xiàn),使得人們所面臨的問(wèn)題越來(lái)越容易,對(duì)于浩瀚的數(shù)據(jù)海洋,數(shù)據(jù)挖掘技術(shù)優(yōu)勢(shì)更加明顯,顯示出更加強(qiáng)大的生命力。
在我國(guó),隨著高等教育的快速發(fā)展,多年來(lái)積累了大量的數(shù)據(jù),但是由于各個(gè)職能部門沒(méi)有統(tǒng)一規(guī)范,對(duì)數(shù)據(jù)的收集和整理并不合理,這樣,往往導(dǎo)致多年來(lái)積累的這些大量數(shù)據(jù)出現(xiàn)雜亂、無(wú)章等情況,并且共享率低,間接影響了高校管理部門的工作效率。目前,經(jīng)過(guò)多年來(lái)的教學(xué)改革,許多高校已經(jīng)開(kāi)發(fā)了處理海量數(shù)據(jù)的軟件,對(duì)學(xué)校的各個(gè)方面的工作成效進(jìn)行了分析,但是數(shù)據(jù)的利用率還比較偏低,所研究?jī)?nèi)容還比較單一。如北大、清華、中科院等單位都開(kāi)展了數(shù)據(jù)挖掘算法的研究,但是與國(guó)外相比,教務(wù)管理中的數(shù)據(jù)挖掘理論和應(yīng)用還是比較落后,綜合集成能力不高,數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)在教務(wù)管理中的關(guān)注度相對(duì)不夠,迫切需要進(jìn)行深入研究。
數(shù)據(jù)倉(cāng)庫(kù)在計(jì)算機(jī)領(lǐng)域,它一種新型的數(shù)據(jù)管理技術(shù),該系統(tǒng)往往以關(guān)系數(shù)據(jù)庫(kù)管理為基礎(chǔ),既有數(shù)據(jù)在數(shù)據(jù)庫(kù)進(jìn)入目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)之前,其過(guò)程為清洗-集成-選擇-變換,將數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)變換為集成、歷史化的功能數(shù)據(jù),具備綜合性數(shù)據(jù)分析功能。
到目前為止,數(shù)據(jù)倉(cāng)庫(kù)的定義有很多,但并未達(dá)到共識(shí),最為接受的,比較公認(rèn)的是1992 年W.H.Inmon 提出的概念:即數(shù)據(jù)倉(cāng)庫(kù)是面向主題、集成在一起的、不易失去的、隨時(shí)間不斷變化的數(shù)據(jù)集合,作用是用于支持決策。
由于數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)的數(shù)據(jù)庫(kù)存在很多不同,其具有與一般數(shù)據(jù)庫(kù)不一樣的特點(diǎn),具體來(lái)說(shuō)有以下四個(gè):
(1)面向主題
該特點(diǎn)是指用戶在使用數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行各種決策分析時(shí),所關(guān)心的重點(diǎn)方面,是將系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合歸類,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)依據(jù)一定的主題進(jìn)行組織,是一個(gè)按主題進(jìn)行決策的過(guò)程。
(2)集成
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)不是粗糙的數(shù)據(jù),而是對(duì)原有分散的數(shù)據(jù)進(jìn)行分析處理過(guò)的,經(jīng)過(guò)系統(tǒng)的再加工,進(jìn)行匯總和整理,保證數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息統(tǒng)一和集成。
(3)非易失的
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)在進(jìn)入該系統(tǒng)之后,就不再變化,可以被看作一個(gè)虛擬的只讀數(shù)據(jù)庫(kù)系統(tǒng),用戶使用時(shí)只能讀取而不能修改,保證了數(shù)據(jù)的安全和有效。
(4)隨時(shí)間變化的
數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是隨著時(shí)間而變化的,具有時(shí)序性和歷史性,通過(guò)這些信息進(jìn)行分析和判斷,可以對(duì)數(shù)據(jù)未來(lái)的變化趨勢(shì)進(jìn)行預(yù)測(cè),在動(dòng)態(tài)上更能反映實(shí)際。
從功能上來(lái)看,教務(wù)數(shù)據(jù)倉(cāng)庫(kù)主要來(lái)自于操作型數(shù)據(jù)源,其直接為學(xué)院領(lǐng)導(dǎo)、教務(wù)管理人員等服務(wù),從而為使用者提供重要的數(shù)據(jù)信息,系統(tǒng)包括數(shù)據(jù)處理的各個(gè)階段,主要有從數(shù)據(jù)源獲取數(shù)據(jù),以及輸出結(jié)果提供給決策者進(jìn)行參考的數(shù)據(jù)處理階段,由于涉及到多個(gè)處理層次,其過(guò)程如下:數(shù)據(jù)的獲取-數(shù)據(jù)的轉(zhuǎn)換-數(shù)據(jù)的加載-數(shù)據(jù)的存儲(chǔ)-數(shù)據(jù)的綜合等。
從目標(biāo)上來(lái)看,建立教務(wù)管理系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),主要目的是通過(guò)采集外部有用的信息,來(lái)通過(guò)某種方法分析教務(wù)情況的歷史數(shù)據(jù),從中發(fā)現(xiàn)規(guī)律,故而實(shí)現(xiàn)教務(wù)工作預(yù)測(cè),為制定教務(wù)管理工作服務(wù)。本次提出的數(shù)據(jù)倉(cāng)庫(kù)模型如下:
圖1 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
可以看出,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的概念和作用是不同的,數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)的基礎(chǔ)上發(fā)展而來(lái),一般來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)包括三個(gè)部分,即:數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理及數(shù)據(jù)挖掘。數(shù)據(jù)倉(cāng)庫(kù)的主要工作是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行歸納分析,聚集成一個(gè)可供更高層次使用的數(shù)據(jù)集合,從而方面數(shù)據(jù)查詢、分析和數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘是一種常用的數(shù)據(jù)分析技術(shù),是一個(gè)獲取準(zhǔn)確、具有潛在應(yīng)用價(jià)值和最終可理解模式的非平凡的過(guò)程。數(shù)據(jù)挖掘的體系由三部分組成:數(shù)據(jù)源、挖掘?qū)印⒂脩艚缑鎸?。挖掘過(guò)程可分為四個(gè)階段:?jiǎn)栴}定義、數(shù)據(jù)準(zhǔn)備、執(zhí)行數(shù)據(jù)挖掘、解釋和評(píng)價(jià)。
數(shù)據(jù)挖掘常用算法主要是決策樹(shù)分析和關(guān)聯(lián)規(guī)則算法。決策樹(shù)算法一般來(lái)說(shuō),是通過(guò)輸入數(shù)據(jù)來(lái)建立分類模型的系統(tǒng)方法,首先,建立一個(gè)訓(xùn)練集,往往由類標(biāo)號(hào)已知的記錄組成,其次,使用訓(xùn)練集建立分類模型,該模型隨后將運(yùn)用于檢驗(yàn)集合。關(guān)聯(lián)規(guī)則算法主要用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的相互聯(lián)系,其所發(fā)現(xiàn)的結(jié)果可以用關(guān)聯(lián)規(guī)則或頻繁項(xiàng)集的形式表示出來(lái)。
到目前為止,在教務(wù)管理上還沒(méi)有一個(gè)成熟的、完整、合理的挖掘系統(tǒng),通過(guò)對(duì)目前教務(wù)管理存在的問(wèn)題分析,需要解決數(shù)據(jù)量龐大、數(shù)據(jù)不完整及挖掘方法不不合理等缺點(diǎn)。本數(shù)據(jù)挖掘系統(tǒng)包括三大模塊:教務(wù)數(shù)據(jù)采集、教務(wù)數(shù)據(jù)倉(cāng)庫(kù)及教務(wù)多維數(shù)據(jù)集的創(chuàng)建及管理、數(shù)據(jù)挖掘和分析。
由于數(shù)據(jù)挖掘要求較高,在系統(tǒng)設(shè)計(jì)過(guò)程中需考慮以下幾個(gè)問(wèn)題:
(1)挖掘系統(tǒng)需具有多功能處理能力,比如關(guān)系數(shù)據(jù)庫(kù)處理、復(fù)雜的數(shù)據(jù)對(duì)象處理、具體事務(wù)數(shù)據(jù)等。數(shù)據(jù)挖掘系統(tǒng)應(yīng)該能夠處理這些復(fù)雜數(shù)據(jù)類型。
(2)數(shù)據(jù)挖掘算法應(yīng)具有有效性和可伸縮性,也就是說(shuō),在內(nèi)存和磁盤空間等系統(tǒng)可資源規(guī)定的情況下,算法的運(yùn)行時(shí)間應(yīng)隨著數(shù)據(jù)庫(kù)大小線性而增加。
(3) 數(shù)據(jù)挖掘的最終結(jié)果應(yīng)具有可用性和確定性,其挖掘出來(lái)的知識(shí)應(yīng)該能準(zhǔn)確地反映數(shù)據(jù)庫(kù)的內(nèi)容,而不是有所歧義,并且對(duì)于用戶來(lái)說(shuō)是有用的和可靠的。
(1)連接數(shù)據(jù)倉(cāng)庫(kù),從而建立數(shù)據(jù)源,主要完成分析數(shù)據(jù)的轉(zhuǎn)換操作;
(2)對(duì)教務(wù)數(shù)據(jù)內(nèi)容進(jìn)行數(shù)據(jù)挖掘操作,其中的關(guān)聯(lián)分析模塊用于對(duì)課程安排先后順序流程進(jìn)行分析,貝葉斯分類算法在實(shí)踐中,也同樣應(yīng)用于課程安排方面,聚類分析方法主要應(yīng)用于就業(yè)分析。
(3)通過(guò)存儲(chǔ)并展示挖掘分析結(jié)果,為決策者研究提供可靠依據(jù)。
本模型的數(shù)據(jù)挖掘模塊,實(shí)現(xiàn)的過(guò)程中,通過(guò)連接SQL Server Analysis Services 服務(wù)器,達(dá)到對(duì)導(dǎo)入數(shù)據(jù)挖掘的目的;該服務(wù)分析器數(shù)據(jù)挖掘主要用于商業(yè)智能化管理,要在教務(wù)管理方面實(shí)現(xiàn)這一目標(biāo),需要執(zhí)行兩個(gè)主要必須步驟:構(gòu)建數(shù)據(jù)挖掘模型與構(gòu)建應(yīng)用程序。
具體步驟和方法是:首先將教務(wù)管理系統(tǒng)中的各業(yè)務(wù)數(shù)據(jù)導(dǎo)入服務(wù)器,經(jīng)過(guò)一系列的加工處理,構(gòu)成星型結(jié)構(gòu)教務(wù)數(shù)據(jù)倉(cāng)庫(kù),為下一步進(jìn)行數(shù)據(jù)挖掘準(zhǔn)備;然后直接啟動(dòng)分析系統(tǒng),借助其中提供的挖掘模型向?qū)В瑯?gòu)建挖掘數(shù)據(jù)模型;最后利用有關(guān)的挖掘算法,對(duì)教務(wù)數(shù)據(jù)源進(jìn)行挖掘,從而發(fā)現(xiàn)規(guī)律,獲取所需數(shù)據(jù),支持教務(wù)的決策管理工作。
本文將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)應(yīng)用于教務(wù)管理過(guò)程中,并建立了相應(yīng)的分析模型,從而實(shí)現(xiàn)管理工作的智能化,為決策提供支持。由于數(shù)據(jù)倉(cāng)庫(kù)的挖掘研究是一個(gè)嶄新的領(lǐng)域,將極大促進(jìn)教務(wù)管理人員的積極性,提高工作效率。在未來(lái)的工作中,需要進(jìn)一步深入研究,完善系統(tǒng)功能。
[1] 李素朵.數(shù)據(jù)挖掘技術(shù)在高職院校教務(wù)管理系統(tǒng)中的應(yīng)用研究[D] .石家莊:河北科技大學(xué)碩士學(xué)位論文,2013.
[2] 姚志鴻.數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用與實(shí)現(xiàn)[J].電子測(cè)試,2014,(6):108-109.
[3] 吳天真,李文靜.數(shù)據(jù)挖掘技術(shù)在高校教務(wù)管理中的應(yīng)用綜述[J].科協(xié)論壇,2013,(7):75-76.
[4] 魏韞怡.數(shù)據(jù)挖掘技術(shù)在電大教務(wù)管理中的應(yīng)用[J].科技視界,2012.8(22):98-100.