摘 要:在高等教育快速發(fā)展的今天,學(xué)校教學(xué)質(zhì)量的自我監(jiān)控成為科學(xué)管理的重要保證。本文結(jié)合高校普遍使用的網(wǎng)絡(luò)平臺,使用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析抽取,建立四維數(shù)據(jù)庫,采用聯(lián)機(jī)分析處理(OLAP)技術(shù)對數(shù)據(jù)進(jìn)行分析處理,為教學(xué)提供支持。
關(guān)鍵詞:教學(xué)質(zhì)量監(jiān)控 聯(lián)機(jī)分析處理 數(shù)據(jù)挖掘
中圖分類號:TP393.08 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-8454(2008)13-0083-03
目前普通高校教學(xué)質(zhì)量監(jiān)控活動(dòng)主要存在以下問題:(1)很多高校內(nèi)部并沒有專門的教學(xué)質(zhì)量監(jiān)控決策機(jī)構(gòu),其規(guī)劃決策主要由分管教學(xué)的校長和教務(wù)處有關(guān)領(lǐng)導(dǎo)負(fù)責(zé)。這種決策往往受限于個(gè)別領(lǐng)導(dǎo)成員的思維方式,常常帶有較為濃重的主觀色彩,尤其是在教育管理活動(dòng)日趨復(fù)雜化的今天,很難確保教學(xué)管理決策的科學(xué)性和合理性。(2)由于高校規(guī)模的迅速擴(kuò)大,僅僅依靠教務(wù)部門將很難對全校范圍內(nèi)的整個(gè)教學(xué)過程實(shí)施全面而有效的監(jiān)督。因此,要保證教學(xué)過程和管理工作的質(zhì)量,必須設(shè)置一個(gè)教學(xué)質(zhì)量自動(dòng)監(jiān)控系統(tǒng),這樣既保證了教學(xué)工作的客觀性和有效性,也能使教務(wù)管理部門有效提高教務(wù)管理工作的水平。因此,為了提高學(xué)校教學(xué)管理決策的科學(xué)性和合理性,提高教學(xué)評價(jià)工作的獨(dú)立性和客觀性,利用現(xiàn)代網(wǎng)絡(luò)平臺,采用數(shù)據(jù)挖掘中的聯(lián)機(jī)分析處理(OLAP)技術(shù)開發(fā)適合當(dāng)今高校的教學(xué)質(zhì)量自動(dòng)監(jiān)控系統(tǒng),對學(xué)校在教學(xué)中可能出現(xiàn)的各種問題進(jìn)行量化分析,并得出結(jié)論,為高校的發(fā)展起到了一定的促進(jìn)作用。
一、OLAP相關(guān)概念
維(Dimension):是人們觀察數(shù)據(jù)的特定角度。例如用戶常從時(shí)間的角度來觀察產(chǎn)品的銷售,此時(shí)時(shí)間就是一個(gè)維(時(shí)間維)。
維層次(Dimension Hierarchy):用于描述用戶觀察的不同細(xì)節(jié)程度數(shù)據(jù)的角度。例如,描述時(shí)間維時(shí),可以有日期、月份、季度、年等不同層次。
多維數(shù)據(jù)集也稱為立方體,它可以用一個(gè)多維數(shù)組來表示。對OLAP的多維分析是指對多維數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行向上綜合、向下查詢、旋轉(zhuǎn)、視角變換等方式分析數(shù)據(jù)。
二、基于OLAP的數(shù)據(jù)挖掘技術(shù)
基于OLAP的數(shù)據(jù)挖掘技術(shù)不僅具有挖掘OLAP數(shù)據(jù)特征的功能,而且還有關(guān)聯(lián)、分類、制圖、聚類和排序等其他數(shù)據(jù)挖掘功能。在教學(xué)質(zhì)量監(jiān)控系統(tǒng)的研究過程中主要采用以下幾種技術(shù):
1.基于OLAP的數(shù)據(jù)特征和比較
主要是總結(jié)和描述一系列與任務(wù)相關(guān)的數(shù)據(jù)特征??山柚罨?下鉆)或淺化(上卷)技術(shù)挖掘多層次的知識。上卷是指從多維數(shù)據(jù)集中的低層開始層層向上匯總,其間可以選擇適當(dāng)?shù)目刂埔蛩?。下鉆是指從相對高匯總級的多維數(shù)據(jù)集塊向子塊或低層鉆取。
2.基于OLAP的關(guān)聯(lián)規(guī)則挖掘
在數(shù)據(jù)倉庫中,關(guān)聯(lián)規(guī)則挖掘可分為維間關(guān)聯(lián)規(guī)則挖掘和維內(nèi)關(guān)聯(lián)規(guī)則挖掘。維間關(guān)聯(lián)規(guī)則是在不同維之間進(jìn)行關(guān)聯(lián)規(guī)則,而維內(nèi)關(guān)聯(lián)規(guī)則是同一維或者組和其它維所得的關(guān)聯(lián)規(guī)則。兩種關(guān)聯(lián)的挖掘算法不同。維內(nèi)關(guān)聯(lián)規(guī)則通過將數(shù)據(jù)關(guān)系轉(zhuǎn)化成配套關(guān)系,使得共享配套維中相同數(shù)值的數(shù)組合并成一個(gè)。那么,在同一轉(zhuǎn)化中被看作是數(shù)據(jù)項(xiàng)的配套數(shù)組,可以采用Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則的挖掘。同樣,還可以采用元規(guī)則P(x,y)→Q(x,y,z),其中P,Q是與數(shù)據(jù)倉庫中不同屬性關(guān)聯(lián)的預(yù)測變量,來定義搜尋規(guī)則用于限制搜尋條件。
借助于數(shù)據(jù)立方結(jié)構(gòu),能很方便地進(jìn)行維間關(guān)聯(lián)規(guī)則挖掘。數(shù)據(jù)立方體的計(jì)算單元存儲了相應(yīng)的多維數(shù)據(jù)的許多可能出現(xiàn)的計(jì)算,同時(shí),維計(jì)算單元又存儲著整個(gè)維的匯總?;谶@種結(jié)構(gòu),可以直接根據(jù)匯總單元的數(shù)值關(guān)聯(lián)規(guī)則計(jì)算規(guī)則的支持度和可信度的度量。這樣的立方體塊集,包括從細(xì)節(jié)層的匯總到高層的匯總,簡化了多個(gè)邏輯層上的關(guān)聯(lián)規(guī)則挖掘。規(guī)則A==> B中支持度和置信度的計(jì)算公式如下:
Support(A==>B)=num(A and B)/num(true)*100%
confidenct(A==>B)=num(A and B)/num(A)*100%
其中,num(A)表示數(shù)據(jù)庫中使條件A為真的記錄數(shù),num(true)表示數(shù)據(jù)庫中記錄總數(shù)。使用數(shù)據(jù)立方技術(shù),此時(shí)規(guī)則的支持度等于相關(guān)單元中的值。
3.基于OLAP的分類
分類方法有許多種,而基于OLAP的分類方法一樣可以結(jié)合這些方法。它們包括決策樹方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)、模糊集等?;贠LAP的分類過程有四個(gè)步驟:①建立相關(guān)多維數(shù)據(jù)集,并將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行分類;②分析因素的相關(guān)性;③建立分類(決策樹);④用測試數(shù)據(jù)集測試數(shù)據(jù)分類的有效性。這里我們主要采用SQL Server2000集成在Analysis services中的決策樹算法來實(shí)現(xiàn)基于OLAP的分類。
4.基于OLAP的聚類
OLAP挖掘與聚類分析集成方式如下:對得到的任意簇可以進(jìn)一步描述該類的特征,并且可以在選定的類上執(zhí)行OLAP操作和挖掘算法?;蛘呖梢曰貪L到進(jìn)行聚類被執(zhí)行前的某個(gè)點(diǎn),繼續(xù)對前面選中的多維數(shù)據(jù)集進(jìn)行其它特性的探測。
5.回滾和比較挖掘分析
主要是通過回滾來改變挖掘路徑。在OLAP挖掘中實(shí)施回滾技術(shù)方案如下:首先,一個(gè)狀態(tài)矢量被保存在一個(gè)回滾棧(如果回滾的模式只是一步一步地簡單后退)或一個(gè)回滾列表(如果需要對位置進(jìn)行標(biāo)記或其它的往返移動(dòng)模式)里面。與狀態(tài)矢量相關(guān)的立方體也要被保存起來并與向量鏈接。進(jìn)行回滾時(shí),上面的隊(duì)列或者堆棧被用來回滾到適當(dāng)?shù)臓顟B(tài)點(diǎn)。當(dāng)操作完成時(shí),所有被保存的回滾點(diǎn)以及與之相聯(lián)系的向量和立方體塊都將被刪除以釋放分配的空間。
三、基于OLAP教學(xué)質(zhì)量監(jiān)控系統(tǒng)模型設(shè)計(jì)
1.基于OLAP技術(shù)的教學(xué)質(zhì)量監(jiān)控系統(tǒng)結(jié)構(gòu)(如圖1)
根據(jù)教學(xué)的運(yùn)行過程,我們可以將教學(xué)質(zhì)量監(jiān)控系統(tǒng)分為信息收集、信息整理、信息分析和信息反饋四個(gè)部分。信息收集主要負(fù)責(zé)教學(xué)質(zhì)量監(jiān)控信息的收集工作。根據(jù)教學(xué)質(zhì)量監(jiān)控信息收集渠道的不同,我們將信息收集系統(tǒng)分為統(tǒng)計(jì)報(bào)表、專項(xiàng)測評和日常反饋三大部分。信息整理是指有目的、有計(jì)劃地將收集到的信息進(jìn)行科學(xué)的加工,使其系統(tǒng)化和條理化。信息整理工作一般是針對原始資料進(jìn)行的,它是統(tǒng)計(jì)工作從感性認(rèn)識上升到理性認(rèn)識的必經(jīng)階段,可分為資料審查、統(tǒng)計(jì)分組和歸納匯總?cè)齻€(gè)部分。信息分析的主要職責(zé)是在依據(jù)專業(yè)理論知識進(jìn)行定性分析的基礎(chǔ)上,運(yùn)用OLAP的數(shù)據(jù)挖掘技術(shù)原理和方法,對教學(xué)表現(xiàn)和關(guān)系進(jìn)行定量分析,并對教學(xué)的統(tǒng)計(jì)規(guī)律作出解釋。信息分析主要是統(tǒng)計(jì)描述和統(tǒng)計(jì)推斷。信息反饋是借助于受控系統(tǒng)的輸出信息反作用于施控系統(tǒng)的輸入信息,以便與原來規(guī)定的標(biāo)準(zhǔn)和目標(biāo)值進(jìn)行對比,及時(shí)發(fā)現(xiàn)偏差,加以糾正,從而使系統(tǒng)受到控制和調(diào)節(jié)。
根據(jù)信息論的觀點(diǎn),整個(gè)系統(tǒng)的工作過程要經(jīng)過收集、整理、傳遞、存儲、分析和反饋等幾個(gè)步驟,加以處理和利用,并依次循環(huán)往復(fù),不斷工作,來達(dá)到教學(xué)管理的目的。
2.基于OLAP技術(shù)的教學(xué)質(zhì)量監(jiān)控系統(tǒng)模型創(chuàng)建
基于OLAP的數(shù)據(jù)挖掘模型的創(chuàng)建過程如下:首先選擇多維數(shù)據(jù)立方體,其次選擇挖掘算法,最后定義所創(chuàng)建挖掘模型的其他屬性(如圖2)。
以下給出使用OLAP的數(shù)據(jù)源來創(chuàng)建一個(gè)新數(shù)據(jù)挖掘模型的幾個(gè)步驟和部分程序代碼。
①連接服務(wù)器,并選擇數(shù)據(jù)庫;
dsoserver.connect“educationMonitorSevrer”
set dsodb=dsoserver.mdstores(“educationMonitor”)
②選取模型的源立方體和所需挖掘的維,設(shè)置模型的挖掘算法;
miningalgorithm=“Microsoft_decision_trees”
sourcecube=“mark”
caseDimension=“teacher”
③設(shè)置輸入列和預(yù)測列。
Set dsodb=dsoserver.mdstores(“educationMonitor”)
If not dsodb.miningmodels(“teacherPatternsModelOLAP”) is nothing then
dsodb.miningmodels.remove “teacherPatternsModelOLAP”
end if
set dsodmm=dsodb.miningmodels.addnew(“teacherPatternsModelOLAP,sbclsOlap”)
set dsorole=dsodmm.roles.addnew(“all users”)
‘設(shè)置新挖掘模型必要的屬性
With dsodmm
datasources.addnew “educationMonitor” , sbclsregular
description=“Analyzes the salaries of teacher”
‘選擇模型的算法
miningalgorithm=“Microsoft_decision_trees”
‘設(shè)置模型的源立方體mark
sourcecube=“mark”
caseDimension=“teacher”
trainingquery=“”
update
end with
set dsocol=dsodmm.columns(“Tname”)
dsocol.isdisabled=1
‘保存數(shù)據(jù)挖掘模型
With dsodmm
Last updated=now
update
end with
3.獲取所創(chuàng)建的數(shù)據(jù)挖掘模型信息
數(shù)據(jù)挖掘模型中的結(jié)構(gòu)層面是通過OLE DB for data-mining provider來展示的。它的結(jié)構(gòu)在存儲模式上與關(guān)系型數(shù)據(jù)庫表類似,主要存儲數(shù)據(jù)挖掘模型的元數(shù)據(jù)信息,包括數(shù)據(jù)庫名稱、模式名、數(shù)據(jù)挖掘模型名稱等等。此時(shí),用戶可以通過應(yīng)用程序來訪問某個(gè)決策樹模型的節(jié)點(diǎn)或者聚類分析模型的聚類中的結(jié)構(gòu)和內(nèi)容。
四、結(jié)語
本文中,我們主要對數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、OLAP等相關(guān)概念做了簡要的闡述,完成了基于OLAP技術(shù)的教學(xué)質(zhì)量監(jiān)控系統(tǒng)平臺的搭建,實(shí)現(xiàn)了教學(xué)質(zhì)量監(jiān)控部分主題聯(lián)機(jī)分析子系統(tǒng),并構(gòu)建了基于OLAP的數(shù)據(jù)挖掘模型;同時(shí),通過構(gòu)建基于數(shù)據(jù)立方體的關(guān)聯(lián)規(guī)則挖掘模塊的總體結(jié)構(gòu),給出了部分實(shí)例代碼。由于教學(xué)質(zhì)量監(jiān)控系統(tǒng)所涉及的分析主題遠(yuǎn)遠(yuǎn)多于數(shù)據(jù)倉庫中已建立的主題,因此,如何滿足用戶需求的變化和需求的增長仍然是需解決的問題。
參考文獻(xiàn):
[1]魯正火,鄭曉莉,姚舜英.淺談信息技術(shù)應(yīng)用于高校教學(xué)質(zhì)量監(jiān)控[J].教育信息化,2006(13):10-11.
[2]孫宏才.層次分析法與決策科學(xué)化[M].北京:中國經(jīng)濟(jì)出版社,1994.
[3]劉獨(dú)玉,楊晉浩等.關(guān)聯(lián)規(guī)則挖掘研究綜述[J].成都大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,25(1):54-58.
[4]陳文慶,許棠.關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進(jìn)與實(shí)現(xiàn)[J].微機(jī)發(fā)展,2005,8(15):155-157.
[5]張?jiān)茲徚?數(shù)據(jù)挖掘原理與技術(shù)[M].北京:電子工業(yè)出版社,2004.25-30.
[6]王樹亮,徐亞平.關(guān)于教師教學(xué)質(zhì)量測評模型的建立[J].教育信息化,2003(8).