摘要:“信息孤島”和“數(shù)據(jù)爆炸但信息貧乏”的事實已經(jīng)開始影響人類的進步和發(fā)展,難道沒有什么辦法讓我們從幾乎爆炸的數(shù)據(jù)中找到我們需要的信息嗎?神奇的“啤酒搭著尿布賣”的事件就提醒我們要對數(shù)據(jù)進行挖掘。文章通過對數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術和決策支持系統(tǒng)的研究,提出了基于數(shù)據(jù)挖掘的高等學校教務管理決策支持系統(tǒng)。該系統(tǒng)能為高等學校教務管理提供科學的依據(jù)并指導其發(fā)展方向。關鍵詞:數(shù)據(jù)挖掘決策支持系統(tǒng)數(shù)據(jù)倉庫決策樹
中圖分類號:G640 文獻標識碼:A
文章編號:1004-4914(2008)07-103-02
隨著我國高等教育事業(yè)的迅速發(fā)展,高等學校的辦學規(guī)模在不斷地擴大,招生人數(shù)也在突飛猛進,教務管理的人員技術和質量卻仍然沒有很大的改善。同時,教務管理人員的事務相對以前有增無減,加上教育方式更加靈活多樣等,這樣高等學校教務管理的問題越顯突出,學生人數(shù)的急劇增加、教學資源日趨緊張、教務管理手段落后的現(xiàn)象在全國隨處可見,很多高等學校在教務管理方面不斷地嘗試改革,給高等學校的教務管理既帶來了前所未有的發(fā)展的同時也帶來了新挑戰(zhàn)。根據(jù)經(jīng)濟原則,高等學校如何以最小的代價獲得最好的管理效果成為了新的研究課題。
高等學校要從管理的最高角度出發(fā),總體把握目前的、將來的、宏觀的形勢,解決目前存在的問題,預見潛在的問題,優(yōu)化資源配置,提高管理效率。在信息時代的今天,構建一個有效的高等學校教務管理決策支持系統(tǒng)(Decision Supporting System,簡稱DSS)的重要意思就不言而喻了。一個良好的系統(tǒng)除了能支持日常簡單的查詢、統(tǒng)計、協(xié)調學校各項工作順利開展外。還應該為高等學校決策提供有關教育形勢的變化、發(fā)展趨勢以及通過高科技手段來對歷史數(shù)據(jù)進行挖掘,提取出隱含在數(shù)據(jù)背后的人的行為,預見未知的、潛在的、深層次的、有價值的趨勢,為學校的教務管理和教育決策提供有利的信息。
建立DSS時。一般都要用到數(shù)據(jù)庫DB(Database)技術,但這種傳統(tǒng)的DB技術目前不能很好地進行數(shù)據(jù)的合成、分類等,其它更高的要求就更顯得困難了。同時,為進行高效的數(shù)據(jù)分析,信息就必須與決策密切相關的主題組織起來,這時傳統(tǒng)的DB就顯得力不能及了。在專家學者的研究下,數(shù)據(jù)倉庫技術的出現(xiàn)給這類決策支持系統(tǒng)帶來新的希望,這種技術把人們需要的信息從原始的數(shù)據(jù)中挖掘出來,把零散的、分散的、難以訪問的原始數(shù)據(jù)進行數(shù)據(jù)轉化為集中統(tǒng)一、隨時可訪問的信息,同時對數(shù)據(jù)進行清洗,即數(shù)據(jù)倉庫對信息實現(xiàn)合理、全面而高效的管理。因此,數(shù)據(jù)倉庫和它的相關技術并應用于高等學校教務管理決策支持系統(tǒng)中是舉足輕重的。
本文提出的解決方案是基于數(shù)據(jù)倉庫(Data Warehouse,簡稱DW)技術、采取數(shù)據(jù)挖掘(Data Mining,簡稱DM)手段的高等學校教務管理決策支持系統(tǒng)。在其中,DW用來存儲和組織基礎數(shù)據(jù),而DM用來對DW中的基礎數(shù)據(jù)進行一系列挖掘后,提取出具有價值的知識信息,驗證和預測高等學校的管理對象、資源、目標,輔助學校決策,使得高等學校在前進的過程中隨時把握自己的發(fā)展方向。
一、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術分析
(一)數(shù)據(jù)倉庫技術分析
1 數(shù)據(jù)倉庫的概念。數(shù)據(jù)倉庫(DW)作為一切決策支持系統(tǒng)的基礎,同時也是高等學校教務管理決策支持系統(tǒng)的基礎,然而對于它的定義不同的專家學者有不同的定義。最典型的就是數(shù)據(jù)倉庫之父W.H.Immon將其定義為:“數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、隨時間變化的、持久的數(shù)據(jù)集合?!?/p>
我們把數(shù)據(jù)倉庫中存貯的數(shù)據(jù)分為四級:遠期基本數(shù)據(jù)、近期基本數(shù)據(jù)、輕度綜合數(shù)據(jù)和高度綜合數(shù)據(jù)。還有一部分重要的關于數(shù)據(jù)的數(shù)據(jù),我們稱之為元數(shù)據(jù)。數(shù)據(jù)倉庫中用來與終端用戶的多維模型與前端工具間建立映射的元數(shù)據(jù),稱為決策支持系統(tǒng)的元數(shù)據(jù)。
數(shù)據(jù)倉庫系統(tǒng)必須具備建立、管理和使用等功能。W.H.Immon認為,數(shù)據(jù)倉庫系統(tǒng)可以分為三個組成部分:(1)數(shù)據(jù)源:提供源數(shù)據(jù);(2)后端加工處理:包括來自數(shù)據(jù)源數(shù)據(jù)的接受、析取、匯總、變換、打包和儲存等;(3)前端服務:面向用戶的數(shù)據(jù)需求,完成數(shù)據(jù)提取和計算分析等功能。
2 開發(fā)數(shù)據(jù)倉庫的流程。開發(fā)數(shù)據(jù)倉庫的流程包括以下幾步:(1)建立開發(fā)數(shù)據(jù)倉庫工程的目標及制定工程計劃;(2)建立技術環(huán)境,選擇實現(xiàn)數(shù)據(jù)倉庫的軟硬件資源;(3)根據(jù)決策需求確定主題,進行數(shù)據(jù)建模,選擇數(shù)據(jù)源,對數(shù)據(jù)倉庫的數(shù)據(jù)進行邏輯結構設計;(4)設計數(shù)據(jù)倉庫中的數(shù)據(jù)庫,基于用戶的需求,著重于某個主題,開發(fā)數(shù)據(jù)倉庫中數(shù)據(jù)的物理存儲結構,即設計多維數(shù)據(jù)結構的事實表和維表;(5)數(shù)據(jù)轉換程序實現(xiàn)從源系統(tǒng)中抽取數(shù)據(jù)、清理數(shù)據(jù)、一致性格式化數(shù)據(jù)、裝載數(shù)據(jù)等過程的設計和編碼;(6)定義元數(shù)據(jù),即表示定義數(shù)據(jù)的意義及系統(tǒng)各組成部件之間的關系。元數(shù)據(jù)包括關鍵字、屬性、數(shù)據(jù)描述、物理數(shù)據(jù)結構、源數(shù)據(jù)結構、映射及轉換規(guī)則、綜合算法、代碼、缺省值、安全要求、變化及數(shù)據(jù)時限等;(7)開發(fā)用戶決策的數(shù)據(jù)分析工具,建立結構化的決策支持查詢,實現(xiàn)和使用數(shù)據(jù)倉庫的數(shù)據(jù)分析工具,包括優(yōu)化查詢工具、統(tǒng)計分析工具、客戶機/gR務器工具、聯(lián)機分析處理工具及數(shù)據(jù)開采工具等,通過分析工具實現(xiàn)決策支持需求;(8)管理數(shù)據(jù)倉庫環(huán)境,包括質量檢測、管理決策支持工具及應用程序。并定期進行數(shù)據(jù)更新,使數(shù)據(jù)倉庫正常運行。
3 高等學校教務管理數(shù)據(jù)倉庫建立。我們知道,DW不光是各種數(shù)據(jù)的簡單堆積或者相加,而且還要從大量的事務型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其清理、轉化為新的存儲格式,即為決策目標把數(shù)據(jù)聚合成一種特殊的格式。隨著此過程的進行和完善,這種支持決策的、特殊的數(shù)據(jù)存儲即被稱為DW。對高等學校教務管理來說,DSS建立數(shù)據(jù)倉庫的數(shù)據(jù)可能來自如人事處、學生處、教務處、財務處、設備處、后勤管理等職能部門和二級學院、系,還有學生等,所有這些數(shù)據(jù)從結構上看,是相對獨立的,是不利于高等學校教務管理決策者進行全面分析和做決策的。根據(jù)高等學校教務管理的DSS需求,就要求數(shù)據(jù)倉庫從較高層次上把分散的、難以訪問的數(shù)據(jù)從不同信息系統(tǒng)中分離出來,經(jīng)過抽取、清洗、凈化、轉換、遷移為統(tǒng)一、隨時可用的信息,通過深層次加工把信息轉換成大小不一、各式各樣的數(shù)據(jù)集市(DataMart)以滿足各個職能管理部門和院系做專題分析和輔助領導層決策,輔助學生做出自己的學業(yè)規(guī)劃和職業(yè)規(guī)劃。系統(tǒng)必須定期自動完成分散數(shù)據(jù)源的采集、入庫和刷新工作,充分預測今后的擴展性與外部數(shù)據(jù)的接口??傊珼W把高等學校教務管理分散的、難以訪問的日常營運數(shù)據(jù)轉化為集中統(tǒng)一、隨時可用的信息。一般來說,完整的DW具備建立、管理和使用全部成分。由此也可知,建立數(shù)據(jù)倉庫是一個長期復雜的過程,也是工作的重點。
數(shù)據(jù)倉庫主要應用于對事物的總體分析,從全局把握信息。它的真正價值在于幫助決策者制定出能夠改進過程的決策,而不僅光停留在工作流程的自動化方面。憑借良好的數(shù)據(jù)倉庫,高等學校教學管理領導層決策時就可以從歷史數(shù)據(jù)出發(fā),有事實作為依據(jù),而不再是只依賴直覺。
(二)數(shù)據(jù)挖掘技術分析
1 高等學校教務管理需要數(shù)據(jù)挖掘。根據(jù)目前高等學校教務管理系統(tǒng)的特點,首先需要在不同的層次上將不同信息系統(tǒng)中的數(shù)據(jù)綜合、清洗、歸類、統(tǒng)一,并進行分析利用的抽象,即建立數(shù)據(jù)倉庫,在數(shù)據(jù)倉庫的基礎上進行聯(lián)機分析處理和數(shù)據(jù)挖掘,為科學管理決策提供依據(jù)支持。
數(shù)據(jù)挖掘(DM)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,抽取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識的過程。從更廣義角度來講,DM就是在一些事實或觀察數(shù)據(jù)的集合中尋求模式的決策支持過程。因此,它除了處理傳統(tǒng)數(shù)據(jù)庫中的數(shù)值型的結構化數(shù)據(jù)外,還可以對文本、圖形、圖像、web信息資源等半結構、非結構數(shù)據(jù)進行挖掘。
DM就是在一些事實或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程,DM的對象不僅是數(shù)據(jù)庫,也可以是文件系統(tǒng)、數(shù)據(jù)集合或DW。基于DW的DM技術,其任務是發(fā)現(xiàn)DW中尚未被發(fā)現(xiàn)的知識,預見的、潛在的具有價值信息。決策者明確的信息,直接用查詢等其它工具直接獲取,那些隱藏在大量數(shù)據(jù)中的關系、趨勢等信息就需要DM技術。DM技術可從DW中智能挖掘出大量真正有價值的信息和知識,根據(jù)高等學校的發(fā)展歷程,對未來趨勢做出科學的定量分析和預測。高等學校教務管理決策者提供更科學的決策基礎,從而有效地提高管理質量,有針對性地加強教學管理。
2 數(shù)據(jù)挖掘的任務。DM的首要任務是發(fā)現(xiàn)知識,具體包括:廣義型的知識,反映同類事務共性的知識;特征型知識,反映事物各方面特征的知識:差異性知識,反映不同事物之間屬性差別的知識;關聯(lián)型知識,反映事物之間依賴或關聯(lián)的知識;預測性知識,根據(jù)歷史和當前的數(shù)據(jù)推測未來的數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)現(xiàn)象等。
3 數(shù)據(jù)挖掘的流程。DM就是利用數(shù)據(jù)挖掘技術,從基礎的數(shù)據(jù)庫、數(shù)據(jù)倉庫及其其它信息庫的大量數(shù)據(jù)中挖掘有價值的知識的過程。其主要分為四個步驟:(1)業(yè)務對象:首先應熟悉應用領域的數(shù)據(jù)、背景知識,清晰地定義出業(yè)務問題,明確所要完成的數(shù)據(jù)挖掘的任務,完成數(shù)據(jù)定義工作。(2)數(shù)據(jù)準備:包括數(shù)據(jù)抽取和預處理工作。對數(shù)據(jù)質量進行分析,完成消除數(shù)據(jù)噪聲,清除不一致數(shù)據(jù),進行多個數(shù)據(jù)庫的集成、組合工作。然后從數(shù)據(jù)庫中選擇挖掘的對象,將數(shù)據(jù)轉換成數(shù)據(jù)挖掘系統(tǒng)要求的統(tǒng)一格式。(3)數(shù)據(jù)挖掘:是知識發(fā)現(xiàn)的核心步驟。包括選擇合適的算法和技術、執(zhí)行挖掘算法、搜尋提取數(shù)據(jù)模式等。(4)結果分析:依據(jù)要解決的問題,對挖掘的模式進行確認、翻譯和解釋,將發(fā)現(xiàn)的知識以最簡單、最易理解的方式提供給用戶。
4 數(shù)據(jù)挖掘的方法。DM的結果體現(xiàn)在知識,而知識的發(fā)現(xiàn)是一個復雜的過程。面對高等學校教務管理的數(shù)據(jù)挖掘這個領域,怎么樣從眾多的挖掘技術中挑選出有效的技術、方法和工具,是研究和開發(fā)高等學校教務管理數(shù)據(jù)挖掘系統(tǒng)的首要問題。常用的數(shù)據(jù)挖掘方法有:(1)遺傳算法:主要用于分類和關聯(lián)規(guī)則的挖掘。遺傳算法是基于達爾文進化論中基因重組、突變、自然選擇和適者生存等概念,試圖通過組合或“繁殖”現(xiàn)存的最好的解法來產(chǎn)生更好的解法。(2)決策樹方法:主要用于數(shù)據(jù)分類。它利用信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個節(jié)點,再根據(jù)字段的不同取值建立樹的分支;在每個分支子集中重復建立樹的下層節(jié)點和分支的過程,即可建立決策樹。接著進行剪枝處理,然后把決策樹轉化為規(guī)則。利用這些規(guī)則對新事物進行分析。(3)粗糙集理論:用于數(shù)據(jù)簡化、數(shù)據(jù)意義評估、對象相似性或差異性分析、因果關系及泛化式挖掘等。主要思想是:把對象的屬性分為條件屬性和決策屬性,按各屬性值相同分等價類。條件屬性上的等價類E與決策屬性上的等價類Y分三種情況,分別為:下近似,Y包含E;上近似,Y和E交集非空;無關,Y和E的交集為空。對下近似建立確定性規(guī)則,對上近似建立不確定性關系,對無關情況則不存在規(guī)則。(4)人工神經(jīng)網(wǎng)絡:用于分類、聚類、特征挖掘、預測和模式識別。人工神經(jīng)網(wǎng)絡從結構上模仿生物神經(jīng)網(wǎng)絡,通過簡化、歸納、提煉總結出來的一類并行處理網(wǎng)絡。以模擬和學習規(guī)則為基礎,建立三類多種神經(jīng)網(wǎng)絡模型:前饋式網(wǎng)絡、反饋式網(wǎng)絡、自組織網(wǎng)絡。(5)關聯(lián)規(guī)則方法:用于對大型關系數(shù)據(jù)庫發(fā)現(xiàn)有價值的關聯(lián)模式。也可對半結構化數(shù)據(jù)(如文檔數(shù)據(jù))進行關聯(lián)規(guī)則挖掘。它通過統(tǒng)計方法對數(shù)據(jù)中的if--then規(guī)則進行尋找、歸納和提取。
高等學校的教務管理信息系統(tǒng)大都具有分類特性,因此,高等學校教務管理DSS的數(shù)據(jù)挖掘方法主要采用能實現(xiàn)分類模式分析的方法,以分類模式分析為主線,關聯(lián)模式分析為輔線結合其他分析方法進行。
二、決策支持系統(tǒng)技術分析
1 基本概念。決策是管理的核心。高等教育的發(fā)展,高等學校面臨著空前未有的復雜生存環(huán)境,更難以形成自己的優(yōu)勢,并且維持好自己的競爭優(yōu)勢,競爭的壓力對高等學校制定教務管理決策的質量、速度、效率都提出了更高的要求。
決策支持系統(tǒng)(DeCls]onSuppoaingSystem,簡稱DSS)是一種針對半結構化的決策問題,支持決策活動的具有智能作用的人機系統(tǒng)。這種系統(tǒng)能夠為決策者提供決策所需的有效數(shù)據(jù)、信息和背景材料,幫助明確決策目標和進行問題識別,建立或修改決策模型,提供各種備選方案,并且對各種方案進行評價和優(yōu)選,通過人機交互功能進行分析、比較和判斷,為正確決策提供必要的支持。決策支持系統(tǒng)作為一種新型的信息技術,能夠為高等學校教務管理提供各種決策信息以及許多問題的解決方案,減輕了教務管理者從事低層次信息處理和分析的負擔,使得他們專注于最需要決策智慧和經(jīng)驗的工作,提高了管理的質量和效率。一般地,我們認為是決策支持系統(tǒng)由數(shù)據(jù)庫系統(tǒng)、模型庫系統(tǒng)、知識庫系統(tǒng)及人機會話系統(tǒng)等部分組成的。
2 DSS的分析方法。DSS以滿足決策支持系統(tǒng)的要求和達到DSS的性能指標為主要的性能指標,由于DSS的特殊性,對DSS的系統(tǒng)分析通常采用一種稱之為ROMC的方法。所謂的ROMC就是一種基于決策過程基本活動的方法,是決策者進行表達(R)、操作(O)、存儲輔助(M)和控制(c)的方法,其基本思路是建立起DSS的要求與性能之間的關系,并盡量減少它們之間的差異。
三、基于數(shù)據(jù)挖掘的決策支持系統(tǒng)的建立
從以上的內容,我們可以建立一種基于數(shù)據(jù)挖掘的決策支持系統(tǒng)基本結構框架。它由數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理模塊、數(shù)據(jù)挖掘工具、知識庫、知識發(fā)現(xiàn)模塊、人機交互模塊組成。系統(tǒng)的數(shù)據(jù)主要來源于其他的信息系統(tǒng),我們需要輸入是源于數(shù)據(jù)庫的數(shù)據(jù)以及存儲在知識庫中的知識和經(jīng)驗;人機交互模塊通過自然語言處理和語義查詢在用戶和系統(tǒng)之間提供相互聯(lián)系的集成界面;數(shù)據(jù)倉庫管理模塊完成數(shù)據(jù)倉庫的創(chuàng)建以及數(shù)據(jù)倉庫中數(shù)據(jù)的清洗、綜合、提取、統(tǒng)一等各種操作,負責管理整個系統(tǒng)的運轉;數(shù)據(jù)挖掘工具用于完成實際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP分析工具和數(shù)據(jù)開采DM工具等,以實現(xiàn)決策支持系統(tǒng)的各種要求;知識發(fā)現(xiàn)模塊控制并管理知識發(fā)現(xiàn)過程,它將數(shù)據(jù)的輸人和知識庫中的信息用于驅動數(shù)據(jù)選擇過程、知識發(fā)現(xiàn)引擎過程和發(fā)現(xiàn)的評價過程。
決策支持同數(shù)據(jù)庫管理是密切相關的,當有命令從用戶發(fā)出后,數(shù)據(jù)挖掘工具就自動觸發(fā)數(shù)據(jù)倉庫管理模塊,從數(shù)據(jù)倉庫中獲取出相關的數(shù)據(jù)。
該決策支持系統(tǒng)的建立過程可大致描述如下:(1)對需求進行分析也稱系統(tǒng)分析,描述和表示問題;(2)確定數(shù)據(jù)來源,建立數(shù)據(jù)倉庫;(3)對要發(fā)現(xiàn)的任務進行分類別,如歸類、回歸分析、聚類、發(fā)現(xiàn)關聯(lián)規(guī)則等,設計或選擇有效的數(shù)據(jù)挖掘算法并加以實現(xiàn);(4)數(shù)據(jù)挖掘,逐層綜合。調用數(shù)據(jù)挖掘功能,從平凡的歷史數(shù)據(jù)中提出綜合數(shù)據(jù),并且獨立存儲為庫文件,作為更高一層數(shù)據(jù)挖掘對象;(5)測試發(fā)現(xiàn)的知識,對知識進行一致性、效用性、適應性進行處理;(6)應用開發(fā),根據(jù)高等學校教務管理發(fā)展的要求,建立適用于決策支持的數(shù)據(jù)倉庫的集成界面和應用程序,使教務管理者能在決策支持中運用所發(fā)現(xiàn)的知識。
以上過程不是簡單的線性流程,而是一個綜合的學習、發(fā)現(xiàn)和修改過程,步驟之間包含了循環(huán)和反復,這樣可以對發(fā)現(xiàn)的知識不斷求精、深化,并使其易于理解、使用。
四、結束語
數(shù)據(jù)挖掘一門是方興未艾的前沿科學,數(shù)據(jù)挖掘技術為決策支持系統(tǒng)地研制與開發(fā)提供了一種有效、可行的體系化解決方案。決策支持系統(tǒng)應集成數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術。隨著數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術在各個領域的廣泛采用,決策支持系統(tǒng)的研究與開發(fā)工作將被推向一個更高的層次。
教務管理的領域,隨著高等學校教務管理信息系統(tǒng)的數(shù)據(jù)信息的不斷增長,把DM技術應用該系統(tǒng)中,以建立高等學校教務管理決策支持系統(tǒng),必將為高等學校教務管理提供切實可行的提高教學質量、優(yōu)化教學資源、規(guī)范教學管理的依據(jù),為高等學校在激烈的競爭中掌握主動,在未來的發(fā)展中提供更廣闊的空間,發(fā)揮重要的作用,為高等學校的跨越式發(fā)展起到一個科學導向作用。
(責編:若 佳)