[摘要]隨著社會的進步,信息技術(shù)的發(fā)展,高校也在不斷地采用新的管理理念、信息手段來代替?zhèn)鹘y(tǒng)方式,整合資源、提高效率。數(shù)字化校園的建設(shè)成果更是把信息技術(shù)融合到學(xué)校的管理教學(xué)當(dāng)中,并且對現(xiàn)有體制、組織、方式、資源進行有效合理地重組和改革。在此過程中積累了大量的信息數(shù)據(jù),如何合理有效地利用現(xiàn)有的教學(xué)、管理信息,更好的為學(xué)校的科研、教學(xué)、決策提供有力的支持,如何克服“數(shù)據(jù)爆炸、知識貧乏”的窘迫局面?傳統(tǒng)的面向數(shù)據(jù)操作的數(shù)據(jù)庫已經(jīng)不能滿足發(fā)展的需要 ,數(shù)據(jù)倉庫工程應(yīng)運而生 ,它是體系結(jié)構(gòu)化環(huán)境的核心 ,是決策支持系統(tǒng) ( DSS)處理的基礎(chǔ)。完整的數(shù)據(jù)倉庫主要包括數(shù)據(jù)倉庫技術(shù)、聯(lián)機分析處理技術(shù) ( Online Analytical Processing,簡稱 OLAP)和數(shù)據(jù)挖掘技術(shù)(Data Mining)。
[關(guān)鍵詞]數(shù)字校園 數(shù)據(jù)平臺 數(shù)據(jù)倉庫工程
數(shù)字化校園建設(shè)中數(shù)據(jù)倉庫的架構(gòu)
數(shù)字化校園的構(gòu)成可以用圖1表示,計算機網(wǎng)絡(luò)是數(shù)字化校園的基礎(chǔ)設(shè)施;網(wǎng)絡(luò)基本服務(wù)是數(shù)字信息流動的基礎(chǔ),包括電子郵件、文件傳輸、域名服務(wù)、身份認證、目錄服務(wù)等;在此基礎(chǔ)上要建立各類基于網(wǎng)絡(luò)的數(shù)據(jù)倉庫,包括職能信息庫、課程資源庫、數(shù)字化圖書資源等;應(yīng)用支撐系統(tǒng)包括辦公自動化系統(tǒng)、各類管理信息系統(tǒng)、網(wǎng)絡(luò)教學(xué)系統(tǒng)以及數(shù)字圖書館管理系統(tǒng)等等;在此之上的信息服務(wù)系統(tǒng)是校內(nèi)用戶的主要使用界面,為師生提供各種服務(wù),如信息交流、信息查詢、決策支持、電子商務(wù)等。五個區(qū)域分別表示數(shù)字化學(xué)習(xí)環(huán)境的功能領(lǐng)域:組織管理、教學(xué)活動、學(xué)術(shù)研究、公共服務(wù)和學(xué)校社區(qū)服務(wù)等,各個功能領(lǐng)域之間是密切相關(guān)、相互促進的。
圖1
以選課系統(tǒng)為例解析數(shù)據(jù)倉庫的構(gòu)建與應(yīng)用
數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,簡稱KDD),是指從大型數(shù)據(jù)庫中提取人們感興趣的信息,提取的知識表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Pattems)等形式。數(shù)據(jù)挖掘可以應(yīng)用于各個領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等。利用數(shù)據(jù)挖掘技術(shù),挖掘選課系統(tǒng)中積累的有用信息,可以使學(xué)校的相關(guān)部門有彈性地調(diào)節(jié)所開的課程,調(diào)整熱門課程和冷門課程的人數(shù),調(diào)節(jié)相關(guān)課程的學(xué)分,通過選課率及相關(guān)信息做出正確決策,鼓勵和引導(dǎo)學(xué)生選擇互補的課程,這有利于學(xué)生整體素質(zhì)的提高,也有利于教師、教室等資源的合理分配。
1.確定數(shù)據(jù)倉庫和OLAP模型
OLAP(Online Analytical Mining或OLAP Mining)是基于數(shù)據(jù)倉庫的信息分析處理過程,其基本特點是能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的信息進行快速、一致、交互地處理,從中獲得對數(shù)據(jù)更深入地了解。OLAM將二者結(jié)合起來,發(fā)展一種建立在OLAP和數(shù)據(jù)倉庫基礎(chǔ)上的新的挖掘技術(shù),它兼有OLAP多維分析的在線性、靈活性和數(shù)據(jù)挖掘?qū)?shù)據(jù)處理的深入性,是數(shù)據(jù)庫應(yīng)用工具未來發(fā)展的方向之一。
通常要先分析原有業(yè)務(wù)數(shù)據(jù)庫,確定待建的數(shù)據(jù)倉庫主題。再根據(jù)用戶的需求來確定各個級別數(shù)據(jù)倉庫的存儲主題。這里選取學(xué)生選課管理這一典型業(yè)務(wù)為主題。為了保證數(shù)據(jù)的正確性和一致性,還要確保這些數(shù)據(jù)是按同樣的方法記錄的同一件事情,需要對選課的原始數(shù)據(jù)進行預(yù)處理,轉(zhuǎn)換成適合數(shù)據(jù)挖掘的數(shù)據(jù)。數(shù)據(jù)預(yù)處理(Data preprocessing)包括三個步驟:數(shù)據(jù)清理(Data cleaning)、數(shù)據(jù)集成(Data integration)和數(shù)據(jù)變換(Data transformation)。完成數(shù)據(jù)的預(yù)處理之后,便可確定待建的數(shù)據(jù)倉庫模型,實現(xiàn)OLAP建模,生成多維數(shù)據(jù)集(CUBE)??梢越⒁訰OLAP方式存儲的選課數(shù)目分析多維數(shù)據(jù)集(以時間維、學(xué)號維、院系專業(yè)維為維度,選課數(shù)目為度量值)、選課學(xué)分分析多維數(shù)據(jù)集(以課程類別維、課程開課部門維、學(xué)號學(xué)歷維為維度,學(xué)分為度量值)等許多個不同的多維數(shù)據(jù)立方體。
2.數(shù)據(jù)挖掘關(guān)聯(lián)算法的實現(xiàn)
關(guān)于關(guān)聯(lián)規(guī)則的挖掘算法主要有循環(huán)式掃描算法、增量式更新算法、并行挖掘算法、元模式制導(dǎo)、基于約束挖掘等等。目前大多數(shù)研究集中在頻繁數(shù)據(jù)項的挖掘方法上。其中比較典型的關(guān)聯(lián)規(guī)則挖掘算法有Apriori算法和FP-growth算法。
Apriori算法可以產(chǎn)生相對較小的候選項目集,掃描數(shù)據(jù)庫的次數(shù)由最大頻繁項目集的項目數(shù)決定。因此,該算法適合于最大頻繁項目集相對較小的數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則挖掘問題。針對Apriori算法框架的缺陷,Han.JW(韓家煒)等人提出了FP-tree結(jié)構(gòu)和相應(yīng)的P-growth算法。FP-growth算法采用的是分而治之的策略,即在經(jīng)過了第一次掃描之后,把數(shù)據(jù)庫中的頻繁集壓縮進一棵頻繁模式樹(FP-tree),同時依然保留其中的關(guān)聯(lián)信息。隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān);然后再對這些條件庫分別進行挖掘。當(dāng)原始數(shù)據(jù)量很大時,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實驗表明,F(xiàn)P-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時在效率上較之Apriori算法有巨大的提高。由于高校多年來存儲的選課數(shù)據(jù)量較大,故選用FP-growth方法實現(xiàn)高校選課系統(tǒng)的關(guān)聯(lián)規(guī)則挖掘較合適。
作者單位:陜西科技大學(xué)網(wǎng)絡(luò)管理中心