洪明鏡+++李民堯++王首鈞
摘 要:學(xué)生成績數(shù)據(jù)倉庫的概念模型的主要任務(wù)就是需求分析,界定系統(tǒng)邊界、確定主題域及內(nèi)容是其所要完成的主要工作。運(yùn)用數(shù)據(jù)倉庫的理論與方法對學(xué)生成績管理中各種相互聯(lián)系的數(shù)據(jù)進(jìn)行提取、綜合,以成績分析作為主題建立學(xué)生數(shù)據(jù)倉庫可以幫助教師找到?jīng)Q策所需信息,以達(dá)到優(yōu)化教學(xué)的目的。本文主要是按照邏輯模型技術(shù)對學(xué)生成績數(shù)據(jù)庫進(jìn)行設(shè)計。
關(guān)鍵詞:學(xué)生成績 數(shù)據(jù)倉庫 模型設(shè)計
一、學(xué)生成績數(shù)據(jù)倉庫模型設(shè)計
按照邏輯模型技術(shù)可以把數(shù)據(jù)建模分為兩類,一類是維度建模,其又可分為星型結(jié)構(gòu)以及雪花型結(jié)構(gòu),維度建模是數(shù)據(jù)倉庫中典型的邏輯結(jié)構(gòu),是針對相對獨(dú)立的業(yè)務(wù)創(chuàng)建針對性的模型。另一類是實(shí)體關(guān)系建模,此類模型的建立可以通過概念結(jié)構(gòu)設(shè)計中的E-R圖來完成。下面我們來看一下這幾類模型的設(shè)計分析。
1、星型結(jié)構(gòu)
星型結(jié)構(gòu)是由一個事實(shí)表和一組維表組成的,是一種多維的數(shù)據(jù)關(guān)系。每個維表都有一個維作為主鍵,事實(shí)表主鍵的每個元素都是維表的外鍵,也可以說事實(shí)表的組件就是由這些維組成的。事實(shí)表包含聯(lián)系事實(shí)與維度表的數(shù)字度量值和鍵,它是數(shù)據(jù)倉庫架構(gòu)中的中央表。維表是數(shù)據(jù)倉庫中的表,包含創(chuàng)建維度所基于的數(shù)據(jù),主要是描述實(shí)時數(shù)據(jù)表中的數(shù)據(jù)。
本系統(tǒng)中的分析主題就是學(xué)生成績分析,在此我們主要是研究數(shù)據(jù)倉庫系統(tǒng)的學(xué)生成績分析。依據(jù)學(xué)生成績分析數(shù)據(jù)庫中的數(shù)據(jù),其維度劃分可以歸結(jié)為下表:
2、關(guān)于學(xué)生成績數(shù)據(jù)倉庫設(shè)計的雪花型結(jié)構(gòu)
雪花型結(jié)構(gòu)是由多個表定義一個多個維度,可以說是星型結(jié)構(gòu)的一個擴(kuò)展,其結(jié)構(gòu)域星型結(jié)構(gòu)本質(zhì)是相同的。該結(jié)構(gòu)中事實(shí)數(shù)據(jù)表與主維度表連接,同時其他的維度表也連接到主維度表。雪花型結(jié)構(gòu)也是由事實(shí)表和維表構(gòu)成的,它與星型結(jié)構(gòu)最大的區(qū)別在于該結(jié)構(gòu)將維表進(jìn)行了規(guī)范化。所以雪花型結(jié)構(gòu)在維度較多的情況下也可以使復(fù)雜維度的層次結(jié)構(gòu)清晰,可以節(jié)省存儲空間。但是也應(yīng)該看到在查詢的時候,雪花型結(jié)構(gòu)設(shè)計的連接操作更多。雪花型結(jié)構(gòu)的示意圖如圖1。
在進(jìn)行數(shù)據(jù)倉庫建模中,星型結(jié)構(gòu)和雪花型結(jié)構(gòu)的優(yōu)點(diǎn)是比較明顯的,這兩種結(jié)構(gòu)比傳統(tǒng)的方法更加簡單,而且用戶也很容易就能理解模型;這兩種結(jié)構(gòu)使數(shù)據(jù)庫的設(shè)計面向用戶的查詢。
二、數(shù)據(jù)庫中數(shù)據(jù)的抽取、轉(zhuǎn)換和加載
數(shù)據(jù)倉庫中的數(shù)據(jù)是統(tǒng)一、完整的數(shù)據(jù)集合,倉庫中數(shù)據(jù)的獲取要經(jīng)過數(shù)據(jù)的清洗和轉(zhuǎn)換,而不是簡單地從數(shù)據(jù)源中直接轉(zhuǎn)移過來。如果只是對原始數(shù)據(jù)進(jìn)行簡單的堆砌,而不加以清洗和轉(zhuǎn)換,就會導(dǎo)致不必要的大量數(shù)據(jù)的存在,也會產(chǎn)生數(shù)據(jù)間不完整、不一致的情況。由此可以看出來在數(shù)據(jù)倉庫構(gòu)建與運(yùn)行中,數(shù)據(jù)的抽取、轉(zhuǎn)換和加載是非常主要的環(huán)節(jié),該項(xiàng)工作做的好壞直接關(guān)系著數(shù)據(jù)和分析的正確性。
1、關(guān)于數(shù)據(jù)抽取
數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大,所以在數(shù)據(jù)抽取中應(yīng)該采取按需抽取的原則,而不能夠從數(shù)據(jù)庫中抽取所有的數(shù)據(jù)。數(shù)據(jù)抽取的主要依據(jù)可以歸為兩點(diǎn),首先是按照用戶所使用的數(shù)據(jù)進(jìn)行抽取,抽取的數(shù)據(jù)應(yīng)該根據(jù)用戶所關(guān)心的內(nèi)容進(jìn)行抽取,如果是管理部門可能比較關(guān)心學(xué)生的基本信息情況,而教務(wù)部門可能更加關(guān)注的是抽取學(xué)生的成績信息。其次是可以依據(jù)某個主題來進(jìn)行學(xué)生相關(guān)數(shù)據(jù)的抽取工作,可以采用手動、自動和半自動的方式進(jìn)行,也可以根據(jù)需要多種方式結(jié)合。
2、關(guān)于數(shù)據(jù)倉庫建立過程中數(shù)據(jù)的轉(zhuǎn)化
將數(shù)據(jù)庫中不同類型的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一規(guī)范,可以避免由于數(shù)據(jù)類型不同而產(chǎn)生的不一致性。數(shù)據(jù)倉庫中數(shù)據(jù)轉(zhuǎn)化的關(guān)鍵就是“對數(shù)據(jù)進(jìn)行統(tǒng)一。數(shù)據(jù)轉(zhuǎn)化就是應(yīng)該將不同格式的數(shù)據(jù)類型轉(zhuǎn)化成統(tǒng)一的數(shù)據(jù)格式,數(shù)據(jù)轉(zhuǎn)化的目的就是為了改善數(shù)據(jù)倉庫中數(shù)據(jù)質(zhì)量,所以應(yīng)該完成數(shù)據(jù)的清理和轉(zhuǎn)化之后再進(jìn)行數(shù)據(jù)倉庫中數(shù)據(jù)的裝載工作,”以消除數(shù)據(jù)錯誤和不一致問題,填充數(shù)據(jù)空缺值,消除數(shù)據(jù)噪聲影響,糾正數(shù)據(jù)集中的不一致數(shù)據(jù),識別數(shù)據(jù)集中的孤立點(diǎn)等。在學(xué)生成績數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)都是非常重要的,一般不會存在錯誤現(xiàn)象,因?yàn)檫@些數(shù)據(jù)都是經(jīng)過多次復(fù)查而得到的。
3、關(guān)于數(shù)據(jù)的加載
首先對轉(zhuǎn)化后得到的相關(guān)數(shù)據(jù)進(jìn)行清理,然后將這些數(shù)據(jù)裝入數(shù)據(jù)倉庫中,通常會涉及到將大量數(shù)據(jù)從源數(shù)據(jù)庫系統(tǒng)傳送到目標(biāo)數(shù)據(jù)倉庫??梢酝ㄟ^設(shè)置代理等方式進(jìn)行數(shù)據(jù)加載,一定要保證數(shù)據(jù)的完整性。對學(xué)生成績數(shù)據(jù)信息進(jìn)行定期的轉(zhuǎn)換和加載,其目的就是為了保持學(xué)生數(shù)據(jù)倉庫和學(xué)生成績數(shù)據(jù)庫的一致性。一般采用設(shè)置代理的方法,對學(xué)生成績數(shù)據(jù)庫中的信息進(jìn)行定期的轉(zhuǎn)換和加載,時間一般是設(shè)置在每年的2月、8月和11月的第一天,這樣就可以把新生的基本信息以及每學(xué)期的學(xué)生成績及時地轉(zhuǎn)換加載到數(shù)據(jù)倉庫中,這樣的方法可以使數(shù)據(jù)倉庫數(shù)據(jù)和學(xué)生成績數(shù)據(jù)庫數(shù)據(jù)一致起來。
參考文獻(xiàn):
[1] 郭桂蓉等編著.模糊模式識別[M]. 國防科技大學(xué)出版社, 1992
[2] 王國胤編著.Rough集理論與知識獲取[M]. 西安交通大學(xué)出版社, 2001
[3] 曾黃麟編著.粗集理論及其應(yīng)用[M]. 重慶大學(xué)出版社, 1998
[4] 毛國君等編著.數(shù)據(jù)挖掘原理與算法[M]. 清華大學(xué)出版社, 2005