王益
(浙江傳媒學(xué)院 現(xiàn)代教育技術(shù)中心,浙江 杭州 310018)
數(shù)據(jù)中心信息交換平臺的研究與設(shè)計(jì)
王益
(浙江傳媒學(xué)院 現(xiàn)代教育技術(shù)中心,浙江 杭州 310018)
在數(shù)字化校園體系結(jié)構(gòu)中,數(shù)據(jù)中心是支撐大量應(yīng)用服務(wù)的底部基礎(chǔ),一個(gè)可靠的信息交換平臺,既能解決數(shù)據(jù)之間互通問題,又能共享教育資源、降低教育運(yùn)行成本。本文結(jié)合浙江傳媒學(xué)院數(shù)字化校園建設(shè)的具體實(shí)踐,在分析數(shù)據(jù)集成方法的基礎(chǔ)上提出了數(shù)據(jù)中心信息交換平臺的建設(shè)框架,為實(shí)現(xiàn)消除信息孤島、建立信息與應(yīng)用規(guī)范、集成應(yīng)用服務(wù)提供了一個(gè)方案。
數(shù)字化校園;數(shù)據(jù)中心;數(shù)據(jù)集成
1.業(yè)務(wù)系統(tǒng)建設(shè)現(xiàn)狀
在我校信息化建設(shè)過程中,各個(gè)部門根據(jù)自身的業(yè)務(wù)需求,分別開發(fā)了各自的業(yè)務(wù)系統(tǒng),如表所示。這些系統(tǒng)之間擁有各自的數(shù)據(jù)存儲與訪問方式,彼此獨(dú)立,形成了一個(gè)個(gè)“信息孤島”。此外,各個(gè)系統(tǒng)在建設(shè)時(shí)沒有遵循統(tǒng)一的信息標(biāo)準(zhǔn)與規(guī)范,增加了數(shù)據(jù)之間互通的難度,對于一些基礎(chǔ)數(shù)據(jù)重復(fù)建設(shè),不僅浪費(fèi)了人力、物力,更難以保障數(shù)據(jù)的權(quán)威性、唯一性、完整性和準(zhǔn)確性。
表 主要業(yè)務(wù)系統(tǒng)情況
2.業(yè)務(wù)系統(tǒng)之間的共享需要
學(xué)校在日常事務(wù)處理中,往往會綜合運(yùn)用到各個(gè)系統(tǒng)中的數(shù)據(jù),很多關(guān)鍵的信息存在著密切的聯(lián)系,有共享的需要,如果能把基礎(chǔ)的數(shù)據(jù)信息共享,可以解決數(shù)據(jù)不一致的問題。例如:圖書借閱系統(tǒng)、財(cái)務(wù)系統(tǒng)、學(xué)工系統(tǒng)、教務(wù)系統(tǒng)等都會用到學(xué)生的基本信息,各個(gè)系統(tǒng)都需要維護(hù)一個(gè)正確的學(xué)生名單,產(chǎn)生了很多重復(fù)的錄入,也同時(shí)增加了數(shù)據(jù)不統(tǒng)一的可能性。再則,學(xué)生基本信息也并不來自于同一部門,同一系統(tǒng):學(xué)生在校期間各個(gè)系統(tǒng),如迎新系統(tǒng),教務(wù)系統(tǒng),學(xué)工系統(tǒng),離校系統(tǒng),就業(yè)系統(tǒng)都在不斷補(bǔ)充、更新學(xué)生的基本信息,產(chǎn)生各種變化,如沒有一個(gè)權(quán)威的來源,很難保證數(shù)據(jù)的統(tǒng)一。正是這些業(yè)務(wù)系統(tǒng)之間的共享需要對數(shù)據(jù)中心信息交換平臺的建設(shè)提出了要求。
1.數(shù)據(jù)集成方法的選擇
數(shù)據(jù)集成又可稱為信息集成,用于解決數(shù)據(jù)的互通問題。數(shù)據(jù)集成的核心任務(wù)是要將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,使用戶能夠以透明的方式訪問這些數(shù)據(jù)源。集成是指維護(hù)數(shù)據(jù)源整體上的數(shù)據(jù)一致性、提高信息共享利用的效率,透明的方式是指用戶無需關(guān)心如何實(shí)現(xiàn)對異構(gòu)數(shù)據(jù)源數(shù)據(jù)的訪問,只關(guān)心以何種方式訪問何種數(shù)據(jù)。[1]
數(shù)據(jù)集成的難點(diǎn)主要集中在三個(gè)方面:數(shù)據(jù)源的異構(gòu)性、分布性和自治性。[2]異構(gòu)性:被集成的數(shù)據(jù)源通常是獨(dú)立開發(fā)的,在數(shù)據(jù)語義、相同語義數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)源的使用環(huán)境上存在著差異。分布性:而且數(shù)據(jù)源是異地分布的,依賴網(wǎng)絡(luò)傳輸數(shù)據(jù),存在網(wǎng)絡(luò)傳輸?shù)男阅芎桶踩缘葐栴}。自治性:各個(gè)數(shù)據(jù)源有很強(qiáng)的自治性,它們可以在不通知集成系統(tǒng)的前提下改變自身的結(jié)構(gòu)和數(shù)據(jù)。
典型的數(shù)據(jù)集成方法有模式集成法與數(shù)據(jù)復(fù)制法。這兩種數(shù)據(jù)集成法各有優(yōu)缺點(diǎn)與適用范圍。模式集成方法為用戶提供了全局?jǐn)?shù)據(jù)視圖及統(tǒng)一的訪問接口,透明度高,但該方法并沒實(shí)現(xiàn)數(shù)據(jù)源間的數(shù)據(jù)交互,用戶使用時(shí)經(jīng)常需要訪問多個(gè)數(shù)據(jù)源,因此網(wǎng)絡(luò)依賴性強(qiáng),執(zhí)行效率也相對較低。數(shù)據(jù)復(fù)制方法在用戶使用某個(gè)數(shù)據(jù)源之前將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制過來,用戶使用時(shí)只需訪問某個(gè)數(shù)據(jù)源或少量的幾個(gè)數(shù)據(jù)源,這會大大提高系統(tǒng)處理用戶請求的效率,但很難保障數(shù)據(jù)源之間數(shù)據(jù)的實(shí)時(shí)一致性。模式集成方法適用于被集成的系統(tǒng)規(guī)模大、數(shù)據(jù)更新頻繁、數(shù)據(jù)實(shí)時(shí)一致性要求高的情況。數(shù)據(jù)復(fù)制則適用于數(shù)據(jù)源相對穩(wěn)定、用戶查詢模式已知或有限的情況。[3]
如果采用模式集成方式的聯(lián)邦數(shù)據(jù)庫系統(tǒng),每個(gè)系統(tǒng)都要實(shí)現(xiàn)一個(gè)與虛擬共享庫的接口,要對原系統(tǒng)做相應(yīng)的修改。同樣對于中間件的模式集成需要建立一個(gè)全局的模式,需要花費(fèi)大量的時(shí)間,更為重要的是目前現(xiàn)階段建立數(shù)據(jù)中心主要目的不是為了數(shù)據(jù)的查詢,而是為了共享數(shù)據(jù)的收集和交換。所以,單純的模式集成法不能完全適應(yīng)數(shù)字化校園建設(shè)需求的方案。因此,在經(jīng)過詳細(xì)的需求調(diào)研、分析與綜合考慮各種因素后我們選擇數(shù)據(jù)復(fù)制法,建立數(shù)據(jù)中心數(shù)據(jù)倉庫,為今后的應(yīng)用需求提供實(shí)現(xiàn)空間,而對于一些本身業(yè)務(wù)具有封閉性的系統(tǒng)則使用統(tǒng)一的數(shù)據(jù)封裝格式如XML,通過通訊前置機(jī)來實(shí)現(xiàn)數(shù)據(jù)信息的共享。
2.信息交換平臺框架
信息交換平臺需要提供一個(gè)集成平臺包括的所有數(shù)據(jù)集成的功能:基于數(shù)據(jù)的、基于事件的和基于服務(wù)的。核心交換組件如圖所示:
圖 數(shù)據(jù)中心信息交換平臺交換組件
設(shè)計(jì)要點(diǎn):
(1)保持現(xiàn)有業(yè)務(wù)系統(tǒng)基本不變,在各業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心之間做接口,完成對接,實(shí)現(xiàn)抽取與推送數(shù)據(jù)的目的,節(jié)約成本。
(2)根據(jù)實(shí)際應(yīng)用的需求,數(shù)據(jù)交換采用數(shù)據(jù)庫級交換與應(yīng)用級數(shù)據(jù)交換相結(jié)合的方式來應(yīng)對不同的數(shù)據(jù)交換要求。數(shù)據(jù)庫級數(shù)據(jù)交換比較適合于數(shù)據(jù)集實(shí)時(shí)要求高數(shù)據(jù)量不大的數(shù)據(jù)交換,如學(xué)籍異動(dòng)、成績修改等類型數(shù)據(jù)交換提供數(shù)據(jù)的業(yè)務(wù)系統(tǒng)通過CDC(Change Data Capture)動(dòng)態(tài)數(shù)據(jù)捕獲機(jī)制,每次只捕獲、集成有變化部分的數(shù)據(jù),從而減輕數(shù)據(jù)中心平臺網(wǎng)絡(luò)傳輸及系統(tǒng)處理的負(fù)擔(dān)。應(yīng)用級數(shù)據(jù)交換比較適合于數(shù)據(jù)實(shí)時(shí)性要求不是很高但數(shù)據(jù)量比較大的數(shù)據(jù)交換。
(3)堅(jiān)持信息共享這一基本原則,以師、生角色為主線,將分散在各部門業(yè)務(wù)系統(tǒng)的基礎(chǔ)數(shù)據(jù)集中到數(shù)據(jù)中心統(tǒng)一存放,提供跨部門立體式的人事、教學(xué)、科研、公共資產(chǎn)等綜合數(shù)據(jù),從而為教工、學(xué)生提供全方位的信息服務(wù)。
(4)保證中心數(shù)據(jù)庫數(shù)據(jù)的權(quán)威性,及時(shí)更新與同步各業(yè)務(wù)系統(tǒng)數(shù)據(jù)。
(5)雖然目前現(xiàn)階段建立數(shù)據(jù)中心的主要目的不是為了數(shù)據(jù)查詢,而是為了共享數(shù)據(jù)的收集和交換,但也需要提供良好的數(shù)據(jù)環(huán)境,為將來更高層次的決策和應(yīng)用提供數(shù)據(jù)準(zhǔn)備。
(6)建立統(tǒng)一的信息標(biāo)準(zhǔn),保證信息的交流和共享。
數(shù)據(jù)中心信息交換平臺是數(shù)字化校園核心技術(shù)支撐平臺的重要組成部分,它保留了原有業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫,實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)庫之間的信息交換,推進(jìn)了數(shù)據(jù)的集中和共享,解決了數(shù)字化校園建設(shè)中信息孤島問題,為實(shí)現(xiàn)應(yīng)用集成奠定基礎(chǔ),并為數(shù)據(jù)分析和挖掘提供了可能。此外,為了使信息能有序流通,還需制定全校性的信息編碼標(biāo)準(zhǔn),使學(xué)校的所有信息能夠?qū)崟r(shí)的互連互通,消除業(yè)務(wù)部門之間的數(shù)據(jù)冗余,避免多部門的重復(fù)勞動(dòng),節(jié)約人力成本,保證數(shù)據(jù)的標(biāo)準(zhǔn)化存儲。
[1]陳躍國,王京春.數(shù)據(jù)集成綜述[J].計(jì)算機(jī)科學(xué),2004,31(5):48-51.
[2]C.Convey,O.Karpenko,N.Tatbul.Data Integration Services[EB/OL].http://cs.brown.edu/courses/cs227/archives/2001/groups/dataint/first_draft_Apr16/chapter.pdf,2010-07-07.
(編輯:楊馥紅)
TP274
A
1673-8454(2010)21-0016-02