童明 陳敏
[摘 要]通過(guò)對(duì)學(xué)校信息化建設(shè)現(xiàn)狀分析,智慧校園建設(shè)離不開大數(shù)據(jù)應(yīng)用,并且首先應(yīng)對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行治理。通過(guò)討論數(shù)據(jù)治理的基本方案,對(duì)具體利用oracle12c+oda模式進(jìn)行數(shù)據(jù)遷移的過(guò)程進(jìn)行深入探討。
[關(guān)鍵詞]智慧校園;大數(shù)據(jù);數(shù)據(jù)治理;數(shù)據(jù)遷移;oracle12c;ODA
中圖分類號(hào):C37 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-914X(2017)17-0138-02
[Abstract]Based on the analysis of the current informatization construction, the construction of smart campus can not be separated from the big data applications, which all depended on the Data Governance.On the discussion of the scheme of Data Governance,this paper makes an in-depth study on the process of data migration by using combination of oracle12c+oda.
[Key words]smart campus;big data;data governance;data migration;oracle12c;ODA
1 校園信息化建設(shè)的現(xiàn)狀分析
隨著信息化建設(shè)的不斷發(fā)展,教育越來(lái)越多的呈現(xiàn)個(gè)性化、開放化、智能化等特點(diǎn)。數(shù)字校園為智慧校園所替代也成為當(dāng)前教育信息化發(fā)展的主要趨勢(shì)。各個(gè)高校信息化建設(shè)在十二五規(guī)劃期間,已經(jīng)基本完成了數(shù)字化校園初期建設(shè),步入互聯(lián)網(wǎng)+時(shí)代,進(jìn)一步向智慧校園領(lǐng)域靠攏。例如在教室安裝多媒體教學(xué)系統(tǒng)與智能教學(xué)軟件,已經(jīng)實(shí)現(xiàn)了教學(xué)方面的電教化;在服務(wù)上配置了移動(dòng)式應(yīng)用、網(wǎng)上迎新系統(tǒng)等,提高了學(xué)生事務(wù)管理的能力;網(wǎng)絡(luò)方面已基本實(shí)現(xiàn)了全校全網(wǎng)無(wú)線全覆蓋;已經(jīng)建成了一套完整的信息服務(wù)門戶,實(shí)現(xiàn)了統(tǒng)一身份認(rèn)證和信息發(fā)布;在安全上建立起視頻監(jiān)控、網(wǎng)絡(luò)防御等系統(tǒng),為校園信息安全提供了保障;數(shù)據(jù)中心通過(guò)搭建vSphere服務(wù)器組和融合交換網(wǎng)絡(luò),提供一定量的虛擬化服務(wù)。
然而,各業(yè)務(wù)部門之間因?yàn)殚_發(fā)平臺(tái)不同、使用環(huán)境各異等原因都有自己獨(dú)立的一套系統(tǒng)和本地?cái)?shù)據(jù)庫(kù),雖說(shuō)在十二五期間開展部門協(xié)同工作時(shí)統(tǒng)一了一部分?jǐn)?shù)據(jù),但整體上并沒(méi)有做到完全實(shí)時(shí)同步,依然存在很大程度上的信息孤島現(xiàn)象。各業(yè)務(wù)部門在有些交叉業(yè)務(wù)中有的數(shù)據(jù)雖然實(shí)現(xiàn)了兩兩共享,但在涉及到多個(gè)部門的使用環(huán)節(jié)中還是因?yàn)閿?shù)據(jù)格式不一致等問(wèn)題需要用戶逐一的去獲取信息,導(dǎo)致數(shù)據(jù)利用率不高,還是存在不少需要用戶去跑腿、人工溝通處理問(wèn)題的情況。與此同時(shí),學(xué)校每年都會(huì)新增新的業(yè)務(wù)系統(tǒng),隨著數(shù)據(jù)和業(yè)務(wù)連接的大量增加使得我們對(duì)數(shù)據(jù)的存儲(chǔ)、獲取和分析的要求日漸強(qiáng)烈,現(xiàn)有的對(duì)數(shù)據(jù)處理和分析的響應(yīng)速度已逐漸不能滿足業(yè)務(wù)發(fā)展的需求。比如,教學(xué)上我們對(duì)數(shù)據(jù)的處理仍然處在確保學(xué)生能夠選擇正確課程的階段,而不是利用學(xué)生和課程的信息來(lái)進(jìn)行招生和課程規(guī)劃等,未能夠?qū)?shù)據(jù)進(jìn)行有效的應(yīng)用。
由此可見(jiàn)傳統(tǒng)的數(shù)據(jù)架構(gòu)已無(wú)法滿足數(shù)據(jù)處理要求,而大數(shù)據(jù)的理念通過(guò)數(shù)據(jù)分析的方法發(fā)掘潛在價(jià)值,更易實(shí)現(xiàn)對(duì)獲取的各類數(shù)據(jù)形成實(shí)時(shí)、快速而有效的智能決策。目前大數(shù)據(jù)的應(yīng)用雖然仍不是很成熟,但隨著智慧校園的發(fā)展和建設(shè),大數(shù)據(jù)應(yīng)用必將對(duì)學(xué)校的信息化建設(shè)產(chǎn)生極大的影響,促進(jìn)學(xué)校各方面發(fā)展,充分體現(xiàn)校園的智慧特色[1]。
2 數(shù)據(jù)治理方案探討
大數(shù)據(jù)處理數(shù)據(jù)首先是需要采集數(shù)據(jù)資源,對(duì)抓取的數(shù)據(jù)等進(jìn)行實(shí)時(shí)、快速的處理。而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,為了能夠?qū)Υ罅拷Y(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,首先要對(duì)數(shù)據(jù)從格式上進(jìn)行統(tǒng)一,過(guò)濾篩選出有價(jià)值的數(shù)據(jù),丟棄已損壞的數(shù)據(jù),凈化不干凈的數(shù)據(jù),集中零散的的數(shù)據(jù),即進(jìn)行數(shù)據(jù)治理。數(shù)據(jù)治理其實(shí)并不是一個(gè)新生的概念,而在大數(shù)據(jù)背景下,數(shù)據(jù)治理已經(jīng)成為一個(gè)獨(dú)立的研究領(lǐng)域。筆者認(rèn)為智慧校園背景下的數(shù)據(jù)治理,不僅僅只是包含對(duì)源數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換、清洗、加載這么一個(gè)狹義的概念,而是應(yīng)包含對(duì)整個(gè)大數(shù)據(jù)應(yīng)用所需去采取的一系列措施,具體應(yīng)包括事務(wù)數(shù)據(jù)庫(kù)的遷移、公共數(shù)據(jù)平臺(tái)的建設(shè)、數(shù)據(jù)倉(cāng)庫(kù)的建立這三個(gè)階段。
2.1 事務(wù)數(shù)據(jù)庫(kù)的遷移
“工欲善其事,必先利其器”,大數(shù)據(jù)需要這樣一種架構(gòu):它能從多個(gè)數(shù)據(jù)源實(shí)時(shí)獲取數(shù)據(jù),以便于分析的格式組織和存儲(chǔ)這些數(shù)據(jù),能讓用戶高效的使用這些數(shù)據(jù)并后續(xù)采取一系列決策算法最終幫助他們做出業(yè)務(wù)決策。首先則需要構(gòu)建一個(gè)在關(guān)系數(shù)據(jù)庫(kù)之上的物理集中型的數(shù)據(jù)庫(kù),這個(gè)物理集中型數(shù)據(jù)庫(kù)能從其他數(shù)據(jù)庫(kù)實(shí)時(shí)獲取數(shù)據(jù),包含來(lái)自教務(wù)系統(tǒng)、科研系統(tǒng)、財(cái)務(wù)系統(tǒng)、人事系統(tǒng)等等,從而創(chuàng)造了一個(gè)統(tǒng)一的分析基礎(chǔ)。而構(gòu)建以物理集中型數(shù)據(jù)庫(kù)為中心的多數(shù)據(jù)源的統(tǒng)一的數(shù)據(jù)平臺(tái)環(huán)境,數(shù)據(jù)遷移是實(shí)現(xiàn)數(shù)據(jù)集中的關(guān)鍵。數(shù)據(jù)遷移所要面對(duì)的是從各個(gè)獨(dú)立開發(fā)的系統(tǒng)中抽取數(shù)據(jù)、集中數(shù)據(jù)的挑戰(zhàn)。
2.2 公共數(shù)據(jù)平臺(tái)的建設(shè)
公共數(shù)據(jù)庫(kù)平臺(tái)用來(lái)對(duì)各部門應(yīng)用系統(tǒng)中的交換數(shù)據(jù)進(jìn)行交換和共享的,是智慧校園建設(shè)過(guò)程中實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)間數(shù)據(jù)共享和數(shù)據(jù)同步的重要基礎(chǔ)。建立公共數(shù)據(jù)庫(kù),統(tǒng)一了數(shù)據(jù)格式標(biāo)準(zhǔn),使得各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)更加規(guī)范和完整,系統(tǒng)間的信息交換則更加快捷高效,同時(shí)確立了數(shù)據(jù)流向,使業(yè)務(wù)流程更加清晰,同一類型數(shù)據(jù)的集中共享也使得業(yè)務(wù)之間協(xié)同工作變得更加透明和簡(jiǎn)單,從根本上解決“信息孤島”問(wèn)題。
建設(shè)一個(gè)公共數(shù)據(jù)平臺(tái)大致分為以下幾步:
1.對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行調(diào)查,建議統(tǒng)一的信息標(biāo)準(zhǔn)。
2.對(duì)系統(tǒng)異構(gòu)情況和數(shù)據(jù)交換情況進(jìn)行分析,確定數(shù)據(jù)流向。
3.設(shè)計(jì)數(shù)據(jù)交換與共享流程,設(shè)計(jì)主題數(shù)據(jù)庫(kù)。
4.設(shè)計(jì)數(shù)據(jù)同步機(jī)制,在數(shù)據(jù)同步與交換過(guò)程中涉及到數(shù)據(jù)的上傳、轉(zhuǎn)換、清洗與加載等操作,保證各業(yè)務(wù)系統(tǒng)實(shí)時(shí)向公共數(shù)據(jù)庫(kù)同步更新信息。
2.3 數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)
在完成了數(shù)據(jù)庫(kù)物理集中統(tǒng)一管理后,各部門具體的業(yè)務(wù)系統(tǒng)(教學(xué)、科研、人事、財(cái)務(wù)等)數(shù)據(jù)依然存在數(shù)據(jù)積存、數(shù)據(jù)分散、標(biāo)準(zhǔn)不統(tǒng)一等問(wèn)題,這些數(shù)據(jù)使用率低、數(shù)據(jù)查詢困難、甚至已經(jīng)損壞,更不可能有效的進(jìn)行數(shù)據(jù)分析和挖掘。這就迫切需要再建立一個(gè)支持聯(lián)機(jī)分析系統(tǒng)OLAP的公共數(shù)據(jù)倉(cāng)庫(kù),這個(gè)數(shù)據(jù)倉(cāng)庫(kù)和大容器數(shù)據(jù)庫(kù)相輔相成:大容器數(shù)據(jù)庫(kù)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行捕獲與管理,進(jìn)行數(shù)據(jù)的增刪查改,而數(shù)據(jù)倉(cāng)庫(kù)則是對(duì)歷史數(shù)據(jù)進(jìn)行存儲(chǔ),且支持復(fù)雜的分析操作,以現(xiàn)有的大量歷史數(shù)據(jù)積累為基礎(chǔ),通過(guò)數(shù)據(jù)分析算法,把歷史數(shù)據(jù)進(jìn)行歸納整理和重組,提供各種類型的數(shù)據(jù)分析,為校領(lǐng)導(dǎo)制定決策提供科學(xué)的數(shù)據(jù)支持。
在此,筆者不為建設(shè)公共數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)的具體設(shè)計(jì)方法作詳細(xì)討論,而是利用校園現(xiàn)有的oda資源對(duì)數(shù)據(jù)遷移作討論研究。
3.基于oracle12c+oda架構(gòu)的數(shù)據(jù)遷移
目前校園的各個(gè)業(yè)務(wù)部門的數(shù)據(jù)系統(tǒng)部署在不同的服務(wù)器上,其數(shù)據(jù)格式標(biāo)準(zhǔn)、甚至源系統(tǒng)都不盡相同。每個(gè)應(yīng)用系統(tǒng)獨(dú)自各占各的服務(wù)器存儲(chǔ)資源,資源利用率不高是一方面,另外數(shù)據(jù)資源分散、沒(méi)有一個(gè)統(tǒng)一管理的平臺(tái),這對(duì)于日后所需要展開的數(shù)據(jù)治理工作是非常不利的。為了實(shí)現(xiàn)將來(lái)的數(shù)據(jù)治理,首先迫切需要將各個(gè)不同的數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行物理集中管理,也就是集合在一個(gè)大容器數(shù)據(jù)庫(kù)之上,同時(shí)各個(gè)數(shù)據(jù)系統(tǒng)之間邏輯上還必須像原來(lái)一樣保持獨(dú)立,不能影響各自采集數(shù)據(jù)及原有的業(yè)務(wù),此時(shí)這就需要一個(gè)全新的系統(tǒng)架構(gòu)來(lái)統(tǒng)籌收納各個(gè)數(shù)據(jù)系統(tǒng),這也就是數(shù)據(jù)遷移所需完成的任務(wù)。
3.1 利用Oracle12c多租戶環(huán)境實(shí)現(xiàn)大容器數(shù)據(jù)庫(kù)
甲骨文oracle12c和以往的版本最大的不同就是引入了數(shù)據(jù)庫(kù)容器(container database,CDB)和可插拔式數(shù)據(jù)庫(kù)(pluggable database,PDB)這一概念,這一新技術(shù)對(duì)于數(shù)據(jù)遷移而言,特別有如下一些優(yōu)勢(shì):
(1)多租戶模式。通過(guò)容器數(shù)據(jù)庫(kù)與用戶數(shù)據(jù)庫(kù)的分離,允許用戶創(chuàng)建一個(gè)多租用戶環(huán)境,使用一個(gè)cdb承載多個(gè)pdb,同時(shí)每個(gè)PDB仍然作為獨(dú)立的數(shù)據(jù)庫(kù)加以管理,并且可以方便的從一個(gè)CDB插入到另一個(gè)CDB中[2]。這個(gè)技術(shù)結(jié)構(gòu)下的可組裝式數(shù)據(jù)庫(kù)遷移簡(jiǎn)單,且可以讓以往多個(gè)數(shù)據(jù)庫(kù)一起共享,真正實(shí)現(xiàn)了數(shù)據(jù)多租戶架構(gòu)。
(2)資源靈活配置。Oracle12c RAC技術(shù)提供了一種在數(shù)據(jù)庫(kù)層實(shí)現(xiàn)按需管理的模式,該模式相當(dāng)于將基礎(chǔ)環(huán)境的配置交給DBA處理,便于從數(shù)據(jù)庫(kù)層次根據(jù)用戶應(yīng)用和數(shù)據(jù)的價(jià)值,靈活分配資源進(jìn)行基礎(chǔ)環(huán)境配置[3]。
數(shù)據(jù)庫(kù)服務(wù)層多點(diǎn)計(jì)算資源高可用設(shè)計(jì),其根據(jù)實(shí)際的業(yè)務(wù)系統(tǒng)負(fù)荷和資源占用比,可以動(dòng)態(tài)分配計(jì)算節(jié)點(diǎn)資源,既避免了資源浪費(fèi)又能確實(shí)滿足業(yè)務(wù)支撐,還能根據(jù)將來(lái)的業(yè)務(wù)擴(kuò)容同步動(dòng)態(tài)的調(diào)整資源,確保整個(gè)大容器數(shù)據(jù)庫(kù)穩(wěn)定、高效地運(yùn)行。
(3)成本控制。Oracle12c通過(guò)創(chuàng)建多租戶環(huán)境將多個(gè)部門的應(yīng)用系統(tǒng)整合到一臺(tái)性能優(yōu)良的服務(wù)器上合并成一個(gè)容器數(shù)據(jù)庫(kù),既降低了資源消耗也減少了系統(tǒng)維護(hù)成本。同時(shí),未來(lái)所有數(shù)據(jù)服務(wù)需求也都可在該oracle12c架構(gòu)上進(jìn)行統(tǒng)一的資源開設(shè)、管理和回收,能極大地降低校園運(yùn)維成本和數(shù)據(jù)服務(wù)資源的生命周期管理。
關(guān)于遷移的方法,對(duì)于oracle數(shù)據(jù)庫(kù)環(huán)境,可以利用imp/exp和數(shù)據(jù)泵導(dǎo)入導(dǎo)出的方式進(jìn)行遷移[4];對(duì)于異構(gòu)系統(tǒng),可以利用XML即可擴(kuò)展標(biāo)記語(yǔ)言,該語(yǔ)言和各種主流的數(shù)據(jù)庫(kù)都有接口(如 Mysql、Access、SQL、和 Oracle等),而且還具有可擴(kuò)展、跨平臺(tái)、易于傳輸、靈活等特點(diǎn),非常適合于在異構(gòu)系統(tǒng)與平臺(tái)之間作數(shù)據(jù)交換。把XML文件作為中介,首先從源數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)并按照XML格式寫入到一個(gè)XML文檔,然后讀取并分析該XML文件再將數(shù)據(jù)添加入目標(biāo)數(shù)據(jù)庫(kù),從而可以完成兩臺(tái)不同機(jī)器上不同系統(tǒng)不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)遷移。
3.2 利用ODA方案提供大容器數(shù)據(jù)庫(kù)所需的高可用性與IO性能
Oracle12c在架構(gòu)上滿足了大容器數(shù)據(jù)庫(kù)實(shí)現(xiàn)需求,然而大容器數(shù)據(jù)庫(kù)還面臨一個(gè)挑戰(zhàn),就是為大規(guī)模查詢體用必要的IO帶寬,隨著數(shù)據(jù)量和用戶負(fù)載的不斷增長(zhǎng)這種情況尤其如此。一種可伸縮性的、高性能的硬件基礎(chǔ)架構(gòu)是可靠的大容器數(shù)據(jù)庫(kù)解決方案的堅(jiān)實(shí)基礎(chǔ)。
Oracle Database Appliance(ODA)是甲骨文推出的一款數(shù)據(jù)庫(kù)高可用軟硬一體機(jī)解決方案,其將計(jì)算資源、儲(chǔ)存資源以及網(wǎng)絡(luò)資源等通過(guò)一系列定制的優(yōu)化措施進(jìn)行整合,提供了業(yè)界領(lǐng)先的可擴(kuò)展性和性能、高度集成的分析以及先進(jìn)的負(fù)載管理,為客戶提供了一個(gè)集軟件、服務(wù)器、存儲(chǔ)與網(wǎng)絡(luò)于一體的完全集成的系統(tǒng)。大容器數(shù)據(jù)庫(kù)應(yīng)用ODA作為載體有如下一些特別的優(yōu)勢(shì):
(1)通過(guò)內(nèi)嵌InfiniBand代替內(nèi)網(wǎng)交換機(jī),同時(shí)提供優(yōu)化存儲(chǔ)解決方案使大規(guī)模數(shù)據(jù)查詢的性能有了顯著的提升,并且能夠提供非常高效的數(shù)據(jù)存儲(chǔ)性能,可作為存儲(chǔ)大量校園核心事務(wù)數(shù)據(jù)(如財(cái)務(wù)記錄、學(xué)生數(shù)據(jù)、科研數(shù)據(jù)等)的主要分析數(shù)據(jù)庫(kù)。
(2)所有硬盤通過(guò)ASM直接管理,可以允許同時(shí)壞兩塊盤,與raid5/6的區(qū)別是只要還存在足夠的空間,ASM條帶化的硬盤仍可以將壞盤上的數(shù)據(jù)繼續(xù)復(fù)制到好的區(qū)域中,由此帶來(lái)了ODA的冗余和高可用性。
(3)相對(duì)于昂貴的exdata,ODA簡(jiǎn)單易用、經(jīng)濟(jì)實(shí)惠,非常適合于應(yīng)用于校園場(chǎng)景。同時(shí)整個(gè)機(jī)器連接線非常少,再加上一鍵式安裝部署rac的方式,這都極大的簡(jiǎn)化了dba的工作。
除了上述優(yōu)勢(shì)之外,ODA還提供了一個(gè)OAKCLI工具,能很方便的實(shí)現(xiàn)數(shù)據(jù)庫(kù)的創(chuàng)建與遷移,用戶通過(guò)OAKCLI可以輕松實(shí)現(xiàn)數(shù)據(jù)庫(kù)的升級(jí)、容器數(shù)據(jù)庫(kù)的創(chuàng)建、刪除等操作,這極大地方便了數(shù)據(jù)庫(kù)遷移工作。
4 結(jié)語(yǔ)
智慧校園建設(shè)與數(shù)據(jù)治理是一個(gè)長(zhǎng)期的話題,Oracle12c+ODA模式下完成數(shù)據(jù)庫(kù)物理集中統(tǒng)一管理后,校園整個(gè)數(shù)據(jù)庫(kù)系統(tǒng)全貌便能非常直觀、方便的展現(xiàn)在DBA面前,同時(shí)其本身能夠提供IO查詢、數(shù)據(jù)存儲(chǔ)與分析,是滿足校園數(shù)據(jù)業(yè)務(wù)要求的一套安全、高可用的解決方案,經(jīng)實(shí)踐證明,具有良好的實(shí)用性。
參考文獻(xiàn)
[1] 蔣東興,付小龍,袁芳,吳海燕,劉啟新.大數(shù)據(jù)背景下的高校智慧校園建設(shè)探討[J]. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版).2015,119-125,131.
[2] 趙茉秋,蘇延慶.Oracle Database 12c多租戶環(huán)境研究與實(shí)現(xiàn)[J].電腦編程技巧與維護(hù),2016,49-51,59.
[3] 王駿翔.基于Oracle12c DBaaS構(gòu)建云計(jì)算數(shù)據(jù)服務(wù)體系[J].上海船舶運(yùn)輸科學(xué)研究所學(xué)報(bào),2015,71-76.
[4] 李偉,劉志強(qiáng),陳宏光.Oracle12c在整合醫(yī)院輔助信息系統(tǒng)低版本數(shù)據(jù)庫(kù)上的應(yīng)用實(shí)踐[J].網(wǎng)絡(luò)空間安全,2015,93-96.