卜南翔 徐述 王吉祥 曾海洋
摘 要:數(shù)據(jù)集成是實(shí)現(xiàn)數(shù)據(jù)共享的有效手段,目前實(shí)現(xiàn)數(shù)據(jù)集成的主要方法有數(shù)據(jù)倉(cāng)庫(kù)等,而在這些方法中都存在數(shù)據(jù)使用的耦合問(wèn)題,文章對(duì)此進(jìn)行研究,通過(guò)對(duì)SDO的概念闡述以及對(duì)高校數(shù)據(jù)集成平臺(tái)中SDO的應(yīng)用分析,進(jìn)而提出SDO在該平臺(tái)中的實(shí)現(xiàn)方法。
關(guān)鍵詞:高校;數(shù)據(jù)集成;應(yīng)用分析;SDO
近年來(lái),信息技術(shù)在我國(guó)各行業(yè)的應(yīng)用不斷深入,我國(guó)數(shù)字化建設(shè)得到快速發(fā)展。高校作為科研與知識(shí)傳播的前沿,也需加快對(duì)數(shù)據(jù)集成平臺(tái)的建設(shè)與服務(wù)數(shù)據(jù)對(duì)象(Service Data Objects,SDO)的應(yīng)用。SDO在數(shù)據(jù)集成平臺(tái)中的應(yīng)用,主要是為數(shù)據(jù)集成平臺(tái)提供一個(gè)良好的解決方案,提升高校的數(shù)字化與精細(xì)化管理水平。
1 案例概述
某高校為提高精細(xì)化與數(shù)字化管理水平,在數(shù)據(jù)集成平臺(tái)中應(yīng)用SDO,以此對(duì)高校的教學(xué)、管理等資源進(jìn)行有效的整合,對(duì)用戶(hù)管理進(jìn)行統(tǒng)一,并實(shí)現(xiàn)對(duì)資源的合理分配與利用。高校在進(jìn)行集成平臺(tái)建設(shè)中有諸多困難,比如規(guī)劃無(wú)法有效落實(shí),關(guān)鍵數(shù)據(jù)歸屬管理無(wú)法明確等均制約著集成平臺(tái)的建立。因此,針對(duì)高校自身存在的問(wèn)題,依托數(shù)字校園新契機(jī),制定合理的設(shè)計(jì)方案。
本次數(shù)據(jù)集成平臺(tái)的建設(shè)以實(shí)現(xiàn)管理效益最大化為目的,在建設(shè)中應(yīng)用現(xiàn)代管理思想,并加強(qiáng)對(duì)精細(xì)化的設(shè)計(jì)延伸。高校在進(jìn)行精細(xì)化管理與數(shù)據(jù)集成平臺(tái)建設(shè)中需遵循:數(shù)據(jù)化原則、程序化原則、操作性原則與標(biāo)準(zhǔn)化原則。高校在數(shù)據(jù)集成平臺(tái)建設(shè)中,為強(qiáng)化對(duì)數(shù)據(jù)的集成與應(yīng)用,在數(shù)據(jù)集成平臺(tái)中應(yīng)用SDO,促進(jìn)精細(xì)化建設(shè)與數(shù)字化校園管理。本文對(duì)高校數(shù)據(jù)集成平臺(tái)中SDO的應(yīng)用分析都是建立在此基礎(chǔ)上的。
2 SDO相關(guān)技術(shù)分析
2.1 SDO概述
SDO技術(shù)可以方便地實(shí)現(xiàn)對(duì)程序數(shù)據(jù)的統(tǒng)一訪問(wèn),并且能夠?qū)崿F(xiàn)編程模型的共同建立[1]。在對(duì)該技術(shù)的有效應(yīng)用下,數(shù)據(jù)操作方法得到統(tǒng)一,在進(jìn)行應(yīng)用程序查詢(xún)等過(guò)程中數(shù)據(jù)訪問(wèn)變得更加輕松。SDO已成為我國(guó)高校數(shù)據(jù)集成平臺(tái)應(yīng)用的重要支撐。
SDO具備以下兩個(gè)方面的特征:(1)支持動(dòng)態(tài)與靜態(tài)編程模型。靜態(tài)接口應(yīng)用,使得編程模型簡(jiǎn)單,且十分適用元數(shù)據(jù)明確的情況[2]。但動(dòng)態(tài)查詢(xún)中,查詢(xún)產(chǎn)生的某些結(jié)果數(shù)據(jù)無(wú)法進(jìn)行明確,從而無(wú)法使用靜態(tài)接口。所以在進(jìn)行數(shù)據(jù)編程的時(shí)候,需同時(shí)支持動(dòng)態(tài)與靜態(tài)數(shù)據(jù)API。
(2)支持離線(xiàn)編程模型。SDO主要通過(guò)對(duì)客戶(hù)端數(shù)據(jù)讀取,即時(shí)將數(shù)據(jù)保存并對(duì)這些數(shù)據(jù)進(jìn)行相應(yīng)的操作,然后將其提交至數(shù)據(jù)源。即使客戶(hù)端不在線(xiàn),系統(tǒng)也可以實(shí)現(xiàn)數(shù)據(jù)的修改。
2.2 SDO體系結(jié)構(gòu)
SDO體系結(jié)構(gòu)是由數(shù)據(jù)源、數(shù)據(jù)圖等要素構(gòu)成的,具體包含:(1)數(shù)據(jù)源。SDO能實(shí)現(xiàn)對(duì)多種數(shù)據(jù)源的訪問(wèn)與更新。(2)數(shù)據(jù)中介服務(wù)。在不同的數(shù)據(jù)源中SDO采用不同的中介服務(wù)來(lái)保證不同數(shù)據(jù)的中介服務(wù)。(3)數(shù)據(jù)對(duì)象。數(shù)據(jù)對(duì)象是SDO的核心內(nèi)容,包含了各種數(shù)據(jù)、序列操作等,能夠?qū)崿F(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的有效支持。(4)數(shù)據(jù)圖。數(shù)據(jù)圖是依據(jù)元數(shù)據(jù)進(jìn)行封裝。SDO在進(jìn)行數(shù)據(jù)源訪問(wèn)時(shí),會(huì)對(duì)數(shù)據(jù)圖進(jìn)行更新操作。(5)元數(shù)據(jù)。元數(shù)據(jù)描述數(shù)據(jù)的類(lèi)型及關(guān)系,是數(shù)據(jù)圖創(chuàng)建的基礎(chǔ)。
3 高校數(shù)據(jù)集成平臺(tái)中SDO應(yīng)用技術(shù)
3.1 HDFS分布式存儲(chǔ)
分布式存儲(chǔ)系統(tǒng)(Hadoop Distributed File System,HDFS)具有高容錯(cuò)與低成本的特點(diǎn)。HDFS由DataNode(實(shí)際數(shù)據(jù)存儲(chǔ))與NameNode(文件系統(tǒng)元數(shù)據(jù)管理)組成。在HDFS單集群中只有一個(gè)主節(jié)點(diǎn)NameNode,其他節(jié)點(diǎn)是從節(jié)點(diǎn)DataNode。
對(duì)文件進(jìn)行存儲(chǔ)時(shí),HDFS將對(duì)文件進(jìn)行數(shù)據(jù)塊分割,每個(gè)數(shù)據(jù)塊大小默認(rèn)為128 Mb。每個(gè)小數(shù)據(jù)塊默認(rèn)復(fù)制兩次,因此,每個(gè)數(shù)據(jù)塊在分布式存儲(chǔ)系統(tǒng)中有3份相同數(shù)據(jù)副本。然后NameNode會(huì)對(duì)數(shù)據(jù)塊進(jìn)行存儲(chǔ)位置隨機(jī)分配,選擇合適的DataNode節(jié)點(diǎn)進(jìn)行存儲(chǔ),保證數(shù)據(jù)塊均衡地分布在HDFS中[3]。
3.2 Spark生態(tài)集成環(huán)境
Spark是一個(gè)能夠?qū)崿F(xiàn)快速運(yùn)算的集群計(jì)算平臺(tái),建立在內(nèi)存計(jì)算之上,對(duì)大數(shù)據(jù)環(huán)境下的數(shù)據(jù)能進(jìn)行高效的處理,同時(shí)還能保證高容錯(cuò)性。Spark的適應(yīng)性較強(qiáng),在不同的分布式平臺(tái)中都能得到有效應(yīng)用。
Spark的生態(tài)集成環(huán)境包含Spark Core,Spark SQL,SparkStreaming等,并能夠?yàn)榇髷?shù)據(jù)云端提供一站式解決平臺(tái)。Spark集成開(kāi)發(fā)環(huán)境的典型安裝是加載scala 2.9.3:對(duì)features和plugins兩個(gè)目錄下的文件進(jìn)行拷貝并壓縮,重新啟動(dòng)Eclipse,在Eclipse中依次選擇“Help”,最后完成安裝。
3.3 Python大數(shù)據(jù)開(kāi)發(fā)
Python作為一門(mén)年輕、優(yōu)雅又簡(jiǎn)潔的計(jì)算機(jī)語(yǔ)言,在大數(shù)據(jù)開(kāi)發(fā)與集成、深度學(xué)習(xí)的應(yīng)用中得到了廣泛應(yīng)用。Python對(duì)大數(shù)據(jù)進(jìn)行分析時(shí)最常使用NumPy庫(kù)與Pandas庫(kù)。
4 高校數(shù)據(jù)集成平臺(tái)中SDO的應(yīng)用實(shí)現(xiàn)
4.1 元數(shù)據(jù)
4.1.1 數(shù)據(jù)源元數(shù)據(jù)
數(shù)據(jù)源元數(shù)據(jù)是一種描述性文件,通過(guò)對(duì)數(shù)據(jù)源的驅(qū)動(dòng)類(lèi)型、端口與數(shù)據(jù)結(jié)構(gòu)等進(jìn)行描述[4]。在SDO2.1中還尚未對(duì)數(shù)據(jù)中介服務(wù)的相關(guān)內(nèi)容進(jìn)行涉及,對(duì)數(shù)據(jù)源的定義也相對(duì)較少,所以對(duì)SDO元數(shù)據(jù)擴(kuò)展設(shè)計(jì)可以定義為元數(shù)據(jù)的數(shù)據(jù)源描述,將其簡(jiǎn)稱(chēng)為動(dòng)態(tài)系統(tǒng)開(kāi)發(fā)方法(Dynamic Systems Development Method,DSDM)。DSDM對(duì)數(shù)據(jù)源進(jìn)行定義時(shí),主體結(jié)構(gòu)有:根元素(DSInof)、驅(qū)動(dòng)類(lèi)型(DSDrive)與主鍵(DSKey)等。
4.1.2 對(duì)象元數(shù)據(jù)
對(duì)象元數(shù)據(jù)是對(duì)數(shù)據(jù)的組成結(jié)構(gòu)與關(guān)系的描述,這也是SDO創(chuàng)建與數(shù)據(jù)處理的基礎(chǔ),而中介服務(wù)封裝數(shù)據(jù)圖也是以此為標(biāo)準(zhǔn)進(jìn)行工作的。對(duì)象元數(shù)據(jù)也需建立起元模型DOM,DOM是通過(guò)對(duì)DSDM的擴(kuò)展得到。DOM模型主要有兩個(gè)方面的內(nèi)容,分別是數(shù)據(jù)集成與數(shù)據(jù)結(jié)構(gòu)描述。
4.2 數(shù)據(jù)服務(wù)中介
在進(jìn)行多種數(shù)據(jù)源集成時(shí),要通過(guò)不同的數(shù)據(jù)中介服務(wù)對(duì)數(shù)據(jù)源進(jìn)行連接,提高高校對(duì)系統(tǒng)開(kāi)發(fā)效率[5]。通用模塊主要有元數(shù)據(jù)解析器。元數(shù)據(jù)解析器對(duì)元數(shù)據(jù)的解析,并對(duì)信息進(jìn)行提取。通過(guò)數(shù)據(jù)圖封裝模塊的應(yīng)用,可以將數(shù)據(jù)序列轉(zhuǎn)化為數(shù)據(jù)圖。
數(shù)據(jù)圖的請(qǐng)求工作流程為:數(shù)據(jù)圖請(qǐng)求→解析元數(shù)據(jù)文件→連接數(shù)據(jù)源→生成本地?cái)?shù)據(jù)→生成目標(biāo)數(shù)據(jù)圖。
4.3 統(tǒng)一訪問(wèn)界面設(shè)計(jì)
集成系統(tǒng)化為異構(gòu)數(shù)據(jù)源提供進(jìn)行訪問(wèn)的統(tǒng)一界面。數(shù)據(jù)源在異構(gòu)分布中對(duì)用戶(hù)是透明的,形成一對(duì)一的數(shù)據(jù)源操作。用戶(hù)登錄到界面后,點(diǎn)擊數(shù)據(jù)查詢(xún),在界面中進(jìn)行條件檢索,檢索條件可以是關(guān)鍵字、數(shù)據(jù)源名稱(chēng)與類(lèi)型等。
4.4 數(shù)據(jù)源的配置信息
數(shù)據(jù)集成平臺(tái)在收到系統(tǒng)任務(wù)后,會(huì)根據(jù)不同的數(shù)據(jù)源進(jìn)行信息的轉(zhuǎn)換與集成[6]。用戶(hù)在進(jìn)行數(shù)據(jù)源的添加或者刪除等操作時(shí),只需對(duì)相關(guān)的信息進(jìn)行配置更改便可完成。
5 結(jié)語(yǔ)
本文基于高校進(jìn)行精細(xì)化、數(shù)字化校園建設(shè),緊緊圍繞數(shù)據(jù)集成平臺(tái)中SDO的應(yīng)用進(jìn)行分析,結(jié)論如下:SDO應(yīng)用中,通過(guò)SDOAPI替代數(shù)據(jù)接口,實(shí)現(xiàn)對(duì)數(shù)據(jù)的獲取,并對(duì)數(shù)據(jù)進(jìn)行處理,而系統(tǒng)中的數(shù)據(jù)中介服務(wù)被當(dāng)作包裝器;SDO元數(shù)據(jù)在功能上與中間件等基本相同,也即利用公共模型,對(duì)不同的數(shù)據(jù)源實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)視圖。
高校數(shù)據(jù)集成平臺(tái)中的SDO應(yīng)用建立在良好的軟件與硬件環(huán)境中。SDO應(yīng)用的實(shí)現(xiàn)主要通過(guò)元數(shù)據(jù)、數(shù)據(jù)服務(wù)中介、統(tǒng)一訪問(wèn)界面設(shè)計(jì)與數(shù)據(jù)源信息配置等完成。高校在進(jìn)行數(shù)據(jù)集成平臺(tái)建設(shè)中有效應(yīng)用SDO,有助于實(shí)現(xiàn)高校管理的精細(xì)化與數(shù)字化,提高現(xiàn)代化高校管理水平。
[參考文獻(xiàn)]
[1]唐春波,郭文明,嚴(yán)靜東,等.FHIR數(shù)據(jù)集成平臺(tái)研究及其在連續(xù)醫(yī)療中的應(yīng)用[J].生物醫(yī)學(xué)工程研究,2017(2):178-182.
[2]萬(wàn)歆,姚晴虹.基于異構(gòu)系統(tǒng)的數(shù)據(jù)集成平臺(tái)的搭建和應(yīng)用[J].醫(yī)療衛(wèi)生裝備,2016(2):61-63.
[3]肖培根,李海濤,朱凌,等.配網(wǎng)自動(dòng)化規(guī)劃設(shè)計(jì)之?dāng)?shù)據(jù)集成平臺(tái)的研究與應(yīng)用[J].電子設(shè)計(jì)工程,2016(11):38-41.
[4]李景奇,卞藝杰.基于大數(shù)據(jù)挖掘的高校知識(shí)管理系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017(9):54-61.
[5]吳振濤.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的數(shù)據(jù)集成在數(shù)字化校園中的應(yīng)用[J].電子設(shè)計(jì)工程,2016(9):28-31.
[6]馬國(guó)耀,孫勇韜,馬玉玲.數(shù)據(jù)采集模板化技術(shù)在醫(yī)療大數(shù)據(jù)集成建設(shè)中的應(yīng)用[J].中國(guó)衛(wèi)生信息管理雜志,2016(4):414-416.