劉麗娜
【摘 要】目前已經(jīng)有很多企業(yè)和機(jī)構(gòu)研究了異構(gòu)數(shù)據(jù)集成共享問(wèn)題,并取得了一定的效果,很好地緩解了“信息孤島”帶來(lái)的問(wèn)題,但是大多數(shù)異構(gòu)數(shù)據(jù)集成共享系統(tǒng)的研究方向主要是將不同源的數(shù)據(jù)信息進(jìn)行物理上的集中存儲(chǔ)與整合,或在邏輯上實(shí)現(xiàn)了統(tǒng)一訪問(wèn)共享,并沒(méi)有對(duì)集成共享的異構(gòu)數(shù)據(jù)信息進(jìn)行內(nèi)容上的整合。數(shù)據(jù)融合是實(shí)現(xiàn)數(shù)據(jù)信息共享的一種技術(shù)手段,以此為出發(fā)點(diǎn),為了更好地提高數(shù)據(jù)信息使用效率,論文從數(shù)據(jù)融合的角度出發(fā),研究設(shè)計(jì)了一種基于XML技術(shù)的異構(gòu)數(shù)據(jù)集成共享模式,提供了一種異構(gòu)數(shù)據(jù)高效融合的方法。
【Abstract】 At present, many enterprises and institutions have studied the problem of heterogeneous data integration and sharing, and achieved some results, which has alleviated the problem of "information island". However, the research direction of most heterogeneous data integration and sharing systems is mainly to store and integrate the data information from different sources in physical way, or to achieve unified access and sharing in a logical way. This does not integrate the content of heterogeneous data information that is integrated and shared. Data fusion is a technical means to realize data information sharing. Starting from this point, in order to better improve the use efficiency of data information, this paper studies and designs a heterogeneous data integration and sharing mode based on XML technology from the perspective of data fusion, and provides a method for the efficient fusion of heterogeneous data.
【關(guān)鍵詞】異構(gòu)數(shù)據(jù)集成;XML;數(shù)據(jù)共享
【Keywords】 heterogeneous data integration; XML; data sharing
【中圖分類號(hào)】TP311.5 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文章編號(hào)】1673-1069(2019)06-0191-02
1 異構(gòu)數(shù)據(jù)集成共享模式
目前比較流行的集中數(shù)據(jù)集成共享模式主要有集中式集成共享模式、統(tǒng)一訪問(wèn)式集成共享模式、數(shù)據(jù)融合集成共享模式。本文主要對(duì)數(shù)據(jù)融合集成共享模式進(jìn)行了詳細(xì)研究。
1.1 集中式集成共享模式
集中式集成共享模式是指,使用數(shù)據(jù)采集工具,定制數(shù)據(jù)采集任務(wù),自動(dòng)化導(dǎo)入異構(gòu)數(shù)據(jù)源數(shù)據(jù)信息,或?qū)悩?gòu)數(shù)據(jù)源數(shù)據(jù)打包成數(shù)據(jù)文件進(jìn)行手工導(dǎo)入。然后將數(shù)據(jù)集中存儲(chǔ)起來(lái)的一種數(shù)據(jù)集成共享方式。這種集成共享方式的優(yōu)點(diǎn)在于可以將數(shù)據(jù)物理集中起來(lái),方便后續(xù)進(jìn)行統(tǒng)計(jì)挖掘分析。缺點(diǎn)是難以實(shí)現(xiàn)實(shí)時(shí)更新,對(duì)系統(tǒng)硬件環(huán)境要求較高,需要較大的數(shù)據(jù)存儲(chǔ)空間,并且需要系統(tǒng)能夠提供數(shù)據(jù)量持續(xù)增長(zhǎng)對(duì)存儲(chǔ)空間的需求。
1.2 統(tǒng)一訪問(wèn)式集成共享模式
統(tǒng)一訪問(wèn)式集成共享模式是指,異構(gòu)數(shù)據(jù)源將數(shù)據(jù)訪問(wèn)接口封裝成服務(wù),集成共享平臺(tái)通過(guò)訪問(wèn)異構(gòu)數(shù)據(jù)查詢接口,調(diào)用數(shù)據(jù)信息資源,從而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)信息邏輯上的集成共享以及統(tǒng)一訪問(wèn),這種集成共享的模式好處在于可以實(shí)時(shí)獲取數(shù)據(jù)信息資源,數(shù)據(jù)信息準(zhǔn)確度和時(shí)效性很高,減少了對(duì)硬件系統(tǒng)的需求。
1.3 數(shù)據(jù)融合集成共享模式
數(shù)據(jù)融合集成共享模式是指,在集中式集成共享模式或統(tǒng)一訪問(wèn)式集成共享模式的基礎(chǔ)上,在集成異構(gòu)數(shù)據(jù)時(shí),根據(jù)需求或業(yè)務(wù)數(shù)據(jù)源的特點(diǎn)對(duì)數(shù)據(jù)信息進(jìn)行整合后,再進(jìn)行集成共享的一種模式,該種模式能夠提高數(shù)據(jù)信息集成共享后的可用性以及提高集成異構(gòu)信息數(shù)據(jù)質(zhì)量。
2 關(guān)鍵技術(shù)研究
2.1 XML
XML技術(shù)(Extensible Markup Language 可擴(kuò)展標(biāo)記語(yǔ)言)是一種由萬(wàn)維網(wǎng)協(xié)會(huì)創(chuàng)建的自我描述性的語(yǔ)言。創(chuàng)建XML的最為重要的目的是實(shí)現(xiàn)數(shù)據(jù)采用一種合適的文本方式進(jìn)行傳輸,XML可以創(chuàng)建其他的語(yǔ)言和描述其他語(yǔ)言采用的數(shù)據(jù)結(jié)構(gòu),并且將其構(gòu)成一個(gè)由標(biāo)記符和屬性描述的層次結(jié)構(gòu),這種自我描述的特性可以使XML具有自我解釋的能力,更容易讓系統(tǒng)理解和接收,同時(shí)由于XML語(yǔ)言具有文本特性,可以方便地進(jìn)行運(yùn)行維護(hù)和數(shù)據(jù)交換[1]。
2.2 Web Service
Web Service是一種跨編程語(yǔ)言和跨操作系統(tǒng)平臺(tái)的遠(yuǎn)程調(diào)用技術(shù)。它是一種輕量級(jí)的信息處理技術(shù),它使用SOAP(Simple Object Access Protocol)簡(jiǎn)單對(duì)象存取協(xié)議在Web上提供的軟件服務(wù),以WSDL(Web Services Description Language)文件作為說(shuō)明文檔,并通過(guò)UDDI(Universal Description,Discovery and Integration)進(jìn)行注冊(cè)。Web Service以HTTP協(xié)議為基礎(chǔ),通過(guò)XML進(jìn)行客戶端與服務(wù)器端的通信[2]。
3 異構(gòu)數(shù)據(jù)融合實(shí)現(xiàn)方式
本文提出的異構(gòu)數(shù)據(jù)集成共享模式是一種基于數(shù)據(jù)融合的集成共享方法,采用Web Service的面向服務(wù)的體系結(jié)構(gòu)設(shè)計(jì)的系統(tǒng)。這里的面向服務(wù)的體系結(jié)構(gòu)的含義是系統(tǒng)構(gòu)成包括三種角色,即服務(wù)提供者、服務(wù)請(qǐng)求者以及注冊(cè)中心。異構(gòu)數(shù)據(jù)的融合主要通過(guò)按照XML標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)轉(zhuǎn)換來(lái)屏蔽底層數(shù)據(jù)源的異構(gòu)性,并基于此建立異構(gòu)數(shù)據(jù)融合注冊(cè)中心。通過(guò)Web服務(wù)代理包裝異構(gòu)數(shù)據(jù)源,通過(guò)數(shù)據(jù)融合注冊(cè)交換中心連接分布式的異構(gòu)數(shù)據(jù)源,從而提供數(shù)據(jù)訪問(wèn)服務(wù)。
數(shù)據(jù)融合中心首先建立一個(gè)注冊(cè)服務(wù)用來(lái)保存各數(shù)據(jù)源的連接信息、數(shù)據(jù)模式以及注冊(cè)服務(wù)中心與各數(shù)據(jù)源之間的映射關(guān)系。由于XML具有跨平臺(tái)性,所以采用XML技術(shù)進(jìn)行數(shù)據(jù)之間的轉(zhuǎn)換,可打破數(shù)據(jù)之間的異構(gòu)性。這里采用基于模板驅(qū)動(dòng)的映射,不需要事先定義好XML文檔與其他數(shù)據(jù)之間的映射關(guān)系,而是在XML文檔中嵌入帶參數(shù)的SQL語(yǔ)句,這里的SQL語(yǔ)句可以根據(jù)用戶顯示需要拼接業(yè)務(wù)邏輯,這些SQL語(yǔ)句在數(shù)據(jù)交換過(guò)程中帶入并被執(zhí)行,SQL語(yǔ)句的執(zhí)行結(jié)果獲得到的數(shù)據(jù)集替換顯示到指令所指的位置,從而生成目標(biāo)XML文檔。通過(guò)這種模式,將獲得到的目標(biāo)數(shù)據(jù)集返回到數(shù)據(jù)集成共享系統(tǒng)前端界面,可以實(shí)現(xiàn)從異構(gòu)數(shù)據(jù)源融合集成數(shù)據(jù)的需求。
這種基于XML的異構(gòu)數(shù)據(jù)融合集成方法比較適合業(yè)務(wù)數(shù)據(jù)量不是特別巨大,但是數(shù)據(jù)較為廣泛地分散在不同的業(yè)務(wù)系統(tǒng)中,且對(duì)數(shù)據(jù)需求靈活多變的中小企業(yè)的信息系統(tǒng)。它不需要建立龐大的數(shù)據(jù)中心,不需要采購(gòu)高性能的計(jì)算服務(wù)器,就可以實(shí)現(xiàn)多源業(yè)務(wù)數(shù)據(jù)融合集成,在數(shù)據(jù)集成過(guò)程中,不存在對(duì)數(shù)據(jù)的加工過(guò)程,很好地保證了數(shù)據(jù)的質(zhì)量與可信度,對(duì)原有業(yè)務(wù)系統(tǒng)影響不大,建設(shè)開(kāi)發(fā)成本較低,能夠很好地提高企業(yè)數(shù)據(jù)集成共享效率。
【參考文獻(xiàn)】
【1】胡澤,廖聞劍,彭艷兵.WebService技術(shù)研究及應(yīng)甩[J].硅谷,2009(5):12+52.
【2】周曉清.基于SOA架構(gòu)的企業(yè)應(yīng)用集成研究與應(yīng)用[D].成都:成都理工大學(xué),2010.