長(zhǎng)期以來(lái),IT業(yè)界一直在尋求新型數(shù)據(jù)庫(kù)系統(tǒng)以彌補(bǔ)經(jīng)典的關(guān)系數(shù)據(jù)庫(kù)在管理非結(jié)構(gòu)化數(shù)據(jù)方面的不足。Internet的異軍突起以及XML語(yǔ)言的出現(xiàn),給數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展開(kāi)辟了一片新的天地。原生XML數(shù)據(jù)庫(kù)系統(tǒng)概念的問(wèn)世,標(biāo)志著數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)入了新的一個(gè)的發(fā)展時(shí)期。
關(guān)于XML技術(shù)
20世紀(jì)70年代,數(shù)據(jù)庫(kù)系統(tǒng)的發(fā)展進(jìn)入了“關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)(relational database)”時(shí)期。隨著信息技術(shù)和市場(chǎng)的發(fā)展,人們發(fā)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)雖然技術(shù)很成熟,但其局限性也是顯而易見(jiàn)的:它能很好地處理所謂的“表格型數(shù)據(jù)”,卻對(duì)技術(shù)界出現(xiàn)的越來(lái)越多的復(fù)雜類(lèi)型的數(shù)據(jù)無(wú)能為力。九十年代以后,數(shù)據(jù)庫(kù)業(yè)界一直在研究和尋求所謂的“后關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)(post-relational database)”。XML技術(shù)的誕生就是為了統(tǒng)一不同格式的數(shù)據(jù),實(shí)現(xiàn)不同系統(tǒng)之間的信息共享,增加系統(tǒng)價(jià)值。
XML是一種標(biāo)記語(yǔ)言,以文本為基礎(chǔ),具有易讀性和平臺(tái)無(wú)關(guān)性,它以其結(jié)構(gòu)化、可擴(kuò)展性及靈活性的特點(diǎn)引起了業(yè)界的普遍關(guān)注。XML技術(shù)的誕生就是為了統(tǒng)一不同格式的數(shù)據(jù),實(shí)現(xiàn)不同系統(tǒng)之間的信息共享,增加系統(tǒng)價(jià)值。XML是處理非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)的橋梁。由于XML是一種可自我描述定義的元語(yǔ)言,所以它將大量用于制定行業(yè)內(nèi)及行業(yè)間數(shù)據(jù)交換的標(biāo)準(zhǔn)。圍繞著XML已經(jīng)形成了一大批新的技術(shù)及標(biāo)準(zhǔn)。工業(yè)界也在加緊制定自己行業(yè)的XML標(biāo)準(zhǔn)。目前,XML 數(shù)據(jù)已被廣泛地用于實(shí)際應(yīng)用。在企業(yè)內(nèi)部,80%的信息都是除結(jié)構(gòu)化數(shù)據(jù)以外的文檔、郵件、音頻視頻等類(lèi)型的非結(jié)構(gòu)化數(shù)據(jù),而這些數(shù)據(jù)的管理用XML形式描述是最好的。更多的例子包括辦公文檔(DOC, XLS),網(wǎng)頁(yè)(HTML),PDF,圖像(JPG, GIF),音頻(MP3),視頻(MPG, AVI),文本等主流非結(jié)構(gòu)化數(shù)據(jù)。可以預(yù)見(jiàn),在以互聯(lián)網(wǎng)為基礎(chǔ)的企業(yè)及商務(wù)應(yīng)用中,XML數(shù)據(jù)將呈爆炸性地遞增。
XML數(shù)據(jù)庫(kù)的優(yōu)勢(shì)
江蘇倍多科技前身Ipedo成立于美國(guó)硅谷,是原生XML數(shù)據(jù)庫(kù)行業(yè)奠基者及標(biāo)桿企業(yè),同時(shí)也是行業(yè)標(biāo)準(zhǔn)的發(fā)起人之一。目前,江蘇倍多的XML數(shù)據(jù)庫(kù)已是相對(duì)成熟的產(chǎn)品,并在國(guó)內(nèi)國(guó)外有大規(guī)模應(yīng)用的客戶,如英國(guó)電信,法國(guó)電信,美國(guó)海軍,惠普,路透社,北京地稅局,江蘇電科院等。從產(chǎn)品的成熟化角度,江蘇倍多的XML數(shù)據(jù)庫(kù)同IBM和甲骨文等企業(yè)站在同一條起跑線上,而從產(chǎn)品的性能上則具有一定優(yōu)勢(shì)。
大量資料和數(shù)字顯示XML數(shù)據(jù)庫(kù)的應(yīng)用已經(jīng)成為數(shù)據(jù)庫(kù)產(chǎn)業(yè)新一輪的熱點(diǎn)。業(yè)界最大的企業(yè)軟件公司,如:IBM,甲骨文和泰瑞數(shù)據(jù)都已正式推出各自的XML數(shù)據(jù)庫(kù)解決方 案。電子病歷,電子商務(wù)和信息整合市場(chǎng)都將給該市場(chǎng)帶來(lái)數(shù)以萬(wàn)億的市場(chǎng)機(jī)會(huì)。
相對(duì)IBM和甲骨文的以關(guān)系數(shù)據(jù)庫(kù)起家的企業(yè)相比,XML數(shù)據(jù)庫(kù)有天生的性能方面的優(yōu)勢(shì)。IBM和甲骨文是在原有關(guān)系數(shù)據(jù)庫(kù)基礎(chǔ)上擴(kuò)展了XML支持模塊,完成XML數(shù)據(jù)和數(shù)據(jù)庫(kù)之間的格式轉(zhuǎn)換和傳輸。即把XML數(shù)據(jù)本身的樹(shù)形結(jié)構(gòu)轉(zhuǎn)換成關(guān)系模型中的二維表結(jié)構(gòu),從存儲(chǔ)粒度上,可以把整個(gè)XML文檔作為RDBMS表中一行,或把XML文檔進(jìn)行解析后,存儲(chǔ)到相應(yīng)的表格中。為了支持W3C的一些XML操作標(biāo)準(zhǔn),如XPath,XED提供一些新的原語(yǔ)(如Oracle9iR2開(kāi)始增加了一些數(shù)據(jù)包來(lái)操作XML數(shù)據(jù)等),并優(yōu)化了XML處理模塊。將XML樹(shù)狀結(jié)構(gòu)翻譯成關(guān)系二維表,再?gòu)亩S表翻譯回樹(shù)狀結(jié)構(gòu),會(huì)造成性能方面的很大問(wèn)題。
XML數(shù)據(jù)的實(shí)現(xiàn)方式是原生態(tài)XML結(jié)構(gòu),即從底層就支持樹(shù)狀結(jié)構(gòu),采用層次數(shù)據(jù)存儲(chǔ)模型,保持XML文檔的樹(shù)形結(jié)構(gòu),省掉了XML文檔和傳統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)轉(zhuǎn)換過(guò)程。原生態(tài)XML數(shù)據(jù)結(jié)構(gòu)是專(zhuān)門(mén)為存儲(chǔ)XML文檔設(shè)計(jì),也兼有一般數(shù)據(jù)庫(kù)的特性,例如支持事務(wù),并發(fā)控制,查詢語(yǔ)言,安全機(jī)制,二次開(kāi)發(fā)接口等。唯一的不同之處在于其內(nèi)部存儲(chǔ)模型是基于XML文檔樹(shù)形結(jié)構(gòu),而非關(guān)系模型。 下圖可以明確地反映出兩種實(shí)現(xiàn)方式的根本區(qū)別。
在XML數(shù)據(jù)庫(kù)行業(yè)組織的XML數(shù)據(jù)庫(kù)基準(zhǔn)程序XMark的測(cè)試中,倍多的產(chǎn)品性能明顯勝出。而在最近國(guó)防某個(gè)項(xiàng)目的測(cè)試中,XML數(shù)據(jù)庫(kù)與甲骨文同臺(tái)比測(cè),結(jié)果表明,XML數(shù)據(jù)庫(kù)在若干重要指標(biāo)上有明顯優(yōu)勢(shì),尤其是在優(yōu)化和查詢方面,一掃國(guó)內(nèi)數(shù)據(jù)庫(kù)在高性能和穩(wěn)定性方面普遍存在的頹氣。下圖表明了XMark測(cè)試的結(jié)果。
前景美好 道路曲折
近年來(lái)我國(guó)發(fā)布的電子政務(wù)標(biāo)準(zhǔn)和文檔標(biāo)準(zhǔn),如UOF,UOML等,均基于XML。我國(guó)的證券交易市場(chǎng)(如上海證券交易所)已開(kāi)始采用基于XML的財(cái)務(wù)報(bào)表標(biāo)準(zhǔn)XBRL。而最近才發(fā)布的電子病歷標(biāo)準(zhǔn)征求意見(jiàn)稿及健康檔案標(biāo)準(zhǔn)更是為XML的應(yīng)用提供了一個(gè)廣闊的前景。要把XML數(shù)據(jù)庫(kù)產(chǎn)業(yè)做大,任何公司都知道離不開(kāi)中國(guó)市場(chǎng)。中國(guó)有13億人,單“全民健康檔案”一個(gè)項(xiàng)目就足以撐起整個(gè)產(chǎn)業(yè)。
但是,就目前而言,甲骨文、微軟、IBM、Sybase等巨頭在中國(guó)數(shù)據(jù)庫(kù)市場(chǎng)上繼續(xù)占據(jù)著97%以上的絕對(duì)壟斷份額,這一形勢(shì)沒(méi)有大的改變。長(zhǎng)期壟斷導(dǎo)致許多重點(diǎn)用戶依附于國(guó)外產(chǎn)品,不易接受新的替代品,這反過(guò)來(lái)促進(jìn)了壟斷趨于極端。后來(lái)者面臨的市場(chǎng)進(jìn)入壁壘越來(lái)越高,是國(guó)產(chǎn)數(shù)據(jù)庫(kù)面臨的主要困難之一。
此外,國(guó)內(nèi)用戶使用盜版數(shù)據(jù)庫(kù)的情況十分普遍,不亞于操作系統(tǒng)和辦公軟件,而且更為隱蔽;加上近年來(lái)國(guó)際開(kāi)放源碼產(chǎn)品的興起也為國(guó)內(nèi)用戶提供了更多的選擇,MySQL、PostGreSQL等提供了比較完整的數(shù)據(jù)庫(kù)功能,能夠滿足大多數(shù)中低端應(yīng)用需要,這些很大程度上削弱了國(guó)產(chǎn)數(shù)據(jù)庫(kù)的價(jià)格優(yōu)勢(shì)。
因此說(shuō),國(guó)產(chǎn)數(shù)據(jù)庫(kù)進(jìn)入市場(chǎng)伊始,就面臨著上下兩方夾擊的嚴(yán)峻競(jìng)爭(zhēng),必須在產(chǎn)品定位、價(jià)格體系、營(yíng)銷(xiāo)方式、支持服務(wù)等非研發(fā)范疇中迅速培養(yǎng)能力,并以創(chuàng)新來(lái)改變劣勢(shì)。目前國(guó)產(chǎn)數(shù)據(jù)庫(kù)只在局部市場(chǎng)上嶄露頭角,宣傳聲勢(shì)和知名度遠(yuǎn)遠(yuǎn)不夠,沒(méi)有像國(guó)產(chǎn)操作系統(tǒng)、中間件、辦公套件等產(chǎn)品那樣,與國(guó)外主流產(chǎn)品開(kāi)展正面競(jìng)爭(zhēng),也并沒(méi)有引起國(guó)外廠商的重視。也正因如此,國(guó)產(chǎn)數(shù)據(jù)庫(kù)仍大有可為。