亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ETL 及XML 技術(shù)的分布式數(shù)據(jù)庫多層數(shù)據(jù)同步機制研究

        2022-09-02 06:24:58劉雅莉
        電子設計工程 2022年16期
        關鍵詞:數(shù)據(jù)庫機制效率

        劉雅莉

        (商洛學院 經(jīng)濟管理學院,陜西商洛 726000)

        隨著網(wǎng)絡技術(shù)的發(fā)展,各行各業(yè)對信息管理的需求日趨復雜,信息系統(tǒng)的性能、數(shù)據(jù)的安全性、數(shù)據(jù)的復用率成為系統(tǒng)使用者關注的問題。分布式數(shù)據(jù)庫作為邏輯上的統(tǒng)一整體,滿足信息既獨立、又協(xié)同的處理需求,在不同節(jié)點數(shù)據(jù)庫之間的數(shù)據(jù)傳輸、不同數(shù)據(jù)源異構(gòu)數(shù)據(jù)的信息共享方面表現(xiàn)優(yōu)異,而分布式數(shù)據(jù)庫的同步機制直接影響系統(tǒng)性能,是系統(tǒng)開發(fā)過程中必須解決的問題,因此,建立一套性能優(yōu)異的數(shù)據(jù)同步機制既能節(jié)省信息化系統(tǒng)建設成本,又能發(fā)揮出數(shù)據(jù)的最大價值。

        1 現(xiàn)有同步機制分析

        1.1 分布式數(shù)據(jù)庫簡介

        分布式數(shù)據(jù)庫通常由一組數(shù)據(jù)構(gòu)成,數(shù)據(jù)分布于多個服務器,每個服務器均可執(zhí)行局部應用,也可以利用部署的分布式集群網(wǎng)絡實現(xiàn)全局應用。從邏輯表面看,數(shù)據(jù)比較分散,但實際上是一個整體。分布式數(shù)據(jù)庫具有數(shù)據(jù)獨立、站點自治、分布透明、冗余透明、系統(tǒng)分層、并行處理等特性,為多層級結(jié)構(gòu)模式,在諸多領域的應用中有優(yōu)異表現(xiàn)。

        1.2 主流機制對比分析

        目前,主流數(shù)據(jù)同步機制主要包括數(shù)據(jù)庫復制技術(shù)、ETL 機制、SQLServer、Sybase 等。數(shù)據(jù)庫復制技術(shù)利用自身同步機制進行定期巡檢,發(fā)現(xiàn)不一致則進行復制并發(fā)送給其他站,融合能力較高且利于節(jié)點就近獲取數(shù)據(jù)。ETL 機制可實現(xiàn)異構(gòu)數(shù)據(jù)的采集、清洗、轉(zhuǎn)換以及數(shù)據(jù)加載。SQLServer 和Sybase 都基于“Publisher-Subscriber”模式,區(qū)別在于SQLServer 主要支持快照、事務以及合并復制。Sybase 主要支持分布式主段、主復制等模式[1-2]。

        1.3 同步機制設計目標

        文件傳輸模式的數(shù)據(jù)同步由于固定間隔傳輸導致實時性欠佳,而數(shù)據(jù)庫內(nèi)嵌的復制同步機制如果頻繁更新,則無法確保網(wǎng)絡穩(wěn)定性且存在數(shù)據(jù)一致性缺陷,因此多層分布式數(shù)據(jù)庫同步機制的設計目標首先要保證數(shù)據(jù)準確,其次要保證同步效率。綜合比較之下,該研究選擇了觸發(fā)器以及XML 技術(shù),采用觸發(fā)器技術(shù)記錄數(shù)據(jù)庫表更新情況并寫入中間表;基于XML 彌補了觸發(fā)器單表綁定的缺陷,實現(xiàn)了多表數(shù)據(jù)讀取。

        2 基于ETL的增量抽取機制

        2.1 ETL技術(shù)簡介

        ETL(Extraction Transformation Loading)技術(shù)包括數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗以及裝載。數(shù)據(jù)處理不是直接單一的存儲和查詢過程,而是多個ETL 過程。

        1)數(shù)據(jù)抽?。褐饕谴_定哪些數(shù)據(jù)與后續(xù)執(zhí)行決策有關,收集這部分數(shù)據(jù)的字段信息,確定抽取間隔、傳送格式,并傳送到目標服務器。

        2)數(shù)據(jù)轉(zhuǎn)換:主要是將多源數(shù)據(jù)進行格式化,確保數(shù)據(jù)的一致性,便于應用系統(tǒng)進行操作。具體包括兩個方面:一方面是將操作型數(shù)據(jù)轉(zhuǎn)換為查詢分析型數(shù)據(jù),另一方面是在導入之前統(tǒng)一數(shù)據(jù)標識。

        3)數(shù)據(jù)清洗:無效數(shù)據(jù)會影響后續(xù)的分析效果,因此需要校驗源數(shù)據(jù)質(zhì)量,針對容易出現(xiàn)的數(shù)據(jù)丟失、出錯、冗余以及不一致的情況進行補充、修正或剔除,數(shù)據(jù)清洗過程也是數(shù)據(jù)的標準化過程,是提高源數(shù)據(jù)質(zhì)量的有效方式。

        4)數(shù)據(jù)裝載:主要是將數(shù)據(jù)載入到目標數(shù)據(jù)庫,包括全部裝載、更新、刷新等幾種方式。全部裝載是對整個數(shù)據(jù)庫進行裝載,更新是對有變化的數(shù)據(jù)進行記錄,刷新是在指定周期進行重新裝載。

        2.2 性能影響因子

        網(wǎng)絡中所有機器全部完成一次上傳與下載所需時長是分布式數(shù)據(jù)庫數(shù)據(jù)同步性能關鍵的判斷標準。設網(wǎng)絡內(nèi)計算機記為S1,S2,S3,…,Sn,兩臺機器間傳輸帶寬記為Wij,單位時間內(nèi)同步數(shù)據(jù)量作為同步效率記為Kij,則兩臺計算機實現(xiàn)一次數(shù)據(jù)同步所需時間為tij=。通過帶寬矩陣和效率矩陣獲取所需的時間矩陣,得出耗時最長為tmax=max(t12,t13,t14…,t1m,t21,t22,…,t2m,…,tn1,tn2,…,tnm)。若各條帶寬均相同記作,其中,B為總帶寬,n為計算機總數(shù),n(n-1)/2 為連接總數(shù)。那么可以得出t==Kijn(n-1)/2B。若計算機數(shù)量固定,同步效率低于帶寬,則時間與效率、數(shù)量函數(shù)成正比,同時與Kij、B有關;同步效率高于帶寬可能導致數(shù)據(jù)擁堵,從而導致同步效率下降。因此,影響分布式數(shù)據(jù)庫數(shù)據(jù)同步性能的影響因子包括:同步效率Kij、計算機總數(shù)n、網(wǎng)絡總帶寬B[3-4]。

        2.3 數(shù)據(jù)導入過程

        海量數(shù)據(jù)時代涉及大量事務的分析與處理,機器自動化抽取、加載數(shù)據(jù)勢在必行,相對于傳統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)倉庫更適用于對大量事務的分析與處理,因此,采用數(shù)據(jù)倉庫中的ETL 工具來實現(xiàn)數(shù)據(jù)導入,為避免全量加載而影響性能,只需抽取增量更新數(shù)據(jù)。根據(jù)操作類型、是否更新等進行數(shù)據(jù)分類,然后將有記錄時間的數(shù)據(jù)實行增量導入,沒有記錄時間的轉(zhuǎn)為分析數(shù)據(jù)庫日志。數(shù)據(jù)導入流程如圖1 所示。

        圖1 數(shù)據(jù)導入流程

        2.4 增量數(shù)據(jù)提取

        在使用ETL 工具時,關鍵是如何判斷數(shù)據(jù)的變化,文中采用觸發(fā)器和時間戳相結(jié)合的方式,在待維護的數(shù)據(jù)表上建立插入、修改、刪除三類觸發(fā)器,當源表數(shù)據(jù)發(fā)生更新時,對應的觸發(fā)器將數(shù)據(jù)寫入維護表,并增加時間戳及標記操作類型[5-6]。觸發(fā)器實現(xiàn)代碼如下:

        2.5 斷點續(xù)傳

        對于由斷電或其他網(wǎng)絡因素導致傳輸中斷的情況,恢復后從中斷位置繼續(xù)傳輸即可。在斷點續(xù)傳的過程中,主要包括請求、回復兩個動作,在請求消息包中設置Range 關鍵字,記錄開始傳輸?shù)奈恢?,實現(xiàn)代碼如下:

        回復消息的數(shù)據(jù)采用如下格式:

        3 基于XML的異構(gòu)數(shù)據(jù)同步實現(xiàn)

        3.1 XML技術(shù)簡介

        XML(Extensible Markup Language)是一種可擴展的標記語言,利用自我定義的方式對存儲的數(shù)據(jù)進行描述,描述信息不但包括各類數(shù)據(jù)內(nèi)容,還包括數(shù)據(jù)相互間的關聯(lián)關系。XML 技術(shù)具有可擴展性、結(jié)構(gòu)性以及平臺獨立性,可以描述各種結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),可以有效解決兩個系統(tǒng)之間、不同應用之間、不同數(shù)據(jù)源之間的數(shù)據(jù)同步問題。XML可以將多個程序的數(shù)據(jù)寫入同一個XML 文件并進行傳輸,接收文件的服務器通過解析XML 文件獲取信息,進而實現(xiàn)本地的編輯操作。鑒于XML 的優(yōu)良特性,應用在數(shù)據(jù)同步機制中,不僅滿足了轉(zhuǎn)換需要,而且可以起到簡化異構(gòu)數(shù)據(jù)的效果,降低了同步模型的復雜程度。

        3.2 異構(gòu)數(shù)據(jù)同步模型

        分布式數(shù)據(jù)庫的數(shù)據(jù)同步過程包括采集、轉(zhuǎn)換、傳輸以及導入四個階段,利用數(shù)據(jù)倉庫提取增量數(shù)據(jù)并存入緩存區(qū);利用ETL 實現(xiàn)數(shù)據(jù)流轉(zhuǎn),增強數(shù)據(jù)一致性;經(jīng)過XML 轉(zhuǎn)換后傳至其他節(jié)點,接收后進行反向轉(zhuǎn)換,增強數(shù)據(jù)的規(guī)范性[7-8]。根據(jù)總體工作機制,構(gòu)建異構(gòu)數(shù)據(jù)同步模型如圖2 所示。應用系統(tǒng)之間共享數(shù)據(jù)可通過不同服務器間接口,按照協(xié)議格式進行封裝,通過XML 文檔格式進行數(shù)據(jù)的加密、解密以及數(shù)據(jù)傳輸,利用轉(zhuǎn)換模塊實現(xiàn)XML 文檔與數(shù)據(jù)庫的正反映射,不同中心之間利用同步模塊進行上傳與下載,實現(xiàn)數(shù)據(jù)共享。

        圖2 異構(gòu)數(shù)據(jù)同步模型

        3.3 XML文檔映射算法

        XML文檔包括包含描述信息的Schema文檔以及包含表結(jié)構(gòu)及關聯(lián)關系的映射文檔。首先,將關系模式映射為文檔,確認全局變量。其次,在XML 中利用數(shù)據(jù)庫名構(gòu)建根元素,利用表名構(gòu)建表元素。最后,建立類型與表字段結(jié)構(gòu)一一對應。其中xs:schema包括標識、命名等信息,xs:element 代表數(shù)據(jù)庫表字段,xs:sequece 代表順序,xs:unique 代表是否唯一,xs:keyref 代表約束,PrimaryKet 代表元素主鍵[9-10]。

        3.4 正向轉(zhuǎn)換

        XML 文檔向數(shù)據(jù)庫表正向轉(zhuǎn)換:首先,校驗文檔格式是否符合標準。其次,利用讀取函數(shù)生成創(chuàng)建語句。再次,從文檔中讀取相關屬性和約束,生成insert、update 或delete 語句。最后,在數(shù)據(jù)庫中執(zhí)行語句并返回結(jié)果[11-12]。具體轉(zhuǎn)換流程如圖3 所示。

        圖3 正向轉(zhuǎn)換流程

        3.5 反向轉(zhuǎn)換

        從數(shù)據(jù)庫到XML 文檔的反向轉(zhuǎn)換只針對有效數(shù)據(jù),將數(shù)據(jù)庫中提取出來的數(shù)據(jù)寫入文檔,轉(zhuǎn)換流程如圖4 所示。利用GerFileName 函數(shù)獲取文件名,打開文件后,根據(jù)XML 文檔映射算法寫入Schema 格式的信息內(nèi)容,然后完成轉(zhuǎn)換[13-14]。

        圖4 反向轉(zhuǎn)換流程

        4 同步效果實證分析

        為了驗證所設計的數(shù)據(jù)同步機制的實際應用效果,獲取國內(nèi)某市醫(yī)院數(shù)據(jù)庫作為實驗數(shù)據(jù),在Matlab 上搭建實驗平臺,創(chuàng)建同步信息表sync_test,包含30 個字段,記錄數(shù)據(jù)同步時間及數(shù)據(jù)完整性,結(jié)果如表1 所示。

        表1 同步機制實證效果

        隨著數(shù)據(jù)量級的增長,同步模型時延始終控制在5 μs 以內(nèi)且無數(shù)據(jù)丟失,同步效果較好且性能優(yōu)異[15-16]。

        5 結(jié)束語

        為了實現(xiàn)分布式數(shù)據(jù)庫多層數(shù)據(jù)同步,利用觸發(fā)器、時間戳相結(jié)合的方法增量抽取待同步數(shù)據(jù),經(jīng)過實證分析,基于XML 構(gòu)建的同步模型時延較小、性能良好。但同步機制尚未實現(xiàn)完全自動化,所采用的技術(shù)相對比較單一,在數(shù)據(jù)庫訪問效率方面的研究還有待提升。

        猜你喜歡
        數(shù)據(jù)庫機制效率
        提升朗讀教學效率的幾點思考
        甘肅教育(2020年14期)2020-09-11 07:57:42
        自制力是一種很好的篩選機制
        文苑(2018年21期)2018-11-09 01:23:06
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        破除舊機制要分步推進
        跟蹤導練(一)2
        注重機制的相互配合
        “錢”、“事”脫節(jié)效率低
        91综合在线| 女人高潮内射99精品| 骚片av蜜桃精品一区| 在线视频制服丝袜中文字幕| 久草视频华人在线观看| 日本女优激情四射中文字幕| 日本大肚子孕妇交xxx| 无码人妻精品一区二区三区免费| 国产91一区二这在线播放| 日本在线一区二区三区视频| 精品亚洲a∨无码一区二区三区| 性一交一乱一伦一色一情孩交| 1精品啪国产在线观看免费牛牛 | 亚洲中文字幕第一页免费| 红桃av一区二区三区在线无码av| 久久九九国产精品怡红院| 99久久综合九九亚洲| 国产自拍精品在线视频| 在线无码中文字幕一区| 老司机在线精品视频网站 | 国产精品国产三级厂七| 亚洲中文字幕精品乱码2021| 中文字幕一区二区三区日韩精品| 亚洲色AV性色在线观看| 亚洲中文字幕免费精品| 国产猛男猛女超爽免费视频| 国产精品亚洲综合色区韩国| 人妻少妇看A偷人无码电影| 国产91精品在线观看| 巨大巨粗巨长 黑人长吊| 啪啪免费网站| 在线亚洲国产一区二区三区| 国产aⅴ激情无码久久久无码| 失禁大喷潮在线播放| 狠狠亚洲婷婷综合久久久 | 亚洲成色在线综合网站| 久久久亚洲精品一区二区| 日产精品高潮一区二区三区5月| 一区二区三区在线 | 欧| 国产精品午夜波多野结衣性色| 日本av一区二区在线|