亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向多源異構(gòu)的鐵路數(shù)據(jù)匯聚平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)

        2025-06-10 00:00:00齊晨虹李壘昂許丹亞丁迎春李響
        河南科技 2025年8期

        關(guān)鍵詞:鐵路數(shù)據(jù);多源異構(gòu);數(shù)據(jù)匯聚平臺(tái);ETL;數(shù)字化創(chuàng)新

        中圖分類號(hào):TP39 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1003-5168(2025)08-0019-09

        DOI: 10.19968/j.cnki.hnkj.1003-5168.2025.08.004

        Design and Implementation of Railway Data Aggregation Platform for Multi-source Heterogeneity

        QI ChenhongLI Leiang XU Danya DING Yingchun LI Xiang (Information Technology Institute of China Railway Zhengzhou Bureau Group Co.,Ltd., Zhengzhou 450000,China)

        Abstract:[Purposes]Railway data has the characteristics of massive dispersion and multi-source heterogeneity,and lacks unified standard specifications and sharing mechanisms,which poses great challenges for data value mining. Therefore,it is necessary to establish a centralized data aggregation platform for aggregation,storage,and management,providing a solid foundation for railway data applications.[Methods] Based on ETL and CDC technologies,a railway data aggregation platform for multi-source heterogeneity is jointly constructed using various methods such as timestamp tagging, WebService Client, and unstructured text parsing.[Findings] The platform has started trial operation at China Railway Zhengzhou Bureau Group Co.,Ltd.,which has gathered 4O types of business data and provided stable and efficient data aggregation services for 5 information systems.[Conclusions] This platform effectively meets the needs of data integration and application development for railway enterprises,and helps to continuously upgrade the digital innovationof railway business.

        Keywords: railway data; multi-source heterogeneous; data convergence platform; ETL; digital lnnovation

        0 引言

        隨著鐵路行業(yè)的快速發(fā)展,數(shù)據(jù)已成為推動(dòng)行業(yè)進(jìn)步和創(chuàng)新的關(guān)鍵因素。鐵路行業(yè)經(jīng)過數(shù)十年的信息化建設(shè),在運(yùn)輸組織、調(diào)度管理、客貨服務(wù)、綜合辦公、工程建設(shè)等多個(gè)關(guān)鍵領(lǐng)域已開發(fā)并部署了大量信息系統(tǒng),以支撐各項(xiàng)業(yè)務(wù)。各業(yè)務(wù)系統(tǒng)在構(gòu)建和使用數(shù)據(jù)管理工具的過程中,受技術(shù)、經(jīng)濟(jì)等方面因素的制約,導(dǎo)致業(yè)務(wù)數(shù)據(jù)逐漸積累,分散存儲(chǔ)在不同的服務(wù)器上,形成多樣化的異構(gòu)數(shù)據(jù)源。這些數(shù)據(jù)源因其多樣性和復(fù)雜性,不僅給數(shù)據(jù)的有效利用帶來了巨大挑戰(zhàn),還提升了數(shù)據(jù)管理的難度[1]。

        目前,在多源異構(gòu)數(shù)據(jù)集成方面已有相關(guān)研究。劉琦通過設(shè)計(jì)并實(shí)現(xiàn)多源異構(gòu)大數(shù)據(jù)平臺(tái),有效地解決了公安機(jī)關(guān)信息系統(tǒng)中的數(shù)據(jù)壁壘問題,提升了數(shù)據(jù)的有效利用和偵查破案效率。王航通過設(shè)計(jì)并實(shí)現(xiàn)了一套多源異構(gòu)數(shù)據(jù)整合系統(tǒng),有效地解決了高校組織內(nèi)部信息系統(tǒng)互不兼容、數(shù)據(jù)無法共享等問題,提高了系統(tǒng)性能及工作效率。肖宗陽4提出了一種多源異構(gòu)大數(shù)據(jù)匯聚共享平臺(tái)的技術(shù)方案,包括數(shù)據(jù)匯聚、數(shù)據(jù)整合和大數(shù)據(jù)共享平臺(tái)架構(gòu)設(shè)計(jì)等方面的關(guān)鍵技術(shù)。這些研究涵蓋技術(shù)理論、應(yīng)用系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)等層面,相關(guān)技術(shù)已成功應(yīng)用于地質(zhì)[5]、農(nóng)業(yè)[、醫(yī)學(xué)[7]、電力等行業(yè)領(lǐng)域,有效解決了不同行業(yè)領(lǐng)域數(shù)據(jù)類別多、質(zhì)量差等問題,為后續(xù)數(shù)據(jù)分析挖掘、釋放數(shù)據(jù)價(jià)值提供了保障。

        在鐵路行業(yè),如何將多源異構(gòu)數(shù)據(jù)匯聚與實(shí)際業(yè)務(wù)融合,指導(dǎo)各業(yè)務(wù)部門開展多源異構(gòu)數(shù)據(jù)匯聚的相關(guān)研究相對(duì)欠缺。因此,本研究針對(duì)鐵路行業(yè)數(shù)據(jù)匯聚存在的問題,構(gòu)建基于多源異構(gòu)的鐵路數(shù)據(jù)匯聚平臺(tái),涵蓋關(guān)系型數(shù)據(jù)庫、文檔型數(shù)據(jù)匯聚、非結(jié)構(gòu)化數(shù)據(jù)匯聚的設(shè)計(jì)方法,實(shí)現(xiàn)對(duì)不同來源、不同類型數(shù)據(jù)的有效匯聚,不僅為鐵路企業(yè)提供了豐富、全面的數(shù)據(jù)資源,而且為數(shù)據(jù)共享和集成應(yīng)用奠定了堅(jiān)實(shí)的基礎(chǔ)。在此基礎(chǔ)上,鐵路企業(yè)可以更加高效地利用數(shù)據(jù)資源,推動(dòng)數(shù)據(jù)資產(chǎn)管理效能的顯著提升,為鐵路行業(yè)的數(shù)字化轉(zhuǎn)型和智能化發(fā)展注入新的活力。

        1數(shù)據(jù)匯聚平臺(tái)總體架構(gòu)

        開展數(shù)據(jù)匯聚能全面掌握數(shù)據(jù)資源情況,這不僅是構(gòu)建資源目錄的重要支撐,而且是統(tǒng)一管理數(shù)據(jù)資源的關(guān)鍵途徑,同時(shí)為深人分析應(yīng)用數(shù)據(jù)提供了必要條件。為充分發(fā)揮鐵路企業(yè)已有數(shù)據(jù)資源的價(jià)值,按照數(shù)據(jù)治理規(guī)范,將已有數(shù)據(jù)資源集中納入數(shù)據(jù)匯聚平臺(tái)進(jìn)行統(tǒng)一管理,避免數(shù)據(jù)提供方與數(shù)據(jù)使用方之間進(jìn)行點(diǎn)對(duì)點(diǎn)的反復(fù)操作。數(shù)據(jù)匯聚平臺(tái)實(shí)現(xiàn)對(duì)鐵路企業(yè)既有信息系統(tǒng)各類數(shù)據(jù)的統(tǒng)一采集、集中管理及按需訪問,為鐵路企業(yè)集成應(yīng)用開發(fā)提供便利、高效的數(shù)據(jù)服務(wù)。

        針對(duì)鐵路企業(yè)既有數(shù)據(jù)資產(chǎn)來源廣、數(shù)據(jù)源類型多種多樣等特點(diǎn),本研究提出一個(gè)高效、靈活且可擴(kuò)展的數(shù)據(jù)匯聚平臺(tái)解決方案,使數(shù)據(jù)源接入、數(shù)據(jù)采集、任務(wù)管理等功能獨(dú)立化,降低耦合度。同時(shí),該平臺(tái)還支持多種數(shù)據(jù)源的接入和數(shù)據(jù)的實(shí)時(shí)采集、處理,方便鐵路企業(yè)實(shí)現(xiàn)數(shù)據(jù)的集中管理和有效利用,為鐵路企業(yè)集成應(yīng)用開發(fā)提供便利、高效的數(shù)據(jù)服務(wù)。平臺(tái)系統(tǒng)技術(shù)架構(gòu)如圖1所示。

        根據(jù)數(shù)據(jù)源的特性,可將數(shù)據(jù)源分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及物聯(lián)網(wǎng)數(shù)據(jù)等。其中,結(jié)構(gòu)化數(shù)據(jù)包括MySQL、Oracle、MongoDB等數(shù)據(jù)庫里的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)包括各類文件數(shù)據(jù),如HDFS中存儲(chǔ)的csv、xls、txt等格式的文件數(shù)據(jù);物聯(lián)網(wǎng)數(shù)據(jù)主要是Kafka、Pulsar等消息隊(duì)列中的數(shù)據(jù)。

        對(duì)不同類型的異構(gòu)數(shù)據(jù)源,數(shù)據(jù)源接人層會(huì)提供不同的接人方式。結(jié)構(gòu)化類型的數(shù)據(jù)源采用JDBC的方式進(jìn)行連接,文件類型和物聯(lián)網(wǎng)類型的數(shù)據(jù)源通過相應(yīng)的客戶端(如JavaAPI、Kafka客戶端庫Kafka-client、Pulsar客戶端庫Pulsar-client)來實(shí)現(xiàn)連接。平臺(tái)支持采用通道加密技術(shù)保護(hù)數(shù)據(jù)源連接的安全性,同時(shí)會(huì)對(duì)數(shù)據(jù)源配置進(jìn)行加密處理,進(jìn)一步增強(qiáng)數(shù)據(jù)源的安全性。

        數(shù)據(jù)采集層通過ETL處理和實(shí)時(shí)流處理的方式動(dòng)態(tài)獲取數(shù)據(jù)。對(duì)于實(shí)時(shí)性較低的數(shù)據(jù),通常采用ETL技術(shù)實(shí)現(xiàn)全量式的采集;對(duì)于實(shí)時(shí)性較高的數(shù)據(jù)庫數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù),主要采用Flink和ApacheInlong實(shí)現(xiàn)數(shù)據(jù)全量和增量采集。

        數(shù)據(jù)存儲(chǔ)層將HBase用作數(shù)據(jù)匯聚的目標(biāo)端。HBase具備以下優(yōu)勢(shì):支持多種不同的數(shù)據(jù)類型;采用了列式存儲(chǔ)以及分布式架構(gòu),橫向擴(kuò)展來處理大規(guī)模數(shù)據(jù);采用MySQL協(xié)議通信,高度兼容MySQL語法,降低學(xué)習(xí)難度;支持豐富的索引結(jié)構(gòu),減少數(shù)據(jù)掃描,查詢性能高等。

        任務(wù)管理層為統(tǒng)一管理不同匯聚任務(wù)及調(diào)度功能管理的項(xiàng)目、數(shù)據(jù)源等信息,設(shè)計(jì)任務(wù)調(diào)度中心以保證平臺(tái)可以統(tǒng)一查看和管理任務(wù),可對(duì)接入數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控,對(duì)于異常接入數(shù)據(jù)配有報(bào)警服務(wù)。

        圖1平臺(tái)架構(gòu)

        數(shù)據(jù)服務(wù)層響應(yīng)數(shù)據(jù)使用方應(yīng)用的數(shù)據(jù)訪問請(qǐng)求,從平臺(tái)的鐵路業(yè)務(wù)數(shù)據(jù)庫中讀取數(shù)據(jù)后提供給數(shù)據(jù)使用方。當(dāng)用戶調(diào)用數(shù)據(jù)訪問接口服務(wù)時(shí),會(huì)實(shí)施一系列安全措施,采用身份認(rèn)證、訪問控制、權(quán)限控制等方式,為服務(wù)調(diào)用過程提供安全防護(hù),降低數(shù)據(jù)泄露和非法訪問風(fēng)險(xiǎn),提高平臺(tái)服務(wù)調(diào)用的安全性。

        2 相關(guān)技術(shù)

        不同類型的數(shù)據(jù)源要使用不同的數(shù)據(jù)匯聚工具。本研究使用CDC(ChangeData Capture)技術(shù)實(shí)現(xiàn)對(duì)關(guān)系型數(shù)據(jù)庫全量和增量的數(shù)據(jù)采集;使用ETL(ExtractTransformLoad)技術(shù)實(shí)現(xiàn)對(duì)不同消息隊(duì)列的物聯(lián)網(wǎng)數(shù)據(jù)和文檔型數(shù)據(jù)的采集。

        2.1 ETL技術(shù)

        在數(shù)據(jù)匯聚過程中,數(shù)據(jù)可能以不同方式來自不同用戶,數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量也千差萬別。有時(shí)數(shù)據(jù)格式無法轉(zhuǎn)換,或在數(shù)據(jù)轉(zhuǎn)換后信息丟失,嚴(yán)重阻礙了業(yè)務(wù)部門和應(yīng)用系統(tǒng)中的數(shù)據(jù)匯聚。因此,有效地整合數(shù)據(jù)已成為提高業(yè)務(wù)競(jìng)爭(zhēng)力的必然選擇。

        ETL技術(shù)在復(fù)雜的數(shù)據(jù)匯聚場(chǎng)景中發(fā)揮著重要作用,是實(shí)現(xiàn)數(shù)據(jù)匯聚的主要方法。ETL技術(shù)具備強(qiáng)大的數(shù)據(jù)提取能力,能從各種異構(gòu)數(shù)據(jù)源中精準(zhǔn)地捕獲所需的數(shù)據(jù),主要負(fù)責(zé)從分布式數(shù)據(jù)、圖形數(shù)據(jù)文件等關(guān)系數(shù)據(jù)以及異構(gòu)數(shù)據(jù)源中提取到臨時(shí)中間層進(jìn)行數(shù)據(jù)清理、轉(zhuǎn)換和集成。最終,數(shù)據(jù)會(huì)被加載到數(shù)據(jù)倉(cāng)庫或數(shù)據(jù)集市中,為在線分析處理和數(shù)據(jù)挖掘提供堅(jiān)實(shí)的基礎(chǔ)。

        一個(gè)設(shè)計(jì)良好的ETL流程可從數(shù)據(jù)源系統(tǒng)中提取數(shù)據(jù)、執(zhí)行數(shù)據(jù)質(zhì)量和一致性標(biāo)準(zhǔn)檢查,并對(duì)數(shù)據(jù)進(jìn)行規(guī)范化處理。ETL過程包含三個(gè)核心階段,即提取、轉(zhuǎn)換和加載,從數(shù)據(jù)源系統(tǒng)中提取目的數(shù)據(jù)系統(tǒng)所需的數(shù)據(jù),根據(jù)業(yè)務(wù)需要將數(shù)據(jù)轉(zhuǎn)換為目的數(shù)據(jù)源所需的形式,處理錯(cuò)誤和不一致的數(shù)據(jù),最終將轉(zhuǎn)換后的數(shù)據(jù)加載到目的數(shù)據(jù)源中。

        2.2 CDC技術(shù)

        在數(shù)據(jù)匯聚過程中,為滿足對(duì)低延遲和實(shí)時(shí)性有著較高要求的場(chǎng)景需求,多源數(shù)據(jù)實(shí)時(shí)匯聚技術(shù)應(yīng)運(yùn)而生。CDC技術(shù)核心在于監(jiān)控并捕捉數(shù)據(jù)庫中的變化,包括數(shù)據(jù)的插入、更新及刪除等操作。該技術(shù)能夠記錄源數(shù)據(jù)庫(Source)的增量變化,并將這些變化同步到一個(gè)或多個(gè)數(shù)據(jù)接收端(Sink)。在同步過程中,還可執(zhí)行數(shù)據(jù)的分組(通過GROUPBY操作)及多表關(guān)聯(lián)(JOIN操作)等處理

        CDC技術(shù)可分為基于查詢的CDC技術(shù)和基于日志的CDC技術(shù)。基于查詢的CDC技術(shù)通過定期查詢來檢測(cè)數(shù)據(jù)變化,但這種方式可能無法準(zhǔn)確捕捉到兩次查詢之間被刪除的數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)有丟失的風(fēng)險(xiǎn);基于日志的CDC技術(shù)能實(shí)時(shí)捕捉所有數(shù)據(jù)的變更情況,其被廣泛運(yùn)用于異地容災(zāi)、數(shù)據(jù)備份等場(chǎng)景中,且每次DML操作均有記錄,具有高效的數(shù)據(jù)處理能力和實(shí)時(shí)性,且不會(huì)給數(shù)據(jù)庫帶來額外的負(fù)載?;谌罩镜腃DC在使用過程中不會(huì)對(duì)業(yè)務(wù)造成干擾,可以實(shí)現(xiàn)業(yè)務(wù)之間的解耦,無須更改業(yè)務(wù)模型[8]。業(yè)界常見的CDC數(shù)據(jù)同步工具有Canal、Sqoop、Kettle、DataX、Flink CDC、ApacheInLong等。常見開源CDC方案對(duì)比見表1。

        Canal主要依賴于解析數(shù)據(jù)庫的增量日志,提供增量數(shù)據(jù)的訂閱和消費(fèi)功能。目前,Canal主要適用于MySQL(同時(shí)也支持MariaDB),是一個(gè)專注于同步增量數(shù)據(jù)的工具,不支持?jǐn)?shù)據(jù)的全量同步。

        Sqoop是一個(gè)在關(guān)系型數(shù)據(jù)庫(如Oracle、MySQL、PostgreSQL等)和ApacheHadoop生態(tài)系統(tǒng)(包括HDFS、HBase等)之間進(jìn)行批量數(shù)據(jù)遷移的工具,但其不支持?jǐn)帱c(diǎn)續(xù)傳[9]。

        Kettle是一款開源的ETL工具,允許用戶通過圖形化的界面輕松地進(jìn)行數(shù)據(jù)的抽取、轉(zhuǎn)換和操作。其支持多種數(shù)據(jù)源,并提供豐富的轉(zhuǎn)換和加載組件,使用戶能高效處理數(shù)據(jù)。

        DataX是阿里巴巴開發(fā)的一套開源的、插件式的離線數(shù)據(jù)交換工具,可以在各種異構(gòu)數(shù)據(jù)源之間實(shí)現(xiàn)高效的數(shù)據(jù)交換[10]。然而,其不支持增量同步和斷點(diǎn)續(xù)傳,且在高并發(fā)數(shù)據(jù)交換場(chǎng)景下對(duì)機(jī)器內(nèi)存要求較高。

        FlinkCDC是一個(gè)功能強(qiáng)大的工具,其支持多種數(shù)據(jù)源的數(shù)據(jù)采集,既支持全量數(shù)據(jù)的獲取,也支持動(dòng)態(tài)增量數(shù)據(jù)的獲取[1。全程無鎖的設(shè)計(jì)避免了對(duì)線上業(yè)務(wù)產(chǎn)生鎖的潛在風(fēng)險(xiǎn)。

        ApacheInlong是一站式、全場(chǎng)景的海量數(shù)據(jù)集成框架,同時(shí)支持?jǐn)?shù)據(jù)接入、數(shù)據(jù)同步和數(shù)據(jù)訂閱,具有自動(dòng)、安全、可靠和高性能的數(shù)據(jù)傳輸能力,方便業(yè)務(wù)構(gòu)建基于流式的數(shù)據(jù)分析、建模和應(yīng)用。

        ApacheInlong支持多種數(shù)據(jù)源和協(xié)議,可以輕松地接入各種類型的數(shù)據(jù),并進(jìn)行實(shí)時(shí)的處理和分析。此外,其還支持?jǐn)帱c(diǎn)續(xù)傳和全量階段的checkpoint,確保數(shù)據(jù)的完整性和一致性。綜合以上分析,本研究選擇ApacheInlong作為主要的實(shí)時(shí)數(shù)據(jù)采集工具。

        3多源異構(gòu)數(shù)據(jù)匯聚設(shè)計(jì)

        數(shù)據(jù)匯聚的總體策略是在不影響業(yè)務(wù)系統(tǒng)運(yùn)行的前提下,采用歷史數(shù)據(jù)單次全量抽取,增量數(shù)據(jù)采用時(shí)間戳標(biāo)記、WebService、CDC技術(shù)、非結(jié)構(gòu)化文本解析等增量抽取方法,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的增量匯聚。在增量數(shù)據(jù)匯聚時(shí),可采取多種方法聯(lián)合使用,協(xié)同工作,優(yōu)劣互補(bǔ),以提高抽取性能。

        3.1基于時(shí)間戳和ETL的關(guān)系型數(shù)據(jù)匯聚設(shè)計(jì)

        鐵路行業(yè)領(lǐng)域內(nèi)數(shù)據(jù)源眾多,包括列車運(yùn)行監(jiān)控系統(tǒng)、票務(wù)系統(tǒng)、安檢系統(tǒng)、貨物追蹤系統(tǒng)及基礎(chǔ)設(shè)施維護(hù)系統(tǒng)等。這些數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),如列車時(shí)刻表、票務(wù)信息、安檢記錄、貨物追蹤信息及鐵路設(shè)施狀態(tài)等,均要匯聚到關(guān)系型數(shù)據(jù)庫中。在數(shù)據(jù)匯聚過程中,有時(shí)需要對(duì)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行合并、轉(zhuǎn)換,并形成完整的數(shù)據(jù)記錄,且映射到的關(guān)系型表沒有時(shí)間戳,給數(shù)據(jù)匯聚帶來了一定的難度。

        為解決上述不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)實(shí)時(shí)匯聚問題,經(jīng)業(yè)務(wù)數(shù)據(jù)表結(jié)構(gòu)分析,采用時(shí)間戳(業(yè)務(wù)時(shí)間)和ETL增量數(shù)據(jù)處理方式。歷史數(shù)據(jù)通過ETL單次全量匯聚;增量數(shù)據(jù)每天增量更新到ODS(Opera-tionalDataStore);更新頻率根據(jù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的特征制定,數(shù)據(jù)范圍為當(dāng)天所有數(shù)據(jù)。由于源數(shù)據(jù)庫未記錄時(shí)間戳,且部分表數(shù)據(jù)存在物理刪除操作,因此,根據(jù)業(yè)務(wù)時(shí)間采用ETL增量更新時(shí)可能會(huì)造成數(shù)據(jù)丟失或增加。通過對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證來判斷各個(gè)數(shù)據(jù)源的具體更新、刪除情況?;隍?yàn)證結(jié)果,定期進(jìn)行數(shù)據(jù)修復(fù)操作,最大程度減少數(shù)據(jù)誤差?;跁r(shí)間戳和ETL的關(guān)系型數(shù)據(jù)匯聚流程如圖2所示。

        表1常見開源CDC方案對(duì)比
        圖2基于時(shí)間戳和ETL的關(guān)系型數(shù)據(jù)匯聚

        3.2 基于WebService的文檔型數(shù)據(jù)匯聚設(shè)計(jì)

        鐵路行業(yè)有多個(gè)基于文檔的數(shù)據(jù)管理系統(tǒng),如鐵路運(yùn)營(yíng)管理系統(tǒng)、列車維護(hù)記錄系統(tǒng)、乘客服務(wù)信息系統(tǒng)等。這些系統(tǒng)采用多種格式存儲(chǔ)文檔數(shù)據(jù),包括文本文件、XML文件、自定義文檔格式或關(guān)系型數(shù)據(jù)庫中的Blob字段。這些文檔數(shù)據(jù)涵蓋了列車運(yùn)營(yíng)記錄、維護(hù)日志、乘客投訴與建議、安全事件報(bào)告等多個(gè)應(yīng)用場(chǎng)景。為了滿足跨系統(tǒng)數(shù)據(jù)共享和分析的需求,需要將這些文檔數(shù)據(jù)在數(shù)據(jù)匯聚的過程中標(biāo)準(zhǔn)化為統(tǒng)一格式。

        源系統(tǒng)通過WebService接口提供文檔型數(shù)據(jù),由WebServiceClient調(diào)用接口獲取原始數(shù)據(jù),DataAnalysis模塊解析HTML或XML格式的數(shù)據(jù),ChangeSQL模塊轉(zhuǎn)換為標(biāo)準(zhǔn)數(shù)據(jù)庫操作語句,最終將處理后的數(shù)據(jù)寫入ODS層數(shù)據(jù)表。同時(shí),由ETLDB記錄處理日志,包括運(yùn)行狀態(tài)和錯(cuò)誤信息,為后續(xù)的監(jiān)控和問題排查提供依據(jù)?;赪ebService的文檔型數(shù)據(jù)匯聚流程如圖3所示。

        圖3基于WebService的文檔型數(shù)據(jù)匯聚流程

        3.3基于CDC和ETL的非結(jié)構(gòu)化數(shù)據(jù)匯聚設(shè)計(jì)鐵路行業(yè)數(shù)據(jù)類型具有多樣性的特點(diǎn),其中,大量信息系統(tǒng)中存在非結(jié)構(gòu)化數(shù)據(jù)。如在鐵路信號(hào)控制系統(tǒng)和列車調(diào)度系統(tǒng)中,部分?jǐn)?shù)據(jù)以結(jié)構(gòu)化形式存在(如列車信息和調(diào)度指令等),部分?jǐn)?shù)據(jù)以非結(jié)構(gòu)化文本形式存在(如設(shè)備狀態(tài)的描述文本)。

        在數(shù)據(jù)匯聚流程中,列車信息、調(diào)度指令等結(jié)構(gòu)化數(shù)據(jù),基于關(guān)系型數(shù)據(jù)庫支持日志文件分析特點(diǎn)開啟歸檔日志服務(wù),采用CDC增量抽取方式實(shí)時(shí)匯聚到ODS數(shù)據(jù)表中。而設(shè)備狀態(tài)描述文本等非結(jié)構(gòu)化文本數(shù)據(jù),則采用基于文本解析的相關(guān)數(shù)據(jù)匯聚流程。通過ETLEngine的Dataanalysis進(jìn)行分析,按照文件模板標(biāo)識(shí)提取csv、excel、dbf文件中的增量數(shù)據(jù),根據(jù)模板中字段對(duì)應(yīng)關(guān)系匯總成增量ChangeSQL,最終使用ChangeSQL完成ODS的增量數(shù)據(jù)匯聚?;贑DC和ETL的非結(jié)構(gòu)化數(shù)據(jù)匯聚流程如圖4所示。

        圖4基于CDC和ETL的非結(jié)構(gòu)化數(shù)據(jù)匯聚流程

        4多源異構(gòu)數(shù)據(jù)匯聚應(yīng)用

        根據(jù)中國(guó)鐵路鄭州局集團(tuán)有限公司業(yè)務(wù)數(shù)據(jù)匯聚需求,本研究從數(shù)據(jù)匯聚的實(shí)時(shí)性要求方面,開展業(yè)務(wù)數(shù)據(jù)的匯聚工作。

        4.1基于ETL的可視化數(shù)據(jù)采集配置

        對(duì)實(shí)時(shí)性要求相對(duì)較低的數(shù)據(jù),可采用Kettle、DataX等ETL工具,從集團(tuán)公司各業(yè)務(wù)部門提供的API接口中匯聚數(shù)據(jù),實(shí)施必要的格式化轉(zhuǎn)換處理,根據(jù)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的特征制定更新頻率,最終將數(shù)據(jù)匯聚到數(shù)據(jù)倉(cāng)庫中。

        基于ETL數(shù)據(jù)集成工具具有可視化的數(shù)據(jù)采集配置界面,該界面支持平臺(tái)管理員通過拖拽的方式來完成數(shù)據(jù)采集流程的配置操作,使數(shù)據(jù)采集流程的配置過程更加清晰易懂,提高工作效率。這種可視化配置方式使得平臺(tái)可配置的數(shù)據(jù)采集流程具備優(yōu)良的可擴(kuò)展性,有利于后續(xù)增加更多新的數(shù)據(jù)處理邏輯。可視化數(shù)據(jù)采集配置的主界面如圖5所示,主要由組件庫、設(shè)計(jì)區(qū)及工具欄等部分構(gòu)成。

        組件庫包含從數(shù)據(jù)輸入、輸出、轉(zhuǎn)換到各種數(shù)據(jù)處理功能的全方位需求。此外,組件庫還提供了字段選擇、記錄過濾、排序、計(jì)算以及調(diào)用數(shù)據(jù)庫存儲(chǔ)過程等高級(jí)功能,使得用戶能夠靈活構(gòu)建復(fù)雜的ETL流程。通過簡(jiǎn)單的拖放操作,用戶可以從組件庫中選取所需組件,快速搭建起滿足特定業(yè)務(wù)需求的ETL任務(wù)。

        設(shè)計(jì)區(qū)用戶可直觀看到整個(gè)ETL流程的布局和各個(gè)組件之間的連接關(guān)系。設(shè)計(jì)區(qū)提供了清晰的工作界面,包括主對(duì)象樹、核心對(duì)象列表及工作區(qū)域。用戶可在工作區(qū)域內(nèi)自由添加、配置和連接組件,通過線條或箭頭定義數(shù)據(jù)的流動(dòng)方向和處理邏輯。

        工具欄提供一系列常用的操作按鈕和菜單項(xiàng),方便用戶進(jìn)行快速訪問和操作。通過工具欄,用戶可以輕松完成ETL流程的新建、編輯、保存和執(zhí)行等操作,同時(shí)還可以實(shí)時(shí)監(jiān)控和優(yōu)化ETL任務(wù)的執(zhí)行過程。

        平臺(tái)提供的便捷的任務(wù)分類和定時(shí)策略維護(hù)功能如圖6所示。該功能使管理員能靈活配置任務(wù)的執(zhí)行時(shí)間,支持定義解析cron表達(dá)式,定義任務(wù)的觸發(fā)條件,如每天、每周或每月的某個(gè)時(shí)間點(diǎn)執(zhí)行以及是否需要在特定條件下重復(fù)執(zhí)行,以滿足不同的業(yè)務(wù)需求,并對(duì)各項(xiàng)任務(wù)的執(zhí)行情況進(jìn)行監(jiān)控。

        4.2基于CDC的實(shí)時(shí)數(shù)據(jù)采集配置

        對(duì)實(shí)時(shí)性要求相對(duì)較高的數(shù)據(jù),可通過配置CDC工具來應(yīng)用集團(tuán)公司各業(yè)務(wù)部門定義的捕獲規(guī)則,確保捕獲到的數(shù)據(jù)變更符合業(yè)務(wù)要求,并將這些變化的數(shù)據(jù)匯聚到數(shù)據(jù)倉(cāng)庫中。

        為了確保數(shù)據(jù)的安全性,業(yè)務(wù)部門需要從平臺(tái)申請(qǐng)下載CDC工具,并根據(jù)自身需求來自定義配置需要匯聚的數(shù)據(jù)表及字段,明確具體的數(shù)據(jù)范圍和內(nèi)容,確保數(shù)據(jù)通過消息隊(duì)列發(fā)送到統(tǒng)一接口,為后續(xù)數(shù)據(jù)匯聚到數(shù)據(jù)倉(cāng)庫奠定基礎(chǔ)。如果需要對(duì)變動(dòng)的數(shù)據(jù)進(jìn)行處理,可以傳輸?shù)紼TL流程進(jìn)行數(shù)據(jù)處理,最終將處理后的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫中。數(shù)據(jù)倉(cāng)庫的多種CDC工作方案如圖7所示。

        圖5可視化數(shù)據(jù)采集配置主界面
        圖6任務(wù)分類和定時(shí)策略維護(hù)
        圖7數(shù)據(jù)倉(cāng)庫CDC工作方案

        采用CDCConnectors工具采集結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù)時(shí),通常需要針對(duì)每種數(shù)據(jù)源單獨(dú)引入特定的CDCConnector。這不僅要引人相應(yīng)的依賴,還要編寫特定代碼,容易導(dǎo)致依賴沖突和代碼冗余。為解決此問題,并提升平臺(tái)的擴(kuò)展性和通用性,本研究設(shè)計(jì)了一個(gè)適用于多種數(shù)據(jù)庫類型的數(shù)據(jù)源采集適配器。通過對(duì)多個(gè)CDCConnector源碼的深入分析,重構(gòu)了現(xiàn)有Connector,以實(shí)現(xiàn)更加簡(jiǎn)潔、高效的數(shù)據(jù)變更捕獲機(jī)制。首先,將多個(gè)Connector中的通用功能進(jìn)行抽象;其次,針對(duì)每種數(shù)據(jù)庫的特定邏輯,如binlog/debezium格式的解析,進(jìn)行相應(yīng)的整合設(shè)計(jì);最后,構(gòu)建一個(gè)通用的CDCConnector,使之能夠適配多種數(shù)據(jù)庫系統(tǒng),進(jìn)而簡(jiǎn)化數(shù)據(jù)同步流程。同時(shí),平臺(tái)為適配器提供靈活的配置功能,通過配置文件來配置數(shù)據(jù)源信息、自標(biāo)端信息及所須執(zhí)行的SQL查詢語句等內(nèi)容。采用配置文件的形式能夠靈活地對(duì)數(shù)據(jù)源和數(shù)據(jù)處理邏輯進(jìn)行配置,為后續(xù)的管理與擴(kuò)展提供便利。數(shù)據(jù)采集適配器配置文件的部分內(nèi)容見表2。在數(shù)據(jù)同步任務(wù)運(yùn)行時(shí),通過解析任務(wù)運(yùn)行參數(shù)或?qū)?yīng)的配置文件內(nèi)容,動(dòng)態(tài)地選取采集數(shù)據(jù)的方法,執(zhí)行相應(yīng)的數(shù)據(jù)處理操作,并將處理后的數(shù)據(jù)同步至目標(biāo)端

        平臺(tái)為管理員提供了一個(gè)全面的視角來監(jiān)控和管理數(shù)據(jù)匯聚任務(wù),通過數(shù)據(jù)接入面板,可以看到關(guān)于管理任務(wù)總數(shù)、任務(wù)成功調(diào)度次數(shù)等具體信息。這些信息不僅展示了數(shù)據(jù)匯聚任務(wù)的完成情況,而且反映了平臺(tái)在數(shù)據(jù)集成方面的能力。此外,平臺(tái)還充許用戶按照項(xiàng)目名稱、數(shù)據(jù)內(nèi)容分類及數(shù)據(jù)集成活動(dòng)分類來篩選和查看數(shù)據(jù)匯聚任務(wù),為管理員提供了更加靈活、便捷的操作方式。數(shù)據(jù)接入面板如圖8所示。

        5結(jié)語

        本研究針對(duì)鐵路企業(yè)既有數(shù)據(jù)來源廣、數(shù)據(jù)源類型多種多樣等特點(diǎn),提出基于多源異構(gòu)的鐵路數(shù)據(jù)匯聚平臺(tái)。通過采用增量時(shí)間戳、CDC、WebSer-vice,并結(jié)合ETL技術(shù)進(jìn)行增量抽取,實(shí)現(xiàn)對(duì)鐵路多源異構(gòu)數(shù)據(jù)的采集、處理及集中存儲(chǔ),完成對(duì)鐵路企業(yè)數(shù)據(jù)資產(chǎn)的規(guī)范化集中管理,較好地滿足鐵路企業(yè)數(shù)據(jù)匯聚的需要,也為鐵路企業(yè)大數(shù)據(jù)應(yīng)用構(gòu)建起堅(jiān)實(shí)的基座。

        后續(xù)會(huì)根據(jù)鐵路業(yè)務(wù)數(shù)據(jù)匯聚過程中產(chǎn)生的問題及新的需求,持續(xù)優(yōu)化基于多源異構(gòu)的鐵路數(shù)據(jù)匯聚方案。隨著鐵路業(yè)務(wù)數(shù)據(jù)的規(guī)模不斷增大、應(yīng)用領(lǐng)域持續(xù)拓展,需要集中處理和存儲(chǔ)的數(shù)據(jù)類型也會(huì)越發(fā)豐富多樣。因此,需要不斷結(jié)合具體的業(yè)務(wù)場(chǎng)景,對(duì)多源異構(gòu)數(shù)據(jù)的匯聚與集成進(jìn)行更深入的探究,構(gòu)建并完善數(shù)據(jù)采集、處理、集成的機(jī)制,更大限度地挖掘鐵路企業(yè)數(shù)據(jù)資產(chǎn)的價(jià)值,為推動(dòng)鐵路業(yè)務(wù)融合創(chuàng)新以及大數(shù)據(jù)應(yīng)用開發(fā)創(chuàng)造有利條件,助力鐵路運(yùn)輸生產(chǎn)信息化賦能與業(yè)務(wù)數(shù)字化創(chuàng)新不斷邁向新臺(tái)階。

        表2數(shù)據(jù)采集適配器配置文件部分內(nèi)容
        任務(wù)執(zhí)行情況
        圖8數(shù)據(jù)接入面板

        參考文獻(xiàn):

        [1]王苗苗.企業(yè)數(shù)據(jù)治理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].西安:西安電子科技大學(xué),2021.

        [2]劉琦.多源異構(gòu)大數(shù)據(jù)平臺(tái)的建設(shè)及應(yīng)用[J].軟件工程,2021,24(10):54-58.

        [3]王航.多源異構(gòu)數(shù)據(jù)整合系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2020.

        [4]肖宗陽.多源異構(gòu)數(shù)據(jù)治理平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)D].北京:北京郵電大學(xué),2019.

        [5]袁振宇,安哲立,馬偉斌,等.融合多源異構(gòu)信息的隧道圍巖智能分級(jí)方法探索[J].隧道建設(shè)(中英文),2023,43(3):429-440.

        [6]王大正,任博,劉珠明.不同類型農(nóng)情監(jiān)測(cè)系統(tǒng)間數(shù)據(jù)共享方案研究[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2019,40(12):154-159.

        [7]李寅昊,黎成權(quán),劉林威,等.多源異構(gòu)醫(yī)學(xué)數(shù)據(jù)的集成和學(xué)習(xí)[J].現(xiàn)代醫(yī)學(xué)與健康研究電子雜志,2022,6(6):82-89.

        [8]岳潔.面向大數(shù)據(jù)征信的數(shù)據(jù)治理系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2022.

        [9]KUMARUK,SRINIVASUNVS,NACHAPPANM.Sqoop usage in hadoop distributed file system and observationsto handle common errors[J].International Journal ofRecent TechnologyandEngineering(IJRTE),2020,9(4):452-454.

        [10]COVIELLOG,RAOK,SANKARADASM,etal.DataX:asystemfordataeXchangeandtransformation ofstreams[C]//International Symposium on Intelligent and Distributed Computing.Cham:Springer International Publishing,2021:319-329.

        [11]WUSL,CUIBY,ZHANGYQ.Application ofreal-time big data technology in complex power engineeringmanagement[C]//2023 8th International Conference on DataScience inCyberspace(DSC).IEEE,2023:526-532.

        日本乱人伦在线观看| 国产女厕偷窥系列在线视频| 国产一精品一av一免费| 香蕉免费一区二区三区| 又黄又硬又湿又刺激视频免费| 粗一硬一长一进一爽一a级| 国产成人无码A区在线观| 婷婷五月综合缴情在线视频 | 蜜桃视频在线看一区二区三区| 国模冰莲自慰肥美胞极品人体图| 欧美日韩精品一区二区三区高清视频 | 少妇高潮惨叫久久久久久电影| 中文字幕av无码免费一区| 国产乱子伦精品无码码专区| 青青草视频华人绿色在线| 国产一区,二区,三区免费视频| 国产精品午夜高潮呻吟久久av| 国产自拍精品在线免费观看| 亚洲欧洲日产国码av系列天堂| 大地资源在线观看官网第三页| 国产精品亚韩精品无码a在线| 91最新免费观看在线| 黑丝美女喷水在线观看| 96中文字幕一区二区| 亚洲视频网站大全免费看| 精品欧洲av无码一区二区14| 99久久久无码国产精品9| 青青草免费高清视频在线观看| 三区中文字幕在线观看| 中文字幕亚洲无线码一区女同| 国产乱妇乱子在线播视频播放网站| 国产在线播放网址| 国产免费无码9191精品| 精品在线亚洲一区二区三区| 免费国产在线精品一区二区三区免| 国产精品久久久久久福利| 精品久久久久久久久久中文字幕| 另类一区二区三区| 亚洲国产日韩av一区二区| 视频国产自拍在线观看| 成 人色 网 站 欧美大片在线观看|