海 洋,李浩鵬,劉 懺,劉靖宇
(1.中國鐵路信息科技集團有限公司,北京 100844;2.河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
隨著鐵路行業(yè)信息技術(shù)的快速發(fā)展,鐵路信息化建設(shè)逐步深化。鐵路領(lǐng)域各業(yè)務(wù)系統(tǒng),如電子支付系統(tǒng)、貨運票據(jù)電子化系統(tǒng)、鐵路運輸管理信息系統(tǒng)、客票清算系統(tǒng)和鐵路車輛運行安全監(jiān)控系統(tǒng)等,每年都會產(chǎn)生海量數(shù)據(jù),且新產(chǎn)生的數(shù)據(jù)量逐年增加[1-2]。同時,鐵路管理部門和業(yè)務(wù)部門產(chǎn)生包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類型的數(shù)據(jù)[3]?;阼F路業(yè)務(wù)場景、數(shù)據(jù)類型、安全級別對數(shù)據(jù)進行分類存儲與管理,保證存儲效率、安全性和經(jīng)濟性,便于數(shù)據(jù)分析處理,成為亟待解決的問題。
本文設(shè)計的鐵路大數(shù)據(jù)存儲管理系統(tǒng)使鐵路各部門及時、準確掌握不同業(yè)務(wù)數(shù)據(jù)的產(chǎn)生、存儲、使用、管理、備份和刪除等情況,協(xié)助相關(guān)部門規(guī)范鐵路大數(shù)據(jù)存儲、管理與使用,為鐵路精細化經(jīng)營管理和決策制定提供數(shù)據(jù)支撐,為更加科學(xué)、有效地規(guī)劃數(shù)據(jù)中心建設(shè)提供依據(jù)。
鐵路領(lǐng)域業(yè)務(wù)種類多、數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜[4],這為鐵路數(shù)據(jù)存儲與管理帶來了挑戰(zhàn)。鐵路大數(shù)據(jù)具有以下明顯特征。
(1)海量數(shù)據(jù),且數(shù)據(jù)增量逐年遞增。5類主要的鐵路業(yè)務(wù)2020年新增數(shù)據(jù)總和約為220 TB,其中,貨運票據(jù)電子化系統(tǒng)新增約114 TB、客票清算數(shù)據(jù)新增約50 TB。
(2)數(shù)據(jù)格式多樣化。鐵路涉及的業(yè)務(wù)種類較多,應(yīng)用場景復(fù)雜,產(chǎn)生的數(shù)據(jù)格式包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等,如鐵路車輛運行數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、設(shè)備臺賬、電子郵件等。
(3)數(shù)據(jù)類型復(fù)雜。包括客貨運數(shù)據(jù)、設(shè)備臺賬數(shù)據(jù)、基礎(chǔ)設(shè)施監(jiān)測和視頻監(jiān)控數(shù)據(jù)等。
上述鐵路數(shù)據(jù)的特征為數(shù)據(jù)的存儲和管理帶來了難度。
鐵路大數(shù)據(jù)存儲管理系統(tǒng)是針對鐵路數(shù)據(jù)中心大數(shù)據(jù)的采集、分類、存儲、管理的多維管理系統(tǒng)。系統(tǒng)面向鐵路局集團公司各業(yè)務(wù)部門,使鐵路局集團公司和數(shù)據(jù)中心的管理人員可以從多個層次,宏觀、高效地管理數(shù)據(jù)。系統(tǒng)架構(gòu)如圖1所示。
圖1 鐵路大數(shù)據(jù)存儲管理系統(tǒng)架構(gòu)
2.1.1 數(shù)據(jù)采集模塊
該模塊包括數(shù)據(jù)源、下級數(shù)據(jù)中心和各鐵路業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換與整合3個部分。模塊采集下級數(shù)據(jù)中心交換、整合的鐵路各項業(yè)務(wù)(如工務(wù)、電務(wù)、機務(wù)等)數(shù)據(jù),實現(xiàn)數(shù)據(jù)的實時訪問,并進行數(shù)據(jù)綜合管理。
2.1.2 數(shù)據(jù)綜合管理模塊
數(shù)據(jù)綜合管理模塊按照大數(shù)據(jù)處理順序分為數(shù)據(jù)集成層、數(shù)據(jù)湖、數(shù)據(jù)分析層和數(shù)據(jù)應(yīng)用層。
(1)數(shù)據(jù)集成層的主要功能是數(shù)據(jù)采集,通過前端服務(wù)器,實現(xiàn)數(shù)據(jù)的統(tǒng)一讀寫控制,該層使用Sqoop、Flume、Kafka等,從物理和邏輯層次上把來自各項鐵路業(yè)務(wù)中具有不同性質(zhì)、不同格式的數(shù)據(jù)有機集中起來,為上層大數(shù)據(jù)應(yīng)用開發(fā)提供數(shù)據(jù)支持[5]。
(2)數(shù)據(jù)湖用于存儲和管理由數(shù)據(jù)集成層采集的全量數(shù)據(jù),包括鐵路各業(yè)務(wù)領(lǐng)域信息系統(tǒng)所產(chǎn)生的原始數(shù)據(jù),及各類轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖實現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一存儲和管理。
(3)數(shù)據(jù)分析層通過人工智能技術(shù)(算法預(yù)測、機器學(xué)習(xí)等)對鐵路大數(shù)據(jù)進行分析和處理,充分挖掘鐵路大數(shù)據(jù)的潛在價值,分析結(jié)果可為數(shù)據(jù)應(yīng)用層提供理論依據(jù)。
(4)數(shù)據(jù)應(yīng)用層基于數(shù)據(jù)分析層對鐵路各業(yè)務(wù)和管理部門的數(shù)據(jù)的分析結(jié)果,對鐵路運營進行科學(xué)合理的管理和規(guī)范,在管理、決策中充分發(fā)揮鐵路大數(shù)據(jù)的價值。
2.1.3 數(shù)據(jù)存儲模塊
存儲設(shè)備由虛擬存儲設(shè)備與磁盤陣列兩部分構(gòu)成,虛擬存儲設(shè)備的主要功能是為已分類的冷溫?zé)釘?shù)據(jù)指定邏輯存儲地址,而硬盤陣列的主要功能是將已指定好邏輯路徑的數(shù)據(jù)塊映射至對應(yīng)的物理存儲區(qū)。
2.2.1 統(tǒng)一交換云平臺
為實現(xiàn)鐵路數(shù)據(jù)資源的整合,方便鐵路數(shù)據(jù)的存儲管理,系統(tǒng)采用統(tǒng)一的云平臺,通過數(shù)據(jù)交換技術(shù)將各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)統(tǒng)一存儲,包括在局域網(wǎng)和WLAN端產(chǎn)生的數(shù)據(jù),從而降低鐵路大數(shù)據(jù)存儲管理的復(fù)雜度。
2.2.2 無丟包服務(wù)
鐵路各業(yè)務(wù)均要求數(shù)據(jù)具有高可靠性。由于網(wǎng)絡(luò)存儲系統(tǒng)通常將數(shù)據(jù)存儲在不同節(jié)點上,在進行數(shù)據(jù)訪問時,往往需要在多節(jié)點并行讀取或?qū)懭霐?shù)據(jù),需保障數(shù)據(jù)并行處理時的可靠性,避免數(shù)據(jù)在傳輸過程中出現(xiàn)傳輸失敗現(xiàn)象,實現(xiàn)數(shù)據(jù)傳輸過程中的無丟包目標。鐵路大數(shù)據(jù)存儲管理系統(tǒng)通過基于優(yōu)先級的流量控制、帶寬管理、擁塞管理技術(shù)實現(xiàn)無丟包服務(wù)[6-7]。系統(tǒng)采用的無丟包技術(shù)及實現(xiàn)方式如表1所示。
表1 無丟包技術(shù)及實現(xiàn)方式
系統(tǒng)基于優(yōu)先級類別的流量控制、帶寬管理和擁塞管理技術(shù),構(gòu)建無丟包網(wǎng)絡(luò)架構(gòu)[8]。該技術(shù)為鐵路各項業(yè)務(wù)提供安全的數(shù)據(jù)管理環(huán)境,為鐵路各類應(yīng)用直接合理分配資源提供技術(shù)保障和支持,使鐵路大數(shù)據(jù)存儲管理系統(tǒng)能夠在復(fù)雜的網(wǎng)絡(luò)環(huán)境下安全運行。
2.2.3 虛擬化技術(shù)
鐵路大數(shù)據(jù)存儲管理系統(tǒng)采用虛擬接口技術(shù)、VN-Link技術(shù)和服務(wù)器虛擬化技術(shù)。利用虛擬化技術(shù)[9]實現(xiàn)“接口—鏈路—服務(wù)器”的虛擬化[7],便于整個系統(tǒng)工作負載的整合,可以在最大程度上提升存儲和網(wǎng)絡(luò)系統(tǒng)的利用率,從而降低整個系統(tǒng)的運營成本;虛擬接口技術(shù)為系統(tǒng)中所有可訪問資源提供統(tǒng)一的管理和控制接口;利用VN-Link技術(shù)可在網(wǎng)絡(luò)、存儲和服務(wù)器的物理鏈路上建立多條虛擬鏈路,且直接映射到物理端口,避免數(shù)據(jù)在多個交換層之間傳輸時的轉(zhuǎn)換操作,為管理者提供便利;通過服務(wù)器虛擬化技術(shù)可自由調(diào)度數(shù)據(jù)中心的計算資源,使不同業(yè)務(wù)應(yīng)用不再考慮硬件資源對自身的影響,實現(xiàn)資源的合理分配。
系統(tǒng)開發(fā)基于Windows 10操作系統(tǒng),Tomcat 7.0 Web應(yīng)用服務(wù)器,數(shù)據(jù)庫采用MySQL 8.0。系統(tǒng)前端基于AngularJS框架,可視化工具采用ECharts,后臺采用SSH框架。AngularJS框架具有強大、豐富的模板,能夠?qū)崿F(xiàn)數(shù)據(jù)的雙向綁定,支持自定義指令,并可跨項目使用,顯著提升開發(fā)自由度和效率。ECharts是一個開源的可視化工具,具有封裝性好、圖表工具種類多、功能按鈕豐富、兼容性高等優(yōu)點,能夠快速構(gòu)建當前所需的各類可視化圖表。SSH框架是一種開源的Web應(yīng)用程序框架,實現(xiàn)了代碼分離,降低了工作復(fù)雜度,維護方便,且具有良好的可復(fù)用性。
3.2.1 數(shù)據(jù)來源管理
該功能統(tǒng)計和管理各業(yè)務(wù)平臺數(shù)據(jù)信息,為數(shù)據(jù)生命周期管理、數(shù)據(jù)分層、存儲管理提供依據(jù)。統(tǒng)計當前數(shù)據(jù)容量、IOPS、吞吐量等信息,且可查看近期寫入、刪除的數(shù)據(jù)條目和不同業(yè)務(wù)數(shù)據(jù)的詳情,如電子支付、貨運票據(jù)、資金詳情、車輛監(jiān)控、貨運編組等。
3.2.2 存儲系統(tǒng)資源可視化管理
該功能包括內(nèi)存資源管理、冷溫?zé)釘?shù)據(jù)存儲管理、數(shù)據(jù)中心資源管理。其中,內(nèi)存資源管理使用戶可直觀地查看不同業(yè)務(wù)的當前內(nèi)存占比,并可根據(jù)需求增加或減少相關(guān)業(yè)務(wù)資源;冷溫?zé)釘?shù)據(jù)存儲管理對冷溫?zé)釘?shù)據(jù)區(qū)別存儲和使用,收集冷溫?zé)釘?shù)據(jù)近期漲幅情況,適當調(diào)整冷溫?zé)釘?shù)據(jù)存儲量;數(shù)據(jù)中心資源管理,以可視化形式對各下級數(shù)據(jù)中心的CPU、內(nèi)存、存儲等資源的使用狀況進行管理,收集和展示近期各數(shù)據(jù)中心的數(shù)據(jù)存儲量及傳輸量,以便在需要的時候進行數(shù)據(jù)轉(zhuǎn)移或數(shù)據(jù)恢復(fù)操作。
3.2.3 數(shù)據(jù)預(yù)測和存儲規(guī)劃
通過大數(shù)據(jù)技術(shù)和人工智能技術(shù),預(yù)測冷數(shù)據(jù)、溫數(shù)據(jù)、熱數(shù)據(jù)的存儲和管理需求,合理規(guī)劃數(shù)據(jù)分層存儲架構(gòu),為數(shù)據(jù)中心規(guī)劃建設(shè)提供理論支撐。
3.2.4 數(shù)據(jù)的統(tǒng)一管理
鐵路大數(shù)據(jù)存儲管理系統(tǒng)實現(xiàn)鐵路各業(yè)務(wù)數(shù)據(jù)的統(tǒng)一管理,使鐵路大數(shù)據(jù)能作為一個邏輯整體進行存儲管理。系統(tǒng)實現(xiàn)對鐵路大數(shù)據(jù)存儲資源的統(tǒng)一管理,例如,對各業(yè)務(wù)占用存儲資源的分配、調(diào)度,以及對資源的使用情況統(tǒng)計等。系統(tǒng)提供了一個B/S模式圖形化人機交互界面,用戶可直觀查看系統(tǒng)的各項功能。
針對鐵路信息化建設(shè)所面臨的數(shù)據(jù)量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜、管理難度大等特點,本文設(shè)計了鐵路大數(shù)據(jù)存儲管理系統(tǒng),使鐵路各部門及時準確掌握和管理不同業(yè)務(wù)的數(shù)據(jù)產(chǎn)生、存儲、使用、管理、備份和刪除等現(xiàn)狀,實現(xiàn)了鐵路大數(shù)據(jù)的多維度綜合管理,使鐵路數(shù)據(jù)得到了充分利用。隨著鐵路信息化程度的不斷加深,鐵路大數(shù)據(jù)存儲管理系統(tǒng)可進一步結(jié)合各類最新的信息技術(shù),為鐵路數(shù)據(jù)中心和鐵路業(yè)務(wù)提供更高效的管理手段。