何志彬,邢科家,梁志國,魏東冬,孔嘉鋮,白 帥
(1.中國鐵道科學研究院 研究生部,北京 100081;2.中國鐵道科學研究院集團有限公司通信信號研究所,北京 100081)
在《新時代交通強國鐵路先行規(guī)劃綱要》指導下,一批智能高速鐵路項目如京張高速鐵路(北京北—張家口)、京雄高速鐵路(北京西—雄安)等成功實踐,新型列車運行控制系統(tǒng)和高速列車自動駕駛系統(tǒng)等成功研發(fā)與運用,標志著我國高速鐵路已經進入了智能化發(fā)展的新階段[1-3]。隨著鐵路運營方式網絡化、自動化和智能化趨勢日益明顯,將云計算技術應用到鐵路信號控制系統(tǒng)中,可以滿足未來鐵路聯(lián)鎖系統(tǒng)發(fā)展中大規(guī)模的計算和存儲需求,為乘客提供更好的服務。
近年來,云計算技術在軌道交通信號系統(tǒng)的應用已成為研究的熱點。云計算是一種基于服務的分布式計算模型,使用戶能夠按需配置和使用計算資源,并能夠快速部署和釋放這些資源,從而降低計算成本并提高計算效率[4]?;谠朴嬎愕蔫F路聯(lián)鎖系統(tǒng)(云聯(lián)鎖)能夠更好地助力數字化、網絡化和智能化鐵路的建設和發(fā)展,為高速鐵路技術革新、設備升級、提升運營效率及降低運維成本帶來新的機遇。
各國都在積極開展將云平臺引入鐵路信號系統(tǒng)相關研究,云平臺對鐵路信號系統(tǒng)及鐵路運營的助力已滲透于鐵路各個方面。在效率和靈活性提升方面,云平臺可以使用最新的通用計算機軟硬件資源,極大提高系統(tǒng)的計算性能,同時,云平臺的應用可將聯(lián)鎖系統(tǒng)的數據和功能集中管理,實現(xiàn)更高的效率和靈活性。此外,云平臺可根據列車運行計劃和實時的運營狀況進行動態(tài)調整,最大程度地優(yōu)化列車運行,提高運輸效率。在資源優(yōu)化方面,通過云平臺的數據分析和優(yōu)化算法,更好地管理鐵路設備的使用,避免資源浪費。設備集中于云計算中心,不依賴于專門設計的高成本聯(lián)鎖安全計算機,可簡化車站和軌旁設備,便于維護,降低運營成本。在統(tǒng)一管理和協(xié)調方面,鐵路聯(lián)鎖系統(tǒng)通常涉及車站和線路間的協(xié)調管理。云平臺能提供統(tǒng)一的管理界面,對鐵路網絡和列車運行狀態(tài)進行實時監(jiān)控,使得運營人員能夠更好地協(xié)調不同車站之間的列車運行。在面向未來的擴展性方面,云平臺資源配置靈活,更易于集成新的技術和功能(如人工智能、物聯(lián)網等),進一步提升聯(lián)鎖系統(tǒng)的性能和智能化程度。同時,云平臺有利于國際合作,實現(xiàn)不同國家之間的鐵路系統(tǒng)互聯(lián)互通,加強國際鐵路運輸的協(xié)同效應。
1.1.1 德國
西門子交通有限公司于2020 年將研制的分布式智能安全系統(tǒng)(Distributed Smart Safe System,DS3)在奧地利的Achau 投入運營,DS3主要特點是將控制邏輯和位于軌旁的本地控制單元進行分離[5],DS3系統(tǒng)總體架構如圖1 所示。由圖1 可知,DS3的邏輯部分部署在云服務器上,而控制單元安裝在現(xiàn)場軌旁,可將聯(lián)鎖、無線閉塞中心、占用控制系統(tǒng)等作為安全服務應用集成到DS3的服務層。
圖1 DS3系統(tǒng)總體架構Fig.1 DS3 system architecture
為保證安全性和可靠性,DS3中安全應用實例可以運行在不同的物理CPU內核上。由3個不同物理CPU 內核同時并行運行一個安全相關應用(如聯(lián)鎖邏輯)的3個實例示例。每個實例作為循環(huán)任務運行(如200 ms/周期),由安全時鐘觸發(fā)。各個實例的結果或輸出經由安全表決確認,表決過程的結果通過安全協(xié)議網關發(fā)送給連接的系統(tǒng)。安全相關的應用實例以異構的代碼運行,具有循環(huán)內存測試、自檢,以及多樣化的內存管理和通道管理等安全機制。該系統(tǒng)可以通過冗余方式增加實例數量,也可通過冗余設計在多服務器中運行。發(fā)生故障的實例或虛擬機重新啟動時,會與正在運行的實例重新同步,可快速加入到任務處理隊列中。所有組件(如實例、時鐘、表決等)之間的通信都通過一種新定義的基于IP 的通信協(xié)議XDM 進行。DS3安全相關應用實例運行示例如圖2所示。
圖2 DS3安全相關應用實例運行示例Fig.2 Example of running DS3 security-related application instance
1.1.2 法國
2020年9月,泰雷茲公司在W?llersdorf車站展示了聯(lián)鎖系統(tǒng)如何在云上工作[6]。在云計算機控制下,泰雷茲聯(lián)鎖系統(tǒng)完成了對W?llersdorf 車站的信號和道岔控制。該系統(tǒng)采用基于商用現(xiàn)貨(Commercial-off-the-shelf,COTS)服務器硬件,服務器無需任何專有的監(jiān)督電路、定制或其他額外的要求,通過最新的虛擬化技術在多虛擬機之間運行Thales 平臺(TAS)實例,共享服務器的物理資源由虛擬機監(jiān)視器進行管理。
TAS平臺的核心功能是為鐵路安全應用的開發(fā)和部署提供工具鏈、方法、軟件、硬件運行環(huán)境。該平臺由COTS 硬件層、基于Linux 定制的操作系統(tǒng)層、安全層和應用層及非安全相關服務組成,TAS 控制平臺架構如圖3 所示。由圖3 可知,頂層即應用層,為系統(tǒng)提供功能方面(應用程序)的支持;安全層和操作系統(tǒng)層為中間件部分,負責提供相關應用程序編程接口,以及編程模型與操作系統(tǒng)之間的連接通道,實現(xiàn)必要的監(jiān)督、容錯和實時服務[7];底層為硬件層,由COTS 服務器組成,為系統(tǒng)提供硬件資源。
圖3 TAS控制平臺架構Fig.3 Architecture of TAS control platform
與傳統(tǒng)專用的嵌入式硬件相比,TAS平臺具有資源使用效率高、可拓展性和可維護性強,以及平均修復時間和運營成本低等方面的優(yōu)勢。通過虛擬化,TAS平臺可以實現(xiàn)與特定硬件解耦,消除了由于硬件過時及硬件修改需重新認證等問題。此外,該平臺支持應用程序在2003,2002 等冗余架構下運行。
1.1.3 其他相關項目、計劃
除了西門子、泰雷茲之外,瑞士SmartRail 項目、歐洲RCA 項目、歐盟LINX4RAIL 項目和Eulynx項目等都針對地面信號系統(tǒng)的集中化和小型化開展研究,這些研究為將云平臺引入鐵路信號系統(tǒng)提供了寶貴經驗。
在Eulynx項目中,提出了關于“數字聯(lián)鎖”的概念,為聯(lián)鎖邏輯和RBC 邏輯等與鐵路安全相關的應用的集中化提供了可能性。數字化的下一步是采用行業(yè)標準的COTS 多核計算機,將現(xiàn)有技術用于計算密集型鐵路應用,并實現(xiàn)中央數據中心的硬件標準化,這有利于實現(xiàn)完全集中和地理冗余的高可用性;在SmartRail 項目中,試圖重新設計和分配列控系統(tǒng)的架構,并通過引入使能技術提升信號系統(tǒng)和安全設備的可用性、安全性和先進性;在SmartRail 項目的影響下,歐洲RCA 項目提出了一種模塊化、標準化的地面列控系統(tǒng)參考架構,為現(xiàn)有各子系統(tǒng)之間提供了更高效、自動化和標準化的通信方式;LINX4RAIL 項目進一步研究和推廣了列控系統(tǒng)架構的參考模型,提升了系統(tǒng)的先進性,為未來將地面信號系統(tǒng)向云平臺遷移提供了基礎。
在國家鐵路干線/城際鐵路中,基于云平臺的信號系統(tǒng)的應用研究尚處于起步階段,還沒有在實際的線路中試驗或運用的案例。而城市軌道交通領域在這方面已經開展了諸多研究。
同濟大學道路與交通工程教育部重點實驗室設計了一種基于云和高速無線通信技術的城市交通信號系統(tǒng)架構——軟件定義列車控制(SDTC),已經通過實驗室的仿真測試,SDTC 系統(tǒng)結構如圖4所示。
圖4 SDTC系統(tǒng)結構Fig.4 SDTC system architecture
由圖4 可知,SDTC 系統(tǒng)采用兩層結構,分別為控制中心層和軌道列車層。控制中心層由安全相關云和非安全相關云組成,邏輯操作等與安全相關的云組件位于安全相關云內,包括每列列車的云控制器(CiC)、線路資源管理器(LRM)、列車登記和分配控制器(TRAC)等云組件;列車自動監(jiān)控系統(tǒng)(ATS)和維護支持系統(tǒng)(MSS)等云組件位于非安全相關云中。軌道列車層指軌道和列車層,在這一層僅保留輸入/輸出(IO)和傳感器[8],IO即安裝在列車上的多個IO單元和軌旁IO單元(Wayside-IO),列車與控制中心的云組件之間使用低時延、高可靠、高速無線通信。為保證系統(tǒng)的可用性,在控制中心層設置備用控制中心,備用控制中心與控制中心可以同城異址或位于兩個城市,兩者之間通過高速網絡連接進行通信。因此,當發(fā)生重大災難時,可以在多個云中心之間進行數據傳輸,以最大程度地減少對系統(tǒng)的影響。與傳統(tǒng)的CBTC架構相比,云中的資源配置靈活、擴展方便,維護更加靈活和簡單。經實驗室驗證,該系統(tǒng)的平均故障間隔時間提高了39%。
北京交通大學對信號系統(tǒng)的集中化和小型化進行了探索,并在哈木鐵路(哈爾蓋—木里)進行了系統(tǒng)功能測試,這也為信號系統(tǒng)上云打下了基礎。哈木鐵路測試的新型信號系統(tǒng)總體架構如圖5 所示。該系統(tǒng)主要由軌旁設備和中心設備組成。軌旁設備主要包括對象控制器(OC)、多模通信網關和衛(wèi)星差分基站等設備;中心設備位于調度中心,主要包含智能調度(DCD)、資源管理(RMU)、智能維護(IMS)和衛(wèi)星導航地基增強系統(tǒng)等設備。該系統(tǒng)將無線閉塞中心(RBC)、臨時限速服務器(TSRS)和計算機聯(lián)鎖等地面設備的功能集成到控制中心,實現(xiàn)了對現(xiàn)場設備的集中化控制。該系統(tǒng)已經在哈木鐵路現(xiàn)場進行了測試,對系統(tǒng)的架構進行了驗證,對衛(wèi)星定位、移動閉塞、車車通信、多模通信等關鍵技術也進行了驗證,實現(xiàn)了設計功能,也為未來信號系統(tǒng)上云、建設數字鐵路積累經驗。
圖5 哈木鐵路測試的新型信號系統(tǒng)總體架構Fig.5 Overall architecture of new signaling system tested on the Haergai-Muli Railway
隨著鐵路數字化、智能化不斷向前發(fā)展,云計算技術與聯(lián)鎖技術深度融合已經成為一種發(fā)展趨勢,未來云聯(lián)鎖應用于國家鐵路干線/城際鐵路是可以預期的。云聯(lián)鎖具有諸多優(yōu)勢,也具有鮮明的特點,但要將云聯(lián)鎖應用于國家鐵路干線/城際鐵路,還有一些關鍵技術需要去研究:①除具有傳統(tǒng)聯(lián)鎖系統(tǒng)功能外,還需要具有適用云計算特點的專有功能;②高安全平臺架構設計技術;③軟件監(jiān)視技術,時刻監(jiān)視聯(lián)鎖邏輯處理的安全性;④時鐘同步技術;⑤同步表決技術;⑥系統(tǒng)防御技術。
云聯(lián)鎖系統(tǒng)除了具備車站既有的聯(lián)鎖功能以外,還應具備以下專有功能。
(1)車站聯(lián)鎖節(jié)點管理功能。在云聯(lián)鎖場景下,由于車站新設或撤銷,會導致云平臺中車站節(jié)點的擴展或某些節(jié)點的退出,這就需要云平臺支持節(jié)點的動態(tài)遷入/遷出服務,且不影響其他節(jié)點的正常運行。
(2)車站聯(lián)鎖數據恢復功能。云聯(lián)鎖在運行過程中由于網絡抖動、突然斷電、磁盤故障等原因,可能會導致部分節(jié)點的執(zhí)行速度落后于大多數節(jié)點或者直接宕機。在這種場景下,節(jié)點需要能夠做到自動恢復,使自身節(jié)點的存儲狀態(tài)盡快和整個系統(tǒng)最新的存儲狀態(tài)一致,參與后續(xù)的邏輯處理。
(3)資源調度功能。在云聯(lián)鎖環(huán)境下,各類異構資源需要進行協(xié)同工作以滿足對外提供服務的要求,云平臺資源池中的資源是動態(tài)變化的,其資源組織管理及優(yōu)化調度是云聯(lián)鎖面臨的一個重要問題,云聯(lián)鎖需要具有很強的資源調度功能,以適應其分布式、擴展性強、資源動態(tài)分配的特點。
(4)災難檢測功能。云聯(lián)鎖的首要目標就是保證系統(tǒng)的安全性、可靠性與可用性,盡量避免因災難造成服務中斷或系統(tǒng)不安全。當遭遇地震、火災等自然因素或戰(zhàn)爭等人為因素造成的災難時,云聯(lián)鎖要具有災難檢測功能,盡早發(fā)現(xiàn)系統(tǒng)所面臨的重大災難,將應用業(yè)務盡快遷移到備用云平臺或采取保護措施,盡量避免災難對服務及系統(tǒng)安全造成影響,將災難導致的損失降到最低。
目前,基于通用計算機硬件和軟件資源的云平臺主要用于非安全相關系統(tǒng)方面的商業(yè)用途,還無法提供滿足聯(lián)鎖系統(tǒng)要求的安全性和可靠性要求。對于聯(lián)鎖系統(tǒng)這類典型的安全苛求關鍵系統(tǒng),將其功能在云平臺上實現(xiàn)面臨著技術上的諸多變化,需要考慮更多的因素,例如適用于聯(lián)鎖系統(tǒng)的云平臺的物理和邏輯結構,以及云平臺中控制節(jié)點、計算節(jié)點和網絡節(jié)點的配置方案設計等。
高安全云平臺架構設計是云聯(lián)鎖安全穩(wěn)定運行的基礎,其核心包括時鐘同步、安全表決和系統(tǒng)防御技術等。通過獨立的全局同步時鐘可以保障云平臺中運行的聯(lián)鎖應用的時序性,確保云平臺中多個聯(lián)鎖應用保持一致的時間基準,同時為采用多重表決提供時間基礎[9]。多重表決可在硬件存在一個或多個危險故障的情況下,保證聯(lián)鎖應用能夠繼續(xù)承擔所需的安全功能。其次,采用獨立的安全監(jiān)控設備或設計容錯算法,對聯(lián)鎖應用的輸出進行防護,以阻止輸出危險命令[10]。同時在面對網絡攻擊、安全漏洞等威脅時,應具備有效的防御能力。云聯(lián)鎖平臺架構如圖6所示。
圖6 云聯(lián)鎖平臺架構Fig.6 Platform architecture of Cloud-based railway interlocking system
由圖6 可以看出,在車站僅保留執(zhí)行單元設備,大幅減少了現(xiàn)場設備。聯(lián)鎖邏輯等部分設置在云平臺中,云平臺采用主備物理冗余設置,以增強云聯(lián)鎖的可用性。在云平臺中運行多個聯(lián)鎖應用實例,云平臺采用了時鐘同步、安全監(jiān)視和表決等技術,在網絡層采用安全防御技術。
云平臺具有計算節(jié)點物理地址不確定、資源虛擬化、多核計算、動態(tài)調度等特征,而這些也是運行在云平臺中的聯(lián)鎖應用所要考慮的因素。在云平臺中,聯(lián)鎖應用運行過程中要涉及資源使用方式、數據交互方式以及相關控制節(jié)點和計算節(jié)點之間關聯(lián)關系,此外還要考慮云平臺通信延遲的不確定性,這些都增加了對云平臺中聯(lián)鎖應用運行特征的關注難度。然而,聯(lián)鎖系統(tǒng)的安全相關軟件具有周期性運行和強實時性等特點,因而有必要研究適用于云平臺的軟件監(jiān)控方法,以提高系統(tǒng)的可靠性和安全性,防止錯誤或沖突的指令對列車行車造成危險。
聯(lián)鎖系統(tǒng)作為一個安全苛求系統(tǒng),通過防止車站范圍內的進路沖突來確保列車運行安全[11]。云平臺上運行聯(lián)鎖軟件的最大挑戰(zhàn)在于確保其安全性,為解決云平臺承載的聯(lián)鎖邏輯軟件的安全性問題,需要對云聯(lián)鎖運行行為進行監(jiān)測,防止危險指令的輸出。例如,可以構建適用于聯(lián)鎖運行的云環(huán)境的聯(lián)鎖監(jiān)控模型,并設計容錯安全方法對云聯(lián)鎖中的各個軟件程序進行監(jiān)控,以檢測系統(tǒng)設計缺陷和計算錯誤,及時發(fā)現(xiàn)異常情況并采取相應措施,以防護聯(lián)鎖系統(tǒng)的輸出,確保系統(tǒng)正常運行。云平臺監(jiān)控模型宜采用雙重冗余架構設計,以保證監(jiān)控自身的可靠性和安全性。
對于運行在分布式計算節(jié)點中的應用程序,需要一個全局的同步時鐘,以滿足各個子模塊的穩(wěn)定運行和實時交互的時序要求[12-14]。此外,云平臺中的表決過程、故障診斷和恢復、分析審計日志、備份和恢復功能等都需要基于同步時鐘的支持。顯然,時鐘同步技術在云聯(lián)鎖的研究領域發(fā)揮著重要作用。安全可靠的全局同步時鐘是實現(xiàn)云聯(lián)鎖的基礎和前提,因此有必要研究適用于云聯(lián)鎖的全局時鐘,以及針對云聯(lián)鎖的分布式時鐘同步算法,從而保證系統(tǒng)級的時鐘同步,滿足計算節(jié)點、應用程序和表決等對時鐘的要求,為實現(xiàn)云聯(lián)鎖提供依據。
云聯(lián)鎖可以通過增加計算節(jié)點數量,提高聯(lián)鎖邏輯的運算處理效率,同時避免單點故障等問題。然而,在這種設計中,節(jié)點之間可能面臨通信不可靠、延遲和阻塞的問題,節(jié)點的處理也可能出現(xiàn)錯誤,甚至節(jié)點本身可能隨時宕機。此外,與傳統(tǒng)計算機相比,云平臺存在更嚴重的信息安全問題,如入侵、劫持和修改等,導致每個云上的聯(lián)鎖軟件容易發(fā)生拜占庭失效的風險。同步表決算法是解決拜占庭失效和一般獨立失效的有效手段,合適的共識算法是同步表決的基礎[15]。傳統(tǒng)的實用拜占庭容錯算法(Practical Byzantine Fault Tolerance)等共識算法假設系統(tǒng)可以在一致的有限時間內完成計算和網絡傳輸任務,導致同步表決算法對系統(tǒng)處理和通信時延非常敏感。然而,云平臺的特點導致通信延遲存在較大的不確定性,因此開發(fā)適用于高安全云平臺的同步表決算法成為當前云聯(lián)鎖中一個重要的課題。
由于云平臺的網絡化特點,可能面臨多種安全漏洞和惡意網絡攻擊,因而云平臺的網絡安全也是要考慮的一個重要問題[16]。云平臺要采用主動的系統(tǒng)防御技術來防范網絡安全風險,如可以通過監(jiān)測設備或節(jié)點來監(jiān)視計算機程序的運行,監(jiān)測節(jié)點通過加密驗證程序對加密的結果進行驗證,能夠檢測到云節(jié)點潛在的安全漏洞[17]。
基于Paillier 加密機制監(jiān)測軟件程序如圖7 所示,圖中展示了監(jiān)控的實現(xiàn)的一個流程,其中使用了Paillier 加密算法。監(jiān)測節(jié)點執(zhí)行加密和解密操作,云節(jié)點只執(zhí)行事先約定的特定加密操作。在監(jiān)控方法中,可設置動態(tài)加密運行簽名,通過這種加密方法可以解決隱私泄露的問題。根據EN50129標準,邏輯監(jiān)控是通過軟件計數流程或軟件密鑰流程來監(jiān)控程序執(zhí)行順序的。在程序設計的前期階段,通過在與云節(jié)點相關程序的關鍵分支上手動標記加密簽名來實現(xiàn)。在程序運行過程中,加密簽名將被發(fā)送到監(jiān)測節(jié)點。監(jiān)測節(jié)點解密簽名后,檢查其是否正確,并啟動相應的安全響應。
圖7 基于Paillier加密機制監(jiān)測軟件程序Fig.7 Example of logical monitoring based on Paillier encryption mechanism
云聯(lián)鎖順應了鐵路信號系統(tǒng)數字化、智能化的發(fā)展方向,具有廣闊的發(fā)展前景。通過對國內外云計算在信號領域的應用情況進行研究,分析了各個方案的技術特點和云聯(lián)鎖系統(tǒng)的優(yōu)勢,對云聯(lián)鎖的發(fā)展進行了探討。通過對云聯(lián)鎖應具備的專用功能進行說明,分析云聯(lián)鎖發(fā)展中需解決的關鍵技術,對高安全云平臺架構設計、軟件監(jiān)視、時鐘同步、同步表決和系統(tǒng)安全防御等關鍵技術方面做了一些有益思考。云聯(lián)鎖的應用,將極大地改變既有的信號控制模式,衍生出效率更高、成本更低、可靠性更有保障的全新信號控制模式,對我國鐵路現(xiàn)代化發(fā)展具有重要而深遠的意義。