孟娜娜,王志心,竇 剛
(國電南京自動化股份有限公司,江蘇 南京 211100)
云化綜合監(jiān)控系統(tǒng)部署方案主要是依據(jù)軌道交通行業(yè)標(biāo)準(zhǔn)完成的私有云方案[1]。業(yè)務(wù)上云后,應(yīng)重點(diǎn)考慮可靠性,基于超融合云平臺架構(gòu)的綜合監(jiān)控系統(tǒng)部署方案設(shè)計(jì)時(shí),需要考慮并解決以下技術(shù)難題:對于單業(yè)務(wù)或者單節(jié)點(diǎn),能否自動檢測故障并實(shí)現(xiàn)無感切換;對于多業(yè)務(wù)或者整個(gè)主中心云出現(xiàn)重大故障時(shí),能否在最短時(shí)間恢復(fù)或者啟用備中心云;對于部署在中心云的車站云服務(wù)器故障后,車站的業(yè)務(wù)是否受到影響,能否自動降級運(yùn)行,如何降級運(yùn)行。
系統(tǒng)采用超融合云計(jì)算平臺架構(gòu),在主備中心分別構(gòu)建超融合云平臺,為中央級實(shí)時(shí)服務(wù)器、站級服務(wù)器、接口服務(wù)器、應(yīng)用服務(wù)器等提供計(jì)算、存儲資源;主備中心也可以部署在同一個(gè)超融合云內(nèi),車站服務(wù)器可以選擇全云化或者部分云化[2]。如圖1所示為一種典型的部署架構(gòu)。
圖1 綜合監(jiān)控系統(tǒng)云化部署架構(gòu)
云化綜合監(jiān)控系統(tǒng)從邏輯上可以分3層結(jié)構(gòu),如圖2所示。
圖2 綜合監(jiān)控系統(tǒng)“云化”平臺邏輯架構(gòu)
云IT基礎(chǔ)設(shè)施層:包括虛擬資源、硬件資源。系統(tǒng)內(nèi)的所有資源都由云平臺統(tǒng)一管理,并對各類資源進(jìn)行監(jiān)控,同時(shí)提供報(bào)警和分析;在資源池中使用虛擬化技術(shù)分配計(jì)算、歷史存儲等資源。用戶在使用該系統(tǒng)時(shí)對硬件無感知,能夠在熱遷移時(shí),不影響綜合監(jiān)控系統(tǒng)的使用。
利用云平臺的虛擬化技術(shù)從資源池中指定計(jì)算、存儲和網(wǎng)絡(luò)資源,使用戶在使用硬件資源時(shí)對硬件無感知,在虛擬機(jī)發(fā)生熱遷移時(shí),用戶業(yè)務(wù)能夠無中斷地平滑過渡。
綜合監(jiān)控系統(tǒng)平臺層:包括平臺基礎(chǔ)和平臺支撐服務(wù),主要是利用虛擬資源部署綜合監(jiān)控系統(tǒng)的各類平臺軟件,并對應(yīng)用程序提供平臺支撐。
綜合監(jiān)控系統(tǒng)應(yīng)用層:部署綜合監(jiān)控系統(tǒng)的應(yīng)用軟件,按專業(yè)劃分有PSCADA、BAS、FAS、AFC、PA、PIS、ATS、NMS等。
在綜合監(jiān)控系統(tǒng)中,使用云平臺將控制中心和車站的服務(wù)器進(jìn)行虛擬化,集中完成綜合監(jiān)控系統(tǒng)的各種業(yè)務(wù)。在實(shí)際的安裝部署過程中,可根據(jù)不同現(xiàn)場的需求,搭建不同的硬件架構(gòu),常見的有以下兩種架構(gòu)。
1.3.1 純虛擬化架構(gòu)
在純虛擬化架構(gòu)方式下,將綜合監(jiān)控系統(tǒng)所有的物理機(jī)進(jìn)行虛擬化,在中心云中整合歷史服務(wù)器、中心實(shí)時(shí)服務(wù)器和車站服務(wù)器,然后在控制中心部署運(yùn)算能力、歷史存儲能力強(qiáng)大的云平臺資源集群。在該集群中劃分出中心歷史服務(wù)器、中心實(shí)時(shí)服務(wù)器、車站服務(wù)器等,然后安裝云桌面服務(wù),通過云桌面對綜合監(jiān)控系統(tǒng)進(jìn)行管理,完成綜合監(jiān)控系統(tǒng)的各種業(yè)務(wù)[3]。
此種方式下,中心歷史服務(wù)器和中心實(shí)時(shí)服務(wù)器仍然采用的是一主一備的冗余方式,和傳統(tǒng)物理架構(gòu)下的綜合監(jiān)控系統(tǒng)一致。和傳統(tǒng)的綜合監(jiān)控系統(tǒng)進(jìn)行比較,這種虛擬化架構(gòu)下主備服務(wù)器的冗余可靠性增加,因?yàn)樵趧澐痔摂M機(jī)時(shí),將主備服務(wù)器劃分在不同的物理機(jī)上,依靠云平臺自身的遷移和重生功能,在主服務(wù)器失效時(shí)會迅速遷移到其他物理機(jī)上。但是,此種方式將所有的服務(wù)器均部署在中心云上,對主干網(wǎng)絡(luò)和云平臺的可靠性提出了更高的要求,一旦云平臺故障或者主干網(wǎng)絡(luò)發(fā)生異常,綜合監(jiān)控系統(tǒng)將不能正常采集和控制站下的設(shè)備,車站無法做到降級運(yùn)行,因此不太適合工程場景,適合用于測試場景。
1.3.2 云中心+車站云服務(wù)器+車站降級物理服務(wù)器架構(gòu)
這種方式構(gòu)建了一個(gè)中心云,虛擬中心的所有節(jié)點(diǎn),此外將綜合監(jiān)控系統(tǒng)各車站均部署一臺物理服務(wù)器,另一臺物理服務(wù)器進(jìn)行虛擬化,集中在中心云管理。當(dāng)主干網(wǎng)絡(luò)或者云平臺發(fā)生故障時(shí),車站能夠降級運(yùn)行,保證正常的綜合監(jiān)控系統(tǒng)業(yè)務(wù)不受影響。此外,車站還需要部署一臺物理工作站,用來對綜合監(jiān)控系統(tǒng)進(jìn)行操作。
此種方式可實(shí)現(xiàn)降級運(yùn)行,即使中心云失效,也可通過綜合監(jiān)控系統(tǒng)的應(yīng)用層實(shí)現(xiàn)運(yùn)營模式切換,保障了車站業(yè)務(wù)的可靠性。但是只適合用于只有一個(gè)控制中心的綜合監(jiān)控應(yīng)用現(xiàn)場,而且中心云或者網(wǎng)絡(luò)異常會導(dǎo)致中心的業(yè)務(wù)不可用。
對比這兩種綜合監(jiān)控系統(tǒng)云平臺方案,結(jié)合主備中心分層分布式現(xiàn)場的實(shí)際需求,提出了一種適用于主備中心異地部署和車站降級需求的云化部署方案:主、備雙云中心+車站云服務(wù)器+降級物理服務(wù)器架構(gòu)[4]。
綜合監(jiān)控系統(tǒng)云平臺采用主備云的方式實(shí)施,總體結(jié)構(gòu)如下:在中心設(shè)立兩個(gè)云平臺集群,分別為主云和備云,主備云之間通過主干網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)交互。主云和備云對部署的地理位置要求不高,將主云部署在主控制中心,備云部署在備控制中心,能夠?qū)崿F(xiàn)遠(yuǎn)程異地部署,使得備云平臺起到備控制中心機(jī)監(jiān)控的效果。主云的虛擬機(jī)包括中心歷史主服務(wù)器、中心實(shí)時(shí)主服務(wù)器和車站(包括停車場、車輛段)主服務(wù)器;而備云平臺上的虛擬機(jī)主要是中心、車站(包括停車場、車輛段)的備服務(wù)器。此外,為了滿足綜合監(jiān)控系統(tǒng)可靠性的要求,在主干網(wǎng)絡(luò)發(fā)生問題時(shí),綜合監(jiān)控系統(tǒng)能夠順利降級運(yùn)行,需要將各車站的一臺工作站兼用作車站的備用服務(wù)器。其主要責(zé)任是在主干網(wǎng)或云平臺出現(xiàn)問題時(shí),該工作站能承擔(dān)器車站服務(wù)器的工作,實(shí)現(xiàn)車站服務(wù)器的功能,收集和處理車站數(shù)據(jù),并且在主干網(wǎng)和云平臺故障恢復(fù)后,能實(shí)現(xiàn)實(shí)時(shí)、歷史數(shù)據(jù)的同步。
此種架構(gòu)方式能夠保證主中心完全失效的情況下,備中心順利接管車站和中心的業(yè)務(wù),部分車站虛擬節(jié)點(diǎn)失效也可以實(shí)現(xiàn)降級運(yùn)行。現(xiàn)在的軌道交通綜合監(jiān)控現(xiàn)場都是異地雙中心模式,更加符合工程現(xiàn)場使用,但是也存在一定缺點(diǎn),在車站較多的情況下,備中心虛擬車站備服務(wù)器節(jié)點(diǎn)過多會造成一定資源浪費(fèi),主備中心之間的業(yè)務(wù)遷移需要同時(shí)遷移節(jié)點(diǎn)過多,對云平臺的性能要求較高。
對比這3種綜合監(jiān)控系統(tǒng)云平臺方案,不難發(fā)現(xiàn)方案三的可靠性最高,最適用于工程現(xiàn)場的部署;方案二適用于無備云中心的現(xiàn)場;而方案一適用于實(shí)驗(yàn)室測試驗(yàn)證。
本設(shè)計(jì)方案中,主中心構(gòu)建超融合云平臺,為中央級實(shí)時(shí)服務(wù)器、站級服務(wù)器、接口服務(wù)器、應(yīng)用服務(wù)器等提供計(jì)算、存儲資源;備中心云平臺,為中央級實(shí)時(shí)服務(wù)器、接口服務(wù)器、培訓(xùn)運(yùn)維服務(wù)器等提供計(jì)算、存儲資源;車站僅配置一臺物理實(shí)時(shí)服務(wù)器作為主服務(wù)器,同時(shí)在主中心超融合云平臺上設(shè)置一臺虛擬實(shí)時(shí)服務(wù)器作為備服務(wù)器,當(dāng)中心云失效時(shí),由車站物理機(jī)承擔(dān)降級運(yùn)行任務(wù)。云化綜合監(jiān)控系統(tǒng)平臺的硬件拓?fù)淙鐖D3所示。
圖3 綜合監(jiān)控系統(tǒng)“云化”平臺硬件拓?fù)?/p>
本文提出的綜合監(jiān)控系統(tǒng)云化部署方案,能夠結(jié)合主備中心+車站降級運(yùn)營的需求,在主中心完全失效的情況下,備中心順利接管車站和中心的業(yè)務(wù),部分車站虛擬節(jié)點(diǎn)失效也可以實(shí)現(xiàn)降級運(yùn)行。該方案能夠減少系統(tǒng)成本,降低硬件的安全隱患,極大程度地提高了系統(tǒng)的可靠性、安全性。