李周雨
綜合監(jiān)控系統(tǒng)是確保島橋隧可靠安全運(yùn)營(yíng)的重要保障,因此系統(tǒng)的高可靠性在島橋隧日常運(yùn)行管理中就顯的尤為重要。本文結(jié)合了服務(wù)分布式設(shè)計(jì)、主中心的集群設(shè)計(jì)、主備中心冗余設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)災(zāi)備設(shè)計(jì)等技術(shù)設(shè)計(jì)了一套高可靠性島橋隧大型綜合監(jiān)控系統(tǒng)。該系統(tǒng)具有較高的自動(dòng)化程度和可靠性,實(shí)現(xiàn)了島橋隧的監(jiān)控一體化,效果顯著。
【關(guān)鍵詞】分布式 集群 冗余 主備中心
1 前言
島橋隧大型綜合監(jiān)控系統(tǒng)由通風(fēng)、給排水、供配電、環(huán)境氣象、交通信號(hào)、交通誘導(dǎo)、視頻檢測(cè)、照明監(jiān)控、視頻監(jiān)控等20多個(gè)子系統(tǒng)組成。綜合監(jiān)控系統(tǒng)是確保島橋隧可靠安全運(yùn)營(yíng)的重要保障,因此實(shí)現(xiàn)綜合監(jiān)控的高可靠性顯得尤為重要,本文針對(duì)如何提高島橋隧綜合監(jiān)控系統(tǒng)的可靠性進(jìn)行了研究和探討。
2 系統(tǒng)總體結(jié)構(gòu)設(shè)計(jì)
本方案共設(shè)置兩個(gè)中心(主中心、備中心)。主中心通過(guò)熱備方式提高系統(tǒng)的可靠性,保證日常情況下,系統(tǒng)的監(jiān)控都在主中心上實(shí)現(xiàn);同時(shí)考慮到主中心整個(gè)系統(tǒng)遭到災(zāi)害性事故而整體停運(yùn)時(shí),備中心可以通過(guò)人工干預(yù)的方式啟用系統(tǒng)實(shí)現(xiàn)監(jiān)控,如圖1所示。
3 系統(tǒng)冗余切換設(shè)計(jì)
本項(xiàng)目冗余設(shè)計(jì)主要包括應(yīng)用服務(wù)分布式設(shè)計(jì)、主中心的集群設(shè)計(jì)、主備中心冗余設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)災(zāi)備。
3.1 應(yīng)用服務(wù)分布式設(shè)計(jì)
本監(jiān)控系統(tǒng)涉及的子系統(tǒng)多、設(shè)備種類多、監(jiān)控信號(hào)點(diǎn)多達(dá)幾十萬(wàn)點(diǎn),因此設(shè)置了兩組綜合監(jiān)控服務(wù)以分擔(dān)負(fù)載,避免單臺(tái)服務(wù)器負(fù)荷過(guò)大而影響系統(tǒng)性能。
本系統(tǒng)中供配電子系統(tǒng)和照明監(jiān)控子系統(tǒng)點(diǎn)數(shù)規(guī)模非常大,故設(shè)置綜合監(jiān)控服務(wù)1,用來(lái)接入該兩個(gè)子系統(tǒng)。綜合監(jiān)控服務(wù)2負(fù)責(zé)除其他系統(tǒng)的接入。
3.2 主中心集群設(shè)計(jì)
上述兩組綜合監(jiān)控服務(wù)均采用主、備機(jī)的成對(duì)方式部署。系統(tǒng)冗余服務(wù)通過(guò)定期的心跳信號(hào)(系統(tǒng)心跳檢測(cè)頻率在200ms,心跳包內(nèi)容:主備機(jī)彼此的問(wèn)答信號(hào)、主機(jī)健康度評(píng)分,即各個(gè)關(guān)鍵進(jìn)程狀態(tài))進(jìn)行主備機(jī)的檢測(cè)。心跳檢測(cè)信號(hào)連續(xù)5次以上丟失,或者健康度評(píng)分滿足切換條件,冗余系統(tǒng)將將視為主機(jī)狀態(tài)異常,觸發(fā)冗余切換動(dòng)作。主備機(jī)之間的數(shù)據(jù),由冗余服務(wù)從主機(jī)一側(cè)向備機(jī)一側(cè)操作實(shí)時(shí)數(shù)據(jù)庫(kù)同步,確保兩側(cè)數(shù)據(jù)一致。
集群冗余切換將考慮兩種異常情況下的切換策略設(shè)計(jì):
(1)當(dāng)各綜合監(jiān)控子系統(tǒng)的通訊鏈路出現(xiàn)異常,引發(fā)導(dǎo)致系統(tǒng)異常時(shí),系統(tǒng)將通過(guò)心跳狀態(tài)監(jiān)測(cè),傳遞的故障信息。系統(tǒng)將進(jìn)行冗余切換,切換至備機(jī)開(kāi)始嘗試由備機(jī)的通訊鏈路嘗試連接待各監(jiān)控子系統(tǒng)。與設(shè)備通訊連接正常后,完成系統(tǒng)切換,主機(jī)采集服務(wù)停止工作,實(shí)時(shí)數(shù)據(jù)同步方向改為,從備機(jī)向主機(jī)開(kāi)始同步。直至用戶人工選擇恢復(fù)主機(jī)后,系統(tǒng)才將恢復(fù)至初始主備機(jī)功能狀態(tài)。
(2)當(dāng)主機(jī)系統(tǒng)采集服務(wù)、數(shù)據(jù)服務(wù)、數(shù)據(jù)轉(zhuǎn)儲(chǔ)服務(wù)、報(bào)警服務(wù)異常且滿足切換冗余切條件,或因主機(jī)硬件設(shè)備異常,引發(fā)導(dǎo)致系統(tǒng)異常時(shí),系統(tǒng)將通過(guò)心跳狀態(tài)監(jiān)測(cè),判斷主機(jī)系統(tǒng)異常,進(jìn)而觸發(fā)冗余切換操作。
當(dāng)人工選擇恢復(fù)主備機(jī)運(yùn)行狀態(tài)后,備機(jī)移交采集和控制功能回歸主機(jī),同時(shí)開(kāi)始從切換節(jié)點(diǎn)恢復(fù)備機(jī)運(yùn)行期間所采集的實(shí)時(shí)數(shù)據(jù)庫(kù)數(shù)據(jù)。并恢復(fù)相關(guān)心跳檢測(cè)數(shù)據(jù)。
3.3 主備中心冗余實(shí)現(xiàn)設(shè)計(jì)
正常情況下,主中心和備中心的工作站都通過(guò)主中心節(jié)點(diǎn)的服務(wù)器進(jìn)行信息采集和管理控制。如果主中心節(jié)點(diǎn)內(nèi)出現(xiàn)某一服務(wù)器軟硬件故障,那么可以自動(dòng)進(jìn)行熱備硬件的切換,實(shí)現(xiàn)系統(tǒng)無(wú)擾動(dòng)切換。如果主中心節(jié)點(diǎn)內(nèi)出現(xiàn)兩臺(tái)服務(wù)器或者存儲(chǔ)硬件故障,那么需要啟動(dòng)主備中心切換模式,切換到備用中心。
備中心作為災(zāi)備中心,正常情況下集成監(jiān)控1和集成監(jiān)控2服務(wù)器上的應(yīng)用服務(wù)端不啟動(dòng),磁盤陣列上的數(shù)據(jù)是通過(guò)遠(yuǎn)程數(shù)據(jù)鏡像同步的方式,與主中心的磁盤陣列上數(shù)據(jù)保持一致。當(dāng)采用設(shè)備故障切換模式時(shí),須進(jìn)行人工干預(yù),先將主中心的綜合監(jiān)控服務(wù)器1和綜合監(jiān)控服務(wù)器2中的應(yīng)用服務(wù)端關(guān)閉,再啟動(dòng)備中心的綜合監(jiān)控服務(wù)器1和綜合監(jiān)控服務(wù)器2中的應(yīng)用服務(wù)端,待服務(wù)開(kāi)啟后,主中心和備中心的工作站上的客戶端,通過(guò)核心交換機(jī)與備中心服務(wù)端進(jìn)行通信,即可以進(jìn)行工作。
3.4 數(shù)據(jù)存儲(chǔ)災(zāi)備設(shè)計(jì)
在主中心和備中心均設(shè)置基于SAN 架構(gòu)的數(shù)據(jù)存儲(chǔ)系統(tǒng)。主中心和備中心配置的數(shù)據(jù)存儲(chǔ)系統(tǒng)能夠?qū)崿F(xiàn)兩地?cái)?shù)據(jù)的實(shí)時(shí)同步。在正常情況下,兩地同時(shí)存儲(chǔ)數(shù)據(jù),對(duì)于上層應(yīng)用系統(tǒng)來(lái)說(shuō)就像虛擬成一套存儲(chǔ)一樣使用;當(dāng)某地系統(tǒng)出現(xiàn)故障時(shí),另一地系統(tǒng)獨(dú)立承擔(dān)數(shù)據(jù)存儲(chǔ)功能,故障恢復(fù)時(shí),故障系統(tǒng)自動(dòng)同步更新為最新數(shù)據(jù)。
4 結(jié)論
可靠性是系統(tǒng)工程,需要從多維度進(jìn)行綜合設(shè)計(jì)。本文將應(yīng)用服務(wù)分布式設(shè)計(jì)、主中心的集群設(shè)計(jì)、主備中心冗余設(shè)計(jì)、數(shù)據(jù)存儲(chǔ)災(zāi)備設(shè)計(jì)等技術(shù)應(yīng)用到島橋隧綜合監(jiān)控領(lǐng)域,極大的提升了綜合監(jiān)控系統(tǒng)的可靠性。
參考文獻(xiàn)
[1]何小良,陳志遠(yuǎn).地鐵大型綜合監(jiān)控平臺(tái)高可靠性設(shè)計(jì)研究[J].通訊世界,2016(15):263-264.
[2]雷濤,井鵬程.基于WMI的計(jì)算機(jī)監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(12):232-235,239.
[3]孫懷義.冗余設(shè)計(jì)技術(shù)與可靠性關(guān)系研究[J].儀器儀表學(xué)報(bào),2007,28(11):2089-2090.
作者單位
上海寶信軟件股份有限公司 上海市 201203