周 煒 師 進(jìn) 韋 文 孟慶堯 江 明
(北京全路通信信號研究設(shè)計院有限公司,北京 100073)
智能N取M型高可靠安全計算機(jī)系統(tǒng)
周 煒 師 進(jìn) 韋 文 孟慶堯 江 明
(北京全路通信信號研究設(shè)計院有限公司,北京 100073)
通過分析指出傳統(tǒng)故障-安全系統(tǒng)在電子系統(tǒng)日趨復(fù)雜的背景下將遇到故障檢測復(fù)雜性劇增的問題,為解決系統(tǒng)設(shè)計的可持續(xù)發(fā)展問題,滿足用戶對可靠性和安全性不斷提高的需求,提出一種智能的N取M型高可靠安全計算機(jī)系統(tǒng),并在系統(tǒng)的可靠性、安全性、設(shè)計成本、可維護(hù)性以及系統(tǒng)容量方面同傳統(tǒng)安全系統(tǒng)進(jìn)行對比分析。性能仿真數(shù)據(jù)說明新的安全計算平臺不僅能夠完全滿足IEC61508中SIL4等級系統(tǒng)的要求,更重要的是,這一類型的安全計算結(jié)構(gòu)極大地降低了對單器件可靠性及安全性的要求,比傳統(tǒng)故障-安全結(jié)構(gòu)在設(shè)計和維護(hù)成本方面更加具備可持續(xù)發(fā)展的潛力。
高可靠;高安全;二乘二取二;三取二;N取M;智能退化;安全計算機(jī)
在傳統(tǒng)的故障-安全系統(tǒng)中,系統(tǒng)輸出危險側(cè)的概率等于系統(tǒng)失效概率同失效后導(dǎo)向危險側(cè)概率的乘積,即D=(1-R)d。為了在故障發(fā)生時能可靠地導(dǎo)向安全側(cè),故障-安全系統(tǒng)需要詳盡地分析系統(tǒng)中所有可能的故障模式,并設(shè)計相應(yīng)的故障檢測電路來處理各種類型的故障。目前幾乎所有的安全控制系統(tǒng)都已離不開高性能處理器,隨著半導(dǎo)體技術(shù)的進(jìn)步,處理器的計算速度、核心的數(shù)量、接口電路的復(fù)雜性都在飛速地增長,在這樣的前提下,要覆蓋檢測單套計算單元的各種失效(如內(nèi)存故障、IO故障、總線故障、寄存器故障、ALU單元故障等)已變得越來越困難。在高速條件下要實(shí)現(xiàn)這些復(fù)雜的檢測功能,其設(shè)計的復(fù)雜度甚至可能超過了設(shè)計一個新處理器的數(shù)據(jù)通路部分。另一方面,在故障-安全系統(tǒng)的設(shè)計中,也需要采用不同的策略在處理器間實(shí)現(xiàn)不同程度的同步,如基于時鐘同步或基于協(xié)處理硬件電路的同步[1,2]。隨著系統(tǒng)總線和時鐘頻率的提高,一個高速的輸出級硬件同步器的設(shè)計也變得日益困難。這些因素使得故障-安全系統(tǒng)采用硬件檢測來覆蓋所有危險輸出故障模式的實(shí)現(xiàn)成本越來越高。有部分批評者甚至認(rèn)為,即使經(jīng)過仔細(xì)的設(shè)計,由于目前處理器電路的晶體管數(shù)量都很龐大,在無法遍歷整個失效狀態(tài)空間的情況下,必然會出現(xiàn)故障檢測電路無法覆蓋的失效模式,所以無論故障檢測電路是否存在,系統(tǒng)都不可避免會存在潛在的輸出危險側(cè)數(shù)據(jù)的可能。
另一種避免系統(tǒng)輸出危險側(cè)的方法,就是盡可能地提高系統(tǒng)的可靠性。通過減少系統(tǒng)故障的概率,來減少輸出危險側(cè)的概率,從而保障系統(tǒng)安全。在后續(xù)的討論中可以看到,在現(xiàn)有的技術(shù)條件下,通用計算機(jī)的可靠性同上個世紀(jì)相比已經(jīng)大為提高,采用通用計算機(jī)來搭建一個高可靠的安全系統(tǒng)的成本反而會比設(shè)計一個故障-安全的專用系統(tǒng)成本更低。本文提出一種新型的采用通用計算結(jié)構(gòu)的故障-安全計算系統(tǒng),由于大幅度簡化了故障檢測電路的設(shè)計,新系統(tǒng)不僅具有更加簡潔的系統(tǒng)結(jié)構(gòu),同傳統(tǒng)的故障-安全的設(shè)計模式相比,還具備高可靠、高安全、低成本、易設(shè)計維護(hù)、可持續(xù)發(fā)展等特點(diǎn),更加適合在未來高度集成的有嚴(yán)格成本指標(biāo)要求的安全應(yīng)用中使用。
本文結(jié)構(gòu)如下,第二章介紹安全系統(tǒng)的分類;第三章介紹N取M系統(tǒng)的基本原理;第四章介紹N取M系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù);第五章詳細(xì)地對N取M系統(tǒng)各種RAMS指標(biāo)進(jìn)行分析并同幾種典型的故障-安全系統(tǒng)性能進(jìn)行比較;第六章介紹N取M系統(tǒng)在列控系統(tǒng)中的應(yīng)用;最后,第七章對全文進(jìn)行總結(jié)與展望。
2.1 故障-安全系統(tǒng)
根據(jù)計算系統(tǒng)的基本原理,任何一個計算系統(tǒng)的數(shù)據(jù)通路,在設(shè)計上都包括3個部分:1)輸入獲取;2)邏輯運(yùn)算;3)輸出控制。由于數(shù)據(jù)通路上的3種模塊(輸入模塊、邏輯模塊和輸出模塊)都可能失效,傳統(tǒng)的故障-安全系統(tǒng)都會設(shè)計相應(yīng)的故障檢測模塊來實(shí)時檢測數(shù)據(jù)通路上模塊的工作狀態(tài),一旦檢測到故障,檢測電路立即切斷該數(shù)據(jù)通路,防止錯誤的輸出被驅(qū)動到輸出線路上。
典型的故障-安全系統(tǒng)有1OO1D,1OO2D, 2OO2D,2OO3D,2×2OO2D等幾種構(gòu)型,不同的構(gòu)型具有不同的可靠性和安全性。假設(shè)單系故障率為p,故障后發(fā)生危險側(cè)輸出概率為d,則1OO2D系統(tǒng)、2OO3D系統(tǒng)和2×2OO2D系統(tǒng)的可靠性和安全性如表1所示。
通過對各個系統(tǒng)性能的表達(dá)式分析可知, 2×2OO2D系統(tǒng)、2OO3D系統(tǒng)在開始時可靠性高于單系,但從3倍單系MTBF時間來看,在后期兩者都在一定程度上犧牲了可靠性,而三取二系統(tǒng)的可靠性比二乘二取二系統(tǒng)略高,安全性方面則是2×2OO2D系統(tǒng)最高。
表1 三種典型安全系統(tǒng)性能比較
2.2 高可靠系統(tǒng)
另一類安全系統(tǒng)通過采用提高系統(tǒng)的可靠性來避免系統(tǒng)輸出危險側(cè),這類系統(tǒng)在航空航天控制領(lǐng)域被廣泛的使用。因?yàn)檫@類系統(tǒng)中對系統(tǒng)可用性的要求比鐵路控制系統(tǒng)更為苛刻,所以需要通過提高系統(tǒng)的可靠性和可用性來防止系統(tǒng)停止輸出,因此更加強(qiáng)調(diào)系統(tǒng)對容錯性能的要求,如在機(jī)載系統(tǒng)中常用到三路冗余的安全系統(tǒng)。這類系統(tǒng)的安全性可以根據(jù)公式(1)進(jìn)行計算:
從公式(1)可以看出,這類系統(tǒng)的安全性完全同系統(tǒng)的可靠性成正比。
類似于故障-安全系統(tǒng),在航空中使用的機(jī)載的多路冗錯系統(tǒng)對單系可靠性和安全性的要求都比較高,因此冗余的路數(shù)大都不多,一般取到3路,所采用的也往往是高可靠的硬表決器。隨著軟件技術(shù)的進(jìn)步,分布式表決器開始逐步進(jìn)入過程控制系統(tǒng)。在下面的章節(jié)中可以看到,通過提高系統(tǒng)中冗余的節(jié)點(diǎn)數(shù),結(jié)合分布式表決機(jī)制,同時采用智能退化策略所構(gòu)建的N取M系統(tǒng)將可以進(jìn)一步降低系統(tǒng)對單組件MTBF指標(biāo)的要求并提升系統(tǒng)整體的性能。
N取M系統(tǒng)去掉了故障-安全系統(tǒng)中復(fù)雜的故障檢測部分,轉(zhuǎn)而認(rèn)為單計算節(jié)點(diǎn)具備如下特點(diǎn)。
1)單計算節(jié)點(diǎn)失效是不可檢測的且任意時刻都可以發(fā)生;
2)單計算節(jié)點(diǎn)失效后,其輸出可以是任意可能的數(shù)值。
為了在以上條件下保證系統(tǒng)的可靠性和安全性能提升到比傳統(tǒng)故障-安全系統(tǒng)更高的水平,N取M系統(tǒng)必須在以下幾個方面進(jìn)行仔細(xì)的設(shè)計。
3.1 分布式表決
沒有了故障檢測的功能,也不能使用集中表決器(會產(chǎn)生單點(diǎn)失效的問題),因此N取M系統(tǒng)的安全性完全建立在分布式多路表決的基礎(chǔ)上,系統(tǒng)中大部分的節(jié)點(diǎn)如果通過分布式表決能夠獲得一致的結(jié)果,則可以形成多數(shù)派意見,系統(tǒng)最終采信該結(jié)果作為輸出。參與分布式表決的節(jié)點(diǎn)數(shù)量越多, N取M系統(tǒng)整體的可靠性和安全性就越高。
3.2 拜占庭容錯
分布式多路表決能夠?qū)崿F(xiàn)安全的前提是必須保證多個獨(dú)立的計算通路獲得完全相同的輸入。由于拜占庭失效假設(shè)故障的計算單元可以向其他的計算單元發(fā)送任意的消息[3],并且假設(shè)這些消息可以是惡意的,這一特性嚴(yán)重破壞了分布式多路表決的前提條件。一個多節(jié)點(diǎn)參與表決的拜占庭失效場景如圖1所示。
圖1 拜占庭失效對分布式表決的影響
假設(shè)數(shù)據(jù)源S和P6發(fā)生拜占庭失效,S給各P1-P5發(fā)送不確定消息{1,0,1,0,1},P6給P1-P5節(jié)點(diǎn)發(fā)送不確定消息{1,0,1,0,1},在進(jìn)行節(jié)點(diǎn)間數(shù)據(jù)交換后,功能正常的P1-P5節(jié)點(diǎn)將得到表2中的所示數(shù)據(jù)。
表2 拜占庭失效對分布式表決的影響
從表2中可以看出,在進(jìn)行分布式表決時,雖然系統(tǒng)中還有5個正常的節(jié)點(diǎn),但因?yàn)槊總€節(jié)點(diǎn)收到的數(shù)據(jù)不一致,判決的結(jié)果也不同,最后的表決結(jié)果無法形成一致的多數(shù)派意見,導(dǎo)致多節(jié)點(diǎn)多路表決無法完成。
從拜占庭失效假設(shè)可知,傳統(tǒng)的安全通信協(xié)議并不能防止拜占庭失效。為了防止拜占庭失效,在20世紀(jì)80年代發(fā)展起來了拜占庭容錯技術(shù)。萊斯利·蘭伯特在其經(jīng)典論文[3]中通過嚴(yán)格的數(shù)學(xué)推導(dǎo)從邏輯上證明:假設(shè)一個系統(tǒng)中計算節(jié)點(diǎn)數(shù)量為N,發(fā)生拜占庭失效的節(jié)點(diǎn)數(shù)量為M,在采用非簽名數(shù)據(jù)傳輸消息的條件下,當(dāng)N<3M+1時,要在剩下的正常節(jié)點(diǎn)中完成多數(shù)派表決并達(dá)成一致是不可能實(shí)現(xiàn)的,因此文獻(xiàn)[3]中提出了兩種不同的經(jīng)典拜占庭容錯算法。
一種是基于節(jié)點(diǎn)間正常的通信,并假設(shè)通信鏈路是不可靠的和非簽名的OM算法,即通過在節(jié)點(diǎn)間采用M輪次的數(shù)據(jù)通信,可以保證系統(tǒng)中正常的N-M個節(jié)點(diǎn)能夠保證獲得一致的輸入數(shù)據(jù),并通過多路表決獲得正確的結(jié)果。
另一種容錯算法在節(jié)點(diǎn)中采用帶簽名的消息傳輸機(jī)制,并假設(shè)在系統(tǒng)消息傳輸過程中簽名的數(shù)據(jù)是無法被其他失效節(jié)點(diǎn)所偽造的SM算法。SM算法可以保證在最少節(jié)點(diǎn)數(shù)N=M+2時能夠容忍M個節(jié)點(diǎn)發(fā)生拜占庭失效。
綜上所述,在N取M系統(tǒng)中必須采用拜占庭容錯協(xié)議才能夠?qū)崿F(xiàn)分布式多路表決,而提高參與表決節(jié)點(diǎn)的數(shù)量將成為提高系統(tǒng)可用性和安全性的關(guān)鍵。
3.3 智能退化過程
在N取M系統(tǒng)中,通過系統(tǒng)設(shè)計,在少量系統(tǒng)故障時,可以采取智能退化的方式而非停機(jī)的方式來利用剩余的計算節(jié)點(diǎn)。例如:在10取8系統(tǒng)中,若有3系故障,剩下7系已無法滿足10取8操作。但是,通過分布式表決的結(jié)果系統(tǒng)可以判決并隔離與多數(shù)派意見不一致的3個節(jié)點(diǎn),因此可以將剩余7系智能退化成7取5系統(tǒng),此時仍然能夠保持一個高可靠、高安全的系統(tǒng),所以系統(tǒng)仍然能夠繼續(xù)正常工作。
采用智能退化設(shè)計的N取M系統(tǒng),最終可容忍僅剩余2系無故障的情況,所以系統(tǒng)可以視為具有與N取2系統(tǒng)相同的可靠性。假設(shè)系統(tǒng)可容忍從N取M退化到N取Me,則系統(tǒng)可靠性為:
從公式(2)可以看出,由于組合系數(shù)的存在,當(dāng)系統(tǒng)節(jié)點(diǎn)數(shù)N增加時,系統(tǒng)的可靠性將快速增加。
在N取M系統(tǒng)不斷故障并智能退化的過程中,系統(tǒng)的安全性曲線不斷在下降。從N取M退化到Ne取Me時,只有N系全Fail并且有至少M(fèi)e系輸出危險側(cè)時,系統(tǒng)才輸出危險側(cè),因此退化后系統(tǒng)的安全性為:
從公式(3)可以看出,當(dāng)系統(tǒng)N增大時,系統(tǒng)安全性將獲得指數(shù)級提升。
4.1 拜占庭容錯技術(shù)
拜占庭容錯技術(shù)是系統(tǒng)安全層的核心,容錯協(xié)議高效的實(shí)現(xiàn)是各個獨(dú)立的計算單元能夠?qū)崿F(xiàn)分布式計算并保持一致性的基礎(chǔ)。所以該協(xié)議的實(shí)現(xiàn)也是軟件安全性要求最高的部件,需要綜合采用形式驗(yàn)證、大數(shù)據(jù)測試、等價性檢查、軟硬件協(xié)同仿真等多種技術(shù)手段來保障軟件質(zhì)量。
4.2 高速互聯(lián)技術(shù)
由于拜占庭容錯協(xié)議需要大量的系統(tǒng)間通信開銷,如果不能保證系統(tǒng)間通信的速度,系統(tǒng)響應(yīng)的實(shí)時性將受到極大的影響,這也是之前拜占庭容錯協(xié)議沒有獲得廣泛應(yīng)用的一個主要原因。最近十年以來,更加高效的拜占庭容錯算法獲得了快速的發(fā)展[4~8],并且隨著千兆以太網(wǎng)的普及,已經(jīng)可以采用高速以太網(wǎng)作為N取M系統(tǒng)的內(nèi)部高速互聯(lián)總線,徹底解決了協(xié)議層面的關(guān)鍵問題。同時未來防止IO側(cè)可能引入的雷擊問題,在IO側(cè)可以考慮采用光介質(zhì)以太網(wǎng)作為高速互聯(lián)的通道。
4.3 動態(tài)遷移技術(shù)
計算節(jié)點(diǎn)由于故障發(fā)生失效后,系統(tǒng)通過一致性協(xié)議能夠檢測到該失效的節(jié)點(diǎn)并且將其隔離,同時為了保證系統(tǒng)中可用的計算節(jié)點(diǎn)數(shù)量不隨著時間逐步減少,需要采用動態(tài)重啟并上線同步的方式增加新的節(jié)點(diǎn)進(jìn)入系統(tǒng)。動態(tài)遷移技術(shù)在虛擬機(jī)層面保留了足夠的配置數(shù)據(jù),使得可以在失效發(fā)生后很短的時間內(nèi)通過平臺的管理功能在其他物理節(jié)點(diǎn)上重啟之前運(yùn)行的虛擬機(jī)鏡像。新鏡像啟動之后通過狀態(tài)機(jī)同步協(xié)議與現(xiàn)在服役的計算節(jié)點(diǎn)間獲得狀態(tài)上的同步,完成同步后新鏡像就作為一個新的計算節(jié)點(diǎn)投入使用,因此具備在很短時間內(nèi)動態(tài)恢復(fù)節(jié)點(diǎn)數(shù)量的能力。在系統(tǒng)總的計算能力能夠負(fù)荷的情況下,計算節(jié)點(diǎn)不僅可以動態(tài)產(chǎn)生,而且通過一致性協(xié)議具備快速同步到在線狀態(tài)的能力。這樣的特性使得不需要進(jìn)行額外的維護(hù)操作就能使在線的處理節(jié)點(diǎn)數(shù)量長時間保持一個較高的值,使系統(tǒng)的MTTR時間可以降低到非常接近于0的水平。
4.4 安全輸入輸出技術(shù)
傳統(tǒng)的安全輸入輸出采用不同等級的安全協(xié)議來保障數(shù)據(jù)可以正確地實(shí)現(xiàn)端到端傳輸。但傳統(tǒng)安全傳輸協(xié)議并不具備拜占庭失效容錯的特點(diǎn),這也是N取M系統(tǒng)中必須采用拜占庭容錯協(xié)議而不是傳統(tǒng)安全協(xié)議作為安全輸入輸出技術(shù)的原因。幸運(yùn)的是,在輸入輸出節(jié)點(diǎn)上實(shí)現(xiàn)拜占庭容錯并不比傳統(tǒng)安全協(xié)議需要更多的處理器資源。例如,傳統(tǒng)的輸出節(jié)點(diǎn)可能需要二乘二取二的結(jié)構(gòu)來完成安全輸出,而要求邏輯計算節(jié)點(diǎn)和輸出節(jié)點(diǎn)均采用二乘二取二的結(jié)構(gòu)。因此在輸入輸出端總共需要4個處理節(jié)點(diǎn)。
在N取M系統(tǒng)中, 假設(shè)輸入/輸出級至少具有X個處理器節(jié)點(diǎn),同時在邏輯計算級,有Y個節(jié)點(diǎn)同輸入/輸入級進(jìn)行配合共同實(shí)現(xiàn)安全輸入輸出功能,拜占庭容錯協(xié)議要求X+Y>M系+2(M系為發(fā)生拜占庭失效的節(jié)點(diǎn)個數(shù))。當(dāng)取X=2,Y=2 時,系統(tǒng)輸入/輸出級最多可以容忍1個節(jié)點(diǎn)出現(xiàn)拜占庭失效,因此,同傳統(tǒng)的二乘二取二結(jié)構(gòu)相比,在處理器數(shù)量減半的情況下就可以實(shí)現(xiàn)對拜占庭失效的容錯。
5.1 系統(tǒng)可靠性分析
假設(shè)N=10、20,并假設(shè)單系危險側(cè)輸出概率d=0.05,分別用Matlab仿真計算M可容忍退化到4、3、2的情況,假設(shè)退化過程中作為Ne取(Ne-2)的系統(tǒng)來使用。結(jié)果如圖2所示。
從圖2中可以看出,N>10時,采用單系MTBF為1 000天搭建的N取M系統(tǒng)在不同的時間點(diǎn)內(nèi)均超過了SIL4系統(tǒng)的可靠性指標(biāo)。在N>10時,在單系MTBF時間點(diǎn)內(nèi),N取M系統(tǒng)結(jié)構(gòu)已經(jīng)具有比傳統(tǒng)的安全系統(tǒng)更高的可靠性,N>20時,在2倍單系MTBF時間點(diǎn)內(nèi),N取M系統(tǒng)均具有比傳統(tǒng)安全系統(tǒng)更高的可靠性。
圖2 可靠性仿真結(jié)果對比
5.2 系統(tǒng)安全性分析
在系統(tǒng)不斷故障和智能退化的過程中,系統(tǒng)的安全性曲線不斷在下降。從N取M退化到Ne取Me時,只有N系全Fail并且至少有Me系輸出危險側(cè)時,系統(tǒng)才輸出危險側(cè)。N取M系統(tǒng)的安全性與傳統(tǒng)安全系統(tǒng)和歐標(biāo)參考系統(tǒng)仿真結(jié)果對比如圖3所示。
以上仿真結(jié)果表明,N取M系統(tǒng)(N≥10)已經(jīng)達(dá)到歐標(biāo)SIL4等級系統(tǒng)的安全性要求,并且超過了傳統(tǒng)故障-安全系統(tǒng)的性能。
5.3 系統(tǒng)成本分析
圖4給出了在系統(tǒng)性能下降時間點(diǎn)tX取不同值時,對應(yīng)的(N,λ)曲線簇以及對應(yīng)的(c,N)曲線簇的仿真結(jié)果:
從圖4中可見,不管是增大N或是提高單系的MTBF,邊際收益都會逐漸變小。但是任意給定一個安全性能指標(biāo),采用N取M系統(tǒng)方案必定能使系統(tǒng)總成本達(dá)到極小值,而這一特性是傳統(tǒng)安全系統(tǒng)所無法做到的。
5.4 系統(tǒng)可維護(hù)性分析
在采用了硬件虛擬化技術(shù)之后,在計算能力足夠的情況下,整個系統(tǒng)的MTTR可以下降到接近0的水平,因?yàn)橄到y(tǒng)能夠通過重新分配資源快速實(shí)現(xiàn)新系統(tǒng)的上線和同步。因此從系統(tǒng)可用性的角度來講,N取M系統(tǒng)幾乎時刻都保證具有100%的可用性。另外通過定期維護(hù)系統(tǒng)中物理計算節(jié)點(diǎn),使得系統(tǒng)中新節(jié)點(diǎn)和老節(jié)點(diǎn)的數(shù)量維持一個合適的比例,可以使得整個系統(tǒng)能更長時間的保持在5取3結(jié)構(gòu)之上,而不是退化為4取2的結(jié)構(gòu)。因此系統(tǒng)在更長的使用時間內(nèi)都將維持較高的安全性曲線等級和可用性等級。
5.5 系統(tǒng)容量分析
圖3 安全性仿真結(jié)果對比
圖4 (N,MTBF)曲線簇與(c,N)曲線簇
采用N取M結(jié)構(gòu)的系統(tǒng)可以方便地通過增加計算節(jié)點(diǎn)N的數(shù)量來提升系統(tǒng)的計算能力,而不必像傳統(tǒng)安全系統(tǒng)一樣需要重新進(jìn)行安全認(rèn)證和硬件設(shè)計。前面已經(jīng)討論過,增加新的計算節(jié)點(diǎn)在采用硬件虛擬化技術(shù)的前提下,所增加的成本幾乎小到可以忽略不計,因此總的來說,整個N取M系統(tǒng)的計算容量將具有相當(dāng)大的彈性,從管理一個車站到覆蓋一個區(qū)域內(nèi)的所有列車,這使得N取M的安全架構(gòu)有希望成為未來區(qū)控中心控制平臺的重要選擇之一。
通過上述分析,N取M系統(tǒng)在保障了高可靠性、高安全性,同時由于采用了通用處理節(jié)點(diǎn)和高速內(nèi)部總線,維持著很高的通用數(shù)據(jù)處理能力和通用性。
在地面應(yīng)用方面,通過采用虛擬化技術(shù)、分布式執(zhí)行等技術(shù),系統(tǒng)計算能力可以大幅度提升,原來需要若干安全計算機(jī)平臺來承載的工作將可以獲得整合。傳統(tǒng)按線路部署的控制機(jī)制也可以演進(jìn)為區(qū)域集中控制。例如武廣客運(yùn)專線,全線共設(shè)置了9套RBC系統(tǒng),每套RBC系統(tǒng)均為二乘二取二結(jié)構(gòu),共需36臺專用主機(jī)。任何一套RBC系統(tǒng)中,只要雙系各有一個主機(jī)出現(xiàn)故障,都會導(dǎo)致該RBC系統(tǒng)管轄區(qū)域無法進(jìn)行CTCS-3級控制,降低運(yùn)行效率。采用本文所述的安全計算平臺后,不僅整體造價下降,而且任何兩個主機(jī)故障,全線運(yùn)行均不會受到影響,保障了系統(tǒng)的可靠性和整體運(yùn)行效率。另一方面,系統(tǒng)計算能力的提升對于系統(tǒng)的業(yè)務(wù)邏輯也起到簡化的作用,采用集中的區(qū)域控制中心后,不僅RBC移交行為可以大幅度獲得簡化,而且車輛的跨線路作業(yè)將更加便捷,因此安全計算中心尤其適合于在北京、上海、廣州等多條線路匯聚的城市部署。類似地,其他地面控制系統(tǒng),如聯(lián)鎖系統(tǒng)、列控中心系統(tǒng)、臨時限速系統(tǒng)、軌道電路系統(tǒng)等都可以采用該形式進(jìn)行整合。僅需要在控制中心配置足夠數(shù)量的計算集群即可。
在車載應(yīng)用方面,通過進(jìn)一步采用空間冗余等可靠性提升技術(shù),N取M型安全計算體系結(jié)構(gòu)將推動車載計算同移動計算全面接軌。由于移動計算的處理器具備經(jīng)濟(jì)規(guī)模的優(yōu)勢,所以車載系統(tǒng)不僅在成本上可以逐步降低,在計算速度上也能跟上電子技術(shù)的發(fā)展。通過駁接更多的傳感器和車地?zé)o線通信系統(tǒng),車載控制系統(tǒng)將能為高速列車提供更為智能的控制服務(wù)。例如,未來的車載系統(tǒng)將能夠接入加速度傳感器、GIS傳感器、姿態(tài)傳感器、雷達(dá)傳感器、高速無線通信系統(tǒng),更加平穩(wěn)地控制速度更高的列車。
本文提出了一種新型的基于智能退化技術(shù)的N取M型安全計算系統(tǒng)。同傳統(tǒng)安全系統(tǒng)相比,該系統(tǒng)具有高可靠性、高安全性、低成本、高可維護(hù)性、通用性等特點(diǎn),基于該系統(tǒng)的列控系統(tǒng)應(yīng)用的開發(fā)、測試、驗(yàn)證均可以得到極大的簡化。
隨著通信技術(shù)和移動計算技術(shù)的發(fā)展,處理器將繼續(xù)保持性能大幅度提升、價格大幅度下降的趨勢,在這樣的技術(shù)發(fā)展趨勢下,選擇N取M構(gòu)架作為安全系統(tǒng)的基礎(chǔ)構(gòu)架避免了傳統(tǒng)故障-安全系統(tǒng)的發(fā)展瓶頸問題,使整個系統(tǒng)具備了良好的性能擴(kuò)展性和不可比擬的規(guī)模經(jīng)濟(jì)優(yōu)勢。
在本文完成之際,國家鐵路總局正好修訂發(fā)布了《鐵路通信信號設(shè)備生產(chǎn)企業(yè)審批實(shí)施細(xì)則》,修訂后的鐵路通信信號設(shè)備目錄由原來的52種減少為26種,減少了50%,代表著未來列控系統(tǒng)一體化的趨勢已經(jīng)拉開帷幕。相信未來會有越來越多的列控應(yīng)用被遷移到統(tǒng)一的高可靠列控平臺上,而列控系統(tǒng)設(shè)備制造商也將逐步向列控服務(wù)提供商轉(zhuǎn)型,為用戶提供更可靠,更安全,更定制化的軌道交通智能控制服務(wù)。
This paper reveals the problem of the traditional fail-safe system in failure detection complexity with a sharp increase because of its components becoming more and more complex. In order to keep a sustained development in the system design and continually promote RAMS requirements of the system, it puts forward an intelligent safety-critical computer system with M out of N architecture and gives the comparison and analysis of this system and the traditional fail-safe system in RAMS performance and system capacity. The simulation results show that this system can not only satisfy the SIL4 requirement defined in IEC61508, but also lower greatly requirements for the basic computation unit in the reliability and safety, so this system is more suitable for future development than the traditional fail-safe architecture in the design and maintenance cost.
high reliability; safety critical; double 2 out of 2; 2 out of 3; M out of N; Smart regression; safety-critical computer
10.3969/j.issn.1673-4440.2014.04.001
2014-05-19)