張仕杰,唐濤*,劉金濤,李辰嶺
(1.北京交通大學,a.軌道交通控制與安全國家重點實驗室,b.國家軌道交通安全評估研究中心,北京 100044;2.華威大學,制造工程學院,考文垂CV4 7AL,英國)
隨著人工智能技術(shù)的發(fā)展,計算機視覺、激光雷達探測等多種智能感知技術(shù)被引入到列車運行控制領(lǐng)域,開始出現(xiàn)一類基于智能感知的列車輔助駕駛系統(tǒng)(Intelligent Awareness-based Train Driving Assistance System, IATDAS)。這類系統(tǒng)使得列車具備自主檢測前方列車、人或其他障礙物的功能,提高了司機的環(huán)境感知能力,可以在原列控系統(tǒng)故障降級時顯著提高司機的允許駕駛速度。但與此同時,一旦IATDAS 系統(tǒng)存在安全問題,將可能造成列車運行事故。
與既有列車控制系統(tǒng)相比,預期功能安全問題(Safety of the Intended Functionality, SOTIF)[1]是IATDAS系統(tǒng)安全的主要特點。SOTIF問題由智能感知技術(shù)的引入而產(chǎn)生,區(qū)別于傳統(tǒng)由隨機失效和系統(tǒng)性失效引發(fā)的功能安全問題,該問題與失效無關(guān),而是源自于系統(tǒng)本身性能局限性所產(chǎn)生的預期外系統(tǒng)行為,以及人員對于系統(tǒng)的合理可預見的誤用。為了給IATDAS系統(tǒng)建立有效危險防控,分析其SOTIF 類型危險致因的傳播機制是不可忽視的一環(huán)。
SOTIF 相關(guān)危險致因可以通過以系統(tǒng)理論過程分析(System-Theoretic Process Analysis,STPA)為代表的系統(tǒng)性危險分析方法進行辨識[2]?;赟TPA 辨識出的危險致因來自于控制結(jié)構(gòu)中的控制、執(zhí)行、反饋等各個環(huán)節(jié)。由于這些環(huán)節(jié)相互作用、相互影響,危險致因之間形成了網(wǎng)狀化的因果作用關(guān)系,即構(gòu)成一種危險致因網(wǎng)絡(luò)。復雜網(wǎng)絡(luò)(Complex Network)作為研究網(wǎng)絡(luò)中復雜動態(tài)傳播過程的理論工具,已被廣泛用于危險致因傳播的分析。胡立偉等[3]將交通擁塞風險因子的傳播抽象為復雜網(wǎng)絡(luò)中風險因子的傳染過程,并以此進行分析給出免疫控制措施。王巖韜等[4]提出適用于航班運行的易感、感染和恢復(Susceptible, Infected, and Recovered,SIR)復雜網(wǎng)絡(luò)模型,對航班運行風險傳播機理進行分析。在鐵路領(lǐng)域,Ma等[5]建立了無向的高鐵事故致因傳播網(wǎng)絡(luò),并分析了該網(wǎng)絡(luò)的拓撲特征。Luo 等[6]利用容量-負載模型仿真鐵路事故致因網(wǎng)絡(luò)中的致因非線性傳播,對致因傳播的影響程度進行定量分析??紤]到致因傳播的有向性,種鵬云等[7]建模分析了危險品運輸關(guān)聯(lián)網(wǎng)絡(luò)的級聯(lián)失效機理及耦合特性。Liu 等[8]建立有向的鐵路事故致因網(wǎng)絡(luò),利用容量-負載傳播過程定量分析致因傳播的影響范圍。綜上可見,復雜網(wǎng)絡(luò)理論可用于分析SOTIF相關(guān)危險致因的動態(tài)傳播機制。
但是,現(xiàn)有基于網(wǎng)絡(luò)的致因傳播分析方法大多基于同構(gòu)網(wǎng)絡(luò),即網(wǎng)絡(luò)中的節(jié)點皆屬于同一類型,而基于STPA辨識出的SOTIF危險致因包括兩種類型,即不安全控制行為(Unsafe Control Action,UCA)及其致因因素(Causal Factor, CF),因其構(gòu)成的危險致因網(wǎng)絡(luò)屬于異構(gòu)網(wǎng)絡(luò),現(xiàn)有傳播分析方法難以準確分析。另外,基于STPA 的分析從系統(tǒng)整體角度進行SOTIF相關(guān)致因辨識,使致因具有全局性因果關(guān)聯(lián)關(guān)系,而現(xiàn)有研究中的容量-負載模型都采用基于局部網(wǎng)絡(luò)結(jié)構(gòu)的危險程度分配規(guī)則,難以準確反映這種全局性因果關(guān)系特征。
因此,本文設(shè)計面向IATDAS 系統(tǒng)SOTIF 安全問題的異構(gòu)致因網(wǎng)絡(luò)構(gòu)建方法,提出基于全局容量-負載傳播機制的致因傳播模型,并以一種典型的IATDAS 系統(tǒng)——列車智能障礙物檢測系統(tǒng)(Train Intelligent Detection System, TIDS)為例,應(yīng)用該模型對其SOTIF 相關(guān)危險致因的傳播進行分析。
IATDAS 通過多種傳感器及人工智能算法進行環(huán)境感知,向司機提供當前位置、前方障礙物、限速等信息,系統(tǒng)的功能結(jié)構(gòu)如圖1所示。
圖1 IATDAS系統(tǒng)的功能結(jié)構(gòu)Fig.1 Functional structure of IATDAS
針對IATDAS系統(tǒng)SOTIF 相關(guān)致因的辨識,文獻[9]給出了基于拓展STPA 的方法。通過該方法可以得到UCA及CF兩種類型的危險致因,限于篇幅,此處不再贅述。
SOTIF相關(guān)的危險、危險致因及其因果關(guān)系路徑構(gòu)成若干包含不同類型節(jié)點的致因鏈。致因鏈以某個危險為終點。其中,危險由UCA直接導致,而UCA由CF或由多個CF構(gòu)成的因果鏈引發(fā)。由于同一個危險或危險致因可能存在于不同的致因鏈中,因此將不同致因鏈中相同的危險或危險致因合并,即可得到以危險及其致因為節(jié)點、以因果關(guān)系為邊的有向無權(quán)的網(wǎng)絡(luò)。以危險“系統(tǒng)未能防護列車安全的速度/距離限制”(H1)為例,展示異構(gòu)危險致因網(wǎng)絡(luò)的創(chuàng)建過程,如圖2所示。
圖2 危險致因網(wǎng)絡(luò)構(gòu)建示意Fig.2 Illustration of network construction
圖2 中(a)、(b)兩條致因鏈中,H1 都由“該類目標在傳感器無法探測的位置(CF3)”“系統(tǒng)未及時發(fā)現(xiàn)人/障礙物(CF4)”“司機未在列車超過與人或障礙物有關(guān)的速度/距離限制時提供制動(UCA1)”的因果鏈引發(fā)。將圖2 中(a)、(b)相同的點合并,可以得到致因鏈(d)。同理,將(c)與(d)中同時包含的H1、CF3、CF5進行合并,可以最終得到異構(gòu)的危險致因網(wǎng)絡(luò)(e)。
利用上述危險致因網(wǎng)絡(luò),構(gòu)建基于容量-負載的危險致因傳播模型。該模型由以下3 類要素組成。
(1)容量
本文使用節(jié)點容量來衡量施加于危險致因的既有防護水平。其中,既有防護包括系統(tǒng)態(tài)勢感知的性能、安全屏障,以及人的安全操作和應(yīng)急干預等多種形式。根據(jù)SOTIF相關(guān)標準,SOTIF問題應(yīng)該以致因場景作為安全防護的重點??紤]到致因的可達節(jié)點數(shù)反映了該致因的潛在致因場景數(shù),即致因可達節(jié)點越多代表著該致因能夠造成的潛在致因場景也就越多,因此,應(yīng)對可達節(jié)點數(shù)多的致因采取更高水平的防護。故模型中將節(jié)點容量定義為致因可達節(jié)點數(shù)的函數(shù)為
式中:Ci為危險致因節(jié)點的容量;α為用于控制防護力度的可調(diào)參數(shù),α >0;Ri為危險致因節(jié)點i的可達節(jié)點數(shù)。危險節(jié)點作為網(wǎng)絡(luò)中危險致因傳播路徑的終點,沒有后續(xù)可達節(jié)點,根據(jù)式(1),其容量定義為0。
(2)初始負載
節(jié)點的負載代表著相應(yīng)危險致因或危險事件的危險程度。隨著系統(tǒng)的實際運行或危險致因之間的相繼引發(fā),節(jié)點的負載會發(fā)生變化。當節(jié)點的負載達到或超過其容量時,節(jié)點發(fā)生過載,意味著該節(jié)點所代表的危險致因或危險的發(fā)生。節(jié)點i在t時刻的負載用Li(t)表示。
在系統(tǒng)正常工作狀態(tài)下,各危險致因節(jié)點也存在一定的潛在危險程度,即節(jié)點的初始負載。節(jié)點的可達節(jié)點數(shù)多,代表致因可導致的潛在致因場景多,同時該致因?qū)ο到y(tǒng)的潛在危害也大。潛在致因場景多意味著需要更有力的防護,則節(jié)點容量大,對系統(tǒng)潛在危害大,則節(jié)點初始負載大。參照容量-負載模型在安全領(lǐng)域的應(yīng)用[5-8],從簡單且不失一般性的角度,設(shè)定節(jié)點的初始負載與其容量成正比,即
式中:Li(0)為節(jié)點的初始負載;β為負載的可調(diào)參數(shù),表示初始負載的強度,0<β <1,實際運行中,β反映系統(tǒng)的風險管理水平。
(3)負載分配規(guī)則
當危險致因節(jié)點發(fā)生過載時,該節(jié)點的負載會全部流入與其直接相連的后續(xù)節(jié)點中。負載在危險致因節(jié)點之間的重新分配規(guī)則定義為
式中:Li為重新分配前節(jié)點i的負載;j為一個與i直接相連的后續(xù)節(jié)點;ΔLij為從節(jié)點i向節(jié)點j轉(zhuǎn)移的負載量;eij為邊ij的因果關(guān)系強度;Γi為與i直接相連的所有后續(xù)節(jié)點的集合;m為任意一個與i直接相連的后續(xù)節(jié)點。負載Li以邊的因果關(guān)系強度eij為權(quán)重向各個直接相連的后續(xù)節(jié)點重新分配。在網(wǎng)絡(luò)全局視角下,一條邊ij的因果關(guān)系強度eij與該邊在網(wǎng)絡(luò)中參與的節(jié)點到節(jié)點的路徑數(shù)量正相關(guān),即通過該條邊的因果路徑數(shù)量越多,意味著該邊越容易形成,也即該邊的因果關(guān)系強度越大??梢杂们肮?jié)點i的直接和間接致因節(jié)點數(shù)Si與后節(jié)點j的可達節(jié)點數(shù)Rj的乘積(即路徑數(shù)量)來衡量邊的因果關(guān)系強度。當沒有節(jié)點能導致i時,Si為0,則eij單取該邊后節(jié)點j的可達節(jié)點數(shù)Rj。
另外,在本文網(wǎng)絡(luò)中,影響危險節(jié)點的只有UCA 節(jié)點,而UCA 節(jié)點也只會影響危險節(jié)點??紤]到危險節(jié)點在致因路徑的終點,故當計算由UCA 節(jié)點向危險節(jié)點的負載分配時,不能適用式(3)。在系統(tǒng)運行中,UCA 發(fā)生后導致的危險與具體場景有關(guān),因此,本文考慮到一般情況,當負載流入的節(jié)點是危險節(jié)點時,分配規(guī)則定義為負載在多個危險節(jié)點之間平均分配。
當過載節(jié)點的當前負載達到一定程度時,其流出的負載可能繼續(xù)導致后續(xù)節(jié)點的過載,即級聯(lián)過載。容量-負載模型中可調(diào)參數(shù)的設(shè)置應(yīng)當能夠反映系統(tǒng)風險管理水平,使得級聯(lián)過載過程的發(fā)生與實際系統(tǒng)運行情況相符。
在系統(tǒng)實際運行過程中,運行環(huán)境的不確定性和人員操作的偏差可能會導致某個危險致因節(jié)點的防護能力缺失。如果在模型可調(diào)參數(shù)設(shè)置不合理,僅初始負載就會導致網(wǎng)絡(luò)中的級聯(lián)過載,這不符合鐵路信號系統(tǒng)風險管理的ALARP(As Low As Reasonably Practicable)原則。因此,為保證在節(jié)點的防護能力缺失時,初始負載不會導致網(wǎng)絡(luò)的級聯(lián)過載,容量-負載模型應(yīng)該滿足
由式(4)可以得到
式中:為直接導致j的節(jié)點數(shù)(即該點的入度)。設(shè)βc為在節(jié)點防護能力缺失時初始負載不會導致網(wǎng)絡(luò)級聯(lián)過載的閾值。根據(jù)式(6),當可調(diào)參數(shù)α在不同取值范圍時,βc的取值為
式中:、分別為網(wǎng)絡(luò)中的最大出度、最大入度。根據(jù)式(7),當α取1時,βc的值最大。當βc最大時,網(wǎng)絡(luò)可以承受更大的節(jié)點初始負載,即系統(tǒng)在正常運行中可以承受更大的危險程度,此時系統(tǒng)的魯棒性最強。α的取值反映了系統(tǒng)的防護力度,α取值越大,系統(tǒng)的防護力度越大,需要的人力物力投入也越多。當α=1 時,防護投入不是最大但使系統(tǒng)達到了最大的魯棒性,符合ALARP 的原則。因此,模型可調(diào)參數(shù)α的最優(yōu)值為1。另外,根據(jù)式(7)結(jié)合具體網(wǎng)絡(luò)的結(jié)構(gòu)特征可確定可調(diào)參數(shù)β的取值范圍。
列車智能障礙物檢測系統(tǒng)(TIDS)是一種典型的IATDAS 系統(tǒng),本文選取該系統(tǒng)“車載ATP 失效后TIDS輔助司機駕駛列車”的運行場景,應(yīng)用所提模型進行危險致因傳播分析。其中,文獻[9]已識別出該運行場景的3 項系統(tǒng)級危險,分別為“系統(tǒng)未能防護列車安全的速度/距離限制(H1)”“系統(tǒng)未能防護列車超過線路允許速度(H2)”“系統(tǒng)在不必要的時候提供緊急制動(H3)”,并對此3項危險進行了SOTIF 致因辨識。辨識所得的危險致因包括8 項UCA 致因和154 項CF 致因,作為本文危險致因傳播分析工作的輸入數(shù)據(jù)。受篇幅所限,本文列舉出部分代表性的危險致因,如表1所示。
表1 部分危險致因[9]Table 1 Portion of hazard causes[9]
在識別出的危險致因、危險及其因果關(guān)系的基礎(chǔ)上,采用第1節(jié)中的方法構(gòu)建異構(gòu)的危險致因網(wǎng)絡(luò),如圖3所示。該網(wǎng)絡(luò)中包含165個節(jié)點,代表危險和危險致因。其中,H1~H3 為危險節(jié)點,其他節(jié)點為危險致因節(jié)點,包括8個不安全控制行為節(jié)點(UCA1~UCA8)和 154個致因因素節(jié)點(CF1~CF154)。此外,按照對應(yīng)節(jié)點之間從“因”到“果”的方向,危險致因與危險以及危險致因之間的因果關(guān)系構(gòu)成了圖3中302條有向的連邊。
圖3 危險致因網(wǎng)絡(luò)Fig.3 Hazard causes network
當某個節(jié)點過載時的負載達到一定程度時,可能會通過級聯(lián)過載導致一個或多個危險的發(fā)生。級聯(lián)過載過程是否導致危險發(fā)生,主要受容量-負載模型中的負載分配規(guī)則所影響。合理的負載分配方式可以準確地反映系統(tǒng)中危險致因關(guān)系的特點,從而為風險管理提供針對性的支持。
在既有傳播模型研究中,常用的節(jié)點負載分配規(guī)則為平均分配[6](Average Distribution,AD)或按后續(xù)節(jié)點的度分配[7](Distribution by Degree,DD)。而本文模型采用的是基于全局因果關(guān)系的分配規(guī)則(Overall Distribution, OD)。為了比較這幾種分配方式,引入敏感度的概念,即導致危險發(fā)生所需的單個危險致因的危險程度,具體定義為節(jié)點i導致一個或多個危險發(fā)生所需的最小負載與該節(jié)點容量Ci的比值。危險致因的敏感度數(shù)值越大,代表其越難以導致危險的發(fā)生。根據(jù)式(7),當α取1時,本網(wǎng)絡(luò)中負載強度參數(shù)β的閾值βc為0.26,因此本文分別選取β值為0.1和0.2進行模型對比,計算全部162 個危險致因節(jié)點的敏感度,結(jié)果如圖4所示。
由圖4可見,大多數(shù)危險致因(即圖中“其他”共計136 個節(jié)點)在3 種不同分配方式下敏感度數(shù)值均為1,即負載等于其容量就可觸發(fā)危險。其余26個致因在不同分配方式下敏感度有所不同。其中,有些致因(例如,CF4、CF23、CF26等)在既有傳播模型的分配方式下敏感度為1,而在本文所提OD 方式下則大于1,即負載大于其容量才能通過級聯(lián)過載引發(fā)危險;有些致因(例如,CF75、CF38、CF41等)雖然在3 種分配方式下的敏感度均大于1,但在本文OD 方式下則需要更多的負載才能引發(fā)危險。綜上可見,圖4中除“其他”之外的26個致因在本文OD方式下需要更多的負載才能最終導致危險。
圖4 不同分配方式下導致危險所需的單節(jié)點負載Fig.4 Loads of a single node to cause a hazard under different distribution rules
實際上,上述26 個危險致因具有較長的后續(xù)因果傳播路徑。在系統(tǒng)實際運行中,這些危險致因的傳播過程可以通過后續(xù)的防護措施得到減輕,從而較難導致危險的發(fā)生。例如,對于致因CF4“列車運行在雨、雪、霧霾、沙塵等天氣中”,由于設(shè)備具有一定的低能見度條件下的態(tài)勢識別能力,因此一般不會導致危險。只有在一些潛在的特殊情況下,例如列車駛出隧道時隨即駛?cè)氪箪F環(huán)境,此時致因CF4的危險程度較高,而設(shè)備和司機對環(huán)境的變化需要一定的反應(yīng)時間,可能會因沒有識別到前方障礙物而導致危險的發(fā)生。因此,從系統(tǒng)運行的實際情況來講,上述26 個危險致因應(yīng)該在比較高的危險程度下才會導致危險,這說明對于具有較長后續(xù)傳播路徑的致因,本文所提基于OD分配規(guī)則的容量-負載模型更加符合系統(tǒng)運行的實際情況。
基于危險致因網(wǎng)絡(luò)以及容量-負載模型,對TIDS 系統(tǒng)的危險致因傳播過程進行研究,分析網(wǎng)絡(luò)中各節(jié)點可能的傳播影響范圍及傳播路徑。為確保危險致因通過級聯(lián)過載在網(wǎng)絡(luò)中充分傳播,本文選取β為0.2,并分別給網(wǎng)絡(luò)中各個初始節(jié)點施加較大的初始負載。通過分析網(wǎng)絡(luò)中累計過載的節(jié)點數(shù)量可以確定起始節(jié)點的影響范圍。設(shè)過載節(jié)點將負載傳遞到后續(xù)相連節(jié)點的時長為1 個單位時間,計算網(wǎng)絡(luò)中危險致因節(jié)點的影響范圍隨時間的變化情況。由于節(jié)點較多,本文針對影響范圍變化的不同特征,分別選取各類特征下具有代表性的變化情況,如圖5所示。
圖5中影響范圍較小、在傳播初期影響范圍增加較慢的致因?qū)ξkU作用較小,在此不作討論。針對圖5 中其他致因,本文按照以下3 種情況分別制定針對性控制策略。
圖5 不同節(jié)點過載后的影響范圍Fig.5 Range of impact after overload of a hazard cause
(1)有些致因在傳播初期影響范圍增加很快,但很快停止增加,其最終影響范圍不大,如CF76(TIDS無列車當前定位)、CF73(TIDS的定位不準確或錯誤)、CF7(司機忽視了來自TIDS 的提示)。這類節(jié)點影響范圍小,當危險致因發(fā)生后,可以對其所有傳播路徑采取措施。另外,這類危險致因?qū)е挛kU發(fā)生的速度快,應(yīng)在其發(fā)生后及時進行傳播路徑控制。
(2)有些致因在傳播初期影響范圍不大,但后期影響范圍迅速擴大并最終引發(fā)較多致因,如CF51(該類目標的某些特性造成TIDS 識別困難)、CF21(坡道)、CF68(處理算法未能準確判斷距離)。對這些節(jié)點的相鄰后節(jié)點采取措施,即可阻斷大部分路徑,從而有效阻止此類危險致因影響的蔓延。
(3)有些致因影響范圍大且前期影響數(shù)增加快,如CF4(列車運行在雨、雪、霧霾、沙塵等天氣),CF8(司機在惡劣運行環(huán)境下,過度信任來自TIDS的提示),CF27(列車振動),應(yīng)該成為風險控制的重點。這些致因引發(fā)危險的致因路徑較多,如CF4、CF8、CF27 到危險的路徑數(shù)分別為703、402、403。對于這類危險致因的傳播過程,在有限成本和資源下應(yīng)該重點控制傳播較快的路徑,以降低最終危險發(fā)生的速度,為進一步的應(yīng)急處置贏得時間。具體可通過控制路徑上最易過載節(jié)點(即敏感度最?。┑姆绞竭M行重點路徑控制。另外,控制這些重要路徑上的節(jié)點后,包含這些節(jié)點的其他路徑也可以得到有效控制。
為驗證3.3節(jié)中針對影響范圍大且前期影響數(shù)增加快的危險致因所提策略的有效性,本文選取前10%傳播較快的路徑進行針對性控制,并計算控制后的危險發(fā)生速度。作為對照,本文隨機控制10%的傳播路徑并計算危險發(fā)生速度,最終以重復該過程30000 次后的平均值作為隨機策略下的危險發(fā)生速度期望值。兩種危險控制策略下的危險傳播速度如圖6所示。
圖6 不同控制策略下的危險發(fā)生速度Fig.6 Hazard causes propagating speed under different risk control strategies
由圖6 可見,對于一些節(jié)點,如CF4、CF8、CF27、CF31~CF48等,隨機控制策略幾乎不會改變危險發(fā)生速度,而采用針對性策略后致因傳播速度可以下降30%~100%。對于另一些節(jié)點,如CF20、CF54、CF58、CF77,隨機控制策略可以使危險致因傳播速度平均降幅50%以內(nèi),而針對性控制策略可以穩(wěn)定使危險發(fā)生速度降低到0,即危險不會發(fā)生??傮w上,隨機控制策略下只有10%的平均降幅,而采用本文模型的控制策略后,致因的傳播速度平均降幅可達到68%。因此,通過采取針對性策略,即控制傳播較快的路徑,可以在危險致因發(fā)生后有效降低危險發(fā)生的速度。
(1)本文基于SOTIF 危險致因網(wǎng)絡(luò)的全局視角,提出一種IATDAS 系統(tǒng)危險致因傳播模型,該模型考慮系統(tǒng)危險致因的全局性因果傳播特征對安全的影響,可為IATDAS 系統(tǒng)危險防控提供基礎(chǔ)。
(2)基于列車智能障礙物檢測系統(tǒng)的案例分析表明,本文所提模型可對復雜致因關(guān)系下的危險致因?qū)嶋H傳播過程進行刻畫。如對于具有較長后續(xù)傳播路徑的致因,相比既有基于平均分配規(guī)則、度分配規(guī)則的模型,本文模型能夠反映其較難導致危險的實際特征。
(3)根據(jù)本文模型所反映出的傳播特性可以形成針對性的危險控制策略。如基于本文模型對影響節(jié)點范圍大、前期影響節(jié)點數(shù)量增加快的危險因素進行控制時,其平均危險致因傳播速度降幅可達68%,比隨機控制策略多降58%,有效降低了系統(tǒng)危險發(fā)生的速度。