蔣子涵, 方志耕, 芮菡萏, 張習(xí)習(xí), 劉思峰
(南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院, 江蘇 南京 211106)
共因失效(common cause failures, CCF)是一種相依失效,表現(xiàn)為在同一原因下,系統(tǒng)內(nèi)的多個(gè)元件同時(shí)或在很短的時(shí)間間隔內(nèi)相繼發(fā)生失效。CCF是冗余設(shè)計(jì)的天敵,其會(huì)大大增加元件發(fā)生關(guān)聯(lián)失效的概率,嚴(yán)重降低系統(tǒng)的可靠性。此外,在航空工業(yè)、電子工業(yè)及核電工業(yè)等領(lǐng)域里,CCF是導(dǎo)致系統(tǒng)失效的重要原因,忽略共因的影響將會(huì)使可靠性分析產(chǎn)生較大誤差。因此,學(xué)者們投入了大量精力來(lái)研究CCF的概率分布形式,及其可能對(duì)各元件產(chǎn)生的影響。
從1970年代開始,學(xué)者們就提出了許多用于分析CCF的模型,包括β因子模型、α因子模型、多希臘字母模型等,在此基礎(chǔ)上也進(jìn)行了很多研究工作[1-4]。進(jìn)入21世紀(jì)后,隨著系統(tǒng)結(jié)構(gòu)的復(fù)雜化以及更多研究案例的出現(xiàn),對(duì)CCF的研究進(jìn)入了新階段。文獻(xiàn)[5]在傳統(tǒng)模型的基礎(chǔ)上提出作用矩陣的概念,指出共因是以一定概率給每個(gè)部件造成不同程度的影響,從而增加了馬爾可夫過程的適用性;類似地,文獻(xiàn)[6]研究了多階段任務(wù)系統(tǒng)的概率共因故障問題,提出了分析系統(tǒng)可靠性的顯式和隱式方法;文獻(xiàn)[7]也考慮了概率共因故障模型,并結(jié)合隨機(jī)方法和動(dòng)態(tài)故障樹來(lái)研究帶有備件門的冗余系統(tǒng)可靠性。文獻(xiàn)[8-9]結(jié)合了蒙特卡羅模擬和元胞自動(dòng)機(jī)兩種算法,在傳統(tǒng)方法只能分析可以轉(zhuǎn)化為串、并聯(lián)結(jié)構(gòu)的簡(jiǎn)單系統(tǒng)的基礎(chǔ)上,進(jìn)一步評(píng)估了復(fù)雜系統(tǒng)的可靠性。文獻(xiàn)[10]利用有序二叉決策圖,建立了具有時(shí)延約束的網(wǎng)絡(luò)可靠性模型,從CCF角度分析了航空電子系統(tǒng)的網(wǎng)絡(luò)可靠性。而文獻(xiàn)[11]則以有序二叉決策圖為工具研究帶有非獨(dú)立傳播效應(yīng)的共因故障系統(tǒng)的可靠性。
核電行業(yè)作為CCF的重要應(yīng)用領(lǐng)域,也產(chǎn)生了很多研究成果。文獻(xiàn)[12-13]以核電站為研究背景,構(gòu)建了一種包含擴(kuò)散和選擇性失效的多狀態(tài)系統(tǒng)模型,并提出廣義發(fā)生函數(shù)來(lái)計(jì)算可靠度。文獻(xiàn)[14]運(yùn)用蒙特卡羅仿真研究了發(fā)生自然災(zāi)害(如地震)時(shí)核電站的概率安全評(píng)價(jià)問題。
近年來(lái),學(xué)者們的研究對(duì)象逐漸從單一狀態(tài)系統(tǒng)轉(zhuǎn)變?yōu)槎酄顟B(tài)系統(tǒng),同時(shí)一些新的技術(shù)也被用來(lái)求解更復(fù)雜的系統(tǒng),常見的方法包括目標(biāo)導(dǎo)向的流圖法(goal oriented-FLOW,GO-FLOW),馬爾可夫鏈和貝葉斯網(wǎng)絡(luò)。其中文獻(xiàn)[15]用統(tǒng)一的映射規(guī)則把離散時(shí)間貝葉斯網(wǎng)絡(luò)和GO-FLOW結(jié)合起來(lái),使帶有復(fù)雜特征的GO-FLOW模型能被轉(zhuǎn)化為離散時(shí)間貝葉斯網(wǎng)絡(luò)模型。文獻(xiàn)[16-17]基于馬爾可夫過程,分別結(jié)合多狀態(tài)分析和故障反應(yīng)分析,提出了冗余分配的方法。最后,貝葉斯網(wǎng)絡(luò)也是學(xué)者們研究的重點(diǎn)。文獻(xiàn)[18-19]均建立了系統(tǒng)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)模型,以便發(fā)現(xiàn)多種故障沖擊下系統(tǒng)的薄弱環(huán)節(jié);文獻(xiàn)[20]則以物聯(lián)網(wǎng)為研究對(duì)象,設(shè)計(jì)了貝葉斯網(wǎng)絡(luò)中新的節(jié)點(diǎn)連接方式,分析了物聯(lián)網(wǎng)的全端可靠性。
本文考慮不完全CCF機(jī)制,認(rèn)為共因只以一定概率p(發(fā)生共因時(shí),單一元件的失效概率)使相關(guān)元件發(fā)生失效,使得可靠性預(yù)測(cè)模型更符合現(xiàn)實(shí)。目前對(duì)不完全CCF的研究只是通過失效次數(shù)和總試驗(yàn)時(shí)間來(lái)估計(jì)多重失效率,本文進(jìn)一步利用失效時(shí)刻數(shù)據(jù)來(lái)進(jìn)行多重失效率的貝葉斯更新,不僅使估計(jì)結(jié)果更準(zhǔn)確,也能利用新信息來(lái)動(dòng)態(tài)預(yù)測(cè)系統(tǒng)的可靠性。此外,在已有研究?jī)H考慮CCF率的基礎(chǔ)上,本文還考慮了元件的獨(dú)立失效率,并通過貝葉斯方法對(duì)獨(dú)立失效率的估計(jì)值進(jìn)行更新,使得模型同時(shí)包含了獨(dú)立失效和不完全CCF的特征。
本文希望通過該模型更準(zhǔn)確地預(yù)測(cè)系統(tǒng)可靠性,并通過計(jì)算可靠度分位點(diǎn)壽命來(lái)合理確定系統(tǒng)的檢修周期,使系統(tǒng)可靠性維持在一個(gè)較高水平。
共因分為系統(tǒng)外部沖擊和內(nèi)部故障。假定共因的到來(lái)是一個(gè)泊松過程,則相鄰兩次共因發(fā)生的時(shí)間間隔Δt服從指數(shù)分布,記為Δt~Exp(μ)。
若系統(tǒng)中共有m個(gè)元件,且都屬于同一個(gè)失效分布,稱為相同分布單元。令λi表示發(fā)生共因時(shí),系統(tǒng)中指定i個(gè)元件同時(shí)失效的失效率;λiVm表示發(fā)生共因時(shí),系統(tǒng)中任意i個(gè)元件同時(shí)失效的失效率,則有
λi=μpi(1-p)m-i
(1)
(2)
(3)
(4)
式中,Cq(p)表示發(fā)生q重以上失效的概率,即
(5)
假如共因到來(lái)時(shí),每個(gè)元件發(fā)生失效的概率p各不相同,那么λi和λiVm的表達(dá)式就會(huì)因元件組合不同而變化。例如假設(shè)系統(tǒng)中有3個(gè)元件,在共因下發(fā)生故障的概率分別是p1,p2和p3,這時(shí)可設(shè)λ1,2為1、2號(hào)元件同時(shí)失效的失效率,即λ1,2=p1p2(1-p3),其他情況以此類推。
推論1設(shè){N1(t),t≥0}和{N2(t),t≥0}為兩個(gè)獨(dú)立的泊松過程,且強(qiáng)度分別為λ1和λ2,則這兩個(gè)泊松過程的疊加{N(t),t≥0}是一個(gè)強(qiáng)度為λ=λ1+λ2的泊松過程。
不難證明,推論1可以推廣到有限個(gè)獨(dú)立泊松過程相疊加的情形,如圖1所示。
圖1 獨(dú)立泊松過程的疊加
(6)
(7)
(8)
為了計(jì)算共因下元件失效概率p的最大似然估計(jì)值,可根據(jù)觀察時(shí)間T內(nèi)的一組統(tǒng)計(jì)數(shù)據(jù)N2Vm,N3Vm,…,NmVm來(lái)構(gòu)造p的最大似然函數(shù),即
L(p)=P(N2Vm,N3Vm,…,NmVm)=
(9)
式中,q=(1-p)。可見L(p)的核是式(9)的后半部分,即
(10)
通過對(duì)式(10)求導(dǎo),即可解出p的最大似然估計(jì)值p*。
假設(shè)系統(tǒng)由m個(gè)元件組成。為了對(duì)元件的正?;蚬收蠣顟B(tài)進(jìn)行表示,引入以下符號(hào)來(lái)表示正常或故障事件[21]:
(11)
P(x1)P(x2|x1)P(x3|x1x2)…
P(xr|x1x2x3…xr-1)
(12)
(13)
圖2 共因發(fā)生與多重失效
共因以μ的發(fā)生率到達(dá),在該段時(shí)間內(nèi)共發(fā)生6次共因。每次發(fā)生共因時(shí),系統(tǒng)相應(yīng)出現(xiàn)了二重、三重和四重失效,且失效率分別為λ2Vm,λ3Vm和λ4Vm。因此多重失效率之和反映了共因的發(fā)生率μ。由式(4)和推論1可知,這樣的做法是可行的。具體的步驟如下:
與獨(dú)立失效率的分析不同的是,CCF分析應(yīng)將系統(tǒng)作為一個(gè)整體來(lái)研究,因此把每一次CCF看作一個(gè)樣本點(diǎn)。由于已知共因的發(fā)生是一個(gè)泊松過程,因此系統(tǒng)在共因作用下的壽命服從指數(shù)分布族,那么樣本的似然函數(shù)為
(14)
(15)
(16)
(17)
設(shè)元件在無(wú)共因作用時(shí)的壽命T服從指數(shù)分布Exp(λ),即元件的獨(dú)立失效率為λ,則壽命的分布函數(shù)是F(t)=1-e-λt。對(duì)λ進(jìn)行貝葉斯估計(jì)的步驟如下:
步驟1由于有過往壽命試驗(yàn)的統(tǒng)計(jì)數(shù)據(jù),故假設(shè)λ的先驗(yàn)分布為Gamma分布,即π(λ)~Ga(a,b),先驗(yàn)概率密度函數(shù)為
(18)
步驟2現(xiàn)對(duì)m個(gè)該種元件進(jìn)行了新的壽命試驗(yàn),假設(shè)共測(cè)得r次失效,且各失效時(shí)刻為t1≤t2≤…≤tr≤τ(r≤m),其中τ為指定的觀察中止時(shí)間。該樣本的似然函數(shù)為
(19)
步驟3依據(jù)先驗(yàn)信息和新試驗(yàn)數(shù)據(jù),并由連續(xù)變量的貝葉斯公式可得λ的后驗(yàn)概率密度為
(20)
將式(18)和式(19)代入式(20),可得
(21)
步驟4式(21)中等號(hào)右端是Gamma分布的一個(gè)核,即π(λ|t1,t2,…,tr)∝λa+r-1e-(b+Tr)λ。因此λ的后驗(yàn)分布服從Gamma分布,即π(λ|t1,t2,…,tr)~Ga(a+r-1,b+Tr),因此可得λ的貝葉斯估計(jì)值為
(22)
某民航客機(jī)上搭載的飛行數(shù)據(jù)記錄系統(tǒng)由8個(gè)元件組成,其結(jié)構(gòu)如圖3所示。其中1、2號(hào)元件是緩降系統(tǒng)的一部分,由同一個(gè)電路控制,若出現(xiàn)電壓異常,可能會(huì)導(dǎo)致元件失效,因此其組成CCF組1;此外,1、2號(hào)元件各自會(huì)因?yàn)橄鄳?yīng)的傳感器或電機(jī)故障而發(fā)生獨(dú)立失效。5、7、8號(hào)元件是數(shù)據(jù)傳輸系統(tǒng)的一部分,由另一個(gè)電路控制,電壓異常同樣會(huì)導(dǎo)致元件失效,因此其組成CCF組2。同一個(gè)CCF組內(nèi)的元件為相同分布單元。而3、4、6號(hào)元件只發(fā)生獨(dú)立失效,稱為獨(dú)立失效組。
圖3 系統(tǒng)可靠性框圖和CCF組
事先已知1、2號(hào)元件,3、4、6號(hào)元件和5、7、8號(hào)元件在獨(dú)立失效情況下的壽命服從指數(shù)分布,且失效率參數(shù)λ各不相同。為了對(duì)各元件的獨(dú)立失效率進(jìn)行估計(jì),分別選取了50個(gè)元件進(jìn)行失效觀察。該試驗(yàn)為定時(shí)截尾壽命試驗(yàn),觀察時(shí)間為5 000 h。其失效時(shí)刻如表1~表3所示。同時(shí),對(duì)兩個(gè)CCF組分別進(jìn)行CCF觀察,并將多重失效時(shí)刻記錄在表2和表3中。
表1 獨(dú)立組失效時(shí)刻
表2 CCF組1失效時(shí)刻
表3 CCF組2失效時(shí)刻
表4 失效數(shù)據(jù)及獨(dú)立失效率計(jì)算值
表5 失效數(shù)據(jù)及CCF率計(jì)算值
現(xiàn)求解該系統(tǒng)的可靠度函數(shù)。設(shè)第i個(gè)元件的可靠度為Ri(t),i=1,2,…,8,則通過最小路集法和串并聯(lián)法可得該系統(tǒng)可靠度函數(shù)為
RS=(R1+R2-R1R2)R3(R4R7+R5R7-
R4R5R7+R5R8-R5R7R8+R6R8-
R5R6R8-R4R6R7R8+R4R5R6R7R8)
(23)
式中,有3組相同分布單元:1、2號(hào)元件,5、7、8號(hào)元件和3、4、6號(hào)元件。令R1=R2=RA,R5=R7=R8=RB,R3=R4=R6=RC。則式(23)可寫為
(24)
由式(13)可得到式(24)中各分量的表達(dá)式,即
圖4顯示了3種情況下的可靠性對(duì)比,其中完全CCF是指:只要發(fā)生共因就出現(xiàn)失效。由計(jì)算可知,不考慮CCF時(shí),系統(tǒng)的期望壽命為5 132 h;不完全CCF為1 429 h;而在完全CCF的假設(shè)下只有805 h??梢?CCF會(huì)大大降低系統(tǒng)的期望壽命,在系統(tǒng)設(shè)計(jì)與維護(hù)中是不能忽視的因素。
圖4 3種假設(shè)下系統(tǒng)可靠度對(duì)比
另外,進(jìn)行貝葉斯更新可以更準(zhǔn)確地對(duì)系統(tǒng)可靠性進(jìn)行分析。在實(shí)際情況中,人們更關(guān)心系統(tǒng)可靠性的退化情況而非期望壽命,因此需要計(jì)算系統(tǒng)可靠度在何時(shí)會(huì)降低到指定數(shù)值。圖5顯示了在不完全CCF假設(shè)下,貝葉斯更新前后系統(tǒng)的可靠性退化情況。在更新前,系統(tǒng)可靠度在第165 h降至0.9,而更新后這一時(shí)刻則變?yōu)?92 h,可見系統(tǒng)的可靠壽命比先驗(yàn)估計(jì)有所提高。
圖5 貝葉斯更新前后的可靠度分位壽命
此外,經(jīng)過貝葉斯更新后,不完全CCF系統(tǒng)的可靠度依次降至0.85和0.8的時(shí)刻分別為291 h和393 h。根據(jù)這些信息可以確定系統(tǒng)的檢修周期。例如,若要使系統(tǒng)可靠性維持在85%以上,則應(yīng)每間隔291 h檢修一次。
本節(jié)實(shí)例分析表明,CCF會(huì)大大降低系統(tǒng)的可靠度,是實(shí)際分析中不能忽略的因素。另外,與傳統(tǒng)的完全CCF相比,本文提出的不完全CCF假設(shè)能夠更合理地對(duì)系統(tǒng)的可靠性進(jìn)行分析。最后,貝葉斯更新能夠更準(zhǔn)確地反映系統(tǒng)的狀態(tài),并且可以通過新的數(shù)據(jù)來(lái)方便地進(jìn)行動(dòng)態(tài)更新。
參考文獻(xiàn):
[1] CHAE K C, CLARK G M. System reliability in the presence of common-cause failures[J]. IEEE Trans.on Reliability, 1986, 35(1):32-35.
[2] MANKAMO T, KOSONEN M. Dependent failure modeling in highly redundant structures—application to BWR safety valves[J]. Reliability Engineering & System Safety, 1992, 35(3): 235-244.
[3] DHILLON B S, ANUDE O C. Common-cause failure analysis of a parallel system with warm standby[J]. Microelectronics Reliability, 1993, 33(9): 1321-1342.
[4] VAURIO J K. An implicit method for incorporating common-cause failures in system analysis[J]. IEEE Trans.on Reliability, 1998, 47(2):173-180.
[5] 王家序,周青華,肖科,等.不完全共因失效系統(tǒng)動(dòng)態(tài)故障樹模型分析方法[J].系統(tǒng)工程與電子技術(shù),2012,34(5):1062-1067.
WANG J X, ZHOU Q H, XIAO K, et al. Dynamic fault tree model analysis of systems subjected to incomplete common-cause failure[J]. Systems Engineering and Electronics, 2012, 34(5): 1062-1067.
[6] WANG C, XING L, LEVITIN G. Probabilistic common cause failures in phased-mission systems[J]. Reliability Engineering & System Safety, 2015, 144(12): 53-60.
[7] ZHU P, HAN J, LIU L, et al. A stochastic approach for the analysis of dynamic fault trees with spare gates under probabilistic common cause failures[J]. IEEE Trans.on Reliability,2015,64(3): 878-892.
[8] 阮淵鵬, 何楨. 基于MCS-CA的考慮共因失效的復(fù)雜系統(tǒng)可靠性評(píng)估[J]. 系統(tǒng)工程與電子技術(shù), 2013, 35(4): 900-904.
RUAN Y P, HE Z. Reliability evaluation of complex systems with common cause failures based on MCS-CA[J]. Systems Engineering and Electronics, 2013, 35(4): 900-904.
[9] ZHU P, HAN J, LIU L, et al. Reliability evaluation of phased-mission systems using stochastic computation[J]. IEEE Trans.on Reliability, 2016, 65(3): 1612-1623.
[10] 陳瑤, 李峭, 趙長(zhǎng)嘯, 等. 基于OBDD的航空電子網(wǎng)絡(luò)可靠性分析[J]. 系統(tǒng)工程與電子技術(shù), 2013, 35(1): 230-236.
CHEN Y, LI Q, ZHAO C X, et al. OBDD-based reliability analysis for avionics networks[J]. Systems Engineering and Electronics, 2013, 35(1): 230-236.
[11] XING L, LEVITIN G, WANG C, et al. Reliability of systems subject to failures with dependent propagation effect[J]. IEEE Trans.on Systems, Man & Cybernetics:Systems,2013,43(2): 277-290.
[12] HAUGE S, HOKSTAD P, HABREKKE S, et al. Common cause failures in safety-instrumented systems: using field experience from the petroleum industry[J]. Reliability Engineering & System Safety, 2016, 151(7): 34-45.
[13] ZHANG M, ZHANG Z, MOSLEH A, et al. Common cause failure model updating for risk monitoring in nuclear power plants based on alpha factor model[J]. Journal of Risk & Reliability, 2017, 231(3): 209-220.
[14] YU Y, WANG S, NIU F. Analysis of common cause failure effect on system reliability in seismic PSA[J]. Progress in Nuclear Energy, 2014, 75(6): 158-167.
[15] FAN D, WANG Z, LIU L, et al. A modified GO-FLOW methodology with common cause failure based on discrete time Bayesian network[J]. Nuclear Engineering & Design, 2016, 305(11): 476-488.
[16] MECHRI W, SIMON C, BENOTHMAN K. Switching Markov chains for a holistic modeling of SIS unavailability[J]. Reliability Engineering & System Safety,2015,133(133):212-222.
[17] WANG J, LI M. Redundancy allocation optimization for multistate systems with failure interactions using semi-Markov process[J].Journal of Mechanical Design,2015,137(10):1-12.
[18] LIU Z, LIU Y, CAI B, et al. Dynamic Bayesian network mode-ling of reliability of subsea blowout preventer stack in presence of common cause failures[J]. Journal of Loss Prevention in the Process Industries, 2015, 38(6): 58-66.
[19] 張友鵬, 楊金鳳. 基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的CTCS-3級(jí)ATP系統(tǒng)可靠性分析[J]. 鐵道學(xué)報(bào), 2017, 39(7): 79-86.
ZHANG Y P, YANG J F. Reliability analysis on ATP system of CTCS-3 based on dynamic bayesian network[J]. Journal of the China Railway Society, 2017, 39(7):79-86.
[20] PARK J H. Time-dependent reliability of wireless networks with dependent failures[J]. Reliability Engineering & System Safety, 2017, 165(9): 47-61.
[21] 金星, 洪延姬, 杜紅梅. 共因失效系統(tǒng)的可靠性分析方法[M]. 北京: 國(guó)防工業(yè)出版社, 2008.
JIN X, HONG Y J, DU H M. Reliability analysis method of common cause failure system[M]. Beijing: National Defence Industry Press, 2008.