王軍良,黃 寧,包盛花,武潤(rùn)升
(1.北京航空航天大學(xué) a.可靠性與系統(tǒng)工程學(xué)院,北京 100191; b.云南創(chuàng)新研究院,昆明 650233;2.華為技術(shù)有限公司,上海 201206)
隨著第五代移動(dòng)通信技術(shù)(5th Generation Mobile Communication Technology,5G)網(wǎng)絡(luò)等新興網(wǎng)絡(luò)的出現(xiàn)和在各個(gè)領(lǐng)域的應(yīng)用,網(wǎng)絡(luò)業(yè)務(wù)的可靠性問題越來越受到重視[1]。當(dāng)前許多研究針對(duì)網(wǎng)絡(luò)可靠性試驗(yàn)方法進(jìn)行了設(shè)計(jì)[2-4],但這些研究在設(shè)計(jì)網(wǎng)絡(luò)試驗(yàn)時(shí),缺乏規(guī)劃網(wǎng)絡(luò)可靠性試驗(yàn)所需要的試驗(yàn)時(shí)長(zhǎng)以及求解置信區(qū)間,導(dǎo)致最終的試驗(yàn)結(jié)果可信度不高。
目前一些研究對(duì)于簡(jiǎn)單網(wǎng)絡(luò)的置信度分析問題有相應(yīng)的解決方案。如文獻(xiàn)[5-10]假定網(wǎng)絡(luò)對(duì)象的底層設(shè)備為具有未知平均故障間隔時(shí)間的指數(shù)型產(chǎn)品,通過設(shè)備之間的故障相互獨(dú)立且服從泊松分布,推斷整網(wǎng)的時(shí)延和丟包等也符合該分布特征,由此基于傳統(tǒng)產(chǎn)品的置信度分析方法計(jì)算出試驗(yàn)結(jié)果置信區(qū)間。此外,文獻(xiàn)[11]以威布爾分布計(jì)算了網(wǎng)絡(luò)試驗(yàn)時(shí)長(zhǎng)和置信區(qū)間問題。但對(duì)5G網(wǎng)絡(luò)系統(tǒng)而言,各個(gè)構(gòu)件產(chǎn)品的可靠不能保證上層網(wǎng)絡(luò)業(yè)務(wù)的可靠[12],且5G網(wǎng)絡(luò)業(yè)務(wù)具有復(fù)雜性、故障模式多樣性和部署方式動(dòng)態(tài)性[13],使得5G網(wǎng)絡(luò)中業(yè)務(wù)的故障分布很可能不是泊松分布等固定分布形式,這就導(dǎo)致傳統(tǒng)的置信度分析方法難以再應(yīng)用于5G網(wǎng)絡(luò)試驗(yàn)中。
在這種背景下,本文提出了一種基于業(yè)務(wù)故障分布統(tǒng)計(jì)的5G網(wǎng)絡(luò)業(yè)務(wù)可靠性試驗(yàn)置信度分析方法,首先通過預(yù)試驗(yàn)收集5G網(wǎng)絡(luò)試驗(yàn)數(shù)據(jù),擬合出準(zhǔn)確的5G網(wǎng)絡(luò)業(yè)務(wù)故障分布,然后在此基礎(chǔ)上對(duì)試驗(yàn)時(shí)長(zhǎng)進(jìn)行規(guī)劃以及進(jìn)行置信度分析,從而準(zhǔn)確地求解出5G網(wǎng)絡(luò)業(yè)務(wù)的可靠性試驗(yàn)時(shí)長(zhǎng)及評(píng)估結(jié)果置信區(qū)間。
對(duì)于5G網(wǎng)絡(luò)業(yè)務(wù)故障而言,由于網(wǎng)絡(luò)中存在軟件的調(diào)用和業(yè)務(wù)的資源分配等,其故障分布規(guī)律往往與單純的硬件故障不同,難以直接確定故障符合何種分布規(guī)律。因此,這里首先進(jìn)行一定量的預(yù)試驗(yàn),收集網(wǎng)絡(luò)可靠性數(shù)據(jù);然后從預(yù)試驗(yàn)的故障數(shù)據(jù)中找出理論網(wǎng)絡(luò)故障分布的表達(dá)式;最后進(jìn)行故障分布規(guī)律的驗(yàn)證。
先進(jìn)行多組預(yù)實(shí)驗(yàn),收集首次5G網(wǎng)絡(luò)故障時(shí)的預(yù)試驗(yàn)數(shù)據(jù)。該步驟的目的主要是確定預(yù)試驗(yàn)的單組試驗(yàn)持續(xù)時(shí)間。
為了方便故障數(shù)據(jù)的收集,在每一組預(yù)試驗(yàn)中,需要統(tǒng)計(jì)網(wǎng)絡(luò)首次故障發(fā)生時(shí)間作為網(wǎng)絡(luò)的故障間隔時(shí)間值,進(jìn)行多組預(yù)試驗(yàn)后得到單組預(yù)試驗(yàn)需要進(jìn)行的時(shí)間。網(wǎng)絡(luò)首次故障發(fā)生時(shí)間的統(tǒng)計(jì)方法如圖1所示。圖中,Dmax為網(wǎng)絡(luò)試驗(yàn)中故障判據(jù)的參數(shù)閾值,單位依照參數(shù)類型確定;Δt為網(wǎng)絡(luò)參數(shù)采樣間隔,單位為s。
圖1 預(yù)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)方法
在多個(gè)網(wǎng)絡(luò)首次故障時(shí)間中,選取一個(gè)最大的網(wǎng)絡(luò)首次故障時(shí)間作為單次預(yù)試驗(yàn)的時(shí)間T0,然后再進(jìn)行m組預(yù)試驗(yàn),每一組預(yù)試驗(yàn)的時(shí)間為T0。m的取值會(huì)影響故障規(guī)律的精確度,因此其與后續(xù)置信度分析相關(guān)。進(jìn)行完m組預(yù)試驗(yàn)后,對(duì)整個(gè)預(yù)試驗(yàn)時(shí)間區(qū)間T0,統(tǒng)計(jì)在每一個(gè)Δt間隔內(nèi)的故障發(fā)生頻率,通過常用的經(jīng)驗(yàn)估計(jì)法(即使用頻率來代替故障發(fā)生概率),得到預(yù)試驗(yàn)數(shù)據(jù)點(diǎn)集G:
式中:i為點(diǎn)的序號(hào);pi為經(jīng)驗(yàn)估計(jì)法獲得的頻率;ci為在時(shí)間段(i-1)Δt~iΔt內(nèi),有網(wǎng)絡(luò)故障發(fā)生的預(yù)試驗(yàn)組數(shù)。顯然,Δt的取值會(huì)影響數(shù)據(jù)集G的數(shù)據(jù)量,從而影響擬合的精度。由中心極限定理,假設(shè)已經(jīng)擬合得到的故障規(guī)律為F,對(duì)應(yīng)真實(shí)故障規(guī)律為F*,當(dāng)點(diǎn)集中的數(shù)據(jù)與真實(shí)分布的誤差獨(dú)立同分布,Δt的取值對(duì)擬合規(guī)律造成的誤差滿足:
式中:zC為置信度為C下的上分位數(shù);σ為點(diǎn)集中pi的均方差。由式(2)可知,故障規(guī)律的擬合精度與Δt的平方根呈反相關(guān)。
此外,使用頻率代替概率,也會(huì)不可避免地引入估計(jì)誤差,導(dǎo)致數(shù)據(jù)點(diǎn)集不精準(zhǔn)的問題。假設(shè)pi對(duì)應(yīng)的真實(shí)概率值為qi,且其中狀態(tài)數(shù)k為2(正常和故障兩種),則估計(jì)誤差ε可表示為
在進(jìn)行完一定量預(yù)試驗(yàn)后,可以收集到少量的5G網(wǎng)絡(luò)可靠性試驗(yàn)數(shù)據(jù)集G,這些數(shù)據(jù)需要被用來分析故障規(guī)律,同時(shí)用于對(duì)確定的故障規(guī)律進(jìn)行驗(yàn)證。為了保證驗(yàn)證的客觀性,需要將預(yù)試驗(yàn)數(shù)據(jù)集G切分出獨(dú)立的一組,即
式中:[FitSet]為擬合出的故障規(guī)律;[ValSet]為測(cè)試得到的故障規(guī)律對(duì)實(shí)際規(guī)律的擬合程度。
通常情況下需要進(jìn)行多次故障規(guī)律的擬合。重復(fù)的數(shù)據(jù)利用可能會(huì)出現(xiàn)重復(fù)擬合和過擬合的現(xiàn)象,為避免出現(xiàn)這兩種情況,需要將[FitSet]分成多個(gè)小組,分別得到各個(gè)小組的故障規(guī)律,然后使用[ValSet]進(jìn)行驗(yàn)證,最后取出驗(yàn)證結(jié)果最好的一個(gè)故障規(guī)律:
注意到,由于預(yù)試驗(yàn)得到的試驗(yàn)數(shù)據(jù)較少,如果如上述分組進(jìn)行擬合,每組的數(shù)據(jù)量可能不足以得到準(zhǔn)確的模型,這里可以使用交叉驗(yàn)證的思想對(duì)數(shù)據(jù)進(jìn)行充分利用,即某組擬合數(shù)據(jù)進(jìn)行擬合后,可以再次被用作驗(yàn)證數(shù)據(jù)。
擬合過程有兩種選擇。首選的擬合方式是根據(jù)預(yù)試驗(yàn)中m組預(yù)試驗(yàn)得到的故障數(shù)量統(tǒng)計(jì),直接預(yù)估5G網(wǎng)絡(luò)故障分布所有可能的模型形式,如鐘形的曲線可以假設(shè)為符合正態(tài)分布等;然后根據(jù)這些預(yù)估的模型形式,仿照傳統(tǒng)的統(tǒng)計(jì)方案進(jìn)行計(jì)算。該方法適合與傳統(tǒng)故障分布類似的網(wǎng)絡(luò),得到的分布準(zhǔn)確性較高,適用于可以直接套用已有分布規(guī)律的情況。
根據(jù)以上得到的網(wǎng)絡(luò)故障分布規(guī)律,就可以按照給定的置信度信息確定出需要進(jìn)行的5G網(wǎng)絡(luò)可靠性試驗(yàn)時(shí)長(zhǎng)。同時(shí),根據(jù)試驗(yàn)時(shí)長(zhǎng)和置信度信息,進(jìn)一步可以得到平均無故障間隔時(shí)間等可靠性參數(shù)在該置信度下區(qū)間的上下限。
在進(jìn)行試驗(yàn)時(shí)長(zhǎng)計(jì)算之前,首先規(guī)定以下符號(hào)含義:θ0為生產(chǎn)方可接受質(zhì)量水平;θ1為使用方要求的平均無故障間隔時(shí)間(Mean Time Between Failure,MTBF);α為生產(chǎn)方風(fēng)險(xiǎn);β為使用方風(fēng)險(xiǎn)。以上幾個(gè)數(shù)值在進(jìn)行預(yù)實(shí)驗(yàn)前需要根據(jù)客戶和網(wǎng)絡(luò)提供方的要求給定數(shù)值。θ為待確定MTBF的真實(shí)數(shù)值;最終的待求結(jié)果中R0為統(tǒng)計(jì)方案接收時(shí)的網(wǎng)絡(luò)故障數(shù);T為統(tǒng)計(jì)方案接收時(shí)進(jìn)行的試驗(yàn)時(shí)長(zhǎng)。在已經(jīng)求得故障發(fā)生概率函數(shù)F(ω,t)的前提下,可以通過聯(lián)立方程求取試驗(yàn)時(shí)長(zhǎng)。
取R(ω,t)=1-F(ω,t)。根據(jù)數(shù)理統(tǒng)計(jì)原理,接受概率P(θ)為
依照風(fēng)險(xiǎn)系數(shù)的定義,有以下關(guān)系式成立:
在式(6)和(7)中,未知數(shù)為接收網(wǎng)絡(luò)故障數(shù)R0和試驗(yàn)時(shí)長(zhǎng)T,方程數(shù)與未知數(shù)相等,因此該式理論可解。通過求解方程,最終得到R0和T。
當(dāng)P(θ)表達(dá)式復(fù)雜,難以直接求解方程時(shí),可以采用迭代的方法計(jì)算R0和T。為方便計(jì)算,令拒收故障數(shù)為R1=R0+1。具體而言有以下步驟:
(1) 初始值R0= 0,R1=1。
(2) 將R0和規(guī)定的θ1與β值代入式(7)的第2個(gè)等式,得到可能的最小試驗(yàn)時(shí)長(zhǎng)T。
(3) 將T值、R1值與規(guī)定的θ0代入式(7)的第1個(gè)等式,計(jì)算出α′的值。
(4) 分支步驟。若計(jì)算出的α′大于規(guī)定值α,讓R0與R1的值都加1,并轉(zhuǎn)入步驟(2);若不大于,則轉(zhuǎn)入步驟(5)。
(5) 停止迭代,輸出要求的T、R0和R1。
通過上述迭代也可以得到R0和T。得到了這兩個(gè)數(shù)值之后,就可以合理地規(guī)劃網(wǎng)絡(luò)可靠性試驗(yàn)并進(jìn)行試驗(yàn),獲取更多的試驗(yàn)數(shù)據(jù)。
一般而言,置信度C的建議值在(1-2β)×100%左右。5G網(wǎng)絡(luò)的試驗(yàn)者也可根據(jù)客戶方面的要求適當(dāng)提高或降低給定置信度,數(shù)值越高,得到的MTBF的置信區(qū)間會(huì)越大,而過大或過小的置信區(qū)間都不具備參考價(jià)值。
為了避免混淆,將上一節(jié)中得到的接受概率P(θ)設(shè)為Q(θ)。在給定置信度C后,對(duì)于待求置信下限θL和置信上限θU,滿足:
一般而言,當(dāng)Q(θ)的表達(dá)式不符合泊松分布和正態(tài)分布等特殊情況時(shí),θL和θU并不容易求得。為此,當(dāng)故障規(guī)律函數(shù)F(ω,t)波動(dòng)幅度不大時(shí),根據(jù)概率統(tǒng)計(jì)原理,可以進(jìn)行如下的近似計(jì)算:
(1) 收集可靠性試驗(yàn)得到的故障時(shí)間間隔參數(shù)的點(diǎn)集H。在進(jìn)行完試驗(yàn)后,可以得到較大規(guī)模的待估計(jì)MTBF參數(shù)的樣本。
(2) 不斷從參數(shù)點(diǎn)集中隨機(jī)抽取樣本值,作為新的點(diǎn)集H*中的元素。
式中:n為收集到的故障樣本量;tC/2為C/2置信度下的t分布值。一般而言,當(dāng)F(ω,t)波動(dòng)不大時(shí),建議采用直接計(jì)算的方式得到置信區(qū)間,得到的結(jié)果準(zhǔn)確且耗費(fèi)時(shí)間較少;只有當(dāng)F(ω,t)波動(dòng)較大時(shí),才可采用Bootstrap方法,通過模擬抽樣,得到置信區(qū)間,其準(zhǔn)確性依賴于點(diǎn)集H*的元素個(gè)數(shù),元素越多,準(zhǔn)確性越好,計(jì)算耗費(fèi)時(shí)間越多。
以部署于洋山港的一個(gè)基于5G網(wǎng)絡(luò)輪胎吊(Rubber Tired Gantry,RTG)遠(yuǎn)程控制業(yè)務(wù)的可靠性試驗(yàn)為例,說明上述方法的具體應(yīng)用方式。在進(jìn)行可靠性試驗(yàn)置信度分析之前,假定已對(duì)該網(wǎng)絡(luò)業(yè)務(wù)完成了網(wǎng)絡(luò)故障判據(jù)的確定和試驗(yàn)剖面的設(shè)計(jì)。基于該前提,就可以通過上述方法對(duì)網(wǎng)絡(luò)試驗(yàn)進(jìn)行試驗(yàn)時(shí)長(zhǎng)計(jì)算和置信度分析。
在本節(jié)中,需要通過一定量的預(yù)試驗(yàn),確定出5G網(wǎng)絡(luò)上RTG遠(yuǎn)程控制業(yè)務(wù)的故障分布規(guī)律,為之后試驗(yàn)時(shí)長(zhǎng)和置信區(qū)間的分析做準(zhǔn)備。
圖2所示為確定網(wǎng)絡(luò)業(yè)務(wù)故障分布規(guī)律圖。首先進(jìn)行k組實(shí)驗(yàn),對(duì)于確定累計(jì)故障分布的預(yù)實(shí)驗(yàn),實(shí)驗(yàn)的組數(shù)k與每組時(shí)長(zhǎng)N×Δt的選取要在滿足1.1節(jié)精度的要求下進(jìn)行。這里k的取值為1 500次,已經(jīng)滿足精度要求。
圖2 確定網(wǎng)絡(luò)業(yè)務(wù)故障分布規(guī)律
對(duì)于每組實(shí)驗(yàn),收集業(yè)務(wù)參數(shù)(以RTG大車定位偏差D大車為例)的具體數(shù)值作為業(yè)務(wù)的故障判據(jù)。定義采樣時(shí)間間隔為Δt,且滿足精度要求的最小Δt為1 s。若在采樣時(shí)刻,采集的定位誤差數(shù)據(jù)大于定位誤差閾值,則認(rèn)為故障發(fā)生。對(duì)于每組實(shí)驗(yàn),收集其初次故障時(shí)間,然后統(tǒng)計(jì)這k組實(shí)驗(yàn)中初次故障時(shí)間在每個(gè)時(shí)間點(diǎn)上出現(xiàn)的頻率,確定業(yè)務(wù)故障的故障概率分布。
通過累計(jì)故障率分布的統(tǒng)計(jì)圖,進(jìn)一步可以通過數(shù)據(jù)擬合的方式,計(jì)算擬合出該曲線的函數(shù)表達(dá)。根據(jù)Han的調(diào)研文獻(xiàn)中有關(guān)吊車故障的數(shù)據(jù)來進(jìn)行擬合[15],擬合的圖形如圖3所示,圖中,橫軸是試驗(yàn)時(shí)間,縱軸是業(yè)務(wù)正常運(yùn)行的頻率值p_value,粉色點(diǎn)為模擬的故障數(shù)據(jù)點(diǎn)集,擬合出的曲線(藍(lán)色曲線)趨近于水平線。
圖3 擬合故障數(shù)據(jù)
通過3.1節(jié)的預(yù)試驗(yàn)故障分布規(guī)律F(ω,t),注意到該函數(shù)幾乎趨近于水平線。因此,如果其網(wǎng)絡(luò)故障判據(jù)只取決于一個(gè)參數(shù)(如“大車定位偏差”),則故障分布服從二項(xiàng)分布。而在本案例中,故障判據(jù)取決于多個(gè)參數(shù),則其故障分布服從多維二項(xiàng)分布。
針對(duì)RTG遠(yuǎn)程操控業(yè)務(wù)的可靠性,需要預(yù)先確定生產(chǎn)方風(fēng)險(xiǎn)α、使用方風(fēng)險(xiǎn)β、檢驗(yàn)下限R1和檢驗(yàn)上限R2。在本案例中,給定的α與β均為10%,R2為0.999 0。
根據(jù)2.1節(jié)中對(duì)試驗(yàn)時(shí)長(zhǎng)求取的方法描述,本案例中正式試驗(yàn)所需的樣本量可通過以下方程組求得:
式中:c為接收拒收故障判據(jù);N為正式試驗(yàn)所需樣本量;r為試驗(yàn)中的故障個(gè)數(shù)。N必須為整數(shù),此聯(lián)立方程無普遍公式可解。通過對(duì)式(11)的迭代計(jì)算,可得到應(yīng)得試驗(yàn)樣本量為206 000。假設(shè)網(wǎng)絡(luò)試驗(yàn)數(shù)據(jù)采樣間隔為1 s,則得到c為5,總的試驗(yàn)時(shí)長(zhǎng)為206 000×1 s即57.2 h。
通過2.2節(jié)中的分析,可以將求得的試驗(yàn)時(shí)長(zhǎng)T和接收拒收判據(jù)c代入式(12),直接得到RTG遠(yuǎn)程控制業(yè)務(wù)的平均無故障間隔時(shí)間置信區(qū)間為
為了驗(yàn)證上述結(jié)果的正確性,參考5G實(shí)際案例[16],本文構(gòu)建了實(shí)際5G網(wǎng)絡(luò)RTG業(yè)務(wù)并進(jìn)行了試驗(yàn)(試驗(yàn)編號(hào)為C3-C10),得到的可靠性試驗(yàn)結(jié)果如圖4所示,由圖可見,試驗(yàn)結(jié)果實(shí)際值基本在該區(qū)間內(nèi)(即上下兩條虛線內(nèi)),符合置信度分析的預(yù)期值。
圖4 可靠性試驗(yàn)結(jié)果箱型圖與置信區(qū)間驗(yàn)證
本文的網(wǎng)絡(luò)可靠性試驗(yàn)置信度分析對(duì)5G網(wǎng)絡(luò)故障規(guī)律進(jìn)行了預(yù)先的確定,在滿足精度要求的前提下,通過一定量的預(yù)試驗(yàn),擬合試驗(yàn)結(jié)果數(shù)據(jù),得到故障分布函數(shù)F(ω,t)。傳統(tǒng)的置信度分析中往往直接采用泊松分布計(jì)算試驗(yàn)時(shí)長(zhǎng),并進(jìn)一步分析置信區(qū)間,而對(duì)于5G網(wǎng)絡(luò)這類復(fù)雜的網(wǎng)絡(luò)而言,其動(dòng)態(tài)性和耦合性等特征致使故障分布往往不符合泊松分布等傳統(tǒng)分布,因此傳統(tǒng)產(chǎn)品的可靠性試驗(yàn)置信度分析應(yīng)用于5G網(wǎng)絡(luò)時(shí),必然會(huì)導(dǎo)致不精確的結(jié)果,而本文所提方法通過預(yù)試驗(yàn)和故障規(guī)律的擬合,得到了相對(duì)精確的故障規(guī)律,由此通過置信度分析得到的試驗(yàn)時(shí)長(zhǎng)和結(jié)果置信區(qū)間等更為精確,更具可信性。