鞠昊哲,王東明,胡 靜,劉 瑜,王海龍,陳建平
隨著鐵路通信系統(tǒng)對(duì)業(yè)務(wù)量、通信質(zhì)量和安全性需求的日益增加,傳統(tǒng)的GSM-R 通信系統(tǒng)已無(wú)法完全滿足高鐵業(yè)務(wù)場(chǎng)景,對(duì)于5G-R 專網(wǎng)(5GR)部署的期望越來(lái)越迫切?;阼F路通信場(chǎng)景對(duì)安全性、可靠性、容災(zāi)能力的特定要求,接入網(wǎng)基站系統(tǒng)的可靠性設(shè)計(jì)成為重中之重。鐵路通信系統(tǒng)的基站設(shè)備采用冗余部署,組網(wǎng)冗余覆蓋[1]。一般射頻拉遠(yuǎn)單元(RRU)在與基帶處理單元(BBU)連接時(shí),采用環(huán)型組網(wǎng)冗余部署方式,以提高其可靠性,但在5G-R 新提出的集中式單元(CU)與分布式單元(DU)分離部署的場(chǎng)景下,就需對(duì)系統(tǒng)可靠性設(shè)計(jì)提出更高的要求[2]。
目前,針對(duì)5G-R 通信系統(tǒng)可靠性的研究多為設(shè)計(jì)方案探討,缺少定量分析計(jì)算。而對(duì)GSM-R 系統(tǒng)的可靠性分析,常采用系統(tǒng)模型的靜態(tài)分析、故障樹(shù)分析、馬爾可夫分析等方法[3-5]。雖然這些方法對(duì)5G-R 基站的可靠性定量研究具有借鑒意義,但是系統(tǒng)模型的靜態(tài)分析不適于可維修的動(dòng)態(tài)場(chǎng)景。而傳統(tǒng)的動(dòng)態(tài)故障樹(shù)分析、馬爾科夫分析在故障切換復(fù)雜、鏈路眾多的場(chǎng)景中,又存在模型建立困難和公式推導(dǎo)繁瑣等問(wèn)題。為此本文在采用傳統(tǒng)可靠性分析方法的基礎(chǔ)上,將適用于大規(guī)模復(fù)雜系統(tǒng)可靠性分析的蒙特卡洛仿真法,應(yīng)用在基站組網(wǎng)系統(tǒng)的可靠性分析中[6],將其與傳統(tǒng)可靠性分析方法進(jìn)行對(duì)比研究,并分析組網(wǎng)系統(tǒng)的薄弱環(huán)節(jié),為優(yōu)化組網(wǎng)方案提供理論依據(jù)。
5G-R 接入網(wǎng)基站單元設(shè)備主要以分布式組網(wǎng)[7],包括BBU和RRU。RRU部分可采用星型或環(huán)型連接,由于環(huán)型連接的可靠性更高,因此本文考慮建立環(huán)型連接的組網(wǎng)模型。根據(jù)不同的硬件設(shè)備,1 臺(tái)BBU 可以級(jí)聯(lián)多臺(tái)RRU。為簡(jiǎn)化計(jì)算,在不影響分析效果的前提下,每臺(tái)BBU 設(shè)備僅級(jí)聯(lián)2 臺(tái)RRU 設(shè)備。在5G-R 系統(tǒng)中,可用分離的CU 和DU 設(shè)備代替BBU 設(shè)備,以下將分別建立2種基站組網(wǎng)模型[8-9]。
BBU 設(shè)備包含基帶單元、主控單元以及背板等。其中,背板用于完成單板間通信和電源供給。5G 基站供應(yīng)商可實(shí)現(xiàn)BBU 內(nèi)部關(guān)鍵板件的冗余部署,1 個(gè)BBU 背板可以插入多個(gè)基帶單元和主控單元。一種典型的分布式基站部署簡(jiǎn)化模型見(jiàn)圖1。
圖1 典型分布式基站簡(jiǎn)化模型
為實(shí)現(xiàn)5G-R 基站的統(tǒng)一管理和鐵路沿線基站設(shè)備的靈活部署,提出CU、DU 分離部署方式。先將DU 部署在鐵路沿線,再由部署在車站的CU統(tǒng)一調(diào)度。CU 和DU 分離部署方式具有以下3 個(gè)優(yōu)點(diǎn):①有利于實(shí)現(xiàn)基帶資源的共享;②將實(shí)時(shí)性要求高的部分交給DU 分布部署,而實(shí)時(shí)性要求低的部分交給CU,CU 直接與核心網(wǎng)相連,有利于實(shí)現(xiàn)云化和切片服務(wù);③部署更加靈活。
目前的大多數(shù)5G 基站只是將CU、DU 做邏輯劃分,后續(xù)部分應(yīng)用場(chǎng)景下的部署趨勢(shì)是CU、DU 物理分離,這就對(duì)可靠性提出了更高的要求。為此CU 和DU 之間擬采用交叉連接方式進(jìn)行部署,部署模型見(jiàn)圖2。
圖2 CU、DU分離部署模型
主備CU、DU 之間都具備建立F1 連接的能力,CU 之間和DU 之間建立心跳連接,可以實(shí)時(shí)監(jiān)測(cè)鏈路狀態(tài)。啟動(dòng)時(shí),主備CU、DU 均上電,建立流控制傳輸協(xié)議,但只有主CU、DU 之間建立F1 連接,一旦主用設(shè)備故障,備用設(shè)備立即接入,重新建立F1 連接。這是一種交叉連接熱備的設(shè)計(jì)方案。
可靠性也稱作可靠度,其定義為設(shè)備或系統(tǒng)在規(guī)定條件下和規(guī)定時(shí)間內(nèi)完成規(guī)定功能的能力,常用R(t)來(lái)表示產(chǎn)品壽命大于規(guī)定時(shí)間的概率,即
式中:t為規(guī)定時(shí)間,T為產(chǎn)品壽命。工程上,電子產(chǎn)品的壽命常服從指數(shù)分布,具有無(wú)記憶的特點(diǎn),元件2次故障之間不存在聯(lián)系。其表達(dá)式為
式中:λ為失效率,指未失效的某產(chǎn)品經(jīng)過(guò)該時(shí)刻后,單位時(shí)間內(nèi)失效的概率,在可靠性動(dòng)態(tài)分析中,常表示為
式中:MTBF為平均故障間隔時(shí)間,是系統(tǒng)發(fā)生多次可修復(fù)的故障,在每次修復(fù)后正常運(yùn)行的平均時(shí)間。
對(duì)于動(dòng)態(tài)系統(tǒng),還需要考慮系統(tǒng)的修復(fù)率μ,其定義為失效的某產(chǎn)品經(jīng)過(guò)該時(shí)刻后,單位時(shí)間內(nèi)修復(fù)的概率。在可靠性動(dòng)態(tài)分析中常表示為
式中:MTTR為平均故障修復(fù)時(shí)間,是系統(tǒng)從發(fā)生故障到完成修復(fù)的平均時(shí)間。
在故障樹(shù)分析中,引入穩(wěn)態(tài)有效度A,其定義為系統(tǒng)到達(dá)穩(wěn)定狀態(tài)后,處在工作狀態(tài)的概率。某一時(shí)刻的有效度A(t),則指系統(tǒng)在某一時(shí)刻處于工作狀態(tài)的概率,即
引入故障頻度M,其定義為運(yùn)行時(shí)間t內(nèi),系統(tǒng)故障次數(shù)除以總運(yùn)行時(shí)間t。在故障樹(shù)分析中,常用穩(wěn)態(tài)有效度A和故障頻度M來(lái)計(jì)算系統(tǒng)的MTTR和MTBF。
靜態(tài)分析系統(tǒng)的可靠性時(shí),元件(設(shè)備)常被建立為邏輯上的串聯(lián)或并聯(lián)結(jié)構(gòu)。對(duì)于一個(gè)串聯(lián)系統(tǒng),其可靠性參數(shù)可表示為
式中:RC為整個(gè)串聯(lián)結(jié)構(gòu)的可靠度;Ri為串聯(lián)結(jié)構(gòu)中第i個(gè)元件的可靠度。同理,可以得到一個(gè)并聯(lián)系統(tǒng)的可靠度RB為
系統(tǒng)可靠性的靜態(tài)分析是一種簡(jiǎn)單直觀的可靠性研究方法,但存在著無(wú)法反映系統(tǒng)動(dòng)態(tài)變化的缺點(diǎn)。
動(dòng)態(tài)故障樹(shù)分析是使用最廣泛的用于分析動(dòng)態(tài)可維修冗余系統(tǒng)可靠性的研究方法。其中,系統(tǒng)的失效、修復(fù)、冗余等動(dòng)態(tài)特性采用馬爾可夫分析方法計(jì)算[5]。
故障樹(shù)由邏輯門和事件組成,常用的邏輯門有與門、或門、熱備門等。故障樹(shù)常用邏輯門符號(hào)及其狀態(tài)轉(zhuǎn)移圖見(jiàn)表1。
表1 故障樹(shù)常用邏輯門符號(hào)及其狀態(tài)轉(zhuǎn)移圖
以熱備門為例,分析其馬爾可夫狀態(tài)轉(zhuǎn)移過(guò)程。初始0 狀態(tài)表示系統(tǒng)無(wú)故障運(yùn)行;主備2 個(gè)元件中任意1 個(gè)元件失效則轉(zhuǎn)移到1 狀態(tài)(降級(jí)狀態(tài)),系統(tǒng)仍然能夠正常運(yùn)行,轉(zhuǎn)移概率為2 個(gè)元件的失效率之和;當(dāng)2 個(gè)元件均失效,則系統(tǒng)進(jìn)入2狀態(tài)(故障狀態(tài))。
狀態(tài)轉(zhuǎn)移矩陣Q為
穩(wěn)態(tài)有效度應(yīng)滿足
式中:πi為狀態(tài)i轉(zhuǎn)移概率,A為穩(wěn)態(tài)有效度。
通過(guò)求解穩(wěn)態(tài)有效度A可以求解MTTR和MTBF,將各模塊MTBF、MTTR的倒數(shù)作為整個(gè)模塊的失效率和修復(fù)率,代入到下一層系統(tǒng)中,以此類推,求解出頂事件的可靠性參數(shù)。
動(dòng)態(tài)故障樹(shù)分析法能夠定量分析可維修系統(tǒng)的可靠性參數(shù),但仍舊只能處理簡(jiǎn)單的故障邏輯,不適用于故障點(diǎn)疊加和設(shè)備切換復(fù)雜的場(chǎng)景。
蒙特卡洛仿真法又稱為概率模擬方法,或隨機(jī)抽樣統(tǒng)計(jì)試驗(yàn)方法,是一種基于隨機(jī)試驗(yàn)的模擬方法。它以大數(shù)定理為理論基礎(chǔ),以隨機(jī)數(shù)為基本工具[6]。蒙特卡洛算法可以有效解決交叉連接的CU、DU 冗余模塊的故障仿真,借助計(jì)算機(jī)可以快速統(tǒng)計(jì)系統(tǒng)的可靠性參數(shù),定位系統(tǒng)中的薄弱環(huán)節(jié),以及影響系統(tǒng)可靠性的關(guān)鍵設(shè)備,計(jì)算出基本事件的重要度,為基站系統(tǒng)的故障分析提供有力支持。
蒙特卡洛仿真法的基本步驟是:先建立合理的概率模型,通過(guò)開(kāi)展數(shù)值化的隨機(jī)試驗(yàn)得到抽樣值;然后統(tǒng)計(jì)試驗(yàn)的故障次數(shù),將結(jié)果作為工程中可靠性問(wèn)題的解。生成隨機(jī)數(shù)是蒙特卡洛方法中的一個(gè)關(guān)鍵部分,隨機(jī)數(shù)滿足的分布不同,會(huì)很大程度上影響結(jié)果的準(zhǔn)確性。本文中采用常見(jiàn)的指數(shù)方法生成隨機(jī)時(shí)間步長(zhǎng)。
根據(jù)國(guó)鐵集團(tuán)發(fā)布的《鐵路5G 專用移動(dòng)通信(5G-R)系統(tǒng)總體技術(shù)要求》[10],并參考典型設(shè)備的相關(guān)數(shù)據(jù),所配置的失效率參數(shù)見(jiàn)表2。
表2 基站設(shè)備的失效率參數(shù)
《技術(shù)要求》規(guī)定:基站系統(tǒng)的MTTR應(yīng)不大于1 h。為方便計(jì)算,系統(tǒng)中元件修復(fù)率均設(shè)置為1。鑒于背板作為BBU中的一部分,其可靠性參數(shù)沒(méi)有明確數(shù)據(jù),可將其分為理想情況和非理想情況進(jìn)行討論。采用Matlab2020環(huán)境進(jìn)行仿真[11]。
對(duì)于BBU/RRU 基站,每組中的2 個(gè)RRU 并聯(lián),組間串聯(lián),BBU 則建模為并聯(lián)的基帶單元、并聯(lián)的主控單元和背板串聯(lián),所建立的混聯(lián)框圖見(jiàn)圖3。對(duì)于該模型,基帶單元和主控單元全部插在背板上,背板的可靠性是影響系統(tǒng)整體可靠性的關(guān)鍵。根據(jù)該模型,可以列出求解可靠性參數(shù)的計(jì)算式
圖3 BBU模型混聯(lián)框圖
式中:RRRU為RRU 模塊可靠度,RRRU1為單個(gè)RRU 可靠度,R主為主控單元的可靠度,R基為基帶單元的可靠度,R背板為背板的可靠度,R為系統(tǒng)可靠度。
對(duì)于CU、DU 分離模型,RRU 部分相同,而CU、DU 之間的光傳輸模塊交叉連接,見(jiàn)圖4。對(duì)于一般性的混聯(lián)網(wǎng)絡(luò),不能用串并聯(lián)公式表示,故采用最小路集法求解其可靠性參數(shù)。
圖4 CU、DU分離模型混聯(lián)框圖
式中:RCU為CU 可靠度,RDU為DU可靠度,Rt為傳輸模塊的可靠度,RS為CU/DU 模塊的可靠度,L1~L4為每條最小路徑的可靠度,RRRU為RRU 模塊的可靠度。
結(jié)合上述2 種模型,分別在理想情況下(背板失效率為0)做出可靠度R隨時(shí)間變化的曲線對(duì)比,見(jiàn)圖5(a)。在非理想情況下,當(dāng)背板和傳輸模塊的可靠性處在同一量級(jí)時(shí),可靠度R隨時(shí)間變化對(duì)比,見(jiàn)圖5(b)。
圖5 CU、DU分離模型與BBU模型的可靠度對(duì)比
由此看出,為達(dá)到同樣的系統(tǒng)可靠性,對(duì)背板設(shè)備的可靠性要求更高,這也是采用交叉冗余連接CU、DU 分離模型的優(yōu)勢(shì),能夠降低對(duì)中間連接設(shè)備的可靠性要求。
直連CU、DU 分離模型與BBU 模型的可靠度對(duì)比見(jiàn)圖6。由圖6 可以看出,在靜態(tài)分析中,不考慮修復(fù)和熱備的動(dòng)態(tài)場(chǎng)景時(shí),當(dāng)不采用CU、DU 交叉連接時(shí),CU、DU 分離基站的可靠性與BBU 基站相比有較大的差距;當(dāng)采用交叉連接時(shí),可以大幅度提升系統(tǒng)的可靠性。在相同的單設(shè)備可靠性量級(jí)下,基站系統(tǒng)整體的可靠性可以超過(guò)BBU基站的可靠性。
圖6 直連CU、DU分離模型與BBU模型的可靠度對(duì)比
BBU 基站系統(tǒng)故障樹(shù)模型見(jiàn)圖7,基帶單元和主控單元均為冗余熱備,RRU 部分為環(huán)型連接結(jié)構(gòu)。
圖7 BBU基站動(dòng)態(tài)故障樹(shù)模型
CU、DU 分離基站系統(tǒng)的動(dòng)態(tài)故障樹(shù)模型見(jiàn)圖8,CU、DU 冗余熱備,CU、DU 之間的光纖傳輸模塊交叉連接。在故障樹(shù)場(chǎng)景下,認(rèn)為這是一種四冗余邏輯,即4 條光纖中任一條能正常工作,則整個(gè)光纖傳輸模塊處于工作狀態(tài)。一主三備的四冗余邏輯本質(zhì)上仍然是熱備,可以用馬爾可夫方法分析其狀態(tài)。
圖8 CU、DU分離基站動(dòng)態(tài)故障樹(shù)模型
假設(shè)背板不發(fā)生故障(失效率為0),計(jì)算2種基站系統(tǒng)的平均無(wú)故障工作時(shí)間(MUT)和平均修復(fù)時(shí)間(MDT),見(jiàn)表3。在故障樹(shù)分析中,常用MUT和MDT來(lái)近似MTBF和MTTR。
表3 2種基站系統(tǒng)的可靠性參數(shù)
分析表3 中數(shù)據(jù),BBU 系統(tǒng)的MUT為(10 533 079 130)h,CU、DU 分離系統(tǒng)的MUT為(10 471 642 790) h,兩系統(tǒng)的MUT相差僅0.58%。在實(shí)際情況(非理想)中,采用傳輸模塊的MTBF更高,而背板失效率不為0,CU、DU分離基站的可靠性不低于BBU 基站的可靠性,驗(yàn)證了采用交叉冗余連接的CU、DU 分離部署的基站系統(tǒng)的可靠性得到大幅度提高。
動(dòng)態(tài)故障樹(shù)模型具有較高的可靠性,卻難以處理故障疊加的場(chǎng)景。以圖9 所示對(duì)CU、DU 部分故障點(diǎn)進(jìn)行分析。
圖9 CU、DU部分故障點(diǎn)分析
假設(shè)出現(xiàn)了故障1(DU 故障)和故障2(光纖鏈路)的疊加情況,那么光纖傳輸鏈路不再是一主三備邏輯,因?yàn)橹灰收螪U 的2 條對(duì)端pairF1(假設(shè)DU1 故障,DU2 的2 個(gè)F1 即為對(duì)端pairF1)都斷開(kāi),則整個(gè)系統(tǒng)故障。這種故障場(chǎng)景已經(jīng)無(wú)法用故障樹(shù)的邏輯進(jìn)行建模,故基于CU、DU 冗余模塊的軟件架構(gòu),建立切換邏輯完整的蒙特卡洛模型,其仿真流程見(jiàn)圖10。
圖10 蒙特卡洛仿真流程
初始參數(shù)中包括試驗(yàn)次數(shù)N、試驗(yàn)時(shí)長(zhǎng)T、初始的MTTR和MTBF。本例中的隨機(jī)數(shù)生成服從指數(shù)分布,試驗(yàn)次數(shù)N是一個(gè)經(jīng)驗(yàn)值,需要進(jìn)行合理的選擇。如果選擇的次數(shù)過(guò)少,則仿真結(jié)果的準(zhǔn)確性降低;如果次數(shù)過(guò)多,則計(jì)算量會(huì)大幅度增加。根據(jù)故障樹(shù)分析中計(jì)算得出的數(shù)值,滑動(dòng)步長(zhǎng)以1 h 為單位長(zhǎng)度,則至少需要令N>1010,T>1010h。受限于計(jì)算資源,可通過(guò)增加滑動(dòng)步長(zhǎng)的單位時(shí)間來(lái)獲得理想曲線。
蒙特卡洛與馬爾可夫方法穩(wěn)態(tài)有效度對(duì)比見(jiàn)圖11??梢钥闯觯谑蕿?.2時(shí),蒙特卡洛方法獲得的穩(wěn)態(tài)有效度隨時(shí)間變化曲線,同動(dòng)態(tài)故障樹(shù)方法相比有小幅度下降,約降低0.02。這是由于在故障疊加的場(chǎng)景下導(dǎo)致可靠性降低,驗(yàn)證了這種基于隨機(jī)試驗(yàn)的仿真方法具有更高的準(zhǔn)確性和真實(shí)性,且隨著試驗(yàn)次數(shù)N的增加,其振蕩的幅度也會(huì)越來(lái)越小,逐漸接近理想光滑曲線。相較于故障樹(shù)方法,該方法可以直觀獲得可靠性隨時(shí)間變化曲線,而故障樹(shù)方法只能得到近似的穩(wěn)態(tài)有效度曲線。隨著事件層數(shù)增加,故障樹(shù)曲線誤差將越來(lái)越大,而蒙特卡洛仿真所得到的曲線則不會(huì)出現(xiàn)誤差增大的問(wèn)題[12-13]。
圖11 蒙特卡洛與馬爾可夫方法穩(wěn)態(tài)有效度對(duì)比
圖12 和圖13 仿真了光纖傳輸模塊的MTTR、MTBF變化對(duì)該系統(tǒng)可靠性曲線的影響。光纖傳輸模塊的MTBF增加會(huì)使系統(tǒng)可靠性增強(qiáng),但隨著其MTBF增加,系統(tǒng)可靠性的提高會(huì)逐漸達(dá)到極限。這是因?yàn)榻徊嫒哂嗟倪B接方式使光纖傳輸模塊部分的可靠性得到了大幅度提高,而光纖傳輸模塊的可靠性遠(yuǎn)高于CU、DU 設(shè)備部分,但受限于CU、DU 設(shè)備,系統(tǒng)可靠性不再隨著光纖傳輸模塊可靠性的提高而提高。這也說(shuō)明,此時(shí)系統(tǒng)的可靠性取決于CU、DU 設(shè)備的可靠性。由圖13 可知,系統(tǒng)的可靠性也會(huì)隨著MTTR的增加而減小,因此,基站設(shè)備要求MTTR不大于1 h。
圖12 MTBF變化對(duì)系統(tǒng)可靠性的影響
圖13 MTTR變化對(duì)系統(tǒng)可靠性的影響
采用3 種方法對(duì)比分析,了2 種不同5G-R 接入網(wǎng)基站系統(tǒng)的可靠性指標(biāo)。
1)通過(guò)采用系統(tǒng)靜態(tài)分析初步得到可靠性隨時(shí)間變化的曲線,在不考慮可維修動(dòng)態(tài)場(chǎng)景的情況下,比較了CU、DU 分離組網(wǎng)和BBU 組網(wǎng)的系統(tǒng)可靠性。
2)通過(guò)采用動(dòng)態(tài)故障樹(shù)方法,進(jìn)一步求得可維修動(dòng)態(tài)系統(tǒng)的可靠性參數(shù),結(jié)果更加符合實(shí)際,驗(yàn)證了CU、DU 分離組網(wǎng)的可靠性和優(yōu)越性。在基站部署時(shí)可以根據(jù)不同應(yīng)用場(chǎng)景進(jìn)行選擇。
3)通過(guò)對(duì)比蒙特卡洛仿真法與動(dòng)態(tài)故障樹(shù)分析法,驗(yàn)證試驗(yàn)參數(shù)和試驗(yàn)方法的準(zhǔn)確性和可行性。通過(guò)建立完整的故障切換邏輯模型,驗(yàn)證了交叉冗余連接方式對(duì)于提高系統(tǒng)可靠性的有效性,分析了單元設(shè)備MTTR、MTBF變化對(duì)系統(tǒng)可靠性的影響。采用交叉冗余連接后,系統(tǒng)可靠性主要取決于CU、DU 設(shè)備本身,而傳輸單元的失效率變化對(duì)系統(tǒng)可靠性的影響較小,從而驗(yàn)證了此時(shí)系統(tǒng)的薄弱環(huán)節(jié)是基站設(shè)備本身的可靠性參數(shù)。
本文只考慮了主備CU、DU 同站址場(chǎng)景,擬在未來(lái)研究中,建立異站址冗余部署場(chǎng)景下的可靠性分析模型,進(jìn)行更全面的可靠性分析[14]。