[蔡子華 陳豐 劉子建 郭春旭]
為滿足行業(yè)客戶差異化的業(yè)務需求,三大電信運營商均早在2020 年就推出了各具特色的5G 專網解決方案。經過產業(yè)各方的協(xié)同推進,目前5G 專網的商用落地和規(guī)模部署已取得顯著成效。從5G 專網架構來看,多數(shù)行業(yè)企業(yè)選用了“混合專網”的方案,即復用運營商大網無線資源,并將5G 用戶面下沉部署至企業(yè)園區(qū),與運營商中心網絡5G 控制面聯(lián)動。這種方案的收益在于,一方面運營商可充分利用已建的大網資源,快速部署園區(qū)專網業(yè)務,另一方面企業(yè)用戶可收獲業(yè)務低時延傳輸、數(shù)據(jù)不出園區(qū)等服務體驗。但是,隨著5G專網從行業(yè)外圍進入核心生產環(huán)節(jié),網絡可用性開始與生產成本及效益高耦合。比如,煤礦采煤設備機械臂的應用層設有心跳監(jiān)測機制,一旦5G 專網斷鏈導致應用層中斷超過300 ms,機械臂將自動停止并且需要人工恢復,進而將影響生產效率。為此,煤礦、工業(yè)制造、電力等一批自身主導權強、議價能力高的行業(yè)客戶出于生產安全、網絡自主可控等考慮,相繼提出5G 專網高可用能力升級訴求。
5G 網絡是由終端設施、無線接入網、傳輸網、核心交換網及相應的運行支撐系統(tǒng)組成的復雜綜合系統(tǒng),影響其可用性的因素包括設備/節(jié)點可靠性、組網設計、網絡的組織和維護管理,以及機房、配套動力等網絡所依存的環(huán)境條件等。對于運營商而言,5G 公網面向的是差異化的用戶需求,且網絡建設受到成本的制約,因而其可用性設計更側重于核心網、傳輸網核心層等一旦發(fā)生故障則可能大范圍影響用戶使用的組成部分。對于企業(yè)而言,采用5G 混合專網模式意味著對成本更為敏感,但由于追求網絡端到端可用性,其在局部的可用性要求上又高于5G 公網,如無線網側。這就要求重點關注設備/節(jié)點可靠性和組網設計,以實現(xiàn)網絡可用性的最優(yōu)化和成本合理性的平衡。
典型的5G 混合專網架構如圖1 所示,其核心痛點包括外部網絡故障或斷鏈對園區(qū)網絡的影響,以及園區(qū)網絡內部設備的故障。
圖1 典型5G 混合專網架構及可能的故障模式
外部網絡故障或斷鏈對園區(qū)網絡的影響可進一步細分為運營商中心控制面網元故障、企業(yè)園區(qū)與中心網元的傳輸中斷兩種情況。對于前者,運營商通常通過部署雙DC,多網元形成網元資源池進行業(yè)務容災的方式來保證中心網元的高可用性,其發(fā)生故障的概率較小。更可能發(fā)生的是后者??紤]到可能存在因物業(yè)阻撓施工導致傳輸實際未成環(huán)、光纜因施工被挖斷等情形,一旦傳輸中斷,此時園區(qū)與運營商中心網絡之間的N2 和N4 接口將同時中斷,此時會導致企業(yè)園區(qū)所有業(yè)務中斷,業(yè)務無法接入。
園區(qū)網絡內部設備故障可能表現(xiàn)為終端側CPE 故障、無線網側基站主控板和基帶板等關鍵器件故障、園區(qū)用戶面網元故障等。對此,通常通過部署多套設備進行容災解決,但也要考慮成本的合理性進行差異化的組網設計。
5G 端到端專網可以視為由終端、無線網、傳輸網和核心網組成的獨立串聯(lián)系統(tǒng)。借鑒RBD(Reliability Block Diagram,可靠性框圖)模型,對于串聯(lián)系統(tǒng),所有子系統(tǒng)均正常時才能保證系統(tǒng)正常運行。因此,5G 專網的可用度A 為
其中,AUE、AAN、ATN和ACN分別為終端、無線網、傳輸網和核心網子系統(tǒng)的可用度。
可見,為了使企業(yè)定制的5G 專網達到相應的可用度要求,必須針對終端、無線網、傳輸網和核心網的組網進行增強設計。
對于未內置5G 通信模塊的終端,通常采用CPE 轉接的方式,也即終端設備通過RS485 等接口直接接入CPE,再經由CPE 接入5G 網絡??紤]到無線鏈路的脆弱性,傳輸過程可能存在丟包,或出現(xiàn)偶發(fā)的大時延問題,導致業(yè)務中斷??梢酝ㄟ^增加冗余無線鏈路,無線鏈路互為備份,從而保證單鏈路丟包或故障時業(yè)務不中斷。例如,增設AR 路由器,下掛原有的一個或多個終端設備。AR路由器與雙CPE 橋接。當AR 路由器接收到下掛終端的上行數(shù)據(jù)時,將數(shù)據(jù)經由主用鏈路發(fā)送至對端的主用CPE并接入5G 專網。一旦AR 路由器偵測到主用鏈路故障或信號傳輸質量不佳,將自動進行倒換,把數(shù)據(jù)經由備用鏈路發(fā)送至對端的備用CPE 并接入網絡。這樣便實現(xiàn)了發(fā)送端的5G 雙鏈路備份。此外,通過在網關設備內置雙5G通信模塊以便接入不同5G 頻段或網絡,也是可行的方法。其本質也是增加冗余無線鏈路。
無線網側的增強設計可以從設備可用性和鏈路可用性入手,通過冗余備份來保障整體的可用性。
3.2.1 關鍵部件冗余備份
BBU 支持的單板主要包括主控傳輸板、基帶處理板、風扇模塊、電源模塊、環(huán)境監(jiān)控單元等。其中,主控傳輸板主要為BBU 內的其他單板提供信令處理和資源管理功能,并對外提供傳輸、LMT 等接口以實現(xiàn)信號傳輸、配置管理和設備管理等功能。基帶處理板主要完成上下行數(shù)據(jù)的基帶處理功能,并提供與射頻模塊通信的CPRI 或eCPRI 接口。
在常規(guī)配置下,BBU 僅配置一塊主控傳輸板。若該單板故障,則將導致基站長時間業(yè)務中斷。對此,可考慮配置兩塊型號相同的主控傳輸板進行冷備份。在初始配置時,當BBU 上電啟動后,如果兩塊主控傳輸板均為正常狀態(tài),BBU 將通過主備競爭決定主用單板。如果其中一塊單板不在位或為異常狀態(tài),則另一塊正常工作的單板直接競爭為主用單板。隨后,主備主控傳輸板之間比較文件差異,以主用單板為基準,同步所有差異文件大備用單板。所同步的文件僅包括配置數(shù)據(jù)、軟件、日志等靜態(tài)數(shù)據(jù)。當主用單板出現(xiàn)嚴重故障時,而備用單板在位且鏈路正常,BBU 將自動倒換到備用單板,以此保證基站能繼續(xù)正常運行。試點數(shù)據(jù)表明,從主控傳輸板倒換到基站業(yè)務恢復正常的時間與下帶的射頻模塊數(shù)量有關。對常規(guī)的三小區(qū)室外基站,其業(yè)務恢復的預期時間為4~7 min。
當BBU 的一塊基帶板出現(xiàn)故障時,同樣直接影響在該單板上部署的基站小區(qū)業(yè)務。對此可考慮每個AAU/RRU 同時與兩塊基帶板相連,形成熱備份環(huán)形組網。這種組網方式,環(huán)上有且只有一個AAU/RRU。BBU 通過其中一塊基帶板建立操作維護鏈路,但用戶面數(shù)據(jù)會同時在兩條CPRI 或eCPRI 鏈路上傳輸,且傳輸內容相同。這樣,當與AAU/RRU 建立操作維護鏈路的基帶板故障時,環(huán)上的AAU/RRU 業(yè)務會中斷并迅速切換到另一塊基帶板重新建立通信。
3.2.2 無線鏈路冗余備份
考慮到無線信道易受環(huán)境的影響,尤其是在工業(yè)現(xiàn)場等復雜環(huán)境下,存在高頻的電氣設備或其他干擾源,可能對5G 特定頻段造成較嚴重的干擾。因此,在重要的24 h 不間斷生產環(huán)境下,5G 專網采用雙頻覆蓋是有必要的。對于室外基站,可在相同站址設置雙倍套數(shù)的AAU/RRU,并采用不同的授權頻段進行信號覆蓋。AAU/RRU上聯(lián)至不同的BBU 上或者同一BBU 的不同基帶板上,并設置為不同的邏輯小區(qū)。當某一頻段的小區(qū)無線鏈路受干擾或故障時,終端可通過異頻重選駐留到另一頻段的小區(qū)上。對于室分系統(tǒng),前述思路仍然適用。但考慮到室內布點空間受限且數(shù)字室分的遠端單元具備多頻支持能力,也可以考慮交織覆蓋的方式,即通過合理控制遠端單元覆蓋范圍,使其同頻不同點位交叉冗余覆蓋(部分覆蓋區(qū)域重疊),交叉的遠端單元配置為同一邏輯小區(qū)。這樣,即使某一遠端單元發(fā)生故障,與其相鄰并有一定范圍覆蓋冗余的另一遠端單元仍可提供有效信號覆蓋,終端可正常駐留而不需要進行同頻切換。
3.2.3 無線高可用組網設計
根據(jù)關鍵部件和無線鏈路冗余備份的思路,可以組合設計出多種組網方案。綜合考慮技術可行性、方案實用性和性能表現(xiàn)等因素,圖2 給出了3 種典型的無線高可用組網方案。
圖2 5G 無線高可用典型組網方案
運營商傳輸網一般采用分層組網,包括邊緣接入層、匯聚層和核心層。邊緣接入層設備采用環(huán)形組網,分別與匯聚層節(jié)點相連。匯聚層設備雙歸到核心層設備。核心層設備則多采用全互連或半互連方式。傳輸網整體具備高可用特性。在不考慮非標準設計的情況下,傳輸網側的故障點更多可能出現(xiàn)在BBU 與接入層路由器的傳輸鏈路上。對此,可采用IP 主備路由的方案,即BBU 主控傳輸板上兩個物理傳輸接口經過層二網絡連接到主備網關路由器上。BBU 和主備網關網路由器間啟用BFD(Bidirectional Forwarding Detection,雙向轉發(fā)檢測)進行鏈路狀態(tài)檢測,并將BFD狀態(tài)關聯(lián)到其路由狀態(tài),適時觸發(fā)主備路由倒換。對于到基站的返程路由,主備網關路由器也各自配置備份路由,在某個路由發(fā)生故障時,網關路由器能從備份路由把返程報文返回給基站。
在圖3 所示5G 混合專網中,用戶面UPF 下沉至企業(yè)園區(qū)部署。對此,可以通過園區(qū)UPF 與運營商中心UPF 的聯(lián)動來保障網元級的可用性,也即園區(qū)UPF 和中心UPF 二者規(guī)劃的企業(yè)業(yè)務規(guī)則保持一致,且中心UPF通過專線等形式保證可訪問園區(qū)應用服務器。當園區(qū)UPF發(fā)生故障時,SMF 基于N4 接口探測實時感知故障,將刪除園區(qū)UPF,保留用戶會話,此時終端通過中心UPF 繼續(xù)訪問本地應用。但這一方案并未解決外部網絡傳輸中斷對園區(qū)業(yè)務的影響。當與大網的N4 鏈路故障,或N2/N4鏈路同時故障時,如園區(qū)UPF 正常,僅可提供對連接態(tài)用戶的業(yè)務保活;如園區(qū)UPF 也故障,則所有業(yè)務將中斷。同理,如果園區(qū)部署2 套主備的UPF,也僅能解決園區(qū)單個UPF 故障時業(yè)務迂回至中心UPF 轉發(fā)的問題,但仍無法解決N4 或N2/N4 斷鏈的問題帶來的影響。
圖3 5G 混合專網核心網增強方案
對此,可考慮的方案是,在通過運營商中心網絡5G控制面網元提供園區(qū)用戶信令面處理功能的同時,在園區(qū)本地部署應急控制面AMF/SMF/UDM 網元功能,且中心網絡UDM 定期將用戶簽約數(shù)據(jù)同步給園區(qū)UDM,如圖3所示。
當企業(yè)園區(qū)與中心網絡的傳輸未中斷時,用戶通過中心網絡的AMF/SMF/UDM 鑒權接入,中心網絡的UDM基于切片、DNN 或IMSI 號段定期導出園區(qū)用戶數(shù)據(jù)文件并上傳至外置的SFTP 服務器,園區(qū)UDM 主動從SFTP服務器下載對應的用戶數(shù)據(jù)文件并加載生效。
當企業(yè)園區(qū)與中心網絡的傳輸中斷時,對于新開機用戶,終端接入時,園區(qū)5G 基站選擇園區(qū)應急AMF、SMF接入,其業(yè)務無影響。對于當前出于連接態(tài)的在線業(yè)務用戶而言,園區(qū)5G 基站保持連接態(tài),中心網絡的AMF 和SMF 以及園區(qū)UPF 均保持用戶連接態(tài),業(yè)務也無影響。而對于已注冊但因終端移動或其他原因而觸發(fā)信令交互的用戶,園區(qū)5G 基站將選擇應急AMF 處理,AMF 引導用戶重新注冊,業(yè)務快速恢復。
由上述分析可知,通過在園區(qū)本地部署應急AMF/SMF/UDM,能夠有效應對N4 或N2/N4 斷鏈的問題。不難推導,為保障園區(qū)用戶業(yè)務進一步的可用性,可以在企業(yè)園區(qū)同時部署兩套應急AMF/SMF/UDM 和兩套UPF。兩套AMF/SMF/UDM 可以設置為負荷分擔的模式,而兩套UPF 可以按需設置為負荷分擔模式或者主備冗余模式。
根據(jù)前述關于終端、無線網、傳輸網和核心網的增強設計,可以組合出多種5G端到端組網方案。在實際應用時,應遵循差異化原則,針對不同企業(yè)園區(qū)提供差異化的高可用組網設計,為用戶提供合適的方案。具體有以下原則可供部署時參考。
其一,組網設計應充分考慮成本制約因素以及基于場景的容災保障范圍。
以BBU 基帶板熱備份為例,假設基帶板可用度為B,考慮到實際上保護倒換動作不可能100%成功,設定基帶板倒換成功率為Sw,則1+1 基帶板間主備備份系統(tǒng)的可用度應為主用基帶板可用概率與主用基帶板失效轉換到備用基帶板的可用概率之和,即有
從性能角度而言,隨著基帶板冗余度的提升,可用性相應提高。但從成本角度看,支持6 小區(qū)的基帶板單價約占BBU(含機框、安裝套件、主控板、基帶板、回傳光模塊、時鐘套件、載波軟件包等關鍵部件)整體單價的30% 至40%。如果在整個企業(yè)園區(qū)批量應用基帶板主備方案,將給運營商或用戶帶來明顯的成本攀升壓力。在成本制約的前提下,建議優(yōu)先考慮針對覆蓋關鍵產線區(qū)域的5G 基站實施冗余備份方案,而非針對全園區(qū)基站。
其二,應綜合考慮整體部署并分解可用性指標到5G專網的各組成部分。在端到端可用性已達一定程度(例如99.99%)時,針對局部的增強設計可能對端到端可用性的提升作用不明顯。
其三,在組網設計時,將端到端網絡可用性的提升程度轉化為對于因業(yè)務中斷導致的經濟損失的止損能力,對于企業(yè)用戶而言更加可感知。
工業(yè)控制等業(yè)務場景對時延、抖動和可用性的要求極其嚴苛。在為這類場景的企業(yè)定制5G 專網時需重點考慮網絡高可用性的實現(xiàn)。本文討論了5G 高可用專網的組網設計及方案的選擇原則。在實際應用中,為了進一步提升5G 專網的可用性,除了通過冗余組網設計使得系統(tǒng)即使發(fā)生故障其功能也不受影響外,還需通過簡化硬件設計、提升生產工藝等方法降低5G 系統(tǒng)軟硬件的故障率,以及通過故障檢測、診斷、隔離和恢復機制來實現(xiàn)因5G 系統(tǒng)故障導致功能受損時能夠快速恢復。