李延斌(中國聯(lián)通研究院,北京 100176)
隨著5G 商用步伐加快,5G 網絡進入實際部署及商用階段,網絡面臨的各種安全問題和隱患也越來越被重視。一方面,用戶及產業(yè)對網絡的要求越來越高,對網絡的依賴性越來越強,使得網絡承擔了更多的使命和責任;另一方面,運營商自身的建設投資及運維壓力較之前顯著增大。如何既能保證業(yè)務體驗,又能降低成本,既能保證網絡的安全可靠性,又可以靈活部署,是當前運營商面臨的重大課題之一。
5G 核心網容災技術的研究本質上是對網絡運營成本和網絡服務質量的平衡把控,也是在核心網網絡虛擬化之后,對新型網絡安全可靠性的探索。與此同時,對運營商網絡安全和健壯性的考量也不僅僅要求核心網應用層網元具備相應功能流程,而是一種基于網絡整體的綜合能力評估,其中可能包括對網絡整體短板的判斷、對網絡沖擊的防御機制、對虛擬化網絡硬件層和虛擬層的容災能力評估、對其他異常場景的模擬和預判等。
由于5G 網絡架構相對于EPC、IMS 網絡,引入了服務化架構、計算與存儲分離、控制面和用戶面分離。基于這些新特性,5G容災方案具有如下特性和優(yōu)勢。
a)服務化架構。服務化架構下,NF 網元容災可以利用NRF的注冊和發(fā)現(xiàn)機制實現(xiàn),具體如下。
(a)服務注冊時包含容災節(jié)點信息。
(b)NRF 在服務發(fā)現(xiàn)時向消費者提供生產者列表的同時包含容災節(jié)點。
(c)消費者向NRF訂閱生產者狀態(tài)變更通知。
(d)NRF輔助通知生產者退出服務。
b)計算與存儲分離。5GC 核心網NF 無狀態(tài)設計采用計算與存儲分離的技術,NF的狀態(tài)數(shù)據保存在外部UDSF 中。UDSF 實現(xiàn)數(shù)據層容災,將NF 保存的數(shù)據在USDF 容災節(jié)點間同步。發(fā)生容災切換后,NF 備用節(jié)點從USDF獲取數(shù)據,進行業(yè)務恢復。
c)控制與轉發(fā)分離。5G 是基于控制面和用戶面分離架構(CUPS),SMF的用戶上下文等狀態(tài)數(shù)據存儲在UDSF 中,由UDSF 對數(shù)據進行備份處理。在某SMF故障后,由其備份SMF 從UDSF 獲取上下文狀態(tài)數(shù)據并繼續(xù)處理業(yè)務。
同種類型網元的容災方式也有一定相似性,如:
互聯(lián)互通:NRF、NEF、NSSF,考慮1+1 主備或者負荷分擔容災方式。
接入管理:AMF、PCF、SMF、AUSF,建議組POOL且多DC部署。
存儲類:UDM、UDR、CDB(UDSF),建議采用組POOL或者負荷分擔等方式,并要求數(shù)據實時同步。
AMF 提供POOL/SET(NF SET)容災方式。同一個Region內,同一個Set的AMF對應一個POOL(見圖1)。
正常情況下,所有話務由POOL/SET 內的所有AMF 共同承擔。用戶注冊時,RAN 按一定規(guī)則(如容量/權重)選擇AMF 完成用戶注冊及執(zhí)行后續(xù)業(yè)務流程。
圖1 AMF容災
AMF 進入工作狀態(tài)后,主動向NRF 進行注冊(通過Nnrf_NFManagement_NFRegister 攜帶GUAMI List 以及各GUAMI 對應的備份AMF),并根據配置周期定時發(fā)送與NRF 之間的心跳消息(通過Nnrf_NFManagement_NFUpdate)。NRF 通過此心跳消息檢測以及維護AMF 的工作狀態(tài)。當一定時間未接收心跳消息后,NRF將此AMF狀態(tài)設置為不可用,并向訂閱了此AMF狀態(tài)的CP NF 發(fā)送AMF 狀態(tài)通知消息,其他CP NF 由此獲知AMF故障,并觸發(fā)后續(xù)故障處理相關流程。
當任何AMF 故障宕機時,其新話務由POOL/SET內其他AMF共同分擔。
當任何AMF 故障宕機時,其原承擔話務由NGRAN 或CP NF 選擇其備份AMF 接管繼續(xù)處理;備份關系以GUAMI 為粒度體現(xiàn),根據配置,其原承擔話務可以由多個備份AMF(按GUAMI 區(qū)分)共同接管并分擔處理。
AMF 的用戶上下文等狀態(tài)數(shù)據存儲在UDSF 中,由UDSF 對數(shù)據進行備份處理。在某AMF 故障后,由其備份AMF從UDSF獲取上下文狀態(tài)數(shù)據并繼續(xù)處理業(yè)務。
SMF 提供POOL/SET(NF SET)容災方式。一組SMF 組成一個POOL/SET,為一個業(yè)務區(qū)域或一組業(yè)務區(qū)域的用戶提供服務(見圖2)。
正常情況下,所有話務由POOL/SET 內的所有SMF 共同承擔。AMF 按一定規(guī)則(如SMF 的容量權重,運行負荷)分擔選擇SMF執(zhí)行業(yè)務流程。
圖2 SMF容災
SMF 進入工作狀態(tài)后,主動向NRF 進行注冊(通過Nnrf_NFManagement_NFRegister),并根據配置周期定時發(fā)送與NRF 之間的心跳消息(通過Nnrf_NFManagement_NFUpdate)。NRF 通過此心跳消息檢測以及維護SMF 的工作狀態(tài)。當一定時間未接收心跳消息后,NRF 將此SMF 狀態(tài)置為不可用,并向訂閱了此SMF 狀態(tài)的CP NF 發(fā)送SMF 狀態(tài)通知消息,其他CP NF 由此獲知SMF 故障,并觸發(fā)后續(xù)故障處理相關流程。
當任何SMF 故障宕機時,其新話務由POOL/SET內其他SMF共同分擔。
當任何SMF 故障宕機時,其原承擔的會話,可通過會話遷移的方式由其備份SMF 繼續(xù)處理。其他NF如AMF、PCF等選擇其備份SMF繼續(xù)處理會話。
SMF 的用戶上下文等狀態(tài)數(shù)據存儲在UDSF 中,由UDSF 對數(shù)據進行備份處理。在某SMF 故障后,由其備份SMF 從UDSF 獲取上下文狀態(tài)數(shù)據并繼續(xù)處理業(yè)務。
UPF 提供POOL 容災方式。一組UPF 組成一個POOL,由SMF 進行管理,負責一個或一組業(yè)務區(qū)域(見圖3)。
圖3 UPF容災
正常情況下,所有話務由POOL 內所有UPF 共同承擔。SMF按一定規(guī)則分擔選擇UPF執(zhí)行業(yè)務流程。
正常工作狀態(tài),SMF 通過PFCP 接口的狀態(tài)檢測消息Heartbeat Request/Heartbeat Response 進行UPF 狀態(tài)的檢測與維護,當一定時間未正常接收到心跳響應后,SMF 將此UPF 狀態(tài)置為故障,同時根據配置啟動UPF的故障處理流程。
當任何UPF 故障宕機時,由SMF 選擇UPF POOL內其他的UPF執(zhí)行會話流程。
NRF提供1+1互備容災方式(見圖4)。
圖4 NRF容災
在正常情況下,所有話務由2 個NRF 共同承擔。對端NF(例如AMF、SMF)優(yōu)選本地NRF 執(zhí)行相關業(yè)務流程;只有當此NRF 故障宕機時,對端NF 會將業(yè)務發(fā)送給另一個NRF進行處理。
2臺互為備份的NRF設備之間支持數(shù)據實時自動同步,接收到NF 數(shù)據的NRF 在完成本設備數(shù)據更新后,主動將更新數(shù)據同步到另一臺NRF,確保2臺設備的數(shù)據完全一致。
UDM 容災采用組POOL 的方式,此時業(yè)務查詢可采用負荷分擔方式。UDM 用戶數(shù)據保存在UDR 中,要求UDR節(jié)點間數(shù)據同步可靠性高(見圖5)。
圖5 UDM容災
正常情況下,所有話務由POOL 內的所有UDM 共同承擔。用戶請求時,消費者NF 按一定規(guī)則分擔選擇UDM完成用戶鑒權及執(zhí)行后續(xù)業(yè)務流程。
UDM 進入工作狀態(tài)后,主動向NRF 進行注冊(通過Nnrf_NFManagement_NFRegister 攜帶UDM Group ID。UDM Group ID 用于索引可支持相同SUPI 集合的一組UDM),并根據配置周期定時發(fā)送與NRF 之間的心跳消息(通過Nnrf_NFManagement_NFUpdate)。NRF通過此心跳消息檢測以及維護UDM的工作狀態(tài)。當一定時間未接收心跳后,NRF將此UDM狀態(tài)置為不可用,并向訂閱了此UDM 狀態(tài)的CP NF 發(fā)送UDM 狀態(tài)通知消息,其他CP NF 由此獲知UDM 故障,并觸發(fā)后續(xù)故障處理相關流程。
當任何UDM 故障宕機時,其新話務由POOL 內其他UDM共同分擔。
當任何UDM 故障宕機時,其原承擔話務由CP NF選擇其備份UDM 接管繼續(xù)處理。其原承擔話務可以由多個備份UDM共同接管并分擔處理。
如圖6 所示,5G 網絡采用分層部署的架構,劃分區(qū)域DC、本地DC 和邊緣DC,基于5G 網元特性及業(yè)務需求將5GC、RAN部署在各個DC中。
圖6 容災架構
區(qū)域DC 出于容災考慮,DC 站點間根據不同網元的特性,利用POOL組網、1+1負荷分擔、1+1主備等NF級容災機制保證業(yè)務組網可靠性,當一個數(shù)據中心發(fā)生故障后,通過VNF 內軟件模塊的遷移來實現(xiàn)在異地的業(yè)務恢復;邊緣DC 主要用于uRLLC 業(yè)務的U 面接入,以做到流量本地轉發(fā),達到時延最短。由于邊緣DC 承載的是uRLLC 業(yè)務,對時延要求高,統(tǒng)一考慮站內容災方式;本地DC 用于接入各地(市)的業(yè)務流,利用現(xiàn)有網絡資源(如地(市)Internet 出口、CDN 等),將媒體面接入網元UPF部署在本地DC,減少控制面的業(yè)務時延;DC 內則考慮通用硬件/虛擬化層池組化,利用VNF池化/N+M備份實現(xiàn)類似板卡級備份。
a)部署方案。大區(qū)DC 采用雙DC 節(jié)點建設,保證容災和可靠性;5GC 商用建設時采用融合版本,兼容2G/3G/4G/5G 接入,業(yè)務開通大區(qū)集中;平滑遷移用戶數(shù)據至大區(qū)DC融合UDM/UDR,保證數(shù)據安全可靠。
b)部署時間點。核心網容災產品成熟時間點同SA 架構,容災主要在部署層面實施,部分容災流程需進一步驗證。
c)引入建議。運營商在5G 部署階段應緊密結合部署策略,按省部署及大區(qū)部署等方式分別給出容災策略。部署應考慮NFV 架構及通信云建設方式以及容災方案,減少對核心網的影響和投資。
SA 架構容災與網絡部署架構密切相關,不同組網不同網元有不同容災方案。國際標準對網元容災方案及實現(xiàn)流程不做詳細規(guī)定,各個廠家實現(xiàn)方式、機制及流程有較多不同,這就給運營商部署帶來很大影響及風險。如何既能夠滿足5G 核心網商用部署要求及策略,又能滿足各種異廠家組合場景下的現(xiàn)網環(huán)境容災備份,是網絡部署中極難解決的問題之一。
另一方面,5G 網絡架構引入了服務化架構、計算與存儲分離、控制面和用戶面分離,需要綜合考慮并利用新技術實施容災,而不僅僅依靠某一層網絡或者某一種技術,充分利用技術的發(fā)展帶來的安全性和可靠性,而不是被更加復雜的網絡所束縛。
總之,5G 核心網容災技術面臨的問題和困難比想象的要大的多,在后續(xù)網絡部署及運營階段還會遇到各種問題,需要持續(xù)關注。