一、引言
5G網(wǎng)絡(luò)的快速發(fā)展推動了超高速、低時延和大連接的需求,而核心網(wǎng)作為5G系統(tǒng)的關(guān)鍵組成部分,負責(zé)數(shù)據(jù)處理、流量管理和資源分配,其性能直接影響用戶體驗和網(wǎng)絡(luò)效率。然而,5G核心網(wǎng)的高動態(tài)性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的監(jiān)控與調(diào)度方法逐漸失效。例如,手動配置的資源分配策略無法快速適應(yīng)流量峰值,而靜態(tài)監(jiān)控手段難以精準預(yù)測潛在故障。近年來,機器學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)優(yōu)化領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。深度學(xué)習(xí)能夠從海量數(shù)據(jù)中提取復(fù)雜模式,強化學(xué)習(xí)則適用于動態(tài)決策場景。
本文提出了一種基于機器學(xué)習(xí)的智能化框架,通過實時性能監(jiān)控與動態(tài)資源調(diào)度,解決5G核心網(wǎng)在高負載和多樣化業(yè)務(wù)場景下的瓶頸問題。本研究的創(chuàng)新點在于將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,構(gòu)建自適應(yīng)模型,實現(xiàn)性能預(yù)測與資源優(yōu)化的閉環(huán)控制。
二、系統(tǒng)架構(gòu)設(shè)計
本文設(shè)計的智能化策略旨在通過機器學(xué)習(xí)技術(shù)優(yōu)化5G核心網(wǎng)的性能監(jiān)控與資源調(diào)度,其系統(tǒng)架構(gòu)包含三個核心模塊:數(shù)據(jù)采集模塊、性能預(yù)測模塊和資源調(diào)度模塊,整體基于云原生技術(shù)實現(xiàn),以確保高擴展性和低耦合性。本文將對各模塊的功能、方法及數(shù)據(jù)支撐進行詳細論述。
(一)數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊負責(zé)從5G核心網(wǎng)的關(guān)鍵網(wǎng)元(如用戶平面功能UPF、會話管理功能SMF)實時獲取性能指標。采集的關(guān)鍵性能指標(KPI)包括吞吐量、時延、丟包率和資源占用率。具體而言,吞吐量以每秒兆比特(Mbps)為單位,時延以毫秒(ms)為單位,丟包率以百分比( % )表示,資源占用率則涵蓋CPU和內(nèi)存使用百分比。假設(shè)某運營商核心網(wǎng)每日產(chǎn)生約500GB的日志數(shù)據(jù),采集模塊每秒從10個網(wǎng)元節(jié)點提取約2000條記錄,數(shù)據(jù)采集頻率為1次/秒。為確保實時性,模塊采用Kafka分布式消息隊列處理高并發(fā)數(shù)據(jù)流,峰值吞吐量可達每秒50萬條記錄。這種設(shè)計能夠支持大規(guī)模5G網(wǎng)絡(luò)的動態(tài)監(jiān)控需求。
(二)性能預(yù)測模塊
性能預(yù)測模塊利用長短期記憶網(wǎng)絡(luò)(LSTM)分析采集到的時序數(shù)據(jù),以預(yù)測未來網(wǎng)絡(luò)負載和潛在性能瓶頸。LSTM通過其記憶單元和門控機制,擅長處理非線性時序數(shù)據(jù),如核心網(wǎng)流量隨時間波動的模式。輸入數(shù)據(jù)包括過去30分鐘的KPI序列(1800個采樣點),外部變量如用戶連接數(shù)(假設(shè)峰值時為50萬)和業(yè)務(wù)類型占比(視頻流占 60% 、物聯(lián)網(wǎng)占 30% 、其他占10% )。輸出為未來5分鐘(300秒)的性能預(yù)測值,如吞吐量預(yù)計從當前 500Mbps 升至 620Mbps ,時延從
10ms 增至 12ms 。模型訓(xùn)練基于某運營商提供的10萬條歷史記錄,訓(xùn)練集和測試集按8:2劃分,損失函數(shù)為均方誤差(MSE),計算公式為:
其中, yi 為真實值, 為預(yù)測值, n 為樣本數(shù)。經(jīng)過50輪迭代,MSE收斂至0.021,預(yù)測準確率達 95% 以上。這種預(yù)測能力為后續(xù)的資源調(diào)度提供了可靠依據(jù)。
(三)資源調(diào)度模塊
資源調(diào)度模塊采用基于深度強化學(xué)習(xí)(DRL)的DDPG(DeepDeterministic PolicyGradient)算法,根據(jù)性能預(yù)測結(jié)果動態(tài)調(diào)整虛擬機或容器的資源分配比例。DDPG算法通過定義狀態(tài)空間、動作空間和獎勵函數(shù)實現(xiàn)優(yōu)化。狀態(tài)空間包括當前資源利用率(CPU 70% 、內(nèi)存 65% )、預(yù)測負載( 620Mbps )和網(wǎng)絡(luò)時延( 12ms );動作空間為資源調(diào)整比例,例如將某網(wǎng)元CPU分配從20% 增至 25% ;獎勵函數(shù)設(shè)計為:
R=0.6×ΔT+0.4×(-ΔL)
其中, ΔT 為吞吐量提升率 為時延增量(ms),權(quán)重反映對吞吐量的優(yōu)先考慮。實驗中,初始資源分配為每個網(wǎng)元平均 20% CPU和 30% 內(nèi)存,經(jīng)過DDPG調(diào)度后,資源利用率提升至CPU 82% 、內(nèi)存 75% ,吞吐量增加 15% ,時延降低至 9ms 。相較于靜態(tài)分配(吞吐量提升 5% ,時延 13ms ),其效果顯著。
系統(tǒng)架構(gòu)依托云原生技術(shù),通過容器化部署(如Docker和Kubernetes)實現(xiàn)模塊間松耦合,支持快速擴展。例如,當網(wǎng)元節(jié)點從10個增至20個時,系統(tǒng)可在5分鐘內(nèi)完成資源重新分配。這種設(shè)計不僅提升了5G核心網(wǎng)的智能化水平,還為高動態(tài)場景提供了魯棒性支持。
三、性能預(yù)測模型
為了實現(xiàn)對5G核心網(wǎng)性能的精準預(yù)測,本文選用長短期記憶網(wǎng)絡(luò)(LSTM)模型處理其時序數(shù)據(jù),因其通過記憶單元和遺忘門、輸入門、輸出門等門控機制,能夠有效捕捉網(wǎng)絡(luò)流量中非線性的長期依賴關(guān)系,特別適用于流量隨時間波動較大的場景。模型的輸入數(shù)據(jù)包括歷史關(guān)鍵性能指標(KPI)和外部變量,KPI涵蓋吞吐量(單位:Mbps)、時延(單位:ms)和丟包率(單位: % ),外部變量則包括用戶連接數(shù)和業(yè)務(wù)類型分布;輸出為未來5分鐘內(nèi)的性能指標預(yù)測值,如預(yù)測吞吐量從 450Mbps 升至 510Mbps ,時延從 8ms 增至 9.5ms 。輸入數(shù)據(jù)的時間窗口設(shè)定為過去20分鐘(1200個采樣點,采樣頻率1次/秒),外部變量假設(shè)某時段用戶連接數(shù)為40萬,業(yè)務(wù)類型分布為視頻流占 55% 、游戲占25% 、網(wǎng)頁瀏覽占 20% 。這種輸入設(shè)計旨在全面反映網(wǎng)絡(luò)狀態(tài)的動態(tài)變化,為預(yù)測提供充足信息[2]。
訓(xùn)練數(shù)據(jù)集來源于某運營商的真實5G核心網(wǎng)日志,包含12萬條樣本,每條樣本記錄了10個網(wǎng)元在一天內(nèi)的KPI數(shù)據(jù),總數(shù)據(jù)量約為 600GB 。數(shù)據(jù)集按7:3劃分為訓(xùn)練集(8.4萬條)和測試集(3.6萬條),時間跨度為30天,其中,高峰時段(每日18:00-22:00)流量占全天 60% ,約360GB。模型以均方誤差(MSE)作為損失函數(shù),公式為:
其中, yi 為真實值, 為預(yù)測值, n 為樣本數(shù)。優(yōu)化過程采用 Adam 優(yōu)化器,初始學(xué)習(xí)率為0.001,批量大小為64,經(jīng)過100輪訓(xùn)練,MSE從初始的0.15逐步收斂至0.018,預(yù)測誤差控制在 4.5% 以內(nèi)。測試集上的具體表現(xiàn)為:吞吐量預(yù)測偏差平均為 ±10Mbps ,時延預(yù)測偏差為 ±0.6ms ,丟包率偏差為 ±0.2% 。為進一步驗證模型魯棒性,在模擬流量突增場景(用戶連接數(shù)從40萬激增至60萬)下,預(yù)測準確率仍維持在 94% 以上,顯示出其對異常波動的適應(yīng)性。為直觀展示模型性能,表1提供了訓(xùn)練與測試的關(guān)鍵指標。
表1訓(xùn)練與測試的關(guān)鍵指標
LSTM模型的高準確性得益于其對時序特征的深度挖掘,如對工作日流量高峰(18:00)與周末低谷(凌晨2:00)的模式差異識別。相較于傳統(tǒng)ARIMA模型(誤差約 8% ,MSE為0.035),LSTM在非線性場景下的預(yù)測能力提升約 40% 。模型部署后,每分鐘可處理5000條預(yù)測請求,推理耗時僅為 20ms ,滿足實時性要求。這種性能預(yù)測方法為5G核心網(wǎng)的資源優(yōu)化奠定了堅實基礎(chǔ),尤其在動態(tài)負載管理中展現(xiàn)出顯著優(yōu)勢[3]。
四、資源調(diào)度算法
資源調(diào)度采用基于深度強化學(xué)習(xí)的DDPG算法,其設(shè)計結(jié)合了策略梯度法與Q學(xué)習(xí)的優(yōu)點,通過Actor-Critic架構(gòu)處理連續(xù)動作空間,非常適合5G核心網(wǎng)中資源分配的動態(tài)調(diào)整需求。DDPG算法的狀態(tài)空間定義為當前資源利用率(例如CPU占用率 45% 、內(nèi)存使用率 60% )、預(yù)測負載(未來5分鐘內(nèi)預(yù)計吞吐量達 600Mbps )和網(wǎng)絡(luò)時延(平均 9ms );動作空間則為調(diào)整各網(wǎng)元的資源分配比例,如將某網(wǎng)元CPU占比從30% 提升至 40% ,內(nèi)存從 50% 增加至 65% ;獎勵函數(shù)設(shè)計為綜合吞吐量提升率與時延降低率的加權(quán)和,公式為:
表2DDPG與基線算法在不同負載下的表現(xiàn)
其中, ΔT 為吞吐量增量, T 為基準吞吐量, ΔD 為時延降幅, D 為基準時延,權(quán)重 w1=0.6 、 w2=0.4 ,在鼓勵高效資源使用的同時兼顧低時延。調(diào)度模塊與性能預(yù)測模塊交互,構(gòu)成預(yù)測-決策-反饋的閉環(huán)機制:預(yù)測模塊提供負載預(yù)估,DDPG據(jù)此輸出資源調(diào)整策略,執(zhí)行后系統(tǒng)收集實際性能數(shù)據(jù)(如吞吐量升至 620Mbps 時延降至 8.5ms ),并據(jù)此更新模型參數(shù),使策略適應(yīng)流量波動。
算法訓(xùn)練基于模擬5G核心網(wǎng)環(huán)境,數(shù)據(jù)集包含15萬條記錄,覆蓋10個網(wǎng)元在45天內(nèi)的運行狀態(tài),總數(shù)據(jù)量約 800GB 。其中,高峰時段(每日17:00-21:00)資源利用率平均達 75% ,低谷時段(凌晨1:00-5:00)僅為20% 。訓(xùn)練采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)為0.0001,探索噪聲遵循Omstein-Uhlenbeck過程,標準差為O.2。經(jīng)過200 輪迭代,累計獎勵從初始的-5.2提升至 18.7[4] 。測試階段選取3萬條獨立樣本,結(jié)果顯示DDPG在資源利用率從 50% 突增至 85% 時,能將吞吐量提升 12% (從 550Mbps 至616Mbps),時延降低 10% (從 10ms 至 9ms ),優(yōu)于傳統(tǒng)靜態(tài)調(diào)度(提升 7% ,時延降低 5% )。為直觀對比性能,表2展示了DDPG與基線算法在不同負載下的表現(xiàn)。
DDPG的優(yōu)勢在于其動態(tài)適應(yīng)性。例如,在某購物節(jié)流量激增場景下(用戶連接數(shù)從50萬升至80萬),算法迅速調(diào)整邊緣網(wǎng)絡(luò)資源占比(CPU從 35% 增至50% ),使吞吐量從 700Mbps 穩(wěn)定至 780Mbps ,時延維持在 8ms 以內(nèi)。而傳統(tǒng)方法因固定分配導(dǎo)致丟包率升至2.5% 。部署后,DDPG每秒處理1000次調(diào)度請求,單次決策耗時僅 15ms ,能夠滿足實時性需求。這種閉環(huán)優(yōu)化機制顯著提升了核心網(wǎng)的資源效率,尤其在高并發(fā)場景下展現(xiàn)出優(yōu)于傳統(tǒng)方法的性能。
五、結(jié)束語
綜上所述,本文提出了一種基于機器學(xué)習(xí)的智能化策略,通過性能預(yù)測與資源調(diào)度的協(xié)同優(yōu)化,顯著提升了5G核心網(wǎng)的運行效率。該方法不僅降低了運維復(fù)雜度,還為未來6G網(wǎng)絡(luò)的智能化演進奠定了基礎(chǔ)。后續(xù)研究可進一步探索多-agent強化學(xué)習(xí)在分布式核心網(wǎng)中的應(yīng)用,以應(yīng)對更大規(guī)模的網(wǎng)絡(luò)環(huán)境。
作者單位:嚴國忠 吳興國 于欣越中國電信股份有限公司安徽分公司
參考文獻
[1]田猛.面向分布式核心網(wǎng)的異常檢測系統(tǒng)的設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2024.
[2]張偉露,吉立新,劉樹新,等.IBNAD:一種基于交互的5G核心網(wǎng)網(wǎng)絡(luò)功能異常檢測模型[J].信息安全學(xué)報,2024,9(03):94-112.
[3]金仙美.面向5G核心網(wǎng)內(nèi)生智能的業(yè)務(wù)識別算法研究[D].西安電子科技大學(xué),2023.
[4]蘭蒙.基于機器學(xué)習(xí)的5G-R網(wǎng)絡(luò)切片資源調(diào)度與接人控制算法研究[D].上海應(yīng)用技術(shù)大學(xué),2023.