摘要:隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)算法已在解決許多領(lǐng)域的復(fù)雜問(wèn)題中取得了顯著的成果,包括金融、醫(yī)療、交通和零售等領(lǐng)域。在網(wǎng)絡(luò)阻塞控制中,基于機(jī)器學(xué)習(xí)的計(jì)算模型可為復(fù)雜通信網(wǎng)絡(luò)的阻塞控制提供一個(gè)新的解決方案。與基于規(guī)則的傳統(tǒng)擁塞控制算法相比,機(jī)器學(xué)習(xí)方法能從歷史經(jīng)驗(yàn)中進(jìn)行學(xué)習(xí)并做出預(yù)測(cè)決策,其表現(xiàn)優(yōu)于傳統(tǒng)方法。本文首先對(duì)機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)阻塞領(lǐng)域的應(yīng)用進(jìn)行梳理,之后重點(diǎn)探討了其在地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信網(wǎng)絡(luò)阻塞控制中的應(yīng)用及挑戰(zhàn),最后對(duì)基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)阻塞方法的應(yīng)用前景進(jìn)行了展望。
關(guān)鍵詞:通信;機(jī)器學(xué)習(xí);阻塞控制;復(fù)雜通信網(wǎng)絡(luò)
一、引言
隨著數(shù)據(jù)中心、WiFi、5G、6G和衛(wèi)星通信等應(yīng)用的發(fā)展,網(wǎng)絡(luò)阻塞成為普遍問(wèn)題。其會(huì)導(dǎo)致網(wǎng)絡(luò)性能低下,影響通信速度和可靠性。網(wǎng)絡(luò)擁塞控制(CC)是提高傳輸效率的重要技術(shù),通過(guò)監(jiān)控和調(diào)整網(wǎng)絡(luò)狀態(tài)以保持網(wǎng)絡(luò)暢通。網(wǎng)絡(luò)擁塞時(shí),通過(guò)減少數(shù)據(jù)傳輸量來(lái)避免丟包和延遲,通常在網(wǎng)絡(luò)層或傳輸層實(shí)現(xiàn)。互聯(lián)網(wǎng)傳輸協(xié)議是基于分組交換的最優(yōu)轉(zhuǎn)發(fā),端到端控制為應(yīng)用程序提供可靠服務(wù)[1]。當(dāng)主機(jī)通過(guò)網(wǎng)絡(luò)發(fā)送過(guò)量數(shù)據(jù)包時(shí),需進(jìn)行CC以提高網(wǎng)絡(luò)吞吐量,同時(shí)避免過(guò)載導(dǎo)致的數(shù)據(jù)丟包,并確保端到端會(huì)話的公平性。傳統(tǒng)CC算法分為兩種類型:端到端(End-to-End)型網(wǎng)絡(luò) CC和網(wǎng)絡(luò)輔助(Network-Assisted)型網(wǎng)絡(luò) CC。
在端到端擁塞控制領(lǐng)域,有多種研究關(guān)注TCP協(xié)議在無(wú)線網(wǎng)絡(luò)中對(duì)丟包原因的識(shí)別策略。同時(shí),一些研究團(tuán)隊(duì)專注于多跳無(wú)線網(wǎng)絡(luò)(Ad-Hoc)的傳輸層最佳端到端速率和MAC層鏈路速率的聯(lián)合控制問(wèn)題。新的集體擁塞控制范式(C3)也被提出,旨在改進(jìn)網(wǎng)絡(luò)性能。此外,基于UDP的傳輸方法也被開(kāi)發(fā),以提高鏈路的峰值利用率。研究人員還探討了TCP擁塞控制中競(jìng)爭(zhēng)窗口的影響,以及基于光纖-無(wú)線網(wǎng)絡(luò)虛擬化模型的新算法。動(dòng)態(tài)時(shí)間窗口擁塞控制方法和自適應(yīng)服務(wù)質(zhì)量感知的路由算法也是研究的焦點(diǎn)。從控制理論角度,支持IP的無(wú)線網(wǎng)絡(luò)的擁塞控制策略正在被設(shè)計(jì)和優(yōu)化。一些團(tuán)隊(duì)還提出了結(jié)合動(dòng)態(tài)負(fù)載平衡、多路徑和擁塞控制的新網(wǎng)絡(luò)控制方法。另外,網(wǎng)絡(luò)擁塞控制的流體流模型也在不斷被重新設(shè)計(jì),以適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和需求。這些進(jìn)展表明,雖然傳統(tǒng)的擁塞控制算法針對(duì)特定場(chǎng)景和協(xié)議設(shè)計(jì),但它們的實(shí)時(shí)性、普適性和魯棒性仍需進(jìn)一步優(yōu)化。
近年來(lái),基于機(jī)器學(xué)習(xí)(ML)的network-assisted型網(wǎng)絡(luò)CC算法為不同場(chǎng)景提供解決方案。機(jī)器學(xué)習(xí)(Machine Learning,ML)是人工智能的一個(gè)分支,通過(guò)數(shù)據(jù)特征提取學(xué)習(xí)實(shí)現(xiàn)分類、聚類和預(yù)測(cè)。ML在CC中的應(yīng)用包括監(jiān)督學(xué)習(xí)(Supervised Learning,SL)、非監(jiān)督學(xué)習(xí)(Unsupervised Learning,UL)和強(qiáng)化學(xué)習(xí)(Reinforecement Learning,RL)。SL在網(wǎng)絡(luò)擁塞數(shù)據(jù)集上訓(xùn)練,用于預(yù)測(cè)實(shí)時(shí)管理?yè)砣淖罴研袆?dòng)。UL從無(wú)標(biāo)記數(shù)據(jù)中學(xué)習(xí),識(shí)別流量模式以預(yù)防擁塞。RL通過(guò)試驗(yàn)和獎(jiǎng)懲學(xué)習(xí)控制擁塞的最佳行動(dòng),在網(wǎng)絡(luò)模擬上訓(xùn)練算法進(jìn)行擁塞管理。
基于此,本文首先對(duì)ML 在 CC 領(lǐng)域的應(yīng)用進(jìn)行了梳理及總結(jié)。這些算法被應(yīng)用在了多種復(fù)雜的網(wǎng)絡(luò)中,如物聯(lián)網(wǎng)(Internet of Things,IoT)、數(shù)據(jù)中心,以及衛(wèi)星通信等。接著,本文重點(diǎn)探討了ML技術(shù)在地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信網(wǎng)絡(luò)阻塞控制中的應(yīng)用,包括潛在的應(yīng)用場(chǎng)景和技術(shù)挑戰(zhàn)。最后,對(duì)ML在網(wǎng)絡(luò)CC中的未來(lái)發(fā)展趨勢(shì)和面臨的挑戰(zhàn)進(jìn)行了總結(jié),旨在為地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信網(wǎng)絡(luò)阻塞控制的進(jìn)一步研究提供有益借鑒。
二、 基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
基于 ML 的網(wǎng)絡(luò) CC 方法主要分為基于 SL 的網(wǎng)絡(luò) CC 方法、基于 UL 的網(wǎng)絡(luò) CC 方法和基于 RL 的網(wǎng)絡(luò) CC 方法等。
(一)基于監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
傳統(tǒng)網(wǎng)絡(luò)CC算法基于數(shù)據(jù)包丟失或延遲來(lái)間接檢測(cè)擁塞。相比之下,基于SL的網(wǎng)絡(luò)CC算法通過(guò)分析歷史和當(dāng)前網(wǎng)絡(luò)狀態(tài)(如數(shù)據(jù)包間隔、延遲等)來(lái)預(yù)估擁塞。這依賴于網(wǎng)絡(luò)狀態(tài)的時(shí)間序列特性,即未來(lái)的狀態(tài)可由過(guò)去狀態(tài)來(lái)預(yù)測(cè)?;赟L的CC方法在預(yù)測(cè)隊(duì)列長(zhǎng)度方面表現(xiàn)出色,其通過(guò)樣本訓(xùn)練獲得最優(yōu)模型,并利用此模型將輸入映射到輸出,進(jìn)行判斷。SL技術(shù)可用于數(shù)據(jù)分類,常見(jiàn)方法包括決策樹(shù)(Decision Tree,簡(jiǎn)稱DT)、隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)、貝葉斯(Bayesian)方法和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡(jiǎn)稱ANNs)。
1.基于決策樹(shù)和隨機(jī)森林的網(wǎng)絡(luò)擁塞控制算法
在網(wǎng)絡(luò)擁塞控制算法的研究中,決策樹(shù)(DT)技術(shù)被用來(lái)通過(guò)樹(shù)狀結(jié)構(gòu)對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)測(cè)和決策管理,如利用網(wǎng)絡(luò)流量和可用帶寬來(lái)管理數(shù)據(jù)流。同時(shí),隨機(jī)森林(RF)算法通過(guò)結(jié)合多個(gè)決策樹(shù)來(lái)執(zhí)行分類和回歸任務(wù),以預(yù)測(cè)網(wǎng)絡(luò)中的擁塞情況。在5G網(wǎng)絡(luò)中,一種優(yōu)化的基于DT的模型已被開(kāi)發(fā)并應(yīng)用于改善擁塞控制效果。一種結(jié)合卡爾曼濾波和梯度增強(qiáng)決策樹(shù)(GBDT-KF)的新算法也被提出,目的是提升GBDT算法的性能。此外,一個(gè)基于DT的擁塞控制算法選擇系統(tǒng)SCASys亦被設(shè)計(jì)出來(lái),用于更有效的擁塞管理[2-3]。
2.基于貝葉斯的網(wǎng)絡(luò)擁塞控制算法
隨著實(shí)時(shí)視頻和無(wú)線網(wǎng)絡(luò)技術(shù)的發(fā)展,實(shí)施有效的實(shí)時(shí)擁塞控制變得至關(guān)重要。大多數(shù)現(xiàn)有的擁塞控制算法在面對(duì)需要低延遲的流量時(shí)表現(xiàn)不佳,特別是在信道容量頻繁變動(dòng)的情況下。為了改善這一狀況,一種新型的基于學(xué)習(xí)的擁塞控制方法被開(kāi)發(fā)出來(lái),專門(mén)用于無(wú)線網(wǎng)絡(luò)中實(shí)時(shí)視頻通信的擁塞管理。這種方法利用概率密度估計(jì)和貝葉斯定理來(lái)適應(yīng)信道容量的變化,目的是提升網(wǎng)絡(luò)的利用率和吞吐量[4]。
同時(shí),在物聯(lián)網(wǎng)(IoT)環(huán)境中,針對(duì)無(wú)線和有線信道中數(shù)據(jù)包丟失問(wèn)題,一種基于樸素貝葉斯的新型擁塞控制策略被提出。這種策略通過(guò)區(qū)分丟包類型,提供了高速、高準(zhǔn)確性和高穩(wěn)定性的擁塞管理解決方案。這些創(chuàng)新表明,在現(xiàn)代網(wǎng)絡(luò)環(huán)境下,擁塞控制策略必須具備高度的適應(yīng)性和智能化特征[5]。
3.基于人工神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)擁塞控制算法
研究人員對(duì)TCP協(xié)議及自適應(yīng)有限時(shí)間內(nèi)擁塞控制的AQM(主動(dòng)隊(duì)列管理)問(wèn)題進(jìn)行了深入研究。通過(guò)結(jié)合漏斗控制、神經(jīng)網(wǎng)絡(luò)和滑??刂萍夹g(shù),提出了一種新型的AQM算法[6]。這種算法能夠確保誤差在有限時(shí)間內(nèi)收斂,并進(jìn)行了穩(wěn)定性分析,證明了閉環(huán)系統(tǒng)信號(hào)是有界的。另一項(xiàng)研究為命名數(shù)據(jù)網(wǎng)絡(luò)及其自適應(yīng)擁塞控制協(xié)議(Adaptive Congestion Control Protocol,ACCP)開(kāi)發(fā)了一種基于深度信念網(wǎng)絡(luò)的方法。該方法分兩個(gè)階段:第一階段是用深度學(xué)習(xí)預(yù)測(cè)節(jié)點(diǎn)擁塞源,第二階段是根據(jù)路由器結(jié)果和平均隊(duì)列長(zhǎng)度估計(jì)網(wǎng)絡(luò)擁塞,調(diào)整發(fā)送速率以實(shí)現(xiàn)CC。該方案可在多源、多路徑情況下提高信道利用率和減少丟包[7]。
(二)基于非監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
當(dāng)數(shù)據(jù)類別未知時(shí),需要根據(jù)樣本之間的相似性對(duì)樣本集進(jìn)行聚類,以最小化類內(nèi)差距,最大化類間差距,這時(shí)就會(huì)用到 UL 技術(shù)。在某些情況下,網(wǎng)絡(luò)信息不能完全被提供,訓(xùn)練數(shù)據(jù)沒(méi)有被提前標(biāo)記, 基于 UL 技術(shù)的聚類方法在網(wǎng)絡(luò) CC 的應(yīng)用主要是基于K-means、分層聚類(Hierarchical Clustering, HC)和其他 UL 技術(shù),如基于密度的均值轉(zhuǎn)移(Density-Based Mean Shift, DBMS)、基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)和基于期望最大化(Expectation Maximization, EM) 等。
1.基于 K-means 的網(wǎng)絡(luò)擁塞控制算法
K-means是一種非監(jiān)督聚類方法,其能夠?qū)?shù)據(jù)分為K個(gè)類別。但此方法對(duì)初始中心選擇較為敏感。為了優(yōu)化這一點(diǎn),有研究者結(jié)合了Map Reduce框架,開(kāi)發(fā)了一種改進(jìn)的K-means算法。這種算法特別適用于識(shí)別網(wǎng)絡(luò)中的重流量問(wèn)題,有助于更好地管理網(wǎng)絡(luò)流量和減輕擁塞。此外,該方法也被用于大規(guī)模網(wǎng)絡(luò)流量的聚類,通過(guò)有效地分類和管理網(wǎng)絡(luò)資源,以緩解網(wǎng)絡(luò)擁塞。在數(shù)據(jù)中心,K-means聚類方法被應(yīng)用于TCP連接問(wèn)題的節(jié)點(diǎn)分組。這種分組有助于簡(jiǎn)化數(shù)據(jù)處理流程,減少網(wǎng)絡(luò)中的阻塞現(xiàn)象。
2.基于分層聚類的網(wǎng)絡(luò)擁塞控制算法
在網(wǎng)絡(luò)管理和擁塞控制領(lǐng)域,一種基于模糊邏輯的跨層機(jī)制被開(kāi)發(fā)出來(lái)。該機(jī)制結(jié)合了對(duì)立人工蜂群協(xié)議,用于管理網(wǎng)絡(luò)擁塞并整合媒體可及性和基于節(jié)能的分層路由策略,有效地提升了網(wǎng)絡(luò)的壽命和能效。這種方法不僅有效控制了擁塞,還實(shí)現(xiàn)了節(jié)能和可靠的數(shù)據(jù)傳輸[8]。在邊緣計(jì)算系統(tǒng)中,針對(duì)IoT應(yīng)用,一種基于分層聚類的家庭邊緣計(jì)算集群平衡方法被提出,通過(guò)在集群中分層處理請(qǐng)求,有效減少了網(wǎng)絡(luò)擁塞和延遲,實(shí)現(xiàn)了更加高效的網(wǎng)絡(luò)阻塞控制[9]。
(三)基于強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
基于RL的方法包括價(jià)值函數(shù)和策略函數(shù)。價(jià)值函數(shù)通過(guò)評(píng)估網(wǎng)絡(luò)狀態(tài)下行動(dòng)的價(jià)值,決定行動(dòng)的選擇。策略函數(shù)根據(jù)規(guī)則集選擇行動(dòng)。在每次迭代中,系統(tǒng)按策略選擇行動(dòng)并提供反饋,價(jià)值函數(shù)計(jì)算行動(dòng)價(jià)值并更新?;诓煌臋C(jī)制,RL 算法被分為基于價(jià)值的方案和基于策略的方案。典型的基于價(jià)值的方案包括 Q 學(xué)習(xí)(Q-learning,QL)和深度 Q 學(xué)習(xí)(Deep Q-learning,DQL)。基于策略的方案包括策略梯度法(Policy-Gradient,PG)、演員和評(píng)價(jià)算法(Actor-Critic,AC)、近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)和深度確定型政策梯度(Deep Deterministic Policy Gradient,DDPG)等?;趦r(jià)值的方案和基于策略的方案之間的區(qū)別是,基于策略的方案估計(jì)行動(dòng)的策略,以及它們是否能滿足不同行動(dòng)的場(chǎng)景,而基于價(jià)值的方案直接預(yù)測(cè)行動(dòng)的價(jià)值。
1.基于 Q 學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
在網(wǎng)絡(luò)擁塞控制(CC)的創(chuàng)新研究中,一種結(jié)合了強(qiáng)化學(xué)習(xí)(RL)和深度學(xué)習(xí)技術(shù)的智能轉(zhuǎn)發(fā)策略被提出,特別適用于未來(lái)的網(wǎng)絡(luò)架構(gòu)。該策略采用了長(zhǎng)短期記憶(LSTM)模型和Q學(xué)習(xí)(QL)技術(shù),旨在提高數(shù)據(jù)接收率并減少數(shù)據(jù)包的丟失[10]。同時(shí),QL算法也被應(yīng)用于移動(dòng)設(shè)備網(wǎng)絡(luò)和有線網(wǎng)絡(luò)中,以改善這些網(wǎng)絡(luò)環(huán)境的擁塞控制[11]。
2.基于深度 Q 學(xué)習(xí)的網(wǎng)絡(luò)擁塞控制算法
一種自適應(yīng)的I/O擁塞控制框架被開(kāi)發(fā)出來(lái)。該框架融合了基于反饋的動(dòng)態(tài)I/O擁塞控制與深度Q學(xué)習(xí)的參數(shù)調(diào)優(yōu)技術(shù),實(shí)現(xiàn)了自動(dòng)化的I/O擁塞管理[12]。在應(yīng)對(duì)特定網(wǎng)絡(luò)場(chǎng)景,如有人和無(wú)人機(jī)載網(wǎng)絡(luò)的挑戰(zhàn)時(shí),一種基于深度Q學(xué)習(xí)的模型被用來(lái)優(yōu)化無(wú)人飛行器的安置問(wèn)題,以提高網(wǎng)絡(luò)性能[13]。
3.基于策略梯度法的網(wǎng)絡(luò)擁塞控制算法
在數(shù)據(jù)中心網(wǎng)絡(luò)擁塞控制領(lǐng)域,一種基于RL的算法被設(shè)計(jì)出來(lái),特別是采用了分析性去極端化策略梯度(PG),以應(yīng)對(duì)擁塞控制中的復(fù)雜挑戰(zhàn)[14]。此外,還有研究提出了一個(gè)基于深度強(qiáng)化學(xué)習(xí)的控制框架。該框架通過(guò)一個(gè)單一的代理,動(dòng)態(tài)聯(lián)合控制多路徑TCP流量,旨在優(yōu)化整體網(wǎng)絡(luò)效用,同時(shí)保持流量的公平性[15]。
4.基于演員和評(píng)價(jià)算法的網(wǎng)絡(luò)擁塞控制
在網(wǎng)絡(luò)擁塞控制問(wèn)題上,設(shè)計(jì)了一種基于演員-評(píng)價(jià)者(AC)的強(qiáng)化學(xué)習(xí)(RL)模型。該模型通過(guò)將遺傳算法整合到擁塞控制策略中,有效地發(fā)現(xiàn)并預(yù)防網(wǎng)絡(luò)中的擁塞問(wèn)題[16]。受機(jī)器學(xué)習(xí)在在線控制領(lǐng)域成功應(yīng)用的啟發(fā),該模型采用了一個(gè)結(jié)合集中學(xué)習(xí)與分布式執(zhí)行的框架,并提出了一種多代理演員-評(píng)價(jià)者RL算法。在這種算法中,集中式的“評(píng)價(jià)者”使用全局網(wǎng)絡(luò)狀態(tài)和所有代理的聯(lián)合行動(dòng)來(lái)強(qiáng)化訓(xùn)練過(guò)程,從而有效減輕了訓(xùn)練負(fù)擔(dān)[17]。
三、機(jī)器學(xué)習(xí)在地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信網(wǎng)絡(luò)阻塞控制中的應(yīng)用
地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信在網(wǎng)絡(luò)阻塞控制方面的應(yīng)用面臨重大挑戰(zhàn)。系統(tǒng)通過(guò)物聯(lián)網(wǎng)連接偏遠(yuǎn)地區(qū)的多個(gè)設(shè)備,常受網(wǎng)絡(luò)延遲和數(shù)據(jù)實(shí)時(shí)性問(wèn)題的影響。機(jī)器學(xué)習(xí)技術(shù)為此提供了創(chuàng)新解決方案,但需面對(duì)包括網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)性、數(shù)據(jù)丟失與延遲檢測(cè)、計(jì)算復(fù)雜性、存儲(chǔ)需求、模型收斂、兼容性、公平性及參數(shù)選擇等諸多挑戰(zhàn)。機(jī)器學(xué)習(xí)方案能夠基于實(shí)時(shí)網(wǎng)絡(luò)狀態(tài)做出決策,適應(yīng)動(dòng)態(tài)復(fù)雜的網(wǎng)絡(luò)環(huán)境。盡管監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)技術(shù)在網(wǎng)絡(luò)阻塞控制中用于估計(jì)網(wǎng)絡(luò)狀態(tài)或進(jìn)行網(wǎng)絡(luò)流量分類,但這些方法多為離線訓(xùn)練,難以實(shí)時(shí)處理網(wǎng)絡(luò)擁塞。與此相對(duì),強(qiáng)化學(xué)習(xí)以其在線學(xué)習(xí)能力,在處理網(wǎng)絡(luò)擁塞問(wèn)題方面顯示出更大的優(yōu)勢(shì)。ML 可以用來(lái)應(yīng)用一些挑戰(zhàn)。一個(gè)重要的挑戰(zhàn)是如何有效地預(yù)測(cè)和控制網(wǎng)絡(luò)阻塞。另一個(gè)挑戰(zhàn)是如何有效識(shí)別和應(yīng)對(duì)網(wǎng)絡(luò)阻塞?;?ML 的方案是依據(jù)實(shí)時(shí)網(wǎng)絡(luò)狀態(tài)來(lái)做出控制決策的,而不是使用預(yù)定的規(guī)則,這使得它們對(duì)具有動(dòng)態(tài)性和復(fù)雜性的網(wǎng)絡(luò)場(chǎng)景有更好的適應(yīng)性。調(diào)研發(fā)現(xiàn),SL 和 UL 的學(xué)習(xí)技術(shù)在網(wǎng)絡(luò) CC 中主要用于估計(jì)網(wǎng)絡(luò)狀態(tài),如通過(guò)對(duì)擁塞信號(hào)、隊(duì)列長(zhǎng)度或網(wǎng)絡(luò)流量進(jìn)行分類,以識(shí)別具有潛在阻斷風(fēng)險(xiǎn)的流量。然而,這些方案大多是通過(guò)離線訓(xùn)練的,不能實(shí)時(shí)對(duì)現(xiàn)實(shí)中的有線或無(wú)線網(wǎng)絡(luò)擁塞損失進(jìn)行分類。而RL具有更強(qiáng)的在線學(xué)習(xí)能力,在處理具有動(dòng)態(tài)和復(fù)雜狀態(tài)空間的網(wǎng)絡(luò)中的現(xiàn)實(shí)擁塞方面則有更多優(yōu)勢(shì)。目前,基于 ML 的網(wǎng)絡(luò) CC 的研究主要集中在基于 RL 的方案上。
然而,基于 ML 的 CC 仍處于起步階段,其主要面臨以下幾個(gè)挑戰(zhàn):
第一,目前基于 ML 的 CC 算法主要側(cè)重于端到端的 CC,而不是網(wǎng)絡(luò)輔助的 CC。大多數(shù)基于學(xué)習(xí)的 CC 算法通過(guò)調(diào)整擁塞窗口(CWND) 來(lái)控制發(fā)送速率,而不是直接調(diào)整發(fā)送速率。因此, 突發(fā)性仍然是高速網(wǎng)絡(luò)中的一個(gè)問(wèn)題,當(dāng)多個(gè) ACK 到達(dá)時(shí),CWND 會(huì)急劇增加。
第二,目前基于 ML 的CC 仍無(wú)法繞開(kāi)高計(jì)算復(fù)雜性的問(wèn)題。對(duì)于 SL 技術(shù), 預(yù)測(cè)精度可以相當(dāng)可觀,但伴隨而來(lái)的計(jì)算復(fù)雜性也很高。而基于 RL 的 CC 算法的復(fù)雜性導(dǎo)致了行動(dòng)和獎(jiǎng)勵(lì)的延遲,計(jì)算由于時(shí)間上的開(kāi)銷而不適合現(xiàn)實(shí)的網(wǎng)絡(luò)。在現(xiàn)實(shí)網(wǎng)絡(luò)中,基于 RL 的 CC 算法的實(shí)施表明,其效率并不像想象中的那樣高。智能學(xué)習(xí)決策不能足夠快,影響了這些方案的可行性。
第三,需要考慮高內(nèi)存消耗?;?RL 的 CC 算法的訓(xùn)練需要相當(dāng)大的存儲(chǔ)空間,特別是對(duì)于連續(xù)的網(wǎng)絡(luò)環(huán)境。為了實(shí)現(xiàn)高效的訓(xùn)練過(guò)程,需要通過(guò)使用復(fù)雜的神經(jīng)網(wǎng)絡(luò)表示狀態(tài)動(dòng)作空間,需要具備處理連續(xù)網(wǎng)絡(luò)環(huán)境的強(qiáng)大能力,即對(duì)狀態(tài)動(dòng)作空間進(jìn)行抽象,并獲得代表性數(shù)據(jù)。
第四,基于 ML 的 CC 算法不能總是避免過(guò)度擬合和欠擬合問(wèn)題。對(duì)于基于 ML 的 CC 算法來(lái)說(shuō),其訓(xùn)練過(guò)程既耗時(shí)又耗資源,需要大量的訓(xùn)練數(shù)據(jù)來(lái)保證性能。
第五,在現(xiàn)實(shí)網(wǎng)絡(luò)中的模型收斂不能總是得到很好的保證??紤]到具有多個(gè)神經(jīng)網(wǎng)絡(luò)的復(fù)雜算法,模型可能很難達(dá)到收斂的目的。目前的 RL 算法提出了不同的方法來(lái)促進(jìn)收斂,然而在現(xiàn)實(shí)網(wǎng)絡(luò)中的實(shí)際效果仍有待研究。
第六,解決兼容性問(wèn)題仍有很長(zhǎng)的路要走。目前,基于ML 的 CC 算法經(jīng)常被用作控制擁塞的內(nèi)置組件或獨(dú)立控制器,但若將整個(gè)網(wǎng)絡(luò)擁塞看成一個(gè)整體,那么仍需考慮基于 ML 的 CC 算法和傳統(tǒng) CC 算法之間的兼容性問(wèn)題。
第七,基于 ML 的 CC 算法在實(shí)際復(fù)雜網(wǎng)絡(luò)場(chǎng)景中的公平性不能得到較好的保證。因?yàn)榛?ML 的 CC 算法的性能依賴于訓(xùn)練好的模型和網(wǎng)絡(luò)環(huán)境的反饋,當(dāng)基于 ML 的 CC 算法與其他算法競(jìng)爭(zhēng)流量時(shí),基于 ML 的 CC 算法能夠感知其他算法引起的流量波動(dòng)并采取適當(dāng)?shù)男袆?dòng),而這些行動(dòng)可能會(huì)影響流量的公平性。
第八,參數(shù)選擇對(duì)性能影響很大,尤其是 RL 算法,狀態(tài)空間、行動(dòng)空間、獎(jiǎng)勵(lì)設(shè)計(jì)和其他與算法結(jié)構(gòu)有關(guān)的參數(shù)都需要仔細(xì)考慮。可能在一個(gè)基于 RL 的 CC 算法中,吞吐量和 RTT 被用來(lái)計(jì)算獎(jiǎng)勵(lì),但在另一個(gè)算法中,又以吞吐量、丟包率和延遲來(lái)計(jì)算獎(jiǎng)勵(lì),不同的參數(shù)選擇對(duì)結(jié)果的影響差別較大。對(duì) SL 而言,預(yù)定義參數(shù)決定了影響 CC 性能的潛在分類錯(cuò)誤。而對(duì)于 UL 算法,諸如聚類組的數(shù)量和初始聚類中心等參數(shù)影響最終的聚類結(jié)果。
四、結(jié)束語(yǔ)
本文對(duì)機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)阻塞控制中的應(yīng)用進(jìn)行了梳理,探討了ML 方法在網(wǎng)絡(luò) CC 領(lǐng)域的應(yīng)用和挑戰(zhàn)。在 ML 方法中,RL 比 SL 式和UL 式學(xué)習(xí)更適用于網(wǎng)絡(luò) CC。雖然,在地質(zhì)災(zāi)害監(jiān)測(cè)設(shè)備故障排查通信網(wǎng)絡(luò)阻塞控制這個(gè)現(xiàn)實(shí)場(chǎng)景中仍有許多復(fù)雜的挑戰(zhàn),且主要集中在與現(xiàn)實(shí)復(fù)雜網(wǎng)絡(luò)相關(guān)的問(wèn)題上,如參數(shù)選擇、高計(jì)算復(fù)雜性、高內(nèi)存消耗、低訓(xùn)練效率、難收斂、不兼容和公平性等,但是,基于 ML 的網(wǎng)絡(luò) CC 方法,尤其是 RL 方法,由于其能夠處理具有動(dòng)態(tài)性和復(fù)雜性狀態(tài)空間的網(wǎng)絡(luò)擁塞,仍是未來(lái)發(fā)展的趨勢(shì)。
目前,有以下幾個(gè)主流研究方向有待進(jìn)一步探索:首先,目前大多數(shù)基于學(xué)習(xí)的 CC 算法是基于使用網(wǎng)絡(luò)模擬器的模擬,但在現(xiàn)實(shí)的網(wǎng)絡(luò)通信中面臨的工程類問(wèn)題對(duì)于基于 ML 的 CC 算法也十分重要,因此,在現(xiàn)實(shí)的網(wǎng)絡(luò)環(huán)境中進(jìn)行模擬將是設(shè)計(jì)更適用的算法的主要前提。其次,可編程交換機(jī)的出現(xiàn)使得基于 ML 的 CC 與之結(jié)合成為可能。再次,鑒于學(xué)習(xí)決策的時(shí)間和成本過(guò)高,基于輕量級(jí)學(xué)習(xí)的 CC 將是一個(gè)重要的研究方向。最后,基于 ML 的大規(guī)模差異化動(dòng)態(tài)網(wǎng)絡(luò)場(chǎng)景的網(wǎng)絡(luò)CC 也有待進(jìn)一步的探索??偟膩?lái)說(shuō),設(shè)計(jì)一個(gè)能在真實(shí)網(wǎng)絡(luò)場(chǎng)景中工作的通用 CC 方案仍然是學(xué)術(shù)界和工業(yè)界的主要目標(biāo)。
作者單位:王雅潔 貴州省分析測(cè)試研究院 貴州貴科大數(shù)據(jù)有限責(zé)任公司 貴州科學(xué)院
楊鑫 秦梅元 貴州貴科大數(shù)據(jù)有限責(zé)任公司 貴州科學(xué)院
楊冰 貴州省分析測(cè)試研究院 貴州貴科大數(shù)據(jù)有限責(zé)任公司 貴州科學(xué)院
參考文獻(xiàn)
[1]黃韜, et al. “確定性網(wǎng)絡(luò)研究綜述.” 通信學(xué)報(bào) 6 (2019).
[2] Najm I A, Hamoud A K, Lloret J, et al. Machine Learning Prediction Approach to Enhance Congestion Control in 5G IoT Environment[J]. Electronics, 2019, 8(6): 607-.
[3] Srinidhi N N. An Improved PRoPHET - Random Forest Based Optimized Multi-Copy Routing for Opportunistic IoT Networks[C]. 2020:100203.
[4] Dai T, Zhang X, Guo Z. Learning-based Congestion Control for Internet Video Communication over Wireless Networks[C]. 2018 IEEE International Symposium on Circuits and Systems. IEEE, 2018.
[5] Chen Y, Lu L, Yu X, et al. Adaptive Method for Packet Loss Types in IoT: An Naive Bayes Distinguisher[J]. Electronics, 2019, 8(2).
[6] Wang K, Jing Y, Liu Y,et al. Adaptive finite-time congestion controller design of TCP. AQM systems based on neural network and funnel control[J]. Neural Computing and Applications, 2020, 32(7).
[7] Liu T, Zhang M, Zhu J, et al. ACCP: adaptive congestion control protocol in named data networking based on deep learning[J]. Neural Computing and Applications, 2018.
[8] Kalaikumar K, Baburaj E. Fuzzy enabled congestion control by cross layer protocol utilizing OABC in WSN: combining MAC, routing, non-similar clustering and efficient data delivery[J]. Wireless Networks, 2018.
[9] Babou C S M, Fall D, Kashihara S, et al. Hierarchical Load Balancing and Clustering Technique for Home Edge Computing[J]. IEEE Access, 2020, PP(99):1-1.
[10] Ryu S, Joe I, Kim W T. Intelligent forwarding strategy for congestion control using Q-learning and LSTM in named data networking[J]. Mobile Information Systems, 2021.
[11] Fakhimi E, Daneshjoo P, Rezaei S, et al. MPTCP Throughput Enhancement by Q-Learning for Mobile Devices[C]. 2018 IEEE 20th International Conference on High Performance Computing and Communications; IEEE 16th International Conference on Smart City; IEEE 4th International Conference on Data Science and Systems (HPCC/SmartCity/DSS).IEEE, 2018.
[12] Cheng W, Deng S, Zeng L, et al. AIOC2: A deep Q-learning approach to autonomic I/O congestion control in Lustre[J]. Parallel Computing, 2021, 108:102855.
[13] Koushik A M, Hu F, Kumar S. Deep ${Q$ -Learning-Based Node Positioning for Throughput-Optimal Communications in Dynamic UAV Swarm Network [J]. IEEE Transactions on Cognitive Communications and Networking, 2019.
[14] Tessler C, Shpigelman Y, Dalal G, et al. Reinforcement Learning for Datacenter Congestion Control [J]. 2021.
[15] Xu Z, Tang J, Yin C,et al. Experience-Driven Congestion Control: When Multi-Path TCP Meets Deep Reinforcement Learning[J]. IEEE Journal on Selected Areas in Communications, 2019, PP (99):1-1.
[16] Xu T , Gong L , Zhang W ,et al. Network congestion control algorithm based on Actor-Critic reinforcement learning model[C]. ADVANCES IN MATERIALS, MACHINERY, ELECTRONICS II: Proceedings of the 2nd International Conference on Advances in Materials, Machinery, Electronics, 2018.
[17] T. Mai, H. Yao, Z. Xiong, et al. Multi-agent actor-critic reinforcement learning based innetwork load balance[C]. Globecom2020.2020.