舒 暢 李青山 王 璐 王子奇 計(jì)亞江
(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 西安 710071)
(shuchang@stu.xidian.edu.cn)
隨著互聯(lián)網(wǎng)的普及和移動(dòng)技術(shù)的發(fā)展,當(dāng)前軟件技術(shù)的發(fā)展呈現(xiàn)出了明顯的網(wǎng)絡(luò)化趨勢(shì),越來(lái)越多的軟件應(yīng)用選擇將業(yè)務(wù)或服務(wù)拆分后布置在不同的硬件設(shè)施上,通過(guò)互聯(lián)網(wǎng)通信協(xié)同完成工作,以實(shí)現(xiàn)更多樣化的功能.這類以網(wǎng)絡(luò)為媒介,以信息或服務(wù)資源為元素,以元素間的協(xié)同與互操作為構(gòu)造手段,所建立的軟件密集型混合系統(tǒng)被稱為網(wǎng)絡(luò)化軟件[1].《中國(guó)互聯(lián)網(wǎng)發(fā)展報(bào)告(2021)》顯示,2020年我國(guó)工業(yè)互聯(lián)網(wǎng)市場(chǎng)規(guī)模已超9 000億元,物聯(lián)網(wǎng)市場(chǎng)規(guī)模達(dá)1.7萬(wàn)億元,網(wǎng)絡(luò)化軟件的研究和發(fā)展有著廣闊的前景.
近年來(lái),互聯(lián)網(wǎng)應(yīng)用規(guī)模擴(kuò)展迅速,網(wǎng)絡(luò)化軟件在互聯(lián)網(wǎng)中的部署越來(lái)越復(fù)雜,節(jié)點(diǎn)故障、通信擁塞、激增的用戶請(qǐng)求等突發(fā)因素為軟件的平穩(wěn)運(yùn)行帶來(lái)了巨大挑戰(zhàn),導(dǎo)致軟件性能和服務(wù)質(zhì)量的下降,造成重大的損失.例如,2019年6月,谷歌的云服務(wù)器出現(xiàn)約4 h的宕機(jī)故障,大量基于該服務(wù)的網(wǎng)站或應(yīng)用服務(wù)加載緩慢、無(wú)法登錄,其中,大型視頻網(wǎng)站YouTube的全球觀看人數(shù)減少了10%;2021年3月,蘋果App Store,iCloud等服務(wù)出現(xiàn)大規(guī)模故障,大量用戶訪問(wèn)相關(guān)服務(wù)緩慢或失敗.因此,網(wǎng)絡(luò)化軟件需要實(shí)現(xiàn)優(yōu)化調(diào)整功能,主動(dòng)調(diào)節(jié)各類參數(shù),以保障軟件的正常運(yùn)行,防止性能下降,提高系統(tǒng)的穩(wěn)定性.
網(wǎng)絡(luò)化軟件部署在異構(gòu)的聯(lián)網(wǎng)設(shè)備上,根據(jù)功能或服務(wù)范圍由數(shù)量不等的計(jì)算設(shè)備組成軟件節(jié)點(diǎn),完成發(fā)送、匯集與處理數(shù)據(jù)的任務(wù).軟件節(jié)點(diǎn)的大量部署使網(wǎng)絡(luò)化軟件產(chǎn)生了高度分布的特征.在此背景下,網(wǎng)絡(luò)化軟件的發(fā)展呈現(xiàn)出去中心化的趨勢(shì),系統(tǒng)架構(gòu)越發(fā)開放和平等,系統(tǒng)中每個(gè)節(jié)點(diǎn)高度自治,不具備強(qiáng)制性的中心控制[2].然而,由于網(wǎng)絡(luò)化軟件高度分布的特點(diǎn),軟件節(jié)點(diǎn)之間存在的通信延遲阻礙了節(jié)點(diǎn)間的信息共享,導(dǎo)致各個(gè)節(jié)點(diǎn)在進(jìn)行自主優(yōu)化調(diào)整時(shí)出現(xiàn)個(gè)體與集體信念的不一致,為網(wǎng)絡(luò)化軟件系統(tǒng)的優(yōu)化調(diào)整帶來(lái)了困難.
針對(duì)網(wǎng)絡(luò)化軟件性能優(yōu)化中存在的節(jié)點(diǎn)間信息交流問(wèn)題,本文研究了一種基于多智能體博弈的分布式優(yōu)化框架,將智能體設(shè)置在不同的軟件節(jié)點(diǎn)上,各個(gè)智能體使用有限的信息估計(jì)系統(tǒng)狀態(tài)并做出決策對(duì)軟件的參數(shù)進(jìn)行管理,實(shí)現(xiàn)軟件性能的優(yōu)化.此外,本文針對(duì)現(xiàn)有方法易發(fā)散、參數(shù)選取困難的問(wèn)題提出了自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制,根據(jù)各個(gè)智能體的估計(jì)誤差調(diào)整當(dāng)前決策尋優(yōu)步長(zhǎng),防止由于智能體之間估計(jì)偏差過(guò)大帶來(lái)的發(fā)散問(wèn)題,同時(shí)保證了方法的收斂速度.
目前軟件在線優(yōu)化的研究主要集中于如何通過(guò)合理的資源分配和任務(wù)調(diào)度提高軟件的服務(wù)質(zhì)量或降低資源消耗和運(yùn)營(yíng)成本.阿里巴巴的云服務(wù)器集群采用了集中式任務(wù)管理機(jī)制,在阿里巴巴的混部集群中,由Sigma和Fuxi兩種管理中心匯總各個(gè)服務(wù)器的運(yùn)行信息并對(duì)進(jìn)程合理調(diào)度以提升資源的利用率[3];Sahni等人[4]提出了一種啟發(fā)式的云計(jì)算資源彈性伸縮方法,該方法通過(guò)資源提供歷史和在線的工作負(fù)載分析估計(jì)后續(xù)任務(wù)的資源需求,之后使用貪心算法給出一組最優(yōu)的資源配置,以更低的資源消耗和更高的資源利用率滿足軟件的服務(wù)質(zhì)量需求;Chen等人[5]基于反饋控制實(shí)現(xiàn)了一種組合服務(wù)的自優(yōu)化機(jī)制,設(shè)置函數(shù)數(shù)值化計(jì)算當(dāng)前的服務(wù)質(zhì)量,根據(jù)計(jì)算結(jié)果使用比例積分微分控制器對(duì)影響服務(wù)質(zhì)量的因素進(jìn)行重要性排序,產(chǎn)生優(yōu)化調(diào)整的策略;Das等人[6]針對(duì)流處理系統(tǒng)的容錯(cuò)和效率問(wèn)題,提出了一種基于不動(dòng)點(diǎn)迭代的控制算法,自適應(yīng)地調(diào)整批處理作業(yè)的大小,使工作負(fù)載能夠適應(yīng)系統(tǒng)當(dāng)前的情況.現(xiàn)有研究以軟件控制的自動(dòng)化和智能化為目的,但大多著眼于使用集中控制方法對(duì)軟件系統(tǒng)進(jìn)行調(diào)控,然而,這種方法無(wú)法完全適用于愈發(fā)龐大、愈發(fā)復(fù)雜的網(wǎng)絡(luò)化軟件系統(tǒng).首先,在集中控制的情況下,中心控制節(jié)點(diǎn)的故障將會(huì)導(dǎo)致調(diào)控機(jī)制停擺,缺乏可靠性;其次,集中為所有軟件節(jié)點(diǎn)提供控制策略需要收集大量的節(jié)點(diǎn)信息并產(chǎn)生巨大的計(jì)算開銷,效率低下;最后,在部署或移除軟件節(jié)點(diǎn)時(shí),需要為中心節(jié)點(diǎn)更新控制邏輯,難以應(yīng)用于動(dòng)態(tài)變化的大型系統(tǒng).
本文采用多智能體博弈的方法對(duì)網(wǎng)絡(luò)化軟件進(jìn)行優(yōu)化,將智能體設(shè)置在不同的軟件節(jié)點(diǎn)上,實(shí)現(xiàn)分布式的優(yōu)化決策與控制,相關(guān)研究聚焦于智能體的收益函數(shù)的設(shè)計(jì)和博弈決策方法上.收益函數(shù)的設(shè)計(jì)很大程度影響了博弈優(yōu)化的收斂效果,為了保證系統(tǒng)能在多輪博弈后達(dá)到納什均衡,常見的做法是根據(jù)實(shí)際情況將收益函數(shù)設(shè)計(jì)成符合勢(shì)博弈(potential games)[7]和凸博弈(convex games)[8]等具有良好收斂性質(zhì)的形式.Li等人[9]通過(guò)改造系統(tǒng)的全局目標(biāo)函數(shù)作為各個(gè)智能體的收益函數(shù),設(shè)計(jì)了一種使用非完全信息的勢(shì)博弈分布式優(yōu)化模型;Wu等人[10]為多智能體任務(wù)分配問(wèn)題設(shè)計(jì)了一種勢(shì)博弈模型,該模型將各智能體的收益函數(shù)設(shè)置為任務(wù)收益的指數(shù)形式,保證重要的任務(wù)被優(yōu)先完成,此外,將實(shí)際需求與參與智能體數(shù)目之差作為指數(shù),防止過(guò)多的智能體被分配于同一任務(wù)造成浪費(fèi).博弈決策的目的是如何讓智能體做出決策優(yōu)化自身收益函數(shù)的值,常見的決策方法有沿收益函數(shù)的梯度調(diào)整的梯度博弈(gradient-play)[11]、根據(jù)歷史博弈記錄計(jì)算最佳決策的虛擬博弈(fictitious play)[12]、根據(jù)概率分布選擇策略的對(duì)數(shù)線性學(xué)習(xí)(log-linear learning)[13]等.Ye等人[14]對(duì)梯度博弈進(jìn)行了擴(kuò)展,在收益函數(shù)中使用對(duì)所有智能體值的估計(jì)值計(jì)算梯度,使其能讓系統(tǒng)中的各個(gè)智能體在不了解全局信息的情況下收斂至納什均衡;Heinrich等人[15]使用強(qiáng)化學(xué)習(xí)過(guò)程尋找最優(yōu)近似代替虛擬博弈中的最優(yōu)策略選取,改善了此類方法在大規(guī)模的博弈場(chǎng)景中的表現(xiàn).
在分布式多智能體博弈中,智能體之間的信念沖突是導(dǎo)致博弈無(wú)法達(dá)到納什均衡的主要原因之一,本文采用多智能體一致性協(xié)議(consensus protocols)緩解系統(tǒng)中各個(gè)智能體之間的信念差異,該技術(shù)來(lái)源于自動(dòng)化和控制理論領(lǐng)域,是一種通過(guò)智能體間信息交換實(shí)現(xiàn)信念趨同和協(xié)同合作的技術(shù).Saber等人在文獻(xiàn)[16]中提出了多智能體一致性協(xié)議的基礎(chǔ)形式和收斂分析,并在文獻(xiàn)[17]中進(jìn)一步分析了收斂速度與智能體網(wǎng)絡(luò)的連通度和網(wǎng)絡(luò)類型之間的關(guān)系;Xie等人[18]在基礎(chǔ)的一致性協(xié)議上增加了基于智能體當(dāng)前狀態(tài)的反饋控制機(jī)制,該協(xié)議能在變化的網(wǎng)絡(luò)連接狀態(tài)下收斂;Zuo等人[19]根據(jù)不等式關(guān)系進(jìn)一步改造了一致性協(xié)議,使其能在有外部干擾的情況下以任意初始狀態(tài)在有限時(shí)間內(nèi)收斂.
為了便于讀者理解本文的優(yōu)化決策機(jī)制,首先給出本文的系統(tǒng)模型.本文系統(tǒng)模型的構(gòu)建基于廣泛應(yīng)用于自主計(jì)算領(lǐng)域的感知—分析—決策—執(zhí)行(monitor-analyze-plan-execute, MAPE)控制方法[20],如圖1所示,MAPE循環(huán)包括4個(gè)主要階段:
1) 感知(monitor)階段.該階段收集系統(tǒng)信息,對(duì)系統(tǒng)參數(shù)和結(jié)構(gòu)的變化情況進(jìn)行監(jiān)控,并將變化數(shù)值化傳遞給分析階段.
2) 分析(analyze)階段.該階段根據(jù)感知階段收集的信息確定系統(tǒng)的當(dāng)前狀態(tài)和變化趨勢(shì).
3) 決策(plan)階段.該階段針對(duì)當(dāng)前系統(tǒng)的狀態(tài)和問(wèn)題產(chǎn)生調(diào)整策略,以保證系統(tǒng)的穩(wěn)定運(yùn)行或優(yōu)化系統(tǒng)的性能.
4) 執(zhí)行(execute)階段.該階段根據(jù)決策階段產(chǎn)生的策略調(diào)整系統(tǒng)行為,在執(zhí)行階段結(jié)束后,將再次進(jìn)入感知階段開啟下輪MAPE控制循環(huán).
Fig. 1 MAPE loop圖1 MAPE循環(huán)
本文的系統(tǒng)模型如圖2所示,在網(wǎng)絡(luò)化軟件系統(tǒng)中設(shè)置分析預(yù)測(cè)節(jié)點(diǎn)負(fù)責(zé)感知階段和分析階段的工作,收集節(jié)點(diǎn)信息,分析預(yù)測(cè)節(jié)點(diǎn)根據(jù)與軟件節(jié)點(diǎn)間的網(wǎng)絡(luò)延遲確定管理范圍,對(duì)分析范圍內(nèi)的軟件系統(tǒng)狀態(tài)建模并分析預(yù)測(cè)系統(tǒng)性能的變化情況,生成節(jié)點(diǎn)數(shù)據(jù)與該區(qū)域系統(tǒng)總體效益之間的函數(shù)[21].分析完成后,各個(gè)分析預(yù)測(cè)節(jié)點(diǎn)將結(jié)果分發(fā)給網(wǎng)絡(luò)中的軟件節(jié)點(diǎn),部署在各個(gè)軟件節(jié)點(diǎn)上的智能體以此為依據(jù)對(duì)節(jié)點(diǎn)的參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)系統(tǒng)性能的整體優(yōu)化.
Fig. 2 System model of networked software圖2 網(wǎng)絡(luò)化軟件系統(tǒng)模型
在這個(gè)過(guò)程中,由于網(wǎng)絡(luò)化軟件系統(tǒng)的性能受各個(gè)軟件節(jié)點(diǎn)狀態(tài)的影響,分析預(yù)測(cè)節(jié)點(diǎn)得到的函數(shù)變量中包含多個(gè)軟件節(jié)點(diǎn)的參數(shù),部署在軟件節(jié)點(diǎn)上的智能體需要擁有其他節(jié)點(diǎn)的信息才能做出優(yōu)化決策.然而,分布在各處的軟件節(jié)點(diǎn)雖然能夠通過(guò)網(wǎng)絡(luò)相互通信間接獲取全局的節(jié)點(diǎn)信息,但長(zhǎng)距離通信的延遲和不穩(wěn)定會(huì)導(dǎo)致信息傳遞緩慢,進(jìn)而影響優(yōu)化決策的效率,該問(wèn)題會(huì)隨軟件部署的規(guī)模擴(kuò)大而加深.因此本文讓每個(gè)節(jié)點(diǎn)通過(guò)不完全的節(jié)點(diǎn)信息,相互博弈做出決策,具體做法是根據(jù)每次優(yōu)化的最大時(shí)間限制和迭代次數(shù)上限計(jì)算出通信時(shí)延的閾值,各個(gè)節(jié)點(diǎn)選擇與自己通信穩(wěn)定且通信時(shí)延較符合閾值的節(jié)點(diǎn)建立連接,智能體使用不完全的節(jié)點(diǎn)信息做出決策來(lái)優(yōu)化軟件性能.
本文的主要研究?jī)?nèi)容是通過(guò)分布在軟件節(jié)點(diǎn)上智能體間的博弈實(shí)現(xiàn)網(wǎng)絡(luò)化軟件優(yōu)化機(jī)制,一個(gè)博弈場(chǎng)景G描述為G={N,v,V,F,J},下面分別介紹.
1)N={A1,A2,…,An}為網(wǎng)絡(luò)中的智能體集合,其中n為集合的大小,即網(wǎng)絡(luò)化軟件的節(jié)點(diǎn)數(shù)量.
2)v=(v1,v2,…,vn),其中vi為各個(gè)智能體維護(hù)的取值(value),取值可以代表節(jié)點(diǎn)的最大硬件負(fù)載、最大任務(wù)排隊(duì)量等參數(shù),智能體通過(guò)調(diào)整自身的取值實(shí)現(xiàn)各類優(yōu)化決策.
3)V=V1×V2×…×Vn,其中Vi為各個(gè)智能體的取值空間(value space),取值空間是對(duì)智能體取值的限制,對(duì)于每個(gè)智能體的值有vi∈Vi,即智能體只能在取值空間規(guī)定的范圍內(nèi)調(diào)整自身的取值.
4)F:V為全局效益函數(shù),是一個(gè)關(guān)于智能體取值的函數(shù),由所有分析預(yù)測(cè)節(jié)點(diǎn)根據(jù)系統(tǒng)的情況給出,用于衡量系統(tǒng)的整體性能.本文中的效益函數(shù)F的結(jié)果為系統(tǒng)功耗、響應(yīng)時(shí)間等與軟件系統(tǒng)性能負(fù)相關(guān)的指標(biāo),系統(tǒng)的優(yōu)化目標(biāo)等價(jià)于優(yōu)化問(wèn)題:
(1)
5)J={J1,J2,…,Jn}為各個(gè)智能體的收益函數(shù)集合,其中Ji:V,收益函數(shù)由分析預(yù)測(cè)節(jié)點(diǎn)賦予智能體,是智能體進(jìn)行決策的標(biāo)準(zhǔn),各個(gè)智能體在多輪博弈中通過(guò)調(diào)整自身取值獲取更高的收益函數(shù)值,并最終讓整個(gè)系統(tǒng)達(dá)到納什均衡(Nash equilibrium),從而產(chǎn)生調(diào)整策略,納什均衡的定義如下.
在納什均衡下,網(wǎng)絡(luò)中所有的智能體都無(wú)法僅通過(guò)改變自身的取值使得自身的收益函數(shù)結(jié)果變得更好,當(dāng)博弈到達(dá)納什均衡時(shí),各個(gè)智能體的取值將趨于穩(wěn)定.通過(guò)合理地構(gòu)造智能體的收益函數(shù),可以讓博弈的納什均衡充分接近如式(1)所示的優(yōu)化問(wèn)題的解.本文使用一種簡(jiǎn)單的博弈構(gòu)造方法,對(duì)于網(wǎng)絡(luò)中的所有智能體Ai,令
這種方式構(gòu)造出的是一類具有良好特性的博弈:勢(shì)博弈(potential games).
則稱博弈G為勢(shì)博弈,Φ為G的勢(shì)函數(shù).
顯然,使用上文方法構(gòu)造出的全局效益函數(shù)F是對(duì)應(yīng)博弈的勢(shì)函數(shù).在勢(shì)博弈中,單個(gè)智能體的取值改變對(duì)其自身的收益函數(shù)的影響和對(duì)全局效益函數(shù)的影響相同,有限勢(shì)博弈一定存在納什均衡,這為本文的優(yōu)化決策設(shè)計(jì)提供了收斂保證.由于各個(gè)智能體不能完全掌握網(wǎng)絡(luò)中所有智能體的取值情況,所以無(wú)法直接計(jì)算收益函數(shù).為了解決這個(gè)問(wèn)題,引入智能體的取值估計(jì)(estimation)[9]:e=(e1,e2,…,en)替代真實(shí)的取值計(jì)算收益函數(shù),其中ei= (ei1,ei2,…,ein),eij表示智能體Ai對(duì)智能體Aj取值的估計(jì),用于替代智能體Ai可能無(wú)法得知的智能體Aj的取值vj.在第3節(jié)中將介紹如何讓取值估計(jì)在博弈迭代過(guò)程中接近各個(gè)智能體的真實(shí)取值,以使得這種決策方式是有效的.
本文考慮連續(xù)博弈(continuous games),即F和Ji均為連續(xù)函數(shù)的博弈決策問(wèn)題,如帶寬控制等采用連續(xù)取值空間的優(yōu)化問(wèn)題需要使用連續(xù)博弈解決,服務(wù)降級(jí)、CPU核心、成塊的內(nèi)存分配等離散目標(biāo)則需要先轉(zhuǎn)換為連續(xù)的優(yōu)化問(wèn)題.梯度博弈是一種常用的連續(xù)博弈決策方法[23],在每輪博弈中,各個(gè)智能體將取值估計(jì)代入收益函數(shù),沿自身取值的梯度方向?qū)θ≈颠M(jìn)行調(diào)整:
(2)
其中:vi(t)表示智能體Ai在第t輪迭代時(shí)的取值;εi>0,為每輪更新取值的步長(zhǎng);符號(hào)[·]+表示第t輪時(shí)梯度在智能體Ai可選取值變化集合上的投影,防止取值超出該節(jié)點(diǎn)可以選擇的范圍.對(duì)于第2節(jié)中構(gòu)造的博弈G={N,v,V,F,J},設(shè)F在V上具有凸性,則G能使用梯度博弈以合適的步長(zhǎng)收斂至納什均衡[9,23],大部分的軟件優(yōu)化問(wèn)題滿足該條件或可轉(zhuǎn)化為滿足該條件的等價(jià)問(wèn)題[24-25],如果無(wú)法滿足該條件則無(wú)法使用此類方法求解納什均衡.與常規(guī)的梯度博弈不同,式(2)在更新取值時(shí)使用的不是真實(shí)的梯度,而是根據(jù)估計(jì)值ei計(jì)算出的虛擬梯度,顯然,如果在博弈迭代中智能體無(wú)法正確估計(jì)全局的取值情況,梯度博弈將由于錯(cuò)誤的梯度而無(wú)法收斂至納什均衡.
為了讓智能體正確估計(jì)其余智能體的取值,基于一致性協(xié)議對(duì)各個(gè)智能體的估計(jì)值進(jìn)行修正,使其接近系統(tǒng)中各個(gè)節(jié)點(diǎn)的真實(shí)狀態(tài).在每輪博弈的取值調(diào)整前,每個(gè)智能體向與其建立連接的智能體集合Ni發(fā)送自己的取值和估計(jì)信息,并在調(diào)整結(jié)束后利用這些信息:
1) 通過(guò)一致性協(xié)議[16]減少各個(gè)智能體之間的估計(jì)誤差,令
(3)
其中Ni為與Ai建立連接的智能體集合(包括Ai自身).
(4)
注意,雖然每個(gè)智能體能在博弈當(dāng)中獲取一定的真實(shí)取值信息,但不能通過(guò)持續(xù)將其代入收益函數(shù)的方式計(jì)算梯度,因?yàn)檫@樣會(huì)破壞式(3)的信息交換,可能會(huì)引起算法失效.
3) 更新估計(jì)值
(5)
其中α1和α2為比例系數(shù),0<α1<1,0<α2<1,α1和α2用于約束估計(jì)值的變化速度.與常規(guī)的一致性協(xié)議不同,以上方法中除了需要讓智能體與相鄰智能體的估計(jì)趨于一致外,還要讓估計(jì)值接近一組不斷變化的真實(shí)取值.
綜合第2節(jié)中的系統(tǒng)模型和本節(jié)的博弈機(jī)制,基于Li等人[9]和Ye等人[14]的工作,我們總結(jié)了基于多智能體一致性和梯度博弈的分布式優(yōu)化(distributed optimization based on consensus and gradient-play, DOCG)算法.
算法1.DOCG算法.
輸入:迭代次數(shù)上限l、各個(gè)智能體的初始取值vi(0)、梯度博弈步長(zhǎng)εi、比例系數(shù)α1和α2;
輸出:更新完成后的各個(gè)智能體取值v′.
① for each AgentIinN
②ei(0)←v(0);/*通過(guò)網(wǎng)絡(luò)通信初始化各
個(gè)智能體的估計(jì)值*/
③ end for
④iter_count←0;
⑤ whileiter_count ⑥ for each AgentIinN ⑦getinfo(); /*從相鄰的智能體獲取信息*/ ⑧gradient_play(ei(iter_count),εi); /*使用估計(jì)值和梯度博弈更新取值*/ ⑨estimation_update();/*基于相鄰智 能體的信息更新估計(jì)值*/ ⑩ end for 顯然,智能體間到達(dá)納什均衡的充要條件為所有智能體的估計(jì)值等于其可獲得的真實(shí)取值,且在多輪迭代中不再變化.當(dāng)智能體的估計(jì)值與相鄰智能體取值相等且穩(wěn)定時(shí),根據(jù)梯度博弈的原理,任何智能體對(duì)取值做出的調(diào)整都會(huì)讓自身的收益函數(shù)結(jié)果變差,根據(jù)定義1,此時(shí)博弈已達(dá)到納什均衡;另一方面,假設(shè)存在智能體的估計(jì)值與相鄰智能體的估計(jì)或真實(shí)取值序列存在偏差,那么在接下來(lái)的迭代中該智能體仍會(huì)根據(jù)式(5)修正自身的估計(jì)值,此時(shí)智能體間并不是納什均衡狀態(tài).基于Ye等人[14]的分析,在效益函數(shù)滿足一定條件時(shí),使用算法1控制的系統(tǒng)達(dá)到的納什均衡是Lyapunov穩(wěn)定的,軟件系統(tǒng)本質(zhì)上也是一種控制系統(tǒng)[26],但算法1中的梯度博弈的步長(zhǎng)和估計(jì)修正中的比例系數(shù)很大程度上影響了方法的收斂能力.在3.2節(jié)和3.3節(jié)中,將探究如何設(shè)置和控制這2類參數(shù)以提升算法的收斂能力. 在算法1中,取值更新和估計(jì)修正過(guò)程是相互影響的,過(guò)大的估計(jì)誤差會(huì)造成梯度方向的偏移,使取值越來(lái)越偏離應(yīng)有的更新方向,同時(shí)取值的錯(cuò)誤更新也會(huì)反作用于估計(jì)值的修正,進(jìn)而造成惡性循環(huán)讓取值點(diǎn)“迷失”在高維曲面上無(wú)法到達(dá)對(duì)應(yīng)納什均衡的取值點(diǎn).對(duì)于更新步長(zhǎng)ε=(εi)和比例系數(shù)α1,α2各存在一組范圍上限,當(dāng)ε和α1,α2均在范圍限制之內(nèi)時(shí),算法1能保證收斂至納什均衡,但這2類上限的嚴(yán)格計(jì)算都和全局效益函數(shù)F有關(guān),且對(duì)于每個(gè)智能體,計(jì)算這2類上限的時(shí)間復(fù)雜度均在O(n2)以上[14].顯然通過(guò)計(jì)算確定這2種參數(shù)是不明智的,而為了保證方法收斂保守地選擇參數(shù)則會(huì)降低算法的效率. 對(duì)于算法1,假設(shè)比例系數(shù)符合收斂限制,暫時(shí)停止取值的更新(暫時(shí)令步長(zhǎng)ε=0)并讓各個(gè)智能體以式(5)的方法修正估計(jì)值,各個(gè)智能體的估計(jì)值將在迭代中逐漸統(tǒng)一并收斂于真實(shí)的取值.這時(shí)使用式(2)計(jì)算的梯度將趨于真實(shí)的梯度,之后當(dāng)估計(jì)誤差過(guò)大時(shí)再次停止更新取值并修正估計(jì)值,重復(fù)這個(gè)過(guò)程能讓各個(gè)智能體將取值調(diào)整至納什均衡的某個(gè)鄰域當(dāng)中,但這種做法會(huì)大幅降低算法的效率.基于以上討論,我們提出一種隨迭代過(guò)程變化的步長(zhǎng)選取方法,令 (6) 其中 為智能體估計(jì)值與相鄰智能體真實(shí)取值之間的誤差;εmax i為該智能體沿虛擬梯度更新的最大步長(zhǎng),當(dāng)智能體對(duì)相鄰智能體的估計(jì)值沒(méi)有誤差時(shí),可以以最大步長(zhǎng)更新自身的取值;τi為衰減系數(shù),0<τi<1,讓取值的迭代步長(zhǎng)隨估計(jì)誤差的增大而減小,實(shí)現(xiàn)在誤差過(guò)大時(shí)減緩取值的更新速度. 可變步長(zhǎng)可以防止上文中提到的“取值迷失”情況并為步長(zhǎng)提供了更大的選擇空間,但同時(shí)也帶來(lái)了新的問(wèn)題.在算法執(zhí)行后期各個(gè)智能體之間的估計(jì)值和取值差異將逐步收斂,此時(shí)可變步長(zhǎng)也將趨于最大步長(zhǎng),如圖3所示,當(dāng)最大步長(zhǎng)過(guò)大時(shí)算法會(huì)在納什均衡點(diǎn)附近發(fā)生震蕩,這種現(xiàn)象會(huì)隨著最大步長(zhǎng)的增加而變得越發(fā)嚴(yán)重.根據(jù)3.1節(jié)中關(guān)于算法1的納什均衡條件的討論,當(dāng)震蕩現(xiàn)象發(fā)生時(shí)降低最大步長(zhǎng)即可讓算法收斂,具體做法為:為式(3)的估計(jì)誤差設(shè)定范圍判斷其是否接近收斂狀態(tài),在幾輪迭代后,若估計(jì)誤差接近算法卻沒(méi)有達(dá)到納什均衡,則逐步下調(diào)最大步長(zhǎng),該機(jī)制的具體執(zhí)行方式見3.4節(jié). Fig. 3 Oscillation phenomenon圖3 震蕩現(xiàn)象 3.2節(jié)中,我們?cè)诒壤禂?shù)符合收斂條件的情況下討論了步長(zhǎng)的設(shè)計(jì)與調(diào)整,然而,不當(dāng)?shù)谋壤禂?shù)將導(dǎo)致估計(jì)值與真實(shí)取值之間的誤差越來(lái)越大,讓式(6)的可變步長(zhǎng)逐漸趨于0,最終智能體的取值不再更新,算法呈現(xiàn)出如圖4所示的過(guò)早收斂現(xiàn)象. Fig. 4 Premature convergence phenomenon圖4 過(guò)早收斂現(xiàn)象 為了防止因不當(dāng)?shù)谋壤禂?shù)引起的算法過(guò)早收斂,我們?yōu)榛诳勺儾介L(zhǎng)的算法1研究一種比例系數(shù)調(diào)整和誤差協(xié)調(diào)機(jī)制.類似于3.2節(jié)中的最大步長(zhǎng)調(diào)整方法,為智能體的可變步長(zhǎng)設(shè)置下限δε,當(dāng)可變步長(zhǎng)小于δε時(shí),觸發(fā)強(qiáng)制協(xié)調(diào): 1) 由于舊的比例系數(shù)無(wú)法有效地修正估計(jì)值,首先需要嘗試降低當(dāng)前的比例系數(shù),讓比例系數(shù)以某種方式降低,比例系數(shù)降低后,誤差的擴(kuò)大速度將減慢,如果此時(shí)的比例系數(shù)仍會(huì)引起過(guò)早收斂,使用原先的判斷條件觸發(fā)強(qiáng)制協(xié)調(diào)需要更多的迭代輪數(shù),需要更加嚴(yán)格地對(duì)誤差大小進(jìn)行限制,合理地提高判斷誤差過(guò)大的可變步長(zhǎng)下限δε; 2) 另一方面,觸發(fā)強(qiáng)制協(xié)調(diào)機(jī)制時(shí)各個(gè)智能體的估計(jì)誤差很大,考慮到使用式(5)的迭代方法修正誤差的效率,且調(diào)整后的比例系數(shù)可能仍不符合收斂條件,會(huì)繼續(xù)擴(kuò)大誤差,因此在觸發(fā)強(qiáng)制協(xié)調(diào)時(shí)將各個(gè)智能體當(dāng)前可獲得的取值信息賦值于其估計(jì)值,即讓 eij=vj,Aj∈Nj. 強(qiáng)制協(xié)調(diào)完成后,智能體繼續(xù)執(zhí)行算法直至發(fā)現(xiàn)誤差過(guò)大再次進(jìn)行協(xié)調(diào)或達(dá)到納什均衡.強(qiáng)制協(xié)調(diào)的本質(zhì)是限制智能體之間估計(jì)誤差的大小并在必要時(shí)修正比例系數(shù)和重啟算法,提高收斂速度. 將3.2節(jié)中的自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制綜合到算法1中,本文的網(wǎng)絡(luò)化軟件優(yōu)化決策機(jī)制可以總結(jié)為算法2. 算法2.DOCGAC(distributed optimization based on consensus and gradient-play with adaptive step size and coordination)算法. 輸入:迭代次數(shù)上限l、各個(gè)智能體的初始取值vi(0)、最大步長(zhǎng)εmax i、衰減系數(shù)τi、初始比例系數(shù)α1和α2、判別震蕩的估計(jì)誤差范圍δerr、判別過(guò)早收斂的可變步長(zhǎng)下限δε; 輸出:更新完成后的各個(gè)智能體取值v′. ① for each AgentIinN ②ei(0)←v(0); ③ end for ④iter_count←0; ⑤ whileiter_count ⑥ for each AgentIinN ⑦getinfo(); ⑧εi←variable_step_size(ei(iter_count), {vj(iter_count)},εmax i,τi) ; /*可變步長(zhǎng)*/ ⑨gradient_play(vi(iter_count), ei(iter_count),εi); ⑩estimation_update();/*更新估計(jì)值*/ 算法2使用了按比例減小的方法搜索合適的參數(shù).在最大步長(zhǎng)和比例系數(shù)的下調(diào)方面,只要讓它們進(jìn)入收斂條件的范圍即可,保守的下調(diào)可能導(dǎo)致頻繁觸發(fā)調(diào)整機(jī)制,而過(guò)于激進(jìn)的下調(diào)方式反而會(huì)讓參數(shù)變得過(guò)小影響方法的收斂速度,甚至引起類似于提前收斂的情況,按比例縮小是一種較為折中的選擇.另一方面,合理的初始值能夠減少參數(shù)下調(diào)觸發(fā)的次數(shù),提高算法的收斂速度.對(duì)于最大步長(zhǎng),其合理的初始取值受網(wǎng)絡(luò)規(guī)模和效益函數(shù)的復(fù)雜程度影響,在實(shí)際使用中,由于系統(tǒng)在運(yùn)行過(guò)程中會(huì)多次執(zhí)行優(yōu)化機(jī)制,因此可以根據(jù)同類型優(yōu)化問(wèn)題處理時(shí)的歷史數(shù)據(jù)對(duì)初始值進(jìn)行調(diào)整,如果智能體在連續(xù)的r輪迭代中都未觸發(fā)步長(zhǎng)下調(diào),則可以謹(jǐn)慎地提高初始值以提高算法的收斂速度,更新最大步長(zhǎng)為 其中β為大于1的數(shù),可以選用下調(diào)最大步長(zhǎng)時(shí)使用乘數(shù)的倒數(shù),反之,如果在1輪算法中需要多次下調(diào)步長(zhǎng),則需要在下次算法開始前降低初始值.智能體在執(zhí)行算法時(shí)記錄本次算法中觸發(fā)下調(diào)最大步長(zhǎng)的次數(shù)c,令新的最大步長(zhǎng)為 最大步長(zhǎng)會(huì)在長(zhǎng)期的優(yōu)化過(guò)程中趨于穩(wěn)定.對(duì)于比例系數(shù)α1,α1限制的是式(3)中基于一致性協(xié)議的估計(jì)修正速率,該值與智能體的相鄰智能體個(gè)數(shù)有關(guān),相鄰智能體的個(gè)數(shù)越多,誤差的累積效應(yīng)就越強(qiáng),一種簡(jiǎn)單的選取方法是讓每個(gè)智能體的初始比例系數(shù)α1與其鄰接智能體的個(gè)數(shù)成反比,如令 (7) 而α2限制的式(4)只和單個(gè)相鄰智能體的取值有關(guān),其本質(zhì)是估計(jì)值向取值的靠近速度,與梯度博弈中的步長(zhǎng)類似,因此可讓其初始值與最大步長(zhǎng)的初始值保持一致. 為了驗(yàn)證方法的有效性,我們將在4.1節(jié)和4.2節(jié)對(duì)本團(tuán)隊(duì)前期開發(fā)的網(wǎng)上商城系統(tǒng)[27]進(jìn)行了仿真實(shí)驗(yàn),該軟件是典型的互聯(lián)網(wǎng)應(yīng)用,通過(guò)集群節(jié)點(diǎn)協(xié)同為用戶提供服務(wù),其整體性能受各個(gè)節(jié)點(diǎn)的狀態(tài)影響,適合使用本文的方法進(jìn)行調(diào)控.我們基于團(tuán)隊(duì)在軟件狀態(tài)分析方面的工作[21]分析了該系統(tǒng)某一時(shí)段的各個(gè)節(jié)點(diǎn)帶寬與總體響應(yīng)延遲之間的關(guān)系,建立了模擬該系統(tǒng)的10個(gè)虛擬節(jié)點(diǎn),以圖5所示的方式進(jìn)行連接,通過(guò)本文提出的方法讓各個(gè)智能體調(diào)節(jié)軟件節(jié)點(diǎn)的帶寬,以系統(tǒng)響應(yīng)時(shí)間的預(yù)測(cè)值為指標(biāo)方法驗(yàn)證有效性,初始帶寬的取值使用了分析時(shí)的日志記錄值. Fig. 5 Connectivity of agents in our simulation圖5 本文仿真實(shí)驗(yàn)智能體連接方式 在本節(jié)中,我們對(duì)3.2節(jié)和3.3節(jié)提出的2類機(jī)制觸發(fā)和效果分別進(jìn)行了測(cè)試,以驗(yàn)證它們的效果. 1) 自適應(yīng)梯度步長(zhǎng)機(jī)制的觸發(fā) 本文的自適應(yīng)梯度步長(zhǎng)機(jī)制分為可變步長(zhǎng)和最大步長(zhǎng)的調(diào)整過(guò)程,本節(jié)分別對(duì)完整的自適應(yīng)梯度步長(zhǎng)機(jī)制、只使用可變步長(zhǎng)以及只使用最大步長(zhǎng)下調(diào)的情況進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如圖6所示.本輪實(shí)驗(yàn)中,各個(gè)智能體的最大步長(zhǎng)εmax i均取0.3,衰減系數(shù)τi均取0.5,比例系數(shù)α1,α2均分別取0.2,0.4,其中,在只使用最大步長(zhǎng)下調(diào)的情況下使用的最大步長(zhǎng)為0.1. Fig. 6 Triggering of adaptive step size mechanism圖6 自適應(yīng)步長(zhǎng)機(jī)制的觸發(fā)情況 從圖6中可以看出,如果不使用步長(zhǎng)下調(diào),算法會(huì)在即將到達(dá)納什均衡時(shí)由于過(guò)大的步長(zhǎng)發(fā)生震蕩現(xiàn)象;如果不使用可變步長(zhǎng),算法雖然能在合適的步長(zhǎng)下收斂至納什均衡,但在收斂過(guò)程中會(huì)受到估計(jì)誤差的影響,出現(xiàn)頻繁的震動(dòng),此時(shí)比例系數(shù)稍有不當(dāng)就會(huì)讓估計(jì)值與真實(shí)值的誤差越來(lái)越大進(jìn)而導(dǎo)致算法發(fā)散. 2) 強(qiáng)制協(xié)調(diào)機(jī)制 Fig. 7 Triggering of forced coordination mechanism圖7 強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)情況 我們首先測(cè)試了在使用可變步長(zhǎng)時(shí)強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)情況,分別對(duì)使用和不使用強(qiáng)制協(xié)調(diào)下的方法迭代情況進(jìn)行了實(shí)驗(yàn)測(cè)試.令所有智能體的初始最大步長(zhǎng)εmax i=0.2,衰減系數(shù)τi=0.5,比例系數(shù)α1的初始值按式(7)的方法選取,α2的初始值均取0.8,實(shí)驗(yàn)結(jié)果如圖7(a)所示.在不使用強(qiáng)制協(xié)調(diào)的情況下,由于估計(jì)誤差過(guò)大可變步長(zhǎng)歸零導(dǎo)致算法在迭代剛剛開始時(shí)就停止更新,而強(qiáng)制協(xié)調(diào)機(jī)制能夠?qū)Ρ壤禂?shù)進(jìn)行搜索并有效避免過(guò)早收斂現(xiàn)象.另一方面,不使用可變步長(zhǎng),在步長(zhǎng)合適的情況下,使用強(qiáng)制協(xié)調(diào)機(jī)制也能實(shí)現(xiàn)對(duì)比例系數(shù)的搜索.如圖7(b)所示,將所有智能體的步長(zhǎng)均固定為0.1,用于判斷估計(jì)誤差大小的最大步長(zhǎng)設(shè)置為0.08(雖然不使用可變步長(zhǎng),但強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)條件是該值的大小,本輪實(shí)驗(yàn)中的可變步長(zhǎng)僅用于判斷估計(jì)誤差大小,不用于計(jì)算取值更新),算法在經(jīng)過(guò)幾次比例系數(shù)的下調(diào)后成功收斂到納什均衡,相同的參數(shù)選取下不使用強(qiáng)制協(xié)調(diào)機(jī)制算法會(huì)發(fā)散. 根據(jù)4.1節(jié)的討論,算法2主要在收斂速度、參數(shù)選取等方面對(duì)算法1進(jìn)行了改進(jìn),我們分別使用算法1和算法2對(duì)本節(jié)開始時(shí)提到的優(yōu)化問(wèn)題進(jìn)行了處理,同時(shí),為了進(jìn)一步驗(yàn)證本文方法相較于傳統(tǒng)方法的優(yōu)勢(shì),我們選取了經(jīng)典的最佳響應(yīng)(best response, BR)和虛擬博弈 (fictitious play, FP)[12]作為參照.BR,F(xiàn)P以及本文使用的梯度方法是機(jī)器博弈研究中3類常見的決策方法,當(dāng)前該領(lǐng)域的研究大多是在這3類方法的基礎(chǔ)上改進(jìn)而來(lái),目前仍有很多相關(guān)的研究和討論,其中最主要的研究是通過(guò)近似值替代最佳值的方式克服大量數(shù)據(jù)帶來(lái)的求解問(wèn)題[15,28-29],在本文的實(shí)驗(yàn)條件下近似值會(huì)影響求解精度和收斂輪數(shù),此處使用精確的最佳值反映3種方法間的區(qū)別以及不完全信息帶來(lái)的影響.本輪實(shí)驗(yàn)中,算法1的參數(shù)選取:為了防止發(fā)散,步長(zhǎng)εi均使用0.05,比例系數(shù)α1,α2均分別設(shè)定為0.2,0.8;算法2的參數(shù)選?。撼跏甲畲蟛介L(zhǎng)εmax i均設(shè)置為表現(xiàn)較為平均的0.3,衰減系數(shù)τi均使用較為保守的0.5,比例系數(shù)α1的初始值使用式(7)的選取方法,α2的初始值均設(shè)置為0.8;BR和FP均使用估計(jì)值計(jì)算收益函數(shù),為了確保能夠順利執(zhí)行,這2種算法的比例系數(shù)組合都選取為0.2和0.3. Fig. 8 Convergence performance of algorithms圖8 各類算法的效果對(duì)比 實(shí)驗(yàn)結(jié)果如圖8所示,可以看出算法1使用較為保守的參數(shù)平穩(wěn)地收斂到納什均衡,而算法2由于在執(zhí)行初期更新取值時(shí)使用了最大步長(zhǎng),各個(gè)智能體間的博弈導(dǎo)致預(yù)期結(jié)果發(fā)生了巨大的波動(dòng),但在接下來(lái)的幾輪博弈中在可變步長(zhǎng)和強(qiáng)制協(xié)調(diào)機(jī)制的控制下,各個(gè)智能體放慢了更新幅度并修正了自身對(duì)其他智能體的估計(jì),將取值更新重新拉回了正確的方向,最后比改進(jìn)前的算法更快速地收斂到了納什均衡.BR由于各個(gè)智能體激進(jìn)地追求自身的最佳收益,無(wú)法完全達(dá)成平衡;FP通過(guò)根據(jù)歷史平均采取最佳響應(yīng),穩(wěn)定地收斂到了平衡狀態(tài),但收斂速度不如前2種方法. 為了驗(yàn)證方法在復(fù)雜網(wǎng)絡(luò)中的效果,我們進(jìn)行了更大規(guī)模的實(shí)驗(yàn),設(shè)置了1 000個(gè)模擬節(jié)點(diǎn).由于可供使用的節(jié)點(diǎn)數(shù)據(jù)不足,我們模仿文獻(xiàn)[14]中的方法進(jìn)行了數(shù)值實(shí)驗(yàn),在3種典型的網(wǎng)絡(luò)結(jié)構(gòu):隨機(jī)網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)、無(wú)標(biāo)度網(wǎng)絡(luò)上對(duì)算法2進(jìn)行了測(cè)試.在隨機(jī)網(wǎng)絡(luò)中設(shè)置連邊概率p分別為0.1,0.2,0.4,0.8;在小世界網(wǎng)絡(luò)中,鄰邊數(shù)k分別取20,40,80,100,重連概率被固定為0.2;在無(wú)標(biāo)度網(wǎng)絡(luò)中,每次加入的邊數(shù)m分別設(shè)置為10,20,40,50,每種網(wǎng)絡(luò)隨機(jī)生成后進(jìn)行測(cè)試記錄結(jié)果,各重復(fù)20次取平均值,實(shí)驗(yàn)結(jié)果如圖9所示.由圖9可知,在隨機(jī)網(wǎng)絡(luò)中,隨著智能體間的連邊增加,算法的收斂速度會(huì)大幅減慢,但不會(huì)引起發(fā)散.這與我們的設(shè)想相反,因?yàn)橐恢滦詤f(xié)議修正估計(jì)值的速度會(huì)隨連邊的增加而加快[17],且在全連接實(shí)驗(yàn)中,算法的收斂表現(xiàn)非常好.引起這種情況的原因是復(fù)雜的網(wǎng)絡(luò)構(gòu)成讓智能體間的估計(jì)相互影響,導(dǎo)致估計(jì)修正速度變慢,進(jìn)而減慢了達(dá)到納什均衡的速度.而在小世界網(wǎng)絡(luò)和無(wú)標(biāo)度網(wǎng)絡(luò)中,由于在局部的網(wǎng)絡(luò)結(jié)構(gòu)中出現(xiàn)了近似于全連接的狀態(tài),降低了該問(wèn)題的影響,因此在這2種網(wǎng)絡(luò)中,連邊數(shù)量的增加對(duì)收斂性能的影響不大.網(wǎng)絡(luò)的復(fù)雜性會(huì)一定程度上降低算法的收斂效率,但不會(huì)導(dǎo)致算法失效. Fig. 9 Experimental results of algorithm in complex networks圖9 復(fù)雜網(wǎng)絡(luò)的算法實(shí)驗(yàn)結(jié)果 在本文中,我們針對(duì)網(wǎng)絡(luò)化軟件的優(yōu)化決策問(wèn)題建立了系統(tǒng)模型,將現(xiàn)有的基于多智能體一致性的分布式梯度博弈方法研究總結(jié)為了DOCG算法,并提出了將其應(yīng)用在網(wǎng)絡(luò)化軟件的優(yōu)化決策問(wèn)題中的方法.此外,我們對(duì)該算法進(jìn)行了改進(jìn),研究了能調(diào)節(jié)尋優(yōu)速度和自動(dòng)搜索合適參數(shù)的自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制,提出了DOCGAC算法,為軟件在連續(xù)工作中的持續(xù)參數(shù)優(yōu)化提供了一種解決方案.實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法能更快地收斂至納什均衡,并且降低了方法對(duì)參數(shù)選取的要求,使此類算法能夠應(yīng)用于網(wǎng)絡(luò)化軟件系統(tǒng)的優(yōu)化任務(wù)中. 我們的方法也存在一定的不足,與原算法相同,DOCGAC收斂到的納什均衡無(wú)法保證是對(duì)應(yīng)優(yōu)化問(wèn)題的全局最優(yōu)解.在未來(lái)的工作中,我們將探索如何讓此類方法的納什均衡更靠近理論最優(yōu)值,并在真實(shí)的大規(guī)模網(wǎng)絡(luò)化軟件中進(jìn)一步測(cè)試和改進(jìn)我們的方法. 作者貢獻(xiàn)聲明:舒暢提出核心方法,參與實(shí)驗(yàn)框架的設(shè)計(jì)和實(shí)驗(yàn)編程,并最終完成了論文的撰寫;李青山擬定研究方向,設(shè)計(jì)了具體的研究方案;王璐設(shè)計(jì)了實(shí)驗(yàn)框架和方法,完善研究方案;王子奇負(fù)責(zé)實(shí)驗(yàn)編程及論文撰寫;計(jì)亞江負(fù)責(zé)實(shí)驗(yàn)數(shù)據(jù)收集和論文核定.3.2 自適應(yīng)梯度步長(zhǎng)機(jī)制
3.3 強(qiáng)制協(xié)調(diào)機(jī)制
3.4 決策算法
4 實(shí)驗(yàn)分析
4.1 機(jī)制觸發(fā)
4.2 對(duì)比實(shí)驗(yàn)
4.3 復(fù)雜網(wǎng)絡(luò)實(shí)驗(yàn)
5 總結(jié)與展望