基于梯度博弈的網(wǎng)絡(luò)化軟件優(yōu)化機(jī)制

2022-09-06 07:31:38李青山王子奇計(jì)亞江

計(jì)算機(jī)研究與發(fā)展 2022年9期

舒暢李青山王璐王子奇計(jì)亞江

(西安電子科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院西安 710071)

(shuchang@stu.xidian.edu.cn)

隨著互聯(lián)網(wǎng)的普及和移動(dòng)技術(shù)的發(fā)展，當(dāng)前軟件技術(shù)的發(fā)展呈現(xiàn)出了明顯的網(wǎng)絡(luò)化趨勢(shì)，越來(lái)越多的軟件應(yīng)用選擇將業(yè)務(wù)或服務(wù)拆分后布置在不同的硬件設(shè)施上，通過(guò)互聯(lián)網(wǎng)通信協(xié)同完成工作，以實(shí)現(xiàn)更多樣化的功能.這類以網(wǎng)絡(luò)為媒介，以信息或服務(wù)資源為元素，以元素間的協(xié)同與互操作為構(gòu)造手段，所建立的軟件密集型混合系統(tǒng)被稱為網(wǎng)絡(luò)化軟件[1].《中國(guó)互聯(lián)網(wǎng)發(fā)展報(bào)告(2021)》顯示，2020年我國(guó)工業(yè)互聯(lián)網(wǎng)市場(chǎng)規(guī)模已超9 000億元，物聯(lián)網(wǎng)市場(chǎng)規(guī)模達(dá)1.7萬(wàn)億元，網(wǎng)絡(luò)化軟件的研究和發(fā)展有著廣闊的前景.

近年來(lái)，互聯(lián)網(wǎng)應(yīng)用規(guī)模擴(kuò)展迅速，網(wǎng)絡(luò)化軟件在互聯(lián)網(wǎng)中的部署越來(lái)越復(fù)雜，節(jié)點(diǎn)故障、通信擁塞、激增的用戶請(qǐng)求等突發(fā)因素為軟件的平穩(wěn)運(yùn)行帶來(lái)了巨大挑戰(zhàn)，導(dǎo)致軟件性能和服務(wù)質(zhì)量的下降，造成重大的損失.例如，2019年6月，谷歌的云服務(wù)器出現(xiàn)約4 h的宕機(jī)故障，大量基于該服務(wù)的網(wǎng)站或應(yīng)用服務(wù)加載緩慢、無(wú)法登錄，其中，大型視頻網(wǎng)站YouTube的全球觀看人數(shù)減少了10%；2021年3月，蘋果App Store，iCloud等服務(wù)出現(xiàn)大規(guī)模故障，大量用戶訪問(wèn)相關(guān)服務(wù)緩慢或失敗.因此，網(wǎng)絡(luò)化軟件需要實(shí)現(xiàn)優(yōu)化調(diào)整功能，主動(dòng)調(diào)節(jié)各類參數(shù)，以保障軟件的正常運(yùn)行，防止性能下降，提高系統(tǒng)的穩(wěn)定性.

網(wǎng)絡(luò)化軟件部署在異構(gòu)的聯(lián)網(wǎng)設(shè)備上，根據(jù)功能或服務(wù)范圍由數(shù)量不等的計(jì)算設(shè)備組成軟件節(jié)點(diǎn)，完成發(fā)送、匯集與處理數(shù)據(jù)的任務(wù).軟件節(jié)點(diǎn)的大量部署使網(wǎng)絡(luò)化軟件產(chǎn)生了高度分布的特征.在此背景下，網(wǎng)絡(luò)化軟件的發(fā)展呈現(xiàn)出去中心化的趨勢(shì)，系統(tǒng)架構(gòu)越發(fā)開放和平等，系統(tǒng)中每個(gè)節(jié)點(diǎn)高度自治，不具備強(qiáng)制性的中心控制[2].然而，由于網(wǎng)絡(luò)化軟件高度分布的特點(diǎn)，軟件節(jié)點(diǎn)之間存在的通信延遲阻礙了節(jié)點(diǎn)間的信息共享，導(dǎo)致各個(gè)節(jié)點(diǎn)在進(jìn)行自主優(yōu)化調(diào)整時(shí)出現(xiàn)個(gè)體與集體信念的不一致，為網(wǎng)絡(luò)化軟件系統(tǒng)的優(yōu)化調(diào)整帶來(lái)了困難.

針對(duì)網(wǎng)絡(luò)化軟件性能優(yōu)化中存在的節(jié)點(diǎn)間信息交流問(wèn)題，本文研究了一種基于多智能體博弈的分布式優(yōu)化框架，將智能體設(shè)置在不同的軟件節(jié)點(diǎn)上，各個(gè)智能體使用有限的信息估計(jì)系統(tǒng)狀態(tài)并做出決策對(duì)軟件的參數(shù)進(jìn)行管理，實(shí)現(xiàn)軟件性能的優(yōu)化.此外，本文針對(duì)現(xiàn)有方法易發(fā)散、參數(shù)選取困難的問(wèn)題提出了自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制，根據(jù)各個(gè)智能體的估計(jì)誤差調(diào)整當(dāng)前決策尋優(yōu)步長(zhǎng)，防止由于智能體之間估計(jì)偏差過(guò)大帶來(lái)的發(fā)散問(wèn)題，同時(shí)保證了方法的收斂速度.

1 相關(guān)工作

目前軟件在線優(yōu)化的研究主要集中于如何通過(guò)合理的資源分配和任務(wù)調(diào)度提高軟件的服務(wù)質(zhì)量或降低資源消耗和運(yùn)營(yíng)成本.阿里巴巴的云服務(wù)器集群采用了集中式任務(wù)管理機(jī)制，在阿里巴巴的混部集群中，由Sigma和Fuxi兩種管理中心匯總各個(gè)服務(wù)器的運(yùn)行信息并對(duì)進(jìn)程合理調(diào)度以提升資源的利用率[3]；Sahni等人[4]提出了一種啟發(fā)式的云計(jì)算資源彈性伸縮方法，該方法通過(guò)資源提供歷史和在線的工作負(fù)載分析估計(jì)后續(xù)任務(wù)的資源需求，之后使用貪心算法給出一組最優(yōu)的資源配置，以更低的資源消耗和更高的資源利用率滿足軟件的服務(wù)質(zhì)量需求；Chen等人[5]基于反饋控制實(shí)現(xiàn)了一種組合服務(wù)的自優(yōu)化機(jī)制，設(shè)置函數(shù)數(shù)值化計(jì)算當(dāng)前的服務(wù)質(zhì)量，根據(jù)計(jì)算結(jié)果使用比例積分微分控制器對(duì)影響服務(wù)質(zhì)量的因素進(jìn)行重要性排序，產(chǎn)生優(yōu)化調(diào)整的策略；Das等人[6]針對(duì)流處理系統(tǒng)的容錯(cuò)和效率問(wèn)題，提出了一種基于不動(dòng)點(diǎn)迭代的控制算法，自適應(yīng)地調(diào)整批處理作業(yè)的大小，使工作負(fù)載能夠適應(yīng)系統(tǒng)當(dāng)前的情況.現(xiàn)有研究以軟件控制的自動(dòng)化和智能化為目的，但大多著眼于使用集中控制方法對(duì)軟件系統(tǒng)進(jìn)行調(diào)控，然而，這種方法無(wú)法完全適用于愈發(fā)龐大、愈發(fā)復(fù)雜的網(wǎng)絡(luò)化軟件系統(tǒng).首先，在集中控制的情況下，中心控制節(jié)點(diǎn)的故障將會(huì)導(dǎo)致調(diào)控機(jī)制停擺，缺乏可靠性；其次，集中為所有軟件節(jié)點(diǎn)提供控制策略需要收集大量的節(jié)點(diǎn)信息并產(chǎn)生巨大的計(jì)算開銷，效率低下；最后，在部署或移除軟件節(jié)點(diǎn)時(shí)，需要為中心節(jié)點(diǎn)更新控制邏輯，難以應(yīng)用于動(dòng)態(tài)變化的大型系統(tǒng).

本文采用多智能體博弈的方法對(duì)網(wǎng)絡(luò)化軟件進(jìn)行優(yōu)化，將智能體設(shè)置在不同的軟件節(jié)點(diǎn)上，實(shí)現(xiàn)分布式的優(yōu)化決策與控制，相關(guān)研究聚焦于智能體的收益函數(shù)的設(shè)計(jì)和博弈決策方法上.收益函數(shù)的設(shè)計(jì)很大程度影響了博弈優(yōu)化的收斂效果，為了保證系統(tǒng)能在多輪博弈后達(dá)到納什均衡，常見的做法是根據(jù)實(shí)際情況將收益函數(shù)設(shè)計(jì)成符合勢(shì)博弈(potential games)[7]和凸博弈(convex games)[8]等具有良好收斂性質(zhì)的形式.Li等人[9]通過(guò)改造系統(tǒng)的全局目標(biāo)函數(shù)作為各個(gè)智能體的收益函數(shù)，設(shè)計(jì)了一種使用非完全信息的勢(shì)博弈分布式優(yōu)化模型；Wu等人[10]為多智能體任務(wù)分配問(wèn)題設(shè)計(jì)了一種勢(shì)博弈模型，該模型將各智能體的收益函數(shù)設(shè)置為任務(wù)收益的指數(shù)形式，保證重要的任務(wù)被優(yōu)先完成，此外，將實(shí)際需求與參與智能體數(shù)目之差作為指數(shù)，防止過(guò)多的智能體被分配于同一任務(wù)造成浪費(fèi).博弈決策的目的是如何讓智能體做出決策優(yōu)化自身收益函數(shù)的值，常見的決策方法有沿收益函數(shù)的梯度調(diào)整的梯度博弈(gradient-play)[11]、根據(jù)歷史博弈記錄計(jì)算最佳決策的虛擬博弈(fictitious play)[12]、根據(jù)概率分布選擇策略的對(duì)數(shù)線性學(xué)習(xí)(log-linear learning)[13]等.Ye等人[14]對(duì)梯度博弈進(jìn)行了擴(kuò)展，在收益函數(shù)中使用對(duì)所有智能體值的估計(jì)值計(jì)算梯度，使其能讓系統(tǒng)中的各個(gè)智能體在不了解全局信息的情況下收斂至納什均衡；Heinrich等人[15]使用強(qiáng)化學(xué)習(xí)過(guò)程尋找最優(yōu)近似代替虛擬博弈中的最優(yōu)策略選取，改善了此類方法在大規(guī)模的博弈場(chǎng)景中的表現(xiàn).

在分布式多智能體博弈中，智能體之間的信念沖突是導(dǎo)致博弈無(wú)法達(dá)到納什均衡的主要原因之一，本文采用多智能體一致性協(xié)議(consensus protocols)緩解系統(tǒng)中各個(gè)智能體之間的信念差異，該技術(shù)來(lái)源于自動(dòng)化和控制理論領(lǐng)域，是一種通過(guò)智能體間信息交換實(shí)現(xiàn)信念趨同和協(xié)同合作的技術(shù).Saber等人在文獻(xiàn)[16]中提出了多智能體一致性協(xié)議的基礎(chǔ)形式和收斂分析，并在文獻(xiàn)[17]中進(jìn)一步分析了收斂速度與智能體網(wǎng)絡(luò)的連通度和網(wǎng)絡(luò)類型之間的關(guān)系；Xie等人[18]在基礎(chǔ)的一致性協(xié)議上增加了基于智能體當(dāng)前狀態(tài)的反饋控制機(jī)制，該協(xié)議能在變化的網(wǎng)絡(luò)連接狀態(tài)下收斂；Zuo等人[19]根據(jù)不等式關(guān)系進(jìn)一步改造了一致性協(xié)議，使其能在有外部干擾的情況下以任意初始狀態(tài)在有限時(shí)間內(nèi)收斂.

2 優(yōu)化模型

2.1 系統(tǒng)模型

為了便于讀者理解本文的優(yōu)化決策機(jī)制，首先給出本文的系統(tǒng)模型.本文系統(tǒng)模型的構(gòu)建基于廣泛應(yīng)用于自主計(jì)算領(lǐng)域的感知—分析—決策—執(zhí)行(monitor-analyze-plan-execute, MAPE)控制方法[20]，如圖1所示，MAPE循環(huán)包括4個(gè)主要階段：

1) 感知(monitor)階段.該階段收集系統(tǒng)信息，對(duì)系統(tǒng)參數(shù)和結(jié)構(gòu)的變化情況進(jìn)行監(jiān)控，并將變化數(shù)值化傳遞給分析階段.

2) 分析(analyze)階段.該階段根據(jù)感知階段收集的信息確定系統(tǒng)的當(dāng)前狀態(tài)和變化趨勢(shì).

3) 決策(plan)階段.該階段針對(duì)當(dāng)前系統(tǒng)的狀態(tài)和問(wèn)題產(chǎn)生調(diào)整策略，以保證系統(tǒng)的穩(wěn)定運(yùn)行或優(yōu)化系統(tǒng)的性能.

4) 執(zhí)行(execute)階段.該階段根據(jù)決策階段產(chǎn)生的策略調(diào)整系統(tǒng)行為，在執(zhí)行階段結(jié)束后，將再次進(jìn)入感知階段開啟下輪MAPE控制循環(huán).

Fig. 1 MAPE loop圖1 MAPE循環(huán)

本文的系統(tǒng)模型如圖2所示，在網(wǎng)絡(luò)化軟件系統(tǒng)中設(shè)置分析預(yù)測(cè)節(jié)點(diǎn)負(fù)責(zé)感知階段和分析階段的工作，收集節(jié)點(diǎn)信息，分析預(yù)測(cè)節(jié)點(diǎn)根據(jù)與軟件節(jié)點(diǎn)間的網(wǎng)絡(luò)延遲確定管理范圍，對(duì)分析范圍內(nèi)的軟件系統(tǒng)狀態(tài)建模并分析預(yù)測(cè)系統(tǒng)性能的變化情況，生成節(jié)點(diǎn)數(shù)據(jù)與該區(qū)域系統(tǒng)總體效益之間的函數(shù)[21].分析完成后，各個(gè)分析預(yù)測(cè)節(jié)點(diǎn)將結(jié)果分發(fā)給網(wǎng)絡(luò)中的軟件節(jié)點(diǎn)，部署在各個(gè)軟件節(jié)點(diǎn)上的智能體以此為依據(jù)對(duì)節(jié)點(diǎn)的參數(shù)進(jìn)行調(diào)整，實(shí)現(xiàn)系統(tǒng)性能的整體優(yōu)化.

Fig. 2 System model of networked software圖2 網(wǎng)絡(luò)化軟件系統(tǒng)模型

在這個(gè)過(guò)程中，由于網(wǎng)絡(luò)化軟件系統(tǒng)的性能受各個(gè)軟件節(jié)點(diǎn)狀態(tài)的影響，分析預(yù)測(cè)節(jié)點(diǎn)得到的函數(shù)變量中包含多個(gè)軟件節(jié)點(diǎn)的參數(shù)，部署在軟件節(jié)點(diǎn)上的智能體需要擁有其他節(jié)點(diǎn)的信息才能做出優(yōu)化決策.然而，分布在各處的軟件節(jié)點(diǎn)雖然能夠通過(guò)網(wǎng)絡(luò)相互通信間接獲取全局的節(jié)點(diǎn)信息，但長(zhǎng)距離通信的延遲和不穩(wěn)定會(huì)導(dǎo)致信息傳遞緩慢，進(jìn)而影響優(yōu)化決策的效率，該問(wèn)題會(huì)隨軟件部署的規(guī)模擴(kuò)大而加深.因此本文讓每個(gè)節(jié)點(diǎn)通過(guò)不完全的節(jié)點(diǎn)信息，相互博弈做出決策，具體做法是根據(jù)每次優(yōu)化的最大時(shí)間限制和迭代次數(shù)上限計(jì)算出通信時(shí)延的閾值，各個(gè)節(jié)點(diǎn)選擇與自己通信穩(wěn)定且通信時(shí)延較符合閾值的節(jié)點(diǎn)建立連接，智能體使用不完全的節(jié)點(diǎn)信息做出決策來(lái)優(yōu)化軟件性能.

2.2 博弈模型

本文的主要研究?jī)?nèi)容是通過(guò)分布在軟件節(jié)點(diǎn)上智能體間的博弈實(shí)現(xiàn)網(wǎng)絡(luò)化軟件優(yōu)化機(jī)制，一個(gè)博弈場(chǎng)景G描述為G={N,v,V,F,J}，下面分別介紹.

1)N={A1,A2,…,An}為網(wǎng)絡(luò)中的智能體集合，其中n為集合的大小，即網(wǎng)絡(luò)化軟件的節(jié)點(diǎn)數(shù)量.

2)v=(v1,v2,…,vn)，其中vi為各個(gè)智能體維護(hù)的取值(value)，取值可以代表節(jié)點(diǎn)的最大硬件負(fù)載、最大任務(wù)排隊(duì)量等參數(shù)，智能體通過(guò)調(diào)整自身的取值實(shí)現(xiàn)各類優(yōu)化決策.

3)V=V1×V2×…×Vn，其中Vi為各個(gè)智能體的取值空間(value space)，取值空間是對(duì)智能體取值的限制，對(duì)于每個(gè)智能體的值有vi∈Vi，即智能體只能在取值空間規(guī)定的范圍內(nèi)調(diào)整自身的取值.

4)F:V為全局效益函數(shù)，是一個(gè)關(guān)于智能體取值的函數(shù)，由所有分析預(yù)測(cè)節(jié)點(diǎn)根據(jù)系統(tǒng)的情況給出，用于衡量系統(tǒng)的整體性能.本文中的效益函數(shù)F的結(jié)果為系統(tǒng)功耗、響應(yīng)時(shí)間等與軟件系統(tǒng)性能負(fù)相關(guān)的指標(biāo)，系統(tǒng)的優(yōu)化目標(biāo)等價(jià)于優(yōu)化問(wèn)題：

(1)

5)J={J1,J2,…,Jn}為各個(gè)智能體的收益函數(shù)集合，其中Ji:V，收益函數(shù)由分析預(yù)測(cè)節(jié)點(diǎn)賦予智能體，是智能體進(jìn)行決策的標(biāo)準(zhǔn)，各個(gè)智能體在多輪博弈中通過(guò)調(diào)整自身取值獲取更高的收益函數(shù)值，并最終讓整個(gè)系統(tǒng)達(dá)到納什均衡(Nash equilibrium),從而產(chǎn)生調(diào)整策略，納什均衡的定義如下.

在納什均衡下，網(wǎng)絡(luò)中所有的智能體都無(wú)法僅通過(guò)改變自身的取值使得自身的收益函數(shù)結(jié)果變得更好，當(dāng)博弈到達(dá)納什均衡時(shí)，各個(gè)智能體的取值將趨于穩(wěn)定.通過(guò)合理地構(gòu)造智能體的收益函數(shù)，可以讓博弈的納什均衡充分接近如式(1)所示的優(yōu)化問(wèn)題的解.本文使用一種簡(jiǎn)單的博弈構(gòu)造方法，對(duì)于網(wǎng)絡(luò)中的所有智能體Ai，令

這種方式構(gòu)造出的是一類具有良好特性的博弈：勢(shì)博弈(potential games).

則稱博弈G為勢(shì)博弈，Φ為G的勢(shì)函數(shù).

顯然，使用上文方法構(gòu)造出的全局效益函數(shù)F是對(duì)應(yīng)博弈的勢(shì)函數(shù).在勢(shì)博弈中，單個(gè)智能體的取值改變對(duì)其自身的收益函數(shù)的影響和對(duì)全局效益函數(shù)的影響相同，有限勢(shì)博弈一定存在納什均衡，這為本文的優(yōu)化決策設(shè)計(jì)提供了收斂保證.由于各個(gè)智能體不能完全掌握網(wǎng)絡(luò)中所有智能體的取值情況，所以無(wú)法直接計(jì)算收益函數(shù).為了解決這個(gè)問(wèn)題，引入智能體的取值估計(jì)(estimation)[9]：e=(e1,e2,…,en)替代真實(shí)的取值計(jì)算收益函數(shù)，其中ei= (ei1,ei2,…,ein)，eij表示智能體Ai對(duì)智能體Aj取值的估計(jì)，用于替代智能體Ai可能無(wú)法得知的智能體Aj的取值vj.在第3節(jié)中將介紹如何讓取值估計(jì)在博弈迭代過(guò)程中接近各個(gè)智能體的真實(shí)取值，以使得這種決策方式是有效的.

3 網(wǎng)絡(luò)化軟件博弈優(yōu)化機(jī)制

3.1 基于多智能體一致性的梯度博弈

本文考慮連續(xù)博弈(continuous games)，即F和Ji均為連續(xù)函數(shù)的博弈決策問(wèn)題，如帶寬控制等采用連續(xù)取值空間的優(yōu)化問(wèn)題需要使用連續(xù)博弈解決，服務(wù)降級(jí)、CPU核心、成塊的內(nèi)存分配等離散目標(biāo)則需要先轉(zhuǎn)換為連續(xù)的優(yōu)化問(wèn)題.梯度博弈是一種常用的連續(xù)博弈決策方法[23]，在每輪博弈中，各個(gè)智能體將取值估計(jì)代入收益函數(shù)，沿自身取值的梯度方向?qū)θ≈颠M(jìn)行調(diào)整：

(2)

其中：vi(t)表示智能體Ai在第t輪迭代時(shí)的取值；εi>0，為每輪更新取值的步長(zhǎng)；符號(hào)[·]+表示第t輪時(shí)梯度在智能體Ai可選取值變化集合上的投影，防止取值超出該節(jié)點(diǎn)可以選擇的范圍.對(duì)于第2節(jié)中構(gòu)造的博弈G={N,v,V,F,J}，設(shè)F在V上具有凸性，則G能使用梯度博弈以合適的步長(zhǎng)收斂至納什均衡[9,23]，大部分的軟件優(yōu)化問(wèn)題滿足該條件或可轉(zhuǎn)化為滿足該條件的等價(jià)問(wèn)題[24-25]，如果無(wú)法滿足該條件則無(wú)法使用此類方法求解納什均衡.與常規(guī)的梯度博弈不同，式(2)在更新取值時(shí)使用的不是真實(shí)的梯度，而是根據(jù)估計(jì)值ei計(jì)算出的虛擬梯度，顯然，如果在博弈迭代中智能體無(wú)法正確估計(jì)全局的取值情況，梯度博弈將由于錯(cuò)誤的梯度而無(wú)法收斂至納什均衡.

為了讓智能體正確估計(jì)其余智能體的取值，基于一致性協(xié)議對(duì)各個(gè)智能體的估計(jì)值進(jìn)行修正，使其接近系統(tǒng)中各個(gè)節(jié)點(diǎn)的真實(shí)狀態(tài).在每輪博弈的取值調(diào)整前，每個(gè)智能體向與其建立連接的智能體集合Ni發(fā)送自己的取值和估計(jì)信息，并在調(diào)整結(jié)束后利用這些信息：

1) 通過(guò)一致性協(xié)議[16]減少各個(gè)智能體之間的估計(jì)誤差，令

(3)

其中Ni為與Ai建立連接的智能體集合(包括Ai自身).

(4)

注意，雖然每個(gè)智能體能在博弈當(dāng)中獲取一定的真實(shí)取值信息，但不能通過(guò)持續(xù)將其代入收益函數(shù)的方式計(jì)算梯度，因?yàn)檫@樣會(huì)破壞式(3)的信息交換，可能會(huì)引起算法失效.

3) 更新估計(jì)值

(5)

其中α1和α2為比例系數(shù)，0<α1<1，0<α2<1，α1和α2用于約束估計(jì)值的變化速度.與常規(guī)的一致性協(xié)議不同，以上方法中除了需要讓智能體與相鄰智能體的估計(jì)趨于一致外，還要讓估計(jì)值接近一組不斷變化的真實(shí)取值.

綜合第2節(jié)中的系統(tǒng)模型和本節(jié)的博弈機(jī)制，基于Li等人[9]和Ye等人[14]的工作，我們總結(jié)了基于多智能體一致性和梯度博弈的分布式優(yōu)化(distributed optimization based on consensus and gradient-play, DOCG)算法.

算法1.DOCG算法.

輸入：迭代次數(shù)上限l、各個(gè)智能體的初始取值vi(0)、梯度博弈步長(zhǎng)εi、比例系數(shù)α1和α2；

輸出：更新完成后的各個(gè)智能體取值v′.

① for each AgentIinN

②ei(0)←v(0);/*通過(guò)網(wǎng)絡(luò)通信初始化各

個(gè)智能體的估計(jì)值*/

③ end for

④iter_count←0;

⑤ whileiter_count

⑥ for each AgentIinN

⑦getinfo();

/*從相鄰的智能體獲取信息*/

⑧gradient_play(ei(iter_count),εi);

/*使用估計(jì)值和梯度博弈更新取值*/

⑨estimation_update();/*基于相鄰智

能體的信息更新估計(jì)值*/

⑩ end for

顯然，智能體間到達(dá)納什均衡的充要條件為所有智能體的估計(jì)值等于其可獲得的真實(shí)取值，且在多輪迭代中不再變化.當(dāng)智能體的估計(jì)值與相鄰智能體取值相等且穩(wěn)定時(shí)，根據(jù)梯度博弈的原理，任何智能體對(duì)取值做出的調(diào)整都會(huì)讓自身的收益函數(shù)結(jié)果變差，根據(jù)定義1，此時(shí)博弈已達(dá)到納什均衡；另一方面，假設(shè)存在智能體的估計(jì)值與相鄰智能體的估計(jì)或真實(shí)取值序列存在偏差，那么在接下來(lái)的迭代中該智能體仍會(huì)根據(jù)式(5)修正自身的估計(jì)值，此時(shí)智能體間并不是納什均衡狀態(tài).基于Ye等人[14]的分析，在效益函數(shù)滿足一定條件時(shí)，使用算法1控制的系統(tǒng)達(dá)到的納什均衡是Lyapunov穩(wěn)定的，軟件系統(tǒng)本質(zhì)上也是一種控制系統(tǒng)[26]，但算法1中的梯度博弈的步長(zhǎng)和估計(jì)修正中的比例系數(shù)很大程度上影響了方法的收斂能力.在3.2節(jié)和3.3節(jié)中，將探究如何設(shè)置和控制這2類參數(shù)以提升算法的收斂能力.

3.2 自適應(yīng)梯度步長(zhǎng)機(jī)制

在算法1中，取值更新和估計(jì)修正過(guò)程是相互影響的，過(guò)大的估計(jì)誤差會(huì)造成梯度方向的偏移，使取值越來(lái)越偏離應(yīng)有的更新方向，同時(shí)取值的錯(cuò)誤更新也會(huì)反作用于估計(jì)值的修正，進(jìn)而造成惡性循環(huán)讓取值點(diǎn)“迷失”在高維曲面上無(wú)法到達(dá)對(duì)應(yīng)納什均衡的取值點(diǎn).對(duì)于更新步長(zhǎng)ε=(εi)和比例系數(shù)α1，α2各存在一組范圍上限，當(dāng)ε和α1，α2均在范圍限制之內(nèi)時(shí)，算法1能保證收斂至納什均衡，但這2類上限的嚴(yán)格計(jì)算都和全局效益函數(shù)F有關(guān)，且對(duì)于每個(gè)智能體，計(jì)算這2類上限的時(shí)間復(fù)雜度均在O(n2)以上[14].顯然通過(guò)計(jì)算確定這2種參數(shù)是不明智的，而為了保證方法收斂保守地選擇參數(shù)則會(huì)降低算法的效率.

對(duì)于算法1，假設(shè)比例系數(shù)符合收斂限制，暫時(shí)停止取值的更新(暫時(shí)令步長(zhǎng)ε=0)并讓各個(gè)智能體以式(5)的方法修正估計(jì)值，各個(gè)智能體的估計(jì)值將在迭代中逐漸統(tǒng)一并收斂于真實(shí)的取值.這時(shí)使用式(2)計(jì)算的梯度將趨于真實(shí)的梯度，之后當(dāng)估計(jì)誤差過(guò)大時(shí)再次停止更新取值并修正估計(jì)值，重復(fù)這個(gè)過(guò)程能讓各個(gè)智能體將取值調(diào)整至納什均衡的某個(gè)鄰域當(dāng)中，但這種做法會(huì)大幅降低算法的效率.基于以上討論，我們提出一種隨迭代過(guò)程變化的步長(zhǎng)選取方法，令

(6)

其中

為智能體估計(jì)值與相鄰智能體真實(shí)取值之間的誤差；εmax i為該智能體沿虛擬梯度更新的最大步長(zhǎng)，當(dāng)智能體對(duì)相鄰智能體的估計(jì)值沒(méi)有誤差時(shí)，可以以最大步長(zhǎng)更新自身的取值；τi為衰減系數(shù)，0<τi<1，讓取值的迭代步長(zhǎng)隨估計(jì)誤差的增大而減小，實(shí)現(xiàn)在誤差過(guò)大時(shí)減緩取值的更新速度.

可變步長(zhǎng)可以防止上文中提到的“取值迷失”情況并為步長(zhǎng)提供了更大的選擇空間，但同時(shí)也帶來(lái)了新的問(wèn)題.在算法執(zhí)行后期各個(gè)智能體之間的估計(jì)值和取值差異將逐步收斂，此時(shí)可變步長(zhǎng)也將趨于最大步長(zhǎng)，如圖3所示，當(dāng)最大步長(zhǎng)過(guò)大時(shí)算法會(huì)在納什均衡點(diǎn)附近發(fā)生震蕩，這種現(xiàn)象會(huì)隨著最大步長(zhǎng)的增加而變得越發(fā)嚴(yán)重.根據(jù)3.1節(jié)中關(guān)于算法1的納什均衡條件的討論，當(dāng)震蕩現(xiàn)象發(fā)生時(shí)降低最大步長(zhǎng)即可讓算法收斂，具體做法為：為式(3)的估計(jì)誤差設(shè)定范圍判斷其是否接近收斂狀態(tài)，在幾輪迭代后，若估計(jì)誤差接近算法卻沒(méi)有達(dá)到納什均衡，則逐步下調(diào)最大步長(zhǎng)，該機(jī)制的具體執(zhí)行方式見3.4節(jié).

Fig. 3 Oscillation phenomenon圖3 震蕩現(xiàn)象

3.3 強(qiáng)制協(xié)調(diào)機(jī)制

3.2節(jié)中，我們?cè)诒壤禂?shù)符合收斂條件的情況下討論了步長(zhǎng)的設(shè)計(jì)與調(diào)整，然而，不當(dāng)?shù)谋壤禂?shù)將導(dǎo)致估計(jì)值與真實(shí)取值之間的誤差越來(lái)越大，讓式(6)的可變步長(zhǎng)逐漸趨于0，最終智能體的取值不再更新，算法呈現(xiàn)出如圖4所示的過(guò)早收斂現(xiàn)象.

Fig. 4 Premature convergence phenomenon圖4 過(guò)早收斂現(xiàn)象

為了防止因不當(dāng)?shù)谋壤禂?shù)引起的算法過(guò)早收斂，我們?yōu)榛诳勺儾介L(zhǎng)的算法1研究一種比例系數(shù)調(diào)整和誤差協(xié)調(diào)機(jī)制.類似于3.2節(jié)中的最大步長(zhǎng)調(diào)整方法，為智能體的可變步長(zhǎng)設(shè)置下限δε，當(dāng)可變步長(zhǎng)小于δε時(shí)，觸發(fā)強(qiáng)制協(xié)調(diào)：

1) 由于舊的比例系數(shù)無(wú)法有效地修正估計(jì)值，首先需要嘗試降低當(dāng)前的比例系數(shù)，讓比例系數(shù)以某種方式降低，比例系數(shù)降低后，誤差的擴(kuò)大速度將減慢，如果此時(shí)的比例系數(shù)仍會(huì)引起過(guò)早收斂，使用原先的判斷條件觸發(fā)強(qiáng)制協(xié)調(diào)需要更多的迭代輪數(shù)，需要更加嚴(yán)格地對(duì)誤差大小進(jìn)行限制，合理地提高判斷誤差過(guò)大的可變步長(zhǎng)下限δε；

2) 另一方面，觸發(fā)強(qiáng)制協(xié)調(diào)機(jī)制時(shí)各個(gè)智能體的估計(jì)誤差很大，考慮到使用式(5)的迭代方法修正誤差的效率，且調(diào)整后的比例系數(shù)可能仍不符合收斂條件，會(huì)繼續(xù)擴(kuò)大誤差，因此在觸發(fā)強(qiáng)制協(xié)調(diào)時(shí)將各個(gè)智能體當(dāng)前可獲得的取值信息賦值于其估計(jì)值，即讓

eij=vj,Aj∈Nj.

強(qiáng)制協(xié)調(diào)完成后，智能體繼續(xù)執(zhí)行算法直至發(fā)現(xiàn)誤差過(guò)大再次進(jìn)行協(xié)調(diào)或達(dá)到納什均衡.強(qiáng)制協(xié)調(diào)的本質(zhì)是限制智能體之間估計(jì)誤差的大小并在必要時(shí)修正比例系數(shù)和重啟算法，提高收斂速度.

3.4 決策算法

將3.2節(jié)中的自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制綜合到算法1中，本文的網(wǎng)絡(luò)化軟件優(yōu)化決策機(jī)制可以總結(jié)為算法2.

算法2.DOCGAC(distributed optimization based on consensus and gradient-play with adaptive step size and coordination)算法.

輸入：迭代次數(shù)上限l、各個(gè)智能體的初始取值vi(0)、最大步長(zhǎng)εmax i、衰減系數(shù)τi、初始比例系數(shù)α1和α2、判別震蕩的估計(jì)誤差范圍δerr、判別過(guò)早收斂的可變步長(zhǎng)下限δε；

輸出：更新完成后的各個(gè)智能體取值v′.

① for each AgentIinN

②ei(0)←v(0);

③ end for

④iter_count←0;

⑤ whileiter_count

⑥ for each AgentIinN

⑦getinfo();

⑧εi←variable_step_size(ei(iter_count),

{vj(iter_count)},εmax i,τi) ;

/*可變步長(zhǎng)*/

⑨gradient_play(vi(iter_count),

ei(iter_count),εi);

⑩estimation_update();/*更新估計(jì)值*/

算法2使用了按比例減小的方法搜索合適的參數(shù).在最大步長(zhǎng)和比例系數(shù)的下調(diào)方面，只要讓它們進(jìn)入收斂條件的范圍即可，保守的下調(diào)可能導(dǎo)致頻繁觸發(fā)調(diào)整機(jī)制，而過(guò)于激進(jìn)的下調(diào)方式反而會(huì)讓參數(shù)變得過(guò)小影響方法的收斂速度，甚至引起類似于提前收斂的情況，按比例縮小是一種較為折中的選擇.另一方面，合理的初始值能夠減少參數(shù)下調(diào)觸發(fā)的次數(shù)，提高算法的收斂速度.對(duì)于最大步長(zhǎng)，其合理的初始取值受網(wǎng)絡(luò)規(guī)模和效益函數(shù)的復(fù)雜程度影響，在實(shí)際使用中，由于系統(tǒng)在運(yùn)行過(guò)程中會(huì)多次執(zhí)行優(yōu)化機(jī)制，因此可以根據(jù)同類型優(yōu)化問(wèn)題處理時(shí)的歷史數(shù)據(jù)對(duì)初始值進(jìn)行調(diào)整，如果智能體在連續(xù)的r輪迭代中都未觸發(fā)步長(zhǎng)下調(diào)，則可以謹(jǐn)慎地提高初始值以提高算法的收斂速度，更新最大步長(zhǎng)為

其中β為大于1的數(shù)，可以選用下調(diào)最大步長(zhǎng)時(shí)使用乘數(shù)的倒數(shù)，反之，如果在1輪算法中需要多次下調(diào)步長(zhǎng)，則需要在下次算法開始前降低初始值.智能體在執(zhí)行算法時(shí)記錄本次算法中觸發(fā)下調(diào)最大步長(zhǎng)的次數(shù)c，令新的最大步長(zhǎng)為

最大步長(zhǎng)會(huì)在長(zhǎng)期的優(yōu)化過(guò)程中趨于穩(wěn)定.對(duì)于比例系數(shù)α1，α1限制的是式(3)中基于一致性協(xié)議的估計(jì)修正速率，該值與智能體的相鄰智能體個(gè)數(shù)有關(guān)，相鄰智能體的個(gè)數(shù)越多，誤差的累積效應(yīng)就越強(qiáng)，一種簡(jiǎn)單的選取方法是讓每個(gè)智能體的初始比例系數(shù)α1與其鄰接智能體的個(gè)數(shù)成反比，如令

(7)

而α2限制的式(4)只和單個(gè)相鄰智能體的取值有關(guān)，其本質(zhì)是估計(jì)值向取值的靠近速度，與梯度博弈中的步長(zhǎng)類似，因此可讓其初始值與最大步長(zhǎng)的初始值保持一致.

4 實(shí)驗(yàn)分析

為了驗(yàn)證方法的有效性，我們將在4.1節(jié)和4.2節(jié)對(duì)本團(tuán)隊(duì)前期開發(fā)的網(wǎng)上商城系統(tǒng)[27]進(jìn)行了仿真實(shí)驗(yàn)，該軟件是典型的互聯(lián)網(wǎng)應(yīng)用，通過(guò)集群節(jié)點(diǎn)協(xié)同為用戶提供服務(wù)，其整體性能受各個(gè)節(jié)點(diǎn)的狀態(tài)影響，適合使用本文的方法進(jìn)行調(diào)控.我們基于團(tuán)隊(duì)在軟件狀態(tài)分析方面的工作[21]分析了該系統(tǒng)某一時(shí)段的各個(gè)節(jié)點(diǎn)帶寬與總體響應(yīng)延遲之間的關(guān)系，建立了模擬該系統(tǒng)的10個(gè)虛擬節(jié)點(diǎn)，以圖5所示的方式進(jìn)行連接，通過(guò)本文提出的方法讓各個(gè)智能體調(diào)節(jié)軟件節(jié)點(diǎn)的帶寬，以系統(tǒng)響應(yīng)時(shí)間的預(yù)測(cè)值為指標(biāo)方法驗(yàn)證有效性，初始帶寬的取值使用了分析時(shí)的日志記錄值.

Fig. 5 Connectivity of agents in our simulation圖5 本文仿真實(shí)驗(yàn)智能體連接方式

4.1 機(jī)制觸發(fā)

在本節(jié)中，我們對(duì)3.2節(jié)和3.3節(jié)提出的2類機(jī)制觸發(fā)和效果分別進(jìn)行了測(cè)試，以驗(yàn)證它們的效果.

1) 自適應(yīng)梯度步長(zhǎng)機(jī)制的觸發(fā)

本文的自適應(yīng)梯度步長(zhǎng)機(jī)制分為可變步長(zhǎng)和最大步長(zhǎng)的調(diào)整過(guò)程，本節(jié)分別對(duì)完整的自適應(yīng)梯度步長(zhǎng)機(jī)制、只使用可變步長(zhǎng)以及只使用最大步長(zhǎng)下調(diào)的情況進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果分別如圖6所示.本輪實(shí)驗(yàn)中，各個(gè)智能體的最大步長(zhǎng)εmax i均取0.3，衰減系數(shù)τi均取0.5，比例系數(shù)α1，α2均分別取0.2，0.4，其中，在只使用最大步長(zhǎng)下調(diào)的情況下使用的最大步長(zhǎng)為0.1.

Fig. 6 Triggering of adaptive step size mechanism圖6 自適應(yīng)步長(zhǎng)機(jī)制的觸發(fā)情況

從圖6中可以看出，如果不使用步長(zhǎng)下調(diào)，算法會(huì)在即將到達(dá)納什均衡時(shí)由于過(guò)大的步長(zhǎng)發(fā)生震蕩現(xiàn)象；如果不使用可變步長(zhǎng)，算法雖然能在合適的步長(zhǎng)下收斂至納什均衡，但在收斂過(guò)程中會(huì)受到估計(jì)誤差的影響，出現(xiàn)頻繁的震動(dòng)，此時(shí)比例系數(shù)稍有不當(dāng)就會(huì)讓估計(jì)值與真實(shí)值的誤差越來(lái)越大進(jìn)而導(dǎo)致算法發(fā)散.

2) 強(qiáng)制協(xié)調(diào)機(jī)制

Fig. 7 Triggering of forced coordination mechanism圖7 強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)情況

我們首先測(cè)試了在使用可變步長(zhǎng)時(shí)強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)情況，分別對(duì)使用和不使用強(qiáng)制協(xié)調(diào)下的方法迭代情況進(jìn)行了實(shí)驗(yàn)測(cè)試.令所有智能體的初始最大步長(zhǎng)εmax i=0.2，衰減系數(shù)τi=0.5，比例系數(shù)α1的初始值按式(7)的方法選取，α2的初始值均取0.8，實(shí)驗(yàn)結(jié)果如圖7(a)所示.在不使用強(qiáng)制協(xié)調(diào)的情況下，由于估計(jì)誤差過(guò)大可變步長(zhǎng)歸零導(dǎo)致算法在迭代剛剛開始時(shí)就停止更新，而強(qiáng)制協(xié)調(diào)機(jī)制能夠?qū)Ρ壤禂?shù)進(jìn)行搜索并有效避免過(guò)早收斂現(xiàn)象.另一方面，不使用可變步長(zhǎng)，在步長(zhǎng)合適的情況下，使用強(qiáng)制協(xié)調(diào)機(jī)制也能實(shí)現(xiàn)對(duì)比例系數(shù)的搜索.如圖7(b)所示，將所有智能體的步長(zhǎng)均固定為0.1，用于判斷估計(jì)誤差大小的最大步長(zhǎng)設(shè)置為0.08(雖然不使用可變步長(zhǎng)，但強(qiáng)制協(xié)調(diào)機(jī)制的觸發(fā)條件是該值的大小，本輪實(shí)驗(yàn)中的可變步長(zhǎng)僅用于判斷估計(jì)誤差大小，不用于計(jì)算取值更新)，算法在經(jīng)過(guò)幾次比例系數(shù)的下調(diào)后成功收斂到納什均衡，相同的參數(shù)選取下不使用強(qiáng)制協(xié)調(diào)機(jī)制算法會(huì)發(fā)散.

4.2 對(duì)比實(shí)驗(yàn)

根據(jù)4.1節(jié)的討論，算法2主要在收斂速度、參數(shù)選取等方面對(duì)算法1進(jìn)行了改進(jìn)，我們分別使用算法1和算法2對(duì)本節(jié)開始時(shí)提到的優(yōu)化問(wèn)題進(jìn)行了處理，同時(shí)，為了進(jìn)一步驗(yàn)證本文方法相較于傳統(tǒng)方法的優(yōu)勢(shì)，我們選取了經(jīng)典的最佳響應(yīng)(best response, BR)和虛擬博弈 (fictitious play, FP)[12]作為參照.BR，F(xiàn)P以及本文使用的梯度方法是機(jī)器博弈研究中3類常見的決策方法，當(dāng)前該領(lǐng)域的研究大多是在這3類方法的基礎(chǔ)上改進(jìn)而來(lái)，目前仍有很多相關(guān)的研究和討論，其中最主要的研究是通過(guò)近似值替代最佳值的方式克服大量數(shù)據(jù)帶來(lái)的求解問(wèn)題[15,28-29]，在本文的實(shí)驗(yàn)條件下近似值會(huì)影響求解精度和收斂輪數(shù)，此處使用精確的最佳值反映3種方法間的區(qū)別以及不完全信息帶來(lái)的影響.本輪實(shí)驗(yàn)中，算法1的參數(shù)選取：為了防止發(fā)散，步長(zhǎng)εi均使用0.05，比例系數(shù)α1，α2均分別設(shè)定為0.2，0.8；算法2的參數(shù)選?。撼跏甲畲蟛介L(zhǎng)εmax i均設(shè)置為表現(xiàn)較為平均的0.3，衰減系數(shù)τi均使用較為保守的0.5，比例系數(shù)α1的初始值使用式(7)的選取方法，α2的初始值均設(shè)置為0.8；BR和FP均使用估計(jì)值計(jì)算收益函數(shù)，為了確保能夠順利執(zhí)行，這2種算法的比例系數(shù)組合都選取為0.2和0.3.

Fig. 8 Convergence performance of algorithms圖8 各類算法的效果對(duì)比

實(shí)驗(yàn)結(jié)果如圖8所示，可以看出算法1使用較為保守的參數(shù)平穩(wěn)地收斂到納什均衡，而算法2由于在執(zhí)行初期更新取值時(shí)使用了最大步長(zhǎng)，各個(gè)智能體間的博弈導(dǎo)致預(yù)期結(jié)果發(fā)生了巨大的波動(dòng)，但在接下來(lái)的幾輪博弈中在可變步長(zhǎng)和強(qiáng)制協(xié)調(diào)機(jī)制的控制下，各個(gè)智能體放慢了更新幅度并修正了自身對(duì)其他智能體的估計(jì)，將取值更新重新拉回了正確的方向，最后比改進(jìn)前的算法更快速地收斂到了納什均衡.BR由于各個(gè)智能體激進(jìn)地追求自身的最佳收益，無(wú)法完全達(dá)成平衡；FP通過(guò)根據(jù)歷史平均采取最佳響應(yīng)，穩(wěn)定地收斂到了平衡狀態(tài)，但收斂速度不如前2種方法.

4.3 復(fù)雜網(wǎng)絡(luò)實(shí)驗(yàn)

為了驗(yàn)證方法在復(fù)雜網(wǎng)絡(luò)中的效果，我們進(jìn)行了更大規(guī)模的實(shí)驗(yàn)，設(shè)置了1 000個(gè)模擬節(jié)點(diǎn).由于可供使用的節(jié)點(diǎn)數(shù)據(jù)不足，我們模仿文獻(xiàn)[14]中的方法進(jìn)行了數(shù)值實(shí)驗(yàn)，在3種典型的網(wǎng)絡(luò)結(jié)構(gòu)：隨機(jī)網(wǎng)絡(luò)、小世界網(wǎng)絡(luò)、無(wú)標(biāo)度網(wǎng)絡(luò)上對(duì)算法2進(jìn)行了測(cè)試.在隨機(jī)網(wǎng)絡(luò)中設(shè)置連邊概率p分別為0.1，0.2，0.4，0.8；在小世界網(wǎng)絡(luò)中，鄰邊數(shù)k分別取20，40，80，100，重連概率被固定為0.2；在無(wú)標(biāo)度網(wǎng)絡(luò)中，每次加入的邊數(shù)m分別設(shè)置為10，20，40，50，每種網(wǎng)絡(luò)隨機(jī)生成后進(jìn)行測(cè)試記錄結(jié)果，各重復(fù)20次取平均值，實(shí)驗(yàn)結(jié)果如圖9所示.由圖9可知，在隨機(jī)網(wǎng)絡(luò)中，隨著智能體間的連邊增加，算法的收斂速度會(huì)大幅減慢，但不會(huì)引起發(fā)散.這與我們的設(shè)想相反，因?yàn)橐恢滦詤f(xié)議修正估計(jì)值的速度會(huì)隨連邊的增加而加快[17]，且在全連接實(shí)驗(yàn)中，算法的收斂表現(xiàn)非常好.引起這種情況的原因是復(fù)雜的網(wǎng)絡(luò)構(gòu)成讓智能體間的估計(jì)相互影響，導(dǎo)致估計(jì)修正速度變慢，進(jìn)而減慢了達(dá)到納什均衡的速度.而在小世界網(wǎng)絡(luò)和無(wú)標(biāo)度網(wǎng)絡(luò)中，由于在局部的網(wǎng)絡(luò)結(jié)構(gòu)中出現(xiàn)了近似于全連接的狀態(tài)，降低了該問(wèn)題的影響，因此在這2種網(wǎng)絡(luò)中，連邊數(shù)量的增加對(duì)收斂性能的影響不大.網(wǎng)絡(luò)的復(fù)雜性會(huì)一定程度上降低算法的收斂效率，但不會(huì)導(dǎo)致算法失效.

Fig. 9 Experimental results of algorithm in complex networks圖9 復(fù)雜網(wǎng)絡(luò)的算法實(shí)驗(yàn)結(jié)果

5 總結(jié)與展望

在本文中，我們針對(duì)網(wǎng)絡(luò)化軟件的優(yōu)化決策問(wèn)題建立了系統(tǒng)模型，將現(xiàn)有的基于多智能體一致性的分布式梯度博弈方法研究總結(jié)為了DOCG算法，并提出了將其應(yīng)用在網(wǎng)絡(luò)化軟件的優(yōu)化決策問(wèn)題中的方法.此外，我們對(duì)該算法進(jìn)行了改進(jìn)，研究了能調(diào)節(jié)尋優(yōu)速度和自動(dòng)搜索合適參數(shù)的自適應(yīng)步長(zhǎng)機(jī)制和強(qiáng)制協(xié)調(diào)機(jī)制，提出了DOCGAC算法，為軟件在連續(xù)工作中的持續(xù)參數(shù)優(yōu)化提供了一種解決方案.實(shí)驗(yàn)結(jié)果表明，改進(jìn)后的算法能更快地收斂至納什均衡，并且降低了方法對(duì)參數(shù)選取的要求，使此類算法能夠應(yīng)用于網(wǎng)絡(luò)化軟件系統(tǒng)的優(yōu)化任務(wù)中.

我們的方法也存在一定的不足，與原算法相同，DOCGAC收斂到的納什均衡無(wú)法保證是對(duì)應(yīng)優(yōu)化問(wèn)題的全局最優(yōu)解.在未來(lái)的工作中，我們將探索如何讓此類方法的納什均衡更靠近理論最優(yōu)值，并在真實(shí)的大規(guī)模網(wǎng)絡(luò)化軟件中進(jìn)一步測(cè)試和改進(jìn)我們的方法.

作者貢獻(xiàn)聲明：舒暢提出核心方法，參與實(shí)驗(yàn)框架的設(shè)計(jì)和實(shí)驗(yàn)編程，并最終完成了論文的撰寫；李青山擬定研究方向，設(shè)計(jì)了具體的研究方案；王璐設(shè)計(jì)了實(shí)驗(yàn)框架和方法，完善研究方案；王子奇負(fù)責(zé)實(shí)驗(yàn)編程及論文撰寫；計(jì)亞江負(fù)責(zé)實(shí)驗(yàn)數(shù)據(jù)收集和論文核定.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放