郭瀟,李春山,張宇躍,初佃輝
基于自適應(yīng)多目標(biāo)強(qiáng)化學(xué)習(xí)的服務(wù)集成方法
郭瀟,李春山*,張宇躍,初佃輝
(哈爾濱工業(yè)大學(xué)(威海) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 威海 264209)(?通信作者電子郵箱lics@hit.edu.cn)
當(dāng)前服務(wù)互聯(lián)網(wǎng)(IoS)中的服務(wù)資源呈現(xiàn)精細(xì)化、專業(yè)化的趨勢(shì),功能單一的服務(wù)無(wú)法滿足用戶復(fù)雜多變的需求,服務(wù)集成調(diào)度方法已經(jīng)成為服務(wù)計(jì)算領(lǐng)域的熱點(diǎn)?,F(xiàn)有的服務(wù)集成調(diào)度方法大都只考慮用戶需求的滿足,未考慮IoS生態(tài)系統(tǒng)的可持續(xù)性。針對(duì)上述問(wèn)題,提出一種基于自適應(yīng)多目標(biāo)強(qiáng)化學(xué)習(xí)的服務(wù)集成方法,該方法在異步優(yōu)勢(shì)演員評(píng)論家(A3C)算法的框架下引入多目標(biāo)優(yōu)化策略,從而在滿足用戶需求的同時(shí)保證IoS生態(tài)系統(tǒng)的健康發(fā)展。所提方法可以根據(jù)遺憾值對(duì)多目標(biāo)值集成權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,改善多目標(biāo)強(qiáng)化學(xué)習(xí)中子目標(biāo)值不平衡的現(xiàn)象。在真實(shí)大規(guī)模服務(wù)環(huán)境下進(jìn)行了服務(wù)集成驗(yàn)證,實(shí)驗(yàn)結(jié)果表明所提方法相對(duì)于傳統(tǒng)機(jī)器學(xué)習(xí)方法在大規(guī)模服務(wù)環(huán)境下求解速度更快;相較于權(quán)重固定的強(qiáng)化學(xué)習(xí)(RL),各目標(biāo)的求解質(zhì)量更均衡。
服務(wù)集成;強(qiáng)化學(xué)習(xí);異步優(yōu)勢(shì)演員評(píng)論家算法;多目標(biāo)優(yōu)化;自適應(yīng)權(quán)重
服務(wù)互聯(lián)網(wǎng)(Internet of Services, IoS)是由跨網(wǎng)跨域跨世界的服務(wù)構(gòu)成的復(fù)雜服務(wù)網(wǎng)絡(luò)形態(tài)。通過(guò)互聯(lián)網(wǎng)與新一代信息技術(shù)感知大規(guī)模個(gè)性化顧客需求,IoS可以高效聚合互聯(lián)網(wǎng)中的異構(gòu)跨域服務(wù),形成適應(yīng)性的綜合服務(wù)解決方案和價(jià)值鏈,為顧客及相關(guān)參與方帶來(lái)價(jià)值[1-2]。本質(zhì)上,IoS是基于各種服務(wù)網(wǎng)絡(luò)疊聚,由海量異質(zhì)跨界跨域的服務(wù)組成的、動(dòng)態(tài)演化的復(fù)雜系統(tǒng)。每個(gè)服務(wù)能夠解決或部分解決客戶需求,都有對(duì)應(yīng)的服務(wù)提供商,并可根據(jù)服務(wù)功能的相似性聚集形成一定的服務(wù)種群。
由于IoS中的服務(wù)精細(xì)化、專業(yè)化的趨勢(shì),導(dǎo)致服務(wù)提供商將服務(wù)的功能具體化、單一化。明顯地,功能單一的服務(wù)無(wú)法滿足用戶復(fù)雜多變的需求。例如,某用戶提出個(gè)人的服務(wù)需求“2021年8月在威海短期旅游一周”,這個(gè)需求包含了衣、食、住、行、景點(diǎn)、安全等多方面的要求。然而在真實(shí)服務(wù)場(chǎng)景中不存在一個(gè)服務(wù)能滿足上述所有需求,需要第三方服務(wù)平臺(tái)對(duì)服務(wù)資源進(jìn)行集成和調(diào)度,形成服務(wù)資源的集合來(lái)滿足用戶需求。因此,許多科學(xué)家提出了服務(wù)集成調(diào)度方法,將多個(gè)服務(wù)組合成為一個(gè)服務(wù)集來(lái)滿足用戶需求。
上述方法存在兩個(gè)缺陷:首先,傳統(tǒng)方法大都只考慮用戶需求的滿足,未考慮IoS生態(tài)系統(tǒng)的可持續(xù)性。采用這些方法進(jìn)行服務(wù)集成,會(huì)導(dǎo)致某些服務(wù)被頻繁地調(diào)用,其他服務(wù)處于空閑狀態(tài)。長(zhǎng)此以往,IoS生態(tài)將會(huì)萎縮,變成少數(shù)服務(wù)提供商的自留地。其次,傳統(tǒng)的多目標(biāo)優(yōu)化模型需要在初始階段人工設(shè)定各個(gè)目標(biāo)的權(quán)重,如果權(quán)重設(shè)置不當(dāng),會(huì)導(dǎo)致最終服務(wù)決策質(zhì)量的降低。
針對(duì)上述問(wèn)題,本文提出了基于自適應(yīng)多目標(biāo)強(qiáng)化學(xué)習(xí)的服務(wù)集成模型。該模型首先在基于馬爾可夫決策過(guò)程(Markov Decision Process, MDP)的強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)框架下對(duì)服務(wù)集成調(diào)度問(wèn)題進(jìn)行建模和形式化;然后選擇異步優(yōu)勢(shì)演員評(píng)論家(Asynchronous Advantage Actor?Critic, A3C)算法框架下的RL算法作為模型的主體算法,再結(jié)合多目標(biāo)優(yōu)化策略使集成模型可以在滿足用戶功能需求的同時(shí)促進(jìn)服務(wù)生態(tài)網(wǎng)絡(luò)健康發(fā)展;最后引入權(quán)重自適應(yīng)方法平衡各子目標(biāo)回報(bào)值,使每個(gè)子目標(biāo)回報(bào)值在循環(huán)迭代的過(guò)程中保持增長(zhǎng)。
隨著IoS的不斷發(fā)展,更多的服務(wù)組合方法被提出。張龍昌等[3]利用服務(wù)之間的余弦相似性,根據(jù)服務(wù)質(zhì)量(Quality of Service, QoS)屬性對(duì)Web服務(wù)進(jìn)行組合。他們提出了一種基于多屬性決策理論的混合QoS組合的Web服務(wù)組合算法CHQoS?WSCA,可用于評(píng)價(jià)由實(shí)數(shù)、區(qū)間值、三角模糊數(shù)和直覺(jué)模糊數(shù)描述的QoS信息。朱志良等[4]建立了Web服務(wù)的QoS屬性相似度模型和功能屬性相似度模型。服務(wù)之間的相似性可以從不同的角度來(lái)度量,Web服務(wù)的組合是通過(guò)語(yǔ)義相似性實(shí)現(xiàn)的。Tripathy等[5]提出了一種基于圖的服務(wù)組合多粒度組合和選擇模型。在該模型中,每個(gè)節(jié)點(diǎn)被表示為一個(gè)服務(wù)簇,通過(guò)Bellman-Ford算法找到最短路徑,從而得到最優(yōu)組合結(jié)果。Wu等[6]對(duì)所有滿足用戶需求的服務(wù)進(jìn)行了組合,然后查找服務(wù)集群以找到合適的服務(wù)來(lái)替換組合過(guò)程中不可用的服務(wù)。Abdullah等[7]通過(guò)人工智能編程提出了一種新的服務(wù)組合模型。該模型生成了一個(gè)基于I/O集群技術(shù)的分層任務(wù)網(wǎng)絡(luò)(Hierarchical Task Network, HTN),以實(shí)現(xiàn)服務(wù)集群規(guī)劃。他們還提出了一種基于功能屬性類的Web服務(wù)聚合方法,可以有效地生成HTN問(wèn)題域。Cai等[8]首先根據(jù)輸入和輸出參數(shù)的相似性對(duì)所有功能相似的服務(wù)進(jìn)行組合;然后使用服務(wù)日志決定要選擇的服務(wù);最后,通過(guò)反饋機(jī)制返回用戶的反饋,提高下一個(gè)用戶的滿意度。Bianchini等[9]基于本體論將服務(wù)分為三個(gè)不同的級(jí)別,從服務(wù)描述中獲取語(yǔ)義關(guān)系,通過(guò)語(yǔ)義關(guān)系生成本體結(jié)構(gòu),通過(guò)輸入、輸出和功能相似性建立服務(wù)發(fā)現(xiàn)模型,實(shí)現(xiàn)服務(wù)的發(fā)現(xiàn)和組合。Wang等[10]提出了一種半經(jīng)驗(yàn)的組合方法,以實(shí)現(xiàn)規(guī)則組合和實(shí)時(shí)組合,通過(guò)相似性度量將具體服務(wù)和歷史需求劃分為不同的簇,然后通過(guò)統(tǒng)計(jì)分析確定服務(wù)簇和需求簇之間的對(duì)應(yīng)概率。
上述研究大多從QoS角度考慮服務(wù)組合,這導(dǎo)致QoS高的服務(wù)被大量使用,使整個(gè)服務(wù)生態(tài)系統(tǒng)出現(xiàn)寡占性強(qiáng)的特性,不利于IoS的健康發(fā)展。而且在多個(gè)目標(biāo)值(QoS值)集成時(shí)需要用到先驗(yàn)知識(shí)設(shè)定各目標(biāo)權(quán)重,而大多數(shù)情況下服務(wù)提供平臺(tái)缺少這種先驗(yàn)知識(shí)。因此需要一種既能夠滿足用戶功能需求又可以保證服務(wù)生態(tài)系統(tǒng)健康發(fā)展且可以自適應(yīng)調(diào)整多目標(biāo)值權(quán)重的方法。
本文提出的基于自適應(yīng)多目標(biāo)強(qiáng)化學(xué)習(xí)的服務(wù)集成方法首先使用基于MDP的強(qiáng)化學(xué)習(xí)對(duì)服務(wù)集成問(wèn)題集成形式化定義,然后選擇A3C框架下的強(qiáng)化學(xué)習(xí)算法作為模型的主體算法,再結(jié)合多目標(biāo)優(yōu)化算法使該模型集成的服務(wù)組合可以在滿足用戶功能需求的同時(shí)促進(jìn)服務(wù)生態(tài)網(wǎng)絡(luò)健康發(fā)展,最后引入權(quán)重自適應(yīng)方法平衡各子目標(biāo)回報(bào)值,使每個(gè)子目標(biāo)回報(bào)值增速在循環(huán)迭代的過(guò)程中保持增長(zhǎng)。
由于在開(kāi)放和動(dòng)態(tài)環(huán)境中使用RL進(jìn)行服務(wù)集成具有明顯的優(yōu)勢(shì),首先在基于MDP的RL框架下形式化定義IoS環(huán)境中的服務(wù)集成問(wèn)題。MDP是離散時(shí)間隨機(jī)控制過(guò)程,特別用于對(duì)不確定域中的順序決策進(jìn)行建模。MDP的關(guān)鍵組成部分正式定義[11]如下:
在IoS環(huán)境下,需要在MDP框架下形式化定義服務(wù)集成:
完成服務(wù)集成問(wèn)題的形式化定義后,需要選取具體的RL框架解決服務(wù)集成問(wèn)題?;趦r(jià)值的RL方法可以單步更新網(wǎng)絡(luò)的超參數(shù),但該方法通過(guò)預(yù)測(cè)動(dòng)作的價(jià)值間接得到最優(yōu)動(dòng)作,適用于離散有限動(dòng)作的RL任務(wù)。基于策略的RL方法雖然可以直接預(yù)測(cè)動(dòng)作,但是一個(gè)情節(jié)結(jié)束之后才能夠逆向更新網(wǎng)絡(luò)的超參數(shù),導(dǎo)致超參數(shù)更新較慢。相較于基于價(jià)值的RL方法,基于策略梯度的RL方法更適用于連續(xù)動(dòng)作決策的RL任務(wù)。演員評(píng)論家(Actor?Critic, AC)模型結(jié)合了上述兩種方法的優(yōu)點(diǎn),既能夠有限步更新網(wǎng)絡(luò)的超參數(shù),也能夠直接預(yù)測(cè)狀態(tài)的動(dòng)作[13]。AC模型框架如圖1所示。
圖1 AC模型框架
本文選擇A3C算法作為服務(wù)集成問(wèn)題的基礎(chǔ)算法,該方法是目前基于AC模型表現(xiàn)得最好的框架之一。
多目標(biāo)強(qiáng)化學(xué)習(xí)不同于傳統(tǒng)RL的點(diǎn)在于學(xué)習(xí)Agent同時(shí)要優(yōu)化多個(gè)目標(biāo),每一步學(xué)習(xí)Agent得到一個(gè)回報(bào)向量,而不是一個(gè)標(biāo)量值[14]。
權(quán)重向量本身應(yīng)該滿足方程:
在IoS中,同時(shí)考慮用戶本身的功能需求以及服務(wù)生態(tài)系統(tǒng)的健康發(fā)展,將用戶需求的功能匹配和服務(wù)網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性作為多目標(biāo)優(yōu)化的子目標(biāo)值。目前對(duì)網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性的研究主要體現(xiàn)在結(jié)構(gòu)復(fù)雜性、節(jié)點(diǎn)復(fù)雜性以及各種復(fù)雜性因素之間的相互影響等領(lǐng)域上,包括小世界特性、無(wú)標(biāo)度特性、度匹配特性等。本節(jié)主要借鑒文獻(xiàn)[15]的定義與Qi等[16]構(gòu)建的服務(wù)生態(tài)系統(tǒng)演化指標(biāo)體系,在該體系下對(duì)服務(wù)生態(tài)系統(tǒng)的組織結(jié)構(gòu)的復(fù)雜度進(jìn)行分析。
2.2.1小世界特性
小世界網(wǎng)絡(luò)模型主要包括Watts和Strogatz提出的WS小世界模型[17]和Newman和Watts提出的NW小世界模型[18]。小世界網(wǎng)絡(luò)的核心特征為特征路徑長(zhǎng)度短而集聚系數(shù)高。其中特征路徑長(zhǎng)度(Characteristic Path Length, CPL)表示網(wǎng)絡(luò)的平均路徑長(zhǎng)度,其定義為:
集聚系數(shù)描述網(wǎng)絡(luò)當(dāng)中節(jié)點(diǎn)的鄰接節(jié)點(diǎn)之間也互相鄰接的比例,因此可以定義為:
為了對(duì)網(wǎng)絡(luò)的小世界特性進(jìn)行量化,Watts和Strogtz進(jìn)一步將小世界網(wǎng)絡(luò)與具有相同連邊概率的ER隨機(jī)網(wǎng)絡(luò)進(jìn)行比較,并將具有與隨機(jī)網(wǎng)絡(luò)相似的特征路徑長(zhǎng)度但是比隨機(jī)網(wǎng)絡(luò)高得多的集聚系數(shù)的網(wǎng)絡(luò)定義為小世界網(wǎng)絡(luò)。因此小世界特性的量化標(biāo)準(zhǔn)為:
2.2.2無(wú)標(biāo)度特性
無(wú)標(biāo)度特性指網(wǎng)絡(luò)當(dāng)中的分布滿足冪律分布特征,由Barabasi和Albert于1999年提出[19]。在無(wú)標(biāo)度網(wǎng)絡(luò)當(dāng)中絕大多數(shù)的節(jié)點(diǎn)的度非常低,而少部分的節(jié)點(diǎn)的度則非常高,在整個(gè)網(wǎng)絡(luò)當(dāng)中占據(jù)核心的位置。目前對(duì)網(wǎng)絡(luò)的無(wú)標(biāo)度特性進(jìn)行量化分析主要有兩種方法:
2.2.3度匹配特性
Newman[21]對(duì)于識(shí)別網(wǎng)絡(luò)節(jié)點(diǎn)之間的匹配關(guān)系進(jìn)行了量化,進(jìn)一步提出了網(wǎng)絡(luò)整體的匹配系數(shù):
本文將利用Pastor?Satorras等的方法識(shí)別網(wǎng)絡(luò)的匹配性,利用Newman的匹配系統(tǒng)量化網(wǎng)絡(luò)的匹配程度。
在單個(gè)Agent中只需要考慮到自己,把自己優(yōu)化得最好就可以了,但是涉及多Agent,研究多個(gè)Agent之間的關(guān)系以提升整體效果或者完成多Agent的目標(biāo)任務(wù)時(shí),需要參考博弈論的成果[22-24]:
遺憾的是指學(xué)習(xí)器現(xiàn)實(shí)的收益與學(xué)習(xí)器使用某種固定策略獲得的最大收益之間的差異,即
再根據(jù)式(16)保證權(quán)重總和為1:
最終服務(wù)集成算法如算法1所示。
算法1 權(quán)重自適應(yīng)A3C多目標(biāo)強(qiáng)化學(xué)習(xí)算法。
13) End for
17) End while
24) End for
26) End while
本文提出的服務(wù)集成方法在連續(xù)迭代循環(huán)中運(yùn)行,直到達(dá)到收斂點(diǎn)。由于傳統(tǒng)機(jī)器學(xué)習(xí)算法無(wú)法在連續(xù)狀態(tài)空間中運(yùn)行,而自適應(yīng)權(quán)重會(huì)導(dǎo)致?tīng)顟B(tài)空間連續(xù),因此分別將基于蟻群算法的多目標(biāo)服務(wù)集成算法和基于A3C強(qiáng)化學(xué)習(xí)算法的多目標(biāo)自適應(yīng)權(quán)重服務(wù)集成算法與基于A3C強(qiáng)化學(xué)習(xí)算法的多目標(biāo)集成算法進(jìn)行對(duì)比,比較它們的求解速度、求解質(zhì)量以及各目標(biāo)求解質(zhì)量。
所有模擬實(shí)驗(yàn)都于搭載四核心Intel Core i5?6300HQ CPU的個(gè)人計(jì)算機(jī)上運(yùn)行,內(nèi)存為16 GB,采用Windows系統(tǒng)運(yùn)行Pycharm軟件,利用Python語(yǔ)言編寫(xiě)程序。蟻群算法與A3C強(qiáng)化學(xué)習(xí)算法各項(xiàng)參數(shù)如表1所示。
表1 蟻群算法與強(qiáng)化學(xué)習(xí)算法參數(shù)設(shè)置
測(cè)試環(huán)境中子目標(biāo)數(shù)量固定為四個(gè),分別為:功能匹配、小世界特性、無(wú)標(biāo)度特性和度匹配特性,其可用的具體服務(wù)共946個(gè)。
將通過(guò)兩組實(shí)驗(yàn)分別對(duì)比三種算法的求解速度和求解質(zhì)量與子目標(biāo)求解質(zhì)量,其中總目標(biāo)值為各子目標(biāo)值加權(quán)相加。
三種算法總目標(biāo)值與迭代次數(shù)的關(guān)系如圖2所示;三種算法總目標(biāo)值與收斂時(shí)間的關(guān)系如圖3所示。由圖2、3可以看出,由于環(huán)境規(guī)模較大,傳統(tǒng)機(jī)器學(xué)習(xí)算法收斂速度比A3C強(qiáng)化學(xué)習(xí)算法慢得多。從迭代次數(shù)來(lái)看,強(qiáng)化學(xué)習(xí)算法在40次迭代以內(nèi)便可收斂,而蟻群算法則需要至少220次迭代,從收斂時(shí)間來(lái)看強(qiáng)化學(xué)習(xí)算法也有著明顯的優(yōu)勢(shì)。而兩種算法在整個(gè)學(xué)習(xí)過(guò)程中獲得的累計(jì)回報(bào)基本相同,說(shuō)明A3C強(qiáng)化學(xué)習(xí)算法在保證求解質(zhì)量的同時(shí)能夠保證較快的求解速度。而對(duì)于權(quán)重固定與自適應(yīng)的多目標(biāo)強(qiáng)化學(xué)習(xí)算法的收斂速度相近、總回報(bào)值相近,說(shuō)明權(quán)重自適應(yīng)的多目標(biāo)優(yōu)化算法不會(huì)影響算法的整體求解速度與求解質(zhì)量。
圖2 三種算法總目標(biāo)值?迭代次數(shù)圖
圖3 三種算法總目標(biāo)值?時(shí)間圖
三種算法子目標(biāo)回報(bào)值與迭代次數(shù)的關(guān)系如圖4所示。在這里選取功能匹配與小世界特性兩個(gè)子目標(biāo)進(jìn)行分析,其中圖4(b)表示小世界特性目標(biāo)回報(bào)值,圖4(c)表示功能匹配目標(biāo)回報(bào)值。
圖4 三種算法子目標(biāo)值?迭代次數(shù)圖
由圖4可以看出,在三種算法總目標(biāo)求解質(zhì)量相近的基礎(chǔ)上,在冪率分布特性這一子目標(biāo)下也有相同的求解質(zhì)量,整體上來(lái)看權(quán)重固定的強(qiáng)化學(xué)習(xí)算法與蟻群算法除了收斂速度不同外有著相似的結(jié)果。這兩種算法雖然在小世界特性這一子目標(biāo)下有著更優(yōu)的效果,但是在功能匹配與度匹配特性這一子目標(biāo)下卻出現(xiàn)了累計(jì)子目標(biāo)回報(bào)值隨迭代次數(shù)增加反而減小的現(xiàn)象,這說(shuō)明在訓(xùn)練過(guò)程中出現(xiàn)了犧牲該目標(biāo)換取全局最優(yōu)的情況,但本文算法并未出現(xiàn)這一情況,說(shuō)明本文算法能夠保證每個(gè)子目標(biāo)都隨著循環(huán)迭代而增加,可以更好地平衡各個(gè)目標(biāo)的回報(bào)值之間的比重,盡管一部分子目標(biāo)沒(méi)有達(dá)到最好的效果,但每一個(gè)子目標(biāo)的回報(bào)值都隨著迭代次數(shù)的增加而增加,結(jié)合圖2、3可知,引入權(quán)重自適應(yīng)的多目標(biāo)優(yōu)化算法沒(méi)有影響總體目標(biāo)值。
本文提出了一種基于自適應(yīng)多目標(biāo)A3C強(qiáng)化學(xué)習(xí)的服務(wù)集成方法,該方法利用MDP對(duì)服務(wù)集成優(yōu)化問(wèn)題進(jìn)行建模,并引入了強(qiáng)化學(xué)習(xí)的組合優(yōu)化模型,簡(jiǎn)化了組合優(yōu)化過(guò)程。同時(shí)基于遺憾值對(duì)多目標(biāo)權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整,在保證總體目標(biāo)回報(bào)值最大的情況下不犧牲各個(gè)子目標(biāo)回報(bào)值,使每一個(gè)子目標(biāo)回報(bào)值都能隨著訓(xùn)練增大。在數(shù)據(jù)集Programable Web上與傳統(tǒng)機(jī)器學(xué)習(xí)算法中的蟻群算法和權(quán)重固定多目標(biāo)強(qiáng)化學(xué)習(xí)算法進(jìn)行對(duì)比分析的結(jié)果表明,本文方法相較于其他兩種方法在大規(guī)模服務(wù)環(huán)境下對(duì)于服務(wù)集成收斂更快、耗時(shí)更短,在整體求解質(zhì)量相近的情況下保證了各子目標(biāo)的求解質(zhì)量。然而多目標(biāo)優(yōu)化的應(yīng)用場(chǎng)景一般較為復(fù)雜,尤其是子目標(biāo)之間的關(guān)系更加復(fù)雜,本文方法將子目標(biāo)平等對(duì)待,有時(shí)不能很好地體現(xiàn)子目標(biāo)之間的優(yōu)先關(guān)系,因此今后我們將針對(duì)這類問(wèn)題做進(jìn)一步的研究。
[1] FLETCHER K K. A quality?based web api selection for mashup development using affinity propagation[C]// Proceedings of the 2018 International Conference on Services Computing. Cham: Springer, 2018: 153-165.
[2] ALMARIMI N, OUNI A, BOUKTIF S, et al. Web service API recommendation for automated mashup creation using multi? objective evolutionary search[J]. Applied Soft Computing, 2019, 85: No.105830.
[3] 張龍昌,張成文.混合QoS聚類的服務(wù)組合[J].北京郵電大學(xué)學(xué)報(bào),2011,34(5):57-62.(ZHANG L C, ZHANG C W. Hybrid QoS?clustering web service composition[J]. Journal of Beijing University of Posts and Telecommunications, 2011, 34(5): 57-62.)
[4] 朱志良,苑海濤,宋杰,等. Web服務(wù)聚類方法的研究和改進(jìn)[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2012, 33(1):96-101.(ZHU Z L, YUAN H T, SONG J, et al. Study and improvement on web services clustering approach[J]. Journal of Chinese Computer Systems, 2012, 33(1): 96-101.)
[5] TRIPATHY A K, PATRA M R, KHAN M A, et al. Dynamic web service composition with QoS clustering[C]// Proceedings of the 2014 IEEE International Conference on Web Services. Piscataway: IEEE, 2014: 678-679.
[6] WU L, ZHANG Y, DI Z Y. A service?cluster based approach to service substitution of web service composition[C]// Proceedings of the IEEE 16th International Conference on Computer Supported Cooperative Work in Design. Piscataway: IEEE, 2012: 564-568.
[7] ABDULLAH A, LI X N. An efficient I/O based clustering HTN in Web Service Composition[C]// Proceedings of the 2013 International Conference on Computing, Management and Telecommunications. Piscataway:IEEE, 2013: 252-257.
[8] CAI H H, CUI L Z. Cloud service composition based on multi? granularity clustering[J]. Journal of Algorithms and Computational Technology, 2014, 8(2): 143-161.
[9] BIANCHINI D, DE ANTONELLIS V, MELCHIORI M. An ontology?based method for classifying and searching?Services[C]// Proceedings of the Forum of First International Conference on Service Oriented Computing, LNCS 2910. Cham: Springer, 2003: 15-18.
[10] WANG X Z, WANG Z J, XU X F. Semi?empirical service composition: a clustering based approach[C]// Proceedings of the 2011 IEEE International Conference on Web Services. Piscataway: IEEE, 2011: 219-226.
[11] QUAN L, WANG Z L, LIU X. A real?time subtask?assistance strategy for adaptive services composition[J]. IEICE Transactions on Information and Systems, 2018, E101.D(5): 1361-1369.
[12] GAO A Q, YANG D Q, TANG S W, et al. Web service composition using Markov decision processes[C]// Proceedings of the 2005 International Conference on Web?Age Information Management, LNCS 3739. Berlin: Springer, 2005: 308-319.
[13] ZHANG Y Z, CLAVERA I, TSAI B, et al. Asynchronous methods for model?based reinforcement learning[C]// Proceedings of the 3rd Conference on Robot Learning. New York: JMLR.org, 2020: 1338-1347.
[14] RUIZ?MONTIEL M, MANDOW L, PéREZ?DE?LA?CRUZ J L. A temporal difference method for multi?objective reinforcement learning[J]. Neurocomputing, 2017, 263: 15-25.
[15] IANSITI M, LEVIEN R. Strategy as ecology[J]. Harvard Business Review, 2004, 82(3): 68-78, 126.
[16] QI Q, CAO J. Investigating the evolution of Web API cooperative communities in the mashup ecosystem[C]// Proceedings of the 2020 IEEE International Conference on Web Services. Piscataway: IEEE, 2020: 413-417.
[17] WATTS D J, STROGATZ S H. Collective dynamics of ‘small?world’ networks[J]. Nature, 1998, 393(6684): 440-442.
[18] NEWMAN M, BARABáSI A L, WATTS D J. The Structure and Dynamics of Networks[M]. Princeton, NJ: Princeton University Press, 2006: 304-308.
[19] BARABáSI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512.
[20] VáZQUEZ A, PASTOR?SATORRAS R, VESPIGNANI A. Internet topology at the router and autonomous system level[EB/OL]. [2021-12-05].https://arxiv.org/pdf/cond?mat/0206084.pdf.
[21] NEWMAN M E J. Scientific collaboration networks. Ⅰ. Network construction and fundamental results[J]. Physical Review E, Statistical, Nonlinear, and Soft Matter Physics, 2001, 64(1): No.016131.
[22] FOSTER D P, YOUNG H P. Regret testing: a simple payoff? based procedure for learning Nash equilibrium[D]. Baltimore, MD: University of Pennsylvania, 2003: 341-367.
[23] HART S, MAS?COLELL A. A reinforcement procedure leading to correlated equilibrium[M]// Economics Essays: A Festschrift for Werner Hildenbrand. Berlin: Springer, 2001: 181-200.
[24] ORTNER R. Regret bounds for reinforcement learning via Markov chain concentration[J]. Journal of Artificial Intelligence Research, 2020, 67: 115-128.
Service integration method based on adaptive multi?objective reinforcement learning
GUO Xiao, LI Chunshan*, ZHANG Yuyue, CHU Dianhui
(,(),264209,)
The current service resources in Internet of Services (IoS) show a trend of refinement and specialization. Services with single function cannot meet the complex and changeable requirements of users. Service integrating and scheduling methods have become hot spots in the field of service computing. However, most existing service integrating and scheduling methods only consider the satisfaction of user requirements and do not consider the sustainability of the IoS ecosystem. In response to the above problems, a service integration method based on adaptive multi?objective reinforcement learning was proposed. In this method, a multi?objective optimization strategy was introduced into the framework of Asynchronous Advantage Actor?Critic (A3C) algorithm, so as to ensure the healthy development of the IoS ecosystem while satisfying user needs. The integrated weight of the multi?objective value was able to adjusted dynamically according to the regret value, which improved the imbalance of sub?objective values in multi?objective reinforcement learning. The service integration verification was carried out in a real large?scale service environment. Experimental results show that the proposed method is faster than traditional machine learning methods in large?scale service environment, and has a more balanced solution quality of each objective compared with Reinforcement Learning (RL) with fixed weights.
service integration; Reinforcement Learning (RL); Asynchronous Advantage Actor?Critic (A3C) algorithm; multi?objective optimization; adaptive weight
This work is partially supported by National Key Research and Development Program of China (2018YFB1402500), National Natural Science Foundation of China (61902090, 61832004), Natural Science Foundation of Shandong Province (ZR2020KF019).
GUO Xiao, born in 1999, M. S. His research interests include service computing, knowledge engineering.
LI Chunshan, born in 1984, Ph. D., professor. His research interests include service computing, knowledge engineering.
ZHANG Yuyue, born in 2000. His research interests include knowledge engineering.
CHU Dianhui, born in 1970, Ph. D., professor. His research interests include service computing, intelligent manufacturing.
1001-9081(2022)11-3500-06
10.11772/j.issn.1001-9081.2021122041
2021?12?06;
2021?12?29;
2022?01?13。
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB1402500);國(guó)家自然科學(xué)基金資助項(xiàng)目(61902090, 61832004);山東省自然科學(xué)基金資助項(xiàng)目(ZR2020KF019)。
TP315
A
郭瀟(1999—),男,黑龍江伊春人,碩士,主要研究方向:服務(wù)計(jì)算、知識(shí)工程;李春山(1984—),男,山西呂梁人,副教授,博士,CCF會(huì)員,主要研究方向:服務(wù)計(jì)算、知識(shí)工程;張宇躍(2000—),男,江西南昌人,主要研究方向:知識(shí)工程;初佃輝(1970—),男,山東濰坊人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:服務(wù)計(jì)算、智慧制造。