亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用記憶單元改進(jìn)DQN的Web服務(wù)組合優(yōu)化方法

        2020-11-12 11:05:34胡國兵
        關(guān)鍵詞:動(dòng)作優(yōu)化環(huán)境

        楊 波 胡國兵

        1(南京信息職業(yè)技術(shù)學(xué)院信息服務(wù)學(xué)院 江蘇 南京 210023) 2(金陵科技學(xué)院電子信息工程學(xué)院 江蘇 南京 211169)

        0 引 言

        隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,面向復(fù)雜環(huán)境的服務(wù)組合在現(xiàn)實(shí)生活中的應(yīng)用越來越多,而面向復(fù)雜環(huán)境的Web服務(wù)組合的進(jìn)一步應(yīng)用會(huì)面臨難以優(yōu)化的問題。面向服務(wù)計(jì)算(Service-Oriented Computing,SOC)的基本目標(biāo)是實(shí)現(xiàn)在各種平臺上運(yùn)行的不同軟件和數(shù)據(jù)應(yīng)用程序之間的互操作性[1]。因此只有當(dāng)存在眾多服務(wù)提供商和服務(wù)消費(fèi)者彼此協(xié)作時(shí),才能發(fā)揮SOC的全部潛力[2]。由于面向服務(wù)的環(huán)境中固有的動(dòng)態(tài)性和復(fù)雜性,良好的服務(wù)組合解決方案需要適應(yīng)這些動(dòng)態(tài)服務(wù)環(huán)境的變化和波動(dòng)。此外,功能等同服務(wù)數(shù)量的爆炸性增長迫切需要能夠處理此類任務(wù)的有效服務(wù)組合算法[3-4]。由于一個(gè)服務(wù)不能滿足所有用戶要求,因此需要將組件服務(wù)轉(zhuǎn)換成組合服務(wù)。在這方面,服務(wù)組合成為實(shí)現(xiàn)面向服務(wù)的體系結(jié)構(gòu)(System of Archtecture,SOA)的最有效技術(shù)。

        為了對面向復(fù)雜環(huán)境的Web服務(wù)組合進(jìn)行優(yōu)化,學(xué)者進(jìn)行了大量的研究,在復(fù)雜環(huán)境下,從大量的滿足功能需求但是非功能需求的Web服務(wù)中,選擇出滿足用戶需求的組合服務(wù)所采取的服務(wù)選擇策略可以有多種,研究文獻(xiàn)可主要分為三種:群智能算法、人工智能(Artificial Intelligence,AI)方法和其他混合方法。群智能算法如文獻(xiàn)[5]提出的多目標(biāo)服務(wù)組合優(yōu)化推薦方法(Multi-Objective Service Combination Optimization Recommendation Method,MO-SCORM),具有較好的可適應(yīng)性和自組織性,通過將細(xì)粒度的Web服務(wù)粗粒化實(shí)現(xiàn)了面向個(gè)性化客戶的體系結(jié)構(gòu),其協(xié)作性和健壯性較好,但效率較低;文獻(xiàn)[6]從功能等同的具體服務(wù)集合中選擇了滿足消費(fèi)者強(qiáng)加的服務(wù)質(zhì)量(Quality of Service,QoS),對最佳服務(wù)集合進(jìn)行約束,提高了服務(wù)組合的服務(wù)質(zhì)量,但在服務(wù)效率方面還需進(jìn)一步提高。在大數(shù)據(jù)背景下為改善算法效率,智能算法得到了廣泛應(yīng)用:文獻(xiàn)[7]提出了一種結(jié)合順序決策過程的強(qiáng)化學(xué)習(xí)方法(Sequential Decision-Making Process-Reinforce Learning,SDMP-RL)并將其應(yīng)用在Web服務(wù)組合的優(yōu)化問題中,使代理與環(huán)境交互,通過反復(fù)實(shí)驗(yàn)提高了Web組合服務(wù)的學(xué)習(xí)最優(yōu)解,但該方法在面對可擴(kuò)展性的服務(wù)環(huán)境時(shí)表現(xiàn)較差;文獻(xiàn)[8]采用深度Q學(xué)習(xí)(Deep Q-Learning,DQL)解決了Web服務(wù)組合效率低的問題,但是沒能兼顧Web組合服務(wù)對復(fù)雜環(huán)境的適用性和可擴(kuò)展性?,F(xiàn)有的Web服務(wù)組合方法在面對復(fù)雜的服務(wù)環(huán)境時(shí),難以同時(shí)在服務(wù)環(huán)境的適應(yīng)性、可擴(kuò)展性和動(dòng)態(tài)性這幾個(gè)指標(biāo)上獲得良好的綜合性能。針對面向高可擴(kuò)展性、復(fù)雜性和異構(gòu)性服務(wù)環(huán)境的Web服務(wù)組合難以進(jìn)行優(yōu)化的問題,本文提出一種利用記憶單元改進(jìn)DQN的Web服務(wù)組合優(yōu)化方法。其創(chuàng)新點(diǎn)主要體現(xiàn)為以下兩點(diǎn):

        (1) 引入LSTM-DQN方法進(jìn)行優(yōu)化,提升了DQN算法的全局尋優(yōu)能力;

        (2) 利用強(qiáng)化學(xué)習(xí)的組合優(yōu)化模型簡化組合優(yōu)化過程,并將LSTM-DQN方法應(yīng)用于Web服務(wù)組合優(yōu)化問題,提升了Web服務(wù)組合的處理效率。

        1 基于Markov的組合優(yōu)化模型

        組合優(yōu)化模型采用馬爾可夫決策過程MDP作為一般方案,以描述動(dòng)態(tài)環(huán)境中的服務(wù)組合和適應(yīng)過程。MDP是離散時(shí)間隨機(jī)控制過程,用于對不確定域中的順序決策進(jìn)行建模。MDP的關(guān)鍵組成部分正式定義如下[9]:

        定義1Markov 決策過程(MDP)。一個(gè)MDP可以定義為一個(gè)五元組MDP=,其中:S是一組有限狀態(tài);A(s)是一個(gè)有限的動(dòng)作集合,取決于當(dāng)前狀態(tài)s∈S;P是一個(gè)概率值,也就是當(dāng)動(dòng)作a∈A被執(zhí)行時(shí),發(fā)生一個(gè)從當(dāng)前狀態(tài)s到結(jié)果狀態(tài)s′的一個(gè)狀態(tài)轉(zhuǎn)移,其轉(zhuǎn)移概率分布為P(s′|s,a);R是獎(jiǎng)勵(lì)函數(shù)。類似地,當(dāng)執(zhí)行操作a時(shí),從狀態(tài)s轉(zhuǎn)移到s′,將收到一個(gè)實(shí)際值的獎(jiǎng)勵(lì)r,其預(yù)期值為r=E(R(s′|s,a));γ∈[0,1]是區(qū)分未來獎(jiǎng)勵(lì)和即時(shí)獎(jiǎng)勵(lì)重要性的折扣因素。

        MDP的解決方案是一個(gè)決策策略,通常決策策略π是從狀態(tài)到操作的概率分布的映射,定義為π:S→A如果MDP是偶發(fā)性的,即狀態(tài)在長度t的每一場景后重置,則一個(gè)場景中的狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)序列構(gòu)成策略的軌跡或推出[10]。策略的每個(gè)推出都會(huì)從環(huán)境中累積一個(gè)獎(jiǎng)勵(lì),從而返回R。解決方案中算法的目標(biāo)是找到一個(gè)最佳策略,該策略累積了所有狀態(tài)的最大預(yù)期回報(bào)。

        2 基于強(qiáng)化學(xué)習(xí)的組合優(yōu)化模型

        RL的目的是設(shè)計(jì)算法,通過這些算法,代理可以學(xué)習(xí)在某些環(huán)境中的自主操作,從他們與該環(huán)境的交互或從環(huán)境中收集的觀測值中學(xué)習(xí)。此環(huán)境通常作為MDP制定。與傳統(tǒng)的動(dòng)態(tài)編程技術(shù)不同,強(qiáng)化學(xué)習(xí)算法不需要有關(guān)MDP的知識,它們針對的是精確方法變得不可行的大型MMDP。在此背景下,RL旨在根據(jù)它們與環(huán)境的交互來確定最佳控制策略[11]。此策略可以通過基于一組四元組(st,at,rt,st+1)近似所謂的Q函數(shù)來實(shí)現(xiàn)。其中:st表示t時(shí)刻的環(huán)境狀態(tài);at表示所執(zhí)行的控制操作;rt表示所獲得的瞬時(shí)獎(jiǎng)勵(lì);st+1表示環(huán)境的后續(xù)狀態(tài),并通過Q函數(shù)決定控制策略。

        最適合RL的問題類型是復(fù)雜的控制問題,其中似乎沒有明顯或易于編程的解決方案。因此,在開放和動(dòng)態(tài)環(huán)境中使用RL進(jìn)行自適應(yīng)服務(wù)組合具有明顯的優(yōu)勢。通過在組合模型中使用RL,它可以以自適應(yīng)的方法學(xué)習(xí)最佳服務(wù)選擇策略[11]?;贛DP的動(dòng)態(tài)服務(wù)組合中使用的關(guān)鍵概念定義如下:

        獎(jiǎng)勵(lì)值r可以使用操作值函數(shù)計(jì)算:

        Qi(s,a)←Qi(s,a)+α[r+γmaxa′Qi(s′,a′)-

        Qi(s,a)]

        (1)

        式中:s表示狀態(tài)空間(即抽象服務(wù)),表示代理i遍歷所有可能的工作流時(shí)全部狀態(tài)的集合;α是學(xué)習(xí)率,它控制收斂;當(dāng)代理i選擇一個(gè)Web服務(wù)ws時(shí),代理i收到一個(gè)獎(jiǎng)勵(lì),這是一個(gè)聚合值的QoS的ws屬性。此獎(jiǎng)勵(lì)值可以根據(jù)下式計(jì)算:

        (2)

        在此模型中,采用ε-貪婪策略,使學(xué)習(xí)代理能夠在選擇過去嘗試過的Web服務(wù)(即利用)和隨機(jī)選擇可能提供更好的結(jié)果的新Web服務(wù)之間進(jìn)行權(quán)衡(即探索)。對于代理i,給定狀態(tài)和一組可用的Web服務(wù)Ai(s),代理i選擇下一個(gè) Web 服務(wù)j的概率為:

        (3)

        式中:ε是單個(gè) Web 服務(wù)的概率分布,[·]表示對中括號內(nèi)的內(nèi)容進(jìn)行記分。代理i根據(jù)ε-貪婪策略的概率(1-ε)選擇最佳的Web服務(wù),否則以概率ε選擇一個(gè)統(tǒng)一隨機(jī)的Web服務(wù)[12]。

        3 LSTM-DQN的Web服務(wù)組合優(yōu)化方法

        3.1 深度Q神經(jīng)網(wǎng)絡(luò)算法

        深度Q神經(jīng)網(wǎng)絡(luò)(Deep Q-Network,DQN)是基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)思想而提出的無監(jiān)督學(xué)習(xí)方法。在高維度狀態(tài)或動(dòng)作空間中,深度強(qiáng)化學(xué)習(xí)存在難以估計(jì)每個(gè)大型狀態(tài)和操作空間所對應(yīng)的Q值問題。為了解決該問題,引入了深度Q神經(jīng)網(wǎng)絡(luò),使深度強(qiáng)化學(xué)習(xí)代理的各個(gè)組成部分利用梯度下降對參數(shù)進(jìn)行訓(xùn)練,以盡量減少一些不必要的損失函數(shù)[13]。DQN算法原理如圖1所示。

        圖1 DQN算法原理

        在深度學(xué)習(xí)計(jì)算Q值的過程中,DQN 算法通過權(quán)重為θ的神經(jīng)網(wǎng)絡(luò)近似器來估計(jì)Q值,該神經(jīng)網(wǎng)絡(luò)的輸入為狀態(tài),經(jīng)過卷積、池化、全連接等操作,輸出該狀態(tài)下每個(gè)動(dòng)作的Q的估計(jì)值。智能體的目標(biāo)是找到一種未來反饋值最大的動(dòng)作選擇方式,利用該動(dòng)作選擇方式與環(huán)境進(jìn)行交互。因此定義最優(yōu)動(dòng)作選擇函數(shù)為Q(s,a),其算式為[14]:

        (4)

        式中:s為狀態(tài);a為該狀態(tài)下執(zhí)行的動(dòng)作;π為動(dòng)作和狀態(tài)映射;st為t時(shí)間步時(shí)的狀態(tài);at為st狀態(tài)下執(zhí)行的動(dòng)作;Rt為狀態(tài)時(shí)s執(zhí)行動(dòng)作a得到的反饋值;T為總時(shí)間步;t′為求和過程變量;rt為第t個(gè)時(shí)間步的反饋值[15]。

        綜上所述,根據(jù)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)計(jì)算的Q值,通過對損失函數(shù)Le(θe)使用梯度下降法更新權(quán)重θ,來優(yōu)化 Q神經(jīng)網(wǎng)絡(luò):

        Le(θe)=Es,a~p(·)[(ye-Q(s,a;θe))2]ye=Es′[r+γmaxa′Qe(s′,a′;θe)|s,a]

        (5)

        式中:Q(s,a;θe)為Q(s,a)的估計(jì)值;e為迭代次數(shù);s為當(dāng)前狀態(tài);a為當(dāng)前動(dòng)作;s′為下一個(gè)狀態(tài);a′為下一個(gè)動(dòng)作;p(s,a)為狀態(tài)s和動(dòng)作a的概率分布。

        3.2 LSTM改進(jìn)的深度Q神經(jīng)網(wǎng)絡(luò)算法

        為了在大型服務(wù)環(huán)境中啟用自適應(yīng)服務(wù)組合,提出一種基于改進(jìn)DQN的模型,該模型包括生成器φR和動(dòng)作記分器φA,模型的整體架構(gòu)如圖2所示。

        圖2 改進(jìn)DQN模型框架

        為了更好地描述模型,采用長-短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)表示生成器。LSTM是遞歸神經(jīng)網(wǎng)絡(luò),能夠連接和識別輸入向量之間的長程模式,在一定程度上可捕捉潛在信息。所提模型中,LSTM網(wǎng)絡(luò)將輸入向量嵌入潛在因子wk,并在每個(gè)步驟生成輸出向量xk。為了得到最終的狀態(tài)vs,添加了一個(gè)平均池層,用于計(jì)算輸出向量xk上的元素平均值[16]:

        (6)

        生成器的輸出向量作為動(dòng)作記分器的輸入,即vs=φR(s),輸出是所有動(dòng)作的分?jǐn)?shù)。同時(shí)預(yù)測所有動(dòng)作的分?jǐn)?shù),這比分別對每個(gè)狀態(tài)動(dòng)作進(jìn)行分?jǐn)?shù)計(jì)算更有效。通過生成器和動(dòng)作記分器,可得到Q函數(shù)的近似值Q(s,a)≈φA(φR(s))[a]。

        由于計(jì)算上的限制,所提LSTM-DQN方法將命令視為由一個(gè)操作和一個(gè)參數(shù)對象組成[17]。考慮到所有可能的動(dòng)作和對象,使用同一個(gè)網(wǎng)絡(luò)對每個(gè)狀態(tài)進(jìn)行預(yù)測。該法使用隨機(jī)梯度下降和RMSprop學(xué)習(xí)表示生成器的參數(shù)r和動(dòng)作記分器的參數(shù)a,完整的訓(xùn)練過程如算法1所示。在每次迭代e中,更新參數(shù)以減少當(dāng)前狀態(tài)Q(st,at;θe)(θe=[θR;θA]e)的預(yù)測值與給定獎(jiǎng)勵(lì)rt的預(yù)期q值和下一狀態(tài)maxaQ(st+1,a;θe-1)的值之間的差異[18]。

        ▽θeQ(s,a;θe)]

        (7)

        式中:▽θe表示對θe求導(dǎo)。

        算法1LSTM-DQN訓(xùn)練程序

        1. 輸入經(jīng)驗(yàn)記憶D

        2. 初始化表示生成器φR和動(dòng)作記分器φA的隨機(jī)的初始化參數(shù)

        3. forj=1; 最大迭代次數(shù)Mdo

        4. 初始化游戲并獲得開始狀態(tài)描述s1

        5. fort=1;Tdo

        6. 用φR轉(zhuǎn)換st以表示vst

        7. if 隨機(jī)數(shù)random()<迭代次數(shù)ethen

        8. 選擇隨機(jī)一個(gè)動(dòng)作at

        9. else

        10. 對所有動(dòng)作,通過φA(vst)計(jì)算Q(st;a)

        11. 選擇at=argmaxQ(st;a)

        12. 執(zhí)行動(dòng)作at并獲得獎(jiǎng)勵(lì)rt和新狀態(tài)st+1

        13. ifrt>0,設(shè)置優(yōu)先權(quán)pt=1,elsept=0

        14. 存儲(chǔ)轉(zhuǎn)移量(st;at;rt;st+1;pt)到D中

        15. 從D中隨機(jī)采樣小數(shù)量的轉(zhuǎn)換(sj;aj;rj;sj+1;pj)

        16. 設(shè)置

        17. 對損失執(zhí)行梯度下降步驟L(θ)=yi-Q(sj,aj;θ)2

        18. 輸出Web服務(wù)組合優(yōu)化方案

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)設(shè)置

        本文提出的方法在連續(xù)迭代循環(huán)中運(yùn)行,直到達(dá)到收斂點(diǎn)。一旦學(xué)習(xí)代理收到了若干個(gè)連續(xù)時(shí)間的累積獎(jiǎng)勵(lì)的相同值,代理則將收斂到最優(yōu)策略。這些累積獎(jiǎng)勵(lì)按節(jié)進(jìn)行比較,差異根據(jù)閾值進(jìn)行預(yù)測。所有模擬實(shí)驗(yàn)都在六核心Intel Xeon 3.2 GHz iMac Pro上進(jìn)行,具有32 GB的RAM和8 MB的GPU;采用Windows系統(tǒng)運(yùn)行MATLAB仿真軟件,利用MATLAB語言進(jìn)行程序編寫,閾值設(shè)置為0.001,迭代次數(shù)設(shè)置為1 000。

        在以下實(shí)驗(yàn)中,基于QWS數(shù)據(jù)集考慮了三個(gè)QoS屬性,即可用性、可靠性和響應(yīng)時(shí)間。通過使用表1聚合其成員Web服務(wù)的QoS向量,計(jì)算每個(gè)工作流的平均累積獎(jiǎng)勵(lì)r。

        表1 聚合參數(shù)

        在學(xué)習(xí)質(zhì)量、選擇策略和消耗時(shí)間性能方面,將本文方法與文獻(xiàn)[5]提出的MO-SCORM方法、文獻(xiàn)[7]提出的SDMP-RL方法和文獻(xiàn)[8]提出的DQL方法進(jìn)行比較。學(xué)習(xí)參數(shù)是根據(jù)文獻(xiàn)[13]中的第一次經(jīng)驗(yàn)?zāi)M建立的,具體設(shè)置如表2所示。

        表2 參數(shù)設(shè)置

        4.2 學(xué)習(xí)質(zhì)量

        本節(jié)主要驗(yàn)證所提方法在大型環(huán)境中尋找高質(zhì)量服務(wù)組合的能力。當(dāng)解決方案收斂到最佳服務(wù)選擇策略時(shí),使用學(xué)習(xí)代理獲得的平均累積獎(jiǎng)勵(lì)來衡量方法能力,此獎(jiǎng)勵(lì)值表示最佳工作流的聚合QoS。

        測試分成兩次。測試1中,測試環(huán)境抽象任務(wù)數(shù)量固定為150個(gè)和250個(gè),其可用的具體Web服務(wù)的數(shù)量范圍為600到900。在此環(huán)境下,運(yùn)行四種方法并將結(jié)果統(tǒng)計(jì)于圖3中。

        圖3 不同抽象服務(wù)任務(wù)數(shù)量下的積累獎(jiǎng)勵(lì)對比

        可以看出,雖然環(huán)境規(guī)模較大,但本文提出的LSTM-DQN方法的運(yùn)行結(jié)果優(yōu)于文獻(xiàn)[5]、文獻(xiàn)[7]和文獻(xiàn)[8]方法,LSTM-DQN方法顯然在整個(gè)學(xué)習(xí)過程中獲得更高的累積回報(bào),并帶來更高質(zhì)量的解決方案。

        測試2中,將具體服務(wù)的數(shù)量固定為700和900,并將抽象任務(wù)服務(wù)的數(shù)量范圍設(shè)置為100到400,實(shí)驗(yàn)結(jié)果如圖4所示。

        圖4 不同具體服務(wù)任務(wù)數(shù)量下的積累獎(jiǎng)勵(lì)對比

        無論每個(gè)工作流的抽象任務(wù)的數(shù)量大小為多少,LSTM-DQN服務(wù)組合方法的結(jié)果均優(yōu)于文獻(xiàn)[5]、文獻(xiàn)[7]及文獻(xiàn)[8]方法。隨著抽象任務(wù)服務(wù)數(shù)量的增加,方法性能差距會(huì)越來越大,由此驗(yàn)證了LSTM-DQN方法可以找到更好的服務(wù)組合、在大型環(huán)境中的可擴(kuò)展性及其查找高質(zhì)量服務(wù)的能力。

        4.3 最佳服務(wù)選擇策略

        本節(jié)驗(yàn)證所提出的學(xué)習(xí)方法在動(dòng)態(tài)服務(wù)環(huán)境中找到最佳服務(wù)選擇策略的能力,該能力由獲得的累積獎(jiǎng)勵(lì)來衡量的。服務(wù)環(huán)境中的動(dòng)態(tài)更改取決于參與者具體服務(wù)的QoS值變化。QoS值動(dòng)態(tài)變化會(huì)影響學(xué)習(xí)代理收到的獎(jiǎng)勵(lì)值r。本實(shí)驗(yàn)中用兩個(gè)因素來衡量服務(wù)環(huán)境的動(dòng)態(tài)變化,即更改的規(guī)模和變化的頻率。

        為驗(yàn)證變化規(guī)模這一因素的影響,考慮一個(gè)每個(gè)任務(wù)包含200個(gè)抽象任務(wù)服務(wù)和700個(gè)具體服務(wù)的工作流,改變參與者具體服務(wù)的QoS值,變化百分比分別為1%、5%和10%。實(shí)驗(yàn)結(jié)果如圖5所示。其中:x軸表示參與者具體服務(wù)的QoS值的更改百分比;y軸表示學(xué)習(xí)代理在收斂到最佳值之前所獲得的累積獎(jiǎng)勵(lì)。

        圖5 變化尺度對比1

        可以看出,LSTM-DQN方法在服務(wù)環(huán)境中匯聚到最佳策略之前,分別累積了162和111個(gè)單位的獎(jiǎng)勵(lì),而服務(wù)環(huán)境在其參與者的具體QoS值中經(jīng)歷1%和5%的周期性變化服務(wù)。與DQN和RL方法在同一環(huán)境下分別獲得的85和77個(gè)單位的獎(jiǎng)勵(lì),以及64和56個(gè)單位的獎(jiǎng)勵(lì)相比,在復(fù)雜動(dòng)態(tài)的環(huán)境中學(xué)習(xí)最佳服務(wù)選擇策略時(shí),LSTM-DQN方法的效率不高。

        為驗(yàn)證更改頻率這一因素,本文考慮一個(gè)每個(gè)任務(wù)包含200個(gè)抽象任務(wù)服務(wù)和700個(gè)具體服務(wù)的工作流,參與者具體服務(wù)的5%的QoS值每1 000、500和250段落按順序定期變化。結(jié)果如圖6所示。其中:x軸表示段落數(shù);y軸表示學(xué)習(xí)代理在收斂到最佳值之前所獲得的累積獎(jiǎng)勵(lì)。

        圖6 變換頻率對比

        可以看出,LSTM-DQN方法在匯合到服務(wù)環(huán)境中的最佳策略,每個(gè)1 000段和500段的參與者服務(wù)的QoS值分別經(jīng)歷5%的周期性更改。這與DQN方法和RL方法在相同服務(wù)環(huán)境中分別獲得的80和67個(gè)獎(jiǎng)勵(lì)單位以及57和53個(gè)單位的獎(jiǎng)勵(lì)相比更好。

        4.4 服務(wù)組合成功率

        本文方法在大規(guī)模服務(wù)數(shù)量下效果明顯,為了驗(yàn)證這一點(diǎn),采用不同的任務(wù)數(shù)對四種方法進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示。

        圖7 變化尺度對比2

        可以看出,使用LSTM-DQN方法能夠得到相對高的服務(wù)組合成功率。并且服務(wù)組合時(shí),組合成功率與任務(wù)數(shù)有關(guān)系,隨著任務(wù)數(shù)的增加,組合成功率會(huì)降低,但使用LSTM-DQN方法組合成功率變化緩慢,說明候選服務(wù)數(shù)越多,系統(tǒng)的性能越穩(wěn)定,但系統(tǒng)的代價(jià)也會(huì)增大,這與實(shí)際是相符合的。

        4.5 消耗時(shí)間

        對20個(gè)服務(wù)組合要求進(jìn)行20次取樣,將LSTM-DQN方法與文獻(xiàn)[5]、文獻(xiàn)[7]、文獻(xiàn)[8]方法進(jìn)行實(shí)驗(yàn)對比,服務(wù)組合消耗的時(shí)間如圖8所示。

        圖8 服務(wù)組合消耗的時(shí)間對比

        可以看出,隨著參與組合服務(wù)數(shù)目的增加,在網(wǎng)絡(luò)環(huán)境經(jīng)常變動(dòng)的情形下,服務(wù)組合所耗費(fèi)時(shí)間明顯都在增加,但是LSTM-DQN方法與其他兩種方法相比,其消耗的時(shí)間相對較少,服務(wù)組合的數(shù)目越多,其優(yōu)勢越明顯。

        5 結(jié) 語

        本文提出一種利用記憶單元和改進(jìn)DQN的Web服務(wù)組合優(yōu)化方法,該法利用Markov對Web服務(wù)組合優(yōu)化問題進(jìn)行建模,并引入了強(qiáng)化學(xué)習(xí)的組合優(yōu)化模型,簡化了組合優(yōu)化過程。并且基于記憶單元對深 度Q網(wǎng)絡(luò)算法進(jìn)行優(yōu)化,提出LSTM-DQN方法,極大地提升了DQN算法的全局尋優(yōu)能力。為驗(yàn)證所提方法的性能,將其基于QWS數(shù)據(jù)集與DQN和RL方法進(jìn)行對比分析,結(jié)果表明,本文方法相對于其他兩種方法在大規(guī)模服務(wù)環(huán)境下對Web服務(wù)組合優(yōu)化所消耗時(shí)間更短,服務(wù)組合成功率更高,具有更強(qiáng)的處理能力和處理效率。

        本文方法只考慮一個(gè)代理的Web服務(wù)數(shù)量,在未來的工作中,可以考慮將LSTM-DQN方法擴(kuò)展到多代理設(shè)置,并針對學(xué)習(xí)代理數(shù)量與服務(wù)環(huán)境規(guī)模之間的權(quán)衡問題作進(jìn)一步的研究。

        猜你喜歡
        動(dòng)作優(yōu)化環(huán)境
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
        一道優(yōu)化題的幾何解法
        孕期遠(yuǎn)離容易致畸的環(huán)境
        環(huán)境
        動(dòng)作描寫要具體
        畫動(dòng)作
        日日摸夜夜添无码无码av| 口爆吞精美臀国产在线| 国产色视频在线观看了| 亚洲综合日韩一二三区| 东北少妇不戴套对白第一次 | 国产乱国产乱老熟300部视频| www国产无套内射com| 久久AⅤ无码精品为人妻系列| 亚洲精品123区在线观看| 美腿丝袜av在线播放| 一区二区三区在线日本视频| 国产自拍偷拍精品视频在线观看| 精品国际久久久久999波多野| 欧美黑人性暴力猛交喷水黑人巨大| 色先锋资源久久综合5566| 国产精彩视频| av永远在线免费观看| 国产毛片视频一区二区三区在线| 精品厕所偷拍一区二区视频| 久久不见久久见免费影院国语| 国产美女露脸口爆吞精| 国产精品日韩欧美一区二区区| 99在线无码精品秘 入口九色| 成年男女免费视频网站点播| 真实夫妻露脸爱视频九色网| 欧美人与禽2o2o性论交| 日韩少妇激情一区二区| 久久久久中文字幕无码少妇| 激情亚洲综合熟女婷婷| 日本岛国一区二区三区四区| 亚洲一区二区女搞男| 日本一卡2卡3卡4卡无卡免费网站| 无码毛片aaa在线| 日韩国产有码在线观看视频| 久久2020精品免费网站| 亚洲精品视频在线一区二区| 天天噜日日噜狠狠噜免费| 国产精品无码日韩欧| 99精品国产第一福利网站| 亚洲伊人av综合福利| 久久红精品一区二区三区|