亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Q學(xué)習(xí)的代理模型輔助優(yōu)化算法

        2025-05-31 00:00:00任志海
        信息系統(tǒng)工程 2025年4期
        關(guān)鍵詞:動(dòng)作優(yōu)化策略

        一、前言

        進(jìn)化算法常被用于解決各種優(yōu)化問題。然而,傳統(tǒng)的進(jìn)化算法需要大量的目標(biāo)函數(shù)評(píng)價(jià)才能獲得一個(gè)可接受的解。在實(shí)際應(yīng)用中,一次目標(biāo)函數(shù)評(píng)價(jià)可能耗時(shí)數(shù)分鐘至數(shù)小時(shí)(如仿真模擬、物理實(shí)驗(yàn)),這類問題被稱為計(jì)算昂貴優(yōu)化問題[。為了解決這個(gè)問題,研究人員在優(yōu)化算法中使用代理模型來(lái)替代目標(biāo)函數(shù),稱為代理模型輔助的優(yōu)化算法。在代理模型輔助的優(yōu)化算法中,需要選擇樣本點(diǎn)使用目標(biāo)函數(shù)進(jìn)行評(píng)價(jià),并對(duì)代理模型進(jìn)行更新。選擇樣本點(diǎn)的策略已經(jīng)成為一個(gè)重要的研究問題。面對(duì)日漸復(fù)雜的應(yīng)用問題,單一的模型和優(yōu)化方法已經(jīng)不能滿足需求,需要根據(jù)算法的搜索情況動(dòng)態(tài)切換代理模型和算法,當(dāng)前多模型協(xié)同方法在模型切換策略方面依賴人工經(jīng)驗(yàn),缺乏自適應(yīng)性。

        盡管代理模型輔助優(yōu)化已取得一定進(jìn)展,但其性能仍受限于固定的模型一優(yōu)化器組合框架。因此,如何實(shí)現(xiàn)動(dòng)態(tài)策略選擇成為亟待解決的關(guān)鍵問題。Q學(xué)習(xí)技術(shù)可以通過(guò)Q表評(píng)估模型一優(yōu)化器組合的收益,使算法在不同問題下自適應(yīng)地選擇適合的策略。

        二、相關(guān)理論

        (一)Kriging模型

        Kriging模型[2是一種非參數(shù)型模型,常用于地理科學(xué)、優(yōu)化設(shè)計(jì)等領(lǐng)域,其功能函數(shù) 的數(shù)學(xué)表達(dá)式為:

        其中, 為基函數(shù),多為常數(shù)、一次回歸多項(xiàng)式、二次回歸多項(xiàng)式, β 是相應(yīng)的回歸系數(shù), 是均值為0、方差為 的隨機(jī)過(guò)程。

        (二)徑向基函數(shù)網(wǎng)絡(luò)(RBF)

        徑向基函數(shù)網(wǎng)絡(luò)[3是一種基于前向傳播結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,公式如下:

        其中, 是訓(xùn)練集的數(shù)量, 代表第i個(gè)訓(xùn)練樣本, 代表第i個(gè)訓(xùn)練樣本的權(quán)重, 是核函數(shù)。在本文中,

        使用“cubic”核函數(shù)。

        (三)粒子群優(yōu)化算法(PSO)

        粒子群優(yōu)化算法是一種被廣泛使用的群體優(yōu)化算法。為了找到優(yōu)化問題的全局最優(yōu)解,粒子從個(gè)體最優(yōu)和全局最優(yōu)位置學(xué)習(xí)。具體而言,粒子的學(xué)習(xí)機(jī)制概括如下:

        其中t是迭代次數(shù), 是第i個(gè)粒子的位置和速度, ω 是慣性權(quán)重, 是自學(xué)習(xí)因子, 是群體學(xué)習(xí)因子, 是[0,1]\"范圍內(nèi)的隨機(jī)向量,n是決策空間的維度,pbesti是個(gè)體歷史最優(yōu)位置,gbest是種群歷史最優(yōu)位置。

        (四)社會(huì)學(xué)習(xí)粒子群優(yōu)化算法(SL-PSO)

        社會(huì)學(xué)習(xí)粒子群優(yōu)化算法[是粒子群優(yōu)化算法的一種變體,它引入了一種新的學(xué)習(xí)機(jī)制。在SL-PSO中,粒子的更新不僅依賴于它們自己的經(jīng)驗(yàn)(即它們找到的最佳位置),還依賴于整個(gè)群體的經(jīng)驗(yàn)。排名靠前后的粒子會(huì)學(xué)習(xí)排名靠前的粒子的行為,以提高自己的性能。當(dāng)前最優(yōu)粒子的位置信息會(huì)被其他所有粒子所學(xué)習(xí)。算法中粒子的更新公式如下:

        其中 (t)表示粒子i在第t代的飛行速度, (t)表示粒子i在第t代的位置。 是種群在第t代的平均位置,反映了整個(gè)群體的中心趨勢(shì)。 是社會(huì)影響因子。 用于在速度和位置更新中引入隨機(jī)性,范圍是[0,1]。 (t)是隨機(jī)數(shù),用于在粒子更新過(guò)程中引入隨機(jī)性。 代表在種群中降序排列在第i位的粒子的學(xué)習(xí)概率。m代表種群大小,n代表決策空間維度, 、M是一個(gè)定值。

        總的來(lái)說(shuō),SL-PSO算法通過(guò)引入社會(huì)學(xué)習(xí)機(jī)制,允許粒子根據(jù)它們?cè)诜N群中的相對(duì)位置和整個(gè)種群的中心趨勢(shì)來(lái)調(diào)整自己的速度和位置。這種機(jī)制有助于粒子探索解空間,并最終找到問題的最優(yōu)解或近似最優(yōu)解。

        (五)Q學(xué)習(xí)(Q-learning)

        Q學(xué)習(xí)[是一種無(wú)模型的強(qiáng)化學(xué)習(xí)算法。它根據(jù)當(dāng)前狀態(tài)下執(zhí)行動(dòng)作將會(huì)獲得的獎(jiǎng)勵(lì)來(lái)決定執(zhí)行哪個(gè)動(dòng)作。Q學(xué)習(xí)方法原理簡(jiǎn)單,適應(yīng)動(dòng)態(tài)環(huán)境,可收斂到最佳策略。Q表的更新公式為:

        其中, )代表在當(dāng)前狀態(tài)和動(dòng)作下的Q值。 分別是學(xué)習(xí)率和折扣因子,范圍均為[0,1]。r代表在當(dāng)前狀態(tài) 下執(zhí)行動(dòng)作 后會(huì)獲得的獎(jiǎng)勵(lì)。max Q( ,A)代表在下一狀態(tài) 可獲得的最大獎(jiǎng)勵(lì)。A

        三、基于Q學(xué)習(xí)的代理模型輔助優(yōu)化算法(QL-SAEA)

        (一)算法詳細(xì)介紹

        算法1給出了基于Q學(xué)習(xí)的代理模型輔助優(yōu)化算法的偽代碼。算法結(jié)合了Q學(xué)習(xí)框架和代理模型輔助的進(jìn)化算法,設(shè)計(jì)了4種不同的采樣策略。首先,初始化Q表,每種采樣策略對(duì)應(yīng)一個(gè)動(dòng)作action,每個(gè)動(dòng)作執(zhí)行后是否更新最優(yōu)解各對(duì)應(yīng)一個(gè)狀態(tài)state,因此Q表設(shè)置為8行4列,所有Q值初始化為0.25,隨機(jī)選擇一個(gè)狀態(tài)作為當(dāng)前狀態(tài)state。使用拉丁超立方體(LHS)生成NP個(gè)初始樣本,使用目標(biāo)函數(shù)進(jìn)行評(píng)價(jià),存入數(shù)據(jù)庫(kù)DB中,從DB中找到當(dāng)前最優(yōu)樣本 ,更新目標(biāo)函數(shù)評(píng)價(jià)次數(shù)NFE。然后根據(jù)式子(4)和(5)選擇動(dòng)作action,其 s)代表當(dāng)前狀態(tài)s下第i個(gè)動(dòng)作 被選中的概率, 代表當(dāng)前狀態(tài)s下第i個(gè)動(dòng)作 的Q值,rand表示一個(gè)[0,1]范圍內(nèi)的隨機(jī)數(shù),A為被選中概率不小于rand值中最接近rand的動(dòng)作。接下來(lái)執(zhí)行所選動(dòng)作代表的策略,獲得候選解x并使用目標(biāo)函數(shù)評(píng)價(jià),將 存入DB中,更新NFE。當(dāng)候選解 的目標(biāo)函數(shù)值f 小于f( )時(shí),將 賦值給 模型更新標(biāo)志 success置為1,否則將success置為 隨后按照式子(3)更新當(dāng)前狀態(tài)和動(dòng)作對(duì)應(yīng)的Q值,按照式子(6)更新狀態(tài)值state,第一個(gè)動(dòng)作的成功與失敗分別對(duì)應(yīng)第1、2行,第二個(gè)動(dòng)作的成功與失敗分別對(duì)應(yīng)第3、4行,以此類推。此后返回式子(3)繼續(xù)執(zhí)行,直到算法結(jié)束,輸出最優(yōu)解 及其目標(biāo)函數(shù)值f(

        表1實(shí)驗(yàn)結(jié)果

        算法1:QL-SAEA的框架。

        輸入:?jiǎn)栴}維度Dim,最大目標(biāo)函數(shù)評(píng)價(jià)次數(shù)MaxNFE。

        輸出:最優(yōu)解xbest及其目標(biāo)函數(shù)值。

        1.初始化Q表及當(dāng)前狀態(tài)state;

        2.初始化DB,更新NFE、xbest;

        3.while:NFE

        4.選擇動(dòng)作action;

        5.執(zhí)行動(dòng)作action,確定候選解x;

        6.使用目標(biāo)函數(shù)評(píng)價(jià)候選解 ,更新DB、xbest、NFE、success;

        7.更新Q-table(state,action)對(duì)應(yīng)的Q值和當(dāng)前狀態(tài) state;

        8.endwhile。

        (二)采樣策略

        采樣策略用于尋找新的候選解更新 。為提高候選解搜索效率與算法穩(wěn)定性,本文采用Kriging與RBF雙代理模型協(xié)同策略。在建立Kriging模型時(shí),為了防止模型過(guò)擬合,同時(shí)規(guī)避Kriging模型在訓(xùn)練樣本數(shù)量大時(shí)計(jì)算量過(guò)大的問題,從DB中隨機(jī)選擇N個(gè)樣本作為訓(xùn)練集,而不是選擇DB中的全部樣本。RBF模型使用DB全部樣本訓(xùn)練,通過(guò)累積樣本密度引導(dǎo)搜索聚焦于最優(yōu)解 鄰域。本文使用了兩種優(yōu)化器:粒子群優(yōu)化算法[5(PSO)和社會(huì)學(xué)習(xí)粒子群優(yōu)化算法[(SL-PSO)。PSO算法全局搜索能力較強(qiáng):粒子通過(guò)跟蹤個(gè)體最優(yōu)(pbest)和群體最優(yōu)(gbest)探索解空間,適合初期廣泛搜索。SL-PSO算法引入社會(huì)學(xué)習(xí)機(jī)制,對(duì)探索與開發(fā)的平衡較好。通過(guò)對(duì)PSO/SL-PSO優(yōu)化器與Kriging/RBF模型的交叉組合,形成4組策略組合:Kriging+PSO(策略1)、Kriging+SL-PSO(策略2)RBF+PSO(策略3)、RBF SL-PSO(策略4,通過(guò)不同模型與算法的優(yōu)勢(shì)互補(bǔ)增強(qiáng)算法魯棒性。

        四、實(shí)驗(yàn)及結(jié)果分析

        (一)實(shí)驗(yàn)設(shè)置

        為了驗(yàn)證本文所提出算法QL-SAEA的有效性,在CEC2005的5個(gè)基準(zhǔn)測(cè)試函數(shù)上與CAL-SAPSO、

        經(jīng)驗(yàn)交流

        LMSRBF、DYCORS、SSLPSO進(jìn)行比較,每個(gè)測(cè)試函數(shù)的維度分別設(shè)置為10、20、30維。MaxNFE設(shè)置為 ,所有實(shí)驗(yàn)獨(dú)立運(yùn)行20次。NP設(shè)置為 。PSO和SL-PSO的最大迭代次數(shù)設(shè)置為 。在建立Kriging模型時(shí),N為 PSO中慣性權(quán)重 ω 為0.8,自學(xué)習(xí)因子 為0.5,群體學(xué)習(xí)因子 為0.5。在Q-learning中,學(xué)習(xí)率 為0.1,折扣因子 為0.9,獎(jiǎng)勵(lì)r為1。

        (二)實(shí)驗(yàn)結(jié)果和分析

        表1給出了實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果,為20次獨(dú)立運(yùn)行結(jié)果的均值。對(duì)統(tǒng)計(jì)結(jié)果采用了顯著性水平為0.05的Wilcoxon秩和檢驗(yàn),所提出的算法的性能明顯優(yōu)于、無(wú)明顯差異或差于所比較的算法分別用 + , ≈ 和-表示??梢钥闯觯啾容^其他4種算法,本文所提出的算法在6個(gè)問題上獲得了最好的結(jié)果。在30維的Ellipsoid問題上與取得最好結(jié)果的CAL-SAPSO無(wú)明顯差異,在20、30維的Rosenbrock問題上和30維的Griewank問題上僅差于CAL-SAPSO,說(shuō)明本文提出的QL-SAEA在計(jì)算昂貴問題上是有效的。

        五、結(jié)語(yǔ)

        本文針對(duì)計(jì)算昂貴優(yōu)化問題,提出了一種基于Q學(xué)習(xí)的代理模型輔助優(yōu)化算法QL-SAEA。在QL-SAEA中使用了Q學(xué)習(xí)方法用于選擇不同的策略用于采樣,使用Kriging模型輔助搜索時(shí),注重對(duì)全局的擬合能力,使用RBF模型輔助搜索時(shí),注重對(duì)最優(yōu)區(qū)域的擬合能力。實(shí)驗(yàn)結(jié)果表明,本文提出的QL-SAEA在15個(gè)測(cè)試問題上比其他算法更有效。

        參考文獻(xiàn)

        [1]ZhenH.,GongW.,WangL..EvolutionarySamplingAgent forExpensive Problems [J].IEEE Transactions on Evolutionary Computation,2023,3 (27):716-727.

        [2]張磊,胡震.基于克里金模型的潛水器耐壓艙結(jié)構(gòu)優(yōu)化[J].船舶力學(xué),2020,24(01):108-117.

        [3]Diaz-Manriquez,Alan, ToscanoG,Coello Coello C.Comparison of metamodeling techniques in evolutionary algorithms [J].Soft Computing, 2017, 19 (21):5647-5663.

        [4]Watkins ChristopherJ.C.H.,Dayan Peter.Q-learning[J]. MachineLearning,1992,3(08):279-292.

        [5]KennedyJ.,EberhartR.Particleswarmoptimization[C]. Proceedings of ICNN'95-International Conference on Neural Networks,1995(04):1942-1948.

        [6]ChengRan,Jin Yaochu.A social learningparticle swarm optimizationalgorithm for scalableoptimization[J].Information Sciences,2015 (291):43-60.

        作者單位:山西電子科技學(xué)院

        責(zé)任編輯:王穎振楊惠娟

        猜你喜歡
        動(dòng)作優(yōu)化策略
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        動(dòng)作描寫要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫動(dòng)作
        動(dòng)作描寫不可少
        日本护士xxxx视频| 国产免费一区二区三区在线视频| 国产精品久久一区二区蜜桃| 国产区女主播一区在线| 亚欧美日韩香蕉在线播放视频| 99久久久无码国产aaa精品| 丁香九月综合激情| 高潮精品熟妇一区二区三区| 在教室伦流澡到高潮hgl动漫 | 国产偷国产偷亚洲清高| 欧美zozo另类人禽交| 中文字幕日韩精品永久在线| 国产精品成熟老女人| 中国丰满大乳乳液| 中文字幕乱码人妻无码久久久1 | 97人人超碰国产精品最新o| 欧美人与动牲交片免费| 国产中文字幕免费视频一区| 日本最新免费二区三区| 中文字幕影片免费在线观看| 挑战亚洲美女视频网站| 男人天堂亚洲天堂av| 亚欧色一区w666天堂| 特级黄色毛片视频| 亚洲国产成人av第一二三区| 无码伊人久久大杳蕉中文无码| 色婷婷亚洲一区二区三区在线| 久久久久88色偷偷| 亚洲精品自产拍在线观看| 极品人妻少妇一区二区| 亚洲丝袜美腿在线视频| 久久久g0g0午夜无码精品| 国产精品久久无码不卡黑寡妇| 日本在线一区二区在线| 国产老熟妇精品观看| 精品人妻无码一区二区色欲产成人| 国语精品视频在线观看不卡| 人妻久久一区二区三区| 中文字幕乱码熟女人妻水蜜桃| 亚洲丁香五月激情综合| 中文字幕亚洲乱码熟女1区2区|