摘" 要:針對(duì)AGV路徑規(guī)劃中的收斂速度慢和路徑動(dòng)態(tài)調(diào)整的問(wèn)題,提出了一種改進(jìn)的Q-learning算法。首先,引入了曼哈頓距離作為額外的啟發(fā)信息,結(jié)合Q-learning算法進(jìn)行路徑規(guī)劃,以加速算法的收斂速度。其次,增加了故障點(diǎn)的考慮,并在路徑規(guī)劃過(guò)程中動(dòng)態(tài)調(diào)整路徑,驗(yàn)證了算法對(duì)于動(dòng)態(tài)環(huán)境的可行性。此外,還設(shè)計(jì)了路徑中可以收集貨物的機(jī)制,使得AGV在執(zhí)行任務(wù)的同時(shí)能夠完成貨物的搬運(yùn)任務(wù)。通過(guò)對(duì)比實(shí)驗(yàn),驗(yàn)證了改進(jìn)算法在不同場(chǎng)景下的有效性和性能優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的Q-learning算法在提高收斂速度、適應(yīng)復(fù)雜環(huán)境和靈活執(zhí)行任務(wù)方面取得了顯著的效果,為AGV路徑規(guī)劃提供了一種新的解決方案。
關(guān)鍵詞:路徑規(guī)劃;曼哈頓距離;動(dòng)態(tài)調(diào)整;貨物收集
中圖分類號(hào):F253.9" " 文獻(xiàn)標(biāo)志碼:A" " DOI:10.13714/j.cnki.1002-3100.2025.01.006
Abstract: For addressing the slow convergence and dynamic path adjustment issues in AGV path planning, an enhanced Q-learning algorithm is proposed. Firstly, the Manhattan distance is introduced as additional heuristic information, combined with the Q
-learning algorithm for path planning to accelerate the convergence speed of the algorithm. Secondly, the consideration of fault points is added, and the path is dynamically adjusted during the path planning process, validating the algorithm's feasibility for dynamic environments. Additionally, a mechanism for collecting goods along the path is designed, allowing the AGV to perform cargo transportation tasks while executing its main tasks. Through comparative experiments, the effectiveness and performance advantages of the improved algorithm in various scenarios are verified. The experimental results demonstrate significant improvements in convergence speed, adaptation to complex environments, and flexible task execution, providing a novel solution for AGV path planning.
Key words: path planning; Manhattan distance; dynamic adjustment; cargo collection
0" 引" 言
自動(dòng)導(dǎo)引車(Automated Guided Vehicle,AGV)路徑規(guī)劃是該領(lǐng)域的一個(gè)核心問(wèn)題,其核心目標(biāo)是在存在障礙物限制的情況下,根據(jù)已知的起點(diǎn)和終點(diǎn),以最短路徑或最短時(shí)間為優(yōu)先考慮,尋找一條最佳或接近最佳的安全且通暢的路徑。由于應(yīng)用場(chǎng)景廣泛,因此大體可以分為兩種應(yīng)用場(chǎng)景,即全局靜態(tài)場(chǎng)景和局部動(dòng)態(tài)場(chǎng)景。不同場(chǎng)景也有不同算法適配,如全局靜態(tài)場(chǎng)景普遍為全局信息已知,常用算法為蟻群算法[1]、Dijkstra算法[2]、A*算法[3]等;局部動(dòng)態(tài)場(chǎng)景為部分信息未知或動(dòng)態(tài)改變,常用算法為動(dòng)態(tài)窗口法[4]、強(qiáng)化學(xué)習(xí)[5]等。
針對(duì)AGV路徑規(guī)劃問(wèn)題,文獻(xiàn)[6]針對(duì)AGV局部路徑規(guī)劃,提出了基于強(qiáng)化學(xué)習(xí)混合增強(qiáng)蟻群算法。針對(duì)傳統(tǒng)蟻群算法效率低下的缺陷,提出將置信上界(Upper Confidence Bound,UCB)算法中的UCB值和Q值更新策略引入蟻群算法、改善啟發(fā)函數(shù)、改進(jìn)障礙節(jié)點(diǎn)懲罰原則以及綜合局部最佳路徑的路線搜索方法,使得最短路線的搜尋效率得到提升;文獻(xiàn)[7]提出一種改進(jìn)的動(dòng)態(tài)調(diào)整探索因子ε策略,即在強(qiáng)化學(xué)習(xí)的不同階段選擇不同的探索因子ε值,提高了改進(jìn)后強(qiáng)化學(xué)習(xí)算法的收斂速度以及調(diào)高了收斂結(jié)果的穩(wěn)定性。文獻(xiàn)[8]設(shè)計(jì)了一種啟發(fā)式獎(jiǎng)勵(lì)函數(shù)和啟發(fā)式動(dòng)作選擇策略,以此強(qiáng)化智能體對(duì)優(yōu)質(zhì)行為的探索,提高算法學(xué)習(xí)效率并證明了改進(jìn)啟發(fā)式強(qiáng)化學(xué)習(xí)算法在探索次數(shù)、規(guī)劃時(shí)間、路徑長(zhǎng)度與路徑轉(zhuǎn)角上都具有一定的優(yōu)勢(shì)。
目前采用強(qiáng)化學(xué)習(xí)算法解決AGV路徑規(guī)劃問(wèn)題的研究上,大多存在迭代次數(shù)過(guò)多、收斂速度慢、實(shí)用性較差等現(xiàn)象,本文在增加多種貼合實(shí)際的實(shí)驗(yàn)場(chǎng)景的前提下,提出一種改進(jìn)Q-learning算法,可以更高效地解決強(qiáng)化學(xué)習(xí)效率低下的問(wèn)題,同時(shí)驗(yàn)證可行性。
1" 環(huán)境概述
在本文所考慮的路徑規(guī)劃問(wèn)題中,地圖呈現(xiàn)為一個(gè)柵格地圖,并且智能體只能執(zhí)行上、下、左、右四個(gè)基本動(dòng)作。地圖中包含了起點(diǎn)、障礙點(diǎn)和終點(diǎn),它們都被建模成了橢圓形矩形。
地圖坐標(biāo)表示為橢圓形矩形的左上角和右下角的位置。起點(diǎn)的坐標(biāo)為10,10,50,50,終點(diǎn)的坐標(biāo)為550,550,590,590,其他障礙物坐標(biāo)如圖1所示。其中前兩個(gè)數(shù)字表示了左上角的坐標(biāo),而后兩個(gè)數(shù)字則表示了右下角的坐標(biāo)。
在這樣的地圖環(huán)境下,智能體需要保證在避開障礙物的同時(shí),從起點(diǎn)移動(dòng)到終點(diǎn)。由于動(dòng)作約束僅限于上、下、左、右四個(gè)方向,智能體只能選擇這四個(gè)動(dòng)作中的一個(gè)來(lái)執(zhí)行。因此,路徑規(guī)劃問(wèn)題在這樣的地圖環(huán)境中變得更加具體和實(shí)際。
這種地圖表示方法能夠清晰地定義地圖的布局和智能體的行動(dòng)空間,為路徑規(guī)劃算法的設(shè)計(jì)和實(shí)現(xiàn)提供了基礎(chǔ)。同時(shí),通過(guò)合理設(shè)計(jì)起點(diǎn)、障礙點(diǎn)和終點(diǎn)的位置和形狀,也可以模擬出各種復(fù)雜的路徑規(guī)劃場(chǎng)景,從而驗(yàn)證算法的性能和魯棒性。
2" 改進(jìn)Q-learning算法
2.1" Q-learning算法工作原理
Q-learning算法是一種經(jīng)典的強(qiáng)化學(xué)習(xí)算法,其工作原理基于馬爾可夫決策過(guò)程(Markov Decision Process, MDP)。其核心思想是通過(guò)學(xué)習(xí)一個(gè)價(jià)值函數(shù)(Value Function),來(lái)指導(dǎo)智能體在環(huán)境中做出動(dòng)作,以達(dá)到最大化累積獎(jiǎng)勵(lì)的目標(biāo)。具體來(lái)說(shuō),Q-learning算法通過(guò)學(xué)習(xí)一個(gè)狀態(tài)-動(dòng)作值函數(shù)(Q函數(shù)),記為Qs,a,其中:s表示狀態(tài),a表示動(dòng)作。這個(gè)函數(shù)表示在狀態(tài)s下采取動(dòng)作a所能獲得的累積獎(jiǎng)勵(lì)的期望值。Q-learning算法的更新規(guī)則如下:
Qs,a=Qs,a+αr+γmaxQs,a-Qs,a" " " " " " " " " " " " " " " " "(1)
式中:α是學(xué)習(xí)率,r是智能體執(zhí)行動(dòng)作a后所獲得的即時(shí)獎(jiǎng)勵(lì),γ是折扣因子,s是執(zhí)行動(dòng)作a后智能體進(jìn)入的下一個(gè)狀態(tài),maxQs,a表示在下一個(gè)狀態(tài)下采取所有可能動(dòng)作中能夠獲得的最大累積獎(jiǎng)勵(lì)的值。
Q-learning算法通過(guò)不斷地與環(huán)境交互,根據(jù)當(dāng)前狀態(tài)和動(dòng)作的獎(jiǎng)勵(lì)來(lái)更新Q值,以逐步優(yōu)化智能體的決策策略。在訓(xùn)練過(guò)程中,智能體通過(guò)探索-利用策略來(lái)平衡探索新策略和利用已有經(jīng)驗(yàn)的權(quán)衡,最終學(xué)得一個(gè)最優(yōu)的策略來(lái)在環(huán)境中實(shí)現(xiàn)特定的任務(wù)。
2.2" Q-learning算法改進(jìn)
2.2.1" 曼哈頓距離
曼哈頓距離[9],又稱為城市街區(qū)距離或L1距離,是一種常用的距離度量方式,用于衡量在規(guī)定了直角坐標(biāo)系中兩點(diǎn)之間的距離。它的命名來(lái)源于曼哈頓的街道布局,其中車輛只能沿著網(wǎng)格狀的街道行駛,因此兩點(diǎn)之間的距離必須沿著網(wǎng)格線走。在數(shù)學(xué)上,曼哈頓距離是通過(guò)將兩點(diǎn)的各坐標(biāo)數(shù)值差的絕對(duì)值相加而得出的。具體而言,對(duì)于二維平面上的兩點(diǎn)Px,y和Px,y之間的曼哈頓距離d可以表示為(在正文中可能會(huì)引用到前文章節(jié)的內(nèi)容,按照下面的方式進(jìn)行敘述):
d=x-x+y-y" " " " " " " " " " " " " " " " " " " " " "(2)
而在更高維度的空間中,曼哈頓距離的計(jì)算方式類似,即將各坐標(biāo)分量的絕對(duì)值之和作為距離。相較于其他距離度量方式如歐氏距離,曼哈頓距離更直觀地反映了在規(guī)定直角坐標(biāo)系中,從一個(gè)點(diǎn)到另一個(gè)點(diǎn)沿著網(wǎng)格線移動(dòng)所需的最小步數(shù)。
2.2.2" 增加啟發(fā)信息
傳統(tǒng)的Q-learning算法受限于僅考慮狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),常常在訓(xùn)練初期出現(xiàn)過(guò)度訓(xùn)練的問(wèn)題。這種情況顯著影響了學(xué)習(xí)速度和收斂速度,限制了其在實(shí)際應(yīng)用中的效果。在路徑規(guī)劃問(wèn)題中,地圖本身具有豐富的信息,其中包括未開發(fā)的參數(shù),如距離。然而,傳統(tǒng)Q-learning算法并未充分利用這些信息,導(dǎo)致其在面對(duì)復(fù)雜環(huán)境時(shí)前期表現(xiàn)不佳。
為了克服這一問(wèn)題,本文提出了一種新的Q-learning算法,即基于曼哈頓距離調(diào)整的方法。曼哈頓距離在路徑規(guī)劃領(lǐng)域被廣泛應(yīng)用,特別適用于具有離散動(dòng)作空間的問(wèn)題。通過(guò)將曼哈頓距離融入獎(jiǎng)勵(lì)函數(shù)中,可以在訓(xùn)練過(guò)程中引導(dǎo)智能體更有效的學(xué)習(xí),從而提高學(xué)習(xí)速度和收斂速度。
在本文研究中,將地圖上的曼哈頓距離作為一種額外的信息引入Q-learning算法中。具體地說(shuō)根據(jù)智能體與目標(biāo)之間的曼哈頓距離來(lái)調(diào)整獎(jiǎng)勵(lì)值,從而在靠近目標(biāo)的狀態(tài)下提供更多的獎(jiǎng)勵(lì)。這種方式使得智能體更傾向于朝向目標(biāo)移動(dòng),加速了學(xué)習(xí)過(guò)程的收斂。
此外,該方法幾乎適用于任何起點(diǎn)與終點(diǎn)的應(yīng)用場(chǎng)景,因?yàn)槁D距離作為一種啟發(fā)式函數(shù)[10],能夠有效地指導(dǎo)路徑規(guī)劃過(guò)程。通過(guò)在后續(xù)實(shí)驗(yàn)中驗(yàn)證,發(fā)現(xiàn)基于曼哈頓距離調(diào)整的Q-learning算法相較于傳統(tǒng)方法在學(xué)習(xí)速度和收斂速度上均取得了顯著的提升。假設(shè)當(dāng)前位置為x,x,y,y曼哈頓距離的計(jì)算公式表示為:
550-x+550-x/2+590-y+590-y/2" " " " " " " " " " " " " " " "(3)
2.2.3" 獎(jiǎng)勵(lì)設(shè)計(jì)改進(jìn)
在考慮到每個(gè)位置都有對(duì)應(yīng)到達(dá)終點(diǎn)的曼哈頓距離情況下,可以調(diào)整獎(jiǎng)勵(lì)函數(shù),使得靠近終點(diǎn)的位置獲得更大的獎(jiǎng)勵(lì),以此來(lái)引導(dǎo)智能體更快地選擇靠近終點(diǎn)的路徑。
在對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行調(diào)整時(shí),需要考慮到曼哈頓距離可能遠(yuǎn)大于獎(jiǎng)勵(lì)參數(shù)的情況。因此,歸一化處理是至關(guān)重要的,它確保了獎(jiǎng)勵(lì)值的合理范圍,避免了過(guò)大的獎(jiǎng)勵(lì)值對(duì)算法學(xué)習(xí)的干擾。通過(guò)引入歸一化參數(shù),可以對(duì)曼哈頓距離進(jìn)行適當(dāng)?shù)目s放,使得其范圍與獎(jiǎng)勵(lì)參數(shù)相匹配。這樣一來(lái),即使在距離較遠(yuǎn)的位置,智能體也能夠獲得合理的獎(jiǎng)勵(lì),從而保持了對(duì)學(xué)習(xí)過(guò)程的有效引導(dǎo)。
在本文的應(yīng)用場(chǎng)景中,曼哈頓距離最大為1 080,最小為0。通過(guò)歸一化后,得到了一個(gè)位于0,1范圍內(nèi)的歸一化距離值。這個(gè)歸一化的距離值可以直觀地表示智能體距離終點(diǎn)的相對(duì)距離,并且保證不會(huì)過(guò)大的影響?yīng)剟?lì)的分?jǐn)?shù),從而成為調(diào)整獎(jiǎng)勵(lì)的重要依據(jù)。
將原本的固定獎(jiǎng)勵(lì)進(jìn)行變更,數(shù)學(xué)公式為:
r=r+d/maxd" " " " " " " " " " " " " " " " " " " " " " " "(4)
通過(guò)在獎(jiǎng)勵(lì)函數(shù)中結(jié)合歸一化的曼哈頓距離,有效地將環(huán)境中的啟發(fā)信息引入到了Q-learning算法中,使得智能體更加智能地選擇動(dòng)作,并更快地學(xué)習(xí)到最優(yōu)策略。這種基于歸一化曼哈頓距離的獎(jiǎng)勵(lì)調(diào)整策略為路徑規(guī)劃問(wèn)題提供了一種新的思路和方法。
3" 方法設(shè)計(jì)與實(shí)現(xiàn)
本文利用Python實(shí)現(xiàn)傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法,通過(guò)可視化路徑搜索展示它們?cè)谌N不同應(yīng)用場(chǎng)景下的效果,并且在學(xué)習(xí)結(jié)束后,可視化最終選擇的路徑以及迭代次數(shù)和最終收益的折線圖。
這三種應(yīng)用場(chǎng)景分別是最短路徑規(guī)劃、收集貨物路徑規(guī)劃以及動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃。通過(guò)比較兩種算法在這些場(chǎng)景下的性能差異,深入探討改進(jìn)算法的優(yōu)勢(shì)和適用性。
在最短路徑規(guī)劃場(chǎng)景中,將建立一個(gè)柵格地圖模型,并使用傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法尋找起點(diǎn)到終點(diǎn)的最短路徑,完成一個(gè)最簡(jiǎn)單的AGV路徑規(guī)劃問(wèn)題;在收集貨物路徑規(guī)劃場(chǎng)景中,將考慮智能體需要在地圖上收集分布的貨物,然后再前往終點(diǎn)的場(chǎng)景,該場(chǎng)景更加貼合日常AGV運(yùn)營(yíng)方式;在動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃場(chǎng)景中,將模擬在地圖上增加故障點(diǎn),智能體需要避開這些故障點(diǎn)并收集貨物找到最短路徑到達(dá)目標(biāo),該場(chǎng)景主要檢測(cè)應(yīng)對(duì)突發(fā)情況,傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法的應(yīng)對(duì)能力。
通過(guò)可視化路徑搜索和可視化最終選擇的路徑以及迭代次數(shù)和最終收益的折線圖,可以清晰地觀察到傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在不同場(chǎng)景下的路徑搜索過(guò)程和結(jié)果并進(jìn)行對(duì)比。在比對(duì)兩種算法的差異時(shí),將著重考察它們?cè)趯W(xué)習(xí)速度、路徑質(zhì)量等的表現(xiàn)。這樣的對(duì)比分析有助于評(píng)估改進(jìn)算法在解決實(shí)際問(wèn)題中的應(yīng)用潛力,并為進(jìn)一步研究提供參考和啟示。
為保證實(shí)驗(yàn)嚴(yán)謹(jǐn)性,所以實(shí)驗(yàn)參數(shù)設(shè)置均為一致,如表1所示。
動(dòng)作選擇策略添加了ε-greedy策略,貪婪系數(shù)逐次遞減0.001,以此保證智能體可以進(jìn)行足夠的探索,并在后期可以利用已知信息來(lái)盡可能地執(zhí)行最優(yōu)動(dòng)作。
兩種算法獎(jiǎng)勵(lì)機(jī)制稍有不同,主要區(qū)別在于移動(dòng)的獎(jiǎng)勵(lì),改進(jìn)Q-learning獎(jiǎng)勵(lì)增加了歸一化后的曼哈頓距離。如表2所示。
3.1" 最短路徑規(guī)劃
最短路徑規(guī)劃實(shí)驗(yàn)中,首先考察了傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在尋找起點(diǎn)到終點(diǎn)的最短路徑方面的性能表現(xiàn)。傳統(tǒng)Q-learning算法最短路徑規(guī)和迭代次數(shù)以及改進(jìn)Q-learning算法最短路徑規(guī)和迭代次數(shù)如圖2所示。
圖左為傳統(tǒng)Q-learning算法結(jié)果,圖右為改進(jìn)Q-learning算法結(jié)果。從圖中可以觀察到,對(duì)于最短路徑的規(guī)劃問(wèn)題,雖然路徑長(zhǎng)短一致,但傳統(tǒng)Q-learning算法選擇的路徑存在7次轉(zhuǎn)彎,而改進(jìn)Q-learning算法選擇的路徑則僅僅需要3次轉(zhuǎn)彎,具有一定優(yōu)勢(shì)。而迭代次數(shù)方面,改進(jìn)Q-learning算法在約1 500次迭代后趨于收斂,而傳統(tǒng)Q-learning算法則需要大約1 750次迭代才能達(dá)到相似的收斂狀態(tài)。這表明改進(jìn)后的算法在最短路徑規(guī)劃問(wèn)題上具有更快的收斂速度,也可以更有效地找到最優(yōu)路徑。
3.2" 收集貨物路徑規(guī)劃
在收集貨物路徑規(guī)劃實(shí)驗(yàn)中,在原有地圖的基礎(chǔ)上增加了三個(gè)貨物點(diǎn),模擬了真實(shí)AGV取貨的場(chǎng)景。地圖構(gòu)建如圖3所示。
黃色點(diǎn)位標(biāo)識(shí)貨物的位置,當(dāng)智能體移動(dòng)到貨物點(diǎn)時(shí)表示成功取貨。為了防止智能體頻繁在貨物點(diǎn)刷分,采取了以下策略:使用三個(gè)數(shù)組來(lái)存儲(chǔ)貨物的坐標(biāo)信息,包括貨物點(diǎn)坐標(biāo)、當(dāng)前訓(xùn)練貨物坐標(biāo)和已取得貨物坐標(biāo)。其中,貨物點(diǎn)坐標(biāo)數(shù)組用于保存貨物位置信息,當(dāng)前訓(xùn)練貨物坐標(biāo)數(shù)組用于在訓(xùn)練過(guò)程中動(dòng)態(tài)復(fù)制貨物點(diǎn)坐標(biāo),已取得貨物坐標(biāo)數(shù)組用于記錄智能體成功取得的貨物坐標(biāo)。在每次訓(xùn)練中,當(dāng)智能體移動(dòng)到某一貨物點(diǎn)時(shí),該貨物點(diǎn)坐標(biāo)將被添加到已取得貨物坐標(biāo)數(shù)組中,并從當(dāng)前訓(xùn)練貨物坐標(biāo)數(shù)組中移除,以確保每個(gè)貨物只能被成功取得一次,從而避免智能體刷分的情況發(fā)生。
傳統(tǒng)Q-learning算法收集貨物路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法收集貨物路徑規(guī)劃和迭代次數(shù)如圖4所示。
路徑長(zhǎng)度方面兩種算法選擇的路徑距離相等,轉(zhuǎn)彎次數(shù)方面兩種算法的選擇路徑也一致,因此這方面并不存在突出優(yōu)勢(shì)。在貨物收集程度方面,兩種算法選擇的路徑,貨物也都收集到滿足了該需求,也不存在突出優(yōu)勢(shì)。而迭代次數(shù)方面,改進(jìn)
Q-learning算法在900次左右趨于收斂,而傳統(tǒng)Q-learning算法則是在1 150次左右趨于收斂,改進(jìn)Q-learning算法比傳統(tǒng)
Q-learning算法迭代次數(shù)有一個(gè)明顯降低,由此可見在收集貨物的路徑規(guī)劃問(wèn)題上,改進(jìn)后的算法更具有優(yōu)勢(shì)。
3.3" 動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃
在該場(chǎng)景下,除了保留了部分貨物點(diǎn),本文還引入了一個(gè)新的動(dòng)態(tài)元素:故障點(diǎn)。當(dāng)?shù)螖?shù)達(dá)到300時(shí),系統(tǒng)會(huì)動(dòng)態(tài)增加兩個(gè)故障點(diǎn),這些故障點(diǎn)會(huì)限制智能體的移動(dòng)。地圖變化如圖5所示。
這樣的設(shè)定旨在模擬真實(shí)環(huán)境中的突發(fā)狀況,使智能體在路徑規(guī)劃過(guò)程中需要應(yīng)對(duì)更復(fù)雜的情況。
智能體在遇到故障點(diǎn)時(shí)需要重新規(guī)劃路徑,以繞過(guò)這些障礙物繼續(xù)執(zhí)行任務(wù)。這種動(dòng)態(tài)的環(huán)境變化要求智能體具備靈活的路徑規(guī)劃能力,并及時(shí)作出調(diào)整以應(yīng)對(duì)變化的情況。因此,在這樣的場(chǎng)景下,本文認(rèn)為改進(jìn)Q-learning算法在適應(yīng)性和響應(yīng)速度方面可能會(huì)展現(xiàn)出更明顯的優(yōu)勢(shì)。
傳統(tǒng)Q-learning算法動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃和迭代次數(shù)如圖6所示。
本文的結(jié)果并不如同開始的設(shè)想,兩種算法在面對(duì)該情況的問(wèn)題時(shí),表現(xiàn)的能力幾乎無(wú)差異,在路徑選擇方面,最終選擇的路徑一致。在收集貨物方面,兩種算法的貨物也均收集到。在迭代次數(shù)方面,兩種算法也并無(wú)太大差異。初步分析也許是使用場(chǎng)景較為簡(jiǎn)單,因此不足以表現(xiàn)改進(jìn)算法的優(yōu)勢(shì),因此改進(jìn)地圖并再次做出實(shí)驗(yàn)驗(yàn)證結(jié)果。改進(jìn)地圖變化如圖7所示。
在改進(jìn)的實(shí)驗(yàn)環(huán)境中,本次適當(dāng)?shù)卣{(diào)整了貨物點(diǎn)位置以及障礙物生成位置。對(duì)于智能體限制較為明顯。
傳統(tǒng)Q-learnin算法動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃和迭代次數(shù)以及改進(jìn)Q-learning算法動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃和迭代次數(shù)如圖8所示。
根據(jù)上述圖例可知經(jīng)過(guò)調(diào)整后的地圖,傳統(tǒng)Q-learning算法選擇的路徑長(zhǎng)度,轉(zhuǎn)彎次數(shù)均明顯劣于改進(jìn)Q-learning算法選擇的路徑,而迭代次數(shù)方面,改進(jìn)Q-learning算法在約為750次左右開始收斂,而傳統(tǒng)Q-learning算法則是超過(guò)1 000次才達(dá)到相似收斂。由此可知改進(jìn)Q-learning算法在該實(shí)驗(yàn)環(huán)境下,依然具有一定的優(yōu)異性。
3.4" 分析和比較
通過(guò)上述三種實(shí)驗(yàn)場(chǎng)景的分析比較,可以得出結(jié)論,在不同的應(yīng)用場(chǎng)景下,改進(jìn)的Q-learning算法相比傳統(tǒng)的Q-learning算法具有一定的優(yōu)勢(shì),并且更加符合AGV實(shí)際場(chǎng)景的需求。
首先,在最短路徑規(guī)劃場(chǎng)景中,改進(jìn)算法在收斂速度方面表現(xiàn)更佳。通過(guò)迭代次數(shù)的比較可以看出,在相同的訓(xùn)練輪次下,改進(jìn)算法達(dá)到收斂所需的迭代次數(shù)明顯少于傳統(tǒng)算法。
其次,在收集貨物路徑規(guī)劃場(chǎng)景中,改進(jìn)算法同樣展現(xiàn)出了明顯的優(yōu)勢(shì)。盡管在路徑長(zhǎng)度和轉(zhuǎn)彎次數(shù)等方面兩種算法的表現(xiàn)相近,但改進(jìn)算法在收斂速度上依然明顯優(yōu)于傳統(tǒng)算法。改進(jìn)算法在較少的迭代次數(shù)內(nèi)便能夠達(dá)到收斂,這意味著在實(shí)際應(yīng)用中,改進(jìn)算法能夠更快地找到最優(yōu)的貨物收集路徑。
最后,在動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃場(chǎng)景中,盡管兩種算法在路徑選擇和貨物收集方面表現(xiàn)相似,但改進(jìn)算法在應(yīng)對(duì)動(dòng)態(tài)環(huán)境的能力方面仍然具有一定優(yōu)勢(shì)。即使在增加了故障點(diǎn)后,改進(jìn)算法依然能夠保持較快的收斂速度,這說(shuō)明改進(jìn)算法具有更強(qiáng)的適應(yīng)性和魯棒性。
兩種算法具體差異如表3所示。
綜上所述,改進(jìn)的Q-learning算法在不同的應(yīng)用場(chǎng)景下都表現(xiàn)出了明顯的優(yōu)勢(shì),其快速的收斂速度和良好的適應(yīng)性使其更加適合應(yīng)用于AGV路徑規(guī)劃問(wèn)題中。因此,可以將改進(jìn)的Q-learning算法視為一種有效的路徑規(guī)劃解決方案,為AGV等智能系統(tǒng)的實(shí)際應(yīng)用提供了有力支持。
4" 結(jié)束語(yǔ)
在本文中,通過(guò)對(duì)傳統(tǒng)Q-learning算法和改進(jìn)Q-learning算法在三種不同應(yīng)用場(chǎng)景下的實(shí)驗(yàn)比較,深入探討了它們的性能差異及優(yōu)勢(shì)。通過(guò)實(shí)驗(yàn)結(jié)果的分析,發(fā)現(xiàn)改進(jìn)的Q-learning算法在最短路徑規(guī)劃、收集貨物路徑規(guī)劃以及動(dòng)態(tài)故障點(diǎn)增加路徑規(guī)劃等場(chǎng)景下均表現(xiàn)出了明顯的優(yōu)勢(shì)。尤其是在收斂速度和適應(yīng)性方面,改進(jìn)Q-learning算法展現(xiàn)出了更好的性能,能夠更快地找到最優(yōu)路徑,并且在動(dòng)態(tài)環(huán)境下具有更強(qiáng)的應(yīng)對(duì)能力。
這些實(shí)驗(yàn)結(jié)果不僅對(duì)路徑規(guī)劃領(lǐng)域具有重要意義,也為智能系統(tǒng)的實(shí)際應(yīng)用提供了有力支持。改進(jìn)的Q-learning算法的快速收斂速度和良好的適應(yīng)性使其更加適合應(yīng)用于AGV等智能系統(tǒng)中,為提高智能體的決策能力和應(yīng)對(duì)復(fù)雜環(huán)境能力提供了有效的解決方案。
然而,雖然改進(jìn)的Q-learning算法在實(shí)驗(yàn)中表現(xiàn)出了明顯的優(yōu)勢(shì),但仍有一些方面可以進(jìn)一步完善和探索。例如,可以進(jìn)一步研究如何結(jié)合其他強(qiáng)化學(xué)習(xí)算法或者引入更復(fù)雜的獎(jiǎng)勵(lì)機(jī)制來(lái)進(jìn)一步提升算法的性能和適用性。期待未來(lái)的研究能夠在這方面取得更多的進(jìn)展,為智能系統(tǒng)的發(fā)展和應(yīng)用提供更多的可能性。
參考文獻(xiàn):
[1] 胡春陽(yáng),姜平,周根榮. 改進(jìn)蟻群算法在AGV路徑規(guī)劃中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2020,56(8):270-278.
[2] 宋佳. 基于Dijkstra算法的AGV綠色節(jié)能路徑規(guī)劃研究[D]. 南昌:南昌大學(xué),2023.
[3] 李艷珍,詹昊,鐘鳴長(zhǎng). 基于A~*算法優(yōu)化AGV/機(jī)器人路徑規(guī)劃的研究進(jìn)展[J]. 常州信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2024,23(1):29-36.
[4] 魏閣安,張建強(qiáng). 基于改進(jìn)動(dòng)態(tài)窗口法的無(wú)人艇編隊(duì)集結(jié)研究[J]. 艦船科學(xué)技術(shù),2023,45(23):91-95,99.
[5] 黃巖松,姚錫凡,景軒,等. 基于深度Q網(wǎng)絡(luò)的多起點(diǎn)多終點(diǎn)AGV路徑規(guī)劃[J]. 計(jì)算機(jī)集成制造系統(tǒng),2023,29(8):2550-2562.
[6] 馬卓. AGV路徑規(guī)劃的強(qiáng)化學(xué)習(xí)算法研究[D]. 青島:青島大學(xué),2023.
[7] 韓召,韓宏飛,于會(huì)敏,等. 改進(jìn)強(qiáng)化學(xué)習(xí)算法在AGV路徑規(guī)劃中的應(yīng)用研究[J]. 遼寧科技學(xué)院學(xué)報(bào),2022,24(6):22-25,44.
[8] 唐恒亮,唐滋芳,董晨剛,等. 基于啟發(fā)式強(qiáng)化學(xué)習(xí)的AGV路徑規(guī)劃[J]. 北京工業(yè)大學(xué)學(xué)報(bào),2021,47(8):895-903.
[9] 耿宏飛,神健杰. A~*算法在AGV路徑規(guī)劃上的改進(jìn)與驗(yàn)證[J]. 計(jì)算機(jī)應(yīng)用與軟件,2022,39(1):282-286.
[10] 郝兆明,安平娟,李紅巖,等. 增強(qiáng)目標(biāo)啟發(fā)信息蟻群算法的移動(dòng)機(jī)器人路徑規(guī)劃[J]. 科學(xué)技術(shù)與工程,2023,23(22):9585-9591.