宋 倩,羅富貴,藍俊歡
(1.河池學院 大數(shù)據(jù)與計算機學院,廣西 河池 546300;2.河池市供電局,廣西 河池 546300)
車輛多目標協(xié)同巡航過程中存在多障礙物,影響車輛多目標協(xié)同巡航?jīng)Q策的性能。車輛巡航避障在全方位控制方面存在一定的欠缺,為此車輛多目標協(xié)同巡航?jīng)Q策控制成為當前相關(guān)領(lǐng)域的重點研究課題。深度強化學習是一種極其接近人類思維方式的新型人工智能方法,將強化學習決策機制與深度學習感知思維完美結(jié)合起來,可以直接根據(jù)輸入圖像制定控制執(zhí)行指令[1]。該算法的應(yīng)用為解決復雜系統(tǒng)感知決策問題提供了全新的思路,既能夠根據(jù)預(yù)期回報結(jié)果對動作價值函數(shù)做出評價,也可以通過既定策略將當前執(zhí)行狀態(tài)映射為相應(yīng)的動作指令,從而在得到準確數(shù)值解的同時,制定與目標對象相關(guān)的最優(yōu)策略執(zhí)行原則。相較于其他類型的應(yīng)用算法,深度強化學習行為打破了數(shù)據(jù)樣本之間的制約性關(guān)系,可以在推導完整信息學習規(guī)則的同時,定義多個獨立的神經(jīng)元結(jié)構(gòu),不但解決了網(wǎng)絡(luò)環(huán)境中信息參量的不合理分配問題,還深化了學習主機的區(qū)域性主導地位,使得網(wǎng)絡(luò)設(shè)備能夠直接處理已存儲的數(shù)據(jù)樣本對象[2]。
文獻[3]提出自適應(yīng)巡航控制系統(tǒng)。巡航?jīng)Q策系統(tǒng)對于車輛目標的管理主要包括軌跡規(guī)劃、全局路徑規(guī)劃與行為決策。車輛運動行為要求行進軌跡必須具有平順性、連續(xù)性的特征,所以構(gòu)造連接始末位置的連續(xù)平滑軌跡是巡航?jīng)Q策系統(tǒng)的主要工作目標。自適應(yīng)巡航控制系統(tǒng)借助卡爾曼濾波器及模型預(yù)測控制器原理,建立跟車動力學模型,再通過求解向量松弛因子的方式,求解決策控制指令的最優(yōu)執(zhí)行結(jié)果。文獻[4]提出基于變采樣時間模型的巡航系統(tǒng)。根據(jù)車輛速度變化率條件,建立MPC控制器閉環(huán),再聯(lián)合Carsim、Matlab、Simulink等多個執(zhí)行軟件,對決策指令與車輛巡航目標之間的適配性進行測試。
上述兩類系統(tǒng)的應(yīng)用,只能實現(xiàn)車輛在某一特定巡航方向上的精準避障,在全方位控制方面存在一定的欠缺。為解決上述問題,針對基于深度強化學習的車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)展開研究。
車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)的主要應(yīng)用結(jié)構(gòu)包括控制電路、處理器子模塊、多目標解耦模塊,本章節(jié)將針對上述模塊結(jié)構(gòu)的設(shè)計方法展開深入研究。
巡航?jīng)Q策控制系統(tǒng)采用12 V直流電源提供傳感器所需的電量信號,因此需要ADC傳輸導線實現(xiàn)對電量信號的分配處理。STC12C5A60S2單片機自帶A/D轉(zhuǎn)換功能,可以在無外設(shè)AD模塊設(shè)備的情況下,調(diào)節(jié)巡航目標傳感器、航速傳感器對于決策對象的捕獲及處理能力,由于A/D轉(zhuǎn)換功能可以實現(xiàn)模擬信號與數(shù)字信號的轉(zhuǎn)換,所以在系統(tǒng)運行過程中,巡航目標傳感器可以在IN4007設(shè)備的配合下[5-6],確定K1、K2設(shè)備兩端負載電壓的具體數(shù)值,面對車輛巡航目標時,K1設(shè)備負責檢測目標節(jié)點的橫向坐標,K2設(shè)備負責檢測目標節(jié)點的縱向目標。IN4007設(shè)備具備較強的電信號集合處理能力,可以根據(jù)車輛目標的具體航速水平,完成對電量信號的按需分配。具體的主控制電路結(jié)構(gòu)如圖1所示。
圖1 主控制電路示意圖
航速傳感器在采集車輛目標行進速度的過程中,由于外界信號量大且雜亂,會導致航速傳感器采集到的信息出現(xiàn)細微振動狀態(tài),但由于STC12C5A60S2單片機所輸出數(shù)字信號的總量有限,能耗保證信號傳輸過程的穩(wěn)定性,這也是傳感器振幅能夠得到有效控制的主要原因。
1.2.1 ACC控制器
ACC控制器是主控制電路的下級負載結(jié)構(gòu),如圖2所示,可以在傳感器、決策主機等多個應(yīng)用元件的配合下,制定多項執(zhí)行指令,并能夠根據(jù)固定目標節(jié)點、運動目標節(jié)點的實時排列狀態(tài),來判斷系統(tǒng)主機的當前執(zhí)行狀態(tài)是否能夠滿足協(xié)同處理車輛目標節(jié)點的實際應(yīng)用需求[7]。控制器主要部件由ACC執(zhí)行設(shè)備、定向傳感器、動向傳感器、7280S控制器、PLC決策主機五部分共同組成。其中,ACC執(zhí)行設(shè)備同時控制定向傳感器與動向傳感器,可以在輸出車輛行進指令的同時,標記固定目標節(jié)點、運動目標節(jié)點所處的實時位置,并可以借助傳輸信道組織,將已生成的指令文本反饋至系統(tǒng)核心控制主機之中。7280S控制器、PLC決策主機是兩個相互關(guān)聯(lián)的控制器執(zhí)行結(jié)構(gòu),負責制定循環(huán)控制指令與決策執(zhí)行指令,且為保證系統(tǒng)主機能夠?qū)囕v目標進行不間斷地監(jiān)測,這兩類設(shè)備元件可以在脫機狀態(tài)下保持長時間的穩(wěn)定運行[8]。
圖2 ACC控制器結(jié)構(gòu)簡圖
由于ACC控制器元件對于指令文件的寄存能力有限,所以在決策控制系統(tǒng)快速運行的過程中,有一部分信息樣本會被直接存儲至數(shù)據(jù)庫主機之中。
1.2.2 MPC軌跡跟蹤器
MPC軌跡跟蹤器控制指令的實現(xiàn)是以選定被控車輛目標為基礎(chǔ),生成最優(yōu)控制解與實際巡航軌跡。MPC調(diào)度主機通過全局規(guī)劃的方式,確定被控車輛目標在既定巡航區(qū)域內(nèi)所處位置,再聯(lián)合深度強化學習算法應(yīng)用原則,求解與車輛巡航軌跡相關(guān)的運動學方程。對于系統(tǒng)主機而言,求解所得結(jié)果會以狀態(tài)量參數(shù)的方式輸入既定執(zhí)行模塊,以供ACC控制器、雙閉環(huán)控制器元件對其進行直接調(diào)取與利用[9-10]。MPC軌跡跟蹤器的運行原理如圖3所示。
圖3 MPC軌跡跟蹤器運行原理
已被輸入的被控車輛目標信息經(jīng)過系統(tǒng)主機的計算與處理之后,會形成完整的動力學約束條件,隨著數(shù)據(jù)樣本的不斷傳輸,MPC調(diào)度主機中生成參考軌跡路線與動力學參考模型,而這些信息參量都會為決策指令的生產(chǎn)提供數(shù)據(jù)樣本支持。最終執(zhí)行階段,MPC軌跡跟蹤器整合所得到的參考軌跡、決策指令與動力學模型表達式,并聯(lián)合真實的車輛目標對象節(jié)點信息,計算最優(yōu)解結(jié)果,從而使系統(tǒng)控制主機能夠掌握完整的車輛巡航軌跡路線。
1.2.3 雙閉環(huán)控制器
相較于其他處理器子單元模塊,雙閉環(huán)控制器的運行模式較為復雜,由兩條完全獨立的巡航?jīng)Q策指令傳輸線路組成,能夠同時調(diào)度PI控制器、轉(zhuǎn)矩響應(yīng)器、同步補償器與PMSM控制器,既可以在制定決策控制指令的過程中,更改數(shù)據(jù)信息文本的傳輸方向,也可以在不改變信息傳輸方向的情況下,提取系統(tǒng)運行所必需的關(guān)鍵數(shù)據(jù)樣本[11]。雙閉環(huán)控制思想的具體執(zhí)行原理如圖4所示。
圖4 雙閉環(huán)控制回路
PI控制器與轉(zhuǎn)矩響應(yīng)器之間的信息互傳:PI控制器作為巡航?jīng)Q策指令輸出端,可以直接控制下級轉(zhuǎn)矩響應(yīng)器,當車輛目標行駛至既定巡航區(qū)域內(nèi),系統(tǒng)主機所生成的所有決策指令都會經(jīng)由轉(zhuǎn)矩響應(yīng)器設(shè)備,分發(fā)至其他應(yīng)用元件。
PMSM控制器與同步補償器之間的信息互傳:PMSM控制器作為巡航?jīng)Q策指令輸出端,不具備直接控制同步補償器元件的能力,但卻可以在運行過程中,借助巡航?jīng)Q策指令干擾補償器設(shè)備的運行狀態(tài),但這種干擾行為的表現(xiàn)能力具有明顯時效性,一般來說,車輛目標巡航軌跡在既定決策區(qū)域中的累積量越大,PMSM控制器對于同步補償器元件的干擾作用能力就越強[12]。
為適應(yīng)雙閉環(huán)控制器的運行需求,多目標解耦模塊同時設(shè)置直軸解耦元件、曲軸解耦元件兩類執(zhí)行設(shè)備,能夠?qū)Q策控制主機輸出的車輛巡航信號進行交叉分析,并從中選取數(shù)據(jù)樣本的重合部分,作為制定解耦信號所必需參考的信息參量。所謂多目標解耦就是指決策控制主機在單位時間內(nèi)所能檢索到的車輛目標對象并不唯一,由于這些目標對象所描述的車輛運動狀態(tài)并不相同,所以處理器元件所表現(xiàn)出的執(zhí)行情況也并不相同[13-14]。一般來說,直軸解耦元件負責記錄直行運動區(qū)域內(nèi)的車輛巡航目標節(jié)點,而曲軸解耦元件負責記錄轉(zhuǎn)彎運動區(qū)域內(nèi)的車輛巡航目標節(jié)點,雖然巡航節(jié)點的標記形式不同,但對于決策控制主機而言,這些標記信息都可供目標處理器設(shè)備的直接利用。多目標解耦模塊的運行原理如圖5所示。
如果直軸解耦信息、曲軸解耦信息存儲于相同的數(shù)據(jù)庫主機之中,則表示系統(tǒng)主機所選取車輛目標屬于相同的巡航區(qū)域,車輛執(zhí)行往復巡航任務(wù)的可能性較大。
為實現(xiàn)對車輛巡航目標的精準決策,還需借助深度強化學習模型,定義車輛目標數(shù)據(jù)集,并聯(lián)合相關(guān)系數(shù)指標,求解協(xié)同參數(shù)的實際取值范圍。
深度強化學習模型是系統(tǒng)主機決策車輛巡航目標所遵循的核心處理原則,可以在一級、二級協(xié)同節(jié)點的作用下,分析所選目標對象的實時巡航狀態(tài),從而使得系統(tǒng)主機能夠精準定義決策控制指令。深度強化學習模型表現(xiàn)形式如圖6所示。
圖6 深度強化學習模型
圖6中,一級協(xié)同節(jié)點對于車輛目標的提取具有不確定性,所以未進行強化學習處理的數(shù)據(jù)信息樣本并不滿足制定決策控制指令的應(yīng)用需求[15-16]。二級協(xié)同節(jié)點負責對車輛目標進行整理,并可以按照核心處理器的運行需求,對已采集到的數(shù)據(jù)信息樣本進行強化學習,從而生成滿足決策控制需求的巡航對象信息。設(shè)δ表示一個無序的車輛目標對象,qδ、wδ表示兩個不相等的協(xié)同處理系數(shù),χ表示強化度指標,α表示深度學習向量的初始取值,聯(lián)立上述物理量,可將深度強化學習模型表達式定義為:
(1)
在一個標準的巡航運動區(qū)域內(nèi),深度強化學習模型對于車輛目標對象的捕捉準確度必須達到100%,且模型表達式不存在為空值的可能,所以參數(shù)δ的取值只能屬于[0,+∞)的數(shù)值區(qū)間。
車輛目標數(shù)據(jù)集是包含所有車輛目標協(xié)同巡航特征的樣本集合空間,對于深度強化學習模型而言,其在定義決策控制指令時所需應(yīng)用的數(shù)據(jù)樣本都必須來自該樣本集合,所以該集合對于樣本數(shù)據(jù)的完整性提出了明確要求[17-18]。在深度強化學習模型中,車輛目標數(shù)據(jù)的單位累積量為ΔQ,隨著單位巡航時間的延長,ΔQ參數(shù)的實際取值也會不斷增大。q1,q2,…,qn表示n個可能出現(xiàn)的樣本學習參數(shù),在滿足深度強化學習模型處理標準的情況下,可將學習參數(shù)求解結(jié)果表示為:
(2)
(3)
若目標車輛處于靜止狀態(tài),且靜止節(jié)點處于單位巡航區(qū)域內(nèi),則表示整個巡航區(qū)域內(nèi)只存在一個目標決策節(jié)點,當前情況下,深度強化學習模型規(guī)定車輛目標數(shù)據(jù)集中n參數(shù)的取值等于自然數(shù)“1”。
協(xié)同參數(shù)決定了深度強化學習模型對于車輛目標對象的處理能力,系統(tǒng)主機制定巡航?jīng)Q策控制指令時,該項物理參數(shù)的取值越大,就表示單位車輛巡航區(qū)域的劃定范圍越大。系統(tǒng)主機對于車輛目標協(xié)同巡航的要求就是指所選定目標決策節(jié)點必須處于同一巡航區(qū)域之內(nèi),對應(yīng)深度強化學習模型的約束要求,就是指所有目標決策節(jié)點必須屬于同一個車輛目標數(shù)據(jù)集合[19-20]。規(guī)定y1,y2,…,yn表示n個不同的車輛目標節(jié)點對象,ymin表示所選取目標節(jié)點對象的最小取值結(jié)果,ymax表示目標節(jié)點對象的最大取值結(jié)果,為滿足深度強化學習模型對于車輛目標的決策處理需求,要求目標節(jié)點對象取值應(yīng)滿足式(4):
(4)
設(shè)i表示單位巡航區(qū)域內(nèi)的車輛目標分散度指標,聯(lián)立式(4),推導協(xié)同參數(shù)定義式為:
(5)
如果式(5)的計算結(jié)果小于零,則表示車輛運動方向與系統(tǒng)主機對于決策節(jié)點的規(guī)劃方向相反;如果式(5)的計算結(jié)果大于零,則表示車輛運動方向與系統(tǒng)主機對于決策節(jié)點的規(guī)劃方向相同;如果式(5)的計算結(jié)果等于零,則表示所選車輛目標保持靜止狀態(tài)。
在深度強化學習模型的基礎(chǔ)上,根據(jù)車輛運動坐標轉(zhuǎn)換原則,對選取決策目標進行量化分析,再參考所得計算結(jié)果,實現(xiàn)對巡航?jīng)Q策軌跡的規(guī)劃與控制。
由于車輛運動行為只存在于平面區(qū)域內(nèi),所以對于巡航?jīng)Q策目標的坐標轉(zhuǎn)換處理也只需參考橫軸、縱軸兩個方向上的軌跡偏移量[21-22]。對于橫軸方向上的軌跡偏移量,需要參考X軸方向上的坐標轉(zhuǎn)換結(jié)果,對于縱軸方向上的軌跡偏移量,則需要參考Y軸方向上的坐標轉(zhuǎn)換結(jié)果。
X軸方向上的坐標轉(zhuǎn)換定義式:
(6)
Y軸方向上的坐標轉(zhuǎn)換定義式:
(7)
多目標量化分析就是根據(jù)車輛目標標記結(jié)果,制定巡航?jīng)Q策執(zhí)行指令的過程,對于系統(tǒng)控制主機而言,只有保證多目標量化分析結(jié)果的唯一性,才能夠確保已定義車輛目標處于同一巡航區(qū)域之中[23-24]。g表示巡航區(qū)域分配系數(shù),l1表示所選巡航區(qū)域內(nèi)n個不重合的決策節(jié)點,f表示無誤差量化參數(shù)。在上述物理量的支持下,聯(lián)立式(6)、式(7),推導多目標量化分析表達式如式(8):
(8)
在不考慮非精準巡航避障問題的情況下,系統(tǒng)控制主機可以根據(jù)多目標量化分析結(jié)果,制定車輛多目標協(xié)同巡航?jīng)Q策指令,從而確保式(8)計算結(jié)果的合理性,是實現(xiàn)控制系統(tǒng)應(yīng)用的必要條件。
本文設(shè)計了基于深度強化學習的車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)。
系統(tǒng)硬件通過調(diào)節(jié)ACC控制器、MPC軌跡跟蹤器、雙閉環(huán)控制器的實時連接狀態(tài)確定目標車輛所處巡航位置,利用多目標解耦模塊提供巡航?jīng)Q策控制系統(tǒng)硬件平臺。根據(jù)深度強化學習模型估計車輛巡航位姿,確定坐標轉(zhuǎn)換原則,結(jié)合巡航?jīng)Q策控制系統(tǒng)硬件,實現(xiàn)基于深度強化學習的車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)的設(shè)計。
為驗證基于深度強化學習的車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)的有效性,設(shè)計實驗環(huán)節(jié)。行駛車輛在巡航區(qū)域內(nèi)只具備橫、縱兩個方向上的運動能力,所以本次實驗需分別在這兩個方向上以及全方位控制方面,對所選控制系統(tǒng)的避障準確度進行驗證。劃定長200 m、寬50 m的巡航區(qū)域作為實驗環(huán)境,在中部區(qū)域選擇5個決策節(jié)點作為避障性能測試位置,相鄰節(jié)點之間的物理間隔為10 m。設(shè)置障礙物物體的長度和寬度為0.3 m*0.3 m,具體實驗步驟如下:
1)當目標車輛運動至1、2、3、4、5號節(jié)點時,利用基于深度強化學習的車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng),統(tǒng)計車輛實際運動位置與障礙物位置之間的間隔數(shù)據(jù),所得結(jié)果為實驗組數(shù)據(jù);
2)利用自適應(yīng)巡航控制系統(tǒng)重復步驟1),所得結(jié)果為對照a組數(shù)據(jù);
3)利用基于變采樣時間模型的巡航系統(tǒng)再次重復步驟1),所得結(jié)果為對照b組數(shù)據(jù);
4)由于設(shè)置的障礙物物體的長度和寬度為0.3 m*0.3 m,當障礙物與目標車輛之間的距離小于0.3 m時,會產(chǎn)生碰撞的風險,而當障礙物與目標車輛之間的距離大于0.3 m,表示當前情況下可以實現(xiàn)精準避障;
5)將所得實驗數(shù)值與最小避障距離對比,分析所選實驗系統(tǒng)是否能夠提升車輛的巡航避障能力。
根據(jù)圖7設(shè)計巡航車輛的橫向避障實驗,具體實驗情況如圖8所示。
圖7 橫向避障實驗原理
圖8 橫向避障實驗結(jié)果
分析圖8可知,在橫向避障實驗中,應(yīng)用實驗組、對照a組控制系統(tǒng)可以實現(xiàn)巡航車輛的精準避障,而應(yīng)用對照b組控制系統(tǒng)則無法實現(xiàn)精準避障。
根據(jù)圖9設(shè)計巡航車輛的縱向避障實驗,具體實驗情況如圖10所示。
圖9 縱向避障實驗原理
圖10 縱向避障實驗結(jié)果
分析圖10可知,在縱向避障實驗中,應(yīng)用實驗組控制系統(tǒng)依然可以實現(xiàn)巡航車輛的精準避障,而對照a組、對照b組控制系統(tǒng)都只能在個別目標節(jié)點處實現(xiàn)巡航車輛的精準避障。
根據(jù)圖11設(shè)計巡航車輛的全方位避障實驗,具體實驗情況如圖12所示。
圖12 全方位避障實驗結(jié)果
分析圖12可知,在全方位避障實驗中,應(yīng)用實驗組可以實現(xiàn)巡航車輛的精準避障,而應(yīng)用對照a組控制系統(tǒng)、對照b組控制系統(tǒng)則無法實現(xiàn)精準避障。
聯(lián)合圖8、圖10中的實驗結(jié)果,求解障礙物與目標車輛之間距離的平均值,具體計算結(jié)果如表1所示。
表1 間隔距離平均值
分析表1可知,整個實驗過程中,實驗組橫向、縱向及全方位間隔距離平均值均大于0.3 m,表示應(yīng)用該系統(tǒng)始終可以實現(xiàn)巡航車輛的精準避障;對照a組橫向間隔距離平均值大于0.3 m、縱向及全方位間隔距離平均值小于0.3 m,表示應(yīng)用該系統(tǒng)僅可使實現(xiàn)巡航車輛的橫向精準避障;對照b組橫向、縱向及全方位間隔距離平均值均小于0.3 m,表示應(yīng)用該系統(tǒng)不可以實現(xiàn)巡航車輛的精準避障。
綜上可知本次實驗結(jié)論為:
1)自適應(yīng)巡航控制系統(tǒng)、基于變采樣時間模型的巡航系統(tǒng)的應(yīng)用都無法保證障礙物與目標車輛之間的距離一直大于0.3 m,故而這兩種系統(tǒng)在實現(xiàn)巡航車輛精準避障方面的應(yīng)用能力相對有限。
2)基于深度強化學習的協(xié)調(diào)決策控制系統(tǒng)可以保證障礙物與目標車輛之間的橫向、縱向距離均大于0.3 m,符合精準避障的應(yīng)用需求,因此與其他類型的控制系統(tǒng)相比,該系統(tǒng)的應(yīng)用可以大幅提升車輛巡航避障能力,實現(xiàn)對運動目標的精準決策。
車輛多目標協(xié)同巡航?jīng)Q策控制系統(tǒng)在深度強化學習算法的基礎(chǔ)上,聯(lián)合主控制電路、ACC控制器、雙閉環(huán)控制器、多目標解耦模塊等多個硬件應(yīng)用結(jié)構(gòu),對車輛運動行為進行控制,又通過定義車輛目標數(shù)據(jù)集合的方式,求解協(xié)同參數(shù)的取值范圍,從而實現(xiàn)對多目標對象的量化分析。與自適應(yīng)巡航控制系統(tǒng)、基于變采樣時間模型的巡航系統(tǒng)相比,這種新型控制系統(tǒng)在橫、縱兩個方向上的避障準確度都達到了100%,不但提升了行進車輛的避障能力,還可以對運動目標進行精準決策。未來相關(guān)研究單位可以在該控制系統(tǒng)的基礎(chǔ)上,提升巡航車輛對動態(tài)障礙物的運動避障能力,從而在滿足協(xié)同巡航作用需求的同時,實現(xiàn)對目標對象節(jié)點的精準捕獲與處理。