亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        機(jī)器人駕駛車輛深度強(qiáng)化學(xué)習(xí)換擋策略*

        2020-12-08 03:17:34楠,陳
        汽車工程 2020年11期
        關(guān)鍵詞:擋位油門開度

        周 楠,陳 剛

        (南京理工大學(xué)機(jī)械工程學(xué)院,南京 210094)

        前言

        汽車的大量試驗(yàn)項(xiàng)目具有重復(fù)性強(qiáng)、持續(xù)時(shí)間長和操作要求精準(zhǔn)等特點(diǎn)。 使用駕駛機(jī)器人進(jìn)行試驗(yàn)可降低試驗(yàn)人員勞動(dòng)強(qiáng)度,提高試驗(yàn)準(zhǔn)確性。 目前,國外駕駛機(jī)器人關(guān)鍵技術(shù)處在保密階段,只有少數(shù)發(fā)達(dá)國家擁有此項(xiàng)技術(shù)。 國內(nèi)關(guān)于駕駛機(jī)器人的研究主要集中在東南大學(xué)、南京理工大學(xué)、中國汽車技術(shù)研究中心等幾所高校和研究中心[1-4]。

        換擋策略作為機(jī)器人駕駛車輛的關(guān)鍵技術(shù)之一,其合理性將直接影響機(jī)器人駕駛車輛的動(dòng)力性、舒適性和燃油經(jīng)濟(jì)性等性能發(fā)揮[5]。 陳剛等[6]針對駕駛機(jī)器人建立了模糊神經(jīng)網(wǎng)絡(luò)換擋控制方法,利用模糊神經(jīng)網(wǎng)絡(luò)生成換擋策略,極大提高了機(jī)器人駕駛車輛換擋策略的性能。 目前機(jī)器人駕駛車輛換擋策略主要通過人為設(shè)定駕駛循環(huán)指令和擬合試驗(yàn)參數(shù)方法得到。 Miao 等[7]在兩參數(shù)換擋策略的基礎(chǔ)上引入道路坡度阻力系數(shù),建立了含有道路坡度阻力系數(shù)的經(jīng)濟(jì)性換擋策略,提高了換擋策略對于環(huán)境的適應(yīng)性,但它未考慮車輛加速度對換擋策略的影響。 陳清洪等[8]利用BP 神經(jīng)網(wǎng)絡(luò)和熟練駕駛員試驗(yàn)數(shù)據(jù)獲得考慮了加速度的換擋策略,但該方法受駕駛員水平和樣本數(shù)量與質(zhì)量的影響較大。

        建立換擋策略要重點(diǎn)考慮求解方法。 換擋策略的求解方法包括圖解法、解析法、遺傳算法和動(dòng)態(tài)規(guī)劃法等。 Zhu 等[9]采用解析法對經(jīng)濟(jì)性換擋策略進(jìn)行了求解。 李浩等[10]在兩參數(shù)換擋策略的基礎(chǔ)上引入加速度作為換擋參數(shù),實(shí)現(xiàn)了考慮加速度的動(dòng)態(tài)三參數(shù)換擋。 但其求解過程中須針對各個(gè)油門開度求解加速度 速度曲線,求解復(fù)雜、計(jì)算量大。 利用解析法對換擋策略進(jìn)行求解的優(yōu)點(diǎn)是求解方法成熟,缺點(diǎn)是只能針對單一性能指標(biāo)進(jìn)行求解,且求解過程復(fù)雜、計(jì)算量大。 Yin 等[11]利用遺傳算法對換擋策略進(jìn)行了求解,提高了換擋策略的綜合性能,解決了解析法只能求解單一性能指標(biāo)的問題,但它也未考慮加速度對換擋策略的影響。 Ngo 等[12]利用動(dòng)態(tài)規(guī)劃方法在特定駕駛循環(huán)工況下,對不同動(dòng)力儲(chǔ)備系數(shù)下的換擋策略進(jìn)行了求解。 Lei 等[13]以經(jīng)濟(jì)性為優(yōu)化目標(biāo),通過動(dòng)態(tài)規(guī)劃算法對兩參數(shù)換擋策略進(jìn)行了求解。

        動(dòng)態(tài)規(guī)劃在求解換擋規(guī)律時(shí),須構(gòu)建復(fù)雜的狀態(tài)圖,狀態(tài)圖復(fù)雜程度取決于動(dòng)態(tài)規(guī)劃算法中的離散程度。 過于復(fù)雜的狀態(tài)圖會(huì)因貝爾曼緯度災(zāi)難而出現(xiàn)收斂速度下降或無法收斂的情況。 為解決動(dòng)態(tài)規(guī)劃方法的貝爾曼緯度災(zāi)難問題,可采用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法對三參數(shù)換擋策略進(jìn)行求解。 強(qiáng)化學(xué)習(xí)是一種通過對象和環(huán)境的交互對策略進(jìn)行學(xué)習(xí)的方法。 相比動(dòng)態(tài)規(guī)劃算法,強(qiáng)化學(xué)習(xí)無須構(gòu)建復(fù)雜的狀態(tài)圖,只須構(gòu)建關(guān)于狀態(tài)的轉(zhuǎn)移函數(shù)[14]。薛金林等[15]通過強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對機(jī)器人駕駛車輛進(jìn)行車速跟蹤控制。 深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)(DQN)算法是一種將蒙特卡羅思想和動(dòng)態(tài)規(guī)劃思想結(jié)合,并通過建立深度神經(jīng)網(wǎng)絡(luò)對價(jià)值函數(shù)進(jìn)行近似的強(qiáng)化學(xué)習(xí)方法[16-18]。 DQN 算法可在無須對狀態(tài)變量進(jìn)行離散化的情況下,處理大狀態(tài)空間或連續(xù)狀態(tài)空間的動(dòng)態(tài)規(guī)劃問題。 因此,本文中采用DQN 算法求解機(jī)器人駕駛車輛三參數(shù)換擋策略。

        首先建立了駕駛機(jī)器人車輛動(dòng)力學(xué)模型和駕駛機(jī)器人換擋策略強(qiáng)化學(xué)習(xí)模型,并將油門踏板位置、車速和加速度作為換擋參數(shù),將動(dòng)力性作為學(xué)習(xí)目標(biāo)。 然后通過訓(xùn)練,獲得了駕駛機(jī)器人三參數(shù)最佳動(dòng)力性換擋策略。 最后通過比較不同換擋策略驗(yàn)證了算法的有效性。

        1 機(jī)器人駕駛車輛系統(tǒng)模型

        1.1 駕駛機(jī)器人系統(tǒng)結(jié)構(gòu)

        駕駛機(jī)器人總體結(jié)構(gòu)如圖1 所示,主要由油門/制動(dòng)/離合機(jī)械腿系統(tǒng)、換擋機(jī)械手系統(tǒng)、轉(zhuǎn)向機(jī)械手系統(tǒng)3 個(gè)主要部分組成。 其中,油門、制動(dòng)和離合機(jī)械腿能操控油門、制動(dòng)和離合踏板。 換擋機(jī)械手與車輛換擋桿相連,在工作時(shí)通過與各個(gè)機(jī)械腿相配合完成對車輛的換擋操作。

        圖1 駕駛機(jī)器人總體結(jié)構(gòu)

        換擋機(jī)械手是一個(gè)2 自由度七連桿并聯(lián)結(jié)構(gòu),其機(jī)構(gòu)模型如圖2 所示,主要由3 部分組成,分別為箱體、直線驅(qū)動(dòng)電機(jī)和換擋機(jī)械手機(jī)構(gòu)。 在選擋過程中,掛擋搖桿保持不動(dòng),給選擋搖桿一個(gè)驅(qū)動(dòng)轉(zhuǎn)矩,通過其余各連桿的相互協(xié)調(diào),即可通過手桿控制變速桿進(jìn)行橫向選擋工作。 在掛擋過程中,選擋搖桿保持不動(dòng),給掛擋搖桿一個(gè)驅(qū)動(dòng)轉(zhuǎn)矩,與選擋過程一樣,通過其余連桿的相互協(xié)調(diào),即可通過手桿進(jìn)行縱向掛擋工作。

        圖2 換擋機(jī)械手結(jié)構(gòu)模型

        1.2 車輛動(dòng)力系統(tǒng)模型

        車輛在直線行駛時(shí),主要受力包括驅(qū)動(dòng)力、制動(dòng)力、滾動(dòng)阻力、坡度阻力和空氣阻力。 簡化的車輛縱向動(dòng)力學(xué)模型可表示為

        式中:δ為旋轉(zhuǎn)質(zhì)量換算系數(shù);m為汽車總質(zhì)量;為汽車行駛加速度;Ted為發(fā)動(dòng)機(jī)動(dòng)態(tài)輸出轉(zhuǎn)矩;ig為變速器傳動(dòng)比;i0為減速器傳動(dòng)比;ηt為傳動(dòng)系統(tǒng)效率;R為輪胎有效轉(zhuǎn)動(dòng)半徑;f為汽車滾動(dòng)阻力系數(shù);θ為坡度角;Cd為空氣阻力系數(shù);A為汽車迎風(fēng)面積;v為汽車行駛速度;Fb為制動(dòng)力。

        對于每個(gè)節(jié)氣門開度αA,在穩(wěn)定工況下所輸出的轉(zhuǎn)矩Te都是關(guān)于發(fā)動(dòng)機(jī)角速度ωe的函數(shù):

        式中:αA為節(jié)氣門開度;ωe為發(fā)動(dòng)機(jī)角速度。 發(fā)動(dòng)機(jī)穩(wěn)態(tài)輸出轉(zhuǎn)矩Te是與發(fā)動(dòng)機(jī)角速度ωe和節(jié)氣門開度αA相關(guān)的非線性函數(shù),一般用發(fā)動(dòng)機(jī)試驗(yàn)得到的發(fā)動(dòng)機(jī)MAP 圖表示。

        由于發(fā)動(dòng)機(jī)大部分情況在非穩(wěn)態(tài)工況下工作,采用修正系數(shù)對發(fā)動(dòng)機(jī)穩(wěn)態(tài)工況下的輸出轉(zhuǎn)矩進(jìn)行修正,并將其作為非穩(wěn)態(tài)下的輸出轉(zhuǎn)矩[19]。 發(fā)動(dòng)機(jī)動(dòng)態(tài)輸出轉(zhuǎn)矩為

        式中:為發(fā)動(dòng)機(jī)曲軸角加速度;φ為非穩(wěn)態(tài)工況下發(fā)動(dòng)機(jī)輸出轉(zhuǎn)矩下降系數(shù),取值為0.03。

        1.3 機(jī)械腿運(yùn)動(dòng)學(xué)模型

        駕駛機(jī)器人中,油門機(jī)械腿、制動(dòng)機(jī)械腿和離合機(jī)械腿具有相同的結(jié)構(gòu),建立機(jī)械腿電機(jī)輸出位移到踏板位移之間的運(yùn)動(dòng)學(xué)模型,如圖3 所示。

        圖3 機(jī)械腿運(yùn)動(dòng)學(xué)模型

        機(jī)械腿運(yùn)動(dòng)學(xué)方程為

        式中:S1、S2、θ1~θ4均為已知的駕駛機(jī)器人安裝參數(shù);C為直線電機(jī)推桿總長;l1~l5為機(jī)械腿結(jié)構(gòu)參數(shù);θinit為踏板初始位置與水平線之間的夾角;α4為踏板實(shí)際位置與水平線之間的夾角;Lpedal為踏板角位移。

        駕駛機(jī)器人油門機(jī)械腿控制的是油門踏板位移,它決定了油門開度。 首先通過機(jī)器人駕駛車輛性能自學(xué)習(xí)方法[20]獲得油門踏板初始位置和極限位置對應(yīng)的油門機(jī)械腿直線電機(jī)輸出位移。 除去踏板空行程階段,油門踏板位移和油門開度可簡化成線性模型。 因此,可通過油門機(jī)械腿直線電機(jī)輸出位移使α4變化,而得到油門開度αA。

        對于離合器踏板,須建立離合器踏板位移與壓板升程之間的傳遞過程。 離合器行程傳遞分為兩個(gè)部分,一是踏板位移到分離軸承行程之間的傳遞,二是分離軸承行程與壓盤升程之間的傳遞。 踏板位移與分離軸承行程之間的傳遞公式為

        式中:LRB為分離軸承行程;Lpedal為踏板位移;iRS為分離系統(tǒng)杠桿比。

        分離軸承升程與壓盤升程之間的行程傳遞公式為

        式中:LC為離合器壓盤升程;iclutch為離合器杠桿比。

        由式(4)~式(6)可以得到離合器系統(tǒng)行程傳遞公式:

        1.4 換擋機(jī)械手運(yùn)動(dòng)學(xué)模型

        駕駛機(jī)器人換擋機(jī)械手結(jié)構(gòu)模型如圖4 所示,由3 條開鏈組成,分別是手桿O1BP、選擋搖桿O2DC和掛擋搖桿O3EC。

        圖4 換擋機(jī)械手結(jié)構(gòu)簡圖

        已知選擋搖桿和掛擋搖桿的輸入角度θ31和θ21,則C點(diǎn)坐標(biāo)為

        求解出C點(diǎn)坐標(biāo)后,通過手桿求解出θ11和θ12。

        式中:l11~l32為各桿長度;θ11~θ32為各桿與水平線之間的夾角;(xc,yc)為C點(diǎn)坐標(biāo);(xd,yd)為D點(diǎn)坐標(biāo);(xe,ye)為E點(diǎn)坐標(biāo)。

        2 機(jī)器人駕駛車輛深度強(qiáng)化學(xué)習(xí)換擋策略

        機(jī)器人駕駛車輛深度強(qiáng)化學(xué)習(xí)換擋策略如圖5所示。 它包括了機(jī)器人駕駛車輛換擋策略強(qiáng)化學(xué)習(xí)模型和換擋策略求解兩部分。 機(jī)器人駕駛車輛換擋策略強(qiáng)化學(xué)習(xí)模型由駕駛機(jī)器人模型和車輛模型組成,并通過馬爾可夫決策過程進(jìn)行描述,建立了模型相關(guān)的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)懲機(jī)制。 而其換擋策略求解則采用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)(DQN)算法。 駕駛機(jī)器人采集車輛行駛狀態(tài)并根據(jù)獎(jiǎng)懲機(jī)制計(jì)算獎(jiǎng)勵(lì),將采集到的車輛行駛狀態(tài)、擋位、獎(jiǎng)勵(lì)保存在經(jīng)驗(yàn)池中,DQN 算法單步提取經(jīng)驗(yàn)池中部分經(jīng)驗(yàn)對預(yù)測Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)分別進(jìn)行更新。 在學(xué)習(xí)過程中,通過貪心算法根據(jù)預(yù)測Q網(wǎng)絡(luò)選擇擋位。

        圖5 機(jī)器人駕駛車輛深度強(qiáng)化學(xué)習(xí)換擋策略框圖

        2.1 機(jī)器人駕駛車輛換擋策略強(qiáng)化學(xué)習(xí)模型

        馬爾科夫決策過程來描述機(jī)器人駕駛車輛換擋策略強(qiáng)化學(xué)習(xí)模型。 馬爾科夫決策過程<S,A,T,R>, 即系統(tǒng)下一時(shí)刻的狀態(tài)由當(dāng)前時(shí)刻的狀態(tài)決定,不依賴于以往的任何狀態(tài)。

        S是狀態(tài)空間,表示車輛行駛狀態(tài)變量的集合。狀態(tài)變量s為車輛行駛狀態(tài),包括車速v、油門開度αA、行駛加速度,假設(shè)車輛在一次換擋前后保持油門開度不變。 狀態(tài)空間為:S={v,αA,}。 車輛在t時(shí)刻的狀態(tài)s(t)={v(t),αA(t),(t)}。

        A是動(dòng)作空間,表示車輛所能采取的動(dòng)作變量的集合。 動(dòng)作變量a為所能選擇的擋位,動(dòng)作空間A={1,2,3,4,5},車輛在t時(shí)刻選擇的動(dòng)作(即擋位)為a(t)∈A。

        T是狀態(tài)轉(zhuǎn)移函數(shù),用于描述下一時(shí)刻狀態(tài)s(t+1)和當(dāng)前狀態(tài)s(t)間的關(guān)系。 狀態(tài)轉(zhuǎn)移函數(shù)由駕駛機(jī)器人模型和車輛模型決定。 機(jī)器人駕駛車輛換擋策略強(qiáng)化學(xué)習(xí)模型從狀態(tài)s(t)開始,采取動(dòng)作a,根據(jù)狀態(tài)轉(zhuǎn)移函數(shù)T狀態(tài)s(t)轉(zhuǎn)移到下一個(gè)時(shí)刻狀態(tài)s(t+1),表示為

        式中:ig(t)為在t時(shí)刻擋位對應(yīng)的傳動(dòng)比;v(t+1)和v(t)分別為t+1 和t時(shí)刻的車速;Te(t)為發(fā)動(dòng)機(jī)輸出轉(zhuǎn)矩;Fb(t)為t時(shí)刻的制動(dòng)力;α(t+1)和α(t)分別為t+1 和t時(shí)刻的節(jié)氣門開度;(t+1)為t+1 時(shí)刻的汽車行駛加速度;β=fcosθ+sinθ。

        R是獎(jiǎng)懲機(jī)制,是根據(jù)學(xué)習(xí)目標(biāo)為強(qiáng)化學(xué)習(xí)方法提供獎(jiǎng)勵(lì)的函數(shù)。 本文中學(xué)習(xí)目標(biāo)為動(dòng)力性換擋策略,描述為車輛在舒適度約束條件下以最短時(shí)間t達(dá)到當(dāng)前油門下所能達(dá)到的最高車速vmax。 其計(jì)算公式為

        式中:nemax為發(fā)動(dòng)機(jī)設(shè)定的最高轉(zhuǎn)速;ig5為最高擋位的傳動(dòng)比。

        通過最大化折扣累計(jì)獎(jiǎng)勵(lì)值的形式描述學(xué)習(xí)目標(biāo),最大化折扣累計(jì)獎(jiǎng)勵(lì)值為

        式中:γ為獎(jiǎng)勵(lì)遞減值,取值在區(qū)間[0,1]內(nèi),表示未來獎(jiǎng)勵(lì)對當(dāng)前狀態(tài)的影響程度;rt是在t步時(shí)獲得的獎(jiǎng)勵(lì)。 根據(jù)學(xué)習(xí)目標(biāo)將獎(jiǎng)懲機(jī)制分為3 個(gè)部分。

        第1 部分為終止獎(jiǎng)勵(lì),用于獎(jiǎng)勵(lì)車輛到達(dá)終止?fàn)顟B(tài),即車輛到達(dá)最高車速vmax時(shí)的狀態(tài)。 此時(shí)獎(jiǎng)勵(lì)為10。

        第2 部分為在執(zhí)行一次換擋動(dòng)作后無法滿足舒適性條件下的懲罰。 利用沖擊度來反面表示舒適程度,沖擊度定義為

        本文中設(shè)定換擋過程中最大沖擊度Jmax的絕對值不超過10 m/s3,當(dāng)沖擊度大于最大沖擊度Jmax時(shí),獎(jiǎng)勵(lì)設(shè)為-10。

        第3 部分為臨時(shí)獎(jiǎng)勵(lì),臨時(shí)獎(jiǎng)勵(lì)是關(guān)于換擋后到達(dá)車速相關(guān)的函數(shù)。 臨時(shí)獎(jiǎng)勵(lì)是對駕駛機(jī)器人進(jìn)行一次換擋動(dòng)作的獎(jiǎng)勵(lì),作用是提高學(xué)習(xí)效率。 臨時(shí)獎(jiǎng)勵(lì)rt計(jì)算公式為

        根據(jù)式(14)和式(15)可得獎(jiǎng)懲機(jī)制:

        2.2 機(jī)器人駕駛車輛換擋策略求解

        使用DQN 算法對駕駛機(jī)器人動(dòng)力性換擋策略進(jìn)行求解。 駕駛機(jī)器人在車輛行駛狀態(tài)s下根據(jù)換擋策略π選擇擋位G,擋位的選擇表示為

        動(dòng)作價(jià)值函數(shù)Q(s,a)是對折扣累計(jì)獎(jiǎng)勵(lì)值的估計(jì),是機(jī)器人駕駛車輛在車輛行駛狀態(tài)s下選擇擋位G后,根據(jù)換擋策略π繼續(xù)行駛后得到的期望折扣累計(jì)獎(jiǎng)勵(lì)值(又稱為Q值)。 在車輛行駛狀態(tài)s下對應(yīng)擋位G的Q值越大,說明擋位G可以得到更多的折扣累計(jì)獎(jiǎng)勵(lì)值。 動(dòng)作價(jià)值函數(shù)表示為

        式中:s0為車輛起始行駛狀態(tài);a0為車輛起始行駛狀態(tài)下采取的第一個(gè)擋位。

        換擋策略π表示當(dāng)前車輛行駛狀態(tài)下對應(yīng)Q值最大的擋位G,換擋策略π表示:

        對于換擋策略來說,其狀態(tài)空間是高維且連續(xù)的。 利用神經(jīng)網(wǎng)絡(luò)對動(dòng)作價(jià)值函數(shù)進(jìn)行近似表達(dá),所采用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。

        圖6 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        神經(jīng)網(wǎng)絡(luò)有5 個(gè)全連接層作為中間層,采用線性整流函數(shù)(Relu)作為神經(jīng)網(wǎng)絡(luò)激活函數(shù)。 線性整流函數(shù)表示為

        式中:W為神經(jīng)網(wǎng)絡(luò)的權(quán)重;b為神經(jīng)網(wǎng)絡(luò)的偏秩。

        每個(gè)全連接層包括11 個(gè)節(jié)點(diǎn)。 數(shù)據(jù)輸入為車輛狀態(tài)數(shù)據(jù)(車速、油門開度和加速度)。 輸出層輸出的是所有擋位對應(yīng)的Q值。 近似后的動(dòng)作價(jià)值函數(shù)為

        式中λ為神經(jīng)網(wǎng)絡(luò)參數(shù)。

        通過神經(jīng)網(wǎng)絡(luò)對動(dòng)作價(jià)值函數(shù)進(jìn)行近似化表達(dá),換擋策略π表示為

        在求解換擋策略時(shí),通過使用兩個(gè)結(jié)構(gòu)相同、參數(shù)不同的全連接神經(jīng)網(wǎng)絡(luò)(稱為預(yù)測Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò))來完成對換擋策略π的更新。 目標(biāo)Q網(wǎng)絡(luò)生成車輛行駛狀態(tài)s下所有擋位的Q值,作為預(yù)測Q網(wǎng)絡(luò)的標(biāo)簽。 預(yù)測Q網(wǎng)絡(luò)利用獎(jiǎng)懲機(jī)制和目標(biāo)Q網(wǎng)絡(luò)提供的Q值來更新自身參數(shù)。 目標(biāo)Q網(wǎng)絡(luò)的更新則是在經(jīng)過一定次數(shù)的迭代后,將預(yù)測Q網(wǎng)絡(luò)中的參數(shù)λ復(fù)制給目標(biāo)Q網(wǎng)絡(luò)。 通過迭代最終得到最優(yōu)的換擋策略。

        在學(xué)習(xí)過程中,采用e-貪心算法來選擇擋位。在擋位選擇時(shí),以1-e的概率選擇當(dāng)前換擋策略下的最優(yōu)動(dòng)作 arg maxaQ(s,a,λ)。 以e的概率從所有動(dòng)作中均勻隨機(jī)選取一個(gè)。 通過e-貪心算法可以避免最終得到的換擋策略是局部最優(yōu)。 貪心算法表示為

        為提高計(jì)算效率,利用經(jīng)驗(yàn)池存儲(chǔ)歷史經(jīng)驗(yàn)。通過隨機(jī)抽取歷史經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)。 采用隨機(jī)抽樣的方法可降低不同歷史經(jīng)驗(yàn)的相關(guān)性,以提高神經(jīng)網(wǎng)絡(luò)的更新效率。

        預(yù)測Q網(wǎng)絡(luò)的更新通過將預(yù)測Q值和目標(biāo)Q值的差值平方作為損失函數(shù),反向傳遞更新預(yù)測Q網(wǎng)絡(luò)參數(shù),損失函數(shù)表達(dá)為

        式中 maxaQ(st+1,a,λt)為目標(biāo)Q網(wǎng)絡(luò)以st+1為輸入時(shí)輸出的最大Q值。

        完成一次更新后的預(yù)測Q網(wǎng)絡(luò)為

        通過不斷的學(xué)習(xí)對預(yù)測Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)中的參數(shù)進(jìn)行更新,直至收斂,得到最優(yōu)的換擋策略:

        降擋延遲通過引入方法改進(jìn)獲得,收斂系數(shù)的公式為

        式中:vn為一定油門開度下n擋升入n+1 擋的車速;vn+1為一定油門開度下n+1 擋降到n擋的車速。

        根據(jù)經(jīng)驗(yàn)獲得收斂系數(shù)A,如表1 所示。

        表1 不同油門開度下的收斂系數(shù)

        3 仿真與試驗(yàn)

        為了驗(yàn)證所提出換擋策略的動(dòng)力性,進(jìn)行了駕駛機(jī)器人車輛加速性能仿真。 仿真中,駕駛機(jī)器人車輛分別采用提出的換擋策略和用解析法求解的雙參數(shù)換擋策略進(jìn)行了固定油門加速。 其中,提出的換擋策略是通過訓(xùn)練獲得的,獲得的策略是關(guān)于車速、油門開度、加速度的三參數(shù)換擋策略。 生成此換擋策略時(shí),所采用的算法參數(shù)如表2 所示,車型參數(shù)如表3 所示。 訓(xùn)練過程中誤差變化曲線如圖7 所示。

        表2 算法參數(shù)

        表3 車型參數(shù)

        圖7 訓(xùn)練過程中誤差變化曲線

        由圖7 可見,訓(xùn)練誤差是收斂的。 在訓(xùn)練過程中,訓(xùn)練誤差隨著訓(xùn)練步數(shù)的增加不斷減小,最后趨于0。 圖中的誤差波動(dòng)是目標(biāo)Q網(wǎng)絡(luò)參數(shù)更新造成的。

        將采用解析法求解的兩參數(shù)換擋策略和訓(xùn)練獲得的提出換擋策略進(jìn)行35%固定油門開度加速的對比,曲線如圖8 所示。

        由圖8(a)可以看出,10 s 加速時(shí)間內(nèi),利用解析法求解的換擋策略從0 加速至61.18 km/h,通過本文方法求解的換擋策略加速至62.17 km/h,提升0.99 km/h。 機(jī)器人駕駛車輛的加速性能得到改善。由圖8(b)可以看出,駕駛機(jī)器人在相同油門開度下10 s 內(nèi)行駛路程由358 m 增加到371 m,提升13 m。說明通過本文中提出的求解換擋策略可以使駕駛機(jī)器人更好地發(fā)揮車輛的動(dòng)力性能。 由圖8(c)和圖8(d)可以看出,駕駛機(jī)器人使用本文求解換擋策略時(shí),更傾向于在高車速/轉(zhuǎn)速換擋,以提高動(dòng)力性能。從圖8(f)可以看出,本文中求解出的換擋策略在沖擊度規(guī)定范圍內(nèi)滿足舒適性要求。

        圖8 固定油門加速的對比曲線

        為進(jìn)一步驗(yàn)證提出的換擋策略的有效性,進(jìn)行了機(jī)器人駕駛車輛駕駛循環(huán)試驗(yàn)。 根據(jù)相關(guān)標(biāo)準(zhǔn)[21],BOCO NJ 150/80 型底盤測功機(jī)上,由駕駛機(jī)器人對試驗(yàn)車輛進(jìn)行駕駛循環(huán)試驗(yàn)。 車速控制方法采用PID 控制。 機(jī)器人駕駛車輛的駕駛循環(huán)試驗(yàn)現(xiàn)場如圖9 所示。 在試驗(yàn)過程中,實(shí)時(shí)采集駕駛機(jī)器人油門機(jī)械腿、試驗(yàn)車輛車速和換擋機(jī)械手的實(shí)時(shí)數(shù)據(jù)。

        圖9 機(jī)器人駕駛車輛駕駛循環(huán)試驗(yàn)現(xiàn)場圖

        采用提出的換擋策略和模糊神經(jīng)網(wǎng)絡(luò)(FNN)換擋策略分別進(jìn)行駕駛循環(huán)試驗(yàn),對比曲線如圖10 所示。 從圖10(a)可以看出,利用本文方法求解換擋策略和FNN 求解換擋策略都可以很好地完成駕駛循環(huán)試驗(yàn)。 由圖10(b)可以看出,駕駛機(jī)器人控制最大油門開度57%下降至16%,一次駕駛循環(huán)試驗(yàn)平均油門開度由4.13%下降至4.06%,使用本文方法求解換擋策略能以更低的油門開度完成駕駛循環(huán)試驗(yàn)。 由圖10(e)可以看出,利用本文求解換擋策略,沖擊度絕對值由FNN 求解換擋策略的16.21 下降到6.01 m/s3。 通過本文方法求解換擋策略可以在提高車輛動(dòng)力性的同時(shí)改善舒適性。

        4 結(jié)論

        提出了一種基于深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法的機(jī)器人駕駛車輛三參數(shù)換擋策略。 首先建立了機(jī)器人駕駛車輛的動(dòng)力學(xué)模型,包括了車輛縱向動(dòng)力學(xué)模型、機(jī)械腿運(yùn)動(dòng)學(xué)模型和換擋機(jī)械手運(yùn)動(dòng)學(xué)模型。通過將機(jī)器人駕駛車輛動(dòng)力學(xué)模型轉(zhuǎn)化為機(jī)器人駕駛車輛強(qiáng)化學(xué)習(xí)模型,車速、油門開度、行駛加速度作為狀態(tài)變量,機(jī)器人駕駛車輛所能選擇的擋位作為動(dòng)作變量,以車輛在舒適度約束條件下用最短時(shí)間到達(dá)最高車速為學(xué)習(xí)目標(biāo),建立獎(jiǎng)懲機(jī)制,獎(jiǎng)懲機(jī)制分為終止獎(jiǎng)勵(lì)、懲罰和臨時(shí)獎(jiǎng)勵(lì)。 利用深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)算法(DQN)求解三參數(shù)換擋策略,通過使用兩個(gè)結(jié)構(gòu)完全相同但參數(shù)不同的全連接神經(jīng)網(wǎng)絡(luò)(預(yù)測Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò))完成對換擋策略的更新。 目標(biāo)Q網(wǎng)絡(luò)對換擋策略下的折扣累計(jì)獎(jiǎng)勵(lì)值進(jìn)行估計(jì)并作為預(yù)測Q網(wǎng)絡(luò)的標(biāo)簽,預(yù)測Q網(wǎng)絡(luò)利用目標(biāo)Q網(wǎng)絡(luò)提供標(biāo)簽和獎(jiǎng)懲機(jī)制,對自身參數(shù)進(jìn)行更新。 通過多回合訓(xùn)練得到機(jī)器人駕駛車輛的動(dòng)力性換擋策略。

        圖10 駕駛機(jī)器人駕駛循環(huán)試驗(yàn)對比

        試驗(yàn)與仿真結(jié)果表明,基于深度強(qiáng)化學(xué)習(xí)求解出的三參數(shù)換擋策略提高了無人機(jī)器人駕駛車輛的動(dòng)力性能,10 s 加速試驗(yàn)速度由61.18 km/h 提升至62.17 km/h,10 s 內(nèi)路程長度增加 13 m。 通過速度跟蹤試驗(yàn),基于深度強(qiáng)化學(xué)習(xí)求解出的三參數(shù)換擋策略比模糊神經(jīng)網(wǎng)絡(luò)換擋策略在無人機(jī)器人駕駛車輛上表現(xiàn)出更好的動(dòng)力性能,同時(shí)改善了舒適性。再一次驗(yàn)證了換擋策略的準(zhǔn)確性。

        但在建模過程中,未考慮實(shí)際模型參數(shù)的變化和外部干擾對建模帶來的誤差,尤其是換擋機(jī)械手、離合機(jī)械腿受負(fù)載波動(dòng)時(shí)的影響和車輛中不同踏板的踏板特性。 在換擋策略中未將安裝駕駛機(jī)器人前后車身質(zhì)量的變化考慮進(jìn)去。 這些將作為接下來的研究工作。

        猜你喜歡
        擋位油門開度
        掘進(jìn)機(jī)用截止閥開度對管路流動(dòng)性能的影響
        增大某車型車門開度的設(shè)計(jì)方法
        北京汽車(2021年2期)2021-05-07 03:56:26
        燃燒器二次風(fēng)擋板開度對爐內(nèi)燃燒特性的影響
        駕哥
        岷峨詩稿(2020年4期)2020-11-18 23:54:01
        現(xiàn)代名圖偶爾無擋位顯示
        雷克薩斯ES350車在各行駛擋位均不走車
        弧門開度檢測裝置改造
        誤將油門當(dāng)作剎車的防錯(cuò)裝置
        誤將油門當(dāng)作剎車的防錯(cuò)裝置
        農(nóng)用機(jī)動(dòng)車油門使用注意事項(xiàng)
        成人无码区免费a片www| 久久久精品国产老熟女| 黄色精品一区二区三区| 丰满人妻一区二区三区蜜桃| 日本一本之道高清不卡免费| 91日韩东京热中文字幕| 最新日本人妻中文字幕| 少妇伦子伦情品无吗| 国产欧美日韩中文久久| 啦啦啦www播放日本观看| 夜色阁亚洲一区二区三区| 国产午夜亚洲精品不卡免下载| 我也色自拍俺也色自拍| 亚洲av不卡一区男人天堂| 69精品人人人人| 亚洲精品国产福利一二区| 亚洲中文欧美日韩在线| 亚洲色图偷拍自拍亚洲色图| 一区二区视频在线观看地址| 国产精品国三级国产av| 亚洲美免无码中文字幕在线| 无码伊人66久久大杳蕉网站谷歌| 久久久精品人妻一区二区三区免费| 日韩人妻中文字幕高清在线| 成人免费xxxxx在线观看| 18禁黄久久久aaa片| 无码粉嫩虎白一线天在线观看| 亚洲av日韩av无码av| 亚洲无码激情视频在线观看| 亚洲精品二区三区在线观看| 视频一区二区三区中文字幕狠狠| 情av一区二区三区在线观看| 久久天堂av综合合色| 无码骚夜夜精品| 亚洲av理论在线电影网| 中文字幕乱码中文乱码毛片 | 欧美成人精品一区二区综合 | 精品国产一品二品三品| 日韩一级黄色片一区二区三区 | 国产人妖在线免费观看| 国产tv不卡免费在线观看|