摘要:針對道路長期性能養(yǎng)護(hù)決策中龐大的數(shù)據(jù)分析問題,將深度確定性策略梯度(deep deterministic policy gradient, DDPG)強(qiáng)化學(xué)習(xí)模型引入到了養(yǎng)護(hù)決策分析中,將道路性能的提升及養(yǎng)護(hù)資金的有效利用作為機(jī)器學(xué)習(xí)的獎勵目標(biāo),建立了一套科學(xué)有效的瀝青路面長期性能養(yǎng)護(hù)決策方法,經(jīng)過與DQN(deep Q-learning network)算法和Q-Learning算法進(jìn)行對比,DDPG算法所需要的采樣數(shù)據(jù)更少、收斂速度更快,表現(xiàn)更為優(yōu)異,可有效提升道路服役性能的評估效率,對瀝青路面多目標(biāo)長期養(yǎng)護(hù)決策方案的制定起著重要的推動作用。
關(guān)鍵詞:交通工程;瀝青路面;養(yǎng)護(hù)決策;強(qiáng)化學(xué)習(xí);深度確定性策略梯度模型
中圖分類號:U411文獻(xiàn)標(biāo)志碼:A文章編號:1002-4026(2023)03-0108-07
Abstract∶To address the huge data analysis problem in the decision-making for long-term road performance maintenance, this paper introduces the deep deterministic policy gradient (DDPG) reinforcement learning model in the maintenance decision analysis. A set of scientific and effective decision-making methods for long-term performance maintenance of asphalt pavements has been established through machine learning. These methods can improve road performance and make effective use of maintenance funds. Compared with the deep Q-learning network and Q-Learning algorithms, the DDPG algorithm requires less sampling data, converges faster, performs better, and can effectively improve the evaluation efficiency of the road service performance. Therefore, the proposed model" plays an important role in the development of multi-objective maintenance decision-making for asphalt pavements.
Key words∶traffic engineering; asphalt pavement; maintenance decision; reinforcement learning; deep deterministic policy gradient model
隨著我國高等級路網(wǎng)的增加和完善,不斷出現(xiàn)路網(wǎng)養(yǎng)護(hù)工作量大、養(yǎng)護(hù)人員不足、養(yǎng)護(hù)資金短缺等問題。其中,制約養(yǎng)護(hù)決策的首要因素就是養(yǎng)護(hù)資金,為了解決資金分配問題,研究者針對不同的養(yǎng)護(hù)目標(biāo)(如最優(yōu)路網(wǎng)性能或最少養(yǎng)護(hù)成本等)提出了相應(yīng)的預(yù)算分配模型[1-4];第二個因素是缺少對路網(wǎng)性能的發(fā)展預(yù)測,缺少準(zhǔn)確的預(yù)測則很難做出長期有效的路網(wǎng)養(yǎng)護(hù)及修復(fù)計劃;第三個因素則是由于路網(wǎng)規(guī)模的不斷擴(kuò)大,傳統(tǒng)的數(shù)學(xué)規(guī)劃方法難以覆蓋路面各項(xiàng)評價指標(biāo),在綜合評價方面缺乏定量計算的決策依據(jù),同時,由于模型的局限性,單個地區(qū)的決策模型難以對不同地區(qū)的、復(fù)雜的路況性能作出符合實(shí)際的評價[5-7]。
在以往的養(yǎng)護(hù)決策中,道路管養(yǎng)工作者通常在一定的養(yǎng)護(hù)周期內(nèi)只考慮單一養(yǎng)護(hù)決策的有效性和成本問題,例如在兼顧性能的基礎(chǔ)上制定最具成本效益的策略,這種方法可以統(tǒng)稱為單一目標(biāo)的預(yù)算分配問題,僅使用常用的專家經(jīng)驗(yàn)法或者數(shù)學(xué)規(guī)劃方法就可以得到較好的解決。張春安等[8]采用費(fèi)用-效益費(fèi)評價準(zhǔn)則,基于層次分析法從環(huán)境、經(jīng)濟(jì)與技術(shù)等角度建立了預(yù)防性養(yǎng)護(hù)矩陣模型,通過對高速公路預(yù)防養(yǎng)護(hù)方案進(jìn)行評分,確定了最佳養(yǎng)護(hù)方案。肖順舟[9]針對路面養(yǎng)護(hù)數(shù)據(jù)繁雜問題,建立了數(shù)據(jù)異常檢測模型,對道路養(yǎng)護(hù)中缺失及錯誤的數(shù)據(jù)進(jìn)行篩查和標(biāo)注,使用灰色物元法進(jìn)行路面養(yǎng)護(hù)決策排序。Hafez等[10]針對低等級道路建立了基于神經(jīng)網(wǎng)絡(luò)識別算法的養(yǎng)護(hù)決策模型,該模型在道路養(yǎng)護(hù)決策中推薦頻率較高的是就地冷再生及銑刨重鋪,在實(shí)際應(yīng)用中取得了較好的表現(xiàn),對部分區(qū)域的路網(wǎng)性能也做出了準(zhǔn)確預(yù)測。鄭煒等[11]通過裁剪神經(jīng)網(wǎng)絡(luò)中影響較小的連接和輸入變量個數(shù),有效地縮減了測試集的規(guī)模,通過該法改進(jìn)的神經(jīng)網(wǎng)絡(luò)方法提高了路面養(yǎng)護(hù)決策的精準(zhǔn)度及收斂速率。馮勝凱[12]針對養(yǎng)護(hù)決策中的不確定性運(yùn)用多目標(biāo)優(yōu)化方法,建立了多目標(biāo)路面養(yǎng)護(hù)決策優(yōu)化模型,將不確定問題轉(zhuǎn)化為確定性的優(yōu)化問題,該方法一定程度上能夠解決由于數(shù)據(jù)雜亂繁多所引起的養(yǎng)護(hù)決策失真,但難以對一定數(shù)量級的數(shù)據(jù)及時進(jìn)行處理。翟登攀等[13]利用BP(back propagation)神經(jīng)網(wǎng)絡(luò)對道路病害進(jìn)行分類分級,將路面病害與養(yǎng)護(hù)措施建庫作為樣本進(jìn)行訓(xùn)練,獲得了預(yù)防性養(yǎng)護(hù)模型,但該模型僅在裂縫處置中得到了驗(yàn)證。
目前國內(nèi)對于道路養(yǎng)護(hù)決策模型的研究還停留在數(shù)學(xué)規(guī)劃優(yōu)化方法及短期路面養(yǎng)護(hù)決策方案的制定,但是瀝青路面的性能衰減是一個多向復(fù)雜性的問題[14-15],合理地搭配不同的養(yǎng)護(hù)措施才能制定更為穩(wěn)定、合理的養(yǎng)護(hù)方案。究其原因主要在于現(xiàn)有的研究方法難以做到大量基礎(chǔ)數(shù)據(jù)的分析及統(tǒng)計,同時隨著預(yù)測年限的增加,由于輸入?yún)?shù)過少導(dǎo)致大量的有效信息被忽略,模型預(yù)測精度難以保證。基于此,本文為解決道路養(yǎng)護(hù)決策中龐大的數(shù)據(jù)分析問題,將強(qiáng)化學(xué)習(xí)引入到了養(yǎng)護(hù)決策分析中,將道路性能的提升及養(yǎng)護(hù)資金的有效利用作為機(jī)器學(xué)習(xí)的獎勵目標(biāo),通過機(jī)器學(xué)習(xí)來尋找最佳的道路養(yǎng)護(hù)效能比,減少人為的干預(yù),最大程度上發(fā)揮機(jī)器學(xué)習(xí)的優(yōu)勢。與傳統(tǒng)的路面養(yǎng)護(hù)決策方法相比,機(jī)器學(xué)習(xí)有著強(qiáng)大的驅(qū)動,可以通過大量基礎(chǔ)數(shù)據(jù)構(gòu)建的模型來模擬人類智能,有效地提高常規(guī)養(yǎng)護(hù)工作對道路服役性能的評估效率,對多目標(biāo)的養(yǎng)護(hù)決策起著關(guān)鍵的推動作用。
1瀝青路面養(yǎng)護(hù)決策模型構(gòu)建
強(qiáng)化學(xué)習(xí)是繼有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)之后的第三大機(jī)器學(xué)習(xí)領(lǐng)域,其本質(zhì)是一種學(xué)習(xí)如何從狀態(tài)到行為過程中獲取最大獎勵的學(xué)習(xí)機(jī)制,在與環(huán)境不斷交互的過程中,通過接收來自環(huán)境的反饋或者獎勵來不斷迭代和優(yōu)化狀態(tài)與行為兩者的關(guān)系。作為機(jī)器學(xué)習(xí)的一個重要分支,強(qiáng)化學(xué)習(xí)已經(jīng)在交通工程領(lǐng)域得到了廣泛應(yīng)用,研究人員通過其搭建交通規(guī)劃的模擬系統(tǒng)以減少車輛行駛延誤,為駕駛員提供更快捷更便利的引導(dǎo)服務(wù)。同樣,在瀝青路面的養(yǎng)護(hù)決策方向,可以通過強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)機(jī)器與環(huán)境的不斷交互,將復(fù)雜的路面性能預(yù)測、材料類型、養(yǎng)護(hù)措施方案納入到不斷的優(yōu)化過程中。本文將深度確定性策略梯度(deep determinstic policy gradient,DDPG)算法引入到道路養(yǎng)護(hù)決策中來,將道路性能的提升及養(yǎng)護(hù)資金的有效利用作為機(jī)器學(xué)習(xí)的獎勵目標(biāo),建立一套科學(xué)有效的瀝青路面養(yǎng)護(hù)決策方法。
1.1DDPG強(qiáng)化學(xué)習(xí)模型
DDPG是一種將神經(jīng)網(wǎng)絡(luò)融合到強(qiáng)化學(xué)習(xí)的方法,相較于常用的Q-Learning算法和DQN(deep Q-Learning network)算法,DDPG算法采用的是確定性策略梯度下降所得出的行為,該行為是確定性而不是概率性的,使其能夠處理更高維度的行為動作且使得深度學(xué)習(xí)的收斂速度更快。
本文算法中共包括Actor當(dāng)前網(wǎng)絡(luò)、Actor目標(biāo)網(wǎng)絡(luò)、Critic當(dāng)前網(wǎng)絡(luò)、Critic目標(biāo)網(wǎng)絡(luò)4個計算網(wǎng)絡(luò),與DQN算法直接復(fù)制目標(biāo)網(wǎng)絡(luò)參數(shù)所不同的是,DDPG算法在參數(shù)更新方面使用了軟更新的概念,目標(biāo)網(wǎng)絡(luò)只從當(dāng)前網(wǎng)絡(luò)中復(fù)制部分參數(shù),即
1.2確定性策略梯度
確定性策略梯度由策略函數(shù)和價值函數(shù)組合構(gòu)成,策略函數(shù)通過環(huán)境狀態(tài)輸出執(zhí)行動作,價值函數(shù)則根據(jù)當(dāng)前狀態(tài)及輸出的執(zhí)行動作進(jìn)行價值Q(C,A;ω)的評估,通過不斷的訓(xùn)練及參數(shù)的更新使得策略函數(shù)所評估出的價值越高,即函數(shù)決策越好。參數(shù)更新包括兩個方面,第一個方面通過樣本訓(xùn)練更新價值函數(shù),分別計算當(dāng)前狀態(tài)下價值函數(shù)的Q值,然后利用時間差和梯度下降算法對價值函數(shù)進(jìn)行更新,即:
1.3道路狀態(tài)特征
狀態(tài)特征代表當(dāng)前環(huán)境所包含的信息,在預(yù)測模型中相當(dāng)于模型的輸入變量,具體包括路面結(jié)構(gòu)與材料、養(yǎng)護(hù)歷史、交通軸載、路面狀況、溫度等其他特征,詳細(xì)的道路狀態(tài)特征輸入變量見表1。
1.4行為特征
行為特征代表道路不同的養(yǎng)護(hù)決策,主要包括4類:養(yǎng)護(hù)類型、養(yǎng)護(hù)材料、病害處置及不處置,神經(jīng)網(wǎng)絡(luò)模型分別將不同的養(yǎng)護(hù)措施進(jìn)行排列組合,來模擬不同決策對道路所產(chǎn)生的影響,詳細(xì)的養(yǎng)護(hù)決策分類見表2。
1.5獎勵函數(shù)
在強(qiáng)化學(xué)習(xí)中,獎勵反饋的作用是向強(qiáng)化學(xué)習(xí)模型行為特征的反饋,恰當(dāng)?shù)莫剟罘答亴σ龑?dǎo)機(jī)器學(xué)習(xí)起著非常重要的作用,本文將機(jī)器學(xué)習(xí)的獎懲設(shè)定為養(yǎng)護(hù)決策所產(chǎn)生效益的增加或者減少,累計獎勵代表決策所產(chǎn)生的長期決策收益。其中,養(yǎng)護(hù)效益定義為養(yǎng)護(hù)后的路面狀況曲線與未養(yǎng)護(hù)的路面狀況曲線所包圍的面積,即
但在實(shí)際的測試過程中發(fā)現(xiàn),由于道路初始階段未發(fā)生養(yǎng)護(hù)行為,其獎勵值為0,導(dǎo)致機(jī)器無法過去有效經(jīng)驗(yàn)值,經(jīng)過不斷測試后將養(yǎng)護(hù)效益值定義為:
其中,r為養(yǎng)護(hù)決策產(chǎn)生的效益,Stst為t時刻路面狀況曲線所包圍的面積。
1.6算法流程
本文強(qiáng)化學(xué)習(xí)模型以路況狀態(tài)作為輸入,測試多種參數(shù)下的組合,輸出每個決策所帶來不同的效益值,通過不斷迭代計算,得到以更低的成本來獲取更高效益獎勵的框架結(jié)構(gòu)。架構(gòu)圖如圖1所示。
具體的訓(xùn)練步驟如下:(1)初始化系統(tǒng)環(huán)境參數(shù),在已有的養(yǎng)護(hù)決策行為列表中選擇一種組合作為數(shù)據(jù)輸入同當(dāng)前道路的狀態(tài)特征輸入到評估模型中,結(jié)合約束調(diào)整和隨機(jī)因子確定決策動作At;(2)執(zhí)行決策動作,預(yù)測評估決策后下一狀態(tài)并計算決策收益;(3)將當(dāng)前道路狀態(tài)、行為特征及計算得到的決策收益存儲到經(jīng)驗(yàn)回放中作為在線網(wǎng)絡(luò)的訓(xùn)練集;(4)從經(jīng)驗(yàn)回放中取樣,獲取數(shù)據(jù)作為Critic網(wǎng)絡(luò)訓(xùn)練集并優(yōu)化網(wǎng)絡(luò)參數(shù);(5)訓(xùn)練出逼近函數(shù),通過選擇效益值最大的行為特征獲取最佳養(yǎng)護(hù)決策。
2結(jié)果驗(yàn)證與分析
2.1強(qiáng)化學(xué)習(xí)模型訓(xùn)練
DDPG模型的參數(shù)設(shè)定極為重要,參數(shù)的設(shè)定不合理不僅會影響到學(xué)習(xí)模型的收斂速度,同時會對學(xué)習(xí)預(yù)測結(jié)果產(chǎn)生較大的偏差。在對模型參數(shù)進(jìn)行反復(fù)測試及優(yōu)化后,確定了評估網(wǎng)絡(luò)的最佳參數(shù),本文測試平臺搭建在Windows10操作系統(tǒng)中,環(huán)境配置為Python 3.6,模型參數(shù)為:迭代步數(shù)設(shè)置為15步,學(xué)習(xí)率設(shè)置為0.000 1,計算延遲獎勵的折扣率為0.85,動作網(wǎng)絡(luò)和策略網(wǎng)絡(luò)均為4層網(wǎng)絡(luò)結(jié)構(gòu),其中隱藏層數(shù)為2層,每層神經(jīng)元128個。最后,選用強(qiáng)化學(xué)習(xí)中常用的Q-Learning算法和DQN算法來對比驗(yàn)證算法的訓(xùn)練效果。訓(xùn)練結(jié)果如圖2所示。
由圖2可知,前1 000次迭代,三種算法訓(xùn)練結(jié)果波動較大,DDPG算法在訓(xùn)練1 000次后基本趨于穩(wěn)定,模型處于收斂狀態(tài),訓(xùn)練效果良好,而DQN算法和Q-Learning算法則分別需要2 000次和2 500次迭代才趨于穩(wěn)定,相較于后兩者而言,DDPG算法所需要的采樣數(shù)據(jù)更少、收斂速度更快,表現(xiàn)更為優(yōu)異。
2.2訓(xùn)練結(jié)果分析
以某段43 km高速公路2017—2021年詳細(xì)統(tǒng)計數(shù)據(jù)作為訓(xùn)練集,對2022—2031年各養(yǎng)護(hù)措施養(yǎng)護(hù)長度及路面技術(shù)狀況進(jìn)行了預(yù)測,預(yù)測詳情見表3及圖3。
3綜合效益費(fèi)用比訓(xùn)練結(jié)果
由圖3可看出,該段高速公路在經(jīng)過一定周期的訓(xùn)練后,模型收斂到了一個較為穩(wěn)定的階段,DDPG算法訓(xùn)練到達(dá)的綜合效益費(fèi)用比與我們設(shè)定的最高獎勵目標(biāo)非常接近,訓(xùn)練效果較好,訓(xùn)練曲線發(fā)生的波動為機(jī)器在探索學(xué)習(xí)過程中的隨機(jī)取值。
由表3可看出,該段高速未來10年間養(yǎng)護(hù)措施主要集中在薄層罩面及上面層銑刨重鋪,從長期性能預(yù)測結(jié)果來看,該路段在2022年及2031年經(jīng)歷大面積的路網(wǎng)養(yǎng)護(hù)后,PQI指數(shù)明顯上升,整個路段在制定完整的養(yǎng)護(hù)措施后,指標(biāo)性能良好,使用強(qiáng)化學(xué)習(xí)模型可以很好地制定道路長期性能養(yǎng)護(hù)決策方案來保證道路使用性能的穩(wěn)定。
3結(jié)論
為了解決道路養(yǎng)護(hù)決策中龐大的數(shù)據(jù)分析問題,本文將強(qiáng)化學(xué)習(xí)引入到了養(yǎng)護(hù)決策分析中,將道路中涉及到的輸入變量架構(gòu)詳細(xì)劃分為路面結(jié)構(gòu)、材料類型、交通量、路面病害、歷史修復(fù)措施、溫度、服役年限7類特征,將道路性能的提升及養(yǎng)護(hù)資金的有效利用作為機(jī)器學(xué)習(xí)的獎勵目標(biāo),建立起了一套科學(xué)有效的瀝青路面養(yǎng)護(hù)決策方法,可實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)架構(gòu)的自主學(xué)習(xí)以及參數(shù)的迭代更新。
參考文獻(xiàn):
[1]張春安, 田智鵬. 基于高等級公路瀝青路面的預(yù)防性養(yǎng)護(hù)決策研究[J]. 公路工程, 2019, 44(6): 77-80. DOI:10.19782/j.cnki.1674-0610.2019.06.014.
[2]KODURU H K, XIAO F P, AMIRKHANIAN S N, et al. Using fuzzy logic and expert system approaches in evaluating flexible pavement distress: case study[J]. Journal of Transportation Engineering, 2010, 136(2): 149-157. DOI:10.1061/(asce)0733-947x(2010)136: 2(149).
[3]YANG C, REMENYTE-PRESCOTT R, ANDREWS J D. Pavement maintenance scheduling using genetic algorithms[J]. International Journal of Performability Engineering, 2015, 11(2):135-152.
[4]施彥, 凌天清, 崔立龍, 等. 瀝青路面預(yù)防性養(yǎng)護(hù)評價標(biāo)準(zhǔn)及決策優(yōu)化研究[J]. 公路交通科技, 2020, 37(10): 25-34.
[5]王向峰, 雍黎明. 公路瀝青路面預(yù)防性養(yǎng)護(hù)路況標(biāo)準(zhǔn)與時機(jī)決策研究[J]. 公路工程, 2017, 42(6): 223-226.
[6]王凱. 高速公路瀝青路面養(yǎng)護(hù)管理決策優(yōu)化研究[D]. 西安: 長安大學(xué), 2014.
[7]ZHOU G Q, WANG L B. Co-location decision tree for enhancing decision-making of pavement maintenance and rehabilitation[J]. Transportation Research Part C: Emerging Technologies, 2012, 21(1): 287-305. DOI:10.1016/j.trc.2011.10.007.
[8]張春安, 田智鵬. 基于高等級公路瀝青路面的預(yù)防性養(yǎng)護(hù)決策研究[J]. 公路工程, 2019, 44(6): 77-80. DOI:10.19782/j.cnki.1674-0610.2019.06.014.
[9]肖順舟. 基于數(shù)據(jù)挖掘的路面預(yù)防性養(yǎng)護(hù)決策的研究與實(shí)現(xiàn)[D]. 武漢: 武漢理工大學(xué), 2018.
[10]HAFEZ M, KSAIBATI K, ATADERO R A. Optimizing expert-based decision-making of pavement maintenance using artificial neural networks with pattern-recognition algorithms[J]. Transportation Research Record: Journal of the Transportation Research Board, 2019, 2673(11): 90-100. DOI:10.1177/0361198119851085.
[11]鄭煒, 楊威, 宋海靜, 等. 一種基于規(guī)則提取的自動化測試用例生成方法[J]. 西北工業(yè)大學(xué)學(xué)報, 2012, 30(2): 296-300.
[12]馮勝凱. 考慮不確定性因素的多目標(biāo)路面養(yǎng)護(hù)決策優(yōu)化研究[D]. 西安: 長安大學(xué), 2020.
[13]翟登攀, 張熙穎. 基于BP神經(jīng)網(wǎng)絡(luò)的道路預(yù)防性養(yǎng)護(hù)決策研究[J]. 交通科技與經(jīng)濟(jì), 2020, 22(5): 63-66. DOI:10.19348/j.cnki.issn1008-5696.2020.05.013.
[14]趙鴻鐸, 馬魯寬, 唐龍, 等. 基于數(shù)據(jù)挖掘的民用機(jī)場水泥道面維護(hù)輔助決策模型[J]. 同濟(jì)大學(xué)學(xué)報(自然科學(xué)版), 2018, 46(12): 1676-1682.
[15]曹巍, 陳長. 基于多屬性分析理論的預(yù)防性養(yǎng)護(hù)決策方法[J]. 交通科學(xué)與工程, 2015, 31(4): 71-76. DOI:10.16544/j.cnki.cn43-1494/u.2015.04.013.
[16]陳安琪. 國檢體系下的瀝青路面養(yǎng)護(hù)決策研究[D]. 南京: 東南大學(xué), 2018.