0 引言
航空液壓操縱系統(tǒng)是保障飛機飛行的基礎功能系統(tǒng),也是飛機綜合作戰(zhàn)效能的重要保障和核心載體[。液壓舵機殼體是飛行器液壓作動系統(tǒng)的關鍵零部件,在有限空間內遍布數十條滿足復雜液壓介質傳輸需求的液壓流道[2。流道路徑規(guī)劃指的是在液壓舵機殼體設計空間內,尋找兩個接口間的油路路徑,該路徑需要滿足與其他流道間的最小間距、工藝性約束、功能性約束等一系列約束,本質上是一個多目標優(yōu)化問題。傳統(tǒng)的人工設計方式完全依賴設計人員經驗,設計效率低下,且無法有效復用歷史設計經驗;遺傳算法等雖然也可以解決此類問題,但設計空間大,需要長時間迭代,不利于對設計輸入的快速響應。而強化學習通過神經網絡學習規(guī)則和人工經驗,對設計輸入實現瞬間響應,更適合舵機殼體此類結構復雜且需要頻繁調整輸入的設計任務。因此,本文運用強化學習算法訓練路徑規(guī)劃神經網絡,實現流道路徑的快速尋優(yōu),解決舵機殼體流道快速最優(yōu)設計的難題。
1液壓舵機殼體流道路徑規(guī)劃流程
舵機殼體的流道主要由油路接口和油路兩部分組成,如圖1所示。油路接口是舵機殼體與其他功能組件進行溝通的接口,有殼體表面接口和環(huán)槽接口、油路溝通接口三種。流道接口的參數包括接口的安裝坐標、安裝方向、長度、直徑。油路是兩個流道接口之間的溝通通道,其參數包括油路的起點接口坐標、終點接口坐標、油路的拐點坐標及油路直徑。流道的路徑規(guī)劃本質上就是在已知接口參數及油路起點、終點和直徑(下稱“流道設計任務”的基礎上,尋找油路拐點的過程。
流道路徑可簡化為流道起點、流道終點及一系列拐點構成的點集。利用強化學習算法進行流道路徑規(guī)劃的流程如圖2所示,根據設計任務確定流道的起點和終點,隨后路徑規(guī)劃智能體對自身狀態(tài)進行感知,得到當前的狀態(tài)信息。將狀態(tài)信息輸入強化學習網絡,在路徑規(guī)劃智能體動作空間中選擇智能體的下一步動作,得到流道的拐點坐標。若拐點坐標與終點不重合,則智能體繼續(xù)感知環(huán)境,生成新的拐點,直到拐點與終點重合,輸出流道路徑點集。
2 路徑規(guī)劃智能體的狀態(tài)空間構建
狀態(tài)空間指的是智能體在與環(huán)境交互過程中可以獲取的信息集合,是智能體獲取信息、學習和做出決策的基礎。狀態(tài)空間包含沿每個組合方向 (θ,?) 的障礙物距離及終點位置。智能體對環(huán)境的觀測信息矩陣 Obs 表示為:
Obs={Rx′unit,Ry′unit,Rz′mit,Rbarier,Rgoal}
式中: Rx′unit 表示各掃描方向在 x′ 方向上的單位分量構成的矩陣; Ry′unit 表示各掃描方向在 y′ 方向上的單位分量構成的矩陣; Rz′unit 表示各掃描方向在 z′ 方向上的單位分量構成的矩陣; Rbarier 表示各掃描方向上到障礙物的距離構成的矩陣; Rgoal 表示各掃描方向上到終點區(qū)域的距離構成的矩陣。
則智能體的狀態(tài)空間state可表示為:
state={Obs,Nmax,Nnow,Rmin}
式中: Nmax 表示當前任務的智能體最大行動次數,該值與接口的位置有關; Nnow 表示智能體當前的行動次
數; Rmin 表示當前行動的最小前進步長。
3路徑規(guī)劃智能體的動作空間構建
智能體的動作空間指的是智能體可以采取的所有動作的集合。智能體在三維空間內以第一人稱基于球坐標進行運動。運動模型基于球坐標系 C3(θ,? ,R) ,殼體空間基于全局直角坐標系 C1(x,y,z) ,為了將 C3 中的運動轉換為 C1 中的路徑點及路徑向量,引入了與 C3 相對應局部直角坐標系 C2(x′,y′,z′) 及 C2?C1 的坐標轉換矩陣 T ??梢缘玫饺M坐標系的定義:
1)全局坐標系 C1(x,y,z) ,位于坐標原點。
2)局部坐標系 C2(x′,y′,z′) ,位于智能體當前位置, y′ 軸為智能體的當前前進方向, x′ 軸平行于XOY平面。
3)球坐標系 C3(θ,?,R) ,位于智能體當前位置。其中0為 x′y′ 軸的夾角, ? 為 y′z′ 軸的夾角。
基于上述坐標系,對智能體的三個運動維度 (θ ?,R) 的取值進行如下定義: θ 和 ? 為 0°~180° 之間、公差為 5° 的離散角度; R 為大于0小于1的連續(xù)實數。由于智能體的動作最終表現為拐角和前進步長,為了便于計算,將智能體的動作空間簡化為拐角β和步長 R ,其中β為0維度和 ? 維度組合后的方向與前一段油路的夾角。
4流道路徑規(guī)劃的獎勵函數設計
獎勵函數在強化學習過程中主要用于評價當前動作并指導網絡更新。由于本研究中智能體存在多個動作,評分應當充分反映各子動作獨立的評價及其綜合評價,以指導各網絡充分學習經驗。流道評分Rew 的計算方法如下:
式中: i(i=1,…,n) 表示當前輪次的第i次行動; Rewi 為智能體單步獎勵; Rewstep 為步長獎勵; Rewangle 為角度獎勵; Rewstate 為狀態(tài)獎勵; αa,b 均為系數。
Rewstep 用來評價動作 R ,計算方式為:
Rewangle 用來評價組合動作 (θ,?) ,計算方式如下:
Rewangle=|cosβ-0.5|
式中: β 為有效 (θ,?) 組合后的角度。 β 越接近 90° 或0° ,評分越高。
Rewstate 對智能體是否完成任務進行獎勵,計算方式為:
5 路徑規(guī)劃網絡的構建及訓練
路徑規(guī)劃網絡是路徑規(guī)劃智能體的大腦,用來分析狀態(tài)信息,選擇合適的動作。路徑規(guī)劃網絡由FeatureExtractor、DiscreteActor網絡、ContinuesActor網絡及Critic網絡構成,如圖3所示。其中FeatureExtractor用來對狀態(tài)信息進行降維處理,提取關鍵特征;DiscreteActor網絡用來生成離散動作 β ; ContinuesActor網絡用來生成連續(xù)動作 R ;Critic網絡分析動作的評價結果,指導網絡更新[3]。
在完成網絡構建后,對路徑規(guī)劃網絡進行訓練。通過在立方體表面隨機尋找兩個接口的位置,在立方體內部隨機生成障礙物路徑來為智能體的訓練環(huán)境產生隨機性,以保證智能體在各種復雜情況下學會最優(yōu)策略。在訓練20000輪后,智能體的平均每輪獎勵收斂于10左右(圖4);在容量為1000的驗證集上,預測準確率穩(wěn)定在 90% 左右(圖5)。
6 測試及結果分析
樣例的設計空間為一個立方體空間,長 300mm 寬 150mm ,高 150mm ,環(huán)境中包含2個主閥孔(MH)和4個接口,如圖6所示,流道定義信息如表1所示,算法輸出的流道路徑如表2所示。結合特征建模工具,本算法可以將單條流道的設計建模時間壓縮到 10s 以內,與人工設計建模相比,時間縮短了 70% 。
系統(tǒng)輸出的流道骨架如圖7所示,建模后得到的流道模型如圖8所示。以流道1201為例,若沿常規(guī)的直線路徑,則會與1301發(fā)生干涉(圖9),本文算法輸出了非對心的流道路徑,滿足了流道1201與1301之間的最小流道間距約束。
7 結論
本文通過分析液壓舵機殼體流道設計原理及流道建模特征,提出了一套適合強化學習的流道設計模型。通過分析流道及其接口特征,分析了流道路徑規(guī)劃的輸入和輸出,構建了流道路徑規(guī)劃算法的基本流程?;诂F有設計經驗及約束,形成了智能體的動作空間、狀態(tài)空間及評價獎勵函數,搭建了路徑規(guī)劃網絡,實現了舵機殼體流道路徑的快速生成。最終通過實例驗證,設計結果滿足設計要求與設計約束,取得了較好的設計結果。本研究在保證設計質量的前提下,極大地減少了液壓流道路徑的設計工作量,將設計建模時間縮短了 70% 。
[參考文獻]
[1]郭生榮.航空機電系統(tǒng)綜合技術發(fā)展分析[J].航空科學技術,2013(5):5-10.
[2]郭生榮.航空機電系統(tǒng)綜合技術發(fā)展[J].航空精密制造技術,2016,52(1):1-6.
[3]FAN Z,SU R,ZHANG W N,et al.Hybrid Actor-CriticReinforcement Learning in Parameterized ActionSpace[C]//IJCAI'19:Proceedingsofthe 28th Interna-tional Joint Conferenceon Artificial Intelligence,2019:2279-2285.
收稿日期:2025-04-14作者簡介:樊堯(1998一),男,山西大同人,碩士研究生,研究方向:人機與環(huán)境工程。