岑崗 張晨光 岑躍峰 馬偉鋒 趙澄
(1.浙江科技學(xué)院,杭州 310023;2.浙江工業(yè)大學(xué),杭州 310014)
主題詞:永磁同步電機(jī) 溫度預(yù)測 近端策略優(yōu)化算法 強(qiáng)化學(xué)習(xí)
永磁同步電機(jī)是電動汽車和混合動力汽車的核心部件之一,但其負(fù)載能力會受到溫度等因素的影響[1-2]。為保證電機(jī)的安全、穩(wěn)定運行,需要一種有效的溫度預(yù)測方法幫助其提升在溫度方面的抗風(fēng)險能力。
在最近的研究中,Li 等人[3]通過構(gòu)建基于半實物的溫度等效模型實現(xiàn)了電機(jī)的溫度預(yù)測,但該模型不能有效反映電機(jī)的真實運行環(huán)境。Kral 等人[4]構(gòu)建了一種含有2個熱節(jié)點的電機(jī)等效熱傳遞模型,模型本身的溫度估計失真卻無法消除。Abdalla 等人[5]提出了一種永磁同步電機(jī)的集總參數(shù)熱模型(Lumped Parameter Thermal Network,LPTN),該模型能夠?qū)﹄姍C(jī)的各部分溫度進(jìn)行計算。Wallscheid 等人[6]提出了一種永磁同步電機(jī)溫度動態(tài)測量方法,但該方法要求電機(jī)在中、高速條件下運轉(zhuǎn)。蘭志勇等人[7]利用LPTN對永磁同步電機(jī)進(jìn)行了溫度場分析,但對于電機(jī)過熱點的捕捉缺乏優(yōu)化處理。Sciascera 等人[8]提出了一種LPTN 的變異熱模型,相對于原始LPTN的計算量更小、預(yù)測精度更高,但是模型設(shè)計的復(fù)雜度依然很高。劉平等人[9]利用信號注入方法實現(xiàn)了電機(jī)的溫度監(jiān)測,但未給出電機(jī)過載情況下的溫度估計結(jié)果。Wallscheid等人[10]利用磁鏈觀測器實現(xiàn)了永磁同步電機(jī)的永磁體溫度實時預(yù)測,使歐式范數(shù)最壞的情況小于10。杜愛民等人[11]利用有限元分析法建立了電機(jī)的電磁場有限元模型,得到了額定工況下電機(jī)各部件的溫度分布。每個等效熱模型都需要準(zhǔn)確描述電機(jī)運轉(zhuǎn)時的溫度變化特性,這將導(dǎo)致經(jīng)驗豐富的設(shè)計人員需要在電機(jī)的熱模型設(shè)計方面做出更多的努力。
人工智能技術(shù)在許多溫度預(yù)測領(lǐng)域都得到了應(yīng)用。Xu等人[12]提出了一種基于新型深度學(xué)習(xí)的公共建筑室內(nèi)溫度預(yù)測方法,驗證了深度學(xué)習(xí)在室溫預(yù)測上的有效性。Liu等人[13]提出了一種基于時間相關(guān)性的海洋溫度預(yù)測方法,在預(yù)測性能上較支持向量回歸(Support Vector Regression,SVR)和多層感知器回歸(Multilayer Perceptron Regressor,MLPR)均具有更好的表現(xiàn)。Wallscheid 等人[14]將長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)在電機(jī)溫度預(yù)測領(lǐng)域進(jìn)行了首次應(yīng)用,但LSTM記憶塊的引入以構(gòu)建更加復(fù)雜的拓?fù)潢P(guān)系為代價。
針對上述預(yù)測模型或方法存在的問題,本文通過引入近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[15],并利用強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)網(wǎng)絡(luò)完成模型構(gòu)建,實現(xiàn)永磁同步電機(jī)的溫度預(yù)測。
PPO最初應(yīng)用于復(fù)雜智能體機(jī)器人的控制過程,其優(yōu)勢體現(xiàn)在智能體訓(xùn)練的監(jiān)督過程中能夠很容易地實現(xiàn)訓(xùn)練超參數(shù)的調(diào)節(jié)和梯度下降,在訓(xùn)練的每一步迭代中都會更新策略,嘗試將訓(xùn)練目標(biāo)的損失函數(shù)最小化,同時保證相鄰2 次迭代產(chǎn)生的策略不會產(chǎn)生較大的偏差。PPO算法的目標(biāo)函數(shù)L(θ)為:
式中,ε為算法的超參數(shù);rt(θ)=πθ(at|st)/πθold(at|st)為新策略與舊策略的比值;為策略更新后相對于舊策略的優(yōu)勢值,此處采用Crtic 網(wǎng)絡(luò)的預(yù)測偏差表示;為平均值計算函數(shù);C為截斷函數(shù),用來限制rt(θ)的更新范圍;πθ(at|st)為更新后的策略;πθold(at|st)為舊策略;at、st分別為t時刻的動作和狀態(tài)值。
目標(biāo)函數(shù)L(θ)中,第1 部分是rt(θ)和的乘積,第2部分是將rt(θ)在區(qū)間[1-ε,1+ε]進(jìn)行截斷后與的乘積,最終得到未截斷目標(biāo)和截斷目標(biāo)中的最小值。此處,選取Actor 網(wǎng)絡(luò)的損失誤差作為PPO 的目標(biāo)函數(shù),通過最小化該目標(biāo)函數(shù)實現(xiàn)電機(jī)溫度的準(zhǔn)確預(yù)測。
為了實現(xiàn)電動汽車永磁同步電機(jī)主要部件溫度的準(zhǔn)確預(yù)測,考慮將強(qiáng)化學(xué)習(xí)通用的Actor-Critic 學(xué)習(xí)框架[16]作為本文預(yù)測網(wǎng)絡(luò)的基礎(chǔ)。Actor-Critic 兼?zhèn)淞薃ctor-Only 和Critic-Only 的優(yōu)點,能夠在訓(xùn)練過程的梯度更新中獲得更好的估計量,改善局部優(yōu)化問題,圖1給出了該學(xué)習(xí)框架的一般結(jié)構(gòu)。
圖1 Actor-Critic框架
Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)是該框架的主要組成部分,交互環(huán)境中的狀態(tài)值來自永磁同步電機(jī)的記錄數(shù)據(jù)集,動作值對狀態(tài)值的動態(tài)選取是模型訓(xùn)練的基礎(chǔ)。模型的預(yù)測結(jié)果由Actor網(wǎng)絡(luò)給出,同時Critic網(wǎng)絡(luò)給出預(yù)測結(jié)果優(yōu)劣的判斷,并將判斷結(jié)果通過值函數(shù)反饋到Actor網(wǎng)絡(luò)進(jìn)行梯度更新策略調(diào)整,因此Critic網(wǎng)絡(luò)在預(yù)測過程中對Actor網(wǎng)絡(luò)的反饋顯得尤為重要。網(wǎng)絡(luò)的梯度優(yōu)化由Nadam算法實現(xiàn),而迭代過程的獎勵值在每一次策略更新時均會進(jìn)行疊加,可進(jìn)一步反映訓(xùn)練的優(yōu)劣。
電動汽車永磁同步電機(jī)溫度預(yù)測模型如圖2 所示,Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)分別含有1 層輸入層和1 層輸出層,hi(i=1,2,…,5)為隱含層。圖2 中,θ和θold分別為Critic 網(wǎng)絡(luò)關(guān)于預(yù)測值和真實目標(biāo)值的映射關(guān)系。
模型中各隱含層的定義方法為:
式中,xt為t時刻的輸入數(shù)據(jù)矩陣;wi、bi、hi(i=1,2,…,5)分別為網(wǎng)絡(luò)各隱含層的權(quán)重、偏置和隱含層;wout、bout分別為網(wǎng)絡(luò)輸出層的權(quán)重和偏置;ot為網(wǎng)絡(luò)在t時刻的最終輸出;r函數(shù)為relu激活函數(shù)。
圖2 基于PPO-RL的電機(jī)溫度預(yù)測模型
設(shè)每次訓(xùn)練輸入批次數(shù)量為N,預(yù)測過程如下:
a.根據(jù)式(1)確定訓(xùn)練模型的損失目標(biāo)函數(shù),該目標(biāo)函數(shù)中的和rt(θ)分別為:
式中,yt為真實目標(biāo)值。
b.根據(jù)圖2 建立溫度預(yù)測模型,其Actor 網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)共享5層隱含層,且第1~5層網(wǎng)絡(luò)神經(jīng)元數(shù)量分別為512個、256個、128個、64個和32個,均使用relu函數(shù)作為激活函數(shù)。設(shè)輸出層神經(jīng)元數(shù)量為1個。
c.取步長為5,依次選取5×Nn(Nn為輸入特征數(shù)量)的輸入序列作為模型的輸入數(shù)據(jù),來預(yù)測下一時刻的目標(biāo)值,通過選取步長為5,可以有效避免數(shù)據(jù)集中失真對預(yù)測精度的影響,降低預(yù)測誤差,本文模型的輸入特征數(shù)量為14 個。在逐次迭代訓(xùn)練過程中,根據(jù)每一步更新得到的和rt(θ)計算模型訓(xùn)練的目標(biāo)L(θ)。
d.為了加速目標(biāo)函數(shù)收斂,使梯度更快地達(dá)到全局極小值,利用Nadam 算法對訓(xùn)練的梯度進(jìn)行優(yōu)化更新。該算法相比于Adam 算法引入了t時刻梯度gt的校正量,并引入一階矩估計mt的平均值替換其修正量用于計算更新后的梯度Δθt:
式中,ui為i時刻的一階矩估計的動量因子;η為Nadam算法學(xué)習(xí)率;為t時刻梯度的二階矩估計的校正量;ξ為接近于0但不為0的正數(shù)。
e.利用訓(xùn)練好的預(yù)測模型進(jìn)行測試集的預(yù)測驗證,最終獲得模型的預(yù)測輸出值。
在預(yù)測試驗中,選擇合適的評價標(biāo)準(zhǔn)能夠更直觀地體現(xiàn)預(yù)測方法的性能表現(xiàn)。在許多經(jīng)典的預(yù)測研究中,常采用均方根誤差(Root Mean Square Error,RMSE)和平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為預(yù)測方法的定量評價指標(biāo)[17]:
式中,R、M分別為均方根誤差和平均絕對百分比誤差;Rj為真實數(shù)據(jù);Pj為預(yù)測的目標(biāo)溫度;n為測試數(shù)據(jù)量。
為了全面評估不同方法的預(yù)測表現(xiàn),僅使用上述評價指標(biāo)是遠(yuǎn)遠(yuǎn)不夠的。范數(shù)具有長度的概念,在矢量空間中被描述為一個從原點出發(fā)的帶有箭頭的有向線段,可用于衡量向量的大小。本文通過引入歐幾里得2 范數(shù)L2和最壞情況無窮范數(shù)L∞,可以討論預(yù)測結(jié)果的逼近程度,進(jìn)一步對不同方法的預(yù)測表現(xiàn)進(jìn)行評估:
此外,采用擬合優(yōu)度R2來計算預(yù)測結(jié)果的精度:
式中,T為真實數(shù)據(jù);P為預(yù)測值。
試驗使用的基準(zhǔn)數(shù)據(jù)來自Kaggle 數(shù)據(jù)科學(xué)競賽平臺,數(shù)據(jù)測量和收集工作由德國帕德博恩大學(xué)電力電子與電氣傳動系(LEA Department of Power Electronics and Electrical Drives)完成,且基準(zhǔn)數(shù)據(jù)已規(guī)范化處理?;鶞?zhǔn)數(shù)據(jù)標(biāo)簽包括環(huán)境溫度Ka、冷卻液溫度Kc、電壓d軸分量ud、電壓q軸分量uq、電流d軸分量id、電流q軸分量iq、電機(jī)轉(zhuǎn)速nmech、扭矩Tm、永磁體溫度Kpm、定子軛溫度Ksy、定子齒溫度Kst、定子繞組溫度Ksw和唯一ID 標(biāo)識Sid。測試目標(biāo)包括定子軛溫度Ksy、定子齒溫度Kst和定子繞組溫度Ksw。基準(zhǔn)數(shù)據(jù)共包含52 個測量會話,每個測量會話可通過Sid加以區(qū)分,所有測量記錄均以2 Hz的采樣頻率在安裝三相永磁同步電機(jī)的測試臺上完成。
基準(zhǔn)數(shù)據(jù)中的測量序列基本涵蓋了永磁同步電機(jī)電熱變化的完整過程。但為節(jié)約計算成本,同時覆蓋電熱變化全部范圍,本文按照基準(zhǔn)數(shù)據(jù)中每個測試會話的數(shù)據(jù)量平均分配30 000 條測試樣本進(jìn)行采樣,并選取300條樣本作為測試數(shù)據(jù)集,剩余樣本作為訓(xùn)練數(shù)據(jù)集。
在上述數(shù)據(jù)集基礎(chǔ)上,考慮部分額外特征量,包括以d-q坐標(biāo)系為基準(zhǔn)的電壓分量的合成電壓us、以d-q坐標(biāo)系為基準(zhǔn)的電流分量的合成電流is和電機(jī)功率Sel:
本文實際輸入的特征需要除去Sid和擬合目標(biāo),因此實際的輸入為1個含有14個特征量的張量。
使用64 位Windows 10 操作系統(tǒng),計算機(jī)配置為3.4 GHz Intel Core i5 處理器,16 GB 內(nèi)存。編譯環(huán)境為Spyder 3.3.4,Tensorflow 1.13.1框架。
表1列出了試驗過程中考慮的一些超參數(shù),包括循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、LSTM、PPO-RL 和指數(shù)移動加權(quán)平均(Exponentially Weighted Moving Averages,EWMA)4種預(yù)測方法。
表1 超參數(shù)
除表1中能夠自我解釋的參數(shù)類型外,未具體提及的超參數(shù)應(yīng)當(dāng)被解釋如下:預(yù)測網(wǎng)絡(luò)在進(jìn)行權(quán)重初始化時,最簡單的方法是將權(quán)重的值隨機(jī)分配到[-1,1]區(qū)間。當(dāng)然,一些更為復(fù)雜有效的權(quán)重初始化方法也可以考慮,如單位正態(tài)分布或均勻分布。
利用測試樣本進(jìn)行測試,比較EWMA 網(wǎng)絡(luò)、RNN、LSTM網(wǎng)絡(luò)和本文預(yù)測方法對Ksy、Kst以及Ksw的擬合性能。
為了驗證本文所提出的預(yù)測方法的可行性,分別采用上述4種方法進(jìn)行30次訓(xùn)練迭代試驗,得出各預(yù)測網(wǎng)絡(luò)的預(yù)測精度、訓(xùn)練時間和預(yù)測時間如表2所示。從表2可以看出,PPO-RL網(wǎng)絡(luò)的訓(xùn)練時長較長,其預(yù)測時間較LSTM 增加了0.27 min,這是由于其網(wǎng)絡(luò)深度較深造成的,而且該網(wǎng)絡(luò)的神經(jīng)元節(jié)點數(shù)量最高達(dá)到了512個,這也表明PPO-RL網(wǎng)絡(luò)具有較高的時間復(fù)雜度。
表2 定子軛溫度預(yù)測精度和訓(xùn)練時間對比
定子軛溫度迭代損失變化情況如圖3 所示,由圖3可以看出,在迭代周期為10次時,定子軛溫度迭代的損失曲線趨于水平,說明模型能夠?qū)崿F(xiàn)穩(wěn)定的擬合。
圖3 定子軛溫度迭代損失變化曲線
圖4給出了4種預(yù)測方法對Ksy的擬合曲線。由圖4可知,在幾種預(yù)測方法中,LSTM網(wǎng)絡(luò)擬合的曲線存在較大波動,與真實目標(biāo)值偏差較大,而使用PPO-RL 模型得到的預(yù)測曲線能較好地符合目標(biāo)曲線的走勢。
圖4 定子軛溫度擬合曲線對比
4 種預(yù)測方法對定子齒溫度預(yù)測的精度和訓(xùn)練時間如表3 所示,迭代損失變化情況如圖5 所示。由表3可知,雖然PPO-RL 訓(xùn)練花費了較長的時間,但是在迭代訓(xùn)練30次后,PPO-RL的預(yù)測精度仍能保持在90%以上,并且由圖5可以看出,在迭代次數(shù)達(dá)到5次時,定子齒溫度即可實現(xiàn)較好的擬合效果。
圖6 給出了4 種預(yù)測方法關(guān)于定子齒溫度Kst的擬合曲線。由圖6可知,EWMA方法給出的預(yù)測目標(biāo)曲線雖然在走勢上與真實值曲線大致相同,但由于其自身伴隨有較大的時延特性,因此難以為實時的永磁同步電機(jī)溫度預(yù)測提供合適的觀測點,PPO-RL模型在幾種對比方法中依然具有較好的預(yù)測性能。
表3 定子齒溫度預(yù)測精度和訓(xùn)練時間對比
圖5 定子齒溫度迭代損失變化曲線
圖6 定子齒擬合曲線對比
表4所示為4種預(yù)測網(wǎng)絡(luò)對定子繞組溫度的預(yù)測精度、訓(xùn)練時間以及預(yù)測時間對比結(jié)果。由表4 可知,PPO-RL 的預(yù)測時間達(dá)到了0.30 min,其預(yù)測精度為92.05%,并且該精度較LSTM和RNN的預(yù)測精度分別高出4.63百分點和8.43百分點。同時,其迭代的損失變化曲線如圖7所示,由圖7可以看出,PPO-RL在迭代30次后,能夠得到較好的擬合性能。
圖8 所示為4 種預(yù)測方法對定子繞組溫度Ksw的預(yù)測曲線。由圖6 和圖8 可知,在預(yù)測目標(biāo)Kst和Ksw的擬合曲線上,LSTM網(wǎng)絡(luò)和RNN在預(yù)測開始時能夠基本符合真實的目標(biāo)曲線趨勢,但結(jié)束時卻存在較大的偏差。而在針對本文試驗的3 個預(yù)測目標(biāo)進(jìn)行測試的過程中,PPO-RL擬合的目標(biāo)溫度曲線均表現(xiàn)出了較小的偏差。
表4 定子繞組溫度預(yù)測精度和訓(xùn)練時間對比
圖7 定子繞組溫度迭代損失變化曲線
圖8 定子繞組擬合曲線對比
為了進(jìn)一步對比不同預(yù)測網(wǎng)絡(luò)的溫度預(yù)測性能,表5、表6和表7分別給出了針對Ksy、Ksw以及Kst的定量評價指標(biāo),其中包括R、M、2范數(shù)和無窮范數(shù)。
表5 定子軛溫度預(yù)測誤差對比
表5 結(jié)果表明,PPO-RL 在4 種定量分析指標(biāo)中均處于最低值。在相同的條件下,LSTM在Ksy的溫度預(yù)測方面沒有表現(xiàn)出明顯的優(yōu)勢,甚至在4種預(yù)測網(wǎng)絡(luò)中的表現(xiàn)最差。進(jìn)一步可以發(fā)現(xiàn),EWMA 預(yù)測方法的預(yù)測性能似乎超過了經(jīng)典的LSTM和RNN。
表6 定子繞組溫度預(yù)測誤差對比
表7 定子齒溫度預(yù)測誤差對比
由表6可知,PPO-RL相比其他3種方法整體上表現(xiàn)出良好的優(yōu)勢,PPO-RL 在4 種評估指標(biāo)上均達(dá)到最低值,且其MAPE 與LSTM 和RNN 相比分別降低0.136 0%和0.645 2%,同時其無窮范數(shù)減少到接近LSTM的一半。
由表7 可知,PPO-RL 在Kst預(yù)測方面相比其他3 種網(wǎng)絡(luò)具有更低的預(yù)測誤差,其2 范數(shù)的值達(dá)到0.755 9,相比LSTM降低了0.459 2,在一定程度上表明其預(yù)測性能優(yōu)于其他3 種經(jīng)典預(yù)測方法。值得注意的是,LSTM網(wǎng)絡(luò)雖然在預(yù)測Ksw和Kst時誤差值較RNN 和EWMA 明顯降低,但其在預(yù)測Ksy時卻達(dá)到了最大預(yù)測誤差。
本文借鑒了近端策略優(yōu)化算法對目標(biāo)函數(shù)裁剪的方法,構(gòu)建了一種結(jié)合Actor-Critic 模型的永磁同步電機(jī)溫度預(yù)測模型。模型利用Actor 網(wǎng)絡(luò)實現(xiàn)數(shù)據(jù)集的訓(xùn)練學(xué)習(xí),并采用Critic 網(wǎng)絡(luò)的值函數(shù)反饋判斷模型訓(xùn)練的優(yōu)劣,通過30次迭代訓(xùn)練,使PPO的目標(biāo)函數(shù)達(dá)到最小值,并對基準(zhǔn)數(shù)據(jù)集進(jìn)行采樣和處理后,進(jìn)行預(yù)測驗證。將該預(yù)測方法與其他3 種經(jīng)典預(yù)測方法進(jìn)行對比分析,驗證了提出方法的有效性。