陳衛(wèi)衛(wèi),李 鑫,時(shí)林林,俞鵬飛
(1.中國電子科技集團(tuán)公司電子科學(xué)研究院 一體化保障系統(tǒng)研究所,北京 100041;2.工業(yè)和信息化部電子第五研究所 電子元器件可靠性物理及應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州 510610)
故障預(yù)測與健康管理(PHM,prognostic and health management)現(xiàn)已成為軍事系統(tǒng)實(shí)現(xiàn)高效系統(tǒng)級維護(hù)和降低壽命周期成本的關(guān)鍵因素之一。早在20世紀(jì)70年代,美軍就開始關(guān)注到武器裝備的故障診斷和預(yù)測的重要軍事意義,并大力推廣基于狀態(tài)的維修(CBM,condition based maintenance),即“視情維修”。他們強(qiáng)調(diào)要在武器裝備的研制初期就要充分考慮裝備的測試性和維修性,要求裝備研制與故障診斷和預(yù)測能力同步設(shè)計(jì),然后通過獲取武器裝備的技術(shù)狀態(tài)信息作為對裝備進(jìn)行保障的決策依據(jù)。2002年11月,負(fù)責(zé)后勤和物資準(zhǔn)備的美國國防部副部長發(fā)布了一項(xiàng)名為“基于狀態(tài)的維修增強(qiáng)”(CBM+)的政策。CBM+代表了將新系統(tǒng)和舊系統(tǒng)的非計(jì)劃修復(fù)性設(shè)備維護(hù)轉(zhuǎn)變?yōu)榛诒匾C據(jù)安排預(yù)防性維護(hù)和預(yù)測性維護(hù)的努力。2005年,一項(xiàng)對11個(gè)CBM項(xiàng)目的調(diào)查突出了將“電子產(chǎn)品故障預(yù)測”作為最需要的維修相關(guān)特性或應(yīng)用之一,而不考慮成本,這一觀點(diǎn)也得到了航空電子行業(yè)的認(rèn)同。美國國防部5000.2《國防采辦政策文件》規(guī)定,“項(xiàng)目經(jīng)理應(yīng)通過負(fù)擔(dān)得起的集成的嵌入式診斷和預(yù)測、嵌入式培訓(xùn)和測試、序列化物資管理、自動(dòng)識(shí)別技術(shù)和迭代技術(shù)更新,優(yōu)化戰(zhàn)備狀態(tài)”。因此,任何出售給美國國防部的系統(tǒng)都需要具備故障預(yù)測能力[1]。
故障預(yù)測與健康管理,是指通過傳感器、內(nèi)建自測試(BIT)等方式監(jiān)測各種參數(shù),并實(shí)時(shí)評估和預(yù)測產(chǎn)品或裝備在實(shí)際環(huán)境中的可靠性。它包括兩層含義:1)參數(shù)監(jiān)測,即對裝備的性能參數(shù)或工作載荷的在線/離線監(jiān)測;2)健康評估,即持續(xù)評估裝備是否存在退化以及退化狀態(tài),確定裝備能正常工作的時(shí)間。健康狀態(tài)的實(shí)時(shí)感知代表了一種方法的轉(zhuǎn)變,即借助各種先進(jìn)傳感與監(jiān)測技術(shù),實(shí)現(xiàn)裝備狀態(tài)參數(shù)信息的全面感知,并基于失效物理分析、智能推理算法等方法完成對裝備健康狀態(tài)的評估和預(yù)測,從而一方面促進(jìn)裝備從傳統(tǒng)的基于事件的維修向基于狀態(tài)(視情)維修的轉(zhuǎn)變,另一方面促進(jìn)裝備的智能化。
PHM技術(shù)的第一個(gè)成功案例是美國F-35飛機(jī)的自主式保障系統(tǒng)。該系統(tǒng)通過對健康狀態(tài)參數(shù)的監(jiān)控,在低虛警率的故障預(yù)測技術(shù)的支持下實(shí)現(xiàn)了故障隔離、健康趨勢預(yù)測和維修決策輔助,大幅提高了飛機(jī)的戰(zhàn)略值勤能力,并降低了維護(hù)維修成本。經(jīng)過前期大量的基礎(chǔ)研究和應(yīng)用推廣,目前故障預(yù)測與健康管理技術(shù)已經(jīng)從方案設(shè)計(jì)階段發(fā)展到工程驗(yàn)證階段。從國內(nèi)外公開發(fā)表的資料看,故障預(yù)測與健康管理系統(tǒng)應(yīng)用已經(jīng)遍及航空、航天、艦船、汽車、橋梁、重型機(jī)械、工業(yè)過程、半導(dǎo)體制造、核電站、大型水壩等眾多領(lǐng)域。
故障預(yù)測是PHM技術(shù)的重點(diǎn)和難點(diǎn)。故障預(yù)測模型是基于相關(guān)敏感參數(shù)的時(shí)間相關(guān)數(shù)據(jù),通過擬合、回歸、預(yù)測等方式,結(jié)合故障/失效閾值,預(yù)測故障/失效的發(fā)生趨勢。如果可以評估電子設(shè)備相對于預(yù)期正常工作狀態(tài)時(shí)的偏離或退化程度,則能夠利用這些此信息來實(shí)現(xiàn)以下目標(biāo),即(a)提供故障預(yù)警;(b)減少非計(jì)劃維修,延長維護(hù)周期,并通過及時(shí)維護(hù)來保持效能;(c)通過降低檢查成本、停機(jī)時(shí)間和庫存?zhèn)浼斫档驮O(shè)備的壽命周期成本;(d)提高質(zhì)量,并協(xié)助對已部署和未來新研系統(tǒng)設(shè)計(jì)和后勤保障。
故障預(yù)測從基本技術(shù)路徑上可分為基于模型的故障預(yù)測和基于數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(不含融合方法)[2]。基于模型的故障預(yù)測是將失效物理結(jié)合起來,并量化各種負(fù)載和運(yùn)行條件下的退化過程特征?;谖锢淼慕】翟u估方法可以分為PoF方法和系統(tǒng)建模方法兩種。通常,PoF模型是特定于系統(tǒng)/組件的,例如裂紋擴(kuò)展模型、旋轉(zhuǎn)機(jī)械模型、磨損模型、氣體路徑模型和電化學(xué)模型。PoF方法核心是監(jiān)測可能導(dǎo)致性能或物理退化的壽命周期載荷和相關(guān)的系統(tǒng)響應(yīng),然后從退化特征變量中提取特征,使用PoF模型進(jìn)行損傷評估和RUL計(jì)算。系統(tǒng)建模方法假設(shè)系統(tǒng)可以由一個(gè)模型來描述,該模型可以說明系統(tǒng)過度退化的隨機(jī)行為。例如狀態(tài)空間模型可以將一個(gè)物理系統(tǒng)轉(zhuǎn)化為一組與一階微分方程相關(guān)的輸入、輸出和狀態(tài)變量。在失效評估數(shù)學(xué)模型可用的情況下,估計(jì)和濾波技術(shù)是系統(tǒng)建模方法中使用的主要工具,例如Kalman濾波器(KF)、擴(kuò)展Kalman濾波器(EKF)、集合Kalman濾波器、無損Kalman濾波器(UKF)、粒子濾波器(PF)和基于狀態(tài)觀測器的方法等?;谖锢矸椒?包括PoF方法和系統(tǒng)建模方法)的局限性主要在于模型通常是特定于某個(gè)對象的,因此其可重用性是有限的。數(shù)據(jù)驅(qū)動(dòng)方法用于識(shí)別當(dāng)前退化狀態(tài)的特征,并在很少的物理理解可用時(shí),使用可用的歷史數(shù)據(jù)(監(jiān)測數(shù)據(jù))預(yù)測未來健康狀態(tài)。目前,基于數(shù)據(jù)驅(qū)動(dòng)的方法主要分為機(jī)器學(xué)習(xí)(ML)/人工智能(AI)和統(tǒng)計(jì)建模兩種。其中,機(jī)器學(xué)習(xí)作為計(jì)算機(jī)科學(xué)和人工智能的一個(gè)分支,旨在建立能夠從數(shù)據(jù)中學(xué)習(xí)的系統(tǒng),而不是顯式的程序設(shè)計(jì)結(jié)構(gòu)。而統(tǒng)計(jì)建模是數(shù)學(xué)的一個(gè)分支,它用來發(fā)現(xiàn)變量之間的關(guān)系以評估結(jié)果。數(shù)據(jù)驅(qū)動(dòng)方法的特點(diǎn)是直接從可用數(shù)據(jù)導(dǎo)出模型,依賴于統(tǒng)計(jì)特征,相當(dāng)于“黑盒模型”。因此,識(shí)別這些特征是開發(fā)數(shù)據(jù)驅(qū)動(dòng)方法的關(guān)鍵過程?;跀?shù)據(jù)驅(qū)動(dòng)的方法有兩個(gè)主要優(yōu)點(diǎn):第一個(gè)是獲取方便,這些模型可以簡單地量化時(shí)間和退化狀態(tài)之間的關(guān)系,而不需要或只需要極少關(guān)于系統(tǒng)的知識(shí),實(shí)現(xiàn)成本低。另一個(gè)是性能的提高,通過使用強(qiáng)大的機(jī)器學(xué)習(xí)技術(shù),數(shù)據(jù)驅(qū)動(dòng)方法可以在很大程度上減少模型錯(cuò)誤。有時(shí),這些模型會(huì)拓寬認(rèn)知復(fù)雜性退化過程。
目前在故障預(yù)測體系架構(gòu)、故障模型、故障預(yù)測方法、PHM系統(tǒng)集成等方面都取得了一些研究成果,不少研究成果已經(jīng)得到不同程度的工程應(yīng)用。但在電子設(shè)備的故障預(yù)測方面,想要準(zhǔn)確預(yù)測其使用壽命難度還是很大,目前針對電子產(chǎn)品主要采用狀態(tài)監(jiān)控和健康管理,主要實(shí)現(xiàn)狀態(tài)的預(yù)測,隨著工業(yè)部門開始關(guān)注零部件故障模式與機(jī)理分析,并積累大量失效數(shù)據(jù)后,對故障的預(yù)測能力將會(huì)大大增強(qiáng)。
通過對國內(nèi)外文獻(xiàn)調(diào)研,常用的預(yù)測方法包括時(shí)間序列法、灰色模型(G11和G21)、自回歸滑動(dòng)平均模型ARMA、指數(shù)模型、LSTM(long short-tern memory network,長短時(shí)記憶網(wǎng)絡(luò))、高階回歸、線性模型、二次模型、多參數(shù)融合模型、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度前饋神經(jīng)網(wǎng)絡(luò),門控單元網(wǎng)絡(luò)等[3-6]。針對分析對象的復(fù)雜性,也有混合算法模型,包括LSTM-BP網(wǎng)絡(luò)模型[7],BP-LM-PSO-GA[8]模型,LSSVM-HMM[9]等,不同算法特點(diǎn)不同,適用的信號類型也不同。
在分析大規(guī)模數(shù)據(jù)時(shí),相比于支持向量機(jī)模型和BP神經(jīng)網(wǎng)絡(luò)模型,具有記憶功能的人工遞歸/循環(huán)神經(jīng)網(wǎng)絡(luò)(如長短時(shí)記憶神經(jīng)網(wǎng)絡(luò))具有較大的優(yōu)勢[10],因此本文采用長短時(shí)記憶網(wǎng)絡(luò)(LSTM,long short-tern memory network)對綜合射頻模塊的溫度進(jìn)行狀態(tài)預(yù)測,并給出預(yù)測的準(zhǔn)確度。
LSTM是改進(jìn)版的循環(huán)神經(jīng)網(wǎng)絡(luò),通過在隱含層增加三個(gè)控制開關(guān)分別是來克服常規(guī)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural network)處理較長序列時(shí)的梯度爆炸或梯度消失的問題[11-12]。因此利用循環(huán)神經(jīng)網(wǎng)絡(luò),基于時(shí)域監(jiān)測數(shù)據(jù)進(jìn)行的復(fù)雜故障預(yù)測具有一定的優(yōu)勢[13]。長短時(shí)記憶網(wǎng)絡(luò)是一種特殊結(jié)構(gòu)的RNN,可以實(shí)現(xiàn)學(xué)習(xí)長時(shí)間的依賴[14]。使用LSTM網(wǎng)絡(luò),可以輕松實(shí)現(xiàn)當(dāng)任務(wù)僅需要查看當(dāng)前時(shí)間點(diǎn)信息的時(shí)候,就不需要額外提供其他時(shí)間點(diǎn)的信息,這樣就能夠當(dāng)預(yù)測的目標(biāo)點(diǎn)與其相關(guān)的上文信息的點(diǎn)的間隔較小的時(shí)候,RNN網(wǎng)絡(luò)可以有效的利用過去的知識(shí)。
圖1為LSTM結(jié)構(gòu)圖[15],LSTM與RNN具有一致的鏈?zhǔn)浇Y(jié)構(gòu),但其重復(fù)的模塊卻有著明顯不同。LSTM關(guān)鍵位置在于單元,順著傳遞線從起始到末尾運(yùn)行,中間存在線性的交互,信息可以直接順著它傳遞而不改變。LSTM利用門(gate)的結(jié)構(gòu)來對每個(gè)單元添加或丟棄信息。LSTM網(wǎng)絡(luò)的單元具有三種類型的門:遺忘門、輸入門和狀態(tài)門。其中最關(guān)鍵的就是遺忘門,這三個(gè)門通過下面的三個(gè)函數(shù)來控制信息的流入和流出(或者說是通過和不通過)。
圖1 LSTM結(jié)構(gòu)圖
ft=σ(WfXt+bf)
it=σ(WiXt+bi)
ft=σ(WoXt+bo)
(1)
其中:σ(·)為網(wǎng)絡(luò)的輸出sigmoid激活函數(shù)。激活函數(shù)選用sigmoid使得趨近于0的時(shí)候無法正常通過,而接近1時(shí)則可以通過該門,因此網(wǎng)絡(luò)的輸出取決于當(dāng)前信息本身。
設(shè)當(dāng)前時(shí)刻為t,則狀態(tài)St=ftSt - 1+itXt與傳統(tǒng)的RNN:st=Wx·xt+Ws·st -1+b1相似,將LSTM網(wǎng)絡(luò)的狀態(tài)表達(dá)式展開后可以得到:
St=σ(WfXt+bf)St - 1+σ(WiXt+bi)Xt
(2)
經(jīng)過激活函數(shù)之后,有:
St=tanh[σ(WfXt+bf)St - 1+σ(WiXt+bi)Xt]
(3)
求偏導(dǎo)數(shù),可以知道,LSTM網(wǎng)絡(luò)具有與上文中類似RNN的一項(xiàng),但在LSTM中該項(xiàng)為:
(4)
令H=tanh’(x)σ(y),那么H的函數(shù)圖像如圖2所示。
圖2 H函數(shù)圖像
從圖2顯而易見,這個(gè)函數(shù)值基本上只有0和1,而正因?yàn)檫@個(gè)偏導(dǎo)數(shù)的乘積只會(huì)分布在0和1上,LSTM可以就此解決了傳統(tǒng)RNN中梯度消失的問題。
機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)(supervised learning)、無有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等類型。有監(jiān)督學(xué)習(xí)是指從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù)(模型參數(shù)),當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)這個(gè)函數(shù)預(yù)測結(jié)果[16-17]。有監(jiān)督學(xué)習(xí)的訓(xùn)練集要求包括輸入輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是由人標(biāo)注的。LSTM是一種有監(jiān)督學(xué)習(xí)[18]。就處理時(shí)間序列而言,可以將LSTM用于1對于1,多對1和多對多等場景。為利用LSTM的在時(shí)間序列的記憶特性,本文采用多對1的方式對設(shè)備的時(shí)域特征數(shù)據(jù)進(jìn)行建模。設(shè)備的時(shí)域特征信號在數(shù)據(jù)上表現(xiàn)為一列或一行和時(shí)間變量相關(guān)的時(shí)序參數(shù)集,表面上看和有監(jiān)督學(xué)習(xí)的處理方式有一定差距。所以在利用設(shè)備的故障數(shù)據(jù)特征建立LSTM模型之前,需要將設(shè)備的時(shí)域特征數(shù)據(jù)轉(zhuǎn)換為有監(jiān)督的樣本數(shù)據(jù)集。以時(shí)滯△t個(gè)時(shí)間單位為例,設(shè)備的特征時(shí)間序列構(gòu)建以t+△t的數(shù)據(jù)為一個(gè)feature,作為模型的輸入值,而下一時(shí)刻t′數(shù)據(jù)為label作為預(yù)測值,可形成一個(gè)故障特征的時(shí)間序列窗口。而后,此窗口每向后滑動(dòng)一個(gè)時(shí)間單位,如從t到t+1就形成一個(gè)新的特征時(shí)間序列記錄。在該記錄中,模型的featrue是t+△t+1內(nèi)的數(shù)據(jù),label是t′+1的數(shù)據(jù),按此機(jī)制構(gòu)建設(shè)備的故障表征參數(shù)的時(shí)間序列,即可形成用于設(shè)備LSTM建模的有監(jiān)督的樣本數(shù)據(jù)集。假定Δt=6,樣本集中樣本的個(gè)數(shù)為11,圖3描述設(shè)備LSTM預(yù)測參數(shù)建模樣本構(gòu)造過程。
圖3 LSTM壽命參數(shù)建模樣本構(gòu)造示意圖
將時(shí)間序列樣本集作為監(jiān)測參數(shù)的原始參數(shù)集,將原始參數(shù)集分為訓(xùn)練集和測試集,一部分為訓(xùn)練數(shù)據(jù),一部分為預(yù)測數(shù)據(jù)。
建立LSTM深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),LSTM網(wǎng)絡(luò)架構(gòu)包含1個(gè)輸入特征維數(shù)和1個(gè)輸出特征維數(shù),該深度學(xué)習(xí)模型的網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、lstm層、全連接層和回歸層共四層網(wǎng)絡(luò)構(gòu)成。其中l(wèi)stm隱含層包含200個(gè)神經(jīng)網(wǎng)絡(luò)單元。
設(shè)置LSTM訓(xùn)練參數(shù),包括參數(shù)最大迭代次數(shù)、梯度閾值、初始學(xué)習(xí)率、學(xué)習(xí)率框架設(shè)置、學(xué)習(xí)率衰落周期、衰落因子等。
基于前述步驟設(shè)置的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練參數(shù),開始LSTM網(wǎng)絡(luò)訓(xùn)練,得到用于綜合射頻模塊溫度時(shí)間序列預(yù)測的LSTM模型。
用預(yù)測集進(jìn)行驗(yàn)證,采用公式5計(jì)算預(yù)測的總體誤差,并獲得預(yù)測值與觀測值誤差曲線。
(5)
依托某核心電子系統(tǒng)的驗(yàn)證與應(yīng)用項(xiàng)目,開展某大型信息系統(tǒng)的狀態(tài)監(jiān)控集成聯(lián)試,涵蓋芯片,模塊及系統(tǒng)。
本案例中以雷達(dá)綜合射頻的數(shù)字陣列模塊(DAM,digital array module)作為研究對象,DAM的溫度作為敏感參數(shù),其陣列的溫度變化可反映出其FPGA芯片的退化情況。以溫度的時(shí)間序列為例,建立機(jī)器學(xué)習(xí)模型對其溫度的狀態(tài)變化過程進(jìn)行預(yù)測,判斷溫度的變化趨勢,預(yù)測未來一段時(shí)間內(nèi)DAM陣列溫度的變化規(guī)律。
實(shí)時(shí)監(jiān)控其溫度參數(shù),該樣本數(shù)據(jù)呈現(xiàn)隨機(jī)振蕩但總體趨勢為遞升,以此規(guī)律進(jìn)行數(shù)據(jù)模擬,獲得原始數(shù)據(jù)集共計(jì)10 000條。圖4為DAM陣列溫度的10 000條樣本數(shù)據(jù)的變化曲線圖,將模型訓(xùn)練數(shù)據(jù)設(shè)置為95%的序列長度,即包含9 500個(gè)數(shù)據(jù)樣本,模型預(yù)測集的長度為500個(gè)數(shù)據(jù)樣本。從而根據(jù)DAM陣列溫度的時(shí)間序列長度,預(yù)測未來500個(gè)時(shí)間單位的DAM陣列溫度值。
圖4 DAM陣列溫度變化
為建立正確的LSTM網(wǎng)絡(luò)的模型,需要熟悉LSTM網(wǎng)絡(luò)的一些主要模型參數(shù)。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。一般的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN容易出現(xiàn)梯度爆炸/梯度消失問題。在神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,工作原理是從輸出層到輸入層,并在此過程中傳播誤差梯度。一旦算法計(jì)算出代價(jià)函數(shù)相對于網(wǎng)絡(luò)中每個(gè)參數(shù)的梯度,就可以使用這些梯度以梯度下降步驟來更新每個(gè)參數(shù)[19]。這種方式在用鏈?zhǔn)角髮?dǎo)規(guī)律計(jì)算各層梯度時(shí)涉及一些聯(lián)合操作。隨著算法向下傳播到較低層,梯度通常會(huì)越來越小。結(jié)果梯度下降更新使較低層的連接權(quán)重保持不變,訓(xùn)練不能收斂到一個(gè)好的最優(yōu)解,由此導(dǎo)致梯度消失問題。在某些情況下,可能會(huì)出現(xiàn)相反的情況:梯度可能會(huì)越來越大,各層需要更新很大的權(quán)重直到算法發(fā)散為止,這是梯度爆炸問題。和RNN相比,之所以LSTM能夠克服梯度消失/爆炸問題,主要是因?yàn)長STM的遞歸求導(dǎo)公式中包含加法,使得導(dǎo)數(shù)值可以在1上下跳動(dòng),這些通過LSTM中的梯度閾值設(shè)置來實(shí)現(xiàn)[20]。另外,深度學(xué)習(xí)訓(xùn)練參數(shù)中Epoch對模型的訓(xùn)練起到很重要的作者用。在深度學(xué)習(xí)的訓(xùn)練中,一個(gè)epoch 表示所有的數(shù)據(jù)送入網(wǎng)絡(luò)中,完成了一次前向計(jì)算和反向傳播的過程。由于epoch 一般比較大,可把它分成幾個(gè)小的 bach。因?yàn)閷⑺袛?shù)據(jù)迭代訓(xùn)練一次是不夠的,故需要反復(fù)多次才能擬合、收斂。在實(shí)際訓(xùn)練時(shí)、將所有數(shù)據(jù)分成多個(gè)batch,每次送入一部分?jǐn)?shù)據(jù)。實(shí)際中,往往使用單個(gè)epoch 更新權(quán)重不夠,所以通常采用多個(gè)epoch進(jìn)行訓(xùn)練。隨著epoch 數(shù)量的增加,權(quán)重更新迭代的次數(shù)增多,曲線從最開始的不擬合狀態(tài),進(jìn)入優(yōu)化擬合狀態(tài),最終模型會(huì)進(jìn)入過擬合。epoch 的大小與數(shù)據(jù)集的多樣化程度有關(guān),多樣化程度越強(qiáng),epoch 可設(shè)置越大。其次,學(xué)習(xí)率也是訓(xùn)練神經(jīng)網(wǎng)絡(luò)的重要超參數(shù)之一,它代表在每一次迭代中梯度向損失函數(shù)最優(yōu)解移動(dòng)的步長,通常用η表示。它的大小決定網(wǎng)絡(luò)學(xué)習(xí)速度的快慢。在網(wǎng)絡(luò)訓(xùn)練過程中,模型通過樣本數(shù)據(jù)給出預(yù)測值,計(jì)算代價(jià)函數(shù)并通過反向傳播來調(diào)整參數(shù)。重復(fù)上述過程,使得模型參數(shù)逐步趨于最優(yōu)解從而獲得最優(yōu)模型。在這個(gè)過程中,學(xué)習(xí)率負(fù)責(zé)控制每一步參數(shù)更新的步長。合適的學(xué)習(xí)率可以使代價(jià)函數(shù)以合適的速度收斂到最小值。除此之外,LSTM還提供學(xué)習(xí)率格式、學(xué)習(xí)率衰落周期等參數(shù)。
由于增加了初始學(xué)習(xí)率和epoch,建立的LSTM模型的收斂比較充分。
首先,將LSTM訓(xùn)練參數(shù)設(shè)置如下:最大迭代次數(shù)為60,梯度閾值為1,防止梯度爆炸。初始學(xué)習(xí)率設(shè)置為0.000 1,學(xué)習(xí)率框架設(shè)置為分段形式,學(xué)習(xí)率衰落周期為125,衰落因子為0.2,如表1所示。
表1 預(yù)測網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
設(shè)置好以上網(wǎng)絡(luò)的參數(shù),對模型進(jìn)行訓(xùn)練。訓(xùn)練過程的誤差收斂和損失曲線如圖5所示,整個(gè)訓(xùn)練過程持續(xù)時(shí)間為3分7秒,從而得到訓(xùn)練完成的LSTM模型。從圖5中的模型訓(xùn)練誤差收斂情況來看,收模型的誤差收斂速度較慢,在訓(xùn)練50個(gè)epoch之后,誤差收斂的趨勢才開始顯現(xiàn)??梢灶A(yù)見,在上述的模型參數(shù)設(shè)置下,本模型的收斂狀態(tài)不佳,造成模型的收斂不充分。
圖5 LSTM模型的訓(xùn)練誤差收斂和損失曲線(epoch=60)
采用訓(xùn)練完的模型,對未來500個(gè)時(shí)間步的DAM陣列溫度數(shù)據(jù)進(jìn)行預(yù)測,如圖6所示。由于模型收斂不充分,可以發(fā)現(xiàn)LSTM對于DAM陣列溫度預(yù)測具有較大的誤差。預(yù)測500個(gè)時(shí)間步的DAM陣列溫度數(shù)據(jù)與原有的數(shù)據(jù)趨勢不吻合,呈現(xiàn)一條直線狀。進(jìn)一步,畫出預(yù)測值與觀測值誤差曲線見圖7所示??梢钥闯觯捎谏鲜鯨STM模型對500步的預(yù)測值和真實(shí)值的差異比較明顯,RMSE誤差為0.002 25。
圖6 預(yù)測未來500步溫度值
圖7 預(yù)測值與觀測值誤差曲線
LSTM模型的網(wǎng)絡(luò)參數(shù)設(shè)置可能會(huì)對模型的精度產(chǎn)生較大影響。最大迭代次數(shù)和初始學(xué)習(xí)率是影響網(wǎng)絡(luò)收斂的兩個(gè)主要參數(shù)。這里主要更改網(wǎng)絡(luò)模型參數(shù)的最大迭代次數(shù)和初始學(xué)習(xí)率,訓(xùn)練參數(shù)設(shè)置如下:最大迭代次數(shù)為120,梯度閾值為1,防止梯度爆炸。初始學(xué)習(xí)率設(shè)置為0.005,學(xué)習(xí)率框架設(shè)置為分段形式,學(xué)習(xí)率衰落周期為125,衰落因子為0.2,如表2所示。
表2 預(yù)測網(wǎng)絡(luò)訓(xùn)練參數(shù)設(shè)置
為了獲得較好的擬合并防止訓(xùn)練發(fā)散,這里將訓(xùn)練數(shù)據(jù)標(biāo)準(zhǔn)化為具有零均值和單位方差。在預(yù)測時(shí),采用與訓(xùn)練數(shù)據(jù)相同的參數(shù)來標(biāo)準(zhǔn)化測試數(shù)據(jù)。
在設(shè)置好相關(guān)的網(wǎng)絡(luò)參數(shù)基礎(chǔ)上,開始啟動(dòng)LSTM網(wǎng)絡(luò)訓(xùn)練進(jìn)程,訓(xùn)練過程的誤差收斂和損失曲線如圖8所示,整個(gè)訓(xùn)練過程持續(xù)時(shí)間為6分34秒,從而得到訓(xùn)練完成的LSTM模型。由于訓(xùn)練的epoch數(shù)增大了1倍,造成訓(xùn)練時(shí)間比第1次的訓(xùn)練模型增加。由于增加了初始學(xué)習(xí)率和epoch,建立的LSTM模型的收斂比較充分。
圖8 LSTM模型的訓(xùn)練誤差收斂和損失曲線
采用訓(xùn)練完的模型,對未來500個(gè)時(shí)間步的DAM陣列溫度數(shù)據(jù)進(jìn)行預(yù)測,如圖9所示,可以發(fā)現(xiàn)LSTM對于DAM陣列溫度預(yù)測具有比較高的準(zhǔn)確率,圖10為雷達(dá)小面陣系統(tǒng)FPGA基于DAM陣列溫度的LSTM模型預(yù)測預(yù)測值與觀測值誤差曲線??梢钥闯觯P偷木瓤蛇_(dá)到1e-3至1e-2之間的精度。
圖9 預(yù)測未來500步溫度值
圖10 預(yù)測值與觀測值誤差曲線
為進(jìn)一步計(jì)算該模型的精度和誤差值,基于該模型對未來500個(gè)時(shí)間步的DAM陣列溫度的預(yù)測值,計(jì)算LSTM對于FPGA退化的DAM陣列溫度預(yù)測的總體誤差。經(jīng)程序計(jì)算,LSTM對未來500步的總誤差為0.013,可計(jì)算LSTM的預(yù)測的準(zhǔn)確度為98.7%。
通過計(jì)算誤差率,可獲得LSTM對未來500步的總誤差為0.013,預(yù)測的準(zhǔn)確度為98.7%,因此在該典型任務(wù)模式下,采用長短時(shí)記憶網(wǎng)絡(luò)對綜合射頻模塊的溫度做退化預(yù)測,具有比較好的預(yù)測效果和精度。由于小面陣系統(tǒng)FPGA退化與DAM溫度的退化高度關(guān)聯(lián),因此下一步工作重點(diǎn)在建立FPGA功能性能退化參數(shù)和DAM溫度之間的關(guān)系模型。