陳宏偉 于群 崔曉川 李志國(guó) 康林(中汽研汽車檢驗(yàn)中心(天津)有限公司)
整車道路試驗(yàn)作為整車客觀評(píng)價(jià)的重要組成部分,通常受到試驗(yàn)場(chǎng)氣象條件因素影響。其中,環(huán)境溫度主要對(duì)輪胎溫度、發(fā)動(dòng)機(jī)進(jìn)氣溫度以及空氣密度等產(chǎn)生影響,進(jìn)而使整車道路試驗(yàn)結(jié)果的復(fù)現(xiàn)性、可對(duì)比性較差。文章利用LSTM深度神經(jīng)網(wǎng)絡(luò),以中汽中心鹽城汽車試驗(yàn)場(chǎng)(以下簡(jiǎn)稱“鹽城試驗(yàn)場(chǎng)”)2018—2019年溫度數(shù)據(jù)建立數(shù)據(jù)樣本,并搭建精細(xì)化氣溫預(yù)測(cè)模型,對(duì)實(shí)現(xiàn)整車道路性能試驗(yàn)的精細(xì)化、可控化、可對(duì)比等方面具有重要實(shí)際意義與研究?jī)r(jià)值。溫度數(shù)據(jù)是典型的時(shí)間序列數(shù)據(jù)。就當(dāng)前的預(yù)測(cè)技術(shù)而言,天氣學(xué)方法預(yù)測(cè)具有一定不穩(wěn)定性[1],統(tǒng)計(jì)學(xué)分析方法也有僅適用于固定長(zhǎng)度的序列信息的缺點(diǎn)[2]。而隨著深度學(xué)習(xí)模型逐漸成熟,在解決時(shí)間序列數(shù)據(jù)處理問題上體現(xiàn)了強(qiáng)大的適應(yīng)性和決策能力[3]。LSTM是在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)基礎(chǔ)上解決了其梯度消失、長(zhǎng)期依賴能力不足等問題[4],在語(yǔ)音識(shí)別[5]、機(jī)器翻譯[6]等時(shí)序問題取得了巨大的成功。
LSTM最早由Hocheriter和Schmidhuber提出[7],在RNN基礎(chǔ)上擺脫了簡(jiǎn)單的記憶疊加,增加了門控狀態(tài)來控制傳輸狀態(tài),適用于“長(zhǎng)期記憶”任務(wù)。典型的LSTM結(jié)構(gòu)如圖1所示。LSTM在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層、輸出層的基礎(chǔ)上,將隱藏層額外加入1個(gè)或多個(gè)記憶單元,并且每個(gè)記憶單元都擁有3個(gè)“門”結(jié)構(gòu):遺忘門、輸入門和輸出門[8]。
其中,遺忘門讀取ht-1和xt,輸出“完全保留”或“完全舍棄”的信息至Ct-1中;輸入門應(yīng)用sigmoid層決定信息更新、應(yīng)用tanh層備選用來更新的內(nèi)容;輸出門應(yīng)用sigmoid層決定輸出內(nèi)容,并與tanh層相乘,僅僅輸出所需部分。整個(gè)過程通過引入門的機(jī)制,對(duì)經(jīng)過網(wǎng)絡(luò)的信息進(jìn)行有選擇的記憶或遺忘,采取sigmoid激活函數(shù)和tanh雙正切函數(shù)相乘的計(jì)算方式進(jìn)行“門”操作,如圖2至圖4所示。
圖1 LSTM內(nèi)部結(jié)構(gòu)
圖2 遺忘門結(jié)構(gòu)
圖3 輸入門結(jié)構(gòu)
圖4 輸出門結(jié)構(gòu)
為了更加詳細(xì)描述LSTM內(nèi)部結(jié)構(gòu),列出相關(guān)公式:
式中:ft、it、ct、ot——分別表示當(dāng)前時(shí)刻t的遺忘門、輸入門、單元狀態(tài)、輸出門的結(jié)果;
ht——最終的輸出;
W和b——分別表示權(quán)重矩陣和偏置項(xiàng);
σ和tanh——分別是sigmoid激活函數(shù)和雙正切函數(shù)[9]。
鹽城市地處北亞熱帶向暖溫帶氣候過渡地帶,具有過渡性特征,且受海洋影響較大,季風(fēng)氣候較明顯,冬季多偏北風(fēng)而夏季多偏南風(fēng)。文章選取中汽中心鹽城汽車試驗(yàn)場(chǎng)氣象站2018—2019年的溫度數(shù)據(jù)作為樣本,采集時(shí)間間隔為5 min。通過宏觀分析,春季氣溫波動(dòng)較大,整體呈周期性上漲;夏季氣溫波動(dòng)較?。磺锛練鉁刈兓芷谛圆蝗绱杭久黠@,伴隨一定隨機(jī)性;冬季最低平均氣溫在0℃左右,基本不存在結(jié)冰現(xiàn)象[10]。
數(shù)據(jù)預(yù)處理過程如圖5所示,首先對(duì)氣溫?cái)?shù)據(jù)進(jìn)行清洗,主要包括插值法修正錯(cuò)誤值和去除連續(xù)空值。為了實(shí)現(xiàn)以18:00至5:00的氣溫來預(yù)測(cè)6:00至17:00的氣溫,從18:00開始將氣溫時(shí)間序列重新排序,即從18:00至第2天17:55結(jié)束為1組數(shù)據(jù)。然后將每個(gè)小時(shí)中的12組數(shù)據(jù)取平均值,形成從18:00至第2天17:00的24個(gè)數(shù)據(jù)組成的氣溫?cái)?shù)據(jù)樣本,數(shù)據(jù)樣本范例如表1所示,共計(jì)620組。
圖5 數(shù)據(jù)預(yù)處理流程圖
研究利用TensorFlow語(yǔ)言包搭建LSTM短期氣溫預(yù)測(cè)模型,通過對(duì)歷史氣溫樣本的學(xué)習(xí),并根據(jù)第1天氣溫?cái)?shù)據(jù)來預(yù)測(cè)第2天氣溫。模型結(jié)構(gòu)及流程如圖6所示,模型由輸入層、隱藏層、輸出層和損失優(yōu)化器4部分組成。
輸入層對(duì)數(shù)據(jù)進(jìn)行歸一化處理,然后劃分訓(xùn)練集和測(cè)試集。模型使用的歸一化方法為z-score標(biāo)準(zhǔn)化方法,公式為:
表1 數(shù)據(jù)樣本 ℃
σ——樣本標(biāo)準(zhǔn)差。
按照時(shí)間順序劃分訓(xùn)練集和測(cè)試集,取前600組數(shù)據(jù)為訓(xùn)練集,后20組數(shù)據(jù)為測(cè)試集。
圖6 氣溫預(yù)測(cè)模型流程圖
隱藏層由長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)構(gòu)成。模型使用64個(gè)隱藏單元,學(xué)習(xí)率設(shè)置為0.000 001,迭代次數(shù)為500次。
輸出層的主要任務(wù)是將模型預(yù)測(cè)輸出值反饋計(jì)算損失并傳遞至優(yōu)化器,同時(shí)完成模型最終輸出結(jié)果的反歸一化計(jì)算。
文章研究氣溫預(yù)測(cè)模型采用Adam優(yōu)化算法經(jīng)行迭代以降低預(yù)測(cè)輸出值與實(shí)際輸出值的損失。Adam算法相比其他優(yōu)化算法的不同之處在于其在迭代過程中對(duì)梯度均值以及梯度均值方差進(jìn)行矯正,因而Adam優(yōu)化算法受學(xué)習(xí)率的影響較小[11]。
基于長(zhǎng)短期記憶網(wǎng)絡(luò)的短期氣溫預(yù)測(cè)模型能夠較好地預(yù)測(cè)氣溫升降變化趨勢(shì),模型預(yù)測(cè)結(jié)果與實(shí)際值的高最氣溫平均差值和最低氣溫平均差值都不超過2℃。氣溫預(yù)測(cè)結(jié)果,如圖7所示。
圖7 氣溫預(yù)測(cè)模型結(jié)果
定義模型準(zhǔn)確率為實(shí)際值與預(yù)測(cè)值差值占實(shí)際值的百分比,如式8所示。綜上,文章研究短期氣溫預(yù)測(cè)模型的模型準(zhǔn)確率為64.1%。
短期氣溫預(yù)測(cè)模型能夠較好地預(yù)測(cè)每天氣溫升降趨勢(shì),但是模型對(duì)于不可控的急劇升溫降溫天氣的預(yù)測(cè)精度較低,如圖7曲線中間部分所示。
文章運(yùn)用LSTM深度神經(jīng)網(wǎng)絡(luò)氣溫預(yù)測(cè)模型,對(duì)中汽中心鹽城汽車試驗(yàn)場(chǎng)氣溫?cái)?shù)據(jù)進(jìn)行深度挖掘,取得了較好的預(yù)測(cè)結(jié)果,準(zhǔn)確率達(dá)64.1%。該模型為整車道路試驗(yàn)提前獲取了環(huán)境邊界條件,對(duì)試驗(yàn)日程的組織計(jì)劃、順利開展、降本增效提供基礎(chǔ)數(shù)據(jù)支撐。
同時(shí),通過采取擴(kuò)大樣本數(shù)量、結(jié)合數(shù)據(jù)挖掘等方法可以提升模型預(yù)測(cè)精度;在此模型基礎(chǔ)上,能夠進(jìn)一步開展對(duì)于風(fēng)速風(fēng)向、降雨等環(huán)境邊界條件的預(yù)測(cè)模型研究。