楊存祥
(聊城市陽谷縣交通運(yùn)輸局,山東 聊城 252300)
隨著社會(huì)經(jīng)濟(jì)的飛速發(fā)展和城鎮(zhèn)人口的快速增長,機(jī)動(dòng)車數(shù)量呈逐年上升趨勢(shì),由此引發(fā)的道路交通擁擠問題日益嚴(yán)峻,尤其是高速公路的擁擠問題,已成為一個(gè)國家亟待解決的問題。作為一個(gè)國家邁向現(xiàn)代化的重要紐帶,高速公路是發(fā)展現(xiàn)代交通運(yùn)輸業(yè)的重要道路[1]。然而,在高速公路上出現(xiàn)的交通擁擠問題,不但給人民的生活造成了很大的不便,而且還限制了高速公路的服務(wù)品質(zhì),對(duì)地區(qū)的經(jīng)濟(jì)和社會(huì)發(fā)展產(chǎn)生了一定的影響。因此對(duì)高速公路交通流的預(yù)測(cè),不但能夠幫助高速公路的管理者進(jìn)行科學(xué)的調(diào)度和引導(dǎo),還能夠幫助人們選擇最佳的出行路徑,對(duì)緩解高速路段的擁堵問題具有重要的理論和現(xiàn)實(shí)意義。
基于自注意力機(jī)制和深度學(xué)習(xí)(Self-Attention-DeepLearning,SA-DL)的高速公路交通流預(yù)測(cè)模型是一種在考慮多因素的預(yù)測(cè)方法,其利用自注意力模型捕獲高速公路交通流數(shù)據(jù)的全局空間管關(guān)系,提高交通流特征提取能力[2]。SA-DL 模型包括數(shù)據(jù)處理、特征矩陣構(gòu)建、卷積神經(jīng)網(wǎng)絡(luò)CNN 和LSTM。
SA-DL 模型首先對(duì)交通數(shù)據(jù)進(jìn)行缺失值填補(bǔ)、關(guān)系型數(shù)據(jù)選取等預(yù)處理;其次建立包含天氣特征和時(shí)間特征的二維特征矩陣,然后利用CNN 技術(shù)從矩陣中獲取交通流空間特征,提取全局空間依賴關(guān)系;最優(yōu)利用LSTM 提取交通流時(shí)間特征,通過全連接層,獲得交通流預(yù)測(cè)輸出結(jié)果[3]。
由于獲取的高速公路交通流數(shù)據(jù)存在數(shù)據(jù)少量缺失的情況,為保證數(shù)據(jù)預(yù)測(cè)精度,選取近三年的同一天和同一時(shí)間測(cè)量傳感器數(shù)據(jù)的平均值,然后將數(shù)據(jù)填充到空缺位置,以此來補(bǔ)全缺失數(shù)據(jù)[4]。
為降低外界因素對(duì)高速公路預(yù)測(cè)結(jié)果的影響,采用皮爾遜相關(guān)分析法計(jì)算目標(biāo)道路交通流和不同屬性的相關(guān)系數(shù),然后根據(jù)系數(shù)大小選取與高速公路交通流相關(guān)性強(qiáng)的特征數(shù)據(jù)[5]。數(shù)據(jù)相關(guān)系數(shù)絕對(duì)值越大,其與高速公路交通流的相關(guān)性越強(qiáng);相關(guān)系數(shù)絕對(duì)值越小,其與高速公路交通流的相關(guān)性越弱。
高速公路交通流與道路交通流量和天氣變化相關(guān),因此建立包括天氣信息、空間信息和時(shí)間信息的二維特征矩陣,利用矩陣獲取高速公路交通流特征數(shù)據(jù)。t時(shí)刻高速公路交通流量為{xs,t,xs2,t,…,xsm,t};t時(shí)刻天氣數(shù)據(jù)為{wq1,t,wq2,t,…,wqn,t}。
對(duì)于可變長度向量序列,一般采用循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)兩種方式對(duì)其進(jìn)行編碼,從而得到等長輸出向量序列[6]。如在圖1 中所示,圖(a)采用卷積網(wǎng)絡(luò)對(duì)可邊長度向量序列進(jìn)行編碼,圖(b)采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)可邊長度向量序列進(jìn)行編碼。
圖1 循環(huán)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)的邊長序列編碼
從圖1 中可以看出,循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)均只能對(duì)可變長度序列進(jìn)行“局部編碼”。卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)以N-Gram 為基礎(chǔ)的局部編碼。該算法的基本思路是以字節(jié)數(shù)表示為N 個(gè)滑動(dòng)窗,然后生成一系列N 個(gè)字節(jié)的片段序列。每一位字節(jié)片段都為gram。該算法計(jì)算了所有g(shù)ram 的出現(xiàn)次數(shù),然后按照預(yù)先設(shè)定的閾值對(duì)gram 進(jìn)行篩選,得到一個(gè)關(guān)鍵詞清單,而清單中的gram 類型就是一個(gè)特征矢量的一個(gè)維度。該模型得出的相鄰關(guān)鍵詞均有相關(guān)性,整個(gè)句子出現(xiàn)的概率為所有關(guān)鍵詞出現(xiàn)概率的乘積。
循環(huán)神經(jīng)網(wǎng)絡(luò)存在梯度消失問題,其只可以建立短期依賴,而在長距離依賴關(guān)系方面,則需要通過增加網(wǎng)絡(luò)層數(shù)和使用全連接網(wǎng)絡(luò)等方式進(jìn)行建立。
自注意力機(jī)制有利于減少交通流預(yù)測(cè)對(duì)外部信息的依賴,以此來更好地捕獲高速公路交通流數(shù)據(jù)以及特征內(nèi)在相關(guān)性。假設(shè)高速公路交通流預(yù)測(cè)時(shí)的輸入信息為H=[h1,h2,…h(huán)n],利用自注意力機(jī)制獲得的位置輸出為Y=[y1,y2,…yn]。
首先,將原始輸入 數(shù)據(jù)映射到值空間V、鍵空間K和查詢空間Q,計(jì)算公式如下:
然后計(jì)算每個(gè)位置注意力分布情況,并對(duì)計(jì)算結(jié)果加權(quán)求和:
為進(jìn)一步加快計(jì)算效率,利用矩陣計(jì)算出多有位置輸出向量:
將構(gòu)建的特征矩陣進(jìn)行一維卷積后導(dǎo)入self-atten tion 中,對(duì)相鄰道路的天氣特征和交通流特征進(jìn)行連接,并計(jì)算注意力分布情況,捕獲交通流依賴特征。
考慮到高速公路節(jié)假日和工作日的交通流存在較大差距,因此分別對(duì)節(jié)假日和工作日的交通流進(jìn)行預(yù)測(cè)和訓(xùn)練;為驗(yàn)證SA-DL 模型的預(yù)測(cè)精度,與ARIMA模型進(jìn)行對(duì)比分析,ARIMA 模型是以時(shí)間為基礎(chǔ),將預(yù)測(cè)對(duì)象隨時(shí)間變化所形成的數(shù)據(jù)序列作為隨機(jī)序列,然后利用數(shù)學(xué)模型來描述該序列,進(jìn)而從時(shí)間序列的過去值及現(xiàn)在值預(yù)測(cè)未來值。
數(shù)據(jù)集來源于某高速公路交通天氣數(shù)據(jù)和流數(shù)據(jù),該高速公路共有3 個(gè)收費(fèi)站,其中2 號(hào)收費(fèi)站為單向行駛路段,只允許車輛進(jìn)入高速路段。1 和3 號(hào)路段為雙向行駛路段。
高速公路交通流和天氣數(shù)據(jù)采集數(shù)據(jù)時(shí)間范圍為2021 年9 月20 日-2020 年10 月18 日,采集頻率為每隔20min 采集一次數(shù)據(jù)。天氣數(shù)據(jù)特征包括風(fēng)向、氣壓、溫度、降雨量、風(fēng)速、濕度、降雨量等,采集頻率為3h 采集一次。
表1 所示SA-DL 模型預(yù)測(cè)高速公路交通流工作日10d 數(shù)據(jù)的均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)。
表1 對(duì)10d 工作日的預(yù)測(cè)誤差
從表1 中可以看出,對(duì)高速公路工作日10d 交通流預(yù)測(cè)結(jié)果的MAE 均值為7.38(15min)-1,RMSE 平均值為9.58(15min)-1。
為驗(yàn)證提出SA-DL 模型預(yù)測(cè)性能,利用ARIMA 模型對(duì)原始數(shù)據(jù)進(jìn)行分析和處理,測(cè)試結(jié)果如圖2 所示。
圖2 模型MAE 和RMSE 對(duì)比結(jié)果
從圖2 中可以看出,SA-DL 模型對(duì)高速公路交通流的預(yù)測(cè)結(jié)果RMSE 和MAE 均低于ARIMA 模型。與RMSE 模型相比,SA-DL 模型的RMSE 和MAE 分別下降了29.69 與27.93。
表2 所示SA-DL 模型預(yù)測(cè)高速公路交通流節(jié)假日10d 數(shù)據(jù)的RMSE 和MAE。
表2 10 天節(jié)假日的預(yù)測(cè)誤差
從表2 中可以看出,SA-DL 對(duì)高速公路節(jié)假日10d交通流的預(yù)測(cè)結(jié)果的MAE 平均值為6.62 輛·(15min)-1,RMSE 平均值為8.39 輛·(15min)-1。
圖3 所示SA-DL 模型與ARIMA 模型預(yù)測(cè)結(jié)果對(duì)比情況,從圖3 中可以看出,SA-DL 模型預(yù)測(cè)結(jié)果明顯低于ARIM 預(yù)測(cè)結(jié)果。SA-DL 模型的RMSE 和MAE 分別下降了19.15 和15.73。
圖3 模型MAE 和RMSE 對(duì)比結(jié)果
由此可見,對(duì)于節(jié)假日和工作日道路交通流量的預(yù)測(cè)結(jié)果,SA-DL 預(yù)測(cè)結(jié)果更加準(zhǔn)確,SA-DL 模型對(duì)高速公路交通流預(yù)測(cè)結(jié)果誤差均值較低,可以為交通管理提供參考。
基于深度學(xué)習(xí)和自注意力機(jī)制的預(yù)測(cè)模型,采用自注意力機(jī)制捕獲高速公路交通流空間依賴關(guān)系,進(jìn)一步提高交通流空間特征提取能力;采用LSTM 解決時(shí)序依賴性問題,提取數(shù)據(jù)趨勢(shì)性和周期性特征。對(duì)于高速公路節(jié)假日和工作日交通流量的預(yù)測(cè),SA-DL 模型預(yù)測(cè)結(jié)果精度明顯優(yōu)于ARIMA 模型,并且與實(shí)際觀測(cè)結(jié)果基本一致。將天氣特征和時(shí)空特征引入交通流預(yù)測(cè)過程中,利用自注意力機(jī)制特征關(guān)鍵信息,捕獲全局依賴關(guān)系,可以進(jìn)一步提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。