摘 要:交通事故預(yù)測對于構(gòu)建智慧城市具有重要意義。然而發(fā)生在連續(xù)時間域上的交通事故數(shù)據(jù)同時包含具有不同語義特征的時間、空間模態(tài)信息,且這兩種模態(tài)的不確定性存在差異,因此傳統(tǒng)的序列建模方式無法全面描述交通事故的時空相關(guān)性,很難實現(xiàn)準(zhǔn)確的交通事故預(yù)測,對此提出了一種面向交通事故預(yù)測的時空多模態(tài)點過程模型MSTPP。該模型設(shè)計了一種具有雙解碼器的seq2seq框架。在編碼器中提出了衰減感知長短期記憶網(wǎng)絡(luò)DLSTM用于編碼在連續(xù)時間域中的交通事故事件序列,有效地融合不同模態(tài)信息以及建模事件序列的異步性。在解碼階段,使用兩個特殊設(shè)計的解碼器去處理模態(tài)間差異性。在兩個真實的交通事故數(shù)據(jù)集上的實驗結(jié)果表明,MSTPP在預(yù)測下一個交通事故發(fā)生的時間和區(qū)域任務(wù)上相比于其他基準(zhǔn)模型具有最優(yōu)的預(yù)測能力。
關(guān)鍵詞:交通事故預(yù)測;事件建模;神經(jīng)點過程;時間模態(tài);空間模態(tài)
中圖分類號:TP183 文獻標(biāo)志碼:A 文章編號:1001-3695(2023)08-015-2340-06
doi: 10.19734/j.issn.1001-3695.2022.12.0799
Multimodal spatial-temporal point processes for traffic accident event prediction
Peng Wenchuang Guo Shengnana Wan Huaiyu Lin Youfang
(a. School of Computer amp; Information Technology, b. Beijing Key Laboratory of Traffic Data Analysis amp; Mining, Beijing Jiaotong University, Beijing 100044, China)
Abstract:Traffic accident event prediction is of great importance to build intelligent transportation systems. However, traffic accident event data occurring in the continuous time domain contains temporal and spatial modal information with different semantic characteristics and different uncertainty, so the traditional sequence models cannot fully describe the spatial-temporal correlation of traffic accident events, and it is difficult to achieve accurate traffic accident prediction. So this paper proposed a multimodal spatial-temporal point process (MSTPP) model. And the model designed a seq2seq framework with dual decoders. It proposed decay-aware long short-term memory networks (DLSTM) in the encoder for encoding traffic accident event sequences in the continuous time domain, effectively fusing different modal information and modelling the asynchronicity of event sequences. In the decoding stage, it used two specially designed decoders to handle the difference between the two modalities. Extensive experiments on two real-world datasets demonstrate the superiority of MSTPP against the state-of-the-art baseline methods with regard to both the next accident happening time prediction and region prediction tasks.
Key words:traffic accident prediction; event modeling; neural point process; temporal modality; spatial modality
0 引言
交通事故的發(fā)生給社會帶來了巨大的生命財產(chǎn)損失。準(zhǔn)確的交通事故預(yù)測可以為交通管理部門和交通參與者提供提前預(yù)警服務(wù),對于保障人身財產(chǎn)安全、調(diào)配應(yīng)急資源均具有重要意義。交通事故預(yù)測的研究方向主要分細粒度級別的事件預(yù)測和粗粒度級別的交通風(fēng)險指數(shù)預(yù)測。
其中:μ為預(yù)定義的基礎(chǔ)強度;υ(·)為核函數(shù)。但這種簡單的預(yù)先定義形式嚴重限制點過程的表達。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,Du等人[3]提出了神經(jīng)點過程方法,使用循環(huán)神經(jīng)網(wǎng)絡(luò)從歷史事件序列中學(xué)習(xí)條件強度函數(shù)對應(yīng)的參數(shù),將點過程中的基本思想與深度學(xué)習(xí)方法相結(jié)合,從而構(gòu)建更加靈活高效的點過程模型。Zuo等人[4]利用注意力機制建模事件序列,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)無法有效學(xué)習(xí)長程依賴以及梯度不穩(wěn)定問題。Zhang等人[5]為神經(jīng)點過程模型提出新的條件強度函數(shù)形式,與通常點過程僅僅建模歷史事件的促進作用不同,其同時建模了已發(fā)生事件對后續(xù)事件的正向促進作用以及反向抑制作用。Shchur等人[6]改變了神經(jīng)點過程的建模對象,直接使用混合對數(shù)正態(tài)分布建模條件概率密度函數(shù),可以直接給出期望值的閉式解,這種建模方式使得計算預(yù)測的時間期望更加高效,避免了復(fù)雜的積分過程。同時Li等人[7]將事件序列構(gòu)建成事件圖,利用圖卷積神經(jīng)網(wǎng)絡(luò)建模事件序列,同時提出一種新的損失函數(shù)用于解決性能飽和問題。但神經(jīng)點過程在對歷史事件序列建模中多采用的是循環(huán)神經(jīng)網(wǎng)絡(luò)[3,6,8]或者自注意力機制[4,5],這種做法沒有考慮到事件間的時間差對事件序列建模的影響。而使用時間差構(gòu)建事件圖[7],無法解決變長序列建模問題,因此高效利用時間差建模事件序列仍然需要研究。
本文研究的內(nèi)容與一些關(guān)注粗粒度級的交通風(fēng)險指數(shù)預(yù)測的工作[9~13]有所不同。這些工作是通過對歷史交通事故進行統(tǒng)計,計算出一段時間間隔內(nèi)區(qū)域發(fā)生交通事故風(fēng)險指數(shù),然后根據(jù)歷史時間步的風(fēng)險指數(shù)值構(gòu)建回歸模型去預(yù)測未來時間步的風(fēng)險指數(shù),其中風(fēng)險指數(shù)越高,代表該區(qū)域內(nèi)發(fā)生交通事故的概率越大,但交通事故發(fā)生的概率較小,因此統(tǒng)計出的風(fēng)險指數(shù)多為零值,即該類研究會面臨零膨脹問題[14]。與上述研究不同,本文關(guān)注細粒度級的交通事故事件預(yù)測,根據(jù)歷史發(fā)生的交通事故事件直接準(zhǔn)確地預(yù)測下一個事件發(fā)生的時間和區(qū)域,可以更好地為城市交通參與者、管理者和規(guī)劃者提供更加精細化的決策支持,保證了人身財產(chǎn)安全。但實現(xiàn)準(zhǔn)確的交通事故事件預(yù)測十分具有挑戰(zhàn),原因如下:
a)交通事故事件包含具有不同的語義特征的時間、空間模態(tài)信息,且每個模態(tài)間存在的不確定性有所差異。交通事故事件序列是一組事件按時間先后順序排列且每個事件包含時間與空間信息的序列,這類事件序列包含的時間模態(tài)和空間模態(tài)信息具有不同的語義特征。通常時間模態(tài)需要體現(xiàn)交通事故發(fā)生的周期性特征,空間模態(tài)則體現(xiàn)交通事故所在區(qū)域的地理屬性與功能特點等信息。除此之外,交通事故事件對應(yīng)的時間模態(tài)與空間模態(tài)中信息的不確定性也有所不同[15]。在交通事故發(fā)生之后,事故發(fā)生的空間相關(guān)信息記錄是明確的,但事故發(fā)生時間記錄信息會受到采集動作反應(yīng)速度的影響,產(chǎn)生不確定時長的滯后,所以交通事故數(shù)據(jù)的時間模態(tài)相對于空間模態(tài)具有更大的不確定性。對于上述兩類模態(tài)相關(guān)數(shù)據(jù)的處理主要分為兩個部分,首先是根據(jù)不同模態(tài)數(shù)據(jù)的特點獲取其對應(yīng)的向量表示,之后是融合不同模態(tài)對應(yīng)的表示用于獲得更具表達能力的高層語義信息。對于時間模態(tài),采用離散化的時間片[3]或者使用可學(xué)習(xí)的三角函數(shù)[5]來表示。對于空間模態(tài),常使用可學(xué)習(xí)的嵌入向量來表示每一個區(qū)域。在獲取事故不同模態(tài)的向量表示后需要融合這些表示。融合表示的方法分別有早期融合、后期融合和混合融合等[16],但這些多模態(tài)融合方法都會面臨模態(tài)間表示不匹配以及信息不確定性差異等[15]問題,交通事故事件預(yù)測同樣面臨著這樣的問題。如何建模具有不同模態(tài)信息的交通事故序列,以及充分考慮時、空模態(tài)間的差異性,對準(zhǔn)確預(yù)測下一個交通事故事件發(fā)生的時間和區(qū)域有重要影響。
b)交通事故事件發(fā)生在連續(xù)的時間域中,事件間的時間差是不均勻的,即具有異步性,且建模具有異步性的事件序列十分困難。通常使用時序點過程[1]方法對其建模。對于傳統(tǒng)的點過程,其表征方式是定義條件強度函數(shù),但如果預(yù)定義的強度函數(shù)參數(shù)不符合真實數(shù)據(jù)分布情況,傳統(tǒng)點過程可能無法建模真實數(shù)據(jù)[17]。為了應(yīng)對上述限制,神經(jīng)點過程(深度點過程)應(yīng)運而生。其使用神經(jīng)網(wǎng)絡(luò)從歷史事件序列中學(xué)習(xí)條件強度函數(shù)或條件分布函數(shù)的參數(shù),借助于神經(jīng)網(wǎng)絡(luò)強大的表達能力,有效提升了點過程模型的建模能力。在神經(jīng)點過程中,通常使用循環(huán)神經(jīng)網(wǎng)絡(luò)[3,6,8]或自注意力機制[4,5]對歷史事件序列進行建模, 但它們?nèi)狈κ录g時間差的充分利用,無法有效建模時間差對交通事故之間的影響作用。
針對以上問題,本文提出一種面向交通事故預(yù)測的時空多模態(tài)點過程模型MSTPP(multimodal spatial-temporal point process)用于同時預(yù)測下一個交通事故發(fā)生的時間和區(qū)域。本文的貢獻總結(jié)如下:
a)設(shè)計了時空雙解碼器的seq2seq框架去融合不同模態(tài)表示,同時處理模態(tài)間不確定性差異性問題。該框架采用特殊設(shè)計的編碼器去融合不同模態(tài)表示,再根據(jù)時、空模態(tài)的特點,設(shè)計了不同的解碼器去解碼用于不同預(yù)測任務(wù)的相關(guān)模態(tài)表示。
b)提出了一種衰減感知長短期循環(huán)神經(jīng)網(wǎng)絡(luò)DLSTM將交通事故之間的時間差考慮到事故序列編碼中,有效建模了交通事故序列的異步性。
c)在兩個真實交通事故數(shù)據(jù)集上的實驗結(jié)果表明,本文模型均展現(xiàn)出最優(yōu)的預(yù)測性能。
1 問題定義
2 時空多模態(tài)神經(jīng)點過程
2.1 交通事故事件的時空模態(tài)表示
2.2 時空雙解碼器seq2seq框架
時空雙解碼器seq2seq框架的主要作用是在建模交通事故事件序列時,既要合理地融合時、空模態(tài)表示,同時又要考慮到不同模態(tài)間差異性。圖1為本文提出的雙解碼器seq2seq框架示意圖。該模型以上一層得到的時、空模態(tài)表示作為輸入,通過由衰減感知長短期記憶網(wǎng)絡(luò)構(gòu)建的編碼器后得到交通事故事件表示后,再使用時、空解碼器分別以事件表示作為輸入去解碼時間模態(tài)和空間模態(tài)用于后續(xù)的點過程表征與交通事故預(yù)測任務(wù)。
2.2.1 衰減感知編碼器
上述編碼器是一個長短期記憶網(wǎng)絡(luò)LSTM(long short-term memory)[18]基礎(chǔ)的編碼器,該編碼器在融合交通事故事件、空模態(tài)表示的同時,能夠感知事件間的時間差,并利用時間差有效建模交通事故事件序列,獲得更加合理的事件表示。交通事故事件序列屬于時間序列的一種,對于時間序列建模,通常使用長短期記憶網(wǎng)絡(luò)完成。傳統(tǒng)的長短期記憶網(wǎng)絡(luò)在更新每一步輸入對應(yīng)的隱藏狀態(tài)時,不考慮當(dāng)前輸入與上一步輸入之間的時間差信息,因此長短期記憶網(wǎng)絡(luò)常用于建模等時間間隔的序列或只關(guān)注相對位置順序的序列??墒墙煌ㄊ鹿适录g的時間差是不均勻的,且時間間隔是衡量交通事故間影響的重要指標(biāo);直接使用長短期記憶網(wǎng)絡(luò)去編碼交通事故事件序列,無法利用其異步性,使得編碼結(jié)果存在偏差。對此本文設(shè)計了衰減感知的長短期記憶網(wǎng)絡(luò)(DLSTM),在編碼交通事故事件序列的過程中充分考慮事件間時間差的影響,有效建模序列的異步性。圖2展示了DLSTM和LSTM對于隱藏層更新的不同之處。對比兩者可以看出,LSTM更新隱藏狀態(tài)不受更新動作的間隔影響,對于DLSTM而言,更新動作的時間間隔越大,上一步更新動作對下一步產(chǎn)生的影響越小。
2.2.2 時空雙解碼器
2.3 交通事故事件預(yù)測
交通事故事件預(yù)測過程主要是利用解碼器解碼出的時間模態(tài)表示和空間模態(tài)表示去表征點過程模型,從而給出下一事件發(fā)生對應(yīng)的時間與區(qū)域。
2.4 模型訓(xùn)練
3 實驗
3.1 數(shù)據(jù)集
這里使用從紐約市的布魯克林區(qū)和曼哈頓區(qū)收集得到兩個真實的交通事故數(shù)據(jù)集(https://opendata.cityofnewyork.us/),每個事故都包含發(fā)生的時間和經(jīng)緯度信息。對于事故的時間信息,將其精確到分鐘。對于事故所屬區(qū)域,首先將每個城區(qū)按照街區(qū)/社區(qū)屬性劃分為若干區(qū)域。然后根據(jù)事故所在經(jīng)緯度將每一個事故映射到對應(yīng)的區(qū)域中,從而獲取到事件的區(qū)域標(biāo)簽。兩個數(shù)據(jù)集的統(tǒng)計信息如表1所示。
3.2 實驗設(shè)置
3.3 實驗指標(biāo)及基準(zhǔn)模型
3.4 實驗結(jié)果
本文模型以及其他基準(zhǔn)模型都是同時預(yù)測下一個交通事故事件發(fā)生的時間和所屬區(qū)域。表2、3展示了本文設(shè)計的模型與其他基準(zhǔn)模型在布魯克林數(shù)據(jù)集和曼哈頓數(shù)據(jù)集兩個真實交通數(shù)據(jù)集上的區(qū)域預(yù)測結(jié)果。
在區(qū)域預(yù)測中,命中率HR@R越大越好,所以可以看出MSTPP模型在兩個數(shù)據(jù)集上的下一個交通事故發(fā)生所屬區(qū)域預(yù)測任務(wù)上,與之前最好模型IFTPP的預(yù)測性能相比,均有較大幅度的提升,且當(dāng)區(qū)域預(yù)測結(jié)果的容錯率增加時(即增大對應(yīng)的R值),各個模型的預(yù)測準(zhǔn)確率也會上升。表4展示了本文模型與其他基準(zhǔn)模型在兩個真實交通數(shù)據(jù)集上的時間預(yù)測結(jié)果。
在時間預(yù)測任務(wù)中,RMSE的值越小越好,從表格中展現(xiàn)的實驗結(jié)果來看,MSTPP模型在兩個數(shù)據(jù)集上的下一個交通事故發(fā)生時間預(yù)測任務(wù)上,比之前最好的模型IFTPP預(yù)測性分別能提升了4.62%和2.17%。同時為了更加直觀地比較不同神經(jīng)點過程模型對事件序列建模情況,本文對一些在布魯克林數(shù)據(jù)集中的樣本預(yù)測結(jié)果進行分析,將不同神經(jīng)點過程模型學(xué)習(xí)得到的p(τN+1)展示在圖3中。圖中橫坐標(biāo)為時間差大小,縱坐標(biāo)為概率值大小。在本文中,使用豎虛線標(biāo)識出對應(yīng)樣本中下一個交通事故事件與歷史最近事故事件的時間差(即真實的時間標(biāo)簽)。從圖中可以看出,MSTPP模型給出時間預(yù)測值與真實值最為貼近,條件強度函數(shù)為指數(shù)函數(shù)形式的神經(jīng)點過程模型對應(yīng)的預(yù)測結(jié)果都與真實值有較大的差距。
整體上看,本文提出的時空多模態(tài)點過程在兩個預(yù)測任務(wù)上均取得不錯的性能。其次使用混合對數(shù)正態(tài)分布直接建模條件分布函數(shù)可以更好地表征交通事故序列對應(yīng)的點過程,從而實現(xiàn)更加精確的交通事故預(yù)測。使用注意力機制的模型和使用循環(huán)神經(jīng)網(wǎng)絡(luò)的模型在編碼交通事故事件序列上,兩者都沒有絕對的優(yōu)勢。可能的原因在于兩者都沒有有效考慮時間差對序列建模的影響。
3.5 消融實驗
因為尺度問題,在展示區(qū)域預(yù)測消融實驗中,本文展示為各個模型與-DandDD的差值。通過對比模型-DandDD和-DualDecoder的結(jié)果可以看出,DLSTM對于事件序列建模有很大的幫助,充分利用交通事故事件間的時間差去建模事件間的影響,是建模異步交通事故序列的一種有效的方法。通過對比本文MSTPP和-DualDecoder的實驗結(jié)果可以得出,在處理交通事故時空多模態(tài)時,考慮它們之間的差異性有助于提升對下一個交通事故發(fā)生時間和區(qū)域的預(yù)測準(zhǔn)確度。
3.6 超參數(shù)實驗
本節(jié)對超參數(shù)進行實驗來以此驗證模型的優(yōu)越性主要是來源于模型的創(chuàng)新。這里選擇對模型表達能力影響最大的兩個超參數(shù)進行超參數(shù)實驗。
首先研究混合對數(shù)正態(tài)分布中組件數(shù)量對于其表達能力的影響,組件數(shù)量Q的備選取值為2、4、6和8。實驗結(jié)果展示在圖5(a)中。可以發(fā)現(xiàn)當(dāng)組件的數(shù)量過小時,對應(yīng)的條件分布表達能力下降,但組件數(shù)量Q并不是越多越好,組件數(shù)量Q的增加會增大模型訓(xùn)練的難度。但無論組件數(shù)量的取值為多少,MSTPP模型在時間預(yù)測任務(wù)上的性能都超越了之前最好的基準(zhǔn)模型IFTPP。
接著探究向量維度d對模型表達能力的影響,d的備選取值為32,64,126和256。實驗結(jié)果如圖5(b)所示,可以看出d的取值不同對模型預(yù)測能力有些許影響,但影響作用甚微。
4 結(jié)束語
本文提出了時空多模態(tài)神經(jīng)點過程用于下一個交通事故預(yù)測,設(shè)計了一個雙解碼器的seq2seq框架在融合交通事故事件時、空模態(tài)表示的同時兼顧兩類模態(tài)信息的表示不匹配、不確定性存在差異的問題。同時針對交通事故事件序列的異步性,設(shè)計了一種衰減感知的長短期記憶網(wǎng)絡(luò),有效地利用事件間的時間差信息。但當(dāng)前研究也存在局限性,只考慮交通事故事件相互間影響,而對于交通事故的影響,還存在車流量、天氣和區(qū)域興趣點等影響因素,這些多源數(shù)據(jù)的融合將會是未來研究的重點。
參考文獻:
[1]Daley D J,Vere-Jones D. An introduction to the theory of point processes: volume I: elementary theory and methods[M]. New York: Springer,2003.
[2]Hawkes A G. Spectra of some self-exciting and mutually exciting point processes[J]. Biometrika,1971,58(1): 83-90.
[3]Du Nan,Dai Hanjun,Trivedi R,et al. Recurrent marked temporal point processes: embedding event history to vector[C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2016: 1555-1564.
[4]Zuo Simiao,Jiang Haoming,Li Zichong,et al. Transformer Hawkes process[C]// Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org,2020: 11692-11702.
[5]Zhang Qiang,Lipani A,Kirnap O,et al. Self-attentive Hawkes process [C]// Proc of the 37th International Conference on Machine Lear-ning. [S.l.]: JMLR.org,2020: 11183-11193.
[6]Shchur O,Bilo M,Günnemann S. Intensity-free learning of temporal point processes [EB/OL]. (2020-01-23). https://arxiv.org/ abs/1909.12127.
[7]Li Tianbo,Luo Tianze,Ke Yiping,et al. Mitigating performance saturation in neural marked point processes: architectures and loss functions[C]// Proc of the 27th ACM SIGKDD Conference on Know-ledge Discovery amp; Data Mining. New York: ACM Press,2021: 986-994.
[8]Mei Hongyuan,Eisner J M. The neural Hawkes process: a neurally self-modulating multivariate point process[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6757-6767.
[9]牛國宏. 基于神經(jīng)網(wǎng)絡(luò)的交通事故預(yù)測[D]. 西安: 長安大學(xué),2006. (Niu Guohong. Forecasting model of road traffic accident based on neural network[D]. Xi’an: Chang’an University,2006.)
[10]楊文忠,張志豪,吾守爾·斯拉木,等. 基于時間序列關(guān)系的 GBRT 交通事故預(yù)測模型[J]. 電子科技大學(xué)學(xué)報,2020,49(4): 615-621. (Yang Wenzhong,Zhang Zhihao,Wushouer·Silamu,et al. GBRT traffic accident prediction model based on time series relationship[J]. Journal of University of Electronic Science and Technology of China,2020,49(4): 615-621.)
[11]張志豪,楊文忠,袁婷婷,等. 基于 LSTM 神經(jīng)網(wǎng)絡(luò)模型的交通事故預(yù)測[J]. 計算機工程與應(yīng)用,2019,55(14): 249-253. (Zhang Zhihao,Yang Wenzhong,Yuan Tingting,et al. Traffic accident prediction based on LSTM neural network model[J]. Computer Engi-neering and Applications,2019,55(14): 249-253.)
[12]王彥浩. 基于圖神經(jīng)網(wǎng)絡(luò)的交通事故預(yù)測方法研究[D]. 北京: 華北電力大學(xué)(北京),2021. (Wang Yanhao. Research on traffic accident prediction based on graph neural network[D]. Beijing: North China Electric Power University(Beijing),2021.)
[13]劉志,王錦夢,孔祥杰. 基于時空圖卷積網(wǎng)絡(luò)的交通事故預(yù)測研究[J]. 浙江工業(yè)大學(xué)學(xué)報,2022,50(2): 128-135,155. (Liu Zhi,Wang Jinmeng,Kong Xiangjie. Research on traffic accident prediction based on spatio-temporal graph convolutional network[J]. Journal of Zhejiang University of Technology,2022,50(2): 128-135,155.)
[14]王貝貝,萬懷宇,郭晟楠,等. 融合局部和全局時空特征的交通事故風(fēng)險預(yù)測[J]. 計算機科學(xué)與探索,2021,15(9): 1694-1702. (Wang Beibei,Wan Huaiyu,Guo Shengnan,et al. Local and global spatial-temporal networks for traffic accident risk forecasting[J]. Journal of Frontiers of Computer Science amp; Technology,2021,15(9): 1694-1702.)
[15]Gaonkar A,Chukkapalli Y,Raman P J,et al. A comprehensive survey on multimodal data representation and information fusion algorithms[C]// Proc of International Conference on Intelligent Technologies. Piscataway,NJ: IEEE Press,2021: 1-8.
[16]任澤裕,王振超,柯尊旺,等. 多模態(tài)數(shù)據(jù)融合綜述[J]. 計算機工程與應(yīng)用,2021,57(18): 49-64. (Ren Zeyu,Wang Zhenchao,Ke Zunwang,et al. Survey of multimodal data fusion[J]. Computer Engineering and Applications,2021,57(18): 49-64.)
[17]Yan Junchi. Recent advance in temporal point process: from machine learning perspective[EB/OL]. (2020-09-23). https://thinklab.sjtu.edu.cn/src/pp_survey.pdf.
[18]Sak H,Senior A,Beaufays F. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition [EB/OL]. (2014-02-05). https://arxiv.org/abs/1402.1128.
[19]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. 2017: 6000-6010.
[20]Bai Lei,Yao Lina,Li Can,et al. Adaptive graph convolutional recurrent network for traffic forecasting[C]// Proc of the 34th Internatio-nal Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2020: 1494.
[21]劉長虹,關(guān)永亮,壽卓佳,等. 蒙特卡洛法在數(shù)值積分上的應(yīng)用[J].上海工程技術(shù)大學(xué)學(xué)報,2010,24(1): 43-46. (Liu Changhong,Guan Yongliang,Shou Zhuojia,et al. Application of Monte Carlo method in numerical integral problem[J]. Journal of Shanghai University of Engineering Science,2010,24(1): 43-46.)
[22]Robert C P,Casella G,Casella G. Monte Carlo statistical methods[M]. New York: Springer,1999.
[23]鄭華盛,唐經(jīng)綸,危地. 高精度數(shù)值積分公式的構(gòu)造及其應(yīng)用[J]. 數(shù)學(xué)的實踐與認識,2007,37(15): 141-148. (Zheng Hua-sheng,Tang Jinglun,Wei Di. Constructions of high accurate numerical integration formula and its applications[J]. Journal of Mathematics in Practice and Theory,2007,37(15): 141-148.)
[24]Stoer J,Bulirsch R. Introduction to numerical analysis[M]. New York: Springer,2002.
[25]Kingma D P,Ba J. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30). https://arxiv.org/abs/1412.6980.