摘 要: ""目前學界普遍通過循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)建模強度函數(shù)來刻畫時序點過程,然而此類模型不能捕捉到事件序列之間的長程依賴關(guān)系,并且強度函數(shù)具體的參數(shù)形式會限制模型的泛化能力。針對上述問題,提出一種無強度函數(shù)的注意力機制的時序點過程生成模型。該模型使用Wasserstein距離構(gòu)建損失函數(shù),便于衡量模型分布與真實分布之間的偏差,利用自注意力機制描述歷史事件對當前事件的影響程度,使得模型具有可解釋性且泛化能力更強。對比實驗表明,在缺失強度函數(shù)先驗信息的情況下,該方法比RNN類的生成模型和極大似然模型在QQ圖斜率的偏差和經(jīng)驗強度偏差這兩個指標總體上分別減少35.125%和24.200%,證實了所提模型的有效性。
關(guān)鍵詞: "事件序列; 時序點過程; Wasserstein距離; 多頭自注意力
中圖分類號: "TP391 """文獻標志碼: A
文章編號: "1001-3695(2022)02-022-0456-05
doi:10.19734/j.issn.1001-3695.2021.08.0298
Wasserstein learning method for self-attention temporal "point process generation model
Lu Jiaming, Li Chenlong, Wei Yiqiang
(College of Mathematics, Taiyuan University of Technology, Jinzhong Shanxi 030600, China)
Abstract: "At present,the academic circles generally describe the temporal point process by modeling the intensity function using recurrent neural network(RNN).However,this kind of model can’t capture the long-range dependence between event sequences,and the specific parameter form of the intensity function will limit the generalization ability of the model.In order to solve these problems,this paper proposed a temporal point process self-attention generation model without intensity function.The model used Wasserstein distance to construct the objective function,which was convenient to measure the deviation between the model distribution and the real distribution,and used the self-attention mechanism to describe the impact of historical events on current events,so that the model was interpretable and had stronger robustness.Comparative experiments show that,in the absence of prior knowledge of intensity function,the deviation of QQ graph slope and empirical intensity deviation of this method reduce 35.125% and 24.200% respectively compared with RNN generation model and maximum likelihood mo-del,which proves the effectiveness of the proposed model.
Key words: "event sequence; temporal point process; Wasserstein distance; multi-head self-attention
0 引言
社交平臺上的用戶行為、金融交易信息[1,2]、 醫(yī)療健康信息[3]等人類活動和地震等自然現(xiàn)象都會產(chǎn)生大量的異步事件序列。異步事件序列具有時間次序,其時間戳能夠反映事件發(fā)生的潛在動態(tài)規(guī)律[4];同時,異步事件序列中事件的發(fā)生時間是隨機的,這意味著相繼發(fā)生的事件之間的時間間隔是不相等的。因此,有關(guān)異步事件序列的研究具有實際價值并存在挑戰(zhàn)。
時序點過程是一種有效建模異步事件序列的數(shù)學工具[5],它將事件之間的時間間隔當做隨機變量,并借助參數(shù)化的強度函數(shù)對異步事件序列的發(fā)生時間進行精確建模。通常,強度函數(shù)的參數(shù)形式根據(jù)研究對象的不同而有不同的設(shè)計,如泊松過程、霍克斯過程、自校正過程和更新過程[6]等。然而,不同時序點過程強度函數(shù)的參數(shù)形式往往結(jié)構(gòu)單一,不能廣泛用于解決實際問題;另外,參數(shù)形式的錯誤指定會造成模型性能的顯著降低[7]。
近年來,研究者將時序點過程和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,提出了參數(shù)化強度函數(shù)的深度學習方法, 并將其稱為深度時序點過程[8]。一般而言,深度時序點過程將強度函數(shù)視為歷史過程的非線性函數(shù),使用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對其進行參數(shù)化[9]?;赗NN的深度時序點過程大都采用對數(shù)似然構(gòu)建損失函數(shù),最小化這一損失函數(shù)漸近等價于最小化真實分布和模型分布之間的KL散度,但這常常會導致模式下降等問題[10]。為此,文獻[7]以基于RNN和Wasserstein距離(W距離)的生成對抗網(wǎng)絡(luò)(WGAN[11])為基礎(chǔ),提出了一種不需要似然函數(shù)的時序點過程估計方法(WGANTPP[7])。然而,RNN類模型存在兩個固有的缺點:a)只能緩解而不能根本解決序列數(shù)據(jù)的長程依賴問題;b)遞歸運算方式使得RNN只能接收前面的輸出作為輸入,限制了模型的計算效率。盡管研究者提出了RNN的多種變體,如長短時記憶網(wǎng)絡(luò)(LSTM)[12]和門限回歸單元(GRU)[13]等,但仍然不能根本解決使用循環(huán)結(jié)構(gòu)所導致的問題。
為解決上述問題,本文提出了一種基于多頭自注意力機制和W距離的時序點過程生成學習方法(self-attention WGAN for temporal point process,SGT)。SGT使用添加梯度懲罰項的W距離來衡量模型分布與真實數(shù)據(jù)分布之間的偏差,以避免WGAN類模型因權(quán)重裁剪而造成的梯度爆炸等問題[11,14~16]。與RNN類模型相比, SGT通過多頭自注意力機制建立歷史事件之間的聯(lián)系,同時處理批量化的序列數(shù)據(jù),克服了RNN遞歸結(jié)構(gòu)導致的缺陷,不僅可以捕捉到異步事件序列之間的長程依賴關(guān)系,而且能夠提高運行效率[17~20]。此外,學習到的自注意力權(quán)重能夠描述歷史事件發(fā)生對當前事件的影響程度。因此,SGT比RNN類深度時序點過程模型的可解釋性更強,本文SGT在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上均取得了穩(wěn)定優(yōu)異的表現(xiàn)。
1 相關(guān)知識
1.1 時序點過程
時序點過程是由事件發(fā)生時刻 T={t 1,…,t N,…} "所組成的隨機過程,其條件強度函數(shù)為 λ*(t)=λ(t|H t) ,其中符號*表示強度函數(shù)依賴于歷史 H t={t j∈T:t jlt;t} 。在時間窗 [t,t+dt) 內(nèi), λ*(t)dt=Ρ{#[t,t+dt)|H t} ,其中,記號 #[t,t+dt) 表示在時間窗口 [t,t+dt) 內(nèi)發(fā)生的事件數(shù); λ*(t)dt 可視為在給定歷史條件下事件發(fā)生的概率。常見的時序點過程有以下幾類:
a)非齊次泊松過程(inhomogeneous Poisson process)[21]。 "λ(t) 是與 H t 獨立的非負函數(shù),例如由 k 個高斯核函數(shù)組成的多模函數(shù) λ(t)=∑k i=1α i(2 π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,其中 t∈[0,T),c i和σ i 分別是均值和標準差, α i 是核函數(shù)的權(quán)重。
b)霍克斯過程(Hawkes process)[22]。該過程中歷史事件的發(fā)生會增加未來事件發(fā)生的概率,強度函數(shù)常用參數(shù)形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,其中, 0lt;βlt;1,μgt;0,g(·) 是非負核函數(shù),一般是指數(shù)函數(shù) g(t)= exp (-ωt) , ωgt;0 。
c)自校正過程(self-correcting process)[23]。該過程中歷史事件的發(fā)生會減小未來事件發(fā)生的概率。 λ(t) 的參數(shù)形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,其中 η和γ 分別代表外生強度和內(nèi)生強度,指數(shù)形式確保強度函數(shù)非負。
1.2 W距離
兩個分布之間的W距離定義為
W(P r,P g)= inf "ψ∈Ψ(Ρ r,Ρ g) Ε (X,Y)[|X-Y|] ""(1)
其中: Ψ(Ρ r,Ρ g) 定義為聯(lián)合分布 ψ(X,Y) 的集合, Ρ r 和 Ρ g 是聯(lián)合分布的邊際密度。但 W(Ρ r,Ρ g) 的計算過程十分復雜,故考慮其對偶形式[24]sup "‖f‖ L≤1 (Ε X~Ρ r[f(X)]-Ε Y~Ρ g[f(Y)]) ,其中 ‖f‖ L sup "X≠Y "|f(X)-f(Y)| |X-Y| ",且 W(Ρ r,Ρ g) 的上限對于所有的1-Lipschitz函數(shù) f 都滿足。然而為獲得此上界而枚舉所有的1-Lipschitz函數(shù)是不可能的[7]。因此,可以使用一個神經(jīng)網(wǎng)絡(luò) f w 去近似 f,w∈W 是網(wǎng)絡(luò)參數(shù)。此時,對偶問題轉(zhuǎn)換為
W(Ρ r,Ρ g)= max "w∈W,‖f w‖ L≤1 Ε X~Ρ r[f w(Y)]-Ε Y~Ρ g[f w(X)] ""(2)
1.3 自注意力和多頭自注意力
自注意力機制通過一一對應(yīng)的相似度函數(shù)來刻畫輸入數(shù)據(jù)之間的相互依賴關(guān)系。本文采用查詢—鍵—值模式的自注意力,具體計算過程如下:
a)對于每個輸入 e "n∈E=[e 1,…,e N]∈"Euclid Math TwoRAp
L×N ,將其線性映射到三個不同的空間,得到查詢向量 q "i∈"Euclid Math TwoRAp
D 、鍵向量 k "i∈"Euclid Math TwoRAp
D 和值向量 v "i∈"Euclid Math TwoRAp
D 。對于整個輸入序列 E ,其線性映射過程為 Q =E W "q=[ q "1,…, q "D]∈"Euclid Math TwoRAp
L×D, K =E W "k=[ k "1,…, k "D]∈"Euclid Math TwoRAp
L×D, V =E W "v=[ v "1,…, v "D]∈"Euclid Math TwoRAp
L×D,其中 W "q∈"Euclid Math TwoRAp
N×D, W "k∈"Euclid Math TwoRAp
N×D, W "v∈"Euclid Math TwoRAp
N×D 分別為線性映射的參數(shù)矩陣[25]。
b)對于每一個查詢向量 q "n∈ Q 、鍵向量 k "j∈ K 和值向量 v "j∈ V ,自注意力機制對應(yīng)的輸出向量為 h "n=∑N j=1α nj v "j=∑N j=1 softmax (s(q n, k "j)) v "j,其中n,j∈[1,N]為輸入向量序列的位置,α nj表示第n個輸入關(guān)注到第j個輸入的權(quán)重,s(·) 為相似度函數(shù),softmax(·)為歸一化函數(shù)[25]。
自注意力機制可視為在一個線性投影空間中建立輸出序列為 H=[h 1,…,h "D]∈"Euclid Math TwoRAp
L×D 中不同向量之間的交互關(guān)系。而多頭自注意力則是在 M 個投影空間中應(yīng)用自注意力以捕捉到多個的投影空間中不同的交互信息: "εm∈{1,…,M}有 Q "m=E W m q, K "m=E W m k, V "m=E W m v,H=[ h 1;…;h "M] W "O,其中 W "O∈"Euclid Math TwoRAp
D×N, W m q∈"Euclid Math TwoRAp
N× D M , W m k∈"Euclid Math TwoRAp
N× D M , W m v∈"Euclid Math TwoRAp
N× D M "為投影矩陣[25]。
1.4 位置編碼
對于輸入數(shù)據(jù)的特征向量 Z ={z 1,z 2,…,z L}∈"Euclid Math TwoRAp
L×1 來說,其位置編碼向量 p (z l)∈"Euclid Math TwoRAp
L×N 常通過式(3)進行預(yù)定義[15]:
[ p (z j)] i= ""sin (pe(z j)/10000 i-1 M ) i為偶數(shù)
cos (pe(z j)/10000 i-1 M ) i為奇數(shù) """"(3)
其中: pe(z j) 表示 z j 在噪聲序列中的次序。該編碼方式無須引入額外的參數(shù)就可以對位置信息進行豐富編碼。
2 SGT模型
2.1 SGT的模型結(jié)構(gòu)
為捕捉事件序列的長程依賴關(guān)系,使生成序列的分布盡可能接近真實序列分布,提高時序點過程生成方法的學習效果,本文提出一種基于多頭自注意力機制和W距離的時序點過程生成學習方法SGT。該模型由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩部分構(gòu)成,含有位置編碼、多頭自注意力、殘差連接、層標準化、全連接層和softmax(·)層等組件,其模型結(jié)構(gòu)如圖1所示。
SGT模型具體構(gòu)成介紹如下:
a)生成網(wǎng)絡(luò)。設(shè)生成網(wǎng)絡(luò)的輸入噪聲序列和輸出序列分別是 Z={z 1,z 2,…,z L}和X={x 1,x 2,…,x L} ,生成網(wǎng)絡(luò)的目標是將噪聲序列轉(zhuǎn)換為判別網(wǎng)絡(luò)無法區(qū)分來源的事件序列 g θ(Z)=X 。由于在時序點過程中齊次泊松過程扮演著非信息性和類似均勻分布的角色,所以SGT的生成網(wǎng)絡(luò)在此輸入的噪聲序列采樣于齊次泊松過程。
因為生成網(wǎng)絡(luò)的主要結(jié)構(gòu)是自注意力機制,而其計算得到的權(quán)重缺少輸入序列中每個時間戳的位置信息,所以要對噪聲序列加入位置編碼進行修正。對于輸入的噪聲序列 Z={z 1,…,z L}∈"Euclid Math TwoRAp
L×1,令E=[e(z 1)+p(z 1),…,e(z L)+p(z L)],E∈"Euclid Math TwoRAp
L×N 由嵌入編碼 e(·)∈"Euclid Math TwoRAp
L×N和位置編碼p(·)∈"Euclid Math TwoRAp
L×N 組成。然后,將編碼后的噪聲序列輸入到多頭自注意力機制中,并使用放縮點積作為多頭自注意力的相似度函數(shù),得到輸出 H=[ h 1,h 2,…,h "M] W O∈"Euclid Math TwoRAp
L×N,其中 h "m =softmax( "Q "m K T "m "D k ") V "m 。 為避免當前事件受到未來事件的影響,在自注意力機制中添加了掩碼機制:在計算 Q "m K T "m(j,:)(矩陣 Q "m K T "m的第j 行)時,將 Q "m K T "m(j,j+1)、 Q "m K T "m(j,j+2)、 Q "m K T "m(j,L) 的值設(shè)為負無窮,則經(jīng)過softmax(·) 函數(shù)后,未來事件對當前事件的影響將變?yōu)?,使得每個事件僅受歷史事件的影響。進一步地,為了緩解由于模型深度增加而帶來的模型退化問題,在多頭自注意力的輸出中加入殘差連接。接下來,加入層標準化可以有效避免梯度消失和梯度爆炸問題;最后將多頭自注意力模型的輸出 H 輸入到全連接層,得到生成序列 X ={x 1,x 2,…,x n}=σ( HW f+ b f),其中σ(·) 是激活函數(shù)ELU(·), X ∈"Euclid Math TwoRAp
L×1, W f∈"Euclid Math TwoRAp
N×1, b f∈"Euclid Math TwoRAp
L×1 。
b)判別網(wǎng)絡(luò)。該網(wǎng)絡(luò)的目標是判斷其輸入序列是真實序列還是由生成網(wǎng)絡(luò)產(chǎn)生。除最后一層網(wǎng)絡(luò)外,SGT的判別網(wǎng)絡(luò)與生成網(wǎng)絡(luò)完全相同。判別網(wǎng)絡(luò)的最后一層為softmax(·),其輸出結(jié)果用來構(gòu)建整個網(wǎng)絡(luò)的損失函數(shù),以反映真實序列和生成序列的差異程度。
2.2 SGT的訓練過程
與WGAN一樣,SGT需使生成的時序點過程的分布盡可能接近真實時序點過程數(shù)據(jù)的分布。SGT的訓練過程如下:
a)生成 [0,T) 內(nèi)服從分布 Ρ z 的泊松噪聲序列 Z ,其中, Ρ z 的強度函數(shù)為 λ zgt;0 [7]。
b)將噪聲序列 Z 的生成序列 X 和真實序列 Y 代入式(2)。為使參數(shù)化模型族 g θ 滿足1-Lipschitz條件的同時避免梯度爆炸,在判別網(wǎng)絡(luò)訓練目標中加入梯度懲罰項 A ,則SGT的損失函數(shù)為
L =min "θ W(Ρ r,Ρ z)=
min "θ "max "w∈W,‖f w‖ L≤1 (Ε X~P r[f w(X)]-Ε Z~P z[f w(g θ(Z))]-A) ""(4)
其中: A=υ‖ |f w(X)-f w(g θ(Z))| |X-g θ(Z)| -1‖;υ 為梯度懲罰項的調(diào)節(jié)系數(shù)。生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)目標相反,生成網(wǎng)絡(luò)的目標函數(shù)為
min "θ "max "w∈W,‖f w‖ L≤1 Ε Z~P z[f w(g θ(Z))] ""(5)
c)用Adam優(yōu)化方法對損失函數(shù)訓練,最后進行模型評價。
2.3 實驗設(shè)置和算法流程
SGT模型使用批量大小 m =256的Adam優(yōu)化方法進行訓練,優(yōu)化方法的學習率 α =1E-4,一階和二階矩估計的指數(shù)衰減率分別為 β 1=0.5,β 2 =0.9。模型訓練15 000次并應(yīng)用早停法。SGT算法流程如下:
輸入:Lipschitz約束的正則系數(shù) υ=0.3 ;批量大小 m ;判別器迭代次數(shù) n d=5 ;判別網(wǎng)絡(luò)初始化參數(shù) w 0 ;生成網(wǎng)絡(luò)初始化參數(shù) θ 0 ;Adam優(yōu)化器的超參數(shù) α,β 1,β 2 。
輸出:生成器的生成序列。
while "θ "has not converged do
for "n =0,…, n d "do
{x(i)}m i=1~Ρ r ; //采樣得到真實序列
{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列
L←[ 1 m ∑m i=1f w(g θ(z(i)))- 1 m ∑m i=1f w(x(i))]+ υ∑m i,j=1‖ |f w(x i)-f w(g θ(z j))| |x i-g θ(z j)| -1‖; "http://判別損失
w←Adam( ""wL,w 0,α,β 1,β 2) ; //更新判別器參數(shù)
end for
{z(i)}m i=1~Ρ z ; //采樣得到噪聲序列
θ ←Adam(- """w 1 m ∑m i=1f w(g θ(z(i))),θ 0,α,β 1,β 2 ); /*更新生成器參數(shù)*/
end while
3 實驗過程及結(jié)果分析
3.1 數(shù)據(jù)集介紹
實驗共使用五個數(shù)據(jù)集,其中三個仿真數(shù)據(jù)集和兩個真實數(shù)據(jù)集,均是以.txt文本格式存儲的數(shù)值型數(shù)據(jù)。在時間窗[0,15)內(nèi),分別由非齊次泊松過程[21]、霍克斯過程[22]和自校正過程[23]產(chǎn)生三個仿真數(shù)據(jù)集,每個數(shù)據(jù)集均含有20 000條序列。三個用于產(chǎn)生仿真數(shù)據(jù)集的時序點過程參數(shù)設(shè)置如下:
a)非齊次泊松過程。其強度函數(shù)的形式為 λ(t)=∑k i=1α i (2π σ2 i)-1/2 exp (-(t-c i)2/σ2 i) ,參數(shù)設(shè)置為 k=3 , α=[4,8,11] , σ=[1,1,1] , c=[1,2,3] 。
b)霍克斯過程。其條件強度函數(shù)的形式為 λ(t)=μ+β∑ t ilt;tg(t-t i) ,參數(shù)設(shè)置為 μ=1.0 , β=0.8 ,衰減核 g(t-t i)= e -(t-t i) 。
c)自校正過程。其條件強度函數(shù)的形式為 λ(t)= exp (ηt-∑ t ilt;tγ) ,參數(shù)設(shè)置為 η=1.0 , γ=3.0 。
真實數(shù)據(jù)采用重癥監(jiān)護醫(yī)學數(shù)據(jù)集MIMIC-Ⅱ和社交網(wǎng)絡(luò)數(shù)據(jù)集meme,每個序列中事件發(fā)生的時間戳均被裁剪到[0,15)。真實數(shù)據(jù)集細節(jié)介紹如下:
a)MIMIC-Ⅱ(medical information mart for intensive care-Ⅱ)是一個免費開放的、公共資源的重癥監(jiān)護室研究數(shù)據(jù)集,該數(shù)據(jù)集是貝斯以色列迪康醫(yī)學中心(BIDMC)重癥監(jiān)護室中病人的醫(yī)療數(shù)據(jù),這些數(shù)據(jù)記錄了病人從發(fā)病、入診、檢查、治療到出院的時間點,共有650條序列。
b)meme數(shù)據(jù)集是描述社交網(wǎng)絡(luò)行為傳播的公開數(shù)據(jù)集,共包括超過1 720萬條新聞或博客的傳播時間點。本文對該數(shù)據(jù)集進行篩取,選取數(shù)據(jù)集中長度大于3的序列作為可使用數(shù)據(jù),共得到23 020條序列。
3.2 對比實驗和模型評價指標
選擇WGANTPP[7]和RMTPP[8]兩個模型與SGT作對比,其中,WGANTPP是文獻[7]提出的時序點過程生成方法,其模型采用RNN的變體LSTM[12]來構(gòu)建模型的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò),使用帶梯度懲罰項的W距離構(gòu)建損失函數(shù), 可以從RNN生成模型角度與SGT在時序點過程方面進行比較;RMTPP是文獻[8]首次將RNN應(yīng)用到時序點過程的理論模型,其開創(chuàng)性的成果使其成為學界在對深度時序點過程進行研究時重要的對比模型,該模型將時序點過程的強度函數(shù)表示為歷史的非線性函數(shù),使用極大似然構(gòu)建損失函數(shù),可以從RNN極大似然估計角度與SGT進行對比。與WGANTPP和RMTPP兩個模型進行對比,可以對SGT的有效性作出衡量。模型的評價指標選用QQ圖斜率和經(jīng)驗強度的平均絕對偏差。QQ圖能夠反映事件序列間的微觀依賴關(guān)系,經(jīng)驗強度反映序列的宏觀動態(tài)信息,它們的平均絕對偏差越小,表明學習方法越優(yōu)秀[7]。具體原理如下:
a)強度函數(shù) λ(t) 的積分 Λ=∫t i+1 t iλ(s) d s 與參數(shù)為1的指數(shù)分布的QQ圖應(yīng)該落在45°參考線附近[7]。 因此取序列QQ圖斜率與參考線斜率的平均絕對偏差作為模型效果的評價指標。
b)雖然SGT是一個無強度函數(shù)的模型,但可以通過比較生成序列與真實數(shù)據(jù)經(jīng)驗強度的平均絕對偏差來評估模型的優(yōu)劣[7]。經(jīng)驗強度 λ′(t)=E(N(t+δt)-N(t))/δt表示[t,t+δt] 發(fā)生事件的平均數(shù)。
3.3 實驗結(jié)果分析
3.3.1 仿真數(shù)據(jù)集結(jié)果分析
三個仿真數(shù)據(jù)集下SGT及其對比模型的生成樣本案例如圖2所示,其中紅色曲線為真實樣本,黃色、綠色和藍色曲線分別是SGAN、WGANTPP和RMTPP模型的生成樣本(見電子版), t 表示時間窗口內(nèi)事件發(fā)生的時間, N(t) 表示時間窗口內(nèi)發(fā)生的事件數(shù)。觀察圖2可知,SGT模型生成的樣本案例與真實樣本案例的最為接近。在仿真數(shù)據(jù)集上SGT、WGANTPP和RMTPP模型生成樣本與真實樣本的均方根誤差(RMSE)分別為1.236、2.324和2.333,其中SGT生成樣本與真實樣本的RMSE最小。不同模型在不同時序點過程上的生成序列和仿真數(shù)據(jù)的QQ圖如圖3所示,其中紅點是仿真序列數(shù)據(jù)的QQ圖(見電子版)。觀察圖3得知,除霍克斯數(shù)據(jù)集外,SGT的生成序列與仿真序列數(shù)據(jù)的QQ圖差異最小。表1匯總了五次實驗得到的QQ圖斜率偏差的均值和標準差。在缺失強度函數(shù)先驗知識的情況下,除了在霍克斯數(shù)據(jù)集上是次優(yōu)的外,由SGT得出的QQ圖斜率偏差要明顯小于另外兩個模型,總體上比基于RNN的生成模型WGANTPP的結(jié)果減少49.2%,比基于RNN的極大似然模型RMTPP的結(jié)果減少21.05%。
圖4是不同模型在不同時序點過程中的經(jīng)驗強度比較,直觀地展現(xiàn)了不同模型在三個仿真數(shù)據(jù)集上學習到的經(jīng)驗強度,紅線是仿真序列的經(jīng)驗強度(見電子版)。觀察圖4得知,除霍克斯數(shù)據(jù)集外,SGT的生成序列和仿真序列的經(jīng)驗強度最為接近。表2匯總了五次實驗得到的經(jīng)驗強度偏差的均值和標準差。從表2可以看出,在缺失強度函數(shù)先驗知識的情況下,除了在霍克斯數(shù)據(jù)集上是次優(yōu)的外,SGT生成序列和仿真序列的經(jīng)驗強度偏差最小,SGT經(jīng)驗強度的偏差比WGANTPP減少41.56%,比RMTPP減少6.84%。
3.3.2 真實數(shù)據(jù)集結(jié)果分析
圖5是兩個真實數(shù)據(jù)集下SGT及其對比模型的生成樣本案例,不同的真實數(shù)據(jù)擁有不同的發(fā)生方式。由圖5可知,SGT模型生成的樣本與真實樣本最接近。計算SGT、WGANTPP和RMTPP模型生成樣本與真實樣本的均方根誤差(RMSE)分別為1.243、3.331和3.096,其中SGT生成樣本的RMSE最小。由于真實數(shù)據(jù)的潛在生成過程未知,通常被看做是從特定領(lǐng)域產(chǎn)生的某種類型的時序點過程,不是由已知強度函數(shù)參數(shù)的時序點過程生成的,故不能對真實數(shù)據(jù)進行QQ圖比較。因此,在真實數(shù)據(jù)集上僅選用經(jīng)驗強度的平均絕對偏差作為模型的評價指標。圖6是醫(yī)療數(shù)據(jù)集MIMIC
-Ⅱ和社交網(wǎng)絡(luò)數(shù)據(jù)集meme的經(jīng)驗強度圖,可以直觀看出SGT生成的序列數(shù)據(jù)更加符合真實數(shù)據(jù)的分布。
隨機初始化生成網(wǎng)絡(luò)的參數(shù),運行五輪得到經(jīng)驗強度偏差的均值和標準差,結(jié)果如表3所示。與基于RNN的生成模型WGANTPP和極大似然模型RMTPP相比,SGT模型的經(jīng)驗強度偏差最小。
3.4 損失收斂曲線
SGT模型在非齊次泊松數(shù)據(jù)集上的損失函數(shù)的收斂曲線如圖7所示,在其他數(shù)據(jù)集上的收斂曲線與其類似。觀察圖7可知,由于生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的目標相反,模型的損失在對抗變化,即在迭代次數(shù)小于1 700時,隨著模型訓練的進行生成網(wǎng)絡(luò)的生成能力逐漸增強,開始生成高質(zhì)量的時序點過程序列,而此時判別網(wǎng)絡(luò)的鑒別能力相對較弱,難以有效分辨出生成序列的真假;當?shù)螖?shù)處于[1700,3000]時,判別網(wǎng)絡(luò)的鑒別能力開始逐步提升,逐漸能夠分辨出生成序列的真假;當?shù)螖?shù)在[3000,5000]時,損失開始振蕩變化;當?shù)螖?shù)大于10 000時,損失的振蕩趨于平穩(wěn),并于迭代完成時,損失在-5附近動態(tài)波動。
3.5 模型可解釋性
SGT與RMTPP和WGANTPP相比,除了在時序點過程的生成學習方面有更優(yōu)的表現(xiàn)外,還具有更好的模型可解釋性。將SGT模型在不同數(shù)據(jù)集上的自注意力權(quán)重進行可視化,如圖8所示,圖中的每一行表示歷史事件對當前事件的影響程度,顏色越深表示影響程度越大(見電子版)。
從圖8可以看出,若序列采樣自非齊次泊松過程,則歷史事件對序列的影響程度相似且較弱;若序列采樣自霍克斯過程,則事件受歷史事件影響明顯,并且歷史事件中存在對未來事件影響程度很大的特殊事件;若序列采樣于自校正過程,則歷史事件對未來事件的發(fā)生存在影響。就真實數(shù)據(jù)meme和MIMIC-Ⅱ而言,事件易受相鄰較近的歷史事件影響,但隨著歷史序列長度的增加,歷史事件的影響程度趨于平均,不存在對事件影響程度很大的特殊事件。因此,在進行精確建模時可以首先考慮非齊次泊松過程。
4 結(jié)束語
本文提出了一種基于多頭自注意力機制和W距離的深度時序點過程生成學習方法。該方法在強度函數(shù)先驗信息未知情況下可以直接探究時序點過程的生成過程,能夠生成與真實事件序列分布相同的序列數(shù)據(jù),且模型泛化能力較強。與RNN類深度時序點過程模型相比,SGT中的多頭自注意力機制可以有效克服遞歸結(jié)構(gòu)所引起的長程依賴問題,提升模型運行效率且更具可解釋性。在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上的對比實驗表明,SGT比RNN類的生成模型和極大似然模型在QQ圖斜率的偏差和經(jīng)驗強度偏差這兩個指標總體上分別減少了35.125%和24.200%,證實了所提模型的有效性,表明SGT比RNN類模型在時序點過程研究方面具有更優(yōu)的表現(xiàn)。未來希望將網(wǎng)絡(luò)中的所有參數(shù)進行譜歸一化處理,提高SGT在霍克斯過程上的表現(xiàn)能力,并且不再限制研究模型的時間窗口,在更長的真實事件序列上驗證所提SGT的有效性。
參考文獻:
[1] "Ding Xiao,Shi Jihao,Duan Junwen, et al .Quantifying the effects of long-term news on stock markets on the basis of the multikernel Hawkes process[J]. Science China Information Sciences ,2021, 64 (9):article No.192102.
[2] Bacry E,Mastromatteo I,Muzy J F.Hawkes processes in finance[J]. Market Microstructure and Liquidity ,2015, 1 (1):1550005.
[3] Wang Yichen,Xie Bo,Du Nan, et al. "Isotonic Hawkes processes[C]//Proc of the 33rd International Conference on Machine Lear-ning.2016:2226-2234.
[4] 江海洋,王莉.一種建模社交化點過程序列預(yù)測算法[J].中國科學技術(shù)大學學報,2019, 49 (2):149-158. (Jiang Haiyang,Wang Li.A modeling socialization point process sequence prediction algorithm[J]. Journal of University of Science amp; Technology of China ,2019, 49 (2):149-158.)
[5] Daley D J,Vere-Jones D.An introduction to the theory of point processes[M].New York:Springer,2008:76-88.
[6] Aalen O O,Borgan O,Gjessing H K.Survival and event history analysis:a process point of view[J]. International Statistical Review ,2009, 77 (3):463-464.
[7] Xiao Shuai,F(xiàn)arajtabar M,Ye Xiaojing, "et al .Wasserstein learning of deep generative point process models[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:3247-3257.
[8] Du Nan,Dai Hanjun,Trinedi R, et al .Recurrent marked temporal point processes:embedding event history to vector[C]//Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016:1555-1564.
[9] Xiao Shuai,Yan Junchi,Yang Xiaokang, et al .Modeling the intensity function of point process via recurrent neural networks[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:1597-1603.
[10] 劉鑫.基于時間點過程對科技文獻引用行為的建模與預(yù)測[D].上海:華東師范大學,2018. (Liu Xin.Modeling and predicting scientific literature’s citation via temporal point process[D].Shanghai:East China Normal University,2018.)
[11] Gulrajani I,Ahmed F,Arjovsky M, et al .Improved training of Wasserstein GANs[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5769-5779.
[12] Hochreiter S,Schmidhuber J.Long short-term memory[J]. Neural Computation ,1997, 9 (8):1735-1780.
[13] Chung J,Gulcehre C,Cho K, et al .Empirical evaluation of gated recurrent neural networks on sequence modeling[EB/OL].(2014-12-11).https://arxiv.org/pdf/1412.3555.pdf.
[14] 馮永,張春平,強保華,等.GP-WIRGAN:梯度懲罰優(yōu)化的Wasserstein圖像循環(huán)生成對抗網(wǎng)絡(luò)模型[J].計算機學報,2020, 43 (2):190-205. (Feng Yong,Zhang Chunping,Qiang Baohua, et al .GP-WIRGAN:a novel image recurrent generative adversarial network model based on Wasserstein and gradient penalty[J]. Chinese Journal of Computers ,2020, 43 (2):109-205.)
[15] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5998-6008.
[16] Hu Mingxuan,He Min,Su Wei, et al .A TextCNN and WGAN-GP based deep learning frame for unpaired text style transfer in multimedia services[J]. Multimedia Systems ,2021, 27 (8):723-732.
[17] 段超,張婧,何彬,等.融合注意力機制的深度混合推薦算法[J].計算機應(yīng)用研究,2021, 38 (9):2624-2627,2634. (Duan Chao,Zhang Jing,He Bin, et al .Deep hybrid recommendation algorithm incorporating attention mechanism[J]. Application Research of Computers ,2021, 38 (9):2624-2627,2634.)
[18] "Leng Xueliang,Miao Xiaoai,Liu Tao.Using recurrent neural network structure with enhanced multi-head self-attention for sentiment analysis[J]. Multimedia Tools and Applications ,2021, 80 (3):12581-12600.
[19] Xiao Xi,Xiao Wentao,Zhang Dianyan , et al .Phishing websites detection via CNN and multi-head self-attention on imbalanced datasets[J]. Computers amp; Security ,2021, 108 (9):102372.
[20] Zhang Qiang,Lipani A,Kirnap O, et al .Self-attentive Hawkes process[EB/OL].(2020-02-14).https://export.arxiv.org/pdf/1907.07561.
[21] Kingman J F C.Poisson processes[M].Oxford:Clarendon Press,1993:20-55.
[22] Du Haizhou,Zhou Yan,Ma Yunpu, et al .Astrologer:exploiting graph neural Hawkes process for event propagation prediction with spatio-temporal characteristics[J]. Knowledge-Based Systems ,2021, 228 (9):107247.
[23] Isham V,Westcott M.A self-correcting point process[J]. Stochastic Processes and Their Applications ,1979, 8 (3):335-341.
[24] Arjovsky M,Chintala S,Bottou L.Wasserstein GAN[EB/OL].(2017-03-09).https://arxiv.org/pdf/1701.07875v2.pdf.
[25] 邱錫鵬.神經(jīng)網(wǎng)絡(luò)與深度學習[M].北京:機械工業(yè)出版社,2020:194-200. (Qiu Xipeng.Neural network and deep learning[M].Beijing:China Machine Press,2020:194-200.)