亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于行為向量的在線事件流預測

2022-11-07 05:34:10方賢文

計算機集成制造系統(tǒng) 2022年10期

盧可，方賢文,2+，方娜

(1.安徽理工大學數(shù)學與大數(shù)據(jù)學院，安徽淮南 232001；2.同濟大學嵌入式系統(tǒng)與服務計算教育部重點實驗室，上海 201804)

0 引言

業(yè)務流程監(jiān)控在運行時分析系統(tǒng)執(zhí)行信息，以了解系統(tǒng)的性能和與目標的偏差。預測能夠提前感知異常情況，在業(yè)務流程監(jiān)控中發(fā)揮著重要的作用[1]。常見的預測目標包括預測案例完成之前的剩余時間[2-4]、下一個活動[5-7]、下一個時間戳[8-9]、所使用的資源[10]等。其中，預測下一個活動能夠使業(yè)務流程的相關人員預先對系統(tǒng)中的風險采取應對措施，預防系統(tǒng)出現(xiàn)問題[11]。為了能對逐年驟增的業(yè)務流程及時做出反應，近年很多學者開始關注在線過程分析[12]，而正在運行的實例信息通常以事件流的形式記錄，因此研究基于在線事件流愈發(fā)重要。

早期研究通常關注存儲于數(shù)據(jù)庫的離線數(shù)據(jù)[13]，通過隱馬爾科夫模型等統(tǒng)計方法分析信息系統(tǒng)生成的日志信息，獲得對企業(yè)面臨的相關問題的深入思考[14]。還有一些研究采用推薦系統(tǒng)中的方法分析日志，以推薦下一個活動的形式進行預測分析[15]。

近些年，隨著計算機硬件和人工智能的發(fā)展，一些研究受到自然語言處理(Natural Language Processing, NLP)的啟發(fā)，將事件日志視為文本，引入深度學習的思想，將預測下一個事件轉為預測句子中下一個單詞的問題來處理[16]。在此背景下，循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)[17]、長—短期記憶網(wǎng)絡(Long Short Term Memory, LSTM)[9,18]、卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)[11,19]、堆疊式自動編碼器[20]等各種先進的神經(jīng)網(wǎng)絡被應用于預測下一個事件場景。EVERMANN等[17]描述了具有遞歸神經(jīng)網(wǎng)絡的深度學習在預測下一個過程事件上的初步應用；CAMARGO等[9]提出一種采用LSTM架構訓練遞歸神經(jīng)網(wǎng)絡的方法，以預測下一個事件的剩余序列、運行周期時間及相關資源；LIN等[18]采用LSTM網(wǎng)絡對事件信息及其屬性分別編碼，然后將其組合在一起作為給定序列歷史信息的隱藏表示，再用另一個LSTM層作為解碼器，同時對下一個事件及其屬性進行預測。受到前期深度學習算法在預測性過程挖掘領域的啟發(fā)，AL-JEBRNI等[11]采用五層一維卷積神經(jīng)網(wǎng)絡(one-Dimensional Convolution Neural Network, 1D CNN)預測下一個過程事件，并在所提供的數(shù)據(jù)集上取得當時同領域最佳的表現(xiàn)；PASQUADIBISCEGLIE等[19]同樣采用CNN將業(yè)務流程歷史事件日志中包含的時間數(shù)據(jù)轉換為空間數(shù)據(jù)，然后用空間數(shù)據(jù)訓練CNN，以預測下一個活動；MEHDIYEV等[20]則采用一種多階段的深度學習算法，包括無監(jiān)督的預訓練組件與堆疊的自動編碼器和有監(jiān)督的微調組件，并在各種業(yè)務流程日志數(shù)據(jù)集上得到了較好的結果。

雖然深度學習領域的方法均已成功用于真實案例，但是仍然存在一些缺陷。目前關于預測下一個事件的方法以事件流為研究起點，采用One-Hot編碼[2,7,10,21]或者基于事件的頻率[19]表示事件流。One-Hot編碼具有以下特點：①假設對象之間相互獨立；②不考慮對象之間的順序。

然而事件流之間不僅相互影響，還有特定的行為關系，因此采用One-Hot編碼會導致研究過程中缺少對事件流行為的分析。因此，本文提出基于行為編碼的預測方法，主要貢獻如下：

(1)定義了基于實時數(shù)據(jù)的事件流行為輪廓。通過細化事件流之間的行為關系，捕獲活動之間的順序、循環(huán)、并發(fā)及排他關系。

(2)提出一種新的事件編碼方式——行為編碼，對活動進行編碼，從而衡量活動之間的行為距離、內(nèi)在聯(lián)系和活動順序。

(3)采用協(xié)同過濾的思想對當前事件流進行推薦，從而預測下一個可能發(fā)生的事件流。

1 基本概念

本章介紹了本文所需的背景知識，包括活動、跡、事件日志(如表1)、事件流和傳統(tǒng)的模型行為輪廓。

表1 事件日志片段

1.1 日志和事件流

事件是活動的一次執(zhí)行，可以由各種屬性表征。例如，事件可以具有時間戳、與活動相對應的名稱、特定的執(zhí)行人員和執(zhí)行的相關成本等屬性。事件日志由多組事件序列構成，其與事件流的區(qū)別在于，事件日志是存儲于數(shù)據(jù)庫或本地文檔的有限、離線數(shù)據(jù)，事件流是系統(tǒng)運行時的無限、實時數(shù)據(jù)。

定義2事件流[23]。A為一組活動集，C為所有可能的案例標識符的集合。事件流S=(c,a)為C×A上的序列，即S∈(C×A)*，其中c∈C,a∈A。

Si=(c,a)表示i時刻，案例標識符為c，發(fā)生了活動a。兩個事件流之間的距離記為D(Si,Sj)。Si的下一個事件流Sj需同時滿足兩個條件：①與Si具有相同的案例標識符；②與Si距離最小。

1.2 模型的行為輪廓

為了捕獲過程模型的基本行為約束，本節(jié)引入模型行為輪廓的概念(簡稱行為輪廓)。

定義3行為輪廓[24]。假設(N,M0)為一個網(wǎng)，對于任意變遷對(t1,t2)∈(T×T)：

(1)若t1?t2且t2t1，則t1和t2為嚴格序關系，記作t1→t2。

(2)若t1t2且t2?t1，則t1和t2為嚴格逆序關系，記作t1←-1t2。

(3)若t1t2且t2t1，則t1和t2為排他關系，記作t1+t2。

(4)若t1?t2且t2?t1，則t1和t2為交叉序關系，記作t1||t2。

將所有關系的集合稱為網(wǎng)系統(tǒng)的行為輪廓，記作BP={→,←-1,+,||}。

1.3 協(xié)同過濾

作為推薦系統(tǒng)中的重要技術，協(xié)同過濾[25]廣泛應用于電子商務，根據(jù)用戶或項目之間的關系，其能夠從候選集中推薦出最相似的選擇。本文將預測系統(tǒng)運行的事件流問題預測視為一種推薦問題，采用推薦系統(tǒng)領域的方法分析系統(tǒng)的運行情況，實時預測事件流的發(fā)生。傳統(tǒng)的協(xié)同過濾算法分為基于用戶的協(xié)同過濾、基于項目的協(xié)同過濾、基于模型的協(xié)同過濾3種類型，其中前兩種屬于基于記憶的協(xié)同過濾算法，因此具有相似的分析步驟[26]：

(1)計算用戶或項目之間的相似度通過分析數(shù)據(jù)之間的關系比較數(shù)據(jù)中間的相似性。傳統(tǒng)的相似度度量方法有皮爾遜相關系數(shù)法、向量余弦法等[27]。

(2)尋找相似近鄰經(jīng)過(1)計算后，需要選擇所需的相似的數(shù)據(jù)。尋找相似近鄰的方法主要有使用設定閾值和k近鄰搜索算法。

(3)TopN推薦[28]協(xié)同過濾算法根據(jù)近鄰信息為用戶返回候選的推薦列表。本文采用協(xié)同過濾的基本思想，將其應用到實時預測的事件流情景中。

2 基于事件流行為向量的預測

當前研究工作已經(jīng)對各種預測方法進行了探索，如基于Markov等統(tǒng)計模型的預測方法、基于自動機的預測方法和基于Petri網(wǎng)的預測方法等(關于這幾類方法的對比可參閱文獻[6])，這些方法在分析事件日志或事件流時，有些只考慮活動與前驅和后繼的關系，有些只考慮活動本身的狀態(tài)，有些甚至沒有體現(xiàn)活動之間的關系。為了在預測分析過程中考慮事件流以及所有事件流之間的行為關系，需要一種新的事件流編碼方式將事件流輸入到算法中。因此，本章提出一種協(xié)同過濾算法，基于事件流的行為向量實時預測系統(tǒng)中即將發(fā)生的下一個事件流。

2.1 定義事件流行為輪廓

傳統(tǒng)的行為輪廓旨在分析模型中活動之間的序列關系，捕獲過程模型中存在的基本行為約束[24]。本文需要對事件流進行分析，而傳統(tǒng)的行為輪廓無法直接滿足需求，因此本節(jié)基于傳統(tǒng)的行為輪廓重新定義一組行為輪廓關系概念來描述在線事件流之間的關系。

對于事件流S，尋找與其具有相同案例標識符的事件流S′，基于這兩個事件流，給出事件流嚴格序的定義。為了便于體現(xiàn)事件發(fā)生的順序，在事件流的定義中考慮事件的發(fā)生時間t。

圖1所示為嚴格序的簡單示例，其中S1=(1001,a)和S3=(1001,b)是一對嚴格序關系的事件流。因為S1和S3的案例標識符均為1001，S2=(1002,e)的案例標識符為1002，不滿足定義的第一個條件，而S6=(1001,c)的案例標識符雖然也是1001，但是D(S1,S6)=5>D(S1,S3)=2,所以S6并不是與S1距離最近的下一個事件流。

嚴格序反映了事件之間的順序關系，其前件事件流的發(fā)生時間在前，后件事件流的發(fā)生時間在后，后面發(fā)生的事件總是在前面發(fā)生的事件之后，因此容易推導出嚴格序具有傳遞性，將此傳遞性形式化為性質1：

定義5事件流間接嚴格序。事件流間接嚴格序簡稱為間接嚴格序，記為，事件流和Si之間的間接嚴格序表示為

基于模型結構的行為輪廓可以快速獲取行為之間的各種關系，然而在源源不斷的實時數(shù)據(jù)流中，能直接獲取的只有前后密切相關的嚴格序。因此，欲分析事件流中的所有事件，只關注某一時刻的運行狀態(tài)遠遠不夠。這里將觀察的范圍擴大，使用輸入流的滑動窗口[29]對接收的數(shù)據(jù)進行分析。

如果對于任意c∈C，滑動窗口w中的事件流Si和Sj都不存在i和j，使得Si→Sj或者Sj→Si，則Si和Sj為事件流排他序。如圖2所示，Si=(1001,b)和Sj=(1002,c)在窗口w中為排他序。

定義6事件流排他序。事件流排他序簡稱為排他序，記為+，Si和Sj之間的排他序表示為Si+Sj，if ?i,j∈[0,∞],c∈C?SiSj∨SjSi。

從傳統(tǒng)行為輪廓的定義可知，出現(xiàn)交叉序的情況分為兩種：①并發(fā)結構導致的事件發(fā)生順序不確定，而且事件不處于任何一個循環(huán)結構中；②由于循環(huán)結構導致一組事件重復發(fā)生，從而使同一活動在執(zhí)行時呈現(xiàn)交叉序。這兩種情況增大了分析模型的難度，因此將交叉序細化，分為并發(fā)交叉序和循環(huán)交叉序兩種情況分別討論。

如果在窗口w中，對于Si和Sj既有Si→Sj，又有Sj→Si，則Si和Sj為交叉序。

定義7事件流并發(fā)交叉序。事件流并發(fā)交叉序簡稱為交叉序，記為||，Si和Sj之間的交叉序表示為Si||Sj，if ?i,j∈[0,∞],?c1∈C?Si→Sj∧?c2∈C?Sj→Si。

如果在窗口w中一組事件流重復出現(xiàn)，則這組事件流中的每個事件與其自身為循環(huán)交叉序(如圖3)，循環(huán)體的不同事件之間是嚴格序。

定義8事件流循環(huán)交叉序。事件流循環(huán)交叉序簡稱為循環(huán)交叉序，Si和Sj之間的循環(huán)交叉序表示為Si||○Sj,if …SiSi+1Si+2S…Sj…,?i,j∈[0,∞]?Si=Sj。

定義9事件流循環(huán)內(nèi)嚴格序。簡稱為循環(huán)內(nèi)嚴格序(如圖4)，Si和Sj之間的循環(huán)內(nèi)嚴格序表示為Si○→Sj，如果存在一個案例c，使Si和Sj處于一個循環(huán)序列中，且Si→Sj。

以上定義的6種事件流之間的關系形成了事件流的行為輪廓，而事件發(fā)生的頻率在一定程度上能夠體現(xiàn)其在系統(tǒng)中的重要性，因此將頻率作為事件流行為輪廓的一部分。

定義10事件流行為輪廓EBP。EBPR={…,(Si,Sj)N,…},i,j∈(1,∞)，其中R={→,,||,||○,○→,+}為行為關系，N為R在窗口w內(nèi)發(fā)生的次數(shù)，記作∏(SiRSj)=N。

2.2 在線識別事件流行為輪廓

本節(jié)通過在線事件流行為輪廓，從正在運行的系統(tǒng)中學習事件流之間的行為關系。因為事件流是活動在某一時刻的運行狀態(tài)，數(shù)據(jù)項的順序已經(jīng)由每個項到達的時間戳決定[25]，所以在特定時刻只能觀察到某個事件及其前一個事件。而事件流行為輪廓的后3種關系均建立在嚴格序的基礎上，因此首先需要從事件流中獲取嚴格序關系。

首先假設事件流為單線程，這樣系統(tǒng)中每次只有一個案例c1在發(fā)生，當c1結束后，c2才可以發(fā)生。采用一個集合EBP→存儲獲取的所有嚴格序。在時刻i，觀察到事件流Si及其上一個事件Si-1，根據(jù)定義2判斷Si-1和Si之間的關系為嚴格序，即Si-1→Si，將其加入集合EBP→，此時EBP→={(Si-1,Si)}。同樣，在時刻j對其進行同樣操作，可得Sj-1→Sj。以此類推，每個新到達的事件流均被立即處理。如果該嚴格序是第一次出現(xiàn)，即Si-1≠Sj-1或Si≠Sj，則直接加入集合，此時EBP→={(Si-1,Si),(Sj-1,Sj)}；如果已經(jīng)在集合中出現(xiàn)了至少一次，如Si-1=Sj-1且Si=Sj，則更新該項的次數(shù)，記為EBP→={(Si-1,Si)2}。

上述分析只適用于理想情況，即連續(xù)的事件流都屬于同一個案例c，且事件發(fā)生時必須是連續(xù)、不可中斷的，然而這種理想狀況在實際中出現(xiàn)的概率非常低，而且因為硬件的快速發(fā)展，絕大多數(shù)系統(tǒng)都支持多線程同時進行，只著眼于某一時刻無法洞悉整個系統(tǒng)的結構，所以引入滑動窗口來擴大事件流的檢測視圖，構造滑動窗口中所有活動之間的行為關系矩陣。

滑動窗口分為基于時間定義的滑窗和基于元組個數(shù)定義的計數(shù)滑窗兩類，本文基于滑動窗口觀察運行的事件流，將事件流按照發(fā)生的時間戳重新定義單位時間，只考慮事件流的到達順序而不關注具體的時間點，即采用基于元組個數(shù)定義的滑動窗口。

為了同時分析滑動窗口中的多個案例，需要設置一個緩存機制。首先將滑動窗口內(nèi)各個案例的第1個事件Si=(ci,xi)，Sj=(cj,xj)，Sk=(ck,xk)等保存到緩存機制中，當下一時刻匹配到擁有相同案例標識符的第2個事件時，如出現(xiàn)Si+1=(ci,xi+1)，將該案例的第1個Si=(ci,xi)從緩存機制中取出，采用本節(jié)開始的方法對Si和Si+1進行分析。重復以上步驟，直到事件流結束，可以獲得一個當前滑動窗口范圍內(nèi)觀測到的所有事件流的一個完整嚴格序集EBP→={(S1,S2)m,…,(Si,Sj)n,…}。

由于滑動窗口視圖擴大了分析的范圍，此時可以觀察到事件流中包含的循環(huán)結構。對于其中的循環(huán)結構，通過循環(huán)交叉序的定義可以識別出符合循環(huán)交叉序的事件流，將其加入循環(huán)交叉序集EBP||○。若Si=(ci,xi)||○Si=(ci,xi)，則Si中的xi為循環(huán)體的起始事件，將其作為循環(huán)的開始標志。對循環(huán)體只分析一次，以避免重復分析，循環(huán)體內(nèi)部的嚴格序加入循環(huán)嚴格序集EBP||→中。

隨后通過嚴格序集，根據(jù)定義推導其他行為關系。如果不包含循環(huán)結構，而且在嚴格序集EBP→中，既有(Si,Sj)n也有(Sj,Si)m，則Si和Sj為并發(fā)交叉序關系，將其加入并發(fā)交叉序集EBP||中。為了全面探索活動之間的行為關系，用行為關系矩陣表示已經(jīng)獲得的行為關系。

定義11行為關系矩陣

EBP→∪EBP∪EBP○→∪EBP||∪EBP||○

∪EBP+,Rij∈{→,,○→,||,||○,+}。

行為關系矩陣的行和列分別表示事件流中的活動集，矩陣中的元素表示活動對之間的行為關系及發(fā)生頻率。將嚴格序集和循環(huán)交叉序的元素存儲在行為關系矩陣的對應位置，很容易推導出間接嚴格序，將其存入間接嚴格序集EBP中。此時矩陣中仍然存在空值，表示對應的兩個活動x，y之間沒有前面所述的4種行為關系，即x，y為排他序，將對應事件存入排他序集EBP+中。最后將4個集合中的元素按照對應關系存入行為關系矩陣，將推導事件流之間行為關系的步驟形式化為算法1。

算法1推導事件流行為關系。

輸入:事件流S。

輸出:事件流行為矩陣M。

1 Initialization Slide Window w,Event Stream Behavioural MatrixM, EBP→,EBP,EBP‖,EBP,EBP,EBP+;

2 for S in w do

3 if (Si,Sj) in EBP→then

4 ∏(Si,Sj)=N+1

5 else

6 EBP→←(Si,Sj)

7 end

8 if Sj=Skin Sito Si+wthen

9 EBP←(Sj,Sj);

10 EBP←other event stream between Siand Si+w

11 end

12 end

13 for i,j inMdo

14 if Mijis null then

15 if (Si,Sj)nand (Sj,Si)min EBP→then EBP‖→←(Si,Sj)n,(Sj,Si)m;

16 if (Sx,Sx+1),…,(Sx+y-1,Sx+y) in EBP→then EBP←(Sx,Sx+y);

17 else EBP+←(Si,Sj);

18 end

19 end

20M←EBP→∪EBP∪EBP‖∪EBP∪EBP∪EBP+

輸出：M

算法1第1～11行通過緩存事件流直接獲取一部分事件流行為輪廓關系。其中第3～7行分析一對事件流的嚴格序關系，如果該關系已經(jīng)存在于事件流行為矩陣M中，則計數(shù)加1，否則將其存入事件流嚴格序集EBP→中。如果該關系的逆已經(jīng)存在于M中，則將其關系替換為循環(huán)交叉序集EBP||○，并將該關系及其逆序從嚴格序集中刪除。

當對事件流的分析結束時，再基于行為關系矩陣M推導其他行為關系(第12～19行)，關于推導循環(huán)內(nèi)嚴格序、間接嚴格序和排他序的關系的具體步驟在上文已經(jīng)給出。第20行獲得一個關于事件流中所有活動之間的行為輪廓關系矩陣。

2.3 預測下一個事件

本節(jié)以協(xié)同過濾算法為基礎，對其每一步進行調整以適應事件流場景。首先將事件流序列與事件流之間的行為特征結合，構造一個既能體現(xiàn)行為關系，又能用于協(xié)同過濾的事件流向量，然后將其應用于系統(tǒng)的事件流分析，對每個運行中的事件流進行實時預測。

2.3.1 構造行為向量

在描述算法之前，先定義一些新概念。為了便于計算事件流之間的相似度，即具有相同案例標識符的事件構成的序列，需要將向量作為輸入。首先定義一個映射函數(shù)，將行為輪廓矩陣中的關系映射成為特定的數(shù)值。

定義12行為輪廓映射函數(shù)。使用行為輪廓映射函數(shù)F(R)=N,N∈[-3,3]，將行為輪廓矩陣轉換為一個整數(shù)型行為關系矩陣M′，其每個元素均為特定范圍間的整數(shù)。

通過定義12將事件流對應的符號轉變?yōu)閿?shù)值型數(shù)據(jù)，這樣矩陣中的每一行就可以轉變?yōu)橐粋€數(shù)值型的行向量，將該行向量稱為事件流向量。

定義13事件流編碼

vi=[F(Ri1),F(Ri2),…,F(Rin)]=Mi,

n=count(Sd)。

式中：vi為第i個事件流的向量形式，n為不相同的事件流Sd的總數(shù)。事件流序列是由擁有相同案例標識符的事件流構成的序列。因此，將事件流序列向量表示為事件流向量的連接。

定義14事件流序列編碼

V=[…vi·vj…]=[…F(Ri1),F(Ri2),…,

F(Rin)，…，F(xiàn)(Rj1),F(Rj2),…,F(Rjn)，…]。

2.3.2 預測事件流

事件流的向量表達形式不僅可以用來反映事件流之間的順序、循環(huán)等結構的相似性，還可以量化事件流在空間上的相似性。

定義15相似度

將預測事件流的步驟形式化為算法2，算法思想是基于已經(jīng)發(fā)生的m個事件流，預測第(m+1)個事件流。

算法2預測下一個事件流。

輸入:事件流關系矩陣M。

輸出:預測結果cond。

1 Initialization Event stream vertor V, similarity event stream squences matrix SimMatrix, Next event stream matrix Vnext;

2 begin

3 v['end']=|Set(events)|

4 M′=F(M)

5 for event,index in Set(events) do

6 v[event]=M′[index]

7 end

8 while event do

//kenel of algorithm

9 V=V.conc(v[event])

10 Vtemp=V.pad(v['end'])

11 foreach event′ in Set(events) do

12 add V.conc(v[event′]) to Vnext

13 end

14 SimMatrix=Sim(Vtemp,Vnext)

15 cond=KNN(SimMatrix,k)

16 end

17 end

構造的事件流序列向量長度為m×|Set(events)|，候選集的長度為(m+1)×|Set(events)|，需要將向量擴充至相同長度。因此，算法2第3行先初始化一個空事件流向量，用于補齊事件流向量；第4行將行為輪廓矩陣中的符號轉換為數(shù)值型數(shù)據(jù)，得到對應的整數(shù)型關系矩陣；第5～7行將矩陣的每一行賦值給每個事件流，即用事件流行為輪廓定義事件流編碼。

算法2第8～17行分析運行中的事件流，每個事件流發(fā)生時(第8行)，將其轉換為對應的事件流編碼(第9行)。此時的事件流序列中包含m個事件流，將其擴充到m+1個事件流的長度(第10行)。將候選事件流序列集用Vnext表示，在第11～13行將所有長度為m+1的事件流列入候選集，然后通過Sim函數(shù)計算當前事件流序列與候選事件流序列之間的相似度(第14行)。最后，采用k近鄰搜索算法得到最終預測結果(第15行)。

3 評估

本文基于Python實現(xiàn)了第2章所提算法。使用開源的過程挖掘項目pm4py[30]將XES[31]格式的日志轉換為由事件流構成的CSV格式，然后將其以數(shù)據(jù)流的形式傳入算法中模擬系統(tǒng)實時運行的狀態(tài)。

3.1 推導行為關系

為便于掌握算法的運行特點，首先采用結構較簡單的合成數(shù)據(jù)測試，然后用真實數(shù)據(jù)驗證結果。

3.1.1 合成數(shù)據(jù)

首先使用合成事件日志“Artificial-Loan Process-Partial”作為測試數(shù)據(jù)。為了直觀查看日志的流程結構，采用IM(inductive miner)挖掘算法[32]對該日志(包括98個案例、7個活動、372個事件)進行分析，得到一個Petri網(wǎng)形式的過程模型(如圖5)，然后將事件日志轉換為事件流數(shù)據(jù)。為了確定滑動窗口的視圖尺寸，需要了解案例之間的時間跨度(具有相同案例的各個事件流與其第1個事件流之間的距離)，圖6所示的抖動圖(可以將相同位置的點上下分散顯示)反映了轉儲后案例之間的跨度，可見案例之間的距離集中在0～43之間，因此將緩存大小設置為45，舍棄時間跨度過大的案例，獲取事件流之間的行為關系。

算法1挖掘合成日志的結果如表2所示。對照圖5所示的模型結構可見，事件流之間的各種關系均已正確地呈現(xiàn)在表2中。

表2 合成日志中各個事件之間的行為關系

3.1.2 真實數(shù)據(jù)

本節(jié)采用荷蘭金融機構的貸款申請過程相關的日志“BPI Challenge 2017-Offer log”(簡稱BPI 2017,https://data.4tu.nl/articles/dataset/BPI_Challenge_2017_-_Offer_log/12705737)進行分析。數(shù)據(jù)包括2016年通過在線系統(tǒng)提交的所有申請及其后續(xù)事件，直到2017年2月1日15:11，共計193 849個事件，42 994個案例，8個活動。由于事件發(fā)生的時間跨度較大，采用密度圖觀察時間間隔情況。如圖7所示，時間跨度集中在20 000個單位時間內(nèi)，舍棄該范圍之外的數(shù)據(jù)。

圖8所示為采用IM算法從真實日志中挖掘的過程模型，表3所示為采用算法1從事件流中捕獲的事件流之間的行為關系矩陣，表4所示為活動名及其縮寫。對比之后發(fā)現(xiàn)，該日志雖然數(shù)量比較龐大，但是事件流之間的行為關系并不復雜，模型與行為關系之間差異較小。

表3 日志BPI2017中活動間的行為關系

表4 日志BPI2017中的活動名及其縮寫

3.2 度量行為距離

因為合成日志的行為關系比較簡單，所以本節(jié)只分析真實日志BPI2017對應的事件流在行為輪廓矩陣與One-Hot編碼下的行為距離。

首先比較兩種編碼下的數(shù)值分布。為便于觀察，將日志中的活動對應的行為向量編碼和One-Hot編碼繪制成熱圖(如圖9和圖10)，x軸和y軸分別為活動的名稱和編碼。如圖9所示，行為向量編碼中的數(shù)值分布范圍較大，活動之間差異明顯，更具標識度。在圖10所示的One-Hot編碼中，數(shù)值比較稀疏，只有對角線上的數(shù)值為1，其他數(shù)值均為0。

采用常用的余弦相似度和Hamming相似度比較每兩個活動之間的相似性，如圖11和圖12所示。相似度與兩種編碼的數(shù)值規(guī)律相似，行為向量編碼下的活動之間的相似度差異較明顯，能夠更好地區(qū)別不同活動的關系。而One-Hot編碼下只有對角線上的活動之間存在關系，其余活動之間無論是順序、循環(huán)序，還是交叉序，都具有相同的相似性，與實際情況不符。

3.3 預測下一個事件流

本節(jié)比較使用行為編碼和One-Hot編碼對預測結果的影響。將事件流序列視為協(xié)同過濾中的項目，首先截取部分時間段內(nèi)的事件流序列進行訓練，然后用k近鄰搜索算法從候選集中以最佳推薦的形式獲得預測值。本文基于scikit-learn(Python實現(xiàn)的機器學習庫)進行預測分析，并采用以下度量標準：

(1)預測分數(shù) 返回給定測試數(shù)據(jù)和標簽上的平均準確度，預測分數(shù)越高，預測效果越好。

(2)Hamming損失反映預測值和實際值差異程度，數(shù)值越小，預測結果越精確。

首先用合成日志進行測試。分別對事件流序列使用以下方式進行處理：①用行為向量編碼；②用行為向量編碼，同時將數(shù)據(jù)歸一化(sta_enc)；③用One-Hot編碼(onehot)。

分別選擇k(k∈[1,8])個最近鄰進行預測，結果如圖13所示。隨著k的增長，兩種編碼下的預測結果趨于相同值。這是由于KNN預測模型基于k個臨近點的投票機制進行選擇，而近鄰數(shù)達到一定值后，投票的影響超過了編碼本身的影響。總體上基于①的預測結果最好，②次之，③的結果總體低于①和②，表明結合了事件之間的聯(lián)系后，采用行為向量編碼具有優(yōu)勢。

用網(wǎng)絡4個真實的公共日志“BPI Challenge 2017-Offer log”“Receipt”“Roadtraffic100traces”“Reviewing”(https://github.com/pm4py/pm4py-core/tree/release/tests/input_data)繼續(xù)驗證，結果如表5所示，說明相比One-Hot編碼，行為向量編碼能在一定程度上提升預測結果。

表5 使用事件流編碼對真實日志中事件流預測的結果

4 結束語

本文關注事件流之間的行為關系，提出一種新的事件流編碼形式來預測下一個事件流，通過使用少量緩存空間，能夠捕獲事件流之間的各種行為關系。為了捕獲事件流活動之間的關聯(lián)性，定義了事件流行為輪廓矩陣，在此基礎上構建了行為向量編碼。相比已有工作中的One-Hot編碼，行為向量編碼不僅將日志數(shù)據(jù)轉換為深度學習方法的輸入，還包含有事件流之間的行為關系。另外，調整后的協(xié)同過濾推薦算法能夠根據(jù)事件流之間的行為相似性更好地進行預測。實驗通過合成日志和真實日志證明了本文所提行為向量的優(yōu)勢，以及對協(xié)同過濾算法預測結果的提升效果。

本文算法僅考慮了事件流中的行為信息，并未考慮事件流的其他屬性，如所用的資源、事件的角色等，未來將根據(jù)屬性信息細化推薦結果，從而提高預測能力。另外，對于文中的部分參數(shù)設置，將采用有監(jiān)督的機器學習方法進行優(yōu)化。