高俊濤,陳 珂,劉云峰,劉 聰
(1.東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.山東理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,山東 淄博 255000)
作為業(yè)務(wù)過程管理領(lǐng)域一個新興的研究方向,預(yù)測性監(jiān)控(predictive monitoring)可以通過對處于運行階段的業(yè)務(wù)過程進行性能預(yù)測及調(diào)控,將傳統(tǒng)過程管理的事后補救模式轉(zhuǎn)變?yōu)橹鲃拥氖虑邦A(yù)防模式,幫助企業(yè)積極應(yīng)對業(yè)務(wù)風(fēng)險,提高業(yè)務(wù)過程的敏捷性和高效性。預(yù)測性監(jiān)控的對象包括過程的運行時間、成本、服務(wù)質(zhì)量和風(fēng)險等多項性能指標,其中運行時間作為業(yè)務(wù)過程管理的核心內(nèi)容,是企業(yè)進行計劃、監(jiān)控、績效評價的基礎(chǔ),及時準確地提供業(yè)務(wù)過程的剩余運行時間不僅有助于業(yè)務(wù)過程優(yōu)化,還可以提高顧客滿意度。
現(xiàn)有方法主要采用離線模型預(yù)測業(yè)務(wù)過程的剩余時間,如圖1a所示。預(yù)測模型采用離線方式構(gòu)建,并利用數(shù)據(jù)挖掘或機器學(xué)習(xí)技術(shù)分析歷史事件日志,抽取或訓(xùn)練預(yù)測模型,例如VAN DER AALST等[1]提出的基于變遷系統(tǒng)(Transition System, TS)的預(yù)測方法和TAX等[2]提出的基于長短期記憶(Long Short Term Memory, LSTM)的預(yù)測方法。隨著物聯(lián)網(wǎng)及大數(shù)據(jù)技術(shù)的迅猛發(fā)展,時刻都有新的事件數(shù)據(jù)以前所未有的速度產(chǎn)生,如機場的行李處理事件、晶片制造事件[3],這種流式事件日志給傳統(tǒng)的預(yù)測方法提出了巨大的挑戰(zhàn),使得傳統(tǒng)的離線模型構(gòu)建周期長、更新成本高、內(nèi)存消耗大的問題在應(yīng)對流式事件日志中更加突出。一方面,流式事件日志增長快、體量大,傳統(tǒng)預(yù)測方法每次更新模型需要將原有模型推倒重建,計算成本越來越高;另一方面,較長的更新周期會使預(yù)測模型滯后于當前的業(yè)務(wù)系統(tǒng),模型性能容易出現(xiàn)老化現(xiàn)象,影響預(yù)測的準確性[4]。針對流式事件日志,研究實時的剩余時間預(yù)測方法不但能及時利用新產(chǎn)生的軌跡數(shù)據(jù),使預(yù)測結(jié)果更加符合業(yè)務(wù)現(xiàn)狀,而且可以降低預(yù)測算法的時間和空間復(fù)雜度。
本文采用在線模型預(yù)測模式,提出一種實時的業(yè)務(wù)過程剩余時間預(yù)測方法(如圖1b),根據(jù)新完成的軌跡數(shù)據(jù)實時更新預(yù)測模型。為保證預(yù)測模型的實時性,本文在帶標注變遷系統(tǒng)的基礎(chǔ)上提出增量式模型構(gòu)建算法,并針對傳統(tǒng)變遷系統(tǒng)類方法缺少抽象機制的選擇策略問題,定義預(yù)測信度的評價指標,通過對變遷系統(tǒng)多種抽象機制的融合提高剩余時間預(yù)測的準確性。
本文的主要貢獻如下:
(1)通過簡化變遷系統(tǒng)狀態(tài)的標注方式,有效緩解變遷系統(tǒng)模型規(guī)模隨樣本數(shù)據(jù)積累過度增長的問題,同時采用增量式模型構(gòu)建算法,保證預(yù)測模型實時感知業(yè)務(wù)系統(tǒng)的變化。
(2)定義波動性指標來衡量預(yù)測結(jié)果隨時間推移調(diào)整的幅度,完善預(yù)測結(jié)果評價指標體系,通過持續(xù)穩(wěn)定的預(yù)測結(jié)果增強終端用戶對預(yù)測模型的信任。
(3)定義預(yù)測信度融合傳統(tǒng)變遷系統(tǒng)的多種抽象機制,提高剩余時間的預(yù)測準確性,通過引入回顧機制進一步提高準確性并降低波動性。
現(xiàn)有剩余時間預(yù)測方法主要分為基于活動的預(yù)測和基于案例的預(yù)測兩類?;诨顒拥念A(yù)測通常在業(yè)務(wù)過程模型基礎(chǔ)上對活動的持續(xù)時間進行建模,然后根據(jù)活動間的邏輯關(guān)系推算整個過程的剩余時間;基于案例的預(yù)測不考慮過程內(nèi)部的執(zhí)行邏輯,通過比對以往類似的案例,直接在案例級別分析剩余時間的影響因素和變化規(guī)律,其通常將預(yù)測任務(wù)轉(zhuǎn)化為數(shù)據(jù)挖掘問題,然后采用經(jīng)典的數(shù)據(jù)挖掘或機器學(xué)習(xí)算法建立預(yù)測模型,這類方法可以規(guī)避活動間相互影響帶來的預(yù)測復(fù)雜性。
(1)基于活動的預(yù)測方法
基于活動進行預(yù)測的代表性方法包括ROGGE-SOLTI等[5-6]提出的基于隨機Petri網(wǎng)的預(yù)測方法和VERENICH等[7-8]提出的基于流分析(flow analysis)技術(shù)的預(yù)測方法。隨機Petri網(wǎng)包括每個活動執(zhí)行時間的概率分布,在此基礎(chǔ)上預(yù)測后續(xù)活動執(zhí)行的剩余時間;流分析技術(shù)通過分析各種控制結(jié)構(gòu)下活動執(zhí)行時間的分解組合關(guān)系,定義過程執(zhí)行時間的數(shù)學(xué)模型?;诨顒拥念A(yù)測方法采用直觀的過程模型作為預(yù)測模型架構(gòu),其推理過程易于理解,預(yù)測模型可解釋性強,然而該方法目前大多基于活動間持續(xù)時間相互獨立的假設(shè),該假設(shè)在很多實際應(yīng)用場景并不成立。2017年,TAX等[2]將循環(huán)神經(jīng)網(wǎng)絡(luò)引入剩余時間預(yù)測問題,通過LSTM預(yù)測業(yè)務(wù)過程的后續(xù)活動和活動持續(xù)時間,并在二者基礎(chǔ)上估算過程的剩余執(zhí)行時間。該方法不需要構(gòu)建業(yè)務(wù)過程模型,為基于活動的預(yù)測研究提供了新的思路。
(2)基于案例的預(yù)測方法
基于案例的預(yù)測方法借助包括SVM[9-10]、決策樹[11-12]、聚類[13-14]和回歸分析[15]在內(nèi)的多種數(shù)據(jù)挖掘模型和算法分析影響監(jiān)控指標的企業(yè)過程因素和外部環(huán)境因素。VAN DER AALST等[1]提出TS預(yù)測方法,該方法用變遷系統(tǒng)描述過程實例所有可能的狀態(tài),并在每個狀態(tài)上標注時間信息,以便根據(jù)當前過程實例所處的狀態(tài)預(yù)測其剩余執(zhí)行時間;FOLINO等[16]提出CA-PPM(context-aware performance prediction model)模型,在TS系統(tǒng)基礎(chǔ)上增加了過程實例聚類環(huán)節(jié),為每過程實例簇定義了不同的TS預(yù)測模型;BEVACQUA等[17]提出AA-TP(adaptive-abstraction time prediction)方法,通過挖掘事件日志中的頻繁項集自適應(yīng)地構(gòu)建結(jié)構(gòu)模式,使過程實例聚類更加智能化;BEVACQUA等[18]對該方法進一步擴展,提出AA-PPM框架,支持在適合的抽象層次上分析日志;隨后,POLATO等[19-20]提出數(shù)據(jù)感知的TS系統(tǒng),采用樸素貝葉斯分類器和支持向量回歸分析方法進行預(yù)測;VERENICH等[21]用過程樹作為作為預(yù)測模型,在過程樹的活動節(jié)點和網(wǎng)關(guān)節(jié)點上分別訓(xùn)練回歸方法和分類方法來預(yù)測剩余時間;倪維健等[22]將基于注意力的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于過程剩余時間預(yù)測問題,取得了較好的實驗效果。這類方法采用事件日志作為基本輸入條件,企業(yè)不需要提供額外的業(yè)務(wù)數(shù)據(jù),不僅廣泛應(yīng)用于業(yè)務(wù)過程管理領(lǐng)域,還可用于預(yù)測制造過程的產(chǎn)品周轉(zhuǎn)時間[4]。
目前,基于深度學(xué)習(xí)的預(yù)測方法雖然準確性較好,但是預(yù)測模型的可解釋性較差[22],在一定程度上影響了用戶對預(yù)測結(jié)果的信任度[23]。還有一些基于深度學(xué)習(xí)的預(yù)測方法引入了事件最小屬性以外的變量[20,24]。因為每類事件日志提供的屬性變量不同,所以需要采用專門的編碼方式。
本文采用包含最小屬性集合的標準事件模型作為預(yù)測模型構(gòu)建的樣本數(shù)據(jù),以保證預(yù)測方法的普適性。針對現(xiàn)有預(yù)測模型普遍存在的構(gòu)建周期長的問題,該方法采用增量式模型構(gòu)建算法,使預(yù)測模型及時反映業(yè)務(wù)系統(tǒng)的最新動態(tài);同時基于在線預(yù)測模型引入回顧機制,以提高預(yù)測的準確性,降低預(yù)測結(jié)果的波動性。
為了方便敘述,首先對業(yè)務(wù)過程剩余時間預(yù)測的相關(guān)概念及表示符號進行定義和說明。
定義1事件。事件e是構(gòu)成業(yè)務(wù)過程的基本元素,具有瞬時性,可以用三元組(cid,act,time)描述。其中cid為事件所屬過程實例的內(nèi)部標識,act為產(chǎn)生事件的活動,time為事件發(fā)生的時間。
定義1描述了事件的最小屬性模型,缺少任何元素都無法開展過程挖掘工作。雖然實際事件日志可能包含更多的事件屬性,如資源、設(shè)備、場地等,但是為保證研究結(jié)果的普適性,本文僅采用事件最小屬性模型分析剩余時間的預(yù)測方法。
定義2軌跡。軌跡σ=e1,…,em用于記錄業(yè)務(wù)過程所產(chǎn)生的事件,是一個有限非空的事件序列,且?i,j∈[1,m],ei.cid=ej.cid。若1≤i 函數(shù)spanσ:N×N→R計算軌跡中兩個事件發(fā)生的時間間隔,即ei.time-ej.time。若ei比ej發(fā)生得早,則spanσ(i,j)的結(jié)果為正數(shù),反之為負數(shù)。 定義3軌跡前綴。軌跡前綴hdk(σ)通過截取軌跡σ的前k個事件得到,即e1,…,ek(k∈[0,|σ|]),對于任意軌跡σ,hd0(σ)=φ。 假設(shè)軌跡σ是某業(yè)務(wù)過程完成時留下的完整運行軌跡,其前綴hdk(σ)的剩余時間由函數(shù)ret(hdk(σ))計算,即該軌跡前綴距離整個業(yè)務(wù)過程結(jié)束所需的時間為spanσ(k,|σ|)。 顯然,運行態(tài)業(yè)務(wù)過程尚未結(jié)束,其剩余時間是未知的。剩余時間預(yù)測的目標是根據(jù)當前過程已經(jīng)產(chǎn)生的部分軌跡δ,預(yù)測整個過程完成所需的剩余時間。剩余時間預(yù)測通常包括構(gòu)建預(yù)測模型和預(yù)測過程實例兩個階段。業(yè)務(wù)系統(tǒng)運行產(chǎn)生的歷史事件是構(gòu)建預(yù)測模型的基礎(chǔ),通常以事件日志的形式保存。 定義4事件日志。事件日志L={σ1,…,σn}是軌跡的集合,用于記錄業(yè)務(wù)過程執(zhí)行中已經(jīng)發(fā)生的歷史事件,每個事件在整個日志中最多只出現(xiàn)一次。 變遷系統(tǒng)(transition systems)從狀態(tài)的觀點描述業(yè)務(wù)系統(tǒng)的行為,是過程挖掘的基本概念。 定義5變遷系統(tǒng)。變遷系統(tǒng)是一個三元組TS=(S,,T),其中S為狀態(tài)集合,為活動集合,T∈S×A×S為轉(zhuǎn)移集合。 VAN DER AALST提出的TS預(yù)測方法采用帶標注變遷系統(tǒng)預(yù)測業(yè)務(wù)過程剩余時間。TS方法允許采用序列、多重集、集合等多種軌跡抽象機制構(gòu)建狀態(tài),并基于狀態(tài)預(yù)測剩余時間。TS預(yù)測模型比較直觀,具有內(nèi)生可解釋性,但未說明如何選擇抽象機制,選擇不同的抽象機制會導(dǎo)致預(yù)測時間產(chǎn)生較大的差異。 根據(jù)表1所示的軌跡數(shù)據(jù),采用序列抽象和集合抽象分別學(xué)習(xí)得到圖2所示的兩個模型,對軌跡前綴A,B,C預(yù)測剩余時間。采用序列抽象的預(yù)測值為圖2a所示的變遷系統(tǒng)狀態(tài)S〈A,B,C〉上所標注樣本數(shù)據(jù)[6,5]的均值5.5,采用集合抽象的預(yù)測值為圖2b所示變遷系統(tǒng)狀態(tài)S〈A,B,C〉上所標注樣本數(shù)據(jù)[18,6,5,4]的均值8.25。表1中軌跡5和軌跡6均包含前綴A,B,C,剩余時間的真實值應(yīng)為結(jié)束事件D的發(fā)生時間減去事件C的發(fā)生時間,分別為5和6。因此序列抽象預(yù)測結(jié)果的平均絕對誤差MAE=(|5-5.5|+|6-5.5|)/2=0.5,集合抽象預(yù)測結(jié)果的MAE=(|5-8.25|+|6-8.25|)/2=2.75。 表1 軌跡數(shù)據(jù)例子 本文融合多種抽象機制,將TS預(yù)測方法采用的只包含單一抽象機制的確定性變遷系統(tǒng)擴展為包含多種抽象狀態(tài)的不確定性復(fù)合變遷系統(tǒng),以提高預(yù)測模型的表達能力,同時定義預(yù)測信度應(yīng)對模型不確定性給預(yù)測帶來的困難。因為復(fù)合變遷系統(tǒng)包括序列、多重集和集合3種抽象狀態(tài),所以模型包含的信息更豐富,規(guī)模也更龐大。TS預(yù)測方法將剩余時間觀察值直接標注在狀態(tài)上,每個狀態(tài)上可能被標注幾百甚至上千條數(shù)據(jù),隨著歷史軌跡數(shù)據(jù)的積累,樣本規(guī)模持續(xù)不斷地增長,該問題在復(fù)合變遷系統(tǒng)中變得更加突出。本文采用樣本統(tǒng)計量[1](如樣本均值或方差)標注狀態(tài),并研究相應(yīng)的模型更新算法。定義6給出復(fù)合預(yù)測模型的形式化定義。 定義6預(yù)測模型。預(yù)測模型M是一個三元組M=(S,,T),其中S為狀態(tài)集合,為活動集合,T∈S××S為轉(zhuǎn)移集合。狀態(tài)S有4個屬性:編碼表示狀態(tài)在變遷系統(tǒng)中的唯一標識;均值、方差、規(guī)模N分別表示狀態(tài)所包含的剩余時間觀察值的均值、方差和數(shù)量。 狀態(tài)編碼可以由軌跡經(jīng)過序列、多重集和集合3種抽象得到。將表1所示的日志進行抽象得到復(fù)合預(yù)測模型片斷,如圖3所示。軌跡前綴A,B,C匹配的狀態(tài)有〈A,B,C〉和{A,B,C}兩個,對應(yīng)的剩余時間期望值分別為5.5和8.25。 該模型的構(gòu)建過程如下:初始預(yù)測模型只包含一個狀態(tài)S0=(φ,0,0,N0),描述歷史事件日志L的全部采樣數(shù)據(jù),其中:φ為活動空集的編碼;0,0,N0分別為日志L中所有軌跡周轉(zhuǎn)時間的均值、方差和軌跡數(shù)。當有新業(yè)務(wù)過程完成并形成軌跡數(shù)據(jù)σ時,首先給σ的每個前綴標注真實剩余時間ret(hdk(σ))(k∈(0,|σ|)),然后調(diào)用函數(shù)update(M,σ)更新預(yù)測模型,該函數(shù)以增量方式更新樣本的統(tǒng)計值,包括均值、方差和規(guī)模N。算法1描述了預(yù)測模型的更新過程,其中:函數(shù)set(σ)將序列σ轉(zhuǎn)換為活動的集合,set(φ)=φ;函數(shù)bag(σ)將序列σ轉(zhuǎn)換為活動的多重集,bag(φ)=φ;和′為某種抽象狀態(tài)的編碼。 算法1預(yù)測模型更新算法。 輸入:原預(yù)測模型M=(S,,T)、軌跡σ。 輸出:新預(yù)測模型M。 Function update(M,σ) 1 For i=0;i≤|σ|;i++ 3. If{s|s∈S∧sC=}≠? 4. Foreach m in{s|s∈S∧sC=} 8. Else 12. Foreach m′ in{s′|s′∈S∧sC=′} 14. return M End Function 本章在復(fù)合變遷系統(tǒng)基礎(chǔ)上,已知當前業(yè)務(wù)過程部分軌跡的情況下,介紹其剩余時間的預(yù)測算法。如算法2所示,剩余時間預(yù)測算法引入軌跡回顧機制擴大剩余時間的候選值集合,然后根據(jù)信度函數(shù)篩選出最可信的預(yù)測值。 (1)狀態(tài)選擇 復(fù)合變遷系統(tǒng)允許包含多種抽象機制,是一種不確定性的狀態(tài)機。因此,將當前運行軌跡δ與預(yù)測模型M中的狀態(tài)進行匹配,將每個匹配狀態(tài)的樣本均值作為預(yù)測值,得到包含多個剩余時間的候選值集合。常用的準確性評價指標包括平均絕對誤差MAE、均方根誤差RMSE或平均絕對比例誤差MAPE等,TEINEMAA等[25]研究發(fā)現(xiàn)僅考慮預(yù)測結(jié)果的準確性是不夠的,過程管理所做的決策必須基于高可信的預(yù)測結(jié)果,缺少信度的預(yù)測結(jié)果難以滿足過程監(jiān)控的實際需求。因此,本文定義信度函數(shù)conf:State→[0,1]評價預(yù)測值的可信度,以消除復(fù)合變遷系統(tǒng)的不確定性。 算法2剩余時間預(yù)測算法。 輸入:預(yù)測模型M=(S,,T)、前綴軌跡δ。 Functionpredict(M,δ) 1.k=|δ| 2.maxconf=0 //最大信度 3. while(k>0) 5. Foreach m in{s|s∈S∧sc=} 6. If conf(m)>maxconf 8.maxconf←conf(m) 9.k←k-1 End Function 每個狀態(tài)定義了一個描述剩余時間的隨機變量,將隨機變量的數(shù)學(xué)期望作為預(yù)測值,其信度可由該隨機變量總體分布的方差定義。在得到有限的剩余時間觀測值的情況下計算預(yù)測信度 conf(s)=a×logbsN-sD。 (1) 式中參數(shù)a和b可以根據(jù)事件日志包含的軌跡數(shù)量和剩余時間采用的度量單位進行調(diào)節(jié)。式(1)采用樣本方差作為預(yù)測信度的反向指標,利用對數(shù)函數(shù)擬合樣本規(guī)模與總體方差估算偏差間的關(guān)聯(lián)關(guān)系。 (2)回顧機制 如果當前運行軌跡δ在預(yù)測模型M中找不到匹配的狀態(tài),則可先回顧軌跡前綴hd|δ|-1(δ)的剩余時間預(yù)測值,再推算當前軌跡δ的剩余時間,即predict(M,hd|δ|-1(δ))-(e|δ|·time-e|δ|-1·time)。其中predict(M,hd|δ|-1(δ))為軌跡前綴hd|δ|-1(δ)的剩余時間預(yù)測值,e|δ|-e|δ|-1為從上個事件發(fā)生到當前事件發(fā)生經(jīng)過的時間。如果hd|δ|-1(δ)在預(yù)測模型中仍然找不到匹配的狀態(tài),則繼續(xù)回顧hd|δ|-2(δ),以此類推,直到找到存在匹配狀態(tài)的軌跡前綴。在最極端的情況下,軌跡δ的首個事件就是由某個新活動產(chǎn)生的,在預(yù)測模型中不存在匹配狀態(tài),此時將根據(jù)初始狀態(tài)S0進行預(yù)測。 實際上,即使當前軌跡δ存在匹配狀態(tài),回顧軌跡前綴也可能得到信度更高的預(yù)測值。在變遷系統(tǒng)的3種基本抽象機制中,序列抽象狀態(tài)所包含的樣本MAE最容易呈現(xiàn)單調(diào)性,盡管如此,隨著時間的推進,很多過程實例匹配狀態(tài)的剩余時間采樣值會更加發(fā)散[1]。因此,無論能否直接從預(yù)測模型中找到匹配的狀態(tài),引入回顧機制都有可能提高預(yù)測結(jié)果的質(zhì)量。 預(yù)測任務(wù)通常采用準確性進行評價,然而在實際應(yīng)用場景中,只采用統(tǒng)計意義上的準確性不能全面反映用戶對預(yù)測結(jié)果的要求。當對流程實例的剩余執(zhí)行時間進行持續(xù)性預(yù)測時,每項預(yù)測任務(wù)在不同時間點可能得到多個預(yù)測結(jié)果,這種預(yù)測結(jié)果隨時間調(diào)整的現(xiàn)象稱為預(yù)測的波動性,波動性大的預(yù)測很難得到信任,因為終端用戶不能判斷哪個結(jié)果更準確[25]。 下面給出剩余時間預(yù)測的波動性計算方法。假設(shè)持續(xù)預(yù)測軌跡前綴δ=hdk(σ)的剩余時間,得到預(yù)測結(jié)果序列rs(δ)=ret(δ),ret(hdk-1(δ))-spanδ(k-1,k),…,ret(hd1(δ))-spanδ(1,k)。每個元素用rsi(δ)表示,i∈[1,k]。為了消除剩余時間預(yù)測值的絕對值給波動性度量帶來的影響,采用式(2)對rs(δ)中的每個元素進行歸一化處理: (2) 持續(xù)預(yù)測某個預(yù)測任務(wù),即預(yù)測某條軌跡前綴δ的剩余時間,計算其波動性 (3) 計算軌跡σ包含的所有預(yù)測任務(wù)的波動性平均值 (4) 在整個日志L上所有預(yù)測任務(wù)的波動性平均值 (5) 本文采用準確性和波動性評價預(yù)測算法的優(yōu)劣。實驗采用5個公開的事件日志數(shù)據(jù)集Helpdesk,bpi12_w,bpi12_w_no_repeat,Inovice,Environmental permit,如表2所示。 表2 事件日志統(tǒng)計信息 實驗將日志切分為兩部分,第1部分包括前2/3軌跡,作為訓(xùn)練集,剩余1/3軌跡作為第2部分測試集。采用訓(xùn)練集數(shù)據(jù)構(gòu)建預(yù)測模型M,測試集數(shù)據(jù)檢驗預(yù)測方法的準確性。在線預(yù)測模型可以根據(jù)完成的軌跡數(shù)據(jù)及時更新,因此在實驗測試階段模擬了用剛完成的軌跡數(shù)據(jù)動態(tài)更新預(yù)測模型的過程。模擬實驗采用過程池存放運行態(tài)過程實例,模擬時間步長設(shè)為step。每個時間步長內(nèi)執(zhí)行以下操作: (1)根據(jù)日志中記錄的事件發(fā)生時間,將該時間步長內(nèi)已啟動的過程實例加入過程池。 (2)為過程池中每個過程實例添加新產(chǎn)生的事件,將相應(yīng)的軌跡hdk(σ)轉(zhuǎn)變?yōu)閔dk+j(σ),其中j≥0,σk+1,…,σk+j為該時間步長內(nèi)新產(chǎn)生的事件。 (3)記錄從hdk+1(σ)到hdk+j(σ)的剩余時間預(yù)測值與真實值的偏離值。 (4)若k+j=|σ|,則將該過程實例置為完成態(tài),調(diào)用update(M,σ)更新預(yù)測模型M。 (5)返回(1)模擬下一個時間步長的執(zhí)行過程,直到測試集中所有軌跡都已創(chuàng)建過程實例,且處于完成態(tài)。 7.2.1 準確性評價 實驗采用MAE作為準確性評價指標,令信度函數(shù)的參數(shù)a=1,b=10。LSTM采用文獻[2]給出的參數(shù)設(shè)置,其中學(xué)習(xí)率設(shè)為{0.01,0.1},優(yōu)化方法采用Nadam(nesterov-accelerated adaptive moment estimation),迭代次數(shù)定為100輪,學(xué)習(xí)率調(diào)整倍數(shù)為[0.1,0.5]。為了獨立檢驗信度和回顧機制的效果,基于信度的基本預(yù)測方法(簡稱基本信度方法)去除了軌跡回顧機制,而帶回顧機制的預(yù)測方法(簡稱回顧信度方法)則完整實現(xiàn)了算法2的預(yù)測算法。 根據(jù)圖4所示的實驗結(jié)果可以得出如下結(jié)論: (1)本文方法在絕大多數(shù)情況下優(yōu)于傳統(tǒng)TS方法和LSTM方法。與傳統(tǒng)TS方法相比,基于信度的預(yù)測結(jié)果在過程運行早期并未表現(xiàn)出明顯優(yōu)勢,這是由于過程運行早期產(chǎn)生的軌跡數(shù)據(jù)較少,所有抽象機制的預(yù)測準確性均較差。在過程運行中后期,基于信度的預(yù)測方法擁有更大的候選空間,預(yù)測準確性明顯改善。這說明候選值充足時,信度函數(shù)能夠有效識別優(yōu)質(zhì)預(yù)測結(jié)果。 (2)在大多數(shù)情況下,回顧信度方法的表現(xiàn)超過基本信度方法,說明軌跡回顧機制確實為預(yù)測算法擴充了優(yōu)秀的候選值,進而改善了預(yù)測結(jié)果的準確性。 (3)雖然Helpdesk日志中LSTM方法的準確性優(yōu)于本文方法,但是其預(yù)測模型的可解釋性較差,而變遷系統(tǒng)具有內(nèi)生可解釋性,其預(yù)測結(jié)果可以通過展示歷史軌跡的運行過程來解釋,而且隨著歷史軌跡庫積累數(shù)據(jù)的增多,更新LSTM模型需要昂貴的計算成本和較長的時間周期。本文采用的復(fù)合變遷系統(tǒng)的標簽信息采用統(tǒng)計變量,不會因歷史軌跡的增多而顯著增長。而且,增量式模型構(gòu)建方式大幅縮短了預(yù)測模型的更新周期,使得該方法在銀行事務(wù)處理、電子晶片制造等流式事件日志處理等應(yīng)用場景中的優(yōu)勢更加明顯。 7.2.2 波動性評價 下面在整個日志集上比較基本信度方法、回顧信度方法與傳統(tǒng)方法的波動性。由圖5可見,在實驗采用的5個數(shù)據(jù)集上,傳統(tǒng)變遷系統(tǒng)的Sequence抽象雖然在Invoice數(shù)據(jù)集上的波動性比基本信度方法更小,但是基本信度方法不但突破了傳統(tǒng)變遷系統(tǒng)抽象選擇的局限性,而且提高了準確性;回顧信度方法在所有實驗數(shù)據(jù)集上表現(xiàn)得比其他方法更加穩(wěn)定,可見回顧機制在剩余時間預(yù)測中具有平滑效應(yīng),弱化了新產(chǎn)生事件給預(yù)測結(jié)果帶來的波動。 由圖6可見,傳統(tǒng)變遷系統(tǒng)和LSTM模型很難兼顧預(yù)測準確性和波動性,因此距離坐標系統(tǒng)原點較遠?;仡櫺哦确椒ㄔ赽pi12_w,Invoice, Environment permit數(shù)據(jù)集上表現(xiàn)優(yōu)異,其既給出較準確的預(yù)測,又表現(xiàn)出較低的波動性。這是因為回顧機制不僅為剩余時間預(yù)測增強了候選集,還能平滑不同時間點預(yù)測結(jié)果的波動幅度。基本信度和回顧信度方法在Helpdesk數(shù)據(jù)集上的準確性不如LSTM模型,主要原因在于復(fù)合變遷系統(tǒng)只包括序列、多重集、集合3種抽象狀態(tài),模型的表達能力比LSTM模型弱,以后可以通過增加對最大感受野和過濾器等抽象機制的支持來增強復(fù)合變遷系統(tǒng)的表達能力。 本文提出一種業(yè)務(wù)過程剩余時間的在線預(yù)測方法,改變了傳統(tǒng)預(yù)測方法將模型構(gòu)建與剩余時間預(yù)測截然分開的工作模式,設(shè)計了增量式模型構(gòu)建算法來提高模型構(gòu)建效率,使預(yù)測模型能夠及時反映當前系統(tǒng)運行規(guī)律,定義了預(yù)測信度融合多種抽象機制的預(yù)測結(jié)果,并結(jié)合軌跡回顧機制增強預(yù)測候選集合。在5個公開事件日志上進行對比實驗,結(jié)果顯示該預(yù)測方法不僅改善了預(yù)測準確性,還降低了預(yù)測結(jié)果的波動性,提高了預(yù)測模型的可信度。目前,該方法只支持序列、多重集、集合3種抽象機制,未來可以通過增加對最大感受野和過濾器抽象機制的支持進一步提高預(yù)測效果。3.2 變遷系統(tǒng)
4 復(fù)合變遷系統(tǒng)
5 基于信度的預(yù)測算法
6 波動性
7 實驗設(shè)計與分析
7.1 實驗設(shè)置
7.2 實驗結(jié)果
8 結(jié)束語