張守政 方歡
摘 要:當(dāng)處理高度可變的流程時(shí),已有的自動(dòng)過程挖掘技術(shù)產(chǎn)生的模型可能并不能真實(shí)反映流程運(yùn)行中不同決策點(diǎn)之間規(guī)則的變化情況。從聲明性過程挖掘的角度出發(fā),提出了一種具備可視化規(guī)則的決策表Petri網(wǎng)挖掘方法,實(shí)現(xiàn)真實(shí)日志到聲明性過程決策表Petri網(wǎng)模型的映射。首先,形式化了決策表Petri網(wǎng)模型及其攜帶的規(guī)則分析決策表,并對(duì)模型的靜態(tài)語(yǔ)義和動(dòng)態(tài)語(yǔ)義進(jìn)行定義;其次,通過擴(kuò)展屬性的添加,分析流程內(nèi)部屬性和事件屬性是否會(huì)對(duì)決策產(chǎn)生影響,并通過規(guī)則分析決策表的異常值屬性,判斷規(guī)則的異常程度;最后,在一組人工日志和真實(shí)事件日志的基礎(chǔ)上進(jìn)行實(shí)驗(yàn)仿真,并與數(shù)據(jù)Petri網(wǎng)的挖掘技術(shù)進(jìn)行分析對(duì)比。實(shí)驗(yàn)結(jié)果表明所提方法在反映流程運(yùn)行中規(guī)則的變化情況具有一定優(yōu)勢(shì),并為數(shù)據(jù)流異常檢測(cè)提供數(shù)值可解釋性;同時(shí),所設(shè)計(jì)的決策表Petri網(wǎng)挖掘方法可以將決策信息與模型結(jié)構(gòu)整合在一起,為過程模型的可變性建模提供形式化基礎(chǔ)。
關(guān)鍵詞:聲明性過程發(fā)現(xiàn); 決策挖掘; 規(guī)則變化發(fā)現(xiàn); 決策表Petri網(wǎng); 異常檢測(cè)
中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號(hào):1001-3695(2023)12-029-3706-11
doi:10.19734/j.issn.1001-3695.2023.04.0167
Approach of decision table Petri net mining method based on multi perspective data attributes
Abstract:When dealing with highly variable processes, the models may not accurately reflect the changes in the rules between different decision points in the process operation, by using the existing automatic process mining techniques. From the perspective of declarative process discovery, this paper proposed a decision table Petri net mining method with visual decision rules, to realize the mapping from real event log to a declarative process decision table Petri net model. Firstly, this method formalized both the decision table Petri net model and its rule analysis decision table, and designed the static and dynamic semantics of the formalized decision Petri net model. Secondly, through adding extended attributes, it analyzed whether the internal attributes or event attributes of the process would affect the decision. Furthermore, it generated outlier attributes with their deviation degrees of the rule analysis decision table to determine the degree of exception of the rule. Finally, it conducted experimental simulation on the basis of a set of artificial logs and practical event logs, and at the same time, it analyzed the experimental results by comparing with the extant data mining technology by Petri nets. The experimental results show that the proposed method has certain advantages in representing the change of rules during the operation of the process, which can provide quantitative and interpretable analysis for data flow anomaly detection. At the same time, the proposed decision table Petri net mining method can integrate the decision information with the model structure together, providing a formal basis for the variability modeling of the process model.
Key words:declarative process discovery; decision mining; rule change discovery; decision table Petri net; anomaly detection
0 引言
自動(dòng)流程發(fā)現(xiàn)(automatic process mining,APM)一般以事件日志作為輸入、以過程模型作為輸出,實(shí)現(xiàn)日志到模型的自動(dòng)映射?,F(xiàn)有的APM技術(shù)根據(jù)其挖掘模型所涵蓋的數(shù)據(jù)語(yǔ)義級(jí)別,可以大致分為過程性流程挖掘(procedural process mining)和聲明性流程挖掘(declarative process mining)[1,2]。過程性流程挖掘技術(shù)側(cè)重模型的控制流分析,如流程中各種活動(dòng)之間的執(zhí)行順序等,比較適合一些低可變的流程系統(tǒng);聲明性過程挖掘則可以實(shí)現(xiàn)控制流與信息流的融合,更加適用于一些具備內(nèi)在高可變的流程系統(tǒng)??刂屏髯鳛榱鞒棠P偷闹鞲煞浅V匾欢诤芏鄬?shí)際應(yīng)用場(chǎng)合,流程事件的其他視角也在流程挖掘中扮演著非常重要的角色,例如組織視角、決策視角 (又稱數(shù)據(jù)或案例視角) 、時(shí)間視角等,綜合考慮多視角[3~5]下的流程挖掘,從而確保挖掘模型的準(zhǔn)確性。比如,利用日志挖掘類似于“金卡用戶在處理50萬(wàn)元存款業(yè)務(wù)時(shí)可以享受VIP待遇,不需要排隊(duì),而普通用戶則需要排隊(duì)”的規(guī)則時(shí),相較于過程性流程挖掘技術(shù),聲明性過程挖掘具有明顯優(yōu)勢(shì),前者無(wú)法將該規(guī)則融入模型,而后者可以。因此聲明性挖掘得到的模型是一種變化配置模型,可以實(shí)現(xiàn)流程可變性建模(process variability modelling)[6~8]。
在業(yè)務(wù)流程分析中,決策規(guī)則或決策表是實(shí)現(xiàn)流程可變性建模的一種重要方法。決策挖掘(decision mining)是通過分析事件日志的流程記錄,來(lái)發(fā)現(xiàn)業(yè)務(wù)流程中作出決策的實(shí)際規(guī)則集[9]。業(yè)務(wù)流程的執(zhí)行通常遵循一些決策,許多學(xué)者對(duì)流程模型的決策規(guī)則挖掘方法進(jìn)行了研究,這些現(xiàn)有方法都使用了機(jī)器學(xué)習(xí)[10~12]。相比于控制流視角,決策視角更加側(cè)重于研究流程實(shí)例執(zhí)行的路由如何受到特定流程實(shí)例的特征以及先前執(zhí)行步驟結(jié)果的影響。近年來(lái),決策挖掘已成為業(yè)務(wù)流程管理領(lǐng)域中一個(gè)重要的研究?jī)?nèi)容[13~16],現(xiàn)有研究針對(duì)決策挖掘提出了一些典型的決策挖掘技術(shù)和方法,它們都盡可能地形式化決策規(guī)則,使決策節(jié)點(diǎn)在過程模型中具有較好的模型表達(dá)性,如決策模型和表示法(decision model and notation,DMN)[17]。 DMN是對(duì)象管理組(object management group,OMG)發(fā)布的用于描述和建模決策視角的標(biāo)準(zhǔn),在DMN建模中,決策視角的最簡(jiǎn)單表示是將決策規(guī)則附加到過程模型的決策點(diǎn)(XOR和OR網(wǎng)關(guān))中,并通過以往流程中數(shù)據(jù)屬性來(lái)推導(dǎo)出決策點(diǎn)的規(guī)則。雖然理論上,決策點(diǎn)部署的網(wǎng)關(guān)一般是XOR和OR網(wǎng)關(guān),但是由于OR網(wǎng)關(guān)在表達(dá)流程模型語(yǔ)義上存在歧義,所以大部分研究工作僅考慮將決策節(jié)點(diǎn)部署在排他性網(wǎng)關(guān)XOR上(本文亦是如此)。然而,現(xiàn)有研究在決策挖掘的自動(dòng)過程挖掘的方法研究上還存在一些不足,譬如僅考慮活動(dòng)數(shù)據(jù)屬性的影響,沒有考慮之前活動(dòng)的發(fā)生是否會(huì)產(chǎn)生影響,以及在決策規(guī)則的數(shù)據(jù)可解釋性上還存在諸多可以持續(xù)改進(jìn)的地方。
因此,從決策節(jié)點(diǎn)與決策規(guī)則和過程模型有效融合的角度出發(fā),本文旨在提出一種決策表Petri網(wǎng)模型,實(shí)現(xiàn)BPMN(business process modeling notation)[18]和DMN模型的融合,讓決策規(guī)則以決策表的形式進(jìn)行表達(dá);同時(shí),將規(guī)則的可信度和頻率信息融入到?jīng)Q策規(guī)則中,從而實(shí)現(xiàn)決策規(guī)則的數(shù)值可解釋性,讓規(guī)則提供數(shù)值性決策基礎(chǔ);最后,通過規(guī)則分析決策表中規(guī)則信息,將所設(shè)計(jì)的決策表Petri網(wǎng)應(yīng)用于解釋發(fā)生下一個(gè)活動(dòng)的原因以及異常行為的檢測(cè)上,為相應(yīng)的流程預(yù)測(cè)與監(jiān)控提供可解釋性的決策分析。
在決策Petri網(wǎng)的挖掘過程中,判斷流程軌跡的影響,其算法的設(shè)計(jì)思路基于自然語(yǔ)言處理思路,將過程活動(dòng)視為單詞,流程軌跡視為句子,在決策規(guī)則中加入前綴跡屬性;對(duì)于業(yè)務(wù)過程的其他內(nèi)部屬性[19],通過活動(dòng)發(fā)生次數(shù)屬性的添加進(jìn)行自動(dòng)化實(shí)現(xiàn),以探究先前執(zhí)行步驟或執(zhí)行過程中產(chǎn)生的屬性對(duì)未來(lái)選擇的影響;最后利用規(guī)則分析決策表實(shí)現(xiàn)活動(dòng)預(yù)測(cè)的解釋性,說明某些活動(dòng)發(fā)生的具體原因。
1 動(dòng)機(jī)案例
近幾十年來(lái),BPMN和DMN決策表集成開發(fā)流程系統(tǒng)的方法受到了許多從業(yè)者的青睞。這種集成了決策表的流程系統(tǒng)能有效提升模型的可變配置建模能力,增強(qiáng)了模型的適應(yīng)性和可擴(kuò)展性。然而,這種集成決策表的流程系統(tǒng)開發(fā)技術(shù)大多缺乏從系統(tǒng)日志中反向生成原始模型的完善算法,這就導(dǎo)致在有些情況下管理者們無(wú)法通過真實(shí)的流程日志為開發(fā)的系統(tǒng)進(jìn)行糾錯(cuò)和升級(jí)。針對(duì)這些技術(shù)的不足,本文提供一種決策表Petri網(wǎng)(decision table Petri net,DTPN)的挖掘方法,可以實(shí)現(xiàn)業(yè)務(wù)流程結(jié)構(gòu)之間的動(dòng)態(tài)規(guī)則描述。圖1是一個(gè)銀行貸款申請(qǐng)過程示例。該過程從客戶注冊(cè)貸款(register claim)開始,此時(shí)通過記錄在銀行系統(tǒng)中詳細(xì)信息的變遷,會(huì)產(chǎn)生token的數(shù)據(jù)屬性,即客戶的貸款利率(rate)、貸款金額(amount)、貸款時(shí)間(duration)、客戶的保險(xiǎn)狀態(tài)(premium);之后,專家根據(jù)客戶的數(shù)據(jù)屬性決定是否應(yīng)執(zhí)行全面檢查(full check)、標(biāo)準(zhǔn)檢查(standard check)或不執(zhí)行檢查(no check)活動(dòng);然后,對(duì)該客戶的貸款申請(qǐng)進(jìn)行評(píng)估(evaluate claim),確定風(fēng)險(xiǎn)等級(jí)(risk);根據(jù)風(fēng)險(xiǎn)等級(jí)確定客戶的索賠是被接受還是被拒絕,再向客戶發(fā)送相應(yīng)的通知(send approval或send rejection)。圖1中灰色橢圓代表決策挖掘中的決策點(diǎn),箭頭代表活動(dòng)執(zhí)行中涉及到的數(shù)據(jù)信息,虛線代表活動(dòng)的執(zhí)行條件。
然而,在實(shí)際的建模和軟件編寫過程中,從業(yè)人員通常會(huì)使用BPMN和DMN結(jié)合來(lái)實(shí)現(xiàn)貸款申請(qǐng)流程,如圖2所示,它將圖1中的決策點(diǎn)通過調(diào)用DMN的決策表實(shí)現(xiàn)決策自動(dòng)化。在第一個(gè)決策點(diǎn)中,圖2比圖1多了一個(gè)決策檢查活動(dòng)(decision check),而第二個(gè)決策點(diǎn)并沒有增加,主要是因?yàn)樵赑etri網(wǎng)中決策是自動(dòng)進(jìn)行的,而BPMN建模中涉及決策任務(wù)時(shí)需要明確定義,以此實(shí)現(xiàn)和DMN接口的連接??梢钥闯?,決策表的實(shí)現(xiàn)可以通過將某些任務(wù)設(shè)置為決策任務(wù)(如圖2中評(píng)估申請(qǐng)活動(dòng)就設(shè)置為決策任務(wù)),也可以額外添加決策任務(wù)與決策點(diǎn)相連接(如圖2中的決策檢查活動(dòng))。
圖1、2都是建立在聲明性過程模型存在的基礎(chǔ)上來(lái)進(jìn)行的分析,然而,在很多實(shí)際應(yīng)用場(chǎng)景下,流程分析的相關(guān)人員可能并沒有參考模型,或者已有參考模型與事件日志并不匹配,只有實(shí)際業(yè)務(wù)系統(tǒng)的真實(shí)運(yùn)行日志作為分析支撐。因此,開發(fā)一種直接利用業(yè)務(wù)流程系統(tǒng)的事件日志,來(lái)挖掘帶決策規(guī)則的聲明性過程模型是十分必要的。
從聲明性過程挖掘的角度出發(fā),本文提出一種將BPMN和DMN融合的決策表Petri網(wǎng)模型挖掘方法,實(shí)現(xiàn)日志到?jīng)Q策模型的自動(dòng)映射,如圖3所示。表1詳細(xì)列出了數(shù)據(jù)Petri網(wǎng)(data Petri nets,DPN)[20]和決策表Petri網(wǎng)的對(duì)比分析。一般而言,數(shù)據(jù)Petri網(wǎng)通過邏輯表達(dá)式可以實(shí)現(xiàn)更多的規(guī)則表達(dá),而決策表的規(guī)則表達(dá)相對(duì)固定,但是DPN對(duì)于活動(dòng)之間規(guī)則的解答并不友好,而決策表Petri網(wǎng)可以彌補(bǔ)這一缺陷,更好地解釋流程發(fā)生的原因。本文通過附加屬性使決策表提供更好的規(guī)則解釋能力,同時(shí)使決策挖掘中活動(dòng)的發(fā)生或循環(huán)以及特定軌跡這些難以實(shí)現(xiàn)的限定條件,也成為決策表的一部分,使決策表的功能更加豐富。這也是本文創(chuàng)新工作的基本出發(fā)點(diǎn)。
本文的主要貢獻(xiàn)如下:
a)提出了決策表Petri網(wǎng)的建模形式,并將決策規(guī)則的可信度和日志頻率信息融入到?jīng)Q策表Petri網(wǎng)的形式化建模上,從而提高決策規(guī)則的可解釋性,同時(shí)可以反映流程運(yùn)行中規(guī)則的變化情況,并分析變化中規(guī)則的異常程度。
b)提出了一種決策表Petri網(wǎng)的挖掘方法,通過獲取不可見變遷的真實(shí)活動(dòng)集,使用令牌重放獲取與模型一致性較高的流程跡,在允許決策庫(kù)所前集和后集活動(dòng)中有其他活動(dòng)插入的情況下,得到日志和模型決策一致的規(guī)則,保證決策規(guī)則的真實(shí)和可靠性,同時(shí)在決策挖掘中加入了初始決策,使決策挖掘有更好的包容性。
2 相關(guān)工作
2.1 決策挖掘
過程挖掘的決策視角研究可以簡(jiǎn)稱為決策挖掘,這個(gè)名字是由文獻(xiàn)[21]引入的。針對(duì)決策挖掘研究,現(xiàn)有相關(guān)研究工作大致可以分為基于控制流的決策挖掘的研究、基于DMN的決策挖掘的研究和決策挖掘的形式化建模研究三類。
首先,基于控制流的決策挖掘研究主要是發(fā)現(xiàn)合適的控制流模型,然后用決策規(guī)則對(duì)其進(jìn)行注釋。文獻(xiàn)[21]將決策挖掘問題轉(zhuǎn)換為分類問題,通過過程挖掘算法和C4.5決策樹算法來(lái)找出事件的哪些屬性可能導(dǎo)致在此過程中采取某些路徑,并通過決策樹進(jìn)行表示;文獻(xiàn)[10]利用一致性檢查技術(shù),通過事件日志與控制流模型最優(yōu)對(duì)齊處理具有循環(huán)或不可見(“跳過”)任務(wù)的過程模型,并將得到的規(guī)則綁定到變遷守衛(wèi)函數(shù)(transition guard function)上;文獻(xiàn)[22]使用Daikon和決策樹相結(jié)合的技術(shù)來(lái)發(fā)現(xiàn)分支條件是線性方程或涉及多個(gè)變量和算術(shù)運(yùn)算符的不等式,從而發(fā)現(xiàn)更廣泛的分支條件;文獻(xiàn)[11]提出發(fā)現(xiàn)重疊決策規(guī)則的技術(shù),通過構(gòu)建一棵初始決策樹,用每個(gè)決策樹葉子中錯(cuò)誤分類的實(shí)例學(xué)習(xí)一個(gè)新的決策樹,從而產(chǎn)生新的規(guī)則,這些新規(guī)則與初始規(guī)則分離使用,產(chǎn)生形式rule1∨rule2 的重疊規(guī)則;文獻(xiàn)[12]提出了數(shù)據(jù)感知啟發(fā)式挖掘器(data heuristic miner,DHM),使用分類技術(shù)來(lái)揭示活動(dòng)之間的數(shù)據(jù)依賴性,并使用這些數(shù)據(jù)依賴性來(lái)區(qū)分噪聲和不常見的條件行為。
其次,在DMN決策挖掘的方面,主要是有關(guān)過程模型和決策邏輯分離的研究。文獻(xiàn)[23]介紹了一種半自動(dòng)檢測(cè)業(yè)務(wù)流程模型中決策邏輯的方法,并從流程模型的決策邏輯中生成DMN中決策模型和相應(yīng)的決策表;文獻(xiàn)[24]考慮與不同決策結(jié)果相對(duì)應(yīng)的過程性能度量的預(yù)測(cè)來(lái)豐富決策規(guī)則提??;文獻(xiàn)[25]提出借助決策樹分類從流程事件日志中半自動(dòng)推導(dǎo)DMN決策模型的方法;文獻(xiàn)[26]提出從事件日志中發(fā)現(xiàn)模糊DMN決策模型的方法;文獻(xiàn)[27,28]提出了一種PMIND方法,通過使用變量的變化來(lái)確定決策,并構(gòu)建決策需求圖。
最后,在決策挖掘的形式化建模研究方面,很多研究都不再單一強(qiáng)調(diào)控制流的主導(dǎo)作用,而是嘗試從多視角建模的角度對(duì)決策挖掘的形式化模型進(jìn)行分析和研究。文獻(xiàn)[14,29]探討了在BPMN流程中建模,并給出了用于決策的數(shù)據(jù)如何以及在何種程度上可以在相應(yīng)的DMN決策模型中表示的方式;文獻(xiàn)[16]引入DBPMN模型,使用BPMN與DMN SFEEL決策相結(jié)合的方式,提供了一個(gè)統(tǒng)一的建模框架,并通過編碼到數(shù)據(jù)Petri網(wǎng)中給出它們的正式執(zhí)行語(yǔ)義,豐富了業(yè)務(wù)決策邏輯。
2.2 多視角過程模型
在多視角過程模型(multiperspective process model)的方面,相關(guān)研究主要從控制流和數(shù)據(jù)流融合的角度對(duì)過程模型進(jìn)行分析。文獻(xiàn)[30]提出一種自動(dòng)發(fā)現(xiàn)包含控制流依賴性和數(shù)據(jù)條件的聲明性過程模型,依賴約束激活的概念,并使用分類技術(shù)來(lái)發(fā)現(xiàn)數(shù)據(jù)屬性上的條件;文獻(xiàn)[1,31]提出自動(dòng)發(fā)現(xiàn)多視角聲明性過程模型的方法,主要通過聚類技術(shù)與可解釋的分類器結(jié)合使用來(lái)實(shí)現(xiàn);文獻(xiàn)[32]采用關(guān)聯(lián)規(guī)則挖掘的方法來(lái)提取一系列事件與相關(guān)數(shù)據(jù)對(duì)象的行為屬性和上下文特征之間的聯(lián)系;文獻(xiàn)[2]提出了兩種不同的方法,通過使用有限狀態(tài)自動(dòng)機(jī)構(gòu)造和最小化來(lái)比較兩個(gè)聲明性過程模型是否相等;文獻(xiàn)[3]通過目標(biāo)驅(qū)動(dòng)的績(jī)效評(píng)估方法將多視角過程挖掘技術(shù)應(yīng)用于應(yīng)急過程,以了解和診斷應(yīng)急過程的及時(shí)性;文獻(xiàn)[4]引入了一種基于模糊集理論的新型多視角一致性檢查方法,能夠檢測(cè)跳過活動(dòng)的數(shù)據(jù)偏差,并在評(píng)估(多個(gè))數(shù)據(jù)約束違規(guī)時(shí)考慮不確定性;文獻(xiàn)[5]提出了一種基于深度學(xué)習(xí)的多視角編碼技術(shù),能夠以跡的矢量表示形式編碼復(fù)雜的過程行為。
2.3 現(xiàn)有工作總結(jié)
針對(duì)決策過程挖掘的研究,雖然現(xiàn)有成果取得了一系列進(jìn)展,然而不可否認(rèn)的是,現(xiàn)有技術(shù)還存在一些可以繼續(xù)完善和改進(jìn)之處。文獻(xiàn)[21]作為決策挖掘的開創(chuàng)性研究,該方法并不能處理隱變遷,發(fā)現(xiàn)的規(guī)則也不能進(jìn)行友好表示;文獻(xiàn)[10]在文獻(xiàn)[21]的基礎(chǔ)上通過最優(yōu)對(duì)齊解決隱變遷的問題,并采用邏輯表達(dá)式進(jìn)行規(guī)則描述,但是最優(yōu)對(duì)齊會(huì)對(duì)其中不符合最優(yōu)對(duì)齊的事件進(jìn)行略過,使得這些事件的屬性并不參與決策,但是作為真實(shí)發(fā)生的事件,這些事件的屬性往往不應(yīng)該被略過,最優(yōu)對(duì)齊有時(shí)候也會(huì)產(chǎn)生錯(cuò)誤的綁定。文獻(xiàn)[11,22]在上述基礎(chǔ)上挖掘出表達(dá)式規(guī)則和重疊規(guī)則;文獻(xiàn)[10,11,22]的規(guī)則發(fā)現(xiàn)理論依賴數(shù)據(jù)Petri網(wǎng),所以發(fā)現(xiàn)的規(guī)則都綁定到變遷上,導(dǎo)致不同活動(dòng)指向同一活動(dòng)的規(guī)則是一致的,有些情況下并不能反映活動(dòng)之間的規(guī)則變化;文獻(xiàn)[12]借助因果網(wǎng)發(fā)現(xiàn)低頻活動(dòng)對(duì)之間的有效規(guī)則,卻并沒有探尋業(yè)務(wù)流程的內(nèi)部屬性;文獻(xiàn)[19]雖然探究了業(yè)務(wù)流程的內(nèi)部屬性,但是并沒有實(shí)現(xiàn)自動(dòng)化,算法需要人工干預(yù),也并沒有探究軌跡對(duì)流程的影響;文獻(xiàn)[23~28]主要對(duì)過程模型和決策邏輯進(jìn)行分離,構(gòu)建決策需求圖,但是由于與過程模型進(jìn)行了分離,會(huì)缺失過程信息,進(jìn)而缺失活動(dòng)之間的變化信息;同樣地,文獻(xiàn)[29~31]的聲明式流程模型研究關(guān)注于活動(dòng)對(duì)之間的聲明性流程約束,也會(huì)造成流程信息的缺失?,F(xiàn)有技術(shù)具體對(duì)比如表2所示,表中所列技術(shù)都可以自動(dòng)化實(shí)現(xiàn),√表示方法考慮的技術(shù)范圍,其他符號(hào)的具體含義如下。
F1:流程運(yùn)行中規(guī)則的變化情況;
F2:內(nèi)部屬性(流程內(nèi)活動(dòng)的發(fā)生、活動(dòng)的循環(huán)、活動(dòng)軌跡屬性);
F3:規(guī)則解釋;
F4:過程決策;
F5:活動(dòng)間規(guī)則;
F6:數(shù)據(jù)依賴間的決策邏輯;
F7:低頻活動(dòng)間的規(guī)則。
綜上所述,上述研究都沒有探究流程軌跡對(duì)決策造成的影響,只是探究事件的變量的影響。同樣地,對(duì)于活動(dòng)之間的規(guī)則也缺乏相應(yīng)的解讀,并不利于流程的分析,更加不能反映流程運(yùn)行中規(guī)則的變化。情況a)流程軌跡是完全合規(guī)的,但是其中的規(guī)則并不是預(yù)先設(shè)定的規(guī)則;情況b)需要知道活動(dòng)對(duì)之間規(guī)則是如何影響流程,其中的規(guī)則占比如何;情況c)需要知道在流程運(yùn)行過程中,不同活動(dòng)間規(guī)則的變化情況。基于此,本文提出了一種挖掘決策表Petri網(wǎng)的方法,打破數(shù)據(jù)Petri網(wǎng)的限制,同時(shí)挖掘出的結(jié)果可以直接應(yīng)用于BPMN和DMN的建模,并且提供流程模型中活動(dòng)變化之間的規(guī)則分析和規(guī)則解讀。
3 預(yù)備知識(shí)
本章在文獻(xiàn)[25,33]的基礎(chǔ)上,針對(duì)標(biāo)簽Petri網(wǎng)、日志等相關(guān)概念進(jìn)行闡述。
定義1 標(biāo)簽Petri網(wǎng)[33]。N=(P,T;F,AC,lf)是一個(gè)元組,P是一組庫(kù)所的有限集合,T是一組變遷的有限集合,P∩T=;F(P×T)∪(T×P)是一組有向邊的集合,稱做流關(guān)系;AC是一組活動(dòng)標(biāo)簽,lf∈T→AC是標(biāo)簽函數(shù)。
定義2 事件[25]。設(shè)ε為事件空間,是所有可能的事件標(biāo)識(shí)符的集合,AT為所有事件屬性的集合。對(duì)于任意事件e∈ε,e=(case id,event id,activity,timestamp,attributes)是一個(gè)元組,case id,event id,activity∈AC,timestamp,attributes∈AT分別表示事件的流程案例標(biāo)識(shí)符、事件標(biāo)識(shí)符、活動(dòng)名稱、時(shí)間戳和一組其他屬性,跡中的不同事件的其他屬性可能并不相同。
定義3 跡,事件日志[33]。跡σ=〈e1,e2,e3,…,en〉是一個(gè)長(zhǎng)度為n的序列,其中σ∈ε*,ε*表示ε上所有序列的集合,σ(i)表示第i個(gè)事件,Πat表示得到事件屬性at∈AT的值,Πtimestamp(σ(i))<Πtimestamp(σ(j)),1≤i 表3給出了一個(gè)事件日志的例子,表頭的元素分別對(duì)應(yīng)事件e的各個(gè)屬性,分別為流程案例標(biāo)識(shí)符、事件標(biāo)識(shí)符、活動(dòng)名稱、時(shí)間戳和一組其他屬性,⊥表示屬性為空,代表當(dāng)前事件并沒有記錄新的屬性。 4 決策表Petri網(wǎng) 4.1 決策表Petri網(wǎng)形式化模型及動(dòng)態(tài)語(yǔ)義 4.1.1 形式化模型 定義4 決策表Petri網(wǎng)。DN=(N,V,U,DT),其中N是一個(gè)標(biāo)簽Petri網(wǎng),N=(P,T,F(xiàn),AC,lf);V是一組變量集合;U是確定每個(gè)變量分配可能值的函數(shù),U(v)=DOv,v∈V,DOv是v的定義域;DT是規(guī)則分析決策表dt的集合,dt∈DT;流關(guān)系F(P×T)∪(T×P)∪(DT×D),D代表決策庫(kù)所集,是決策庫(kù)所d的集合,D={d|d∈P,|d·|>1}。 圖3展示了動(dòng)機(jī)案例的決策表Petri網(wǎng)模型,它的原始Petri網(wǎng)N如圖1所示,圖中圓圈表示決策庫(kù)所d,矩形表示規(guī)則分析決策表dt,表頭中黑色屬性是過程模型中用于決策的變量v∈V,灰色屬性代表將要發(fā)生的活動(dòng)。決策表Petri網(wǎng)可以實(shí)現(xiàn)BPMN和DMN的融合,為更好實(shí)現(xiàn)決策表Petri網(wǎng)的動(dòng)態(tài)語(yǔ)義,以及考慮到在事件日志到模型的映射過程中,事件日志可能會(huì)缺少?zèng)Q策活動(dòng),將與決策活動(dòng)相關(guān)的規(guī)則分析決策表鏈接到?jīng)Q策庫(kù)所中。圖2中的決策活動(dòng)對(duì)應(yīng)圖3的決策庫(kù)所,雖然規(guī)則分析決策表的指向有所區(qū)別,但是規(guī)則分析決策表的作用并無(wú)不同。 下面給出決策表Petri網(wǎng)的決策庫(kù)所、決策規(guī)則、規(guī)則分析決策表的明確定義。 定義5 決策庫(kù)所。決策庫(kù)所d代表Petri網(wǎng)中具有多個(gè)輸出弧的庫(kù)所,其中d∈P,|d·|>1,P表示庫(kù)所集,d·表示d的后集。 定義6 決策規(guī)則。給定一組屬性集Attr={at1,at2,…,atv},v∈Euclid Math TwoNAp*,決策規(guī)則 r 是一個(gè)映射函數(shù)r(Attr)=c,如式(1)所示。 (at1 op q1,at1 op q2),…, (atw op q2w-1,atw op q2w)→cl,1≤w≤v(1) 其中:屬性at1,…,atw是決策的輸入;op是比較謂詞;q1,…,q2w是常量;cl是決策的輸出,cl∈Cd·,h=|d·|,h,l∈Euclid Math TwoNAp*,1≤l≤h,Cd·為決策庫(kù)所后集的活動(dòng)名稱集,Cd·={c|lf(t),t∈d·},lf為標(biāo)簽函數(shù)將變遷t映射到活動(dòng)名稱上。(at1 op q1,at1 op q2)表示3≤at1<6,q1=3,q2=5,若q2=⊥,則表示at1≥3。 例如,圖1中決策庫(kù)所p1后面一個(gè)數(shù)據(jù)依賴形成的規(guī)則,如式(2)所示。 amount≥50,premium=false→standard check(2) 定義7 規(guī)則分析決策表。規(guī)則分析決策表dt=(I;O;R)是一種表格形式,I中包含的屬性是過程模型中用于決策的變量v∈V,O為輸出的有限非空集合,其中O∈{output,accuracy,frequency,anomaly},R為決策規(guī)則r的集合。本文用到的規(guī)則分析決策表結(jié)構(gòu)如表4所示,需要注意的是決策表的輸入輸出集并不是固定不變的,例如在建模時(shí)的輸出集可以只包含output列,因?yàn)榇藭r(shí)并不知道正確率和頻率屬性。output、accuracy、frequency、anomaly是輸出集中的元素,output表示要發(fā)生的活動(dòng)名稱,accuracy、frequency代表規(guī)則的正確率和頻率,是為分析規(guī)則可信度和規(guī)則發(fā)生頻率多加的兩個(gè)輸出項(xiàng)。其中正確率如式(3)所示,表示葉子節(jié)點(diǎn)中輸出正確類別的樣本個(gè)數(shù)占葉子節(jié)點(diǎn)內(nèi)總樣本個(gè)數(shù)的比值,即規(guī)則的可信度。leaf表示決策樹一個(gè)葉子節(jié)點(diǎn)的樣本集,leafs表示葉子節(jié)點(diǎn)的樣本集,LT表示葉子節(jié)點(diǎn)中符合輸出類別的樣本集。頻率表示一個(gè)葉子節(jié)點(diǎn)的樣本集個(gè)數(shù)占總樣本個(gè)數(shù)的比值,即規(guī)則發(fā)生的頻率,如式(4)所示,SA代表總樣本集。anomaly異常值得分是根據(jù)frequency、accuracy得到的,如式(5)所示,fre和acc是accuracy、frequency的簡(jiǎn)寫。通過anomaly∈[0,1)可以對(duì)規(guī)則進(jìn)行排序,得到值得重視的topk種規(guī)則,用戶可以根據(jù)自身需要進(jìn)行選擇。 表4是通過改進(jìn)文獻(xiàn)[3]提出的決策樹轉(zhuǎn)換成DMN決策表算法得到的,本文對(duì)生成決策表算法加入了非數(shù)值型變量的判斷,以及對(duì)不參與決策的變量進(jìn)行了刪除。其中activity0(活動(dòng))、duration、preTrace=abcde是輸入項(xiàng),是事件的屬性值,這里因?yàn)檫M(jìn)行了onehot編碼,非數(shù)值型屬性會(huì)變?yōu)椤疤卣?離散值”,例如preTrace=abcde。這里為更好地解釋活動(dòng)發(fā)生的原因,在輸入集添加duration,preTrace活動(dòng)持續(xù)時(shí)間和前綴跡屬性。持續(xù)時(shí)間是活動(dòng)的開始時(shí)間與活動(dòng)的結(jié)束時(shí)間之差。前綴跡屬性的添加是考慮到特定的流程軌跡可能會(huì)對(duì)后面活動(dòng)產(chǎn)生影響,例如σ=〈a,b,e,d,e〉的前綴跡為preTrace(σ)=〈a,b,e,d〉。同時(shí)加入活動(dòng)的發(fā)生次數(shù),判斷某些活動(dòng)的發(fā)生及其次數(shù)(循環(huán)次數(shù))對(duì)后面活動(dòng)的影響,如表4的第二列所示,活動(dòng)次數(shù)≤0.5表示之前并沒有發(fā)生過該活動(dòng)。在決策表的輸出項(xiàng)添加accuracy,frequency,可以更好地分析規(guī)則,anomaly屬性為規(guī)則的異常程度進(jìn)行打分。 規(guī)則分析決策表中每一行是一個(gè)規(guī)則,表格中的“-”表示任意值,例如第1行表示amount≤50.5,Premium!=true→Standard check。為提供操作語(yǔ)義,本文引入了決策表Petri網(wǎng)狀態(tài)的概念。 4.1.2 動(dòng)態(tài)語(yǔ)義 定義8 決策表Petri網(wǎng)的狀態(tài)。DN的狀態(tài)DM=(M,A),給定一個(gè)決策表Petri網(wǎng)DN=(N,V,U,DT),令DA=∪v∈VU(v)。DM是一個(gè)二元組,M是標(biāo)簽Petri網(wǎng)的庫(kù)所的一個(gè)映射,也稱為標(biāo)識(shí),M:S→{0,1,2,…},A是為每一個(gè)變量分配一個(gè)值的函數(shù),即A:V→DA∪{⊥},A(v)∈U(v)∪{⊥},如果變量v沒有被分配值,用特殊符號(hào)⊥進(jìn)行代替,表示賦值為空。 由于初始庫(kù)所可能是決策庫(kù)所,所以需要為初始狀態(tài)提供變量值,如式(6)所示,i表示初始庫(kù)所,A0表示初始變量值,Ai表示分配的已知變量值。如果初始庫(kù)所為決策庫(kù)所,則分配變量值,否則置為空。 例如圖3的初始狀態(tài)DM0=([1,0,0,0,0],⊥),下一個(gè)狀態(tài)可能為DM1=([0,1,0,0,0],[amount=63,premium=true,duration=5,rate=12.6])。 定義9 變遷發(fā)生規(guī)則和狀態(tài)轉(zhuǎn)換。給定一個(gè)決策表Petri網(wǎng)DN=(N,V,U,Euclid Math OneRAp),變遷的使能由一個(gè)二元組(t,W),t∈T進(jìn)行表示,W是變遷t對(duì)變量V進(jìn)行修改的函數(shù),W:T,V→V。對(duì)于變遷t∈T,如果符合式(7),說明變遷t在DM下有發(fā)生權(quán);如果還符合式(8),則變遷t在DM下有更高的使能權(quán)。式(8)說明有指向變遷t的決策庫(kù)所,并且t前集的每個(gè)決策庫(kù)所d都存在一個(gè)規(guī)則分析決策表dt,并有一條決策規(guī)則r使當(dāng)前狀態(tài)變量的結(jié)果等于變遷t,從而使變遷t發(fā)生。 s∈S:s∈·t→M(s)≥1(7) v∈V,d∈D,dt∈DT,r∈dt:d∈·t,dt∈·d→r(A(v))=t(8) 變遷t的觸發(fā)(t,W)會(huì)導(dǎo)致狀態(tài)DM=(M,A)到新狀態(tài)DM′=(M′,A′),其中M′,A′如式(9)(10)所示。 本文中決策庫(kù)所中規(guī)則分析決策表的數(shù)量允許零個(gè)、一個(gè)或者等于決策庫(kù)所前集的變遷個(gè)數(shù),初始變遷最多只有一個(gè)規(guī)則分析決策表。當(dāng)決策庫(kù)所中有多個(gè)規(guī)則分析決策表時(shí),規(guī)則分析決策表名稱與決策庫(kù)所前集的變遷標(biāo)簽需要一致。圖3中指向p1的規(guī)則分析決策表的名稱與p1前集的名稱并不一致,是因?yàn)閜1中只有一個(gè)規(guī)則分析決策表。當(dāng)決策庫(kù)所存在多個(gè)規(guī)則分析決策表時(shí),決策規(guī)則r只能在名為決策庫(kù)所前集最新觸發(fā)的變遷標(biāo)簽的規(guī)則分析決策表中選擇,r∈dt,Πname(dt)=latest(·d),latest表示最新觸發(fā)的變遷標(biāo)簽。圖4所示,變遷序列σ=〈…,t1,…〉,這里p1最新觸發(fā)的變遷是t1,所以根據(jù)規(guī)則分析決策表t1中的規(guī)則確定t3或t4的使能優(yōu)先級(jí)。 對(duì)圖3案例進(jìn)行描述,在初始狀態(tài)DM0(M0,A0)=([1,0,0,0,0],⊥)下變遷t1具有發(fā)生權(quán),經(jīng)過(t1,W1(t1,A0))觸發(fā)之后,其中W1表示注冊(cè)貸款活動(dòng)的相應(yīng)函數(shù),會(huì)得到狀態(tài)DM1(M1,A1)=([0,1,0,0,0],[amount=63,premium=true,duration=5,rate=12.6]),在此狀態(tài)下t2,t3,t4都具有發(fā)生權(quán),但是因?yàn)槠ヅ湟?guī)則分析決策表1中的規(guī)則3,即r3(A1)=lf(t4),所以t4具有強(qiáng)制發(fā)生權(quán),之后會(huì)發(fā)生t4。這里由于規(guī)則分析決策表輸出使用的是變遷的標(biāo)簽,所以需要標(biāo)簽函數(shù)lf對(duì)變遷t進(jìn)行轉(zhuǎn)換。 4.2 決策表Petri網(wǎng)的挖掘 圖5展示了決策表Petri網(wǎng)挖掘算法(decision table Petri net miner,DTPN Miner)的整體流程。圖中的步驟①獲取事件日志L的控制流結(jié)構(gòu),并對(duì)決策庫(kù)所d進(jìn)行提??;步驟②對(duì)事件日志L進(jìn)行更新;步驟③將事件日志在控制流結(jié)構(gòu)上進(jìn)行重演,得到激活變遷序列,設(shè)置相應(yīng)的日志重放fitness[34]閾值刪除不符合流程模型的流程跡,閾值越高則完全符合流程,閾值越低則允許更多的不合規(guī)跡,進(jìn)而發(fā)現(xiàn)更多的規(guī)則;步驟④和⑤通過決策庫(kù)所前后集活動(dòng)的一致性對(duì)齊獲取訓(xùn)練數(shù)據(jù);步驟⑥根據(jù)訓(xùn)練數(shù)據(jù)構(gòu)建具有分類預(yù)測(cè)能力的決策樹,前集活動(dòng)的最新屬性作為預(yù)測(cè)變量,后集的活動(dòng)名稱作為預(yù)測(cè)值;步驟⑦對(duì)每棵決策樹的葉子節(jié)點(diǎn)進(jìn)行遍歷,構(gòu)建規(guī)則分析決策表并與決策庫(kù)所進(jìn)行綁定。本文通過Python語(yǔ)言進(jìn)行技術(shù)實(shí)現(xiàn),利用pm4py中的日志重放和過程挖掘技術(shù)以及scikitlearn中分類回歸樹(classification and regression tree,CART)[35]算法實(shí)現(xiàn)決策表Petri網(wǎng)的挖掘。所開發(fā)的DTPN miner可以同時(shí)支持α[36]、α+[37]、啟發(fā)式(heuristic miner,HM)[38]、感應(yīng)式(inductive miner,IM)[39]算法的挖掘。 4.3 算法描述 算法1 事件日志更新算法updateLog 輸入:事件日志log。 輸出:更新后的事件日志log。 1 for each trace∈log do //遍歷事件日志中的跡 2 preAtts←ΠAttributes(trace) //獲取跡屬性 3 preTrace,preEvent←none //初始化前綴跡和之前的活動(dòng) 4 for each event∈trace do //遍歷跡中的事件 5? preTrace←preTrace∪preEvent //添加之前的活動(dòng) 6? if preEvent !=⊥ then //判斷是否存在之前的活動(dòng) 7?? ΠpreEvent(event)← ΠpreEvent(event)+1 /*之前活動(dòng)的次數(shù)進(jìn)行加1操作*/ 8?? ΠAttributes(event)← ΠAttributes(event) ∪preAtts //更新屬性 9?? ΠpreTrace(event)← preTrace //添加前綴跡屬性 10? preAtts←ΠAttributes(event) //設(shè)置新的前綴跡屬性 11? preEvent←getName(ΠAttributes(event)) //保留之前發(fā)生的活動(dòng) 12? insert(trace,0,trace[0],‘a(chǎn)rt_start) //插入人工開始 13? append(trace,trace[-1],‘a(chǎn)rt_end) //插入人工結(jié)束 14 return log//返回更新后的事件日志 決策挖掘需要決策庫(kù)所前集活動(dòng)的最新屬性作為預(yù)測(cè)變量,所以步驟②通過算法1對(duì)事件日志進(jìn)行更新。例如表3中同一個(gè)跡中的不同事件所記錄的屬性并不一致,但是前面發(fā)生的事件屬性是已知的,而發(fā)生決策的原因并不一定是當(dāng)前事件產(chǎn)生的數(shù)據(jù)屬性導(dǎo)致的,有可能是前面活動(dòng)產(chǎn)生的數(shù)據(jù)屬性所導(dǎo)致的,也有可能是前面發(fā)生的某些活動(dòng)及循環(huán)次數(shù),甚至是前面的特定流程軌跡。因此算法1主要對(duì)事件的屬性進(jìn)行更新,該算法也可以添加其他的預(yù)測(cè)屬性。這里本文加入了活動(dòng)的發(fā)生次數(shù)、前綴跡屬性來(lái)探究之前活動(dòng)的發(fā)生或循環(huán),以及特定的流程軌跡是否會(huì)對(duì)后面的活動(dòng)產(chǎn)生影響。算法1對(duì)跡中的事件進(jìn)行遍歷,首先獲取跡的相關(guān)屬性,每遍歷一個(gè)活動(dòng),便將前一個(gè)活動(dòng)添加到前綴跡preTrace中,前綴跡通過上一個(gè)活動(dòng)preEvent的getName 函數(shù)獲取活動(dòng)名稱的單詞首字母進(jìn)行拼接,同時(shí)對(duì)事件屬性中前面發(fā)生的活動(dòng)preEvent的次數(shù)進(jìn)行+1操作,之后對(duì)當(dāng)前屬性與之前屬性preAtts求并集,實(shí)現(xiàn)活動(dòng)屬性的更新。而事件的持續(xù)時(shí)間屬性適用于有時(shí)間間隔的事件日志,可以通過Pm4py集成的方法得到。當(dāng)一個(gè)跡結(jié)束時(shí),通過復(fù)制跡的第一個(gè)活動(dòng)和最后一個(gè)活動(dòng),在日志跡中插入人為開始活動(dòng)和人為結(jié)束活動(dòng),使決策庫(kù)所可以生成符合實(shí)際活動(dòng)和實(shí)際發(fā)生的決策規(guī)則。通過算法1,本文可以得到更加完整的事件日志,并且對(duì)規(guī)則分析添加了屬性基礎(chǔ)。 算法2 獲取不可見變遷的真實(shí)輸入活動(dòng)集getInRealActivity 輸入:真實(shí)輸入活動(dòng)集realt=;不可見變遷hid;庫(kù)所集P;初始變遷集ti。 輸出:真實(shí)輸入活動(dòng)集realt。 1 if hid∈ti then //遞歸到初始變遷 2 realt←realt ∪ art_start //添加人工開始變遷 3 return //結(jié)束遞歸 3 for each p∈P do //遍歷庫(kù)所集 4 for ot∈p·do //遍歷每個(gè)庫(kù)所的后集活動(dòng) 5 ?if ot==hid then //找到指向隱變遷的庫(kù)所 6? for each t∈·p do //遍歷庫(kù)所前集的活動(dòng) 7? ?if t==hid then continue //循環(huán)到自己,跳過 8? ?else if isSilent(t) then //活動(dòng)為隱變遷 9?? getInRealActivity(realt,t,P,ti)/*遞歸算法2,尋找活動(dòng)的真實(shí)活動(dòng)集合*/ 10? else realt←realt∪t //真實(shí)活動(dòng)直接添加到集合 11 ?break //遍歷下一個(gè)庫(kù)所 12 return //結(jié)束算法 步驟④中決策庫(kù)所的前集或后集會(huì)存在不可見變遷的情況。不可見變遷通常代表異或拆分、異或連接以及某些類型的循環(huán)、跳過,是建模所必需的變遷形式。對(duì)于決策挖掘中的不可見變遷即隱變遷,目前已經(jīng)通過日志對(duì)齊技術(shù)進(jìn)行解決。但是,對(duì)齊技術(shù)也存在問題,最優(yōu)對(duì)齊的變遷綁定可能與實(shí)際變遷發(fā)生并不符合。本文通過令牌重放和獲取不可見變遷的實(shí)際活動(dòng)集的算法,實(shí)現(xiàn)對(duì)隱變遷的預(yù)測(cè)。算法2可以獲取不可見變遷的所有可能的真實(shí)輸入活動(dòng)集。該算法主要對(duì)隱變遷hid的前一個(gè)真實(shí)活動(dòng)來(lái)源進(jìn)行獲取,通過遍歷庫(kù)所中的活動(dòng),其中p表示庫(kù)所,ot和t表示活動(dòng),如果前一個(gè)的活動(dòng)還是隱變遷則進(jìn)行遞歸,直到它前一個(gè)真實(shí)活動(dòng)來(lái)源都能用真實(shí)變遷進(jìn)行表達(dá),如果遍歷到自己則進(jìn)行下一次循環(huán),防止陷入死循環(huán)。如果遞歸到初始變遷集ti中還有隱變遷,則添加人為開始變遷。添加人為開始變遷是因?yàn)殡[變遷可能是開始的過渡。獲取隱變遷的真實(shí)輸出活動(dòng)集只需要將算法2中的初始變遷集ti={t|t∈p0·,t∈T}改成結(jié)束變遷集to={t|t∈·pe,t∈T},其中p0和pe分別為初始庫(kù)所和結(jié)束庫(kù)所,相應(yīng)的·p改成p·、p·改成·p,算法2中的人為開始變遷改成人為結(jié)束變遷,即art_start改成art_end,它們的思路是一致的。算法2的實(shí)現(xiàn)可以找到隱變遷對(duì)應(yīng)的真實(shí)的活動(dòng)標(biāo)簽,進(jìn)而獲得其在事件日志的真實(shí)表現(xiàn)。 算法3 挖掘決策表Petri網(wǎng)DTPN miner 輸入:日志log;挖掘方法method;連接方式j(luò)oin;閾值threshold。 輸出:決策表Petri網(wǎng)DTPN。 1 net←processMining(method)//獲取網(wǎng)結(jié)構(gòu) 2 newLog←updateLog(log)//進(jìn)行日志的屬性更新 3 replayLog←tokenReplay(log,net)/*根據(jù)日志和網(wǎng)結(jié)構(gòu)獲取重演日志*/ 4 for each i←0 to len(replayLog)-1 do//遍歷重演日志 5 if replayLogi.fitness 6? ?then continue //進(jìn)行下一次循環(huán) 7 ??trace,repTrace,index,frontList←newLogi,replayLogi,0,/*設(shè)置更新跡和重演跡以及活動(dòng)位置與決策庫(kù)所前集活動(dòng)的列表*/ 8 ?if IsInitDPlace(net.p0) and ΠAttributes(trace1)∈Real(net.ti) then/*判斷是否為初始決策庫(kù)所以及活動(dòng)是否屬于初始變遷集的真實(shí)活動(dòng)集*/ 9 ??Db(p0)←Db(p0)∪(ΠAttributes(trace0),Real(repTracem0))/*數(shù)據(jù)集添加初始決策的屬性和特征*/ 10? ?cAct,nAct←trace0,trace1//設(shè)置當(dāng)前活動(dòng)和下一個(gè)活動(dòng) 11 ?for each j←0 to len(repTrace)-1 do //遍歷重演跡 12? ?logreplay,modelreplay←repTracelj,repTracemj/*設(shè)置事件的日志重演、事件的模型重演*/ 13? ?nextreplay←repTracemj+1//設(shè)置事件的模型的下一次重演 14? ?if logreplay!=⊥ then //存在真實(shí)事件 15?? ?index←index+1 //活動(dòng)位置移動(dòng) 16?? ?cAct,nAct←traceindex,traceindex+1//更新當(dāng)前和下一活動(dòng) 17? ?if ISdplaceIn(modelreplay) then //如果為決策庫(kù)所輸入 18?? ?frontList←frontList∪(modelreplay,cAct) /*添加模型重演和當(dāng)前活動(dòng)*/ 19 ??if |frontList|>0 and ISdplaceOut(nextreplay)then /*如果前集活動(dòng)列表存在元素,并且模型事件的下次重演為決策庫(kù)所的輸出*/ 20?? for each frontmodel,frontAct∈Inverse(frontList) do //倒序遍歷 21??? flag←false //設(shè)置退出標(biāo)簽 22??? for each p∈dPlaces do//遍歷決策庫(kù)所 23???? if nextreplay∈p·and frontmodel∈·p then//前后集一致 24???? if frontAct,nAct∈Real(frontmodel,nextreplay)then /*判斷模型和真實(shí)活動(dòng)是否一致*/ 25????? flag←true //設(shè)置退出標(biāo)簽 26????? Db(p)←Db(p)∪(ΠAttributes(cAct),nextreplay)/*數(shù)據(jù)集添加普通決策的屬性和特征*/ 27???? if flag==true then break//退出倒序遍歷的循環(huán) 28???? DTPN←createDecisionTablePetriNet(Db,net,join)/*根據(jù)獲取的數(shù)據(jù)集,網(wǎng)結(jié)構(gòu),連接方式生成決策表Petri網(wǎng)*/ 29 return DTPN//返回決策表Petri網(wǎng) 算法3是圖5整個(gè)算法流程的具體描述。算法3第1行首先根據(jù)選擇的流程挖掘方法method獲取Petri網(wǎng)的結(jié)構(gòu),這里只需給定一個(gè)方法名稱即可。第2行通過算法1可以得到更新的事件日志newLog,第3行獲取重演日志replayLog,replayLog由重演跡repTrace組成,repTrace是重演事件的序列,其中上標(biāo)m表示事件的模型重演,l表示事件的日志重演,事件的日志重演并沒有事件的其他屬性,Db為決策庫(kù)所綁定的數(shù)據(jù)集。算法4~27行通過四個(gè)for循環(huán)獲取決策一致性綁定的訓(xùn)練數(shù)據(jù),如步驟④~⑥所示。主循環(huán)是對(duì)重演的事件日志進(jìn)行遍歷,i表示第幾個(gè)跡,j表示跡中的第幾個(gè)事件,index是更新事件日志跡中事件的位置,如果重演跡的fitness小于規(guī)定的閾值,即當(dāng)前跡不符合本文流程的預(yù)期,則進(jìn)行下一次遍歷。trace代表更新事件日志中的跡,frontList表示可能的決策庫(kù)所前集活動(dòng)的列表。算法第8行判斷網(wǎng)的初始庫(kù)所net.p0是否為決策庫(kù)所,同時(shí)判斷第二個(gè)事件trace1的活動(dòng)是否屬于net.ti的真實(shí)輸出活動(dòng)集,這里判斷第二個(gè)事件是因?yàn)樵诟逻^程中添加了人工開始,如果符合,則使用當(dāng)前活動(dòng)的屬性做特征,當(dāng)前的模型重演做標(biāo)簽,因?yàn)楫?dāng)前模型重演可能是隱變遷,所以并不能直接用當(dāng)前活動(dòng)名稱做標(biāo)簽。 這里使用Real函數(shù)得到真實(shí)活動(dòng),是算法2的簡(jiǎn)單表示。cAct和nAct表示更新日志的當(dāng)前活動(dòng)與下一個(gè)活動(dòng)。然后對(duì)重演跡進(jìn)行遍歷,logreplay、modelreplay、nextreplay表示事件的日志重演、事件在模型的重演、事件在模型的下一次重演。日志重演不一定等于模型重演,模型重演可能是隱變遷。frontList添加的是模型重演和當(dāng)前活動(dòng),所以在解封裝時(shí)frontmodel和frontAct表示前一個(gè)發(fā)生的模型和其真實(shí)的活動(dòng)數(shù)據(jù)。通過對(duì)frontList進(jìn)行倒序遍歷,倒序表示最新查找,循環(huán)查找當(dāng)前活動(dòng)和下一個(gè)活動(dòng)符合的決策庫(kù)所,同時(shí)還有對(duì)模型的真實(shí)輸入和輸出與 當(dāng)前活動(dòng)和下一個(gè)活動(dòng)進(jìn)行判斷,只有這樣才是真正符合決策庫(kù)所前后集一致的數(shù)據(jù)。這里用一個(gè)列表是為了防止有些并行活動(dòng)的出現(xiàn),并不直接對(duì)活動(dòng)和下一個(gè)活動(dòng)進(jìn)行判斷,而是存儲(chǔ)在列表當(dāng)中。如果前集活動(dòng)和下一個(gè)活動(dòng)與決策庫(kù)所的真實(shí)活動(dòng)一致,當(dāng)前數(shù)據(jù)屬性作為特征,模型下一次重演作標(biāo)簽,綁定到?jīng)Q策庫(kù)所最新發(fā)生的前集模型上。在遍歷完所有庫(kù)所后,通過flag進(jìn)行判斷,如果數(shù)據(jù)進(jìn)行過綁定便退出循環(huán)。最后算法28行對(duì)綁定的數(shù)據(jù)生成決策表Petri網(wǎng)。因?yàn)橛械淖冞w可能在多個(gè)決策庫(kù)所前集中,所以本文生成的規(guī)則分析決策表名稱后會(huì)添加數(shù)字進(jìn)行區(qū)分。 在定義9中,本文指出決策庫(kù)所中規(guī)則分析決策表可以有0個(gè)、1個(gè)或者等于決策庫(kù)所前集的變遷個(gè)數(shù)。它的實(shí)現(xiàn)通過對(duì)綁定的變遷數(shù)據(jù)進(jìn)行處理,每個(gè)變遷生成獨(dú)立的規(guī)則分析決策表或者變遷集進(jìn)行(內(nèi)聯(lián)或外聯(lián))合并生成一個(gè)規(guī)則分析決策表,如算法中28行所示,join表示連接方式,這里表示一個(gè)名稱。這樣操作是因?yàn)橛械那闆r下是變遷前集共用一個(gè)規(guī)則分析決策表,也可能是前集的每個(gè)變遷有自己獨(dú)立的規(guī)則分析決策表。圖5中的步驟⑥⑦通過算法中的28行進(jìn)行實(shí)現(xiàn),對(duì)決策綁定的數(shù)據(jù)進(jìn)行決策樹挖掘,形式化為規(guī)則分析決策表,指向?qū)?yīng)的決策庫(kù)所,然后生成決策表Petri網(wǎng)。通過給定算法3的輸入,可以得到一個(gè)決策Petri網(wǎng)模型。算法1~3的核心偽代碼在線鏈接為https://github.com/zhangzhengzhuifeng/DTPN_Miner。 圖6為對(duì)案例事件日志應(yīng)用算法3挖掘得到的銀行貸款申請(qǐng)的決策表Petri網(wǎng)模型,圖中的黃色框?yàn)榛顒?dòng)變遷,紅色圓形并標(biāo)有d為決策庫(kù)所,有相應(yīng)的規(guī)則分析決策表指向該庫(kù)所,綠色圓形并標(biāo)有1的表示初始庫(kù)所,1代表該庫(kù)所含有1個(gè)token,而淺藍(lán)色圓形表示終止庫(kù)所,紫色圓形代表普通的庫(kù)所,表名后的數(shù)字表示決策樹的得分值(參見電子版)。通過對(duì)比可以看出,挖掘出的兩個(gè)規(guī)則分析決策表和圖2設(shè)定的決策表誤差僅相差0.5,也從側(cè)面證明了本文決策表Petri網(wǎng)挖掘方法的合理性。在第5章中,本文將通過實(shí)驗(yàn)來(lái)驗(yàn)證決策表Petri網(wǎng)的可用性,及其在過程預(yù)測(cè)監(jiān)控中的可解釋性應(yīng)用,它可以實(shí)現(xiàn)詳細(xì)地對(duì)未來(lái)活動(dòng)發(fā)生的原因進(jìn)行數(shù)值性解釋,并對(duì)決策規(guī)則進(jìn)行解釋性闡述。 5 實(shí)驗(yàn)驗(yàn)證及分析 本章的實(shí)驗(yàn)部分主要采用人工日志和真實(shí)日志兩種類型的日志進(jìn)行仿真實(shí)驗(yàn)。5.1節(jié)對(duì)人工日志進(jìn)行挖掘,說明決策表Petri網(wǎng)對(duì)規(guī)則的可解釋性。然后,5.2節(jié)通過真實(shí)事件日志說明所提挖掘算法可以實(shí)現(xiàn)初始決策、不可見變遷的預(yù)測(cè)、探究歷史活動(dòng)的發(fā)生對(duì)決策規(guī)則的影響。它們都與文獻(xiàn)[10]進(jìn)行對(duì)比,說明相比于數(shù)據(jù)Petri網(wǎng),決策表Petri網(wǎng)在活動(dòng)變化中規(guī)則解釋的優(yōu)越性。 5.1 人工日志 這里提供一個(gè)維修的事件日志(https://github.com/luluti/Process_Mining/blob/master/repairExampleSample2.xes),該日志的主要流程是用戶對(duì)維修的物品進(jìn)行注冊(cè)(register),然后工作人員對(duì)物品進(jìn)行異常檢測(cè)(analyze defect),確定是進(jìn)行簡(jiǎn)單修理(repair(simple)),還是復(fù)雜修理(repair(complex)),然后對(duì)修理后的物品進(jìn)行測(cè)試(test repair),測(cè)試不通過還需要繼續(xù)修理(restart repair),期間會(huì)對(duì)用戶進(jìn)行告知(inform user),最后進(jìn)行交付(archive repair)。 圖7、8是通過ProM中decisiontree miner[10]挖掘出的數(shù)據(jù)Petri網(wǎng)模型,圖9~11是采用本文方法,并將DTPN miner的method設(shè)置為alpha所挖掘出的決策表Petri網(wǎng)模型,這里設(shè)置規(guī)則分析決策表的規(guī)則數(shù)最大值為5,fitness的閾值為0.7。其中圖7挖掘出的規(guī)則與另外三個(gè)挖掘出的規(guī)則并不一致,這是因?yàn)閳D7中存在控制流異常??刂屏鳟惓V傅氖莚epair(complex)到archive repair的過程。通過Petri網(wǎng)的語(yǔ)義可以發(fā)現(xiàn),如果只執(zhí)行活動(dòng)repair(simple),該流程永遠(yuǎn)無(wú)法結(jié)束,但如果執(zhí)行活動(dòng)repair(complex)后,執(zhí)行兩次或多次test repair活動(dòng),也會(huì)存在token剩余的情況。在這種情況下,使用對(duì)齊方法就會(huì)執(zhí)行錯(cuò)誤的綁定,使模型移動(dòng)傾向于repair(complex)活動(dòng)的發(fā)生。而本文通過令牌重放和決策庫(kù)所前后集一致,使得在有控制流異常的Petri網(wǎng)模型中,也可以挖出和通過對(duì)齊技術(shù)在無(wú)控制流異常的Petri網(wǎng)模型一致的規(guī)則,從而證明了本文方法的合理性,如圖8和9所示,其中圖9并沒有添加活動(dòng)次數(shù)屬性。 圖11為帶活動(dòng)次數(shù)屬性的多決策表Petri網(wǎng)模型,它對(duì)決策庫(kù)所中的規(guī)則分析決策表進(jìn)行了更加細(xì)致的劃分,可以發(fā)現(xiàn)規(guī)則分析決策表的得分值比圖10中帶活動(dòng)次數(shù)屬性的單規(guī)則分析決策表得分值要高,并且更能反映不同階段規(guī)則的發(fā)生情況。圖11中可以發(fā)現(xiàn),restart repair規(guī)則分析決策表中存在新的規(guī)則,并且得分值可以達(dá)到0.94,從表中的第一條規(guī)則可以知道如果之前沒有執(zhí)行過repair(simple),即前面執(zhí)行的是repair(complex),后面肯定會(huì)執(zhí)行repair(complex)。圖11中的analyze defect表和圖9中不帶活動(dòng)次數(shù)屬性的restart repair & analyze defect表是一致的,反映出多規(guī)則分析決策表比單規(guī)則分析決策表更能反映規(guī)則在過程流動(dòng)中的變化情況。 通過決策表Petri網(wǎng)的規(guī)則分析決策表也可以發(fā)現(xiàn)一些異常的規(guī)則,如圖12所示。defectFixed=false,numberRepairs=3→archive repair規(guī)則的異常值得分為0.95,這表明它的正確率和頻率有值得注意的地方。通過規(guī)則可以知道,在修理過程中存在沒有修理好就交付的情況。 5.2 真實(shí)日志 圖13、14是對(duì)BPIC2013_open_problems真實(shí)事件日志通過decisiontree miner挖掘得到的數(shù)據(jù)Petri網(wǎng)和本文程序所得到的決策表Petri網(wǎng)模型,它們的控制流結(jié)構(gòu)是通過pm4py中的inductive miner算法挖掘得到的,將DTPN miner的method設(shè)置為inductive。為了更好展示,將決策表Petri網(wǎng)中規(guī)則分析決策表的規(guī)則條數(shù)最大值設(shè)置為3,fitness的閾值設(shè)置為0.7。圖14中灰色框表示隱變遷,并標(biāo)有相應(yīng)的隱變遷類型和名稱。通過對(duì)比可以發(fā)現(xiàn),兩者中存在規(guī)則一致的,也存在規(guī)則不一致的。 這里的規(guī)則不一致主要是因?yàn)楸疚募尤肓顺跏紱Q策和前綴跡、活動(dòng)發(fā)生次數(shù)屬性。tau_1規(guī)則分析決策表是將自身數(shù)據(jù)屬性和活動(dòng)名稱做特征和標(biāo)簽所得到的。這樣操作不僅考慮了原本的跡屬性,還考慮了跡中第一個(gè)活動(dòng)的屬性。從中可以找到造成queued活動(dòng)發(fā)生的原因。通過加入前綴跡和活動(dòng)次數(shù)屬性,來(lái)探究活動(dòng)的發(fā)生和流程軌跡是否會(huì)對(duì)未來(lái)的決策產(chǎn)生影響。completed表第三條規(guī)則可以知道completed發(fā)生之前,如果沒有completed發(fā)生并且product=PROD494,則后面無(wú)法結(jié)束該流程。由圖15的accepted規(guī)則分析決策表可知,在異常值為0.92的規(guī)則下,由于前綴跡為A,可以知道在執(zhí)行兩次accepted活動(dòng)后并且oranization country=gb時(shí),有71.43%的可能性結(jié)束該流程。 通過上述實(shí)驗(yàn)可以發(fā)現(xiàn),數(shù)據(jù)Petri網(wǎng)可以說明變遷發(fā)生的條件,但是并不能說明活動(dòng)之間發(fā)生的原因,而本文的決策表Petri網(wǎng)可以通過多決策表反映在流程運(yùn)行中不同活動(dòng)之間的規(guī)則變化,因此本文方法更能體現(xiàn)規(guī)則在流程中的變化情況,同時(shí)利用規(guī)則分析決策表去解釋決策點(diǎn)的下一個(gè)活動(dòng)發(fā)生的原因,并通過anomaly值得分從中找出流程變化中值得注意的規(guī)則,進(jìn)而證明本文方法決策表Petri網(wǎng)的挖掘方法的合理性與實(shí)用性。 5.3 準(zhǔn)確度分析 圖16為本文使用的決策樹與集成學(xué)習(xí)下的隨機(jī)森林[40]、深度學(xué)習(xí)中的圖神經(jīng)網(wǎng)絡(luò)[41]在真實(shí)日志中各決策點(diǎn)的準(zhǔn)確度對(duì)比。其中準(zhǔn)確度公式如式(11)所示,dt表示規(guī)則分析決策表,dt··表示決策庫(kù)所后集的活動(dòng),E表示經(jīng)過dt真實(shí)發(fā)生的事件集合,CE表示未來(lái)預(yù)測(cè)正確的真實(shí)事件集合,precision表示在發(fā)生決策庫(kù)所前集某一活動(dòng)下,未來(lái)發(fā)生決策庫(kù)所后集活動(dòng)的正確率。可以發(fā)現(xiàn)決策樹和圖神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確性相差不大,有時(shí)甚至優(yōu)于圖神經(jīng)網(wǎng)絡(luò),但是相比于隨機(jī)森林,其準(zhǔn)確性較低。這說明了本文所采用的預(yù)測(cè)技術(shù)可能并不是最優(yōu)的,但是在準(zhǔn)確率要求不高、可解釋性要求較高的情況下,本文方法具有一定的優(yōu)勢(shì)。 6 結(jié)束語(yǔ) 本文受BPMN和DMN模型結(jié)合建模的啟發(fā),結(jié)合決策挖掘技術(shù),定義了一種決策表Petri網(wǎng)模型,實(shí)現(xiàn)了決策樹到DMN決策表的映射;同時(shí),提出并實(shí)現(xiàn)了相應(yīng)的挖掘算法,奠定了決策表Petri網(wǎng)對(duì)過程預(yù)測(cè)和監(jiān)控等方面的可解釋性應(yīng)用的基礎(chǔ)。具體而言,本文主要完成了以下工作目標(biāo): a)改進(jìn)了傳統(tǒng)決策表的輸入和輸出集,通過將前綴跡、活動(dòng)發(fā)生次數(shù)屬性加入到?jīng)Q策輸入集中,可以判斷特定軌跡和歷史活動(dòng)的發(fā)生對(duì)決策產(chǎn)生的影響;在輸出集中定義了規(guī)則的異常值得分,用于發(fā)現(xiàn)異常規(guī)則,同時(shí)借助多決策表實(shí)現(xiàn)流程運(yùn)行中不同活動(dòng)之間的規(guī)則變化分析,最終使決策表Petri網(wǎng)具有預(yù)測(cè)、解釋和分析異常的能力。 b)利用Python實(shí)現(xiàn)了決策表Petri網(wǎng)的挖掘器DTPN miner,可以實(shí)現(xiàn)事件日志到?jīng)Q策表Petri網(wǎng)模型的映射。其中,決策表Petri網(wǎng)的決策規(guī)則不僅依賴于控制流結(jié)構(gòu),還依賴于活動(dòng)所攜帶的相關(guān)屬性。 事件日志數(shù)據(jù)集的仿真實(shí)驗(yàn)結(jié)果表明,所提決策表Petri網(wǎng)挖掘方法不僅可以將決策規(guī)則和Petri網(wǎng)模型進(jìn)行整合,形成一個(gè)整體的模型,最重要的是,產(chǎn)生的決策表Petri網(wǎng)可以對(duì)過程的預(yù)測(cè)、異常檢測(cè)等行為進(jìn)行數(shù)值解釋,將聲明性過程挖掘和過程預(yù)測(cè)與監(jiān)控進(jìn)行有效地融合。同時(shí)與完善的數(shù)據(jù)Petri網(wǎng)的挖掘技術(shù)進(jìn)行對(duì)比,證明本文提出決策表Petri網(wǎng)挖掘方法是合理的,并且說明在流程運(yùn)行中的規(guī)則變化具有一定優(yōu)勢(shì)。雖然本文方法有如上優(yōu)點(diǎn),然而不可否認(rèn)的是,決策表Petri網(wǎng)挖掘方法也存在一些不足之處,如決策表Petri網(wǎng)的決策規(guī)則發(fā)現(xiàn)依靠于控制流結(jié)構(gòu),并且決策樹的預(yù)測(cè)準(zhǔn)確性相比于其他集成學(xué)習(xí)方法(如RF)的準(zhǔn)確性較低。因此,未來(lái)將嘗試使用結(jié)合其他機(jī)器學(xué)習(xí)算法去發(fā)現(xiàn)更準(zhǔn)確的規(guī)則,并在控制流基礎(chǔ)上結(jié)合數(shù)據(jù)決策,融入一些更加高級(jí)的決策規(guī)則,如模糊決策、不確定推理等。 參考文獻(xiàn): [1]Leno V, Dumas M, Maggi F M, et al. Automated discovery of declarative process models with correlated data conditions[J].Information Systems,2020,89:101482. [2]Schützenmeier N, Kppel M, Ackermann L, et al. Automatonbased comparison of declare process models[J].Software and Systems Modeling,2023,22(2):667-685. [3]Erdogan T G, Tarhan A K. Multiperspective process mining for emergency process[J].Health Informatics Journal,2022,28(1):14604582221077195. [4]Zhang Sicui, Genga L, Dekker L, et al. Fuzzy multiperspective conformance checking for business processes[J].Applied Soft Computing,2022,130(C):109710. [5]Guzzo A, Joaristi M, Rullo A, et al. A multiperspective approach for the analysis of complex business processes behavior[J].Expert Systems with Applications,2021,177:114934. [6]Khannat A, Sbai H, Kjiri L. Configurable process mining: semantic variability in event logs[C]//Proc of the 23rd International Conference on Enterprise Information Systems.Setúbal:SciTePress,2021:768-775. [7]Van Den Ingh L, Eshuis R, Gelper S. Assessing performance of mined business process variants[J].Enterprise Information Systems,2021,15(5):676-693. [8]Fazzinga B, Flesca S, Furfaro F, et al. Process mining meets argumentation:explainable interpretations of lowlevel event logs via abstract argumentation[J].Information Systems,2022,107:101987. [9]Leoni M D, Mannhardt F. Decision discovery in business processes[M]//Sakr S,Zomaya A.Encyclopedia of Big Data Technologies.Cham:Springer,2018:1-12. [10]de Leoni M, van der Aalst W M P. Dataaware process mining: discovering decisions in processes using alignments[C]//Proc of the 28th ACM Conference on Applied Computing.New York:ACM Press,2013:1454-1461. [11]Mannhardt F, de Leoni M, Reijers H A, et al. Decision mining revisiteddiscovering overlapping rules[C]//Proc of the 28th International Conference on Advanced Information Systems Engineering.Cham:Springer,2016:377-392. [12]Mannhardt F, de Leoni M, Reijers H A, et al. Datadriven process discoveryrevealing conditional infrequent behavior from event logs[C]//Proc of the 29th International Conference on Advanced Information Systems Engineering.Cham:Springer,2017:545-560. [13]Etinger D, SimiC' S D, BuljubaiC' L. Automated decisionmaking with DMN:from decision trees to decision tables[C]//Proc of the 42nd International Conference on Information and Communication Technology, Electronics and Microelectronics.Piscataway,NJ:IEEE Press,2019:1309-1313. [14]Bazhenova E, Zerbato F, Oliboni B, et al. From BPMN process models to DMN decision models[J].Information Systems,2019,83:69-88. [15]Jouck T, de Leoni M, Depaire B. A framework to evaluate and compare decisionmining techniques[C]//Proc of International Conference on Business Process Management Workshops.Cham:Springer,2019:482-493. [16]de Leoni M, Felli P, Montali M. Integrating BPMN and DMN: modeling and analysis[J].Journal on Data Semantics,2021,10(1):165-188. [17]OMG.Decision model and notation[EB/OL].(2015-09-01)[2021-01-01].https://www.omg.org/spec/DMN. [18]OMG.Business process model and notation[EB/OL].(2006-11-05)[2013-12-09].https://www.omg.org/spec/BPMN. [19]瞿華.一種基于過程挖掘的業(yè)務(wù)過程決策規(guī)則發(fā)現(xiàn)算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(6):2192-2195.(Qu Hua. Business processes decision rules discovery algorithm based on process mining[J].Application Research of Computers,2012,29(6):2192-2195.) [20]Sidorova N, Stahl C, Trcˇka N. Soundness verification for conceptual workflow nets with data:early detection of errors with the most precision possible[J].Information Systems,2011,36(7):1026-1043. [21]Rozinat A, van der Aalst W M P. Decision mining in ProM[C]//Proc of International Conference on Business Process Management.Berlin:Springer,2006:420-425. [22]de Leoni M, Dumas M, Garcíabauelos L. Discovering branching conditions from business process execution logs[C]//Proc of the 16th International Conference on Fundamental Approaches to Software Engineering.Berlin:Springer,2013:114-129. [23]Batoulis K, Meyer A, Bazhenova E, et al. Extracting decision logic from process models[C]//Proc of the 27th International Conference on Advanced Information Systems Engineering.Cham:Springer,2015:349-366. [24]Bazhenova E, Weske M. Deriving decision models from process models by enhanced decision mining[C]//Proc of the 13th International Conference on Business Process Management Workshops.Cham:Springer,2016:444-457. [25]Bazhenova E, Buelow S, Weske M. Discovering decision models from event logs[C]//Proc of the 19th International Conference on Business Information Systems.Cham:Springer,2016:237-251. [26]Bazhenova E, Haarmann S, Ihde S, et al. Discovery of fuzzy DMN decision models from event logs[C]//Proc of the 29th International Conference on Advanced Information Systems Engineering.Cham:Springer,2017:629-647. [27]de Smedt J, HasiC' F, van den Broucke S K L M, et al. Holistic discovery of decision models from process execution data[J].KnowledgeBased Systems,2019,183:104866. [28]de Smedt J, HasiC' F, van den Broucke S K L M, et al. Towards a holistic discovery of decisions in processaware information systems[C]//Proc of the 15th International Conference on Business Process Management.Cham:Springer,2017:183-199. [29]Bazhenova E, Zerbato F, Weske M. Datacentric extraction of DMN decision models from BPMN process models[C]//Proc of International Conference on Business Process Management Workshops.Cham:Springer,2018:542-555. [30]Maggi F M, Dumas M, Garcíabauelos L, et al. Discovering dataaware declarative process models from event logs[C]//Proc of the 11th International Conference on Business Process Management.Berlin:Springer,2013:81-96. [31]Leno V, Dumas M, Maggi F M. Correlating activation and target conditions in dataaware declarative process discovery[C]//Proc of the 16th International Conference on Business Process Management.Cham:Springer,2018:176-193. [32]Bayomie D, Revoredo K, Mendling J. Multiperspective process analysis: mining the association between control flow and data objects[C]//Proc of International Conference on Advanced Information Systems Engineering.Cham:Springer,2022:72-89. [33]van der Aalst W M P. Process miningdata science in action[M].2nd ed.Berlin:Springer,2016:3-452. [34]Rozinat A, van der Aalst W M P. Conformance checking of processes based on monitoring real behavior[J].Information Systems,2008,33(1):64-95. [35]Breiman L, Friedman J H, Olshen R A, et al. Classification and regression trees[M].New York:Chapman and Hall,1984:1-368. [36]van der Aalst W M P, Weijters T, Maruster L. Workflow mining: discovering process models from event logs[J].IEEE Trans on Knowledge and Data Engineering,2004,16(9):1128-1142. [37]de Medeiros A K A, van Dongen B F, van der Aalst W M P, et al. Process mining for ubiquitous mobile systems: an overview and a concrete algorithm[C]//Proc of the 2nd CAiSE Workshop Conference on Ubiquitous Mobile Information and Collaboration Systems.Berlin:Springer,2005:151-165. [38]Weijters A J M M, Ribeiro J T S. Flexible heuristics miner(FHM)[C]//Proc of IEEE Symposium International Conference on Computational Intelligence and Data Mining.Piscataway,NJ:IEEE Press,2011:310-317. [39]Leemans S J J, Fahland D, van der Aalst W M P. Discovering blockstructured process models from event logs containing infrequent behaviour[C]//Proc of International Conference on Business Process Management Workshops.Cham:Springer,2014:66-78. [40]Karabadji N E I, Korba A A, Assi A, et al. Accuracy and diversityaware multiobjective approach for random forest construction[J].Expert Systems with Applications,2023,225:120138. [41]Zhou Jie, Cui Ganqu, Hu Shengding, et al. Graph neural networks:a review of methods and applications[J].AI Open,2020,1:57-81.