亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        用于流程發(fā)現(xiàn)的局部日志采樣方法

        2022-11-07 05:34:20俞東進(jìn)孫笑笑
        計算機(jī)集成制造系統(tǒng) 2022年10期
        關(guān)鍵詞:控制流二進(jìn)制日志

        倪 可,俞東進(jìn)+,孫笑笑,胡 華

        (1.杭州電子科技大學(xué) 計算機(jī)學(xué)院,浙江 杭州 310018;2.杭州師范大學(xué),浙江 杭州 311121)

        0 引言

        流程挖掘旨在從企業(yè)組織的信息管理系統(tǒng)中提取業(yè)務(wù)流程相關(guān)見解,其核心理念為發(fā)現(xiàn)、監(jiān)測和改進(jìn)真實(shí)的業(yè)務(wù)流程[1]。流程發(fā)現(xiàn)是流程挖掘的一個分支領(lǐng)域,其主要任務(wù)是從事件日志中構(gòu)建流程模型,達(dá)到更好地理解和分析業(yè)務(wù)流程的目的。

        事件日志是提取流程模型的基礎(chǔ)。近年來,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的快速發(fā)展,企業(yè)有了更多獲取和存儲事件日志的手段,使事件日志的規(guī)模呈幾何級別增長?,F(xiàn)有的流程發(fā)現(xiàn)算法,如Alpha挖掘算法[2]、啟發(fā)式流程挖掘算法[3]、歸納算法[4]等,將完整的事件日志作為輸入構(gòu)建相應(yīng)的流程模型,然而這些流程挖掘算法往往有多個可調(diào)整的參數(shù),從而使流程發(fā)現(xiàn)成為一個漫長的探索性過程,尤其在將其應(yīng)用于大規(guī)模事件日志時,可能需要較長的處理時間,導(dǎo)致流程發(fā)現(xiàn)效率低下。

        為了應(yīng)對大規(guī)模的事件日志,常采用分而治之的思想,將流程發(fā)現(xiàn)問題分解為若干個規(guī)模較小的子問題[5];另一種做法則是利用分布式計算提高流程發(fā)現(xiàn)的效率,例如EVERMANN[6]在MapReduce平臺上復(fù)現(xiàn)并擴(kuò)展了Alpha挖掘算法和啟發(fā)式流程挖掘算法,使這兩種著名的流程挖掘算法得以擴(kuò)展應(yīng)用到大規(guī)模、分布式存儲數(shù)據(jù)集上。

        除了改進(jìn)現(xiàn)有挖掘算法,對完整的事件日志進(jìn)行采樣則是一種從根本上提高流程發(fā)現(xiàn)效率的方法[7]。這種做法的依據(jù)是,事件日志中存在大量相似或重復(fù)的行為,只有一小部分日志記錄了導(dǎo)致流程模型發(fā)生變動的“新信息”。因此,將大規(guī)模的事件日志通過采樣縮減到可快速處理的大小是一種十分有效的方式。

        綜上所述,本文的研究目標(biāo)是從完整的事件日志中得到一個規(guī)模較小且信息損失較少的日志子集(文中稱為采樣日志)用于流程發(fā)現(xiàn),主要解決3個問題:①從完整事件日志中提取控制流信息;②衡量采樣日志的質(zhì)量;③在事件日志存在大量重復(fù)軌跡的情況下避免遍歷重復(fù)軌跡。

        因此,本文提出一種適用于流程發(fā)現(xiàn)的、基于軌跡信息增量的局部日志采樣方法,該方法從控制流和特征屬性兩個角度對軌跡所包含的信息進(jìn)行量化,通過比較一條軌跡和已采樣日志之間的信息差異來判斷該軌跡是否記錄了新的流程行為。特別地,由于現(xiàn)有的日志采樣方法大都需要對完整的事件日志進(jìn)行至少一次遍歷,為了進(jìn)一步提高采樣速度,本文基于統(tǒng)計理論確定了最小連續(xù)遍歷樣本數(shù),并提出二進(jìn)制指數(shù)跳躍算法來處理相似軌跡聚集問題,其核心思想是避免完整掃描事件日志,即對局部日志進(jìn)行采樣。

        1 相關(guān)工作

        作為流程發(fā)現(xiàn)算法的輸入,事件日志的質(zhì)量也會影響流程發(fā)現(xiàn)的性能和結(jié)果,因此事件日志預(yù)處理逐漸得到研究人員的關(guān)注。為了發(fā)現(xiàn)更高質(zhì)量的流程模型,一種做法是在應(yīng)用流程發(fā)現(xiàn)算法之前對事件日志進(jìn)行分析處理,以刪除或修改事件日志中的離群值行為[8-10];另一種做法是直接在流程發(fā)現(xiàn)算法中內(nèi)置噪聲過濾機(jī)制,如Split Miner[11],ILP Miner[12]等。上述過濾技術(shù)專注于從事件日志中刪除不頻繁或異常行為,然而過濾低頻率行為對事件日志總體數(shù)量的影響很小,對于大規(guī)模事件日志,流程發(fā)現(xiàn)所需的處理時間仍然很長。

        為了提高流程發(fā)現(xiàn)算法的運(yùn)行速度,一種有效的做法是對大規(guī)模事件日志進(jìn)行抽樣,這種方法既可以減少業(yè)務(wù)流程實(shí)例的數(shù)量,又可以增加事件日志的機(jī)密性[13]。CARMONA等[14]建議基于軌跡的Parikh向量來檢測事件日志中的行為,然而這種采樣技術(shù)不能用于流程發(fā)現(xiàn),因?yàn)镻arikh向量并不存儲對發(fā)現(xiàn)流程模型至關(guān)重要的活動序列。為了簡化流程發(fā)現(xiàn)算法在大規(guī)模數(shù)據(jù)集上的應(yīng)用,BERTI[15]提出一種針對啟發(fā)式流程挖掘算法(heuristic miner)[3]的統(tǒng)計抽樣技術(shù);LIU等[16]提出一種基于圖的事件日志抽樣排序模型LogRank,該模型基于Google的PageRank[17],對事件日志中的軌跡進(jìn)行了重要性排名。對于抽樣方法效用的評價,SANI等[18]比較了多種偏置抽樣方法在不同數(shù)據(jù)集上的表現(xiàn),發(fā)現(xiàn)與隨機(jī)抽樣相比,采用偏置抽樣可以大大加快流程發(fā)現(xiàn)技術(shù)的速度。

        2 預(yù)備知識

        定義1日志、軌跡、事件。事件e指流程執(zhí)行過程中發(fā)生的活動,包括活動名稱和時間戳等特征屬性。所有事件的集合表示為ε,即e∈ε。事件的有序執(zhí)行構(gòu)成一個序列σ=e1,…,en,稱為軌跡,其中ei表示軌跡中第i個發(fā)生的事件。事件日志L={σ1,…,σm}是所有軌跡的集合。

        表1所示為一個事件日志的示例。其中,每一條軌跡表示一個流程實(shí)例執(zhí)行的完整過程,每個事件表示流程實(shí)例中發(fā)生的活動。需要說明的是,事件的特征屬性除了活動名稱和時間戳,可能還有資源、執(zhí)行者等其他屬性,本文只考慮事件的活動名稱和時間戳特征屬性。

        表1 事件日志示例

        定義2直接跟隨關(guān)系。設(shè)σ=e1,e2,…,en∈L,則稱ei+1直接跟隨于ei,記為ei?ei+1。為了簡化表達(dá),通常用事件的活動名稱屬性代指事件。

        以表1中的事件日志為例,記σ1=A,B,C,稱B直接跟隨于A,C直接跟隨于B,以此類推。

        定義3信息增量。設(shè)采樣日志為L′,L′是完整事件日志L的子集。若一條軌跡σ含有采樣日志集合L′中未包含的信息,則認(rèn)為該軌跡是一條帶有新信息的軌跡,用γ(L′,σ)=1表示;反之,γ(L′,σ)=0。

        在逐條遍歷事件日志中的軌跡時,采用抽象函數(shù)Ψ提取軌跡中的信息。

        定義4控制流(Control Flow)抽象函數(shù)。給定一條軌跡σ,定義控制流抽象函數(shù)

        ΨCF(σ)(Aσ,?(σ),estart(σ),eend(σ))。

        (1)

        式中Aσ為軌跡σ中出現(xiàn)的活動集合;?(σ)為軌跡σ中事件的直接跟隨關(guān)系集合;estart(σ)和eend(σ)分別為該軌跡的開始/結(jié)束事件。

        (2)

        以表1中的兩條軌跡σ1=A,B,C和σ2=A,B為例,假設(shè)采樣日志L′中只有σ1一條軌跡,根據(jù)式(1)和式(2)可得而ΨCF(σ2)=({A,B},{A?B},{A},{B}),將σ2加入L′會在中增加新的結(jié)束事件,因此認(rèn)為σ2是一條帶有新信息的軌跡,即γ(L′,σ2)=1。

        軌跡的特征信息不同于事件的特征信息,除了軌跡ID外,軌跡的其他特征屬性一般不會在事件日志中顯式地表示,而是通過計算獲得,如軌跡中事件的數(shù)量、軌跡的持續(xù)時間等。僅關(guān)注事件日志的控制流信息所能得到的軌跡數(shù)量有限,因此本文額外使用軌跡的兩個特征(軌跡長度和軌跡持續(xù)時間)來減少信息損失。

        定義5軌跡/日志長度。軌跡長度指軌跡中發(fā)生的事件數(shù)量,記為Len(σ)。對于日志L,Len(L)表示日志L中所有軌跡長度的集合。

        對于軌跡σ∈L-L′,如果Len(σ)?Len(L′),則認(rèn)為軌跡σ是一條帶有新信息的軌跡,并記γ(L′,σ)=1。

        為了進(jìn)一步發(fā)現(xiàn)流程實(shí)例之間的差異,本文用軌跡持續(xù)時間來擴(kuò)充軌跡信息。

        定義6軌跡持續(xù)時間。軌跡持續(xù)時間指一個流程實(shí)例從開始執(zhí)行到結(jié)束經(jīng)過的時間,計算公式為

        T(σ)=eend(σ).timestamp-estart(σ).timestamp。

        (3)

        軌跡的持續(xù)時間通常是一個細(xì)粒度的數(shù)值,從該屬性角度看可以認(rèn)為幾乎每一條軌跡都引入了新信息。為了減少時間信息帶來的差異,本文用距離函數(shù)d和松弛系數(shù)λ來判斷向L′中加入一條軌跡是否會引入新的信息。σ∈L-L′與L′之間的軌跡持續(xù)時間距離

        (4)

        式中n為L′中軌跡的數(shù)量。只有當(dāng)d(L′,σ)大于設(shè)定的松弛系數(shù)λ時,才認(rèn)為該條軌跡引入了新的時間信息。

        3 基于軌跡信息增量的日志采樣

        3.1 總體框架

        本文提出的基于軌跡信息增量的日志采樣方法的總體流程如圖1所示。該方法將完整事件日志作為輸入,首先根據(jù)統(tǒng)計推斷計算出最小連續(xù)遍歷樣本數(shù)量Nmin,然后根據(jù)控制流和軌跡特征判斷每一條軌跡是否帶有新的信息,并將其加入采樣日志。在連續(xù)遍歷Nmin條沒有新信息的軌跡后,采用二進(jìn)制指數(shù)跳躍算法計算下一次掃描的位置,直到遍歷到事件日志的末尾。

        下面詳細(xì)介紹最小連續(xù)遍歷樣本數(shù)量的計算方法以及二進(jìn)制指數(shù)跳躍算法的流程。

        3.2 確定最小連續(xù)遍歷樣本數(shù)量

        本文的研究目的為快速從大規(guī)模事件日志中采樣出一個高效用的日志子集,其核心思想是避免完整掃描事件日志,即在未知事件日志中軌跡行為分布的情況下進(jìn)行局部采樣。

        基于上述動機(jī),本文基于統(tǒng)計原理作出以下假設(shè):假設(shè)L中的每一條軌跡均為獨(dú)立同分布,從L中選取n條軌跡樣本,定義p=pi為軌跡σi帶有新信息的概率,即對所有軌跡而言,帶有新信息的概率pi均相同;對于一條軌跡σi,γ(L′,σi)只有1(帶有新信息)或0(不帶有新信息)兩種取值。在此假設(shè)之下,可以認(rèn)為n條樣本軌跡中含有新信息的軌跡數(shù)量x符合二項分布,即x~B(n,p),在事件日志數(shù)量足夠大的情況下,二項分布近似于正態(tài)分布。

        樣本量對于獲得準(zhǔn)確的、具有統(tǒng)計意義的結(jié)果非常重要,本文基于Cochran公式[19]計算這一理想樣本量。給定置信水平α、概率約束δ和誤差幅度e,最小連續(xù)遍歷樣本數(shù)量

        (5)

        式中:z對應(yīng)于置信水平1-α(單邊假設(shè)檢驗(yàn))的標(biāo)準(zhǔn)化正態(tài)隨機(jī)變量;δ為在L-L′中發(fā)現(xiàn)帶有新信息的軌跡的概率。誤差幅度一般取5%。

        例如,當(dāng)α=0.01且δ=0.05時,由式(5)可得Nmin≥126,即當(dāng)在日志L中連續(xù)遍歷了126條不帶有新信息的軌跡之后,可以認(rèn)為在剩余日志中發(fā)現(xiàn)帶有新信息軌跡的概率小于0.05,其置信水平為0.99。

        3.3 二進(jìn)制指數(shù)跳躍算法

        上述內(nèi)容從統(tǒng)計理論層面證明,在原始事件日志中掃描了一定數(shù)量不帶有新信息的軌跡后,可以認(rèn)為在后續(xù)日志中出現(xiàn)帶有新信息的軌跡的概率很小。然而,在真實(shí)的事件日志中,相似的流程行為(即無信息增量的軌跡)可能會在一段時間內(nèi)大量出現(xiàn),將其稱為相似軌跡聚集現(xiàn)象。如果掃描了Nmin條相似軌跡之后就停止采樣,則可能無法在后續(xù)事件日志中發(fā)現(xiàn)新的軌跡,從而出現(xiàn)信息損失。

        為了避免相似軌跡聚集導(dǎo)致的信息損失,本文提出二進(jìn)制指數(shù)跳躍算法,在連續(xù)掃描Nmin條沒有信息增量的相似軌跡后,重新計算下一次掃描的間隔,從而跳過一部分不帶有新信息的軌跡,以保證在后續(xù)事件日志中發(fā)現(xiàn)新軌跡,同時提高預(yù)處理的速度。

        若在原始事件日志中連續(xù)遍歷了Nmin條不帶有新信息的軌跡,則認(rèn)為此處發(fā)生相似軌跡聚集,此時從離散的整數(shù)集合[1,2,…,2k]中隨機(jī)取出一個數(shù)作為下一次掃描前需要跳過的軌跡數(shù),其中參數(shù)k的計算公式為

        k=min(發(fā)生軌跡聚集的次數(shù),8)。

        (6)

        掃描的間隔與發(fā)生軌跡聚集的次數(shù)有關(guān)。當(dāng)k≤8時,參數(shù)k等于發(fā)生軌跡聚集的次數(shù),從[1,2k]中隨機(jī)選取一個整數(shù)作為要跳過的軌跡數(shù)量;當(dāng)k>8時,從[1,28]中隨機(jī)選取一個整數(shù)。一旦掃描到一條帶有新信息的軌跡時,即將k恢復(fù)為默認(rèn)值1,并重新開始相似軌跡的計數(shù)。

        二進(jìn)制指數(shù)跳躍算法提供了一個應(yīng)對相似軌跡聚集現(xiàn)象的方法。在剛開始出現(xiàn)軌跡聚集時,該算法會以一個相對較小的跳躍間隔決定下一條軌跡的索引;而當(dāng)相似軌跡聚集頻繁出現(xiàn)時,掃描間隔將會以指數(shù)級增加,以快速檢測出下一條帶有新信息的軌跡。二進(jìn)制指數(shù)跳躍算法有助于提高在完整事件日志中發(fā)現(xiàn)新軌跡的效率,同時避免完整遍歷事件日志導(dǎo)致處理時間過長的問題。

        3.4 基于軌跡信息增量的日志采樣算法

        基于上述理論,本文提出基于軌跡信息增量的日志采樣算法,該算法首先根據(jù)控制流和軌跡特征屬性判斷原始事件日志L中的軌跡是否帶有新的信息,并將其加入采樣日志L′,然后根據(jù)相似軌跡聚集的情況決定是否需要采用二進(jìn)制指數(shù)跳躍算法跳過軌跡。算法1描述了基于軌跡信息增量的日志采樣過程。

        算法1基于軌跡信息增量的日志采樣算法。

        輸入:事件日志L、置信水平α、概率約束δ、誤差幅度e、松弛系數(shù)λ。

        輸出:采樣日志L′。

        1: L′←?

        2: count←0 //記錄重復(fù)軌跡的數(shù)量

        3: i←0 //軌跡的索引

        4: k←1 //記錄發(fā)生相似軌跡聚集的次數(shù)

        5: N←(z2*δ*(1-δ))/(e2) //按式(5)計算最小連續(xù)遍歷樣本數(shù)量

        6: WHILE i

        7: σ←從L中取出一條軌跡

        8: γ(L′,σ)←calculate γ(L′,σ) with bound of λ //根據(jù)控制流和特征屬性計算軌跡是否帶有新信息

        9: IF γ(L′,σ)=1 THEN

        10: count←0

        11: k←1

        12: ELSE

        13: count←count+1

        14: IF count>N THEN

        15: k←k+1

        16: END IF

        17: END IF

        18: L′←{σ}∪L′ //將軌跡加入采樣日志

        19: IF count>N THEN //采用二進(jìn)制指數(shù)跳躍算法確定需要跳過的軌跡數(shù)量

        20: k←min(k,8)

        21: i←i+random(1,2k)

        22: ELSE

        23: i←i+1

        24: END IF

        25:END WHILE

        26:RETURN L′

        算法1將原始事件日志L、置信水平α、概率約束δ、誤差幅度e和松弛系數(shù)λ作為輸入,在初始化后(第1~4行),根據(jù)式(5)計算出最小連續(xù)遍歷樣本數(shù)量Nmin(第5行);然后順序遍歷事件日志,根據(jù)式(1)~式(4)計算并判斷每條軌跡是否帶有新的信息(第7~8行);若當(dāng)前軌跡帶有新的信息,則重置計數(shù)器count和參數(shù)k,并將該軌跡加入采樣日志(第9~18行);若連續(xù)掃描了Nmin條沒有新信息的軌跡,則采用二進(jìn)制指數(shù)跳躍算法計算下一次掃描的軌跡索引,直到遍歷到事件日志的末尾(第19~24行)。

        毫無疑問,采用二進(jìn)制指數(shù)跳躍算法在提高預(yù)處理速度的同時會引入一定信息損失,然而這種情況對日志采樣的影響未必是負(fù)面的。因?yàn)槭录罩颈旧砭痛嬖谝恍┑皖l率的流程行為,這些行為使發(fā)現(xiàn)的流程模型變得復(fù)雜而難以分析,所以目前許多流程發(fā)現(xiàn)算法都采用噪聲過濾機(jī)制或單獨(dú)的預(yù)處理步驟事先過濾掉事件日志中的低頻行為。由于在二進(jìn)制指數(shù)跳躍算法執(zhí)行過程中跳過的軌跡大概率是事件日志中發(fā)生頻率較低的軌跡,所帶來的信息損失可以看作為噪聲處理步驟的一部分,其對流程模型的發(fā)現(xiàn)有積極的作用,這部分內(nèi)容將在第5章通過適應(yīng)度(fitness)實(shí)驗(yàn)詳細(xì)論證。

        4 實(shí)驗(yàn)設(shè)計

        4.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

        本文實(shí)驗(yàn)采用Python語言編寫(Python的版本為3.6.5),采用PM4PY庫對事件日志進(jìn)行統(tǒng)計分析。實(shí)驗(yàn)環(huán)境配置如下:操作系統(tǒng)為Windows 10專業(yè)版64位;處理器為Intel(R) Core(TM) i7-6500U (2.50 GHz);內(nèi)存為12.0 GB。

        本文采用歸納算法Inductive Miner的一種變體——IMi(inductive miner infrequent)作為流程發(fā)現(xiàn)算法。IMi算法根據(jù)事件的直接跟隨關(guān)系將日志轉(zhuǎn)化為直接跟隨圖,并基于事件發(fā)生的頻率處理日志中的不頻繁行為(噪聲),使其可以適用于真實(shí)的事件日志。本實(shí)驗(yàn)用默認(rèn)值0.2作為IMi算法的噪聲閾值。在對事件日志采樣時,設(shè)置α=0.01,δ=0.05,松弛系數(shù)λ是實(shí)驗(yàn)中的一個可控變量,所有實(shí)驗(yàn)均取10次實(shí)驗(yàn)運(yùn)行結(jié)果的平均值作為最終結(jié)果。

        4.2 實(shí)驗(yàn)數(shù)據(jù)

        本文選擇在4個公開的真實(shí)事件日志數(shù)據(jù)集上驗(yàn)證日志采樣算法的有效性。所有數(shù)據(jù)集均來自4TU Centre for Research Data (https://data.4tu.nl/),數(shù)據(jù)集的詳細(xì)信息如表2所示。

        表2 真實(shí)事件日志的詳細(xì)信息

        4.3 評價指標(biāo)

        本文從3個方面評價日志采樣算法的性能:

        (1)軌跡數(shù)量、直接跟隨關(guān)系數(shù)量和變體數(shù)量 通過比較采樣日志的大小,即采樣日志中包含的軌跡數(shù)量,來衡量采樣的有效性。除軌跡數(shù)量外,本實(shí)驗(yàn)還將研究采樣日志中保留的事件直接跟隨關(guān)系和變體的數(shù)量。

        (2)效率 效率分為采樣時間和挖掘時間兩部分。采樣時間指對原始事件日志進(jìn)行預(yù)處理的時間,挖掘時間指從采樣日志中發(fā)現(xiàn)流程模型的時間。將采樣時間和挖掘時間擬合得到效率的值,效率(ms)=采樣時間(ms)+挖掘時間(ms),然后與從完整事件日志中挖掘出流程模型的時間進(jìn)行比較。

        (3)適應(yīng)度 用于評估流程模型捕獲了多少事件日志中的行為,當(dāng)適應(yīng)度取值為1時,表示流程模型可以完美地描述日志中存在的所有行為。實(shí)驗(yàn)首先從采樣日志中挖掘出流程模型,然后采用基于標(biāo)記重放的一致性檢查方法[20]在流程模型上重放原始的事件日志,從而計算出流程模型的適應(yīng)度。

        5 實(shí)驗(yàn)結(jié)果

        實(shí)驗(yàn)1探究日志采樣的有效性,圖2所示為不同λ值對采樣日志中軌跡數(shù)量的影響,作為參考值,λ=0時采樣日志中的軌跡數(shù)量與原始事件日志中的相同??梢娫?個數(shù)據(jù)集上,隨著松弛系數(shù)λ的增加,軌跡數(shù)量均呈現(xiàn)下降趨勢,并在λ值較大時趨于平穩(wěn)。值得注意的是,在λ=20時,所有數(shù)據(jù)集的軌跡數(shù)量都下降到了原始數(shù)量的40%左右,說明在真實(shí)事件日志中,大部分軌跡(60%左右)在持續(xù)時間上的差異比較小(小于20),因此軌跡數(shù)量會在λ為0~20這一階段大幅下降。圖2證明本文采樣方法可以有效減小事件日志的規(guī)模。

        減小事件日志規(guī)??梢杂行岣吡鞒贪l(fā)現(xiàn)的效率,圖3所示為在4個數(shù)據(jù)集上進(jìn)行采樣和流程挖掘的時間。隨著松弛系數(shù)λ值的增加,采樣的日志規(guī)模越小,流程挖掘的總體效率越高,說明IMi挖掘算法的執(zhí)行時間和事件日志規(guī)模成正比,通過采樣減小事件日志的規(guī)模是提高效率最有效的手段。本文采樣方法使IMi算法的挖掘速度在4個數(shù)據(jù)集上均有不同程度的提高,表3所示為λ=150時IMi算法在完整日志和采樣日志上挖掘的效率差異。除此之外,圖3還單獨(dú)標(biāo)出了進(jìn)行日志采樣花費(fèi)的時間,這一時間相對于采用IMi算法進(jìn)行流程發(fā)現(xiàn)的時間可以忽略不計,證明本文的采樣算法十分高效。

        表3 IMi算法的挖掘效率(λ=150) ms

        圖4所示為采用IMi算法從完整/局部采樣日志中挖掘出的流程模型的適應(yīng)度差異。因?yàn)镮Mi算法自身帶有噪聲過濾機(jī)制,所以在4個數(shù)據(jù)集上,從完整事件日志中挖掘出的流程模型的適應(yīng)度均未達(dá)到1,但都在0.95以上,而從采樣日志中挖掘出的流程模型在4個數(shù)據(jù)集上的適應(yīng)度也都達(dá)到和完整日志相近的水平,證明大規(guī)模事件日志中的確存在大量重復(fù)的軌跡,使用完整日志的一小部分就可以發(fā)現(xiàn)較高質(zhì)量的流程模型,而且采樣日志中高頻行為的比例與完整日志中相似。特別地,圖4顯示二進(jìn)制指數(shù)跳躍算法造成的信息損失對流程模型適應(yīng)度的影響不同。在BPIC_2013數(shù)據(jù)集上,從采樣日志中挖掘出的流程模型比從完整事件日志中挖掘出的流程模型的適應(yīng)度低,說明二進(jìn)制指數(shù)跳躍算法跳過了一些帶有新信息且發(fā)生頻率較高的軌跡,可能因?yàn)楸疚脑O(shè)置的掃描跳躍間隔對于小規(guī)模數(shù)據(jù)集范圍過大。而流程模型在數(shù)據(jù)集BPIC_2012和數(shù)據(jù)集HB上的適應(yīng)度略高于從完整事件日志中挖掘出的流程模型,原因是采用基于信息增量的采樣方法捕獲且放大了原始事件日志中的低頻行為,這些行為包含額外的控制流信息,從而使流程模型能更完美地匹配事件日志。在RTF數(shù)據(jù)集上,兩個流程模型的適應(yīng)度幾乎相同,證明二進(jìn)制指數(shù)跳躍算法帶來的信息損失與IMi的噪聲過濾機(jī)制類似,即跳過的軌跡為原始事件日志中的低頻率軌跡。

        實(shí)驗(yàn)2對不同的采樣策略性能進(jìn)行比較。實(shí)驗(yàn)采用基于軌跡頻率的采樣方法,并將隨機(jī)采樣方法作為對照,其中基于軌跡頻率的采樣方法選取事件日志中發(fā)生頻率最高的軌跡加入采樣日志,隨機(jī)采樣方法則隨機(jī)地從事件日志中抽取軌跡。為了保證實(shí)驗(yàn)的公平性,在所有數(shù)據(jù)集上都將采樣率控制在30%左右(采樣率=采樣日志的大小/完整日志的大小)。

        直接跟隨關(guān)系是體現(xiàn)控制流信息最關(guān)鍵的因素,采樣日志能在多大程度上保留直接跟隨關(guān)系決定了流程模型的最終結(jié)構(gòu)。圖5a所示為基于不同采樣策略得到的采樣日志中保留的直接跟隨關(guān)系的數(shù)量。該結(jié)果表明,本文采樣方法能夠保留原始日志中88%以上的直接跟隨關(guān)系,特別在BPIC_2013數(shù)據(jù)集上,采樣日志保留了所有的直接跟隨關(guān)系。圖5b所示為不同采樣日志中保留的變體數(shù)量之間的差異。變體是一組共享相同控制流信息的軌跡,即軌跡中活動出現(xiàn)的順序相同,不同變體之間的直接跟隨關(guān)系可能相同,因此并不是每一個新的變體都會在流程模型中提供新的信息。以BPIC_2012數(shù)據(jù)集為例,采樣日志僅保留了1 422種流程變體(總共有4 366種流程變體),而這些變體涵蓋了96%的直接跟隨關(guān)系(120/125),即本文采樣算法雖然過濾掉了大部分直接跟隨關(guān)系重復(fù)的變體,大大減少了事件日志的規(guī)模,但是仍然能從日志中挖掘出高質(zhì)量的流程模型。除此之外,圖5中基于軌跡頻率的采樣方法得到的直接跟隨關(guān)系和變體數(shù)量都很少,這是由于相同控制流的軌跡在事件日志中大量重復(fù)出現(xiàn)導(dǎo)致的;而隨機(jī)采樣方法雖然可以發(fā)現(xiàn)更多的控制流信息,但是仍然少于本文的采樣方法。

        最后從采樣時間上比較不同策略的性能,如圖6所示。在3種采樣方法中,速度最快的是隨機(jī)采樣,原因是該方法無需進(jìn)行額外計算。本文方法僅次于隨機(jī)采樣,證明采用二進(jìn)制指數(shù)跳躍算法避免對完整日志進(jìn)行掃描可以有效提高采樣效率。

        6 結(jié)束語

        本文提出一種基于軌跡信息增量的日志采樣方法,首先從事件日志中抽象出控制流信息和特征屬性信息,用于比較軌跡攜帶的信息量;然后采用二進(jìn)制指數(shù)跳躍算法避免遍歷重復(fù)或相似軌跡,達(dá)到提高預(yù)處理效率的目的。在4個真實(shí)事件日志上的實(shí)驗(yàn)表明,本文采樣方法可以快速有效地將大規(guī)模的事件日志采樣到一個可管理的大小,能夠保證從采樣日志中挖掘出的流程模型的質(zhì)量。未來將比較各種采樣策略的有效性,并在發(fā)生流程概念漂移的情況下對新版本的流程日志進(jìn)行區(qū)分和采樣。

        猜你喜歡
        控制流二進(jìn)制日志
        一名老黨員的工作日志
        華人時刊(2021年13期)2021-11-27 09:19:02
        用二進(jìn)制解一道高中數(shù)學(xué)聯(lián)賽數(shù)論題
        抵御控制流分析的Python 程序混淆算法
        工控系統(tǒng)中PLC安全漏洞及控制流完整性研究
        電子科技(2021年2期)2021-01-08 02:25:58
        抵御控制流分析的程序混淆算法
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        有趣的進(jìn)度
        二進(jìn)制在競賽題中的應(yīng)用
        游學(xué)日志
        基于控制流隱藏的代碼迷惑
        97久久香蕉国产线看观看| 国产乱妇无码大片在线观看| 国产欧美日韩中文久久| 国模冰莲极品自慰人体| 亚洲春色在线视频| 丰满多毛的大隂户视频| 天美麻花果冻视频大全英文版| 中文字幕经典一区| 三年片免费观看大全国语| 综合网在线视频| AV熟妇导航网| 国产一区亚洲一区二区| 亚洲人成伊人成综合久久| 日韩av一区二区三区激情在线| av无码小缝喷白浆在线观看 | 亚洲综合性色一区| 一个人免费观看在线视频播放 | 中文字幕日韩精品有码视频| 亚洲av鲁丝一区二区三区黄| 成av人片一区二区三区久久 | 男男做h嗯啊高潮涩涩| 亚洲国产精品一区二区久久恐怖片| 色综合久久无码五十路人妻 | 中国黄色一区二区三区四区| 97在线视频人妻无码| 亚洲乱码日产精品bd| 高清一级淫片a级中文字幕| 高清国产精品一区二区| 国内嫩模自拍偷拍视频| 99精品视频69v精品视频| 成人做爰视频www| 亚洲a∨好看av高清在线观看| 亚洲激情一区二区三区视频| 久久精品国产亚洲av蜜点| 国产裸体xxxx视频在线播放| 无码aⅴ在线观看| 最新国产成人在线网站| 免费人成在线观看播放视频| 在线看无码的免费网站| 麻豆高清免费国产一区| 国产码欧美日韩高清综合一区|