亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ON-LSTM的業(yè)務(wù)過(guò)程模型深度自動(dòng)生成

        2022-11-07 04:27:16呂昌龍何亞輝張存明陳曄婷
        關(guān)鍵詞:文本活動(dòng)方法

        朱 銳,呂昌龍,李 彤,何亞輝,劉 航,張存明,陳曄婷

        (1.云南大學(xué) 軟件學(xué)院,云南 昆明 650091;2.云南省軟件工程重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650091;3.云南農(nóng)業(yè)大學(xué) 大數(shù)據(jù)學(xué)院,云南 昆明 650201;4.云南師范大學(xué) 經(jīng)濟(jì)與管理學(xué)院,云南 昆明 650091)

        1 問(wèn)題的提出

        業(yè)務(wù)過(guò)程管理(Business Process Management, BPM)能夠顯著節(jié)約成本,提高生產(chǎn)力[1],是提高客戶對(duì)企業(yè)滿意度的關(guān)鍵[2]。在BPM生命周期,業(yè)務(wù)過(guò)程模型在重設(shè)計(jì)和配置/實(shí)現(xiàn)階段扮演了重要的角色[1]。目前大部分企業(yè)在組織管理、產(chǎn)品設(shè)計(jì)、生產(chǎn)裝備、產(chǎn)品研發(fā)等方面都蘊(yùn)含大量的業(yè)務(wù)過(guò)程[3],例如,中國(guó)北車集團(tuán)在控制產(chǎn)品實(shí)施的過(guò)程模型庫(kù)中存儲(chǔ)了20多萬(wàn)個(gè)過(guò)程模型[4];澳洲Suncorp銀行有6 000多個(gè)過(guò)程模型[4]。業(yè)務(wù)過(guò)程是企業(yè)的私有財(cái)產(chǎn),面對(duì)海量數(shù)據(jù),人為建立過(guò)程模型愈發(fā)困難。當(dāng)前學(xué)者主要通過(guò)過(guò)程挖掘方法獲取業(yè)務(wù)過(guò)程模型[5],過(guò)程挖掘方法雖然通過(guò)事件日志提取過(guò)程相關(guān)信息取得了巨大成功[6],但是仍然面臨一些挑戰(zhàn),主要表現(xiàn)為對(duì)日志的嚴(yán)重依賴[6]。過(guò)程挖掘方法獲取業(yè)務(wù)過(guò)程嚴(yán)重依賴PAIS(process-aware information systems)系統(tǒng)產(chǎn)生的日志,如果日志缺失,則無(wú)法實(shí)施過(guò)程挖掘方法。因此,日志缺失時(shí)如何發(fā)現(xiàn)業(yè)務(wù)過(guò)程模型受到越來(lái)越多的關(guān)注[7]。

        研究發(fā)現(xiàn),大約85%的信息采用非結(jié)構(gòu)化或結(jié)構(gòu)化程度很低的形式存儲(chǔ)[7],尤其是作為文本文檔存儲(chǔ),對(duì)于難以理解的諸如業(yè)務(wù)流程建模標(biāo)注(Business Process Modeling Notation, BPMN)語(yǔ)言或Petri網(wǎng)之類的形式描述的過(guò)程通常有詳細(xì)的文字描述,主要通過(guò)文本詳細(xì)描述業(yè)務(wù)工程模型,幫助公司工作人員更好地理解過(guò)程。因此,有學(xué)者提出從業(yè)務(wù)過(guò)程描述文本中自動(dòng)發(fā)現(xiàn)業(yè)務(wù)過(guò)程的方法,以幫助分析人員短時(shí)間內(nèi)從大量文檔中創(chuàng)建更好的模型[8-14]。

        FRIEDRICH等[15]指出在BPM項(xiàng)目中獲取初始流程模型需要花費(fèi)總時(shí)間的60%;HAN等[16]指出從文本中自動(dòng)發(fā)現(xiàn)業(yè)務(wù)過(guò)程可以減少40%的時(shí)間成本;FRIEDRICH等[16]、Ferreira等[17]、De Ar Goncalves等[18]指出,過(guò)程的自動(dòng)生成可以最大限度地減少過(guò)程分析時(shí)間。發(fā)現(xiàn)文本描述中蘊(yùn)含的業(yè)務(wù)過(guò)程,對(duì)于有效支持過(guò)程工程師理解過(guò)程模型并指導(dǎo)重新設(shè)計(jì)過(guò)程模型,以及發(fā)現(xiàn)實(shí)際的過(guò)程模型、輔助重新開(kāi)發(fā)、支持模型驅(qū)動(dòng)的過(guò)程模型自演化和軟件再工程,具有重要的意義。

        神經(jīng)機(jī)器學(xué)習(xí)領(lǐng)域的最新發(fā)現(xiàn)表明,句子中不同單詞之間的層次結(jié)構(gòu)可以通過(guò)距離來(lái)捕獲,而不同單詞之間層次結(jié)構(gòu)的距離可以通過(guò)建模捕獲[9]。作為代表性的網(wǎng)絡(luò)之一,有序神經(jīng)長(zhǎng)短期記憶網(wǎng)絡(luò)(Ordered Neurons Long Short Term Memory, ON-LSTM)[9]已被證明在語(yǔ)言建模方面表現(xiàn)較好。除此之外,自然語(yǔ)言處理領(lǐng)域的研究表明,命名實(shí)體識(shí)別模型可以識(shí)別句子中的單詞和單詞序列信息[7]。

        圖1所示為業(yè)務(wù)過(guò)程描述和業(yè)務(wù)過(guò)程模型,可見(jiàn)活動(dòng)實(shí)體在業(yè)務(wù)過(guò)程文本描述中存在潛在的層次結(jié)構(gòu),該層次結(jié)構(gòu)定義了活動(dòng)實(shí)體在業(yè)務(wù)過(guò)程模型中發(fā)生的先后順序,以顯示業(yè)務(wù)過(guò)程并反映復(fù)雜的邏輯關(guān)系。圖1a是一個(gè)業(yè)務(wù)過(guò)程描述,其詳細(xì)描述了業(yè)務(wù)過(guò)程模型的邏輯結(jié)構(gòu)。圖1b中每一個(gè)節(jié)點(diǎn)為一個(gè)活動(dòng)實(shí)體,其中根節(jié)點(diǎn)為父進(jìn)程,用于指導(dǎo)其他節(jié)點(diǎn);子句是對(duì)父進(jìn)程的詳細(xì)描述。這種潛在的層次結(jié)構(gòu)也反映在相應(yīng)的業(yè)務(wù)過(guò)程模型中,如圖1c所示。

        本文首先對(duì)現(xiàn)有命名實(shí)體方法進(jìn)行改進(jìn),以業(yè)務(wù)過(guò)程描述為輸入,通過(guò)BERT(bidirectional encoder representation from transformers)、雙向長(zhǎng)短期記憶(Bi-directional Long Short Term Memory, BiLSTM)模型、條件隨機(jī)場(chǎng)(Conditional Random Fields, CRF)構(gòu)建命名實(shí)體識(shí)別模型,提出面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別方法,旨在識(shí)別如圖1a所示的業(yè)務(wù)過(guò)程描述中的活動(dòng)實(shí)體;其次將語(yǔ)言模型從句子級(jí)別擴(kuò)展到文檔級(jí)別,提出一種通過(guò)遞歸體系結(jié)構(gòu)ON-LSTM無(wú)監(jiān)督地發(fā)現(xiàn)過(guò)程描述文檔中所蘊(yùn)含活動(dòng)實(shí)體間潛在的層次結(jié)構(gòu);最后通過(guò)活動(dòng)實(shí)體的層次深度原則,將層次結(jié)構(gòu)樹(shù)轉(zhuǎn)化為業(yè)務(wù)過(guò)程模型。通過(guò)識(shí)別解析150個(gè)SAP產(chǎn)品用戶指南文本并與領(lǐng)域?qū)I(yè)人員繪制的基準(zhǔn)模型對(duì)比,本文方法可以正確識(shí)別業(yè)務(wù)過(guò)程描述中88.5%的活動(dòng)實(shí)體,生成整個(gè)BPMN過(guò)程模型的準(zhǔn)確率達(dá)到73.2%,為日志缺失時(shí)業(yè)務(wù)過(guò)程發(fā)現(xiàn)提供了一種新的思路。

        本文的主要貢獻(xiàn)概括如下:

        (1)提出一個(gè)新穎的從業(yè)務(wù)過(guò)程文本描述中自動(dòng)提取業(yè)務(wù)過(guò)程模型的深度學(xué)習(xí)框架,該框架針對(duì)開(kāi)放、動(dòng)態(tài)、不確定環(huán)境下的業(yè)務(wù)過(guò)程模型自動(dòng)生成問(wèn)題,構(gòu)建了端到端的業(yè)務(wù)過(guò)程模型自動(dòng)生成方法,該方法以業(yè)務(wù)過(guò)程文本描述為輸入得到業(yè)務(wù)過(guò)程模型,為在日志缺失而無(wú)法使用過(guò)程挖掘方法時(shí)提供了一種新的思路。

        (2)從業(yè)務(wù)過(guò)程描述中提取結(jié)構(gòu)化過(guò)程的研究仍處于早期,目前網(wǎng)上尚無(wú)開(kāi)源數(shù)據(jù)集。本文通過(guò)將人工采集與標(biāo)注的150個(gè)真實(shí)SAP產(chǎn)品用戶指南文本作為訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)驗(yàn),將命名實(shí)體識(shí)別模型遷移到對(duì)活動(dòng)實(shí)體的識(shí)別,彌補(bǔ)了當(dāng)前領(lǐng)域由于缺乏此類數(shù)據(jù)集導(dǎo)致不能進(jìn)行實(shí)驗(yàn)的空缺。

        2 相關(guān)工作

        針對(duì)業(yè)務(wù)過(guò)程發(fā)現(xiàn)中存在的問(wèn)題,有研究人員提出自動(dòng)發(fā)現(xiàn)業(yè)務(wù)過(guò)程模型的方法,以幫助分析人員在更短的時(shí)間內(nèi)從大量文檔中創(chuàng)建更好的模型[18]。雖然從文本自動(dòng)提取過(guò)程的研究處于早期發(fā)展階段[20],但是仍有很多學(xué)者針對(duì)這一問(wèn)題提出不同方法從文本中提取流程[8,9,11,21-28],現(xiàn)有方法大致分為3類:

        (1)依賴信號(hào)詞列表和規(guī)則的方法[25,27]通過(guò)解析句子的結(jié)構(gòu)和語(yǔ)法得到句子活動(dòng)、任務(wù)、模式等信息,再通過(guò)定義的規(guī)則將信息映射到業(yè)務(wù)過(guò)程模型。比較具有代表性的為EPURE等[27]提出的TextProcessMiner方法,該方法以考古學(xué)過(guò)程描述作為輸入,刪除不必要的標(biāo)點(diǎn)和短語(yǔ),采用Stanford解析器以及Stanford和NLTK標(biāo)記器的組合生成語(yǔ)法樹(shù),識(shí)別出句子中包含的動(dòng)詞,并默認(rèn)相連的兩個(gè)活動(dòng)之間的關(guān)系為順序關(guān)系。為了識(shí)別活動(dòng)之間的關(guān)系,基于識(shí)別的活動(dòng)和關(guān)鍵字模式,TextProcessMiner定義了一系列復(fù)雜的規(guī)則來(lái)確定動(dòng)詞和動(dòng)詞之間的關(guān)系,逐句分析文本,構(gòu)建業(yè)務(wù)過(guò)程模型。該方法雖然在一定程度上識(shí)別活動(dòng)間的關(guān)系,但是規(guī)則過(guò)于復(fù)雜且難度較大。

        (2)采用具有中間表示方法的兩步轉(zhuǎn)換方法[21,28]該方法第1步將過(guò)程元素標(biāo)識(shí)在文本中并存儲(chǔ)在文本框中進(jìn)行結(jié)構(gòu)化表示,第2步從結(jié)構(gòu)化表示生成相應(yīng)的過(guò)程模型。FERREIRA等[21]提出一種半自動(dòng)方法來(lái)識(shí)別自然語(yǔ)言文本中的過(guò)程元素,該方法首先從句子中提取參與者進(jìn)行句法分析,得到一個(gè)主語(yǔ)—謂語(yǔ)—賓語(yǔ)結(jié)構(gòu)用于生成中間過(guò)程模型,在得到主語(yǔ)—謂語(yǔ)—賓語(yǔ)結(jié)構(gòu)基礎(chǔ)上,從文本中搜索是否包含條件、并發(fā)、先后等順序,并將結(jié)果表示為基于電子表格的過(guò)程描述,每行表示一個(gè)階段,最后將其轉(zhuǎn)化成BPMN過(guò)程。由于這種方法缺乏衡量各種錯(cuò)誤的指標(biāo),無(wú)法同時(shí)為每種類型的錯(cuò)誤分配不同的權(quán)重,將其用于判斷所提議系統(tǒng)質(zhì)量的指標(biāo)存在局限性。

        (3)通過(guò)神經(jīng)網(wǎng)絡(luò)建立過(guò)程描述與其形式表示之間的直接映射方法[16]比較具有代表性的為HAN等[16]提出的一種基于樹(shù)的模式查詢語(yǔ)言提取描述關(guān)鍵過(guò)程元素的注釋模型A-BPS(automatic business process service),其不需要任何人工標(biāo)記即可通過(guò)神經(jīng)網(wǎng)絡(luò)檢索到過(guò)程文檔中潛在的層次結(jié)構(gòu)。HAN等以文檔為輸入,在句法樹(shù)的基礎(chǔ)上將編碼器擴(kuò)展到文檔級(jí)別,得到句子的向量表示,然后采用過(guò)程級(jí)語(yǔ)言模型目標(biāo)的神經(jīng)網(wǎng)絡(luò)ON-LSTM檢索出句子在文本中的層次結(jié)構(gòu),并用樹(shù)狀圖表示,結(jié)構(gòu)樹(shù)中的每個(gè)節(jié)點(diǎn)代表一個(gè)句子。實(shí)驗(yàn)表明,A-BPS模型生成BPMN的準(zhǔn)確率達(dá)到32%,該模型以檢索句子在文檔中的層次結(jié)構(gòu)為目標(biāo),并默認(rèn)一個(gè)句子中只含有一個(gè)活動(dòng),而實(shí)際上,業(yè)務(wù)過(guò)程文本描述的一個(gè)句子很可能包含多個(gè)活動(dòng)。

        除此之外,還有學(xué)者提出一些假設(shè),由于未通過(guò)實(shí)驗(yàn)驗(yàn)證[11,20],無(wú)法進(jìn)行實(shí)際分析。

        綜上所述,自動(dòng)獲取業(yè)務(wù)過(guò)程模型受到廣大學(xué)者的普遍關(guān)注,然而相關(guān)研究仍處于起步階段。相比前兩類方法,第3類方法不用任何人工標(biāo)記即可通過(guò)神經(jīng)網(wǎng)絡(luò)檢索到過(guò)程句子在文檔中潛在的層次結(jié)構(gòu),也無(wú)需人為制定語(yǔ)法規(guī)則。本文所提方法與第3類方法類似,均基于ON-LSTM檢索文檔潛在的層次結(jié)構(gòu),但是在具體實(shí)現(xiàn)上不同。本文將自然語(yǔ)言處理的實(shí)體識(shí)別技術(shù)與深度有序神經(jīng)網(wǎng)絡(luò)有機(jī)融合,將業(yè)務(wù)過(guò)程描述作為輸入,提出面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別方法來(lái)識(shí)別業(yè)務(wù)過(guò)程描述中的活動(dòng)實(shí)體,有效避免了業(yè)務(wù)過(guò)程描述中冗余、無(wú)用、重復(fù)信息對(duì)業(yè)務(wù)過(guò)程模型的影響;在此基礎(chǔ)上,將語(yǔ)言模型擴(kuò)展到文檔級(jí),通過(guò)ON-LSTM無(wú)監(jiān)督地發(fā)現(xiàn)過(guò)程描述文檔中所蘊(yùn)含活動(dòng)實(shí)體間潛在的層次結(jié)構(gòu);最后通過(guò)活動(dòng)實(shí)體的層次深度原則,將層次結(jié)構(gòu)樹(shù)轉(zhuǎn)化為業(yè)務(wù)過(guò)程模型。特別地,本文方法不需要復(fù)雜的過(guò)程編碼器,具有模型時(shí)間和空間復(fù)雜度更低、速度更快的特點(diǎn)。

        3 總體框架

        本文所提基于有序深度神經(jīng)網(wǎng)絡(luò)的業(yè)務(wù)過(guò)程自動(dòng)生成模型總體架構(gòu)如圖2所示,模型包括面向業(yè)務(wù)過(guò)程模型的活動(dòng)實(shí)體識(shí)別和過(guò)程層次結(jié)構(gòu)解析兩部分。

        為發(fā)現(xiàn)自然語(yǔ)言文本中實(shí)體間的層次結(jié)構(gòu),需要識(shí)別業(yè)務(wù)過(guò)程文本描述中所蘊(yùn)含的活動(dòng)實(shí)體。本文對(duì)現(xiàn)有命名實(shí)體識(shí)別方法進(jìn)行改進(jìn),提出面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別方法,將命名實(shí)體識(shí)別對(duì)象遷移到活動(dòng)實(shí)體。面向業(yè)務(wù)過(guò)程模型的活動(dòng)實(shí)體識(shí)別模型由BERT,BiLSTM,CRF 3個(gè)模塊組成,其以業(yè)務(wù)過(guò)程文本描述文檔為輸入,以經(jīng)領(lǐng)域?qū)I(yè)人員標(biāo)注的活動(dòng)實(shí)體為輸出。首先采用BERT預(yù)訓(xùn)練模型獲得業(yè)務(wù)過(guò)程文本描述的詞向量表示,然后將得到的詞向量作為BiLSTM的輸入進(jìn)行進(jìn)一步處理。最后用CRF對(duì)BiLSTM的輸出進(jìn)行解碼得到一個(gè)預(yù)測(cè)序列,根據(jù)預(yù)測(cè)序列建立實(shí)體級(jí)別的詞典。

        以第1部分面向業(yè)務(wù)過(guò)程模型的活動(dòng)實(shí)體識(shí)別模型的輸出構(gòu)建詞典,并在構(gòu)建的詞典基礎(chǔ)上采用過(guò)程層次結(jié)構(gòu)解析方法。過(guò)程層次結(jié)構(gòu)解析方法包括一個(gè)3層ON-LSTM網(wǎng)絡(luò)和一個(gè)結(jié)構(gòu)檢索組件,旨在檢索業(yè)務(wù)過(guò)程描述文檔中活動(dòng)實(shí)體的層次結(jié)構(gòu)。首先,基于實(shí)體級(jí)別的字典獲得活動(dòng)實(shí)體的向量表示訓(xùn)練過(guò)程級(jí)語(yǔ)言模型,將相鄰的兩個(gè)活動(dòng)實(shí)體視為一個(gè)活動(dòng)實(shí)體對(duì),最大化兩個(gè)相鄰活動(dòng)實(shí)體之間的聯(lián)系;其次,保存訓(xùn)練好的模型,以同一個(gè)文檔中的活動(dòng)實(shí)體為輸入,通過(guò)訓(xùn)練好的模型檢索不同活動(dòng)實(shí)體之間的距離;最后,采用貪心算法自頂向下解析活動(dòng)實(shí)體之間蘊(yùn)含的層次結(jié)構(gòu)。

        4 業(yè)務(wù)過(guò)程模型深度自動(dòng)生成方法

        4.1 面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別

        命名實(shí)體識(shí)別[30]主要用于識(shí)別文本中人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣和百分比等。面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別方法將業(yè)務(wù)過(guò)程描述中的謂語(yǔ)和賓語(yǔ)定義為活動(dòng)實(shí)體(如圖3)。專業(yè)標(biāo)注人員用{{activity:}}標(biāo)注業(yè)務(wù)過(guò)程文本描述中的活動(dòng)實(shí)體,建立識(shí)別的中間狀態(tài),并將標(biāo)注過(guò)的數(shù)據(jù)轉(zhuǎn)化為BIO(begin,inside,outside)標(biāo)注模式(B表示活動(dòng)實(shí)體的第一個(gè)詞,I表示活動(dòng)實(shí)體的其他詞,O表示文檔中除活動(dòng)實(shí)體外的所有詞),以每一個(gè)單詞為一行,用BIO中的一個(gè)字母標(biāo)注;然后用BERT,BiLSTM,CRF構(gòu)建命名實(shí)體識(shí)別模型;最后BERT預(yù)訓(xùn)練模型將獲得的數(shù)據(jù)詞向量表示輸入BiLSTM[31]進(jìn)行進(jìn)一步處理,再用CRF對(duì)BiLSTM的輸出進(jìn)行解碼,得到一個(gè)預(yù)測(cè)序列,完成實(shí)體抽取流程。

        經(jīng)過(guò)標(biāo)注的數(shù)據(jù)用BERT編碼,該編碼器通過(guò)句子中詞與詞之間的關(guān)聯(lián)程度獲取詞的表征,即

        (1)

        式中:Q,K,V為字向量矩陣;dk為詞嵌入的維度,本文均采用BERT[32]中的默認(rèn)值。采用BERT提取詞向量,然后通過(guò)BiLSTM[31]深度學(xué)習(xí)上下文特征信息,得到輸出

        (2)

        最后通過(guò)CRF解碼,得到最大分?jǐn)?shù)的輸出序列

        (3)

        4.2 過(guò)程層次結(jié)構(gòu)解析

        自然語(yǔ)言是分層的[19],即較小的單元(如短語(yǔ))嵌套在較大的單元(如從句)中,較大的單元對(duì)較小的單元具有指導(dǎo)意義。ON-LSTM對(duì)神經(jīng)元進(jìn)行排序,通過(guò)位置的前后關(guān)系表示信息層級(jí)的高低。在更新神經(jīng)元時(shí),先分別預(yù)測(cè)歷史的層級(jí)和輸入的層級(jí),用這兩個(gè)層級(jí)分區(qū)間更新神經(jīng)元。在更新過(guò)程中,高層級(jí)的信息盡可能地保留長(zhǎng)距離,低層級(jí)的信息可能會(huì)被隨時(shí)更新。因此,高層級(jí)信息跨度大,低層級(jí)信息跨度小,通過(guò)不同信息的跨度即可得到不同輸入在神經(jīng)網(wǎng)絡(luò)中保留的距離。本文以活動(dòng)實(shí)體為輸入,通過(guò)活動(dòng)實(shí)體之間的距離檢索不同活動(dòng)實(shí)體之間的層次結(jié)構(gòu)。

        =CUMAX(softmax(…)),

        (4)

        (5)

        (6)

        本文將編碼器擴(kuò)展到實(shí)體級(jí)別,根據(jù)命名實(shí)體識(shí)別模型從文檔中識(shí)別的實(shí)體創(chuàng)建一個(gè)實(shí)體級(jí)別的字典,從而獲得實(shí)體的向量表示。采用文獻(xiàn)[32]的方法,將相鄰實(shí)體視為一個(gè)實(shí)體對(duì),用于學(xué)習(xí)標(biāo)準(zhǔn)實(shí)體對(duì),旨在最大化相連兩個(gè)活動(dòng)實(shí)體對(duì)之間的聯(lián)系?;顒?dòng)實(shí)體之間的距離檢索函數(shù)定義為

        L=∑LlogP(WLi|WL,

        (7)

        表1所示為過(guò)程層次結(jié)構(gòu)解析中重要符號(hào)的解釋,其中AL-1為活動(dòng)實(shí)體集中第L-1個(gè)實(shí)體,WLi為活動(dòng)實(shí)體AL中第i個(gè)單詞,WL,

        (8)

        將通過(guò)貪婪算法解析出的不同實(shí)體之間的層次結(jié)構(gòu)轉(zhuǎn)化為層次結(jié)構(gòu)樹(shù)(如圖1b),設(shè)a1,a2,a3,…,an(n>1)為n個(gè)在層次結(jié)構(gòu)樹(shù)中深度相同的活動(dòng)實(shí)體,則a在業(yè)務(wù)過(guò)程模型中的優(yōu)先級(jí)相同,發(fā)生順序不分先后。設(shè)a1,a2,a3,…,an(n>1)在層次結(jié)構(gòu)樹(shù)中同時(shí)為ai節(jié)點(diǎn)的孩子,則a1,a2,a3,…,an被視為ai的嵌套。例如圖1b和圖1c中的活動(dòng)實(shí)體Fill out personal information和Sign his name被稱為活動(dòng)實(shí)體Apply for individual membersship的嵌套。

        表1 重要符號(hào)

        5 實(shí)驗(yàn)

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        目前網(wǎng)絡(luò)上尚無(wú)開(kāi)源的業(yè)務(wù)過(guò)程描述數(shù)據(jù),因此本文所需數(shù)據(jù)均由人工手動(dòng)獲取。本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于SAP,該公司是全球最大的企業(yè)管理和協(xié)同化商務(wù)解決方案供應(yīng)商、世界第三大獨(dú)立軟件供應(yīng)商、全球第二大云公司,SAP官方網(wǎng)站提供了大量描述軟件使用方法的業(yè)務(wù)過(guò)程文本描述,其數(shù)據(jù)能夠支持對(duì)模型發(fā)現(xiàn)算法、融合算法的研究;SAP官方網(wǎng)站提供的大量開(kāi)源數(shù)據(jù)能夠用于解決深度優(yōu)化算法中需要大量訓(xùn)練數(shù)據(jù)的問(wèn)題。因此,所擁有的實(shí)驗(yàn)數(shù)據(jù)集已經(jīng)覆蓋本文研究,并具有較強(qiáng)說(shuō)服力。

        本文從SAP網(wǎng)站手動(dòng)獲取了150個(gè)SAP創(chuàng)建、定義和操作軟件產(chǎn)品的過(guò)程模型文檔,其中包括對(duì)過(guò)程模型的詳細(xì)描述。然而,由于包含大量非相關(guān)信息,需要對(duì)部分?jǐn)?shù)據(jù)進(jìn)行采集和清洗。前期工作包括對(duì)數(shù)據(jù)進(jìn)行識(shí)別、過(guò)濾、抽取等,清洗后的數(shù)據(jù)刪除了大量非相關(guān)信息(如方程式、特殊字符等),領(lǐng)域?qū)I(yè)人員將數(shù)據(jù)中的活動(dòng)實(shí)體標(biāo)注為3個(gè)版本,本文擇優(yōu)選擇其中一個(gè),數(shù)據(jù)設(shè)置如表2所示。

        表2 數(shù)據(jù)設(shè)置

        句子平均數(shù)=實(shí)體數(shù)/文檔數(shù);

        (9)

        句子平均長(zhǎng)度=單詞數(shù)目/句子數(shù)。

        (10)

        表2表明,本文整理的150個(gè)業(yè)務(wù)過(guò)程描述文檔包括2 362個(gè)活動(dòng)實(shí)體,平均每個(gè)文檔包括15個(gè)句子,句子平均長(zhǎng)度為12。其中句子平均數(shù)與句子平均長(zhǎng)度通過(guò)式(9)和式(10)計(jì)算。相比深度學(xué)習(xí)領(lǐng)域所需的數(shù)據(jù),150個(gè)文檔不算很多,然而作為首次從SAP文本中自動(dòng)生成過(guò)程模型方法的探索性工作,本文花費(fèi)了大量時(shí)間采集和標(biāo)注業(yè)務(wù)過(guò)程文本描述數(shù)據(jù)。另外,為應(yīng)對(duì)樣本量稍顯不足的問(wèn)題,本文采用K折交叉驗(yàn)證的方法極大減弱了數(shù)據(jù)量少對(duì)實(shí)驗(yàn)結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明本文方法是可行的,數(shù)據(jù)量欠缺是影響實(shí)驗(yàn)結(jié)果的主要原因,如果數(shù)據(jù)量充足,則模型準(zhǔn)確率將有更大提升。

        5.2 實(shí)驗(yàn)參數(shù)設(shè)置

        本文所有實(shí)驗(yàn)代碼均基于PyTorch實(shí)現(xiàn),在模型優(yōu)化階段,本文的損失函數(shù)采用交叉熵,并選擇自適應(yīng)學(xué)習(xí)率的Adam作為優(yōu)化算法。具體參數(shù)設(shè)定如表3所示,其余參數(shù)均采用模型默認(rèn)參數(shù)。

        表3 參數(shù)設(shè)置

        5.3 實(shí)驗(yàn)過(guò)程

        自然語(yǔ)言有層次結(jié)構(gòu)[19],較小的單元被嵌套在較大的單元中。SHEN等[19]證明ON-LSTM在語(yǔ)言建模方面具有較高的準(zhǔn)確率。業(yè)務(wù)過(guò)程詳細(xì)描述了活動(dòng)實(shí)體在業(yè)務(wù)過(guò)程模型中的邏輯結(jié)構(gòu),本文在此基礎(chǔ)上將語(yǔ)言模型從句子級(jí)別擴(kuò)展到文檔級(jí)別,提出一種通過(guò)ON-LSTM無(wú)監(jiān)督地檢索業(yè)務(wù)過(guò)程文本描述中的不同活動(dòng)實(shí)體層次結(jié)構(gòu)來(lái)生成業(yè)務(wù)過(guò)程模型的方法。

        本文按4.2節(jié)定義的規(guī)則標(biāo)注數(shù)據(jù)并訓(xùn)練模型。表4所示為本部分內(nèi)容的重要符號(hào)及相關(guān)釋義。為驗(yàn)證模型的準(zhǔn)確性,本文采用經(jīng)專業(yè)人員標(biāo)注的SAP產(chǎn)品用戶指南文本進(jìn)行實(shí)驗(yàn),將經(jīng)過(guò)領(lǐng)域?qū)I(yè)人員標(biāo)注的數(shù)據(jù)作為訓(xùn)練集,以業(yè)務(wù)過(guò)程描述作為輸入,活動(dòng)實(shí)體作為目標(biāo)輸出。加載訓(xùn)練好的模型,給定一個(gè)包含過(guò)程描述的文本PD=(S1,S2,S3,S4,…,Sl)作為輸入,得到一個(gè)包含活動(dòng)實(shí)體的序列集合PA=(A1,A2,A3,A4,…,Al)。以表1中的SAP數(shù)據(jù)作為訓(xùn)練語(yǔ)料庫(kù),利用如前所述的規(guī)則標(biāo)注業(yè)務(wù)過(guò)程文本描述文檔并轉(zhuǎn)換為BIO格式進(jìn)行訓(xùn)練,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)按8∶2劃分,經(jīng)過(guò)30輪訓(xùn)練,得到一個(gè)面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別模型。

        表4 重要的符號(hào)

        本文通過(guò)計(jì)算精確率Accuracy、召回率Recall和F1值衡量面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別模型表現(xiàn),具體如下:

        (11)

        (12)

        (13)

        由式(11)~式(13)計(jì)算得,面向業(yè)務(wù)過(guò)程的活動(dòng)實(shí)體識(shí)別模型的精確率、召回率、F1值分別為80.23%,87.34%,83.64%,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文標(biāo)注數(shù)據(jù)的可信性。在得到命名實(shí)體識(shí)別輸出的活動(dòng)實(shí)體集后,建立一個(gè)實(shí)體級(jí)別的字典,將每個(gè)實(shí)體視為一個(gè)單詞進(jìn)行詞嵌入,作為有序神經(jīng)網(wǎng)絡(luò)的輸入,從而將有序深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型擴(kuò)展到實(shí)體級(jí)別,作為有序深度神經(jīng)網(wǎng)絡(luò)的輸入。

        由于自動(dòng)化生成業(yè)務(wù)過(guò)程模型仍處于起步階段,網(wǎng)絡(luò)上尚未有公開(kāi)的數(shù)據(jù)集,為減小數(shù)據(jù)量小對(duì)實(shí)驗(yàn)結(jié)果的影響,本文在ON-LSTM的基礎(chǔ)上采用K折交叉驗(yàn)證的方法,充分利用所有樣本,將數(shù)據(jù)集隨機(jī)分為N個(gè)子數(shù)據(jù)集,每次將其中一個(gè)作為測(cè)試集,其余的N-1個(gè)子數(shù)據(jù)集作為訓(xùn)練集。每次迭代重復(fù)N次,使每個(gè)子集都有一次機(jī)會(huì)作為測(cè)試集。本文定義N=2,4,6,8,10,13,20,40,分別迭代1 000次,實(shí)驗(yàn)結(jié)果如圖4所示,可見(jiàn)測(cè)試損失隨著K值的增加不斷下降。當(dāng)N>10時(shí),測(cè)試損失和驗(yàn)證損失均在一個(gè)穩(wěn)定的區(qū)間內(nèi)浮動(dòng);當(dāng)N=20時(shí),測(cè)試損失達(dá)到最小值0.04。驗(yàn)證損失在N<5時(shí)也呈下降趨勢(shì),在N=5,8時(shí)測(cè)試損失保持不變,當(dāng)N>8時(shí)測(cè)試損失隨K值的增大呈下降趨勢(shì),在N=20時(shí)達(dá)到最小值0.44。當(dāng)N=20時(shí),有序神經(jīng)網(wǎng)絡(luò)表現(xiàn)最為優(yōu)異,因此本文選取N=20時(shí)的有序神經(jīng)網(wǎng)絡(luò)作為活動(dòng)實(shí)體的層次結(jié)構(gòu)解析模型。訓(xùn)練結(jié)束后進(jìn)入活動(dòng)實(shí)體層次結(jié)構(gòu)解析階段,為避免不同工業(yè)過(guò)程文本文檔中的活動(dòng)實(shí)體互相影響,每次的輸入為從一個(gè)工業(yè)過(guò)程文本文檔中抽取的活動(dòng)實(shí)體。首先讀取N=20時(shí)保存的層次結(jié)構(gòu)解析模型,以工業(yè)過(guò)程文本文檔中抽取的活動(dòng)實(shí)體集為輸入,通過(guò)模型檢索不同活動(dòng)實(shí)體間的距離來(lái)無(wú)監(jiān)督解析層次結(jié)構(gòu)。模型按4.2節(jié)定義的方法自動(dòng)檢索實(shí)體活動(dòng)之間的層次結(jié)構(gòu)并轉(zhuǎn)化為層次結(jié)構(gòu)樹(shù)。

        5.4 層次結(jié)構(gòu)樹(shù)準(zhǔn)確率的計(jì)算與分析

        如圖5所示為基于過(guò)程樹(shù)編輯距離的層次結(jié)構(gòu)樹(shù)相似性度量方法,本文層次結(jié)構(gòu)樹(shù)表示活動(dòng)實(shí)體的潛在層次結(jié)構(gòu)。為了準(zhǔn)確評(píng)估模型的準(zhǔn)確性,本文采用文獻(xiàn)[34]提出的基于過(guò)程樹(shù)編輯距離的過(guò)程模型相似性度量算法度量樹(shù)的相似度,通過(guò)樹(shù)的相似度衡量模型準(zhǔn)確性。圖5a為過(guò)程專家通過(guò)閱讀業(yè)務(wù)過(guò)程文本描述繪制的業(yè)務(wù)過(guò)程描述中活動(dòng)實(shí)體潛在的層次結(jié)構(gòu)樹(shù),圖5b為模型輸出的層次結(jié)構(gòu)樹(shù),其中將每一個(gè)活動(dòng)實(shí)體映射為樹(shù)中的一個(gè)節(jié)點(diǎn)。假設(shè)業(yè)務(wù)過(guò)程經(jīng)過(guò)程專家繪制的樹(shù)和模型輸出的樹(shù)分別為T1,T2,則T1,T2之間的過(guò)程樹(shù)編輯距離相似度

        (12)

        式中:δ(T1,T2)為T1轉(zhuǎn)變?yōu)門2的最低開(kāi)銷;|T1|和|T2|為節(jié)點(diǎn)數(shù)。本文隨機(jī)選取10個(gè)業(yè)務(wù)過(guò)程描述作為輸入,分別計(jì)算專業(yè)人員和模型生成的層次結(jié)構(gòu)樹(shù)的編輯距離相似度,這里定義增加一個(gè)節(jié)點(diǎn)的開(kāi)銷為p,刪除一個(gè)節(jié)點(diǎn)的開(kāi)銷為q,p=0.3,q=0.7,結(jié)果如表5所示。

        表5 編輯距離相似度計(jì)算示例

        表5中,本文隨機(jī)選取的10個(gè)業(yè)務(wù)過(guò)程文本描述通過(guò)模型繪制的層次結(jié)構(gòu)樹(shù)準(zhǔn)確率大部分在80%左右,最高準(zhǔn)確率為94.4%,最低準(zhǔn)確率為58.7%,平均準(zhǔn)確率達(dá)到82.04%。除此之外,為觀察模型準(zhǔn)確率是否與業(yè)務(wù)過(guò)程文本描述中的活動(dòng)實(shí)體數(shù)存在關(guān)系,本文隨機(jī)選取40個(gè)業(yè)務(wù)過(guò)程文本描述文檔,以觀察文檔中活動(dòng)實(shí)體數(shù)與模型準(zhǔn)確率之間的關(guān)系,其中文檔中活動(dòng)實(shí)體數(shù)的統(tǒng)計(jì)結(jié)果如表6所示。

        表6 文檔活動(dòng)實(shí)體數(shù)

        本文將實(shí)驗(yàn)重復(fù)5次,計(jì)算5次實(shí)驗(yàn)準(zhǔn)確率的加權(quán)平均值,如圖6所示。總體而言,以本文隨機(jī)選取的40個(gè)活動(dòng)實(shí)體為樣本,模型總體平均準(zhǔn)確率為73.20%。含有6~10個(gè)活動(dòng)實(shí)體時(shí),模型準(zhǔn)確率可以達(dá)到84.53%;含有10~15個(gè)活動(dòng)實(shí)體時(shí),模型準(zhǔn)確率比含有6~10個(gè)活動(dòng)實(shí)體的文檔略有下降,準(zhǔn)確率為83.54%;在含有16~20個(gè)活動(dòng)實(shí)體的文檔中,模型準(zhǔn)確率達(dá)到74.16%,與總體平均準(zhǔn)確率相當(dāng);當(dāng)工業(yè)過(guò)程文本文檔中含有的活動(dòng)實(shí)體數(shù)超過(guò)20個(gè)時(shí),準(zhǔn)確率下降較為明顯,為42.33%。

        5.5 案例討論

        基于業(yè)務(wù)過(guò)程文本描述的業(yè)務(wù)過(guò)程模型如圖7所示。

        以名為Creating Web Applications的業(yè)務(wù)過(guò)程描述為輸入,業(yè)務(wù)過(guò)程文本描述包括Start the BEx Web application,Log onto the BI system,click on the link,choose New Data Provider,select Query,enter the name,Choose OK 7個(gè)活動(dòng)實(shí)體,所有活動(dòng)實(shí)體是對(duì)Creating Web Applications的詳細(xì)描述,被視為Creating Web Applications的子進(jìn)程。根據(jù)4.2節(jié)定義,所有活動(dòng)實(shí)體與Creating Web Applications為嵌套關(guān)系。除此之外,根據(jù)上下文語(yǔ)義,難以識(shí)別除活動(dòng)實(shí)體select Query和enter the name外5個(gè)活動(dòng)實(shí)體之間的直接關(guān)系,因此默認(rèn)5個(gè)活動(dòng)實(shí)體為順序關(guān)系。因?yàn)榛顒?dòng)實(shí)體select Query和enter the name均與Query有關(guān),而且根據(jù)語(yǔ)義發(fā)現(xiàn)處于同一對(duì)話框,所以定義select Query和enter the name層級(jí)相同,不分先后關(guān)系?;谝陨厦枋隼L制的層次結(jié)構(gòu)樹(shù)如圖7b所示,基于圖7b生成的業(yè)務(wù)過(guò)程模型如圖8所示。

        6 結(jié)束語(yǔ)

        本文提出一種基于命名實(shí)體識(shí)別模型和有序深度神經(jīng)網(wǎng)絡(luò)自動(dòng)生成業(yè)務(wù)過(guò)程模型的方法,并通過(guò)識(shí)別解析150個(gè)SAP產(chǎn)品用戶指南文本,說(shuō)明本文模型可以正確識(shí)別業(yè)務(wù)過(guò)程描述中88.5%的活動(dòng)實(shí)體,生成業(yè)務(wù)過(guò)程模型的準(zhǔn)確率達(dá)到73.2%,為在日志缺失而無(wú)法使用過(guò)程挖掘方法時(shí)提供了一種新穎且可行的解決方案,具體如下:

        (1)科學(xué)理論角度 本文研究業(yè)務(wù)過(guò)程自動(dòng)生成的理論和方法,是傳統(tǒng)業(yè)務(wù)過(guò)程研究在人工智能時(shí)代的自然延伸和融合,可以確保高效、準(zhǔn)確地通過(guò)業(yè)務(wù)過(guò)程文本描述建立過(guò)程模型。最后通過(guò)正確性驗(yàn)證保證了過(guò)程模型的正確性和可信性。

        (2)應(yīng)用角度 目前生活中的描述通常是一大段文字,這些文字往往復(fù)雜且難理解。從應(yīng)用角度而言,本文提出的面向智能制造的工業(yè)過(guò)程模型深度生成方法可以對(duì)過(guò)程工程師重復(fù)的工作起到輔助作用,更容易了解工業(yè)過(guò)程模型并對(duì)決策進(jìn)行修改,顯然對(duì)企業(yè)的管理、決策等具有較大意義。

        雖然本文通過(guò)實(shí)驗(yàn)驗(yàn)證了所提方法的有效性和優(yōu)越性,但是仍有一些問(wèn)題和工作需要完善,未來(lái)的研究重點(diǎn)如下:

        (1)數(shù)據(jù)方面 本文雖然證明了所提方法的有效性和可行性,但是數(shù)據(jù)量不充足。未來(lái)將通過(guò)建立數(shù)據(jù)的采集標(biāo)注機(jī)制來(lái)擴(kuò)展數(shù)據(jù)量,而且不僅擴(kuò)展本實(shí)驗(yàn)所用的SAP數(shù)據(jù),還要通過(guò)多個(gè)領(lǐng)域數(shù)據(jù)驗(yàn)證所提方法的健壯性。

        (2)方法層面 作為探索性的文章,本文提出一種自動(dòng)檢索文本中活動(dòng)實(shí)體層次結(jié)構(gòu)的方法,然而業(yè)務(wù)過(guò)程模型是一個(gè)很復(fù)雜的模型結(jié)構(gòu),不僅有實(shí)體,還有人物、時(shí)間、地點(diǎn)等主體信息,同時(shí)包含并發(fā)、判斷、選擇等邏輯信息。未來(lái)將在解析活動(dòng)實(shí)體層次結(jié)構(gòu)的基礎(chǔ)上,將主體擴(kuò)展到人物、時(shí)間、地點(diǎn)等,并考慮活動(dòng)實(shí)體之間的并發(fā)、選擇、判斷等邏輯關(guān)系。

        猜你喜歡
        文本活動(dòng)方法
        “六小”活動(dòng)
        “活動(dòng)隨手拍”
        行動(dòng)不便者,也要多活動(dòng)
        中老年保健(2021年2期)2021-08-22 07:31:10
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        三八節(jié),省婦聯(lián)推出十大系列活動(dòng)
        海峽姐妹(2018年3期)2018-05-09 08:20:40
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        在线精品无码一区二区三区| 日本久久一级二级三级| 国产女主播福利在线观看| 国产三级a三级三级| 国产精品久久国产三级国不卡顿| 欧美一级人与嘼视频免费播放 | 日本女优禁断视频中文字幕| 中文字幕一区二区三区四区五区 | 草莓视频成人| 日本最新一区二区三区免费看| 亚洲中文字幕第15页| 亚洲精品无码专区| 亚洲精品永久在线观看| 无码高潮少妇毛多水多水免费| 国产性色av一区二区| 久久亚洲精品成人av无码网站| 成人免费视频在线观看| 亚洲精品综合在线影院| 精品人妻69一区二区三区蜜桃| 无码人妻精品一区二区蜜桃网站| 亚洲人成无码网站在线观看| 久久尤物AV天堂日日综合| 国产一区二区三区影片| 大陆老熟女自拍自偷露脸| 国产成人一区二区三区影院动漫| 亚洲V在线激情| 日本精品少妇一区二区| 免费无码又爽又刺激网站直播| 精品无码专区久久久水蜜桃| www久久久888| 91精品啪在线观九色| 亚洲欧美日韩综合一区二区| 福利视频一二三在线观看| 国产丝袜精品丝袜一区二区| 亚洲综合偷拍一区二区| 国产精品成人无码久久久久久| 理论片午午伦夜理片影院| 无码91 亚洲| 久久一区二区三区久久久| 久久久久久亚洲精品中文字幕| 天天干夜夜躁|