亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種新的基于隱喻地圖的RPA路徑規(guī)劃算法

        2023-01-01 00:00:00李超群黃曉芳周祖宏廖敏
        計算機應(yīng)用研究 2023年4期

        作者簡介:李超群(1997-),男,山西大同人,碩士研究生,主要研究方向為深度學(xué)習(xí)、增強學(xué)習(xí)、自動化;黃曉芳(1977-),女(通信作者),教授,博士研究生,主要研究方向為信息安全、深度學(xué)習(xí)(xf.swust@qq.com);周祖宏(1966-),男,四川綿陽人,主要研究方向為計算機軟件系統(tǒng)開發(fā)、醫(yī)院信息化建設(shè);廖敏(1986-),女,四川遂寧人,碩士,主要研究方向為深度學(xué)習(xí).

        摘 要:智能化地制定機器人流程自動化(robotic process automation,RPA)執(zhí)行路徑有利于企業(yè)節(jié)約相關(guān)人力成本以及提高RPA的推廣,提出基于改進(jìn)深度雙Q網(wǎng)絡(luò)(double deep Q-learning algorithms,DDQN)算法進(jìn)行RPA路徑規(guī)劃。首先針對存在RPA的作業(yè)環(huán)境即Web頁面,不滿足深度增強算法的探索條件的問題,借助隱喻地圖的思想,通過構(gòu)建虛擬環(huán)境來滿足路徑規(guī)劃實驗要求。同時為了提高DDQN算法探索效率,提出利用樣本之間的位置信息的杰卡德系數(shù),將其作為樣本優(yōu)先度結(jié)合基于排名的優(yōu)先級(rank-based prioritization)構(gòu)建新的采樣方式。通過隨機采用任務(wù)樣本在虛擬環(huán)境上進(jìn)行驗證,證明其符合實驗要求。進(jìn)一步比較改進(jìn)DDQN、深度Q網(wǎng)絡(luò)(deep Q network,DQN)、DDQN、PPO以及SAC-Discrete算法的實驗結(jié)果,結(jié)果顯示改進(jìn)算法的迭代次數(shù)更少、收斂速度更快以及回報值更高,驗證了改進(jìn)DDQN的有效性和可行性。

        關(guān)鍵詞:深度增強學(xué)習(xí);DDQN;RPA;業(yè)務(wù)流程自動化;路徑規(guī)劃;采樣策略

        中圖分類號:TP18 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2023)04-008-1006-06doi: 10.19734/j.issn.1001-3695.2022.08.0433

        Abstract:Intelligently formulating the RPA execution path is conducive to saving labor costs and improving the promotion of RPA for enterprises. For the first time, this paper proposed based on improving DDQN algorithm for RPA path planning. First of all, the problem that the working environment of RPA was a Web page, which didn’t meet the exploration conditions of the depth enhancement algorithm, with the help of the idea of metaphor map, it built the virtual environment to meet the requirements of the path planning experiment. At the same time, in order to improve the exploration efficiency of DDQN algorithm, this paper proposed to use the Jaccard coefficient of the location information between samples as a sample priority and combined it with rank-based prioritization to build new sampling methods. This paper randomly used task samples on the virtual environment to verify to demonstrate compliance with the experimental requirements. Further comparison of experimental results of the improved DDQN with DQN, DDQN, PPO and SAC-Discrete shows that the improved algorithm has fewer iterations, faster convergence speed, and higher return value, indicating the effectiveness and feasibility of the improving DDQN algorithm.

        Key words:deep reinforcement learning; DDQN; RPA; business process automation; route plan; sampling strategy

        0 引言

        機器人流程自動化(RPA)能夠滿足高水平的運營效率,同時對風(fēng)險管理以及任務(wù)質(zhì)量和流程有著高標(biāo)準(zhǔn)的把控,引起了企業(yè)的極大興趣。一些日常任務(wù)(如工作流處理、自動電子郵件查詢處理、調(diào)度系統(tǒng)、在線數(shù)據(jù)采集和自動庫存補充[1])可由配備自動軟件代理和機器人的專家系統(tǒng)執(zhí)行。RPA可以自動化重復(fù)地執(zhí)行業(yè)務(wù)流程,在模擬日常手動任務(wù)和工作流程方面起著關(guān)鍵作用,比如Amazon Alexa[2]、Microsoft Cortana[3]、Google Assistant[4]以及Apple Siri[5]。RPA已經(jīng)出現(xiàn)并吸引了實踐者對部署的關(guān)注[6],盡管RPA是一種功能強大的工具,但其應(yīng)用基于規(guī)則的、結(jié)構(gòu)化的、成熟的、標(biāo)準(zhǔn)化的、競爭性的和有良好文檔記錄的決策邏輯,以便于通過數(shù)字化結(jié)構(gòu)化數(shù)據(jù)輸入完成任務(wù)流程[7,8]。目前行業(yè)正在尋求更智能和創(chuàng)新的RPA,利用認(rèn)知計算和嵌入式智能處理決策過程。此類系統(tǒng)智能化程度的提高意味著技術(shù)邏輯能力的提高,從而為利益相關(guān)者實現(xiàn)高水平的過程自動化和價值創(chuàng)造[9]。

        近些年,隨著計算機技術(shù)的發(fā)展,一些需要人類參與決策的任務(wù)可以利用人工智能相關(guān)技術(shù)完成,許多研究者結(jié)合機器學(xué)習(xí)(ML)方法,可以快速完成復(fù)雜模型中的大型數(shù)據(jù)集分析,強大的圖形處理單元也提高了處理復(fù)雜的深度學(xué)習(xí)和強化學(xué)習(xí)算法的兼容性。這些因素都有助于RPA利用人工智能執(zhí)行認(rèn)知決策,從而進(jìn)一步擴展到不同的工程應(yīng)用中。例如常關(guān)羽[10]提出語義識別與業(yè)務(wù)流程管理相結(jié)合,實現(xiàn)流程模型管理智能化。Martins等人[11]通過結(jié)合圖像識別技術(shù),對業(yè)務(wù)流程中的圖片信息進(jìn)行讀取與理解。Dubiel等人[12]通過結(jié)合數(shù)據(jù)挖掘技術(shù),基于用戶個人進(jìn)行個性化推薦。目前大部分學(xué)者都是針對不同類型數(shù)據(jù)的讀取與理解,提供了針對性的解決方案,即借助深度學(xué)習(xí)或者增強學(xué)習(xí)處理流程中的非結(jié)構(gòu)數(shù)據(jù)和輔助決策,而對于整體的流程執(zhí)行策略的制定仍缺少研究和解決方案。

        本文針對RPA路徑規(guī)劃問題進(jìn)行研究,提出一種RPA執(zhí)行路徑規(guī)劃的解決方案,即RPA可以自主在環(huán)境中尋找到一條滿足任務(wù)要求的執(zhí)行路徑。與其他研究不同的是,本文并非針對執(zhí)行過程中某個單點問題提出解決方案,而是針對執(zhí)行路徑制定,這也是RPA智能化的關(guān)鍵問題,在不同的作業(yè)環(huán)境中學(xué)習(xí)到適合的執(zhí)行路徑。同時這種通過與環(huán)境交互,不斷探索的學(xué)習(xí)方式,正好符合增強學(xué)習(xí)的學(xué)習(xí)方式,即通過智能體與環(huán)境的交互,不斷地試錯糾正,學(xué)習(xí)到執(zhí)行策略,所以將深度增強學(xué)習(xí)算法[13]用于RPA自主進(jìn)行路徑規(guī)劃的研究中。深度強化學(xué)習(xí)算法已經(jīng)被廣泛應(yīng)用于路徑規(guī)劃中,有效克服了人工勢場法[14]、遺傳算法[15]等在復(fù)雜環(huán)境中無法處理復(fù)雜高維度信息的問題,但是其依舊存在著學(xué)習(xí)效率低、數(shù)據(jù)探索效率低下和過度估計等問題,為了打破數(shù)據(jù)相關(guān)性,提升算法穩(wěn)定性,Schaul等人[16]提出基于優(yōu)先級的經(jīng)驗回放機制替代等概率的抽樣方法,解決了均勻采樣的問題。Schulman等人提出通過與環(huán)境的交互作用來采樣數(shù)據(jù),使用隨機梯度代替標(biāo)準(zhǔn)策略梯度優(yōu)化目標(biāo)函數(shù)交替,使得機器人路徑規(guī)劃算法具有較好的數(shù)據(jù)效率和魯棒性。目前許多研究者針對樣本抽取策略進(jìn)行優(yōu)化,對傳統(tǒng)的學(xué)習(xí)方法進(jìn)行改進(jìn),提升了智能體的探索效率、準(zhǔn)確度等。但流程自動化的路徑規(guī)劃不只是針對提升探索效率來說的,還需要解決如何消除環(huán)境中無關(guān)因素的干擾,即Web頁面中無效元素,以及還需要考慮如何在環(huán)境中體現(xiàn)元素之間的邏輯關(guān)系。針對此類問題,目前尚未有人提出有效解決方案。本文借鑒了深度增強學(xué)習(xí)解決路徑規(guī)劃問題的經(jīng)驗[17]以及元素的類地圖表達(dá)方式[18,19],首先構(gòu)建可以滿足實驗需求的虛擬環(huán)境,即通過抽取頁面有效元素、元素之間的關(guān)系以組成元素的基本信息組;然后基于Gosper折線能將相鄰元素聚攏組成塊狀的特性,構(gòu)建虛擬環(huán)境;為了將聚攏到一起的元素與其他元素進(jìn)行劃分,通過創(chuàng)建LOD(level of detail)值,體現(xiàn)出不同層次和關(guān)聯(lián)關(guān)系;最后以元素節(jié)點作為發(fā)生元創(chuàng)建泰森多邊形,單個六邊形表示一個有效元素的信息節(jié)點,從而表達(dá)環(huán)境信息。本文通過分析深度雙Q網(wǎng)絡(luò)[20]的優(yōu)點與不足之后,提出將樣本與目標(biāo)的位置信息的杰卡德系數(shù)作為樣本優(yōu)先度,結(jié)合基于排名的優(yōu)先級采樣方法[21]構(gòu)建新的采樣方法,從而優(yōu)化模型探索策略提高探索效率。

        1 問題描述與相關(guān)工作

        1.1 問題描述

        機器人流程自動化由生產(chǎn)機器人、管理機器人和執(zhí)行機器人組成,作業(yè)場景是Web頁面。在Web環(huán)境中實現(xiàn)RPA執(zhí)行任務(wù)的路徑規(guī)劃。如圖1所示,agent(RPA執(zhí)行機器人)從隨機初始點(x0,y0)出發(fā),隨機向未知區(qū)域進(jìn)行探索,當(dāng)?shù)竭_(dá)一個點后提取元素的信息進(jìn)行驗證是否滿足進(jìn)行下一步的要求,當(dāng)驗證失敗后則返回隨機初始點,并根據(jù)環(huán)境的反饋實時進(jìn)行調(diào)整方向和步長,避免其碰撞并尋找到執(zhí)行路徑,反之繼續(xù)沿著當(dāng)前路徑繼續(xù)探索,目標(biāo)就是在約束條件下以運行最少步驟數(shù)到達(dá)目的地。

        1.2 深度Q網(wǎng)絡(luò)

        深度增強學(xué)習(xí)(deep reinforcement learning,DRL)作為一種基于模型與環(huán)境交互進(jìn)行學(xué)習(xí)的研究方向,目的就是通過計算機進(jìn)行感知、記憶然后作出決策。圖2展示了強化學(xué)習(xí)中涉及的基本思想和要素。

        傳統(tǒng)增強學(xué)習(xí)(reinforcement learning,RL)采用的是表格的方式記錄每個[狀態(tài)—動作]的價值(例如Q learning),agent通過讀取表中的記錄進(jìn)行判斷當(dāng)前狀態(tài)下如何選擇合適的動作。 但隨著環(huán)境越來越復(fù)雜,狀態(tài)越來越多,通過表格的方式無法記錄那么多[狀態(tài)—動作—價值]。隨著對RL算法的研究,2013年Mnih等人[22]將神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)DRL中的Q lear-ning相結(jié)合,提出了深度Q網(wǎng)絡(luò)模型(deep Q network, DQN)算法,以神經(jīng)網(wǎng)絡(luò)為載體,將agent在環(huán)境中的狀態(tài)信息作為神經(jīng)網(wǎng)絡(luò)的輸入,使用均方差更新網(wǎng)絡(luò)權(quán)重來定義目標(biāo)函數(shù),如式(2)所示。

        2 設(shè)計方案

        RPA的路徑規(guī)劃基于實際作業(yè)環(huán)境進(jìn)行實驗,存在著許多因素影響實驗效率和結(jié)果,例如頁面中元素分布無序,且其中摻雜著大量無效元素,即這些元素在實際任務(wù)中不會起到關(guān)鍵作用,例如一些圖片、文本內(nèi)容等。其次是在一些任務(wù)中,在與瀏覽器或者后臺服務(wù)器進(jìn)行交互時,需要一些時間等待交互結(jié)果從而決定下一步操作,而時間因素與RPA路徑學(xué)習(xí)無關(guān),而且對實驗效率有很大影響。為了消除這些無關(guān)因素的影響,提出了構(gòu)建虛擬環(huán)境的解決方案。

        另一部分是為了解決深度雙Q網(wǎng)絡(luò)的不足,包括容易陷入局部最優(yōu)解,以及均勻隨機采樣的采樣策略存在獲取到有用樣本的概率低的問題。因此提出了基于DDQN算法的采樣策略的改進(jìn)算法,通過計算agent當(dāng)前位置與目標(biāo)點位置信息的杰卡德系數(shù),作為agent是否朝著目標(biāo)位置進(jìn)行探索的標(biāo)量樣本優(yōu)先度(priority of sample experience,PSE),以PSE作為樣本排名的依據(jù),采用rank-based prioritization(基于排名的優(yōu)先級)的方法進(jìn)行采樣來彌補樣本的多樣性。

        2.1 虛擬環(huán)境的設(shè)計

        通過提取頁面有效元素信息,結(jié)合元素在頁面DOM樹中的位置信息,構(gòu)建出元素信息可被讀取、元素之間關(guān)聯(lián)性強、易于訓(xùn)練的虛擬環(huán)境。

        如圖1所示,RPA在路徑探索中對于元素的探索是通過不斷在頁面上進(jìn)行元素匹配,然后進(jìn)行動作選擇進(jìn)行操作??梢园l(fā)現(xiàn)一個基本的登錄頁面由賬號輸入框、密碼輸入框以及確認(rèn)按鈕三個元素組成,而頁面其余部分都是由樣式元素和一些非必要元素組成,存在大量無效信息,這使得深度增強模型無法準(zhǔn)確地獲取到有用信息,嚴(yán)重局限了模型對于有效路徑的探索范圍。提出的解決方案為首先結(jié)合頁面DOM樹的結(jié)構(gòu)進(jìn)行關(guān)鍵元素信息的分析并進(jìn)行提取,如表1所示;同時為了約束agent的行為,使其符合實際作業(yè)環(huán)境的執(zhí)行邏輯,依據(jù)元素在DOM樹中的層級關(guān)系給予元素LOD屬性,通過判斷agent所經(jīng)過元素的LOD之差是否存在非法跨越,即通過設(shè)定好的閾值來限制其行為,本文設(shè)定agent經(jīng)過兩個相鄰的LOD值相差不大于1,即跨越LOD閾值為1。

        接下來根據(jù)元素的關(guān)聯(lián)關(guān)系進(jìn)行類地圖的表達(dá)。首先利用Gosper分形規(guī)則構(gòu)建Gosper折線圖,如圖3所示;接下來依據(jù)Gosper引導(dǎo)順序,將通過LOD劃分層次的數(shù)據(jù)葉子節(jié)點排布在曲線節(jié)點上;再根據(jù)父子節(jié)點包含關(guān)系,對下層節(jié)點區(qū)域融合得到父節(jié)點區(qū)域,自下而上重復(fù)此過程,生成體現(xiàn)層次數(shù)據(jù)嵌套包含關(guān)系的多邊形集合(圖4)。

        相同父節(jié)點的節(jié)點元素具有相同的LOD,而不同父節(jié)點的節(jié)點元素的LOD不同,對于層次樹上游節(jié)點所對應(yīng)的區(qū)域,為其設(shè)定較小的LOD 等級,隨著層次的深入,展示細(xì)節(jié)信息的子節(jié)點區(qū)域?qū)?yīng)較高的LOD等級。因此可以通過設(shè)置執(zhí)行機器人單步所能跨域LOD等級差的閾值來實現(xiàn)約束執(zhí)行機器人的行為。

        最后利用曲線節(jié)點作為發(fā)生元構(gòu)造泰森多邊形,同時作為元素信息保存位置,形成蜂窩狀底圖,并根據(jù)元素信息為六邊形綁定顏色,同LOD的元素顏色相同,同色系的元素之間存在父子關(guān)系,利用顏色顯式地凸顯元素之間關(guān)系,如圖5所示(見電子版)。

        2.2 改進(jìn)DDQN算法

        本節(jié)針對DDQN算法的改進(jìn)主要包括對樣本經(jīng)驗的處理、樣本排序以及采樣操作,同時將新的采樣方法引入到原算法中,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

        提出了對DDQN采樣策略的改進(jìn)方案,沿用加權(quán)重要性采樣的思想,通過設(shè)置樣本優(yōu)先度提升更有價值的樣本被采集的概率,同時消除利用樣本TD-error的重要性采樣方法的缺陷,避免訓(xùn)練過程中樣本多樣性缺失和采樣率差的問題。提出基于rank-based prioritization改進(jìn)采樣策略,首先針對樣本優(yōu)先度的設(shè)置,本文借助在虛擬環(huán)境中agent移動方向是否具有朝目標(biāo)節(jié)點位置移動的趨勢來表示當(dāng)前agent所獲得樣本的優(yōu)先度,即通過計算agent當(dāng)前位置的LOD與目標(biāo)點LOD的杰卡德系數(shù),此時樣本優(yōu)先度只與位置因素有關(guān),不再受模型的訓(xùn)練狀態(tài)的影響,就可以避免網(wǎng)絡(luò)模型在訓(xùn)練初期或者后期導(dǎo)致樣本的優(yōu)先度發(fā)生相對變化,從而防止樣本優(yōu)先度缺失。

        樣本優(yōu)先度的獲取,通過agent自身或者外部反饋獲得環(huán)境的數(shù)據(jù),獲得當(dāng)前agent位置的LOD值與目標(biāo)位置的LOD值,首先將長短不一的數(shù)據(jù)補零使其長度一致,接下來轉(zhuǎn)換為TF矩陣,如式(7),其次計算agent當(dāng)前位置的LOD值與目標(biāo)點位置的LOD值的杰卡德系數(shù),agent的位置信息如圖4所示。

        其次通過構(gòu)建新的采樣方式來提升模型采樣率,本文提出基于rank-based prioritization采樣理論改進(jìn)的分段隨機采樣策略,確保不同優(yōu)先度的樣本盡可能被利用。其基本思路是首先將經(jīng)驗池中的樣本根據(jù)優(yōu)先度進(jìn)行排序并劃分區(qū)間分層,對于劃分樣本優(yōu)先度區(qū)間則是按照皮爾森相關(guān)系數(shù)進(jìn)行分類,(08,10]極強相關(guān),(0.6,0.8]強相關(guān),(0.4,0.6]中等相關(guān),(02,0.4]弱相關(guān),(0,0.2]極弱或無相關(guān),[-1,0]負(fù)相關(guān)。其次是在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,每次在不同優(yōu)先度區(qū)間隨機獲取一定比例的樣本共同組成batch_size大小的樣本集,其中各個區(qū)間抽取的樣本比例是通過實驗不斷對比得出的,樣本優(yōu)先度從[-1,1]中依次采樣比例為[1, 3, 2.5, 1.5, 1, 1],如圖7所示。

        3 實驗結(jié)果與分析

        3.1 實驗環(huán)境建模

        本文方案是基于一個在線簽名系統(tǒng)進(jìn)行實驗驗證,主要元素由平臺的九個功能頁面和若干彈窗界面構(gòu)成,共有一百多個有效元素組成。根據(jù)設(shè)計方案的步驟,依次對于頁面元素的信息進(jìn)行提取,抽取有效元素的關(guān)鍵信息,基于DOM樹根據(jù)元素之間的關(guān)系計算LOD值,接下來將有效元素依次綁定到Gosper折線上,獲得元素的位置信息,最后利用曲線節(jié)點作為發(fā)生元構(gòu)造泰森多邊形,形成蜂窩狀底圖并通過賦予顏色,更直觀地表現(xiàn)出元素之間的關(guān)聯(lián)關(guān)系以及明顯的層級關(guān)系,最終顯示如圖8所示。

        3.2 動作函數(shù)設(shè)計

        深度增強學(xué)習(xí)中智能體的行為方式是基于虛擬環(huán)境構(gòu)建的,在虛擬環(huán)境中每個節(jié)點與之相鄰的只存在6個,這樣表示智能體行動方向的向量只有6個,同時為了增加智能體對頁面元素的探索范圍,尋找到更短執(zhí)行路徑,在探索方向的基礎(chǔ)上增加了探索長度step,即方向以及長度對應(yīng)的向量元素的關(guān)系映射,如圖9所示,左邊為方向和長度step,右邊為決策向量。

        結(jié)合網(wǎng)頁DOM樹與實際生產(chǎn)環(huán)境中有效元素的分布位置進(jìn)行觀察,發(fā)現(xiàn)與當(dāng)前有效元素〈x0,y0,LODi,element0〉具有相同LOD值的有效元素〈x1,y1,LODi,element1〉都可以在3個step以內(nèi),到達(dá)位移方式如圖10所示,所以設(shè)step≤3的范圍為當(dāng)前元素的有效探索范圍。

        然而依舊存在相鄰LOD的有效元素〈x2,y2,LODi+1,element2〉距離遠(yuǎn)超于3個step,這導(dǎo)致了在實際生產(chǎn)環(huán)境中有效的執(zhí)行路徑在虛擬環(huán)境中無法被學(xué)習(xí)到。通過梳理實驗環(huán)境中不同LOD有效元素之間的關(guān)系,從LODi內(nèi)向LODi+1中進(jìn)行探索過程中,不難發(fā)現(xiàn)執(zhí)行路徑進(jìn)入LODi+1的路徑是確定的,只有通過一些關(guān)鍵節(jié)點才可以在得到正獎勵的情況下進(jìn)入下一個LOD中。這些關(guān)鍵點位在實際生產(chǎn)環(huán)境中一般充當(dāng)頁面切換元素或者表單提交元素,所以只需要在當(dāng)前元素的有效探索范圍內(nèi)創(chuàng)建一個這些關(guān)鍵元素的索引,可以保證基于當(dāng)前元素的有效探索范圍包含了當(dāng)前元素的所有執(zhí)行路徑。即增加了一種新的探索方式,通過元素名稱進(jìn)行探索,探索演示如圖11所示。

        3.3 獎勵函數(shù)設(shè)計

        獎罰函數(shù)是深度增強學(xué)習(xí)中經(jīng)驗的重要組成部分,通過計算智能體在環(huán)境中采取動作的反饋,獲得經(jīng)驗的獎懲值,從而保證訓(xùn)練合適的神經(jīng)網(wǎng)絡(luò),用標(biāo)量λ表示。模型的目的是學(xué)習(xí)到RPA在有限的step內(nèi)獲得最大獎懲值之和對應(yīng)的路徑,其中獎罰值表示智能體在探索過程中尋找到存在的路徑,或者尋找到無效路徑的反饋。即當(dāng)智能體沿著(x0,y0)方向前進(jìn)m個step后無障礙物,則λ0為1.01;如果智能體沿著(x1,y1)方向前進(jìn)n個step后存在障礙物,則λ1為-1;當(dāng)智能體沿著(x2,y2)方向前進(jìn)w個step后到達(dá)目的地,則λ2為10。數(shù)學(xué)表達(dá)為

        λ=1.01-110 正獎勵負(fù)獎勵到達(dá)目的地(12)

        3.4 實驗比較

        3.4.1 實驗環(huán)境可行性驗證

        為了驗證虛擬環(huán)境可行性,在實際生產(chǎn)環(huán)境中,隨機抽取執(zhí)行起始點與終止點的距離為小于等于6、小于等于12各7 600個執(zhí)行任務(wù),基于虛擬環(huán)境進(jìn)行驗證其可行性。主要進(jìn)行分析虛擬環(huán)境是否包含實際生產(chǎn)環(huán)境所必需的相關(guān)元素以及執(zhí)行路徑是否滿足實際生產(chǎn)環(huán)境的規(guī)則,驗證結(jié)果如表2所示,實際生產(chǎn)環(huán)境所需的任務(wù)執(zhí)行流程是可以基于虛擬環(huán)境學(xué)習(xí)實現(xiàn)的。

        3.4.2 多模型實驗結(jié)果對比

        在上文中,基于Gosper生成環(huán)境相關(guān)元素的位置信息,同時結(jié)合元素的LOD構(gòu)建泰森多邊形,以柵格圖為環(huán)境建模方式的網(wǎng)格地圖來表示環(huán)境信息。建模大小為13×13,截取有效元素集中的區(qū)域,每個柵格對應(yīng)一個有效元素,顏色相同的為同一LOD,同一色系的則存在包含的關(guān)系,如圖8所示。

        為驗證本文方案的有效性,分別對不同算法在相同執(zhí)行任務(wù)的地圖環(huán)境下的訓(xùn)練結(jié)果進(jìn)行分析,再對同種算法在不同執(zhí)行任務(wù)的地圖環(huán)境下的訓(xùn)練結(jié)果進(jìn)行分析。前者是為了衡量改進(jìn)DDQN相較于其他算法更優(yōu)秀的學(xué)習(xí)效果,后者是為了衡量算法在不同場景下表現(xiàn)的穩(wěn)定性。通過在不同類型的任務(wù)場景下進(jìn)行實驗驗證改進(jìn)DDQN算法的適應(yīng)性,從而衡量模型對于問題的適應(yīng)程度。對于路徑規(guī)劃問題,路徑長度的增加對應(yīng)著問題規(guī)模的上升,即處理難度也會增加。

        圖12所示為學(xué)習(xí)到簽署任務(wù)發(fā)布的路徑,起始點坐標(biāo)為(1.73,13.00),黑色為無效位置,目標(biāo)為(0.00,8.00),其他為有效元素。在迭代了2 850次虛擬環(huán)境中學(xué)到的執(zhí)行路徑,路徑長度為12,實際執(zhí)行步數(shù)為10,任務(wù)主要由兩部分組成:a)平臺登錄功能,關(guān)鍵步驟為[1,2,3],對應(yīng)的是賬號信息的輸入以及提交;b)發(fā)布簽署,關(guān)鍵步驟為[5,6,7,8,9,10],對應(yīng)文檔信息、用戶信息的填充以及發(fā)布功能。其中步驟[3,4]為頁面跳轉(zhuǎn),證明agent通過與環(huán)境的不斷交互,深度雙Q網(wǎng)絡(luò)可以在簡單環(huán)境中進(jìn)行良好的路徑規(guī)劃。

        圖13為初始點與目標(biāo)點的距離為6時,對改進(jìn)DDQN與DDQN、DQN、PPO以及SAC-discrete算法訓(xùn)練回報值的對比。通過回報值可以發(fā)現(xiàn),改進(jìn)DDQN算法獲得回報值的速度更快,并且比較平穩(wěn),數(shù)據(jù)變化也比較穩(wěn)定;DQN和DDQN采用的是均勻隨機采樣,樣本之間差異較大導(dǎo)致學(xué)習(xí)效果差;而PPO容易受到超參數(shù)變化影響,所以在參數(shù)更新時進(jìn)行了一定程度的限制,從而導(dǎo)致其采樣率低下;而SAC-discrete基于最大熵確實使探索更加均勻,訓(xùn)練速度也很快,避免一個動作陷入次優(yōu),但是也造成了數(shù)據(jù)變化并不穩(wěn)定。

        比較五種算法的平均損失值,結(jié)果如圖14所示,可以發(fā)現(xiàn)改進(jìn)DDQN算法可以在相同episode中獲得更多有效信息。最后對比其他算法學(xué)習(xí)效果,可以發(fā)現(xiàn)DQN、DDQN以及PPO算法在學(xué)習(xí)過程中存在無效路徑的學(xué)習(xí),SAC-discrete算法的探索策略隨機化存在明顯的抖動,而改進(jìn)DDQN算法則沿著價值最高的路徑學(xué)習(xí),實驗效果最好。

        圖15中為初始點與目標(biāo)點為12時,五種算法的回報值的變化,其中DQN實驗結(jié)果最差,回報值最低,同時數(shù)據(jù)變化抖動明顯。其次,DDQN與PPO結(jié)果相近,SAC-discrete實驗結(jié)果與改進(jìn)DDQN相近,探索效率與回報值略慢于改進(jìn)DDQN。

        由圖可見,改進(jìn)DDQN可以在2 800 episode后達(dá)到了最大回報值,其數(shù)據(jù)變化也較為平穩(wěn)。綜合分析,改進(jìn)DDQN在復(fù)雜環(huán)境中也能很好地完成路徑規(guī)劃任務(wù)。

        綜合實驗結(jié)果可以得出,基于Gosper折線與LOD相結(jié)合,進(jìn)行類地圖的表達(dá)Web頁面有效元素信息,可以有效凸顯有效元素的空間信息以及元素之間的關(guān)系,同時改進(jìn)后的DDQN明顯提高了模型學(xué)習(xí)的準(zhǔn)確度和RPA的路徑規(guī)劃能力,同時改進(jìn)DDQN得到的執(zhí)行路徑的執(zhí)行效果比DQN、DDQN、PPO以及SAC-discrete算法更好,執(zhí)行路徑更短。

        為了驗證虛擬環(huán)境的可行性以及其與實際生產(chǎn)環(huán)境的差異,通過隨機抽取起始點與目標(biāo)點的方式,獲取15 200個隨機任務(wù)并進(jìn)行驗證虛擬環(huán)境是否滿足完成條件,從而驗證本文提出的虛擬環(huán)境可行性。實驗結(jié)果如表3所示。

        根據(jù)任務(wù)起始點與終止點的距離進(jìn)行劃分,從而將任務(wù)分為長度為(0,6)和[6,12)兩類任務(wù),從表中可知,兩類任務(wù)都可以在虛擬環(huán)境下完成。

        為了更清楚地對比改進(jìn)DDQN的優(yōu)化效果,本文將DQN、DDQN、改進(jìn)DDQN、PPO以及SAC-discrete算法進(jìn)行對比,比較五個算法在獎賞值、訓(xùn)練時間以及不同類型任務(wù)的迭代次數(shù),結(jié)果如表3所示。從表可知改進(jìn)DDQN算法平均積累獎賞值更高,說明改進(jìn)的DDQN算法產(chǎn)生的解的質(zhì)量更好,能更快地解決RPA路徑規(guī)劃問題,在改進(jìn)的 DDQN下可以更好地適應(yīng)復(fù)雜環(huán)境,完成對RPA的訓(xùn)練,更好解的出現(xiàn)幫助算法可以更快完成路徑規(guī)劃任務(wù)。

        4 結(jié)束語

        本文提出了一種基于Web作業(yè)環(huán)境的RPA路徑規(guī)劃的解決方案,即通過抽取頁面有效元素信息,以及將元素之間抽象的關(guān)聯(lián)關(guān)系通過LOD表達(dá)出來,最后利用Gosper將有效元素之間的關(guān)聯(lián)關(guān)系進(jìn)行圖形化的表現(xiàn),從而構(gòu)建滿足深度增強學(xué)習(xí)的虛擬環(huán)境,通過實驗驗證,該方案是可以滿足實驗要求的。

        其次所提出一種改進(jìn)的DDQN算法,通過結(jié)合樣本之間位置信息的杰卡德系數(shù)與基于排名的優(yōu)先級采樣方法構(gòu)建新的采樣方法,克服模型原地擺動的問題,保證模型沿著目標(biāo)選擇最優(yōu)行動方向。實驗對比了DQN、DDQN、PPO和SAC-discrete算法,結(jié)果表明改進(jìn)DDQN算法得到的回報值最高,分別比其他算法高1984%、1172%、846%、406%,所需訓(xùn)練次數(shù)分別減少4480%、3500%、1803%、657%,平均損失值也最低,表明所提算法可以保證RPA在實際生產(chǎn)環(huán)境中能夠更加準(zhǔn)確地完成任務(wù)。但是依舊存在個別問題影響模型的學(xué)習(xí)效率,首先是為了提高模型的探索范圍,在探索方向的基礎(chǔ)上增加了探索長度step,由于本文采取的是離散動作空間,這就導(dǎo)致空間維度過大,使探索到有效的路徑所需時間增加,這將是下一個主要研究方向。

        參考文獻(xiàn):

        [1]Radke A M,Dang M T,Tan A. Using robotic process automation(RPA) to enhance item master data maintenance process[J]. LogForum,2020,16(1): 129-140.

        [2]Alepis E,Patsakis C. Monkey says,monkey does: security and pri-vacy on voice assistants[J]. IEEE Access,2017,5: 17841-17851.

        [3]Allen A A,Shane H C,Schlosser R W. The EchoTM as a speaker-independent speech recognition device to support children with autism: an exploratory study[J]. Advances in Neuro Developmental Disorders,2018,2(1): 69-74.

        [4]Angelini L,Caon M,Carrino S,et al. Designing a desirable smart bracelet for older adults[C]// Proc of ACM Conference on Pervasive and Ubiquitous Computing Adjunct Publication. New York: ACM Press,2013: 425-434.

        [5]Azaria A,Hong J. Recommender systems with personality[C]// Proc of the 10th ACM Conference on Recommender Systems. New York: ACM Press,2016: 207-210.

        [6]Lhuer X. The next acronym you need to know about: RPA (robotic process automation)[EB/OL]. (2016-12-06). https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-next-acronym-you-need-to-know-about-rpa.

        [7]Kedziora D,Kiviranta H M. Digital business value creation with robo-tic process automation(RPA) in northern and central Europe[J]. Management,2018,13(2):161-174.

        [8]Schuck P,Delion D S,Dukelsky J,et al. Equation of motion method for strongly correlated Fermi systems and extended RPA approaches[J]. Physics Reports,2021,929: 1-84.

        [9]Dizon G. Using intelligent personal assistants for second language learning: a case study of Alexa[J]. Tesol Journal,2017,8(4): 811-830.

        [10]常關(guān)羽. 基于語義的流程模型構(gòu)建及其智能化管理技術(shù)研究[D]. 西安:西北工業(yè)大學(xué),2018. (Chang Guanyu. The semantic process model construction and its intelligent management technology research[D]. Xi’an: Northwestern University of Technology,2018.)

        [11]Martins P,Sá F,Morgado F,et al. Using machine learning for cognitive robotic process automation(RPA)[C]// Proc of the 15th Iberian Conference on Information Systems and Technologies. 2020: 1-6.

        [12]Dubiel M,Halvey M,Azzopardi L,et al. A survey investigating usage of virtual personal assistants[EB/OL]. (2018-07-12). https://arxiv.org/abs/1807.04606.

        [13]Arulkumaran K,Deisenroth M P,Brundage M,et al. Deep reinforcement learning: a brief survey[J]. IEEE Signal Processing Magazine,2017,34(6): 26-38.

        [14]Khatib O. Real-time obstacle avoidance system for manipulators and mobile robots[J]. The International Journal of Robotics Research,1986,5(1): 90-98.

        [15]Dorgio M,Maniezzo V,Colorni A. The ant system: an autocatalytic optimizing process,TR91-016[R]. 1991.

        [16]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay[C]// Proc of International Conference on Learning Representations. 2016: 1-21.

        [17]董豪,楊靜,李少波,等. 基于深度強化學(xué)習(xí)的機器人運動控制研究進(jìn)展[J]. 控制與決策,2022,37(2): 278-292. (Dong Hao,Yang Jing,Li Shaobo,et al. Research progress of robot motion control based on deep reinforcement learning[J]. Control and Decision,2022,37(2): 278-292.)

        [18]艾廷華,周夢杰,陳亞婕. 專題地圖屬性信息的LOD表達(dá)與TreeMap可視化[J]. 測繪學(xué)報,2013,42(3): 453-460. (Ai Ting-hua,Zhou Mengjie,Chen Yajie. LOD expression of attribute information of thematic map and visualization of TreeMap[J]. Journal of Surveying and Mapping,2013,42(3): 453-460.)

        [19]信睿,艾廷華,何亞坤. Gosper地圖的非空間層次數(shù)據(jù)隱喻表達(dá)與分析[J]. 測繪學(xué)報,2017,46(12): 2006-2015. (Xin Rui,Ai Tinghua,He Yakun. Non-spatial hierarchical data metaphor expression and analysis of Gosper map[J]. Journal of Surveying and Mapping,2017,46(12): 2006-2015.)

        [20]Hasselt H V,Guez A,Silver D. Deep reinforcement learning with double Q-learning[C]// Proc of AAAI Conference on Artificial Intelligence. 2016: 2094-2100.

        [21]Schaul T,Quan J,Antonoglou I,et al. Prioritized experience replay [EB/OL]. (2016-02-25). https://arxiv.org/abs/1511.05952.

        [22]Mnih V,Kavukcuoglu K,Silver D,et al. Playing Atari with deep reinforcement learning [EB/OL]. (2013-12-19). https://arxiv.org/abs/1312.5602.

        日本一二三区在线视频观看| 国产精品中文第一字幕| 人妻熟妇乱系列| 国产精品国产三级在线高清观看| 99热在线播放精品6| 亚洲国产一区二区三区,| 午夜黄色一区二区不卡| 亚洲第一大av在线综合| 国产精品综合一区久久| 成人影院免费视频观看| 亚洲一区二区三区免费av| 亚洲av激情一区二区| 人妻精品视频一区二区三区| 亚洲国产精品无码久久一线| 国模吧无码一区二区三区| 成人a级视频在线观看| 精品久久亚洲中文无码| 精品伊人久久香线蕉| 欧美性xxx久久| 精品女同一区二区三区不卡| 白白色免费视频一区二区在线| 久久丝袜熟女av一区二区| 亚洲av日韩精品久久久久久a| wwww亚洲熟妇久久久久| 国产女主播喷水视频在线观看| 欧美视频二区欧美影视| 国产精品亚洲A∨天堂| 性无码国产一区在线观看| 成人全视频在线观看免费播放| 91丝袜美腿亚洲一区二区| 色www永久免费视频| 又白又嫩毛又多15p| 93精91精品国产综合久久香蕉| 亚洲欧洲日产国码久在线观看| 日本精品av中文字幕| 国产香蕉一区二区三区在线视频 | 亚洲国产日韩欧美综合a| 台湾无码av一区二区三区| 日日摸夜夜添夜夜添无码免费视频 | 亚洲一区二区在线观看免费视频| 亚洲综合激情另类小说区|