亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx

        基于GA-Q-learning 算法的虛擬維修作業(yè)規(guī)劃模型

        2013-02-28 08:04:40焦玉民王強(qiáng)徐婷謝慶華王海濤
        兵工學(xué)報(bào) 2013年5期
        關(guān)鍵詞:動(dòng)作作業(yè)策略

        焦玉民,王強(qiáng),徐婷,謝慶華,王海濤

        (1.解放軍理工大學(xué) 野戰(zhàn)工程學(xué)院,江蘇 南京210007;2.解放軍理工大學(xué) 國(guó)防工程學(xué)院,江蘇 南京210007)

        0 引言

        虛擬維修訓(xùn)練越來(lái)越多地應(yīng)用于軍事、科技、教育、醫(yī)療等領(lǐng)域,成為維修訓(xùn)練手段現(xiàn)代化的重要標(biāo)志。然而,傳統(tǒng)虛擬維修過(guò)程結(jié)構(gòu)單一[1-2],人機(jī)交互過(guò)程中缺少作業(yè)策略規(guī)劃,虛擬人執(zhí)行任務(wù)的方式通常為順序執(zhí)行或被動(dòng)執(zhí)行,無(wú)法滿(mǎn)足受訓(xùn)者感知環(huán)境、分析形勢(shì)、參與決策等要求。而且在訓(xùn)練過(guò)程中,由于存在維修工具選擇、維修模式識(shí)別、工藝標(biāo)準(zhǔn)判斷等多種狀態(tài),在完全自主的情況下,虛擬人會(huì)無(wú)限次頻繁訪問(wèn)所有可能的狀態(tài),往往會(huì)導(dǎo)致求解過(guò)程產(chǎn)生維數(shù)災(zāi)難[3]。為解決這種問(wèn)題,文獻(xiàn)[4]中使用遺傳算法解決拆裝訓(xùn)練中的作業(yè)序列優(yōu)化問(wèn)題,提高了解空間的搜索速度,但對(duì)作業(yè)過(guò)程中存在的約束關(guān)系缺少必要的規(guī)范。文獻(xiàn)[5 -6]采用Petri 網(wǎng)的方法將虛擬維修中的復(fù)雜操作轉(zhuǎn)換成維修對(duì)象在不同狀態(tài)之間的信息傳遞,這種有向圖的方法較適用于作業(yè)步驟表達(dá),但難以獨(dú)立求解虛擬維修作業(yè)規(guī)劃問(wèn)題。文獻(xiàn)[7]將虛擬維修過(guò)程中涉及的模型幾何信息、裝配關(guān)系信息以及維修行為信息集成到維修對(duì)象模型中,為虛擬維修作業(yè)規(guī)劃提供了大量的可參考信息。Q 學(xué)習(xí)算法[8]作為一種自適應(yīng)的學(xué)習(xí)算法,能夠使Agent 在不確定的環(huán)境中通過(guò)學(xué)習(xí)獎(jiǎng)勵(lì)和懲罰信息選擇最優(yōu)動(dòng)作,并到達(dá)目標(biāo)狀態(tài),但在虛擬維修過(guò)程這類(lèi)較為實(shí)際的問(wèn)題中,Agent 難以判斷準(zhǔn)確的動(dòng)作和狀態(tài),單純學(xué)習(xí)獎(jiǎng)勵(lì)或懲罰信息難以進(jìn)化到最優(yōu)策略。

        本文在上述研究的基礎(chǔ)上,提出基于任務(wù)特征匹配與作業(yè)順序約束相結(jié)合的虛擬維修作業(yè)模型,將虛擬維修作業(yè)過(guò)程中所涉及的工具、行為、工藝等因素抽象為動(dòng)作概念,采用試錯(cuò)機(jī)制選取不同的動(dòng)作構(gòu)成作業(yè)策略,并使用Q 學(xué)習(xí)算法與遺傳算法相結(jié)合的方法對(duì)策略進(jìn)行進(jìn)化,避免在復(fù)雜虛擬維修環(huán)境中,虛擬人重復(fù)執(zhí)行不符合操作規(guī)程的動(dòng)作,有效地對(duì)參與虛擬維修交互過(guò)程的受訓(xùn)者進(jìn)行評(píng)價(jià)和指導(dǎo)。

        1 問(wèn)題描述

        1.1 虛擬作業(yè)過(guò)程描述

        本文將虛擬維修過(guò)程轉(zhuǎn)化為狀態(tài)轉(zhuǎn)移過(guò)程,該過(guò)程中受訓(xùn)者可以按照某種先后順序或策略完成虛擬訓(xùn)練中的特定任務(wù),即通過(guò)選擇適當(dāng)動(dòng)作,到達(dá)目標(biāo)狀態(tài)。虛擬維修過(guò)程形式化描述為以下形式:U=(S,A,R),其中,S ={s1,s2,…,sn};A ={a1,a2,…,an}∈{L,F(xiàn),G};R ={r(s1,a1),r(s2,a2),…,r(sn,an)}.S 表示虛擬維修作業(yè)狀態(tài)空間;A 表示虛擬訓(xùn)練過(guò)程動(dòng)作備選集;R 表示動(dòng)作的立即回報(bào)值;L 表示工具類(lèi)備選集,L ={li|i =1,2,…,n},<s1,li>表示受訓(xùn)者在狀態(tài)s1選擇工具li進(jìn)行作業(yè);F 表示行為類(lèi)備選集,F(xiàn)={fk|k=1,2,…,m},<s2,fk>表示受訓(xùn)者在狀態(tài)s2選擇行為fk進(jìn)行作業(yè);G 表示工藝類(lèi)備選集,G = {gh|h =1,2,…,q},<s3,gh>表示受訓(xùn)者在狀態(tài)s3選擇工藝值gh進(jìn)行作業(yè);參數(shù)n、m、q 表示動(dòng)作節(jié)點(diǎn)數(shù)量。如工具li表示套筒扳手,行為fk表示緊固操作,工藝gh表示扭緊力矩為200 N·m,則維修作業(yè)表達(dá)方式如下:O= <s1,li∪f(wàn)k∪gh>,表示在狀態(tài)s1處,虛擬人拾取套筒扳手后,對(duì)端蓋螺栓進(jìn)行緊固操作,實(shí)施的扭緊力矩為200 N·m.

        虛擬訓(xùn)練環(huán)境下,為避免作業(yè)過(guò)程存在死鎖(既能執(zhí)行又不能執(zhí)行這種矛盾狀態(tài)的出現(xiàn)),順序作業(yè)流程可以使用多叉樹(shù)的結(jié)構(gòu)形式進(jìn)行表達(dá),如圖1 所示。

        圖1 順序作業(yè)執(zhí)行方式Fig.1 Sequence operation executive mode

        本文將作業(yè)序偶<狀態(tài)s,動(dòng)作a >抽象為節(jié)點(diǎn)的形式,采用串行的方式執(zhí)行,圖1 中,“●”表示Agent 所處狀態(tài),“○”表示已選的動(dòng)作類(lèi)型,每個(gè)節(jié)點(diǎn)“●”的子節(jié)點(diǎn)數(shù)和樹(shù)的深度沒(méi)有限制,可以很好的滿(mǎn)足虛擬維修作業(yè)復(fù)雜性和隨機(jī)性的要求。令sn為目標(biāo)狀態(tài),虛擬維修作業(yè)的運(yùn)行過(guò)程F(S,A)形式化描述如下:

        F(S,A)=Start <s1>·Select <a1>·Then <s2>·Select <a2>·Then <s3>·…·Select <an-1>·End<sn>,本次作業(yè)策略π = (a1,a2,…,an-1),其中,ai∈L∪F∪G.其中,“·”表示順序作業(yè)執(zhí)行符號(hào)。作業(yè)策略求解的目標(biāo)是搜索到最優(yōu)策略π:S→A,即在某一給定的狀態(tài)s 時(shí),虛擬人能夠從集合A中選擇一系列動(dòng)作(a1,a2,…,an-1),到達(dá)目標(biāo)狀態(tài)后,收到的積累回報(bào)值最大。

        1.2 作業(yè)過(guò)程約束分析

        與人工智能所使用的典型方法不同[9],為保證時(shí)效性,虛擬訓(xùn)練過(guò)程不可能遍歷所有狀態(tài),特別是訓(xùn)練過(guò)程包含大量維修信息的情況下,如維修工具信息、維修手段信息和工藝標(biāo)準(zhǔn)信息等。而且虛擬維修狀態(tài)轉(zhuǎn)移的過(guò)程中,選擇不符合規(guī)范的操作毫無(wú)意義,且大大增加了狀態(tài)搜索時(shí)間。為節(jié)約時(shí)間和計(jì)算資源,根據(jù)虛擬維修特點(diǎn)和裝備維修計(jì)劃管理要求[10],本文提出基于任務(wù)特征匹配的虛擬維修作業(yè)約束語(yǔ)義模型。

        根據(jù)作業(yè)規(guī)范及虛擬維修特點(diǎn),將匹配特征概括為4 類(lèi):部件匹配(CM)、工具匹配(LM)、行為匹配(AM)、工藝匹配(TM).

        部件匹配:反映部件在安裝和拆卸過(guò)程中裝配單元的配合關(guān)系,如齒輪與軸的配合關(guān)系。CM =(ID,State),ID 為可裝配部件標(biāo)識(shí)符,State 表示配合狀態(tài)。

        工具匹配:當(dāng)某部件作為維修目標(biāo)時(shí),虛擬人可能選取的工具。如對(duì)于螺母零件,虛擬人可以選擇的工具為扭力扳手l1、套筒扳手l2、開(kāi)口扳手l3等。LMbi=(ID,State),bi∈B 表示目標(biāo)維修部件,ID 為工具標(biāo)識(shí)符,State 表示工具所處狀態(tài)(使用或者未使用)。

        行為匹配:虛擬人使用維修工具能夠?qū)崿F(xiàn)的維修行為或者在操作當(dāng)前部件時(shí)允許使用的行為。如與套筒扳手匹配的維修行為為擰緊和擰松操作,不能進(jìn)行其他諸如敲擊、測(cè)量等行為;對(duì)齒輪部件只能進(jìn)行拆卸和安裝,不能實(shí)施清洗行為。AMli=(ID,Type,State),li∈L 表示維修工具,且li可以為空,即不選擇任何工具,ID 為行為標(biāo)識(shí)符,Type 表示行為匹配類(lèi)型,State 表示行為狀態(tài)。

        工藝匹配:反映虛擬人在虛擬作業(yè)過(guò)程中的規(guī)范操作情況,本文采用模糊數(shù)學(xué)的方法對(duì)其進(jìn)行描述,min≤Value(TM)≤max.

        根據(jù)任務(wù)特征匹配要求,將基于順序約束的虛擬作業(yè)過(guò)程(SCP)使用復(fù)合函數(shù)表示,防止受訓(xùn)者在虛擬環(huán)境中隨意進(jìn)行維修作業(yè),復(fù)合函數(shù)定義如下:

        設(shè)定E 為復(fù)合函數(shù),用來(lái)表達(dá)虛擬訓(xùn)練過(guò)程中,順序約束作業(yè)的執(zhí)行方式,復(fù)合函數(shù)包含⊕、∨、∧等組合運(yùn)算。

        ⊕表示弱選擇操作,如a1⊕a2表示動(dòng)作a2為a1的可選擇操作,a2在a1的任務(wù)特征匹配庫(kù)中。

        ∨表示強(qiáng)選擇操作,如a1∨a2表示動(dòng)作a1、a2必須順序執(zhí)行。

        ∧表示互逆操作,如a1∧a2表示動(dòng)作a1和a2不可連續(xù)執(zhí)行。

        順序約束的作業(yè)方式中,要求維修對(duì)象中每一個(gè)零件都有獨(dú)立的作業(yè)特征匹配表,表內(nèi)包含部件維修的可執(zhí)行信息和不可執(zhí)行信息,以避免混亂拆裝的情況發(fā)生。

        1.3 作業(yè)難度分析

        虛擬訓(xùn)練環(huán)境下,作業(yè)難度是量化虛擬維修質(zhì)量的重要因素,對(duì)其準(zhǔn)確量化一直是虛擬維修仿真中的難點(diǎn)[11]。在本文的狀態(tài)轉(zhuǎn)移模型中,將作業(yè)難度以具體的工藝標(biāo)準(zhǔn)進(jìn)行分類(lèi)和量化,僅體現(xiàn)在狀態(tài)轉(zhuǎn)移過(guò)程中的工藝匹配環(huán)節(jié),量化結(jié)果可以反饋于回報(bào)函數(shù)r(s,a)中,如在部件匹配環(huán)節(jié)和行為匹配環(huán)節(jié),正確選擇回報(bào)值為1,不正確選擇回報(bào)值為0;而在工藝匹配環(huán)節(jié),采用模糊數(shù)學(xué)的方法對(duì)回報(bào)值進(jìn)行定義。

        2 虛擬維修作業(yè)規(guī)劃算法

        2.1 Q 學(xué)習(xí)算法

        本文中,虛擬人的任務(wù)是在隨機(jī)性強(qiáng)的交互環(huán)境中學(xué)習(xí)到一個(gè)最優(yōu)作業(yè)策略π:S→A,即基于當(dāng)前觀察到的狀態(tài)st找到下一步動(dòng)作at后進(jìn)入下一狀態(tài)st+1,r(st,at)為到達(dá)狀態(tài)st+1所獲得的回報(bào)值,循環(huán)往復(fù),最終到達(dá)虛擬任務(wù)目標(biāo)狀態(tài),狀態(tài)轉(zhuǎn)移過(guò)程如圖2 所示。

        圖2 虛擬維修狀態(tài)轉(zhuǎn)移過(guò)程Fig.2 State transition process of virtual maintenance

        策略π 的優(yōu)劣取決于虛擬人到達(dá)目標(biāo)狀態(tài)后獲得狀態(tài)積累回報(bào)值Vπ(st).

        式中,Vπ(st)通過(guò)狀態(tài)st開(kāi)始不斷選擇動(dòng)作而產(chǎn)生,為防止虛擬維修過(guò)程中重復(fù)選擇動(dòng)作導(dǎo)致回報(bào)值無(wú)限增大,出現(xiàn)無(wú)法收斂到最優(yōu)策略的情況,引入回報(bào)折算因子γ:0≤γ <1,若γ =0,則只考慮立即回報(bào);若γ 接近1,則增強(qiáng)后續(xù)回報(bào)的重要程度。

        然而,在虛擬維修過(guò)程中,虛擬人并不能完全預(yù)見(jiàn)狀態(tài)轉(zhuǎn)移過(guò)程,如初始狀態(tài)為手持扳手,虛擬人并不能預(yù)見(jiàn)下一步的狀態(tài)輸出。因此,將狀態(tài)積累回報(bào)轉(zhuǎn)換成動(dòng)作積累回報(bào),改善不確定環(huán)境下?tīng)顟B(tài)轉(zhuǎn)移未知的問(wèn)題,將動(dòng)作回報(bào)過(guò)程定義如下:

        定義 設(shè)Q(s,a)為Agent 在狀態(tài)s 下選擇動(dòng)作a 獲得的回報(bào)值,Q 學(xué)習(xí)函數(shù)定義如下:

        式中:s'為Agent 在狀態(tài)s 處選擇動(dòng)作a 所產(chǎn)生的新?tīng)顟B(tài);a'為狀態(tài)s'處Agent 所選擇的動(dòng)作。Agent 只需考慮在當(dāng)前狀態(tài)s 下每個(gè)可用并能使Q(s,a)最大化的動(dòng)作。因此,采用這種倒序的迭代算法,經(jīng)過(guò)無(wú)數(shù)次的動(dòng)作選擇,總能使作業(yè)策略收斂到一穩(wěn)定值,即策略中每個(gè)動(dòng)作的積累回報(bào)值Q(s,a)都是最大的。

        然而,使用此算法存在風(fēng)險(xiǎn),作業(yè)策略可能過(guò)度束縛在早期訓(xùn)練中有較高Q 值的動(dòng)作,而不能搜索到其他有更高Q 值的動(dòng)作。因此,本文使用概率的方法來(lái)選擇動(dòng)作,令所有動(dòng)作的概率都非0,以均等的機(jī)會(huì)參與策略學(xué)習(xí)。

        引入動(dòng)作選擇概率值p(a|s),對(duì)公式(2)進(jìn)行修改,將Q 學(xué)習(xí)函數(shù)轉(zhuǎn)化為

        式中,p(a|s)為初始狀態(tài)s 處,選擇動(dòng)作a 的概率。

        2.2 GA-Q-learning 算法

        在整機(jī)維修過(guò)程中,涉及的零部件達(dá)數(shù)千個(gè),導(dǎo)致動(dòng)作備選集A 規(guī)模龐大,單純使用Q 學(xué)習(xí)算法雖可收斂[12],但要求算法遍歷所有動(dòng)作,造成Q 學(xué)習(xí)的性能大幅降低。因此,本文使用遺傳算法求解虛擬維修過(guò)程中的動(dòng)作優(yōu)選問(wèn)題,增強(qiáng)Q 學(xué)習(xí)的泛化能力,具體步驟如下:

        1)在初始狀態(tài)下,設(shè)定匹配動(dòng)作集A 中所有動(dòng)作ai的概率p(ai);

        2)根據(jù)已知?jiǎng)幼骰貓?bào)值r(s,ai),更新每一個(gè)動(dòng)作的Q 值(s',a'),令s←s',直到s 為目標(biāo)狀態(tài),得出初始Q 值表;

        3)采用浮點(diǎn)數(shù)編碼的方式,將p(a1),p(a2),…,p(an)作為遺傳算法的初始化種群X0;

        4)構(gòu)造值函數(shù)Qi向適應(yīng)度函數(shù)fi的映射;

        6)以概率Pc進(jìn)行交叉操作:X'←Crossover[X0];

        7)以概率Pe進(jìn)行變異操作:X″←Mutation[X'];

        8)終止原則:若連續(xù)幾代個(gè)體適應(yīng)度的差異小于某一較小的閾值或者到達(dá)指定的進(jìn)化代數(shù)后,就停止運(yùn)算。

        2.3 策略表示

        虛擬維修作業(yè)策略求解的方式是搜索Q 值函數(shù)空間,從這個(gè)Q 值函數(shù)空間間接得到策略。由于在每種狀態(tài)下都有幾種動(dòng)作可供選擇,本文使用動(dòng)作空間的概率分布來(lái)進(jìn)化策略,為減少編碼和解碼的計(jì)算時(shí)間,采用浮點(diǎn)數(shù)編碼的方式構(gòu)建初始種群,即動(dòng)作選擇的概率真實(shí)值p(a),因此個(gè)體的編碼等于每個(gè)狀態(tài)動(dòng)作選擇的概率值,第t 代狀態(tài)i 時(shí)動(dòng)作選擇概率空間表示為(i =1,2,…,n;j =1,2,…,m),n 表示虛擬維修過(guò)程狀態(tài)數(shù),m 表示每種狀態(tài)可選擇的動(dòng)作數(shù),即每個(gè)染色體中的基因個(gè)數(shù),且,這樣,每一個(gè)染色體可表示為m 維的行向量第t 代種群Xt可以表示為n 維列向量

        2.3.1 適應(yīng)度函數(shù)與選擇操作

        虛擬訓(xùn)練作業(yè)策略求解是尋求目標(biāo)函數(shù)的極大值,根據(jù)Q 學(xué)習(xí)算法特性,種群中每個(gè)策略的適應(yīng)度應(yīng)反映到給定策略中,策略的適應(yīng)度值越高,表示Q 學(xué)習(xí)的效果越好,本文將適應(yīng)度函數(shù)定義如下:

        式中,Qi表示第i 次迭代時(shí)的Q 值估計(jì)。

        選擇即為復(fù)制,主要為保留高性能個(gè)體。若個(gè)體i 的適應(yīng)值為fi,則被選中的概率為

        式中:m 表示每個(gè)狀態(tài)中可選擇的動(dòng)作數(shù);fi表示每個(gè)動(dòng)作的適應(yīng)度值;pi表示動(dòng)作被選中的概率,然后對(duì)父代進(jìn)行選擇,本文中染色體復(fù)制方法采用輪盤(pán)賭選擇法[13]。

        2.3.2 交叉與變異

        為了使交叉時(shí)滿(mǎn)足策略的可行性要求,提高交叉的效率,本文采用線性交叉方法產(chǎn)生子代,先產(chǎn)生一個(gè)隨機(jī)數(shù)σ∈(0,1),采用“輪盤(pán)賭選擇法”將父代染色體復(fù)制后,以概率Pc隨機(jī)選取兩個(gè)基因值pi、pj,具體操作如下:

        式中:pi、pj為交叉父代基因值;p'i、p'j為生成子代基因值。

        變異操作的目的是保持種群的多樣性,阻止算法遺漏某些重要信息而收斂到局部最優(yōu),本文采用移動(dòng)與逆轉(zhuǎn)(Shift and Reverse)作為變異算子[14],對(duì)于選定的個(gè)體和染色體,隨機(jī)選擇個(gè)體向左或向右移動(dòng)一個(gè)隨機(jī)位置,得到:

        逆轉(zhuǎn)變異是在個(gè)體中,隨機(jī)選取某個(gè)基因段中的兩個(gè)點(diǎn)dk和dl,其中dk、dl∈{d1,d2,…,dm}.以這兩個(gè)點(diǎn)為逆轉(zhuǎn)點(diǎn),然后將位于這兩個(gè)逆轉(zhuǎn)點(diǎn)的基因值對(duì)調(diào)。

        3 實(shí)驗(yàn)與分析

        本文將該方法應(yīng)用于“某型輪式挖掘機(jī)虛擬維修訓(xùn)練系統(tǒng)”,以該系統(tǒng)中“差速器調(diào)整”模塊為例進(jìn)行實(shí)例分析,裝配體三維結(jié)構(gòu)如圖3 所示(為區(qū)別明顯,只顯示主要零部件名稱(chēng))。

        圖3 差速器結(jié)構(gòu)分解圖Fig.3 Decomposition of differential gear structure

        差速器調(diào)整過(guò)程主要是按照標(biāo)準(zhǔn)工藝對(duì)差速器進(jìn)行重新裝配的過(guò)程,首先依據(jù)順序作業(yè)執(zhí)行方式,對(duì)任務(wù)匹配特征和作業(yè)動(dòng)作優(yōu)先級(jí)進(jìn)行識(shí)別,選取主要零部件,構(gòu)建“差速器調(diào)整”任務(wù)特征匹配目錄,如表1 所示(不匹配內(nèi)容未列入表內(nèi))。

        表1 差速器調(diào)整任務(wù)特征匹配表Tab.1 Task characteristics matching table for gear adjustment

        “差速器調(diào)整”虛擬訓(xùn)練過(guò)程中,狀態(tài)轉(zhuǎn)移過(guò)程即在初始狀態(tài)下執(zhí)行一系列動(dòng)作后(即執(zhí)行一個(gè)策略π=(a1,a2,…,an),包括使用工具li、選擇操作fk、選擇工藝指標(biāo)gh)到達(dá)目標(biāo)狀態(tài)的過(guò)程,維修目標(biāo)即為搜索到正確部件,并按照操作規(guī)程進(jìn)行維修。

        在該實(shí)例中,對(duì)于工具匹配集L,行為匹配集集F 和部件匹配集B,若選擇正確的動(dòng)作,立即回報(bào)值rright=1;選擇錯(cuò)誤動(dòng)作,rwrong=0.對(duì)于工藝匹配集G,回報(bào)函數(shù)采用梯形分布。設(shè)定折算回報(bào)因子γ =0.9.初始化所有動(dòng)作概率p(ai)=1/m,m 表示每種狀態(tài)可選擇的動(dòng)作數(shù),初始種群如下:

        其中:s 為作業(yè)過(guò)程狀態(tài)數(shù);mi(i=1,2,…,s)中為每個(gè)狀態(tài)下的動(dòng)作數(shù)。選取交叉概率Pc=0.8,變異概率Pe=0.02,迭代的每一步,均選取每組染色體中概率值較高的基因所代表的動(dòng)作,參與狀態(tài)轉(zhuǎn)移過(guò)程,種群規(guī)模設(shè)定M=20,最大進(jìn)化代數(shù)G=500.

        參考表1 所示內(nèi)容,在差速器全部分解的狀態(tài)下,若初始狀態(tài)為選取部件b4(軸承2),目標(biāo)為狀態(tài)為差速器裝配及調(diào)整完畢,則第一次狀態(tài)轉(zhuǎn)移過(guò)程中可選動(dòng)作為a1={l4,l5,l6},這三種動(dòng)作選取的概率進(jìn)化結(jié)果如圖4 所示。

        圖4 概率分布進(jìn)化結(jié)果Fig.4 Evolution result of probability distribution

        依據(jù)仿真結(jié)果,在初始狀態(tài)下,p(l4| s1)=0.000 000 000 473 00,p(l5|s1)=0.999 999 786 013 08,p(l6|s1)=0.000 000 213 513 92,因此選取動(dòng)作l1(扭力扳手)作為作業(yè)策略中的標(biāo)準(zhǔn)動(dòng)作,應(yīng)用(3)式,選擇彈簧秤l4,手錘l5,銅棒l6的回報(bào)值Q(l5|s1)=1.027 812 838 944 37,Q(l4|s1)= 0.000 000 000 499 3,Q(l6|s1)=0.000 000 005 036 72,動(dòng)作l2、l3的回報(bào)值明顯低于動(dòng)作l1的回報(bào)值,按照此方法繼續(xù)搜索后續(xù)動(dòng)作,得出“差速器調(diào)整”最優(yōu)作業(yè)策略,選取部分最優(yōu)動(dòng)作,如表2 所示。

        表2 差速器裝配與調(diào)整作業(yè)策略表(部分動(dòng)作)Tab.2 Task strategy table for gear judgment (partial action)

        表2 列出了針對(duì)不同的操作部件,虛擬人選取不同的工具的概率p(ai)以及所得到的積累回報(bào)值Q(si|aj).從表中可以看出,當(dāng)?shù)揭欢ú綌?shù)后,正確動(dòng)作均能夠被賦予較高的Q 值,算法能夠搜索到較好的策略,提供標(biāo)準(zhǔn)的作業(yè)訓(xùn)練樣本,便于對(duì)參與虛擬維修訓(xùn)練的受訓(xùn)者進(jìn)行指導(dǎo)和評(píng)價(jià)。

        4 結(jié)論

        1)將虛擬維修環(huán)境下離散的訓(xùn)練作業(yè)過(guò)程轉(zhuǎn)化為基于動(dòng)作集的狀態(tài)轉(zhuǎn)移過(guò)程,將維修過(guò)程所涉及的工具、行為和工藝等因素抽象化為動(dòng)作概念,使用任務(wù)特征匹配機(jī)制解決虛擬維修過(guò)程中人機(jī)交互的隨機(jī)性問(wèn)題,避免違反實(shí)際操作規(guī)程的事件發(fā)生,保證迭代過(guò)程中每一次作業(yè)策略均為可行策略。

        2)采用順序作業(yè)的執(zhí)行方式規(guī)范虛擬維修作業(yè)過(guò)程,該方法允許增加和刪除作業(yè)過(guò)程中的動(dòng)作節(jié)點(diǎn),解決虛擬維修過(guò)程中不確定性問(wèn)題;采用維修工藝模糊值量化虛擬維修作業(yè)難度,定量評(píng)價(jià)維修作業(yè)質(zhì)量,為虛擬維修難度量化提供了一種解決方法。

        3)使用Q 學(xué)習(xí)算法進(jìn)化作業(yè)策略,將試錯(cuò)機(jī)制和逆向求解的方法應(yīng)用于求解最優(yōu)策略問(wèn)題,為虛擬維修作業(yè)規(guī)劃提供了一種較為智能化的求解手段;在狀態(tài)轉(zhuǎn)移過(guò)程中,使用遺傳算法進(jìn)化動(dòng)作選擇中的概率分布,避免了作業(yè)過(guò)程中強(qiáng)化早期具有較高Q 值的動(dòng)作。后續(xù)工作將以作業(yè)時(shí)間和作業(yè)難度為指標(biāo),進(jìn)行虛擬維修作業(yè)過(guò)程評(píng)價(jià)方法的研究。

        References)

        [1]Li J R,Khoo L P,Tor S B.Desktop virtual reality for Maintenance Training:an object oriented prototype system[J].Computers in Industry,2003,52(2):109 -125.

        [2]王曉光,蘇群星.虛擬維修通用仿真軟件系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)仿真,2006,23(8):266 -268.WANG Xiao-guang,SU Qun-xing.Design of general utility simulation system for virtual maintenance[J].Computer Simulation,2006,23(8):266 -268.(in Chinese)

        [3]Barto A G,Mahadevan S.Resent advances in hierarch reinforcement learning[J].Discrete Event Dynamic Systems:Theory and Applications,2003,13(4):341 -379.

        [4]高金蓮,楊杰,李春書(shū).基于遺傳算法的作業(yè)優(yōu)化[J].機(jī)械設(shè)計(jì),2007,24(1):43 -45.GAO Jin-lian,YANG Jie,LI Chun-shu.Optimization of assembling operation based on genetic algorithm[J].Journal of Machine Design,2007,24(1):43 -45.(in Chinese)

        [5]蘇群星,劉鵬遠(yuǎn).大型復(fù)雜裝備虛擬維修訓(xùn)練系統(tǒng)設(shè)計(jì)[J].兵工學(xué)報(bào),2006,27(1):79 -83.SU Qun-xing,LIU Peng-yuan.Study of the virtual maintenance training system for large complex equipment[J].Acta Armamentarii,2006,27(1):79 -83.(in Chinese)

        [6]解璞,蘇群星,谷宏強(qiáng).復(fù)雜裝備虛擬維修訓(xùn)練系統(tǒng)中數(shù)據(jù)場(chǎng)景圖研究[J].兵工學(xué)報(bào),2006,27(4):741 -744.XIE Pu,SU Qun-xing,GU Hong-qiang.Research on scene graph of virtual maintenance training system of armament[J].Acta Armamentarii,2006,27(4):741 -744.(in Chinese)

        [7]于海全,彭高亮,劉文劍.基于虛擬環(huán)境的維修性信息模型的建立[J].兵工學(xué)報(bào),2010,31(7):998 -1002.YU Hai-quan,PENG Gao-liang,LIU Wen-jian.Research on the maintainability information model based on VR[J].Acta Armamentarii,2010,31(7):998 -1002.(in Chinese)

        [8]Guo M,Liu Y,Malec J.A new Q-learning algorithm based on the metropolis criterion[J].Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,2004,34(5):2140 -2143.

        [9]Watkins C J,Dayan P.Q-learning[J].Machine Learning,1992,8(3):279 -292.

        [10]路廣安,曹小平,孫紅軍.裝備維修計(jì)劃與控制[M].北京:國(guó)防工業(yè)出版社,2009.LU Guang-an,CAO Xiao-ping,SUN Hong-jun.Program and control of equipment maintenance[M].Beijing:National Defense Industry Press,2009.(in Chinese)

        [11]劉佳,劉毅.虛擬維修技術(shù)發(fā)展綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2009,21(11):1519 -1533.LIU Jia,LIU Yi.A survey of virtual maintenance technology[J].Journal of Computer-aided Design and Computer Graphics,2009,21(11):1519 -1533.(in Chinese)

        [12]Mitchell T M.機(jī)器學(xué)習(xí)[M].曾華軍,李銀奎,譯.北京:機(jī)械工業(yè)出版社,2003.Mitchell T M.Machine learning[M].ZHENG Huajun,LI Yinkui,translated.Beijing:China Machine Press,2003.(in Chinese)

        [13]陳有青,徐蔡星,鐘文亮,等.一種改進(jìn)選擇算子的遺傳算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(2):44 -49.CHEN You-qing,XU Cai-xing,ZHONG Wen-liang,et al.Genetic algorithm with improved selection operator[J].Computer Engineering and Applications,2008,44(2):44 -49.(in Chinese)

        [14]劉海濤,洪炳熔,樸松昊,等.不確定環(huán)境下基于進(jìn)化算法的強(qiáng)化學(xué)習(xí)[J].電子學(xué)報(bào),2006,34(7):1356 -1360.LIU Hai-tao,HONG Bing-rong,PIAO Song-h(huán)ao,et al.Evolutionary algorithm based reinforcement learning in the uncertain environments[J].Acta Electronica Sinica,2006,34(7):1356-1360.(in Chinese)

        猜你喜歡
        動(dòng)作作業(yè)策略
        快來(lái)寫(xiě)作業(yè)
        例談未知角三角函數(shù)值的求解策略
        我說(shuō)你做講策略
        動(dòng)作描寫(xiě)要具體
        高中數(shù)學(xué)復(fù)習(xí)的具體策略
        畫(huà)動(dòng)作
        動(dòng)作描寫(xiě)不可少
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        非同一般的吃飯動(dòng)作
        Passage Four
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        500 Internal Server Error

        500 Internal Server Error


        nginx
        亚洲国产日韩一区二区三区四区| 国产精品亚洲欧美天海翼| 91精品国产91| 在线观看中文字幕不卡二区| 色翁荡熄又大又硬又粗又动态图 | 久久天堂精品一区专区av| 蜜桃一区二区在线视频| 亚洲国产成人精品无码区二本| 日韩中文字幕欧美亚洲第一区| 青青草视频在线视频播放| 亚洲精品一区二区在线免费观看| 亚洲精品无码专区| 国产女精品视频网站免费| 久久久久久无码AV成人影院| 在线观看一区二区三区在线观看| 777米奇色狠狠俺去啦| 国产精品美女久久久浪潮av| 激情五月婷婷久久综合| 成人自拍小视频在线看| 久久99精品久久久久久9蜜桃| 久久精品国产亚洲av瑜伽| 亚洲乱码中文字幕综合| 视频在线国产一区二区| 亚洲av麻豆aⅴ无码电影| 欧美一区二区午夜福利在线yw| 日韩一区二区中文字幕| 色与欲影视天天看综合网| 国产精品免费久久久久影院仙踪林 | 久久精品亚洲一区二区三区画质| 欧美成人www在线观看| 色偷偷一区二区无码视频| 中文无码制服丝袜人妻AV| 久久综合久久综合久久| 亚洲精品国产美女久久久| 国产午夜精品理论片| 国产一区二区三区再现| 很黄很色很污18禁免费| 无码aⅴ在线观看| 国产人妖赵恩静在线视频| 校园春色人妻激情高清中文字幕| 欧美交换配乱吟粗大25p|