張曉平 阮曉鋼 王力 李志軍 閆佳慶 畢松
近年來,人工智能與機(jī)器人在各國政府、研究機(jī)構(gòu)及相關(guān)企事業(yè)單位中的受重視程度持續(xù)提升,其中主要研究目標(biāo)之一是建立類似人或動(dòng)物可以進(jìn)行自主學(xué)習(xí)的認(rèn)知型機(jī)器人.機(jī)器人具有認(rèn)知能力表現(xiàn)為其能夠在與周身環(huán)境的交互過程中漸進(jìn)掌握知識(shí)和技能[1].受人和動(dòng)物感知運(yùn)動(dòng)系統(tǒng)的啟發(fā)[2],為機(jī)器人感知運(yùn)動(dòng)過程設(shè)計(jì)認(rèn)知模型成為實(shí)現(xiàn)認(rèn)知機(jī)器人的有效方法之一[3?5].
機(jī)器人感知行動(dòng)認(rèn)知模型的設(shè)計(jì)主要包含模型結(jié)構(gòu)及模型算法兩方面.模型結(jié)構(gòu)常借鑒神經(jīng)生物學(xué)相關(guān)知識(shí)[6?8],而算法方面則以心理學(xué)學(xué)習(xí)機(jī)制為指導(dǎo),常見的有操作條件反射[9?11]、內(nèi)發(fā)動(dòng)機(jī)[12]等,其中,內(nèi)發(fā)動(dòng)機(jī)又涉及好奇心[13?14]、情感[7,15]等.在操作條件反射學(xué)習(xí)理論下,Cyr 等基于人工脈沖神經(jīng)網(wǎng)絡(luò)ASNN(Artif cial spiking neural networks)為機(jī)器人設(shè)計(jì)了一種大腦控制器,實(shí)現(xiàn)了機(jī)器人自主移動(dòng)[10];Itoh 等為類人機(jī)器人設(shè)計(jì)了一種行為模型,成功實(shí)現(xiàn)了機(jī)器人握手行為學(xué)習(xí)[11].在內(nèi)發(fā)動(dòng)機(jī)理論下,Ren 等借鑒多巴胺、丘腦、基底神經(jīng)節(jié)–大腦皮層工作機(jī)制,針對兩輪機(jī)器人自平衡學(xué)習(xí)問題提出一種計(jì)算模型C-DCCM(Curiosity-driven cognitive computing model),成功實(shí)現(xiàn)了機(jī)器人的自學(xué)習(xí)和對環(huán)境的自發(fā)探索[6];Mannella 等為平面機(jī)器人提出一種計(jì)算模型,實(shí)現(xiàn)了機(jī)器人自身運(yùn)動(dòng)技能學(xué)習(xí)[12];Baranes和Oudeyer 將感知運(yùn)動(dòng)理論與內(nèi)發(fā)動(dòng)機(jī)理論結(jié)合,提出一種自適應(yīng)目標(biāo)生成–魯棒智能自適應(yīng)好奇心算法SAGG-RIAC(Self-adaptive goal generationrobust intelligent adaptive curiosity),實(shí)現(xiàn)了冗余機(jī)器人對自身逆運(yùn)動(dòng)學(xué)的學(xué)習(xí)[13?14];Castellanos等則考慮機(jī)器人感知行動(dòng)認(rèn)知過程中的情感因素,為機(jī)器人提出一種情感評(píng)估模型,實(shí)現(xiàn)了機(jī)器人的個(gè)性化[15].以上工作,機(jī)器人在學(xué)習(xí)過程中,其認(rèn)知模型算法會(huì)在一定程度上進(jìn)行更新,但模型結(jié)構(gòu)均為固定,一旦設(shè)計(jì)完成,不再發(fā)生變化.
2001年,Weng 在Science上發(fā)文,首次提出自主心智發(fā)育的概念[16],后期繼續(xù)提出一系列發(fā)育網(wǎng)絡(luò)DN(Development networks)理論[17],奠定了發(fā)育機(jī)器人研究基礎(chǔ),其發(fā)育網(wǎng)絡(luò)核心理念就在于學(xué)習(xí)過程中網(wǎng)絡(luò)結(jié)構(gòu)可變.Cai等以學(xué)習(xí)自動(dòng)機(jī)為數(shù)學(xué)模型,結(jié)合操作條件反射機(jī)制與模糊理論設(shè)計(jì)的模糊斯金納操作條件反射自動(dòng)機(jī)FSOCA(Fuzzy skinner operant conditioning automaton)就融合了這樣的思想,基于在線聚類算法實(shí)現(xiàn)了感知行動(dòng)映射規(guī)則的增加和刪除[9].發(fā)育理念對于機(jī)器人學(xué)習(xí)非常重要,以文獻(xiàn)[18]為例,其在感知運(yùn)動(dòng)系統(tǒng)認(rèn)知模型中同時(shí)結(jié)合操作條件反射與內(nèi)發(fā)動(dòng)機(jī)機(jī)制,為兩輪機(jī)器人設(shè)計(jì)了一種具有內(nèi)發(fā)動(dòng)機(jī)機(jī)制的認(rèn)知模型,使得機(jī)器人表現(xiàn)出一定的認(rèn)知能力,然而,其模型結(jié)構(gòu)固定,研究過程中表現(xiàn)出兩個(gè)問題:1)模型需要學(xué)習(xí)的動(dòng)作空間需要提前定義,降低了機(jī)器人的智能性,并且固定的動(dòng)作學(xué)習(xí)空間存在大量對無效感知行動(dòng)映射的探索和學(xué)習(xí),造成學(xué)習(xí)的浪費(fèi),導(dǎo)致模型學(xué)習(xí)率低;2)固定感知行動(dòng)映射空間下,模型需要對當(dāng)前學(xué)習(xí)狀態(tài)下所有的感知行動(dòng)映射取向性進(jìn)行更新,存在計(jì)算上的浪費(fèi).
受發(fā)育理論啟發(fā),本文在文獻(xiàn)[18]的研究基礎(chǔ)上,借鑒潛在動(dòng)作理論,設(shè)計(jì)了一種新的結(jié)構(gòu)可發(fā)育的機(jī)器人感知行動(dòng)認(rèn)知模型D-SSCM,針對模型的發(fā)育式學(xué)習(xí)過程,分別設(shè)計(jì)了模型擴(kuò)展式學(xué)習(xí)方法和算法以及縮減式學(xué)習(xí)方法和算法,同時(shí)節(jié)省了機(jī)器人學(xué)習(xí)成本和計(jì)算成本,很大程度上提高了機(jī)器人的學(xué)習(xí)速度和學(xué)習(xí)穩(wěn)定性.將文本模型與文獻(xiàn)[18]在相同實(shí)驗(yàn)任務(wù)及參數(shù)設(shè)置下進(jìn)行對比,對本文模型的特點(diǎn)及上述優(yōu)越性進(jìn)行了說明和驗(yàn)證.
潛在動(dòng)作(Af fordance)理論由美國感知心理學(xué)家Gibson 于1977 年提出,認(rèn)為嬰兒在環(huán)境學(xué)習(xí)過程中,首先學(xué)習(xí)的是物體的潛在動(dòng)作,如箱子“可堆積”、椅子“可坐”等,之后才學(xué)習(xí)物體顏色、大小等屬性[19].21世紀(jì),潛在動(dòng)作理論被引入發(fā)育機(jī)器人研究領(lǐng)域[20],對此,歐盟還成立了專門的研究項(xiàng)目[21],RSS、ECCV等會(huì)議也舉辦了相關(guān)的Workshop[22].國內(nèi)有關(guān)潛在動(dòng)作的相關(guān)研究主要來自華南理工大學(xué)易長安等的工作[23?25].
潛在動(dòng)作理論重點(diǎn)研究機(jī)器人與環(huán)境之間可能的動(dòng)作關(guān)聯(lián),從而實(shí)現(xiàn)機(jī)器人完成不同的任務(wù).
潛在動(dòng)作理論自提出以來,各學(xué)者對其理解不一,Turvey將潛在動(dòng)作定義為環(huán)境的屬性[26];在Turvey理論基礎(chǔ)上,Stof fregen 認(rèn)為潛在動(dòng)作是存在于動(dòng)物–環(huán)境系統(tǒng)中的某種屬性[27];Chemero認(rèn)為潛在動(dòng)作是動(dòng)物屬性與環(huán)境屬性之間的關(guān)聯(lián)[28];Steedman忽略感知作用,將潛在動(dòng)作理解為環(huán)境與動(dòng)作的關(guān)聯(lián)[29];2015年,易長安等指出,潛在動(dòng)作是指機(jī)器人結(jié)合自身行為能力及感知能力,判斷其在當(dāng)前環(huán)境下可執(zhí)行的動(dòng)作[30].機(jī)器人在與環(huán)境的交互過程中逐漸學(xué)習(xí)到不同環(huán)境中的潛在動(dòng)作,從而完成不同的任務(wù),并在任務(wù)學(xué)習(xí)過程中不斷提高自身行為學(xué)習(xí)能力.由此可見,潛在動(dòng)作是機(jī)器人學(xué)習(xí)到的關(guān)于其周身環(huán)境的知識(shí),是機(jī)器人獲得高級(jí)技能的重要基礎(chǔ),它能夠使機(jī)器人預(yù)測動(dòng)作結(jié)果,實(shí)現(xiàn)高效率的學(xué)習(xí)[31].
2007 年,Sahin等[32]總結(jié)潛在動(dòng)作相關(guān)知識(shí),定義潛在動(dòng)作是效果和(實(shí)體,行為)組之間的關(guān)系,并給出了潛在動(dòng)作學(xué)習(xí)的形式化,具體為一個(gè)三元組,如式(1)所示,為廣大學(xué)者所采用.式(1)具體表示當(dāng)智能體對實(shí)體(entity)執(zhí)行行為(behavior)后,產(chǎn)生效果(effect).
2015年,易長安等對Sahin 等的潛在動(dòng)作學(xué)習(xí)模型進(jìn)行擴(kuò)展,針對動(dòng)態(tài)環(huán)境下的復(fù)雜任務(wù),提出了基于子任務(wù)的潛在動(dòng)作描述方法[30],如式(2)所示,其中precondition表示動(dòng)作執(zhí)行前環(huán)境需要滿足的前置條件,postcondition表示動(dòng)作執(zhí)行完成后環(huán)境需滿足的后置條件.在該模型之上,易長安等提出潛在動(dòng)作預(yù)測框架,集成了分層強(qiáng)化學(xué)習(xí)、狀態(tài)抽象機(jī)制、任務(wù)圖和物體屬性等,提高了機(jī)器人學(xué)習(xí)效率.
機(jī)器人與環(huán)境的每次交互都可以產(chǎn)生一個(gè)潛在動(dòng)作元組,多次交互可以得到更一般的關(guān)聯(lián),從而完成更復(fù)雜的任務(wù).
本文在文獻(xiàn)[18]的基礎(chǔ)上,結(jié)合潛在動(dòng)作理論,為機(jī)器人設(shè)計(jì)了一種結(jié)構(gòu)可變的具有發(fā)育機(jī)制的感知行動(dòng)認(rèn)知模型D-SSCM(Developmentsensorimotor cognitive model),其結(jié)構(gòu)如圖1所示,包含離散學(xué)習(xí)時(shí)間集t、內(nèi)部可感知離散狀態(tài)集S、可輸出動(dòng)作集M、有效輸出動(dòng)作空間集Ms、有效感知行動(dòng)映射取向性集Os、有效感知行動(dòng)映射學(xué)習(xí)次數(shù)集Ns、有效感知行動(dòng)映射好奇心集Cs、狀態(tài)評(píng)價(jià)函數(shù)V、取向函數(shù)Vs、有效操作函數(shù)集Ps、有效動(dòng)作空間取向性學(xué)習(xí)算法Ls、潛在動(dòng)作關(guān)系集AF、可輸出動(dòng)作空間探索率集Exp以及發(fā)育算法DL共14部分(下標(biāo)s表示感知sensory,后文下標(biāo)m 表示運(yùn)動(dòng)motor).
圖1 D-SSCM結(jié)構(gòu)圖Fig.1 Structure of D-SSCM
為更清楚地顯示D-SSCM中各元素的含義,給出如下定義:
定義1.具有發(fā)育機(jī)制的感知行動(dòng)認(rèn)知模型DSSCM是一個(gè)14元組:D-SSCM=t,S,M,Ms,Os,Ns,Cs,V,Vs,Ps,Ls,AF,Exp,DL,其中各元素含義具體如下:
1)t∈{0,1,···,nt}:D-SSCM離散學(xué)習(xí)時(shí)刻集,其中t=0表示學(xué)習(xí)初始時(shí)刻,nt表示最大離散學(xué)習(xí)時(shí)刻數(shù);
2)S={si|i=1,2,···,ns}:D-SSCM內(nèi)部可感知離散狀態(tài)集,其中si∈S表示模型第i個(gè)可感知的內(nèi)部狀態(tài),ns為離散狀態(tài)數(shù);
3)M={mj|j=1,2,···,nm}:D-SSCM可輸出動(dòng)作集,mj表示可輸出動(dòng)作集中第j個(gè)動(dòng)作,nm為動(dòng)作空間可輸出動(dòng)作數(shù);
4)Ms={Mi|i=1,2,···,ns}:D-SSCM有效輸出動(dòng)作空間集,Mi={mik|k=1,2,···,ni}為狀態(tài)si下的有效輸出動(dòng)作空間,mik∈M為D-SSCM在狀態(tài)si下從M中學(xué)習(xí)到的第k個(gè)有效動(dòng)作,ni為狀態(tài)si下學(xué)習(xí)到的有效動(dòng)作個(gè)數(shù).狀態(tài)si下的有效輸出動(dòng)作指的是該狀態(tài)下能夠使機(jī)器人趨向任務(wù)目標(biāo)的動(dòng)作,Mi是在機(jī)器人對環(huán)境的學(xué)習(xí)過程中不斷構(gòu)建的,隨著Mi結(jié)構(gòu)的不斷變化,ni也隨之發(fā)生變化,體現(xiàn)出模型發(fā)育的思想.學(xué)習(xí)初始時(shí)刻,Mi(i=1,2,···,ns)均為空,ni=0(i=1,2,···,ns);
不同于文獻(xiàn)[18]中所設(shè)計(jì)模型需要學(xué)習(xí)的動(dòng)作空間固定,在D-SSCM中各狀態(tài)si所對應(yīng)的動(dòng)作空間Mi并非教師或?qū)<腋鶕?jù)經(jīng)驗(yàn)提前定義的,而是隨著學(xué)習(xí)過程漸進(jìn)發(fā)育形成的,該模式下,有效避免了冗余感知行動(dòng)映射造成的學(xué)習(xí)浪費(fèi)和計(jì)算浪費(fèi).
5)Os={Oi|i=1,2,···,ns}:D-SSCM有效感知行動(dòng)映射取向性集,其中Oi={oik|k=1,2,···,ni}為狀態(tài)si下的有效感知行動(dòng)映射取向性集,oik為狀態(tài)si對其第k個(gè)有效動(dòng)作的選擇取向性;
6)Ns={Ni|i=1,2,···,ns}:D-SSCM有效感知行動(dòng)映射學(xué)習(xí)次數(shù)集,Ni={nik|k=1,2,···,ni}為狀態(tài)si下模型對其各有效動(dòng)作的學(xué)習(xí)次數(shù)集,nik表示狀態(tài)si對動(dòng)作mik的學(xué)習(xí)次數(shù),若t時(shí)刻,mik被選擇,則t+1時(shí)刻:
對于其他所有沒有被學(xué)習(xí)的有效感知行動(dòng)映射,對應(yīng)學(xué)習(xí)次數(shù)保持不變;
7)Cs={Ci|i=1,2,···,ns}:D-SSCM有效感知行動(dòng)映射好奇心集,Ci={cik|k=1,2,···,ni}為狀態(tài)si下模型對其各有效動(dòng)作的好奇心集,cik表示狀態(tài)si對動(dòng)作mik的好奇度,計(jì)算方式同文獻(xiàn)[18],具體為:
其中,kc和c為好奇心參數(shù);
8)V:D-SSCM狀態(tài)評(píng)價(jià)函數(shù),用來評(píng)價(jià)模型當(dāng)前感知狀態(tài)的理想程度,機(jī)器人越接近學(xué)習(xí)目標(biāo),模型對應(yīng)感知狀態(tài)的狀態(tài)值越大,機(jī)器人越遠(yuǎn)離學(xué)習(xí)目標(biāo),則模型對應(yīng)感知狀態(tài)的狀態(tài)值越小;
9)Vs:D-SSCM取向函數(shù),用于決定模型學(xué)習(xí)方向,定義為:
10)Ps={Pi|i=1,2,···,ns}:D-SSCM有效操作函數(shù)集,用于決定模型在有效動(dòng)作空間內(nèi)對動(dòng)作的選擇,Pi={pik|k=1,2,···,ni}為狀態(tài)si所對應(yīng)的有效操作函數(shù)集,pik為狀態(tài)si對動(dòng)作mik的操作值,具體為:
0<σ <1為操作函數(shù)參數(shù).
11)Ls:D-SSCM有效動(dòng)作空間取向性學(xué)習(xí)算法,在D-SSCM有效動(dòng)作空間內(nèi)各動(dòng)作均能使得Vs(t+1)≥0,因此針對有效動(dòng)作空間的取向性學(xué)習(xí)算法Ls簡單設(shè)計(jì)為:
其中oik(k∈1,···,ni)對應(yīng)被選動(dòng)作mik的取向性值,oik為狀態(tài)si下其余動(dòng)作的取向性值,η為取向性學(xué)習(xí)算法參數(shù).
12)AF={AFij|i=1,2,···,ns,j=1,2,···,nm}:D-SSCM潛在動(dòng)作關(guān)系集,受潛在動(dòng)作理論及其形式化啟發(fā),在此定義D-SSCM不同狀態(tài)與不同動(dòng)作之間的潛在關(guān)系,具體定義為一個(gè)三元組:
AFij意義為D-SSCM在狀態(tài)si下輸出mj產(chǎn)生的效果為effect.D-SSCM在對可輸出動(dòng)作空間進(jìn)行探索時(shí),每探索一個(gè)新的感知行動(dòng)映射(si,mj),就會(huì)伴隨著一個(gè)新的潛在動(dòng)作關(guān)系組形成.
針對D-SSCM發(fā)育式學(xué)習(xí)過程:
若effect=1,表示在感知狀態(tài)si下動(dòng)作mj是可被選擇的,即動(dòng)作mj是狀態(tài)si下的有效動(dòng)作;
若effect=0,表示在狀態(tài)si下,動(dòng)作mj是不可取的,會(huì)使得學(xué)習(xí)偏離目標(biāo);
若effect值為空,即effect=?,則表示對應(yīng)的感知行動(dòng)映射還沒有被學(xué)習(xí).
依據(jù)操作條件反射機(jī)制及定義的取向函數(shù),effect值計(jì)算如下:
13)Exp={Expi|i=1,2,···,ns}:D-SSCM可輸出動(dòng)作空間探索率集,Expi表示模型在狀態(tài)si下對可輸出動(dòng)作空間M的探索率,可通過式(10)進(jìn)行計(jì)算:
其 中,Numi{effect=?}=nm?Numi{effect=?}表示狀態(tài)si下可輸出動(dòng)作空間中潛在動(dòng)作關(guān)系元組effect=?的個(gè)數(shù),亦即狀態(tài)si對可輸出動(dòng)作空間已經(jīng)進(jìn)行探索的感知行動(dòng)映射數(shù).
D-SSCM中,在任意狀態(tài)si下,模型都可以選擇對該狀態(tài)下已發(fā)育形成的有效輸出動(dòng)作空間集Mi進(jìn)行學(xué)習(xí),或?qū)υ摖顟B(tài)下可輸出動(dòng)作空間M的剩余空間進(jìn)行探索.在此規(guī)定,D-SSCM學(xué)習(xí)過程中,在狀態(tài)si下模型總是以概率1?Expi對M剩余空間進(jìn)行探索,以概率Expi對其有效輸出動(dòng)作空間Mi進(jìn)行學(xué)習(xí).特別地:
a)在學(xué)習(xí)初始時(shí)刻t=0時(shí),模型沒有任何環(huán)境知識(shí),任意狀態(tài)si下,其潛在動(dòng)作關(guān)系元組AFij(j=1,2,···,nm)中effect值均為?,Mi也為?,此時(shí)D-SSCM以
的概率從可輸出動(dòng)作空間集M中探索動(dòng)作,以完成對Mi的構(gòu)建.
b)當(dāng)學(xué)習(xí)進(jìn)行到某個(gè)時(shí)刻,若狀態(tài)si已經(jīng)完成了對可輸出動(dòng)作空間M的全部探索,則D-SSCM在該狀態(tài)下繼續(xù)對M進(jìn)行探索的概率為:
表明此時(shí)模型不再會(huì)對M進(jìn)行探索.
14)DL:D-SSCM 發(fā)育算法,包含DL1和DL2兩部分,其中DL1為D-SSCM探索可輸出動(dòng)作空間M后需要對有效輸出動(dòng)作空間集Ms進(jìn)行擴(kuò)展的發(fā)育算法,DL2是D-SSCM對有效輸出動(dòng)作空間集Ms不斷學(xué)習(xí)后需要對其進(jìn)行縮減的發(fā)育算法.
2.2.1 擴(kuò)展發(fā)育算法DL1
在狀態(tài)si下,若D-SSCM以概率1?Expi對可輸出動(dòng)作集M剩余動(dòng)作空間進(jìn)行了探索,可能出現(xiàn)兩種情況:
1)t時(shí)刻在當(dāng)前狀態(tài)下探索某一動(dòng)作后,t+1時(shí)刻模型受到負(fù)強(qiáng)化Vs(t+1)<0,則對應(yīng)感知行動(dòng)映射潛在動(dòng)作關(guān)系元組effect=0,表明該動(dòng)作在當(dāng)前狀態(tài)下是不應(yīng)該被選擇的,針對該情況,t+1時(shí)刻不需要對已建立的有效感知行動(dòng)映射動(dòng)作集進(jìn)行更新;
2)若t時(shí)刻模型在當(dāng)前狀態(tài)下探索某一動(dòng)作后,t+1時(shí)刻獲得正強(qiáng)化Vs(t+1)≥0,則對應(yīng)感知行動(dòng)映射潛在動(dòng)作關(guān)系元組effect=1,證明該動(dòng)作是當(dāng)前狀態(tài)下的一個(gè)有效動(dòng)作,t+1時(shí)刻需要對Ms進(jìn)行擴(kuò)展發(fā)育.
以狀態(tài)si為例,D-SSCM在情況2)下Ms的結(jié)構(gòu)擴(kuò)展發(fā)育過程如圖2所示.
圖2 D-SSCM擴(kuò)展發(fā)育原理圖Fig.2 D-SSCM extended development diagram
更具體的,假設(shè)t時(shí)刻,狀態(tài)si所對應(yīng)有效輸出動(dòng)作空間集Mi中的有效動(dòng)作個(gè)數(shù)為ni,模型以1?Expi探索了可輸出動(dòng)作集M剩余空間中某一動(dòng)作,設(shè)為mj,t+1時(shí)刻獲得正強(qiáng)化,因此需要對Mi進(jìn)行擴(kuò)展發(fā)育,具體如下:
步驟1.動(dòng)作擴(kuò)展:將動(dòng)作mj擴(kuò)展為動(dòng)作集Mi第ni+1個(gè)有效動(dòng)作:
步驟2.取向性更新:按照發(fā)育算法DL1對擴(kuò)展后的動(dòng)作集Mi取向性集Oi進(jìn)行更新,其中DL1算法學(xué)習(xí)過程具體如下:
步驟2.1.首先針對新增加動(dòng)作mi(ni+1),定義其在狀態(tài)si下的取向性:
步驟2.2.Mi中原有動(dòng)作取向性oik(k=1,···,ni)更新如下:
步驟3.好奇心激活:伴隨著狀態(tài)si下新動(dòng)作mi(ni+1)的增加,除取向性按式(14)和式(15)進(jìn)行更新外,狀態(tài)si對mi(ni+1)的好奇心也隨之被激活,用于計(jì)算動(dòng)作好奇度的感知行動(dòng)映射學(xué)習(xí)次數(shù)ni(ni+1)=1,并在以后的學(xué)習(xí)中不斷更新.可以看出,任何新發(fā)育的動(dòng)作,其所對應(yīng)的好奇心值均較大,結(jié)合對新增動(dòng)作定義的初始取向性值,能夠保證模型對該有效動(dòng)作的充分學(xué)習(xí).
步驟4.結(jié)構(gòu)發(fā)育:
DL1算法分析:D-SSCM在結(jié)構(gòu)不需要發(fā)育時(shí),其取向性學(xué)習(xí)算法如Ls所示,算法有效性在文獻(xiàn)[18]中給出了相關(guān)證明,在此不再贅述.t+1時(shí)刻,若模型結(jié)構(gòu)需要發(fā)育,則發(fā)育后模型中動(dòng)作的取向性應(yīng)滿足Ls的學(xué)習(xí)條件,即:1)0≤oik(t+1)≤1(k=1,2,···,(ni+1)),2)oik(t+1)=1.
針對條件1):t+1時(shí)刻,對于新擴(kuò)展的動(dòng)作mi(ni+1)的取向性有:
滿足條件,對于Mi中原有動(dòng)作的取向性有:
在0≤oik(t)≤1的情況下,因?yàn)榭芍?≤oik(t+1)≤1成立,因此DL1發(fā)育算法滿足條件1).
針對條件2),t+1時(shí)刻:
可見DL1發(fā)育算法滿足條件2).
從以上擴(kuò)展發(fā)育算法DL1可以看出,在潛在動(dòng)作關(guān)系元組引入的條件下,相比較于文獻(xiàn)[18]認(rèn)知模型,D-SSCM對各動(dòng)作的初步探索可一次完成,通過計(jì)算effect的值僅對各狀態(tài)下的有效動(dòng)作進(jìn)行發(fā)育用于后期的學(xué)習(xí),大大降低了對感知行動(dòng)映射的學(xué)習(xí)成本以及取向性更新時(shí)的計(jì)算成本,同時(shí)模型對整個(gè)可輸出動(dòng)作集的探索依概率進(jìn)行,從另一方面縮減了計(jì)算成本.
2.2.2 縮減發(fā)育算法DL2
D-SSCM認(rèn)知模型在狀態(tài)si下對其有效感知行動(dòng)映射動(dòng)作集Mi進(jìn)行學(xué)習(xí),遵循內(nèi)發(fā)動(dòng)機(jī)下的主動(dòng)學(xué)習(xí)機(jī)制.Mi中,對所有的動(dòng)作都有潛在動(dòng)作關(guān)系元組:
成立,但在操作條件反射機(jī)制下,模型總是趨向于選擇獲得更大正強(qiáng)化值的動(dòng)作,隨著學(xué)習(xí)的進(jìn)行,某些有效動(dòng)作的取向性會(huì)隨著學(xué)習(xí)的進(jìn)行不斷降低,當(dāng)其取向值下降到一定程度以下時(shí),D-SSCM在好奇心作用下,依據(jù)內(nèi)發(fā)動(dòng)機(jī)機(jī)制繼續(xù)對其進(jìn)行學(xué)習(xí)會(huì)同時(shí)造成學(xué)習(xí)和計(jì)算的浪費(fèi),此時(shí)需要對模型結(jié)構(gòu)進(jìn)行縮減發(fā)育.
D-SSCM在對其有效輸出動(dòng)作空間集Ms的學(xué)習(xí)過程中,如果t時(shí)刻,當(dāng)前狀態(tài)si下某動(dòng)作mik所對應(yīng)的取向性oik(t)滿足:
則認(rèn)為動(dòng)作mik不屬于當(dāng)前狀態(tài)下的可選潛在最優(yōu)動(dòng)作,需要將其從Mi中剪除.不同于結(jié)構(gòu)擴(kuò)展發(fā)育時(shí)直接將有效動(dòng)作mj作為Mi第ni+1個(gè)有效動(dòng)作,D-SSCM的結(jié)構(gòu)縮減發(fā)育經(jīng)歷一個(gè)比較復(fù)雜的過程,具體如圖3所示.
圖3 D-SSCM縮減發(fā)育原理圖Fig.3 D-SSCM reduced development diagram
以t時(shí)刻,狀態(tài)si下的有效輸出動(dòng)作集Mi中第j(j∈1,···,ni)個(gè)動(dòng)作mij需要被剪除為例,D-SSCM的縮減發(fā)育原理具體如下:
步驟1.動(dòng)作剪除:首先將mij從Mi中剪除.
步驟2.取向性更新:Mi中動(dòng)作mij被剪除后,對其剩余動(dòng)作取向性按發(fā)育算法DL2進(jìn)行更新,具體為:
步驟3.結(jié)構(gòu)發(fā)育:對剪除動(dòng)作mij后的Mi結(jié)構(gòu)進(jìn)行更新.
步驟3.1.對于k
直至
步驟3.2.將Mi空間由ni維降低為ni?1維:
結(jié)構(gòu)發(fā)育過程中,各動(dòng)作相關(guān)性質(zhì)如取向性、好奇心等隨動(dòng)作更新.
DL2算法分析:與DL1算法相同,DL2算法同樣需要保證Ls的學(xué)習(xí)條件:1)0≤oik(t+1)≤成立.在結(jié)構(gòu)縮減發(fā)育下,可簡單描述為:t+1時(shí)刻上述步驟2中1)0≤oik(t+1)≤1,(k=1,···,ni),
針對條件1),由于對任意動(dòng)作mik,其取向性滿足oik(t)≤1?oij(t),因此有:
成立,滿足條件.
針對條件2),t+1時(shí)刻:
條件2)成立.
學(xué)習(xí)中的某一時(shí)刻,若有效感知行動(dòng)映射取向性集Oi中同時(shí)存在多個(gè)需要被剪除的動(dòng)作,則按順序依次重復(fù)上述過程.
具有發(fā)育機(jī)制的感知行動(dòng)認(rèn)知模型D-SSCM學(xué)習(xí)步驟可總結(jié)如下:
步驟1.初始化.學(xué)習(xí)初始時(shí)刻t=0時(shí),對D-SSCM中各元素進(jìn)行初始化,具體包括:定義模型內(nèi)部可感知離散狀態(tài)集S及可輸出動(dòng)作集M,定義模型狀態(tài)評(píng)價(jià)函數(shù)V,設(shè)置學(xué)習(xí)相關(guān)參數(shù),設(shè)置學(xué)習(xí)終止條件.
不同于文獻(xiàn)[18]認(rèn)知模型,D-SSCM中,其要學(xué)習(xí)的感知行動(dòng)映射結(jié)構(gòu)是可發(fā)育的,有效感知行動(dòng)映射相關(guān)元素是隨著學(xué)習(xí)不斷變化的,無需提前定義,以節(jié)省計(jì)算空間,具體包括有效感知行動(dòng)映射取向性集Os、有效感知行動(dòng)映射學(xué)習(xí)次數(shù)集Ns、有效感知行動(dòng)映射好奇心集Cs、有效操作函數(shù)集Ps.
步驟2.狀態(tài)感知.觀察學(xué)習(xí)t時(shí)刻D-SSCM模型狀態(tài)si(t),并計(jì)算當(dāng)前狀態(tài)取向值V(t).
步驟3.計(jì)算當(dāng)前狀態(tài)下的探索率Expi.依概率1?Expi對M剩余動(dòng)作空間進(jìn)行探索,依概率Expi對Mi有效動(dòng)作空間進(jìn)行學(xué)習(xí).初始時(shí)刻,D-SSCM沒有任何先驗(yàn)知識(shí),Mi為?,模型以概率1探索M,即模型需要從M中獲取知識(shí),同時(shí),在此規(guī)定,在學(xué)習(xí)任意時(shí)刻,若Mi為?,則模型以概率1探索M剩余動(dòng)作空間.
所謂狀態(tài)si下M的剩余動(dòng)作空間,即狀態(tài)si在可輸出動(dòng)作集M中所有潛在動(dòng)作關(guān)系元組(effect,(si,mj))中effect值為?的動(dòng)作,effect值為?表示感知行動(dòng)映射(si,mj)沒有被探索.
t時(shí)刻,若D-SSCM依概率1?Expi對剩余動(dòng)作空間進(jìn)行了探索,則執(zhí)行步驟4.1.1~步驟4.1.5:
步驟4.1.1.選擇動(dòng)作并輸出.D-SSCM在當(dāng)前狀態(tài)的M剩余動(dòng)作空間中隨機(jī)選擇某個(gè)動(dòng)作并輸出;
步驟4.1.2.狀態(tài)發(fā)生轉(zhuǎn)移.t時(shí)刻,模型在當(dāng)前狀態(tài)si(t)下從M剩余動(dòng)作空間中隨機(jī)選擇了某個(gè)動(dòng)作,假設(shè)為mj作用于客體環(huán)境,狀態(tài)發(fā)生轉(zhuǎn)移,觀測t+1時(shí)刻模型的新狀態(tài),并計(jì)算其狀態(tài)值V(t+1);
步驟4.1.3.計(jì)算取向函數(shù)值Vs(t+1).根據(jù)t時(shí)刻及t+1時(shí)刻觀測到的狀態(tài)值計(jì)算模型的取向函數(shù)值Vs(t+1),此處用于計(jì)算模型潛在動(dòng)作關(guān)系effect值;
步驟4.1.4.更新模型潛在動(dòng)作關(guān)系集.根據(jù)計(jì)算獲得的取向函數(shù)Vs(t+1)值更新模型M空間潛在動(dòng)作關(guān)系元組(effect,(si,mj)),若Vs(t+1)≥0,則effect=1,若Vs(t+1)<0,則effect=0;
步驟4.1.5.判斷是否擴(kuò)展發(fā)育.根據(jù)新生成的潛在動(dòng)作關(guān)系元組的effect值判斷是否需要對狀態(tài)si下的有效動(dòng)作空間Mi進(jìn)行擴(kuò)展發(fā)育,若effect=0,表明所探索的動(dòng)作在當(dāng)前狀態(tài)下是無效的,t+1時(shí)刻無需對Mi進(jìn)行擴(kuò)展發(fā)育,D-SSCM有效感知行動(dòng)映射結(jié)構(gòu)不變;若effect=1,則表明t時(shí)刻探索到當(dāng)前狀態(tài)下一個(gè)有效動(dòng)作,t+1時(shí)刻需要將探索到的動(dòng)作擴(kuò)展到Mi中,具體按第2.2.1節(jié)中擴(kuò)展發(fā)育算法對模型結(jié)構(gòu)及相關(guān)屬性進(jìn)行更新.
t時(shí)刻,若D-SSCM依概率Expi對當(dāng)前狀態(tài)si下有效動(dòng)作空間Mi進(jìn)行學(xué)習(xí),則執(zhí)行步驟
4.2.1~步驟4.2.7,D-SSCM對Mi中各動(dòng)作的學(xué)習(xí)依內(nèi)發(fā)動(dòng)機(jī)機(jī)制進(jìn)行[18],具體為:
步驟4.2.1.計(jì)算當(dāng)前狀態(tài)下的好奇心集Ci(t).在感知狀態(tài)si(t)下,D-SSCM有效輸出動(dòng)作空間Mi中某一動(dòng)作,設(shè)為mik(k∈1,2,···,ni)隨機(jī)引起了模型對其進(jìn)行學(xué)習(xí)的好奇心,其好奇度被激發(fā),計(jì)算該好奇心值cik(t),對于沒有引起模型好奇心的其余動(dòng)作,cik(t)=0;
步驟4.2.2.計(jì)算操作函數(shù)集Pi(t).結(jié)合模型當(dāng)前狀態(tài)下的有效感知行動(dòng)映射取向性集Oi(t)及好奇心集Ci(t),計(jì)算當(dāng)前狀態(tài)下的有效操作函數(shù)集Pi(t);
步驟4.2.3.選擇動(dòng)作并輸出.依據(jù)內(nèi)發(fā)動(dòng)機(jī)機(jī)制,選擇Mi中操作函數(shù)值最大的動(dòng)作,設(shè)為mib(b∈1,2,···,ni)作用于環(huán)境中;
步驟4.2.4.狀態(tài)發(fā)生轉(zhuǎn)移.感知模型t+1時(shí)刻新狀態(tài),計(jì)算其狀態(tài)值V(t+1);
步驟4.2.5.計(jì)算取向函數(shù)值Vs(t+1).計(jì)算t+1時(shí)刻模型取向函數(shù)值Vs(t+1),此處用于決定模型已有結(jié)構(gòu)下取向性學(xué)習(xí)方向;
步驟4.2.6.更新有效感知行動(dòng)取向性映射集.根據(jù)式(7)對有效感知行動(dòng)取向性映射集Oi進(jìn)行更新;
步驟4.2.7.判斷是否縮減發(fā)育.根據(jù)更新后的取向性映射集Oi判斷是否需要對Mi進(jìn)行縮減發(fā)育,當(dāng)Oi中存在需要被剪除的動(dòng)作時(shí),依據(jù)第2.2.2節(jié)縮減發(fā)育算法對模型結(jié)構(gòu)及相關(guān)屬性進(jìn)行更新.
步驟5.判斷學(xué)習(xí)結(jié)束條件.根據(jù)設(shè)定的學(xué)習(xí)終止條件判斷學(xué)習(xí)是否結(jié)束,若滿足條件,則結(jié)束,否則返回步驟2.
D-SSCM的學(xué)習(xí)過程可用流程圖4更清楚直觀地描述.
針對兩輪機(jī)器人自平衡任務(wù),首先需要對DSSCM模型進(jìn)行設(shè)置.
2)兩輪機(jī)器人通過控制輪子的運(yùn)動(dòng)實(shí)現(xiàn)平衡,因此模型可輸出動(dòng)作設(shè)定為輪子的轉(zhuǎn)矩,可輸出動(dòng)作集設(shè)計(jì)為M={?10,?5,?2,?1,?0.1,0 0.1,1,2,5,10}(N·m),機(jī)器人共有nm=11個(gè)可輸出動(dòng)作;
圖4 D-SSCM學(xué)習(xí)流程圖Fig.4 Learning fowchart of D-SSCM
表1 D-SSCM狀態(tài)劃分Table 1 D-SSCM state division
3)針對兩輪機(jī)器人自平衡任務(wù),根據(jù)經(jīng)驗(yàn),模型狀態(tài)評(píng)價(jià)函數(shù)設(shè)計(jì)為:
4)其他各相關(guān)參數(shù)具體設(shè)定為kc=0.05,c=1,δ=0.7,η=0.1.
為表明D-SSCM學(xué)習(xí)的優(yōu)越性,將其與文獻(xiàn)[18]認(rèn)知模型在如上相同設(shè)置下進(jìn)行對比實(shí)驗(yàn)驗(yàn)證.方便期見,文獻(xiàn)[18]具有內(nèi)發(fā)動(dòng)機(jī)機(jī)制的感知行動(dòng)認(rèn)知模型簡稱為IM-SSCM(Intrinsic motivationsensorimotor cognitive model)
1)基本學(xué)習(xí)過程:令機(jī)器人由初始傾斜角度?10?開始學(xué)習(xí),采樣時(shí)間為0.01 s,學(xué)習(xí)過程中,如果機(jī)器人身姿角度|?(t)|>15?,則認(rèn)為機(jī)器人發(fā)生傾倒,將其拉回初始狀態(tài)繼續(xù)學(xué)習(xí).如圖5~圖7所示分別為兩輪機(jī)器人在50 000步學(xué)習(xí)過程中其身姿傾斜角度、角速度以及輪子輸出轉(zhuǎn)矩的變化曲線.可以明顯看出:1)D-SSCM具有更快的學(xué)習(xí)速度:從圖5及圖6機(jī)器人身姿角度和角速度曲線可以看出,在IM-SSCM指導(dǎo)下,機(jī)器人大約經(jīng)過150 s可進(jìn)入平衡位置,而在結(jié)構(gòu)可發(fā)育的D-SSCM指導(dǎo)下,機(jī)器人大約經(jīng)過40 s即可進(jìn)入平衡位置,這是因?yàn)樵诎l(fā)育機(jī)制下,機(jī)器人只對有效的感知行動(dòng)映射進(jìn)行學(xué)習(xí),大大節(jié)省了探索成本.2)D-SSCM具有更穩(wěn)定的學(xué)習(xí)效果:從圖5及圖6中可以看出,IMSSCM學(xué)習(xí)過程階段性比較明顯,主要表現(xiàn)為學(xué)習(xí)初期(0 s~150 s)以較大的好奇心對不同的感知行動(dòng)映射進(jìn)行探索,學(xué)習(xí)中期(150 s~450 s),好奇心得到一定下降,模型以較小的好奇心對感知行動(dòng)映射繼續(xù)進(jìn)行探索,因此在學(xué)習(xí)中期依舊可能存在一些小的波動(dòng),相比之下,D-SSCM對感知行動(dòng)映射的學(xué)習(xí)僅在其有效輸出動(dòng)作空間中進(jìn)行,其中所有的動(dòng)作都使得機(jī)器人趨向目標(biāo),學(xué)習(xí)一旦完成,機(jī)器人不會(huì)發(fā)生晃動(dòng),該結(jié)論在圖7 機(jī)器人輪子轉(zhuǎn)矩輸出中體現(xiàn)更加明顯,從圖7 中可以看出,IM-SSCM認(rèn)知模型在150 s~450 s之間盡管對±10、±5的選擇有所減少,但是在好奇心作用下依舊可能會(huì)對不良感知行動(dòng)映射進(jìn)行嘗試,而在D-SSCM發(fā)育認(rèn)知模型下,機(jī)器人通過一次探索獲知?jiǎng)幼鹘Y(jié)果后,后期就不再會(huì)選擇各狀態(tài)下的不良動(dòng)作,不至學(xué)習(xí)偏離目標(biāo).
圖5 兩輪機(jī)器人傾斜角度Fig.5 Angle of two-wheeled robot
圖6 兩輪機(jī)器人傾斜角速度Fig.6 Angular velocity of two-wheeled robot
從以上結(jié)果可以看出,D-SSCM指導(dǎo)下機(jī)器人學(xué)習(xí)速度非???大約40 s即可完成,為說明DSSCM發(fā)育機(jī)制下的學(xué)習(xí)特點(diǎn),對機(jī)器人前100 s學(xué)習(xí)過程中對M空間下感知行動(dòng)映射探索次數(shù)及Ms空間有效感知行動(dòng)映射構(gòu)建數(shù)進(jìn)行了記錄,結(jié)果如圖8所示.根據(jù)實(shí)驗(yàn)數(shù)據(jù)結(jié)果,D-SSCM在初始100 s學(xué)習(xí)中共探索M空間660次,最終在Ms中形成有效感知行動(dòng)映射數(shù)179條.在IM-SSCM認(rèn)知模型中,機(jī)器人在整個(gè)探索階段中需要探索的感知行動(dòng)映射數(shù)始終為ns×nm=144×11=1 584,相比較之下,D-SSCM在發(fā)育機(jī)制下,對M空間下各感知行動(dòng)映射的探索只需要一次,通過計(jì)算所得的潛在動(dòng)作關(guān)系元組effect值決定是否對當(dāng)前感知行動(dòng)映射進(jìn)行發(fā)育,其需要學(xué)習(xí)的感知行動(dòng)映射數(shù)僅為Ms空間下的有效感知行動(dòng)映射,學(xué)習(xí)空間大大縮小.
圖7 兩輪機(jī)器人輪子轉(zhuǎn)矩Fig.7 Wheel s torque of two-wheeled robot
圖8 D-SSCM發(fā)育過程實(shí)驗(yàn)結(jié)果圖Fig.8 Experiment results figure of D-SSCM s development process
對M空間感知行動(dòng)映射探索次數(shù)曲線進(jìn)行分析,首先可以看到在前40 s的學(xué)習(xí)過程中,曲線整體呈上升趨勢,表明機(jī)器人在不斷探索M空間下的感知行動(dòng)映射以獲取新知識(shí),進(jìn)而完成對Ms的構(gòu)建.此外,曲線存在如圖中R1區(qū)域所示水平直線部分,M空間感知行動(dòng)映射探索次數(shù)曲線中水平直線部分的出現(xiàn)意味著該階段D-SSCM正在對其所構(gòu)建的有效輸出動(dòng)作空間集Ms進(jìn)行學(xué)習(xí),表明模型對M空間的探索是依概率的,而非遍歷的.智能系統(tǒng)學(xué)習(xí)的目標(biāo)在于尋找某種可以達(dá)到目標(biāo)的策略,該策略不一定是最優(yōu)的,該目標(biāo)下,遍歷式的搜索策略是不必要的,反而會(huì)降低學(xué)習(xí)效率,D-SSCM對M空間的依概率探索則很好地避免了以上問題.
對Ms空間有效感知行動(dòng)映射數(shù)曲線進(jìn)行分析.不同于M空間感知行動(dòng)映射探索次數(shù)表現(xiàn)為不減曲線,Ms空間有效感知行動(dòng)映射數(shù)在縮減式發(fā)育下可能會(huì)出現(xiàn)下降.與R1區(qū)域所處學(xué)習(xí)階段對應(yīng),Ms空間有效感知行動(dòng)映射數(shù)變化過程如圖中R2區(qū)域所示,需要指出的是,該階段中,R2區(qū)域出現(xiàn)了有效感知行動(dòng)映射數(shù)減小的情況,從實(shí)驗(yàn)角度體現(xiàn)了模型的縮減式發(fā)育過程,同樣的過程也發(fā)生在模型學(xué)習(xí)前期階段,具體如圖8中R3區(qū)域所示.
圖8清楚的顯示了D-SSCM的發(fā)育過程,同時(shí)包含擴(kuò)展式發(fā)育及縮減式發(fā)育.
2)輪次學(xué)習(xí):兩輪機(jī)器人的自平衡過程關(guān)鍵在于其由初始狀態(tài)運(yùn)動(dòng)到平衡位置期間.為更清楚地顯示D-SSCM的學(xué)習(xí)能力,令其不斷在前一次學(xué)習(xí)的基礎(chǔ)上從初始狀態(tài)開始運(yùn)動(dòng),觀察其學(xué)習(xí)結(jié)果,并與IM-SSCM進(jìn)行對比.在此設(shè)定輪次學(xué)習(xí)步數(shù)為3 000步,結(jié)果如圖9~11所示,分別為兩種模型下機(jī)器人第1輪、第2輪及第3輪的學(xué)習(xí)結(jié)果,從圖中可以看出,相比較于IM-SSCM,D-SSCM具有更快的學(xué)習(xí)速度.實(shí)驗(yàn)結(jié)果顯示在具有發(fā)育機(jī)制的感知行動(dòng)認(rèn)知模型D-SSCM指導(dǎo)下,機(jī)器人一般經(jīng)過一輪對知識(shí)的探索,在第二輪就能夠快速從初始傾斜角度運(yùn)動(dòng)到平衡狀態(tài),該學(xué)習(xí)速度較其他已知操作條件反射相關(guān)認(rèn)知模型有顯著優(yōu)勢.
圖9 第1輪學(xué)習(xí)結(jié)果Fig.9 Learning results of the 1st round
圖10 第2輪學(xué)習(xí)結(jié)果Fig.10 Learning results of the 2nd round
圖11 第3輪學(xué)習(xí)結(jié)果Fig.11 Learning results of the 3rd round
令機(jī)器人連續(xù)學(xué)習(xí)10輪,對各輪學(xué)習(xí)過后DSSCM模型對M空間感知行動(dòng)映射的累計(jì)探索次數(shù)(用nM表示)及其自身Ms空間有效感知行動(dòng)映射數(shù)(用nMs表示)進(jìn)行記錄,結(jié)果如圖12所示,可以看出,不同輪次下,機(jī)器人在不同程度上完成了對M空間的探索和對Ms空間的構(gòu)建.
更具體地,表2中數(shù)據(jù)與圖12相對應(yīng),對其進(jìn)行分析,首先,經(jīng)過第1輪的學(xué)習(xí),機(jī)器人探索了M空間下的588條感知行動(dòng)映射,并經(jīng)過對其潛在動(dòng)作關(guān)系進(jìn)行分析,在Ms空間下構(gòu)建了169條有效感知行動(dòng)映射;進(jìn)入第2輪及第3輪,nM數(shù)與nMs數(shù)均增加1,表明在這兩輪學(xué)習(xí)過程中,機(jī)器人都探索了一次M空間,同時(shí)探索的感知行動(dòng)映射有效,對Ms進(jìn)行了擴(kuò)展發(fā)育;進(jìn)入第4輪,nM數(shù)增加2,而nMs僅增加了1,說明D-SSCM探索的兩條感知行動(dòng)映射中一條有效,一條無效;從第4輪到第5輪,nM數(shù)不變,nMs減1,說明該輪次中,模型主要在學(xué)習(xí)Ms有效感知行動(dòng)映射空間,并且在學(xué)習(xí)期間,存在感知行動(dòng)映射取向性小于一定值的情況,因此對模型進(jìn)行了縮減式發(fā)育;從第6輪到第10輪,nM值都不同程度的增加,nMs沒有再發(fā)生變化,說明模型結(jié)構(gòu)沒有再發(fā)生變化.表2中D-SSCM從第1輪到第10輪中nM和nMs的變化情況,更好、更清楚地說明了D-SSCM的發(fā)育過程.
圖12 10輪學(xué)習(xí)中的nM 及nMs數(shù)Fig.12 nM and nMsin 10 learning rounds
機(jī)器人感知行動(dòng)認(rèn)知模型結(jié)構(gòu)固定情況下,多存在學(xué)習(xí)浪費(fèi)及計(jì)算浪費(fèi)的問題,對此,本文在文獻(xiàn)[18]的基礎(chǔ)上,結(jié)合潛在動(dòng)作理論,為機(jī)器人行為學(xué)習(xí)過程提出了一種結(jié)構(gòu)可發(fā)育的感知行動(dòng)認(rèn)知模型D-SSCM,能夠在探索可輸出動(dòng)作空間過程中自建需要學(xué)習(xí)的有效感知行動(dòng)映射,同時(shí)節(jié)省了學(xué)習(xí)成本和計(jì)算成本,在實(shí)現(xiàn)機(jī)器人自主學(xué)習(xí)的同時(shí),提高了機(jī)器人學(xué)習(xí)速度和穩(wěn)定性.D-SSCM中,需要學(xué)習(xí)的有效感知行動(dòng)映射通過自建形成,一定程度上提升了系統(tǒng)的智能性,但是其中狀態(tài)評(píng)價(jià)函數(shù)依舊是教師依據(jù)經(jīng)驗(yàn)設(shè)計(jì),此外,D-SSCM中,機(jī)器人可輸出動(dòng)作為離散,在一定程度上都限制了機(jī)器人的智能性和學(xué)習(xí)效果,這都將成為本文下一步工作的重點(diǎn).
表2 10輪學(xué)習(xí)中的nM 及nMs數(shù)Table 2 nM and nMsin 10 learning rounds