谷學靜,高貝貝,朱朝月
(華北理工大學 電氣工程學院,唐山 063009)
隨著計算機和人工智能技術(shù)的發(fā)展,智能機器人在人類的生產(chǎn)生活方面應(yīng)用愈加廣泛。為使機器人能夠產(chǎn)生擬人情感并與人類自然和諧地進行人機交互[1],將人工情感引入到機器人智能控制中逐漸成為人工智能領(lǐng)域一個新的研究方向。
目前大部分人工情感的研究集中在情感識別、情感建模及情感表達[2],人工情感的研究不應(yīng)僅局限在和諧的人機交互,而應(yīng)充分發(fā)揮情感因素對機器人自主學習和行為決策的作用。在機器人的行為決策中引入人工情感,能夠使機器人更逼真地模擬人類智能行為。
強化學習是有效的機器學習方法之一。在強化學習算法的基礎(chǔ)上引入情感因素,有了情感模型的指導,學習和決策過程將具有更加明確的目的性和方向性,而不是在龐大的求解空間中盲目地嘗試[3]。首先,機器人根據(jù)外界環(huán)境的刺激模擬產(chǎn)生特定狀態(tài)下的情感值,并反向抉擇出引發(fā)正向情緒的經(jīng)驗知識。然后,機器人從擇優(yōu)的經(jīng)驗知識中學習最優(yōu)控制策略,以改善機器人行為決策中的學習效率和收斂速度,提高機器人的自主學習和自主行為決策能力。
情感是人類對客觀事物的態(tài)度體驗,同人的切身需求有關(guān)。它能夠幫助人們在不同的需求下選擇恰當?shù)男袨?,增強人類對周圍環(huán)境的自適應(yīng)能力[4]。文獻[5-6]的研究表明情感在智能決策中起著重要作用,位于大腦皮層邊緣系統(tǒng)的杏仁核能夠快速獲得感覺輸入,并做出迅速的情緒反應(yīng)。情緒自身便可激發(fā)行為動作,而不需理智思維的調(diào)控。這種急速的反應(yīng)可以幫助人類快速做出趨利避害的行動。
本文仿效情緒本身即可觸發(fā)行為的機制,實現(xiàn)機器人自然情感調(diào)控行為的功能,構(gòu)建了基于隨機事件處理的情感模型。機器人利用傳感器采集外界環(huán)境中的離散信號(如壓力、溫度、高度),將獲得的信號傳到情感模型中產(chǎn)生與之對用的情感狀態(tài)。其中情感模型的情感輸出符合人類的情感變化規(guī)律。積極的情緒狀態(tài)會成為行為的積極誘因,消極的情緒狀態(tài)則起消極誘因作用,情感在自主學習和自主行為決策中扮演著驅(qū)動角色。
情感模型系統(tǒng)的工作過程如下:首先將采集的一組傳感器信息作為一個離散事件 et(e1,e2,…en),根據(jù)當前情感狀態(tài)把 et(e1,e2,…en)轉(zhuǎn)換為基本情緒向量 Xt(x1,x2,x3,x4)。 然后將基本情緒向量 Xt(x1,x2,x3,x4)輸入到情感空間,得到模型輸出 Yt(y1,y2,y3,y4),嵌入該模型的機器人可以根據(jù)Yt做出帶有情感的決策。為了方便機器人在行為決策中應(yīng)用情感模型,將情感模型產(chǎn)生的情感均值Yt轉(zhuǎn)化為可以直接利用的數(shù)值,因此設(shè) μt, μt∈[0,1]為情感均值變換后的情感系數(shù)值。其情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)如圖1所示。
圖1 情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)Fig.1 Emotional factor model framework and emotional transformation function
圖中第一個節(jié)點代表正向與負向情緒分類函數(shù),其中k+,k-分別為正向和負向情感函數(shù)的系統(tǒng)反饋系數(shù),εt為對采集到外界刺激進行修正后的值,η(+,-(i))為正向與負向情緒分類函數(shù)值。 圖中第二個節(jié)點代表情感輸出值變換為情感系數(shù)的變換函數(shù)。具體情感模型系統(tǒng)原理論述見文獻[7]。
強化學習是從動物學習、參數(shù)擾動自適應(yīng)控制等理論演化出來的[8]。強化學習的目的是要學習從狀態(tài)到動作的最佳映射,以便獲得獎賞信號最大[9]。其中Q-學習算法在機器人行為最優(yōu)控制策略中應(yīng)用廣泛,它是Markov決策過程的一種演化形式。Q-學習的目標是尋找一個策略π,使在學習的時間內(nèi)獲得的累積折扣回報Rdπ最大:
式中:γ(0<γ<1)為折扣因子;t=1,2,…,為每個時間步;rt為執(zhí)行每一步動作后的立即回報;i為到達最優(yōu)策略π時所經(jīng)歷的時間步數(shù)值。
Q(s,a)值是機器人在環(huán)境狀態(tài)下選擇對應(yīng)動作后執(zhí)行策略π的回報折扣和的數(shù)學期望:
式中:S=[s1,s2,…,st]為機器人在環(huán)境中的狀態(tài)集;A=[a1,a2,…,at]為對應(yīng)狀態(tài)選擇的動作集;rt為在狀態(tài) st下執(zhí)行動作 at得到的立即回報;P(st,at,st+1)為機器人在狀態(tài)st下執(zhí)行動作at轉(zhuǎn)移到下一個狀態(tài)st+1的概率。
實現(xiàn)在線Q-學習方法按如下的遞歸公式進行:
式中:λ為學習率,控制學習速度,λ越大則收斂越快。但是,過大的λ有可能導致不收斂。在一定條件下當t→∞ 時,式(3)進行無窮次迭代,Qt(s,a)以概率 1收斂到關(guān)于最優(yōu)策略的Q*(s,a)。
Q-學習的目標是在不確定的環(huán)境下根據(jù)評價信號來選擇最優(yōu)控制策略,可以理解為是一個在線最優(yōu)決策學習過程。由于Q-學習是一種不依靠環(huán)境模型進行的自學習的算法,也就是機器人一點都不熟知外環(huán)境信息。它只能通過有限的試錯法來學習,因此學習的效率非常低。對于強化學習收斂速度較慢問題,本文在利用環(huán)境模型提高強化學習收斂速度的基礎(chǔ)上[10],將人類情感具有的趨利避害生存機理引入到環(huán)境模型經(jīng)驗知識的學習中。利用情感決策調(diào)整經(jīng)驗知識的學習強度,進而加快機器人在線地完善環(huán)境模型的收斂速度。
環(huán)境模型是從一個狀態(tài)動作對(si+1,a)轉(zhuǎn)換到鄰近狀態(tài)強度值(si+1,r)的函數(shù),確定環(huán)境模型有2種方法:一是在學習的開始狀態(tài)時,根據(jù)已知數(shù)據(jù)離線確定模型;二是機器人在與環(huán)境接觸時在線構(gòu)建或完善環(huán)境模型。環(huán)境模型可以利用之前完成過的任務(wù)獲取的經(jīng)驗來構(gòu)建,機器人再反向的從模型中獲得經(jīng)驗知識,進而幫助它學習最優(yōu)控制策略。因此在標準的Q-學習算法中引入自定義的經(jīng)驗知識函數(shù)H:S×A→R,此函數(shù)可在線保存狀態(tài)st下執(zhí)行相關(guān)動作at的經(jīng)驗信息。然后機器人利用人類情感具有的趨利避害生存機理,通過經(jīng)驗函數(shù)H(st,at)選擇最優(yōu)控制策略的經(jīng)驗信息,其相應(yīng)環(huán)境下情感-狀態(tài)-動作選擇規(guī)則如下:
步驟1初始化狀態(tài)st動作at下回報折扣和的數(shù)學期望Q(st,at),初始化情感模型離散事件et(e1,e2,…,en)值和個性因子ki值;
步驟2觀察當前狀態(tài)st,更新et;
步驟3根據(jù) μt←et(e1,e2,…,en)更新情感輸出值;
步驟4使用行動選擇規(guī)則選擇出環(huán)境模型中記錄的經(jīng)驗知識引發(fā)積極情緒的狀態(tài)st動作at:
步驟5得到回報率r(st,at),同時觀察下一個狀態(tài)st+1;
步驟6根據(jù)式(3)更新Qt(st,at)函數(shù)值;
步驟7更新狀態(tài)st到st+1狀態(tài);
步驟8如果滿足學習結(jié)束條件,則轉(zhuǎn)到步驟9,否則轉(zhuǎn)到步驟2;
步驟9結(jié)束。
基于人工情感改進的Q-學習算法描述的程序?qū)崿F(xiàn)流程如圖2所示。
圖2 改進的Q-學習算法程序流程圖Fig.2 Flow chart of improved Q-learning algorithm
機器人的任務(wù)是在的二維有障礙的柵格環(huán)境中路徑尋優(yōu),實驗環(huán)境如圖3所示。機器人在環(huán)境中的基本動作有上行、下行、左行、右行4種行進動作,圖中每個柵格代表機器人的一種狀態(tài)。其中黑色部分為障礙物,為機器人的起始位置,T1,T2為機器人的目標位置。環(huán)境中的所有事物都是靜止的,初始時對于機器人而言環(huán)境模型是未知的。機器人4個方向上配有探測障礙物的傳感器,傳感器將環(huán)境中每個狀態(tài)采集的信息記為離散事件 et(e1,e2,…,en)。機器人在行進過程中如果與障礙物或邊界相碰,則返回上一狀態(tài)。實驗初始時機器人的目標在T1位置,30個學習周期后,目標變?yōu)闁鸥裆系腡2位置。
圖3 有障礙的二維柵格環(huán)境Fig.3 Two-dimensional grid environment barrier
在目標導航任務(wù)時,立即回報設(shè)計為r={100,-50,-1},每個動作都是正確的,執(zhí)行后會得-1的獎勵(可以理解為消耗),完成導航任務(wù)可以獲得+100的獎勵,如果錯誤的執(zhí)行了基本動作則將得到-50的獎勵(相當于懲罰)。折扣因子γ=0.9,學習效率η=0.1。
實驗仿真結(jié)果如圖4所示。實驗開始的前30個學習周期,機器人使用帶情感系數(shù)的Q-學習算法,但不啟用情感輸出系數(shù),此時用常數(shù)代替情感系數(shù)μt,故其算法過程同利用環(huán)境模型的Q-學習算法一樣。此后的30個學習周期(即第31個學習周期開始),機器人分別使用利用環(huán)境模型的Q-學習算法和基于情感模型改進的Q-學習算法,依次完成二維有障礙的柵格環(huán)境中路徑尋優(yōu)任務(wù)。
圖4 實驗仿真結(jié)果Fig.4 Experimental simulation result
實驗仿真結(jié)果可見第15個學習周期,2種學習算法的收斂性趨于平穩(wěn),第30個學習周期時已經(jīng)收斂到最優(yōu)。在圖4中可以看出機器人的目標改變后(第31學習周期開始),需要消耗很多的步數(shù)到達新的目標,這是因為前期獲得的經(jīng)驗知識使機器人再次移動到原來的目標T1。路徑S→T1→T2不是最佳的尋優(yōu)路徑,所以機器人再次重新嘗試新的策略。在第30到第40學習周期之間學習策略躍遷較大,直至算法收斂到最優(yōu)狀態(tài)。機器人路徑尋優(yōu)目標T1的最優(yōu)策略回報為Vπ*(s1)=89,目標 T2最優(yōu)策略回報為Vπ*
(s2)=86。為了進一步研究2種學習算法的收斂情況,利用最小二乘法對32到45周期內(nèi)的離散數(shù)據(jù)進行3次多項式曲線擬合,得到的結(jié)果如圖5所示。
圖5 最小二乘法曲線擬合結(jié)果Fig.5 Least squares curve fitting result
從圖5的仿真結(jié)果不難看出,加入情感決策的Q-學習算法在第37學習周期趨于收斂到最優(yōu)策略,而利用環(huán)境模型的Q-學習算法在第42學習周期趨于收斂到最優(yōu)策略,由此說明前者用了較少的學習時間使算法收斂。2種學習算法的擬合曲線結(jié)果顯示,在32到38周期內(nèi)改進Q-學習算法的曲線斜率要大于利用環(huán)境模型的Q-學習算法的擬合曲線斜率,也就是說前者較后者在最優(yōu)控制策略的學習收斂速度快。
雖然標準Q-學習算法利用環(huán)境模型較多的經(jīng)驗知識,縮短了機器人的學習周期,但是在線完善環(huán)境模型消耗較長時間。而本文提出的基于情感模型的Q-學習算法充分利用了情感決策,使機器人在線學習過程中動作的選擇由情感因素調(diào)控,而非單純的知識推理和邏輯判斷方法,加快了機器人在線完善環(huán)境模型的收斂速度。
本文在基于環(huán)境模型的Q-學習算法基礎(chǔ)上引入情感行為決策,通過利用人類情感產(chǎn)生的趨利避害生存機理,來強化執(zhí)行任務(wù)過程中有利的經(jīng)驗信息,加快機器人在線完善環(huán)境模型的收斂速度。此外,降低了機器人在龐大的求解空間中盲目試錯的次數(shù),縮短了機器人的學習時間。實驗仿真結(jié)果證明了該算法可以提高機器人的自主決策及學習能力,驗證了該算法的有效性和實用性。將人工情感與人工智能相結(jié)合,設(shè)計出更智能化和擬人化的機器人,是智能及和諧機器人的發(fā)展趨勢。
[1]王志良.人工心理與人工情感[J].智能系統(tǒng)學報,2006,1(1):38-43.
[2]王國江,王志良,楊國亮,等.人工情感研究綜述[J].計算機應(yīng)用研究,2006(11):7-11.
[3]張迎輝,林學誾.情感可以計算—情感計算綜述[J].計算機科學,2008,35(5):5-8.
[4]Mochida T,Ishiguro A,Aoki T,et al.Behavior arbitration for autonomous mobile robots using emotion mechanisms[C]//IEEE/RSJ International Conference on Intelligent Robots&Systems 95 Human Robot Interaction&Cooperative Robots,1995:516-521.
[5]LeDoux J,Bemporad J R.The emotional brain[J].Journal of the American Academy of Psychoanalysis,1997,25(3):525-528.
[6]王為.基于情感計算的機器人學習系統(tǒng)研究[D].浙江:浙江工業(yè)大學,2009.
[7]王飛,王志良,趙積春,等.基于隨機事件處理的情感建模研究[J].微計算機信息,2005(3):101-102.
[8]王雪松,程玉虎.機器學習理論方法及應(yīng)用[M].北京:科學出版社,2009:56-57.
[9]高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86-100.
[10]張汝波.提高強化學習速度的方法研究[J].計算機工程與應(yīng)用,2001(22):38-40.