亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于情緒認知評價理論和Q-learning的人機交互中情感決策

        2012-05-15 08:08:14趙涓涓楊建峰陳俊杰王玉友
        太原理工大學學報 2012年6期
        關(guān)鍵詞:決策神經(jīng)網(wǎng)絡(luò)情緒

        趙涓涓,楊建峰,陳俊杰,王玉友

        (太原理工大學 計算機科學與技術(shù)學院,太原030024)

        在最近幾年中,人們在認知心理學、認知科學和神經(jīng)科學等領(lǐng)域的研究進一步表明:情感、情緒在人們的推理、學習、記憶、決策和創(chuàng)造的過程中飾演著非常重要的角色。所以,在人工智能領(lǐng)域中有一個越來越受到關(guān)注的新的研究方向——人工情緒。隨著科學技術(shù)的進步,人們越來越希望計算機或機器人能夠替代和輔助人類從事越來越廣泛、越來越復雜的工作,并且要求其具有自然和諧友好的人機界面,更希望它們具有更多的類人功能,如感知功能、思維功能和行為功能等。

        自然和諧友好的人機交互是人工智能領(lǐng)域的一個重要研究目標,想要實現(xiàn)這一目標,就必然要求計算機和機器人具有更強的情感識別、情感理解和情感表達能力[1]。人工情感的研究目的就是探索情感在生命體中所扮演的一些角色、發(fā)展技術(shù)和方法,以此來增強計算機或機器人的適應(yīng)能力、自治性和社會交互的能力[2]。在自然和諧的人性化和智能化的人機交互研究中,生物信息處理機制有很好的借鑒意義,已經(jīng)有很多學者在這些方面做了大量工作,同時也獲得了非常不錯的研究成果。例如,借鑒人類腦神經(jīng)機制,人們建立了人工神經(jīng)網(wǎng)絡(luò);借鑒生物的進化機制,人們提出了進化算法等。但也存在一些問題,由于生物的行為除了受神經(jīng)系統(tǒng)和進化系統(tǒng)的調(diào)節(jié)外,還受認知與情感系統(tǒng)的控制,但是在大部分的機器學習算法中忽略了認知與情感的高層調(diào)節(jié)作用,因此在人機交互的過程中機器不具有情感反饋的能力,即機器的情感感知與情感決策能力在人機交互中被遺忘了。筆者受生物系統(tǒng)控制論和認知心理學的啟發(fā),采用神經(jīng)、進化和認知去共同控制機器人的情感決策,借鑒人工情感系統(tǒng)的調(diào)節(jié)作用,研究基于情緒認知評價理論的情感決策。

        1 基礎(chǔ)理論

        1.1 情感計算與人工情感理論

        Picard給出的有關(guān)情感計算的定義為:關(guān)于、產(chǎn)生于或故意影響情感方面的計算[2],它主要集中在情感的發(fā)生、識別和情感的表達上,直接研究人類的情感過程(包括人類情感的本質(zhì)內(nèi)核和運動形式),試圖使計算機擁有情感,即構(gòu)建一個具有“自發(fā)情感的情感平臺”,從而使計算機具備情感決策能力和情感行為。情感計算領(lǐng)域高度綜合化,它通過計算科學與心理科學、認知科學相結(jié)合,研究的范圍包括人與人之間的交互、人與計算機之間的交互過程中的情感特點,設(shè)計出具有情感反饋的人機交互環(huán)境,將有可能使人與計算機的情感交互成為可能。

        人工情緒(artificial emotion)是通過信息科學的手段來模擬人類情緒過程,進而對人類的情緒進行識別和理解,屬于機器能夠產(chǎn)生類人情緒并且和人類進行自然和諧的人機交互的研究領(lǐng)域[3]。目前對人工情緒的研究主要有以下幾個領(lǐng)域:情感計算(affective computing)、感性工學(kansei engineering)和人工心理。

        1.2 情緒認知評價理論

        在情緒認知理論中,情緒產(chǎn)生于對刺激情景或者事物的評價,影響情緒產(chǎn)生的因素包括環(huán)境事件、生理狀況和認知過程,其中認知過程是決定情緒性質(zhì)的關(guān)鍵。同一刺激情景,由于對它的評估不同就會產(chǎn)生不同的情緒反應(yīng)。Richard的情緒認知評價理論(cognitive appraisal theory)認為,人和環(huán)境相互作用產(chǎn)生了情緒,人不僅接受環(huán)境中的刺激事件對自己的影響,同時要調(diào)節(jié)自己對刺激的反應(yīng),主要包括初評價、次評價和再評價[4]。

        Ahn與Picard提出的情感認知學習與決策的框架模型和Ahn提出的一個簡單的情緒認知模型的根據(jù)即認知評價理論中非常重要的一點——認知過程是決定情緒性質(zhì)的關(guān)鍵因素[5]。

        式中:e代表當前的情緒狀態(tài);c′代表下一認知狀態(tài);e′代表下一情緒狀態(tài)。

        2 基于情感認知評價理論的情感決策算法

        2.1 Q-learning學習思想

        Q-learning是強化學習中非常經(jīng)典的算法之一,Q-learning算法主要應(yīng)用于機器人行為決策和控制領(lǐng)域,其中包括單個自主機器人行為的學習和多個機器人群體行為的學習。Q-learning學習是一種不同于監(jiān)督學習和無監(jiān)督學習的在線學習技術(shù)。它將學習當成是一個“試探——評價”的過程,學習系統(tǒng)會首先感知外部環(huán)境狀態(tài),然后對環(huán)境采取某一個動作,環(huán)境接受該動作后,其狀態(tài)會發(fā)生相應(yīng)的變化,同時會給出一個回報(reward)反饋給主體,主體根據(jù)強化信號和環(huán)境的當前狀態(tài)再進行下一個動作的選擇,選擇的原則是使受到獎勵的概率增大[7]。由于基于情感認知的學習與決策算法采用了強化學習的理論框架,因此在認知獎勵模塊(cognitive reward model)和情緒獎勵模塊(emotional reward model)兩個模塊中主要采取了強化學習中的Q-learning算法。Q-learning學習的積累回報函數(shù)Q(s,a)是指在狀態(tài)s執(zhí)行完動作a后希望獲得的積累回報,它取決當前的立即回報和期望的延時回報。所有狀態(tài)與動作對應(yīng)的Q值存放在一張二維的Q表中,Q表中的值在每一步完成后都會被更新一次,更新二維表時Q函數(shù)的具體計算公式為:

        式中:β為學習因子且0<β≤1;γ為折算因子且0≤γ<1;γ為獎勵。

        Q-learning學習是按照遞歸方式實現(xiàn)的該方法:在每一時間步t,觀察當前狀態(tài)st,根據(jù)某種選擇原則選擇行為at并且執(zhí)行行為at,再觀察后繼狀態(tài)st+1以及獲取獎賞值γt,然后根據(jù)公式(2)調(diào)整Q表中的值[10]。Watkins已經(jīng)證明當學習因子滿足一定條件時,Q-learning學習算法必定收斂在最優(yōu)解。

        2.2 算法思想

        在目前的機器學習中,大多數(shù)的學習決策算法僅僅考慮了來自于外部目標或代價的外在動機的獎勵,而忽略了來自于內(nèi)在認知與情感的動機獎勵。近幾年來,一些學者受到認知心理學和認知神經(jīng)學關(guān)于情感與認知研究的啟發(fā),已經(jīng)開展了將認知模型與來自內(nèi)在情感的動機模型相結(jié)合的研究工作。MIT多媒體實驗室的Ahn和Picard提出了基于情感和認知的學習與決策框架,并研究了單步?jīng)Q策任務(wù)和連續(xù)決策任務(wù)[5]。在MIT情感計算研究小組提出的模型中,同時考慮了來自情感的內(nèi)在獎勵和來自認知的外部獎勵,并將它們作為了決策和學習的動機。

        Q-learning學習不僅能夠利用有限的學習經(jīng)驗獲取大范圍知識,還具有很強的泛化能力[7]。函數(shù)比較功能是神經(jīng)網(wǎng)絡(luò)要實現(xiàn)的主要功能,若從這個角度來看,神經(jīng)網(wǎng)絡(luò)可以分為全局逼近網(wǎng)絡(luò)和局部逼近網(wǎng)絡(luò)。如果網(wǎng)絡(luò)的一個或多個連接權(quán)系數(shù)在輸入空間的任一點對任何一個輸出都有影響,則稱該網(wǎng)絡(luò)為全局逼近網(wǎng)絡(luò);若對輸入空間的某個局部區(qū)域,只有少量的連接權(quán)影響網(wǎng)絡(luò)的輸出,則稱該網(wǎng)絡(luò)為局部逼近網(wǎng)絡(luò)。傳統(tǒng)的Q-learning算法利用表格來表示Q(s,a)函數(shù)即相應(yīng)的狀態(tài)-動作對應(yīng)值以表格的形式存儲到內(nèi)存當中,該方法的優(yōu)點是簡單并且計算的效率高,缺點是當情感狀態(tài)與認知狀態(tài)集合S、情感行為動作集合A都比較大的時候,該方法會占用大量的內(nèi)存空間,并且不具備泛化能力,這樣不但占用大量的內(nèi)存空間而且學習收斂速度非常慢,情感狀態(tài)信息連續(xù)將無法實現(xiàn)。在本算法中BP神經(jīng)網(wǎng)絡(luò)的工作方式是:接收外界環(huán)境的完全或不完全狀態(tài)描述即交互人的情感狀態(tài)和認知狀態(tài),將其看做BP神經(jīng)網(wǎng)絡(luò)的輸入,并通過BP神經(jīng)網(wǎng)絡(luò)對其進行計算,輸出Q-learning學習算法中所需要的Q值,通過Q值在情感行為集合A中尋找與之對應(yīng)的情感行為,然后情感虛擬人做出剛剛查找到的情感行為[8]。采用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)Q-learning學習算法克服了傳統(tǒng)Q學習存在的問題,使Q-learning學習算法具備更強的泛化能力以實現(xiàn)對一個大范圍知識的有效獲取和表示,在較大程度上發(fā)揮了兩種技術(shù)各自的優(yōu)勢。該算法主要思想框架見圖1。

        圖1 基于BP神經(jīng)網(wǎng)絡(luò)和Q-learning情感決策算法框圖

        2.3 算法步驟

        1)初始化外在情緒狀態(tài)空間集E={喜悅、悲傷、恐懼、生氣}和認知狀態(tài)集C={幼年、少年、青年、成年};

        2)獲取當前的認知狀態(tài)ct∈{c1,…,c|C|}、交互者的情感狀態(tài)at∈{a1,…,a|A|},并且更新情感智能體的外在情緒概率分布e

        3)把當前的認知狀態(tài)信息和情感狀態(tài)信息送到BP神經(jīng)網(wǎng)絡(luò)的輸入層中,通過決策值公式(決策值QDM由來自認知評價系統(tǒng)的外部決策值Qext和來自情感模型的內(nèi)在決策值Qint構(gòu)成)計算并輸出決策值QDM;

        4)根據(jù)Boltzmann選擇策略[5]計算出行為策略d

        5)執(zhí)行決策d,由BP神經(jīng)網(wǎng)絡(luò)獲得一個新的認知狀態(tài)ct+1,并且通過計算如下公式獲得外部獎勵值rext

        7)利用外在獎勵的情緒模型QEER(j,c,d)更新外在情緒狀態(tài)的概率分布;

        8)利用情感認知決策模型QDM(j,c,d)更新外在情緒狀態(tài)與情感行為對應(yīng)關(guān)系;

        9)返回第(2)步繼續(xù)執(zhí)行。

        3 仿真試驗

        情感迷宮問題模型是驗證情感決策的經(jīng)典環(huán)境。在Matlab中的仿真環(huán)境實現(xiàn)該算法,可在仿真過程中直觀地觀測情感智能體在為得到某一種特定情緒時的移動路線和移動情況。情感智能體在情感迷宮中通過學習能夠以最快的速度搜索到目的情緒,并且在尋找過程中躲避不需要的其他情緒。情感智能體通過觀察獲得當前認知狀態(tài)和情感狀態(tài),并且通過Boltzmann選擇策略計算出行為策略,然后執(zhí)行相應(yīng)的動作,若遇到障礙物則會受到懲罰;相反的,若沒有遇到障礙物則得到獎勵。智能體在迷宮中尋找目的地的路線和性能的表現(xiàn)如圖2所示。

        圖2 情感迷宮模型和性能曲線

        在圖2所示的情感迷宮模型和性能曲線中,基于情感認知評價理論的情感決策算法中的參數(shù)選擇如下:學習效率α=0.1;折算因子γ=0.9;溫度參數(shù)初始值T=100。BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是4-8-4,隱含層激勵函數(shù)是Sigmoid函數(shù),輸入輸出為線性函數(shù)。為了更清楚地觀察自適應(yīng)狀態(tài)構(gòu)建方法的有效性,與采用傳統(tǒng)Q-learning算法中函數(shù)方法進行仿真結(jié)果對比。在傳統(tǒng)算法狀態(tài)空間構(gòu)建中參數(shù)α大小分別設(shè)為0.1和0.4兩種情況。

        圖3與圖4分別為傳統(tǒng)Q-learning學習算法與基于情感認知評價理論的人機交互情感決策算法下情感虛擬人獲得平均報酬和成功找到目標情感時的試驗次數(shù)對比結(jié)果。從圖3中可以看出,BpQ-learning算法的性能優(yōu)于傳統(tǒng)Q-learning算法的性能。對于傳統(tǒng)的Q-learning算法來說,分割越小性能越好,當α=0.1時,經(jīng)過200次試驗訓練后,其平均報酬可達0.72,而BpQ-learning算法的平均報酬可達1.1,因此很明顯使用BpQ-learning算法的情感虛擬人在尋找目的情感的試探過程中獲得獎勵要比使用傳統(tǒng)Q-learning算法的情感虛擬人獲得的獎勵高。圖4為情感虛擬人在使用兩種算法尋找目標情感時試探次數(shù)的對比結(jié)果,從圖4中可以看出,兩種算法在第一幕的時候幾乎是經(jīng)過相同的試探次數(shù)才找到目標情感,但是隨著幕數(shù)的增加,基于情感認知評價理論的情感決策算法用越來越少的試探次數(shù)找到目標情感,說明BpQ-learning算法的學習能力要比傳統(tǒng)Q-learning算法的學習能力強、學習得快,但是隨著幕數(shù)的增加傳統(tǒng)Q-learning算法幾乎也能達到BpQ-learning算法的試探次數(shù)。

        圖3 BpQ-learning與Q-learning的平均獎勵值比較

        圖4 BpQ-learning與Q-learning的試探次數(shù)比較

        4 結(jié)束語

        本文改進了一種基于認知、情感的內(nèi)在獎勵與外在世界的外部獎勵相結(jié)合作為在學習和決策動機的學習與決策算法,同時把BP神經(jīng)網(wǎng)絡(luò)運用到該算法中。采用BP神經(jīng)網(wǎng)絡(luò)來代替Q表格,這樣的改進不僅提高了Q學習的泛化能力,而且能夠大大縮減了計算量,在一定程度上提高學習的精度,增強穩(wěn)定性。未來的工作將會進一步更詳細地證明基于情緒認知評價理論的人機交互情感決策的實效性,以及試驗最優(yōu)化該算法的各種參數(shù)因子并且在更復雜的環(huán)境中驗證該算法的可靠性與先進性。

        [1] 王志良,王巍,谷學靜,等.具有情感的類人表情機器人研究綜述[J].計算機科學,2011,38(1):34-39.

        [2] Picard R W.Affective Computing[M].Cambridge:MIT Press,1997.

        [3] 王國江,王志良,楊國亮,等.人工情感研究綜述[J].計算機應(yīng)用研究,2006,23(11):7-11.

        [4] 黃希庭.心理學導論(第二版)[M].北京:人民教育出版社,2007.

        [5] Ahn H,Picard R W.Affective-cognitive learning and decision making:the role of emotions[C]∥Proceedings of the 18th European Meeting on Cybernetics and Systems Research.Vienna,Austria:Austrian Society for Cybernetics Studies,2006.

        [6] 吳忠植.認知科學[M].合肥:中國科學技術(shù)大學出版社,2008.

        [7] Fuchida T,Aung K T,Sakuragi A.A study of Q-learning considering negative rewards[J].Artificial Life and Robotics,2010,15:351-354.

        [8] 王義萍,陳慶偉,胡維禮.機器人行為選擇綜述[J].機器人,2009,31(5):472-480.

        [9] 王琦.情感虛擬人研究[D].上海:上海師范大學,2008.

        [10] 張云,劉建平.Q 學習的改進研究及其仿真實驗[J].計算機仿真,2007,24(10):111-114.

        猜你喜歡
        決策神經(jīng)網(wǎng)絡(luò)情緒
        為可持續(xù)決策提供依據(jù)
        神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        決策為什么失誤了
        小情緒
        小情緒
        小情緒
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
        重型機械(2016年1期)2016-03-01 03:42:04
        復數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        情緒認同
        基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        国产高潮刺激叫喊视频| 国产自产av一区二区三区性色| 日本韩国黄色三级三级| 日本美女中文字幕第一区| 色欲色香天天天综合vvv| 99精品国产99久久久久久97 | 日产一区二区三区免费看| 米奇7777狠狠狠狠视频影院| 91spa国产无码| 国产成人午夜av影院| 国产视频一区二区在线免费观看| 日韩一区国产二区欧美三区 | 国产一区二区三区韩国| 日本高清在线播放一区二区| 真人抽搐一进一出视频| 欧美mv日韩mv国产网站 | 亚洲一区二区三区视频免费| 午夜影视免费| 精品午夜福利无人区乱码一区| 国产精品深夜福利免费观看| 亚洲av一区二区在线| 午夜成人理论福利片| 国产亚洲精品久久久久秋霞| 国产精品国产三级国产在线观| 久久亚洲中文字幕精品熟| 精品无码国产一区二区三区av| 在线成人福利| 麻豆成人久久精品二区三区91| 欧美性猛交aaaa片黑人| 国产在线不卡一区二区三区 | 亚洲国产丝袜美女在线| 美女露出粉嫩小奶头在视频18禁| 久久综合九色综合网站| 亚洲高清国产品国语在线观看| 白白色发布在线观看视频| 国产福利视频一区二区| 久久综合网天天 | 国产三级精品三级在专区中文| 午夜精品久久久久久久99老熟妇 | 亚洲精品国产精品乱码在线观看| 无码人妻丰满熟妇片毛片|