亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)協(xié)商研究綜述

        2022-07-18 08:57:58陳鍶奇
        無線電通信技術(shù) 2022年4期
        關(guān)鍵詞:效用報(bào)價(jià)協(xié)商

        唐 詩,楊 陽,陳鍶奇*

        (1.西南大學(xué)附屬中學(xué),重慶 400700;2.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300072)

        0 引言

        在現(xiàn)如今的生活中,協(xié)商無處不在,小到去市場購物,大到影響人類命運(yùn)共同體的協(xié)商,如全球碳排放協(xié)議。協(xié)商是一種強(qiáng)有力的解決雙方矛盾、沖突和爭議的機(jī)制。參與協(xié)商的各方在追求自己的需求,或者自己所代表的某個(gè)組織的需求時(shí),通過交換提議共同尋找雙方都能接受的共同方案,目前被廣泛應(yīng)用于經(jīng)濟(jì)[1]、人工智能[2-3]、商業(yè)[4-6]等領(lǐng)域,有非常重要的社會(huì)價(jià)值。但是由于協(xié)商談判的代價(jià)高昂,學(xué)者試圖去尋找一種更有效的協(xié)商方式。

        深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)集成了深度學(xué)習(xí)對(duì)復(fù)雜環(huán)境的感知能力,以及強(qiáng)化學(xué)習(xí)對(duì)復(fù)雜場景的決策能力,實(shí)現(xiàn)了端到端的學(xué)習(xí)模式。深度強(qiáng)化學(xué)習(xí)的出現(xiàn)使得強(qiáng)化學(xué)習(xí)技術(shù)真正走向?qū)嵱茫鉀Q現(xiàn)實(shí)場景中的復(fù)雜問題,其在人工智能領(lǐng)域(如無人駕駛[7-8]、智能交通系統(tǒng)[9]、機(jī)器人系統(tǒng)[10-11]、游戲[12]等)取得的成功推動(dòng)它應(yīng)用于包括協(xié)商[13]在內(nèi)的復(fù)雜人類問題。運(yùn)用到自動(dòng)協(xié)商領(lǐng)域的基于深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練的自動(dòng)協(xié)商智能體可以在較短時(shí)間內(nèi)用較小的成本系統(tǒng)地考慮所有可能的結(jié)果。因此,協(xié)商智能體可以減少達(dá)成協(xié)議所需的時(shí)間和精力,同時(shí)增加達(dá)成更好的雙贏協(xié)議的機(jī)會(huì)。自動(dòng)協(xié)商智能體在電子商務(wù)和供應(yīng)鏈管理方面取得了巨大的成功。

        本文將以基于強(qiáng)化學(xué)習(xí)的自動(dòng)協(xié)商任務(wù)為核心展開綜述,首先介紹自動(dòng)協(xié)商概述,然后綜述強(qiáng)化學(xué)習(xí)在自動(dòng)協(xié)商任務(wù)中的應(yīng)用并分析各模型特點(diǎn),最后總結(jié)全文并分析深度強(qiáng)化學(xué)習(xí)技術(shù)與自動(dòng)協(xié)商任務(wù)相結(jié)合的研究趨勢(shì)及應(yīng)用前景。

        1 自動(dòng)協(xié)商概述

        1.1 自動(dòng)協(xié)商框架

        自動(dòng)協(xié)商是兩個(gè)自動(dòng)智能體之間的協(xié)商,這些協(xié)商智能體被稱為協(xié)商者。在一個(gè)自動(dòng)協(xié)商框架中包含協(xié)商目標(biāo)、協(xié)商協(xié)議和協(xié)商策略三個(gè)內(nèi)容。協(xié)商目標(biāo)確定了參與協(xié)商的雙方所要協(xié)商討論的議題。協(xié)商協(xié)議定義了參與協(xié)商的雙方都需遵循的協(xié)商規(guī)則,指定了每個(gè)協(xié)商者在任何給定時(shí)刻可以執(zhí)行的動(dòng)作。本文協(xié)商者的協(xié)商策略是接受策略和投標(biāo)策略的結(jié)合。

        1.1.1 協(xié)商目標(biāo)

        協(xié)商目標(biāo)是指參與協(xié)商的智能體所要進(jìn)行協(xié)商討論的議題,協(xié)商的目的在于使參與協(xié)商的雙方對(duì)這些協(xié)商議題上的取值能都達(dá)到一致。若協(xié)商討論的議題只有一個(gè),稱為單議題協(xié)商。然而,在復(fù)雜的現(xiàn)實(shí)生活中,在協(xié)商過程中考慮的常常不是單一的議題,在正常條件下協(xié)商議題是多樣化的,常常還要對(duì)大小、數(shù)量、質(zhì)量等議題進(jìn)行協(xié)商,這就是多議題協(xié)商。

        1.1.2 協(xié)商協(xié)議

        協(xié)商協(xié)議是指參與協(xié)商的雙方都需遵循的協(xié)商規(guī)則。此處介紹較常使用的交替報(bào)價(jià)協(xié)議(Altermating Offers Protocol,AOP)[14]。該協(xié)議在進(jìn)行雙邊多議題自動(dòng)協(xié)商時(shí),由協(xié)商雙方輪流報(bào)價(jià)。通過多個(gè)協(xié)商回合的交流,AOP協(xié)議能使參與協(xié)商的智能體慢慢靠近尋找最優(yōu)協(xié)商解。

        在AOP協(xié)議下,協(xié)商環(huán)節(jié)由連續(xù)回合組成,每個(gè)參與協(xié)商的智能體可以提出報(bào)價(jià)、接受報(bào)價(jià),或退出協(xié)商。如果雙方達(dá)成了共同協(xié)議,或者到了最后期限,那么一局協(xié)商就結(jié)束了。截止日期可以用最大回合數(shù)或?qū)嶋H交替提議次數(shù)來衡量。協(xié)商是不重復(fù)的,即每個(gè)協(xié)商環(huán)節(jié)都是獨(dú)立進(jìn)行的,一個(gè)協(xié)商環(huán)節(jié)不能影響其他協(xié)商環(huán)節(jié)。

        在多回合的協(xié)商中,每個(gè)參與協(xié)商的智能體都有對(duì)手的協(xié)商歷史信息,可以通過判斷對(duì)手協(xié)商歷史信息來學(xué)習(xí)對(duì)手的協(xié)商態(tài)度,從而實(shí)現(xiàn)選用合適的協(xié)商策略讓協(xié)商達(dá)到雙贏。

        AOP協(xié)商流程如圖1所示。

        圖1 AOP協(xié)商流程

        1.1.3 協(xié)商策略

        協(xié)商策略,即智能體在協(xié)商過程中憑借所處的環(huán)境,利用何種決策在自己全部協(xié)商提議中挑選最利于自己的提議給對(duì)方智能體,即為可以讓協(xié)商智能體做出判斷的函數(shù)。協(xié)商策略包括兩部分:

        其一是評(píng)估提議模塊,即接受策略。接收策略的核心問題是何時(shí)給出報(bào)價(jià),是否接受或等待未來可能更好的報(bào)價(jià)。然而,如果智能體未能在截止日期之前接受,就會(huì)發(fā)生交易沖突,兩個(gè)參與協(xié)商的智能體都不會(huì)得到任何回報(bào)。給定一個(gè)折扣率和讓步因子,從他們先前的報(bào)價(jià)中推斷出接受報(bào)價(jià)的最佳時(shí)機(jī),因此接受策略可以看作是一個(gè)最優(yōu)停止問題,接受策略的作用是在一個(gè)回合中評(píng)估對(duì)方智能體的協(xié)商提議,隨即判斷決定是否可以接受該提議。

        其二是產(chǎn)生提議模塊,即報(bào)價(jià)策略,報(bào)價(jià)策略的作用是產(chǎn)生最有利于自身的還價(jià)提議。協(xié)商策略的好環(huán)是判斷所采用協(xié)商框架效率高低的主要標(biāo)準(zhǔn)。

        為了設(shè)計(jì)一種可以從過往協(xié)商經(jīng)驗(yàn)中自適應(yīng)學(xué)習(xí)協(xié)商策略并和未知對(duì)手進(jìn)行并行雙邊協(xié)商的智能體,本文研究了先前提出的策略學(xué)習(xí)方法,并發(fā)現(xiàn)它們?cè)趯?shí)際應(yīng)用中均存在一些問題,如:

        啟發(fā)策略通過啟發(fā)策略訓(xùn)練的智能體適應(yīng)環(huán)境變化的能力不強(qiáng),不同的雙邊協(xié)商通過一個(gè)協(xié)調(diào)智能體或者通過多個(gè)內(nèi)部對(duì)話策略來管理,但這種策略不支持學(xué)習(xí),即不能適應(yīng)變化的對(duì)手和環(huán)境,對(duì)預(yù)先設(shè)定的對(duì)手和環(huán)境依賴性強(qiáng),一旦變化,可能會(huì)無法使用。

        遺傳算法通過遺傳算法學(xué)習(xí)訓(xùn)練需要大量的試驗(yàn)才能獲得好的策略,這意味著它們不能在線設(shè)置。

        強(qiáng)化學(xué)習(xí)基于強(qiáng)化學(xué)習(xí)的協(xié)商模型通常采用Q-Learning[15],但它不支持連續(xù)的行動(dòng),這也是設(shè)定中的重要限制,因?yàn)橄胫酪尣蕉嗌伲┤缭诔鍪畚锲返膬r(jià)格上,這自然是一個(gè)連續(xù)的行動(dòng)空間。

        所以,現(xiàn)在學(xué)者通常使用了深度強(qiáng)化學(xué)習(xí)算法來訓(xùn)練針對(duì)每個(gè)對(duì)手(如基于時(shí)間策略的對(duì)手和基于行為策略的對(duì)手)的協(xié)商策略。

        1.1.4 協(xié)商模型

        (1)

        根據(jù)Rubinstein[21]提出的協(xié)商回合的概念,每個(gè)智能體依次以提議的形式提出報(bào)價(jià),以表達(dá)自己的要求,他們可以為了自己的利益自由離開協(xié)商場景。通常,將協(xié)商輪數(shù)稱為雙方交換報(bào)價(jià)的次數(shù)。協(xié)商持續(xù)進(jìn)行,直到一方接受另一方的提議,或一方中斷,或由于超時(shí)而沒有提議被接受。如果最終沒有達(dá)成協(xié)議,則提供的分歧解決方案生效,各方獲得各自的保留值(θ),這也適用于一方提前退出協(xié)商的情況。

        此外,定義一個(gè)折現(xiàn)因子δ(δ∈[0,1])來捕捉協(xié)商中的折現(xiàn)效應(yīng),如下所示:

        (2)

        式中,Dδ(U,t)表示t時(shí)刻的折現(xiàn)效用,U為(初始)效用,t為標(biāo)準(zhǔn)化時(shí)間(t∈[0,1])。由式(2)可知,智能體達(dá)成協(xié)議所花的時(shí)間越長,他們所能獲得的效用就越低。

        1.2 基準(zhǔn)協(xié)商策略

        協(xié)商的目的是在進(jìn)行交易時(shí)獲得最大的效用,因此,智能體需要采取恰當(dāng)?shù)膮f(xié)商策略。在信息完全的情況下,可以確定最優(yōu)報(bào)價(jià)策略。然而,如前所述,在協(xié)商中不太可能獲得完全的信息,因?yàn)閰⑴c協(xié)商的智能體由于害怕被剝削利用而不愿透露他們的偏好,這推動(dòng)了不完全信息下協(xié)商策略的發(fā)展。根據(jù)將狀態(tài)映射到目標(biāo)效用的決策函數(shù),這些協(xié)商策略可以大致分為基于時(shí)間的協(xié)商策略和基于對(duì)手行為的協(xié)商策略。

        1.2.1 基于時(shí)間的協(xié)商策略

        時(shí)間因素在智能體自動(dòng)協(xié)商中起著舉足輕重的作用,若參與協(xié)商的雙方可用的協(xié)商時(shí)間較短時(shí),可能會(huì)導(dǎo)致兩種結(jié)果:其一,參與協(xié)商的雙方在時(shí)間不夠充足的條件下,由于迫切希望達(dá)成共識(shí)來完成協(xié)商任務(wù),會(huì)使考慮不夠充分,導(dǎo)致其協(xié)商解的效用值較低,協(xié)商雙方會(huì)丟失一些潛在的效益;其二,由于時(shí)間不夠,雙方在達(dá)成一致前退出協(xié)商,而讓原本可以達(dá)成一致的協(xié)商被迫失敗。若協(xié)商雙方可用的協(xié)商時(shí)間較為寬裕,協(xié)商對(duì)手之間能夠?qū)崿F(xiàn)充分地討價(jià)還價(jià),在協(xié)商過程中深入了解對(duì)方的喜好,從而利于找到能使雙方都認(rèn)可且能夠達(dá)到最大價(jià)值的協(xié)商解。

        基于時(shí)間的協(xié)商策略是指僅基于時(shí)間產(chǎn)生報(bào)價(jià)的功能。在每一輪協(xié)商中,智能體計(jì)算他們的決策效用,決定他們是否接受報(bào)價(jià)。對(duì)于基于時(shí)間的智能體,其決策效用是:

        (3)

        式中,Pmax、Pmin∈[0,1],從而參數(shù)化報(bào)價(jià)范圍。通常,F(xiàn)(t)被參數(shù)化為指數(shù)函數(shù):

        (4)

        式中,c為讓步因子,反映了讓步幅度。為簡單起見,k通常設(shè)置為0。在輪流出價(jià)的讓步協(xié)商中,根據(jù)讓步因子的不同,基于時(shí)間的協(xié)商策略基本可以分為以下3種類型:

        ① 0

        ②c≥ 1,在協(xié)商初始階段,智能體讓步幅度較大,隨著時(shí)間的推移漸漸縮小讓步幅度,即智能體迅速讓步并提供其保留值,因此被稱為Conceder讓步型;

        ③c= 1,是智能體隨協(xié)商時(shí)間推移均勻讓步的時(shí)間策略函數(shù),意味著智能體的決策效用線性下降,稱為均勻線型。

        3種類型不同讓步因子的基于時(shí)間策略智能體的決策效用如圖2所示。

        圖2 不同讓步因子下的基于時(shí)間策略的智能體的決策效用

        1.2.2 基于對(duì)手行為的協(xié)商策略

        基于對(duì)手行為的協(xié)商策略通過觀察對(duì)手的行為來決定自己的行為,譬如是出價(jià)還是接受,可以理解為模仿對(duì)手的行為,即對(duì)方對(duì)我如何,我就對(duì)對(duì)方如何。智能體在進(jìn)行輪流出價(jià)的自動(dòng)協(xié)商中,參與協(xié)商的雙方都有自己的偏好和保留值等信息,且在討價(jià)還價(jià)的協(xié)商中,智能體害怕被利用,這些信息是不為對(duì)手所知的,這推動(dòng)了非完全信息下協(xié)商策略的發(fā)展。所以智能體在自動(dòng)協(xié)商過程中通過輪流出價(jià)的提議來了解對(duì)方的偏好,并學(xué)著投其所好。

        在智能體的自動(dòng)協(xié)商過程中,協(xié)商雙方會(huì)有協(xié)商的歷史信息,基于對(duì)手行為的協(xié)商策略是觀察對(duì)手在協(xié)商歷史中所表現(xiàn)出的行為來確定自己的協(xié)商行為,以確定自己的讓步幅度,并根據(jù)它提出新的提議。這種通過模仿對(duì)手行為的協(xié)商策略可以在一定程度上有效避免協(xié)商過程中的利用、欺騙等情況。

        目前最廣為人知的基于對(duì)手行為的協(xié)商策略是tit-for-tat針鋒相對(duì),通過互惠產(chǎn)生合作。它的3個(gè)中心原則是:

        ① 永遠(yuǎn)不要首先背叛:即不會(huì)在協(xié)商初始時(shí)就選擇主動(dòng)背叛對(duì)手或者采取作弊行為,而是選擇友好的互惠互利合作模式。

        ② 如果受到背叛就采取報(bào)復(fù)行動(dòng):即在協(xié)商過程中若對(duì)手有背叛己方的行動(dòng),可以快速識(shí)別出背叛行為,同時(shí)利用背叛的行動(dòng)來報(bào)復(fù)對(duì)手。

        ③ 報(bào)復(fù)后可以原諒:是指不會(huì)因?yàn)閷?duì)手的一次背叛而進(jìn)行不可原諒的多次報(bào)復(fù),若對(duì)手在背叛后選擇悔改,重新進(jìn)入合作模式,則會(huì)寬容地原諒對(duì)手,繼續(xù)恢復(fù)到友好的互惠互利合作模式。

        相對(duì)針鋒相對(duì)(TFT)策略,通過提供與對(duì)手在δ回合之前的讓步,成比例地讓步來進(jìn)行報(bào)價(jià):

        (5)

        2 深度強(qiáng)化學(xué)習(xí)在自動(dòng)協(xié)商中的應(yīng)用

        2.1 強(qiáng)化學(xué)習(xí)概述

        除了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之外,強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)家族中必不可少的一類。強(qiáng)化學(xué)習(xí)讓機(jī)器學(xué)習(xí)如何在環(huán)境中表現(xiàn)良好,獲得高分。強(qiáng)化學(xué)習(xí)是一類算法,最初什么都不知道的機(jī)器,在經(jīng)歷過多次的嘗試后,能夠不斷學(xué)習(xí)吸收經(jīng)驗(yàn),進(jìn)而發(fā)現(xiàn)規(guī)律,最終達(dá)成目的,這便是強(qiáng)化學(xué)習(xí)的過程。

        如圖3所示,強(qiáng)化學(xué)習(xí)的組成有智能體(Agent)和環(huán)境(Environment)兩部分。強(qiáng)化學(xué)習(xí)所研究的問題就是智能體如何于某一不確定的復(fù)雜環(huán)境中使其所能夠得到的獎(jiǎng)勵(lì)最大化。

        圖3 強(qiáng)化學(xué)習(xí)示意圖

        強(qiáng)化學(xué)習(xí)的整個(gè)過程中,智能體一直與環(huán)境發(fā)生交互。智能體會(huì)在環(huán)境中獲得狀態(tài),它能夠用該狀態(tài)給一個(gè)輸出動(dòng)作(action),即決策。隨后將該決策置于環(huán)境中,環(huán)境會(huì)依據(jù)智能體使用的決策,給出該決策獲得的獎(jiǎng)勵(lì),同時(shí)給出下一個(gè)狀態(tài)。智能體的目的是在環(huán)境中獲得盡可能多的獎(jiǎng)勵(lì)。

        沒有監(jiān)督數(shù)據(jù),這是強(qiáng)化學(xué)習(xí)與監(jiān)督學(xué)習(xí)相異的一個(gè)方面,因此強(qiáng)化學(xué)習(xí)得到的模型能夠產(chǎn)生超過人類的表現(xiàn)。監(jiān)督學(xué)習(xí)獲得的監(jiān)督數(shù)據(jù)是由人來標(biāo)注的,譬如ImageNet的圖片全部由人標(biāo)注,則能夠確定人類的表現(xiàn)是此算法的上限,人類的標(biāo)注結(jié)果決定了它永遠(yuǎn)不可能超越人類。而強(qiáng)化學(xué)習(xí)與它不同,能夠自行在環(huán)境中探索,因此具備很大的潛力,能夠擁有超過人類能力范圍的表現(xiàn),如著名AlphaGo這樣一個(gè)強(qiáng)化學(xué)習(xí)的算法在圍棋場上擊敗了最強(qiáng)的人類圍棋大師。

        2.2 深度強(qiáng)化學(xué)習(xí)

        深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)各有優(yōu)劣:深度學(xué)習(xí)的感知能力較強(qiáng)而決策能力較欠缺;強(qiáng)化學(xué)習(xí)決策能力較強(qiáng),卻難以處理感知問題。將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,能夠產(chǎn)生新的解決思路,用于處理應(yīng)對(duì)復(fù)雜系統(tǒng)的感知決策問題。

        近年來,學(xué)術(shù)界已將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)成功結(jié)合并使用,利用深度神經(jīng)網(wǎng)絡(luò)來逼近價(jià)值函數(shù),其突破在于策略梯度方法。強(qiáng)化學(xué)習(xí)算法在傳統(tǒng)上是動(dòng)作—價(jià)值方法:在學(xué)習(xí)動(dòng)作—價(jià)值之后,算法根據(jù)估計(jì)的動(dòng)作-價(jià)值選擇動(dòng)作。相比之下,策略梯度方法學(xué)習(xí)參數(shù)策略,而不是價(jià)值函數(shù)。本文所說的策略是指智能體策略——它在給定的狀態(tài)和時(shí)間所采取的行動(dòng)。

        深度強(qiáng)化學(xué)習(xí)是一種具有較強(qiáng)通用性的端到端感知控制系統(tǒng),DRL學(xué)習(xí)過程描述如下:

        ① 智能體與環(huán)境交互時(shí),可以獲得每一時(shí)刻的高維觀測(cè),同時(shí),利用深度學(xué)習(xí)方法對(duì)觀測(cè)結(jié)果進(jìn)行感知,獲得具體的狀態(tài)特征表示;

        ② 基于根據(jù)預(yù)期效用評(píng)估每個(gè)行動(dòng)的價(jià)值函數(shù),并通過某種策略將當(dāng)前狀態(tài)映射到相應(yīng)的行動(dòng);

        ③ 環(huán)境在動(dòng)作的基礎(chǔ)上做出反應(yīng),能夠獲得下一步的觀察。這樣就可以不斷重復(fù)上述過程,最終得到達(dá)到目標(biāo)的最優(yōu)策略。

        DRL原理框架如圖4所示。由于概率可以分布在離散或連續(xù)的行動(dòng)空間上,接受或拒絕報(bào)價(jià)的決定是離散的,而投標(biāo)是在連續(xù)的空間上,所以DRL是一個(gè)有效的協(xié)商控制框架。

        圖4 DRL原理框架圖

        2.3 協(xié)商領(lǐng)域基于深度強(qiáng)化學(xué)習(xí)的經(jīng)典算法

        在Soft Actor-critic (SAC)[23]算法提出之前,主流的Model-Free強(qiáng)化學(xué)習(xí)方法在實(shí)際應(yīng)用時(shí)均存在以下幾點(diǎn)問題:

        采樣效率較低主要是信任區(qū)域策略優(yōu)化算法(Trust Region Policy Optimization,TRPO)[24]、近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)[25]等On-Policy方法的不足。每一次策略更新都需要舍棄之前采樣的數(shù)據(jù),并在當(dāng)前策略下重新采樣足夠多的樣本數(shù)量,這需要很高的樣本復(fù)雜性和樣本數(shù)量才能保證其最終收斂。

        對(duì)超參數(shù)十分敏感主要為深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[26]、分布式深度確定性策略梯度算法(Distributed Distributional Deterministic Policy Gradients,D4PG)[27]等Off-Policy方法的缺陷。由于這些策略與Q-value相互耦合,使其雖然通過Replay Buffer解決了采樣效率的問題,但它們還是容易受超參數(shù)的影響,使其算法性能不穩(wěn)定。

        脆弱的收斂性質(zhì)與極高的樣本復(fù)雜度使Model-Free強(qiáng)化學(xué)習(xí)算法需要進(jìn)行精細(xì)的超參數(shù)調(diào)整,這嚴(yán)重限制了以上這些算法在錯(cuò)綜復(fù)雜的現(xiàn)實(shí)世界的適用性。SAC深度強(qiáng)化學(xué)習(xí)算法整合了Actor-Critic、Off-Policy、Maximum Entropy Model三大框架,極大程度地解決了以上算法的缺陷。

        SAC是一種基于最大熵強(qiáng)化學(xué)習(xí)的Off-Policy算法,其目的是使預(yù)期回報(bào)和策略熵最大化。熵值越高的策略隨機(jī)性越大,這意味著最大熵強(qiáng)化學(xué)習(xí)的策略隨機(jī)性越大,其回報(bào)也越高,也就是說,在完成任務(wù)的同時(shí)盡可能隨機(jī)地行動(dòng)。普通的強(qiáng)化學(xué)習(xí)算法只嘗試最大化最終回報(bào),而SAC算法在最大化最終回報(bào)的同時(shí)也最大化策略熵,這可以提高算法對(duì)超參數(shù)的魯棒性和樣本效率。在自動(dòng)協(xié)商中,這種策略隨機(jī)性可以降低對(duì)手預(yù)測(cè)智能體的行為及利用其行為信息的能力。

        (6)

        式中,r為獎(jiǎng)勵(lì)函數(shù),H為策略π的熵,α> 0被稱為熱度參數(shù)用以控制熵正則化的系數(shù)。st和at分別表示時(shí)間步t時(shí)的狀態(tài)和動(dòng)作?,F(xiàn)在,對(duì)應(yīng)狀態(tài)s和動(dòng)作a的動(dòng)作-價(jià)值函數(shù)Qπ(s,a)可以表示為:

        (7)

        SAC同時(shí)學(xué)習(xí)一個(gè)策略π和兩個(gè)Q值函數(shù)。其中熵正則化參數(shù)α也是一個(gè)可訓(xùn)練參數(shù)[28],如式(8)所示,這可以通過近似雙重梯度下降來實(shí)現(xiàn)。

        (8)

        軟Q值函數(shù)的參數(shù)通過最小化軟貝爾曼殘差進(jìn)行訓(xùn)練,其中價(jià)值函數(shù)可以使用隨機(jī)梯度對(duì)其進(jìn)行優(yōu)化。

        (9)

        (10)

        SAC算法利用兩個(gè)軟Q值函數(shù)來減小策略改進(jìn)步驟中的正偏差,這會(huì)降低基于價(jià)值方法的性能。特別是,參數(shù)化了兩個(gè)軟Q值函數(shù),參數(shù)為θi,并獨(dú)立培訓(xùn)它們以優(yōu)化JQ(θi)。兩個(gè)軟Q值函數(shù)顯著加快了訓(xùn)練速度,這在較艱巨的任務(wù)上表現(xiàn)得尤為明顯。

        3 基于強(qiáng)化學(xué)習(xí)的自動(dòng)協(xié)商

        在先前的研究中,包括貝葉斯學(xué)習(xí)和遺傳算法在內(nèi)的許多計(jì)算方法已經(jīng)被用于自動(dòng)協(xié)商中開發(fā)和評(píng)估協(xié)商策略。在過去的幾十年中,已經(jīng)有了一些研究強(qiáng)化學(xué)習(xí)算法,如Q-learning[15,29-32]和REINFORCE[33]在自動(dòng)協(xié)商中的應(yīng)用。

        最近,深度強(qiáng)化學(xué)習(xí)被用于學(xué)習(xí)目標(biāo)效用值、接受策略或報(bào)價(jià)和接受策略。Ho-Chun Herbert Chang[34]研究了深度強(qiáng)化學(xué)習(xí)在協(xié)商領(lǐng)域的應(yīng)用,評(píng)價(jià)了其開發(fā)、適應(yīng)和合作的能力。兩個(gè)Actor-Critic網(wǎng)絡(luò)針對(duì)基于時(shí)間策略的智能體、基于對(duì)手行為策略的智能體,以及通過自我演練被訓(xùn)練為報(bào)價(jià)和接受策略。該文揭示了4個(gè)關(guān)鍵發(fā)現(xiàn):① 神經(jīng)智能體學(xué)會(huì)利用基于時(shí)間策略的智能體,實(shí)現(xiàn)決策值的清晰轉(zhuǎn)換,主要的障礙是邊際效用(二階導(dǎo)數(shù))的變化和協(xié)商期限導(dǎo)致的懸崖行走;② 由于柯西分布的尖峰中心和沉重的尾部,柯西分布適合抽樣報(bào)價(jià);③ 神經(jīng)智能體證明適應(yīng)性行為與基于對(duì)手行為策略的智能體不同;④ 神經(jīng)智能體在自我演練過程中學(xué)習(xí)合作。智能體學(xué)習(xí)不可信的威脅,類似于進(jìn)化博弈論文獻(xiàn)中基于聲譽(yù)的策略。此外,Pallavi Bagga[35]等人也展示了深度強(qiáng)化學(xué)習(xí)在并行雙邊協(xié)商中的應(yīng)用。

        3.1 RLBOA模型

        2019年,Jasper Bakker[36]等人提出了一個(gè)模塊化的框架RLBOA,使用強(qiáng)化學(xué)習(xí)來促進(jìn)自主協(xié)商智能體的創(chuàng)建。該框架可以創(chuàng)建能夠在許多不同協(xié)商環(huán)境中進(jìn)行有效協(xié)商的智能體。為了能夠應(yīng)對(duì)大規(guī)模的狀態(tài)和行動(dòng)空間以及協(xié)商策略設(shè)置的多樣性,利用了將協(xié)商策略分為投標(biāo)策略、對(duì)手模型和接受策略這種模塊化的BOA框架,這是一個(gè)通用的強(qiáng)化學(xué)習(xí)接口,其中非重復(fù)的多議題交替報(bào)價(jià)協(xié)商可以以一種可擴(kuò)展的方式應(yīng)用。通過實(shí)現(xiàn)一個(gè)智能體來證明RLBOA框架的價(jià)值,該智能體在壓縮的狀態(tài)和動(dòng)作空間上使用表格Q-learning算法來學(xué)習(xí)報(bào)價(jià)策略。其方法是將效用空間離散化,并使用對(duì)手模型從一組提議中選擇下一個(gè)提議,其中每個(gè)時(shí)間步驟的提議集合取決于所采取的行動(dòng)。這種方法的局限性是因效用空間的離散化導(dǎo)致的信息損失,這將導(dǎo)致進(jìn)一步依賴對(duì)手建模來選擇下一個(gè)提議。RLBOA框架如圖5所示[36]。

        圖5 RLBOA框架

        3.2 ANEGMA模型

        2020年,Pallavi Bagga等人[35]提出了一個(gè)新的協(xié)商模型ANEGMA,該模型允許智能體學(xué)習(xí)如何在未知和動(dòng)態(tài)的電子市場中進(jìn)行雙邊協(xié)商。該智能體使用一個(gè)Modle-Free強(qiáng)化學(xué)習(xí)的Actor-Critic架構(gòu)來學(xué)習(xí)一個(gè)深度神經(jīng)網(wǎng)絡(luò)的策略。該方法基于深度確定性策略梯度算法(DDPG),以支持連續(xù)控制,為買方生成確定性動(dòng)作選擇策略。通過監(jiān)督綜合的市場數(shù)據(jù)來預(yù)培訓(xùn)策略,從而減少了協(xié)商過程中學(xué)習(xí)所需要的探索時(shí)間,因此,可以為雙邊協(xié)商構(gòu)建不需要預(yù)先編程即可適應(yīng)不同的電子市場設(shè)置的自動(dòng)智能體。這項(xiàng)工作的缺點(diǎn)是它只解決單一問題,其RL智能體的狀態(tài)和動(dòng)作是特定的值,所以它僅限于特定的協(xié)商場景,不能在其他的協(xié)商場景中發(fā)揮作用。ANEGMA框架如圖6所示[35]。

        圖6 ANEGMA框架

        3.3 基于強(qiáng)化學(xué)習(xí)策略和自適應(yīng)策略切換機(jī)制的智能體自動(dòng)協(xié)商框架

        2021年,Ayan Sengupta等人[37]提出了一個(gè)基于強(qiáng)化學(xué)習(xí)策略和自適應(yīng)策略切換機(jī)制的智能體自動(dòng)協(xié)商框架,如圖7所示[37]。

        圖7 基于強(qiáng)化學(xué)習(xí)策略和自適應(yīng)策略切換機(jī)制的智能體自動(dòng)協(xié)商框架框架

        這個(gè)框架包含4個(gè)部分:negotiator-strategy pairs、對(duì)手分類器、策略切換機(jī)制以及reviewer機(jī)制。此框架允許對(duì)對(duì)手的行為進(jìn)行實(shí)時(shí)分類,并提供了在單個(gè)協(xié)商過程中選擇、切換或組合策略的機(jī)制,即自適應(yīng)地改變策略以達(dá)到更好的協(xié)議。此外還提出了一種以算法方式更新基策略的機(jī)制,以提高自動(dòng)協(xié)商整體性能。用SAC算法來訓(xùn)練競價(jià)策略,其輸入和輸出都是效用值,因此,可以用于不同的協(xié)商領(lǐng)域。這項(xiàng)工作的缺點(diǎn)是沒有考慮對(duì)手的偏好。

        3.4 Deep BPR+agent

        2021年,Leling Wu等人[38]提出了一個(gè)通用的協(xié)商框架——Deep BPR+協(xié)商智能體框架,包括兩個(gè)關(guān)鍵部分:一個(gè)是學(xué)習(xí)機(jī)制,當(dāng)遇到使用以前未見過的策略的對(duì)手時(shí),學(xué)習(xí)新的應(yīng)對(duì)策略;另一個(gè)是策略重用機(jī)制,支持從觀察到的信號(hào)中準(zhǔn)確地檢測(cè)對(duì)手的策略并從策略庫中選擇最佳應(yīng)對(duì)策略。

        它利用貝葉斯策略重用(BPR)機(jī)制,通過在智能體可用的若干策略中進(jìn)行選擇來應(yīng)對(duì)未知對(duì)手。BPR對(duì)一組已知策略的對(duì)手使用一個(gè)概率分布(貝葉斯信念),以捕捉它們與智能體正在面對(duì)的新對(duì)手的相似性。貝葉斯信念隨著觀察到的信號(hào)而更新,這些信號(hào)可以是與策略性能相關(guān)的任何信息。在這項(xiàng)工作中,信號(hào)包括協(xié)議效用、協(xié)商回合數(shù)和從對(duì)手的提議收到的效用值的標(biāo)準(zhǔn)偏差。當(dāng)一個(gè)未知的對(duì)手策略出現(xiàn)時(shí),像BPR+那樣通過移動(dòng)平均獎(jiǎng)勵(lì)來識(shí)別,它就會(huì)切換到學(xué)習(xí)階段,并開始使用深度強(qiáng)化學(xué)習(xí)算法來學(xué)習(xí)最佳響應(yīng)策略,該算法通過在每一步選擇適當(dāng)?shù)哪繕?biāo)效用,以時(shí)間軸和提議交換歷史為條件來學(xué)習(xí)實(shí)現(xiàn)有效的協(xié)議。這項(xiàng)工作之后將加速在線新策略學(xué)習(xí)速度并將這一框架擴(kuò)展到其他協(xié)商環(huán)境,如并發(fā)協(xié)商或多邊協(xié)商進(jìn)行研究。

        3.5 MCAN agent

        2021年,Xiaoyang Gao等人[39]提出了一個(gè)新的基于DRL的協(xié)商框架——多渠道自動(dòng)協(xié)商(MCAN),利用參數(shù)化深度Q網(wǎng)絡(luò)(P-DQN)來學(xué)習(xí)一個(gè)綜合的協(xié)商策略,同時(shí)整合語言交流技能和報(bào)價(jià)策略。結(jié)合深度Q網(wǎng)絡(luò)(DQN)和深度確定策略梯度(DDPG)的優(yōu)勢(shì),P-DQN適合于這個(gè)雙重優(yōu)化問題,它學(xué)習(xí)了每種語言溝通技能的最佳競價(jià)策略,然后選擇共同優(yōu)化的策略。與其他分別學(xué)習(xí)語言溝通技能和報(bào)價(jià)策略的算法不同,P-DQN同時(shí)學(xué)習(xí)這兩種技能,這使得語言溝通技能學(xué)習(xí)和競價(jià)策略學(xué)習(xí)能夠共享所有信息,而不需要像兩個(gè)獨(dú)立的網(wǎng)絡(luò)那樣交換信息。MCAN智能體將對(duì)手的提議(如cheaptalk和offer)作為輸入,并將其發(fā)送給提議解析器。在更新狀態(tài)后,DRL策略輸出一個(gè)動(dòng)作給提議生成器,指導(dǎo)最佳提議。根據(jù)用戶研究,其根據(jù)如何贏得朋友以及效用指標(biāo)來評(píng)估MCAN智能體和基于規(guī)則的智能體。與人類協(xié)商的實(shí)驗(yàn)結(jié)果表明,MCAN智能體學(xué)會(huì)了一種綜合語言交際技巧和報(bào)價(jià)策略的協(xié)商策略。這項(xiàng)工作之后將探索如何學(xué)習(xí)更復(fù)雜的語言溝通技能,并將其應(yīng)用于自然語言處理,以實(shí)現(xiàn)更面向應(yīng)用的架構(gòu)。

        3.6 通過個(gè)性建模改進(jìn)協(xié)商對(duì)話模型

        2021年,Runzhe Yang等人[40]將心智理論(Theory of Mind,ToM)[41]建模融入面向任務(wù)的對(duì)話系統(tǒng)中,提供了一種建模和推斷對(duì)手性格,預(yù)測(cè)對(duì)手心智狀態(tài)變化的模型,同時(shí)利用這種模型去調(diào)整智能體高級(jí)的語言動(dòng)作策略。以當(dāng)前狀態(tài)和自己所說的自然語言為輸入,輸出對(duì)手的假想反饋。這個(gè)假想的反饋能夠幫助智能體選擇更加合理的動(dòng)作。為了預(yù)測(cè)對(duì)手的反饋,將對(duì)手的性格建模為一個(gè)能夠根據(jù)對(duì)話歷史得到的隱變量z,利用這個(gè)隱變量z、歷史的狀態(tài)和當(dāng)前所有可能采取的動(dòng)作來計(jì)算對(duì)手反饋的分布,進(jìn)而可以計(jì)算出對(duì)于每個(gè)動(dòng)作,它所能得到的長期收益,最終選出當(dāng)前最合適的動(dòng)作。這項(xiàng)工作在克雷格(CRAIGSLISTBARGAIN)[42]數(shù)據(jù)集上進(jìn)行了方法測(cè)試,結(jié)果表明所提的方法使用ToM作推斷,相較基線能提升20%以上的交易成交率。此外,模型在面對(duì)不同類型的對(duì)手時(shí),能夠展現(xiàn)出多樣性的協(xié)商行為。這項(xiàng)工作之后的方向包括開發(fā)有效的方案來逼近未來狀態(tài)的值計(jì)算,探索更高階的ToM,以及將ToM更緊密地整合到話語生成和處理中。協(xié)商系統(tǒng)的心智理論框架如圖8所示[40]。

        圖8 協(xié)商系統(tǒng)的心智理論框架

        4 結(jié)束語

        本文對(duì)現(xiàn)有的基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)協(xié)商任務(wù)進(jìn)行了綜述,從提出的背景、基本概念、算法的思想及模型優(yōu)缺點(diǎn)等方面進(jìn)行了詳細(xì)的分析。強(qiáng)化學(xué)習(xí)和自動(dòng)協(xié)商任務(wù)相結(jié)合的研究備受關(guān)注,推動(dòng)了利用強(qiáng)化學(xué)習(xí)方法進(jìn)行自動(dòng)協(xié)商的研究和發(fā)展,且已取得了一定的成果,但該結(jié)合研究仍存在問題和挑戰(zhàn)亟需解決。深度強(qiáng)化學(xué)習(xí)領(lǐng)域的算法依然存在著其自身問題,例如訓(xùn)練不穩(wěn)定、需要人為設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)等。因此,如何提高生成模型的性能是深度強(qiáng)化學(xué)習(xí)能在自動(dòng)協(xié)商任務(wù)中得以廣泛應(yīng)用的重要研究方向。同時(shí),目前利用強(qiáng)化學(xué)習(xí)算法及思想解決自動(dòng)協(xié)商任務(wù),僅局限在經(jīng)典的強(qiáng)化學(xué)習(xí)算法。深度強(qiáng)化學(xué)習(xí)發(fā)展至今有許多改進(jìn)算法及新的模型,因此如何將更適合的強(qiáng)化學(xué)習(xí)算法有效地應(yīng)用于自動(dòng)協(xié)商任務(wù),也是另一個(gè)亟待探索的研究方向。

        猜你喜歡
        效用報(bào)價(jià)協(xié)商
        小學(xué)美術(shù)課堂板書的四種效用
        論協(xié)商實(shí)效與協(xié)商倫理、協(xié)商能力
        Rheological Properties and Microstructure of Printed Circuit Boards Modifed Asphalt
        以政協(xié)參與立法深化協(xié)商民主
        納米硫酸鋇及其對(duì)聚合物的改性效用
        中國塑料(2016年9期)2016-06-13 03:18:48
        幾種常見葉面肥在大蒜田效用試驗(yàn)
        玉米田不同控釋肥料效用研討
        協(xié)商民主與偏好轉(zhuǎn)變
        報(bào)價(jià)
        一本久道久久综合五月丁香| 蜜臀av色欲a片无码精品一区| 人妻中文无码久热丝袜| 日本午夜精品理论片A级APP发布 | 不卡一区二区视频日本| 999国内精品永久免费观看| 国产又爽又黄的激情精品视频| 日本女同伦理片在线观看| 婷婷色精品一区二区激情| 18黑白丝水手服自慰喷水网站| japanese无码中文字幕| 国产免费的视频一区二区| 日本一区二区视频在线| 亚洲国产欧美日韩欧美特级| 无码国产精品一区二区免| 亚洲成人色黄网站久久| 久久精品中文少妇内射| 亚洲乱码av乱码国产精品| 无码va在线观看| 香蕉视频毛片| 精品一区二区亚洲一二三区| 熟妇高潮一区二区三区在线观看 | 亚洲 都市 校园 激情 另类| 日韩精品中文字幕综合| 国内自拍速发福利免费在线观看| 欧洲熟妇色xxxx欧美老妇软件| 欧美freesex黑人又粗又大 | 精品视频一区二区在线观看| 精品久久一品二品三品| 日本又色又爽又黄又免费网站| 麻豆国产人妻欲求不满| 婷婷精品国产亚洲av| 草逼短视频免费看m3u8| 日本爽快片18禁免费看| 91超碰在线观看免费| 久久九九av久精品日产一区免费| 午夜福利一区在线观看中文字幕 | 国产剧情国产精品一区| 国产激情视频在线观看你懂的| 美女露出自己的性感大胸一尤内衣| 男人扒开女人下面狂躁小视频|