亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BDI邏輯的多Agent系統(tǒng)的學習機制

        2023-03-05 04:16:10
        關(guān)鍵詞:定義規(guī)劃情境

        周 正

        (北京師范大學哲學學院,北京 100875)

        國外關(guān)于理性Agent的信念-愿望-意圖(Belief-Desire-Intention,簡稱BDI)模型及其哲學解釋的文獻豐碩[1]。例如,丹尼特(Dennett)探討了理性Agent意圖的哲學基礎(chǔ)[2];布拉特曼(Bratman)研究了其實踐推理[3];拉奧(Rao)和喬治夫(Georgeff)給出了其簡潔而抽象的邏輯語義[4];喬治夫(Georgeff)和蘭斯基(Lansky)給出的過程推理系統(tǒng)PRS[5],是對理性Agent的BDI模型的實現(xiàn)。

        雖然理性Agent的BDI模型在多個領(lǐng)域都有著諸多成功的應用實例,如:航天飛機的診斷、工廠的過程控制、商業(yè)過程管理,仿人機器人,等等[6]。但是BDI模型卻有兩個弱點:一是缺少學習能力;二是缺少顯著的多Agent功能[7]。本文將在埃爾南德斯(Hernández)等工作的基礎(chǔ)上[8],探討多BDI-Agent系統(tǒng)中的學習機制。

        本文在艾維諾(Inverno)等分布式多Agent推理系統(tǒng)dMARS說明的基礎(chǔ)上[9],從多Agent 系統(tǒng)學習的視角,揭示了如何把一個BDI 結(jié)構(gòu)擴展成帶有學習機制的BDI 結(jié)構(gòu)。為此,需要運用歸納邏輯編程方法[10]和邏輯決策樹歸納[11],讓Agent 學習規(guī)劃何時可以執(zhí)行,因為Agent 的學習行為可以由規(guī)劃背景來表示,即由實踐推理選擇的BDI模型的組成部分來表示。

        一、BDI-Agent的體系結(jié)構(gòu)

        Agent 的BDI 模型可以通過意圖系統(tǒng)和實踐推理理論這兩個與意圖性有關(guān)的理論,實現(xiàn)自主行為。丹尼特把意圖系統(tǒng)定義成具有愿望和其他命題態(tài)度的實體[2]。布拉特曼的實踐推理理論認為[3]:Agent可以理解自己和他人,該理解的基礎(chǔ)是信念、愿望和意圖,而且意圖被看作是規(guī)劃的一部分。利用這些與意圖相關(guān)的概念,可以對Agent行為進行形式化的描述,即根據(jù)信念、愿望和意圖(BDI),得到Agent 的意圖,并用這種意圖描述,以一種相容的方式設計Agent,這種Agent 就是一個實踐推理系統(tǒng)。BDI邏輯可以對意圖和實踐推理的不同方面進行形式化的研究[4]。

        本文將利用如下圖1中的場景,描繪帶有學習能力的多BDI-Agent結(jié)構(gòu)。在此場景中,有一個雙手機器人(即agent r1)、一個木板(board)、一個打磨機(sander)、一個繪畫噴漆器(paint sprayer)和一個鉗子(vise)。給機器人設定不同的目標,如打磨木板或給自己畫像。這兩個目標是不相容的,因為當機器人成為被繪畫的對象時,它就有一段時間不能操作了(它的狀態(tài)從ok 變成painted)。機器人有不同選擇(即規(guī)劃)去達成目標。有可能在環(huán)境中引入其他機器人(例如agent r2)進行社會交互實驗,如共享目標、資源競爭等[8]220。

        圖1 簡單的實例場景及其簡化的BDI規(guī)劃

        (一)BDI模型

        一般來說,一個BDI-Agent模型的體系結(jié)構(gòu),可以根據(jù)信念、愿望、事件隊列、規(guī)劃和意圖這五個方面的數(shù)據(jù)結(jié)構(gòu)加以說明[8]220-223。

        信念:信念表示有關(guān)世界的信息。每個信念都表示成一階邏輯的基本表達式。非基本表達式用來定義規(guī)劃。通過環(huán)境感知和執(zhí)行意圖可以更新信念。例如,圖1 展現(xiàn)的場景可以表示成如下信念:(p-state r1 ok)、(p-at sander free)、(p-at board free)、(p-handfree r1 left)、(p-handfree r1 right)、(p-at sprayer free),其中free是一個常元,表示物體沒有被鉗住或被Agent占用,其他基本表達式就是字面意思。

        愿望:愿望有時被稱為目標,與分配給Agent的任務對應。通常認為各種愿望之間在邏輯上是一致的。愿望包括信念達成和情境測試,情境測試用情境公式來表示,一個情境公式就是一個信念公式或信念公式的合取或析取,例如(test(and(p-state r1 ok)(p-freehand r1?x)))。所有以“?”開頭的字符串都是變元,而所有以“p-”開頭的字符串都是謂詞符號。

        事件隊列:Agent 的感知被映射到儲存在隊列中的事件。事件包含獲取或刪除信念(如(add-bel(p-sand board)))、接收信息(如(told r2(achieve(p-sand board))))和獲取新目標。這些實例都得到了簡化,而且事件得以實現(xiàn)時的結(jié)構(gòu)保存了歷史信息蹤跡;顯示的內(nèi)容對應于觸發(fā)器,該觸發(fā)器是事件的組成部分,可以用來識別這些結(jié)構(gòu)。信息的接收和發(fā)出可以實現(xiàn)多BDI-Agent系統(tǒng)的能力。

        規(guī)劃:BDI-Agent 通常有一個預定義的規(guī)劃庫。每個規(guī)劃都包含幾個部分,如圖1 的簡化規(guī)劃就是如此。在圖1 中plan-id 用來識別規(guī)劃庫中的規(guī)劃。圖1 場景中的規(guī)劃就是p007。觸發(fā)器相當于規(guī)劃的調(diào)用條件,說明規(guī)劃需要處理的事件。規(guī)劃p007 由形式為(achieve(p-sanded?obj))的事件觸發(fā)。在該實例中允許使用變元。如果Agent 在事件隊列中登記一個形式為(achieve(p-sand board))的事件,那么該Agent 會認為p007 是處理此事件的相關(guān)規(guī)劃。被表示成一個情境公式的背景可以詳細說明執(zhí)行規(guī)劃的環(huán)境。

        如果Agent 有一只手是自由的,且待打磨的物體也是自由的,那么規(guī)劃p007就是可執(zhí)行的。規(guī)劃體表示行動的可能方案。規(guī)劃體是樹形結(jié)構(gòu),其節(jié)點相當于狀態(tài),其弧線相當于Agent的行動或目標。p007的規(guī)劃體從一個外部行動開始,由“*”開頭的符號(*pickup?x)進行標識。外部行動類似于Agent能直接執(zhí)行的過程。之后規(guī)劃體還有兩個目標。當規(guī)劃執(zhí)行時,給事件隊列通告目標,然后考慮其他能執(zhí)行該事件的規(guī)劃,等等。另外,規(guī)劃有一些維持條件,用于描述繼續(xù)執(zhí)行該規(guī)劃必須保留的環(huán)境,規(guī)劃的成功和失敗由一個內(nèi)在行動集加以說明。一些BDI結(jié)構(gòu)還包含該規(guī)劃效用的一些標準。

        意圖:意圖是Agent 承諾執(zhí)行的行動方案。每個意圖作為一個規(guī)劃實例棧加以實現(xiàn)。在圖1的場景中,規(guī)劃p007與響應事件(achieve(p-sanded board))相關(guān)。如果一個規(guī)劃背景是Agent信念的結(jié)果,那么該規(guī)劃就是可執(zhí)行的。一個規(guī)劃實例由一個在規(guī)劃庫中定義的規(guī)劃以及與該規(guī)劃相關(guān)的適當替換組成,如(board/?obj,left/?hand,r1/?ag)。如果觸發(fā)規(guī)劃的事件是外部事件,即沒有規(guī)劃促使該事件發(fā)生,那么就創(chuàng)建一個空棧,并把該規(guī)劃壓入到此空棧中。如果該事件是內(nèi)部事件,即該事件是由一個規(guī)劃促成的,那么該規(guī)劃實例就壓入到一個已存在的棧中,而且該棧包含促成該事件的規(guī)劃。例如,在圖1 的場景中,設想在執(zhí)行p007 時,產(chǎn)生了一個處理事件(achieve(p-at(board,vise))的規(guī)劃實例p005,那么該規(guī)劃實例就會壓入到包含p007的棧中,得到結(jié)果(p005 p007)。

        這些結(jié)構(gòu)與一個解釋器相互作用(如圖2所示),而且該解釋器可能有不同的算法,最簡單的算法包括如下5個步驟[8]222:

        圖2 受“dMARS說明”啟發(fā)的BDI結(jié)構(gòu)

        (1)通過感知和內(nèi)部行動來更新事件隊列,反映已觀察到的事件;

        (2)選擇一個事件,通常是隊列里面的第一個事件,通過找出“規(guī)劃庫中與所選事件相關(guān)的”規(guī)劃集來得到新的可能愿望,即得到“觸發(fā)條件與所選事件匹配的”那些規(guī)劃;

        (3)從相關(guān)規(guī)劃集中選擇一個可執(zhí)行的規(guī)劃,即“其背景是Agent信念的邏輯后承的”規(guī)劃,并為該規(guī)劃創(chuàng)建一個規(guī)劃實例;

        (4)如前文解釋的那樣,將該規(guī)劃實例壓入到一個已存在或新的意圖棧中;

        (5)若事件隊列為空,則選擇一個意圖棧,提取最上面的規(guī)劃,執(zhí)行該規(guī)劃的當前步驟。如果這一當前步驟是行動,那么就執(zhí)行該行動;如果這一當前步驟是一個子目標,將這一當前步驟加入事件隊列。

        (二)關(guān)于BDI結(jié)構(gòu)的實現(xiàn)問題

        BDI結(jié)構(gòu)可以使用符號編程語言加以實現(xiàn),即通過使用表處理語言Lisp加以實現(xiàn),而且在對其解釋器進行實現(xiàn)時,可以借鑒類似過程推理系統(tǒng)PRS的Jam![8]223。因為分布式多Agent推理系統(tǒng)dMARS中使用的結(jié)構(gòu)和步驟,非常適合表處理語言Lisp的“數(shù)據(jù)表示的統(tǒng)一性特征”,即把步驟表示成列表,數(shù)據(jù)表示成步驟抽象,等等。

        圖2給出的Agent體系結(jié)構(gòu)具有如下標準的BDI特征:可以為系統(tǒng)中的Agent定義“可用的初始行動功能”,而且可以定義使用這些初始行動的規(guī)劃;根據(jù)規(guī)劃庫,為Agent定義和指派不同的能力;根據(jù)初始事件為每個Agent設定目標;在不同承諾策略下對Agent行為進行處理。如果BDI公式是信念集的邏輯后承,那么定義Agent的BDI語言是句法驗證工具,而且內(nèi)置測試函數(shù)也具有標準的BDI特征。圖2給出的體系結(jié)構(gòu)與OS的接口可以由表處理語言Lisp提供。

        圖2 給出的Agent 體系結(jié)構(gòu)具有如下非標準BDI 特征:包含模擬多Agent 系統(tǒng)中的Agent 函數(shù)集,將其視為在同一個表處理語言Lisp 圖像中運行的并行程序;一個使用DTP 定理證明器(杰迪斯[11])的接口。當Agent需要處理“內(nèi)置邏輯能力無法處理的”更為復雜的認知推理時,就需要這種接口。DTP定理證明器使用模型消除算法和論域獨立推理,在一階謂詞演算中,就可以處理來自數(shù)據(jù)庫的查詢證明,從而進行駁斥或證偽。使用帶有模型消除化歸的子目標推理,就可以使得DTP 推理具有可靠性和完全性[8]223。

        二、BDI學習Agent

        拉維爾(Russell)和諾維格(Norvig)把泛型學習Agent結(jié)構(gòu)分為以下四個部分[12]:(1)學習部分,通過執(zhí)行學習算法負責自我改進;(2)執(zhí)行部分,負責采取行動;(3)評判部分,負責提供反饋;(4)問題生成部分,負責建議“能提供信息的”行動。本文適合dMARS說明的BDI結(jié)構(gòu)[7],對應于BDI學習Agent結(jié)構(gòu)的執(zhí)行部分。

        (一)影響學習方法選擇及其設計的因素

        BDI-Agent學習部分的設計,以及具體學習方法的選擇,通常受到如下五個主要問題的影響[8]224-225。

        1.執(zhí)行部分的哪些子部分可以通過學習加以改進

        BDI-Agent是直接面向行動的推理,而無Agent的人工智能系統(tǒng),是直接面向信念的認知推理。從實踐推理理論中的信念作用看,即使信念能夠解釋Agent行為的合法性,這些信念也僅僅是背景框架的一部分,這些信念和先驗意圖都會限制新意圖的采納。因此,可以把規(guī)劃背景視為以某種方式對實踐推理行動的編碼。對BDI體系結(jié)構(gòu)進行擴展,即,在使Agent能夠了解他們的規(guī)劃的背景,即規(guī)劃何時是可執(zhí)行的。準確地說,本文的BDI-Agent不學習規(guī)劃,而是學習何時使用規(guī)劃。

        2.如何表示“通過學習可以改進的”性能子部分

        BDI 體系結(jié)構(gòu)由信念公式和情境公式這兩類一階公式來表示,這類似于Prolog 事實的表示方法。信念公式用來定義規(guī)劃,每個信念公式也是一個情境公式,但是情境公式還包括信念公式的合取或析取。規(guī)劃背景表示成情境公式。當考慮候選的學習方法時,這些表示方式存在如下兩個問題:第一,給定信念公式和情境公式的表示方式,就需要拋棄命題學習方法;第二,把規(guī)劃背景表示成情境公式,就要求學習方法的目標表示必須使得析取假設可用,如要求判定樹可用。

        3.哪些反饋可以用于學習

        BDI體系結(jié)構(gòu)幾乎都可以直接得到反饋,因為該結(jié)構(gòu)能夠“對規(guī)劃實例成功或失敗執(zhí)行”進行檢測和處理。這可以通過執(zhí)行一組內(nèi)在行動來做到這一點,迄今為止的這些內(nèi)在行動是指添加或刪除信念。對于規(guī)劃庫中的每個規(guī)劃,這些內(nèi)在行動是預定義的。使用具體的內(nèi)在行動就可以對這種BDI體系結(jié)構(gòu)進行擴展,從而生成學習任務訓練實例的日志文件;建立這些實例的條目包括:表征規(guī)劃選擇時的信念、執(zhí)行該規(guī)劃和plan-id后的成功或失敗標簽。

        4.哪些先驗信息可以用于學習

        先驗信息有如下兩種來源:第一,可以把Agent的規(guī)劃庫視為一種先驗信息;從Agent角度看,在該環(huán)境中必須出現(xiàn)所期望的規(guī)劃狀態(tài),即:如果執(zhí)行了規(guī)劃p,事件e就會得到滿足;并且如果p的背景就是Agent信念的邏輯后承,情況也是如此。第二,本文的BDI體系結(jié)構(gòu)可以追溯謂詞、函數(shù)及其簽名的蹤跡,用于定義每個Agent規(guī)劃庫中的規(guī)劃,而且這些元素能夠描述“學習過程中目標概念”語言。

        5.是集中式學習還是分布式學習

        意識似乎能夠表示“復雜性遞增的學習多Agent系統(tǒng)的”層級,這種學習環(huán)境層級以某種方式對應于丹尼特[2]的意圖性等級。本文將探討其中第一層級和第二層級的學習。第零層級的學習是指其環(huán)境中只有一個Agent,是真正的孤立學習狀況,可以視為第一層級的特例。

        第一層級的學習:此層級中,Agent通過與環(huán)境的直接交互來行動和學習,在多Agent系統(tǒng)中,沒有明確意識到其他Agent。但是,學習Agent能感知到其他Agent對環(huán)境的改變?,F(xiàn)在再次考慮有兩個機器人的場景:一個專心繪畫,另一個打磨物體??梢詾槔L畫機器人編制程序,而不用意識到環(huán)境中的其他Agent,繪畫機器人只需要知道的是,一旦物體打磨好后,就可以在該物體上面繪畫。

        第二層級的學習:此層級中,Agent的行動和學習與其他Agent,可以通過信息交換直接進行交互。在圖1的場景實例中,打磨機器人可以通知繪畫機器人“一個物體已經(jīng)打磨好了”;而且繪畫機器人可以向打磨機器人詢問此信息。在該層級中,可以考慮學習過程中訓練實例的交換。

        第三層級的學習:此層級中,Agent的學習來自對系統(tǒng)中其他Agent行動的觀察。這會涉及不同于第二層級的意識種類。學習Agent不僅能夠意識到其他Agent的存在,還能夠意識到它們的能力,因此繪畫機器人能感知到打磨機器人即將打磨的木板。

        (二)邏輯決策樹自頂向下的歸納

        如前文所述,從規(guī)劃背景的表示方式角度來看,可以使用判定樹表示目標。判定樹自頂向下的歸納(TDIDT)是一個應用廣泛且有效的機器學習技術(shù)。把學習函數(shù)表示成樹,這些函數(shù)對應于本文實例屬性值上約束合取的析取。從判定樹根節(jié)點到葉節(jié)點的每條路徑,對應于一個屬性測試的合取,而樹本身就是這些合取的析取,即所需要的規(guī)劃背景的表示方式。使用從解釋中學習的ILP范式[13],邏輯決策樹就可以把屬性-值表示升級成一階表示。這時,每個訓練實例e由“編碼了e的所有性質(zhì)的”一組事實來表示,而背景知識以Prolog程序B的形式給出。表示實例e的解釋是一個“由e∧B蘊涵的所有基本事實構(gòu)成的”集合,即,它的最小Herbrand模型。

        現(xiàn)在給出“從解釋中學習”的定義。如果給定:(1)一個目標變元Y;(2)一個加標實例集E;在論域Y中,每個實例由值y加標的明確子句集e組成;(3)一個語言L;(4)一個背景理論B;加標的實例,就存在一個假設H∈L使得:H∧e∧B?label(y)且?y′≠y:H∧e∧B?/label(y′)。

        從解釋中學習利用了局部假定,即,所有與單個實例相關(guān)的信息,可以以兩種方式進行局部化,而實例中包含的信息與背景知識中的信息是分離的,一個實例中的信息與其他實例中的信息也是分離的。從解釋中學習的場景介于“屬性-值”與“從蘊涵中學習”的場景之間[10]。把屬性-值表示“朝著歸納邏輯編程ILP方向擴展”,不會降低學習效率[8]226。

        布洛克爾(Blockeel)等[14]提出ACE系統(tǒng)就是一個從解釋中學習的系統(tǒng),該系統(tǒng)構(gòu)建了邏輯決策樹,即,“其每個內(nèi)部節(jié)點都是表達式的一階合取”的決策樹。下文將說明:在本文BDI 擴展體系結(jié)構(gòu)中,Agent 在自主性和意圖性驅(qū)動下,如何判斷Agent 在什么時候應該學習、何時配置學習集、何時執(zhí)行ACE。

        三、第一層級的學習——集中化學習

        假定圖1 中的agent r1 已經(jīng)選擇規(guī)劃p007 處理事件(achieve(p-sanded board))。在解釋器的執(zhí)行階段,這個規(guī)劃要么成功要么失敗。如果規(guī)劃失敗,我們期望Agent 嘗試學習為什么規(guī)劃會失敗,假定Agent已經(jīng)進行了實踐推理以適應其意圖,該推理表征在規(guī)劃背景中,那么有了經(jīng)驗之后,Agent應該對“表示規(guī)劃背景的”情境公式進行再思考。為了執(zhí)行學習過程,Agent 需要生成如下三個文件:訓練實例、背景理論和ACE參數(shù),這些參數(shù)包含目標語言L的說明、期望的格式輸出等等。plan-id用來識別這些文件,這些文件包括:(1)“由擴展名.kb標記的”知識庫,包括知識所屬類別標簽的實例;(2)“由擴展名.bg標記的”背景理論;(3)“由擴展名.s標記的”語言偏倚。

        這些文件由Agent自動生成,其生成過程如下[8]227-229:

        當偵測到意圖成功或失敗時,agent r1在標記了p007.kb的日志文件中追蹤執(zhí)行過程,向ACE標示它包含與此規(guī)劃相關(guān)的實例。每個模型從一個標示了規(guī)劃success或failure執(zhí)行的標簽開始;然后添加一個謂詞plan構(gòu)建一個模型,該模型就是一個具體Agent執(zhí)行一個具體規(guī)劃的實例。當被選規(guī)劃創(chuàng)建規(guī)劃實例時,模型就包含了Agent 信念。當被選規(guī)劃是相關(guān)且可用的規(guī)劃時,Agent 會記住部分模型。在執(zhí)行階段,會加入標簽。該實例的知識庫儲存在文件p007.kb中。

        背景理論包含被學習規(guī)劃的信息,變元和常元符號來自規(guī)劃定義。在圖1的BDI-Agent系統(tǒng)中,一個函數(shù)會把規(guī)劃p007的初始定義翻譯成如下這種格式,該格式對p007的規(guī)劃背景進行編碼:plan_context(Ag,p007):-p_handfree(Ag,Hand),p_at(Obj,free)。

        然后生成配置文件。在圖1的實例中,配置信息儲存在文件p007.s中。該文件的第一部分與所有配置文件相同,用于說明在學習時:ACE打印的信息、學習案例的最低數(shù)目、輸出的格式(要么是一個邏輯決策樹,要么是一個邏輯程序)、目標概念所使用的類(即要么成功要么失?。?。

        在為樹節(jié)點生成測試時,配置文件的第二部分將說明需要考慮的謂詞。Agent生成配置文件的方式依賴Agent 定義。在對規(guī)劃定義的每個時刻,解釋器都會追蹤定義該規(guī)劃的謂詞及其簽名。在圖1的實例中,定義Agent可以使用三個謂詞:(p_state/2,p_freehand/2,p_at/2)。所以,Agent要求學習算法把帶有變元的這些謂詞作為論元:

        rmode(p_state(Ag,State));

        rmode(p_freehand(Ag,Hand));

        rmode(p_at(Obj,Place))。

        在該實例后,Agent要求學習算法對這些帶有論元的謂詞進行實例化。

        rmode(p_state(+Ag,#));

        rmode(p_freehand(+Ag,#));

        rmode(p_at(+Obj,#))。

        在背景理論中,也需要考慮使用的謂詞。所有配置都至少有如下兩種形式:

        rmode(plan_context(Ag,Plan));

        rmode(plan_context(+Ag,#))。

        ACE使用rmode命令對語言偏倚L加以限定??梢园逊枴?”看成是變元占位符,從知識庫的實例中可以得到其常值。前綴“+”表示在實例之后,知識庫中必須進行實例化的變元。

        一旦實例數(shù)量大于某個閾值(如閾值是5時),Agent執(zhí)行一個修改過且非交互版本的ACE,并且建議用戶查看p007.out文件,該文件包含學習過程的結(jié)果,并相應修改規(guī)劃的定義。Agent也有可能自己修改規(guī)劃的定義。為了整合學習結(jié)果而采取的策略取決于應用領(lǐng)域,即,有時最好由用戶加以監(jiān)督。

        四、第二層級的學習——多Agent系統(tǒng)中的BDI學習Agent

        前面的實例對應學習多Agent系統(tǒng)層級中的第一層級。在第二層級中,假設Agent學習時能夠意識到其他Agent。通信對于多Agent系統(tǒng)中的學習非常重要。一個BDI-Agent在學習時,應該考慮通信的情境有如下兩種:第一,Agent不能開始學習過程的執(zhí)行,即,它沒有足夠的實例以運行ACE。這種情況下Agent可以向多Agent系統(tǒng)中的其他Agent索取訓練實例。第二,Agent無法為相關(guān)規(guī)劃的失敗找到假設來解釋,即,執(zhí)行學習過程后,ACE生成的樹結(jié)構(gòu)只有[failure]節(jié)點,或者找到的假設是正在學習的初始規(guī)劃背景。這意味著BDI-Agent用來學習的實例,不足以找出規(guī)劃失敗的原因。這種情況下,在再次執(zhí)行ACE之前,Agent可以向多Agent系統(tǒng)中其他Agent索取更多證據(jù)[8]229-230。

        多Agent系統(tǒng)中的Agent可以共享學習過程的結(jié)果,這受益于BDI體系結(jié)構(gòu)定義學習過程的方式。如果Agent能夠找到導致規(guī)劃失敗的假設,它會把結(jié)果通知給用戶,請求根據(jù)找到的決策樹對規(guī)劃定義進行修改。如果用戶修改規(guī)劃定義,這種修改會自動影響知識庫中擁有該規(guī)劃的所有Agent。但這并不意味著這些Agent 會共享所有規(guī)劃,因此在本文的體系結(jié)構(gòu)中,允許多Agent 系統(tǒng)是異構(gòu)的,即:多Agent系統(tǒng)的Agent的種類可以不同。

        用來處理通信的是“權(quán)限”概念,這里的“權(quán)限”被定義為:Agent能夠處理的所有觸發(fā)事件的集合,即Agent規(guī)劃庫中所有觸發(fā)器構(gòu)成的集合。發(fā)送消息的方式有兩種:(1)Agent廣播消息,包括觸發(fā)器和被學習規(guī)劃的plan-id 方面的消息,如果觸發(fā)事件在其他Agent 權(quán)限范圍內(nèi),它們就接受并處理消息;(2)用“權(quán)限”為每個Agent建立一個目錄,其中一個Agent權(quán)限范圍內(nèi)的每個觸發(fā)事件,與系統(tǒng)中“處理相同觸發(fā)事件的”其他Agent的id有關(guān)[8]230。

        權(quán)限與規(guī)劃決定通信內(nèi)容。如果兩個Agent對同一事件有相同規(guī)劃,那么它們就能夠參與分布式數(shù)據(jù)的收集過程,即,它們能共享雙方收集的訓練實例。這種情況下,Agent就會參與數(shù)據(jù)收集,但是每個Agent都在本地學習。

        五、結(jié)論與未來的工作

        在埃爾南德斯等工作的基礎(chǔ)上,本文展示了如何用歸納邏輯編程方法(尤其是邏輯決策樹的歸納),把BDI體系結(jié)構(gòu)擴展成“Agent擁有學習技能的結(jié)構(gòu)”。這些技能的設計與BDI-Agent行為背后的實踐理性是相容的。研究表明:(1)BDI學習Agent 結(jié)構(gòu)可以用表處理語言Lisp加以實現(xiàn);該結(jié)構(gòu)還包括兩個非標準的BDI 特征、幾個多Agent 系統(tǒng)模擬選項、一個DTP 定理證明器接口;(2)如果多Agent系統(tǒng)中的BDI-Agent 能夠共享訓練實例,那么就可以增加它們的學習機會;(3)從多Agent 系統(tǒng)學習視角看,對理性Agent-BDI 模型進行了擴展,并克服了“這些Agent 沒有學習能力和多Agent 系統(tǒng)功能的”缺點。

        未來的研究可以考慮:如何理解基于案例的推理和實踐推理理論之間的關(guān)系?如何實現(xiàn)多BDI-Agent系統(tǒng)結(jié)構(gòu)中更多的多Agent系統(tǒng)特征?是否有可能為更復雜情境中的學習集設計出信息共享協(xié)議?例如,有相同權(quán)限但具有不同規(guī)劃的Agent。如果把ACE修改成“以遞增方式學習它接收的每個實例”,共享協(xié)議就顯得尤為重要。學習與意圖Agent的多模態(tài)邏輯理論之間的關(guān)系如何?

        猜你喜歡
        定義規(guī)劃情境
        情境引領(lǐng)追問促深
        不同情境中的水
        規(guī)劃引領(lǐng)把握未來
        快遞業(yè)十三五規(guī)劃發(fā)布
        商周刊(2017年5期)2017-08-22 03:35:26
        護患情境會話
        多管齊下落實規(guī)劃
        特定情境,感人至深
        成功的定義
        山東青年(2016年1期)2016-02-28 14:25:25
        迎接“十三五”規(guī)劃
        修辭學的重大定義
        當代修辭學(2014年3期)2014-01-21 02:30:44
        亚洲国产精品无码专区在线观看| 日韩人妻免费一区二区三区| 自拍偷拍韩国三级视频| 国产精品美女一区二区视频| 亚洲小说区图片区另类春色| YW亚洲AV无码乱码在线观看| 久久久精品国产亚洲av网不卡| 日本最新一区二区三区视频观看 | 亚洲人成网站18禁止| 白又丰满大屁股bbbbb| 午夜视频网址| 中文字幕亚洲永久精品| 亚洲爆乳无码精品aaa片蜜桃| 公粗挺进了我的密道在线播放贝壳| 久久国产品野战| 久久人妻精品免费二区| 亚洲第一狼人天堂网亚洲av| 国产成人无码免费看片软件| 99re国产电影精品| 国产精品女主播在线播放| 色爱av综合网站| 久久精品日韩av无码| 日本午夜理伦三级好看| 中文字幕漂亮人妻在线| 国产性生大片免费观看性| 久久水蜜桃亚洲av无码精品麻豆| 91亚洲精品久久久中文字幕| 日韩人妻中文无码一区二区| 一本久久a久久精品亚洲| 91免费国产| 亚洲一区二区刺激的视频| 成人精品视频一区二区三区尤物 | 国产成人久久综合第一区| 亚洲av日韩av卡二| 99久久人人爽亚洲精品美女| 久久99精品久久久久九色| 美女视频黄a视频全免费网站色| 国产精品无码v在线观看| 亚洲一区二区三区成人| 日本成年少妇人妻中文字幕| 中文在线中文a|