王 琨
南京模擬技術(shù)研究所,江蘇 南京 210000
神經(jīng)網(wǎng)絡(luò)的泛化能力,即訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)試樣本或工作樣本做出的正確反應(yīng)的能力,是神經(jīng)網(wǎng)絡(luò)最重要的性能。對(duì)于不同類型的測(cè)試樣本或工作樣本,若是要訓(xùn)練出一個(gè)具有廣泛適應(yīng)能力的神經(jīng)網(wǎng)絡(luò),必然會(huì)造成部分資源的浪費(fèi),所以如何設(shè)計(jì)出滿足要求并消耗較少資源的神經(jīng)網(wǎng)絡(luò),是當(dāng)前神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究的熱點(diǎn)之一。
Agent的概念出現(xiàn)于 20世紀(jì) 70年代的人工智能(AI,Artificial Intelligence)中,80年代后期才成長(zhǎng)起來(lái)。多Agent系統(tǒng)(MAS,Multi-Agent Systems)是指一些 Agent通過(guò)自主協(xié)作完成某些任務(wù)或?qū)崿F(xiàn)某些目標(biāo)的大型系統(tǒng)。MAS作為Agent相關(guān)技術(shù)的主要發(fā)展方向,在目前的廣泛應(yīng)用中受到了極大的關(guān)注和重視。MAS指的是由多個(gè)能力知識(shí)有限且狀態(tài)不同的Agent所組成的Agent系統(tǒng)。這些成員Agent在一個(gè)大目標(biāo)的驅(qū)使下,相互合作、相互服務(wù),共同完成一個(gè)任務(wù)。其中,每個(gè)Agent都是完全獨(dú)立自治的,不會(huì)干擾或影響其他Agent的目標(biāo)及行為。
本文通過(guò)將動(dòng)態(tài)聯(lián)盟的 Agent系統(tǒng)設(shè)計(jì)原理引入神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)中,提出了基于動(dòng)態(tài)聯(lián)盟的多Agent系統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)構(gòu)架。該構(gòu)架能夠根據(jù)任務(wù)目標(biāo)需求自適應(yīng)動(dòng)態(tài)更新神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并根據(jù)資源分配方式將神經(jīng)網(wǎng)絡(luò)分解成一些子神經(jīng)網(wǎng)絡(luò),從而提高神經(jīng)網(wǎng)絡(luò)的適應(yīng)性及優(yōu)化資源使用率。
單個(gè) Agent由于本身知識(shí)和計(jì)算資源的有限性,導(dǎo)致其智能性受到限制。多個(gè)Agent組成的MAS是一個(gè)多Agent系統(tǒng)。多Agent系統(tǒng)成員之間通過(guò)相互協(xié)同、相互服務(wù)一起完成共同的任務(wù),其中各 Agent系統(tǒng)成員的活動(dòng)都具有完全的獨(dú)立性和自治性,即其自身的行為和目標(biāo)不會(huì)受到系統(tǒng)中其它成員的影響,MAS可以通過(guò)協(xié)商等方式處理各 Agent成員在目標(biāo)和行為上的沖突和矛盾[1]。多個(gè)Agent間通過(guò)形成聯(lián)盟來(lái)執(zhí)行單個(gè) Agent無(wú)法完成的任務(wù),能夠提高任務(wù)完成的成功率和執(zhí)行的效率。在基于動(dòng)態(tài)聯(lián)盟的Agent系統(tǒng)中每一個(gè) Agent單元都是可以通過(guò)觸發(fā)事件成為聯(lián)盟主導(dǎo)者的動(dòng)態(tài)聯(lián)盟發(fā)起者;而當(dāng)任務(wù)完成后,聯(lián)盟解散時(shí)每一個(gè)聯(lián)盟發(fā)起者又會(huì)變成一個(gè)普通的Agent單元。正是通過(guò)這種以完成任務(wù)為目的、以臨時(shí)結(jié)盟為方式的動(dòng)態(tài)解決任務(wù)過(guò)程,使得系統(tǒng)擁有了更加有效的任務(wù)解決能力[2]。
基于聯(lián)盟式的多Agent系統(tǒng)結(jié)構(gòu)如圖1所示,是在完全集中式與完全分布式的基礎(chǔ)上形成的。每個(gè)聯(lián)盟內(nèi)部都是完全集中式,而聯(lián)盟彼此之間的關(guān)系為完全分布式。假設(shè)表示多Agent系統(tǒng)的Agent集合,每個(gè)Agent所擁有的資源為,其中k表示系統(tǒng)資源的種類,表示Agent所擁有的第l種資源數(shù)量。為系統(tǒng)中待分配的任務(wù)集,表示任務(wù)分別對(duì) k中資源的需求。聯(lián)盟C的成員Agent所擁有的第l項(xiàng)資源的總和為,若對(duì)于任意滿足,則聯(lián)盟劃分滿足要求。
圖1 基于聯(lián)盟式的多Agent系統(tǒng)結(jié)構(gòu)示意圖
動(dòng)態(tài)聯(lián)盟的組成包括聯(lián)盟盟主(Head of the Coalition,HC)和聯(lián)盟盟員(Member of the Coalition,MC)兩種成員角色。通常,盟主是唯一存在的,而多個(gè)盟員與唯一盟主相連。圖 2給出了動(dòng)態(tài)聯(lián)盟的組成結(jié)構(gòu),M為聯(lián)盟盟主,A、B、C、D為聯(lián)盟成員,所有聯(lián)盟成員都在盟主周圍由盟主主導(dǎo)對(duì)相應(yīng)事件做出響應(yīng)。盟主在整個(gè)聯(lián)盟中扮演著核心的角色,負(fù)責(zé)任務(wù)的分解、分配和成員的控制管理,還會(huì)對(duì)完成的任務(wù)信息進(jìn)行融合和記錄。盟員只是簡(jiǎn)單地接收任務(wù)、執(zhí)行任務(wù)、提交結(jié)果。動(dòng)態(tài)聯(lián)盟的生命周期長(zhǎng)短根據(jù)事件和任務(wù)的需求而定,聯(lián)盟是由于事件或任務(wù)的出現(xiàn)而產(chǎn)生的,聯(lián)盟的解散也是在任務(wù)被完成之后。動(dòng)態(tài)聯(lián)盟的生命周期包括了準(zhǔn)備期、建立期、工作期和解散期。聯(lián)盟的建立期和工作期是整個(gè)工作流程的核心運(yùn)作時(shí)期,包含了盟主與盟員之間的大量通信協(xié)作。
圖2 動(dòng)態(tài)聯(lián)盟結(jié)構(gòu)示意圖
多Agent系統(tǒng)神經(jīng)網(wǎng)絡(luò)構(gòu)架如圖3所示。在數(shù)據(jù)訓(xùn)練過(guò)程中,匯聚單元會(huì)監(jiān)測(cè)數(shù)據(jù)的類型,盟主選擇策略會(huì)對(duì)盟主的身份進(jìn)行確定,接下來(lái)盟主會(huì)根據(jù)全局子網(wǎng)絡(luò)節(jié)點(diǎn)的配置信息選擇合適能力與數(shù)量的Agent子網(wǎng)絡(luò)形成相關(guān)的聯(lián)盟組織。聯(lián)盟形成后根據(jù)數(shù)據(jù)類型以及相關(guān)子網(wǎng)絡(luò)映射關(guān)系將相關(guān)數(shù)據(jù)發(fā)送給盟員節(jié)點(diǎn),盟員節(jié)點(diǎn)獲取數(shù)據(jù)并完成處理后傳送給盟主節(jié)點(diǎn),盟主節(jié)點(diǎn)在接收的各盟員節(jié)點(diǎn)信息后進(jìn)行相關(guān)的數(shù)據(jù)融合、濾波分析、目標(biāo)預(yù)測(cè)等處理最終將結(jié)果進(jìn)行反饋。隨著數(shù)據(jù)類型的變化,開(kāi)始的聯(lián)盟逐漸變得不再合適,這時(shí)會(huì)根據(jù)全局信息進(jìn)行盟主的移位和新聯(lián)盟的確認(rèn),整個(gè)流程是一個(gè)盟主確認(rèn)、聯(lián)盟組建、盟主移位、聯(lián)盟再組建的循環(huán)過(guò)程,只有達(dá)到終止條件整個(gè)過(guò)程才會(huì)結(jié)束[3]。動(dòng)態(tài)的聯(lián)盟工作模式保證了子網(wǎng)絡(luò)資源的有效利用。
圖3 多Agent系統(tǒng)神經(jīng)網(wǎng)絡(luò)構(gòu)架示意圖
各子網(wǎng)絡(luò)作為 Agent成員,對(duì)能夠表征研究對(duì)象全部特征的訓(xùn)練樣本進(jìn)行訓(xùn)練,通過(guò)訓(xùn)練在各子網(wǎng)絡(luò)內(nèi)配置好隱節(jié)點(diǎn)。對(duì)于作為匯聚單元的子網(wǎng)絡(luò),根據(jù)各類訓(xùn)練樣本訓(xùn)練得到各種聯(lián)盟類型,從而根據(jù)輸入數(shù)據(jù)的特征對(duì)子網(wǎng)絡(luò)組成的聯(lián)盟形式進(jìn)行調(diào)整[4]。在訓(xùn)練相關(guān)子網(wǎng)絡(luò)時(shí),其他不相關(guān)子網(wǎng)絡(luò)處于休眠狀態(tài),從而可以減小網(wǎng)絡(luò)規(guī)模,提高訓(xùn)練速度,增添網(wǎng)絡(luò)試試建模能力。動(dòng)態(tài)聯(lián)盟訓(xùn)練流程如圖4所示。
圖4 動(dòng)態(tài)聯(lián)盟訓(xùn)練流程示意圖
本文提出了基于動(dòng)態(tài)聯(lián)盟的多 Agent系統(tǒng)神經(jīng)網(wǎng)絡(luò)構(gòu)架,該構(gòu)架能夠根據(jù)任務(wù)目標(biāo)需求自適應(yīng)動(dòng)態(tài)更新神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),并根據(jù)資源分配方式將神經(jīng)網(wǎng)絡(luò)分解成一些子神經(jīng)網(wǎng)絡(luò),從而提高神經(jīng)網(wǎng)絡(luò)的適應(yīng)性及優(yōu)化資源使用率。
[1]何炎祥.Agent和多 Agent系統(tǒng)的設(shè)計(jì)與應(yīng)用[M].武漢:武漢大學(xué)出版社,2001.
[2]施華傳.多Agent系統(tǒng)中Agents聯(lián)盟問(wèn)題研究[D].合肥:合肥工業(yè)大學(xué),2003.
[3]馬巧云.基于多Agent系統(tǒng)的動(dòng)態(tài)任務(wù)分配研究[D].武漢:華中科技大學(xué),2006.
[4]孫家民.基于多Agent系統(tǒng)的網(wǎng)絡(luò)協(xié)同控制研究[D].沈陽(yáng):沈陽(yáng)理工大學(xué),2017.