吳英萍 耿江濤 熊曉波 余雪蓮
【摘? 要】深度強化學(xué)習(xí)引發(fā)了人工智能領(lǐng)域的革命性突破,成為問題解決的通用框架。該學(xué)習(xí)模式將深層神經(jīng)網(wǎng)絡(luò)融入強化學(xué)習(xí),不但在圖像識別和自然語言處理等領(lǐng)域取得突破性的進展,更在圍棋等復(fù)雜棋類游戲中具有超人的表現(xiàn)??偨Y(jié)歸納深度強化學(xué)習(xí)模式的優(yōu)勢在于其具有的6項重要學(xué)習(xí)機制。然而,這種模式也存在樣本數(shù)據(jù)有效性低的痛點問題。為此提出情景元深度強化學(xué)習(xí)的改進技術(shù),力圖解決困擾深度強化學(xué)習(xí)的慢速和收斂穩(wěn)定問題。這對深度強化學(xué)習(xí)技術(shù)的實際應(yīng)用起到有效的推動作用。
【關(guān)鍵詞】深度強化學(xué)習(xí);學(xué)習(xí)機制;情景深度強化學(xué)習(xí);元學(xué)習(xí);人工智能
引言
近幾年人工智能(Artificial Intelligence, AI)的研究取得了革命性的進展。神經(jīng)網(wǎng)絡(luò)(Neural Network)或深度學(xué)習(xí)(Deep Learning,DL)方法的復(fù)興推動了人工智能在圖像識別、自然語言處理和許多其他領(lǐng)域的技術(shù)突破。
強化學(xué)習(xí)(Reinforcement learning,RL)與深度學(xué)習(xí)相結(jié)合,產(chǎn)生的深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)近年也取得了令人驚嘆的成就。特別是在圍棋和象棋等復(fù)雜棋類游戲中的超人表現(xiàn),使其迅速成為人工智能領(lǐng)域的研究熱點。
1.深度強化學(xué)習(xí)的痛點問題及原因
深度強化學(xué)習(xí)不是從更明確的教學(xué)中學(xué)習(xí),而是一套學(xué)習(xí)獎懲的方法,如圖所示。表面看來,深度強化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)方式與人類截然不同。然而深入探究深度強化學(xué)習(xí)機制的產(chǎn)生背景,則發(fā)現(xiàn)深度強化學(xué)習(xí)系統(tǒng)的學(xué)習(xí)機制最初來自動物條件的作用研究,并與以多巴胺為中心的基于獎勵學(xué)習(xí)的神經(jīng)機制密切相關(guān)。特別是深度強化學(xué)習(xí)系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)支持環(huán)境的泛化和強大的遷移學(xué)習(xí)能力,這正是生物大腦的關(guān)鍵能力。
1.1深度強化學(xué)習(xí)存在的痛點問題
然而,由于現(xiàn)實存在的深度強化學(xué)習(xí)系統(tǒng)的樣本數(shù)據(jù)有效性低這一痛點問題,使得大多數(shù)深度強化學(xué)習(xí)系統(tǒng)運行太慢。典型的實例是,為了在國際象棋及圍棋之類的任務(wù)上,深度強化學(xué)習(xí)系統(tǒng)獲得人類專家級的水平,DRL系統(tǒng)需要比人類專家本身多許多數(shù)量級的訓(xùn)練數(shù)據(jù)。若將樣本效率定義為一個學(xué)習(xí)系統(tǒng)達到任何選定的目標性能水平所需的數(shù)據(jù)量,則在樣本效率方面,人類學(xué)習(xí)與深度強化學(xué)習(xí)存在顯著的差異。換言之,深度強化學(xué)習(xí)的樣本效率極低,無法為人類的學(xué)習(xí)提供一個合理的模型。
1.2深度強化學(xué)習(xí)痛點問題的原因
深度強化學(xué)習(xí)中系統(tǒng)收斂速度慢、樣本效率低是其痛點問題,歸結(jié)其原因是:
首要原因是參數(shù)增量小步長調(diào)整的要求。在人工智能研究中廣泛使用的深度強化學(xué)習(xí)系統(tǒng)都使用神經(jīng)網(wǎng)絡(luò)來連通從感知輸入到動作輸出,采用梯度下降法對參數(shù)進行迭代更新直到收斂。正如不僅在人工智能領(lǐng)域,而且在心理學(xué)領(lǐng)域廣泛討論的那樣,在這種學(xué)習(xí)形式中所做的參數(shù)增量調(diào)整必須很小,以便最大限度地收斂和泛化。如果參數(shù)增量過大,導(dǎo)致覆蓋早期學(xué)習(xí)的效果,出現(xiàn)災(zāi)難性干擾會導(dǎo)致神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的情況。深度強化學(xué)習(xí)中對參數(shù)增量小步長調(diào)整的需求是DRL系統(tǒng)緩慢的原因。
第二個原因是弱偏置假設(shè)。學(xué)習(xí)理論闡明,任何學(xué)習(xí)過程都必然面臨偏置假設(shè)與方差的權(quán)衡。學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)越強,即模型的假設(shè)空間越小且與實際數(shù)據(jù)中的內(nèi)容匹配,學(xué)習(xí)過程的初始模型正確度越高,完成學(xué)習(xí)所需的數(shù)據(jù)就越少。反之,如果學(xué)習(xí)過程中需要學(xué)習(xí)的模式的初始偏置假設(shè)較弱,即模型的假設(shè)空間越大,就能夠適合更廣泛的模式且允許更大的方差,但通常導(dǎo)致樣本效率較低。重要的是,深度強化學(xué)習(xí)使用的泛型神經(jīng)網(wǎng)絡(luò)是一種極弱偏置假設(shè)的學(xué)習(xí)系統(tǒng),即模型的假設(shè)空間極大,模型有許多表征連接權(quán)重的參數(shù),且使用這些參數(shù)來擬合廣泛的數(shù)據(jù)。正如偏置假設(shè)與方差權(quán)衡所決定的,這表明普通的深度強化學(xué)習(xí)模型中采用的一般形式的神經(jīng)網(wǎng)絡(luò)往往樣本效率低下,需要大量的數(shù)據(jù)來學(xué)習(xí)。
2.深度強化學(xué)習(xí)重要機制
深度強化學(xué)習(xí)能夠解決諸多人工智能領(lǐng)域的現(xiàn)實問題,成為通用的問題解決框架,是因為存在以下發(fā)揮重要作用的機制,包括注意和記憶、無監(jiān)督學(xué)習(xí)、轉(zhuǎn)移學(xué)習(xí)、多智能體強化學(xué)習(xí)、分層強化學(xué)習(xí)和習(xí)得學(xué)習(xí)等機制。
2.1注意力和存儲機制
這是一種專注于突出部分的機制。存儲器提供長時間的數(shù)據(jù)存儲,而注意力聚焦則是存儲器尋址的一種方法。
可微神經(jīng)計算機(Differentiable Neural Computer, DNC)中的神經(jīng)網(wǎng)絡(luò)可以對外部存儲器進行讀寫,因此DNC就可以解決復(fù)雜的結(jié)構(gòu)化問題,而沒有讀寫存儲器的神經(jīng)網(wǎng)絡(luò)無法解決這些問題。DNC將內(nèi)存分配干擾降至最低,并支持長期存儲。與傳統(tǒng)計算機類似,在DNC中,神經(jīng)網(wǎng)絡(luò)是控制器,外部存儲器是隨機存取存儲器;DNC用存儲器來表示和操作復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。不同的是,DNC以一種目標導(dǎo)向的方式,通過梯度下降從數(shù)據(jù)端到端地學(xué)習(xí)這種表示和操作。在有監(jiān)督學(xué)習(xí)的訓(xùn)練下,DNC可以解決自然語言推理和推理中的綜合問答問題;它可以解決交通網(wǎng)絡(luò)中兩站之間的最短路徑發(fā)現(xiàn)問題和家譜中的關(guān)系推理問題。當使用強化學(xué)習(xí)訓(xùn)練時,DNC可以解決由符號序列指定的目標變化的移動塊難題。在進行的小規(guī)模實驗中,DNC的表現(xiàn)優(yōu)于正常的神經(jīng)網(wǎng)絡(luò),如長短時記憶網(wǎng)絡(luò)(Long Short Term Memory networks, LSTM)或DNC的前體神經(jīng)圖靈機??梢灶A(yù)期DNC能得到進一步的改進和應(yīng)用。
2.2無監(jiān)督學(xué)習(xí)機制
無監(jiān)督學(xué)習(xí)是一種利用海量數(shù)據(jù)的方法,是實現(xiàn)通用人工智能的關(guān)鍵機制。無監(jiān)督學(xué)習(xí)分為非概率模型,如稀疏編碼、自動編碼器、k-Means等,以及概率(生成)模型,其中涉及密度函數(shù)(顯式還是隱式)。在具有顯式密度函數(shù)的概率(生成)模型中,有些具有可跟蹤模型,如完全可觀測的信念網(wǎng)和神經(jīng)自回歸分布估計器等;有些具有不可跟蹤模型,如Botlzmann機、變分自編碼器、Helmhotz機,對于具有隱式密度函數(shù)的概率(生成)模型,則有生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GANs)、矩匹配網(wǎng)絡(luò)等。
Horde值函數(shù):采用一般價值函數(shù)表示知識,其中策略、終止函數(shù)、獎勵函數(shù)和終端獎勵函數(shù)是參數(shù)。這是一種可擴展的實時體系結(jié)構(gòu),用于從無監(jiān)督的感覺運動交互作用(即無向信號和觀察)中學(xué)習(xí)獨立智能體的一般值函數(shù)。Horde值函數(shù)可以學(xué)習(xí)預(yù)測許多傳感器的值,并使用一般的值函數(shù)來最大化這些傳感器值的策略,來回答預(yù)測性或目標導(dǎo)向的問題。Horde值函數(shù)是非策略的,即在遵循其他行為策略的同時進行實時學(xué)習(xí),并采用基于梯度的時差學(xué)習(xí)方法進行學(xué)習(xí),每一時間步的時間和內(nèi)存復(fù)雜度都是恒定的。
輔助學(xué)習(xí):環(huán)境可能包含豐富的可能訓(xùn)練信號,有助于加速實現(xiàn)累積獎勵最大化的主要目標,例如像素變化可能暗示重要事件,輔助獎勵任務(wù)有助于實現(xiàn)獎勵狀態(tài)的良好表示。當外在的獎勵信號很少被觀察到時,這有很大的幫助。無監(jiān)督強化學(xué)習(xí)和輔助學(xué)習(xí)(UNsupervised REinforcement and Auxiliary Learning, UNREAL)可以提高學(xué)習(xí)效率,除了通常的累積獎勵外,還通過最大化偽獎勵函數(shù)來提高學(xué)習(xí)效率,同時共享一個共同的表征。UNREAL由RNN-LSTM基代理、像素控制、獎勵預(yù)測和值函數(shù)反饋組成?;局悄荏w通過異步動作者-評判者算法 (Asynchronous Actor Critic, A3C) 策略訓(xùn)練,觀察、獎勵和行動的經(jīng)驗被儲存在應(yīng)答緩沖區(qū)中,供輔助任務(wù)使用。輔助策略使用基本的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和LSTM,加上一個反卷積網(wǎng)絡(luò),使輸入圖像不同區(qū)域的像素強度變化最大化。獎勵預(yù)測模塊通過觀察后三幀預(yù)測下一幀的短期外部獎勵,以解決獎勵稀疏的問題。值函數(shù)反饋進一步訓(xùn)練了值函數(shù)。
生成對抗網(wǎng)絡(luò):同時訓(xùn)練兩個模型,通過對抗過程估計生成模型,生成模型G用于捕獲數(shù)據(jù)分布,判別模型D用于估計來自訓(xùn)練數(shù)據(jù)而非生成模型G的樣本的概率。通過用多層感知器對G和D進行建模,當G和D的訓(xùn)練數(shù)據(jù)集有足夠的容量時,生成對抗網(wǎng)可以恢復(fù)數(shù)據(jù)生成分布,并通過小批量隨機梯度下降提供了一種帶反向傳播的G和D訓(xùn)練算法。
2.3遷移學(xué)習(xí)機制
傳統(tǒng)的機器學(xué)習(xí)特別是深度學(xué)習(xí)只有在特定領(lǐng)域的訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)都來自同一個特征空間和統(tǒng)一分布的時候,學(xué)習(xí)和應(yīng)用的效果比較好。因此當應(yīng)用領(lǐng)域變化和數(shù)據(jù)集發(fā)生變化時,都要重新訓(xùn)練模型。
遷移學(xué)習(xí)是指將從不同領(lǐng)域?qū)W到的知識進行遷移,新的應(yīng)用領(lǐng)域可能具有與原來學(xué)習(xí)和訓(xùn)練的數(shù)據(jù)集不同的特征空間和/或不同的數(shù)據(jù)分布。遷移學(xué)習(xí)包括歸納遷移學(xué)習(xí)、轉(zhuǎn)化遷移學(xué)習(xí)及無監(jiān)督遷移學(xué)習(xí)。歸納遷移學(xué)習(xí)包括自學(xué)學(xué)習(xí)和多任務(wù)學(xué)習(xí);而轉(zhuǎn)化遷移學(xué)習(xí)包括領(lǐng)域適應(yīng)和樣本選擇偏置假設(shè)/協(xié)方差偏移。
目前提出的兩個智能體學(xué)習(xí)多種技能的多技能問題,定義了用于映射狀態(tài)和投射技能執(zhí)行的公共表示,并設(shè)計了兩個智能體最大限度地轉(zhuǎn)移信息特征空間以轉(zhuǎn)移新技能的算法,該算法采用相似性損失度量法,自動編碼,強化學(xué)習(xí)。通過用兩個模擬機器人操作任務(wù)已經(jīng)驗證了這種方法。
2.4多智能體強化學(xué)習(xí)機制
多智能體強化學(xué)習(xí)是多智能體系統(tǒng)(Multi-Agent)與強化學(xué)習(xí)系統(tǒng)的集成,因此處于博弈論與強化學(xué)習(xí)/人工智能社區(qū)的交叉點。除了強化學(xué)習(xí)中的收斂性和維數(shù)爆炸等問題外,還有諸如多重均衡的新問題,甚至還有諸如多智能體學(xué)習(xí)的問題是什么,收斂到均衡點是否是一個合適的目標等基本問題。因此,多智能體學(xué)習(xí)在技術(shù)和概念上都是一個挑戰(zhàn),需要清楚地理解待解決的問題、評估標準和連貫的研究過程。
2.5分層強化學(xué)習(xí)機制
分層強化學(xué)習(xí)是一種在多個層次上通過時空抽象來學(xué)習(xí)、規(guī)劃和表示知識的方法。分層強化學(xué)習(xí)也是一種解決稀疏報酬和長期視野問題的方法。專注寫入策略架構(gòu) (STRategic Attentive Writer, STRAW)是一種深度遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),用于根據(jù)環(huán)境觀察結(jié)果,以端到端的方式學(xué)習(xí)高層時間抽象宏觀行為。宏動作是指發(fā)生的一系列動作。STRAW建立了一個多步驟的動作計劃,根據(jù)觀察到的獎勵定期更新,并通過遵循計劃而無需重新計劃來學(xué)習(xí)執(zhí)行計劃的時間。STRAW學(xué)會了從數(shù)據(jù)中自動發(fā)現(xiàn)宏動作,這與以前工作中的手動方法不同。
分層DQN(hierarchical-DQN, h-DQN),通過分層組織目標驅(qū)動的內(nèi)在激勵深度強化學(xué)習(xí)模塊在不同的時間尺度上工作。h-DQN集成了一個頂層的動作值函數(shù)和一個較低層次的動作值函數(shù);前者學(xué)習(xí)一個超過內(nèi)在子目標或選項的策略;后者學(xué)習(xí)一個超過原始動作的策略來滿足給定的子目標。
使用帶有信息論正則化器的隨機神經(jīng)網(wǎng)絡(luò)對大跨度的技能進行預(yù)訓(xùn)練,然后在這些技能的基礎(chǔ)上,為下階段任務(wù)訓(xùn)練高級策略。預(yù)訓(xùn)練基于智能體的獎勵信號,這是一種探索智能體自身能力的內(nèi)在動機,其設(shè)計要求對下階段任務(wù)領(lǐng)域知識最少。這種方法將層次分析法與內(nèi)在動機相結(jié)合,并且預(yù)訓(xùn)練遵循無監(jiān)督的方式。此外,還可以采用終身學(xué)習(xí)的分層深層RL網(wǎng)絡(luò)架構(gòu),進行學(xué)習(xí)可重用的技能或子目標,將學(xué)習(xí)的知識遷移到新的任務(wù)中。
2.6習(xí)得學(xué)習(xí)機制
習(xí)得學(xué)習(xí)也被稱為元學(xué)習(xí),是學(xué)習(xí)如何快速適應(yīng)新的任務(wù)。它涉及遷移學(xué)習(xí)、多任務(wù)學(xué)習(xí)、表征學(xué)習(xí)和一次/少量/零次(映射)學(xué)習(xí)。也可以將超參數(shù)學(xué)習(xí)和神經(jīng)結(jié)構(gòu)設(shè)計看作是習(xí)得學(xué)習(xí),它是實現(xiàn)強人工智能的核心,也是深度強化學(xué)習(xí)的發(fā)展方向。
一次/少量/零次(映射)學(xué)習(xí)是指在深度學(xué)習(xí)的訓(xùn)練集中,每個類別都只有一個或幾個的少量樣本、或者沒有某個類別的樣本,但仍然可以通過習(xí)得學(xué)習(xí)及遷移學(xué)習(xí)等得到一個映射學(xué)習(xí)模型,實現(xiàn)對各個類別都有較好的泛化效果。
3.深度強化學(xué)習(xí)的改進技術(shù)
針對第一代深度強化學(xué)習(xí)模型收斂緩慢的痛點問題及歸因,可以采用以下兩種具體技術(shù),即情景深度強化學(xué)習(xí)及元學(xué)習(xí)技術(shù),更進一步,可以將這兩種技術(shù)有機融合,構(gòu)成情景元深度強化學(xué)習(xí)技術(shù)。
3.1情景深度強化學(xué)習(xí)
考慮到參數(shù)增量調(diào)整是深度強化學(xué)習(xí)中收斂速度慢的重要原因,那么一個更快學(xué)習(xí)的方法則是避免這種增量更新。根據(jù)以上的分析,如果單純地提高梯度下降優(yōu)化的參數(shù)增量會導(dǎo)致災(zāi)難性干擾致使神經(jīng)網(wǎng)絡(luò)無法收斂不穩(wěn)定的問題。然而,實現(xiàn)此目標可以采用另一種方法,即明確記錄過去的事件,并直接將其作為制定新決策的參考依據(jù)。這一概念被稱為情景深度強化學(xué)習(xí),與機器學(xué)習(xí)中的“非參數(shù)”方法相似,類似于心理學(xué)中的“實例學(xué)習(xí)”或“范例學(xué)習(xí)”理論,通過情景記憶快速學(xué)習(xí)。當遇到新情況時,必須決定采取什么行動,程序是將當前情況的內(nèi)部表示與過去情況的存儲表示進行比較。然后基于與現(xiàn)在最相似的過去情況的結(jié)果,選擇與最大值函數(shù)相關(guān)聯(lián)的行動。當用多層神經(jīng)網(wǎng)絡(luò)計算內(nèi)部狀態(tài)表示時,這種算法稱為“情景深度強化學(xué)習(xí)”。
在情景深度強化學(xué)習(xí)中,與標準的增量方法不同,通過每個經(jīng)驗事件獲得的信息可以立即用于指導(dǎo)行為。然而,盡管早期的深度強化學(xué)習(xí)方法顯得很“慢”,但是情景性的深度強化學(xué)習(xí)能夠“快”起來,但是這有一個轉(zhuǎn)折點:情節(jié)性深度強化學(xué)習(xí)的快速學(xué)習(xí)嚴重依賴于緩慢的增量學(xué)習(xí)。這是對連接權(quán)重的逐漸學(xué)習(xí),允許系統(tǒng)形成有用的內(nèi)部表示或每個新觀察的嵌入。這些表示的格式本身是通過經(jīng)驗學(xué)習(xí)的,使用與標準深度強化學(xué)習(xí)的主干相同的增量參數(shù)更新。最終,情景深度強化學(xué)習(xí)的速度還是由這種較慢的學(xué)習(xí)形式實現(xiàn)的。即情景深度強化學(xué)習(xí)的快速學(xué)習(xí)是通過緩慢的深度強化學(xué)習(xí)來實現(xiàn)的。
這種“快速學(xué)習(xí)對慢學(xué)習(xí)的依賴”并不是巧合。正如將在下面討論的情況,這是一個基本原則,不但適用于心理學(xué)和神經(jīng)科學(xué),同樣也適用人工智能領(lǐng)域。
3.2元學(xué)習(xí):通過學(xué)習(xí)來加速深度強化學(xué)習(xí)
如前所述,除了增量更新之外,標準深度強化學(xué)習(xí)過程收斂緩慢的第二個主要原因是弱偏置假設(shè)。正如偏置假設(shè)與方差權(quán)衡的概念所規(guī)定的那樣,快速學(xué)習(xí)要求學(xué)習(xí)者對其將要面對的模式結(jié)構(gòu)提出一套合理規(guī)模的假設(shè)。偏置假設(shè)越強,學(xué)習(xí)的速度就越快。然而,正如前面所預(yù)示的問題:一個較強的假設(shè)集只有在包含正確假設(shè)的情況下才能加快學(xué)習(xí)速度。雖然強烈的歸納偏置假設(shè)可以加速學(xué)習(xí),但只有當學(xué)習(xí)者采用的特定偏置假設(shè)恰好與要學(xué)習(xí)的材料相匹配時,才可以實現(xiàn)這種效果。因此,一個新的學(xué)習(xí)問題又出現(xiàn)了:學(xué)習(xí)者如何知道應(yīng)該采用什么樣的偏置假設(shè)呢?
對這個問題的很自然的回答就是借鑒過去的經(jīng)驗。誠然,在日常生活中也經(jīng)常發(fā)生這種情形。例如,考慮學(xué)習(xí)使用新智能手機的日常任務(wù)。在這種情況下,人們過去使用智能手機和其他相關(guān)設(shè)備的經(jīng)驗將告訴他們關(guān)于新手機應(yīng)該如何工作的假設(shè),并將指導(dǎo)其對手機操作的探索。這些最初的假設(shè)與偏置假設(shè)-方差權(quán)衡中的“偏置假設(shè)”相對應(yīng),這有助于快速學(xué)習(xí)如何使用新手機。如果沒有這些假設(shè),就必須考慮更大范圍的學(xué)習(xí)偏置假設(shè)。
利用過去的經(jīng)驗加速新的學(xué)習(xí)在機器學(xué)習(xí)中被稱為習(xí)得學(xué)習(xí)。其實這一理念源于心理學(xué),在心理學(xué)中它被稱為“元學(xué)習(xí)”。元學(xué)習(xí)可以在深度強化學(xué)習(xí)中加速學(xué)習(xí)的過程。此時,用一系列相關(guān)的強化學(xué)習(xí)任務(wù)對一個遞歸神經(jīng)網(wǎng)絡(luò)RNN進行訓(xùn)練,RNN網(wǎng)絡(luò)中的權(quán)重調(diào)整得非常慢,因此RNN網(wǎng)絡(luò)可以吸收任務(wù)之間的共同點,但無法快速更改以支持任何單個任務(wù)的解決方案。RNN遞歸神經(jīng)網(wǎng)絡(luò)實現(xiàn)了各自獨立的強化學(xué)習(xí)算法,該算法基于過去任務(wù)積累的知識,能夠快速解決每個新任務(wù)。
與情景深度強化學(xué)習(xí)一樣,元學(xué)習(xí)又涉及到快速和緩慢學(xué)習(xí)之間的密切聯(lián)系。遞歸網(wǎng)絡(luò)中的連接在任務(wù)間緩慢更新,允許跨任務(wù)的一般原則“嵌入”遞歸網(wǎng)絡(luò)的動態(tài)。由此產(chǎn)生的RNN神經(jīng)網(wǎng)絡(luò)實現(xiàn)了一種新的學(xué)習(xí)算法,可以快速解決新問題,因為慢學(xué)習(xí)的潛在過程賦予了其有用的歸納偏置假設(shè)。這里再次看到,快速學(xué)習(xí)源于慢學(xué)習(xí),并由緩慢學(xué)習(xí)促成。
3.3情景元深度強化學(xué)習(xí)
以上實現(xiàn)的兩種技術(shù)并不相互排斥,這非常重要。事實上,可以整合元學(xué)習(xí)和情景控制的方法,充分利用它們的互補優(yōu)勢。在情景元深度強化學(xué)習(xí)模式中,在遞歸神經(jīng)網(wǎng)絡(luò)RNN中進行元學(xué)習(xí)。同時,在RNN之上疊加一個情景記憶系統(tǒng),其作用是恢復(fù)重復(fù)網(wǎng)絡(luò)中的活動模式。與在情景深度強化學(xué)習(xí)中一樣,情景記憶對一組過去的事件進行編目,這些事件可以基于當前上下文進行查詢。然而,不是將上下文與行動值估計聯(lián)系起來,而是將上下文與遞歸網(wǎng)絡(luò)內(nèi)部或隱藏單元中存儲的活動模式聯(lián)系起來。這些模式很重要,因為通過元深度強化學(xué)習(xí),總結(jié)了智能體從與單個任務(wù)的交互中學(xué)到的模式。在情景元深度強化學(xué)習(xí)中,當智能體遇到與過去遇到的情況相似的情況時,它將恢復(fù)先前遇到的內(nèi)部設(shè)置,允許先前獲得的信息立即影響當前策略。實際上,場景內(nèi)存允許系統(tǒng)識別以前遇到的任務(wù),檢索存儲的解決方案加以應(yīng)用。
通過模擬工作和導(dǎo)航任務(wù),顯示出情景元深度強化學(xué)習(xí),學(xué)會了強烈的歸納偏置假設(shè),使其能夠快速解決新任務(wù)。更重要的是,當遇到一個以前遇到的任務(wù)時,情景元深度強化學(xué)習(xí)會立即檢索并重新測試以前發(fā)現(xiàn)的解決方案。當遇到新任務(wù)時,情景元深度強化學(xué)習(xí)系統(tǒng)受益于元深度強化學(xué)習(xí)的快速性;而在第二次及以后的遭遇中,系統(tǒng)又得益于情景控制所賦予的一次性學(xué)習(xí)能力。
4.結(jié)語
深度強化學(xué)習(xí)(DRL)方法的突破推動了人工智能領(lǐng)域令人可喜的進步。深度強化學(xué)習(xí)的6種重要的學(xué)習(xí)機制以及2項改進技術(shù),克服了模型收斂速度慢和樣本效率低下的痛點問題,使深度強化學(xué)習(xí)模式在眾多的領(lǐng)域能夠卓有成效的應(yīng)用。在教育領(lǐng)域,深度強化學(xué)習(xí)在基于教育大數(shù)據(jù)的教學(xué)自動評估中發(fā)揮重要和不可替代的作用。
參考文獻
[1] BOTVINICK M, RITTER S, WANG J X, et al. Reinforcement Learning, Fast and Slow [J]. Trends in Cognitive Sciences,?2019, 23(5): 408-22.
[2]萬里鵬, 蘭旭光, 張翰博, et al. 深度強化學(xué)習(xí)理論及其應(yīng)用綜述 [J]. 模式識別與人工智能, 2019, 32(01): 67-81.
[3] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge [J]. Nature,?2017, 550(7676): 354-+.
[4] SILVER D, HUBERT T, SCHRITTWIESER J, et al. A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play [J]. Science, 2018, 362(6419): 1140-+.
[5] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. Deep Reinforcement Learning A brief survey [J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38.
[6] 汪晨,曾凡玉,郭九霞.記憶增強型深度強化學(xué)習(xí)研究綜述[J].小型微型計算機系統(tǒng), 2021, 42(03):454-461.
[7] 趙星宇,丁世飛. 深度強化學(xué)習(xí)研究綜述 [J]. 計算機科學(xué), 2018, 45(07): 1-6.
[8] 秦智慧,李寧,劉曉彤等.無模型強化學(xué)習(xí)研究綜述[J].計算機科學(xué), 2021, 48(03):180-187.
[9] 孫路明,張少敏,姬濤等. 人工智能賦能的數(shù)據(jù)管理技術(shù)研究 [J]. 軟件學(xué)報, 2020, 31(03): 600-19.
[10] 唐浪,李慧霞,顏晨倩,鄭俠武,紀榮嶸.深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索綜述[J].中國圖象圖形學(xué)報, 2021, 26(02):245-264.
基金項目:①廣東省教育廳2019年度普通高校特色創(chuàng)新類項目(2019GKTSCX152); ②廣東省教育廳2018年度重點平臺及科研項目特色創(chuàng)新項目(2018GWTSCX030);③廣東省教育廳2018年度省高等職業(yè)教育教學(xué)質(zhì)量與教學(xué)改革工程教育教學(xué)改革研究與實踐項目(GDJG2019309);④廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院2020科研項目重點項目(2020KY02);5.廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院2020年校級質(zhì)量工程重點項目(SWZL202001)。
作者簡介:吳英萍(1982.10-),講師,學(xué)士,廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院計算機應(yīng)用與軟件技術(shù)教研室專任教師。研究方向為軟件技術(shù),人工智能;
*通訊作者:耿江濤(1965.12-),教授,高級工程師,華南師范大學(xué)博士生,廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院教育研究院教授。研究方向為大數(shù)據(jù)應(yīng)用技術(shù),人工智能,高職教育管理與國際化。
熊曉波(1970.06-),教授,碩士,廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院副校長兼信息工程學(xué)院院長。研究方向為計算機科學(xué)與技術(shù),高職教育管理。
余雪蓮(1993.06-),助教,學(xué)士,廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院計算機應(yīng)用與軟件技術(shù)教研室專任教師。研究方向為軟件技術(shù),人工智能。
1.廣州涉外經(jīng)濟職業(yè)技術(shù)學(xué)院? ? 廣東廣州? ? 510540
2. 華南師范大學(xué)? ? 廣東廣州? ? ?510631