摘 要:持續(xù)學(xué)習(xí)作為一種在非平穩(wěn)數(shù)據(jù)流中不斷學(xué)習(xí)新任務(wù)并能保持舊任務(wù)性能的特殊機(jī)器學(xué)習(xí)范例,是視覺計(jì)算、自主機(jī)器人等領(lǐng)域的研究熱點(diǎn),但現(xiàn)階段災(zāi)難性遺忘問題仍然是持續(xù)學(xué)習(xí)的一個(gè)巨大挑戰(zhàn)。圍繞持續(xù)學(xué)習(xí)災(zāi)難性遺忘問題展開綜述研究,分析了災(zāi)難性遺忘問題緩解機(jī)理,并從模型參數(shù)、訓(xùn)練數(shù)據(jù)和網(wǎng)絡(luò)架構(gòu)三個(gè)層面探討了災(zāi)難性遺忘問題求解策略,包括正則化策略、重放策略、動(dòng)態(tài)架構(gòu)策略和聯(lián)合策略;根據(jù)現(xiàn)有文獻(xiàn)凝練了災(zāi)難性遺忘方法的評估指標(biāo),并對比了不同災(zāi)難性遺忘問題的求解策略性能。最后對持續(xù)學(xué)習(xí)相關(guān)研究指出了未來的研究方向,以期為研究持續(xù)學(xué)習(xí)災(zāi)難性遺忘問題提供借鑒和參考。
關(guān)鍵詞:持續(xù)學(xué)習(xí);災(zāi)難性遺忘;正則化策略;重放策略;動(dòng)態(tài)架構(gòu)策略
中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2023)05-002-1292-11doi: 10.19734/j.issn.1001-3695.2022.10.0495
0 引言
持續(xù)學(xué)習(xí)是一種模擬人類大腦學(xué)習(xí)的特殊機(jī)器學(xué)習(xí)范例,不會(huì)忘記過去任務(wù)所學(xué)習(xí)的知識。持續(xù)學(xué)習(xí)能力可歸結(jié)為兩點(diǎn)特性:a)模型具有動(dòng)態(tài)調(diào)整的學(xué)習(xí)新任務(wù)的能力,即可塑性;b)學(xué)習(xí)當(dāng)前任務(wù)知識不會(huì)忘記過去任務(wù)知識,即穩(wěn)定性。而深度神經(jīng)網(wǎng)絡(luò)作為機(jī)器學(xué)習(xí)的主流技術(shù),通常用于圖像識別、目標(biāo)檢測、圖像分類等視覺任務(wù),但當(dāng)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)下一項(xiàng)任務(wù)時(shí),網(wǎng)絡(luò)學(xué)習(xí)的新任務(wù)知識會(huì)覆蓋之前任務(wù)學(xué)習(xí)所獲得的知識,網(wǎng)絡(luò)模型對過去任務(wù)性能表現(xiàn)下降[1]。
圖1為持續(xù)學(xué)習(xí)主觀性能表現(xiàn)。經(jīng)過數(shù)據(jù)集d0的訓(xùn)練,模型f0具備識別類n的能力,當(dāng)增加額外的視覺任務(wù),新任務(wù)的訓(xùn)練集中不再提供前n個(gè)類的任務(wù)數(shù)據(jù)標(biāo)簽,而是單獨(dú)的t個(gè)數(shù)據(jù)類標(biāo)簽訓(xùn)練。經(jīng)過額外任務(wù)訓(xùn)練后,相同場景下,不具備持續(xù)學(xué)習(xí)能力模型f0喪失了對前任務(wù)類的識別,產(chǎn)生災(zāi)難性遺忘,而具備持續(xù)學(xué)習(xí)能力模型f1除了能很好地識別額外任務(wù)類(n+t),還保持著對前任務(wù)類的識別能力。通過對比分析,持續(xù)學(xué)習(xí)要實(shí)現(xiàn)對連續(xù)非平穩(wěn)任務(wù)流的學(xué)習(xí)并保持過去任務(wù)性能,所面臨的一個(gè)重要挑戰(zhàn)是神經(jīng)網(wǎng)絡(luò)如何能在學(xué)習(xí)當(dāng)前任務(wù)時(shí)最大限度地避免產(chǎn)生災(zāi)難性遺忘問題,即滿足具備緩解災(zāi)難性遺忘問題的可塑性和穩(wěn)定性條件[2],而要達(dá)成這一條件,一方面可通過研究內(nèi)部數(shù)據(jù)分布變化對重要數(shù)據(jù)變化進(jìn)行保護(hù)以提升可塑性;另一方面可研究知識存儲(chǔ)方法,在保持模型容量不變的情況下最大限度容納更多知識。
通過檢索2017年1月至2022年6月IEEEXplore、Web of Science、Arxiv、EI數(shù)據(jù)庫收錄的關(guān)于關(guān)鍵詞“持續(xù)學(xué)習(xí)/增量學(xué)習(xí)/終身學(xué)習(xí)/不忘學(xué)習(xí)”的相關(guān)文獻(xiàn)發(fā)現(xiàn),持續(xù)學(xué)習(xí)正逐步成為深度學(xué)習(xí)領(lǐng)域的一個(gè)新熱點(diǎn)研究方向,相關(guān)文獻(xiàn)收錄情況如圖2所示。其中緩解災(zāi)難性遺忘問題的研究主要集中在正則化策略(權(quán)重正則化、梯度正則化、知識正則化)、重放策略(經(jīng)驗(yàn)重放、生成式重放)和聯(lián)合策略,具體如圖3所示。神經(jīng)網(wǎng)絡(luò)通過對網(wǎng)絡(luò)內(nèi)部嵌入正則化,保護(hù)重要權(quán)重、限制梯度更新和知識蒸餾緩解災(zāi)難性遺忘; 同時(shí),通過模擬人類大腦學(xué)習(xí)機(jī)制,對舊任務(wù)經(jīng)驗(yàn)隨機(jī)存儲(chǔ)重放或通過生成模型對舊任務(wù)經(jīng)驗(yàn)進(jìn)行生成重放實(shí)現(xiàn)對過去知識的回顧; 此外,通過模型自生長或重用神經(jīng)元可使模型具備較好的可塑性及穩(wěn)定性。在此基礎(chǔ)上,通過結(jié)合正則化策略、重放策略和動(dòng)態(tài)架構(gòu)策略的優(yōu)勢進(jìn)一步減緩災(zāi)難性遺忘。
現(xiàn)有關(guān)于持續(xù)學(xué)習(xí)的綜述文獻(xiàn)在學(xué)術(shù)界具有一定的引領(lǐng)作用,文獻(xiàn)[3]定義了六種持續(xù)學(xué)習(xí)特性對模型增長、固定表征和微調(diào)幾種策略進(jìn)行分析,并通過對幾種典型的持續(xù)學(xué)習(xí)策略在統(tǒng)一評估標(biāo)準(zhǔn)下進(jìn)行實(shí)驗(yàn)對比分析;文獻(xiàn)[4]提出了持續(xù)學(xué)習(xí)穩(wěn)定性—可塑性權(quán)衡框架,并對11種持續(xù)學(xué)習(xí)方法進(jìn)行實(shí)驗(yàn)分析;文獻(xiàn)[5,6]從生物學(xué)習(xí)機(jī)制角度出發(fā)解釋了持續(xù)學(xué)習(xí)的災(zāi)難性遺忘問題及緩解機(jī)制。上述綜述文獻(xiàn)無論是從實(shí)驗(yàn)角度來測試不同策略性能還是從生物學(xué)習(xí)機(jī)制解釋遺忘及緩解機(jī)制,都對持續(xù)學(xué)習(xí)研究作出了重要貢獻(xiàn),但在數(shù)據(jù)分布變化和知識存儲(chǔ)角度的遺忘機(jī)理的解釋、各種緩解遺忘策略的作用層面及原理性分析對比等方面并未進(jìn)行綜述?;诖?,本文從數(shù)據(jù)分布變化和知識存儲(chǔ)兩個(gè)方面解釋了災(zāi)難性遺忘緩解機(jī)理,并根據(jù)緩解機(jī)理分析,將求解災(zāi)難性遺忘的研究策略分為正則化策略、重放策略、動(dòng)態(tài)架構(gòu)策略和聯(lián)合策略四類;同時(shí)對比分析了災(zāi)難性遺忘求解策略性能,并對緩解災(zāi)難性遺忘策略的發(fā)展進(jìn)行展望,以期豐富持續(xù)學(xué)習(xí)最新進(jìn)展并為學(xué)者對持續(xù)學(xué)習(xí)研究提供參考。
1 持續(xù)學(xué)習(xí)定義及遺忘緩解機(jī)理
1.1 持續(xù)學(xué)習(xí)定義
非平穩(wěn)數(shù)據(jù)流是指任務(wù)數(shù)據(jù)流的學(xué)習(xí)目標(biāo)和數(shù)據(jù)分布隨著時(shí)間而變化,傳統(tǒng)機(jī)器學(xué)習(xí)是在固定的數(shù)據(jù)中隨機(jī)抽樣數(shù)據(jù)進(jìn)行學(xué)習(xí),而現(xiàn)實(shí)要求agent能夠從不斷隨時(shí)間變化的非平穩(wěn)數(shù)據(jù)流中學(xué)習(xí),并能保持過去的任務(wù)性能。持續(xù)學(xué)習(xí)(continual learning,CL)是一種在連續(xù)非平穩(wěn)任務(wù)流中不斷學(xué)習(xí)新知識并記住舊知識的前沿深度學(xué)習(xí)技術(shù),學(xué)習(xí)目標(biāo)和數(shù)據(jù)隨時(shí)間而變化,無須每次訓(xùn)練時(shí)任務(wù)目標(biāo)是獨(dú)立同分布(independent and ide ally distributed,IID)的。在學(xué)術(shù)界,持續(xù)學(xué)習(xí)有多個(gè)近義詞,如終身學(xué)習(xí)[5]、增量學(xué)習(xí)[7]或是不間斷學(xué)習(xí)[8],本文將能在連續(xù)非平穩(wěn)任務(wù)流中不斷學(xué)習(xí)新知識并不忘舊知識的前沿深度學(xué)習(xí)技術(shù)稱之為持續(xù)學(xué)習(xí)。圖4為持續(xù)學(xué)習(xí)理想系統(tǒng)[9],在該系統(tǒng)中,持續(xù)學(xué)習(xí)不斷接收并學(xué)習(xí)順序任務(wù)流,學(xué)習(xí)過程可利用參數(shù)共享將過去知識遷移至當(dāng)前任務(wù)的學(xué)習(xí)中,提高學(xué)習(xí)效率,另一方面通過存儲(chǔ)精煉當(dāng)前任務(wù)知識用于未來任務(wù)的學(xué)習(xí)。
1.2 災(zāi)難性遺忘緩解機(jī)理
災(zāi)難性遺忘(catastrophic forgetting,CF)[1]是指神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)任務(wù)數(shù)據(jù)流時(shí),網(wǎng)絡(luò)模型參數(shù)在訓(xùn)練過程中不斷被修改以適應(yīng)新任務(wù)需要,導(dǎo)致模型對過去任務(wù)學(xué)到的知識產(chǎn)生“遺忘”的現(xiàn)象。就遺忘機(jī)理而言,一方面可以研究其內(nèi)部數(shù)據(jù)分布變化機(jī)理,遏制重要參數(shù)更新或者覆蓋不重要神經(jīng)元;另一方面可研究模型知識存儲(chǔ)機(jī)理,通過設(shè)置單獨(dú)知識存儲(chǔ)區(qū)以存儲(chǔ)舊知識或是通過生成模型對舊知識進(jìn)行重現(xiàn)等方式緩解遺忘;同時(shí),模型內(nèi)部動(dòng)態(tài)調(diào)整模型架構(gòu)以容納更多的有用知識。
1.2.1 數(shù)據(jù)分布變化
當(dāng)數(shù)據(jù)分布處于動(dòng)態(tài)時(shí)間序列時(shí),數(shù)據(jù)流會(huì)發(fā)生移位,一個(gè)未發(fā)現(xiàn)的數(shù)據(jù)變化會(huì)導(dǎo)致模型對之前所學(xué)到的知識產(chǎn)生遺忘。動(dòng)態(tài)數(shù)據(jù)流的數(shù)據(jù)分布隨著時(shí)間變化,當(dāng)已訓(xùn)練模型預(yù)測動(dòng)態(tài)目標(biāo)數(shù)據(jù)時(shí)會(huì)產(chǎn)生概念漂移[10],而模型要求動(dòng)態(tài)目標(biāo)有較高的預(yù)測精度,需要不斷更新模型參數(shù)適應(yīng)新的變化。
根據(jù)環(huán)境變化將概念漂移分為虛擬概念漂移和真實(shí)概念漂移[11]。虛擬概念漂移是指目標(biāo)概念保持穩(wěn)定,輸入數(shù)據(jù)分布變化導(dǎo)致的概念漂移,決策邊界發(fā)生變化[12];真實(shí)概念漂移是目標(biāo)概念發(fā)生變化導(dǎo)致的漂移,輸入數(shù)據(jù)分布會(huì)發(fā)生變化,如果目標(biāo)數(shù)據(jù)分布變化未被檢測以及模型沒有及時(shí)更新產(chǎn)生真實(shí)概念漂移則會(huì)導(dǎo)致遺忘發(fā)生[13]。此外,概念漂移還因數(shù)據(jù)分布隨時(shí)間變化呈現(xiàn)出突變概念漂移、增量概念漂移、漸變概念漂移和循環(huán)概念漂移[14]四種不同的形式。值得注意的是,動(dòng)態(tài)數(shù)據(jù)流中所存在的噪聲或者離群值不屬于概念漂移范疇。因此,對概念漂移所造成的遺忘問題,研究者要實(shí)時(shí)檢測數(shù)據(jù)分布變化,對知識有效持續(xù)時(shí)間進(jìn)行建模使模型能及時(shí)作出更新?,F(xiàn)有基于數(shù)據(jù)分布變化的典型緩解遺忘方式可通過對權(quán)重、梯度等重要參數(shù)的變化檢測,并在損失函數(shù)中限制其變化;或是通過檢測重要神經(jīng)元并在訓(xùn)練過程中重用非重要神經(jīng)元。
1.2.2 知識存儲(chǔ)
神經(jīng)網(wǎng)絡(luò)模型通常設(shè)定一定的模型容量來學(xué)習(xí)新知識,在訓(xùn)練過程中為適應(yīng)新任務(wù)因內(nèi)存容量或自身結(jié)構(gòu)等原因?qū)е聟?shù)逐漸被覆蓋造成模型對舊任務(wù)性能下降產(chǎn)生災(zāi)難性遺忘;另一方面,模型容量不會(huì)無限擴(kuò)增,大量的數(shù)據(jù)存儲(chǔ)降低了模型訓(xùn)練效率[15]。
持續(xù)學(xué)習(xí)系統(tǒng)需要設(shè)計(jì)一種存儲(chǔ)過去任務(wù)知識機(jī)制,這些知識以原始數(shù)據(jù)、權(quán)重、正則化矩陣等形式單獨(dú)設(shè)置緩存或是通過模型架構(gòu)擴(kuò)展的方式存儲(chǔ)。同時(shí),高效的內(nèi)存管理策略只保存重要的信息,并將存儲(chǔ)的知識和技能用于未來任務(wù)的學(xué)習(xí)。在實(shí)踐中,持續(xù)學(xué)習(xí)系統(tǒng)應(yīng)該在保存重要信息的精確性和遺忘知識程度之間找到平衡點(diǎn)[16]。新任務(wù)的學(xué)習(xí)導(dǎo)致舊任務(wù)知識的記憶退化,因此研究導(dǎo)致舊任務(wù)知識被遺忘的機(jī)制具有重要意義?,F(xiàn)有基于知識存儲(chǔ)的典型緩解遺忘方式可通過針對性地重放部分舊知識或利用生成模型生成偽舊知識,此外,通過模型架構(gòu)自適應(yīng)擴(kuò)展以容納更多有關(guān)舊任務(wù)參數(shù)也是行之有效的方式。
事實(shí)上,現(xiàn)有災(zāi)難性遺忘求解策略主要是基于上述兩種災(zāi)難性遺忘緩解機(jī)理而衍生,如正則化策略、重放策略和動(dòng)態(tài)架構(gòu)策略等。
2 災(zāi)難性遺忘求解策略
針對災(zāi)難性遺忘問題,一是通過增加模型容量存儲(chǔ)新知識緩解遺忘; 二是通過研究不同災(zāi)難性遺忘機(jī)制將模型約束在“穩(wěn)定性—可塑性”環(huán)境中[17]。雖然第一種方法能比較徹底地緩解遺忘問題,但現(xiàn)實(shí)中模型容量不能無限增長,本文重點(diǎn)分析不同的災(zāi)難性遺忘求解策略,包括正則化、經(jīng)驗(yàn)重放、動(dòng)態(tài)架構(gòu)策略及聯(lián)合不同單種策略優(yōu)勢的聯(lián)合策略,如圖5所示。
2.1 正則化策略
正則化策略通過模型參數(shù)層面的約束,限制權(quán)重參數(shù)變化或梯度更新方向等方式限制模型在保持過去任務(wù)性能的參數(shù)變化。本文通過對不同參數(shù)限制方式將正則化方法分為權(quán)重正則化、梯度正則化和知識蒸餾。
2.1.1 權(quán)重正則化
權(quán)重正則化通過設(shè)置重要參數(shù)評估器計(jì)算部分存儲(chǔ)的模型參數(shù)來限制模型保持舊任務(wù)性能的重要權(quán)重參數(shù)的更新范圍,以保持舊任務(wù)性能,減少災(zāi)難性遺忘。
正則化策略的主要貢獻(xiàn)之一是參數(shù)自適應(yīng)調(diào)節(jié)方法,然而,參數(shù)自適應(yīng)是以犧牲不重要信息為代價(jià),如何度量參數(shù)重要性并保護(hù)重要參數(shù)是權(quán)重正則化所要解決的問題。基于此,Thompson等人[18]提出權(quán)重保護(hù)的機(jī)器學(xué)習(xí)算法——彈性權(quán)重整合(elastic weight consolidation,EWC),利用Fisher信息矩陣評估權(quán)重重要性并對新舊任務(wù)參數(shù)差異進(jìn)行二次懲罰,在不忘記之前任務(wù)的情況下學(xué)習(xí)新任務(wù)。EWC的正則化損失函數(shù)計(jì)算式L′(θ)如下所示:
其中:L(θ)為新任務(wù)損失;λ為超參數(shù);Fm為Fisher信息矩陣的第m個(gè)對角元素;θm為新任務(wù)的權(quán)重向量;θ*m為過去任務(wù)最優(yōu)權(quán)重向量。Fm為每個(gè)新任務(wù)的參數(shù)計(jì)算Fisher信息值判定參數(shù)重要性,F(xiàn)m值越大,表明參數(shù)與分類器性能越相關(guān),在訓(xùn)練過程中,需限制該參數(shù)的變動(dòng)范圍以保持舊任務(wù)性能。
與EWC方法類似,Zenke等人[19]提出智能突觸(synaptic intelligence,SI)方法,通過為每個(gè)突觸建立過去任務(wù)參數(shù)重要性評估器來評估會(huì)影響過去任務(wù)記憶的特征參數(shù),在學(xué)習(xí)新任務(wù)時(shí)對重要參數(shù)進(jìn)行懲罰防止遺忘。SI通過計(jì)算訓(xùn)練新任務(wù)后歐氏空間中距離差的累積變化判斷權(quán)重的重要性,參數(shù)正則化重要性評估公式為
其中:μ為新任務(wù)序列; v為過去任務(wù)序列; q為參數(shù)序列; ωvq為參數(shù)k對總損失的影響; Δvq正則化項(xiàng)與損失函數(shù)具有相同單位; ξ為阻尼系數(shù),使Δvq趨于0。
相比EWC離線方式計(jì)算Fisher信息矩陣評估參數(shù)重要性,SI通過在線方式計(jì)算每個(gè)突觸的權(quán)重,追蹤整個(gè)學(xué)習(xí)軌跡,使得參數(shù)重要性評估更加精準(zhǔn)。Aljundi等人[15]提出記憶感知突觸(memory aware synapses,MAS)方法,MAS以無監(jiān)督和在線方式計(jì)算神經(jīng)網(wǎng)絡(luò)參數(shù)的重要性,并在訓(xùn)練新任務(wù)時(shí)添加正則化器,比較原始訓(xùn)練數(shù)據(jù)和擾動(dòng)訓(xùn)練數(shù)據(jù)的輸出,得到模型靈敏度權(quán)重,并懲罰對重要參數(shù)的更改。相比傳統(tǒng)損失函數(shù)正則化方法,MAS更加關(guān)注對學(xué)習(xí)函數(shù)的正則化,通過對參數(shù)出現(xiàn)頻率估計(jì)參數(shù)的重要性。
EWC在不擴(kuò)展網(wǎng)絡(luò)和保留舊數(shù)據(jù)的情況下減輕災(zāi)難性遺忘,節(jié)省存儲(chǔ)空間。鑒于EWC的魯棒性,Chaudhry等人[16]利用移動(dòng)平移法計(jì)算Fisher信息矩陣,對EWC進(jìn)行改進(jìn),并將該方法命名為EWC++,利用KL離散度對條件似然分布進(jìn)行約束,使新的條件似然分布更接近過去任務(wù)所學(xué)的似然分布,通過計(jì)算Fisher信息矩陣所捕捉的似然分布的KL離散度曲率來計(jì)算參數(shù)重要性。相比EWC,EWC++具備更加高效且精準(zhǔn)的性能。類似地,文獻(xiàn)[20]通過旋轉(zhuǎn)參數(shù)空間使Fisher信息矩陣近似為對角矩陣,提高重要性;Amer等人[21]結(jié)合動(dòng)態(tài)信息平衡和EWC模型正則化防止遺忘;Schwarz等人[22]利用EWC對過去任務(wù)保護(hù)的要求,提出一種知識庫和活動(dòng)組成持續(xù)學(xué)習(xí)框架,在防止遺忘問題上具有較好的效果。
此外,June等人[23]提出自適應(yīng)稀疏化的正則化持續(xù)學(xué)習(xí)(adaptive group sparse regularization for continual learning,AGS-CL)方法,利用稀疏性二次懲罰對模型進(jìn)行適應(yīng)性更新;同時(shí),AGS-CL重新初始化與不重要節(jié)點(diǎn)相關(guān)聯(lián)的權(quán)重,防止災(zāi)難性遺忘的負(fù)向傳遞并提高新任務(wù)學(xué)習(xí)能力。類似地,Pomponi等人[24]提出利用過去任務(wù)提取的特征向量對當(dāng)前任務(wù)訓(xùn)練進(jìn)行正則化持續(xù)學(xué)習(xí)—嵌入正則化(embedding regularization,ER)方法,設(shè)置中間輔助目標(biāo)選擇約束以便網(wǎng)絡(luò)在訓(xùn)練過程中自我適應(yīng),限制過去任務(wù)參數(shù)不被遺忘。ER與領(lǐng)域自適應(yīng)中的少遺忘學(xué)習(xí)方法(less-forgetful learning,LFL)[25]相連接,并結(jié)合圖神經(jīng)網(wǎng)絡(luò)[26]進(jìn)行學(xué)習(xí)。為了減少所需外部存儲(chǔ)的內(nèi)存占用,設(shè)計(jì)了動(dòng)態(tài)采樣策略對過去特征參數(shù)進(jìn)行隨機(jī)采樣存儲(chǔ)。AGS-CL和ER都在降低內(nèi)存上進(jìn)行設(shè)置,但隨著任務(wù)增多,存儲(chǔ)的參數(shù)量也隨之增加,導(dǎo)致部分舊參數(shù)被覆蓋而遺忘。
文獻(xiàn)[27~32]也采用權(quán)重正則化策略以減緩遺忘產(chǎn)生。分析發(fā)現(xiàn),權(quán)重正則化無須有大量的參數(shù)計(jì)算,具有較高的計(jì)算效率以及相對低的內(nèi)存占用量,可用于圖像分類任務(wù)相關(guān)的工業(yè)領(lǐng)域,如故障診斷[33]、質(zhì)量檢測[34]等。但隨著任務(wù)增多,模型對過去任務(wù)參數(shù)保護(hù)度逐漸累積,一定程度上阻礙了模型對新任務(wù)學(xué)習(xí)。
2.1.2 梯度正則化
梯度正則化不同于權(quán)重正則化,既不處理單個(gè)權(quán)重,也不處理算法輸出,通過存儲(chǔ)過去任務(wù)參數(shù)作為情景記憶。在模型訓(xùn)練新任務(wù)時(shí),對模型梯度進(jìn)行約束,使梯度更新方向逼近情景記憶計(jì)算的梯度方向。Lopez-Paz等人[35]利用梯度約束提出梯度情景記憶(gradient episodic memory,GEM),通過對當(dāng)前任務(wù)的梯度更新和不等式約束來減少對之前任務(wù)知識的遺忘。在GEM中,過去任務(wù)的子集被保存到固定大小的外部內(nèi)存中,用于約束當(dāng)前訓(xùn)練任務(wù)梯度,避免增加過去任務(wù)的損失。GEM計(jì)算方法首先定義任務(wù)k的情景記憶損失函數(shù):
由于A-GEM只需計(jì)算隨機(jī)子集梯度而無須存儲(chǔ)矩陣G,在新的梯度更新規(guī)則下,不僅提高了A-GEM計(jì)算效率,還節(jié)省了內(nèi)存空間。類似的改進(jìn)工作包括:文獻(xiàn)[37]提出變體軟約束GEM—-SOFT-GEM,通過引入軟約束變量平衡新舊任務(wù)損失,使用A-GEM的改進(jìn)版A-A-GEM求取當(dāng)前任務(wù)梯度和情景記憶梯度平均值進(jìn)行梯度更新。實(shí)驗(yàn)結(jié)果表明,雖然-SOFT-GEM在計(jì)算效率和內(nèi)存節(jié)省的性能相對GEM有所提高,但是隨著任務(wù)量增多,相比EWC和SI方法,-SOFT-GEM對過去知識遺忘增量更高。Farajtabar等人[38]通過約束梯度更新方向提出正交梯度下降(orthogonal gradient descent,OGD)方法,通過梯度空間正交存儲(chǔ)任務(wù)梯度防止遺忘,但由于模型容量限制,隨著任務(wù)增加依然會(huì)加速模型遺忘。
梯度正則化通過計(jì)算存儲(chǔ)的部分過去數(shù)據(jù)來約束當(dāng)前任務(wù)的梯度更新方向,具有良好的穩(wěn)定性,應(yīng)用于圖像分類[39]相關(guān)領(lǐng)域。
2.1.3 知識蒸餾
知識蒸餾(knowledge distillation,KD)[40]用于圖像分類任務(wù),采用教師網(wǎng)絡(luò)指導(dǎo)學(xué)生網(wǎng)絡(luò)實(shí)現(xiàn)知識遷移和模型壓縮。傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)主要使用softmax作為輸出層函數(shù),而知識蒸餾在此基礎(chǔ)上引入了溫度系數(shù)T的softmax函數(shù)值si:
T值越大,softmax的輸出概率分布更趨于平滑,提高了模型對知識的“容忍度”。
利用知識蒸餾中保持模型間的一致特性[41],知識蒸餾策略通過凍結(jié)舊模型作為教師網(wǎng)絡(luò)對新任務(wù)和舊任務(wù)模型的輸出進(jìn)行約束,使模型學(xué)習(xí)新數(shù)據(jù)的輸出時(shí)與舊模型保持一致,并將舊模型包含的知識引入到新模型防止遺忘。根據(jù)知識蒸餾約束范圍分為局部蒸餾和全局蒸餾,在局部蒸餾研究中,文獻(xiàn)[42]提出不忘學(xué)習(xí)的知識蒸餾方法(learning without forgetting,LwF)。舊模型作為教師網(wǎng)絡(luò),對部分新任務(wù)數(shù)據(jù)進(jìn)行標(biāo)注,作為舊任務(wù)數(shù)據(jù)偽標(biāo)簽,通過偽標(biāo)簽約束模型參數(shù)更新實(shí)現(xiàn)知識蒸餾。LwF算法代碼如下所示:
LwF知識蒸餾方法也存在一定的局限性:a)為了保持舊任務(wù)性能,目標(biāo)模型在約束下模仿舊模型輸出學(xué)習(xí)新任務(wù),對新樣本提供正則化約束,但阻礙對新任務(wù)的適應(yīng)能力;b)當(dāng)模型長時(shí)間學(xué)習(xí)不同領(lǐng)域任務(wù)流時(shí),舊任務(wù)性能下降,因?yàn)榕f任務(wù)的損失根據(jù)新數(shù)據(jù)計(jì)算得到,而新數(shù)據(jù)的分布與舊數(shù)據(jù)有較大的差異,這會(huì)導(dǎo)致隨著任務(wù)流的學(xué)習(xí),模型對舊任務(wù)性能呈現(xiàn)不斷下降的趨勢。
鑒于LwF的局限性,文獻(xiàn)[43]提出多任務(wù)終身學(xué)習(xí)蒸餾適應(yīng)算法(adaptation by distillation,AbD)。AbD針對每一個(gè)新任務(wù)進(jìn)行單獨(dú)訓(xùn)練,通過知識蒸餾將新舊模型的知識提煉為一個(gè)學(xué)生模型,保留舊任務(wù)數(shù)據(jù)的部分特征子集以減少遺忘。AbD使模型能更好地適應(yīng)訓(xùn)練新任務(wù),并使用少量的過去數(shù)據(jù)子集回顧過去知識;然而這種方法隨著模型對連續(xù)任務(wù)流的學(xué)習(xí)會(huì)出現(xiàn)新舊類不平衡的問題。針對這一問題,文獻(xiàn)[44]通過余弦歸一化(類別不平衡)、less-forget約束(蒸餾損失保留舊類的重要特征參數(shù))以及類分離(對新舊類進(jìn)行差異化處理)三種算法減輕新舊類不平衡所造成的影響,并結(jié)合三種約束算法平衡訓(xùn)練過程,保留過去任務(wù)知識。
不同于上述方法,Castro等人[45]結(jié)合交叉熵學(xué)習(xí)新類,蒸餾損失保留舊類知識,使用特征內(nèi)存存儲(chǔ)節(jié)省內(nèi)存空間。另外,Xiang等人[46]提出動(dòng)態(tài)修正向量算法解決知識蒸餾偏差和模型過擬合問題。文獻(xiàn)[47]采用權(quán)重調(diào)整(weight aligning,WA)平衡新舊類知識權(quán)重,并結(jié)合KD方法保持對舊類的辨別。
由于局部蒸餾對每個(gè)過去任務(wù)知識進(jìn)行蒸餾整合,局部蒸餾不能很好地提取不同任務(wù)類,而全局蒸餾是對所有任務(wù)知識進(jìn)行蒸餾克服了該缺點(diǎn)。在全局蒸餾研究中,Lee等人[48]對舊模型和現(xiàn)有模型進(jìn)行整合并提出了全局蒸餾(global distillation,GD),舊數(shù)據(jù)的一小部分知識被保留下來,這在一定程度上提升了模型的穩(wěn)定性,但降低了新任務(wù)的學(xué)習(xí)效率。使用無標(biāo)簽外部數(shù)據(jù)集是近年來一種很有前途的持續(xù)學(xué)習(xí)研究方法,文獻(xiàn)[49]提出深度模型整合(deep model consolidation,DMC)的持續(xù)學(xué)習(xí)方法。與GD類似,DMC在外部無標(biāo)簽數(shù)據(jù)的輔助下將新舊模型蒸餾整合成后續(xù)訓(xùn)練的舊模型,克服無法獲得原始訓(xùn)練數(shù)據(jù)的困難,減少了對舊類知識的遺忘,使模型即使在原始訓(xùn)練數(shù)據(jù)不可用時(shí)也能工作。雖然GD和DMC為新任務(wù)訓(xùn)練模型取得了較好的效果,但存在整合模型容量會(huì)隨著不同類任務(wù)的增加而增大的問題。
此外,文獻(xiàn)[50~54]也將知識蒸餾應(yīng)用在求解災(zāi)難性遺忘問題上,知識蒸餾不僅對知識進(jìn)行遷移,還能約束過去任務(wù)參數(shù)改變,緩解災(zāi)難性遺忘;同時(shí),其網(wǎng)絡(luò)設(shè)計(jì)復(fù)雜度較低,可應(yīng)用于圖像分類和檢測等相關(guān)的工業(yè)領(lǐng)域,如音頻檢測[55]、虛假媒體檢測[56]等。但蒸餾網(wǎng)絡(luò)的性能還取決于數(shù)據(jù)集大小、任務(wù)量以及過去任務(wù)數(shù)據(jù)存儲(chǔ)[57]等因素。
2.2 重放策略
重放策略是在訓(xùn)練數(shù)據(jù)層面的重放,利用隨機(jī)存儲(chǔ)的過去任務(wù)經(jīng)驗(yàn)(即經(jīng)驗(yàn)重放)或是利用生成模型生成與過去任務(wù)經(jīng)驗(yàn)相似的偽數(shù)據(jù) (即生成式重放)。經(jīng)驗(yàn)重放和生成式重放策略通過回顧過去知識緩解災(zāi)難性遺忘問題。
2.2.1 經(jīng)驗(yàn)重放
經(jīng)驗(yàn)重放興起于深度強(qiáng)化學(xué)習(xí)領(lǐng)域[58],在學(xué)習(xí)過程中,agent保存過去經(jīng)驗(yàn),在未來的探索中遇到相關(guān)或相近的物體時(shí),利用經(jīng)驗(yàn)重放提升學(xué)習(xí)效率。
經(jīng)驗(yàn)重放策略對過去任務(wù)特征參數(shù)進(jìn)行隨機(jī)少量存儲(chǔ),在新任務(wù)訓(xùn)練過程中,將過去任務(wù)特征加入到當(dāng)前任務(wù)共同訓(xùn)練實(shí)現(xiàn)回顧過去知識來防止遺忘[59]。在這項(xiàng)研究中,Chaudhry等人[60]提出后視錨學(xué)習(xí)(hindsight anchor learning,HAL)方法,利用圖像空間的梯度上升構(gòu)建具有代表性的任務(wù)錨點(diǎn),通過對預(yù)測器優(yōu)化保持過去任務(wù)錨點(diǎn)的預(yù)測不變性,從而保持模型過去任務(wù)的性能。類似地,Qiang等人[61]在聚類方法中增加情景記憶模塊和稀疏終身學(xué)習(xí)經(jīng)驗(yàn)重放模塊,提出終身學(xué)習(xí)方法(lifelong learning augmented short text,LAST)來增強(qiáng)短文本流聚類能力,通過經(jīng)驗(yàn)重放模塊以一定的時(shí)間間隔對情景記憶中的相關(guān)文本進(jìn)行采樣。值得注意的是,對過去任務(wù)的重放導(dǎo)致模型對新任務(wù)的學(xué)習(xí)產(chǎn)生漂移。Rolnick等人[62]提出在回放中引入off-policy和行為克隆改善模型可塑性—穩(wěn)定性困境,同時(shí)在經(jīng)驗(yàn)重放過程中增加兩個(gè)額外的損失項(xiàng)誘導(dǎo)網(wǎng)絡(luò)與過去模型之間的行為克隆,防止網(wǎng)絡(luò)對重放任務(wù)的輸出在學(xué)習(xí)新任務(wù)時(shí)產(chǎn)生漂移。此外,Isele等人[63]提出基于排序的重放方法對過去經(jīng)驗(yàn)進(jìn)行排序,通過增設(shè)排序函數(shù),選擇重要的過去經(jīng)驗(yàn)存儲(chǔ)在長期記憶中,并刪除不重要的過去經(jīng)驗(yàn),設(shè)置FIFO緩沖器存儲(chǔ)新經(jīng)驗(yàn)。
文獻(xiàn)[64~68]針對經(jīng)驗(yàn)重放策略提出了不同的方式方法。經(jīng)驗(yàn)重放通過直接或者間接存儲(chǔ)過去任務(wù)數(shù)據(jù)作為緩解遺忘的方法在記憶保留上有較大的優(yōu)勢,可應(yīng)用于圖像分類和檢測等相關(guān)的工業(yè)領(lǐng)域如自動(dòng)駕駛目標(biāo)檢測[68]、醫(yī)療預(yù)測[69]等;同時(shí),隨著任務(wù)量增多,所需要重放的情景記憶隨之增加,這將會(huì)增加舊任務(wù)學(xué)習(xí)負(fù)擔(dān)而降低新任務(wù)學(xué)習(xí)效率。由于生成對抗網(wǎng)絡(luò)的發(fā)展,通過生成模型生成過去經(jīng)驗(yàn)的重播方式成為更多研究者關(guān)注的熱點(diǎn)。
2.2.2 生成式重放
在大腦學(xué)習(xí)機(jī)制中,避免災(zāi)難性遺忘主要靠大腦中海馬體和新皮質(zhì)層[70]兩個(gè)獨(dú)立區(qū)域。海馬體將經(jīng)歷存儲(chǔ)到聯(lián)想記憶網(wǎng)絡(luò),并將經(jīng)歷的事件生成式地重述給新皮質(zhì)層,新皮質(zhì)層新舊記憶交織整合存儲(chǔ)[71]。受此啟發(fā),Shin等人[72]提出深度生成重放(deep generative replay,DGR)的持續(xù)學(xué)習(xí)模型,是由生成器和求解器模型組成的協(xié)作結(jié)構(gòu),求解器利用生成器生成的過去任務(wù)偽數(shù)據(jù)解決相對應(yīng)的任務(wù),而生成器則采用WGAN-GP 的方式保證生成的偽數(shù)據(jù)能盡量靠近真實(shí)數(shù)據(jù),DGR雖然無須存儲(chǔ)過去經(jīng)驗(yàn),但訓(xùn)練過程中需要生成大量過去偽數(shù)據(jù)并加入到當(dāng)前任務(wù)中進(jìn)行再訓(xùn)練,降低了訓(xùn)練效率。文獻(xiàn)[73]提出基于人工神經(jīng)網(wǎng)絡(luò)的經(jīng)驗(yàn)生成式重放(generative replay,GR)變體,如圖6所示。GR變體包含一個(gè)分類模型M和一個(gè)用于生成過去經(jīng)驗(yàn)的生成器模型G,與DGR不同的是GR變體采用變分自編碼(variational auto encoder,VAE)[74],VAE為每個(gè)樣本構(gòu)造一個(gè)專屬的正態(tài)分布,然后采樣重構(gòu),因此GR變體生成固定少量數(shù)據(jù)實(shí)現(xiàn)較高識別準(zhǔn)確率。
文獻(xiàn)[75~81]提出不同的生成式重放方法,通過訓(xùn)練生成模型作為過去數(shù)據(jù)的生成器而緩解遺忘的策略,在較低的內(nèi)存占用率的情況下仍具有較高的穩(wěn)定性,可應(yīng)用于圖像分類、語義分割和自然語言處理等相關(guān)工業(yè)領(lǐng)域,如文本數(shù)據(jù)處理[82]等。但過去任務(wù)性能在很大程度又由生成模型決定,同時(shí)模型生成過去任務(wù)需耗費(fèi)大量時(shí)間,不利于生產(chǎn)實(shí)踐。
2.3 動(dòng)態(tài)架構(gòu)策略
動(dòng)態(tài)架構(gòu)策略在網(wǎng)絡(luò)架構(gòu)層面的擴(kuò)展或重用,通過自適應(yīng)擴(kuò)展網(wǎng)絡(luò)層或覆蓋不重要神經(jīng)元容納新任務(wù)知識以減少模型重要參數(shù)改變而緩解遺忘,利用網(wǎng)絡(luò)參數(shù)共享可提升新任務(wù)學(xué)習(xí)效率。
漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(progressive neural network,PNN)[83]作為最早的持續(xù)學(xué)習(xí)動(dòng)態(tài)架構(gòu)策略之一,如圖7所示。學(xué)習(xí)新任務(wù)時(shí),PNN構(gòu)建一個(gè)與過去任務(wù)相關(guān)聯(lián)的多層神經(jīng)網(wǎng)絡(luò)模型,并固定過去任務(wù)模型以保持模型在舊任務(wù)上的表現(xiàn),新模型在構(gòu)建之初通過吸收過去任務(wù)模型對應(yīng)參數(shù)作為額外參數(shù)發(fā)展新技能。與之類似,ExpertGate網(wǎng)絡(luò)模型[84]通過自動(dòng)編碼器捕獲訓(xùn)練樣本的共有特征,識別與新任務(wù)相似的樣本,并為新任務(wù)匹配與新樣本相似度高的專家網(wǎng)絡(luò)作為初始網(wǎng)絡(luò)進(jìn)行訓(xùn)練,經(jīng)過訓(xùn)練后的網(wǎng)絡(luò)成為一個(gè)新的專家網(wǎng)絡(luò)。
無論是PNN還是ExpertGate都是為新任務(wù)構(gòu)建一個(gè)新的網(wǎng)絡(luò)并保持過去網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)持續(xù)學(xué)習(xí),這種方式下,模型容量會(huì)隨著任務(wù)量的增加而不斷增加,不適合應(yīng)用于大量的連續(xù)性任務(wù)。通過對不重要的神經(jīng)元和網(wǎng)絡(luò)層進(jìn)行修剪降低網(wǎng)絡(luò)容量,Golkar等人[85]提出神經(jīng)剪枝持續(xù)學(xué)習(xí)計(jì)算神經(jīng)元的平均活動(dòng),找到模型網(wǎng)絡(luò)學(xué)習(xí)過程中重復(fù)使用的部分,將其定性為重要神經(jīng)元并施加保護(hù);而不活躍的神經(jīng)元被重新分配用于新任務(wù)學(xué)習(xí),通過干涉權(quán)重和自由權(quán)重實(shí)現(xiàn)參數(shù)共享以提高新任務(wù)學(xué)習(xí)效率。與之不同的是,SpaceNet[86]采用固定模型容量進(jìn)行自適應(yīng)稀疏性訓(xùn)練而實(shí)現(xiàn)持續(xù)學(xué)習(xí)。在學(xué)習(xí)新任務(wù)時(shí),模型為新任務(wù)分配不重要的神經(jīng)元并建立稀疏連接,部分神經(jīng)元被保留為該任務(wù)的特定神經(jīng)元,而其他神經(jīng)元根據(jù)其重要性與其他任務(wù)共享,用于未來任務(wù)的學(xué)習(xí)并減少任務(wù)之間的干擾,同時(shí)重要神經(jīng)元的稀疏自適應(yīng)訓(xùn)練為未來任務(wù)學(xué)習(xí)節(jié)省了更多空間。
此外,文獻(xiàn)[87~92]提出了不同的持續(xù)學(xué)習(xí)動(dòng)態(tài)架構(gòu)策略,動(dòng)態(tài)架構(gòu)策略具備良好參數(shù)共享性及神經(jīng)元自適應(yīng)利用性,可應(yīng)用于圖像分類[82]等相關(guān)領(lǐng)域。但其本身需要一定的模型容量容納任務(wù)流知識,所以在大量任務(wù)流中學(xué)習(xí)存在局限性。
2.4 聯(lián)合策略
聯(lián)合策略通過結(jié)合不同策略優(yōu)勢,從不同層面優(yōu)化災(zāi)難性遺忘問題。蒸餾適應(yīng)方法(AbD)[43]通過結(jié)合知識蒸餾和經(jīng)驗(yàn)重放兩種技術(shù),約束穩(wěn)定性與可塑性平衡點(diǎn)。AbD中的目標(biāo)模型通過專家網(wǎng)絡(luò)進(jìn)行知識提煉適應(yīng)新任務(wù),通過緩存小部分舊任務(wù)數(shù)據(jù)以保持對舊任務(wù)性能,更好地適應(yīng)新任務(wù)。與之類似,增量分類器和表示學(xué)習(xí)(incremental classifier and representation learning,iCaRL)[93]方法通過結(jié)合經(jīng)驗(yàn)重放和知識蒸餾將過去樣本范例以圖像的方式存儲(chǔ),并利用蒸餾正則化器提煉保留舊知識以緩解災(zāi)難性遺忘。知識蒸餾與經(jīng)驗(yàn)重放結(jié)合一方面緩解蒸餾對軟標(biāo)簽監(jiān)督不足的問題,另一方面通過提煉過去經(jīng)驗(yàn)緩解內(nèi)存壓力。與之不同的是,Zhai等人[94]在生成式重播策略中引入知識蒸餾,提出基于Bicycle GAN[95]模型的終身GAN持續(xù)學(xué)習(xí)方法,通過Montage和Swap操作從當(dāng)前數(shù)據(jù)中生成輔助數(shù)據(jù)進(jìn)行蒸餾。訓(xùn)練過程由模型Mt訓(xùn)練當(dāng)前任務(wù)t,終身GAN在給定輔助數(shù)據(jù)作為輸入的情況下,通過生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)產(chǎn)生相似的輸出值以提取出訓(xùn)練網(wǎng)絡(luò)中的信息,并提煉到新的網(wǎng)絡(luò),這使得在持續(xù)學(xué)習(xí)環(huán)境中能夠執(zhí)行圖像條件生成任務(wù)。類似地,文獻(xiàn)[96]提出生成特征重放的持續(xù)學(xué)習(xí)方法,通過設(shè)置Wasserstein GAN作為特征生成器對過去任務(wù)進(jìn)行特征重放代替圖像重放,并與特征提取器的特征蒸餾結(jié)合,降低模型對內(nèi)存的要求,提高模型對新任務(wù)的學(xué)習(xí)能力。
表1為不同聯(lián)合策略方法災(zāi)難性遺忘能力的對比,可以發(fā)現(xiàn)多數(shù)聯(lián)合策略都與知識蒸餾策略相結(jié)合,主要是因?yàn)橹R蒸餾不僅能提升模型訓(xùn)練效率、減少空間消耗,同時(shí)知識蒸餾中軟標(biāo)簽?zāi)軐^去知識進(jìn)行存儲(chǔ)和轉(zhuǎn)移。
3 CF評價(jià)指標(biāo)
結(jié)合持續(xù)學(xué)習(xí)研究現(xiàn)狀,本文從平均準(zhǔn)確度、最大遺忘度、知識逆向遷移和知識正向遷移四個(gè)方面總結(jié)了四個(gè)持續(xù)學(xué)習(xí)評價(jià)指標(biāo)。
4 CF求解策略性能對比及總結(jié)
4.1 CF求解策略性能對比
基于文獻(xiàn)[4,57]的CL策略實(shí)驗(yàn)總結(jié)以及CF求解策略分析,針對正則化策略、重放策略、動(dòng)態(tài)架構(gòu)策略的穩(wěn)定性(反映模型保留舊知識的能力)、輕量化程度(模型學(xué)習(xí)任務(wù)對內(nèi)存空間及模型容量綜合度量)、計(jì)算效率(反映模型訓(xùn)練的總體速度)三個(gè)方面進(jìn)行分級(Ⅰ、Ⅱ、Ⅲ)對比分析,其中等級越高,代表該性能越強(qiáng)。
a)權(quán)重正則化。利用存儲(chǔ)的少量過去任務(wù)數(shù)據(jù)計(jì)算并保護(hù)重要權(quán)重參數(shù)而減緩遺忘,在輕量化程度和計(jì)算效率相對其他方法更有優(yōu)勢;其穩(wěn)定性因模型僅通過對過去部分重要權(quán)重進(jìn)行約束而處于劣勢。
b)梯度正則化。通過約束新任務(wù)學(xué)習(xí)梯度方向與情景計(jì)算的梯度方向正內(nèi)積防止遺忘,因此過去數(shù)據(jù)的存儲(chǔ)一方面會(huì)提升穩(wěn)定性,另一方面會(huì)占用一定內(nèi)存空間,同時(shí)情景記憶的梯度計(jì)算會(huì)影響計(jì)算效率,輕量化程度和計(jì)算效率弱于權(quán)重正則化。
c)知識蒸餾。通過舊模型約束新模型輸出,將過去知識提煉至新模型中。由于使用雙模型結(jié)構(gòu),并將過去任務(wù)模型作為教師模型,其穩(wěn)定性、輕量化程度、計(jì)算效率在幾種策略中較為均衡。
d)經(jīng)驗(yàn)重放。通過對過去任務(wù)知識以一定形式存儲(chǔ)并加入到新任務(wù)學(xué)習(xí)緩解遺忘。模型結(jié)構(gòu)僅需增加過去數(shù)據(jù)的存儲(chǔ)與加載模塊,因此其輕量化程度較高; 由于過去數(shù)據(jù)的存儲(chǔ)與計(jì)算,其穩(wěn)定性和計(jì)算效率與知識蒸餾相差無幾。
e)生成式重放。通過生成過去任務(wù)偽數(shù)據(jù)并加入到當(dāng)前任務(wù)中學(xué)習(xí)回顧過去知識。由于生成式重放策略訓(xùn)練前使用生成模型生成大量的過去數(shù)據(jù)加入到當(dāng)前任務(wù)進(jìn)行訓(xùn)練,在計(jì)算效率上存在劣勢,但生成模型生成的過去數(shù)據(jù)有利于新模型保持穩(wěn)定性。雙模型結(jié)構(gòu)輕量化程度與知識蒸餾策略相當(dāng)。
f)動(dòng)態(tài)架構(gòu)策略。通過約束過去任務(wù)的網(wǎng)絡(luò)架構(gòu)自適應(yīng)擴(kuò)展網(wǎng)絡(luò)層或覆蓋不重要的神經(jīng)元容納新任務(wù)知識。而模型擴(kuò)增受限于內(nèi)存容量,因此動(dòng)態(tài)架構(gòu)策略在輕量化程度相對其他方法有較大劣勢。量化對比如表2所示,可視化對比如圖8所示。
4.2 CF求解策略實(shí)驗(yàn)分析
表3給出了部分CF求解策略在CIFAR-100數(shù)據(jù)集中的部分實(shí)驗(yàn)結(jié)果,從表3可以看出:a)在相同數(shù)據(jù)集下,生成式重放、梯度正則化和動(dòng)態(tài)架構(gòu)策略具有較高的精度,這與CF求解策略所分析對比結(jié)果相當(dāng);b)通過聯(lián)合各種策略優(yōu)勢以及結(jié)合元學(xué)習(xí)等其他機(jī)器學(xué)習(xí)方法能一定程度上彌補(bǔ)單種CF求解策略的不足,提升模型穩(wěn)定性。
通過分析相關(guān)文獻(xiàn),CF求解策略研究對多重順序任務(wù)環(huán)境設(shè)置有較多的涉足,并且所采用數(shù)據(jù)集均為綜合類數(shù)據(jù)集(如MNIST、CIFAR-100等)。持續(xù)學(xué)習(xí)作為一種面向非平穩(wěn)數(shù)據(jù)流的特殊機(jī)器學(xué)習(xí)范例,模型訓(xùn)練要求數(shù)據(jù)集囊括多種類別滿足模型在不同場景下持續(xù)學(xué)習(xí)新任務(wù)的能力。通過對現(xiàn)有文獻(xiàn)總結(jié)發(fā)現(xiàn),現(xiàn)階段持續(xù)學(xué)習(xí)研究主要使用以下綜合類數(shù)據(jù)集和功能性數(shù)據(jù)集:
a)綜合類數(shù)據(jù)集。囊括多種類別圖像的數(shù)據(jù)集,滿足持續(xù)學(xué)習(xí)研究中連續(xù)順序任務(wù)設(shè)置的要求,如MNIST、CIFAR-100、CORe50、ImageNet等綜合類數(shù)據(jù)集。
b)功能性數(shù)據(jù)集。只包含針對某種特定功能種類的數(shù)據(jù)集,如CompCars 包含有汽車最大速度、里程等屬性,用于車輛細(xì)粒度屬性持續(xù)檢測;CUHK03由監(jiān)控拍攝的帶標(biāo)簽行人圖像組成,用于行人持續(xù)目標(biāo)檢測;KTH和UCSD由不同場景下的行人行為視頻組成,應(yīng)用于行人異常行為持續(xù)檢測。
5 CL應(yīng)用研究
隨著人工智能技術(shù)的發(fā)展,傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)單一的訓(xùn)練模式難以適應(yīng)更為貼近現(xiàn)實(shí)應(yīng)用的非平穩(wěn)數(shù)據(jù)流的學(xué)習(xí)。對于現(xiàn)階段持續(xù)學(xué)習(xí)在工業(yè)領(lǐng)域的應(yīng)用,主要是將持續(xù)學(xué)習(xí)算法與功能模型結(jié)合以適應(yīng)多任務(wù)多場景變化。
圖9為持續(xù)學(xué)習(xí)應(yīng)用場景的一般框架,持續(xù)學(xué)習(xí)方法作為一種輔助手段,通過結(jié)合如目標(biāo)檢測等功能性模型,使其具備一定的災(zāi)難性遺忘抵抗能力來執(zhí)行非平穩(wěn)數(shù)據(jù)流任務(wù),并能在學(xué)習(xí)過程中不斷積累并轉(zhuǎn)移知識。在持續(xù)學(xué)習(xí)的應(yīng)用中,此部分重點(diǎn)介紹視覺計(jì)算、自主機(jī)器人等常見的持續(xù)學(xué)習(xí)應(yīng)用領(lǐng)域。
5.1 視覺計(jì)算
視覺計(jì)算作為持續(xù)學(xué)習(xí)應(yīng)用最廣泛的領(lǐng)域,各種持續(xù)學(xué)習(xí)策略研究基本都是以連續(xù)視覺識別任務(wù)作為評測任務(wù)。在語義分割領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)提高了語義分割的能力,但傳統(tǒng)模型中,所有類都事先已知并只能進(jìn)行一次性學(xué)習(xí)[106],然而這種設(shè)置在實(shí)際應(yīng)用中相當(dāng)有限。在現(xiàn)實(shí)場景中,一種能不斷學(xué)習(xí)新類,并能保持舊任務(wù)性能的持續(xù)語義分割逐漸成為一個(gè)新興趨勢[107]。然而,實(shí)現(xiàn)持續(xù)語義分割面臨兩個(gè)重要挑戰(zhàn),第一個(gè)是災(zāi)難性遺忘問題,以前所學(xué)會(huì)的舊類會(huì)在學(xué)習(xí)新類過程中被遺忘;第二個(gè)問題是背景類的語義轉(zhuǎn)移。在傳統(tǒng)的語義分割場景中,背景包含不屬于任何其他類的像素;而在持續(xù)語義分割中,背景包含不屬于任何當(dāng)前類的像素,更通俗地講,持續(xù)語義分割需要區(qū)分真實(shí)背景類和舊類像素,避免災(zāi)難性遺忘[108]。Douillard等人[109]提出多尺度池化蒸餾方法,在特征層次上保持長期和短期的空間關(guān)系,并針對背景像素問題將舊類的像素作為偽背景,同時(shí),設(shè)計(jì)基于置信的偽標(biāo)記策略標(biāo)記舊類的背景像素,該策略在學(xué)習(xí)新類過程中能有效區(qū)別舊類的背景像素和真實(shí)背景像素,避免對舊類的災(zāi)難性遺忘。
在視覺監(jiān)控領(lǐng)域,文獻(xiàn)[110]提出基于持續(xù)學(xué)習(xí)和動(dòng)態(tài)樣本集模塊長期跟蹤框架來解決跟蹤目標(biāo)外形變化而導(dǎo)致跟蹤目標(biāo)丟失的問題。Doshi等人[111]結(jié)合遷移學(xué)習(xí)提出視頻監(jiān)控在線異常檢測方法,由遷移學(xué)習(xí)的特征提取模塊和統(tǒng)計(jì)決策模塊組成,特征提取模塊減輕訓(xùn)練復(fù)雜度,并提取運(yùn)動(dòng)、位置和外觀特征;統(tǒng)計(jì)決策模塊作為序列異常檢測器,在數(shù)秒內(nèi)使用新標(biāo)簽增量更新模型。
5.2 自主機(jī)器人
隨著全球機(jī)器人市場規(guī)模不斷擴(kuò)大,機(jī)器人技術(shù)正在從機(jī)器人3.0時(shí)代邁向機(jī)器人4.0時(shí)代,不僅要求機(jī)器人具備感知和智能協(xié)作能力,還要求其在面對不斷變化的現(xiàn)實(shí)環(huán)境具備理解和決策的能力,最終實(shí)現(xiàn)自主服務(wù)。持續(xù)學(xué)習(xí)發(fā)展使得自主機(jī)器人的實(shí)現(xiàn)成為可能。在這項(xiàng)工作中,Chen[112]為探討與自組織動(dòng)力學(xué)相關(guān)的問題將可塑性學(xué)習(xí)系統(tǒng)應(yīng)用于蛇形機(jī)器人的運(yùn)動(dòng)控制,該蛇形機(jī)器人八關(guān)節(jié)的運(yùn)動(dòng)由人工神經(jīng)分子(artificial nerve molecule,ANM)系統(tǒng)控制,ANM模型能夠以自組織的學(xué)習(xí)方式完成所分配的任務(wù)。同樣地,Kobayashi等人[113]設(shè)計(jì)一個(gè)課程范例建立對四足機(jī)器人的控制,利用EWC保留已學(xué)習(xí)到與任務(wù)相關(guān)的知識,并通過分層任務(wù)學(xué)習(xí)將機(jī)器的學(xué)習(xí)過程分為第一階段的肢體自下而上的運(yùn)動(dòng)學(xué)習(xí)和第二階段的行走/轉(zhuǎn)彎行為學(xué)習(xí)。
持續(xù)學(xué)習(xí)作為一種能適應(yīng)不斷變化的現(xiàn)實(shí)環(huán)境并能不斷學(xué)習(xí)新知識且不忘舊知識的前沿機(jī)器學(xué)習(xí)范例,除了上述常見應(yīng)用外,在缺陷檢測[114,115]、自然語言處理[82]以及機(jī)器翻譯[116]等眾多領(lǐng)域都有應(yīng)用。
6 展望
持續(xù)學(xué)習(xí)作為前沿機(jī)器學(xué)習(xí)范例,能在非平穩(wěn)數(shù)據(jù)流中不斷學(xué)習(xí)新任務(wù),保持對舊任務(wù)性能,現(xiàn)階段持續(xù)學(xué)習(xí)研究仍處于萌芽階段,僅在一定程度上減緩災(zāi)難性遺忘。在今后持續(xù)學(xué)習(xí)研究中,可從以下幾方面進(jìn)行思考:
a)針對持續(xù)學(xué)習(xí)現(xiàn)有挑戰(zhàn)的可解釋性新理論。模型學(xué)習(xí)新任務(wù)時(shí)不可避免地面臨災(zāi)難性遺忘、數(shù)據(jù)分布變化和知識存儲(chǔ)問題,目前針對新任務(wù)的學(xué)習(xí)會(huì)造成何種知識被遺忘、該知識是如何被遺忘、如何避免這種遺忘、數(shù)據(jù)流是以何種方式變化、能否對這種變化進(jìn)行建模使學(xué)習(xí)模型在學(xué)習(xí)過程中適應(yīng)新的變化等問題的理論解釋研究存在空缺。對遺忘機(jī)理、數(shù)據(jù)分布變化機(jī)理以及知識存儲(chǔ)機(jī)理進(jìn)行可解釋性理論研究將會(huì)對持續(xù)學(xué)習(xí)發(fā)展作出重要貢獻(xiàn)。
b)復(fù)雜場景下的任務(wù)數(shù)據(jù)流分布變化檢測新方法。持續(xù)學(xué)習(xí)模型在面對動(dòng)態(tài)變化的數(shù)據(jù)流,一個(gè)未被發(fā)現(xiàn)的變化將會(huì)導(dǎo)致遺忘,研究復(fù)雜場景模型數(shù)據(jù)分布變化檢測方法并建立新數(shù)據(jù)和新任務(wù)影響下的數(shù)據(jù)修復(fù)方法,避免對非相關(guān)技能或知識的災(zāi)難性干擾是一個(gè)值得研究的重要課題。
c)研究復(fù)雜場景下的知識存儲(chǔ)新方法。模型在不斷的學(xué)習(xí)過程中,需要直接或間接地存儲(chǔ)過去數(shù)據(jù)以保持過去任務(wù)性能。研究復(fù)雜場景下的模型記憶方法,構(gòu)建新舊任務(wù)特征關(guān)聯(lián)記憶方法并建立模型記憶退化檢測方法,防止模型關(guān)鍵神經(jīng)元或特征網(wǎng)絡(luò)層退化產(chǎn)生遺忘。
d)結(jié)合強(qiáng)化學(xué)習(xí)等前沿機(jī)器學(xué)習(xí)技術(shù),研究克服現(xiàn)有挑戰(zhàn)的持續(xù)學(xué)習(xí)新模型?,F(xiàn)有強(qiáng)化學(xué)習(xí)、小樣本學(xué)習(xí)、遷移學(xué)習(xí)和元學(xué)習(xí)等前沿機(jī)器學(xué)習(xí)技術(shù)具有各自優(yōu)勢,結(jié)合多種現(xiàn)有前沿機(jī)器學(xué)習(xí)技術(shù),以優(yōu)化持續(xù)學(xué)習(xí)各項(xiàng)性能的持續(xù)學(xué)習(xí)新模型,例如,通過結(jié)合強(qiáng)化學(xué)習(xí)提升持續(xù)學(xué)習(xí)環(huán)境適應(yīng)及主動(dòng)學(xué)習(xí)能力; 結(jié)合小樣本學(xué)習(xí)解決持續(xù)學(xué)習(xí)過程中樣本量不足的問題; 結(jié)合遷移學(xué)習(xí)解決持續(xù)學(xué)習(xí)過程中知識遷移問題; 結(jié)合元學(xué)習(xí)提升持續(xù)學(xué)習(xí)的學(xué)習(xí)效率。
e)拓展持續(xù)學(xué)習(xí)應(yīng)用新領(lǐng)域。拓展持續(xù)學(xué)習(xí)應(yīng)用研究是實(shí)現(xiàn)工業(yè)應(yīng)用的重要研究方向,如研究復(fù)雜環(huán)境下具有記憶過去任務(wù)特征,能將過去任務(wù)技能運(yùn)用于解決當(dāng)前任務(wù)并不斷學(xué)習(xí)新技能的自主交互式機(jī)器人; 或是考慮不同天氣、車流、地點(diǎn)等復(fù)雜環(huán)境下研究具備3D多目標(biāo)檢測持續(xù)學(xué)習(xí)能力的無人駕駛技術(shù)。
f)研究精細(xì)化持續(xù)學(xué)習(xí)評估指標(biāo),健全持續(xù)學(xué)習(xí)評估體系?;诂F(xiàn)有評估標(biāo)準(zhǔn),研究模型學(xué)習(xí)新任務(wù)對模型容量大小增長、任務(wù)記憶效率以及過去任務(wù)總體性能影響的評估標(biāo)準(zhǔn)并結(jié)合現(xiàn)有標(biāo)準(zhǔn)進(jìn)行CL策略的綜合性實(shí)驗(yàn)評估,促進(jìn)持續(xù)學(xué)習(xí)發(fā)展。
7 結(jié)束語
近年來,隨著持續(xù)學(xué)習(xí)成為一個(gè)新的研究熱點(diǎn),越來越多的研究者深入持續(xù)學(xué)習(xí)災(zāi)難性遺忘問題求解策略研究中。
災(zāi)難性遺忘是模型在學(xué)習(xí)新任務(wù)時(shí)對過去任務(wù)性能表現(xiàn)下降的現(xiàn)象,通過對災(zāi)難性遺忘機(jī)理的研究發(fā)現(xiàn),模型參數(shù)的改變是導(dǎo)致遺忘產(chǎn)生的主要原因?;诖?,本文在模型參數(shù)、任務(wù)數(shù)據(jù)和網(wǎng)絡(luò)架構(gòu)三個(gè)層面對持續(xù)學(xué)習(xí)災(zāi)難性遺忘問題的求解策略展開研究,即:a)通過模型參數(shù)層面的正則化策略(權(quán)重正則化、梯度正則化和知識蒸餾)約束模型參數(shù)在新任務(wù)學(xué)習(xí)時(shí)的變化;b)通過任務(wù)數(shù)據(jù)層面的重放策略(經(jīng)驗(yàn)重放和生成式重放)在新任務(wù)學(xué)習(xí)時(shí)重放過去數(shù)據(jù);c)通過網(wǎng)絡(luò)架構(gòu)層面的動(dòng)態(tài)架構(gòu)策略擴(kuò)展或重用神經(jīng)元。此外,研究還發(fā)現(xiàn)通過聯(lián)合不同策略或機(jī)器學(xué)習(xí)方法的各自優(yōu)勢在一定程度上能進(jìn)一步減緩遺忘的發(fā)生。上述幾種策略的研究,其目的最終都是保證模型具備完成執(zhí)行舊任務(wù)的模型參數(shù)。
參考文獻(xiàn):
[1]McCloskey M,Cohen N J. Catastrophic interference in connectionist networks: the sequential learning problem [J]. Psychology of Learning and Motivation,1989,24: 109-165.
[2]Abraham W C,Robins A. Memory retention: the synaptic stability versus plasticity dilemma [J]. Trends in Neurosciences,2005,28(2): 73-78.
[3]Belouadah E,Popescu A,Kanellos I. A comprehensive study of class incremental learning algorithms for visual tasks [J]. Neural Networks,2021,135(3): 38-54.
[4]De Lange M,Aljundi R,Masana M,et al. A continual learning survey: defying forgetting in classification tasks [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(7): 3366-3385.
[5]Parisi G I,Kemker R,Part J L,et al. Continual lifelong learning with neural networks: a review[J]. Neural Networks,2019,113(5): 54-71.
[6]Hadsell R,Rao D,Rusu A A,et al. Embracing change: continual learning in deep neural networks [J]. Trends in Cognitive Sciences,2020,24(12): 1028-1040.
[7]Peng Can,Zhao Kun,Lovell B C. Faster ILOD: incremental learning for object detectors based on Faster RCNN [J]. Pattern Recognition Letters,2020,140(12): 109-115.
[8]Lomonaco V,Maltoni D,Pellegrini L. Fine-grained continual learning [EB/OL].(2020-04-21).https://arxiv.org/pdf/1907.03799v1.pdf.
[9]Lesort T,Stoian A,Goudou J,et al. Training discriminative models to evaluate generative ones [C]// Proc of the 28th International Confe-rence on Artificial Neural Networks.Cham:Springer,2019:604-619.
[10]Domingos P,Hulten G. Mining high-speed data streams [C]// Proc of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2000: 71-80.
[11]Widmer G,Kubat M. Effective learning in dynamic environments by explicit context tracking [C]// Proc of European Conference on Machine Learning. Berlin: Springer,1993: 227-243.
[12]Tsymbal A. The problem of concept drift: definitions and related work [EB/OL]. (2004-04-29). https://www.scss.tcd.ie/publications/tech-reports/reports.04/TCD-CS-2004-15.pdf.
[13]Gama J,liobaité I,Bifet A,et al. A survey on concept drift adaptation [J]. ACM Computing Surveys,2014,46(4):article No.44.
[14]Kuncheva L I. Classifier ensembles for changing environments [C]// Proc of the 5th International Workshop on Multiple Classifier Systems. Berlin: Springer,2004: 1-15.
[15]Aljundi R,Babiloni F,Elhoseiny M,et al. Memory aware synapses: learning what (not) to forget [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 144-161.
[16]Chaudhry A,Dokania P K,Ajanthan T,et al. Riemannian walk for incremental learning: understanding forgetting and intransigence [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 556-572.
[17]Awasthi A,Sarawagi S. Continual learning with neural networks: a review [C]// Proc of the ACM India Joint International Conference on Data Science and Management of Data. New York: ACM Press,2019: 362-365.
[18]Thompson B,Gwinnup J,Khayrallah H,et al. Overcoming catastro-phic forgetting during domain adaptation of neural machine translation [C]// Proc of Annual Conference of the North American Chapter of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 2062-2068.
[19]Zenke F,Poole B,Ganguli S. Continual learning through synaptic intelligence [C]// Proc of the 34th International Conference on Machine Learning. 2017: 3987-3995.
[20]Liu Xialei,Masana M,Herranz L,et al. Rotate your networks: better weight consolidation and less catastrophic forgetting [C]// Proc of the 24th International Conference on Pattern Recognition. Piscata-way,NJ: IEEE Press,2018: 2262-2268.
[21]Amer M,Maul T. Reducing catastrophic forgetting in modular neural networks by dynamic information balancing [EB/OL]. (2019-12-10). https://arxiv.org/pdf/1912.04508.pdf.
[22]Schwarz J,Czarnecki W,Luketina J,et al. Progress amp; compress: a scalable framework for continual learning [C]// Proc of the 35th International Conference on Machine Learning. 2018: 4528-4537.
[23]Jung S,Ahn H,Cha S,et al. Adaptive group sparse regularization for continual learning [EB/OL]. (2021-05-29). https://arxiv.org/pdf/2003.13726v1.pdf.
[24]Pomponi J,Scardapane S,Lomonaco V,et al. Efficient continual learning in neural networks with embedding regularization [J]. Neurocomputing,2020,397(7): 139-148.
[25]Jung H,Ju J,Jung M,et al. Less-forgetful learning for domain expansion in deep neural networks [C]// Proc of the 32nd AAAI Confe-rence on Artificial Intelligence. Pola Alto,CA: AAAI Press,2018: 3358-3365.
[26]Bui T D,Ravi S,Ramavajjala V. Neural graph machines: learning neural networks using graphs [EB/OL]. (2017-03-14). https://arxiv.org/pdf/1703.04818.pdf.
[27]Chang Yifan,Li Wenbo,Peng Jian,et al. Memory protection generative adversarial network (MPGAN): a framework to overcome the forgetting of GANs using parameter regularization methods [J]. IEEE Access,2020,8: 179942-179954.
[28]Ororbia A,Mali A,Giles C L,et al. Continual learning of recurrent neural networks by locally aligning distributed representations [J]. IEEE Trans on Neural Networks and Learning Systems,2020,31(10): 4267-4278.
[29]Maltoni D,Lomonaco V. Continuous learning in single-incremental-task scenarios [J]. Neural Networks,2019,116(8): 56-73.
[30]Parshotam K,Kilickaya M. Continual learning of object instances [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 224-225.
[31]Hayes T L,Kanan C. Lifelong machine learning with deep streaming linear discriminant analysis [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 220-221.
[32]Mirzadeh S I,F(xiàn)arajtabar M,Ghasemzadeh H. Dropout as an implicit gating mechanism for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 232-233.
[33]Maschler B,Vietz H,Jazdi N,et al. Continual learning of fault prediction for turbofan engines using deep learning with elastic weight consolidation [C]// Proc of the 25th IEEE International Conference on Emerging Technologies and Factory Automation. Piscataway,NJ: IEEE Press,2020: 959-966.
[34]Tercan H,Deibert P,Meisen T. Continual learning of neural networks for quality prediction in production using memory aware synapses and weight transfer [J]. Journal of Intelligent Manufacturing,2022,33(1): 283-292.
[35]Lopez-Paz D,Ranzato M. Gradient episodic memory for continual learning [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6470-6479.
[36]Chaudhry A,Ranzato M,Rohrbach M,et al. Efficient lifelong learning with A-GEM [EB/OL]. (2018-12-02). https://arxiv.org/pdf/1812.00420v1.pdf.
[37]Hu Guannan,Zhang Wu,Ding Hu,et al. Gradient episodic memory with a soft constraint for continual learning [EB/OL]. (2020-11-16). https://arxiv.org/pdf/2011.07801.pdf.
[38]Farajtabar M,Azizan N,Mott A,et al. Orthogonal gradient descent for continual learning [C]// Proc of the 23rd International Conference on Artificial Intelligence and Statistics. 2020: 3762-3773.
[39]Tang Shixiang,Chen Dapeng,Zhu Jinguo,et al. Layerwise optimization by gradient decomposition for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9634-9643.
[40]Hinton G,Vinyals O,Dean J. Distilling the knowledge in a neural network [EB/OL]. (2015-03-09). https://arxiv.org/pdf/1503.02531.pdf.
[41]張曉冰,龔海剛,劉明. 基于一致性正則化的在線知識蒸餾 [J]. 計(jì)算機(jī)應(yīng)用研究,2021,38(11): 3249-3253. (Zhang Xiaobing,Gong Haigang,Liu Ming. OKDCR: online knowledge distillation via consistency regularization [J]. Application Research of Compu-ters,2021,38(11): 3249-3253.)
[42]Li Zhizhong,Hoiem D. Learning without forgetting [J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(12): 2935-2947.
[43]Hou Saihui,Pan Xinyu,Loy C C,et al. Lifelong learning via progressive distillation and retrospection [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 452-467.
[44]Hou Saihui,Pan Xinyu,Loy C C,et al. Learning a unified classifier incrementally via rebalancing [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 831-839.
[45]Castro F M,Marín-Jiménez M J,Guil N,et al. End-to-end incremental learning [C]// Proc of the 15th European Conference on Computer Vision. Cham: Springer,2018: 241-257.
[46]Xiang Yun,Miao Yongbiao,Chen Jingyin,et al. Efficient incremental learning using dynamic correction vector [J]. IEEE Access,2020,8: 23090-23099.
[47]Zhao Bowen,Xiao Xi,Gan Guojun,et al. Maintaining discrimination and fairness in class incremental learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 13208-13217.
[48]Lee K,Lee K,Shin J,et al. Overcoming catastrophic forgetting with unlabeled data in the wild [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 312-321.
[49]Zhang Junting,Zhang Jie,Ghosh S,et al. Class-incremental learning via deep model consolidation [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway,NJ: IEEE Press,2020: 1131-1140.
[50]Mao Fubing,Weng Weiwei,Pratama M,et al. Continual learning via inter-task synaptic mapping [J]. Knowledge-Based Systems,2021,222(6): 106947.
[51]Lomonaco V,Desai K,Culurciello E,et al. Continual reinforcement learning in 3D non-stationary environments [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 248-249.
[52]Zhao Bowen,Xiao Xi,Gan Guojun,et al. Maintaining discrimination and fairness in class incremental learning [C]// Procs of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 13208-13217.
[53]Javed K,Shafait F. Revisiting distillation and incremental classifier learning [C]// Proc of Asian Conference on Computer Vision. Berlin: Springer,2018: 3-17.
[54]Choi J,Baik S,Choi M,et al. Visual tracking by adaptive continual meta-learning [J]. IEEE Access,2022,10: 9022-9035.
[55]Ma Haoxin,Yi Jiangyan,Tao Jianhua,et al. Continual learning for fake audio detection [EB/OL]. (2021-04-15). https://arxiv.org/pdf/2104.07286.pdf.
[56]Kim M,Tariq S,Woo S S. CoReD: generalizing fake media detection with continual representation using distillation [C]// Proc of the 29th ACM International Conference on Multimedia. New York: ACM Press,2021: 337-346.
[57]Belouadah E,Popescu A,Kanellos I. A comprehensive study of class incremental learning algorithms for visual tasks [J]. Neural Networks,2021,135(3): 38-54.
[58]Fang Meng,Li Yuan,Cohn T. Learning how to active learn: a deep reinforcement learning approach [C]// Proc of Conference on Empiri-cal Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2017: 595-605.
[59]Chaudhry A,Rohrbach M,Elhoseiny M,et al. On tiny episodic memories in continual learning [EB/OL]. (2019-06-04). https://arxiv.org/pdf/1902.10486.pdf.
[60]Chaudhry A,Gordo A,Dokania P,et al. Using hindsight to anchor past knowledge in continual learning [C]// Proc of the 35th AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2021: 6993-7001.
[61]Qiang Jipeng,Xu Wanyin,Li Yun,et al. Lifelong learning augmented short text stream clustering method [J]. IEEE Access,2021,9: 70493-70501.
[62]Rolnick D,Ahuja A,Schwarz J,et al. Experience replay for continual learning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: 350-360.
[63]Isele D,Cosgun A. Selective experience replay for lifelong learning [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Pola Alto,CA: AAAI Press,2018: 3302-3309.
[64]Gepperth A,Karaoguz C. A bio-inspired incremental learning architecture for applied perceptual problems [J]. Cognitive Computation,2016,8(5): 924-934.
[65]Hayes T L,Cahill N D,Kanan C. Memory efficient experience replay for streaming learning [C]// Proc of International Conference on Robotics and Automation.Piscataway,NJ:IEEE Press,2019:9769-9776.
[66]Korycki L,Krawczyk B. Class-incremental experience replay for continual learning under concept drift [C]// Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 3649-3658.
[67]Kiyasseh D,Zhu Tingting,Clifton D. A clinical deep learning framework for continually learning from cardiac signals across diseases,time,modalities,and institutions [J]. Nature Communications,2021,12(1): article No.4221.
[68]Shieh J L,Haq Q M U,Haq M A,et al. Continual learning strategy in one-stage object detection framework based on experience replay for autonomous driving vehicle [J]. Sensors,2020,20(23): 6777.
[69]Amrollahi F,Shashikumar S P,Holder A L,et al. Leveraging clinical data across healthcare institutions for continual learning of predictive risk models [J]. Scientific Reports,2022,12(1): article No.8380.
[70]McClelland J L,McNaughton B L,OReilly R C. Why there are complementary learning systems in the hippocampus and neocortex: insights from the successes and failures of connectionist models of learning and memory [J]. Psychological Review,1995,102(3): 419-457.
[71]Nadel L,Winocur G,Ryan L,et al. Systems consolidation and hippocampus: two views [J]. Debates in Neuroscience,2007,1(3): 55-66.
[72]Shin H,Lee J K,Kim J,et al. Continual learning with deep generative replay [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 2994-3003.
[73]Van De Ven G M,Siegelmann H T,Tolias A S. Brain-inspired replay for continual learning with artificial neural networks [J]. Nature Communications,2020,11(1): article No.4069.
[74]Kingma D P,Welling M. Auto-encoding variational Bayes [EB/OL]. (2013-12-20). https://arxiv.org/pdf/1312.6114.pdf.
[75]Kim J,Kim J,Kwak N. StackNet: stacking feature maps for continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:242-243.
[76]Stoianov I,Maisto D,Pezzulo G. The hippocampal formation as a hie-rarchical generative model supporting generative replay and continual learning[J].Progress in Neurobiology,2022,217(10):1023290.
[77]Sukhov S,Leontev M,Miheev A,et al. Prevention of catastrophic interference and imposing active forgetting with generative methods [J]. Neurocomputing,2020,400(8): 73-85.
[78]Li Chunmao,Li Yang,Zhao Yinliang,et al. SLER: self-generated long-term experience replay for continual reinforcement learning [J]. Applied Intelligence,2021,51(1): 185-201.
[79]Rao D,Visin F,Rusu A A,et al. Continual unsupervised representation learning [C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: 7647-7657.
[80]Atkinson C,McCane B,Szymanski L,et al. Pseudo-rehearsal: achieving deep reinforcement learning without catastrophic forgetting [J]. Neurocomputing,2021,428(3): 291-307.
[81]Batbaatar E,Park K H,Amarbayasgalan T,et al. Class-incremental learning with deep generative feature replay for DNA methylation-based cancer classification [J]. IEEE Access,2020,8: 210800-210815.
[82]Choi H,Kang P. Lifelong language learning with the most forgotten knowledge [J]. IEEE Access,2021,9: 57941-57948.
[83]Rusu A A,Rabinowitz N C,Desjardins G,et al. Progressive neural networks [EB/OL]. (2016-06-15). https://arxiv.org/pdf/1606.04671.pdf.
[84]Aljundi R,Chakravarty P,Tuytelaars T. Expert gate: lifelong learning with a network of experts [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 3366-3375.
[85]Golkar S,Kagan M,Cho K. Continual learning via neural pruning [EB/OL].(2019-03-11).https://arxiv.org/pdf/1903.04476.pdf.
[86]Sokar G,Mocanu D C,Pechenizkiy M. SpaceNet: make free space for continual learning [J]. Neurocomputing,2021,439(6): 1-11.
[87]Zhu Qiuyu,He Zikuang,Ye Xin. Incremental classifier learning based on PEDCC-loss and cosine distance [J]. Multimedia Tools and Applications,2021,80(11): 33827-33841.
[88]Zacarias A,Alexandre L A. SeNA-CNN: overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation [C]// Proc of the 8th IAPR Workshop on Artificial Neural Networks in Pattern Recognition. Cham: Springer,2018: 102-112.
[89]Li Honglin,Barnaghi P,Enshaeifar S,et al. Continual learning using Bayesian neural networks [J]. IEEE Trans on Neural Networks and Learning Systems,2021,32(9): 4243-4252.
[90]Li Dong,Liu Shulin,Gao Furong,et al. Continual learning classification method with new labeled data based on the artificial immune system [J]. Applied Soft Computing,2020,94(9): 106423.
[91]Xu Ju,Ma Jin,Gao Xuesong,et al. Adaptive progressive continual learning [J]. IEEE Trans on Pattern Analysis amp; Machine Intel-ligence,2022,44(10): 6715-6728.
[92]Fayek H M,Cavedon L,Wu Hongren. Progressive learning: a deep learning framework for continual learning [J]. Neural Networks,2020,128(8): 345-357.
[93]Rebuffi S,Kolesnikov A,Sperl G,et al. iCaRL: incremental classifier and representation learning [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society,2017: 2001-2010.
[94]Zhai Mengyao,Chen Lei,Tung F,et al. Lifelong GAN: continual learning for conditional image generation [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2019: 2759-2768.
[95]Zhu J,Zhang R,Pathak D,et al. Toward multimodal image-to-image translation [C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 465-476.
[96]Liu Xialei,Wu Chenshen,Menta M,et al. Generative feature replay for class-incremental learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 226-227.
[97]Yoon J,Yang E,Lee J,et al. Lifelong learning with dynamically expandable networks [EB/OL]. (2018-06-11). https://arxiv.org/pdf/1708.01547v1.pdf.
[98]Rosasco A,Carta A,Cossu A,et al. Distilled replay: overcoming forgetting through synthetic samples [C]// Proc of the 1st International Workshop on Continual Semi-Supervised Learning. Berlin: Springer-Verlag,2021: 104-117.
[99]Cha H,Lee J,Shin J. Co2L: contrastive continual learning [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway,NJ: IEEE Press,2021.
[100]Titsias M K,Schwarz J,Matthews A G D G,et al. Functional regularisation for continual learning with Gaussian processes [EB/OL]. (2020-02-11). https://arxiv.org/pdf/1901.11356.pdf.
[101]Traoré R,Caselles-Dupré H,Lesort T,et al. Continual reinforcement learning deployed in real-life using policy distillation and sim2real transfer [EB/OL]. (2019-06-11). https://arxiv.org/pdf/1906.04452.pdf.
[102]Yao Xin,Huang Tianchi,Wu Chenglei,et al. Adversarial feature alignment: avoid catastrophic forgetting in incremental task lifelong learning [J]. Neural Computation,2019,31(11): 2266-2291.
[103]Jin Leilei,Liang Hong,Yang Changsheng. Class-incremental lear-ning of convolutional neural networks based on double consolidation mechanism [J]. IEEE Access,2020,8: 172553-172562.
[104]Ye Juan,Callus E. Evolving models for incrementally learning emerging activities [J]. Journal of Ambient Intelligence and Smart Environments,2020,12(4): 313-325.
[105]Graffieti G,Borghi G,Maltoni D. Continual learning in real-life applications [J]. IEEE Robotics and Automation Letters,2022,3(7): 6195-6202.
[106]Tao A,Sapra K,Catanzaro B. Hierarchical multi-scale attention for semantic segmentation [EB/OL]. (2020-05-21). https://arxiv.org/pdf/2005.10821.pdf.
[107]Ozdemir F,Goksel O. Extending pretrained segmentation networks with additional anatomical structures [J]. International Journal of Computer Assisted Radiology and Surgery,2019,14(7): 1187-1195.
[108]Cermelli F,Mancini M,Bulo S R,et al. Modeling the background for incremental learning in semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 9233-9242.
[109]Douillard A,Chen Y,Dapogny A,et al. PLOP: learning without forgetting for continual semantic segmentation [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 4040-4050.
[110]Zhang Hui,Zhu Mu,Zhang Jing,et al. Long-term visual object tracking via continual learning [J]. IEEE Access,2019,7: 182548-182558.
[111]Doshi K,Yilmaz Y. Continual learning for anomaly detection in surveillance videos [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2020: 254-255.
[112]Chen J C. Continual learning for addressing optimization problems with a snake-like robot controlled by a self-organizing model [J]. Applied Sciences,2020,10(14): 4848.
[113]Kobayashi T,Sugino T. Reinforcement learning for quadrupedal locomotion with design of continual-hierarchical curriculum [J]. Engineering Applications of Artificial Intelligence,2020,95(10): 103869.
[114]趙振兵,蔣志鋼,熊靜,等. 基于對抗性持續(xù)學(xué)習(xí)模型的輸電線路部件缺陷分類 [J]. 電子與信息學(xué)報(bào). 2022,44(11): 3757-3766. (Zhao Zhenbing,Jiang Zhigang,Xiong Jing,et al. Fault classification of transmission line components based on the adversarial continual learning model [J]. Journal of Electronics amp; Information Technology,2022,44(11): 3757-3766.)
[115]劉星,王文雙,趙建印,等. 自適應(yīng)在線增量ELM的故障診斷模型研究 [J]. 系統(tǒng)工程與電子技術(shù),2021,43(9): 2678-2687. (Liu Xing,Wang Wenshuang,Zhao Jianyin,et al. Research on adaptive online incremental ELM fault diagnosis model [J]. Systems Engineering and Electronics,2021,43(9): 2678-2687.)
[116]Garcia X,Constant N,Parikh A P,et al. Towards continual learning for multilingual machine translation via vocabulary substitution [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg,PA: Association for Computational Linguistics,2021: 1184-1192.