亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向小樣本數(shù)據(jù)的機器學習方法研究綜述

        2023-01-09 14:28:02陳良臣傅德印
        計算機工程 2022年11期
        關鍵詞:度量標簽分類

        陳良臣,傅德印

        (1.中國勞動關系學院 計算機教研室,北京 100048;2.中國勞動關系學院 應用統(tǒng)計學教研室,北京 100048;3.中國科學院信息工程研究所,中國科學院網(wǎng)絡測評技術重點實驗室,北京 100093;4.武漢理工大學計算機科學與技術學院,武漢 430063)

        0 概述

        盡管機器學習在擬人化人工智能上實現(xiàn)了突破,并在數(shù)據(jù)密集型應用中取得了較好的效果,然而深度學習需要較強的算力和大量標注好的數(shù)據(jù)進行支撐。而在網(wǎng)絡安全領域等很多實際應用場景中,收集和標注大量網(wǎng)絡中的新型未知攻擊樣本是極其困難的。當帶標簽的數(shù)據(jù)樣本很少或數(shù)據(jù)集較小時,確保機器學習模型能快速學習樣本并提高泛化能力對研究人員不僅是巨大挑戰(zhàn),也是必須解決的現(xiàn)實問題[1]。為推動機器學習在這種樣本數(shù)據(jù)極稀缺場景下的應用,研究人員提出了小樣本學習[2]。

        小樣本學習是面向小樣本數(shù)據(jù)的機器學習[3]。目前,小樣本學習的研究主要關注如何在缺乏足夠樣本的條件下,僅通過較少數(shù)量的樣本就能理解事物的本質特征,避免過擬合并給出泛化性良好的結果。根據(jù)訓練樣本數(shù)量將小樣本學習分為3類:只有一個訓練樣本,稱為單樣本學習;不存在目標訓練樣本,稱為零樣本學習;目標訓練樣本在數(shù)十個量級時,稱為小樣本學習。很多文獻將這3類統(tǒng)稱為小樣本學習,其中前兩類為特殊情況[4]。目前,小樣本學習的領域主要有概念學習和經驗學習兩個研究方向。概念學習是讓機器盡量模擬人腦的學習過程,即通過少量樣本理解事物本質概念這一過程,而另一種經驗學習的思想是將小樣本問題轉化為通用的大數(shù)據(jù)范式。

        針對小樣本數(shù)據(jù),很多學者從基于模型微調、基于數(shù)據(jù)增強、基于度量學習和基于元學習等4 個方面的機器學習方法進行研究。本文總結面向小樣本數(shù)據(jù)的機器學習方法最新研究進展,對小樣本學習方法進行歸納分類,并列舉常用小樣本數(shù)據(jù)集和評價指標,在此基礎上整理常用機器學習方法在小樣本數(shù)據(jù)集上的實驗結果。最后,對目前面向小樣本數(shù)據(jù)的機器學習方法進行總結并闡述其未來發(fā)展趨勢。

        1 小樣本學習概念與應用

        1.1 小樣本學習定義

        小樣本學習也稱為少樣本學習,是通過從較少數(shù)量的樣本數(shù)據(jù)中學習得到解決實際問題的機器學習方法[5]。在標記數(shù)據(jù)少甚至無標記數(shù)據(jù)場景下所做的工作都歸為小樣本學習問題。給定一個特定任務T,包含有少量可用信息的數(shù)據(jù)集DT,以及與T 無關的輔助數(shù)據(jù)集DA,為任務T 構建函數(shù)f,任務的完成使用了DT中很少的信息和DA中的知識。

        如圖1 所示,小樣本學習的基本模型為p=C(f(x|θ)|ω),由特征提取器f(·|θ)和分類器C(·|ω)組成,其中:θ和ω分別表示f和C的參數(shù);x表示待識別的樣本;f(x|θ)表示對樣本x提取的特征;p表示對樣本x識別的結果。

        圖1 小樣本學習基本模型Fig.1 Basic model of few-shot learning

        在小樣本學習模型訓練的過程中,訓練樣本集所包含的樣本數(shù)量過少,在該訓練樣本集上訓練分類模型p所得到的參數(shù)θ和ω會導致模型過度擬合。

        1.2 小樣本學習應用

        小樣本學習最早出現(xiàn)在圖像分類和識別的應用中,在實際場景中,小樣本學習除了集中在深度學習比較有優(yōu)勢的計算機視覺領域和自然語言處理領域外,也被廣泛地應用到很多機器學習的其他領域中,如表1 所示。這些領域的特點一般是訓練數(shù)據(jù)的獲取成本很高,甚至根本無法獲取。例如:在罕見疾病診斷中,由于一些罕見疾病的病例數(shù)非常少,因此幾乎無法獲取訓練樣本;在人臉識別中,受采集條件限制,往往無法獲取各個角度的人臉圖片,在多數(shù)情況下每張人臉只有一張對應的訓練圖片;在小語種相關的機器翻譯中,一些語系的訓練數(shù)據(jù)采集工作往往難以開展等。

        表1 小樣本學習應用領域Table 1 Few-shot learning application areas

        2 小樣本數(shù)據(jù)的機器學習方法

        2003 年,從LI 等[16]提出小樣本學習的框架開始,小樣本學習得到越來越研究者的關注,并有了一些研究和發(fā)展。目前主流的小樣本學習方法主要分為基于模型微調、數(shù)據(jù)增強、度量學習和元學習四大類。各分類方法的核心內容如表2 所示。

        表2 小樣本學習方法的核心內容Table 2 The core content of few-shot learning methods

        為了解決數(shù)據(jù)受限問題,基于數(shù)據(jù)增強的小樣本學習方法使用生成模型等技術增強訓練樣本以增加模型中先驗知識[17];基于度量的小樣本學習方法則通過學習嵌入空間來解決資源不足時的過擬合問題;基于元學習的小樣本學習算法關注算法本身設計,即設計一種可以快速收斂到最佳模型參數(shù)的跨任務優(yōu)化策略[18]。其中,基于數(shù)據(jù)增強的小樣本學習方法包括基于無標簽數(shù)據(jù)、數(shù)據(jù)合成、特征增強等;基于度量學習的方法包括匹配網(wǎng)絡、原型網(wǎng)絡、關系網(wǎng)絡、圖神經網(wǎng)絡等;基于元學習的方法包括模型無關學習、元轉移學習、記憶增強神經網(wǎng)絡、長短時記憶模型等。小樣本學習方法分類如圖2 所示。

        圖2 小樣本學習方法的分類Fig.2 Classification of few-shot learning methods

        2.1 基于模型微調的小樣本學習

        基于模型微調的方法通常先在大量數(shù)據(jù)集上對網(wǎng)絡模型進行預訓練,然后固定部分參數(shù),在小樣本數(shù)據(jù)集上對網(wǎng)絡模型中的特定參數(shù)進行微調,得到微調后的模型,如圖3 所示。若目標數(shù)據(jù)集和源數(shù)據(jù)集分布較類似,則可采用模型微調的方法。該方法依賴的數(shù)據(jù)量較少,能較快地達到所需效果[1]。

        圖3 基于模型微調的小樣本學習方法Fig.3 Small sample learning method based on model fine-tuning

        文獻[9]提出重新賦權模塊的FSRW 模型,首先通過基類樣本訓練特征調整模塊,然后根據(jù)小樣本新類與基類樣本聯(lián)合訓練模型,以達到對新類樣本的檢測。文獻[19]提出一種傳導性微調的方法,首先利用大量帶標簽數(shù)據(jù)對模型進行第一階段訓練,接著使用少數(shù)的有標簽數(shù)據(jù)微調模型,以達到新類數(shù)據(jù)的分類。文獻[20]提出一種簡單的微調方法,固定第一階段訓練后的特征提取模塊,只對分類器和回歸器進行微調。文獻[21]設計一個通用微調語言模型,該模型的創(chuàng)新點在于改變學習速率來微調語言模型,使模型更符合目標任務。另外,文獻[22]提出一種微調方法,在訓練過程使用更低學習率,在微調階段使用自適應梯度優(yōu)化器。文獻[23]提出一個基于T0 模型的微調方法T-Few,無需針對特定任務的調整或修改即可應用于新任務。

        為了使小樣本學習模型的分類效果更好,研究人員需要考慮選擇哪種類型的微調方法。在真實的小樣本學習的應用場景中,目標樣本集和源樣本集并不一定相似,采用模型微調的小樣本學習方法可能會導致機器學習模型在目標樣本集上出現(xiàn)過擬合問題[1]。因此,在解決實際問題中,一般將模型微調方法和數(shù)據(jù)增強、度量學習或元學習方法相結合來避免少量數(shù)據(jù)帶來的模型過擬合問題。

        2.2 基于數(shù)據(jù)增強的小樣本學習

        在深度學習中,經常通過對樣本進行旋轉、縮放、變形、剪切或者變換顏色等處理方法來增強數(shù)據(jù)。小樣本學習因為數(shù)據(jù)量太少而導致樣本多樣性低,所以可使用數(shù)據(jù)增強來提高樣本多樣性。如圖4所示,使用輔助數(shù)據(jù)或者輔助信息,本文根據(jù)某種規(guī)則將新類數(shù)據(jù)集Dnovel中的樣本(xi,yi)轉換成多個樣本,轉換生成的樣本擁有與被轉換樣本相同的類別標簽,并加入到原數(shù)據(jù)集Dnovel中,生成一個更大的數(shù)據(jù)集,新數(shù)據(jù)集包含更多數(shù)據(jù),可直接通過深度學習模型訓練。

        圖4 基于數(shù)據(jù)增強的小樣本學習方法Fig.4 Few-shot learning method based on data augmentation

        數(shù)據(jù)增強是針對小樣本集進行數(shù)據(jù)擴充或者特征增強。其中,數(shù)據(jù)擴充是添加新數(shù)據(jù)、無標簽數(shù)據(jù)或合成的有標簽數(shù)據(jù),特征增強是在特征空間中添加新特征?;跀?shù)據(jù)增強的小樣本學習方法主要包括基于無標簽數(shù)據(jù)、數(shù)據(jù)合成和特征增強的方法[1]。

        2.2.1 基于無標簽數(shù)據(jù)的方法

        基于無標簽數(shù)據(jù)的方法是指使用大量的無標簽數(shù)據(jù)對原有的小樣本數(shù)據(jù)集進行擴充,包括無監(jiān)督學習、半監(jiān)督學習、直推式學習等常見方法。

        無監(jiān)督小樣本學習是指輔助數(shù)據(jù)集由無標簽數(shù)據(jù)組成,模型不需要標簽數(shù)據(jù),減少了收集和標注數(shù)據(jù)的成本,使小樣本學習更符合生活中的實際應用場景。為了減少依賴輔助數(shù)據(jù)集,無監(jiān)督小樣本學習作為一個被重點關注的研究方向[24]。但是沒有標簽樣本就無法構建小樣本訓練任務,這正是小樣本學習方法成功的關鍵。文獻[24-25]使用基于聚類的方法,根據(jù)不同的簇來構造偽標簽并使用元訓練優(yōu)化模型,該方法對聚類效果有很高的要求。文獻[26-27]使用基于數(shù)據(jù)增強的方法,利用其類別保持的性質來構造訓練任務,增強的好壞直接影響模型的效果。文獻[28]通過自訓練獲得無標注樣本的偽標簽來增強數(shù)據(jù),并通過設計新度量偽標簽置信度來挑選置信度高的樣本。文獻[29]在小樣本場景的無標簽數(shù)據(jù)上,通過利用數(shù)據(jù)增強方法提取更加通用的先驗知識。文獻[30]提出一種基于分離增強的無監(jiān)督小樣本學習框架,關注偽小樣本學習任務分布差異,緩解模型過擬合問題。文獻[31]提出一種基于度量的輔助學習的小樣本學習框架,通過生成偽標簽來動態(tài)指導模型迭代中的粗學習。

        半監(jiān)督學習是機器學習研究領域的重要方向,將半監(jiān)督學習應用到小樣本學習中已經有很多不同的嘗試,并取得了較好的效果。文獻[32]對原型網(wǎng)絡進行拓展,提出一種半監(jiān)督的小樣本學習方法,使用小樣本分類中生成的少量已標注樣本和多數(shù)未標注樣本來計算原型,獲得了更好的效果。文獻[33]提出一種基于標記傳導的傳感前傳模型,在基于半監(jiān)督的小樣本學習中獲得非常好的分類準確率。文獻[34]在半監(jiān)督學習思想下,提出增加無監(jiān)督元訓練階段,使多個頂層單元學習大量的無標注數(shù)據(jù)。文獻[35]提出一種使用MAML 模型進行半監(jiān)督學習的方法,分別使用無標簽樣本和有標簽樣本調整嵌入函數(shù)參數(shù)和分類器參數(shù)。

        直推式學習被認為是半監(jiān)督學習的子問題,目標是通過未標注數(shù)據(jù)的測試數(shù)據(jù)讓深度模型取得最佳的泛化能力。模型在學習階段除了能夠看到訓練樣本和標簽外,還能接觸到測試樣本,期望能夠使用測試樣本的內在結構,將測試樣本作為一個整體預測分類,而不是孤立地預測每一個測試樣本。文獻[33]使用直推式學習提出了轉導傳播網(wǎng)絡來解決小樣本問題,使標簽從標注數(shù)據(jù)傳播到無標注數(shù)據(jù)。文獻[36]提出一種基于直推式學習的交叉注意力網(wǎng)絡和轉換推理算法,迭代地使用未標記數(shù)據(jù)以增加數(shù)據(jù)集,使類別特征更具有代表性。

        2.2.2 基于數(shù)據(jù)合成的方法

        基于數(shù)據(jù)合成的方法為小樣本類別合成新的帶標簽數(shù)據(jù),以達到擴充訓練數(shù)據(jù)的目的?,F(xiàn)有的數(shù)據(jù)生成方法不能捕捉復雜的樣本分布,無法泛化小樣本類別且合成的特征不可解釋。

        文獻[29]提出一種用于小樣本學習的自動數(shù)據(jù)增強框架,采用強化學習探索能給模型帶來最大收益的自動數(shù)據(jù)增廣,并結合數(shù)據(jù)增強模型和任務模型,采用端到端的方式進行優(yōu)化。文獻[37]提出一種生成對抗網(wǎng)絡模型GAN,并基于博弈論思想將噪聲分布映射到接近數(shù)據(jù)的真實分布,對小樣本數(shù)據(jù)進行數(shù)據(jù)增強。文獻[38]在生成對抗網(wǎng)絡基礎上,提出了數(shù)據(jù)增強生成對抗網(wǎng)絡DAGAN,組合UNet和ResNet,通過生成與樣本近似分布的增強數(shù)據(jù)來改善模型質量。文獻[39]提出一種生成對抗殘差成對網(wǎng)絡來處理單樣本學習問題。文獻[40]基于語義信息提出了語義自編碼器以對更高層面數(shù)據(jù)進行增強,通過元學習對訓練集樣本插值,并將樣本原始特征和轉換后特征進行融合以達到數(shù)據(jù)增強。文獻[41]提出一種融合元學習的數(shù)據(jù)生成模型,使用數(shù)據(jù)生成、特征提取和分類共同訓練生成對任務實用的樣本以擴充樣本多樣性。文獻[42]設計一種Meta-GAN 模型,結合生成對抗網(wǎng)絡和分類網(wǎng)絡優(yōu)化,使用產生的數(shù)據(jù)進行小樣本數(shù)據(jù)增強。文獻[43]改進了自動編碼器,將源數(shù)據(jù)中不同樣本方差應用在新類別中生成新樣本,實現(xiàn)對小樣本任務的數(shù)據(jù)增強。文獻[44]結合變分編碼器和GAN,集成新網(wǎng)絡,完成小樣本學習分類,并使得生成樣本的特征空間具有可解釋性。文獻[45]利用CWGAN 生成擴充數(shù)據(jù)集以提高分類能力和生成樣本的多樣性。文獻[46]提出一種適用于小樣本學習的數(shù)據(jù)增強生成對抗網(wǎng)絡f-DAGAN,使用雙重鑒別器來處理生成的數(shù)據(jù)和生成的特征空間,以更好地學習給定的數(shù)據(jù)。

        2.2.3 基于特征增強的方法

        基于無標簽數(shù)據(jù)和數(shù)據(jù)合成的方法都是使用輔助數(shù)據(jù)或輔助信息來增強樣本空間。在小樣本學習中,為了提高樣本的多樣性,還可增強樣本的特征空間,小樣本學習最重要的是獲得泛化性較高的特征提取器[1]。

        文獻[18]提出一種基于特征增強元學習的小樣本算法,能解決線性分類器容易過擬合問題和增強嵌入特征以強化任務表示。文獻[47]針對3D 圖像提出了一種基于屬性引導的擴展模型學習合成數(shù)據(jù)的映射,該方法先映射圖像到某一特定空間,然后使用訓練過的編碼器和解碼器生成多樣式的樣本圖像。文獻[48]將特征向量進行多次轉換,生成新類別的特征向量,并將生成圖像添加到新類別訓練集以增強數(shù)據(jù)。文獻[49]提出一種特征遷移網(wǎng)絡,以記錄隨物體姿態(tài)變化導致的運動軌跡變化。文獻[43]提出一種編碼器,利用少量樣本合成新類別樣本并用于分類器訓練,該模型能有效地合成新類樣本并提取同類樣本間的類內變形。文獻[50]提出一個雙向網(wǎng)絡模型TriNet,基于編碼器-解碼器,結合標簽語義空間和圖像特征空間,更好地提取圖像特征,對樣本的特征進行增強。文獻[51]將提取的不同樣本的前景和背景隨機組合以增強樣本。文獻[52]從深度學習模型的表征層層面提出了一個更加適用于小樣本學習的新表征方法:判別變分表征算法。該算法通過約束表征空間的先驗分布,使得表征分布呈現(xiàn)出良好的類無關的遷移性質。文獻[53]使用仿射變換進行圖像特征增強,并通過擾動輸入的數(shù)據(jù)特征分布以提高模型對分布差異的魯棒性。文獻[54]提出一種新穎的特征增強網(wǎng)絡FAN,用于小樣本無約束掌紋識別,旨在同時消除由無約束采集引起的圖像變化,并僅從少數(shù)支持樣本中增強其特征表示。

        基于數(shù)據(jù)增強的小樣本學習方法,僅需通過輔助數(shù)據(jù)或者輔助信息來進行數(shù)據(jù)擴充或特征增強,不需要調整模型的參數(shù),但可能會引入噪聲或特征,對學習模型的效果形成不利的影響,模型通常會比較復雜且計算量較大。此外,因為實際樣本數(shù)目較少,現(xiàn)有的機器學習方法在實際的數(shù)據(jù)增強中,容易出現(xiàn)知識偏移和過擬合的問題,所以實際的應用效果并不是特別理想。但是數(shù)據(jù)增強的思想對于解決實際的樣本缺失問題來說具有普遍意義,因此將數(shù)據(jù)增強的思想融入度量學習或元學習的方法中是非常值得研究的方向[5]。

        2.3 基于度量學習的小樣本學習方法

        度量學習也稱相似度學習,使用給定距離函數(shù)來度量兩個數(shù)據(jù)樣本間的距離,以計算其相似度[55]?;诙攘繉W習的小樣本分類過程可分為映射和分類兩個階段?;诙攘繉W習的小樣本學習方法如圖5所示,其中:f是將支持集樣本xj映射到特征空間的嵌入模型;θf是f對應的參數(shù);g是將查詢集樣本xi映射到特征空間的嵌入模型;θg是g對應的參數(shù);S(·,·)是度量支持集樣本與查詢集樣本的相似性度量模塊,可以是一個簡單的距離度量,也可以是一個可學習性網(wǎng)絡。通過相似性度量模塊輸出的相似度可以用來對查詢樣本進行分類預測。

        圖5 基于度量學習的小樣本學習方法Fig.5 Few-shot learning method based on metric learning

        基于度量學習的小樣本學習方法主要關注與學習模型的有判別性和可泛化特征[56]。該方法利用大量數(shù)據(jù)訓練特征提取網(wǎng)絡,然后對特征使用相似計算以獲得不同度量表示。相似性度量通常采用歐氏距離、曼哈頓距離或余弦相似度等。采用度量學習的小樣本學習方法主要有以下兩種:固定度量,如匹配網(wǎng)絡和原型網(wǎng)絡;可學習度量,如關系網(wǎng)絡和圖神經網(wǎng)絡等。

        基于匹配網(wǎng)絡的方法是第一個將度量學習用于小樣本分類的工作,關鍵思想是將圖像映射到一個封裝了標簽分布的嵌入空間,然后使用不同體系結構將測試圖像投影到同一嵌入空間中,接著使用余弦相似度來衡量相似度,以確保測試數(shù)據(jù)點是否已知,實現(xiàn)分類和檢測效果。以匹配網(wǎng)絡為代表,小樣本學習算法領域涌現(xiàn)出一大批學習特征表示模型的算法[57-59]。文獻[60]基于深度神經特征度量學習的思想,提出一種基于Attention 機制匹配網(wǎng)絡,編碼支持集樣本與目標集樣本并計算其相似度,根據(jù)測試樣本和各類的相似度來決定其分類,在小樣本數(shù)據(jù)的分類任務中具有很好的效果。文獻[61]提出了粗粒度原型匹配網(wǎng)絡Meta-RPN,使用基于度量學習的非線性分類器代替?zhèn)鹘y(tǒng)的線性目標分類器,去處理查詢圖片中的錨框和新類之間的相似性,從而提高對少量新類候選框的召回率。文獻[62]提出一種基于網(wǎng)絡匹配的元學習方法MGIMN,它執(zhí)行實例比較,然后聚合以生成類匹配向量,實例比較的關鍵是類特定上下文和情節(jié)特定上下文中的交互匹配。

        基于原型網(wǎng)絡的方法關鍵思想是尋找各類別在嵌入空間中的原型,學習一個度量函數(shù)以找到該類別的原型中心。匹配網(wǎng)絡對訓練集和測試集用了兩個不同的嵌入函數(shù),而原型網(wǎng)絡中的訓練集和測試集都是同一個嵌入函數(shù)。原型網(wǎng)絡利用每個樣本類別中所有樣本的平均值來代表該類,并通過余弦距離計算樣本和原型的相似度。文獻[56]提出一種可用于小樣本學習的原型網(wǎng)絡,并通過計算樣本和原型的距離來確定所屬類別,此方法在小樣本數(shù)據(jù)取得了很好的分類效果。文獻[63]提出基于距離權值的原型網(wǎng)絡和子空間原型網(wǎng)絡,提高了小樣本圖像分類的準確率。原型網(wǎng)絡可應用于零樣本學習,但是該方法只通過一個原型來代表整個類,可能會導致一些有效信息的丟失,而且度量方式的選擇也非常困難。研究人員可以在已有基于原型網(wǎng)絡的小樣本學習研究的基礎上,在原型表示和度量選擇等領域進一步深入探索[64]。文獻[65]提出一個基于樣本自適應的動態(tài)原型網(wǎng)絡DPNSA,用于小樣本惡意軟件檢測。該方法將原型定義為支持集中每個類的所有惡意軟件樣本的動態(tài)嵌入的平均值;然后提出了一種雙樣本動態(tài)激活函數(shù),利用雙樣本的相關性來減少樣本之間不相關的特征對度量的影響;最后使用基于度量的方法計算查詢樣本與原型之間的距離,以實現(xiàn)惡意軟件檢測。

        本文基于關系網(wǎng)絡的方法來研究距離度量函數(shù)的表示,提出學習一種深度網(wǎng)絡的方式來設計相似性的度量標準。在關系網(wǎng)絡中,度量的選擇極為關鍵,可以通過學習的方式確定度量,這避免了手工選取度量的弊端。文獻[66]提出一種基于CNN 的關系網(wǎng)絡小樣本分類模型,代替固定度量方式的線性分類器,關系網(wǎng)絡利用神經網(wǎng)絡模型提取樣本特征并拼接后使用關系模塊計算出相似性度量。文獻[67]提出一種基于注意力關系網(wǎng)絡的小樣本無線膠囊內鏡圖像分類方法,將關系網(wǎng)絡、注意力機制和元學習訓練策略相結合,在少量標記樣本下對無線膠囊內鏡圖像進行有效分類。文獻[68]提出一種適用于小樣本學習的多尺度克羅內克積關系網(wǎng)絡MsKPRN,該方法將特征圖與從克羅內克積模塊生成的空間相關圖相結合,以捕獲比較特征之間的位置相關性,然后將它們饋送到關系網(wǎng)絡模塊,該模塊以多尺度方式捕獲組合特征之間的相似性。

        基于圖神經網(wǎng)絡的方法是一種基于深度學習的處理圖領域信息模型,每個樣本都設定為圖中節(jié)點,可同時學習所有節(jié)點和邊的嵌入向量。文獻[69]提出圖神經網(wǎng)絡,對圖節(jié)點之間的依賴關系進行建模。由于其較好的性能和可解釋性,已被應用到基于度量學習的小樣本學習上。文獻[70]提出一種基于圖神經網(wǎng)絡的小樣本學習模型,使用圖神經網(wǎng)絡提取兩個節(jié)點間的特征差異,將小樣本學習擴展到半監(jiān)督學習與主動學習,其提出一種基于圖卷積網(wǎng)絡小樣本短文本分類模型,在異構圖卷積網(wǎng)絡中利用雙重注意力機制度量不同相鄰節(jié)點的重要性和不同節(jié)點類型對當前節(jié)點的重要性,可有效緩解小樣本短文本分類過程中出現(xiàn)的語義稀疏與過擬合問題。文獻[71]借鑒圖神經網(wǎng)絡的思想,并引入了兩種懲罰項解決小樣本學習中梯度消失和過擬合問題。文獻[72]提出一種新穎的混合GNN 模型HGNN,該模型由兩個GNN、一個實例GNN 和一個原型GNN 組成,這些GNN 充當特征嵌入適應模塊,用于將元學習特征嵌入快速適應小樣本學習中的新任務。文獻[73]提出一種用于小樣本學習任務的新型標簽引導圖學習神經網(wǎng)絡模型LGLNN,該模型結合標簽信息,通過采用成對約束傳播來學習GNN 的最佳度量圖,可以通過聚合來自相鄰邊的度量信息來學習每個圖邊的度量,從而可以協(xié)同一致地對所有邊進行度量學習。

        匹配網(wǎng)絡在輸入數(shù)據(jù)不成對情況下也可獲得類似KNN 的度量識別準確率。關系網(wǎng)絡在匹配網(wǎng)絡模型基礎上實現(xiàn)了更復雜的距離度量,實際的識別性能會比匹配網(wǎng)絡更好。原型網(wǎng)絡反映了更簡單的歸納偏差,更利于數(shù)據(jù)少的情況,在存在噪聲數(shù)據(jù)的場景中,原型網(wǎng)絡一般會取得更好的學習性能[5]?;诙攘繉W習的小樣本學習方法簡單易操作,便于計算和公式化,只需通過距離來衡量樣本間相似度,通過對比減輕樣本稀少帶來的負面影響[74]。但是模型過度依賴度量方式的選擇和特征表示的質量,在小樣本數(shù)據(jù)情況下,只通過簡單的距離衡量相似度會導致準確率降低[75]?;诙攘康男颖緦W習方法借助非參數(shù)化的分類模型,降低了特征提取器的訓練難度,更加適合小樣本分類,而且模型結構更加靈活和高效。

        2.4 基于元學習的小樣本學習方法

        在小樣本學習中,元學習從大量先驗任務中學習元知識,然后指導模型更好地完成小樣本任務[4]?;谠獙W習的小樣本學習方法如圖6 所示,主要思想是設計一種快速搜索到模型最優(yōu)參數(shù)的方法,加速學習模型在新的任務上的收斂速度[18]。常用的基于元學習的小樣本學習方法有模型未知元學習方式、元轉移學習和記憶神經網(wǎng)絡元學習。

        圖6 基于元學習的小樣本學習方法Fig.6 Few-shot learning method based on meta-learning

        基于模型無關元學習方法的更新方式與模型之間沒有關聯(lián),只需要在更新學習器權重的時候使用梯度,并且也沒有引入更多的參數(shù)。文獻[76]提出一種模型無關元學習算法MAML,該方法重新定義了梯度下降算法,設計了一個與模型無關的元學習器,只需少量梯度下降次數(shù)和少量新任務樣本就能生成很好的泛化性能。文獻[77]提出了未知任務元學習方法TAML,在輸出預測時加入了一個正則化項,以避免元學習模型對訓練任務過擬合。文獻[78]將MAML 應用到了文本領域,提出一種基于注意力機制的未知任務元學習方法。文獻[79]在MAML 基礎上,同時訓練參數(shù)初始化、更新方向及步長,提高了模型性能。文獻[80]提高了MAML 對高維數(shù)據(jù)的適應度,通過大量訓練樣本訓練特征提取器,獲得參數(shù)生成模型以提取各類參數(shù)。文獻[42]結合MAML 與模型回歸網(wǎng)絡,使用常見的參數(shù)初始化方法,使模型支持小樣本的快速學習。文獻[81]結合MAML 與數(shù)據(jù)增強,提出基于生成偽標簽的MAML 模型GP-MAML,利用查詢集的統(tǒng)計數(shù)據(jù)來提高小樣本學習中新任務的性能。

        基于元轉移學習的方法主要應用在淺層卷積網(wǎng)絡模型中,可有效解決面對深度神經網(wǎng)絡時極易導致過擬合及深層網(wǎng)絡性能降低的問題。文獻[42]提出了元轉移學習模型MTL,該模型使用大量數(shù)據(jù)集訓練深度神經網(wǎng)絡,將獲得的預訓練網(wǎng)絡權重進行縮放和平移,在不增加網(wǎng)絡神經元數(shù)量的情況下,模型得到快速擬合并解決災難性遺忘問題[82]。文獻[83]提出一種元轉移學習方法,基于零樣本的超分辨率,找到適用于內部學習的通用初始化參數(shù),利用梯度更新來訓練,效果較好。文獻[84]通過改進注意力網(wǎng)絡模型,提出一種注意力元轉移學習方法AttentionMTL,在小樣本虹膜識別中獲得了很高的準確率。

        基于記憶神經網(wǎng)絡的方法可通過在神經網(wǎng)絡上添加記憶網(wǎng)絡來實現(xiàn)學習經驗的長時間保存。早在2001 年,文獻[48]就證明了記憶神經網(wǎng)絡可適用于元學習。記憶神經網(wǎng)絡元學習包括記憶增廣神經網(wǎng)絡、基于長短時記憶模型的元學習等。其中記憶增廣神經網(wǎng)絡的元學習方法使用基于外部記憶的加權優(yōu)化機制代替原來的隨機梯度下降優(yōu)化器,基于長短時記憶模型的元學習方法使用基于長短期記憶網(wǎng)絡的元學習器來代替原來的隨機梯度下降優(yōu)化器,這樣能夠使整個優(yōu)化過程兼容小樣本學習任務。文獻[60]基于外部記憶增強神經網(wǎng)絡提出了匹配網(wǎng)絡算法,在小樣本分類任務中表現(xiàn)出色。文獻[85]提出一種基于長短期記憶網(wǎng)絡的元學習器模型,替代了隨機梯度優(yōu)化器,以使用小樣本學習神經網(wǎng)絡參數(shù)。文獻[86]借鑒神經圖靈機引入外部記憶模塊,提出一種具備記憶增強神經網(wǎng)絡的小樣本元學習模型,能夠對于少量的樣本類別進行記憶增強,并且可以針對單個樣本進行快速學習。

        基于元學習的小樣本學習方法通過基學習器學習先驗任務,使模型具備自動學習能力,能夠學習訓練之外的知識,在解決不同類問題時變得靈活。元訓練提升基類泛化能力會導致模型對新泛化能力變差,模型復雜度較高,需要改進方面較多。如何設定任務通用參數(shù)和特定參數(shù),有效訓練元學習模型等一直是該領域研究熱點。此外,不同任務的數(shù)據(jù)具有不同分布,數(shù)據(jù)分布差異較大會導致模型難以收斂。元學習機制缺乏可解釋性,如何從理論上解釋元學習,也是今后重要的研究方向[5]。

        3 小樣本學習數(shù)據(jù)集和評價指標

        3.1 小樣本學習數(shù)據(jù)集

        早期的小樣本學習研究主要集中在小樣本圖像識別的任務上,以Mini-Image 和Omnigraffle 兩個數(shù)據(jù)集為代表。一些標準開放的小樣本數(shù)據(jù)集被廣泛使 用,主要包括Omniglot、Mini-ImageNet、Tiered-ImageNet、CUB-200、CIFAR-100、Stanford Dogs 和Stanford Cars,其中:Omniglot 是單樣本學習最常用的數(shù)據(jù)集;Mini-ImageNet 是小樣本學習最常用的數(shù)據(jù)集;CIFAR-100、Stanford Dogs 和Stanford Cars 是細粒度小樣本圖像分類最常用的數(shù)據(jù)集。近年來,在自然語言處理領域也開始出現(xiàn)小樣本學習的數(shù)據(jù)集,如FewRel、ARSC 和ODIC 數(shù)據(jù)集。

        1)Omniglot,火星文數(shù)據(jù)集,主要是各種字母組成的手寫數(shù)據(jù)集,該數(shù)據(jù)集由Amazon 亞馬遜的Mechanical Turk收集。其中包含50個字母的1 623個手寫字符,每個字符都是由20 個不同的人手寫得到,即每類樣本含有20 個樣本。

        2)Mini-ImageNet,是由google DeepMind 團 隊從ImageNet 提取得到的,其中包含100 個類,如蘑菇、鳥等類別,每類含有600 個圖像。

        3)Tiered-ImageNet,是ImageNet 的子集,相比Mini-ImageNet 數(shù)據(jù)集,Tiered-ImageNet 數(shù)據(jù)集中類別更多,有608 種,共16 185 張圖像,每一類約有1 281 張圖片。

        4)CUB-200,是一個鳥類圖像數(shù)據(jù)集,由加州理工學院提出,包含200 種鳥類,共計11 788 張圖像,每類約60 張圖片。

        5)CIFAR-100,共100 個類,每類包含600 張圖像,共20 個父類和100 個子類,每個圖像有一個父類標簽和子類標簽。

        6)Stanford Dogs,共20 580 張圖像,包括120 類狗的樣本,一般用于細粒度圖像分類任務。

        7)Stanford Cars,共16 185 張圖像,包括196 類車的樣本,一般用于細粒度圖像分類任務。

        8)FewRel,小樣本關系分類數(shù)據(jù)集,共70 000 個關系樣本,包括100 個類,每類包含700 個關系樣本。

        上述部分數(shù)據(jù)集的相關信息如表3 和圖7 所示。由文獻[87]的實驗結果可知,類別越多或類內樣本越多,對小樣本圖像進行分類越有利,這表明數(shù)據(jù)量級的大小對小樣本圖像的分類結果具有一定影響。

        圖7 部分小樣本公用數(shù)據(jù)集樣本示例Fig.7 Sample examples of some few-shot public datasets

        表3 部分小樣本公用數(shù)據(jù)集信息Table 3 Few-shot public dataset information

        3.2 小樣本學習評價指標

        評價指標對機器學習任務非常重要,不同的機器學習任務具有不同的評價指標。當前對小樣本數(shù)據(jù)的分類結果將從整體評估指標和單類別評估指標這兩個層次來度量。整體評估指標可以度量整個數(shù)據(jù)集上的分類結果,而單類別評估指標則更細致地度量每一個類別的分類結果。

        3.2.1 單類別評估指標

        對于單個類別的評估和傳統(tǒng)分類任務一樣,相關指標主要包括精確率(Precision)、召回率(Recall)和F 值(F1-score)等。

        1)精確率。精確率是指用于衡量分類結果中分類正確的正樣本數(shù)和全部正樣本數(shù)的比例,用來分析正樣本被預測正確的概率大小。精確率計算公式如下:

        其中:TTP代表正類被判定為正類;FFP代表負類被判定為正類。

        2)召回率。召回率是指用于衡量分類過程中被正確分類的正樣本數(shù)占被正確分類的總樣本數(shù)的比例。召回率計算公式如下:

        其中:FFN代表正類被判定為負類。

        3)F 值。F 值是精確率和召回率的調和平均值,用于綜合評估分類結果的準確性。F 值計算公式如下:

        3.2.2 整體評估指標

        整體評估指標為準確率(Accuracy),如果多分類存在顯著的不平衡,則可以使用各類精度的平均與多分類版的幾何平均、曲線下平均面積等指標。

        1)準確率。準確率是指用于衡量分類檢測過程中被檢測模型分類準確的樣本數(shù)和全部樣本數(shù)占比。準確率計算公式如下:

        其中:TTN代表負類被判定為負類。

        2)幾何平均G-mean(GM)。幾何平均指標評估一個學習算法的綜合性能。在數(shù)據(jù)不平衡時,這個指標具有參考價值,可以用來評定數(shù)據(jù)的不平衡度。GGM等于所有召回率的幾何平均值,計算公式如下:

        3)曲線下平均面積(MAUC)。曲線下平均面積是AAUC的多類擴展,計算公式如下:

        其中:AAUC為ROC 曲線下的面積。

        3.3 面向小樣本數(shù)據(jù)的機器學習方法實驗

        為了更好地對比已有面向小樣本數(shù)據(jù)的機器學習方法和常用數(shù)據(jù)集以進行后續(xù)研究,本節(jié)整理了一些基于典型小樣本學習方法在Omniglot 和Mini-ImageNet 數(shù)據(jù)集上的實驗結果,因為Omniglot 和Mini-ImageNet 數(shù)據(jù)集使用最多,其他數(shù)據(jù)集相對使用較少,所以選擇了5-way 1-shot 和5-way 5-shot 的結果進行比較。具體如表4 所示。

        表4 小樣本學習方法在Omniglot 和Mini-ImageNet 數(shù)據(jù)集上的準確率Table 4 Accuracy of few-shot learning methods on Omniglot and Mini-ImageNet datasets

        從表4 可以看出,對于任意機器學習方法,每個數(shù)據(jù)集中5-shot 都比1-shot 的準確率高很多。這表明可用于訓練的數(shù)據(jù)越多,模型學到的知識也越多,分類效果就會越好。由于Omniglot 數(shù)據(jù)集比較簡單,所有模型在1-shot 的準確率都在92%以上,在5-shot 的準確率都在96% 以上,部分準確率接近100%,可提升的空間較少。在Mini-ImageNet 數(shù)據(jù)集上,不同模型之間的提升較大,而且還有較大的提升空間。因此,后期小樣本機器學習方法大都會在Mini-ImageNet 數(shù)據(jù)集上進行驗證。由于本節(jié)使用不同機器方法,采用的數(shù)據(jù)預處理及網(wǎng)絡框架等設置并不相同,因此很難對比不同機器學習方法的優(yōu)勢。

        4 小樣本學習方法總結及發(fā)展趨勢

        小樣本學習是在人類的學習方式和人工智能之間建立聯(lián)系的橋梁,使深度學習在樣本稀有的案例上部署成為可能,未來面向小樣本數(shù)據(jù)的機器學習方法的研究會逐漸深入,并將取得良好的發(fā)展。

        4.1 小樣本學習方法總結

        小樣本學習各類方法的總結和優(yōu)缺點如表5所示。

        表5 小樣本學習方法優(yōu)缺點對比Table 5 Comparison of advantages and disadvantages of few-shot learning methods

        基于模型微調的小樣本學習方法通過大量樣本的源數(shù)據(jù)集對模型進行訓練,然后在小樣本目標數(shù)據(jù)集上進行微調,操作簡單而且僅需重新調整參數(shù),但是如果目標數(shù)據(jù)集和源數(shù)據(jù)集不相似,會引起模型過擬合。一般將模型微調方法和數(shù)據(jù)增強、度量學習或元學習等方法結合,以避免少量數(shù)據(jù)帶來的模型過擬合問題。基于數(shù)據(jù)增強的小樣本學習方法僅需通過輔助數(shù)據(jù)或者輔助信息來進行數(shù)據(jù)擴充或特征增強,不需要調整模型的參數(shù),但是可能會引入噪聲或特征,對學習模型的效果形成不好的影響,模型通常會比較復雜且計算量較大。現(xiàn)有的機器學習方法在實際的數(shù)據(jù)增強中容易出現(xiàn)知識偏移和過擬合的問題,所以實際的應用效果并不是特別理想,一般將數(shù)據(jù)增強的思想融入度量學習或元學習的方法中。基于度量學習的小樣本學習方法模擬樣本之間的距離分布,使用非參數(shù)估計的方法進行分類,簡單易操作,便于計算和公式化,只需通過距離來衡量樣本間相似度,通過對比減輕樣本稀少帶來的負面影響,但是模型過度依賴度量方式的選擇和特征表示的質量,在小樣本數(shù)據(jù)情況下,只通過簡單的距離衡量相似度會導致準確率降低[76]?;诙攘康男颖緦W習方法借助非參數(shù)化的分類模型,降低了特征提取器的訓練難度,更加適合小樣本分類,而且模型結構更加靈活和高效。基于元學習的小樣本學習方法通過基學習器學習先驗任務,通過輔助元學習器學習策略,加速學習模型在新任務上的收斂速度,使模型具備自動學習能力,能學習訓練之外的知識,在解決不同類問題時變得靈活。元訓練提升基類泛化能力會導致模型對新泛化能力變差,模型復雜度較高,需要改進的方面較多。不同任務的數(shù)據(jù)具有不同數(shù)據(jù)分布,數(shù)據(jù)分布差異較大會導致模型難以收斂,且元學習機制缺乏可解釋性。

        4.2 發(fā)展趨勢

        傳統(tǒng)深度學習模型在訓練數(shù)據(jù)不足以及訓練數(shù)據(jù)和測試數(shù)據(jù)不是同分布的情況下性能存在明顯下降,小樣本學習要解決的問題是如何提升深度學習模型的泛化能力,以實現(xiàn)真正的強人工智能。通過對當前小樣本學習研究進展的梳理,下文從數(shù)據(jù)層面、理論研究和應用研究3 個方面對小樣學習的未來發(fā)展進行展望。

        1)小樣本學習的數(shù)據(jù)層面:(1)現(xiàn)有的面向小樣本數(shù)據(jù)的機器學習模型都需要在大量數(shù)據(jù)集上預訓練,除了在小樣本圖像分類任務中有被廣泛應用的標準數(shù)據(jù)集外,其他很多領域都缺少可用的預訓練數(shù)據(jù)集,如何構建能被多種任務廣泛使用的具備細粒度標記的小樣本學習數(shù)據(jù)集,并選擇合適的數(shù)據(jù)標記方法是一個非常有必要的研究方向;(2)在許多應用場景中,有標簽樣本量很少,但是大量的無標簽數(shù)據(jù)擁有非常豐富的信息,如何更好地使用無標注數(shù)據(jù)信息訓練模型值得深入研究。為了使小樣本學習更接近真實場景,需要進一步研究和尋找不依賴模型預訓練和先驗知識就能獲得較好效果的機器學習方法。

        2)小樣本學習的理論研究:(1)針對基于度量學習的小樣本學習方法,以距離函數(shù)度量的方法相對成熟,通過神經網(wǎng)絡計算樣本間相似性將成為主流的度量方法,如何設計更優(yōu)秀的神經網(wǎng)絡度量方法是未來研究趨勢;(2)針對基于數(shù)據(jù)增強的小樣本學習方法,如何設計更好的生成方法,更好地利用無標注數(shù)據(jù)或輔助特征是未來研究的方向;(3)針對基于元學習的小樣本學習方法,因為元學習無法從小樣本中獲得足夠可理解的信息,使其學習不具備可解釋性,后續(xù)可以從元學習注意力機制和元學習因果推斷機制[75]方面進一步研究,如何設計更合理的元學習機制,使用先驗知識把部分不可解釋問題轉化為可解釋問題,并證明其合理性是重要的研究方向[88];(4)已有的小樣本學習方法大多運用單一的數(shù)據(jù)增強或者轉移學習技術,未來可以嘗試不同小樣本學習方法的融合,從數(shù)據(jù)和模型兩個層面共同改進,也可以嘗試將主動學習和強化學習等先進框架應用到小樣本學習上。

        3)小樣本學習的應用研究:現(xiàn)有的小樣本學習研究主要集中在圖像分類和視覺任務等領域,但在工業(yè)界仍然存在大量的實際問題也迫切需要通過小樣本學習來進一步解決,雖然可能有少量應用,但是效果還不太理想。典型的例子包括商品分類、新藥研發(fā)、罕見疾病診斷、實時環(huán)境感知、機器與人類的交互等場景。在這些場景中,訓練樣本往往難以獲取,或是需要模型即時做出響應,而小樣本學習恰好可以提升深度學習模型對樣本數(shù)據(jù)的利用效率,這些都是未來小樣本學習的重要應用場景和應用研究方向。

        5 結束語

        擁有從少量樣本數(shù)據(jù)中學習和概括的能力是將人工智能和人類智能進行區(qū)分的分界點,小樣本學習在機器學習領域具有重要意義和挑戰(zhàn)性。本文分別闡述了基于模型微調、數(shù)據(jù)增強、度量學習和元學習這4 大類小樣本學習方法的最新研究進展,整理和分析了常用方法在兩種公開數(shù)據(jù)集中的表現(xiàn),并對各種方法及其優(yōu)缺點進行了總結。在此基礎上,對面向小樣本數(shù)據(jù)的機器學習方法的未來研究方向進行了展望,未來可從數(shù)據(jù)層面構建能被多種任務廣泛使用的小樣本學習數(shù)據(jù)集,從理論層面嘗試融合不同小樣本學習方法,從應用層面提升深度學習模型對樣本數(shù)據(jù)的利用效率,以適應各種實際應用場景。

        猜你喜歡
        度量標簽分類
        有趣的度量
        模糊度量空間的強嵌入
        分類算一算
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        分類討論求坐標
        無懼標簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        數(shù)據(jù)分析中的分類討論
        不害怕撕掉標簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        教你一招:數(shù)的分類
        標簽化傷害了誰
        中国大陆一级毛片| 亚洲色精品三区二区一区| av网址不卡免费在线观看| 午夜蜜桃视频在线观看| 亚洲欧洲日产国码av系列天堂| 亚洲欧洲精品无码av| 五月激情婷婷丁香| 国产精品女同一区二区久| 成年人一区二区三区在线观看视频| 成人网站在线进入爽爽爽| 亚洲日韩精品欧美一区二区一 | 爱v天堂在线观看| 亚洲国产一区二区中文字幕| 亚洲av熟女一区二区三区站| 久久综合九色综合久99| 九九热在线视频观看这里只有精品| 久久丁香花综合狼人| 二区三区亚洲精品国产| 青青草成人在线播放视频| 欧美日韩国产精品自在自线| 国产毛片网| 久久精品国产亚洲av蜜桃av| 日本a级一级淫片免费观看| 亚洲国产欧美日韩欧美特级| 久久精品re| 亚洲二区三区四区太九| 偷拍一区二区三区四区| 国产台湾无码av片在线观看| 亚洲AV秘 无码二区在线| 久久丁香花综合狼人| 亚洲岛国一区二区三区| 蜜臀性色av免费| 中国精品久久精品三级| 日韩精品一区二区av在线| 国产变态av一区二区三区调教| 亚洲成人色区| 国产亚洲欧洲AⅤ综合一区| 久久综合伊人有码一区中文字幕 | 国产欧美va欧美va香蕉在 | 中文字幕中乱码一区无线精品| 国产av激情舒服刺激|