胡西范 陳世平
摘 要:機器學習在數(shù)據(jù)密集型應用中十分廣泛,但缺點是當數(shù)據(jù)集很小時往往效果欠佳。近年來,人們提出了小樣本學習來解決這個問題。小樣本學習指只利用少量樣本來訓練識別這些樣本的機器學習模型。由于小樣本學習的實用價值,業(yè)界提出很多針對的研究方法,但是目前國內缺少該問題的綜述。本文中,對目前業(yè)界提出的小樣本學習模型及算法進行了總結和探索。首先,給出了小樣本學習的問題定義,并介紹了其他一些相關的機器學習問題;然后,根據(jù)先驗知識,通過從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學習方法;最后,對小樣本的未來發(fā)展進行了展望。
關鍵詞:機器學習; 小樣本學習; 圖像分類; 數(shù)據(jù)增強
文章編號:2095-2163(2021)07-0191-06中圖分類號:[HT5”XBS〗TP391文獻標志碼:A
A survey of few-shot learning based on machine learning
HU Xifan, CHEN Shiping
(School of Optical-Electrical & Computer Engineering, University of Shanghai for Science & Technology,
Shanghai 200093, China)
【Abstract】Machine learning is widely used in data-intensive applications, but the drawback is that it tends to be less effective when the data set is small.In recent years, few-shot learning has been proposed to solve this problem. Few-shot learning refers to a machine learning model that uses only a small number of samples to train the recognition of these samples.Due to the practical value of few-shot learning, the industry has put forward a lot of research methods, but there is a lack of domestic review on this issue. This paper summarizes and explores the few-shot learning models and algorithms proposed by the industry. Firstly, the paper defines the problem of few-shot learning and introduces some other related machine learning problems.Then, according to the prior knowledge, the paper introduces the few-shot learning method in detail through three data enhancement methods and four models. Finally, the future development of small sample is prospected.
【Keywords】machine learning; few-shot learning; image classification; data enhancement
0 引 言
相比于機器學習,人類能夠通過利用過去學到的少量樣本數(shù)據(jù)來快速完成新概念的學習任務,并且做出準確的預測和評估[1]。例如,給一個兒童看一個陌生人的幾張照片,那么就可以從其他若干新的照片中找出包含該陌生人的照片。模仿人類的學習過程,縮小人工智能和人類之間的差距是機器學習非常重要的一個方向。
1 小樣本學習
針對樣本缺失的應用場景,國內外學者提出了一種新的機器學習概念:小樣本學習(Few-Shot Learning)[2-4]。典型的機器學習應用程序[5],如上面的舉例,需要大量具有監(jiān)督信息[6]的數(shù)據(jù)。然而,正如引言中提到的,這可能是困難且復雜的。小樣本學習是機器學習的一種特殊情況,下面給出其正式的定義。
1.1 問題定義
小樣本學習是在只有目標少量訓練樣本的環(huán)境中,如何訓練一個可以有效地識別這些目標樣本的一類機器學習模型?,F(xiàn)在的小樣本問題主要是監(jiān)督學習問題,例如小樣本分類問題只給出每個類的幾個帶標簽的例子來學習分類器。在工業(yè)應用領域,小樣本學習因其可以大大降低數(shù)據(jù)采集和標定成本,在諸多視覺任務中已經(jīng)得到研究人員的關注,其中包括:圖像分類[7]、圖像檢索[8]、目標跟蹤[9]、短文本情感分析[10]、語言模型[11]、網(wǎng)絡結構搜索[12]等問題。
1.2 相關的機器學習任務
(1)弱監(jiān)督學習(Weakly supervised learning)[13]:弱監(jiān)督學習是介于有監(jiān)督和無監(jiān)督之間的一類學習方法[14],從經(jīng)驗E中學習,只包含弱監(jiān)督信息(如不完整、不準確、或嘈雜的監(jiān)督信息)。與小樣本學習相關的問題是在監(jiān)督信息不完全的情況下,小樣本學習的經(jīng)驗只有少量標簽信息。根據(jù)有無人為干預,弱監(jiān)督學習又可分為以下2類:
①半監(jiān)督學習(Semi-supervised learning)[15]:半監(jiān)督學習通過使用少量標記,同時使用大量未標記數(shù)據(jù)對模型進行訓練,是監(jiān)督學習和無監(jiān)督學習相結合的一種機器學習方法。正例-未標注學習(Positive and Unlabeled Learning)[16]是半監(jiān)督學習的一個特例,指在只有正類和無標記數(shù)據(jù)的情況下,訓練二分類器。例如,在社交網(wǎng)絡中推薦朋友[17],根據(jù)朋友列表只能了解用戶當前的朋友,而用戶與其他人的關系是未知的。
②不平衡學習(Imbalanced learning)[18]:不平衡學習的根本問題是,不平衡數(shù)據(jù)會極大地損害一般標準學習算法的性能。一般標準算法假設或期望平衡的類分布或相等的誤分類代價。因此,當面對復雜的不平衡數(shù)據(jù)集時,這些算法不能很好地表示數(shù)據(jù)的分布特征,這樣便會使跨類數(shù)據(jù)的準確性較差。相反,小樣本學習用少量的樣本訓練和測試輸出,同時可能以其他輸出作為學習的先驗知識。
(2)遷移學習(Transfer learning)[19-20]:遷移學習將某個領域或任務上學習到的知識或模式應用到不同但相關的數(shù)據(jù)缺乏的領域或問題中。還可以用于跨域推薦、跨時間空間和移動設備的WiFi定位等應用。領域自適應(Domain Adaptation)[21]是遷移學習中的一種代表性方法,指的是利用信息豐富的源域(source domain)樣本來提升目標域(target domain)模型的性能。源域和目標域往往屬于同一類任務,但是分布不同。例如,在情感分析中,源域數(shù)據(jù)包含用戶對電影的評論,而目標域數(shù)據(jù)包含客戶對日用商品的評論。
(3)元學習(Meta-learning):或者稱為學會學習(Learning to learn)[22],這一類學習隨著經(jīng)驗和任務數(shù)量的增長,在每個任務上的表現(xiàn)得到改進,每當學會解決一個新的任務,就越有能力解決其他新的任務。具體來說,元學習器在多輪任務中迭代學習到一些通用性的知識(元知識),利用學習到的元知識可以幫助新的任務快速迭代,提高新任務的性能。元學習方法可以用來處理小樣本學習問題。
1.3 問題分類
在所有的機器學習問題中,通常都存在預測誤差,無法獲得完美的預測。在小樣本學習中,由于樣本量不夠導致經(jīng)驗風險最小化帶來的最優(yōu)解和真實解之間的誤差將變大[23-25],因此必須使用先驗知識來解決以上問題。
這里將現(xiàn)有的小樣本學習研究分為3類,即:利用先驗知識增強監(jiān)督信號;利用先驗知識縮小假設空間的大小;利用先驗知識更改給定假設空間中對最優(yōu)假設的搜索,也就是數(shù)據(jù)、模型、算法三類。接下來的的章節(jié)會對每類研究方法進行詳細介紹。
2 數(shù)據(jù)
基于數(shù)據(jù)的小樣本學習方法主要是利用先驗知識增強樣本數(shù)據(jù)Dtrain,從而將監(jiān)督信息進一步增強,利用充足的數(shù)據(jù)樣本來實現(xiàn)可靠的經(jīng)驗風險最小化,如圖1所示。
以圖像數(shù)據(jù)擴充為例,經(jīng)典的圖像數(shù)據(jù)擴充方法主要有:翻轉[26]、裁剪[27]、縮放[28]、旋轉[29]、改變亮度、圖像模糊等。然而這些人工設計的方法有很大的依賴性,需要耗費大量的人力和專業(yè)知識。此外,這種方法的遷移性比較差,對一個數(shù)據(jù)集制定的數(shù)據(jù)增強方法很難適用到另一個數(shù)據(jù)集當中。因為人類不可能列舉出所有可能的不變性,因此傳統(tǒng)的人工增強數(shù)據(jù)方法不能完全適用于解決小樣本問題。
除了人工設計的樣本數(shù)據(jù)擴充方法,根據(jù)增強數(shù)據(jù)的來源將小樣本數(shù)據(jù)擴充方法分為3類:從訓練集轉換樣本、從弱標簽或無標簽數(shù)據(jù)集轉化樣本、從相似數(shù)據(jù)集轉換樣本。
2.1 從訓練集轉換樣本
這種策略通過將每個屬于Dtrain的樣本轉化為幾個不同的樣本來增強Dtrain。轉換過程作為先驗知識包含在經(jīng)驗E中,以便生成額外的樣本。一篇早期的小樣本學習論文[30]通過迭代地將每個樣本與其他樣本對齊,從類似的類中學習一組幾何變換。將學習過的轉換過程應用到更大的數(shù)據(jù)集中,然后通過標準的機器學習方法來學習。同樣,一組自編碼器,每個從類似的類中學習,代表一個類的可能性,通過向訓練樣本添加新屬性獲得新的生成樣本。通過假設所有類別在樣本之間共享一些可轉換的變異性,則可以學習到一個轉換函數(shù)[31],再將學習到的轉換函數(shù)應用到輸入樣本。
2.2 從弱標簽或無標簽數(shù)據(jù)集轉化樣本
這種策略通過從弱標簽或無標簽的大數(shù)據(jù)集中選擇帶有目標標簽的樣本來增強Dtrain。例如,在監(jiān)控拍攝到的照片中,有人、汽車、綠化和道路,但都不包含標簽。再例如一段長時間的演講視頻,演講者在視頻中有一系列手勢,所有的手勢都沒有明確的注釋。作為這樣的數(shù)據(jù)集通常包含大量不同的樣本,將其增強到Dtrain有助于增強模型的泛化性。收集這樣的數(shù)據(jù)集很容易,因為不需要人來做標記。然而,雖然收集成本很低,但一個主要問題是如何選擇帶有目標標簽的樣本來增強Dtrain。在文獻[32]中,研究為Dtrain中的每個目標標簽學習了一個SVM,用于預測來自弱標簽數(shù)據(jù)集的樣本的標簽,然后將具有目標標簽的樣本添加到Dtrain。
2.3 從相似數(shù)據(jù)集轉換樣本
這種策略通過從相似、但更大的數(shù)據(jù)集聚合和調整輸入-輸出對來增強訓練集。聚合權重通常基于樣本之間的一些相似性度量。在Tsai等人[33-34]的研究中,可從輔助的文本語料庫中提取了聚合的權重。由于這些樣本可能不來自目標小樣本類,直接將聚合樣本增強到Dtrain可能產(chǎn)生更大的誤差。生成對抗網(wǎng)絡(GAN)[34]可以生成與目標樣本相似、甚至和目標樣本無法區(qū)分的樣本數(shù)據(jù)。具體地,是由一個生成器和一個判別器構成,通過對抗學習的方式來訓練[35]。
2.4 結論
使用哪一種數(shù)據(jù)增強策略取決于實際的應用程序。通過利用目標任務的先驗信息來增強數(shù)據(jù)是簡單易懂的,另一方面,這種方法的缺陷是不能很好地遷移到其他數(shù)據(jù)集(特別是來自其他領域的數(shù)據(jù)集)上使用。除此之外,現(xiàn)有的方法主要是為圖像問題設計的,因為生成的圖像可以很容易地被人類視覺評估。相反,文本和音頻涉及語法和結構的領域更難生成。在文獻[36]的研究中進行了使用數(shù)據(jù)增強文本的嘗試。
3 模型
若只給定少數(shù)樣本的訓練集Dtrain,同時僅使用簡單模型(例如線性分類器)就可以選擇較小的假設空間[37-38]。但是,現(xiàn)實世界中的問題通常更為復雜,并且不能由一個小型的假設空間很好地表示[39]。根據(jù)所使用的先驗知識,可以將屬于本類別的方法進一步分為多任務學習、嵌入式學習、借助外部存儲學習和生成模型四種類型。下面,將分別介紹這四種類型。
3.1 多任務學習
在存在多個相關任務的情況下,多任務學習[40]通過利用任務通用信息和特定于任務的信息同時學習這些任務。因此,可以將多任務學習用于小樣本問題中。假設有一個機器學習任務T,該任務有相關的若干個子任務T1,T2,…,Tn,其中一些任務的樣本很少,另一些的樣本數(shù)很多。每個任務Ti都有一個數(shù)據(jù)集Di={Ditrain,Ditest},其中前者是訓練集,后者是測試集。在這些Ti任務中,將小樣本任務作為目標任務,其余作為源任務。多任務學習從Ditrain學習Ti的參數(shù)。
由于這些任務是聯(lián)合學習的,因此為任務Ti學習的參數(shù)受其他任務的約束。根據(jù)任務參數(shù)的約束方式,多任務學習方法又可以劃分為:參數(shù)共享[28,41-42],參數(shù)綁定[39,43]。
3.2 嵌入學習
嵌入學習[44-45]將每個樣本xi∈XRd嵌入到一個低維的zi∈ZRm,這樣相似的樣本距離會縮小,而差異較大的樣本則更容易分離。然后,利用這個較低維的Z中構造一個更小的假設空間H,此時只需要少量的訓練樣本。嵌入學習具有以下關鍵組成部分:
(1)將測試樣本xtest∈Dtest嵌入Z的函數(shù)f。
(2)將訓練樣本xi∈Dtrain嵌入Z的函數(shù)g。
(3)相似性函數(shù)s(·,·)來測量f(xtest)和Z中的g(xi)之間的相似度。
根據(jù)該類的嵌入g(xi)與Z中的f(xtest)最相似,將測試樣本xtest分配給xi類。盡管可以為xi和xtest使用通用的嵌入函數(shù),但是使用2個單獨的嵌入函數(shù)可以獲得更好的準確性[46-47]。根據(jù)嵌入函數(shù)f和g的參數(shù)是否隨任務而變化,將這些小樣本學習方法歸為3類,即:特定于任務的嵌入模型;不變任務(即一般)嵌入模型;混合嵌入模型,可同時編碼特定于任務的信息和不變于任務的信息。
3.3 使用外部存儲器學習
使用外部存儲器學習[48-49]從Dtrain中提取知識,并將提取的信息存儲在特定的外部存儲器中。然后,將每個新樣本xtest由從內存中提取的內容用加權平均值表示。這限制了xtest由內存中的內容表示,因此實質上減小了假設空間H的大小。小樣本學習中通常使用鍵值存儲器[50],根據(jù)存儲器的功能此類別方法又可以分為準確表達[51-52]和參數(shù)完善[53-54]兩類。
3.4 生成模型
生成模型方法借助先驗知識(如圖2所示)從觀測到的xi估計概率分布p(x)。p(x)的估計通常涉及p(x||y)和p(y)的估計。生成模型方法可以用于處理很多任務,例如生成[55-58]、識別[57-58]、重構[57]和圖像翻轉[56]。
3.5 模型方法總結
當存在相似的任務或輔助任務時,可以使用多任務學習來約束小樣本任務的假設空間H。但是此方法需要共同訓練所有任務。因此,當添加一個新的任務時,整個多任務模型必須再次共同訓練,這將導致訓練的成本增加。當存在一個由各類樣本數(shù)據(jù)組成的大規(guī)模數(shù)據(jù)集時,可以考慮使用嵌入學習方法。此方法的優(yōu)點是可以將樣本映射到良好的嵌入空間,并易于分離來自不同類別的樣本,因此需要較小的H[TX~]。但是,當小樣本任務與其他任務沒有密切關系時,實驗效果將會不佳。當有可用的內存網(wǎng)絡時,可以通過在內存的基礎上訓練一個簡單的模型(例如分類器),將其簡單地用于小樣本學習任務。通過使用專門設計的更新規(guī)則,可以有選擇地保護內存插槽。但是本方法的缺點是會導致額外的存儲空間和計算成本,隨著內存大小的增加缺點越明顯,而使用的外部存儲器大小通常也會受到限制。最后,當除了小樣本任務之外還想要執(zhí)行諸如生成和重構之類的任務時,可以使用生成模型。訓練好的生成模型也可以用于生成樣本對數(shù)據(jù)進行擴充。
4 總結與展望
由于獲取大量標注樣本會消耗不少的時間和人力,小樣本學習在深度學習領域逐漸受到人們重視。目前小樣本學習研究主要集中在圖像分類、字符識別等方向。在其他監(jiān)督學習場景中同樣可以發(fā)揮小樣本學習理論的作用,包括目標檢測、語義分割、圖像檢索、手勢識別、視頻目標檢測等問題。除了視覺任務,在自然語言處理中領域的文本和計算機視覺的視頻問題同樣是小樣本學習值得探索的研究方向。
隨著深度學習的不斷發(fā)展,小樣本學習應用的領域將會不斷擴大,小樣本學習研究的前景將會十分廣闊。
5 結束語
本文首先介紹了小樣本學習的研究背景和問題定義,接著從3種數(shù)據(jù)增強方法和4種模型詳細介紹了小樣本學習方法,最后對小樣本學習研究進行了前景展望。
參考文獻
[1] SEBASTIAN T, PRATT L. Learning to learn[M]. New York:Springer Science & Business Media, 2012.
[2]? GARCIA V, BRUNA J. Few-shot learning with graph neural networks[J]. arXiv preprint arXiv:1711.04043, 2017.
[3] DUAN Y, ANDRYCHOWICZ M, STADIE B, et al. One-shot imitation learning[C]//Advances in Neural Information Processing Systems. Long Beach,CA:Microsoft, 2017: 1087-1098.
[4] ORESHKIN B, LPEZ P R, LACOSTE A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal, Canada: NIPS, 2018: 721-731.
[5] REN M, TRIANTAFILLOU E, RAVI S, et al. Metalearning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
[6] MITCHELL M T.? Machine learning[M]. New York: McGraw-Hill,1997.
[7] MOHRI M, ROSTAMIZADEH A, TALWALKAR A. Foundations of machine learning[M]. Cambridge:MIT Press,2018.
[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Nevada,USA:Winton,2012: 1097-1105.
[9] SMEULDERS A W M, WORRING M, SANTINI S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000 (12): 1349-1380.
[10]BLACKMAN S S. Multiple-target tracking with radar applications[M]. Norwood:Artech House , 1986.
[11]YU Mo, GUO Xiaoxiao, YI Jinfeng, et al. Diverse few-shot text classification with multiple metrics[C]//Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. New Orleans,Louisiana:Bloomberg, 2018:1206-1215.
[12]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3(2): 1137-1155.
[13]ZOPH B, LE Q V. Neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1611.01578, 2016.
[14]DIBA A, SHARMA V, PAZANDEH A, et al. Weakly supervised cascaded convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA:IEEE, 2017: 914- 922.
[15]ZHOU Zhihua. A brief introduction to weakly supervised learning[J]. National Science Review, 2018(1):44-53.
[16]ZHU X J. Semi-supervised learning literature survey[R]. Madison:University of Wisconsin-Madison,2005.
[17]LI Xiaoli, YU P S, LIU Bing, et al. Positive unlabeled learning for data stream classification[C]// SIAM International Conference on Data Mining. Sparks, Nevada,USA:dblp,2009:259-270.
[18]SETTLES B. Active learning literature survey[R]. Madison:University of Wisconsin-Madison,2010.
[19]HE H, GARCIA E A. Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering,2009, 21 (9):1263-1284.
[20]PANS J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering,2010,? 22 (10): 1345-1359.
[21]FU Y, HOSPEDALES T M, XIANG T, et al. Transductive multi-view zero-shot learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(11): 2332-2345.
[22]BEN-DAVID S, BLITZER J, CRAMMER K, et al. Analysis of representations for domain adaptation[C]// Advances in Neural Information Processing Systems. Vancouver,BC, Canada:NIPS Foundation,2007:137-144.
[23]HOCHREITERS, YOUNGER A S, CONWELL P R. Learning to learn using gradient descnt[C]// International Conference on Artificial Neural Networks. Vienna,Austria:Springer, 2001: 87-94.
[24]CHEN Zitian, FU Yanwei, ZHANG Yinda, et al. Multi-level semantic feature augmentation for one-shot learning[J]. IEEE Transactions on Image Processing, 2019,28(9):4594-4605.
[25]ANTONIOU A, STORKEY A, EDWARDS H. Data augmentation generative adversarial networks[J]. arXiv preprint arXiv:1711.04340, 2017.
[26]CHEN Z, FU Y, CHEN K, et al. Image block augmentation for one-shot learning[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii,USA:AAAI, 2019, 33: 3379-3386.
[27]QI H, BROWN M, LOWE D G. Low-shot learning with imprinted weights[C]//Conference on Computer Vision and Pattern Recognition.Salt Lake City,UT, USA:IEEE, 2018:5822-5830.
[28]SHYAM P, GUPTA S, DUKKIPATI A. Attentive recurrent comparators[C]//International Conference on Machine Learning. Sydney, NSW, Australia:IMLS,2017:3173-3181.
[29]ZHANG Yabin, TANG Hui, JIA Kui. Fine-grained visual categorization using meta-learning optimization with sample selection of auxiliary data[M]// FERRARI V, HEBERT M, SMINCHISESCU C, et al. Computer Vision - ECCV 2018. Lecture Notes in Computer Science.? Cham:Springer,2018,11212:241-256.
[30]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press,2016:3630-3638.
[31]MILLER E G, MATSAKIS N E, VIOLA P A.Learning from one example through shared densities on transforms[C]//Conference on Computer Vision and Pattern Recognition. Hilton Head, SC, USA:IEEE, 2000,1:464-471.
[32]HARIHARAN B,GIRSHICK R. Low-shot visual recognition by shrinking and hallucinating features[C]// International Conference on Computer Vision. Venice, Italy:IEEE,2017:3037-3046.
[33]PFISTER T, CHARLES J, ZISSERMAN A. Domain-adaptive discriminative one-shot learning of gestures[C]//European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing,2014:814-829.
[34]TSAI Y H, SALAKHUTDINOV R. Improving one-shot learning through fusing side information[J]. arXiv preprint arXiv:1710.08347,2017.
[35]GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems. Montréal CANADA:Google,2014:2672-2680.
[36]王坤峰,茍超,段艷杰,等. 生成式對抗網(wǎng)絡 GAN 的研究進展與展望[J]. 自動化學報, 2017, 43(3):321-332.
[37]WEI J, ZOU K. EDA: Easy data augmentation techniques for boosting performance on text classification tasks[C]//Conference on Empirical Methods in Natural Language Processing and International Joint Conference on Natural Language Processing.Hong Kong, China:ACL,2019: 6383-6389.
[38]MITCHELL M T. Machine Learning[M].? New York:McGraw-Hill,1997.
[39]MOHRIM, ROSTAMIZADEH A, TALWALKAR A. Foundations of machine learning[M]. Cambridge:MIT Press,2018.
[40]GOODFELLOWI, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge:MIT Press,2016.
[41]ZHANG Yu, YANG Qiang. A survey on multi-task learning[J]. arXiv preprint arXiv:1707.08114 ,2017.
[42]HU Zikun, LI Xiang, TU Cunchao, et al. Few-shot charge prediction with discriminative legal attributes[C]//International Conference on Computational Linguistics.New Mexico, USA:ACL,2018: 487-498.
[43]BENAIM S, WOLF L. One-shot unsupervised cross domain translation[C]//Advances in Neural Information Processing Systems. Montreal, Canada:NIPS,2018:2104-2114.
[44]LUO Z, ZOU Y, HOFFMAN J, et al. Label efficient learning of transferable representations acrosss domains and tasks[C]//Advances in Neural Information Processing Systems. Long Beach:Microsoft,2017:165-177.
[45]JIA Y, SHELHAMER E, DONAHUE J, et al. Caffe: Convolutional architecture for fast feature embedding[C]// ACM International Conference on Multimedia.Orlando, Florida:ACM,2014: 675-678.
[46]SPIVAK M D. A comprehensive introduction to differential geometry[M]. Houston,Texas:Publish or Perish, inc,1970.
[47]BERTINETTOL, HENRIQUES J F, VALMADRE J, et al. Learning feed-forward one-shot learners[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:523-531.
[48]VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]//Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:3630-3638.
[49]SUKHBAATAR S, WESTON J, FERGUS R, et al. End-to-end memory networks[C]//Advances in Neural Information Processing Systems. Montréal,Canada: Google,2015:2440-2448.
[50]WESTON J, CHOPRA S, BORDES A. Memory networkss[J]. arXiv preprint arXiv:1410.3916,2014.
[51]MILLER A, FISCH A, DODGE J, et al. Key-value memory networks for directly reading documents[C]// Conference on Empirical Methods in Natural Language Processing. Austin, Texas,USA:ACL,2016:1400-1409.
[52]RAMALHO T, GARNELO M. Adaptive posterior learning: Few-shot learning with a surprise-based memory module[C]//International Conference on Learning Representations. Louisiana, United States:ICLR,2019:1-14.
[53]SNELL J, SWERSKY K, ZEMEL R S. Prototypical networks for few-shot learning[C]// Advances in Neural Information Processing Systems. Long Beach:Microsoft, 2017:4077-4087.
[54]BERTINETTO L, HENRIQUES J F, VALMADRE J, et al. Learning feed-forward one-shot learners[C]// Advances in Neural Information Processing Systems. Barcelona:MIT Press, 2016:523-531.
[55]MUNKHDALAI T, YUAN X, MEHRI S, et al. Rapid adaptation with conditionally shifted neurons[C]//International Conference on Machine Learning. Stockholm, Sweden:Intuit, 2018:3661-3670.
[56]EDWARDS H, STORKEY A. Towards a neural statistician[C]//International Conference on Learning Representations. Toulon, France: Bengio ,2017:1-14.
[57]REED S, CHEN Y, PAINE T, et al. Few-shot autoregressive density estimation: Towards learning to learn distributions[C]//International Conference on Learning Representations.Vancouver,BC,Canada: Google ,2018:1-11.
[58]GORDON J, BRONSKILL J, BAUER M, et al. Meta-learning probabilistic inference for prediction[C]//International Conference on Learning Representations. Louisiana,USA:DeepMind,2019:1-22.
[59]ZHANG Rruixiang, CHE Tong, GHAHRAMANI Z, et al. MetaGAN: An adversarial approach to few-shot learning[C]//Advances in Neural Information Processing Systems. Montreal, Canada:NIPS,2018:2371-2380.
基金項目:國家自然科學基金(61472256,61170277); 上海市一流學科建設項目(S1201YLXK); 上海理工大學科技發(fā)展基金資助項目(16KJFZ035,2017KJFZ033); 滬江基金資助項目(A14006)。
作者簡介:胡西范(1995-),男,碩士研究生,主要研究方向:小樣本學習; 陳世平(1964-),男,博士,教授,主要研究方向:云計算、信息檢索及深度學習。
通訊作者:陳世平Email:huxifan6@163.com
收稿日期:2021-03-06