亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        標簽噪聲魯棒學習算法研究綜述

        2020-07-16 18:27:38宮辰張闖王啟舟
        航空兵器 2020年3期
        關(guān)鍵詞:機器學習深度學習人工智能

        宮辰 張闖 王啟舟

        摘 要:在機器學習領(lǐng)域,監(jiān)督學習算法在理論層面和工程應用中均取得了豐碩的成果,但此類算法的效果嚴重依賴訓練樣本的標簽質(zhì)量,在實際問題中獲取具有高質(zhì)量標簽的訓練樣本通常費時費力。為節(jié)省人力物力,網(wǎng)絡爬蟲、眾包方法等替代方法被用于對訓練數(shù)據(jù)的采集。不幸的是,這些替代方法獲取的數(shù)據(jù)往往存在大量的錯誤標注,即標簽噪聲,由此帶來了很多潛在的問題。因此,對標簽噪聲魯棒學習算法的研究,在推廣機器學習工程應用、降低機器學習算法部署成本方面具有重要的意義。本文對標簽噪聲魯棒學習算法的最新研究成果進展進行了全面綜述,分別從標簽噪聲的產(chǎn)生、影響、分類等方面進行了詳細的總結(jié),對每類標簽噪聲的處理方法進行了介紹,并對每類處理方法的優(yōu)缺點進行分析。

        關(guān)鍵詞: 人工智能;機器學習;弱監(jiān)督學習;標簽噪聲;深度學習;魯棒學習算法

        中圖分類號: TJ760;TP18文獻標識碼:A文章編號: 1673-5048(2020)03-0020-07

        0 引言

        監(jiān)督學習分類算法在醫(yī)療、金融、交通等領(lǐng)域中已經(jīng)取得了巨大的成功。此類算法通常從大量訓練樣本中學習出一個分類模型,然后將其用于預測新樣本的標簽。具體來說,每個訓練樣本都對應一個事件/對象,并由兩部分組成: 一個描述該事件/對象的特征向量(或?qū)嵗?,一個表示該事件/對象真實類別的標簽。監(jiān)督學習分類算法利用大量有標簽的訓練數(shù)據(jù)在假設空間下,尋找特定任務下的最優(yōu)分類器模型,然后將其部署用于預測新測試樣本的標簽。但是在實際應用場景中,考慮到人力、物力成本或分類任務本身具有的主觀性,實際的訓練數(shù)據(jù)通常受到外部噪聲影響。

        訓練數(shù)據(jù)所受到的外部噪聲被定義為數(shù)據(jù)實例特征和數(shù)據(jù)標簽錯誤的對應關(guān)系[1]或非系統(tǒng)錯誤的集合[2]。外部噪聲通常分為兩類,即特征噪聲和標簽噪聲[2-4]。對于分類問題,特征噪聲指訓練樣本的實例特征本身與其真實特征間的偏差。此類噪聲通常對目標分類器性能影響較小,甚至人為引入的特征噪聲能夠提高目標分類器泛化能力或?qū)刽敯粜浴n愃频?,標簽噪聲通常指分類學習算法中用于訓練的目標標簽與相應實例本身的真實標簽的偏差。

        與特征噪聲相比,許多工作從實驗和理論的角度證明了標簽噪聲對目標分類器性能有著更為嚴重的負面影響。Frénay等人[5]指出,這種現(xiàn)象可能由兩個因素造成: (1)實例標簽維度遠小于其特征維度;(2)特征對模型訓練的重要性或大或小,而標簽總是對模型訓練有很大的影響。Quinlan[2]的研究也得出了類似的結(jié)論: 相對于特征噪聲,標簽噪聲對分類器的影響更大。因此,本文著重討論標簽噪聲問題。

        標簽噪聲在實際應用場景中廣泛存在。 在軍事目標識別場景中,模型的訓練往往依賴于準確的目標標注。但是在目標標注過程中,一些外觀相似的軍事目標經(jīng)常容易被標注錯誤,比如坦克和自行榴彈炮等。類似地,在紅外或雷達圖像場景中,成像質(zhì)量或者是照射角的變化也經(jīng)常導致目標標注錯誤,也就造成了本文所討論的標簽噪聲,這些標簽噪聲將不可避免地對訓練模型帶來負面影響。因此, 標簽噪聲魯棒學習算法的研究對機器學習應用于實際工程領(lǐng)域具有重要意義。

        為研究各類標簽噪聲對目標分類器/分類算法的影響,研究者通常會將噪聲標簽、真實標簽、實例特征三者看作隨機變量,進而對三者的依賴關(guān)系做出假設。就有向概率圖的角度而言[5],大部分工作研究的標簽噪聲可以分為三類: 隨機標簽噪聲(Random Classification label Noise,RCN)、類相關(guān)標簽噪聲(Class-Conditional label Noise,CCN)以及實例相關(guān)標簽噪聲(Instance-Dependent label Noise,IDN)。三者分別假定標簽錯誤與實例特征和真實標簽均無關(guān)、標簽錯誤僅與真實標簽相關(guān)、標簽錯誤與實例特征相關(guān)。

        三者的概率圖表示如圖1所示。其中,x表示實例特征,y表示其真實標簽(不可觀測且完全正確的標注),y~表示其噪聲標簽(可觀測但不完全正確的標注)。此外,與文獻[5-6]等類似,本文額外引入隱變量e用于指示該實例是否受標簽噪聲帶來的錯誤影響。

        值得注意的是,已有工作通常限定在一種標簽噪聲對監(jiān)督學習算法的影響,而實際場景下標簽數(shù)據(jù)噪聲可能是三種情況的混合。此外,其他研究工作嘗試研究開放情形下的標簽噪聲問題,即部分實例樣本真實標簽不存在于訓練樣本的標簽空間中的情況。本文僅考慮RCN,CCN,IDN三種標簽噪聲分別對目標分類器的影響以及如何設計特定類型噪聲下的魯棒分類算法。

        本文將從標簽噪聲的產(chǎn)生和標簽噪聲的影響闡述標簽噪聲魯棒學習算法研究的重要意義,并從上述標簽噪聲的三個分類進一步闡述處理標簽噪聲的前沿算法,最后對標簽噪聲學習進行總結(jié)并展望其發(fā)展趨勢。

        1 標簽噪聲的產(chǎn)生

        標簽噪聲廣泛存在于交通、金融等多個領(lǐng)域,以及雷達目標檢測、紅外目標識別等關(guān)鍵應用場景。很多因素可能導致標簽噪聲[5-6]: (1)標注過程中可獲取的信息不夠充分,實例特征不足以充分描述目標類別的數(shù)據(jù)[7-9]。(2)待標注樣本任務本身具有主觀性,不同標注人員從不同角度出發(fā)會給出不同的標簽[10-11]。(3)待標記樣本自身可辨識度較低,對于一些難以標記的樣本,即使專家也無法給出正確標注[1]。(4)標注算法本身質(zhì)量/精度較低[12-15]。(5)通信/編碼問題或數(shù)據(jù)集處理過程也有可能導致樣本標簽出現(xiàn)錯誤[3, 7, 16]。(6)在大規(guī)模標注數(shù)據(jù)中,即使標注算法質(zhì)量較高,獲取的標簽也可能存在噪聲問題[17]。

        2 標簽噪聲的影響

        標簽噪聲在實際應用中廣泛存在。為了降低機器學習算法的部署成本、保障算法的穩(wěn)定性,研究者不得不研究標簽噪聲對分類學習算法的影響。首先,標簽噪聲會嚴重影響分類學習算法的性能。例如,在RCN或CCN情形下,文獻[18-19]從理論角度證明了線性分類器及二次型分類器會受到標簽噪聲的影響。類似地,Okamoto等人[20]證明了k-NN分類器同樣受標簽噪聲影響。

        此外,從實驗角度來講,決策樹[2]、支持向量機[21]、AdaBoost等方法[22]效果也會受標簽噪聲的負面影響。近年來,隨著深度學習算法的廣泛應用,標簽噪聲對深度模型的影響也受到了廣泛的關(guān)注。例如,Zhang等人[23]發(fā)現(xiàn)深度模型可以擬合隨機標簽,即深度模型自身不具有區(qū)分正誤標簽樣本的能力。基于其結(jié)果,文獻[24-25]從實驗角度提出了深度模型的記憶/泛化性質(zhì)。

        其次,標簽噪聲會導致分類器需要更多的訓練樣本才能達到指定的性能指標[16, 26]。類似地,有標簽噪聲的訓練數(shù)據(jù)會導致目標分類器模型復雜度大大增加[2, 27]。Dawid 等人[9]則指出標簽噪聲下觀測的類別頻率可能會改變。舉例來說,在醫(yī)學研究中,醫(yī)學研究者通常很關(guān)注某種疾病的發(fā)病率,但是發(fā)病率有很大可能性被標簽噪聲影響。最后,對于一些其他的任務,例如,特征選擇[28]以及特征排序[29]等也受標簽噪聲的嚴重影響。

        3 標簽噪聲問題分類

        為了能夠從理論層面分析標簽噪聲對各種分類器/分類算法的影響,研究者通常會假設標簽噪聲的生成過程,并據(jù)此設計相應的噪聲魯棒算法。

        3.1 隨機標簽噪聲(RCN)

        RCN假設噪聲標簽的生成過程是完全隨機的,標簽噪聲與真實標簽或者實例均不相關(guān)。例如,在眾包場景下,部分沒有責任心的標注員會對數(shù)據(jù)胡亂標注,得到的標簽就是完全隨機的。該設定較為簡單,相應的研究工作也比較徹底。

        針對RCN,研究者主要關(guān)注常用損失函數(shù)的固有魯棒性,或如何設計新的RCN魯棒損失函數(shù)。在理論上,文獻[30]證明了0-1損失函數(shù)自身對RCN問題魯棒,而使用交叉熵損失函數(shù)(cross entropy loss)[31]和合頁損失函數(shù)(hinge loss)[32]得到的分類器將明顯受到標簽噪聲的負面影響(見圖2)。此外,基于無偏估計的思想,Ghosh等人[31]提出損失函數(shù)對RCN問題魯棒的充分條件: 對稱條件(symmetric condition)。

        基于此,為得到RCN問題下的魯棒分類器,一般建議在二分類問題下使用非合頁損失函數(shù)(unhinged loss)[33]、斜坡?lián)p失函數(shù)(ramp loss)[30]或S型損失函數(shù)(sigmoid loss)[30];在多分類問題下使用平均絕對誤差(mean absolute error)[31]作為損失函數(shù)。值得注意的是,對于C類分類問題,上文所述損失函數(shù)對RCN問題魯棒的充要條件是訓練數(shù)據(jù)噪聲率小于1-1C。另外,從優(yōu)化的角度來講,上文所述的許多損失函數(shù)實際上難以訓練 [34],例如,0-1損失函數(shù)和斜坡?lián)p失函數(shù)。

        近期,Zhang等人[34]提出了截斷的Lq損失(Truncatedloss)。Lq損失函數(shù)可以看作平均絕對誤差和交叉熵損失的一般化,因此, 一定程度上同時繼承了平均絕對損失對RCN問題固有的魯棒性和交叉熵損失函數(shù)收斂速度快的特點。此外,該方法建議在訓練過程中動態(tài)地剔除交叉熵損失值較大的樣本(即損失截斷),以此得到更加緊湊的收斂性上界保證。與其他RCN損失函數(shù)相比,該方法在理論層面上對數(shù)據(jù)噪聲的類型(即RCN和CCN)要求更松馳,可以容忍更嚴重的噪聲數(shù)據(jù)比例。然而,該方法估算誤差上界并不緊湊,且本身受噪聲數(shù)據(jù)比例和超參影響。

        3.2 類相關(guān)標簽噪聲(CCN)

        CCN假設觀測的噪聲標簽與潛在真實標簽相關(guān),但與實例特征本身無關(guān)。相較于RCN問題,CCN的設定更符合真實數(shù)據(jù)集的情況。例如,對于圖片標注任務,由于主觀認知上的偏差,一個真實標簽為“狗”的圖片被誤標為“貓”的概率會遠遠大于誤標為“飛機”的概率。CCN問題的研究也較為徹底。研究者通常使用噪聲變換矩陣(noise transition matrix)來描述特定數(shù)據(jù)集或標注任務下的標簽噪聲性質(zhì)。該矩陣元素表示給定真實標簽情況下特定噪聲標簽出現(xiàn)的概率,即

        式中: T為噪聲變換矩陣,下標i, j分別為其第i行第j列的元素取值,通常假設Ti, i>Ti, j(i≠j,i, j)。

        給定噪聲變換矩陣和噪聲訓練樣本,研究者通常利用無偏估計策略來設計滿足風險一致性(risk-consistent)條件的損失函數(shù)。針對標簽噪聲問題,無偏估計策略研究在僅給定有標簽噪聲的訓練樣本條件下,如何估計其未知的無噪聲訓練樣本在特定損失函數(shù)下風險的期望(即無偏風險)。通常來講,給定原損失函數(shù)l(s, y),希望設計新的損失函數(shù)l~(s, y)以滿足:

        接著,可以通過最小化無偏風險

        來訓練對噪聲魯棒的目標分類器s(x)。該策略通常通過對原損失函數(shù)的重加權(quán)(reweighting)方法來實現(xiàn)。例如,文獻[35]提出在給定噪聲變換矩陣和噪聲數(shù)據(jù)分布條件下實例相關(guān)權(quán)重的計算方法;文獻[36]將該策略擴展到多分類問題下,然而需要使用目標分類器預測概率(干凈數(shù)據(jù)分布)而非噪聲數(shù)據(jù)分布概率。為了避免對數(shù)據(jù)分布的依賴;文獻[33, 37]從噪聲生成正向/反向過程角度出發(fā)設計類相關(guān)的權(quán)重計算方法,并將方法應用到深度神經(jīng)網(wǎng)絡框架。此外,與上述方法不同,文獻[38]提出了基于數(shù)據(jù)清洗的標簽噪聲魯棒算法,證明了當數(shù)據(jù)分布滿足特定條件下清洗后數(shù)據(jù)相應風險的無偏一致性質(zhì)。雖然無偏估計方法流程簡單,但是僅適用于較溫和的噪聲條件和較簡單的分類器模型。

        此類方法估算誤差上界受到標簽噪聲程度的嚴重影響: 標簽噪聲越嚴重,估算誤差上界越大,甚至趨近于無窮。為此,研究者從分類器一致性(classifier-consistent)角度出發(fā)研究CCN問題下的標簽噪聲魯棒方法,此類算法需滿足:

        在標簽噪聲問題下,研究者通常使用噪聲變換矩陣污染目標分類器預測標簽概率,再使用噪聲標簽作為污染后預測標簽概率的優(yōu)化目標。該方法的一致性保證可以從概率論角度[39-40]和優(yōu)化角度[37]得以證明。與風險一致性方法不同,分類器一致性方法的估算誤差上界與標簽噪聲程度無關(guān)。不過從實驗結(jié)果來看,即使給出精確的噪聲變換矩陣,大噪聲數(shù)據(jù)訓練得到的分類器精度仍然很低。

        在實際應用中,還需要估計噪聲變換矩陣中元素的值。例如,文獻[33]中將噪聲變換矩陣中元素作為超參,并使用交叉驗證進行估計;文獻[37, 41]對部分噪聲標簽樣本重新標注,并使用這些準確標注后的樣本估算噪聲變換矩陣。另外,文獻[35,37]在噪聲標簽數(shù)據(jù)下訓練的分類器尋找“錨點”,若實例為“錨點”,其滿足:

        p(y=yi|x=xi)=1

        給定類別為j的“錨點”(yi=j),則可以直接估計噪聲變換矩陣中第j列元素。雖然該方法省去了調(diào)參或數(shù)據(jù)標注帶來的額外人力、物力成本,但是“錨點”并不總在數(shù)據(jù)集中存在。因此,文獻[38]首先利用噪聲數(shù)據(jù)訓練分類器,該分類器預測概率的排序被用于估算噪聲變換矩陣。在數(shù)據(jù)滿足可分條件的前提下,可以證明其估算噪聲變換矩陣的一致性。此外,即使在溫和的標簽噪聲條件下,估算噪聲變換矩陣中微小的誤差極有可能影響目標魯棒分類器的性能[41]。因此,一些文獻[36, 40, 42-43]建議使用聯(lián)合優(yōu)化技術(shù)(joint optimization)、交替優(yōu)化方法(alternating optimization)或EM算法在訓練目標分類器的同時,估算噪聲變換矩陣中元素的值。然而這種思路通常沒有嚴格的理論保障,且依賴參數(shù)初始化或特殊的正則化項以避免平凡解的出現(xiàn)。

        3.3 實例相關(guān)標簽噪聲(IDN)

        IDN假設噪聲標簽與實例本身相關(guān)。這種一般化的標簽噪聲問題通常難以建模,僅有的理論工作通常會對噪聲實例分布做出嚴格的限制。例如,文獻[44]假設任一實例標簽錯誤的概率有統(tǒng)一的上界;文獻[45]假設離決策邊界(decision boundary)越近的實例越容易錯分。

        這些假設限制了其實際工程中的應用,因此,一些研究試圖在深度學習框架下設計啟發(fā)式算法來識別/修正潛在的錯誤標簽。這些方法通常不對標簽噪聲的生成過程做出假設,然而通常會隱式地處理實例相關(guān)的標簽噪聲。

        一些文獻嘗試為每個訓練樣本賦予一個權(quán)重,該權(quán)重在訓練過程中反映了學習算法對相應樣本的重視程度。通常來講,某一實例權(quán)重越大,該實例的標簽正確的可能性越大。權(quán)重計算的方法可以基于額外的無偏干凈數(shù)據(jù)。例如,文獻[46]利用有準確標注的噪聲數(shù)據(jù)訓練額外的網(wǎng)絡模塊,用于預測訓練樣本標簽正確的概率;文獻[47-48]在嵌入空間(embedding space)下計算有標簽噪聲的訓練數(shù)據(jù)和干凈數(shù)據(jù)間的歐式距離或余弦相似度,并賦予小距離/大相似度的實例更大的權(quán)重;文獻[49]利用隨機梯度下降(SGD)優(yōu)化算法給出分類器在噪聲數(shù)據(jù)下參數(shù)的更新方向,并根據(jù)更新后分類器在干凈數(shù)據(jù)下的表現(xiàn)對更新方向進行加權(quán)。

        權(quán)重設計方法也可以不利用額外干凈數(shù)據(jù)。例如,文獻[50]使用基于密度的無監(jiān)督聚類算法來測量每個訓練樣本的復雜度,然后對簡單樣本賦予較小的權(quán)重,對復雜樣本賦予較大的權(quán)重;文獻[46, 51]假設損失值較小的樣本標簽更有可能是正確的,據(jù)此賦予損失值較小的樣本以較大的權(quán)重。

        值得注意的是,上述加權(quán)方法可以看作是數(shù)據(jù)清洗方法[52-54]的一般化,因此,此類算法或多或少存在數(shù)據(jù)分布偏差(distribution bias)的問題。其一,某些樣本的標簽本身正確,然而對于優(yōu)化器/分類器來講,難以訓練的樣本(例如,處于數(shù)據(jù)分布的決策邊界附近)也可能被賦予較小權(quán)重甚至被直接刪除,顯然這會嚴重影響分類器的泛化能力。其二,即使權(quán)重的計算正確,在標簽噪聲較為嚴重的情況下,大量的樣本在訓練過程中幾乎不起作用(例如,錯誤標簽樣本權(quán)重設為零)。

        為此,許多方法嘗試是否可以直接預測真實標簽,其通常利用深度神經(jīng)網(wǎng)絡的泛化/記憶性質(zhì)。例如,文獻[24]指出,深度神經(jīng)網(wǎng)絡在訓練過程前期主要嘗試學習抽象的/一般化的概念,而在訓練過程后期會嘗試記住每一個訓練樣本的輸出結(jié)果;文獻[25]的實驗結(jié)果表明,在學習率足夠大時,深度神經(jīng)網(wǎng)絡對標簽噪聲有一定的抵抗能力。

        據(jù)此,針對每個訓練樣本,文獻[55]融合分類器的預測標簽和原始噪聲標簽作為優(yōu)化目標;文獻[56]在緩存訓練過程中對于每個訓練樣本分類器預測標簽,并且使用超參從預測標簽均值中學習和從原始噪聲標簽中學習進行權(quán)衡;文獻[57]將真實標簽看成隨機變量,在模型訓練過程中進行優(yōu)化,并且作為優(yōu)化目標。另一些方法嘗試利用額外的干凈數(shù)據(jù)對噪聲標簽進行修正。例如,文獻[58]在小規(guī)模干凈數(shù)據(jù)下訓練額外的分類器模型,該分類器的預測標簽和原始噪聲標簽融合用于大規(guī)模噪聲數(shù)據(jù)下對噪聲標簽的修正;文獻[59]假設預先可以得到部分有重新標注的噪聲樣本,并且利用額外的殘差網(wǎng)絡模塊學習噪聲標簽到干凈標簽的映射。與上述方法不同,文獻[60]針對具體任務引入業(yè)務相關(guān)的先驗知識對噪聲標簽進行修正。

        此類方法可以避免加權(quán)方法中數(shù)據(jù)分布偏差的問題。然而對于原本正確的標簽,上述方法仍然會對其標簽進行修正。這會導致原本正確的標簽質(zhì)量有所下降,進而影響最終分類器的性能。為此,一些方法嘗試從圖論的角度出發(fā),通過探索拉普拉斯矩陣所表示的實例間鄰接關(guān)系來設計標簽噪聲的清洗方法[41]或修正策略[61]。

        3.4 小結(jié)

        本節(jié)從標簽噪聲的生成過程出發(fā),分別討論了隨機標簽噪聲(RCN)、類相關(guān)標簽噪聲(CCN)以及實例相關(guān)標簽噪聲(IDN),對每類標簽噪聲解決方案做了詳細闡述并分析了其優(yōu)缺點。具體來說,對于RCN,關(guān)注點在于分析RCN損失函數(shù)的固有魯棒性;對于CCN,關(guān)注點在于設計無偏估計策略進而對損失函數(shù)重加權(quán),其中一個比較重要的參數(shù)是噪聲轉(zhuǎn)換矩陣,該參數(shù)可以通過交叉驗證、數(shù)據(jù)重標注等一系列方法進行估計;對于IDN,關(guān)注點在于對每個訓練樣本加權(quán),從而反映學習算法對不同樣本的重視程度。此外,還有一些方法借助小規(guī)模干凈數(shù)據(jù)輔助模型訓練,或是采用圖論的方法進行數(shù)據(jù)清洗等。圖3詳細展示了本節(jié)所討論的標簽噪聲前沿方法。

        4 發(fā)展趨勢與展望

        4.1 發(fā)展趨勢

        關(guān)于標簽噪聲學習的發(fā)展趨勢,本文對近五年(2015-2019年)發(fā)表在人工智能與機器學習相關(guān)的頂級會議(NeurIPS,ICML,AAAI,IJCAI,CVPR)上的論文進行調(diào)研,統(tǒng)計分析了研究標簽噪聲的相關(guān)論文,統(tǒng)計結(jié)果如表1所示。

        近5年來,共有182篇關(guān)于標簽噪聲學習的論文發(fā)表在上述關(guān)于機器學習的頂級國際會議中,統(tǒng)計調(diào)查后發(fā)現(xiàn):

        (1) 總體而言,標簽噪聲學習是當前機器學習以及人工智能領(lǐng)域的一個研究熱點。關(guān)于標簽噪聲學習的論文在2015-2017年每個學術(shù)會議僅有屈指可數(shù)的幾篇,在2018年有38篇,但在2019年卻翻倍增長到了75篇。

        (2) 關(guān)于標簽噪聲學習的研究呈現(xiàn)出快速增長趨勢,且增長速度越來越快。2015-2017年僅有少量的關(guān)于標簽噪聲學習的研究,但隨后每年以相對于上一年成倍的速度增長。2019年關(guān)于標簽噪聲學習的研究已經(jīng)達到了75篇??梢灶A測,隨后幾年關(guān)于標簽噪聲學習的研究會越來越多。

        (3) 上述在人工智能頂級會議各大機器學習的論文中,既包含了理論又包含了應用,每年關(guān)于標簽噪聲學習的研究論文在理論和應用上分布都比較均勻,體現(xiàn)了標簽噪聲學習的理論研究價值和實際應用價值,進而從側(cè)面體現(xiàn)了標簽噪聲學習的重要性。

        4.2 展望

        監(jiān)督學習算法在工程領(lǐng)域和理論層面都取得了豐碩的成果。然而,此類算法需要強監(jiān)督信息的支持,例如,有高質(zhì)量標簽的訓練樣本。但是在實際工程應用中,高質(zhì)量標簽難以獲取或成本較高。

        根據(jù)標簽噪聲的生成方式,本文依次介紹了處理隨機標簽噪聲、類相關(guān)標簽噪聲、實例相關(guān)標簽噪聲三種問題的前沿方法。雖然這些方法取得了一定的進展,但是仍存在許多問題。

        (1) 本文介紹方法通常僅在標簽噪聲程度較為溫和的條件下生效。當標簽錯誤數(shù)據(jù)規(guī)模接近或大于正確數(shù)據(jù)規(guī)模時,多數(shù)算法無法從訓練樣本中學習正確的數(shù)據(jù)分布模式。此外,在理論層面下許多一致性方法在極端噪聲情形下泛化能力極差,甚至估算誤差上界可能趨近于無窮,然而在實際應用中,極端標簽噪聲經(jīng)常出現(xiàn)。因此,如何處理極端情形下的標簽噪聲問題值得深入研究。

        (2) 本文介紹的三種標簽噪聲形式并不能包含真實數(shù)據(jù)下的所有可能情況。一方面,噪聲的來源可能不唯一,真實噪聲標簽數(shù)據(jù)中的噪聲形式可能是隨機標簽噪聲、類相關(guān)標簽噪聲和實例相關(guān)標簽的混合。另一方面,特別是基于網(wǎng)絡爬蟲等技術(shù)的標簽生成方法存在開集問題。即部分訓練樣本的真實標簽不在給定標簽空間內(nèi)。

        (3) 本文介紹的標簽噪聲處理方法通常隱式地假設分類器模型有一定識別噪聲數(shù)據(jù)的能力,然而當分類器所在假設空間足夠大時,最優(yōu)分類器可能直接學習噪聲標簽。例如,分類器/風險一致性方法和重加權(quán)方法。一個十分有潛力的替代方法是對數(shù)據(jù)分布作出假設,然而此類型的已有方法太過簡單且不具有一般性。如何對數(shù)據(jù)分布做出一般化假設,并據(jù)此設計標簽噪聲魯棒算法是值得深入思考的問題。

        (4) 更多標簽噪聲問題的應用場景還有待探索。標簽噪聲問題在實際應用場景中廣泛存在,本文討論了許多處理標簽噪聲的前沿算法,它們在醫(yī)療、交通、金融等領(lǐng)域中已經(jīng)取得了不錯的表現(xiàn)。接下來,探索和發(fā)揮標簽噪聲魯棒算法在軍事、材料、航空航天等關(guān)鍵領(lǐng)域的作用是標簽噪聲學習的一個重要研究方向。

        參考文獻:

        [1] Hickey R J. Noise Modelling and Evaluating Learning from Examples[J]. Artificial Intelligence, 1996, 82(1-2): 157-179.

        [2] Quinlan J R. Induction of Decision Trees[J]. Machine Learning, 1986, 1(1): 81-106.

        [3] Zhu X Q, Wu X D. Class Noise vs. Attribute Noise: A Quantitative Study[J]. Artificial Intelligence Review, 2004, 22(3): 177-210.

        [4] Wu X D. Knowledge Acquisition from Databases[M]. United States: Greenwood Publishing Group Inc., 1995.

        [5] Frénay B, Verleysen M. Classification in the Presence of Label Noise: A Survey[J]. IEEE Transactions on Neural Networks and Learning Systems, 2014, 25(5): 845-869.

        [6] Frénay B, Kabán A. A Comprehensive Introduction to Label Noise[C]∥ European Symposium on Artificial Neural Networks, Computational Intelligence and Machine Learning,Bruge, Belgium,2014.

        [7] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.

        [8] Brazdil P, Clark P. Learning from Imperfect Data[M]. Machine Learning, Meta-Reasoning and Logics, Boston: Springer, 1990: 207-232.

        [9] Dawid A P, Skene A M. Maximum Likelihood Estimation of Observer Error-Rates Using the EM Algorithm[J]. Journal of the Royal Statistical Society: Series C (Applied Statistics), 1979, 28(1): 20-28.

        [10] Smyth P, Fayyad U, Burl M, et al. Inferring Ground Truth from Subjective Labelling of Venus Images [C]∥ Proceedings of the 7th International Conference on Neural Information Processing Systems, 1994: 1085-1092.

        [11] Malossini A, Blanzieri E, Ng R T. Detecting Potential Labeling Errors in Microarrays by Data Perturbation[J]. Bioinformatics, 2006, 22(17): 2114-2121.

        [12] Kovashka A, Russakovsky O,F(xiàn)ei-Fei L, et al. Crowdsourcing in Computer Vision[J]. Foundations and Trends in Computer Graphics and Vision, 2016, 10(3): 177-243.

        [13] Li W, Wang L M, Li W, et al. WebVision Database: Visual Learning and Understanding from Web Data[EB/OL]. (2017-08-09) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1708.02862.pdf.

        [14] Kittur A, Chi E H, Suh B. Crowdsourcing User Studies with Mechanical Turk[C]∥ Proceedings of the SIGCHI Conference on Human Factors in Computing Systems,2008: 453-456.

        [15] Xiao T, Xia T, Yang Y, et al. Learning from Massive Noisy Labeled Data for Image Classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015: 2691-2699.

        [16] Angluin D, Laird P. Learning from Noisy Examples[J]. Machine Learning, 1988, 2(4): 343-370.

        [17] Northcutt C G, Jiang L, Chuang I L. Confident Learning: Estimating Uncertainty in Dataset Labels[EB/OL].(2019- 10-31)[2020-01-15]. https:∥arxiv.sou.top/pdf/1911.00068.pdf.

        [18] Heskes T. The Use of Being Stubborn and Introspective[M].Studies in Cognitive Systems,Boston: Springer, 1994:1184-1200.

        [19] Lachenbruch P A. Note on Initial Misclassification Effects on the Quadratic Discriminant Function[J]. Technometrics, 1979, 21(1): 129-132.

        [20] Okamoto S, Nobuhiro Y. An Average-Case Analysis of the K-Nearest Neighbor Classifier for Noisy Domains[C]∥Proceedings of 15th International Joint Conferences on Artificial Intelligence,1997: 238-245.

        [21] Nettleton D F, Orriols-Puig A, Fornells A. A Study of the Effect of Different Types of Noise on the Precision of Supervised Learning Techniques[J]. Artificial Intelligence Review, 2010, 33(4): 275-306.

        [22] Dietterich T G. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization[J]. Machine Learning, 2000, 40(2): 139-157.

        [23] Zhang C Y, Bengio S, Hardt M, et al. Understanding Deep Learning Requires Rethinking Generalization[C]∥ International Conference on Learning Representation (ICLR), Toulon, France, 2017.

        [24] Arpit D, Jastrzebski S, Ballas N, et al. A Closer Look at Memorization in Deep Networks[C]∥Proceedings of the 34th International Conference on Machine Learning, 2017: 233-242.

        [25] Krueger D, Ballas N, Jastrzebski S, et al. Deep Nets Dont Learn via Memorization[C]∥International Conference on Learning Representation(ICLR), Toulon, France, 2017.

        [26] Aslam J A, Decatur S E. On the Sample Complexity of Noise-Tolerant Learning[J]. Information Processing Letters, 1996, 57(4): 189-195.

        [27] Brodley C E, Friedl M A. Identifying Mislabeled Training Data[J]. Journal of Artificial Intelligence Research, 1999, 11: 131-167.

        [28] Frénay B, Doquire G, Verleysen M. Feature Selection with Imprecise Labels: Estimating Mutual Information in the Presence of Label Noise[J]. Computational Statistics & Data Analysis, 2014, 71: 832-848.

        [29] Shanab A A, Khoshgoftaar T M, Wald R. Robustness of Thre-shold-Based Feature Rankers with Data Sampling on Noisy and Imbalanced Data[C]∥Proceedings of Twenty-Fifth International Florida Artificial Intelligence Research Society Conference, 2012.

        [30] Ghosh A, Manwani N, Sastry P S. Making Risk Minimization To-lerant to Label Noise[J]. Neurocomputing, 2015, 160: 93-107.

        [31] Ghosh A, Kumar H, Sastry P S. Robust Loss Functions under Label Noise for Deep Neural Networks[C]∥ Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence,2017.

        [32] Manwani N, Sastry P S. Noise Tolerance under Risk Minimization[J]. IEEE Transactions on Cybernetics, 2013, 43(3): 1146-1151.

        [33] Natarajan N, Dhillon I S, Ravikumar P K, et al. Learning with Noisy Labels[C]∥ Proceedings of the International Conference on Neural Information Processing Systems(NIPS), 2013: 1196-1204.

        [34] Zhang Z L, Sabuncu M. Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels[C]∥ Proceedings of theInternational Conference on Neural Information Processing Systems(NIPS),2018: 8778-8788.

        [35] Liu T L, Tao D C. Classification with Noisy Labels by Importance Reweighting[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(3): 447-461.

        [36] Xia X B, Liu T L, Wang N N, et al. Are Anchor Points Really Indispensable in Label-Noise Learning? [C]∥ Conference on Neural Information Processing Systems (NIPS), Vancouver, Canada, 2019.

        [37] Patrini G, Rozza A, Krishna Menon A, et al. Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1944-1952.

        [38] Northcutt C G, Wu T L, Chuang I L. Learning with Confident Examples: Rank Pruning for Robust Classification with Noisy Labels[EB/OL]. (2017-08-09)[2020-01-15]. https:∥arxiv.xilesou.top/pdf/1705.01936.pdf.

        [39] Yu X Y, Liu T L, Gong M M, et al. Learning with Biased Complementary Labels[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 68-83.

        [40] Goldberger J, Ben-Reuven E. Training Deep Neural- Networks Using a Noise Adaptation Layer[C]∥International Conference on Learning Representation (ICLR), Toulon, France, 2017.

        [41] Wei Y, Gong C, Chen S, et al. Harnessing Side Information for Classification under Label Noise[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019.

        [42] Jindal I, Nokleby M, Chen X. Learning Deep Networks from Noisy Labels with Dropout Regularization[C]∥ IEEE International Conference on Data Mining (ICDM), Barcelona, Spain,2016: 967-972.

        [43] Khetan A, Lipton Z C, Anandkumar A. Learning from Noisy Singly-Labeled Data[EB/OL]. (2017-12-13)[2020- 01-15]. https:∥arxiv.xilesou.top/pdf/1712.04577.pdf.

        [44] Cheng J C, Liu T L, Ramamohanarao K, et al. Learning with Bounded Instance-and Label-Dependent Label Noise [EB/OL]. (2017-09-12) [2020-01-15]. https:∥arxiv.xilesou. top/ pdf/ 1709.03768.pdf.

        [45] Menon A K, Van Rooyen B, Natarajan N. Learning from Binary Labels with Instance-Dependent Corruption [EB/OL]. (2016-05-04) [2020-01-15]. https:∥arxiv.org/pdf/1605.00751.pdf.

        [46] Jiang L, Zhou Z Y, Leung T, et al. MentorNet: Learning Data-Driven Curriculum for Very Deep Neural Networks on Corrupted Labels[C]∥International Conference on Machine Learning(ICML), Stockholm, Sweden, 2018.

        [47] Lee K H, He X D, Zhang L, et al. CleanNet: Transfer Learning for Scalable Image Classifier Training with Label Noise[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5447-5456.

        [48] Wang Y S, Liu W Y, Ma X J, et al. Iterative Learning with Open-Set Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 8688- 8696.

        [49] Ren M Y, Zeng W Y, Yang B, et al. Learning to Reweight Examples for Robust Deep Learning [EB/OL]. (2018-06-08) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/1803.09050.pdf.

        [50] Guo S, Huang W L, Zhang H Z, et al. Curriculumnet: Weakly Supervised Learning from Large-Scale Web Images[C]∥Proceedings of the European Conference on Computer Vision (ECCV), 2018: 135-150.

        [51] Han B, Yao Q M, Yu X R, et al. Co-Teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels[C]∥ Conference on Neural Information Processing Systems(NIPS), Montreal ,Canada,2018: 8527-8537.

        [52] Angelova A, Abu-Mostafam Y, Perona P. Pruning Training Sets for Learning of Object Categories[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2005: 494-501.

        [53] Sun J W, Zhao F Y, Wang C J, et al. Identifying and Correcting Mislabeled Training Instances[C]∥Future Generation Communication and Networking (FGCN), Jeju-Island, Korea, 2007: 244-250.

        [54] Zhu X Q, Wu X D, Chen Q J. Eliminating Class Noise in Large Datasets[C]∥Proceedings of the International Conference on Machine Learning (ICML), 2003: 920-927.

        [55] Reed S, Lee H, Anguelov D, et al. Training Deep Neural Networks on Noisy Labels with Bootstrapping [EB/OL]. (2014-12-20) [2020-01-15]. https:∥arxiv.xilesou.top/pdf/ 1412.6596.pdf.

        [56] Tanaka D, Ikami D, Yamasaki T, et al. Joint Optimization Framework for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 5552-5560.

        [57] Yi K, Wu J X. Probabilistic End-to-End Noise Correction for Learning with Noisy Labels[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2019.

        [58] Li Y C, Yang J C, Song Y L, et al. Learning from Noisy Labels with Distillation[C]∥Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2017: 1910-1918.

        [59] Veit A, Alldrin N, Chechik G, et al. Learning from Noisy Large-Scale Datasets with Minimal Supervision[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017: 839-847.

        [60] Gao B B, Xing C, Xie C W, et al. Deep Label Distribution Learning with Label Ambiguity[J]. IEEE Transactions on Image Processing, 2017, 26(6): 2825-2838.

        [61] Gong C, Zhang H M, Yang J, et al. Learning with Inadequate and Incorrect Supervision[C]∥IEEE International Conference on Data Mining (ICDM), New Orleans, LA, USA, 2017: 889-894.

        A Survey of Label Noise Robust Learning Algorithms

        Gong Chen 1,2*,Zhang Chuang 1,2,Wang Qizhou 1,2

        (1. Key Lab of Intelligent Perception and Systems for High-Dimensional Information of Ministry of Education, School of

        Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;

        2. Jiangsu Key Lab of Image and Video Understanding for Social Security, School of Computer Science and

        Engineering, Nanjing University of Science and Technology,Nanjing 210094,China)

        Abstract:

        In the field of machine learning, supervised learning algorithm has achineved fruitful results both in theory and engineering application.

        However, such fully supervised learning algorithms are severely dependent on the label quality of the training sample, and reliably labeled data are often expensive and time consuming to obtain in real-world applications. Some surrogate approaches such as web crawler and crowd-sourcing methods, are widely used to collect training data. Unfortunately, there are usually lots of misannotations (i.e. label noise) in the data obtained by these surrogate methods, which result in many potential negative consequences. Therefore, the research on label noise robust learning algorithm is of great significance in promoting the application of machine learning engineering and reducing the deployment cost of machine learning algorithm. In this paper, the latest research progress of label noise robust learning algorithm is comprehensively reviewed. The generation, influence and classification of label noise are summarized in detail. The processing methods of each kind of label noise are introduced, and the advantages and disadvantages of each kind of processing methods are analyzed.

        Key words: artificial intelligence;machine learning;weakly supervised learning;label noise;deep learning;robust learning algorithm

        收稿日期: 2020-01-15

        基金項目:國家自然科學基金項目(61973162);江蘇省自然科學基金項目(BK20171430)

        作者簡介: 宮辰(1988- ),男,教授,吳文俊人工智能優(yōu)秀青年獎獲得者, 研究方向是弱監(jiān)督機器學習。

        E-mail: chen.gong@njust.edu.cn

        引用格式: 宮辰,張闖,王啟舟.標簽噪聲魯棒學習算法研究綜述[ J].

        航空兵器,2020, 27( 3): 20-26.

        Gong Chen, Zhang Chuang, Wang Qizhou. A Survey of Label Noise Robust Learning Algorithms[ J]. Aero Weaponry,2020, 27( 3): 20-26.( in Chinese)

        猜你喜歡
        機器學習深度學習人工智能
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
        基于機器學習的圖像特征提取技術(shù)在圖像版權(quán)保護中的應用
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
        基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
        時代金融(2016年27期)2016-11-25 17:51:36
        前綴字母為特征在維吾爾語文本情感分類中的研究
        科教導刊(2016年26期)2016-11-15 20:19:33
        深度學習算法應用于巖石圖像處理的可行性研究
        軟件導刊(2016年9期)2016-11-07 22:20:49
        基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        日本av一区二区三区视频| 久久精品国产亚洲av大全相关| 中文字幕亚洲区第一页| 亚洲av极品尤物不卡在线观看 | 色欲人妻aaaaaaa无码| 337人体做爰大胆视频| 日韩一区二区不卡av| 亚洲一区二区岛国高清| 亚洲乱码无人区卡1卡2卡3| 欧美日韩不卡合集视频| 91人妻无码成人精品一区91| 亚洲中文字幕亚洲中文| 日韩日韩日韩日韩日韩日韩日韩| 国产精品美女主播一区二区| 激情五月我也去也色婷婷| 影音先锋男人av鲁色资源网| 婷婷四房播播| 日本黄色一区二区三区视频| 蜜桃91精品一区二区三区| 少妇无码av无码专线区大牛影院| 少妇高潮尖叫黑人激情在线| 偷亚洲偷国产欧美高清| 偷拍一区二区三区黄片| 大陆国产乱人伦| 国产嫖妓一区二区三区无码| 狠狠色欧美亚洲综合色黑a| 手机在线免费观看av不卡网站 | 亚洲国产另类久久久精品小说| 日韩成人高清不卡av| 成人欧美一区二区三区在线| 无码少妇一区二区三区芒果 | 国产精品黄色av网站| 18禁免费无码无遮挡不卡网站| 亚洲国产成人精品无码区99| 国内精品久久久久影院蜜芽 | 丝袜美腿高清在线观看| 女人被狂躁到高潮视频免费网站 | 日本二区三区在线免费| 丰满的人妻hd高清日本| 国产人成精品综合欧美成人| 99国产精品欲av麻豆在线观看|