摘要:在深度學(xué)習(xí)算法的使用過(guò)程中,樣本被正確標(biāo)注與否直接影響著深度學(xué)習(xí)模型的構(gòu)建與學(xué)習(xí)的效果。這些算法標(biāo)注數(shù)據(jù)的過(guò)程是一個(gè)高成本、費(fèi)精力的過(guò)程,并且在標(biāo)注數(shù)據(jù)的過(guò)程中由于受到各種主客觀因素的影響,往往會(huì)導(dǎo)致標(biāo)簽噪聲的產(chǎn)生,這種情況在模型實(shí)際應(yīng)用中非常常見。為了更好地研究和解決標(biāo)簽噪聲這類問(wèn)題,找到較為合理的模型標(biāo)簽噪聲解決方案,嘗試從深度學(xué)習(xí)的角度出發(fā),研究現(xiàn)有的標(biāo)簽噪聲學(xué)習(xí)算法有關(guān)文獻(xiàn),并將那些能讓標(biāo)簽噪聲被有效訓(xùn)練、合理消除的模型進(jìn)行更深入研究。
關(guān)鍵詞:深度學(xué)習(xí);標(biāo)簽噪聲;標(biāo)簽噪聲學(xué)習(xí)算法
一、前言
深度學(xué)習(xí)算法在許多領(lǐng)域中都有著廣泛運(yùn)用,當(dāng)下比較常見的應(yīng)用場(chǎng)景有文本分析、圖像識(shí)別等。在這些領(lǐng)域中去應(yīng)用深度學(xué)習(xí)算法,需要大量的數(shù)據(jù)支撐,因此實(shí)現(xiàn)深度學(xué)習(xí)算法的前提,是基于大數(shù)據(jù)。
在確定模型算法的前提下,對(duì)模型結(jié)果有關(guān)鍵影響的步驟是特征處理。由于現(xiàn)實(shí)中的數(shù)據(jù)往往比模型設(shè)計(jì)時(shí)采用的樣本數(shù)據(jù)更為復(fù)雜,許多算法模型一開始并不能完全滿足數(shù)據(jù)擬合或其他指標(biāo)的要求。運(yùn)用模型參數(shù)調(diào)參的方法或許可以提升預(yù)測(cè)的效果,但效果還是不如在模型初期就進(jìn)行特征處理。
深度學(xué)習(xí)算法在模型初期就對(duì)大量的數(shù)據(jù)集進(jìn)行了標(biāo)記,因此提升了準(zhǔn)確性,在模型預(yù)測(cè)方面具有較大的優(yōu)勢(shì)。但這類方法需要大量數(shù)據(jù)收集的操作,付出的時(shí)間成本較高。
相對(duì)節(jié)約時(shí)間的做法有構(gòu)建數(shù)據(jù)集、運(yùn)用眾包標(biāo)注和自動(dòng)標(biāo)注。但這類方法也存在一些弊端,即可能導(dǎo)致一些數(shù)據(jù)帶有標(biāo)簽噪聲,成為低質(zhì)量的數(shù)據(jù)。目前,有很多學(xué)者為了解決這一問(wèn)題,提出了使用深度學(xué)習(xí)模型去消除標(biāo)簽噪聲的方法,但生成的模型中對(duì)于噪聲的處理經(jīng)常存在過(guò)擬合的情況,導(dǎo)致模型應(yīng)用性較差,不便于進(jìn)一步推廣。
數(shù)據(jù)標(biāo)簽噪聲過(guò)多,對(duì)模型評(píng)價(jià)體系也有不良影響。在一些數(shù)據(jù)帶有噪聲的實(shí)驗(yàn)過(guò)程中,數(shù)據(jù)訓(xùn)練和驗(yàn)證會(huì)出現(xiàn)模型錯(cuò)誤的情況,因?yàn)闃?biāo)簽噪聲對(duì)分類器的準(zhǔn)確性有較大的影響。
針對(duì)上述問(wèn)題,本文將從以下幾個(gè)方面展開研究:
1.介紹標(biāo)簽噪聲產(chǎn)生的原因,包括人為因素、數(shù)據(jù)損壞和數(shù)據(jù)集不平衡等。例如,在人工標(biāo)注數(shù)據(jù)時(shí),由于主觀判斷不一致或者操作失誤,可能會(huì)導(dǎo)致標(biāo)簽錯(cuò)誤。而在數(shù)據(jù)傳輸或存儲(chǔ)過(guò)程中,可能出現(xiàn)數(shù)據(jù)損壞的情況,導(dǎo)致標(biāo)簽噪聲的產(chǎn)生。
2.思考如何通過(guò)深度學(xué)習(xí)算法來(lái)處理標(biāo)簽噪聲問(wèn)題,包括顯式處理方法和隱式處理方法,并且討論如何選擇合適的算法來(lái)處理標(biāo)簽噪聲,以及如何評(píng)估算法的性能。顯式處理方法通常包括數(shù)據(jù)清洗、重新標(biāo)注和噪聲魯棒性損失函數(shù)等。而隱式處理方法則包括基于樣本權(quán)重、基于模型選擇和基于集成學(xué)習(xí)等。
通過(guò)選擇算法來(lái)解決標(biāo)簽噪聲時(shí),需要考慮數(shù)據(jù)集大小、噪聲類型和比例、計(jì)算資源和時(shí)間限制等因素。此外,還需要根據(jù)實(shí)際應(yīng)用場(chǎng)景選擇合適的評(píng)估指標(biāo)??梢允褂脺?zhǔn)確率、召回率、F1值和AUC等指標(biāo),還可以通過(guò)交叉驗(yàn)證和模型選擇的方法來(lái)評(píng)估算法在不同數(shù)據(jù)集上的泛化能力。通過(guò)選擇合適的算法、進(jìn)行合理的評(píng)估,可以有效地消除標(biāo)簽噪聲對(duì)模型性能的影響。
二、標(biāo)簽噪聲的概述
(一)標(biāo)簽噪聲的產(chǎn)生
標(biāo)簽噪聲具有復(fù)雜性的特征,其產(chǎn)生主要受到如下幾種因素的影響:1.因?yàn)槿狈Τ渥愕臉?biāo)注信息,對(duì)類別數(shù)據(jù)不能更完整、全面的描述;2.由于低質(zhì)量數(shù)據(jù)的辨識(shí)度不高且逐漸降低,專家難以完成對(duì)標(biāo)簽的準(zhǔn)確標(biāo)注;3.由于數(shù)據(jù)編碼出現(xiàn)問(wèn)題、通信出現(xiàn)問(wèn)題,致使標(biāo)簽也出錯(cuò);4.主觀性差異因素影響,對(duì)于標(biāo)簽的標(biāo)注,因可靠標(biāo)簽需耗費(fèi)一定的時(shí)間和較多的成本,所以除了讓專家標(biāo)注之外,也會(huì)讓非專家標(biāo)注,而標(biāo)注人員不同,其標(biāo)記的結(jié)果也不同[1]。
(二)標(biāo)簽噪聲的類型
學(xué)習(xí)標(biāo)簽是具有挑戰(zhàn)性的,標(biāo)簽噪聲在數(shù)據(jù)特征、數(shù)據(jù)真實(shí)標(biāo)簽、標(biāo)簽特性等因素的相互作用下,能劃分為三種類型:隨機(jī)標(biāo)簽噪聲、類標(biāo)簽噪聲、實(shí)例相關(guān)標(biāo)簽噪聲。其中,隨機(jī)標(biāo)簽噪聲的依存關(guān)系復(fù)雜性比較小,實(shí)例相關(guān)標(biāo)簽噪聲的依存關(guān)系復(fù)雜性比較大。在這一關(guān)系前提下可明確與錯(cuò)誤標(biāo)簽的關(guān)系類型,錯(cuò)誤標(biāo)簽與實(shí)例相關(guān)標(biāo)簽噪聲、真實(shí)標(biāo)簽都是沒有關(guān)系的,錯(cuò)誤標(biāo)簽僅與真實(shí)標(biāo)簽有關(guān)系,錯(cuò)誤標(biāo)簽只與實(shí)例特征有關(guān)系[2]。
(三)標(biāo)簽噪聲的影響
在實(shí)際生活中,帶有標(biāo)簽噪聲的數(shù)據(jù)肯定是普遍存在的,如果對(duì)標(biāo)簽噪聲數(shù)據(jù)進(jìn)行直接運(yùn)用就會(huì)影響實(shí)驗(yàn),其所形成的影響可分為三種類型:第一,是所觀察的類別出現(xiàn)頻率波動(dòng)變化,比如標(biāo)簽噪聲影響了某種疾病的發(fā)病率。第二,是基于標(biāo)簽噪聲的分類方法降低了預(yù)測(cè)性能,比如標(biāo)簽噪聲影響了用于分類的線性分類器、kNN分類器,以及影響了決策樹、支持向量機(jī)等[3]。第三,是增加訓(xùn)練過(guò)程中的特征數(shù)、增加模型復(fù)雜度,例如標(biāo)簽噪聲會(huì)影響SVM算法中的支持向量數(shù),使結(jié)果呈現(xiàn)增長(zhǎng)趨勢(shì),也使得模型復(fù)雜化,為達(dá)到性能指標(biāo)要求需對(duì)標(biāo)簽噪聲展開更多訓(xùn)練。
在深度學(xué)習(xí)算法的經(jīng)典數(shù)據(jù)案例中,有一個(gè)名為CIFAR-100的數(shù)據(jù)樣例。這個(gè)數(shù)據(jù)包含40%的標(biāo)簽噪聲,我們可以通過(guò)這個(gè)數(shù)據(jù)的經(jīng)典圖例來(lái)了解標(biāo)簽噪聲對(duì)數(shù)據(jù)預(yù)測(cè)的影響。如圖1所示,左為訓(xùn)練集,右為測(cè)試集。其中的橙色曲線為無(wú)論數(shù)據(jù)存在噪聲與否都用神經(jīng)網(wǎng)絡(luò)算法進(jìn)行擬合的結(jié)果,而綠色曲線則是采用了一定正則化的結(jié)果,藍(lán)色曲線則是剔除了標(biāo)簽噪聲影響的干凈數(shù)據(jù)集的結(jié)果??梢钥吹剑谟?xùn)練集數(shù)據(jù)上,不管是否有標(biāo)簽噪聲,深度學(xué)習(xí)模型都可以給到很高的預(yù)測(cè)結(jié)果。但是在測(cè)試集中可以看到,對(duì)于存在標(biāo)簽噪聲的數(shù)據(jù),模型可推廣性是比較差的,準(zhǔn)確性不高,說(shuō)明存在過(guò)擬合。使用了正則化技術(shù)的模型雖然能做出一定提升,但是跟不含標(biāo)簽噪聲的數(shù)據(jù)結(jié)果相比還是存在一定差距。所以,除了做正則化改善標(biāo)簽噪聲問(wèn)題以外,應(yīng)該還需要一些其他的方法繼續(xù)提升。
三、標(biāo)簽噪聲學(xué)習(xí)算法
按照噪聲結(jié)構(gòu)的不同建模方式將標(biāo)簽噪聲處理方法分為兩類,一種是顯式處理,一種是隱式處理。
(一)顯式處理
顯式處理指的是采取某一手段完成噪聲建模,同時(shí)對(duì)模型的輸入流加以控制。在標(biāo)簽噪聲學(xué)習(xí)中,需先清理標(biāo)簽噪聲,將訓(xùn)練數(shù)據(jù)中標(biāo)記出錯(cuò)的示例進(jìn)行清除,進(jìn)行這一舉措的時(shí)間可在訓(xùn)練前或在訓(xùn)練主要模型時(shí)。對(duì)于噪聲的清理,其實(shí)有一種最為簡(jiǎn)單的方法,那就是將訓(xùn)練實(shí)例中分類器所錯(cuò)誤分類的直接刪除,但是這種方法會(huì)影響數(shù)據(jù)的完整性,導(dǎo)致產(chǎn)生數(shù)據(jù)缺少的問(wèn)題以及算法準(zhǔn)確性降低的問(wèn)題[4]。為此,許多學(xué)者還在不斷探究更加有效的噪聲清理方法。如有學(xué)者提出在噪聲清理過(guò)程中可采取噪聲投票,即對(duì)于實(shí)例的刪除征求全部學(xué)習(xí)者的意見,均同意時(shí)就可刪除,這樣能夠避免有些正確的實(shí)例被誤刪。還有學(xué)者提出將SLR與MLR問(wèn)題轉(zhuǎn)變?yōu)長(zhǎng)DL問(wèn)題,通過(guò)DLDL框架能夠進(jìn)行端到端的學(xué)習(xí)。這一框架對(duì)標(biāo)簽分布的學(xué)習(xí)是以標(biāo)簽歧義性為基礎(chǔ)的,通過(guò)特征學(xué)習(xí)、分類器學(xué)習(xí)中的深層ConvNet而實(shí)現(xiàn),其中ConvNet最后的全連接層激活函數(shù)的概率分布由如下公式計(jì)算得出:
通過(guò)θ的學(xué)習(xí)獲得標(biāo)簽分布y,當(dāng)訓(xùn)練集比較小時(shí),學(xué)習(xí)框架DLDL還能對(duì)過(guò)度擬合網(wǎng)絡(luò)實(shí)現(xiàn)規(guī)避,而其也存在不足,即其中的標(biāo)簽是不能更新的[5]。
(二)隱式處理
隱式處理指的是通過(guò)利用具有通用性的算法來(lái)將噪聲產(chǎn)生的不良影響消除掉,保持噪聲魯棒性需采取固有的噪聲容忍方式,對(duì)于隱式處理的應(yīng)用常見于框架風(fēng)險(xiǎn)比較小時(shí),其中損失函數(shù)會(huì)對(duì)風(fēng)險(xiǎn)的最小化程度產(chǎn)生影響。在很多研究中能夠發(fā)現(xiàn)訓(xùn)練過(guò)程中具有較好魯棒性的標(biāo)簽噪聲通常是損失函數(shù)得到較好的處理時(shí)。以二分類問(wèn)題為例,對(duì)稱表現(xiàn)噪聲、均勻標(biāo)簽噪聲在0-1損失情況下的魯棒性更好,在有關(guān)二分類問(wèn)題的研究中,常見的損失函數(shù)有斜坡?lián)p失函數(shù)、S型損失函數(shù)等。
四、算法選擇的考量
能不能直接進(jìn)行數(shù)據(jù)集的學(xué)習(xí)是受到多種因素影響的,根據(jù)對(duì)不同因素的考量,需選擇不同的模型。主要包括如下三種因素:
(一)數(shù)據(jù)集的大小
當(dāng)所收集的數(shù)據(jù)比較小的時(shí)候,一般需要繼續(xù)采集,采取有效的方式對(duì)數(shù)據(jù)進(jìn)行強(qiáng)化,如將數(shù)據(jù)旋轉(zhuǎn)、將新數(shù)據(jù)復(fù)制等。這樣可以大大地提升數(shù)據(jù)集訓(xùn)練的精準(zhǔn)性,在樣本量增加的基礎(chǔ)上獲得更好的訓(xùn)練結(jié)果。當(dāng)所收集的數(shù)據(jù)集是正常大小范疇的時(shí)候,則需多角度地進(jìn)行考量,從其他方面對(duì)標(biāo)簽噪聲學(xué)習(xí)進(jìn)行進(jìn)一步的分析,包括噪聲量的大小、學(xué)習(xí)任務(wù)難易程度等。
(二)噪聲量的大小
當(dāng)噪聲標(biāo)簽的規(guī)模比較大時(shí),模型的復(fù)雜性就會(huì)被提升,而模型的預(yù)測(cè)性就會(huì)被降低。譬如以分割醫(yī)學(xué)中的圖像任務(wù)為例,通常這類場(chǎng)景會(huì)較大程度地影響模型結(jié)果。通過(guò)經(jīng)典的MNIST數(shù)據(jù)也可以例舉噪聲標(biāo)簽比例與模型精度的關(guān)系,如圖2所示??梢钥吹剑S著數(shù)據(jù)中噪聲標(biāo)簽的比例不斷上升,到達(dá)一定程度時(shí)是會(huì)嚴(yán)重影響模型精度的。由于標(biāo)簽噪聲模型存在差異,因而在處理噪聲量時(shí)會(huì)表現(xiàn)出差異化的能力,如噪聲量較大,需先考慮以數(shù)據(jù)為基礎(chǔ)的標(biāo)簽噪聲學(xué)習(xí)算法,如標(biāo)簽修正、DivideMix學(xué)習(xí)策略、樣本重加權(quán)等。反之,噪聲量較小,則這些方法就不再適用,而需考慮以半監(jiān)督、損失為基礎(chǔ)的模型[6]。
(三)算法學(xué)習(xí)任務(wù)的困難度
針對(duì)困難樣本的學(xué)習(xí)是標(biāo)簽噪聲學(xué)習(xí)的難點(diǎn)之一??梢栽黾雍?jiǎn)單樣本在訓(xùn)練集中的占比,減少困難樣本的比例、增強(qiáng)對(duì)困難樣本的學(xué)習(xí)力度從而使得模型提高泛化能力。在模型訓(xùn)練的步驟中加大困難樣本的學(xué)習(xí)力度,離不開干凈驗(yàn)證集的輔助,還需要顧及模型和損失等。模型過(guò)程也可結(jié)合實(shí)際需要,選擇樣本重加權(quán)、刪除樣本等辦法對(duì)數(shù)據(jù)進(jìn)行處理。
五、算法評(píng)價(jià)
標(biāo)簽噪聲學(xué)習(xí)算法模型的評(píng)價(jià)可以從五個(gè)屬性方面進(jìn)行,包括:
(一)適配性
伴隨深度學(xué)習(xí)的研究發(fā)展,網(wǎng)絡(luò)結(jié)構(gòu)也在更新和發(fā)展,但前提是其能力可以滿足各式各樣的網(wǎng)絡(luò)結(jié)構(gòu)需要。這里指的是標(biāo)簽噪聲算法可以快速適應(yīng)適配最先進(jìn)的網(wǎng)絡(luò)體系結(jié)構(gòu)。如魯棒損失的適配性就比較高,能與各種網(wǎng)絡(luò)結(jié)構(gòu)相結(jié)合,使網(wǎng)絡(luò)性能得到提升,并使網(wǎng)絡(luò)結(jié)構(gòu)始終有魯棒性。
(二)訓(xùn)練損耗
硬件技術(shù)的升級(jí)是保障深度學(xué)習(xí)的關(guān)鍵。在網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練中,因訓(xùn)練方式不同,模型參數(shù)、模型輸出的過(guò)程會(huì)出現(xiàn)不同的顯存損耗、不同的時(shí)間計(jì)量成本。訓(xùn)練損耗是指讓標(biāo)簽噪聲算法的顯存損耗不會(huì)隨著訓(xùn)練而增加,也不會(huì)出現(xiàn)其他額外的計(jì)算成本,保持其魯棒性得到提升,以及算法效率得到提高。
(三)高噪聲
在實(shí)際應(yīng)用場(chǎng)景下噪聲率的分布是有不同的輕重分布占比的,對(duì)比不同程度的噪聲率,標(biāo)簽噪聲算法會(huì)表現(xiàn)出更強(qiáng)的噪聲魯棒性。這一屬性的含義是指利用標(biāo)簽噪聲算法可以有效地對(duì)抗強(qiáng)噪聲。
(四)超參數(shù)敏感性
超參數(shù)是在深度學(xué)習(xí)的控制訓(xùn)練中產(chǎn)生的,模型性能在很大程度上受到敏感超參數(shù)取值差異性的影響,需從實(shí)驗(yàn)中尋找最好的超參數(shù),對(duì)于模型而言非常關(guān)鍵,這就需要對(duì)差異化取值的超參數(shù)進(jìn)行有關(guān)敏感性的綜合考量。
(五)弱正則化
當(dāng)標(biāo)簽噪聲算法較為溫和時(shí),只能實(shí)現(xiàn)輕微噪聲的處理,如果是干凈標(biāo)簽的情況,反之會(huì)降低其性能,但并不會(huì)因沒有噪聲而很大程度上影響精度。此屬性是指在輕微噪聲情況下,標(biāo)簽噪聲算法應(yīng)該讓性能得到提高。以魯棒結(jié)構(gòu)為基礎(chǔ)的標(biāo)簽噪聲算法,在中小型數(shù)據(jù)集標(biāo)簽噪聲中是表現(xiàn)出魯棒性的,對(duì)于噪聲的抑制作用比較小,且其對(duì)真實(shí)世界輕微噪聲情況的處理能力還高于干凈標(biāo)簽情況下的能力。
基于這幾個(gè)屬性,不同算法之間有著明顯差異性,如魯棒結(jié)構(gòu)不支持適配性、高噪聲、超參數(shù)敏感性,僅支持弱正則化,對(duì)高噪聲不敏感,訓(xùn)練損耗為中度。模型正則化支持適配性、弱正則化,對(duì)高噪聲、超參數(shù)敏感性不敏感,訓(xùn)練損耗較少。元偽標(biāo)簽支持適配性、高噪聲,不支持超參數(shù)敏感性、弱正則化,訓(xùn)練損耗較多。標(biāo)簽平滑支持適配性、弱正則化,不支持高噪聲,對(duì)超參數(shù)敏感性不敏感,訓(xùn)練損耗較少。對(duì)抗訓(xùn)練支持適配性、高噪聲,不支持超參數(shù)敏感性、弱正則化,訓(xùn)練損耗較多等。
六、結(jié)語(yǔ)
標(biāo)簽噪聲算法在現(xiàn)階段研究中所提出的種類是比較多樣的,然而對(duì)于噪聲標(biāo)簽下的深入學(xué)習(xí)往往缺少全面性的研究,且在研究中也存在比較多的問(wèn)題。本文從標(biāo)簽噪聲是如何產(chǎn)生的開始、標(biāo)簽噪聲的類型與影響有哪些等問(wèn)題出發(fā)對(duì)其進(jìn)行概述,以及標(biāo)簽噪聲的學(xué)習(xí)算法、算法選擇考量、算法評(píng)價(jià)等多方面進(jìn)行了歸納與綜述,對(duì)于了解和提升標(biāo)簽噪聲算法具有一定的研究幫助。在這之后還需對(duì)標(biāo)簽噪聲這類問(wèn)題開展更加深入的研究、更多的實(shí)踐,通過(guò)更多實(shí)際的案例和數(shù)據(jù)進(jìn)行這類算法的優(yōu)化和實(shí)現(xiàn),讓噪聲結(jié)構(gòu)實(shí)現(xiàn)均衡分布。
參考文獻(xiàn)
[1]佟強(qiáng),刁恩虎,李丹,等.分類任務(wù)中標(biāo)簽噪聲的研究綜述[J].科學(xué)技術(shù)與工程,2022,22(31):13626-13635.
[2]汪敏,伍文靜,劉瀚陽(yáng),等.噪聲標(biāo)簽識(shí)別與糾正的置信度預(yù)測(cè)方法[J].西北大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,52(05):857-867.
[3]Jiang Runqing,Yan Yan,Xue JingHao,Wang Biao,Wang Hanzi. When Sparse Neural Network Meets Label Noise Learning: A Multistage Learning Framework.[J]. IEEE transactions on neural networks and learning systems,2022,PP.
[4]Zhang Chuang,Shen Li,Yang Jian,Gong Chen. Towards harnessing feature embedding for robust learning with noisy labels[J]. Machine Learning,2022,111(9).
[5]伏博毅,彭云聰,藍(lán)鑫,等.基于深度學(xué)習(xí)的標(biāo)簽噪聲學(xué)習(xí)算法綜述[J/OL].計(jì)算機(jī)應(yīng)用:1-14[2023-03-18].
[6]杜玉.帶噪聲標(biāo)簽圖像分類問(wèn)題研究[D].桂林:桂林電子科技大學(xué),2022.
作者單位:中國(guó)人民大學(xué)
■ 責(zé)任編輯:尚丹