中圖分類號:TP183文獻(xiàn)標(biāo)志碼:A
Abstract: Datasets collected and annotated manually are inevitably contaminated with label noise, which negatively affects the generalization ability of image classification models. Therefore, designing robust classification algorithms for datasets with label noise has become a hot research topic.The main issue with existing methods is that self-supervised learning pre-training is timeconsuming and still includes a large number of noisy samples after sample selection. This paper introduces the AllMix model, which reduces the time required for pre-training. Based on the DivideMix model, the AllMatch training strategy replaces the original MixMatch training strategy. The AllMatch training strategy uses focal loss and generalized cross-entropy loss to optimize the loss calculation for labeled samples. Additionally, it introduces a high-confidence sample semisupervised learning module and a contrastive learning module to fully learn from unlabeled samples.Experimental results show that on the CIFAR1O dataset, the existing pre-trained label noise classification algorithms are 0.7%,0.7% ,and 5.0% higher in performance than those without pre-training for 50% , 80% ,and 90% symmetric noise ratios, respectively. On the CIFAR100 dataset with 80% and 90% symmetric noise ratios, the model performance is 2.8% and 10.1% (204號 higher, respectively.
Keywords: label noise learning; image classification; semi-supervised learning; contrastive learning
引言
卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)等深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于圖像分類領(lǐng)域[1-3]。CNN 所取得的顯著成功主要得益于大規(guī)模數(shù)據(jù)集的人工準(zhǔn)確標(biāo)注。然而,獲取大量高質(zhì)量的標(biāo)注數(shù)據(jù)既昂貴又耗時(shí)。在實(shí)際應(yīng)用中,收集到的數(shù)據(jù)集往往含有標(biāo)簽噪聲:一方面,這種噪聲可能來自人工標(biāo)注的過程,因?yàn)槿斯?biāo)注通常需要專業(yè)知識,而即使是專家的手動(dòng)標(biāo)注結(jié)果也會受到經(jīng)驗(yàn)、精力等因素的影響;另一方面,在數(shù)據(jù)集的收集和制作過程中,部分大規(guī)模的數(shù)據(jù)集是從網(wǎng)站上收集的,它們往往包含不準(zhǔn)確的標(biāo)簽,還有部分大規(guī)模數(shù)據(jù)集是通過一些替代且廉價(jià)的方法使用標(biāo)簽挖掘出來的[4。這些替代方法也不可避免地會引入帶有標(biāo)簽噪聲的樣本。
越來越多的研究致力于減輕帶有標(biāo)簽噪聲的樣本訓(xùn)練的負(fù)面影響。早期的研究側(cè)重于探索能夠抵御標(biāo)簽噪聲影響的魯棒損失函數(shù)。文獻(xiàn)[5]嘗試用估計(jì)噪聲轉(zhuǎn)移矩陣來應(yīng)對標(biāo)簽噪聲,但發(fā)現(xiàn)在實(shí)際應(yīng)用中準(zhǔn)確估計(jì)該矩陣既困難又不實(shí)用。文獻(xiàn)[6]旨在開發(fā)耐噪聲損失函數(shù),研究人員采用平均絕對誤差損失進(jìn)行模型訓(xùn)練,發(fā)現(xiàn)與交叉熵?fù)p失相比,其具有更好的泛化能力。然而,當(dāng)面對復(fù)雜的數(shù)據(jù)集時(shí),模型的收斂會變得困難。一種解決帶有標(biāo)簽噪聲的樣本學(xué)習(xí)挑戰(zhàn)的方法是采用交替訓(xùn)練,該方法包括樣本選擇和半監(jiān)督學(xué)習(xí)兩個(gè)階段。樣本選擇階段的目的是將干凈樣本從噪聲數(shù)據(jù)集中分離出來并作為有標(biāo)簽樣本集進(jìn)行監(jiān)督學(xué)習(xí)。文獻(xiàn)[7-8]采用深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,DNN)分類器的自生損失和預(yù)測值來將干凈樣本從噪聲數(shù)據(jù)集中分離出來。例如,Co-teaching[方法通過設(shè)計(jì)雙網(wǎng)絡(luò)協(xié)作學(xué)習(xí)框架,使用小損失來識別干凈樣本以更新另一個(gè)網(wǎng)絡(luò)的參數(shù)。Unicon框架使用 Jensen-Shannon散度損失統(tǒng)一選擇干凈集。文獻(xiàn)[9]使用分類器提取的特征表示分離干凈樣本。半監(jiān)督學(xué)習(xí)階段的目的是對樣本選擇階段分離出來的噪聲樣本進(jìn)行標(biāo)簽猜測,在產(chǎn)生偽標(biāo)簽后進(jìn)行訓(xùn)練,從而盡可能脫離原有噪聲標(biāo)簽的影響。然而,在樣本選擇階段,特別是當(dāng)標(biāo)簽噪聲水平非常高時(shí),DNN分類器總是會過度擬合有噪聲的標(biāo)記樣本,從而導(dǎo)致模型自生成的信息,如損失、預(yù)測概率或特征表示等始終無法準(zhǔn)確識別干凈的樣本,因此即使在樣本選擇后,有標(biāo)簽樣本集中依舊包含大量噪聲樣本,最終導(dǎo)致分類器性能的惡化。為了解決交替學(xué)習(xí)過程中模型對有噪聲標(biāo)記樣本的過擬合問題,最近的研究引入了帶有對比損失的自監(jiān)督學(xué)習(xí)對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,并取得了較好的效果[8]
上述最新研究方法存在兩個(gè)問題:1自監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練往往會耗費(fèi)較長的時(shí)間;2)在樣本選擇階段,篩選出的有標(biāo)簽樣本集中仍然存在大量帶噪聲標(biāo)簽樣本,這會降低模型的訓(xùn)練效果。本文提出了一種新的標(biāo)簽噪聲學(xué)習(xí)魯棒性算法AIIMix。該算法針對分離出的有標(biāo)簽樣本集,對低噪聲水平的樣本集采用焦損(focalloss)[10]使模型聚焦于困難樣本,以加快收斂速度并提高分類性能;對高噪聲水平的樣本集采用廣義交叉熵?fù)p失(GCEloss)[11]來對抗噪聲的影響。與帶有預(yù)訓(xùn)練的方法不同的是,本文算法在訓(xùn)練過程中加入了高置信度樣本半監(jiān)督學(xué)習(xí)模塊(半監(jiān)督學(xué)習(xí))和對比學(xué)習(xí)模塊(自監(jiān)督學(xué)習(xí))來進(jìn)一步利用噪聲樣本優(yōu)化模型,并且節(jié)省了預(yù)訓(xùn)練的時(shí)間,同時(shí)在CIFAR1O和CIFAR10O數(shù)據(jù)集上的分類性能也得到了提升。
1方法
1.1 AIIMix模型結(jié)構(gòu)
DivideMix是一個(gè)利用半監(jiān)督學(xué)習(xí)技術(shù)進(jìn)行帶噪聲標(biāo)簽學(xué)習(xí)的新框架[12],本文設(shè)計(jì)了
AllMix網(wǎng)絡(luò)模型結(jié)構(gòu),該模型在DivideMix模型的基礎(chǔ)上,使用提出的AIIMatch訓(xùn)練策略替換原有的 MixMatch 訓(xùn)練策略[13]。AlIMix 模型總框架如圖1所示。其中,A和B代表兩個(gè)模型網(wǎng)絡(luò),GMM為高斯混合模型,D表示數(shù)據(jù)集,X 和 U 分別表示模型A或B在特定訓(xùn)練輪次下經(jīng)過GMM劃分后得到的有標(biāo)簽和無標(biāo)簽樣本集。 X 代表有標(biāo)簽的樣本集, U 代表無標(biāo)簽的樣本集。
AllMix使用高斯混合模型(Gaussianmixturemodel,GMM)對每一個(gè)樣本的損失分布進(jìn)行建模,將訓(xùn)練數(shù)據(jù)在每一個(gè)訓(xùn)練輪次中動(dòng)態(tài)劃分為帶有干凈樣本的有標(biāo)簽樣本集 X 和帶有噪聲樣本的無標(biāo)簽樣本集 U ,并以半監(jiān)督和自監(jiān)督的方式對有標(biāo)簽和無標(biāo)簽樣本集進(jìn)行模型訓(xùn)練。為了避免確認(rèn)偏差,AIIMix同時(shí)訓(xùn)練兩個(gè)發(fā)散網(wǎng)絡(luò),其中每個(gè)網(wǎng)絡(luò)使用來自另一個(gè)網(wǎng)絡(luò)通過GMM劃分出來的有標(biāo)簽樣本集 X 和無標(biāo)簽樣本集 U 進(jìn)行訓(xùn)練。在AlMatch訓(xùn)練策略中,保留了DivideMix中對有標(biāo)簽和無標(biāo)簽的樣本集執(zhí)行標(biāo)簽優(yōu)化(labelco-refinement)和標(biāo)簽猜測(labelco-guessing)的步驟。此外,AllMatch改進(jìn)了對有標(biāo)簽樣本的損失計(jì)算,引入了高置信度樣本半監(jiān)督學(xué)習(xí)模塊和對比學(xué)習(xí)模塊對網(wǎng)絡(luò)進(jìn)行訓(xùn)練優(yōu)化。
1.2 AllMatch訓(xùn)練策略
圖2展示了AlIMatch的具體訓(xùn)練策略,其中 Augw 代表弱增強(qiáng)操作, Augsl(?) 和 Augs2(?) 代表兩種不同的強(qiáng)增強(qiáng)操作, 代表經(jīng)過標(biāo)簽優(yōu)化后的標(biāo)簽,
代表經(jīng)過標(biāo)簽猜測后的標(biāo)簽,
代表樣本在經(jīng)過Mixup操作后的后一半數(shù)據(jù)經(jīng)過模型分類頭輸出的結(jié)果中高于閾值 t 的偽標(biāo)簽。首先,對于由GMM判定的有標(biāo)簽樣本,AlIMatch針對不同的噪聲情況分別使用了強(qiáng)調(diào)學(xué)習(xí)困難樣本的焦損和兼具收斂速度以及抗噪性能的廣義交叉熵?fù)p失。其次,對于GMM判定的無標(biāo)簽樣本,AlMatch引入高置信度樣本半監(jiān)督學(xué)習(xí)模塊,通過篩選出高置信度的樣本來生成偽標(biāo)簽,將它們視為有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練。最后,AlMatch引人對比學(xué)習(xí)模塊,通過計(jì)算樣本在特征表示上的對比損失來進(jìn)一步增強(qiáng)模型的分類能力。
在AllMatch訓(xùn)練策略中,設(shè)
為一批次的有標(biāo)簽樣本,其中 xi 是第i 張有標(biāo)簽圖像, yi 是其對應(yīng)的獨(dú)特標(biāo)簽, U=
為一批次的無標(biāo)簽樣本,其中 ui 是第 i 張無標(biāo)簽圖像。對于有標(biāo)簽樣本集 X ,模型會對其進(jìn)行弱增強(qiáng) Augw(?) 得到 Xw 。弱增強(qiáng)處理包括隨機(jī)裁剪、隨機(jī)水平翻轉(zhuǎn)以及歸一化。對于無標(biāo)簽樣本集 U ,模型除了弱增強(qiáng)還進(jìn)行了強(qiáng)增強(qiáng) Augs1(?) 和 Augs2(?) 來得到 Uw 、 Usl 和 Us2 ,強(qiáng)增強(qiáng)處理 Augs1(?) 在弱增強(qiáng)的基礎(chǔ)上增加了RandAugment[14], Augs2(?) 在弱增強(qiáng)的基礎(chǔ)上隨機(jī)調(diào)整圖像的亮度、對比度、飽和度和色調(diào)。
首先,分別初始化兩個(gè)相同結(jié)構(gòu)的網(wǎng)絡(luò),例如ResNet18。模型在提取特征后設(shè)置一個(gè)分類頭 Pcls(?) 得到預(yù)測概率,一個(gè)投影層 Pproj(?) 得到特征向量。
然后,使用弱增強(qiáng)后的樣本集 Xw 和 Uw 進(jìn)行標(biāo)簽優(yōu)化和標(biāo)簽猜測。在進(jìn)行網(wǎng)絡(luò)A的訓(xùn)練時(shí),網(wǎng)絡(luò)B利用樣本的損失值通過GMM得到該樣本的干凈概率 wi ,網(wǎng)絡(luò)A將當(dāng)前樣本的真值標(biāo)簽 yi 和通過分類頭得到的預(yù)測概率 piwi 進(jìn)行線性組合,從而得到標(biāo)簽優(yōu)化后的標(biāo)簽 為
接著使用來自兩個(gè)網(wǎng)絡(luò)的預(yù)測概率來“共同猜測”未標(biāo)記樣本的標(biāo)簽 ,這可以產(chǎn)生更可靠的猜測標(biāo)簽
為
式中: M 表示弱增強(qiáng)的次數(shù); ?m 表示第 m 次增強(qiáng); ui 表示未標(biāo)記數(shù)據(jù)集; θ(1) 和 θ(2) 分別表示模型A和模型B的權(quán)重。
至此得到了標(biāo)簽優(yōu)化后的樣本集 X′= 和標(biāo)簽猜測后的樣本集
,其中, b 代表原始樣本集的數(shù)量, Mb 代表對原始樣本集中的每個(gè)樣本進(jìn)行 M 次增強(qiáng)后的樣本數(shù)量。拼接 X′ 和 U′ 得到樣本集
,對 N 的樣本和標(biāo)簽進(jìn)行Mixup操作[15],具體表達(dá)式為
式中, λ∈[0,1] ,且服從Beta分布。
針對有標(biāo)簽樣本,當(dāng)處理低噪聲情況時(shí),對標(biāo)簽優(yōu)化后的樣本計(jì)算焦損 LX 為
式中: i∈(1,…,Mb) ;y代表傾向困難樣本的程度,y越大,模型對困難樣本的關(guān)注度越高。
當(dāng)處理高噪聲情況時(shí),計(jì)算廣義交叉熵?fù)p失(GCEloss),如式(6)所示:
式中, i∈(1,…,Mb) 。GCEloss融合了平均絕對誤差損失(MAEloss)和交叉熵?fù)p失(CEloss)。當(dāng) α=1 時(shí),其等價(jià)為MAEloss;當(dāng) α 趨向于0時(shí),其等價(jià)為CEloss。
針對無標(biāo)簽樣本,樣本損失 為
式中, i∈(Mb+1,…,2Mb). 。
除了通過Mixup計(jì)算得到的 LX 和 外,為了充分利用無標(biāo)簽樣本集對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,AlIMatch對無標(biāo)簽樣本增加了高置信度樣本半監(jiān)督學(xué)習(xí)模塊和對比學(xué)習(xí)模塊。
在高置信度樣本半監(jiān)督學(xué)習(xí)模塊中,將 (2
輸入模型后由分類頭 Pcls(?) 得到其每一類的預(yù)測概率,若最高那一類的置信度大于閾值 t ,這一類就作為偽標(biāo)簽
,再將強(qiáng)增強(qiáng)后的樣本
輸入模型,得到的預(yù)測輸出與
計(jì)算交叉熵?fù)p失 H(?) 得到
LU2 ,表達(dá)式為
受到文獻(xiàn)[16]的啟發(fā),AllMatch在已有模塊的基礎(chǔ)上對無標(biāo)簽樣本集 U 加入了對比學(xué)習(xí)模塊,將 Us1 和 Us2 在模型投影層 Pproj(?) 輸出的特征進(jìn)行無監(jiān)督的對比學(xué)習(xí),從而達(dá)到進(jìn)一步優(yōu)化訓(xùn)練目標(biāo)的目的。對于大小為 b 的一個(gè)批次的樣本,通過兩種不同的圖像強(qiáng)增強(qiáng)方法得到的Us1 和 Us2 ,共得到2b個(gè)圖像樣本,經(jīng)過投影層Pproj(?) 后分別得到 zs1 和 zs2 兩個(gè)圖像的特征向量,具體的對比學(xué)習(xí)損失函數(shù) Lcontrast 為
式中: zisl 和 zis2 表示來自第 i 個(gè)樣本分別經(jīng)過Augs1(?) 和 后在投影層的特征表示輸出;A(i) 為除了第 i 個(gè)樣本以外的其他與 i 的偽標(biāo)簽
類別不同的樣本索引; τ 為溫度系數(shù),用來控制困難負(fù)樣本的懲罰強(qiáng)度。對比學(xué)習(xí)損失的目的是在特征空間上使得不同類別的圖像相互遠(yuǎn)離,并拉進(jìn)同一類別的圖像。
最終的損失計(jì)算公式為
LT=LX+α?LU1+LU2+Lcontrast
式中, α 代表學(xué)習(xí)標(biāo)簽猜測后的樣本的損失權(quán)重。
2 實(shí)驗(yàn)結(jié)果和分析
為驗(yàn)證提出的方法在帶有標(biāo)簽噪聲的數(shù)據(jù)集的圖像分類任務(wù)中的有效性,進(jìn)行了相關(guān)實(shí)驗(yàn)。首先,介紹了實(shí)驗(yàn)使用到的實(shí)驗(yàn)平臺、數(shù)據(jù)集和參數(shù)設(shè)置。然后,評估了提出的方法在噪聲數(shù)據(jù)集上的性能,并與其他類似的方法進(jìn)行了比較。最后,采用了消融實(shí)驗(yàn),系統(tǒng)地移除模型的某些組成部分。本文旨在探討各個(gè)模塊對模型整體性能的貢獻(xiàn),從而深入理解所設(shè)計(jì)方法的關(guān)鍵因素。
2.1 實(shí)驗(yàn)平臺
實(shí)驗(yàn)使用的服務(wù)器GPU型號為英偉達(dá)RTX4080,顯存為 16GB ,Python版本為3.11.7,深度學(xué)習(xí)框架為PyTorch,版本為2.1.2。
2.2 數(shù)據(jù)集
實(shí)驗(yàn)在CIFAR10數(shù)據(jù)集和CIFAR100數(shù)據(jù)集上進(jìn)行,它們各自由60000張大小為 32× 32的彩色圖像組成,其中CIFAR10分為10個(gè)類,每個(gè)類有6000張圖像,CIFAR100分為100個(gè)類,每個(gè)類有600張圖像。由于這兩個(gè)數(shù)據(jù)集是無噪聲的數(shù)據(jù)集,根據(jù)文獻(xiàn)[7]的方法,通過隨機(jī)替換樣本的標(biāo)簽對兩個(gè)數(shù)據(jù)集分別生成 20% 、 50% 、 80% 、 90% 的對稱噪聲。
2.3 參數(shù)設(shè)置
在模型訓(xùn)練過程中,為了與其他方法作比較,將常規(guī)參數(shù)設(shè)置與已有方法的保持一致。主干網(wǎng)絡(luò)選擇ResNet18,批量大小設(shè)置為128,訓(xùn)練迭代次數(shù)為300次,采用隨機(jī)梯度下降(SGD)來更新參數(shù)和優(yōu)化模型,學(xué)習(xí)率設(shè)置為0.02,沖量設(shè)置為0.9,權(quán)重衰減為0.0005。弱增強(qiáng)的次數(shù) M 設(shè)置為2,對于CIFAR10數(shù)據(jù)集,熱身的迭代次數(shù)設(shè)置為10,對于CIFAR100數(shù)據(jù)集,熱身的迭代次數(shù)設(shè)置為30。在熱身輪次中使用交叉熵?fù)p失訓(xùn)練,結(jié)束熱身后,對于20% 和 50% 的數(shù)據(jù)集, LX 用于計(jì)算焦損;對于80% 和 90% 的數(shù)據(jù)集, LX 用于計(jì)算廣義交叉熵?fù)p失。 α 的設(shè)置參考文獻(xiàn)[12]、[16]和[17]的最優(yōu)結(jié)果,將溫度系數(shù) τ 設(shè)置為0.07,將 的閾值 t 設(shè)置為 0.95 。
2.4實(shí)驗(yàn)結(jié)果與分析
為了評估模型的性能,采用了準(zhǔn)確率(accuracy)作為模型的評價(jià)指標(biāo)。表1為模型在CIFAR10和CIFAR100數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)中分別測試了其在 20% 、 50% 、 80% 和 90% 的對稱噪聲下的性能。表1中給出了不同方法的最佳準(zhǔn)確率以及最后10個(gè)迭代輪次的平均準(zhǔn)確率。其中,CSS雖然整體性能有了較大的領(lǐng)先,但是其使用自監(jiān)督進(jìn)行了800個(gè)輪次的預(yù)訓(xùn)練,這一過程是非常耗時(shí)的。同時(shí),CSS需要結(jié)合CLIP的輔助信息來消除噪聲樣本,而CLIP在模型參數(shù)量和復(fù)雜度上遠(yuǎn)遠(yuǎn)超過了ResNet18,對設(shè)備的算力要求更高。將本文提出的方法與使用相同網(wǎng)絡(luò)架構(gòu)且不使用預(yù)訓(xùn)練的其他方法進(jìn)行比較,結(jié)果表明,以上方法在兩個(gè)數(shù)據(jù)集低噪聲( 20% 和 50% )的情況下效果持平,而在高噪聲( 80% 和 90% )的情況下本文方法的性能有較大幅度的提升。對于含有更多類別、挑戰(zhàn)難度更高的CIFAR100數(shù)據(jù)集,在80% 和 90% 的對稱噪聲下,本文方法的最佳準(zhǔn)確率和平均準(zhǔn)確率分別提升了 2.8% 和 10.1% 。
如表2所示,為了研究不同模塊的有效性,深入探究了提升模型性能的因素,通過刪除不同的模塊來進(jìn)行消融實(shí)驗(yàn),
為了研究高置信度樣本半監(jiān)督學(xué)習(xí)模塊,刪除 LU2 并保持其他損失不變來進(jìn)行模型訓(xùn)練,此時(shí)模型的最佳性能在 50% 、 80% 和 90% 的對稱噪聲下分別下降了 2.1% 、 5% 和 8.1% 。為了研究對比學(xué)習(xí)模塊,刪除 Lcontrast 并保持其他損失不變來進(jìn)行模型訓(xùn)練,此時(shí)模型的最佳性能在20% 、 50% 、 80% 和 90% 的對稱噪聲下分別下降了 0.3% 、 0.6% 、 3.7% 和 3.5% 。
表1和表2的實(shí)驗(yàn)結(jié)果顯示兩個(gè)數(shù)據(jù)集在80% 和 90% 對稱噪聲條件下,采用高置信度樣本的半監(jiān)督學(xué)習(xí)和對比學(xué)習(xí)模塊對模型性能的提升更為顯著。這是由于在高噪聲環(huán)境下,模型對無標(biāo)簽樣本的依賴增加。對此,本文進(jìn)一步分析兩個(gè)方面的作用機(jī)制和相互影響。
首先,高置信度樣本半監(jiān)督學(xué)習(xí)模塊通過挑選出置信度高的無標(biāo)簽樣本,減少了標(biāo)簽噪聲對模型學(xué)習(xí)的干擾,特別是在噪聲水平較高時(shí)。這些高置信度樣本成為了模型學(xué)習(xí)的關(guān)鍵,因?yàn)樗鼈兲峁┝讼鄬?zhǔn)確的信息來引導(dǎo)模型學(xué)習(xí)。其次,對比學(xué)習(xí)模塊通過強(qiáng)化樣本間的區(qū)分性,進(jìn)一步增強(qiáng)了模型對特征的辨識能力。在高噪聲條件下,傳統(tǒng)的學(xué)習(xí)機(jī)制容易受到噪聲的干擾,而對比學(xué)習(xí)通過優(yōu)化樣本間的相對關(guān)系,為模型提供了一種魯棒的學(xué)習(xí)路徑,使得模型能夠在復(fù)雜的噪聲環(huán)境中更好地提取有用信息。
由表2可知,在去掉 后,模型在 50% 的對稱噪聲下的訓(xùn)練后期性能起伏明顯,這也表明高置信度樣本半監(jiān)督學(xué)習(xí)模塊可以促進(jìn)模型收斂的穩(wěn)定性。
結(jié)合這兩個(gè)模塊,模型能夠在高噪聲水平下有效地利用無標(biāo)簽樣本,不僅提高了模型對噪聲的魯棒性,也穩(wěn)定了學(xué)習(xí)過程和模型的收斂性。這一發(fā)現(xiàn)強(qiáng)調(diào)了在設(shè)計(jì)面向標(biāo)簽噪聲數(shù)據(jù)集的模型時(shí),重視無標(biāo)簽樣本的處理機(jī)制是提高模型性能的關(guān)鍵。
3結(jié)論
基于深度學(xué)習(xí)的圖像分類性能依賴于數(shù)據(jù)集的質(zhì)量,而在很多場景下,數(shù)據(jù)集中的標(biāo)簽噪聲不可避免。本文提出了AIIMix網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)采用AllMatch訓(xùn)練策略,針對在不同噪聲情況下的有標(biāo)簽樣本集采用不同的損失計(jì)算方式,引入高置信度樣本半監(jiān)督學(xué)習(xí)模塊和對比學(xué)習(xí)模塊來充分利用無標(biāo)簽樣本集對模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,模型在沒有經(jīng)過預(yù)訓(xùn)練的情況下,在不同噪聲水平的CIFAR10和CIFAR100數(shù)據(jù)集上性能得到了提升。在CIFAR10數(shù)據(jù)集上,針對 50% 、 80% 和 90% 的對稱噪聲,模型性能比現(xiàn)有的無預(yù)訓(xùn)練的標(biāo)簽噪聲分類算法分別高出了 0.7% , 0.7% 和 5.0% 。對含有 80% 和 90% 對稱噪聲的CIFAR100數(shù)據(jù)集,模型性能分別提高了 2.8% 和 10.1% 。本文提出的標(biāo)簽噪聲學(xué)習(xí)魯棒性算法可以進(jìn)一步拓展到圖像分割、目標(biāo)檢測、自然語言處理等任務(wù)上。
參考文獻(xiàn):
[1]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 25th International Conference on Neural Information Processing Systems. Lake Tahoe: Curran Associates Inc., 2012.
[2]HE K M, ZHANG XY,REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas: IEEE,2016: 770-778.
[3]張杰,夏春蕾,張榮福,等.基于注意力機(jī)制的水果損 傷檢測及分類[J].光學(xué)儀器,2023,45(2):26-35.
[4]LIW,WANGLM,LIW,etal.WebVision database: visual learning and understanding from web data[J]. arXiv preprint,arXiv:1708.02862,2017.
[5]SUKHBAATAR S,BRUNAJ,PALURI M,et al. Training convolutional networks with noisy labels[J]. arXiv preprint,arXiv:1406.2080,2014.
[6]GHOSHA,KUMARH,SASTRYPS.Robustloss functionsunderlabelnoisefordeepneural networks[C]//Proceedingsofthe31st AAAI Conference on Artificial Intelligence. San Francisco: AAAI,2017: 1919-1925.
[7]HAN B, YAO QM, YU XR, et al. Co-teaching: robust training of deep neural networks with extremely noisy labels[C]//Proceedingsofthe32nd International Conference on Neural Information Processing Systems. Montreal: Curran Associates Inc., 2018.
[8]KARIMN,RIZVE MN,RAHNAVARD N, et al. UNICON: combating label noise through uniform selection and contrastive learning[C]//Proceedingsof 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 9676- 9686.
[9]SHARMA K,DONMEZ P, LUO E M,et al. NoiseRank: unsupervised label noise reduction with dependencemodels[C]//Proceedingsofthe16th European Conference on Computer Vision. Glasgow: Springer,2020: 737-753.
[10]LIN TY,GOYAL P, GIRSHICKR, et al. Focal loss for dense object detection[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice: IEEE,2017: 2980-2988.
[11]ZHANG ZL,SABUNCU MR.Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montreal: Curran Associates Inc., 2018.
[12] LI J N, SOCHER R, HOI S C H. DivideMix: learming withnoisy labels as semi-supervised learning[C]// Proceedings of the 8th International Conference on Learning Representations. Addis Ababa: OpenReview, 2020.
[13]BERTHELOT D, CARLINI N, GOODFELLOW I, et al.MixMatch: a holistic approach to semi-supervised learning[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems. Vancouver:Curran Associates Inc., 2019.
[14]CUBUK E D,ZOPH B,SHLENS J,etal. Randaugment:practical automated data augmentation with a reduced search space[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Visionand Pattern Recognition.Seattle: IEEE,2020:702-703.
[15]ZHANG H Y, CISSE M, DAUPHIN Y N, et al. Mixup: beyond empirical risk minimization[C]//Proceedings of the6thInternationalConferenceon Learning Representations. Vancouver: OpenReview, 2018.
[16]YANG F, WU K, ZHANG S Y, et al. Class-aware contrastive semi-supervised learning[C]//Proceedings of 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans:IEEE,2022: 14421-14430.
[17]SOHNK,BERTHELOTD,LICL,etal.FixMatch: simplifying semi-supervised learning with consistency and confidence[C]//Proceedingsofthe34th International Conference onNeural Information Processing Systems. Vancouver: Curran Associates Inc.,2020:596-608.
[18]YU X R,HAN B,YAO J C, et al. How does disagreementhelpgeneralizationagainstlabel corruption?[C]//Proceedings of the 36th International Conference on Machine Learning.Long Beach: PMLR, 2019:7164-7173.
[19]YI K,WU J X. Probabilistic end-to-end noise correctionforlearningwithnoisylabels[C]// Proceedingsof 2019 IEEE/CVFConferenceon Computer Vision and Pattern Recognition.Long Beach:IEEE,2019:7017-7025.
[20]LI J N, WONG Y, ZHAO Q, et al. Learning to learn from noisy labeled data[C]//Proceedings of 2019 IEEE/CVF Conference on Computer Visionand Pattern Recognition. Long Beach: IEEE, 2019: 5051 - 5059.
[21]ARAZO E,ORTEGO D, ALBERT P,etal. Unsupervisedlabelnoisemodelingandloss correction[C]//Proceedings of the 36th International Conference on Machine Learning. Long Beach: PMLR, 2019:312-321.
[22]MIAO Q, WU X H, XU C, et al. Learming with noisy labelsusing collaborative sample selectionand contrastive semi-supervised learning[J]. KnowledgeBased Systems,2024,296:111860.
(編輯:張磊)