亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過濾算法

2022-08-12 14:26:20姜高霞王文劍

計(jì)算機(jī)研究與發(fā)展 2022年8期

關(guān)鍵詞：模型

姜高霞王文劍,2

1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院太原 030006)2 (計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006)

數(shù)據(jù)質(zhì)量是決定機(jī)器學(xué)習(xí)模型可靠性的關(guān)鍵因素之一，尤其在高風(fēng)險(xiǎn)智能應(yīng)用(如癌癥檢測(cè)、貸款分配等)中數(shù)據(jù)質(zhì)量至關(guān)重要.然而數(shù)據(jù)質(zhì)量在機(jī)器學(xué)習(xí)中起到的作用正在被低估，“每個(gè)人都想做模型工作，而不是數(shù)據(jù)工作”[1].監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中比較成熟的學(xué)習(xí)模式，在人臉表情識(shí)別、醫(yī)學(xué)診斷等領(lǐng)域不斷取得成功應(yīng)用，但都特別依賴以較高成本獲得的大規(guī)模、高質(zhì)量標(biāo)注數(shù)據(jù)[2-4].實(shí)際中的多數(shù)數(shù)據(jù)，包括大量公開的標(biāo)準(zhǔn)數(shù)據(jù)集(如MNIST,CIFAR,ImageNet等)，可能存在大量的標(biāo)簽噪聲，QuickDraw數(shù)據(jù)的標(biāo)簽錯(cuò)誤率甚至超過10%[5].諾貝爾獎(jiǎng)得主Kahneman認(rèn)為噪聲是影響人類判斷的黑洞，實(shí)際存在的噪聲遠(yuǎn)比人們預(yù)期的要多[6].加州大學(xué)的知名專業(yè)學(xué)者都將噪聲的干擾列為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的重要挑戰(zhàn)之一[7].

監(jiān)督學(xué)習(xí)根據(jù)輸出數(shù)據(jù)類型分為分類和回歸任務(wù).標(biāo)簽噪聲在兩類任務(wù)中分別對(duì)應(yīng)了類別型標(biāo)簽噪聲(如將性別標(biāo)簽“男”誤標(biāo)為“女”)和數(shù)值型標(biāo)簽噪聲(如將年齡標(biāo)簽“3”誤標(biāo)為“20”).通常數(shù)值型標(biāo)簽噪聲問題更為復(fù)雜也更難解決，主要原因是數(shù)值型噪聲取值范圍更廣、分布類型更復(fù)雜[8-10].實(shí)際中人們不知道一個(gè)數(shù)據(jù)集中是否有標(biāo)簽噪聲，即使有噪聲也不知道哪些樣本有噪聲、噪聲有多大、噪聲有多少、噪聲服從什么分布等.因此解決回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問題是一項(xiàng)具有挑戰(zhàn)性的任務(wù).

對(duì)于標(biāo)簽噪聲問題主要有2種解決思路：1)從算法層通過重構(gòu)損失函數(shù)、樣本加權(quán)或集成方式建立噪聲魯棒模型[11-13]，這些模型并非對(duì)噪聲完全魯棒，還會(huì)在一定程度上受到噪聲干擾[14]，在未知噪聲和強(qiáng)噪聲情況下這些模型表現(xiàn)不夠滿意[15]；2)從數(shù)據(jù)層面實(shí)施噪聲過濾或糾正，也就是要將錯(cuò)誤標(biāo)簽數(shù)據(jù)去除或改正[16].相比于魯棒建模方法，噪聲過濾方法只需要給出樣本過濾結(jié)果，不需要對(duì)模型進(jìn)行任何改動(dòng)，因此噪聲過濾的普適性更強(qiáng)、門檻更低.這類方法雖能降低數(shù)據(jù)噪聲水平，但無法保證模型泛化能力，而且難以適應(yīng)不同噪聲環(huán)境.

針對(duì)回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問題，本文從泛化誤差界視角分析了數(shù)據(jù)因素(樣本量和噪聲水平)對(duì)模型泛化能力的影響，并據(jù)此構(gòu)建了樣本過濾框架和噪聲過濾算法.本文工作的主要貢獻(xiàn)包括4個(gè)方面：

1) 修正了標(biāo)簽噪聲環(huán)境下回歸模型的泛化誤差界，明確了影響模型泛化能力的關(guān)鍵因素，為提升模型泛化能力的樣本過濾算法提供了理論指導(dǎo).

2) 以降低泛化誤差界為目標(biāo)，提出一種關(guān)于相對(duì)噪聲水平和相對(duì)樣本量的可解釋樣本過濾框架，它可以與一般噪聲估計(jì)方法結(jié)合，形成新的過濾算法.

3) 分析了噪聲與覆蓋區(qū)間中心和半徑的單調(diào)關(guān)系，據(jù)此提出一種相對(duì)噪聲估計(jì)方法，并與前面所提樣本過濾框架結(jié)合設(shè)計(jì)了相對(duì)噪聲過濾算法.

4) 在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，所提算法可以有效提升數(shù)據(jù)質(zhì)量和模型的泛化能力.

1 相關(guān)工作

標(biāo)簽噪聲過濾通過去除噪聲樣本提升含標(biāo)記數(shù)據(jù)的質(zhì)量，進(jìn)而提高監(jiān)督學(xué)習(xí)模型的預(yù)測(cè)性能.

由于k近鄰模型對(duì)標(biāo)簽噪聲較為敏感，k近鄰模型常用于檢測(cè)和過濾標(biāo)簽噪聲.其主要思想是，如果一個(gè)樣本的標(biāo)簽與其多數(shù)近鄰的標(biāo)簽不一致，則認(rèn)為出現(xiàn)標(biāo)簽噪聲.典型算法有編輯近鄰(edited nearest neighbor, ENN)過濾器、全編輯近鄰(all edited nearest neighbor, ANN)過濾器[17]、近鄰感知(perception of nearest neighbor, PNN)過濾器[18].在回歸任務(wù)中，如果模型誤差超過一定閾值，則認(rèn)為出現(xiàn)數(shù)值型標(biāo)簽噪聲，這是一種面向回歸的編輯近鄰過濾算法(edited nearest neighbor for regression, RegENN)[9].

集成過濾方法利用多個(gè)分類模型產(chǎn)生樣本預(yù)測(cè)標(biāo)簽，如果多數(shù)預(yù)測(cè)標(biāo)簽與其實(shí)際標(biāo)簽不一致，則認(rèn)為標(biāo)簽存在錯(cuò)誤應(yīng)當(dāng)去除[19-20].這些基模型可以采用不同類模型(如多數(shù)投票過濾)，也可能是經(jīng)不同子集訓(xùn)練過的同類模型(如迭代劃分過濾).

受到特征選擇的啟發(fā)，文獻(xiàn)[21]提出一種基于互信息(mutual information, MI)的噪聲過濾算法.如果樣本去除其近鄰后特征與標(biāo)簽之間的互信息均發(fā)生明顯的變化(超過某個(gè)閾值)，則認(rèn)為此樣本存在標(biāo)簽噪聲.

回歸任務(wù)的標(biāo)簽可以通過離散化的方式將其轉(zhuǎn)化為分類任務(wù)，這樣就可以利用分類標(biāo)簽噪聲過濾算法來識(shí)別回歸中的數(shù)值型標(biāo)簽噪聲.離散編輯近鄰(edited nearest neighbor based on discretization, DiscENN)對(duì)數(shù)值型標(biāo)簽做離散化處理后采用近鄰過濾來識(shí)別噪聲[22].

多數(shù)噪聲過濾算法雖然能夠降低數(shù)據(jù)的噪聲水平，但無法保證提升模型預(yù)測(cè)性能.為此文獻(xiàn)[10]從泛化誤差界視角提出一種噪聲過濾的最優(yōu)樣本過濾框架和覆蓋距離過濾(covering distance filtering, CDF)算法.此框架為降低過濾后模型的泛化誤差界提供了理論保障，對(duì)指導(dǎo)噪聲過濾具有重要意義.

上述方法中，MI,RegENN,DiscENN,CDF是面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過濾算法.部分算法的過濾效果比較依賴閾值，而閾值通常根據(jù)經(jīng)驗(yàn)指定，缺乏對(duì)噪聲數(shù)據(jù)的自適應(yīng)性.閾值設(shè)置不當(dāng)容易導(dǎo)致過度清洗，也就是去掉大量無噪樣本.雖然文獻(xiàn)[10]給出了過濾的理論依據(jù)，但過濾目標(biāo)函數(shù)中包含參數(shù)較多且形式復(fù)雜，不利于直觀理解和實(shí)際應(yīng)用.在這些參數(shù)中，誤差界的置信度對(duì)結(jié)果影響不大，但增加了目標(biāo)函數(shù)復(fù)雜度；有些模型的VC維是無窮或不可計(jì)算，在實(shí)際應(yīng)用中需要根據(jù)經(jīng)驗(yàn)指定.

2 泛化界視角下的噪聲過濾框架

本節(jié)通過修正無噪條件下的學(xué)習(xí)理論得到含標(biāo)簽噪聲情況下的泛化誤差界，并據(jù)此提出含噪數(shù)據(jù)的過濾框架.

2.1 基本定義

(1)

定義1.真實(shí)經(jīng)驗(yàn)誤差.回歸模型f(x)經(jīng)數(shù)據(jù)D訓(xùn)練后基于無噪標(biāo)簽的真實(shí)經(jīng)驗(yàn)誤差：

(2)

定義2.實(shí)際經(jīng)驗(yàn)誤差.模型在第i個(gè)樣本的實(shí)際誤差ri=f(xi)-yi，基于含噪標(biāo)簽的實(shí)際經(jīng)驗(yàn)誤差:

(3)

2.2 泛化誤差界

引理1[23-25].對(duì)于平方損失下的無噪回歸任務(wù)，以下泛化誤差(上)界以1-δ概率成立：

R(f,D)≤Remp(f,D)×ε(D),

(4)

(5)

證明.含標(biāo)簽噪聲時(shí)的真實(shí)經(jīng)驗(yàn)誤差:

2Cov(ei,ri)+2ED(ei)ED(ri)=

(6)

其中模型誤差ri=f(xi)-yi，E(·)為期望函數(shù)，Cov(ei,ri)表示噪聲ei與模型誤差ri的協(xié)方差.

ε(D)不受標(biāo)簽噪聲的影響.由引理1可得模型具有泛化誤差(上)界：

(7)

證畢.

2.3 噪聲過濾框架

本節(jié)利用定理1的結(jié)果確定影響泛化誤差界的關(guān)鍵因素，并據(jù)此來構(gòu)造合理的噪聲過濾目標(biāo)函數(shù).

噪聲過濾的目的是通過去除含噪樣本來提升數(shù)據(jù)質(zhì)量和模型泛化能力.將原始數(shù)據(jù)D經(jīng)過過濾后的數(shù)據(jù)記為D*.為使得回歸模型f(x)經(jīng)數(shù)據(jù)D*訓(xùn)練后的泛化性能最佳，根據(jù)定理1可得誤差界最低的目標(biāo):

(8)

其中Var(·)和ρ(·,·)分別表示方差和相關(guān)系數(shù).將協(xié)方差代入目標(biāo)函數(shù)可得:

(9)

(10)

式(10)利用相對(duì)樣本量和相對(duì)噪聲水平來獲得較低的泛化誤差界，因此只需給出每個(gè)樣本的噪聲相對(duì)估計(jì)值即可計(jì)算出目標(biāo)函數(shù)值.式(10)可以與任意的噪聲相對(duì)估計(jì)方法和絕對(duì)估計(jì)方法相結(jié)合，因此它是一種適用面較廣的噪聲過濾框架.相比于文獻(xiàn)[10]中的過濾框架，式(10)放棄了次要因素(誤差界的置信度和模型VC維)，精簡(jiǎn)了目標(biāo)函數(shù)，使其可解釋性更強(qiáng)，且其中不需要預(yù)先指定任何參數(shù).

圖1給出了噪聲過濾框架的模擬結(jié)果.圖中橫坐標(biāo)表示去噪比例γ=1-n*/n，直線表示相對(duì)樣本量隨γ的變化趨勢(shì)，曲線表示相對(duì)噪聲水平隨γ的變化趨勢(shì).其中樣本量設(shè)為1 000，噪聲比例為25%，噪聲服從正態(tài)分布N(0,0.52).由于實(shí)際中無法將所有噪聲準(zhǔn)確估計(jì)和排序，這里設(shè)定75%的噪聲能夠正確排序.按照噪聲先大后小的順序依次去除，重復(fù)200次后得到平均相對(duì)噪聲水平曲線.

Fig. 1 Simulation of noise filtering framework圖1 噪聲過濾框架模擬

總體上，隨著γ增大，過濾后數(shù)據(jù)集的相對(duì)樣本量變少，噪聲水平也變低，但噪聲水平的變化一般遵從先快后慢的規(guī)律.這是因?yàn)閯傞_始去除較大的噪聲，噪聲水平下降較快；后面噪聲較小后難以準(zhǔn)確去除明顯很大的噪聲，故噪聲水平下降緩慢；當(dāng)噪聲水平相差不大或噪聲估計(jì)難以區(qū)分低噪聲樣本時(shí)，噪聲水平趨于穩(wěn)定.實(shí)際上，當(dāng)噪聲水平下降較慢時(shí)應(yīng)當(dāng)停止樣本去除，這個(gè)位置處于兩條線的最大間隔處，也就是使得式(10)達(dá)到最優(yōu)的過濾結(jié)果.圖1中約為γ=0.16，即應(yīng)當(dāng)去除16%的具有較大噪聲的樣本.

3 相對(duì)噪聲估計(jì)和過濾算法

本節(jié)提出一種相對(duì)噪聲估計(jì)方法，結(jié)合所提過濾框架得出新的過濾算法.

3.1 相對(duì)噪聲估計(jì)

真實(shí)標(biāo)簽有一定概率落入模型預(yù)測(cè)值之間.令：

(11)

則其覆蓋概率：

(12)

(13)

顯然J越大，覆蓋概率越大.但過大的J值可能使得訓(xùn)練子集規(guī)模過小，模型預(yù)測(cè)誤差過大.實(shí)際中取J=5以平衡訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋概率，此時(shí)覆蓋概率pC=0.937 5.

(14)

其中區(qū)間半徑s=(v-u)/2，實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|.

證明.期望絕對(duì)噪聲：

(15)

不妨設(shè)yi>c，則實(shí)際標(biāo)簽到區(qū)間中心的距離d=yi-c>0，

(16)

由奇偶函數(shù)積分的性質(zhì)可知:

(17)

(18)

因此有:

(19)

根據(jù)函數(shù)求導(dǎo)法則可得:

(20)

(21)

(22)

此時(shí)覆蓋概率

(23)

其中，Φ(·)表示標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù).

由J為正整數(shù)可知-Φ-1(2-J)>0，因此:

(24)

當(dāng)yi

證畢.

定義4.相對(duì)噪聲的定義為

(25)

其中，c和s分別為式(11)區(qū)間的中心和半徑，即c=(u+v)/2，s=(v-u)/2，實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|.

式(25)中對(duì)s做開方處理是由于其影響比d弱.公式中考慮了噪聲與其關(guān)鍵因素的正反比關(guān)系，并未設(shè)定噪聲與d和s的比例常數(shù)，因此是一種相對(duì)噪聲估計(jì)方法.直觀上，標(biāo)簽噪聲越大，則yi到區(qū)間中心的距離越遠(yuǎn)(d越大)；噪聲越大，則分布的方差和區(qū)間半徑越大.總體上相對(duì)噪聲與d和s成正比.

3.2 相對(duì)噪聲過濾

通常大噪聲樣本應(yīng)當(dāng)先被去掉以獲得較低的噪聲水平.利用式(25)來估計(jì)所有標(biāo)簽噪聲，然后逐個(gè)去除剩余子集中的最大噪聲樣本，并計(jì)算式(10)中的目標(biāo)函數(shù)值.根據(jù)最大目標(biāo)函數(shù)值即可找到最佳過濾結(jié)果.

算法1.相對(duì)噪聲過濾(RNF)算法.

輸出：過濾后數(shù)據(jù)集D*.

① 將數(shù)據(jù)集D隨機(jī)劃分為5個(gè)子集，然后用每個(gè)子集數(shù)據(jù)對(duì)回歸模型f(x)進(jìn)行訓(xùn)練，并在全部數(shù)據(jù)上進(jìn)行預(yù)測(cè)；

② 根據(jù)式(11)計(jì)算覆蓋區(qū)間[u,v]，并用式(25)計(jì)算噪聲估計(jì)值；

③ 將數(shù)據(jù)按照噪聲從大到小順序排列得到D′；

④ fort=0 ton-1

⑥ end for

算法1在有限集合中求解固定的優(yōu)化目標(biāo)函數(shù)，因此一定存在最優(yōu)解.實(shí)際中采用3近鄰回歸作為基模型.算法1中模型訓(xùn)練和預(yù)測(cè)的時(shí)間復(fù)雜度為O(nlogn)，其余部分均為線性時(shí)間復(fù)雜度，因此算法總時(shí)間復(fù)雜度為T(RNF)=O(nlogn).如果基模型采用其他模型，則算法總時(shí)間復(fù)雜度與基模型復(fù)雜度相同.

4 實(shí)驗(yàn)結(jié)果及分析

本節(jié)首先介紹了過濾算法在標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)框架、理論結(jié)果驗(yàn)證、實(shí)驗(yàn)結(jié)果與分析，然后在真實(shí)人臉年齡估計(jì)數(shù)據(jù)上做了標(biāo)簽噪聲檢測(cè)和泛化性能分析.

4.1 實(shí)驗(yàn)框架

實(shí)驗(yàn)中首先將原始標(biāo)準(zhǔn)回歸數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集，兩者的樣本比例為7∶3；然后隨機(jī)在訓(xùn)練集的部分輸出標(biāo)簽上添加人工噪聲，并用各種噪聲過濾算法來識(shí)別噪聲和過濾樣本；最后將回歸模型在過濾后的數(shù)據(jù)集上進(jìn)行訓(xùn)練，并在測(cè)試集上測(cè)試其泛化能力.實(shí)驗(yàn)中每輪數(shù)據(jù)劃分、加噪聲、過濾和預(yù)測(cè)環(huán)節(jié)均重復(fù)5次以獲得穩(wěn)定結(jié)果.

表1列出了實(shí)驗(yàn)中使用的15個(gè)標(biāo)準(zhǔn)回歸數(shù)據(jù)集[26-27].數(shù)據(jù)的數(shù)值型特征均被歸一化到區(qū)間[-1,1].

Table 1 Dataset Information表1 數(shù)據(jù)集信息

實(shí)驗(yàn)中包括8種數(shù)值型標(biāo)簽噪聲，分別服從均勻分布U(-1,1)、均勻分布U(-1.5,1.5)、高斯分布N(μ=0,σ=1)、高斯分布N(μ=0,σ=1.5)、拉普拉斯分布Lp(μ=0,σ=1)、拉普拉斯分布Lp(μ=0,σ=1.5)、高斯混合分布N(μ=1,σ=0.3)+N(μ=-1,σ=0.3)、高斯混合分布N(μ=1,σ=0.1)+N(μ=-1.2,σ=0.5).最后2個(gè)混合分布中單個(gè)高斯分布噪聲各占50%.噪聲比例NR=0.1,0.2,0.3,0.4.

對(duì)比過濾算法包括基于互信息(MI，閾值為0.05，近鄰數(shù)為9)的過濾[21]、回歸近鄰過濾(RegENN，閾值為5，近鄰數(shù)為9)[9]、離散近鄰過濾(DiscENN，近鄰數(shù)為9)[22]、覆蓋距離過濾(CDF，子集數(shù)為5)[10].此外，所提相對(duì)噪聲過濾算法(RNF)還與未過濾(NoF)數(shù)據(jù)做了對(duì)比分析.

測(cè)試模型包括k近鄰回歸模型(kNN)、支持向量回歸模型(SVR)、高斯過程回歸(GPR)和隨機(jī)森林(RF).模型在測(cè)試集上的泛化能力采用均方誤差(mean square error,MSE)來度量:

(26)

4.2 理論結(jié)果驗(yàn)證

圖1噪聲過濾框架模擬結(jié)果顯示，當(dāng)相對(duì)樣本量和相對(duì)噪聲水平具有最大間隔時(shí)，式(10)取得最優(yōu)解，此時(shí)的去噪比例較為合適，能夠使模型獲得較好的泛化能力.為驗(yàn)證此結(jié)論，在2個(gè)數(shù)據(jù)集上人工添加2類噪聲，并在不同去噪比例下測(cè)試了模型的預(yù)測(cè)誤差.具體設(shè)置為：1)對(duì)表1中第7個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從均勻分布U(-1.5,1.5)的噪聲；2)對(duì)表1中第9個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從高斯分布N(μ=0,σ=1)的噪聲.2種情況下均設(shè)置去噪比例γ=0∶0.02∶0.5對(duì)數(shù)據(jù)進(jìn)行過濾，然后使用SVR,GPR和RF模型進(jìn)行訓(xùn)練(kNN的測(cè)試誤差較大)，并在無噪測(cè)試集上測(cè)試模型誤差.

圖2顯示了2種設(shè)置下模型測(cè)試誤差(MSE)在不同去噪比例下的變化趨勢(shì).各模型最低測(cè)試誤差采用實(shí)心圓點(diǎn)標(biāo)出.目標(biāo)函數(shù)曲線對(duì)應(yīng)右側(cè)坐標(biāo)軸，在目標(biāo)函數(shù)最大值(即相對(duì)樣本量與相對(duì)噪聲水平的最大間隔)處用豎虛線標(biāo)出.圖2(a)中，GPR模型在目標(biāo)函數(shù)最大值處具有最小測(cè)試誤差，其余2個(gè)模型在目標(biāo)函數(shù)最大值處的誤差非常接近最小測(cè)試誤差.圖2(b)中，3個(gè)模型在目標(biāo)函數(shù)最大值附近具有最小測(cè)試誤差.由此可見，模型最小測(cè)試誤差下的去噪比例通常位于目標(biāo)函數(shù)最大值附近.根據(jù)目標(biāo)函數(shù)最大值來確定去噪比例，能夠使模型獲得最低或較低的測(cè)試誤差，實(shí)驗(yàn)證實(shí)了所提框架的有效性.

Fig. 2 Model test errors under different denoising ratios圖2 不同去噪比例下的模型測(cè)試誤差

定理2表明期望噪聲與d和s均成正比，其中覆蓋區(qū)間半徑s=(v-u)/2，實(shí)際標(biāo)簽到覆蓋區(qū)間中心的距離d=|yi-c|.為驗(yàn)證此結(jié)論，在表1所有數(shù)據(jù)上添加6種人工噪聲，并構(gòu)造覆蓋區(qū)間.根據(jù)絕對(duì)噪聲|ei|和區(qū)間特征s,d可以分別計(jì)算出它們的Pearson相關(guān)系數(shù)及其相關(guān)性檢驗(yàn)的p值.相關(guān)系數(shù)和p值在所有數(shù)據(jù)上的平均值在表2中列出，其中p值越小表明相關(guān)性越顯著.

Table 2 Correlations Between Noise and the Characteristics of Covering Interval表2 噪聲與覆蓋區(qū)間特征的相關(guān)性

由表2可見，所有噪聲情況下2組相關(guān)性檢驗(yàn)的p值均<0.05且相關(guān)系數(shù)為正值，表明|ei|與s,d均顯著正相關(guān)；|ei|與d的相關(guān)系數(shù)明顯大于|ei|與s的相關(guān)系數(shù)，表明前者的相關(guān)性更強(qiáng)；從噪聲分布來看，拉普拉斯分布噪聲所對(duì)應(yīng)的相關(guān)系數(shù)最大，均勻分布噪聲的相關(guān)系數(shù)較小.表2的實(shí)驗(yàn)結(jié)果表明定理2所表達(dá)的正反比關(guān)系在實(shí)際中是成立的.

4.3 實(shí)驗(yàn)結(jié)果與分析

表3列出了不同噪聲比例下各數(shù)據(jù)集上不同過濾算法的測(cè)試誤差結(jié)果.通常噪聲比例越大，測(cè)試誤差也越大.當(dāng)噪聲水平較低(NR=0.1,0.2)時(shí)，所提RNF過濾算法能夠使得模型的測(cè)試誤差最小，且有明顯優(yōu)勢(shì)；當(dāng)噪聲水平較高(NR=0.3,0.4)時(shí)，RNF算法在大多數(shù)數(shù)據(jù)上取得了最小測(cè)試誤差.

Table 3 Average Test Error ±Standard Deviation of Four Models with Different Noise Ratios表3 不同噪聲比例下4種模型的平均測(cè)試誤差±標(biāo)準(zhǔn)差

續(xù)表3

圖3給出各模型測(cè)試誤差的臨界差異圖(critical difference, CD).CD圖不僅能給出不同算法的排名，還能顯示算法之間的差異是否顯著.圖3中算法排名越小表示算法對(duì)應(yīng)的測(cè)試誤差越小；算法平均排名之間的距離不超過CD值時(shí)使用橫線連接，表示算法之間差異不顯著.圖3中算法的平均排名是基于15個(gè)數(shù)據(jù)集和8種噪聲水平的模型測(cè)試誤差.

Fig. 3 CD diagram of each regression model error圖3 各回歸模型誤差CD圖

由圖3可見，所提RNF算法在各個(gè)模型上都取得了最小測(cè)試誤差.在kNN模型中，RNF與CDF算法無顯著性差異；在其他模型中，RNF比其他算法均有顯著性優(yōu)勢(shì).已有過濾算法中，CDF表現(xiàn)最佳，RegENN，DiscENN和MI無明顯差異.所有過濾算法均比未過濾數(shù)據(jù)(NoF)效果更好，即過濾能夠提升模型泛化能力，所提RNF算法的提升效果最明顯.

表4列出了不同噪聲比例下各模型平均測(cè)試誤差.總體上噪聲比例越大，測(cè)試誤差也越大.所提RNF算法的測(cè)試誤差最小.同時(shí)注意到，當(dāng)噪聲比例較低時(shí)，RNF的測(cè)試誤差明顯小于其他算法的誤差；當(dāng)噪聲比例較大(NR=0.4)時(shí)，RNF的測(cè)試誤差略微優(yōu)于CDF算法.總之，在低噪聲比例情況下RNF的優(yōu)勢(shì)更加明顯.

Table 4 Average Test Error of Each Model表4 各模型平均測(cè)試誤差

圖4顯示了各個(gè)過濾算法在5個(gè)不同數(shù)據(jù)規(guī)模上的過濾運(yùn)行時(shí)間.其中MI算法運(yùn)行時(shí)間最長；RegENN和DiscENN運(yùn)行時(shí)間略短；CDF和RNF的運(yùn)行時(shí)間最短，而且比其他算法快至少一個(gè)數(shù)量級(jí).在小規(guī)模數(shù)據(jù)上，RNF的效率比CDF略高，兩者一般相差不大.

Fig. 4 Runtime of filtering algorithms圖4 過濾算法的運(yùn)行時(shí)間

4.4 年齡標(biāo)簽噪聲過濾

人臉年齡估計(jì)是一個(gè)具有挑戰(zhàn)性的監(jiān)督學(xué)習(xí)問題，ICCV和CVPR等計(jì)算機(jī)視覺頂會(huì)在競(jìng)賽任務(wù)中曾公開過人臉圖像和年齡標(biāo)注數(shù)據(jù)[28-29].每個(gè)圖像的年齡標(biāo)簽是多個(gè)標(biāo)記者所給年齡估計(jì)的均值，這些數(shù)據(jù)中存在部分標(biāo)記與人臉圖像不匹配的情況.通過RNF噪聲過濾可以找到這些標(biāo)簽噪聲數(shù)據(jù)，進(jìn)而提升模型預(yù)測(cè)性能.

原始數(shù)據(jù)來自ICCV 2015和CVPR 2016[28-29]，共有18 424張圖像和對(duì)應(yīng)年齡標(biāo)簽，其中2個(gè)數(shù)據(jù)子集中存在一些重復(fù)圖像，每個(gè)圖像通過左右翻轉(zhuǎn)做了增強(qiáng).圖像特征采用經(jīng)典的VGG16深度網(wǎng)絡(luò)提取特征.重復(fù)執(zhí)行5次RNF得到平均年齡標(biāo)簽噪聲估計(jì)結(jié)果，表5列出了平均相對(duì)噪聲排名前60的部分年齡標(biāo)簽噪聲，圖像按照相對(duì)噪聲從大到小排列.表5中部分圖像相同(如編號(hào)為4,7的圖像)，但它們所屬子集不同，年齡標(biāo)簽也不同.

Table 5 Age Label Noises Recognized by Relative Noise表5 根據(jù)相對(duì)噪聲識(shí)別的年齡標(biāo)簽噪聲

續(xù)表5

表5中既有年齡標(biāo)簽偏高的情況(如編號(hào)為1,5,8的圖像)，也有年齡標(biāo)簽偏低的情況(如編號(hào)為4,6,18的圖像).在因特爾8核3.6 GHz處理器8 GB內(nèi)存的單機(jī)上進(jìn)行實(shí)驗(yàn)，每輪RNF過濾的時(shí)間不超過10 s.可見RNF過濾算法能夠快速準(zhǔn)確地找到標(biāo)簽噪聲.

經(jīng)RNF過濾后的數(shù)據(jù)集大約包括86%的原始樣本，回歸模型在過濾后的數(shù)據(jù)集上訓(xùn)練后，在另一個(gè)wiki年齡數(shù)據(jù)[30]上進(jìn)行測(cè)試.表6中列出了誤差較小的k近鄰和隨機(jī)森林模型的測(cè)試結(jié)果.年齡測(cè)試誤差采用平均絕對(duì)誤差(mean absolute error,MAE)度量.

Table 6 Comparison of Test Errors with Various Filters表6 各種過濾算法的測(cè)試誤差比較

表6中對(duì)比了2個(gè)模型經(jīng)未過濾原始數(shù)據(jù)(NoF)、CDF和RNF過濾數(shù)據(jù)訓(xùn)練后的測(cè)試誤差.對(duì)比的測(cè)試樣本集包括wiki全部有效年齡在0～80歲樣本集、不過濾情況下測(cè)試誤差大于5和10的樣本集.結(jié)果表明，與不過濾NoF原始數(shù)據(jù)相比，RNF在所有情況下都能夠降低模型測(cè)試誤差，在多數(shù)情況下能顯著降低測(cè)試誤差(t檢驗(yàn)的p<0.05).與CDF過濾算法相比，RNF在wiki全部樣本上與其無顯著差異，在大噪聲樣本MAE>10上有明顯優(yōu)勢(shì).

總體上，RNF過濾算法在人臉年齡數(shù)據(jù)上檢測(cè)出許多標(biāo)簽噪聲數(shù)據(jù)，能夠有效提升數(shù)據(jù)質(zhì)量和模型預(yù)測(cè)性能.

5 結(jié) 論

數(shù)值型標(biāo)簽噪聲問題給回歸任務(wù)帶來嚴(yán)峻挑戰(zhàn).噪聲過濾可以有效識(shí)別噪聲數(shù)據(jù)，但缺乏模型泛化能力提升的理論保障，實(shí)際中還存在過度清洗、自適應(yīng)差、依賴參數(shù)設(shè)置等問題.本文根據(jù)無噪回歸任務(wù)中的學(xué)習(xí)理論給出了面向數(shù)值型標(biāo)簽噪聲數(shù)據(jù)的泛化誤差界，從而明確了影響模型泛化能力的關(guān)鍵數(shù)據(jù)因素(數(shù)據(jù)量和噪聲水平).在此基礎(chǔ)上提出一種可解釋的噪聲過濾框架，其目標(biāo)是以較小的樣本去除代價(jià)最大程度地降低噪聲水平.此框架不僅適用于普通噪聲估計(jì)方法，也適用于相對(duì)噪聲估計(jì)，只需知道噪聲之間的比值關(guān)系即可.

針對(duì)噪聲估計(jì)問題，從理論上分析了噪聲與覆蓋區(qū)間關(guān)鍵指標(biāo)之間的變化趨勢(shì)，進(jìn)而構(gòu)建了相對(duì)噪聲估計(jì)方法.此方法與所提框架結(jié)合形成了RNF過濾算法.在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)上均驗(yàn)證了算法的有效性.所提框架和相對(duì)噪聲估計(jì)方法均有理論支撐，可以確保算法取得良好的過濾效果.實(shí)驗(yàn)結(jié)果證實(shí)了RNF算法在不同噪聲分布、不同噪聲比例、不同數(shù)據(jù)集、不同回歸模型等復(fù)雜情況下具有較好的適應(yīng)性.

所提過濾框架可用于解決其他過濾算法的超參數(shù)優(yōu)化和適應(yīng)性問題；所提噪聲估計(jì)和過濾算法為有序回歸或分類任務(wù)中的標(biāo)簽噪聲問題提供了新思路.