亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過濾算法

        2022-08-12 14:26:20姜高霞王文劍
        關(guān)鍵詞:模型

        姜高霞 王文劍,2

        1(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 太原 030006)2 (計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué)) 太原 030006)

        數(shù)據(jù)質(zhì)量是決定機(jī)器學(xué)習(xí)模型可靠性的關(guān)鍵因素之一,尤其在高風(fēng)險(xiǎn)智能應(yīng)用(如癌癥檢測(cè)、貸款分配等)中數(shù)據(jù)質(zhì)量至關(guān)重要.然而數(shù)據(jù)質(zhì)量在機(jī)器學(xué)習(xí)中起到的作用正在被低估,“每個(gè)人都想做模型工作,而不是數(shù)據(jù)工作”[1].監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中比較成熟的學(xué)習(xí)模式,在人臉表情識(shí)別、醫(yī)學(xué)診斷等領(lǐng)域不斷取得成功應(yīng)用,但都特別依賴以較高成本獲得的大規(guī)模、高質(zhì)量標(biāo)注數(shù)據(jù)[2-4].實(shí)際中的多數(shù)數(shù)據(jù),包括大量公開的標(biāo)準(zhǔn)數(shù)據(jù)集(如MNIST,CIFAR,ImageNet等),可能存在大量的標(biāo)簽噪聲,QuickDraw數(shù)據(jù)的標(biāo)簽錯(cuò)誤率甚至超過10%[5].諾貝爾獎(jiǎng)得主Kahneman認(rèn)為噪聲是影響人類判斷的黑洞,實(shí)際存在的噪聲遠(yuǎn)比人們預(yù)期的要多[6].加州大學(xué)的知名專業(yè)學(xué)者都將噪聲的干擾列為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的重要挑戰(zhàn)之一[7].

        監(jiān)督學(xué)習(xí)根據(jù)輸出數(shù)據(jù)類型分為分類和回歸任務(wù).標(biāo)簽噪聲在兩類任務(wù)中分別對(duì)應(yīng)了類別型標(biāo)簽噪聲(如將性別標(biāo)簽“男”誤標(biāo)為“女”)和數(shù)值型標(biāo)簽噪聲(如將年齡標(biāo)簽“3”誤標(biāo)為“20”).通常數(shù)值型標(biāo)簽噪聲問題更為復(fù)雜也更難解決,主要原因是數(shù)值型噪聲取值范圍更廣、分布類型更復(fù)雜[8-10].實(shí)際中人們不知道一個(gè)數(shù)據(jù)集中是否有標(biāo)簽噪聲,即使有噪聲也不知道哪些樣本有噪聲、噪聲有多大、噪聲有多少、噪聲服從什么分布等.因此解決回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問題是一項(xiàng)具有挑戰(zhàn)性的任務(wù).

        對(duì)于標(biāo)簽噪聲問題主要有2種解決思路:1)從算法層通過重構(gòu)損失函數(shù)、樣本加權(quán)或集成方式建立噪聲魯棒模型[11-13],這些模型并非對(duì)噪聲完全魯棒,還會(huì)在一定程度上受到噪聲干擾[14],在未知噪聲和強(qiáng)噪聲情況下這些模型表現(xiàn)不夠滿意[15];2)從數(shù)據(jù)層面實(shí)施噪聲過濾或糾正,也就是要將錯(cuò)誤標(biāo)簽數(shù)據(jù)去除或改正[16].相比于魯棒建模方法,噪聲過濾方法只需要給出樣本過濾結(jié)果,不需要對(duì)模型進(jìn)行任何改動(dòng),因此噪聲過濾的普適性更強(qiáng)、門檻更低.這類方法雖能降低數(shù)據(jù)噪聲水平,但無法保證模型泛化能力,而且難以適應(yīng)不同噪聲環(huán)境.

        針對(duì)回歸任務(wù)中的數(shù)值型標(biāo)簽噪聲問題,本文從泛化誤差界視角分析了數(shù)據(jù)因素(樣本量和噪聲水平)對(duì)模型泛化能力的影響,并據(jù)此構(gòu)建了樣本過濾框架和噪聲過濾算法.本文工作的主要貢獻(xiàn)包括4個(gè)方面:

        1) 修正了標(biāo)簽噪聲環(huán)境下回歸模型的泛化誤差界,明確了影響模型泛化能力的關(guān)鍵因素,為提升模型泛化能力的樣本過濾算法提供了理論指導(dǎo).

        2) 以降低泛化誤差界為目標(biāo),提出一種關(guān)于相對(duì)噪聲水平和相對(duì)樣本量的可解釋樣本過濾框架,它可以與一般噪聲估計(jì)方法結(jié)合,形成新的過濾算法.

        3) 分析了噪聲與覆蓋區(qū)間中心和半徑的單調(diào)關(guān)系,據(jù)此提出一種相對(duì)噪聲估計(jì)方法,并與前面所提樣本過濾框架結(jié)合設(shè)計(jì)了相對(duì)噪聲過濾算法.

        4) 在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提算法可以有效提升數(shù)據(jù)質(zhì)量和模型的泛化能力.

        1 相關(guān)工作

        標(biāo)簽噪聲過濾通過去除噪聲樣本提升含標(biāo)記數(shù)據(jù)的質(zhì)量,進(jìn)而提高監(jiān)督學(xué)習(xí)模型的預(yù)測(cè)性能.

        由于k近鄰模型對(duì)標(biāo)簽噪聲較為敏感,k近鄰模型常用于檢測(cè)和過濾標(biāo)簽噪聲.其主要思想是,如果一個(gè)樣本的標(biāo)簽與其多數(shù)近鄰的標(biāo)簽不一致,則認(rèn)為出現(xiàn)標(biāo)簽噪聲.典型算法有編輯近鄰(edited nearest neighbor, ENN)過濾器、全編輯近鄰(all edited nearest neighbor, ANN)過濾器[17]、近鄰感知(perception of nearest neighbor, PNN)過濾器[18].在回歸任務(wù)中,如果模型誤差超過一定閾值,則認(rèn)為出現(xiàn)數(shù)值型標(biāo)簽噪聲,這是一種面向回歸的編輯近鄰過濾算法(edited nearest neighbor for regression, RegENN)[9].

        集成過濾方法利用多個(gè)分類模型產(chǎn)生樣本預(yù)測(cè)標(biāo)簽,如果多數(shù)預(yù)測(cè)標(biāo)簽與其實(shí)際標(biāo)簽不一致,則認(rèn)為標(biāo)簽存在錯(cuò)誤應(yīng)當(dāng)去除[19-20].這些基模型可以采用不同類模型(如多數(shù)投票過濾),也可能是經(jīng)不同子集訓(xùn)練過的同類模型(如迭代劃分過濾).

        受到特征選擇的啟發(fā),文獻(xiàn)[21]提出一種基于互信息(mutual information, MI)的噪聲過濾算法.如果樣本去除其近鄰后特征與標(biāo)簽之間的互信息均發(fā)生明顯的變化(超過某個(gè)閾值),則認(rèn)為此樣本存在標(biāo)簽噪聲.

        回歸任務(wù)的標(biāo)簽可以通過離散化的方式將其轉(zhuǎn)化為分類任務(wù),這樣就可以利用分類標(biāo)簽噪聲過濾算法來識(shí)別回歸中的數(shù)值型標(biāo)簽噪聲.離散編輯近鄰(edited nearest neighbor based on discretization, DiscENN)對(duì)數(shù)值型標(biāo)簽做離散化處理后采用近鄰過濾來識(shí)別噪聲[22].

        多數(shù)噪聲過濾算法雖然能夠降低數(shù)據(jù)的噪聲水平,但無法保證提升模型預(yù)測(cè)性能.為此文獻(xiàn)[10]從泛化誤差界視角提出一種噪聲過濾的最優(yōu)樣本過濾框架和覆蓋距離過濾(covering distance filtering, CDF)算法.此框架為降低過濾后模型的泛化誤差界提供了理論保障,對(duì)指導(dǎo)噪聲過濾具有重要意義.

        上述方法中,MI,RegENN,DiscENN,CDF是面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過濾算法.部分算法的過濾效果比較依賴閾值,而閾值通常根據(jù)經(jīng)驗(yàn)指定,缺乏對(duì)噪聲數(shù)據(jù)的自適應(yīng)性.閾值設(shè)置不當(dāng)容易導(dǎo)致過度清洗,也就是去掉大量無噪樣本.雖然文獻(xiàn)[10]給出了過濾的理論依據(jù),但過濾目標(biāo)函數(shù)中包含參數(shù)較多且形式復(fù)雜,不利于直觀理解和實(shí)際應(yīng)用.在這些參數(shù)中,誤差界的置信度對(duì)結(jié)果影響不大,但增加了目標(biāo)函數(shù)復(fù)雜度;有些模型的VC維是無窮或不可計(jì)算,在實(shí)際應(yīng)用中需要根據(jù)經(jīng)驗(yàn)指定.

        2 泛化界視角下的噪聲過濾框架

        本節(jié)通過修正無噪條件下的學(xué)習(xí)理論得到含標(biāo)簽噪聲情況下的泛化誤差界,并據(jù)此提出含噪數(shù)據(jù)的過濾框架.

        2.1 基本定義

        (1)

        定義1.真實(shí)經(jīng)驗(yàn)誤差.回歸模型f(x)經(jīng)數(shù)據(jù)D訓(xùn)練后基于無噪標(biāo)簽的真實(shí)經(jīng)驗(yàn)誤差:

        (2)

        定義2.實(shí)際經(jīng)驗(yàn)誤差.模型在第i個(gè)樣本的實(shí)際誤差ri=f(xi)-yi,基于含噪標(biāo)簽的實(shí)際經(jīng)驗(yàn)誤差:

        (3)

        2.2 泛化誤差界

        引理1[23-25].對(duì)于平方損失下的無噪回歸任務(wù),以下泛化誤差(上)界以1-δ概率成立:

        R(f,D)≤Remp(f,D)×ε(D),

        (4)

        (5)

        證明.含標(biāo)簽噪聲時(shí)的真實(shí)經(jīng)驗(yàn)誤差:

        2Cov(ei,ri)+2ED(ei)ED(ri)=

        (6)

        其中模型誤差ri=f(xi)-yi,E(·)為期望函數(shù),Cov(ei,ri)表示噪聲ei與模型誤差ri的協(xié)方差.

        ε(D)不受標(biāo)簽噪聲的影響.由引理1可得模型具有泛化誤差(上)界:

        (7)

        證畢.

        2.3 噪聲過濾框架

        本節(jié)利用定理1的結(jié)果確定影響泛化誤差界的關(guān)鍵因素,并據(jù)此來構(gòu)造合理的噪聲過濾目標(biāo)函數(shù).

        噪聲過濾的目的是通過去除含噪樣本來提升數(shù)據(jù)質(zhì)量和模型泛化能力.將原始數(shù)據(jù)D經(jīng)過過濾后的數(shù)據(jù)記為D*.為使得回歸模型f(x)經(jīng)數(shù)據(jù)D*訓(xùn)練后的泛化性能最佳,根據(jù)定理1可得誤差界最低的目標(biāo):

        (8)

        其中Var(·)和ρ(·,·)分別表示方差和相關(guān)系數(shù).將協(xié)方差代入目標(biāo)函數(shù)可得:

        (9)

        (10)

        式(10)利用相對(duì)樣本量和相對(duì)噪聲水平來獲得較低的泛化誤差界,因此只需給出每個(gè)樣本的噪聲相對(duì)估計(jì)值即可計(jì)算出目標(biāo)函數(shù)值.式(10)可以與任意的噪聲相對(duì)估計(jì)方法和絕對(duì)估計(jì)方法相結(jié)合,因此它是一種適用面較廣的噪聲過濾框架.相比于文獻(xiàn)[10]中的過濾框架,式(10)放棄了次要因素(誤差界的置信度和模型VC維),精簡(jiǎn)了目標(biāo)函數(shù),使其可解釋性更強(qiáng),且其中不需要預(yù)先指定任何參數(shù).

        圖1給出了噪聲過濾框架的模擬結(jié)果.圖中橫坐標(biāo)表示去噪比例γ=1-n*/n,直線表示相對(duì)樣本量隨γ的變化趨勢(shì),曲線表示相對(duì)噪聲水平隨γ的變化趨勢(shì).其中樣本量設(shè)為1 000,噪聲比例為25%,噪聲服從正態(tài)分布N(0,0.52).由于實(shí)際中無法將所有噪聲準(zhǔn)確估計(jì)和排序,這里設(shè)定75%的噪聲能夠正確排序.按照噪聲先大后小的順序依次去除,重復(fù)200次后得到平均相對(duì)噪聲水平曲線.

        Fig. 1 Simulation of noise filtering framework圖1 噪聲過濾框架模擬

        總體上,隨著γ增大,過濾后數(shù)據(jù)集的相對(duì)樣本量變少,噪聲水平也變低,但噪聲水平的變化一般遵從先快后慢的規(guī)律.這是因?yàn)閯傞_始去除較大的噪聲,噪聲水平下降較快;后面噪聲較小后難以準(zhǔn)確去除明顯很大的噪聲,故噪聲水平下降緩慢;當(dāng)噪聲水平相差不大或噪聲估計(jì)難以區(qū)分低噪聲樣本時(shí),噪聲水平趨于穩(wěn)定.實(shí)際上,當(dāng)噪聲水平下降較慢時(shí)應(yīng)當(dāng)停止樣本去除,這個(gè)位置處于兩條線的最大間隔處,也就是使得式(10)達(dá)到最優(yōu)的過濾結(jié)果.圖1中約為γ=0.16,即應(yīng)當(dāng)去除16%的具有較大噪聲的樣本.

        3 相對(duì)噪聲估計(jì)和過濾算法

        本節(jié)提出一種相對(duì)噪聲估計(jì)方法,結(jié)合所提過濾框架得出新的過濾算法.

        3.1 相對(duì)噪聲估計(jì)

        真實(shí)標(biāo)簽有一定概率落入模型預(yù)測(cè)值之間.令:

        (11)

        則其覆蓋概率:

        (12)

        (13)

        顯然J越大,覆蓋概率越大.但過大的J值可能使得訓(xùn)練子集規(guī)模過小,模型預(yù)測(cè)誤差過大.實(shí)際中取J=5以平衡訓(xùn)練數(shù)據(jù)規(guī)模和覆蓋概率,此時(shí)覆蓋概率pC=0.937 5.

        (14)

        其中區(qū)間半徑s=(v-u)/2,實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|.

        證明.期望絕對(duì)噪聲:

        (15)

        不妨設(shè)yi>c,則實(shí)際標(biāo)簽到區(qū)間中心的距離d=yi-c>0,

        (16)

        由奇偶函數(shù)積分的性質(zhì)可知:

        (17)

        (18)

        因此有:

        (19)

        根據(jù)函數(shù)求導(dǎo)法則可得:

        (20)

        (21)

        (22)

        此時(shí)覆蓋概率

        (23)

        其中,Φ(·)表示標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù).

        由J為正整數(shù)可知-Φ-1(2-J)>0,因此:

        (24)

        當(dāng)yi

        證畢.

        定義4.相對(duì)噪聲的定義為

        (25)

        其中,c和s分別為式(11)區(qū)間的中心和半徑,即c=(u+v)/2,s=(v-u)/2,實(shí)際標(biāo)簽到區(qū)間中心的距離d=|yi-c|.

        式(25)中對(duì)s做開方處理是由于其影響比d弱.公式中考慮了噪聲與其關(guān)鍵因素的正反比關(guān)系,并未設(shè)定噪聲與d和s的比例常數(shù),因此是一種相對(duì)噪聲估計(jì)方法.直觀上,標(biāo)簽噪聲越大,則yi到區(qū)間中心的距離越遠(yuǎn)(d越大);噪聲越大,則分布的方差和區(qū)間半徑越大.總體上相對(duì)噪聲與d和s成正比.

        3.2 相對(duì)噪聲過濾

        通常大噪聲樣本應(yīng)當(dāng)先被去掉以獲得較低的噪聲水平.利用式(25)來估計(jì)所有標(biāo)簽噪聲,然后逐個(gè)去除剩余子集中的最大噪聲樣本,并計(jì)算式(10)中的目標(biāo)函數(shù)值.根據(jù)最大目標(biāo)函數(shù)值即可找到最佳過濾結(jié)果.

        算法1.相對(duì)噪聲過濾(RNF)算法.

        輸出:過濾后數(shù)據(jù)集D*.

        ① 將數(shù)據(jù)集D隨機(jī)劃分為5個(gè)子集,然后用每個(gè)子集數(shù)據(jù)對(duì)回歸模型f(x)進(jìn)行訓(xùn)練,并在全部數(shù)據(jù)上進(jìn)行預(yù)測(cè);

        ② 根據(jù)式(11)計(jì)算覆蓋區(qū)間[u,v],并用式(25)計(jì)算噪聲估計(jì)值;

        ③ 將數(shù)據(jù)按照噪聲從大到小順序排列得到D′;

        ④ fort=0 ton-1

        ⑥ end for

        算法1在有限集合中求解固定的優(yōu)化目標(biāo)函數(shù),因此一定存在最優(yōu)解.實(shí)際中采用3近鄰回歸作為基模型.算法1中模型訓(xùn)練和預(yù)測(cè)的時(shí)間復(fù)雜度為O(nlogn),其余部分均為線性時(shí)間復(fù)雜度,因此算法總時(shí)間復(fù)雜度為T(RNF)=O(nlogn).如果基模型采用其他模型,則算法總時(shí)間復(fù)雜度與基模型復(fù)雜度相同.

        4 實(shí)驗(yàn)結(jié)果及分析

        本節(jié)首先介紹了過濾算法在標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)框架、理論結(jié)果驗(yàn)證、實(shí)驗(yàn)結(jié)果與分析,然后在真實(shí)人臉年齡估計(jì)數(shù)據(jù)上做了標(biāo)簽噪聲檢測(cè)和泛化性能分析.

        4.1 實(shí)驗(yàn)框架

        實(shí)驗(yàn)中首先將原始標(biāo)準(zhǔn)回歸數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集,兩者的樣本比例為7∶3;然后隨機(jī)在訓(xùn)練集的部分輸出標(biāo)簽上添加人工噪聲,并用各種噪聲過濾算法來識(shí)別噪聲和過濾樣本;最后將回歸模型在過濾后的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并在測(cè)試集上測(cè)試其泛化能力.實(shí)驗(yàn)中每輪數(shù)據(jù)劃分、加噪聲、過濾和預(yù)測(cè)環(huán)節(jié)均重復(fù)5次以獲得穩(wěn)定結(jié)果.

        表1列出了實(shí)驗(yàn)中使用的15個(gè)標(biāo)準(zhǔn)回歸數(shù)據(jù)集[26-27].數(shù)據(jù)的數(shù)值型特征均被歸一化到區(qū)間[-1,1].

        Table 1 Dataset Information表1 數(shù)據(jù)集信息

        實(shí)驗(yàn)中包括8種數(shù)值型標(biāo)簽噪聲,分別服從均勻分布U(-1,1)、均勻分布U(-1.5,1.5)、高斯分布N(μ=0,σ=1)、高斯分布N(μ=0,σ=1.5)、拉普拉斯分布Lp(μ=0,σ=1)、拉普拉斯分布Lp(μ=0,σ=1.5)、高斯混合分布N(μ=1,σ=0.3)+N(μ=-1,σ=0.3)、高斯混合分布N(μ=1,σ=0.1)+N(μ=-1.2,σ=0.5).最后2個(gè)混合分布中單個(gè)高斯分布噪聲各占50%.噪聲比例NR=0.1,0.2,0.3,0.4.

        對(duì)比過濾算法包括基于互信息(MI,閾值為0.05,近鄰數(shù)為9)的過濾[21]、回歸近鄰過濾(RegENN,閾值為5,近鄰數(shù)為9)[9]、離散近鄰過濾(DiscENN,近鄰數(shù)為9)[22]、覆蓋距離過濾(CDF,子集數(shù)為5)[10].此外,所提相對(duì)噪聲過濾算法(RNF)還與未過濾(NoF)數(shù)據(jù)做了對(duì)比分析.

        測(cè)試模型包括k近鄰回歸模型(kNN)、支持向量回歸模型(SVR)、高斯過程回歸(GPR)和隨機(jī)森林(RF).模型在測(cè)試集上的泛化能力采用均方誤差(mean square error,MSE)來度量:

        (26)

        4.2 理論結(jié)果驗(yàn)證

        圖1噪聲過濾框架模擬結(jié)果顯示,當(dāng)相對(duì)樣本量和相對(duì)噪聲水平具有最大間隔時(shí),式(10)取得最優(yōu)解,此時(shí)的去噪比例較為合適,能夠使模型獲得較好的泛化能力.為驗(yàn)證此結(jié)論,在2個(gè)數(shù)據(jù)集上人工添加2類噪聲,并在不同去噪比例下測(cè)試了模型的預(yù)測(cè)誤差.具體設(shè)置為:1)對(duì)表1中第7個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從均勻分布U(-1.5,1.5)的噪聲;2)對(duì)表1中第9個(gè)數(shù)據(jù)訓(xùn)練集30%的標(biāo)簽添加服從高斯分布N(μ=0,σ=1)的噪聲.2種情況下均設(shè)置去噪比例γ=0∶0.02∶0.5對(duì)數(shù)據(jù)進(jìn)行過濾,然后使用SVR,GPR和RF模型進(jìn)行訓(xùn)練(kNN的測(cè)試誤差較大),并在無噪測(cè)試集上測(cè)試模型誤差.

        圖2顯示了2種設(shè)置下模型測(cè)試誤差(MSE)在不同去噪比例下的變化趨勢(shì).各模型最低測(cè)試誤差采用實(shí)心圓點(diǎn)標(biāo)出.目標(biāo)函數(shù)曲線對(duì)應(yīng)右側(cè)坐標(biāo)軸,在目標(biāo)函數(shù)最大值(即相對(duì)樣本量與相對(duì)噪聲水平的最大間隔)處用豎虛線標(biāo)出.圖2(a)中,GPR模型在目標(biāo)函數(shù)最大值處具有最小測(cè)試誤差,其余2個(gè)模型在目標(biāo)函數(shù)最大值處的誤差非常接近最小測(cè)試誤差.圖2(b)中,3個(gè)模型在目標(biāo)函數(shù)最大值附近具有最小測(cè)試誤差.由此可見,模型最小測(cè)試誤差下的去噪比例通常位于目標(biāo)函數(shù)最大值附近.根據(jù)目標(biāo)函數(shù)最大值來確定去噪比例,能夠使模型獲得最低或較低的測(cè)試誤差,實(shí)驗(yàn)證實(shí)了所提框架的有效性.

        Fig. 2 Model test errors under different denoising ratios圖2 不同去噪比例下的模型測(cè)試誤差

        定理2表明期望噪聲與d和s均成正比,其中覆蓋區(qū)間半徑s=(v-u)/2,實(shí)際標(biāo)簽到覆蓋區(qū)間中心的距離d=|yi-c|.為驗(yàn)證此結(jié)論,在表1所有數(shù)據(jù)上添加6種人工噪聲,并構(gòu)造覆蓋區(qū)間.根據(jù)絕對(duì)噪聲|ei|和區(qū)間特征s,d可以分別計(jì)算出它們的Pearson相關(guān)系數(shù)及其相關(guān)性檢驗(yàn)的p值.相關(guān)系數(shù)和p值在所有數(shù)據(jù)上的平均值在表2中列出,其中p值越小表明相關(guān)性越顯著.

        Table 2 Correlations Between Noise and the Characteristics of Covering Interval表2 噪聲與覆蓋區(qū)間特征的相關(guān)性

        由表2可見,所有噪聲情況下2組相關(guān)性檢驗(yàn)的p值均<0.05且相關(guān)系數(shù)為正值,表明|ei|與s,d均顯著正相關(guān);|ei|與d的相關(guān)系數(shù)明顯大于|ei|與s的相關(guān)系數(shù),表明前者的相關(guān)性更強(qiáng);從噪聲分布來看,拉普拉斯分布噪聲所對(duì)應(yīng)的相關(guān)系數(shù)最大,均勻分布噪聲的相關(guān)系數(shù)較小.表2的實(shí)驗(yàn)結(jié)果表明定理2所表達(dá)的正反比關(guān)系在實(shí)際中是成立的.

        4.3 實(shí)驗(yàn)結(jié)果與分析

        表3列出了不同噪聲比例下各數(shù)據(jù)集上不同過濾算法的測(cè)試誤差結(jié)果.通常噪聲比例越大,測(cè)試誤差也越大.當(dāng)噪聲水平較低(NR=0.1,0.2)時(shí),所提RNF過濾算法能夠使得模型的測(cè)試誤差最小,且有明顯優(yōu)勢(shì);當(dāng)噪聲水平較高(NR=0.3,0.4)時(shí),RNF算法在大多數(shù)數(shù)據(jù)上取得了最小測(cè)試誤差.

        Table 3 Average Test Error ±Standard Deviation of Four Models with Different Noise Ratios表3 不同噪聲比例下4種模型的平均測(cè)試誤差±標(biāo)準(zhǔn)差

        續(xù)表3

        圖3給出各模型測(cè)試誤差的臨界差異圖(critical difference, CD).CD圖不僅能給出不同算法的排名,還能顯示算法之間的差異是否顯著.圖3中算法排名越小表示算法對(duì)應(yīng)的測(cè)試誤差越小;算法平均排名之間的距離不超過CD值時(shí)使用橫線連接,表示算法之間差異不顯著.圖3中算法的平均排名是基于15個(gè)數(shù)據(jù)集和8種噪聲水平的模型測(cè)試誤差.

        Fig. 3 CD diagram of each regression model error圖3 各回歸模型誤差CD圖

        由圖3可見,所提RNF算法在各個(gè)模型上都取得了最小測(cè)試誤差.在kNN模型中,RNF與CDF算法無顯著性差異;在其他模型中,RNF比其他算法均有顯著性優(yōu)勢(shì).已有過濾算法中,CDF表現(xiàn)最佳,RegENN,DiscENN和MI無明顯差異.所有過濾算法均比未過濾數(shù)據(jù)(NoF)效果更好,即過濾能夠提升模型泛化能力,所提RNF算法的提升效果最明顯.

        表4列出了不同噪聲比例下各模型平均測(cè)試誤差.總體上噪聲比例越大,測(cè)試誤差也越大.所提RNF算法的測(cè)試誤差最小.同時(shí)注意到,當(dāng)噪聲比例較低時(shí),RNF的測(cè)試誤差明顯小于其他算法的誤差;當(dāng)噪聲比例較大(NR=0.4)時(shí),RNF的測(cè)試誤差略微優(yōu)于CDF算法.總之,在低噪聲比例情況下RNF的優(yōu)勢(shì)更加明顯.

        Table 4 Average Test Error of Each Model表4 各模型平均測(cè)試誤差

        圖4顯示了各個(gè)過濾算法在5個(gè)不同數(shù)據(jù)規(guī)模上的過濾運(yùn)行時(shí)間.其中MI算法運(yùn)行時(shí)間最長;RegENN和DiscENN運(yùn)行時(shí)間略短;CDF和RNF的運(yùn)行時(shí)間最短,而且比其他算法快至少一個(gè)數(shù)量級(jí).在小規(guī)模數(shù)據(jù)上,RNF的效率比CDF略高,兩者一般相差不大.

        Fig. 4 Runtime of filtering algorithms圖4 過濾算法的運(yùn)行時(shí)間

        4.4 年齡標(biāo)簽噪聲過濾

        人臉年齡估計(jì)是一個(gè)具有挑戰(zhàn)性的監(jiān)督學(xué)習(xí)問題,ICCV和CVPR等計(jì)算機(jī)視覺頂會(huì)在競(jìng)賽任務(wù)中曾公開過人臉圖像和年齡標(biāo)注數(shù)據(jù)[28-29].每個(gè)圖像的年齡標(biāo)簽是多個(gè)標(biāo)記者所給年齡估計(jì)的均值,這些數(shù)據(jù)中存在部分標(biāo)記與人臉圖像不匹配的情況.通過RNF噪聲過濾可以找到這些標(biāo)簽噪聲數(shù)據(jù),進(jìn)而提升模型預(yù)測(cè)性能.

        原始數(shù)據(jù)來自ICCV 2015和CVPR 2016[28-29],共有18 424張圖像和對(duì)應(yīng)年齡標(biāo)簽,其中2個(gè)數(shù)據(jù)子集中存在一些重復(fù)圖像,每個(gè)圖像通過左右翻轉(zhuǎn)做了增強(qiáng).圖像特征采用經(jīng)典的VGG16深度網(wǎng)絡(luò)提取特征.重復(fù)執(zhí)行5次RNF得到平均年齡標(biāo)簽噪聲估計(jì)結(jié)果,表5列出了平均相對(duì)噪聲排名前60的部分年齡標(biāo)簽噪聲,圖像按照相對(duì)噪聲從大到小排列.表5中部分圖像相同(如編號(hào)為4,7的圖像),但它們所屬子集不同,年齡標(biāo)簽也不同.

        Table 5 Age Label Noises Recognized by Relative Noise表5 根據(jù)相對(duì)噪聲識(shí)別的年齡標(biāo)簽噪聲

        續(xù)表5

        表5中既有年齡標(biāo)簽偏高的情況(如編號(hào)為1,5,8的圖像),也有年齡標(biāo)簽偏低的情況(如編號(hào)為4,6,18的圖像).在因特爾8核3.6 GHz處理器8 GB內(nèi)存的單機(jī)上進(jìn)行實(shí)驗(yàn),每輪RNF過濾的時(shí)間不超過10 s.可見RNF過濾算法能夠快速準(zhǔn)確地找到標(biāo)簽噪聲.

        經(jīng)RNF過濾后的數(shù)據(jù)集大約包括86%的原始樣本,回歸模型在過濾后的數(shù)據(jù)集上訓(xùn)練后,在另一個(gè)wiki年齡數(shù)據(jù)[30]上進(jìn)行測(cè)試.表6中列出了誤差較小的k近鄰和隨機(jī)森林模型的測(cè)試結(jié)果.年齡測(cè)試誤差采用平均絕對(duì)誤差(mean absolute error,MAE)度量.

        Table 6 Comparison of Test Errors with Various Filters表6 各種過濾算法的測(cè)試誤差比較

        表6中對(duì)比了2個(gè)模型經(jīng)未過濾原始數(shù)據(jù)(NoF)、CDF和RNF過濾數(shù)據(jù)訓(xùn)練后的測(cè)試誤差.對(duì)比的測(cè)試樣本集包括wiki全部有效年齡在0~80歲樣本集、不過濾情況下測(cè)試誤差大于5和10的樣本集.結(jié)果表明,與不過濾NoF原始數(shù)據(jù)相比,RNF在所有情況下都能夠降低模型測(cè)試誤差,在多數(shù)情況下能顯著降低測(cè)試誤差(t檢驗(yàn)的p<0.05).與CDF過濾算法相比,RNF在wiki全部樣本上與其無顯著差異,在大噪聲樣本MAE>10上有明顯優(yōu)勢(shì).

        總體上,RNF過濾算法在人臉年齡數(shù)據(jù)上檢測(cè)出許多標(biāo)簽噪聲數(shù)據(jù),能夠有效提升數(shù)據(jù)質(zhì)量和模型預(yù)測(cè)性能.

        5 結(jié) 論

        數(shù)值型標(biāo)簽噪聲問題給回歸任務(wù)帶來嚴(yán)峻挑戰(zhàn).噪聲過濾可以有效識(shí)別噪聲數(shù)據(jù),但缺乏模型泛化能力提升的理論保障,實(shí)際中還存在過度清洗、自適應(yīng)差、依賴參數(shù)設(shè)置等問題.本文根據(jù)無噪回歸任務(wù)中的學(xué)習(xí)理論給出了面向數(shù)值型標(biāo)簽噪聲數(shù)據(jù)的泛化誤差界,從而明確了影響模型泛化能力的關(guān)鍵數(shù)據(jù)因素(數(shù)據(jù)量和噪聲水平).在此基礎(chǔ)上提出一種可解釋的噪聲過濾框架,其目標(biāo)是以較小的樣本去除代價(jià)最大程度地降低噪聲水平.此框架不僅適用于普通噪聲估計(jì)方法,也適用于相對(duì)噪聲估計(jì),只需知道噪聲之間的比值關(guān)系即可.

        針對(duì)噪聲估計(jì)問題,從理論上分析了噪聲與覆蓋區(qū)間關(guān)鍵指標(biāo)之間的變化趨勢(shì),進(jìn)而構(gòu)建了相對(duì)噪聲估計(jì)方法.此方法與所提框架結(jié)合形成了RNF過濾算法.在標(biāo)準(zhǔn)數(shù)據(jù)集和真實(shí)人臉年齡估計(jì)數(shù)據(jù)上均驗(yàn)證了算法的有效性.所提框架和相對(duì)噪聲估計(jì)方法均有理論支撐,可以確保算法取得良好的過濾效果.實(shí)驗(yàn)結(jié)果證實(shí)了RNF算法在不同噪聲分布、不同噪聲比例、不同數(shù)據(jù)集、不同回歸模型等復(fù)雜情況下具有較好的適應(yīng)性.

        所提過濾框架可用于解決其他過濾算法的超參數(shù)優(yōu)化和適應(yīng)性問題;所提噪聲估計(jì)和過濾算法為有序回歸或分類任務(wù)中的標(biāo)簽噪聲問題提供了新思路.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務(wù)本地化模型
        適用于BDS-3 PPP的隨機(jī)模型
        提煉模型 突破難點(diǎn)
        函數(shù)模型及應(yīng)用
        p150Glued在帕金森病模型中的表達(dá)及分布
        函數(shù)模型及應(yīng)用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        国产成人精品电影在线观看| 精品久久一品二品三品| 日韩精品高清不卡一区二区三区| 全亚洲高清视频在线观看| 精品女同一区二区三区| 国产精品人人做人人爽人人添| 国内精品伊人久久久久网站| 国产精品区一区第一页| 亚洲精品综合第一国产综合| 日韩精品成人一区二区在线观看| 手机在线中文字幕av| 精品国产一区二区三区香| 成年女人免费v片| 国产永久免费高清在线| 啪啪无码人妻丰满熟妇| 老熟女多次高潮露脸视频| 中文字幕无码专区一VA亚洲V专| 2021年性爱喷水视频| 一区二区黄色素人黄色| 无码专区人妻系列日韩精品| 国产精品欧美成人| 日韩高清毛片| 视频福利一区二区三区| 精品厕所偷拍一区二区视频| 人妻少妇中文字幕乱码| 久99久热只有精品国产男同| 亚洲国产另类久久久精品小说| 久久久精品2019免费观看| 日本视频在线观看一区二区| 久久综合丝袜日本网| 成人性生交片无码免费看| 亚洲精品一二区| 国产精品成年人毛片毛片| 亚洲av熟女一区二区三区站| 国产成人无码av一区二区| 亚洲AV无码精品呻吟| 日韩精品极品免费观看| 成av人大片免费看的网站| 久久久久亚洲精品男人的天堂 | 激情久久av一区av二区av三区| 亚洲国产一区二区三区在观看|