陳 倩,楊 旻,魏鵬飛
(煙臺大學(xué)數(shù)學(xué)與信息科學(xué)學(xué)院,山東 煙臺 264005)
定義標(biāo)簽噪聲為:
其中ρ+1,ρ-1∈[0,1)且ρ+1+ρ-1<1.
目前,許多分類器的設(shè)計都是通過帶有標(biāo)簽的數(shù)據(jù)訓(xùn)練得到的,分類的準(zhǔn)確性依賴于數(shù)據(jù)標(biāo)簽的準(zhǔn)確性.但實際應(yīng)用中,由于種種原因,數(shù)據(jù)標(biāo)簽經(jīng)常被損壞,如何從帶有噪聲標(biāo)簽的數(shù)據(jù)中獲得分類器引起科研工程人員的廣泛關(guān)注.在全監(jiān)督學(xué)習(xí)的框架下,ANGLUIN和LAIRD[1]提出了隨機分類噪聲(RCN)模型,其中每個數(shù)據(jù)標(biāo)簽以概率P∈[0,0.5)獨立翻轉(zhuǎn);ASLAM和DECATUR[2]證明,如果函數(shù)類是有限的VC維度,利用0-1損失函數(shù)的RCN是PAC可學(xué)習(xí)的;KEARNS[3]還提出了學(xué)習(xí)RCN的統(tǒng)計查詢模型,FRENAY和VERLEYSEN[4]針對不同類型的標(biāo)簽噪聲帶來的后果進行了研究;SCOTT[5]通過“混合比例估計”給出了一種基于代理風(fēng)險最小化的存在噪聲標(biāo)簽的分類算法,LIU等[6]在此基礎(chǔ)上做了進一步改進,提出重要性重加權(quán)的方法.
然而,對所有數(shù)據(jù)進行標(biāo)記往往費時費力,甚至很難完成,很多實際應(yīng)用中,往往只能得到小部分帶標(biāo)簽數(shù)據(jù).為此,本文將研究一部分?jǐn)?shù)據(jù)標(biāo)簽缺失,且標(biāo)簽又有噪聲的分類問題.我們著眼于二分類問題,主要步驟及思路如下:首先,利用已標(biāo)注數(shù)據(jù),采用密度估計方法評估標(biāo)簽的重要性,建立帶權(quán)的優(yōu)化目標(biāo)函數(shù),從而得到初始分類器;其次,用訓(xùn)練好的分類器分類無標(biāo)簽數(shù)據(jù),將置信度較高的一部分?jǐn)?shù)據(jù)移入訓(xùn)練集中;然后,再次進行重加權(quán)分類,得到新的分類器.重復(fù)上述過程,直到所有數(shù)據(jù)均已處理.
本文主要創(chuàng)新改進之處在于:第一,針對的數(shù)據(jù)集僅有部分?jǐn)?shù)據(jù)帶標(biāo)簽且標(biāo)簽帶有噪聲,解決了標(biāo)注數(shù)據(jù)有限且?guī)г肼暤那闆r下分類的準(zhǔn)確性,節(jié)約了大量的標(biāo)注成本;第二,引入相對無約束最小二乘重要性擬合(RULSIF)算法[7]代替文獻[8]中采用的Kullback-Leibler重要性估計(KLIEP)算法進行標(biāo)簽重要性的估計,方法具有更好的準(zhǔn)確率.?dāng)?shù)值實驗表明,在典型數(shù)據(jù)集上本文提出的重加權(quán)半監(jiān)督方法獲得了與文獻[8]提出的全監(jiān)督方法相媲美的分類表現(xiàn).
本文主要結(jié)構(gòu)如下:第1節(jié)介紹重要性重加權(quán)的基本概念以及條件概率密度估計方法;第2節(jié)建立重要性重加權(quán)的半監(jiān)督分類方法;第3節(jié)在部分典型數(shù)據(jù)集上,進行數(shù)值實驗,在不同噪聲率下給出了與全監(jiān)督方法的比對結(jié)果.
本節(jié)主要介紹全監(jiān)督情形下標(biāo)簽帶噪聲數(shù)據(jù)分類優(yōu)化方法.首先考慮分類的期望風(fēng)險
實際應(yīng)用中用經(jīng)驗風(fēng)險近似期望風(fēng)險,故最優(yōu)分類器可由下述重加權(quán)優(yōu)化問題獲得:
其中F是給定函數(shù)類.
文獻[6]證明了如下2個結(jié)論,并將其用于權(quán)重的計算.
定理1[6]噪聲樣本的權(quán)重滿足下述關(guān)系:
(1)
注意到該估計方法往往需要一定的先驗知識,并且對數(shù)據(jù)的適應(yīng)能力有局限性.
當(dāng)樣本數(shù)量足夠大且維度較低時,可用帶窗的核密度(例如高斯核函數(shù))分別估計右端的3個概率.但是,這一密度估計方法在高維情況下效果欠佳,且需要大量的計算時間和存儲量,由于分別計算了3個概率密度,故誤差比較大.
(c) 密度比估計方法
c.1KLIEP算法[8]
c.2RULSIF算法[7,12]
對c.1中的w(x),通過最小化如下γ相關(guān)PE散度求解:
其中γ為相關(guān)密度比,0≤γ≤1.進一步,記γ相關(guān)密度比
RULSIF算法采用Gauss核函數(shù)擬合
其中,θ=[θ2,θ2,…,θn]是待求的向量參數(shù),σ是核寬度.最后通過最小化平方損失來求得θ.
密度比估計方法雖然需要求解額外的優(yōu)化問題,但適用于高維數(shù)據(jù),精度高于概率分類方法和核密度估計方法.本文的實驗將采用RULSIF算法,相比KLIEP算法,RULSIF在我們的實驗中對噪聲率的估計具有更好的準(zhǔn)確性.
實際問題中由于代價、風(fēng)險等多種原因,很難獲得所有數(shù)據(jù)的標(biāo)簽,半監(jiān)督學(xué)習(xí)[13]是近年來機器學(xué)習(xí)研究領(lǐng)域的一個熱點.相對于有監(jiān)督學(xué)習(xí)(只使用有標(biāo)簽數(shù)據(jù)訓(xùn)練)和無監(jiān)督學(xué)習(xí)(只使用無標(biāo)簽數(shù)據(jù)訓(xùn)練),半監(jiān)督學(xué)習(xí)應(yīng)用少量帶標(biāo)簽數(shù)據(jù)和大量無標(biāo)簽數(shù)據(jù)訓(xùn)練分類器,大大減少了人工標(biāo)注代價,提高分類器性能.半監(jiān)督學(xué)習(xí)解決了2個問題,一個是利用現(xiàn)有數(shù)據(jù)模擬出真實數(shù)據(jù)在特征空間的分布特點,二是在此基礎(chǔ)上確定分類邊界.
在半監(jiān)督分類研究方面,self-training[14]算法的學(xué)習(xí)過程用少部分有標(biāo)簽的數(shù)據(jù)來訓(xùn)練初始分類器,然后用訓(xùn)練好的初始分類器分類無標(biāo)簽數(shù)據(jù),將置信度比較高的一部分?jǐn)?shù)據(jù)移入訓(xùn)練集中,然后再用新的有標(biāo)簽數(shù)據(jù)集重新訓(xùn)練分類器并再次分類無標(biāo)簽數(shù)據(jù),不斷循環(huán),直至訓(xùn)練出的模型符合要求.其中挑選置信度高的數(shù)據(jù)移入訓(xùn)練集是基于類概率估計,若屬于某類的概率超過預(yù)定義閾值T,則為該數(shù)據(jù)分配標(biāo)簽.
在有限數(shù)據(jù)帶標(biāo)簽且標(biāo)簽帶有噪聲的前提下,我們將結(jié)合self-training和重要性重加權(quán)提出半監(jiān)督重要性重加權(quán)算法.該算法基于數(shù)據(jù)具有連續(xù)性假設(shè),即特征空間相互靠近的點的標(biāo)簽相同的概率比較大.
算法的主要思路是首先用已知標(biāo)簽數(shù)據(jù)結(jié)合重要性重加權(quán),建立帶權(quán)的優(yōu)化目標(biāo)函數(shù),得到初始分類器;然后利用初始分類器分類未帶標(biāo)簽數(shù)據(jù),每個缺失標(biāo)簽數(shù)據(jù)得到標(biāo)簽后,我們將輸出類別概率較高的數(shù)據(jù)加入訓(xùn)練集中;接著,用新得到的訓(xùn)練集再進行重加權(quán)分類,得到新的分類器.上述過程不斷重復(fù),直至所有數(shù)據(jù)都打上標(biāo)簽或是達到我們提前設(shè)置的循環(huán)次數(shù),算法即停止,輸出最優(yōu)分類器.接下來給出具體算法.
半監(jiān)督重要性重加權(quán)分類算法:
1) 初始化:令k=0,給定最大迭代次數(shù)Nmax,給定刪選閾值T;
4) 若Hk+1≠?并且k 上述算法中刪選閾值T主要用于將置信度高的數(shù)據(jù)加入訓(xùn)練集中,進而更新分類器,T的取值范圍一般在0.7與0.9之間,而Nmax是為了控制半監(jiān)督循環(huán)次數(shù). 本文實驗的運行環(huán)境為:系統(tǒng)Ubuntu 16.04,CPU i5-7500,頻率3.4 GHz,內(nèi)存12 GB,Python 3.5,Pytorch 0.4.0.實驗數(shù)據(jù)采用UCI醫(yī)學(xué)分類數(shù)據(jù)集[15].實驗中采用的優(yōu)化求解器為BP神經(jīng)網(wǎng)絡(luò),我們選用sigmoid函數(shù)作為神經(jīng)元的激活函數(shù),最后的輸出經(jīng)softmax函數(shù)變換后屬于(0,1),表示該數(shù)據(jù)屬于某個類別的概率. 實驗中每組數(shù)據(jù)都按比例7∶3分成訓(xùn)練集和測試集,訓(xùn)練集中隨機刪去部分?jǐn)?shù)據(jù)的標(biāo)簽,而保留的標(biāo)簽又根據(jù)給定噪聲率ρ+,ρ-隨機翻轉(zhuǎn),損失函數(shù)采用均方損失,利用BP網(wǎng)絡(luò)進行分類訓(xùn)練,設(shè)置類別的刪選概率閾值T=0.865,最大迭代次數(shù)Nmax=103.為了避免偏差,每組實驗進行5次,分類準(zhǔn)確率取5次實驗結(jié)果的平均準(zhǔn)確率作為最后的分類準(zhǔn)確率. 表1—表3為不同數(shù)據(jù)集上的運行結(jié)果,其中第一行表示帶標(biāo)簽數(shù)據(jù)占整體數(shù)據(jù)的百分比(m/n),第一列表示噪聲率. 表1 在THYROID數(shù)據(jù)集上的分類準(zhǔn)確率 表1為THYROID數(shù)據(jù)集結(jié)果,特征維度5,樣本量215個,含正例65個,負例150個. 表2 在HEART數(shù)據(jù)集上的分類準(zhǔn)確率 表2為HEART數(shù)據(jù)集結(jié)果,特征維度13,樣本量270個,含正例120個,負例150個. 表3 在GERMAN數(shù)據(jù)集上的分類準(zhǔn)確率 表3為GERMAN數(shù)據(jù)集結(jié)果,特征維度20,樣本量1 000個,含正例300個,負例700個. 通過表1-表3可發(fā)現(xiàn):(1)分類準(zhǔn)確率隨著數(shù)據(jù)維度的增加而逐漸降低,5維數(shù)據(jù)最高的分類準(zhǔn)確率高達85%以上,而在20維數(shù)據(jù)上最高的準(zhǔn)確率只有73.33%,這主要是因為特征維度的提高影響了權(quán)重估計的準(zhǔn)確性;(2)分類準(zhǔn)確率隨著噪聲率的提高而降低.(3)標(biāo)簽數(shù)據(jù)比例為80%,50%的情況下,半監(jiān)督的分類準(zhǔn)確率與全監(jiān)督接近,特別地,表3中噪聲率(ρ+=0.4,ρ-=0.4)時,50%對應(yīng)的半監(jiān)督準(zhǔn)確率高于全監(jiān)督,這一現(xiàn)象可能的原因是被保留標(biāo)簽的50%數(shù)據(jù)恰巧具有更好的可分性,而這些好的可分性在隨后的多次循環(huán)過程中得以累計,從而導(dǎo)致最后的準(zhǔn)確率提升. 本節(jié)的實驗結(jié)果表明本文提出的方法在樣本數(shù)據(jù)質(zhì)量較差(標(biāo)簽不足且受損)的情況下,仍然取得了較好的分類準(zhǔn)確率.在未來的研究中可進一步考慮:(1)將方法推廣至多類問題;(2)標(biāo)簽帶噪聲的不完整數(shù)據(jù)的分類問題.3 實驗及結(jié)果分析