毛銘澤,曹芮浩,閆春鋼
(同濟(jì)大學(xué)電子與信息工程學(xué)院,上海 201804)
(*通信作者電子郵箱yanchungang@#edu.cn)
近年來(lái),機(jī)器學(xué)習(xí)領(lǐng)域的研究十分火熱,尤其是監(jiān)督學(xué)習(xí)的算法研究,更是在許多的應(yīng)用領(lǐng)域中取得了成功,但是取得完全監(jiān)督的訓(xùn)練數(shù)據(jù)是一件很困難且耗費(fèi)巨大資源的事情,因此,弱監(jiān)督學(xué)習(xí)方法的研究引起了越來(lái)越多學(xué)者的關(guān)注。依據(jù)訓(xùn)練數(shù)據(jù)類(lèi)型,弱監(jiān)督學(xué)習(xí)研究[1]主要分為以下三類(lèi):不完全監(jiān)督(incomplete supervision)、不明確監(jiān)督(inexact supervision)和不準(zhǔn)確監(jiān)督(inaccurate supervision)三種。不完全監(jiān)督是指在只有少量的標(biāo)注數(shù)據(jù)、大量未標(biāo)注數(shù)據(jù)的情況下進(jìn)行學(xué)習(xí),主動(dòng)學(xué)習(xí)(active learning)和半監(jiān)督學(xué)習(xí)(semisupervised learning)是研究中最常見(jiàn)的兩種方案。其中主動(dòng)學(xué)習(xí)[2]是指利用方法對(duì)未標(biāo)注的數(shù)據(jù)打上假定正確的標(biāo)簽,使用標(biāo)簽補(bǔ)充完整的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練;而半監(jiān)督學(xué)習(xí)[3-5]是指在學(xué)習(xí)標(biāo)注數(shù)據(jù)的基礎(chǔ)上,再利用未標(biāo)注數(shù)據(jù)增強(qiáng)分類(lèi)學(xué)習(xí)的性能。不明確監(jiān)督是指數(shù)據(jù)樣本僅僅具有粗粒度的標(biāo)簽,但沒(méi)有具體樣本的準(zhǔn)確標(biāo)注[6]。不準(zhǔn)確監(jiān)督是指訓(xùn)練數(shù)據(jù)的標(biāo)注并不完全置信[7-8],其中可能存在著錯(cuò)誤標(biāo)注的樣本。也就是說(shuō)在這種情形下,需要在存在噪聲數(shù)據(jù)的情況下學(xué)習(xí)分類(lèi)模型。
相對(duì)不明確監(jiān)督和不準(zhǔn)確監(jiān)督而言,不完全監(jiān)督通過(guò)更好地利用未標(biāo)注數(shù)據(jù)來(lái)擴(kuò)充訓(xùn)練空間,提升學(xué)習(xí)性能。其中,半監(jiān)督學(xué)習(xí)的方案是不需要人工干預(yù)的一種學(xué)習(xí)方法。半監(jiān)督學(xué)習(xí)方法一共分為四類(lèi),分別為生成方法(generative method)、基于圖的方法(graph-based method)、低密度分離法(low-density method)以及基于分歧的方法(disagreementbased method)。
生成方法認(rèn)為標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù)據(jù)都是來(lái)源于同一模型,其中有基于期望最大化(Expectation-Maximization,EM)算法的模型[9]、基于特征和標(biāo)簽混合聯(lián)合概率的方法[10],以及結(jié)合EM 算法和樸素貝葉斯(Naive Bayes)的模型[11]?;趫D的方法[12-14]的基本思路是對(duì)所有數(shù)據(jù)樣本構(gòu)建一張圖,其中節(jié)點(diǎn)表示數(shù)據(jù)樣本點(diǎn),邊表示數(shù)據(jù)樣本點(diǎn)之間的某種距離度量,并設(shè)計(jì)某些標(biāo)準(zhǔn)來(lái)給未標(biāo)注的數(shù)據(jù)打上偽標(biāo)簽(pseudolabel)。低密度分離法認(rèn)為模型的分類(lèi)邊界應(yīng)該穿過(guò)輸入特征空間下的低密度區(qū)域,以此更好地區(qū)分?jǐn)?shù)據(jù)樣本[15-17]。基于分歧的方法是利用多個(gè)學(xué)習(xí)器對(duì)未標(biāo)注樣本進(jìn)行分類(lèi),并在訓(xùn)練過(guò)程中促使不同的學(xué)習(xí)器對(duì)同一未標(biāo)注樣本的預(yù)測(cè)結(jié)果不同,保證分歧是訓(xùn)練的基礎(chǔ)。協(xié)同訓(xùn)練(co-training)[18]、三體訓(xùn)練(tri-net)[19]是其中經(jīng)典的方法,在此之外還有利用將集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)結(jié)合的方法,進(jìn)一步強(qiáng)化多個(gè)基學(xué)習(xí)器之間的分歧[20-21],利用未標(biāo)注數(shù)據(jù)來(lái)增加模型的多樣性,提升模型泛化性能。
相較于直接或間接對(duì)未標(biāo)注數(shù)據(jù)給出標(biāo)注的方法,基于分歧的半監(jiān)督集成方法表現(xiàn)出更好的客觀性與泛化性。例如基于未標(biāo)注數(shù)據(jù)強(qiáng)化集成多樣性(Unlabeled Data to Enhance Ensemble Diversity,UDEED)算法[22]利用未標(biāo)注數(shù)據(jù)進(jìn)行數(shù)據(jù)特征與信息的學(xué)習(xí)。而且該算法基于集成模型多樣性的考慮,認(rèn)為不同的基學(xué)習(xí)器應(yīng)對(duì)同一未標(biāo)注數(shù)據(jù)給出不同的結(jié)果,使得基學(xué)習(xí)器對(duì)于未標(biāo)注數(shù)據(jù)的預(yù)測(cè)分歧不斷增加。在UDEED 算法的啟發(fā)下,本文提出了UDEED+——一種基于權(quán)值多樣性的半監(jiān)督分類(lèi)算法,采用基于權(quán)值的基學(xué)習(xí)器多樣性度量模塊,使用未標(biāo)注數(shù)據(jù)擴(kuò)展基學(xué)習(xí)器的多樣性。然后在損失函數(shù)中增加權(quán)值多樣性損失項(xiàng),在模型訓(xùn)練過(guò)程中進(jìn)一步鼓勵(lì)集成模型中基學(xué)習(xí)器的多樣性,在保證模型對(duì)于標(biāo)注數(shù)據(jù)學(xué)習(xí)效果的基礎(chǔ)上,利用未標(biāo)注數(shù)據(jù)擴(kuò)充訓(xùn)練樣本空間,提升模型的泛化性能。
本文的工作主要有:1)基于余弦相似度提出基學(xué)習(xí)器之間多樣性分歧的度量方法;2)結(jié)合基學(xué)習(xí)器對(duì)未標(biāo)注數(shù)據(jù)的預(yù)測(cè)分歧以及基學(xué)習(xí)器之間的分歧,提出一種半監(jiān)督損失函數(shù),并使用梯度下降優(yōu)化該函數(shù),進(jìn)一步提升基學(xué)習(xí)器的多樣性。
半監(jiān)督集成學(xué)習(xí)算法的基本思想是通過(guò)增大集成模型的多樣性來(lái)加強(qiáng)模型的泛化性能。該方法的基本步驟是通過(guò)在標(biāo)注數(shù)據(jù)上精確分類(lèi),學(xué)習(xí)得到一個(gè)初始算法模型,并在此基礎(chǔ)之上利用未標(biāo)注數(shù)據(jù)來(lái)增加模型的多樣性,最大化分類(lèi)正確率的同時(shí),也最大化模型的多樣性。
半監(jiān)督學(xué)習(xí)問(wèn)題是不完全監(jiān)督研究方法中的一種,主要研究在僅有少量標(biāo)注訓(xùn)練樣本的情況下,如何利用大量的未標(biāo)注數(shù)據(jù)提升模型性能。
首先,訓(xùn)練數(shù)據(jù)集?∈Rd表示訓(xùn)練數(shù)據(jù)的輸入特征為實(shí)數(shù),且特征空間為d維列向量;標(biāo)簽Y={1,1},其中1 表示正樣本,-1 表示負(fù)樣本。在全集?中:標(biāo)注數(shù)據(jù)集合L={(xi,yi)|1 ≤i≤numL},L的大小為numL,其中xi∈?,yi∈Y,未標(biāo)注數(shù)據(jù)集U的 大 小 為numU,U={xi|numL+1 ≤i≤numL+numU},其中xi∈?。然后,利用數(shù)據(jù)集L和U,訓(xùn)練一組m個(gè)基學(xué)習(xí)器{fk(x)|1 ≤k≤m},將基學(xué)習(xí)器fk(x) 的輸出映射到區(qū)間[ -1,1]內(nèi),并且將(fk(xi)+1)/2 的值作為第k個(gè)基學(xué)習(xí)器將xi預(yù)測(cè)為正樣本的概率值,范圍在區(qū)間[0,1]內(nèi)。
以UDEED 算法為例,該算法的訓(xùn)練目標(biāo)在最大化分類(lèi)正確率的同時(shí),也最大化模型的多樣性,這是通過(guò)優(yōu)化一個(gè)全局損失函數(shù)(1)做到的:
其中:f={f1,f2,…,fm}是一組m個(gè)基學(xué)習(xí)器的集合。γ是經(jīng)驗(yàn)損失和多樣性的重要性平衡參數(shù)。D是用作增加多樣性的訓(xùn)練數(shù)據(jù)集,有兩種選項(xiàng),一種是用U填充;另一種是用L+={xi|1 ≤i≤numL}填充,L+表示的是去掉標(biāo)注信息,只保留輸入特征信息的原始標(biāo)注樣本集合L,所以D=U或者是D=L+。Vemp是經(jīng)驗(yàn)損失函數(shù)項(xiàng),該項(xiàng)是傳統(tǒng)的優(yōu)化標(biāo)注數(shù)據(jù)分類(lèi)效果的一項(xiàng),通過(guò)計(jì)算基學(xué)習(xí)器在標(biāo)注數(shù)據(jù)集合L上的損失值,來(lái)表征當(dāng)前迭代輪次的分類(lèi)效果,值越小效果越好,用式(2)計(jì)算。Vdiv是多樣性損失函數(shù)項(xiàng),基于未標(biāo)注數(shù)據(jù)集D使用式(3)計(jì)算得到。
其中:l(fk,L)計(jì)算的是一個(gè)基學(xué)習(xí)器的經(jīng)驗(yàn)損失值。
在式(3)對(duì)基學(xué)習(xí)器多樣性的量化計(jì)算中,采用的是對(duì)基學(xué)習(xí)器兩兩配對(duì)組合的成對(duì)計(jì)算方式來(lái)衡量多樣性,對(duì)于d(fp,fq,D)的計(jì)算見(jiàn)式(4)。
由于f(xi)的輸出值是在區(qū)間[ -1,1]內(nèi)的,因此如果fp和fq對(duì)xi是否為正樣本的預(yù)測(cè)結(jié)果一致,那么fp(xi)fq(xi)的值是正的;相反地,如果fp和fq對(duì)xi是否為正樣本的預(yù)測(cè)結(jié)果不同,那么fp(xi)fq(xi)的值是負(fù)數(shù)。
UDEED 的目的是鼓勵(lì)基學(xué)習(xí)器的多樣性,也就是希望產(chǎn)生更多不同的、更多樣的m個(gè)基學(xué)習(xí)器。UDEED 認(rèn)為,這種多樣和不同是通過(guò)基學(xué)習(xí)器對(duì)同一樣本的預(yù)測(cè)結(jié)果不同來(lái)體現(xiàn)的,反映到損失函數(shù)的計(jì)算上,也就是通過(guò)梯度下降優(yōu)化式(3)的值,來(lái)鼓勵(lì)每一對(duì)基學(xué)習(xí)器產(chǎn)生不同的結(jié)果。這種基于結(jié)果分歧的鼓勵(lì)多樣性方法,在優(yōu)化計(jì)算時(shí),沒(méi)有用到任何給未標(biāo)注數(shù)據(jù)打上偽標(biāo)簽的方法,相較于引言中提到的標(biāo)注偽標(biāo)簽的方法,能表現(xiàn)出更好的客觀性和可靠性;同時(shí)結(jié)合集成學(xué)習(xí)的基學(xué)習(xí)器的機(jī)制,也更能鼓勵(lì)模型的多樣性,以此取得更好的泛化效果。
除了以上全局損失函數(shù)的解釋之外,UDEED 在優(yōu)化(1)之前,先通過(guò)標(biāo)注樣本L初始化基學(xué)習(xí)器。對(duì)于第k個(gè)基學(xué)習(xí)器fk,使用bootstrap[23]對(duì)L采樣,形成一個(gè)新的樣本集合Lk={(xi,yi)|1 ≤i≤num},num為采樣的樣本規(guī)模,然后利用梯度下降對(duì)損失函數(shù)(5)迭代優(yōu)化,其中λ是平衡模型復(fù)雜度的參數(shù)。
UDEED 的訓(xùn)練流程中,在擴(kuò)充多樣性時(shí),先設(shè)D=L+,基于L+增加基學(xué)習(xí)器多樣性;然后再設(shè)D=U,基于U增加基學(xué)習(xí)器多樣性。使用這一機(jī)制的原因是為了確保標(biāo)注數(shù)據(jù)的優(yōu)先級(jí)大于未標(biāo)注優(yōu)先級(jí),以此明確標(biāo)注數(shù)據(jù)對(duì)模型訓(xùn)練的貢獻(xiàn)度要大于未標(biāo)注數(shù)據(jù)集。
UDEED的訓(xùn)練過(guò)程可以概括為三點(diǎn):
針對(duì)結(jié)構(gòu)化數(shù)據(jù)的半監(jiān)督分類(lèi)學(xué)習(xí)模型中,基學(xué)習(xí)器使用的是邏輯回歸(Logistic Regression,LoR)算法,由于邏輯回歸的輸出值在區(qū)間[0,1]內(nèi),為了符合Vdiv多樣性損失這一項(xiàng)定義的計(jì)算需求,需要將其輸出映射到區(qū)間[ -1,1]內(nèi);同時(shí)為了簡(jiǎn)化運(yùn)算,將bk放到wk中,將wk增加一個(gè)維度,變?yōu)閐+1維的列向量,如式(6)所示:
接著,如式(7)所示,用BLH(fk(xi),yi)這一項(xiàng)表示xi的似然函數(shù):
基學(xué)習(xí)器的初始化函數(shù)(5)的梯度為:
根據(jù)式(8)~(9)便可以計(jì)算梯度公式,并據(jù)此使用梯度下降法,迭代更新基學(xué)習(xí)器。
接著推導(dǎo)全局損失函數(shù)(1)的梯度,如下所示:
根據(jù)式(10)~(11)分別計(jì)算模型在D上的經(jīng)驗(yàn)損失的梯度和多樣性損失的梯度,然后據(jù)此使用梯度下降優(yōu)化基學(xué)習(xí)器參數(shù),最終得到一組基學(xué)習(xí)器f*=。
現(xiàn)有的半監(jiān)督學(xué)習(xí)(例如UDEED)算法對(duì)于模型多樣性的衡量,是基于成對(duì)的基學(xué)習(xí)器對(duì)于數(shù)據(jù)樣本的預(yù)測(cè)分歧來(lái)體現(xiàn)的。當(dāng)一對(duì)基學(xué)習(xí)器對(duì)于同一樣本預(yù)測(cè)值相同時(shí),會(huì)使多樣性損失Vdiv(f,D)增大;預(yù)測(cè)值相反時(shí),會(huì)使其減小。體現(xiàn)在梯度下降優(yōu)化的過(guò)程中,也就是鼓勵(lì)每對(duì)基學(xué)習(xí)器對(duì)于同一樣本的預(yù)測(cè)不同,以體現(xiàn)分歧,提升多樣性,本文將這種分歧稱(chēng)為基于數(shù)據(jù)預(yù)測(cè)導(dǎo)向的外分歧。基于弱分類(lèi)器的集成模型,可能會(huì)導(dǎo)致泛化性能變?nèi)酰虼薝DEED 利用未標(biāo)注數(shù)據(jù)的目的是在對(duì)標(biāo)注數(shù)據(jù)的訓(xùn)練效果影響相對(duì)較小的情況下,提升模型的泛化性能。
在此基礎(chǔ)上,本文提出了基于權(quán)值多樣性的半監(jiān)督分類(lèi)算法(UDEED+),并引入了余弦相似度來(lái)衡量每對(duì)基學(xué)習(xí)器的相似度,該值表示一對(duì)基學(xué)習(xí)器之間基于模型參數(shù)的內(nèi)分歧,將其定義為基學(xué)習(xí)器的權(quán)值多樣性(weight diversity)。通過(guò)將基于未標(biāo)注數(shù)據(jù)的多樣性與基于基學(xué)習(xí)器的權(quán)值多樣性結(jié)合,進(jìn)一步擴(kuò)展基學(xué)習(xí)器的多樣性,進(jìn)而更好地提升模型的泛化性。在全局損失函數(shù)(1)中加入權(quán)值多樣性的損失項(xiàng),在迭代優(yōu)化的過(guò)程中鼓勵(lì)每對(duì)基學(xué)習(xí)器之間的余弦相似度越來(lái)越大,使得模型多樣性進(jìn)一步提升,在保證標(biāo)注數(shù)據(jù)的預(yù)測(cè)效果的基礎(chǔ)上,提升模型泛化能力和模型的預(yù)測(cè)準(zhǔn)確性。
第k個(gè)基學(xué)習(xí)器的參數(shù)可以用d+1維的列向量wk表示,即如式(12)所示:
采用兩個(gè)基學(xué)習(xí)器之間的余弦相似度表示一對(duì)基學(xué)習(xí)器的分歧度的原因主要是:1)計(jì)算方便;2)余弦相似度輸出在區(qū)間[-1,1]內(nèi),可以表征兩條向量的相似度;3)有明確的物理含義,向量夾角越大分歧度越大,兩條向量越不相似。余弦相似度的計(jì)算如式(13)所示:
如果兩個(gè)向量在同一空間下比較相似,那么它們的余弦相似度就會(huì)接近1;相反,如果兩個(gè)向量相對(duì)不相似,那么它們的余弦相似度便會(huì)接近-1;如果從向量夾角的角度理解,當(dāng)wi和wj的夾角小于90°時(shí),cos(wi,wj)的值便為正,當(dāng)wi和wj的夾角大于90°時(shí),cos(wi,wj)的值便為負(fù)。兩個(gè)夾角越大的向量,越不相似,也意味著這一對(duì)基學(xué)習(xí)器的內(nèi)分歧越大,即集成的權(quán)值多樣性更大。
2.2.1 權(quán)值多樣性損失
為了在集成學(xué)習(xí)訓(xùn)練過(guò)程中鼓勵(lì)權(quán)值多樣性,本文在損失函數(shù)中增加權(quán)值多樣性損失項(xiàng),如式(14)所示,成對(duì)觀察m個(gè)基學(xué)習(xí)器參數(shù)向量w,計(jì)算每對(duì)基學(xué)習(xí)器的分歧度,并求和,然后再作歸一化,將Vwdiv的值限制在區(qū)間[-1,1]內(nèi)。
在訓(xùn)練時(shí),將Vwdiv加到全局損失函數(shù)(1)中,在每次迭代更新優(yōu)化時(shí),同時(shí)計(jì)算每輪的外分歧和內(nèi)分歧,確保更新參數(shù)時(shí)在經(jīng)驗(yàn)損失項(xiàng)的基礎(chǔ)上內(nèi)外分歧的同步。如式(15)所示:
相對(duì)于原來(lái)的V(f,L,D),改進(jìn)后的V+(f,L,D),在保證初始模型的準(zhǔn)確率的基礎(chǔ)上,通過(guò)加上權(quán)值多樣性這一項(xiàng),進(jìn)一步提升了集成模型的多樣性。
2.2.2 梯度下降優(yōu)化推導(dǎo)
對(duì)于V+(f,L,D)的梯度下降優(yōu)化計(jì)算,其中Vemp(f,L)和Vdiv(f,D)的計(jì)算推導(dǎo)可參考1.3 節(jié)的內(nèi)容,不再贅述,本節(jié)主要描述V+(f,L,D)中第三項(xiàng),也就是新添加的權(quán)值多樣性損失Vwdiv的梯度求導(dǎo)過(guò)程。
首先把cos(wi,wj)展開(kāi)成向量乘積的形式,這里采用的是和UDEED 中一樣的成對(duì)約束,每次計(jì)算考慮一對(duì)基學(xué)習(xí)器的向量。
將θ視為整體的參數(shù),θ={w1,w2,…,wm},表示m個(gè)基學(xué)習(xí)器參數(shù)向量,也就是迭代優(yōu)化的對(duì)象。
將求導(dǎo)項(xiàng)展開(kāi),得到:
假設(shè)1 ≤p≤d+1,1 ≤q≤d+1,則式(20)的矩陣中的第p列、第q行的元素值為:
可以得到式(22)中的求導(dǎo)結(jié)果:
根據(jù)式(22),展開(kāi)式(20)中的矩陣,可得:
對(duì)式(23)中的矩陣整理后,可得:
將式(24)代入式(18)~(19)可得最終的求導(dǎo)結(jié)果:
計(jì)算完所有的導(dǎo)數(shù)之后,接下去進(jìn)行梯度下降的優(yōu)化:
其中:lr是梯度下降的學(xué)習(xí)率;γ1和γ2用來(lái)平衡內(nèi)外分歧對(duì)損失函數(shù)的貢獻(xiàn)程度,本文設(shè)置γ1=γ2,以此假定兩者對(duì)損失函數(shù)的貢獻(xiàn)程度相等。
基于權(quán)值多樣性的半監(jiān)督分類(lèi)算法UDEED+如下:
算法 改進(jìn)的基于權(quán)值多樣性的半監(jiān)督算法UDEED+。
同樣,本文保持了UDEED 中標(biāo)注數(shù)據(jù)的貢獻(xiàn)度高于未標(biāo)注數(shù)據(jù)這一假定。
本文在8 個(gè)UCI Machine Learning Repository[24]的公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集的介紹如表1所示。
表1 實(shí)驗(yàn)中使用的UCI數(shù)據(jù)集Tab.1 UCI datasets used in experiments
本節(jié)實(shí)驗(yàn)首先通過(guò)展現(xiàn)隨著迭代次數(shù)的增加,損失函數(shù)的數(shù)值下降的優(yōu)化過(guò)程,驗(yàn)證梯度下降優(yōu)化新增的多樣性權(quán)值損失項(xiàng)的可行性;接著通過(guò)圖例展現(xiàn)隨著迭代次數(shù)的增加,各個(gè)基學(xué)習(xí)器的內(nèi)分歧度也隨之增加,據(jù)此驗(yàn)證基學(xué)習(xí)器內(nèi)分歧度,也就是通過(guò)余弦相似值來(lái)體現(xiàn)基學(xué)習(xí)器內(nèi)分歧度的可行性;最后,通過(guò)在8 個(gè)公開(kāi)數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果的提升,驗(yàn)證UDEED+整個(gè)算法的改進(jìn)效果,并以一個(gè)數(shù)據(jù)集為例展示受試者工作特征(Receiver Operating Characteristic,ROC)曲線(xiàn)。
為了避免不均衡數(shù)據(jù)對(duì)實(shí)驗(yàn)指標(biāo)的影響,本實(shí)驗(yàn)以預(yù)測(cè)準(zhǔn)確率和F1 分?jǐn)?shù)兩個(gè)指標(biāo)衡量模型的性能改進(jìn)。其中F1 分?jǐn)?shù)的計(jì)算是正確率precision和召回率recall的調(diào)和平均值,即:
其中:TP(True Positives)表示樣本真實(shí)標(biāo)簽為真,模型預(yù)測(cè)結(jié)果也為真的樣本數(shù);FN(False Negatives)表示樣本真實(shí)標(biāo)簽為真,但被模型錯(cuò)誤預(yù)測(cè)為假的樣本數(shù);FP(False Positives)表示樣本真實(shí)標(biāo)簽為假,但被模型預(yù)測(cè)錯(cuò)誤預(yù)測(cè)成了真的樣本數(shù);TN(True Negatives)表示樣本真實(shí)標(biāo)簽為假,模型預(yù)測(cè)結(jié)果也為假的樣本數(shù)。表2為具體的評(píng)價(jià)指標(biāo)定義。
表2 評(píng)價(jià)指標(biāo)定義Tab.2 Definition of evaluation indices
3.2.1 損失函數(shù)的優(yōu)化迭代
圖1 展示的是全局損失函數(shù)、樣本多樣性損失項(xiàng)和權(quán)值多樣性損失項(xiàng)的梯度下降過(guò)程,選取了實(shí)驗(yàn)中的一個(gè)數(shù)據(jù)集qsar來(lái)展示這一過(guò)程,分別對(duì)應(yīng)式(15)中的V+(f,L,D)、Vdiv(f,D)、Vwdiv(f,D)這三項(xiàng)。從圖1中可以看到,隨著訓(xùn)練迭代次數(shù)的增加,損失函數(shù)的值隨之減少,從中可以看到梯度下降的作用,需要解釋的是,在迭代次數(shù)400~600,V+(f,L,D)和Vdiv(f,D)這兩項(xiàng)的值有一個(gè)驟降,這是因?yàn)樵谶@一步,切換了訓(xùn)練步驟,從第2 步的D=L+切換到了第3 步的D=U訓(xùn)練,由于這兩項(xiàng)的計(jì)算中涉及到D,因此,會(huì)在這里出現(xiàn)一個(gè)數(shù)值的突然變化,但是對(duì)權(quán)值多樣性損失項(xiàng)沒(méi)有影響。從前后兩段,以及整體的更新情況來(lái)看,總體損失值下降的趨勢(shì)是沒(méi)有改變的,這也驗(yàn)證了本文對(duì)于多樣性?xún)?yōu)化的推導(dǎo)。
圖1 損失函數(shù)數(shù)值下降過(guò)程Fig.1 Decrease process of loss function
3.2.2 基學(xué)習(xí)器內(nèi)分歧
圖2 展示的是基學(xué)習(xí)器權(quán)值之間的相似度的熱點(diǎn)圖(截取10 個(gè)基學(xué)習(xí)器以展示這一過(guò)程),同樣選取數(shù)據(jù)集qsar 來(lái)展示這一熱點(diǎn)圖的變化過(guò)程,其中每張子圖的橫縱坐標(biāo)分別表示的是第i個(gè)基學(xué)習(xí)器和第j個(gè)基學(xué)習(xí)器之間的余弦相似度cos(wi,wj),也就是分歧度,相似度越數(shù)值越小,分歧度越大,圖中的顏色越深。圖2 中的每張子圖從左到右、從上到下分別表示迭代次數(shù)為0、100、200、300 時(shí)的相似度熱點(diǎn)圖。從圖2 可以看出:相同位置的方塊的顏色也越來(lái)越深,分歧度數(shù)值在減小,表示兩個(gè)基學(xué)習(xí)器越來(lái)越不相似方塊的顏色也越來(lái)越深。從整體上看,熱點(diǎn)圖的趨勢(shì)體現(xiàn)整體基學(xué)習(xí)器的分歧越來(lái)越大,這也驗(yàn)證了本文對(duì)于基學(xué)習(xí)器內(nèi)分歧的考量,體現(xiàn)了在梯度下降優(yōu)化過(guò)程中,在樣本多樣性損失之外,結(jié)合基學(xué)習(xí)器本身的相似分歧度,進(jìn)一步提高整體基學(xué)習(xí)器的多樣性,增強(qiáng)模型泛化性能。
3.2.3 實(shí)驗(yàn)指標(biāo)對(duì)比
實(shí)驗(yàn)參數(shù)設(shè)置上,基學(xué)習(xí)器個(gè)數(shù)m=20,學(xué)習(xí)率lr=0.1,其余幾個(gè)影響梯度優(yōu)化的參數(shù)分別設(shè)置為λ=1,γ1=1,γ2=1,此外,需要注意的是,梯度下降的停止條件設(shè)置為全局損失、樣本多樣性損失項(xiàng)和權(quán)值多樣性損失項(xiàng),只要有一項(xiàng)不再繼續(xù)下降,就停止迭代,這一設(shè)置的目的主要是避免模型過(guò)度擬合,導(dǎo)致模型泛化性能變差。
表3 和表4 分別展示UDEED、UDEED+、S4VM(Safe Semi-Supervised Support Vector Machine)[25]、SSWL(Semi-Supervised Weak-Label)[26]四個(gè)半監(jiān)督分類(lèi)模型的實(shí)驗(yàn)結(jié)果對(duì)比。S4VM算法通過(guò)融合多個(gè)低密度分類(lèi)器的預(yù)測(cè)結(jié)果來(lái)形成最終的預(yù)測(cè)模型;SSWL 在學(xué)習(xí)過(guò)程中同時(shí)考慮樣本和標(biāo)簽相似度,以此改進(jìn)模型預(yù)測(cè)性能。通過(guò)與S4VM 和SSWL 的實(shí)驗(yàn)結(jié)果對(duì)比,展示UDEED+算法對(duì)于未標(biāo)注樣本的學(xué)習(xí)效果,以此體現(xiàn)多樣性提升對(duì)于模型預(yù)測(cè)性能的正面效果。表3 展示的是正確率指標(biāo),從整體的平均結(jié)果來(lái)看,UDEED+相較于UDEED 提升明顯,提升了1.4 個(gè)百分點(diǎn);對(duì)比其他模型,UDEED+也有很好的效果,正確率達(dá)到了79.2%,比第二名的SSWL 高了0.7個(gè)百分點(diǎn),比S4VM高了1.3個(gè)百分點(diǎn)。在表4展示的F1分?jǐn)?shù)衡量指標(biāo)中,UDEED+比UDEED 平均提升了1.1 個(gè)百分點(diǎn),僅在seismic數(shù)據(jù)集上有0.5個(gè)百分點(diǎn)的下降。同時(shí)對(duì)比其他模型,UDEED+的效果也很好,比SSWL 高了1.5 個(gè)百分點(diǎn),比S4VM 高了3.1 個(gè)百分點(diǎn),并在6 個(gè)數(shù)據(jù)集上都取得了最好的效果,平均的F1分?jǐn)?shù)達(dá)到了0.656。
表4 UCI數(shù)據(jù)集上的F1分?jǐn)?shù)對(duì)比Tab.4 Comparison of F1 score on UCI datasets
圖3以qsar數(shù)據(jù)集為例,展示了UDEED、UDEED+、S4VM、SSWL 的ROC 曲線(xiàn)。從圖3 中可以看出UDEED+算法的分類(lèi)性能相對(duì)最優(yōu),ROC 曲線(xiàn)下的面積最大,對(duì)比其他三個(gè)算法,UDEED+算法的ROC曲線(xiàn)性能都有一定的改善。
綜上所述,圖1 中損失函數(shù)的下降過(guò)程表明了本文方法的可行性;圖2 中對(duì)權(quán)值多樣性可視化展示表明權(quán)值多樣性損失對(duì)基學(xué)習(xí)器內(nèi)分歧度有提升的作用;表3~4 中展現(xiàn)了UDEED+在正確率和F1 分?jǐn)?shù)上的性能提升;圖3 中展示了模型ROC 曲線(xiàn)上的改進(jìn),驗(yàn)證了權(quán)值多樣性對(duì)于模型泛化性能的正面影響。
圖3 不同算法的ROC曲線(xiàn)Fig.3 ROC curve of different algorithms
表3 UCI數(shù)據(jù)集上的正確率對(duì)比Tab.3 Comparison of accuracy on UCI datasets
圖2 基學(xué)習(xí)器權(quán)值相似度的熱點(diǎn)圖Fig.2 Heatmap of similarity of weights of base learners
本文針對(duì)半監(jiān)督學(xué)習(xí)中利用多樣性提升模型性能的方法進(jìn)行研究,并提出一種基于基學(xué)習(xí)器權(quán)值多樣性的半監(jiān)督分類(lèi)算法UDEED+,該方法結(jié)合基于數(shù)據(jù)預(yù)測(cè)的外分歧和基于基學(xué)習(xí)器權(quán)值的內(nèi)分歧進(jìn)一步提升了基學(xué)習(xí)器的多樣性,提升了算法性能。本文目前的實(shí)現(xiàn)主要是基于二分類(lèi)問(wèn)題,目前看來(lái),之后可以根據(jù)多分類(lèi)問(wèn)題,探討不同的多樣性損失函數(shù)項(xiàng),同時(shí)針對(duì)權(quán)值多樣性和樣本多樣性之間的關(guān)系也可以進(jìn)行進(jìn)一步的探討和研究。