房立超,王 鈺,楊杏麗,李濟(jì)洪
1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,太原 030006
2.山西大學(xué) 現(xiàn)代教育技術(shù)學(xué)院,太原 030006
3.山西大學(xué) 軟件學(xué)院,太原 030006
所謂機(jī)器學(xué)習(xí)就是基于數(shù)據(jù)來(lái)建立合適的模型,并運(yùn)用建立的模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)與分析,其主要目的是獲取具有較好泛化能力的模型,因此模型選擇在機(jī)器學(xué)習(xí)中顯得尤為重要。在進(jìn)行模型選擇時(shí)為了防止模型發(fā)生過擬合的現(xiàn)象,學(xué)者們通常使用正則化的思想來(lái)解決,即在損失函數(shù)中加入懲罰項(xiàng),也就是說,假設(shè)J(θ)為刻畫模型在訓(xùn)練集上的表現(xiàn)的損失函數(shù),那么在進(jìn)行模型選擇時(shí)不是用J(θ)來(lái)評(píng)價(jià),而是以J(θ)+λR(θ)的好壞來(lái)選擇模型,其中R(θ)用來(lái)描述對(duì)參數(shù)θ的懲罰,λ>0 為調(diào)節(jié)參數(shù),λ越大表示對(duì)參數(shù)θ的懲罰越大。20世紀(jì)以來(lái),大量討論模型選擇準(zhǔn)則的文獻(xiàn)相繼問世,并以1973年日本學(xué)者Akaike[1]提出的著名的AIC信息準(zhǔn)則(Akaike information criterion)為標(biāo)志,從此拉開模型選擇研究的序幕,隨后Schwarz[2]于1978年提出與AIC準(zhǔn)則相似的貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)。AIC和BIC都在目標(biāo)式中引入了關(guān)于模型參數(shù)個(gè)數(shù)的懲罰項(xiàng),且這兩種經(jīng)典的基于正則化的模型選擇準(zhǔn)則一直沿用至今;1996年Tibshirani提出了經(jīng)典的LASSO(least absolute shrinkage and selection operator)算法[3],此算法可以同時(shí)實(shí)現(xiàn)參數(shù)估計(jì)和顯著性變量的選擇,隨后由此方法衍生出了grouped LASSO、adaptive LASSO和SCAD(smoothly clipped absolute deviation)等算法[4-6];Hwang 等[7]基于 MSC(multi-class signomial classification)思想,提出了L1范數(shù)正則化函數(shù)和基于此函數(shù)進(jìn)行多分類問題變量選擇的方法,對(duì)于具有大量變量的數(shù)據(jù)集,所提出的方法減少了變量的數(shù)量,同時(shí)提高了分類準(zhǔn)確性;另外Wang等提出了組塊3×2交叉驗(yàn)證t檢驗(yàn)[8]方法,并通過實(shí)驗(yàn)驗(yàn)證了其在低維數(shù)據(jù)上模型對(duì)照方面的優(yōu)良性質(zhì);Reenen等[9]使用最小分類錯(cuò)誤率作為檢驗(yàn)統(tǒng)計(jì)量,通過非參數(shù)假設(shè)檢驗(yàn)找到統(tǒng)計(jì)上顯著變化的變量,作為最終模型中入選的變量;Lever等[10]討論了模型選擇的過擬合問題,認(rèn)為在一個(gè)數(shù)據(jù)集上得到具有適當(dāng)復(fù)雜性的模型需要在偏差和方差之間找到平衡點(diǎn),并通過實(shí)驗(yàn)證明了交叉驗(yàn)證方法可以幫助避免過擬合的發(fā)生并生成一個(gè)能夠很好地處理新數(shù)據(jù)的模型。
本研究主要關(guān)注分類情形的模型選擇問題,即對(duì)于給定的某個(gè)數(shù)據(jù)集,基于某個(gè)性能度量指標(biāo)構(gòu)造模型選擇準(zhǔn)則,并基于此準(zhǔn)則選出多個(gè)分類器(算法)中性能最好的一個(gè)。其中,泛化誤差是最常用的性能度量指標(biāo)之一,而理論的泛化誤差度量由于其分布的復(fù)雜性或未知性往往無(wú)法得到,實(shí)際中?;谒墓烙?jì)來(lái)進(jìn)行模型的選擇。關(guān)于泛化誤差的估計(jì)文獻(xiàn)中提出了很多的方法,如廣泛使用的交叉驗(yàn)證估計(jì)方法,包括留一交叉驗(yàn)證(leave one out crossvalidation,LOOCV)、留P交叉驗(yàn)證、K折交叉驗(yàn)證、RLT交叉驗(yàn)證(repeated learning-test cross-validation)、蒙特卡洛交叉驗(yàn)證、5×2交叉驗(yàn)證、組塊3×2交叉驗(yàn)證(block 3×2 cross-validation)等[11-21]。
然而注意到,基于泛化誤差估計(jì)的方法在選擇模型過程中只使用了估計(jì)本身(均值的信息)而沒有考慮估計(jì)的方差的信息,較大的方差會(huì)使得該性能指標(biāo)產(chǎn)生較大的波動(dòng),有可能選擇較復(fù)雜的模型作為最優(yōu)模型,導(dǎo)致該模型的泛化性能較差,如圖1(文獻(xiàn)[22])所示。另外,對(duì)于上述提到的交叉驗(yàn)證估計(jì),Arlot和Celisse[23]也通過實(shí)驗(yàn)驗(yàn)證了當(dāng)這些估計(jì)方法的偏差相同時(shí),它們的表現(xiàn)卻可以截然不同,實(shí)際上這是由這些估計(jì)的方差差異導(dǎo)致,即估計(jì)的方差對(duì)模型選擇有很大的影響。于是,在進(jìn)行模型選擇時(shí)不僅需要考慮性能度量的估計(jì)本身,還要考慮它的方差。如果能在上述性能度量指標(biāo)下提出融合方差信息的模型選擇準(zhǔn)則或方法,將為模型選擇相關(guān)研究提供新的思路與方法。
Fig.1 Effect of bias and variance on total error and model complexity圖1 偏差與方差對(duì)總誤差和模型復(fù)雜度的影響
綜上所述,由于估計(jì)的方差對(duì)模型選擇有較大的影響,借鑒了線性模型中加入?yún)?shù)懲罰項(xiàng)的正則化思想,在求泛化誤差估計(jì)最小化的同時(shí)加入一個(gè)正則化項(xiàng),該正則化項(xiàng)用來(lái)表示對(duì)泛化誤差估計(jì)的方差的懲罰,求取使得泛化誤差估計(jì)和該估計(jì)的方差懲罰項(xiàng)同時(shí)達(dá)到最小時(shí)的模型作為最終的模型選擇結(jié)果。即本研究所使用的模型選擇準(zhǔn)則由“泛化誤差估計(jì)+泛化誤差估計(jì)的方差的懲罰項(xiàng)”組成。在線性模型中的變量選擇準(zhǔn)則和這里的模型選擇準(zhǔn)則有異曲同工之處,如傳統(tǒng)使用的AIC準(zhǔn)則為“-log似然+模型參數(shù)個(gè)數(shù)的懲罰”,“-log似然”可以看成是對(duì)模型擬合度的評(píng)價(jià),即和泛化誤差的估計(jì)的作用相同;另外,由于在線性模型中模型的參數(shù)個(gè)數(shù)與參數(shù)估計(jì)的方差存在正比例關(guān)系,線性模型中包含的參數(shù)個(gè)數(shù)越多,該模型的參數(shù)估計(jì)的方差越大,于是AIC準(zhǔn)則中的“模型參數(shù)個(gè)數(shù)的懲罰”和“泛化誤差估計(jì)的方差懲罰項(xiàng)”起著相同的作用。本文把加入泛化誤差估計(jì)的方差正則化的思想引入到了分類模型選擇的問題中,構(gòu)造了一個(gè)可以廣泛使用的方差正則化分類模型選擇準(zhǔn)則。
在機(jī)器學(xué)習(xí)中,泛化誤差是用于模型選擇的通用性能度量指標(biāo),它指的是所選模型在獨(dú)立測(cè)試樣本上的期望預(yù)測(cè)誤差。具體地,如果令數(shù)據(jù)集,其中 xi是輸入變量,yi是輸出變量,f(x)為預(yù)測(cè)模型,為0-1損失函數(shù),則泛化誤差可表示為如下形式:
由式(1)可知,泛化誤差的計(jì)算依賴于數(shù)據(jù)的分布,然而現(xiàn)實(shí)中數(shù)據(jù)的分布往往無(wú)法獲得或者數(shù)據(jù)的分布非常復(fù)雜,因此理論泛化誤差的計(jì)算非常困難,以至于直接基于它進(jìn)行算法性能的評(píng)價(jià)更無(wú)從談起,于是現(xiàn)實(shí)中常?;诜夯`差的估計(jì)進(jìn)行模型的選擇。
鑒于文獻(xiàn)[20-21]中提出的泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)方法的優(yōu)良性能,本研究中考慮使用此交叉驗(yàn)證法來(lái)估計(jì)泛化誤差。具體地,組塊3×2交叉驗(yàn)證方法是將數(shù)據(jù)集Dn劃分為大小相等且互不相交的4個(gè)子集Pj,j=1,2,3,4,然后任取其中兩個(gè)子集作為訓(xùn)練集,剩余兩子集作為測(cè)試集,做一次2折交叉驗(yàn)證,于是根據(jù)不同的組合總共可以得到3次2折交叉驗(yàn)證的預(yù)測(cè)誤差估計(jì)(具體數(shù)據(jù)劃分見表1),那么基于3組估計(jì)結(jié)果進(jìn)行平均的泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)可表示為如下形式:
Table 1 Data partitions of block 3×2 cross-validation表1 組塊3×2交叉驗(yàn)證的數(shù)據(jù)切分
其中,M為候選模型集。
在提出方差正則化的分類模型選擇準(zhǔn)則之前,先給出組塊3×2交叉驗(yàn)證泛化誤差估計(jì)的方差以及該方差的估計(jì)。該泛化誤差估計(jì)的方差和方差的估計(jì)已在文獻(xiàn)[8]中有詳細(xì)描述,這里給出其簡(jiǎn)要過程。
引理1[17]令U1,U2,…,Uk為隨機(jī)變量,且具有公共的均值β,方差δ=Var[Uk],?k和協(xié)方差,分別表示樣本方差和樣本均值,則有:
于是發(fā)現(xiàn)該真實(shí)方差由方差、組內(nèi)協(xié)方差和組間協(xié)方差三部分組成。因此如果直接使用傳統(tǒng)的樣本方差進(jìn)行方差估計(jì)將導(dǎo)致激進(jìn)的結(jié)果。故文獻(xiàn)[8]將組內(nèi)和組間的協(xié)方差同時(shí)考慮到方差估計(jì)中后,得出了的一個(gè)較為保守的估計(jì)形式:
后面將使用式(5)作為泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)的方差估計(jì)。
在式(3)定義的模型選擇準(zhǔn)則中,它只考慮了基于泛化誤差估計(jì)本身來(lái)進(jìn)行模型的選擇,沒有考慮估計(jì)的好壞(方差),這顯然是不合適的,因?yàn)檩^大的方差使得泛化誤差的性能波動(dòng)較大,可能選擇到較復(fù)雜的模型,從而導(dǎo)致較低的泛化性(見圖1)。為此,構(gòu)造了一種添加方差正則化項(xiàng)的新的模型選擇方法(準(zhǔn)則),即在式(3)的基礎(chǔ)上,將泛化誤差估計(jì)的方差估計(jì)加入,準(zhǔn)則形式如下:
本節(jié)給出接下來(lái)的實(shí)驗(yàn)部分評(píng)價(jià)不同模型選擇準(zhǔn)則性能時(shí)所使用的指標(biāo)。本文關(guān)注于分類問題下的最優(yōu)分類器選擇問題,即在相同數(shù)據(jù)設(shè)置下,根據(jù)不同的模型選擇準(zhǔn)則,在所給分類器中選出各準(zhǔn)則對(duì)應(yīng)的最優(yōu)分類器。由于數(shù)據(jù)的隨機(jī)性,把實(shí)驗(yàn)重復(fù)N次(第3章實(shí)驗(yàn)中N=1 000),觀察給定的每個(gè)分類器作為最優(yōu)分類器被選中的次數(shù)。N次實(shí)驗(yàn)中選中次數(shù)最多的分類器可以認(rèn)為是更符合該數(shù)據(jù)集的分類器,記該分類器為目標(biāo)分類器,不同的模型選擇準(zhǔn)則的評(píng)價(jià)標(biāo)準(zhǔn),就以選中目標(biāo)分類器的次數(shù)作為評(píng)價(jià)指標(biāo),選中A的次數(shù)越多說明該準(zhǔn)則越好。
本章首先通過模擬實(shí)驗(yàn)驗(yàn)證了文獻(xiàn)[8]中提出的方差估計(jì)的合理性,然后分別在兩個(gè)模擬數(shù)據(jù)和3個(gè)真實(shí)數(shù)據(jù)上(Letter數(shù)據(jù)集、MAGIC Gamma Telescope數(shù)據(jù)集和Abalone數(shù)據(jù)集[24])驗(yàn)證了提出的新的分類模型選擇準(zhǔn)則相對(duì)于傳統(tǒng)模型選擇方法的優(yōu)越性。
對(duì)于泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)的方差,需要驗(yàn)證式(5)是否可以作為它的一個(gè)合理估計(jì),考慮一個(gè)二分類問題,數(shù)據(jù)集Z=(X,Y),其中X為預(yù)測(cè)變量,Y為類別響應(yīng)變量,且滿足P(Y=0)=P(Y=1)=0.5,X|Y=0~N(05,I5),X|Y=1~N(15,2I5),05和15分別表示元素全部為0和1的5維向量,I5表示5階單位矩陣,總樣本量n=200。在此數(shù)據(jù)集上,給出了6個(gè)分類器(見表2)的真實(shí)方差,由式(5)得到的方差估計(jì)和一般意義上的樣本方差。
Table 2 Results of variance simulations表2 方差模擬結(jié)果
觀察表2可以看出,6個(gè)分類器中只有在使用最小二乘作為分類器時(shí)得到的樣本方差估計(jì)大于真實(shí)方差(這可能是由于最小二乘方法從嚴(yán)格意義上來(lái)說并不是一個(gè)真正的分類器),其他分類器上均低估了真實(shí)方差,有的分類器低估的程度還比較嚴(yán)重,如支持向量機(jī)的真實(shí)方差為0.000 823 145 9,而樣本方差僅為0.000 411 350 0,只有真實(shí)方差的一半,嚴(yán)重低估了真實(shí)方差,這說明用樣本方差來(lái)估計(jì)真實(shí)方差是激進(jìn)的;另一方面,比較真實(shí)方差和式(5)得到的方差估計(jì)兩列,可以看出方差估計(jì)均大于真實(shí)方差,即式(5)得到的方差估計(jì)是真實(shí)方差的保守估計(jì),于是在基于方差正則化準(zhǔn)則式(6)做模型選擇時(shí)使用此方差估計(jì)較之樣本方差更保守,得到的模型選擇結(jié)果更值得信賴。因此,在下面的實(shí)驗(yàn)中,采用式(5)的方差估計(jì)進(jìn)行模型選擇。
為了體現(xiàn)方差正則化模型選擇準(zhǔn)則的性能,在二分類的兩個(gè)模擬數(shù)據(jù)和兩個(gè)真實(shí)數(shù)據(jù)上分別給出傳統(tǒng)的泛化誤差估計(jì)準(zhǔn)則和方差正則化準(zhǔn)則的模型選擇結(jié)果。先考慮了兩種方差正則化項(xiàng)的具體形式,見下面的準(zhǔn)則2和準(zhǔn)則3,準(zhǔn)則1即為傳統(tǒng)的基于泛化誤差估計(jì)的準(zhǔn)則。
3.2.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)1(模擬數(shù)據(jù))數(shù)據(jù)集Z=(X,Y),X~N(15,2I5),ln(Y/(1-Y))=Xβ+ε,其中 β=(15)T,ε~N(0,2),總樣本量n=200。用于模型選擇的分類算法為神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和支持向量機(jī)(support vector machine,SVM)。
數(shù)據(jù)2(模擬數(shù)據(jù))數(shù)據(jù)集Z=(X,Y),總樣本量n為100,其中Y=1的樣本個(gè)數(shù)為40,Y=0的樣本個(gè)數(shù)為 60,且Xi|Y=1~N(0,1),X1|Y=0~N(0.4,1),X2|Y=0~N(0.3,1),X3|Y=0~N(0,1),Xi之間相互獨(dú)立,i=1,2,3。用于模型選擇的分類算法為分類樹、神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和SVM。
數(shù)據(jù)3(真實(shí)數(shù)據(jù))UCI數(shù)據(jù)庫(kù)的Letter數(shù)據(jù)集[24],自變量16個(gè),原始樣本量為20 000,是一個(gè)多分類問題。為構(gòu)造一個(gè)二分類問題,將類別標(biāo)簽為A~M的看成第一類,N~Z的看成第二類,隨機(jī)抽取樣本量n=200的樣本作為實(shí)驗(yàn)數(shù)據(jù)集。選擇分類樹、神經(jīng)網(wǎng)絡(luò)和SVM作為分類算法。
數(shù)據(jù)4(真實(shí)數(shù)據(jù))來(lái)自UCI數(shù)據(jù)庫(kù)的MAGIC Gamma Telescope數(shù)據(jù)集[24](大氣切倫科夫望遠(yuǎn)鏡項(xiàng)目伽馬成像數(shù)據(jù)集),特征變量10個(gè),總的樣本量19 020,為二分類數(shù)據(jù)集。從中隨機(jī)抽取樣本量n=200的樣本為實(shí)驗(yàn)數(shù)據(jù),分類算法選擇神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯和SVM。
3.2.2 實(shí)驗(yàn)結(jié)果及分析
根據(jù)數(shù)據(jù)1設(shè)置,隨機(jī)生成1 000組數(shù)據(jù),針對(duì)每一組數(shù)據(jù),根據(jù)3.2節(jié)給出的3個(gè)準(zhǔn)則,在給出的分類器中分別選出使得性能度量指標(biāo)最小的分類器,最后統(tǒng)計(jì)出在1 000次結(jié)果中每個(gè)分類器在每個(gè)準(zhǔn)則下被選中的次數(shù)。同理在數(shù)據(jù)2~數(shù)據(jù)4上進(jìn)行實(shí)驗(yàn)。3個(gè)準(zhǔn)則的實(shí)驗(yàn)結(jié)果見表3。
Table 3 Comparison of results of model selection simulations on data sets 1~4表3 數(shù)據(jù)1~4模型選擇模擬結(jié)果的比較
由表3可以看出在數(shù)據(jù)1上,3個(gè)準(zhǔn)則選中的目標(biāo)分類器均是SVM,準(zhǔn)則1共選中699次,準(zhǔn)則2在λ=10.0時(shí)選中目標(biāo)分類器的次數(shù)相比準(zhǔn)則1增加了5.58%,準(zhǔn)則3(λ=0.8)選中SVM的次數(shù)有744次,此時(shí)比準(zhǔn)則1高出6.44%。數(shù)據(jù)2的表現(xiàn)與數(shù)據(jù)1類似,準(zhǔn)則1選中的目標(biāo)分類器為SVM(391次),準(zhǔn)則2(λ=4.0時(shí))和準(zhǔn)則3(λ=0.6時(shí))在1 000次模擬中選中SVM的次數(shù)均為422,比準(zhǔn)則1高出7.93%。與前兩個(gè)模擬數(shù)據(jù)相比,在真實(shí)數(shù)據(jù)3上本文的新準(zhǔn)則相比傳統(tǒng)準(zhǔn)則表現(xiàn)得更突出,傳統(tǒng)準(zhǔn)則選中目標(biāo)分類器SVM的次數(shù)為473,而準(zhǔn)則3(λ=5.0時(shí))選中SVM次數(shù)為630,比準(zhǔn)則1高出了33.19%。同時(shí),在真實(shí)數(shù)據(jù)4上也可觀察得出以上類似的結(jié)論,與準(zhǔn)則1選中目標(biāo)分類器SVM的次數(shù)為589相比,準(zhǔn)則2(λ=9.0時(shí))選中SVM的次數(shù)最高為628,高出了6.62%。
另一方面,對(duì)比了每一組數(shù)據(jù)下的分類器所產(chǎn)生的泛化誤差的方差大小之間的差異,結(jié)果見表4,在數(shù)據(jù)1的1 000次模擬中,每一次將3個(gè)分類器產(chǎn)生的泛化誤差的方差中相比最小的選出,則3個(gè)分類器下泛化誤差的方差最小的次數(shù)分別有190、322和488,而此時(shí)本文的目標(biāo)分類器就是次數(shù)最多的SVM;同樣在數(shù)據(jù)2~4上,SVM產(chǎn)生的泛化誤差的方差小于其他分類器產(chǎn)生的泛化誤差的方差的次數(shù)均最多。發(fā)現(xiàn),在數(shù)據(jù)3上希望被選擇的目標(biāo)分類器的泛化誤差的方差小于其他分類器的次數(shù)是最多的,而此時(shí)使用本文構(gòu)造的新準(zhǔn)則能夠很大程度地提高選中該目標(biāo)分類器的次數(shù),也就是說,因?yàn)榇藭r(shí)目標(biāo)分類器產(chǎn)生的泛化誤差的方差更小,所以使用新準(zhǔn)則提高了模型選中該分類器的概率,然而如果忽略方差信息,即僅根據(jù)泛化誤差進(jìn)行判別,就可能導(dǎo)致選中并不合適的分類器或者說降低了目標(biāo)分類器被選的概率。
Table 4 Comparison of variances of generalization errors表4 泛化誤差的方差的比較
在本文所提出的方差正則化分類模型選擇準(zhǔn)則式(6)的框架下,最優(yōu)模型的選擇可以通過最小化的值來(lái)獲得,但是其中的調(diào)節(jié)參數(shù)λ是未知的,且λ的不同取值也會(huì)產(chǎn)生不同的結(jié)果,因此參數(shù)λ的選取同樣重要。本節(jié)給出前面四組數(shù)據(jù)在準(zhǔn)則2和準(zhǔn)則3上隨λ變化的結(jié)果,這里λ取值為從0到10,且λ=0時(shí)所對(duì)應(yīng)的就是準(zhǔn)則1的情況,即僅僅依據(jù)泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)來(lái)進(jìn)行模型選擇的一般準(zhǔn)則。結(jié)果見表5和表6。
Table 5 Results of model selection simulations of criterion 2 with change of λ表5 準(zhǔn)則2隨λ變化的模型選擇模擬結(jié)果
Table 6 Results of model selection simulations of criterion 3 with change of λ表6 準(zhǔn)則3隨λ變化的模型選擇模擬結(jié)果
可以看出,加入方差正則化項(xiàng)之后的模型選擇準(zhǔn)則在使用方差估計(jì)(準(zhǔn)則2)作為正則化項(xiàng)時(shí),比傳統(tǒng)的模型選擇準(zhǔn)則有更好的穩(wěn)定性;而加入標(biāo)準(zhǔn)差估計(jì)(準(zhǔn)則3)為正則化項(xiàng)的模型選擇準(zhǔn)則,選擇到目標(biāo)分類的次數(shù)隨著λ的增加一開始上升隨后下降,但總體說來(lái)只要調(diào)節(jié)參數(shù)λ取得合適,加入標(biāo)準(zhǔn)差估計(jì)的正則化模型選擇準(zhǔn)則性能更有優(yōu)勢(shì);從表中還可以看到,不同的調(diào)節(jié)參數(shù)對(duì)模型選擇的結(jié)果影響很大,這說明,同線性模型變量選擇方法相似,方差正則化的模型選擇研究中,調(diào)節(jié)參數(shù)的選擇也是一個(gè)不可避免的問題,在進(jìn)一步的工作中,應(yīng)考慮使用什么具體的策略來(lái)選擇調(diào)節(jié)參數(shù)更合適(如通常使用的交叉驗(yàn)證類的調(diào)節(jié)參數(shù)選擇方法)。
在前邊提出的方差正則化的分類模型選擇準(zhǔn)則中,關(guān)于泛化誤差估計(jì)的方差估計(jì)的函數(shù)同樣需要預(yù)先確定,一般認(rèn)為該懲罰函數(shù)是方差的增函數(shù)即可,但函數(shù)的具體形式在不同的數(shù)據(jù)集上性能是不同的。如對(duì)比表5和表6的結(jié)果,準(zhǔn)則3比準(zhǔn)則2更快地達(dá)到模型選擇的最優(yōu),這可能和這些分類器自身的方差大小有關(guān)系(見表2),這些分類器的方差都遠(yuǎn)小于1,開根號(hào)之后的標(biāo)準(zhǔn)差估計(jì)使得對(duì)于相同的調(diào)節(jié)參數(shù)值,在模型選擇時(shí)更側(cè)重于正則化項(xiàng),從而可以很快達(dá)到最好的模型選擇性能。這從一個(gè)側(cè)面反映,針對(duì)具體的實(shí)際問題,正則化項(xiàng)函數(shù)的具體形式(如線性函數(shù)、指數(shù)函數(shù))需要進(jìn)行慎重選擇。本節(jié)給出方差正則化項(xiàng)的函數(shù)為方差估計(jì)的指數(shù)函數(shù)時(shí)的實(shí)驗(yàn)結(jié)果和分析。
以3.2節(jié)中的數(shù)據(jù)2和數(shù)據(jù)4為例,實(shí)驗(yàn)設(shè)置及實(shí)驗(yàn)過程同前,方差的指數(shù)函數(shù)作為懲罰項(xiàng)時(shí)的準(zhǔn)則的模型選擇模擬結(jié)果見表7,兩個(gè)數(shù)據(jù)下選擇的最優(yōu)分類器與3.2節(jié)中一致,且以關(guān)于方差估計(jì)的指數(shù)函數(shù)作為正則化項(xiàng)的準(zhǔn)則依舊能夠提高目標(biāo)分類器被選中的次數(shù),說明此準(zhǔn)則同樣有效。
前述實(shí)驗(yàn)結(jié)果均是在二分類數(shù)據(jù)集上得來(lái)的,本節(jié)將模型選擇準(zhǔn)則應(yīng)用到多分類數(shù)據(jù)集進(jìn)行模擬實(shí)驗(yàn),以驗(yàn)證在多分類數(shù)據(jù)集上本文方法的效果。
3.5.1 實(shí)驗(yàn)設(shè)置
數(shù)據(jù)5(真實(shí)數(shù)據(jù))來(lái)自UCI數(shù)據(jù)庫(kù)的Avila數(shù)據(jù)集[24],為多分類數(shù)據(jù)集。此數(shù)據(jù)集是從“Avila圣經(jīng)”的800張圖片中提取的拉丁文數(shù)據(jù),經(jīng)分析由12名抄寫員完成,總樣本量20 867,特征變量10個(gè),輸出結(jié)果為12個(gè)抄寫員之一。從中隨機(jī)抽取樣本量n=200的樣本進(jìn)行實(shí)驗(yàn),分類算法選擇神經(jīng)網(wǎng)絡(luò)、樸素貝葉斯、最小二乘和K近鄰(K=5)算法。
Table 7 Simulation results of criterion with exponential function of variance as penalty表7 方差的指數(shù)函數(shù)作為懲罰項(xiàng)的準(zhǔn)則模擬結(jié)果
3.5.2 實(shí)驗(yàn)結(jié)果及分析
同3.2節(jié)的實(shí)驗(yàn)過程相似,從數(shù)據(jù)5中隨機(jī)生成N(N=1 000)組樣本量為200的數(shù)據(jù)集,在每一個(gè)數(shù)據(jù)集上,根據(jù)3.2節(jié)的3個(gè)準(zhǔn)則選出最優(yōu)分類器,最終結(jié)果為1 000次模擬中每個(gè)分類器在各個(gè)準(zhǔn)則下被選中的次數(shù)。結(jié)果見表8。
Table 8 Results of model selection simulations on data 5表8 數(shù)據(jù)5模型選擇模擬結(jié)果
與前面4個(gè)數(shù)據(jù)不同,數(shù)據(jù)5是一個(gè)多分類數(shù)據(jù),在此數(shù)據(jù)集上,當(dāng)抽取的樣本量為n=200時(shí),根據(jù)3個(gè)準(zhǔn)則選出的最優(yōu)分類器均是K近鄰(K=5)(分別選中860、887、882次),且準(zhǔn)則2和準(zhǔn)則3相比準(zhǔn)則1選中目標(biāo)分類器的次數(shù)均有所提高,也就是說,方差正則化的分類模型選擇準(zhǔn)則在多分類數(shù)據(jù)上依然有效。
另外,該節(jié)的實(shí)驗(yàn)結(jié)果都是在數(shù)據(jù)集的樣本量有限時(shí)所做的實(shí)驗(yàn)(n=200,實(shí)際中所能得到的數(shù)據(jù)集總是有限樣本),當(dāng)樣本量無(wú)限增大時(shí),加入方差正則化項(xiàng)的模型選擇的性能如何,樣本量有限時(shí)得到的結(jié)論在樣本量增加時(shí)是否成立,這一問題仍待解決,將在下一章討論。
上一章的實(shí)驗(yàn)驗(yàn)證了在有限的樣本量下,方差正則化的分類模型選擇準(zhǔn)則能更穩(wěn)定地選擇較優(yōu)的模型,接下來(lái)將在理論上進(jìn)一步說明此模型選擇方法在樣本量趨于無(wú)窮時(shí)同樣能夠選擇到該較優(yōu)的模型,即具有模型選擇的保序性。下面先給出一些記號(hào)。
數(shù)據(jù)集Z=(X,Y)且樣本之間獨(dú)立同分布,樣本量為n,X為自變量,Y為類別變量,取值為0或1,記第i個(gè)測(cè)試樣本的真值為yi。兩個(gè)分類器為δA和δB,第i個(gè)測(cè)試樣本在 δA和 δB上的預(yù)測(cè)值分別為。在0-1損失下,兩個(gè)分類器的測(cè)試誤差為和表示 δB分錯(cuò)的概率與δA分錯(cuò)的概率之差,,其中表示兩個(gè)分類器的預(yù)測(cè)值不一致的概率。兩個(gè)分類器的泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)記為它們的方差估計(jì)為下面先給出文獻(xiàn)[25]中的結(jié)論作為理論證明的基礎(chǔ)。
引理2[25]對(duì)有限的樣本量n,如果基于組塊3×2交叉驗(yàn)證泛化誤差的模型選擇方法判別出分類器δA的性能優(yōu)于分類器δB,那么隨著樣本量的增加,此結(jié)論仍然成立。即當(dāng)n→∞,nΔRn→∞時(shí),成立。
定理1在有限的樣本量n下,如果基于組塊3×2交叉驗(yàn)證的加入方差估計(jì)正則化項(xiàng)的模型選擇方法判別出分類器δA的性能優(yōu)于分類器δB,那么隨著樣本量的增加,此結(jié)論仍然成立。具體地,當(dāng)n→∞,nΔRn→∞ 時(shí) ,成立。
模型的泛化性能是機(jī)器學(xué)習(xí)中度量一個(gè)模型優(yōu)劣的最重要指標(biāo),傳統(tǒng)的模型選擇方法或者只對(duì)比模型的泛化誤差估計(jì),或者使用統(tǒng)計(jì)顯著性檢驗(yàn)引入泛化誤差估計(jì)的方差信息,但由于具有較小的泛化誤差估計(jì)的模型往往方差較大,統(tǒng)計(jì)顯著性檢驗(yàn)依賴于數(shù)據(jù)的分布假設(shè)(這一假設(shè)往往不成立),且對(duì)多個(gè)模型兩兩進(jìn)行對(duì)照檢驗(yàn)時(shí)計(jì)算復(fù)雜度很大,基于此,將泛化誤差的方差估計(jì)添加到模型選擇準(zhǔn)則中,構(gòu)造了一種基于泛化誤差的組塊3×2交叉驗(yàn)證估計(jì)的方差正則化的模型選擇準(zhǔn)則,并通過實(shí)驗(yàn)驗(yàn)證了在模擬和真實(shí)數(shù)據(jù)上,所提方法相比傳統(tǒng)的只包含泛化誤差信息的模型選擇方法具有更好的性能。進(jìn)一步,在理論上證明了考慮方差估計(jì)之后的模型選擇準(zhǔn)則,有限樣本上得到的結(jié)論在樣本量趨于無(wú)窮時(shí)同樣成立。
同時(shí),應(yīng)看到加入方差正則化項(xiàng)的模型選擇準(zhǔn)則雖然在一定程度上緩解了傳統(tǒng)模型選擇準(zhǔn)則選擇到較差模型的概率,但是并沒有使得選擇到較差模型的概率降到0;另外,本文提出的新準(zhǔn)則在具體實(shí)現(xiàn)時(shí),需要給出正則化懲罰項(xiàng)函數(shù)的具體形式,對(duì)實(shí)際問題而言,這是個(gè)重要的研究問題;最后,與傳統(tǒng)的以泛化誤差估計(jì)作為模型選擇度量指標(biāo)的準(zhǔn)則相比,新準(zhǔn)則引入了一個(gè)調(diào)節(jié)參數(shù)λ,不同的調(diào)節(jié)參數(shù)的模型選擇結(jié)果是不同的,勢(shì)必就要考慮新準(zhǔn)則的調(diào)節(jié)參數(shù)選擇問題。將來(lái)的研究中,將在更多的數(shù)據(jù)和分類器上進(jìn)一步測(cè)試所提方法的性能,并試圖分析加入方差正則化項(xiàng)的模型選擇準(zhǔn)則的調(diào)節(jié)參數(shù)選擇方法和正則化項(xiàng)的函數(shù)形式。