王方成,劉玉敏,崔慶安,2
(1.鄭州大學(xué) 商學(xué)院,鄭州 450001;2.上海海事大學(xué) 經(jīng)濟(jì)管理學(xué)院,上海 201306)
大多數(shù)機(jī)器學(xué)習(xí)算法都會(huì)受超參數(shù)和參數(shù)影響,參數(shù)可在數(shù)據(jù)訓(xùn)練過(guò)程中進(jìn)行初始化和更新,而超參數(shù)則由人工預(yù)先設(shè)定且在模型訓(xùn)練階段始終保持不變。因此,如何采用實(shí)驗(yàn)設(shè)計(jì)對(duì)超參數(shù)組合與機(jī)器學(xué)習(xí)算法性能之間的影響規(guī)律進(jìn)行建模和優(yōu)化,成為機(jī)器學(xué)習(xí)超參數(shù)優(yōu)化亟待解決的問(wèn)題。
目前已有大量學(xué)者對(duì)機(jī)器學(xué)習(xí)算法的超參數(shù)優(yōu)化展開研究,具體可概括為以下三類:決策理論方法[1,2]、貝葉斯優(yōu)化方法[3,4]、啟發(fā)式搜索方法[5]。然而,由于研究方法或研究視角的限制,以上三類方法在對(duì)超參數(shù)進(jìn)行優(yōu)化時(shí),未評(píng)估每個(gè)超參數(shù)對(duì)機(jī)器學(xué)習(xí)算法性能的影響,也未考慮超參數(shù)之間可能存在的交互作用。為解決以上問(wèn)題,有學(xué)者提出基于實(shí)驗(yàn)設(shè)計(jì)的代理模型擬合和優(yōu)化方法。超參數(shù)優(yōu)化本質(zhì)上是一個(gè)計(jì)算代價(jià)高昂的“黑盒”函數(shù)優(yōu)化問(wèn)題,其目標(biāo)是在超參數(shù)搜索空間中尋找一組超參數(shù)組合,以獲得最優(yōu)的機(jī)器學(xué)習(xí)算法性能[6]。而基于實(shí)驗(yàn)設(shè)計(jì)的代理模型擬合和優(yōu)化方法在超參數(shù)組合和算法性能之間建立了經(jīng)驗(yàn)?zāi)P停欣谔剿鞒瑓?shù)和算法性能之間的關(guān)系,更有利于超參數(shù)的優(yōu)化。此外,實(shí)驗(yàn)設(shè)計(jì)是一種基于一定理論原則的抽樣,該方法可以以更微妙的方式探索感興趣的局部區(qū)域,采樣效率更高[7]。因此,考慮到基于實(shí)驗(yàn)設(shè)計(jì)的代理模型擬合和優(yōu)化方法的優(yōu)越性,一些學(xué)者嘗試將實(shí)驗(yàn)設(shè)計(jì)方法引入超參數(shù)優(yōu)化中[8]。然而,超參數(shù)與算法性能之間的關(guān)系通常較為復(fù)雜,表現(xiàn)為非線性、非凸性等[5]。對(duì)于這種復(fù)雜關(guān)系的建模,需采用模型形式比較靈活的非參數(shù)模型[9]。高斯過(guò)程回歸與其他非參數(shù)模型相比,自身超參數(shù)較少且有較成熟的理論方法對(duì)其自身超參數(shù)進(jìn)行尋優(yōu),因此可采用高斯過(guò)程回歸作為機(jī)器學(xué)習(xí)算法的替代模型。同時(shí),與非參數(shù)模型相兼容的實(shí)驗(yàn)設(shè)計(jì)方法是空間填充設(shè)計(jì)[10]。考慮到超拉丁方抽樣操作簡(jiǎn)單,能較好地覆蓋整個(gè)搜索空間,因此可采用超拉丁方抽樣作為超參數(shù)樣本點(diǎn)的獲取方式。
鑒于此,本文將超拉丁方設(shè)計(jì)和高斯過(guò)程回歸模型引入超參數(shù)建模,首先采用超拉丁方設(shè)計(jì)在每個(gè)超參數(shù)的預(yù)定范圍內(nèi)獲取訓(xùn)練樣本;然后建立超參數(shù)與機(jī)器學(xué)習(xí)算法性能之間的高斯過(guò)程回歸模型,并采用遺傳算法對(duì)所建模型進(jìn)行優(yōu)化;最后以隨機(jī)森林為例來(lái)驗(yàn)證本文所提方法在優(yōu)化多個(gè)超參數(shù)方面的有效性。
高斯過(guò)程將有限維的聯(lián)合正態(tài)分布擴(kuò)展到無(wú)限維,即若從高斯過(guò)程中任意取有限個(gè)隨機(jī)變量,則這些隨機(jī)變量的線性組合都服從正態(tài)分布[11]。高斯過(guò)程可以看作是一組隨機(jī)變量的集合,其性質(zhì)完全由均值函數(shù)m(x)和協(xié)方差函數(shù)k(x,x')確定,即:
式(1)中,x,x'∈Rd為任意輸入變量,為簡(jiǎn)化計(jì)算通常將均值函數(shù)m(x)設(shè)置為0。
對(duì)于高斯過(guò)程回歸,可假設(shè)輸出值與輸入值可以表示為:
其中,f(x)是x的函數(shù)值,y是觀測(cè)值,ε是噪聲因子且ε~N(0,σn2)。
由式(1)和式(2)可求出觀測(cè)值y的先驗(yàn)分布為:
觀測(cè)值y和預(yù)測(cè)值f*的聯(lián)合先驗(yàn)分布為:
依據(jù)貝葉斯定理可推導(dǎo)出預(yù)測(cè)值f*的后驗(yàn)分布為:
其中:
其中,和cov(f*)分別為測(cè)試數(shù)據(jù)集X*所預(yù)測(cè)的函數(shù)值的均值和方差。
在訓(xùn)練模型之前,需要選擇合適的協(xié)方差函數(shù),即核函數(shù)。常用的核函數(shù)有平方指數(shù)核,其表達(dá)式為:
該函數(shù)有兩個(gè)超參數(shù),即信號(hào)方差σf2和特征長(zhǎng)度尺度參數(shù)l。令θ=(l,σn,σf),通過(guò)極大似然估計(jì)法,也即最大化logp(y|x,θ),便可求出最優(yōu)的θ值組合,從而實(shí)現(xiàn)高速過(guò)程回歸模型超參數(shù)的優(yōu)化。
隨機(jī)森林(Random Forests, RF)是Breiman 在2001 年提出的一種集成學(xué)習(xí)方法,它由多個(gè)無(wú)限增長(zhǎng)的決策樹組成[12]。RF中的每個(gè)決策樹都是通過(guò)使用帶替換的重采樣技術(shù)從原始訓(xùn)練數(shù)據(jù)集中提取一組隨機(jī)變量和一個(gè)隨機(jī)樣本來(lái)構(gòu)建。這兩步隨機(jī)化的目的是減少樹木之間的相關(guān)性,使決策樹集合具有較小的方差。已有研究證明,與單個(gè)決策樹模型相比,使用隨機(jī)森林算法可以實(shí)現(xiàn)更高的精度,同時(shí)還可以處理樹模型的一些有益性質(zhì),這可以很容易地解釋輸入值和輸出值之間的關(guān)系[13]。與目前在回歸預(yù)測(cè)中使用的其他基礎(chǔ)模型相比,隨機(jī)森林算法通常具有更好的預(yù)測(cè)性能[14]。
隨機(jī)森林算法的效率和性能受幾個(gè)主要超參數(shù)的影響[15]。本文以隨機(jī)森林算法的超參數(shù)優(yōu)化為例進(jìn)行實(shí)驗(yàn),該算法在R語(yǔ)言[16]中的“隨機(jī)森林”包中實(shí)現(xiàn)。R語(yǔ)言包中有多個(gè)可用的超參數(shù),本文僅從中選擇6 個(gè)進(jìn)行優(yōu)化,結(jié)果如表1所示。目的是最大限度地優(yōu)化這6個(gè)超參數(shù),以實(shí)現(xiàn)隨機(jī)森林的最佳分類性能。
表1 “隨機(jī)森林”軟件包中的超參數(shù)
由上文分析可以看出,若要實(shí)現(xiàn)基于GPR 模型的機(jī)器學(xué)習(xí)算法超參數(shù)建模及優(yōu)化,需要考慮以下三個(gè)關(guān)鍵問(wèn)題。一是如何在超參數(shù)設(shè)置空間內(nèi)獲取樣本點(diǎn),即實(shí)驗(yàn)設(shè)計(jì)方法的選擇;二是如何在超參數(shù)設(shè)置空間內(nèi)構(gòu)建GPR全局模型;三是如何在超參數(shù)設(shè)置空間內(nèi)對(duì)GPR 模型進(jìn)行全局尋優(yōu)。
對(duì)于關(guān)鍵問(wèn)題一,可考慮采用超拉丁方設(shè)計(jì)在超參數(shù)設(shè)置空間內(nèi)獲取模型訓(xùn)練的樣本點(diǎn)。傳統(tǒng)的實(shí)驗(yàn)設(shè)計(jì)方法,如全因子設(shè)計(jì)、部分因子設(shè)計(jì),在樣本點(diǎn)的獲取上受到很大限制,這些方法獲得的樣本點(diǎn)為局部樣本點(diǎn)而非全局樣本點(diǎn)。此外,對(duì)于復(fù)雜的超參數(shù)設(shè)置空間,僅采用端點(diǎn)樣本點(diǎn)或中心樣本點(diǎn)不足以探索超參數(shù)內(nèi)部的空間結(jié)構(gòu),且所獲得的樣本點(diǎn)建立的模型不足以刻畫超參數(shù)與算法性能之間的復(fù)雜作用關(guān)系。而超拉丁方設(shè)計(jì)是非常靈活的實(shí)驗(yàn)設(shè)計(jì)方法,它將超參數(shù)設(shè)計(jì)空間進(jìn)行分割化,最大限度地在空間內(nèi)取點(diǎn),使得空間中的區(qū)域都可以被覆蓋,取得的樣本點(diǎn)更均勻。當(dāng)維數(shù)降低時(shí),剩余的樣本點(diǎn)仍然滿足超拉丁方設(shè)計(jì)的條件。因此,采用超拉丁方設(shè)計(jì)來(lái)獲取復(fù)雜關(guān)系過(guò)程的全局樣本點(diǎn)是可行的。
對(duì)于關(guān)鍵問(wèn)題二,可考慮采用高斯過(guò)程回歸模型擬合超參數(shù)與算法性能之間的復(fù)雜作用關(guān)系。傳統(tǒng)的響應(yīng)曲面法大多采用一階或二階多項(xiàng)式模型來(lái)近似擬合輸入?yún)?shù)和輸出參數(shù)之間的關(guān)系,對(duì)于復(fù)雜作用關(guān)系擬合效果有限。此外,響應(yīng)曲面法受因子水平的影響較大。即使對(duì)于同一個(gè)模型,不同的因子水平也會(huì)得到不同的優(yōu)化結(jié)果。因此,響應(yīng)曲面法建立的模型僅為局部模型,它對(duì)輸入?yún)?shù)的優(yōu)化為局部?jī)?yōu)化,未能實(shí)現(xiàn)全局優(yōu)化。而高斯過(guò)程回歸是一種樣本點(diǎn)導(dǎo)向的非參數(shù)回歸建模方法,不僅模型形式靈活,而且可在參數(shù)設(shè)置空間里建立全局模型,從而實(shí)現(xiàn)輸入?yún)?shù)的全局優(yōu)化。大量研究證明,采用合適的高斯過(guò)程核函數(shù)可較為準(zhǔn)確地建立輸入?yún)?shù)與輸出參數(shù)之間的復(fù)雜作用關(guān)系。因此,采用高斯過(guò)程回歸模型對(duì)超參數(shù)和機(jī)器學(xué)習(xí)算法性能之間的關(guān)系進(jìn)行建模是可行的。
對(duì)于關(guān)鍵問(wèn)題三,可采用遺傳算法對(duì)所建高斯過(guò)程回歸模型進(jìn)行尋優(yōu)。傳統(tǒng)的優(yōu)化方法,如最速下降法、牛頓法等,從某個(gè)特定的初始點(diǎn)開始進(jìn)行優(yōu)化。初始點(diǎn)的位置對(duì)算法的最終優(yōu)化結(jié)果影響較大。若初始點(diǎn)接近某個(gè)局部極值點(diǎn),則該算法將快速收斂到極值點(diǎn),無(wú)法達(dá)到全局最優(yōu)。因此,傳統(tǒng)的優(yōu)化算法容易陷入局部最優(yōu),無(wú)法達(dá)到全局最優(yōu)。而遺傳算法則是一種隨機(jī)搜索算法,與傳統(tǒng)的優(yōu)化算法不同,它開始于多個(gè)點(diǎn),不受梯度信息的影響,對(duì)模型的解析形式?jīng)]有限制,具有很強(qiáng)的適應(yīng)性,能夠解決大規(guī)模、高度非線性、具有復(fù)雜交互過(guò)程的不連續(xù)模型優(yōu)化問(wèn)題。因此,可采用遺傳算法對(duì)所建模型在超參數(shù)設(shè)置空間內(nèi)實(shí)現(xiàn)全局優(yōu)化。
本文可以采用以下步驟實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法超參數(shù)的優(yōu)化(以二值分類問(wèn)題為例)。
步驟1:選擇需要優(yōu)化的機(jī)器學(xué)習(xí)算法和機(jī)器學(xué)習(xí)算法性能的評(píng)估指標(biāo)(準(zhǔn)確率、精確率、ROC曲線等)。
步驟2:根據(jù)經(jīng)驗(yàn)和實(shí)際情況挑選出所需的超參數(shù),其個(gè)數(shù)為s,可表示為S={x1,x2,…,xs},并確定各超參數(shù)的可行域χ,χ=[a1,b1]×…×[as,bs]。
步驟3:采用超拉丁方設(shè)計(jì)對(duì)超參數(shù)進(jìn)行抽樣。假設(shè)需要抽取的樣本量為N,取s個(gè)獨(dú)立{1,2,…,N}的隨機(jī)置換πj(1),…,πj(N),j=1,…,s,將他們作為列向量組成一個(gè)N×s設(shè)計(jì)矩陣,記為L(zhǎng)HD(N,s),將第k行、第j列的元素記為πj(k)。取[0,1]上Ns個(gè)均勻分布的獨(dú)立抽樣,Uij~U(0,1),i=1,…,N;j=1,…,s,記Dk=(dk1,…,dks)' ,其中:
則D={d1,…,dN}即為建模所需的實(shí)驗(yàn)集。
步驟4:根據(jù)步驟3 的實(shí)驗(yàn)集進(jìn)行實(shí)驗(yàn)以獲得與之對(duì)應(yīng)的算法性能評(píng)估指標(biāo),從而形成建模所需的樣本集:
將所獲得的樣本集隨機(jī)分成訓(xùn)練樣本集和測(cè)試樣本集。
步驟5:選擇合適的核函數(shù),采用高斯過(guò)程回歸進(jìn)行建模時(shí),先要解決的問(wèn)題就是核函數(shù)的選取及核函數(shù)中的超參數(shù)優(yōu)化。根據(jù)式(8),采用極大似然估計(jì)法求出最優(yōu)的θ值組合。
步驟6:建立基于高斯過(guò)程回歸的超參數(shù)模型??紤]到超參數(shù)與算法性能評(píng)估指標(biāo)之間的復(fù)雜作用關(guān)系,采用高斯核函數(shù)作為超參數(shù)與評(píng)估指標(biāo)之間的高斯過(guò)程回歸模型的核函數(shù),建立高斯過(guò)程回歸的超參數(shù)模型。
步驟7:檢驗(yàn)高斯過(guò)程回歸模型的優(yōu)劣。本文選擇RMSE來(lái)驗(yàn)證所建模型是否滿足精度要求,將建立的高斯過(guò)程回歸模型運(yùn)用于測(cè)試樣本集,求出對(duì)應(yīng)的RMSE。
步驟8:對(duì)步驟6 建立的GPR 模型用遺傳算法進(jìn)行尋優(yōu),直至找到全局最優(yōu)點(diǎn)才停止遺傳算法的迭代操作。
步驟9:將步驟8 優(yōu)化后的結(jié)果與傳統(tǒng)響應(yīng)曲面法進(jìn)行對(duì)比,以驗(yàn)證模型的優(yōu)劣。圖1為高斯過(guò)程回歸和遺傳算法相結(jié)合優(yōu)化機(jī)器學(xué)習(xí)算法的超參數(shù)流程圖。
圖1 GPR與GA相結(jié)合優(yōu)化超參數(shù)流程圖
本文選取的adult 數(shù)據(jù)集來(lái)自UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),該數(shù)據(jù)集有32561 個(gè)樣本點(diǎn),其中有14 個(gè)屬性,包含連續(xù)數(shù)據(jù)和分類數(shù)據(jù),該數(shù)據(jù)集的大小有利于執(zhí)行10 倍交叉驗(yàn)證。為了與傳統(tǒng)的響應(yīng)曲面法進(jìn)行對(duì)比,本文以10 倍交叉驗(yàn)證平均BACC 響應(yīng)值作為算法性能的評(píng)估指標(biāo),BACC 平均值越大說(shuō)明隨機(jī)森林算法的分類性能越好[8]。此外,為了驗(yàn)證本文所提方法的泛化性能,從UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中又選取了另外4個(gè)具有代表性的數(shù)據(jù)集,數(shù)據(jù)的詳細(xì)說(shuō)明見表2。
表2 數(shù)據(jù)說(shuō)明
4.2.1 超參數(shù)的初始水平設(shè)置
根據(jù)前文的算法實(shí)現(xiàn)步驟,在步驟2中超參數(shù)的范圍不應(yīng)太大,以免影響智能算法尋找全局最優(yōu)值的性能,但也不應(yīng)太小而未能包含全局最優(yōu)值。對(duì)于因子ntree,根據(jù)以往的研究,隨著決策樹數(shù)量的增加,隨機(jī)森林的分類性能也日益提高。然而,當(dāng)決策樹的數(shù)量增加到一定程度時(shí),隨機(jī)森林的分類性能并沒有隨著決策樹數(shù)量的增加而提高或降低,而較小的ntree 會(huì)使分類性能提高。決策樹的數(shù)量越多,計(jì)算成本就越高。因此,將ntree因子設(shè)置在包中的默認(rèn)樹數(shù)(500)和100 之間。參照文獻(xiàn)[17]將mtry的值設(shè)置為2 和4。在系數(shù)classwt 中,參照文獻(xiàn)[8]為高水平(>50K)的類別設(shè)置了10 倍的權(quán)重,而為低水平類別(≤50K)設(shè)置了1倍的權(quán)重。對(duì)于因子cutoff,水平值設(shè)置為0.2和0.8。對(duì)于因子nodesize,設(shè)置為1和3256。最后,對(duì)于低水平,將因子maxnodes設(shè)置為5;對(duì)于高水平,將因子maxnodes設(shè)置為10000。超參數(shù)及其級(jí)別如表3所示。
表3 超參數(shù)的水平設(shè)置
4.2.2 訓(xùn)練樣本點(diǎn)的獲取及模型的建立
根據(jù)表3中超參數(shù)因子的設(shè)置空間,采用超拉丁方設(shè)計(jì)獲得60×6 矩陣。矩陣中的每行代表一個(gè)實(shí)驗(yàn)樣本點(diǎn)。將每個(gè)實(shí)驗(yàn)樣本點(diǎn)代入隨機(jī)森林模型,得到相應(yīng)的10倍交叉BACC平均值,從而獲得訓(xùn)練樣本點(diǎn)。將初始的60 個(gè)訓(xùn)練樣本點(diǎn)隨機(jī)分成兩個(gè)部分,其中40 個(gè)樣本點(diǎn)用于訓(xùn)練模型,其余20 個(gè)樣本點(diǎn)用于驗(yàn)證模型的泛化能力。在構(gòu)造GPR 模型時(shí)先要選擇合適的核函數(shù),如高斯核函數(shù),GPR 模型中有兩個(gè)超參數(shù),即信號(hào)方差σf2和特征長(zhǎng)度尺度參數(shù)l,依據(jù)極大似然估計(jì)法便可求出GPR模型中兩個(gè)超參數(shù)的最優(yōu)值。
4.2.3 采用遺傳算法對(duì)所建模型尋優(yōu)
采用遺傳算法對(duì)所建高斯過(guò)程回歸模型進(jìn)行尋優(yōu)。首先初始化種群設(shè)置,選擇二進(jìn)制編碼,種群大小設(shè)置為20,最大迭代次數(shù)設(shè)置為200,交叉概率設(shè)置為0.9,變異概率設(shè)置為0.03;然后采用輪盤賭選擇方法進(jìn)行選擇操作,采用兩點(diǎn)交叉法執(zhí)行交叉操作,依據(jù)變異概率進(jìn)行變異操作;最后當(dāng)?shù)螖?shù)大于設(shè)置的最大迭代次數(shù)時(shí),停止遺傳算法。
(1)所提方法的實(shí)驗(yàn)結(jié)果分析。依據(jù)本文所提方法,采用極大似然估計(jì)法最終得到的高斯過(guò)程回歸模型的最優(yōu)超參數(shù)為σf=0.746,l=3.96,將所建高斯過(guò)程回歸模型應(yīng)用于測(cè)試數(shù)據(jù)集求得RMSE=0.03??梢钥闯觯咚惯^(guò)程回歸模型的擬合效果較好,即擬合后的模型能夠較為準(zhǔn)確地反映超參數(shù)組合與BACC響應(yīng)值之間的復(fù)雜作用關(guān)系,可以通過(guò)對(duì)所建模型尋優(yōu)實(shí)現(xiàn)算法性能的提升。采用遺傳算法對(duì)擬合的GPR 模型進(jìn)行尋優(yōu),尋優(yōu)結(jié)果如圖2 所示??梢钥闯?,當(dāng)x1=0.6901,x2=0.3902,x3=0.0169,x4=0.0344 ,x5=0.4667 ,x6=0.8117 時(shí),可得最大BACC=0.8488,即通過(guò)優(yōu)化得到的最佳超參數(shù)組合為ntree=376,mtry=2.78,nodesize=56,classwt=(1.31,1),cutoff=(0.48,0.52),maxnodes=8118,最后將優(yōu)化后的超參數(shù)代入隨機(jī)森林進(jìn)行驗(yàn)證可得真實(shí)的10 倍交叉驗(yàn)證平均響應(yīng)值BACC=0.834,與尋優(yōu)結(jié)果較為接近,再次證明所建高斯過(guò)程回歸模型可以較為準(zhǔn)確地?cái)M合超參數(shù)與響應(yīng)變量之間的作用關(guān)系。
圖2 遺傳算法尋優(yōu)結(jié)果圖
(2)與傳統(tǒng)響應(yīng)曲面法的對(duì)比分析。為了驗(yàn)證本文所提方法的優(yōu)越性,將所提方法與傳統(tǒng)響應(yīng)曲面法進(jìn)行對(duì)比,結(jié)果如下頁(yè)表4 所示,可以看出,對(duì)于adult 數(shù)據(jù)集,當(dāng)采用響應(yīng)曲面法對(duì)隨機(jī)森林的超參數(shù)進(jìn)行優(yōu)化時(shí),最佳超參數(shù) 組合為ntree=250,mtry=3.7417,nodesize=1,classwt=(10,1),cutoff=(0.77,0.23),maxnodes=NULL,響應(yīng)值BACC=0.821。而采用本文所提方法優(yōu)化隨機(jī)森林超參數(shù)時(shí),超參 數(shù) 的 最 佳組合是ntree=376,mtry=2.78,nodesize=56,classwt=(1.31,1),cutoff=(0.48,0.52),maxnodes=8118,響應(yīng)值BACC=0.834。從對(duì)比結(jié)果可以看出,采用響應(yīng)曲線法和本文所提方法獲得的響應(yīng)值均比默認(rèn)超參數(shù)組合下的基準(zhǔn)值(BACC=0.789)大,說(shuō)明兩種方法均可通過(guò)優(yōu)化機(jī)器學(xué)習(xí)算法的超參數(shù)來(lái)實(shí)現(xiàn)算法性能的提升。然而,采用本文所提方法可以獲得比響應(yīng)曲面法更大的BACC值。因此可以得出,采用響應(yīng)曲面方法優(yōu)化隨機(jī)森林超參數(shù)得到的響應(yīng)值(BACC)只是一個(gè)局部極大值,雖然響應(yīng)曲面法優(yōu)化隨機(jī)森林超參數(shù)可以提升分類性能,但提升效果有限。
表4 本文所提方法與默認(rèn)超參數(shù)法、響應(yīng)曲面法的對(duì)比結(jié)果
此外,從實(shí)驗(yàn)次數(shù)對(duì)比可知,傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)和響應(yīng)曲面法優(yōu)化隨機(jī)森林超參數(shù)需要執(zhí)行157次實(shí)驗(yàn)。對(duì)于6個(gè)因子、2 個(gè)水平的超參數(shù)組合,網(wǎng)格搜索需要執(zhí)行64 次實(shí)驗(yàn),而本文所提方法僅需執(zhí)行60 次實(shí)驗(yàn)即可找到較優(yōu)的超參數(shù)組合,進(jìn)而實(shí)現(xiàn)隨機(jī)森林算法分類性能的提升。因此,與響應(yīng)曲面法相比,本文所提方法顯著減少了所需實(shí)驗(yàn)的運(yùn)行次數(shù),節(jié)約了大量實(shí)驗(yàn)成本,尤其是當(dāng)超參數(shù)較多時(shí)其優(yōu)勢(shì)更加突出。
(3)其他數(shù)據(jù)集上的對(duì)比。為了檢驗(yàn)本文所提方法的普適性和優(yōu)越性,從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中重新選取4個(gè)有代表性的數(shù)據(jù)集,數(shù)據(jù)集的超參數(shù)初始化設(shè)置如表5所示,將本文所提方法和響應(yīng)曲面法在這4個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,檢驗(yàn)結(jié)果如表6 所示,將表6 的對(duì)比結(jié)果繪制成圖3。可以看出,對(duì)于這4個(gè)數(shù)據(jù)集,本文所提方法優(yōu)化后的響應(yīng)值(BACC)高于響應(yīng)面方法與默認(rèn)超參數(shù)得到的響應(yīng)值。因此可以證明,該方法具有一定的普適性,不僅適用于案例中的adult數(shù)據(jù)集,也適用于其他數(shù)據(jù)集,且在其他數(shù)據(jù)集上優(yōu)化后的超參數(shù)仍優(yōu)于默認(rèn)超參數(shù)組合及響應(yīng)曲面法。
圖3 4個(gè)驗(yàn)證數(shù)據(jù)集對(duì)比結(jié)果
表5 4個(gè)驗(yàn)證數(shù)據(jù)集的超參數(shù)初始化設(shè)置
表6 本文所提方法與默認(rèn)超參數(shù)法、響應(yīng)曲面法在4個(gè)驗(yàn)證數(shù)據(jù)集上的對(duì)比結(jié)果
本文對(duì)機(jī)器學(xué)習(xí)算法超參數(shù)的建模及優(yōu)化問(wèn)題進(jìn)行了研究,通過(guò)深入分析超參數(shù)對(duì)算法性能的影響規(guī)律,提出了基于超拉丁方設(shè)計(jì)和高斯過(guò)程回歸相結(jié)合的建模及優(yōu)化方法。該方法充分考慮了超參數(shù)配置空間的內(nèi)部結(jié)構(gòu),通過(guò)對(duì)超參數(shù)配置空間的取點(diǎn)設(shè)計(jì)實(shí)現(xiàn)了對(duì)機(jī)器學(xué)習(xí)算法超參數(shù)的優(yōu)化,降低了超參數(shù)優(yōu)化的難度,節(jié)約了實(shí)驗(yàn)成本。以UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的adult數(shù)據(jù)集為例進(jìn)行研究,結(jié)果表明在超參數(shù)配置空間中,與響應(yīng)曲面法相比,該方法能夠較準(zhǔn)確地?cái)M合超參數(shù)與算法性能之間的復(fù)雜作用關(guān)系且可在超參數(shù)配置空間內(nèi)獲得全局最優(yōu)解。此外,為了驗(yàn)證本文所提方法在其他數(shù)據(jù)集上仍具有較好的超參數(shù)優(yōu)化性能,從UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中又選取4個(gè)具有代表性的數(shù)據(jù)集作為驗(yàn)證數(shù)據(jù)集。驗(yàn)證結(jié)果表明,在所選的4個(gè)數(shù)據(jù)集上,本文所提方法優(yōu)化超參數(shù)組合得到的最優(yōu)解仍優(yōu)于響應(yīng)曲面法。由于本文考慮的是連續(xù)型超參數(shù)數(shù)據(jù)的建模及優(yōu)化,事實(shí)上機(jī)器學(xué)習(xí)算法中還存在離散型超參數(shù)數(shù)據(jù)、分類型超參數(shù)數(shù)據(jù),因此如何對(duì)這些混合超參數(shù)數(shù)據(jù)進(jìn)行建模及優(yōu)化,將是下一步的研究方向。