產(chǎn)勝寧
(貴州財(cái)經(jīng)大學(xué),貴陽 550025)
目前隨著數(shù)據(jù)量的激增和維度越來越大,維度災(zāi)難帶來的問題日益突出。特征選擇是機(jī)器學(xué)習(xí)為解決維度災(zāi)難的一個(gè)有效措施,被廣泛應(yīng)用在各個(gè)方向。在模型訓(xùn)練數(shù)據(jù)的過程中,沒有用的冗余特征影響模型的訓(xùn)練效果,不僅無法提供有用的信息,還會(huì)增加模型在訓(xùn)練過程中的復(fù)雜度。對(duì)于一個(gè)樣本數(shù)據(jù)集,特征選擇是從樣本的特征集合空間中有效地選擇出一組特征子集,移除特征空間沒有用的冗余特征子集和有效信息不足的特征子集,用較小的特征子集表示原本數(shù)據(jù)集,從而減小數(shù)據(jù)的維度,這樣模型處理的復(fù)雜度也會(huì)隨之減小,提高模型的處理能力。
特征選擇方法在高維度數(shù)據(jù)面前受到了嚴(yán)峻的考驗(yàn)。國內(nèi)外的研究者對(duì)特征選擇的方法展開了大量的研究,總的來說,特征選擇的方法主要分為三種:過濾式、包裹式和嵌入式。過濾式(filter)是利用特征選擇方法進(jìn)行特征篩選,將篩選后的特征子集作為數(shù)據(jù)供模型訓(xùn)練,它可以處理比較大的數(shù)據(jù)集,但是在精度上面會(huì)有所欠缺。包裹式(wrapper)是選擇在模型的效果上最好的特征子集,這種方法的準(zhǔn)確率會(huì)更高,但是因?yàn)樘卣髯蛹倪x擇過程中會(huì)耗費(fèi)大量時(shí)間,性能開銷大。嵌入式(embedding)是將兩個(gè)過程分別優(yōu)化融合在一起實(shí)現(xiàn)特征選擇,故它的性能和開銷相比其它兩個(gè)方法比較折中。對(duì)于高維大數(shù)據(jù),傳統(tǒng)的特征選擇方法在開銷上花費(fèi)較大,難以有效地實(shí)現(xiàn)特征選擇,為模型降低復(fù)雜度。Gibbs Sampling是一種面向高維數(shù)據(jù)的采樣技術(shù),采到的樣本數(shù)據(jù)集是誤差范圍內(nèi)的近似目標(biāo)分布,通過Gibbs Sampling對(duì)樣本數(shù)據(jù)集進(jìn)行重要度排序,將會(huì)得到特征的重要性值,可以有效地實(shí)現(xiàn)特征選擇,Qian等和馮馳都展開了基于Gibbs Sampling的特征選擇,可以有效地實(shí)現(xiàn)特征選擇。相比包裹式特征選擇,基于Gibbs Sampling的特征選擇方法的復(fù)雜度是一個(gè)多項(xiàng)式,可以有效地降低復(fù)雜度。
蒙特卡洛方法是一種隨機(jī)模擬的采樣技術(shù),它主要是將所要求解的問題轉(zhuǎn)化成建立的概率統(tǒng)計(jì)模型的參數(shù)或者其它相關(guān)特征,通過算法模擬隨機(jī)采樣,利用漸進(jìn)理論把要求的問題轉(zhuǎn)化成求問題的近似解。在實(shí)際的應(yīng)用過程中,我們所面對(duì)問題的目標(biāo)函數(shù)不是一個(gè)簡單的分布,所以難以直接從目標(biāo)分布函數(shù)產(chǎn)生樣本數(shù)據(jù),這也就抑制了蒙特卡洛(Monte Carlo)方法的發(fā)展。隨著馬爾科夫蒙特卡洛(MCMC)算法的發(fā)展,采樣過程中的問題得到了簡化,有效地解決了Monte Carlo方法的局限性,是現(xiàn)如今研究的一大熱門。MCMC方法的核心是構(gòu)建一條合適的馬氏鏈,使得目標(biāo)分布能夠轉(zhuǎn)化成馬氏鏈中的平穩(wěn)分布。吉布斯采樣是MCMC算法中應(yīng)用最為廣泛的,是專門處理多維的目標(biāo)分布,它主要是通過條件分布構(gòu)造馬氏鏈中的轉(zhuǎn)移核。
(1)隨機(jī)初始化時(shí)刻的樣本{A:=1,2,…,};
(2)=0,1,…,,循環(huán)采樣
③…
大數(shù)據(jù)情況下許多問題較為復(fù)雜,難以求得問題的精準(zhǔn)辦法,本研究巧妙地借助Gibbs采樣方法,其中嵌套LightGBM算法構(gòu)造條件通過模型的似然函數(shù)求條件轉(zhuǎn)移概率,在一定的誤差范圍內(nèi),對(duì)給定問題求近似解,對(duì)采樣的樣本特征進(jìn)行關(guān)聯(lián)顯著性分析,得到特征的重要程度,根據(jù)特征的重要程度實(shí)現(xiàn)特征選擇的目的。
(1)構(gòu)建初始化模型,初始化特征指標(biāo)維度的特征子集,其中的系數(shù)為0或1,0代表特征未出現(xiàn),1代表特征出現(xiàn),即
(2)對(duì)于隨機(jī)采樣,需要建立采樣的準(zhǔn)則,也就是需要構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率。相比于AIC信息準(zhǔn)則,BIC信息準(zhǔn)則引入的懲罰項(xiàng)考慮了樣本量,可以有效地解決樣本數(shù)量過多時(shí)模型精度過高引起的高模型復(fù)雜度。因此本文借助BIC信息準(zhǔn)則,建立LightGBM模型,以此構(gòu)建馬氏鏈的條件轉(zhuǎn)移概率,即有
其中,為樣本的數(shù)量,為模型的參數(shù)數(shù)量,為似然函數(shù)。懲罰項(xiàng)ln()考慮了維度,在樣本數(shù)量較少維度過大的情況下可以優(yōu)先解決維度災(zāi)難的困擾。表示第個(gè)特征的條件轉(zhuǎn)移概率,-表示除了第個(gè)特征之外的其它所有特征。根據(jù)初始化的特征子集,利用采樣準(zhǔn)則對(duì)每一維特征進(jìn)行采樣。
(3)明確采樣樣本數(shù)量。采樣的樣本數(shù)量可以確定算法的計(jì)算復(fù)雜度,借助樣本量降低模型的復(fù)雜度。為讓采樣的近似值與目標(biāo)函數(shù)的真實(shí)值之間的誤差在接受范圍內(nèi)、為保證特征指標(biāo)的顯著性,我們根據(jù)蒙特卡洛的標(biāo)準(zhǔn)差公式,用兩倍的準(zhǔn)則將模擬結(jié)果的誤差控制在5%以內(nèi),即
可以求出不少于400,也就是說采樣的樣本量大于等于400時(shí),可以保證特征指標(biāo)的顯著性。
(4)通過Gibbs Sampling采得不少于400的數(shù)據(jù)樣本,對(duì)這條數(shù)據(jù)進(jìn)行分析,將每一個(gè)特征出現(xiàn)的頻率作為特征重要性程度,即
特征重要性值接近0,說明特征不重要;特征重要性值越接近1,說明對(duì)應(yīng)特征越重要。根據(jù)特征重要性值的高低,選擇特征重要性值較高的一定數(shù)量特征,可以有效地達(dá)到特征選擇降維的目的,降低機(jī)器學(xué)習(xí)模型的復(fù)雜度、更好地挖掘數(shù)據(jù)的信息。使用多個(gè)不同的數(shù)據(jù)集,選擇有代表性的特征選擇算法和本文提出的基于Gibbs Sampling的特征選擇算法分別在各個(gè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)比較,各種不同方法選擇得到的特征子集分別放入相同的模型中,通過同樣的模型和評(píng)價(jià)準(zhǔn)則驗(yàn)證各個(gè)算法的有效性。
實(shí)驗(yàn)中采用的數(shù)據(jù)均來自一些公開數(shù)據(jù)集,共有4個(gè)樣本數(shù)據(jù)集,對(duì)每個(gè)數(shù)據(jù)集進(jìn)行了預(yù)處理,其中包含對(duì)缺失值的處理、刪除無關(guān)屬性和不均衡分析與處理,樣本不均衡采用了SMOTE過采樣技術(shù),最后每個(gè)樣本的部分信息如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)選取了卡方檢驗(yàn)、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE和基于隨機(jī)森林的樹模型的特征選擇。這些代表性的特征選擇算法與基于LightGBM-Gibbs Sampling特征選擇方法分別在4個(gè)樣本數(shù)據(jù)集中實(shí)驗(yàn),用不同特征選擇方法選一定數(shù)量的特征,在同樣的模型中使用交叉驗(yàn)證的方法來比較各方法的準(zhǔn)確率,進(jìn)而衡量方法的有效性。
交叉驗(yàn)證是一種模型驗(yàn)證技術(shù),使用機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測(cè)可以準(zhǔn)確衡量一個(gè)模型在數(shù)據(jù)集上的效果。交叉驗(yàn)證具體做法就是將數(shù)據(jù)集劃分個(gè)部分,一部分用于訓(xùn)練模型,其余部分測(cè)試模型的性能好壞,也叫折交叉驗(yàn)證。交叉驗(yàn)證還可以限制模型在訓(xùn)練過程中出現(xiàn)的過擬合、欠擬合問題。本文選取交叉驗(yàn)證的方法,取=5,產(chǎn)生不受高偏差和高偏差影響的測(cè)試誤差估計(jì),將平均準(zhǔn)確率作為模型預(yù)測(cè)能力的評(píng)價(jià)方法,在同一數(shù)據(jù)上比較不同方法的平均準(zhǔn)確率。
將本文所提出的方法與幾種典型的特征選擇算法分別在4個(gè)樣本數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn),選擇一定數(shù)量的特征,使用5折交叉驗(yàn)證的邏輯回歸模型衡量模型的預(yù)測(cè)能力,4個(gè)樣本數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果見表2。
表2 數(shù)據(jù)所用方法實(shí)驗(yàn)比對(duì)結(jié)果
表2顯現(xiàn)了原始數(shù)據(jù)集在模型中的準(zhǔn)確率和進(jìn)行特征選擇的特征數(shù)量以及各種方法選取的相同數(shù)量的特征子集在相同模型的準(zhǔn)確率。從表2中的實(shí)驗(yàn)結(jié)果可以看出,所選取的4個(gè)數(shù)據(jù)集分別使用卡方檢驗(yàn)、MIC互信息法和最大信息系數(shù)、遞歸特征消除法RFE、基于隨機(jī)森林的樹模型的特征選擇和基于LightGBMGibbs Sampling特征選擇方法進(jìn)行特征選擇,對(duì)應(yīng)4個(gè)數(shù)據(jù)分別選擇8、18、7、21個(gè)屬性。實(shí)驗(yàn)發(fā)現(xiàn),相比其它4個(gè)特征選擇方法,基于LightGBM-Gibbs Sampling特征選擇方法取得了更好的準(zhǔn)確率,相比原始數(shù)據(jù)集,數(shù)據(jù)集的維度不僅有效地降低了,準(zhǔn)確率也得到了提升。
數(shù)據(jù)的維度災(zāi)難給模型帶來訓(xùn)練復(fù)雜、挖掘能力不足等問題,本文基于吉布斯采樣的方法提出了Gibbs Sampling和LightGBM相結(jié)合的特征選擇方法,使用公共數(shù)據(jù)集與幾個(gè)典型的特征選擇方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果表明,基于LightGBM-Gibbs Sampling特征選擇算法的方法有效性,且相比其它方法,該方法具有一定的優(yōu)勢(shì),可以有效做到特征的降維。
在實(shí)際中,Gibbs Sampling的復(fù)雜度是一個(gè)多項(xiàng)式,相比于包裹式特征選擇,復(fù)雜度已經(jīng)降低了不少,但還是比較大,在后續(xù)工作中,如何解決Gibbs Sampling的復(fù)雜度是亟需解決的一個(gè)問題,力爭(zhēng)做到特征的快速選擇,降低時(shí)間成本,增強(qiáng)時(shí)效性。