范怡敏 齊 林 帖 云
(鄭州大學(xué)信息工程學(xué)院 河南 鄭州 450000)
目前,對生物醫(yī)學(xué)和生物信息學(xué)數(shù)據(jù)的分析與分類越來越重要,如:疾病的診斷,癌癥的分類[1],物種分類等。如今,在基因表達(dá)水平上的數(shù)據(jù)集常被用來鑒定和提取一些生物信息;生物醫(yī)學(xué)通過基因分析來了解疾病發(fā)生與發(fā)展機(jī)制以及可能性等問題,從而進(jìn)一步進(jìn)行基因診斷、亞型分類等。然而,多數(shù)生物信息學(xué)數(shù)據(jù)的獲取非常困難,通常只能得到小規(guī)模的樣本數(shù)據(jù)集?;虮磉_(dá)數(shù)據(jù)集普遍存在樣本個(gè)數(shù)少、維度高、噪聲大等問題,復(fù)雜的分類處理模型很容易導(dǎo)致過擬合。當(dāng)前常用于分類問題的典型機(jī)器學(xué)習(xí)算法包括:支持向量機(jī)(Support Vector Machine,SVM)[2]、隨機(jī)森林(Random Forest,RF)[3]、深度森林[4](Deep Forest),以及一些集成方法分類模型,例如Adaboost[5]、XGBoost[4]等。文獻(xiàn)[2]使用了SVM對基因表達(dá)數(shù)據(jù)進(jìn)行分類。近年來深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[6]在很多應(yīng)用領(lǐng)域中取得了較大的發(fā)展。然而,盡管深度學(xué)習(xí)網(wǎng)絡(luò)模型為數(shù)據(jù)分析提供了有利的方法,但是由于神經(jīng)網(wǎng)絡(luò)算法自身的一些特點(diǎn),在基因等小規(guī)模數(shù)據(jù)集中的應(yīng)用受到了限制:一方面,深度神經(jīng)網(wǎng)絡(luò)模型比較復(fù)雜,通常需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而基因數(shù)據(jù)的樣本量通常不足;另一方面,深度神經(jīng)網(wǎng)絡(luò)模型中參數(shù)過多,多數(shù)情況下模型的性能受參數(shù)影響較大[6]。因此其在小規(guī)模數(shù)據(jù)集的分類中通常難以獲得預(yù)期的性能。為了改善深度神經(jīng)網(wǎng)絡(luò)的這些缺陷[6],2017年出現(xiàn)了深度森林、多粒度級(jí)聯(lián)森林(multi-Grained Cascade Forest,gcForest)模型,這是基于深度模型提出的一種通過集成學(xué)習(xí)方法提高分類性能的結(jié)構(gòu),能有效解決小樣本數(shù)據(jù)分類等問題。文獻(xiàn)[6]的實(shí)驗(yàn)結(jié)果驗(yàn)證了該模型相比于深度神經(jīng)網(wǎng)絡(luò)模型,能夠避免訓(xùn)練所需數(shù)據(jù)量大、模型復(fù)雜性高、超參數(shù)過多等問題,可以取得更好的分類效果。但原始模型依然有很多需要改進(jìn)的地方,例如:對于小樣本高維度數(shù)據(jù)集,模型易有過擬合現(xiàn)象;分類精度較低;模型對所集成的森林多樣性衡量不足,未對每個(gè)分類單元的分類質(zhì)量進(jìn)行區(qū)分;模型的泛化能力和分類穩(wěn)定性有待提升等。
現(xiàn)今集成學(xué)習(xí)被廣泛應(yīng)用,集成學(xué)習(xí)方法可以通過將多個(gè)學(xué)習(xí)模型組合,使組合后的模型具有更強(qiáng)的泛化能力[7]和更好的效果。綜上所述,本文在原始深度森林模型的基礎(chǔ)上提出一種改進(jìn)模型TBDForest,主要對多粒度掃描部分作了特征均等性利用的優(yōu)化以及級(jí)聯(lián)森林部分兩個(gè)方面的改進(jìn)。在五組基因表達(dá)DNA微陣列小樣本數(shù)據(jù)集上進(jìn)行特征選擇后進(jìn)行分類驗(yàn)證實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示改進(jìn)后模型處理小規(guī)模數(shù)據(jù)集時(shí)的分類性能相比于常用的支持向量機(jī)、隨機(jī)森林、gcForest、XGBoost、Adaboost等方法有所提升,進(jìn)一步實(shí)現(xiàn)分類模型在基因表達(dá)小樣本數(shù)據(jù)中的應(yīng)用。
基因表達(dá)數(shù)據(jù)通常有數(shù)千甚至上萬個(gè)特征基因,有高維度的特點(diǎn),然而在這些特征中只有小部分基因與癌癥亞型分類、疾病判別等相關(guān),其余大部分是冗余或噪聲特征,因此本文先對基因表達(dá)數(shù)據(jù)使用特征選擇方法進(jìn)行數(shù)據(jù)降維處理。Least absolute shrinkage and selection operator(Lasso)算法,是一種基于懲罰方法對樣本數(shù)據(jù)進(jìn)行變量選擇,通過將原本的系數(shù)壓縮,把原本非常小的系數(shù)壓縮至零,從而將這部分系數(shù)所對應(yīng)的變量視為不顯著的變量并直接舍棄[8]。這種方法能夠在保持原始基因的分類準(zhǔn)確性的同時(shí)選擇出重要的基因,降低時(shí)空消耗,更易于測試分類器性能。本文中實(shí)驗(yàn)數(shù)據(jù)樣本小維度高,先將原始數(shù)據(jù)通過Lasso算法進(jìn)行特征選擇降維處理,然后使用選出的重要基因特征進(jìn)行分類。
Breiman等[3]提出了隨機(jī)森林算法RF,其構(gòu)建在單一決策樹基礎(chǔ)上,同時(shí)又將單一決策樹方法進(jìn)行延伸和改進(jìn),其基本思想是構(gòu)造多棵決策樹,組成一個(gè)森林,之后通過這些決策樹共同決定輸出的類別。整個(gè)RF算法中有兩個(gè)隨機(jī)性的過程:(1) 原始輸入的數(shù)據(jù)隨機(jī)從所有訓(xùn)練數(shù)據(jù)中有放回地選出一些建立一個(gè)決策樹;(2) 建立每個(gè)決策樹所用的特征是從整體的特征集隨機(jī)性選取[9]的。這兩方面的隨機(jī)非常有利于RF模型避免過擬合。
RF是綜合考慮多個(gè)決策樹而形成的一種基于集成學(xué)習(xí)思想的機(jī)器學(xué)習(xí)方法。每個(gè)森林通過多棵決策樹對樣本進(jìn)行訓(xùn)練,由每棵決策樹給出分類值,然后按照少數(shù)服從多數(shù)的原則表決完成最終的分類,不僅被用于分類還可以解決回歸問題。RF的投票決策過程如下:
(1)
式中:H(x)表示組合分類模型;hi表示單棵決策樹;Y為輸出變量;I(·)為指示性函數(shù)。算法根據(jù)最大投票判斷得票數(shù)最多的一類作為最后的分類結(jié)果[8]。
隨機(jī)森林算法實(shí)現(xiàn)比較容易,不用設(shè)置過多參數(shù),且應(yīng)用廣泛。隨機(jī)森林對數(shù)據(jù)隨機(jī)選取和特征隨機(jī)選取這些隨機(jī)性的設(shè)置,使得隨機(jī)森林有非常好的抗噪聲性能,也不容易過擬合。RF能夠處理高維度的數(shù)據(jù),對不同數(shù)據(jù)集的適應(yīng)能力強(qiáng),既能處理離散型數(shù)據(jù),也能處理連續(xù)型數(shù)據(jù)。RF的訓(xùn)練效率高,能獲得各個(gè)變量的重要性排序,訓(xùn)練時(shí)可以檢測到特征相互之間的影響,從而使用并行化方法。隨機(jī)森林的生成步驟如下:
(1) 從原始訓(xùn)練集中隨機(jī)、有放回地采樣p個(gè)訓(xùn)練樣本,進(jìn)行p次采樣后生成p個(gè)訓(xùn)練集。
(2) 用p個(gè)訓(xùn)練集分別訓(xùn)練p個(gè)決策樹模型。
(3) 將產(chǎn)生的p個(gè)決策樹建立為隨機(jī)森林。
(4) 對于分類問題,測試的樣本由p個(gè)決策樹以投票表決方式產(chǎn)生最終的分類結(jié)果。
深度森林、多粒度級(jí)聯(lián)森林是周志華教授提出的多個(gè)森林組成的深度樹集成算法。該模型主要包括兩個(gè)部分:多粒度掃描(Multi-Grained Scanning)部分和級(jí)聯(lián)森林(Cascade Forest)部分[6]。模型主要有以下幾個(gè)方面優(yōu)勢[10]:
(1) 模型級(jí)數(shù)自動(dòng)調(diào)節(jié),可擴(kuò)展性強(qiáng);
(2) 超參數(shù)少,且模型對其不敏感;
(3) 有很低的訓(xùn)練消耗,不僅可用在大規(guī)模數(shù)據(jù)集上,還能用在小樣本數(shù)據(jù)集中;
(4) 可以進(jìn)行并行處理。
1.3.1多粒度掃描模塊
受神經(jīng)網(wǎng)絡(luò)影響,gcForest模型通過多粒度掃描流程處理數(shù)據(jù)特征關(guān)系,以增強(qiáng)級(jí)聯(lián)森林部分的性能[6]。該模塊使用不同尺寸的滑動(dòng)窗口進(jìn)行掃描,首先對原始的輸入數(shù)據(jù)提取局部特征,產(chǎn)生一系列局部低維特征向量,然后經(jīng)過森林的集合(隨機(jī)森林和完全隨機(jī)森林)訓(xùn)練出類向量[5]。例如,對于有c個(gè)類別的分類問題,一維特征向量長度為n,長度是m的窗口每次滑動(dòng)一個(gè)單位長度,產(chǎn)生n-m+1個(gè)m維特征向量的數(shù)據(jù)子集,經(jīng)過一個(gè)隨機(jī)森林和一個(gè)完全隨機(jī)森林后產(chǎn)生長度為2c(n-m+1)的類向量;對于一個(gè)n×n的圖像數(shù)據(jù),m×m大小的窗口一次滑一個(gè)單位尺寸,將產(chǎn)生(n-m+1)2個(gè)m×m的特征向量數(shù)據(jù)子集,經(jīng)過一個(gè)隨機(jī)森林和完全隨機(jī)森林后將變成2c(n-m+1)2的類特征向量。將這些特征向量與初始樣本特征組合起來,輸入后面級(jí)聯(lián)森林中[11]。深度森林模型的多粒度掃描模塊如圖1所示。
圖1 深度森林模型的多粒度掃描模塊
1.3.2級(jí)聯(lián)森林模塊
級(jí)聯(lián)森林部分是一個(gè)通過加入新特征來對原始特征進(jìn)行擴(kuò)展的結(jié)構(gòu),由多個(gè)級(jí)聯(lián)層組成,每個(gè)級(jí)聯(lián)層包括兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林,如圖2所示。原始特征經(jīng)過每個(gè)級(jí)聯(lián)層后的輸出與原特征組合成擴(kuò)展后的特征作為下一個(gè)級(jí)聯(lián)層的輸入[6]。該模型在一級(jí)結(jié)束后做一個(gè)分類性能的測試,然后繼續(xù)生成下一級(jí),當(dāng)擴(kuò)展一個(gè)新的級(jí)聯(lián)層后,將整個(gè)模型的性能在驗(yàn)證集中進(jìn)行測試,若沒有顯著的分類性能增益,訓(xùn)練過程終止[11],級(jí)聯(lián)層數(shù)就確定了。級(jí)聯(lián)結(jié)構(gòu)增加了模型的深度而不引入額外的參數(shù),通過評估每層的性能自適應(yīng)地確定級(jí)聯(lián)層的數(shù)量,因此超參數(shù)較少,而且超參數(shù)設(shè)定具有很好的魯棒性。
圖2 深度森林模型的級(jí)聯(lián)模塊
原始深度森林模型的多粒度掃描部分對原始輸入特征進(jìn)行變換以加強(qiáng)特征表達(dá)能力,通過滑動(dòng)窗口來掃描初始輸入特征。用窗口滑動(dòng)提取的實(shí)體分別訓(xùn)練一個(gè)隨機(jī)森林與一個(gè)完全隨機(jī)樹森林,然后將這兩種森林輸出的類特征向量組合為初始輸入特征的轉(zhuǎn)換特征向量。
多粒度掃描部分處理空間上相關(guān)聯(lián)的特征(如圖像匹配數(shù)據(jù)、語音識(shí)別數(shù)據(jù)等)時(shí)具有明顯的效果,但在空間上無相關(guān)的特征數(shù)據(jù)(如疾病判別、文本分類等)的應(yīng)用中就可能丟失一些重要信息[10]。原因是多粒度掃描處理空間無關(guān)聯(lián)特征時(shí)在某種程度上降低了兩端(第一個(gè)與滑動(dòng)的最后一組)特征重要性。多粒度掃描時(shí),首個(gè)特征和滑動(dòng)窗口滑到的最后一組特征都只被掃描了一次,即:這些特征都僅被利用了一次,如果這些特征的重要性比較大,該模塊則無法有效對這些重要特征進(jìn)行利用。
針對這一特征利用不均等性的問題,本文做相應(yīng)的改進(jìn):假設(shè)有一個(gè)400維的向量,利用大小為100的滑動(dòng)窗口,滑動(dòng)步長為1,則301次滑動(dòng)后獲得301個(gè)100維類向量,在此基礎(chǔ)上加入一組100維的類向量,即有302組100維特征向量,其中第302組100維特征的前99個(gè)特征是第301組的后99個(gè)特征,最后一個(gè)特征為原始特征的第一個(gè)特征,這樣第一個(gè)與最后一組的后99個(gè)特征就有與其他特征均等的利用機(jī)會(huì),所有特征具有相同的重要度,因此不會(huì)丟失重要特征信息,從而可以將原始特征信息均等地傳輸?shù)诫S機(jī)森林與完全隨機(jī)森林部分。
深度森林原始模型的一些缺點(diǎn)可能會(huì)限制其在生物學(xué)基因數(shù)據(jù)集上的效果:集合中的每個(gè)森林對最終預(yù)測都有相同的貢獻(xiàn),在學(xué)習(xí)過程中未考慮擬合質(zhì)量。在小規(guī)模數(shù)據(jù)中模型的最終預(yù)測可能受到低質(zhì)量森林投票結(jié)果的影響。因此,基于這種新型的深度結(jié)構(gòu)算法,本文使用改進(jìn)的級(jí)聯(lián)結(jié)構(gòu)做逐層的表征學(xué)習(xí),增強(qiáng)特征表達(dá)能力。
原始深度森林模型中級(jí)聯(lián)部分包含的隨機(jī)森林和完全隨機(jī)森林都是決策樹的集合,均是由隨機(jī)選擇一個(gè)特征在決策樹的各節(jié)點(diǎn)來分割,樹不斷生長,每個(gè)決策樹輸出一個(gè)類向量,最后隨機(jī)森林組合所有決策樹的投票結(jié)果后取平均值,得到森林整體的分類結(jié)果。本文的級(jí)聯(lián)網(wǎng)絡(luò)中各層使用兩個(gè)隨機(jī)森林和兩個(gè)完全隨機(jī)森林,兩種森林均由500個(gè)決策樹以及完全隨機(jī)決策樹構(gòu)成。每個(gè)決策樹決策過程[12]如圖3所示,假定有三個(gè)類,n個(gè)決策樹,每個(gè)決策樹將確定一個(gè)三維類向量,然后取n個(gè)三維類向量的平均值,最后得到最大值對應(yīng)的類別作為決策樹最終的分類結(jié)果。
圖3 隨機(jī)森林集成決策樹生成類向量
隨機(jī)森林中的子樹是在整體特征中隨機(jī)選取的部分特征,因此這些決策樹彼此不同,并且各隨機(jī)森林也有各自的多樣性。那么,選取合適的判別特征來構(gòu)建決策樹的分裂點(diǎn)非常重要。然而在原始模型的級(jí)聯(lián)層中,每個(gè)森林對最終預(yù)測結(jié)果的貢獻(xiàn)是相同的,在學(xué)習(xí)過程中未考慮各自的擬合質(zhì)量,忽略了一些重要特征,因此可能導(dǎo)致在小規(guī)模數(shù)據(jù)集中的模型整體性能對森林?jǐn)?shù)量較為敏感。本文改進(jìn)時(shí)考慮到隨機(jī)森林在作特征選擇時(shí),能夠隱含地提供分類過程中的特征相對重要性排序列表,從而新模型基于級(jí)聯(lián)森林模塊進(jìn)行如下的改進(jìn):
(1) 選取各層中每個(gè)森林的前k個(gè)重要特征;
(2) 分別計(jì)算各森林這k個(gè)特征的標(biāo)準(zhǔn)差作為一個(gè)新特征;
(3) 將這些新特征與該層輸出的類分布矢量以及原始特征結(jié)合起來;
(4) 將結(jié)合后的特征作為下一層的輸入。
上述過程通過考慮模型中各森林對最終分類結(jié)果的不同影響,以新特征的形式加入到級(jí)聯(lián)森林模塊中,從而在層間傳輸高質(zhì)量的判別特征,達(dá)到提升分類性能的目的。
對于深度神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)的層數(shù)往往比層中神經(jīng)元的個(gè)數(shù)對整體結(jié)構(gòu)影響更大,基于這種思想,本文采用級(jí)聯(lián)層展開的結(jié)構(gòu),在標(biāo)準(zhǔn)深度森林模型的級(jí)聯(lián)層中使用子層級(jí)聯(lián)的方法,對級(jí)聯(lián)森林各層進(jìn)行分子層的改進(jìn)。將每個(gè)級(jí)聯(lián)層改為兩個(gè)子層級(jí)聯(lián)的形式,原來各層所包含的兩個(gè)隨機(jī)森林、兩個(gè)完全隨機(jī)森林平均地放在兩子層中,即每個(gè)子層包含兩種森林各一個(gè),如圖4所示。這種分層監(jiān)督學(xué)習(xí)的方法能夠獲得更精確的分類特征向量,該結(jié)構(gòu)能夠進(jìn)行并行化計(jì)算,增加模型訓(xùn)練機(jī)會(huì),有明顯的效率和性能優(yōu)勢。
圖4 改進(jìn)模型級(jí)聯(lián)部分結(jié)構(gòu)
綜合以上三個(gè)方面,本文提出的TBDForest模型整體結(jié)構(gòu)如圖5所示。假設(shè)輸入的原始數(shù)據(jù)是400維,在多粒度掃描模塊中分別使用大小為100、200、300的滑塊進(jìn)行滑動(dòng),得到302、202、102個(gè)100維、200維、300維的數(shù)據(jù)特征。將這些特征輸入到一個(gè)隨機(jī)森林與一個(gè)完全隨機(jī)森林的級(jí)聯(lián)中。假設(shè)有兩種類別,那么,每個(gè)100維的特征向量被變換為兩維的類向量,也就得到一個(gè)604+604、404+404、204+204的概率分布,將這些概率向量組合起來就得到2 424維的數(shù)據(jù)特征向量。完成了多粒度掃描過程后將得到的2 424維數(shù)據(jù)輸入改進(jìn)的級(jí)聯(lián)結(jié)構(gòu)中。假設(shè)選取每個(gè)森林的前三個(gè)重要特征(k的值為3)來提取偏差特征。第一個(gè)子層中的每個(gè)森林輸出各自的類分布以及標(biāo)準(zhǔn)偏差特征向量,然后與該子層的輸入特征組合在一起,第一子層就輸出2 426維特征向量,作為訓(xùn)練數(shù)據(jù)輸入下一子層,第二個(gè)子層重復(fù)第一個(gè)子層的過程,最后輸出兩個(gè)子層的類分布和偏差特征作為級(jí)聯(lián)部分第一層的輸出。以后的各層依次重復(fù)上述過程,直到模型的性能驗(yàn)證結(jié)果表明可以終止級(jí)聯(lián)層。
圖5 TBDForest模型的整體結(jié)構(gòu)
為檢驗(yàn)TBDForest算法對于基因表達(dá)小樣本數(shù)據(jù)集的適用性,本文結(jié)合5個(gè)數(shù)據(jù)集使用Python語言來實(shí)現(xiàn)特征選擇與分類實(shí)驗(yàn)。實(shí)驗(yàn)使用十折交叉驗(yàn)證方法,模型訓(xùn)練前將數(shù)據(jù)隨機(jī)劃分成10份,每次取9份來用于分類模型的訓(xùn)練,留下1份數(shù)據(jù)用來檢測模型性能,每次做十輪實(shí)驗(yàn),十輪結(jié)果的平均值就是最終分類的結(jié)果[10]。本文對各數(shù)據(jù)集先特征選擇,之后進(jìn)行分類性能測試。
本實(shí)驗(yàn)下載了EBI、NCBI數(shù)據(jù)庫中的五組高維基因表達(dá)DNA微陣列數(shù)據(jù)來驗(yàn)證改進(jìn)模型的性能。這五種疾病數(shù)據(jù)的樣本量均較小。數(shù)據(jù)的基本信息如表1所示,Gravier和West是乳腺癌數(shù)據(jù)、Pomeroy是中樞神經(jīng)系統(tǒng)疾病數(shù)據(jù)、Alon是結(jié)腸癌數(shù)據(jù)、Gordon是肺癌數(shù)據(jù),這些數(shù)據(jù)用于檢測癌癥亞型或患病與否的分類[13]。
表1 數(shù)據(jù)集的基本信息表
實(shí)驗(yàn)結(jié)果綜合考慮準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)、F-1 Score這四個(gè)分類方法中最常用的分類性能評價(jià)指標(biāo)[14]。這些指標(biāo)建立在混淆矩陣的基礎(chǔ)上,如表2所示。
表2 混淆矩陣
準(zhǔn)確率(Accuracy)[14]即分類準(zhǔn)確的樣本數(shù)量與樣本總量的比值。定義如下:
(2)
精確度(Precision)即查準(zhǔn)率;召回率(Recall)即查全率[14]。定義如下:
(3)
(4)
F-1 Score即一種綜合考慮查準(zhǔn)率和查全率的分類評價(jià)指標(biāo),其中查全率與查準(zhǔn)率權(quán)重相同[15]。定義如下:
(5)
基因表達(dá)數(shù)據(jù)樣本小,特征維度高,直接通過模型分類會(huì)導(dǎo)致效果不理想并且缺乏穩(wěn)定性,如表3所示。表中五個(gè)數(shù)據(jù)集中g(shù)cForest和TBDForest模型分類準(zhǔn)確率相對較好,但是整體分類準(zhǔn)確率不高。因此對五個(gè)數(shù)據(jù)集分別采用Lasso算法進(jìn)行特征選擇,然后將選擇后的特征數(shù)據(jù)使用SVM、RF、XGBoost、Adaboost、gcForest、TBDForest進(jìn)行分類測試以及結(jié)果比較。數(shù)據(jù)經(jīng)過Lasso算法挑選的重要特征數(shù)量基本信息如表4所示。
表3 特征選擇前五個(gè)數(shù)據(jù)集在六種分類方法上的Accuracy對比值 %
表4 特征選擇后的數(shù)據(jù)集的基本信息表
表5是五個(gè)數(shù)據(jù)集在幾種分類方法上的Accuracy值,可以看出DBForest模型與傳統(tǒng)方法SVM、RF、gcForest、XGBoost、Adboost相比具有更高的準(zhǔn)確性。圖6為六種算法在五個(gè)數(shù)據(jù)集上的Precision、Recall、F-1 Score指標(biāo),從圖6(a)圖能夠直觀地看出,在Gravier數(shù)據(jù)集上SVM、gcForest、TBDForest模型的三個(gè)指標(biāo)相當(dāng),本文的模型略高,而RF與XGBoost、Adboost兩種集成分類模型效果并不是很好。圖6(b)Pomeroy數(shù)據(jù)集上的指標(biāo)結(jié)果顯示SVM與TBDForest幾乎可以達(dá)到100%的分類性能。圖6(c)West數(shù)據(jù)集中RF、gcForest則有比較高的指標(biāo)值,改進(jìn)的模型依然處于領(lǐng)先的效果。圖6(d)的Alon數(shù)據(jù)集上TBDForest效果較為明顯,優(yōu)于其他幾種方法。圖6(e)中對于Gordon數(shù)據(jù)集,六種方法相差并不大,都能取得良好的分類結(jié)果。綜上所述,通過Accuracy、Precision、Recall、F-1 Score指標(biāo)對比,TBDForest模型在Accuracy、Precision、Recall、F-1 Score方面均優(yōu)于其他五種方法,可見本文對模型的改進(jìn)有效地增強(qiáng)分類性能,有良好的適用性。原因是一方面其充分考慮了特征重要性,另一方面子層增加了訓(xùn)練機(jī)會(huì)。
表5 特征選擇后五個(gè)數(shù)據(jù)集在六種分類方法上的Accuracy對比值 %
(a) Gravier
(b) Pomeroy
(c) West
(d) Alon
(e) Gordon圖6 六種分類模型的對比圖
針對目前應(yīng)用比較廣泛的一些分類模型算法對基因表達(dá)小樣本數(shù)據(jù)分類時(shí)的不足,本文進(jìn)行分類模型的優(yōu)化,提出基于深度森林的改進(jìn)模型TBDForest,該模型從三個(gè)方面進(jìn)行改進(jìn):(1) 采用特征均等性利用的多粒度掃描模塊進(jìn)行特征變換;(2) 考慮每個(gè)森林的擬合質(zhì)量,通過加入標(biāo)準(zhǔn)差特征向量來改善類分布問題;(3) 在每個(gè)級(jí)聯(lián)層采用子層結(jié)構(gòu),增加樣本訓(xùn)練機(jī)會(huì),進(jìn)一步提升分類準(zhǔn)確性。經(jīng)過實(shí)驗(yàn)驗(yàn)證,改進(jìn)的模型在基因表達(dá)數(shù)據(jù)小樣本數(shù)據(jù)集上取得相對較高的Accuracy、Precision、Recall、F-1 Score值,對于小樣本高維度數(shù)據(jù)有比較好的分類性能。未來將著重考慮將模型應(yīng)用到各種類型的數(shù)據(jù)中;考慮所集成森林的多樣性;對特征選擇方法進(jìn)行優(yōu)化,減小模型算法的計(jì)算消耗,更好地避免“維度災(zāi)難”,提高穩(wěn)定性。