亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        比較不平衡基因表達(dá)數(shù)據(jù)上的7種分類器表現(xiàn)

        2021-03-09 10:20:42李婧惟
        中國醫(yī)院統(tǒng)計(jì) 2021年1期
        關(guān)鍵詞:分類

        李婧惟 劉 艷 陸 震

        哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室,150081 黑龍江 哈爾濱

        微陣列基因表達(dá)數(shù)據(jù)分析是基因組學(xué)領(lǐng)域研究的重要方向之一,在疾病的亞群分析、診斷預(yù)后、類別預(yù)測等方面有著廣泛的應(yīng)用[1]。基因表達(dá)數(shù)據(jù)通常具有樣本量小、特征變量多、類別分類不平衡等特點(diǎn),因此給研究者的分析應(yīng)用帶來了很大的挑戰(zhàn)。近年來,隨著機(jī)器學(xué)習(xí)領(lǐng)域地快速發(fā)展以及基因組學(xué)領(lǐng)域研究地不斷深入,分類算法被廣泛應(yīng)用于基因表達(dá)數(shù)據(jù)的分析中[2]。但已有的研究主要集中在變量篩選方法的比較和分析上[3-4],或者提出新的分類算法[5-6],尚缺少對(duì)基因表達(dá)數(shù)據(jù)中不平衡類分布對(duì)分類算法選擇影響的研究[7]。本研究重點(diǎn)關(guān)注二分類樣本的類別不平衡比例,利用真實(shí)數(shù)據(jù)評(píng)估了7種分類器在類不平衡數(shù)據(jù)上的表現(xiàn),并比較單次分類結(jié)果和重復(fù)100次的平均分類結(jié)果,分析不同分類算法對(duì)不平衡基因表達(dá)數(shù)據(jù)預(yù)測性能的影響,旨在為后續(xù)相關(guān)模型的建立提供理論基礎(chǔ)。

        1 資料與方法

        1.1 資料來源

        本研究使用2個(gè)公開的基因表達(dá)數(shù)據(jù)集:結(jié)腸癌數(shù)據(jù)集(colon)和白血病數(shù)據(jù)集(leukemia)。結(jié)腸癌數(shù)據(jù)集來源于Affymetrix oligonucleotide Hum 6 000平臺(tái),剔除污染樣本后,共得到腫瘤樣本37個(gè)(即陽性樣本量Np=37)和正常樣本20個(gè)(即陰性樣本量Nn=20)[8],構(gòu)成總樣本57例;該數(shù)據(jù)集可從Bioconductor的colonCA包中下載。白血病數(shù)據(jù)集來源于Affymetrix human 6 800平臺(tái)的72個(gè)樣本,包含47個(gè)急性淋巴細(xì)胞白血病(acute lymphoblastic leukemia,ALL)樣本、25個(gè)急性髓系白血病(acute myeloid leukemia,AML)樣本及7 129個(gè)基因表達(dá)值[9];且根據(jù)細(xì)胞來源將ALL樣本進(jìn)一步分組:38個(gè)B細(xì)胞來源的ALL(B-lineage ALL,ALLB)樣本和9個(gè)T細(xì)胞來源的ALL(T-lineage ALL,ALLT)樣本;該數(shù)據(jù)集可從Bioconductor的golubEsets包中下載。

        1.2 方法

        1.2.1數(shù)據(jù)特征

        類分布,即數(shù)據(jù)集中各類所占的比例,在分類中起關(guān)鍵作用。當(dāng)一個(gè)類(通常指感興趣的概念,即正類或少數(shù)類)在數(shù)據(jù)集中沒有得到充分表達(dá)時(shí),就會(huì)出現(xiàn)類不平衡問題。類不平衡數(shù)據(jù)在生物醫(yī)學(xué)領(lǐng)域中很常見,如癌癥診斷、疾病亞型分析等[10-11]。故本研究模擬了多種類分布比例情況進(jìn)行分析,通過從完整數(shù)據(jù)集中隨機(jī)抽取樣本子集,得到的陽性樣本占比不同的數(shù)據(jù)集作為訓(xùn)練集,并在平衡數(shù)據(jù)集上進(jìn)行測試,以比較不同程度的類不平衡對(duì)分類算法選擇的影響。

        按陽性樣本量占比從結(jié)腸癌數(shù)據(jù)集中抽取樣本,得到類分布不同的10組數(shù)據(jù)集,每組又放回重復(fù)抽取100次,并比較單次抽樣分類與100次抽樣平均的分類效果。其中,訓(xùn)練集為不平衡樣本(Nn=10,Np=10,15,20,30,35;Nn=15,Np=5,10,15,25,30),共10組;測試集為平衡樣本(Nn=20,Np=20)。見表1。

        表1 結(jié)腸癌數(shù)據(jù)集中樣本量分布

        此外,為增強(qiáng)最終結(jié)果的可靠性,從公共數(shù)據(jù)庫獲取白血病數(shù)據(jù)集對(duì)文中的樣本數(shù)目進(jìn)行拓充。對(duì)包含ALL和AML患者的樣本進(jìn)行分類,并進(jìn)一步對(duì)ALL按來源分為B細(xì)胞來源ALLB和T細(xì)胞來源ALLT兩類。數(shù)據(jù)集分為訓(xùn)練集和測試集,數(shù)據(jù)集整體及訓(xùn)練集樣本量類分布見表2。

        表2 白血病數(shù)據(jù)集及訓(xùn)練集樣本量類分布

        1.2.2分類算法的選擇

        MAQC-II倡議指出,分類功能是解釋基因表達(dá)類別預(yù)測性能之間差異的變量之一[12]。目前處理不平衡數(shù)據(jù)的策略主要包括:經(jīng)典算法、基于數(shù)據(jù)處理層面的算法、代價(jià)敏感學(xué)習(xí)與集成算法。郭海祥等[5]回顧了近10年來發(fā)表的517篇涉及不平衡數(shù)據(jù)研究的相關(guān)論文,初步統(tǒng)計(jì)了近年來文獻(xiàn)中使用頻率較高的分類算法,其中適用于分類研究且引用量大于10篇的算法有支持向量機(jī)(support vector machine,SVM)、決策樹(C4.5 decision tree,C4.5)、樸素貝葉斯(naive bayes, NB)、隨機(jī)森林(random forest,RF)和K-最近鄰算法(K-nearest neighbour,KNN)。Mikel Gala等[13]回顧了二分類不平衡數(shù)據(jù)集框架中的集成技術(shù)的研究進(jìn)展,比較了不同類型集成算法分類性能的差異,并初步推薦了幾種表現(xiàn)較好的算法,如經(jīng)典集成算法AdaBoost、Bagging等?;谝陨显?,本研究選用SVM、C4.5、NB、RF、KNN、AdaBoost、Bagging 7種算法進(jìn)行分析,用于比較分類算法的性能。

        支持向量機(jī)SVM[14]是通過尋找滿足分類要求的最優(yōu)超平面,是降維的有效手段。決策樹C4.5[15]是ID3算法的一種擴(kuò)展,以信息增益率為重點(diǎn),提高了分類的準(zhǔn)確率,并一定程度上避免了過擬合。樸素貝葉斯NB[16]簡化了貝葉斯算法,通過假定給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立,極大地簡化了貝葉斯方法的復(fù)雜性。隨機(jī)森林RF[17]是決策樹的集合,每棵樹都建立在從完整數(shù)據(jù)中抽取的bootstrap樣本上,通過隨機(jī)選取尋找每個(gè)節(jié)點(diǎn)的最佳分割。K-最鄰近KNN[18]是一種簡單的非參數(shù)方法,根據(jù)特征空間中的k個(gè)最相似樣本的類別來判斷未知樣本的分類,在類邊界比較整齊的情況下分類準(zhǔn)確率很高。AdaBoost[19]是一種迭代算法,將多個(gè)弱分類器經(jīng)過線性組合成一個(gè)強(qiáng)分類器,可以提高分類的準(zhǔn)確率;Bagging算法[20]是通過訓(xùn)練多個(gè)分類器并根據(jù)輸出結(jié)果投票,投出最多票數(shù)的類別或者類別之一為最終類別。

        1.2.3評(píng)價(jià)指標(biāo)

        本研究主要選用靈敏度和特異度作為評(píng)價(jià)指標(biāo),并結(jié)合了AUC值,比較類分布不平衡時(shí)不同分類算法對(duì)類別預(yù)測效果。每組數(shù)據(jù)集重復(fù)100次時(shí)共得到100組靈敏度和特異度,可求每組靈敏度和特異度的均值及標(biāo)準(zhǔn)差,使結(jié)果更具普遍性。

        以上所有數(shù)據(jù)整理、算法應(yīng)用等均由R軟件實(shí)現(xiàn),通過caret包構(gòu)建算法,pastecs包求評(píng)價(jià)指標(biāo)的均值及標(biāo)準(zhǔn)差,并用ggplot2包繪制分類結(jié)果變化趨勢圖。

        2 結(jié)果

        研究使用真實(shí)數(shù)據(jù)集來評(píng)估類不平衡對(duì)基因表達(dá)微陣列數(shù)據(jù)集分類的影響,結(jié)果顯示分類器的分類效果受訓(xùn)練集的類分布不平衡的影響。

        2.1 結(jié)腸癌數(shù)據(jù)集

        通過從結(jié)腸癌數(shù)據(jù)集中按表1中樣本量分布隨機(jī)抽取樣本子集,得到了10組不同程度的類不平衡數(shù)據(jù)集。

        2.1.1單次分類結(jié)果分析

        將7種算法分別在陽性樣本占比依次為0.50,0.60,0.67,0.75,0.78(陰性性樣本量為10,陽性樣本量依次為10,15,20,30,35)的訓(xùn)練集上訓(xùn)練,并在陽性樣本占比為0.50(陰性樣本量為20,陽性樣本量為20)的測試集上進(jìn)行驗(yàn)證,得到靈敏度、特異度結(jié)果。見圖1。

        圖1 Np=10且單次抽樣時(shí)7種分類算法的靈敏度和特異度

        圖1中觀察7種分類結(jié)果靈敏度發(fā)現(xiàn),隨樣本量的增加,NB、KNN、SVM算法結(jié)果呈明顯上升趨勢,AdaBoost、Bagging、C4.5、RF算法結(jié)果出現(xiàn)先下降再上升的趨勢,其中RF算法整體表現(xiàn)較好;在7種算法分類結(jié)果特異度比較中,隨樣本量增加均呈下降趨勢,其中KNN下降趨勢最明顯,且整體表現(xiàn)較差。

        將7種算法分別在陽性樣本占比依次為0.25,0.40,0.50,0.63,0.67(陰性性樣本量為15,陽性樣本量依次為5,10,15,25,30)的訓(xùn)練集上訓(xùn)練,并在陽性樣本占比為0.5(陰性樣本量為20,陽性樣本量為20)的測試集上進(jìn)行驗(yàn)證,得到靈敏度、特異度結(jié)果。見圖2。

        圖2中觀察7種分類結(jié)果靈敏度發(fā)現(xiàn),隨訓(xùn)練集中陽性樣本量的增加,7種分類算法的靈敏度整體均呈上升趨勢,其中KNN算法結(jié)果變化趨勢較為明顯;在分類結(jié)果特異度比較中,SVM、KNN算法結(jié)果波動(dòng)較大,Bagging、C4.5算法結(jié)果呈明顯下降趨勢,AdaBoost、NB、RF算法結(jié)果表現(xiàn)較為穩(wěn)健且表現(xiàn)較好。

        2.1.2重復(fù)100次后結(jié)果分析

        將7種算法分別在陽性樣本占比依次為0.50,0.60,0.67,0.75,0.78(陰性樣本量為10,陽性樣本量依次為10,15,20,30,35)的訓(xùn)練集上訓(xùn)練,并在陽性樣本量占比為0.50(陰性樣本量為20,陽性樣本量為20)的測試集上進(jìn)行驗(yàn)證,重復(fù)100次,得到平均靈敏度、特異度結(jié)果。見圖3。

        圖3 Np=10且重復(fù)抽樣時(shí)7種分類算法的平均靈敏度和特異度

        將7種算法分別在100個(gè)陽性樣本占比依次為0.25,0.40,0.50,0.63,0.67(陰性性樣本量為15,陽性樣本量依次為5,10,15,25,30)的訓(xùn)練集上訓(xùn)練,并在陽性樣本量占比為0.50(陰性樣本量為20,陽性樣本量為20)的測試集上進(jìn)行驗(yàn)證,重復(fù)100次,得到平均靈敏度、特異度結(jié)果。見圖4。

        圖4 Np=15且重復(fù)抽樣時(shí)7種分類算法的平均靈敏度和特異度

        從圖3、圖4中可以得出與圖1、圖2中相似的規(guī)律。隨著訓(xùn)練集中陽性樣本量的增加,分類算法的靈敏度增加,而特異度降低,針對(duì)陽性樣本學(xué)習(xí)效果逐漸增強(qiáng)。圖3中AdaBoost算法和NB算法表現(xiàn)較為穩(wěn)健,隨訓(xùn)練集陽性樣本占比變化并不十分明顯;Bagging、C4.5、KNN和RF算法分類表現(xiàn)波動(dòng)較大,靈敏度隨陽性樣本占比增加出現(xiàn)明顯增長趨勢,而特異度則呈現(xiàn)明顯下降趨勢;而SVM整體在類不平衡訓(xùn)練集中分類效果較差,僅在平衡訓(xùn)練集上表現(xiàn)良好。

        單次結(jié)果分析和重復(fù)結(jié)果分析,均可以發(fā)現(xiàn)評(píng)價(jià)指標(biāo)隨類分布變化的明顯趨勢,但單次分析中結(jié)果存在一定偶然性。比如Np=15、Nn=5且單次抽樣時(shí),SVM靈敏度為1,但在多次抽樣時(shí)SVM平均靈敏度幾乎為零。

        2.2 白血病數(shù)據(jù)集

        此外,為分析不同樣本量的情況下各個(gè)分類算法的分類效果,從公開數(shù)據(jù)庫中下載白血病數(shù)據(jù)集進(jìn)行補(bǔ)充分析。針對(duì)AML和ALLT分類的數(shù)據(jù)集中,AML為少數(shù)類,其在樣本中占比為0.35,7種分類算法對(duì)該數(shù)據(jù)集進(jìn)行分類。針對(duì)ALLT和ALLB分類的數(shù)據(jù)集中,ALLT為少數(shù)類,其在樣本中占比為0.19,7種分類算法對(duì)該數(shù)據(jù)集進(jìn)行分類。在特異度和靈敏度結(jié)果比較時(shí),發(fā)現(xiàn)有多種算法結(jié)果未發(fā)現(xiàn)明顯區(qū)別,故額外比較了7種分類算法進(jìn)行分類的AUC值。針對(duì)AML分類的數(shù)據(jù)集中,NB和SVM算法分類效果相同,且均最優(yōu);Bagging算法分類效果僅次于前兩者;KNN算法分類結(jié)果靈敏度較好,但特異度和AUC值較差;AdaBoost和RF算法整體表現(xiàn)較為一般,而C4.5算法整體表現(xiàn)最差。見圖5。

        圖5 7種分類算法對(duì)AML和ALL數(shù)據(jù)集分類結(jié)果

        而在針對(duì)ALLT分類的數(shù)據(jù)集中,AdaBoost、NB、C4.5和RF算法表現(xiàn)均很好,KNN算法分類效果其次;表現(xiàn)較差的是Bagging和SVM算法,靈敏度為0。在2種類分布情況下,NB算法整體表現(xiàn)最優(yōu),其他分類算法分類效果發(fā)生變化,C4.5、RF和SVM算法變化明顯,前2者分類效果明顯增強(qiáng),后者明顯減弱。見圖6。

        圖6 7種分類算法對(duì)ALLT和ALLB數(shù)據(jù)集分類結(jié)果

        3 討論

        本研究結(jié)果表明,一些經(jīng)常用于高維數(shù)據(jù)類預(yù)測的分類算法對(duì)類分布不平衡非常敏感,且?guī)缀跛械姆诸愃惴ǜ讓⑿聵颖绢A(yù)測為訓(xùn)練樣本中的多數(shù)類。這可能是因?yàn)樾聵颖镜念悇e概率取決于該類在訓(xùn)練集中的學(xué)習(xí)情況,并且隨著樣本量等的變化,該概率會(huì)進(jìn)一步向主要類傾斜。因此,當(dāng)分類器在類不平衡數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),對(duì)不同類的預(yù)測精度差異較大,且此時(shí)整體的預(yù)測精度并不能代表分類器的分類效果。

        本研究針對(duì)結(jié)腸癌數(shù)據(jù)集進(jìn)行分析,在前期單次分類的結(jié)果中發(fā)現(xiàn)具有一定隨機(jī)性,構(gòu)建訓(xùn)練集的樣本量、樣本的類分布比例、被抽取樣本特征及分類算法的選擇均會(huì)影響最終分類效果。故通過按一定比例抽取訓(xùn)練集并重復(fù)100次進(jìn)行分類,比較分類結(jié)果的靈敏度和特異度的均值及誤差,可以明顯發(fā)現(xiàn)多次重復(fù)分類與單次分類結(jié)果的差異。在單次分析中,AdaBoost算法十分不穩(wěn)定,但在多次重復(fù)分析中,AdaBoost算法較好,不易受類分布的影響。此外,SVM作為傳統(tǒng)算法,廣泛應(yīng)用,但結(jié)腸癌數(shù)據(jù)分析中發(fā)現(xiàn)該算法表現(xiàn)較差,可能與該數(shù)據(jù)特征有關(guān),影響了分類性能。故有理由認(rèn)為經(jīng)典分類并不一定在所有數(shù)據(jù)集上表現(xiàn)良好。

        在針對(duì)白血病數(shù)據(jù)集研究中發(fā)現(xiàn),類分布不同影響分類算法的分類結(jié)果,但與結(jié)腸癌數(shù)據(jù)中表現(xiàn)不同,部分算法分類效果出現(xiàn)明顯增強(qiáng)。結(jié)合文獻(xiàn)研究發(fā)現(xiàn),分類算法的分類效果與數(shù)據(jù)本身特征相關(guān)[12,21],提示可能是結(jié)腸癌和白血病數(shù)據(jù)中某些數(shù)據(jù)特征影響分類結(jié)果。

        在實(shí)際數(shù)據(jù)分析中,通常是按照個(gè)人習(xí)慣或者算法流行性來選擇分類算法,而忽視了數(shù)據(jù)本身的特征,這樣可能會(huì)造成結(jié)果的偏倚及信息的損失。如果選擇多種算法同時(shí)進(jìn)行,不僅會(huì)花費(fèi)大量的時(shí)間,同時(shí)也較難保證結(jié)果的穩(wěn)定性。本研究在2個(gè)公開數(shù)據(jù)集上進(jìn)行了討論分析,樣本量略有不足,有待于加大樣本量進(jìn)一步深入研究,在更多不平衡比例的數(shù)據(jù)上進(jìn)行分析,并引入數(shù)據(jù)本身的特征,嘗試構(gòu)建分類算法和數(shù)據(jù)特征對(duì)分類效果影響的預(yù)測模型,為不平衡基因表達(dá)數(shù)據(jù)分類算法選擇提供參考。

        猜你喜歡
        分類
        2021年本刊分類總目錄
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類
        我給資源分分類
        垃圾分類,你準(zhǔn)備好了嗎
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        按需分類
        教你一招:數(shù)的分類
        亚洲国产成人精品女人久久久| 日韩综合无码一区二区| 免费a级毛片18以上观看精品| 免费人成再在线观看网站| 亚洲色拍拍噜噜噜最新网站| 国产诱惑人的视频在线观看| 内射人妻无套中出无码| 色欲av自慰一区二区三区| 自拍亚洲一区欧美另类| 成人亚洲av网站在线看| 黑人大群体交免费视频| 国产白丝无码视频在线观看| 日韩AV无码一区二区三不卡| av天堂中文亚洲官网| 国产精品亚洲片在线观看不卡| 欧美第一黄网免费网站| 国产精品反差婊在线观看| 91久久精品一区二区| 亚洲中文字幕一区精品自拍| 麻豆av传媒蜜桃天美传媒| 中文字幕精品亚洲二区| 日本亚洲视频一区二区三区| 国产免费人成视频在线观看| 亚洲成av人片无码不卡播放器| 中文字幕久久国产精品| 亚洲乱码无人区卡1卡2卡3| 被群cao的合不拢腿h纯肉视频| 91精品91久久久久久| 少妇下面好紧好多水真爽| 欧美精品亚洲精品日韩专区| 国产三级在线视频播放| 区二区三区亚洲精品无| 中文字幕av中文字无码亚| 亚洲精品无码不卡av| 蜜桃视频中文在线观看| 久久黄色国产精品一区视频| 亚洲精品一区二区| www.久久av.com| 国内免费自拍9偷1拍| 亚洲va中文字幕无码毛片| 夜夜爽无码一区二区三区|