亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Lasso-RFE的乳腺癌預(yù)后仿真

        2022-02-09 02:20:04劉嘉欣王宏偉
        計算機仿真 2022年12期
        關(guān)鍵詞:乳腺癌分類特征

        劉嘉欣,王宏偉,王 佳

        (1. 新疆大學(xué)電氣工程學(xué)院,新疆 烏魯木齊 830000;2. 大連醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,遼寧 大連110041;3. 艾美漢信疫苗(大連)有限公司,遼寧 大連 116100)

        1 引言

        乳腺癌是全球范圍內(nèi),女性患癌中最常見的癌癥,并且其發(fā)病率呈現(xiàn)出逐年升高的趨勢。根據(jù)世界衛(wèi)生組織統(tǒng)計,僅2018年,全球新發(fā)乳腺癌 210 萬例,發(fā)病率、死亡率均居女性癌癥榜首[1]。以我國2011年為例,中國女性乳腺癌發(fā)病人數(shù)約24.9萬,發(fā)病率37.86/10萬,且其發(fā)病率與死亡率仍呈現(xiàn)一個上升趨勢[2]。期望通過精準(zhǔn)的乳腺癌預(yù)后診斷,實現(xiàn)高效、個性化治療,進而提高患者五年生存率,提升患者生存幸福感。

        當(dāng)前對影響乳腺癌預(yù)后的因素研究,大致分為以下幾個方面:一是根據(jù)遺傳學(xué)與人口統(tǒng)計學(xué)詳解的預(yù)后因素研究。如A. R. Carmichael指出[3],肥胖與乳腺癌復(fù)發(fā)存在一定關(guān)系,并且體重控制應(yīng)作為防止乳腺癌復(fù)發(fā)策略之一;二是根據(jù)病理學(xué)特征,治療手段等進行預(yù)后分析。例如CH Koh,N Bhoo-Pathy等[4],對中性白細(xì)胞與淋巴細(xì)胞比值,血小板與淋巴細(xì)胞比值在乳腺癌預(yù)后中的作用進行研究,證明,該比值可作為乳腺癌預(yù)后的特征,存在附加價值;三是根據(jù)基因數(shù)據(jù),選擇影響基因,進行預(yù)后預(yù)測。例如Laura J. van ′t Veer,Hongyue Dai等[5],通過對117例乳腺癌患者基因微陣列數(shù)據(jù)分析,證明相較于當(dāng)前使用的臨床參數(shù),基因表達(dá)譜在乳腺癌預(yù)后方面表現(xiàn)更為優(yōu)異。

        相比當(dāng)前臨床使用的預(yù)后指標(biāo),如淋巴結(jié)狀態(tài)、腫瘤因素等,存在一定的不確定性,基因數(shù)據(jù)分析更加的準(zhǔn)確,可靠,且具有更強的泛化能力因此,對基因數(shù)據(jù)進行分析,實現(xiàn)乳腺癌預(yù)后診斷,十分具有研究價值。

        但與此同時,基因數(shù)據(jù)也被稱為高維、冗余數(shù)據(jù)。而在癌癥的預(yù)后診斷中只需要少量的特征基因,而基因數(shù)據(jù)具有龐大的搜索空間。因此如何得到精簡、高效特征基因,進而實現(xiàn)更為精準(zhǔn)的預(yù)后預(yù)測,十分必要。隨著機器學(xué)習(xí)算法不斷地發(fā)展,以及多學(xué)科的融合,使得乳腺癌基因表達(dá)數(shù)據(jù)的使用更加多樣、準(zhǔn)確和高效。如Kavitha K R等[6],使用基于相關(guān)支持向量機的遞歸多特征消除算法與虛擬基因,實現(xiàn)對基因數(shù)據(jù)的乳腺癌預(yù)測。易叢琴等[7],提出基于模糊支持向量機的乳腺癌基因數(shù)據(jù)特征提取,有效提高了基于乳腺癌基因數(shù)據(jù)的分類準(zhǔn)確率。秦璞等[12],對t-檢驗后的基因表達(dá)數(shù)據(jù)進行FDR(假發(fā)現(xiàn)率)以及隨機森林降維,后建立分類預(yù)測模型,發(fā)現(xiàn)特征排序中較靠前基因均與三陰性乳腺癌遷移、預(yù)后相關(guān)。

        但是,上述研究仍存在一定問題。如理論研究大多基于數(shù)據(jù)集樣本比例均勻條件下,實際樣本中,多存在樣本比例不平衡的情況,不平衡樣本對算法結(jié)果是否造成影響,如何減少其帶來的影響;模型大都選擇一次完成降維,易忽略部分特征,且所提取特征是否足夠穩(wěn)定、簡潔;其次,去除冗余特征與特征提取是否可以同時進行。

        基于針對以上問題,本文進行基于Lasso-RFE的高維不平衡數(shù)據(jù)的乳腺癌預(yù)后分類研究。對公開數(shù)據(jù)庫美國國立生物技術(shù)信息中心(NCBI,National Center for Biotechnology Information)數(shù)據(jù)庫進行分析,建立乳腺癌預(yù)后模型。首先,使用Wilcoxon-test對基因表達(dá)數(shù)據(jù)進行差異表達(dá)分析;其次,對算法采樣方式進行改進,后使用Lasso-RFE算法,實現(xiàn)不平衡基因表達(dá)數(shù)據(jù)的降維與穩(wěn)定特征選擇。最終,使用支持向量機進行分類預(yù)測,建立37個特征基因的乳腺癌預(yù)后預(yù)測模型,對乳腺癌五年預(yù)后結(jié)果進行預(yù)測,結(jié)果準(zhǔn)確率達(dá)到94%。與其它傳統(tǒng)模型對比,本模型在敏感性、準(zhǔn)確率方面得到提高。

        2 基于Lasso-RFE特征提取的SVM預(yù)測模型

        2.1 基于Lasso的穩(wěn)定特征提取

        2.1.1 基于數(shù)據(jù)層面的平衡數(shù)據(jù)構(gòu)建

        乳腺癌基因表達(dá)數(shù)據(jù)中,多存在陽性樣本數(shù)量較少的情況。而常用數(shù)據(jù)挖掘算法,對多數(shù)類樣本更加敏感,因此無法得到較好的結(jié)果[8]。為避免或減少因樣本不平衡對特征基因選擇造成的誤差,從數(shù)據(jù)層面出發(fā),通過改變采樣方式,對數(shù)據(jù)進行重構(gòu)。根據(jù)采樣方式不同,重構(gòu)方式可分為過采樣,欠采樣,雙采樣,以及人工合成數(shù)據(jù)[9]。

        過采樣通過隨機過采樣或基于先驗信息,對少數(shù)類樣本進行重復(fù),達(dá)到平衡樣本比例的目的。欠采樣,即對多數(shù)類樣本,采用與過采樣相同方案,進行無放回采樣。雙采樣則是對少數(shù)類樣本進行過采樣,對多數(shù)類樣本進行欠采樣的一種混合采樣方式。人工合成數(shù)據(jù)利用過采樣技術(shù),對少類樣本數(shù)據(jù)通過SMOTE等方法,進行人工合成。

        本文選擇雙采樣的方式對基因表達(dá)數(shù)據(jù)的訓(xùn)練數(shù)據(jù)進行重構(gòu),即對其中少數(shù)類陽性性樣本進行過采樣,多數(shù)類陰性樣本進行欠采樣。

        2.1.2 Lasso

        基因數(shù)據(jù)具有特征冗余的特點,為實現(xiàn)預(yù)測,避免維數(shù)災(zāi)難,需要對其進行降維及特征選擇。稀疏模型可以去除大量的冗余特征,留下與標(biāo)簽高度相關(guān)的特征,實現(xiàn)降維的目的。Tibshirani[10]通過將嶺回歸中的L2懲罰項替換為L1懲罰項,最小二乘部分保持不變,得到了Lasso(Least Absolute Shrinkage and Selection Operator),實現(xiàn)模型的稀疏化,具有同時實現(xiàn)特征選擇與空間降維的優(yōu)點。

        對于雙采樣后的訓(xùn)練數(shù)據(jù)數(shù)據(jù),其線性回歸模型為

        Y=Xθ+ε

        (1)

        (2)

        Lasso與最小二乘法相比,不具有顯式解,可通過坐標(biāo)下降法迭代得到其解。則求解Lasso回歸系數(shù)θj更新公式可表示為

        (3)

        2.1.3 基于Lasso-RFE的特征提取

        各個特征對模型重要程度不同,為使得模型擁有更好的魯棒性,選擇遞歸式特征消除算法(Recursive Feature Elimination,RFE)對特征基因進行篩選?;舅枷霝椋褂锰卣飨蛄繉C器學(xué)習(xí)模型進行訓(xùn)練,得到相應(yīng)特征權(quán)重,移除權(quán)重較小特征。使用剩余特征進行新一輪訓(xùn)練,直至全部特征均被移除。在本文中,使用基于Lasso的RFE改進算法。在實現(xiàn)特征選擇的同時去除冗余特征[14],具體算法描述如下:

        1)假定初始狀態(tài),特征子集包含q個特征向量,訓(xùn)練Lasso估計模型,重復(fù)運行 L次;

        2)計算各特征出現(xiàn)頻次,作為當(dāng)前特征權(quán)重,移除權(quán)重最小特征,更新特征子集;

        3)重復(fù)步驟1)-2),直至特征子集無變化。

        5)重復(fù)運行步驟4)直至當(dāng)前特征子集剩余一個特征向量。

        最終得到多組特征子集,分別對其訓(xùn)練分類模型,以分類準(zhǔn)確率作為標(biāo)準(zhǔn),選擇最優(yōu)子集。

        2.2 基于SVM的分類預(yù)測

        相較于其它分類算法,支持向量機對小樣本數(shù)據(jù)分類,具有良好的魯棒性與泛化能力,與基因表達(dá)數(shù)據(jù)分類需求相同。因此選擇支持向量機算法,實現(xiàn)對標(biāo)簽的分類預(yù)測。

        (4)

        (5)

        (6)

        2.3 評價準(zhǔn)則

        傳統(tǒng)評價方式多選擇準(zhǔn)確性作為分類標(biāo)準(zhǔn),相對不平衡數(shù)據(jù)而言,準(zhǔn)確率具有一定欺騙性。本文選擇混淆矩陣作為評價準(zhǔn)則,如表1所示,可以根據(jù)真實標(biāo)簽,以及預(yù)測標(biāo)簽評估模型的性能。根據(jù)混淆矩陣可得到以下評價標(biāo)準(zhǔn):

        1) 敏感性,即樣本為陽性,預(yù)測結(jié)果也為陽性的幾率,表示為TP/(TP+FN);

        2) 特異性,即樣本為陰性,同時預(yù)測結(jié)果也為陰性TN/(FP+TN);

        3) 假陽性率,即樣本為陰性,預(yù)測結(jié)果為陽性概率,表示為FP/(FP+TN);

        4)假陰性率為(1-假陽性率)。

        同時,采用ROC曲線(receiver operating characteristic curve),即受試者工作特征曲線,從泛化性能角度出發(fā),評價模型泛化性能。其中,橫坐標(biāo)為假陽性率,縱坐標(biāo)為真陽性率,表示為TP/(TP+FN)。

        表1 預(yù)測結(jié)果混淆矩陣

        3 實驗結(jié)果與分析

        3.1 數(shù)據(jù)下載和實驗設(shè)計

        本文收集來自美國國立生物技術(shù)信息中心的基因組數(shù)據(jù)庫(https:∥www.ncbi.nlm.nih.gov/)基因芯片數(shù)據(jù)GSE1456,包含159個樣本(其中40個陽性樣本,119個陰性樣本),41683個特征,算法流程框圖如圖1所示。

        圖1 算法流程圖

        3.2 數(shù)據(jù)預(yù)處理與差異性分析

        基因表達(dá)原始數(shù)據(jù)具有數(shù)據(jù)維度高,冗余多,不規(guī)范,數(shù)量級不一致的特點,無法進行直接進行特征提取,需進行數(shù)據(jù)預(yù)處理,如下:

        1) 刪除重復(fù)樣本,即同一個GEO編號對應(yīng)多個樣本;

        2) 陣列質(zhì)量檢查;

        3) 進NUSE(Normalized Unscaled Standard Errors)分析,刪除被歸為異常值樣本;

        4) 對數(shù)據(jù)進行歸一化處理(包含分位數(shù)歸一化);

        5) 進行主成分析,若一對樣本相關(guān)性大于0.9,判定為復(fù)制樣本,隨機刪除其中一個樣本;

        6) 檢查探針I(yè)D與ENTREZ_GENE_ID,若一個ENTREZ_GENE_ID對應(yīng)多個探針,則選擇表達(dá)值方差較高的一組。

        通過數(shù)據(jù)預(yù)處理,篩選符合要求的樣本數(shù)量為147個樣本(其中33個正例,114個反例),基因特征為12750個。

        高維基因數(shù)據(jù)中,存在部分特征基因?qū)Σ煌愋蜆?biāo)簽,不具有顯著差異。因此,使用Wilcoxon秩和檢驗對預(yù)處理后的基因數(shù)據(jù)進行差異性分析[13],篩選對標(biāo)簽具有顯著表達(dá)差異的特征基因,為后續(xù)特征選擇做好準(zhǔn)備。

        假定顯著性水平為0.05,使用Wilcoxon秩和檢驗對特征基因進行差異性分析,即判斷特征基因陽性樣本表達(dá)值與陰性表達(dá)值是否具有顯著差異。當(dāng)p值<0.05,即表達(dá)值分布不同,具有差異性;若P值>0.05,則表達(dá)值分布一致,做刪除處理。經(jīng)過差異性分析,共2542個特征基因滿足。

        3.3 基于改進Lasso-RFE算法的穩(wěn)定基因篩選

        為避免小類樣本對機器學(xué)習(xí)算法造成的不穩(wěn)定以及敏感性較差現(xiàn)象。分別對訓(xùn)練數(shù)據(jù)使用過采樣、欠采樣、雙采樣以及人工合成法進行重構(gòu)。并對其使用Lasso算法進行穩(wěn)定特征選擇,后使用支持向量機模型進行分類。對表2分類模型特異性、敏感性進行對比,最終選擇雙采樣對訓(xùn)練數(shù)據(jù)進行處理。訓(xùn)練數(shù)據(jù)經(jīng)雙采樣,其樣本比例如表3所示。

        表2 數(shù)據(jù)處理方式對比

        表3 樣本比例對比

        對雙采樣后的基因表達(dá)數(shù)據(jù),使用本文2.1.3節(jié)中所示Lasso-RFE算法對無關(guān)特征及冗余特征進行消除。其中,Lasso估計使用k折交叉驗證,估計最優(yōu)λ,得到一系列可調(diào)節(jié)參數(shù)λ與二項式偏差對應(yīng)關(guān)系,如圖2所示。通過實驗發(fā)現(xiàn),當(dāng)特征數(shù)量遠(yuǎn)大于樣本數(shù)量時,由于交叉驗證選取樣本存在隨機性,最優(yōu)λ與隨機劃分的樣本相關(guān),選擇樣本發(fā)生改變,最優(yōu)λ隨之變化,進而特征選擇發(fā)生改變,如表4所示。

        為避免最優(yōu)λ改變帶來的特征選擇變化,得到穩(wěn)定的特征選擇結(jié)果,多次運行Lasso,根據(jù)特征出現(xiàn)頻次進行選擇,出現(xiàn)頻次越高,即特征越重要。因此,使用Lasso-RFE算法時,均重復(fù)運行Lasso500次,利用10折交叉驗證確定最優(yōu)λ。最終,得到多個特征子集。

        圖2 Lasso確定可調(diào)參數(shù)過程圖

        表4 可調(diào)參數(shù)對照表

        根據(jù)Lasso-RFE算法得到的候選特征子集,使用支持向量機訓(xùn)練分類模型,可得一系列特征子集與分類模型準(zhǔn)確性對應(yīng)關(guān)系。如表5所示,可知使用37個特征基因進行訓(xùn)練時為最優(yōu)點。分別是EIF2B1,TOR1A,SMAD4,CREBZF,ATG13,LSM1,SKP2,JUND,CEP164,CA3,ZNF211,UBFD1,LRP2,NMU,SEMA3F,CRISP3,ESM1,RPS14,CBR1,NFIX,EFCAB11,ZFP36L1,MT2A,ZNF259P1,DYNLRB1,SSBP3,PLEKHJ1,USP16,TRIAP1,REEP4,RPL26L1,DNAJC12,KLHL2,HEATR3,L2HGDH,HOXC8,SCIN。

        表5 特征子集與分類模型準(zhǔn)確性對應(yīng)關(guān)系

        3.4 支持向量機分類預(yù)測研究

        使用未進行雙采樣的訓(xùn)練數(shù)據(jù)數(shù)據(jù)(包含2542個特征),分別訓(xùn)練隨機森林、支持向量機、Adaboost、KNN分類器;并使用測試樣本對分類器進行驗證,結(jié)果如表6所示。實驗表明,當(dāng)數(shù)據(jù)處于高維狀態(tài)時,隨機森林、支持向量機分類器無法有效對陽性樣本進行分類,Adaboost、KNN分類器雖擁有較好的效果,但特征存在大量冗余,無法滿足使用少量特征基因進行預(yù)后診斷的需求。

        表6 預(yù)處理后數(shù)據(jù)分類結(jié)果

        而本文通過使用Lasso-RFE對特征基因進行篩選,最終得到37個特征基因,建立SVM分類模型,可更加精準(zhǔn)實現(xiàn)乳腺癌預(yù)后預(yù)測。其中,支持向量機核函數(shù)選擇徑向基函數(shù),最終得到43個支持向量。經(jīng)測試集檢驗,根據(jù)分類結(jié)果混淆矩陣,如表7所示,可得模型敏感性為0.82,特異性為0.97,分類準(zhǔn)確率可達(dá)94%。且根據(jù)圖3所示ROC曲線,可得AUC面積為0.923,證明該分類器具有良好分類性能。

        表7 分類結(jié)果混淆矩陣

        圖3 支持向量機ROC曲線

        3.5 實驗結(jié)果分析

        為更加全面評估模型的性能,本文采用不同的特征選擇、預(yù)后預(yù)測建模方法進行乳腺癌預(yù)后預(yù)測分析,如表8所示。

        根據(jù)表8,未進行雙采樣時,算法敏感性較低,模型無法對陽性樣本進行很好的辨別;雖然,改變SVM分類閾值后敏感性顯著提高,但是犧牲了特異性,模型無法對陰性樣本進行很好的分類。因此,可知在使用Lasso估計實現(xiàn)特征選擇時,易受不平衡樣本比例影響。對輸入數(shù)據(jù)進行雙采樣后,樣本比例不平衡現(xiàn)象得到改善,模型敏感性顯著改善,具有顯著優(yōu)勢。相較于一般Lasso算法,本文提出的Lasso-RFE有效簡化了模型,實現(xiàn)了穩(wěn)定、準(zhǔn)確的特征選擇,有效提高了模型準(zhǔn)確率。相較于傳統(tǒng)Lasso-SVM模型,模型敏感性,準(zhǔn)確率均得到了改善,實現(xiàn)了更加簡潔、準(zhǔn)確的乳腺癌預(yù)后預(yù)測。

        表8 各模型對比

        4 總結(jié)

        本文建立基于改進Lasso-RFE的SVM乳腺癌預(yù)后預(yù)測模型,本模型根據(jù)乳腺癌患者基因表達(dá)數(shù)據(jù),對未來五年是否復(fù)發(fā)進行預(yù)測。模型通過雙采樣,有效減少了由于比例樣本不平衡對實驗結(jié)果帶來的影響;利用改進Lasso-RFE算法,實現(xiàn)了穩(wěn)定的特征提取,避免一次性大規(guī)模降維帶來的信息丟失;相較于傳統(tǒng)Lasso特征提取,改進Lasso-RFE有效提高了分類模型敏感性、準(zhǔn)確率。本文為相似數(shù)據(jù)類型提供了新的處理思路。此外,模型結(jié)果可作為進一步研究乳腺癌對基因表達(dá)數(shù)據(jù)影響的基礎(chǔ),對乳腺癌的臨床個性化治療具有重要意義。

        猜你喜歡
        乳腺癌分類特征
        絕經(jīng)了,是否就離乳腺癌越來越遠(yuǎn)呢?
        中老年保健(2022年6期)2022-08-19 01:41:48
        分類算一算
        如何表達(dá)“特征”
        乳腺癌是吃出來的嗎
        不忠誠的四個特征
        分類討論求坐標(biāo)
        胸大更容易得乳腺癌嗎
        數(shù)據(jù)分析中的分類討論
        別逗了,乳腺癌可不分男女老少!
        祝您健康(2018年5期)2018-05-16 17:10:16
        教你一招:數(shù)的分類
        免费在线亚洲视频观看| 欧美亚洲综合另类| 色噜噜狠狠色综合欧洲| 久久色悠悠综合网亚洲| 亚洲一区二区三区小说| 日韩亚洲av无码一区二区不卡| 国产精品久久国产三级国电话系列| 国产高清不卡在线视频| 人妻夜夜爽天天爽三区丁香花| 手机看片福利一区二区三区| 国产成人美女AV| 午夜国产精品一区二区三区| 色天使久久综合网天天| 亚洲av综合av国产av| 久久与欧美视频| 韩国一区二区三区黄色录像| 日韩精品成人无码专区免费| 国产精品一区二区 尿失禁| 看黄色亚洲看黄色亚洲| 有坂深雪中文字幕亚洲中文 | 女高中生自慰污免费网站| av免费网站不卡观看| 人妻丰满熟妇aⅴ无码| 国产精品美女一区二区三区| 国产在视频线精品视频二代| 国产激情一区二区三区不卡av| 女人被爽到高潮视频免费国产 | 少妇性l交大片免费快色| 国产精品国产三级国产a| 天天摸日日摸狠狠添| 无码伊人久久大蕉中文无码| 国产一区二区三区视频地址 | 中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 | 久久婷婷综合激情亚洲狠狠| 精品国产乱码久久久久久郑州公司| 人人妻人人添人人爽日韩欧美| 日本变态网址中国字幕 | 国产一区二区三区在线观看精品| 高清亚洲成av人片乱码色午夜| 无码人妻丰满熟妇区免费| 欧美日韩精品一区二区在线观看|