李小波,彭司華
(1.麗水學(xué)院工學(xué)院 計算機系,麗水323000;2.上海海洋大學(xué)水產(chǎn)與生命學(xué)院 生物技術(shù)系,上海201306)
近些年來,腫瘤的個性化醫(yī)療獲得了很大的關(guān)注[1].由于腫瘤的異質(zhì)性和患者之間的個體差異,如果簡單采取同一方法治療某一類腫瘤,就容易產(chǎn)生過度治療或治療不當(dāng)?shù)膯栴},因此,需要針對每一個患者的不同情況,采用個性化方式進行治療.一個典型的例子是抗癌藥物西妥昔單抗(Cetuximab,愛必妥),研究發(fā)現(xiàn),西妥昔單抗對Kras基因野生型的結(jié)直腸癌患者效果顯著,而對于Kras基因突變的患者則療效欠佳,Kras基因的突變狀態(tài)已經(jīng)成為結(jié)直腸癌患者決定是否采取單抗靶向治療的重要生物標(biāo)志物[2].與此同時,腫瘤的個性化醫(yī)療也為腫瘤的分子分型和腫瘤生物標(biāo)志物查找提出了緊迫的要求.
隨著基因芯片技術(shù)的迅猛發(fā)展,利用基因表達譜對腫瘤進行分子分型,查找腫瘤標(biāo)志物等工作取得了很大的進展[3].基因芯片技術(shù)能同時檢測獲取成千上萬個基因的表達值,該技術(shù)為腫瘤研究開辟了一條高通量和系統(tǒng)性的研究途徑,然而,基因芯片數(shù)據(jù)具有基因數(shù)量多(一般多于10 000)、樣本數(shù)小(一般小于100)的特點,如何從中選取有效可靠的特征基因,則是基于基因芯片數(shù)據(jù)進行腫瘤分類的關(guān)鍵問題[4].通過基因選擇,消除與腫瘤分類無關(guān)的噪聲和冗余基因,獲得精簡的特征基因集,不僅可以減輕分類器的計算負(fù)擔(dān),還可以提高分類器的分類準(zhǔn)確度.另一方面,所獲得的特征基因集包含較少的基因數(shù)量,更便于后續(xù)的分子生物學(xué)實驗驗證,對于腫瘤標(biāo)志物的查找和腫瘤發(fā)生發(fā)展分子機制的闡明具有實際意義.
常見的特征選擇算法有3種[5]:過濾(Filter)法、纏繞(Wrapper)法和嵌入(Embedded)法.過濾法的選擇結(jié)果與分類器無關(guān),盡管使用過濾法選擇基因方法簡單快速,計算量小,但它也有幾個不足之處:首先,過濾法忽視了與分類器的交互;其次,許多過濾法算法往往是一元的,并沒有考慮到基因之間的相關(guān)性.纏繞法在某種程度上可以克服過濾法的上述問題.然而,該方法對計算的要求比較高,而且選擇的基因集有較高的過擬合風(fēng)險[6].嵌入法考慮到分類器的內(nèi)部特征(比如支持向量機分類器里的支持向量),能與分類器較好地耦合,從而具有較高的精確度,但同時對分類器依賴性大,選擇結(jié)果適應(yīng)性差,需要檢驗其選擇的基因?qū)ζ渌诸惼鞯挠行裕?].
目前在腫瘤的分類研究中,針對二分類問題(腫瘤類別數(shù)量為2,比如腫瘤樣本與正常組織之間的分類)研究得較為透徹,且取得了較好的效果.而對于多類別腫瘤的分類問題(腫瘤類別或亞型的數(shù)量多于2),則缺乏深入的研究,并且在已有的研究結(jié)果中,可以看到準(zhǔn)確度并不高,尤其當(dāng)腫瘤類別越多時,分類準(zhǔn)確度下降更快[8].腫瘤的發(fā)生發(fā)展和侵襲轉(zhuǎn)移是多個階段、多個基因調(diào)控、多條途徑的過程[9],由此導(dǎo)致了腫瘤的異質(zhì)性和腫瘤的多亞型.多類別腫瘤的分類問題,目前仍然是機器學(xué)習(xí)領(lǐng)域的一大挑戰(zhàn).
本文以肺癌的多類別基因表達譜數(shù)據(jù)為例,采用多步驟混合式特征基因選擇策略[10],對多類別腫瘤的分類問題進行了研究.首先,采用7種常用的特征基因選擇方法對基因表達譜中所有基因與分類的相關(guān)性進行排序,從中提取少量與腫瘤分類密切相關(guān)的基因子集,隨后,對子集中的冗余基因進行過濾去除,得到分類準(zhǔn)確度更高的精簡基因集.實驗結(jié)果證實了該方法的可行性和有效性.
通過基因芯片檢測到大量基因的表達值,其中多數(shù)基因與腫瘤相關(guān)性不大,對腫瘤的分類貢獻也小,往往采用過濾法對所有基因的相關(guān)性進行排序,去除大量的低相關(guān)度基因,留下少量與腫瘤分類密切相關(guān)的基因.以下對本文涉及到的一些特征基因選擇方法進行介紹.
基于相關(guān)性的特征選擇方法[11](Correlation-based Feature Selection,CFS)的核心思想是所選擇的特征子集里的每個特征與每一個類高度相關(guān),但相互間的相關(guān)度最低.評價特征子集的標(biāo)準(zhǔn)可以定義為
其中:Ms表示特征子集S的得分值,該子集含有k個特征表示子集內(nèi)每個特征與類間的平均相關(guān)度表示子集內(nèi)每個特征相互之間的平均相關(guān)度.
卡方選擇法[12](Chi-Squared,χ2)采用每個基因的卡方統(tǒng)計值(χ2)單獨評價每個基因,首先將順序或數(shù)字的特征屬性值進行離散化,隨后采用下面的公式計算每個基因的χ2值:
其中:m表示間隔數(shù);n為類的數(shù)量;Aij表示第i間隔第j類的實際總模式數(shù);Eij為Aij的理論頻數(shù).
信息增益選擇法[13](Information Gain,IG)是基于熵的衡量方法,對于每個特征屬性的計算公式如下:
其中:H(Class)為每個類的總熵;H(Class|Attribute)計算給定屬性下每個類的條件熵.
信息增益率選擇法(Gain Ratio,GR)計算每個屬性的信息增益率:
其中H(Attribute)表示每個屬性的熵值.GR選擇法用于衡量每個屬性與類間的相對熵值.
對稱不確定性選擇法[11](Symmetrical Uncertainty,SU)計算每個屬性的SU值:
其中:H(Class)為每個類的總熵;H(Attribute)表示每個屬性的熵值.SU選擇法是針對信息增益選擇法偏向選擇具有較大信息增益值的特征而進行的調(diào)整.
在ReliefF選擇法[14]中,良好的分類特征被定義為在同一類中具有相同的屬性值,并在不同的類中具有不同的屬性值.ReliefF法采用最近鄰方法來計算每個屬性的相關(guān)性得分.通過對實例的重復(fù)采樣,根據(jù)最近的相同類和不同類的實例,評估每個屬性的得分值.
Guyon等[7]提出了基于支持向量機的遞歸特征基因消除法(Support Vector Machine method based on Recursive Feature Elimination,SVM-RFE).SVM-RFE算法從原始基因集中逐個消除對分類器貢獻最小的基因,基因?qū)Ψ诸惼髫暙I的重要性采用基因排序得分(gene ranking score)評估.基因排序得分定義為支持向量機權(quán)重向量w的平方和,w表示為
其中:xi為訓(xùn)練集中樣本i的基因表達向量;yi∈[-1,+1]為樣本i的類標(biāo)簽;αi可以從訓(xùn)練集計算得到.大多數(shù)樣本的αi為零,αi為非零的向量為支持向量[7].
通過上一節(jié)介紹的各種基因選擇方法,可以去除大量與腫瘤分類無關(guān)的基因.設(shè)定一個閾值(比如設(shè)置基因子集中的基因數(shù)量),就能夠獲得一個與腫瘤分類存在高相關(guān)度的基因子集.然而,過濾法往往沒有考慮到基因之間的相關(guān)性,在該子集中仍然存在一部分冗余基因.腫瘤特征基因選擇方法的目標(biāo)是獲取一個基因數(shù)量盡可能少,包含樣本分類信息盡可能全面的基因集,為此,文中采用了 Step-by-Step improvement of Classification Performance(SSiCP)算法[15].SSiCP算法采用一個評價函數(shù),引導(dǎo)分類器逐步消除冗余基因.
該算法的關(guān)鍵步驟描述如下:
輸入:訓(xùn)練集S1,該數(shù)據(jù)集包含特征基因數(shù)n1;
步驟1 訓(xùn)練特征基因數(shù)n的分類器,采用m-折(本文采用10-折)交叉檢驗法計算,得到分類器分類準(zhǔn)確度k1;
步驟2 臨時排除某個特征基因f,采用m-折(本文采用10-折)交叉檢驗計算,得到分類器分類準(zhǔn)確度k2;
步驟3 假設(shè)k1≤k2,則消除特征基因f;假設(shè)k1>k2,則恢復(fù)特征基因f;
重復(fù)步驟1~3,直至分類器獲得最高分類準(zhǔn)確度;
輸出:特征子集S2,特征基因數(shù)n2.
支持向量機分類器具有較強的泛化能力,適合于具有高維數(shù)和小樣本特征的腫瘤基因表達譜數(shù)據(jù).文中采用Platt[16]提出的序貫極小優(yōu)化(Sequential Minimum Optimization,SMO)算法是一個快速的支持向量機算法.在該算法中,將多類別分類問題化解為采用成對(pair-wise)分類的方式解決.
將腫瘤表達譜數(shù)據(jù)集按一定比例分為訓(xùn)練集和獨立測試集,采用兩種方法進行分類模型的評價:
(1)對于訓(xùn)練集,采用10-折交叉檢驗法(ten-fold cross validation)評價分類器,即將訓(xùn)練集中所有樣本分為10等份,輪流將其中9份樣本作為訓(xùn)練樣本,剩余1份樣本作為測試樣本,不斷重復(fù)測試,直至訓(xùn)練集內(nèi)所有樣本均被測試一次為止;
(2)對于獨立測試集,以訓(xùn)練集中所有樣本訓(xùn)練分類器,隨后對獨立測試集中的每個樣本進行逐一分類測試.
機器學(xué)習(xí)算法中,過擬合(overfitting)是個必須要考慮的問題.給定假設(shè)空間H,一個假設(shè)h∈H,如果存在另外的假設(shè)h'∈H,使得在訓(xùn)練樣本上h的錯誤率小于h',但在整個樣本分布上h'的錯誤率小于h,那么就說假設(shè)h過擬合訓(xùn)練數(shù)據(jù)[17].因此,為了測試每個分類模型的過擬合風(fēng)險,對于每個分類模型,首先在訓(xùn)練集中通過10-折交叉檢驗法獲得一個分類準(zhǔn)確度p,隨后在獨立測試集獲得一個分類準(zhǔn)確度p',如果p與p'的差別越小,說明該分類模型的抗過擬合性能越強.
采用 Bhattacharjee等[18]發(fā)表的肺癌數(shù)據(jù)集,數(shù)據(jù)從網(wǎng)站 http:∥www.pnas.org/content/98/24/13790/suppl/DC1下載.該數(shù)據(jù)集是個多類別腫瘤基因表達譜數(shù)據(jù)集,共包含203個樣本,5個類別(4種肺癌亞型以及正常組織),其中腺癌(lung ADenocarcinoma,AD)127個,鱗狀細(xì)胞癌(SQuamous cell lung carcinomas,SQ)21個,類癌(pulmonary CarcinOIDs,COID)20個,小細(xì)胞癌(Small-Cell Lung Carcinoma,SCLC)6個,以及正常肺組織樣本(Normal Lung,NL)17個.其余的12例疑似肺外轉(zhuǎn)移樣本,未納入本次實驗.數(shù)據(jù)集中每個樣本包含12 600個基因表達值.將整個數(shù)據(jù)樣本按訓(xùn)練集相比獨立測試集3∶1比例隨機分配.肺癌數(shù)據(jù)集的結(jié)構(gòu)如表1所示.
首先對實驗數(shù)據(jù)進行了預(yù)處理,分為兩步:去除管家基因和標(biāo)準(zhǔn)化.去除管家基因后,數(shù)據(jù)集剩余12 533個基因表達值,對基因表達值進行標(biāo)準(zhǔn)化,使得每個樣本的基因表達值均值為0,標(biāo)準(zhǔn)差為1.
本次實驗中,在 WEKA(http:∥www.cs.waikato.ac.nz/ml/weka/)平臺[19]上實現(xiàn)各種基因選擇算法和分類模型.SMO分類算法有4種核函數(shù) (Normalized Poly Kernel,Poly Kernel,RBF Kernel和String Kernel),我們選擇采用多項式核函數(shù)(Poly Kernel),在訓(xùn)練支持向量機分類器的時候,調(diào)整最佳參數(shù)會是非常耗時的工作,因此我們采取參數(shù)固定的方式.其中由于數(shù)據(jù)已標(biāo)準(zhǔn)化,“FilterType”參數(shù)設(shè)定為“standardize training data”選項,并將懲罰參數(shù)C設(shè)為100.
表1 肺癌數(shù)據(jù)集的樣本分布Tab.1 Distribution of the samples in lung cancer data set
在訓(xùn)練集的實驗中,采用的是混合式基因選擇策略.首先,采用 CFS、χ2、IG、GR、SU、ReliefF、SVM-RFE等基因選擇方法去除與分類無關(guān)的基因,這些方法輸出一個按得分由高至低排序的基因集.為了便于幾種方法之間的比較,最后統(tǒng)一選擇排序得分最高的200個基因,由此我們提取了與分類高度相關(guān)的基因子集.隨后,考慮到這些基因之間可能存在強相關(guān)性,采用SSiCP算法進一步剔除具有強相關(guān)性的冗余基因.實驗結(jié)果如圖1所示.
由圖1可知,SSiCP算法可以有效去除冗余基因.隨著基因集基因數(shù)量的減少,分類預(yù)測精度經(jīng)歷了先上升而后下降的過程.SSiCP算法去除掉冗余基因后,非但不會減弱基因集的分類信息,反而進一步提高了預(yù)測精度,隨著基因數(shù)量的減少,預(yù)測精度到達最高點并可繼續(xù)維持,記錄下預(yù)測精度最高且基因數(shù)量最少的基因子集,我們稱之為“最精簡”基因集.之后,隨著基因數(shù)量的再次減少,預(yù)測精度則不斷下降.
采用各種基因選擇方法獲得的“最精簡”基因集表達值,以訓(xùn)練集樣本作為分類器的訓(xùn)練樣本,建立分類模型,在獨立測試集測試每個樣本,記錄每個獨立測試集的錯分樣本,結(jié)果如表2所示.
圖1 SSiCP算法消減冗余基因過程中,7種不同基因選擇方法的預(yù)測精度Fig.1 The prediction accuracies of the seven different gene selection methods when SSiCP algorithm was applied to eliminate redundant genes
表2 在訓(xùn)練集和獨立測試集中,7種特征選擇方法的分類結(jié)果Tab.2 The classification results of the seven different gene selection methods in training and independent test data sets
表2綜合給出了各種基因選擇方法在訓(xùn)練集和獨立測試集的性能.在訓(xùn)練集中,IG、ReliefF、SU和SVM-RFE等4種方法均獲得100%的預(yù)測精度(見表2),其中ReliefF算法僅用了12個基因,表現(xiàn)最好.在獨立測試集中,CFS算法的性能最佳,僅有2個錯分樣本.綜合兩個數(shù)據(jù)集的表現(xiàn),SU算法在訓(xùn)練集的預(yù)測精度為100%,但在測試集的性能有所降低,有3個錯分樣本,精度為93.8%(45/48),在兩個數(shù)據(jù)集的總體精度為98.4%(188/191).CFS算法在訓(xùn)練集有1個錯分樣本,在測試集有2個錯分樣本,總體精度和SU算法一致,為98.4%(188/191),然而,考慮到CFS算法在訓(xùn)練集的預(yù)測精度為99.3%(142/143),在測試集僅有2個錯分樣本,精度為95.8%(46/48),下降較少,其抗過擬合性能較強.兩種方法的最精簡基因數(shù)量均為13.因此,我們認(rèn)為CFS算法在現(xiàn)有7種基因選擇方法中有最佳分類性能.
表3給出了采用CFS算法加SSiCP算法所獲得最精簡基因集的基因列表.其中至少4個基因,包括轉(zhuǎn)錄因子21(TCF21)基因[20],I型人T細(xì)胞白血病病毒結(jié)合蛋白3(TAX1BP3)基因[21],早幼粒細(xì)胞白血病鋅指蛋白(ZBTB16或PLZF)基因[22],S100鈣結(jié)合蛋白A8(S100A8)基因[23]等據(jù)文獻報道與肺癌的發(fā)生發(fā)展密切相關(guān).TCF21基因調(diào)節(jié)間充質(zhì)細(xì)胞到上皮細(xì)胞的分化,在肺癌和頭頸部鱗狀細(xì)胞癌中顯示出異常高的甲基化現(xiàn)象[24].Richards等[20]對105例非小細(xì)胞肺癌患者樣本進行了研究,發(fā)現(xiàn)其中81%的樣本存在TCF21基因啟動子區(qū)甲基化現(xiàn)象,84%的樣本表現(xiàn)出TCF21蛋白的表達下降.Wang等[21]在人類和小鼠肺癌細(xì)胞的研究表明,輻射誘導(dǎo)的細(xì)胞內(nèi)TIP-1重新定位到質(zhì)膜表面,可以抑制腫瘤細(xì)胞的增殖能力和集落形成能力,同時增強后續(xù)放射治療的易感性.PLZF作為一種抑癌基因,其基因表達的失調(diào)在不同類型的實體腫瘤中有所報道.Wang等[22]探討了其表達降低對非小細(xì)胞肺癌產(chǎn)生的影響.在154例配對非小細(xì)胞肺癌樣本中,通過定量實時PCR實驗發(fā)現(xiàn),其中87.1%的樣本PLZF表達下調(diào)了62.8%,并且35.6%的表達下調(diào)是由于PLZF啟動子區(qū)甲基化引發(fā)的.在A549和LTEP肺癌細(xì)胞系中的實驗發(fā)現(xiàn)PLZF的過表達能抑制細(xì)胞增殖和誘導(dǎo)凋亡.Su等[23]的研究采用了56例非小細(xì)胞肺癌和4例小細(xì)胞肺癌樣本,免疫組織化學(xué)染色法和PCR法顯示S100A8在肺癌組織中顯著上調(diào),發(fā)現(xiàn)其較高的表達與肺腺癌、肺部炎癥和肺癌Ⅳ期病變的臨床特征相關(guān).
表3 CFS算法加SSiCP算法所獲得的最精簡基因集Tab.3 The minimum gene subset obtained by CFSplus SSiCPalgorithms
(續(xù)表)
采用 DAVID數(shù)據(jù)庫(The Database for Annotation,Visualization and Integrated Discovery,DAVID)[25,26]分析表3最精簡基因集的富集基因本體和通路,其中的功能注釋圖表工具(The Functional Annotation Chart tool)用于分析富集的注釋.識別出3條富集的生物學(xué)過程(EASE score<0.05),包括DNA模板轉(zhuǎn)錄的負(fù)調(diào)控(GO:0045892~negative regulation of transcription,DNA-dependent),RNA代謝過程中的負(fù)調(diào)控(GO:0051253~negative regulation of RNA metabolic process)和轉(zhuǎn)錄負(fù)調(diào)控(GO:0016481~negative regulation of transcription),參與以上生物學(xué)過程的基因包括 TCF21,ZBTB16和BAZ2A等.
由于腫瘤的異質(zhì)性和腫瘤的多亞型特征,多類別腫瘤的分類問題是普遍存在的.隨著高通量分子生物學(xué)技術(shù)的快速進展,采用基因表達譜等技術(shù)對腫瘤進行分子分型,已成為生物醫(yī)學(xué)研究的熱點,具有重要的理論意義和臨床價值.文中重點研究了多類別腫瘤分類中的關(guān)鍵問題——特征基因選擇方法.提出了混合式特征基因選擇策略,并在肺癌的多類別基因表達譜數(shù)據(jù)集上進行了實驗.首先用現(xiàn)有的7種特征選擇算法各自提取了200個與分類高度相關(guān)的基因,隨后采用SSiCP算法消除冗余基因,最終得到基因數(shù)量較少、分類準(zhǔn)確度較高的最精簡基因集.實驗結(jié)果證實,SSiCP算法不但可以有效剔除冗余基因,并且能提高分類模型的準(zhǔn)確度.比較了7種基因選擇算法,發(fā)現(xiàn)CFS算法加SSiCP算法的混合式基因選擇策略,獲得了基因數(shù)量僅有13個的特征基因集,不但在訓(xùn)練集有較高的預(yù)測準(zhǔn)確度,在獨立測試集的準(zhǔn)確度也比較高,有著較強的抗過擬合性能.采用CFS算法加SSiCP算法所獲得最精簡基因集中的部分基因,據(jù)文獻報道,與肺癌的發(fā)生發(fā)展存在密切相關(guān).文中所提出的混合式基因選擇策略,可以作為多類別腫瘤分類中選擇特征基因的有效方法.
[1]Chin L,Andersen J N,F(xiàn)utreal P A.Cancer genomics:From discovery science to personalized medicine[J].Nature Medicine,2011,17(3):297-303.
[2]Ong F S,Das K,Wang J,et al.Personalized medicine and pharmacogenetic biomarkers:Progress in molecular oncology testing[J].Expert Review of Molecular Diagnostics,2012,12(6):593-602.
[3]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:Class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.
[4]Li X,Peng S,Chen J,et al.SVM-T-RFE:A novel gene selection algorithm for identifying metastasis-related genes in colorectal cancer using gene expression profiles[J].Biochemical and Biophysical Research Communications,2012,419(2):148-153.
[5]Saeys Y,Inza I,Larranaga P.A review of feature selection techniques in bioinformatics[J].Bioinformatics,2007,23(19):2507-2517.
[6]Leung Y,Hung Y.A multiple-filter-multiple-wrapper approach to gene selection and microarray data classification [J].IEEE/ACM Transactions on Computational Biology and Bioinformatics,2010,7(1):108-117.
[7]Guyon I,Weston J,Barnhill S,et al.Gene selection for cancer classification using support vector machines[J].Machine Learning,2002,46(1-3):389-422.
[8]Wang H,Zhang H,Dai Z,et al.TSG:A new algorithm for binary and multi-class cancer classification and informative genes selection [J].BMCMedical Genomics,2013,6(Suppl 1):S3.
[9]Li X B,Chen J,Lu B J,et al.-8p12-23 and+20q are predictors of subtypes and metastatic pathways in colorectal cancer:Construction of tree models using comparative genomic hybridization data[J].Omics-a Journal of Integrative Biology,2011,15(1-2):37-47.
[10]李小波.多步驟降維的腫瘤特征基因選擇方法[J].復(fù)旦學(xué)報:自然科學(xué)版,2008,47(4):541-544.
[11]Mark A H.Correlation-based feature selection for discrete and numeric class machine learning[C]∥Proceedings of the Seventeenth International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc,2000:359-366.
[12]Huan L,Rudy S.Chi2:Feature selection and discretization of numeric attributes[C]∥Proceedings of the Seventh International Conference on Tools with Artificial Intelligence.Washington,D C,USA:IEEE Computer Society,1995:388-391.
[13]Wang Y,Tetko I V,Hall M A,et al.Gene selection from microarray data for cancer classification—a machine learning approach[J].Computational Biology and Chemistry,2005,29(1):37-46.
[14]Igor K.Estimating attributes:Analysis and extensions of RELIEF[C]∥Proceedings of the European conference on Machine Learning.Secaucus,NJ,USA:Springer-Verlag New York,Inc,1994:171-182.
[15]Peng S,Liu X,Yu J,et al.A new implementation of recursive feature elimination algorithm for gene selection from microarray data[C]∥Proceedings of the 2009 WRI World Congress on Computer Science and Information Engineering,Volume 03.Washington,D C,USA:IEEE Computer Society,2009:665-669.
[16]Platt JC.Fast training of support vector machines using sequential minimal optimization[M]∥Advances in kernel methods:Support vector learning.Cambridge,MA,USA:MIT Press,1999:185-208.
[17]Mitchell T.Machine Learning[M].Burr Ridge,IL,USA:McGraw Hill,1997.
[18]Bhattacharjee A,Richards W G,Staunton J,et al.Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses[J].Proceedings of the National Academy of Sciences of the United States of America,2001,98(24):13790-13795.
[19]Mark H,Eibe F,Geoffrey H,et al.The WEKA data mining software:An update [J].ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.
[20]Richards K L,Zhang B,Sun M,et al.Methylation of the candidate biomarker TCF21 is very frequent across a spectrum of early-stage nonsmall cell lung cancers[J].Cancer,2011,117(3):606-617.
[21]Wang H,Yan H,F(xiàn)u A,et al.TIP-1 translocation onto the cell plasma membrane is a molecular biomarker of tumor response to ionizing radiation[J].PloSOne,2010,5(8):e12051.
[22]Wang X,Wang L,Guo S,et al.Hypermethylation reduces expression of tumor-suppressor PLZF and regulates proliferation and apoptosis in non-small-cell lung cancers [J].The FASEB Journal,2013,27(10):4194-4203.
[23]Su Y J,Xu F,Yu J P,et al.Up-regulation of the expression of S100A8 and S100A9 in lung adenocarcinoma and its correlation with inflammation and other clinical features[J].Chinese Medical Journal(English),2010,123(16):2215-2220.
[24]Smith L T,Lin M,Brena RM,et al.Epigenetic regulation of the tumor suppressor gene TCF21 on 6q23-q24 in lung and head and neck cancer[J].Proceedings of the National Academy of Sciences of the United States of America,2006,103(4):982-987.
[25]Dennis G,Sherman B T,Hosack D A,et al.DAVID:Database for annotation,visualization,and integrated discovery[J].Genome Biology,2003,4(9):R60.
[26]Huang D W,Sherman B T,Lempicki R A.Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources[J].Nature Protocols,2009,4(1):44-57.