魏熙胤 臧鳳琳
基因芯片技術的迅猛發(fā)展使得在同一時間點上檢測大量基因的表達水平成為可能,進而從中篩選出差異表達基因,可以幫助人們進一步了解乳腺癌的發(fā)病機制。迄今為止,人們對于乳腺癌初始分子特征改變的認識仍然有限。初期癌組織前體的改變逐漸成為研究熱點,包括增生病變以及組織學上正常的上皮組織。其中,對乳腺癌上皮組織細胞異常
基因的研究可以彌補人們對乳腺癌發(fā)生認識的不足。研究表明,乳腺癌患者的乳腺上皮雖然在組織學上是正常的,但是其中存在一些隱蔽性的異常,而人們對這些異常在癌癥發(fā)生中的作用卻知之甚少[1]。本研究運用基因芯片的方法對乳腺癌患者組織學正常的上皮細胞和正常人的上皮細胞進行生物信息學分析,從中發(fā)現異常的基因信號,進而實現對乳腺癌的早期診斷。
1.1 芯片數據的獲取 數據主要來自2部分。一是Tripathi等[1]使用的數據集GSE9574。該數據集共包括29個樣本,全部來源于組織學上正常的顯微切割乳腺上皮。其中14個樣本來自組織學上正常的乳腺癌上皮,全部為雌激素受體(ER)陽性;另外15個樣本來自接受乳房整形切術、無明顯乳腺癌特征的患者。提取以上樣本的RNA制作芯片,使用af?fymetrix的人類基因組U133A芯片(HG-U133A)。二是Gra?ham等[2]使用的數據集GSE20437。該數據集中共有42個樣本,其中18個樣本為組織學上正常的乳腺癌上皮,包括9個ER陽性和9個ER陰性樣本;18個樣本為乳房整形切除手術的乳腺上皮;6個樣本為預防性乳腺癌切除手術的乳腺上皮。提取RNA制作芯片,芯片平臺同樣為HG-U133A。為了與Tripathi等[1]的數據集合并,只選用GSE20437中9個ER陽性樣本和18個乳房整形切除手術樣本進行合并。本研究的初始數據集包括23個乳腺癌乳腺上皮樣本和33個乳房整形切除術乳腺上皮樣本。根據箱線圖,將嚴重偏離總體樣本的樣本去掉,最終獲得19個乳腺癌上皮樣本以及25個乳房整形切除術上皮樣本。
1.2 芯片數據的處理 原始數據集用R語言軟件包進行處理,包括affy和affycoretools。通過RMA算法對原始數據進行背景校正、標準化以及表達值計算。將44例樣本打亂3次,抽取35個作為訓練集,其余9個作為測試集。第1次的數據集中,訓練集包括14個乳腺癌上皮樣本和21個乳房整形切除術上皮樣本;測試集包括5個乳腺癌上皮樣本和4個乳房整形切除術上皮樣本;第2次數據集中,訓練集包括14個乳腺癌上皮樣本和21個乳房整形切除術上皮樣本,測試集包括5個乳腺癌上皮樣本和4個乳房整形切除術樣本;第3次樣本集中訓練集包括16個乳腺癌上皮樣本和19個乳房整形切除術樣本,測試集包括3個乳腺癌上皮樣本和6個乳房整形切除術樣本。使用Limma方法從訓練集中篩選P值小于0.05的差異表達基因。將差異表達基因上傳至DAVID(http://da?vid.abcc.ncifcrf.gov/home.jsp)網站進行通路富集分析。將富集到KEGG以及BioCarta數據庫中的基因提取出來,提取在芯片中對應的表達值作為訓練模型的特征值。本研究采取的分類方法為SVM在R語言中的e1071軟件包。
1.3 預測結果的衡量 本文中選用了3個預測指標來衡量預測方法的準確度,分別為準確度(Ac)、敏感度(Sn)以及特異度(Sp)。計算公式如下:
其中TP、TN、FP、FN分別代表真陽性、真陰性、假陽性以及假陰性。
2.1 差異表達基因的獲取 第一部分數據的差異表達探針為28個(17個基因),第二部分探針14個(12個基因),第三部分為18個差異表達探針(14個基因)。將這些基因分別富集到KEGG和BioCarta數據庫中的信號通路上,從而得到富集到信號通路上的差異表達基因,見表1。
Table 1 The differentially expressed genes enriched in KEGG and BioCarta database表1 在KEGG和BioCarta數據庫中富集到的差異表達基因
2.2 分類結果比較 差異表達基因主要富集在轉錄以及MAPK信號通路上。使用KEGG信號通路中富集到的基因作為特征值建議模型的預測精度優(yōu)于BioCarta信號通路。將KEGG和BioCarta中富集到的基因合并起來共同作為特征值,其預測精度與將所有差異表達基因作為特征值建立的模型精度一致,見表2,但是特征值卻分別從22個縮減到7個,14個縮減到3個,18個縮減到4個。KEGG和Bio?Carta中富集到的基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS。
Table 2 Comparison of the accuracy between different methods表2 不同方法的預測精度比較
通過生物信息學的手段對乳腺癌的研究屢見不鮮,如使用基因表達譜對乳腺癌預后的預測,運用生物信息學的手段從乳腺癌和正常細胞系中鑒定融合基因[3],從基因表達模式中預測乳腺癌特征[4]。目前乳腺癌上皮細胞的基因表達譜僅用來提取差異表達基因,比較正常個體與癌癥患者在基因表達上的差異以及在信號通路上的富集情況。本研究使用乳腺癌上皮細胞的基因表達譜建立乳腺癌分類模型,并使用通路富集的方法來過濾差異表達基因,從而使目的基因個數在保持預測模型精度不變的情況大大縮減,達到降低干擾的目的,能夠更加合理的解釋乳腺癌的發(fā)病機制。
Tripathi等[1]從14個乳腺癌樣本(ER陽性)和15個乳房整形切除術的乳腺上皮細胞基因芯片中獲得了127個探針(105個基因)差異表達,其中有三分之二的基因與癌發(fā)生有關,并且主要富集在轉錄、G蛋白相關以及生物運動活性通路和MAPK通路上。Graham等[2]對18個乳腺癌個體(9個ER陽性和9個ER陰性)、19個乳房整形切除術正常個體以及6個預防疾病而進行乳房整形切除術的個體的乳腺上皮細胞進行基因芯片分析,從中獲得了98個探針(86個基因)在乳房整形切除術正常個體和乳腺癌個體之間差異表達,而且這86個基因大多富集在與轉錄相關的通路以及MAPK通路上。
本研究結果顯示,差異表達基因主要富集在MAKP和轉錄相關的信號通路上,與Tripathi等[1]和Graham等[2]的研究結果一致。另外,用KEGG信號通路中富集到的基因作為特征值與BioCarta信號通路中富集到的基因作為特征值相比能更好的對乳腺癌進行分類,這些基因包括JUN、DUSP1、BTG2、FOSB、JUND、E1F1和FOS?;騄UN又稱為c-Jun,是第1個細胞原癌基因,在乳腺癌中高表達?;騀OS又稱為c-fos,也是原癌基因。研究表明PADI4與EIK-1協同作用導致c-fox在乳腺癌中高表達[5]。Kataoka等[6]提出FOSB在癌癥基質中的表達是一個獨立的評價癌癥預后的指標。有研究表明DUSP1是乳腺孕激素抗增殖和抗炎活動中的一個重要的調節(jié)因子[7]。以上均提示本研究模型中的特征基因與乳腺癌高度相關,KEGG和BioCarta中富集到的基因表達水平可作為乳腺癌的早期診斷標準。
[1]Tripathi A,King C,de la Morenas A,et al.Gene expression abnor?malities in histologically normal breast epithelium of breast cancer patients[J].Int J Cancer,2008,122(7):1557-1566.
[2]Graham K,de las Morenas A,Tripathi A,et al.Gene expression in histologically normal epithelium from breast cancer patients and from cancer-free prophylactic mastectomy patients shares a similar profile[J].Br J Cancer,2010,102(8):1284-1293.doi:10.1038/sj. bjc.6605576.
[3]Asmann YW,Hossain A,Necela BM,et al.A novel bioinformatics pipeline for identification and characterization of fusion transcripts in breast cancer and normal cell lines[J].Nucleic Acids Res,2011, 39(15):e100.doi:10.1093/nar/gkr362.
[4]Desriac N,Postollec F,Coroller L,et al.Prediction of Bacillus wei?henstephanensis acid resistance:The use of gene expression pat?terns to select potential biomarkers[J].Int J Food Microbiol,2013, 167(1):80-86.doi:10.1016/j.ijfoodmicro.2013.03.014.
[5] Zhang X,Gamble MJ,Stadler S,et al.Genome-wide analysis re?veals PADI4 cooperates with Elk-1 to activate c-Fos expression in breast cancer cells[J].PLoS Genet,2011,7(6):e1002112.doi: 10.1371/journal.pgen.1002112.
[6]Kataoka F,Tsuda H,Arao T,et al.EGRI and FOSB gene expres?sions in cancer stroma are independent prognostic indicators for epi?thelial ovarian cancer receiving standard therapy[J].Genes Chromo?somes Cancer,2012,51(3):300-312.doi:10.1002/gcc.21916.
[7]Chen CC,Hardy DB,Mendelson CR.Progesterone receptor inhibits proliferation of human breast cancer cells via induction of MAPK phosphatase 1(MKP-1/DUSP1)[J].J Biol Chem,2011,286(50): 43091-102.doi:10.1074/jbc.M111.295865.