田梓君,崔新于
(河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007)
基于數(shù)據(jù)處理的腫瘤基因選擇系統(tǒng)
田梓君,崔新于
(河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007)
近年來,隨著腫瘤醫(yī)院就診人數(shù)的不斷增多,特征基因提取已成為中內(nèi)外學(xué)者研究的熱門,研究成果也為臨床癌癥的分析診斷及預(yù)測提供了極大的便利。然而,由于基因表達(dá)譜數(shù)據(jù)具有維度高、樣本少、復(fù)雜多樣的特點(diǎn),準(zhǔn)確地挖掘基因數(shù)據(jù)中所蘊(yùn)含的腫瘤信息基因成為當(dāng)前的首要挑戰(zhàn)。文章闡述了在Matlab2010b編程環(huán)境下開發(fā)的腫瘤基因數(shù)據(jù)選擇系統(tǒng),介紹了改進(jìn)后信噪比與支持向量機(jī)回歸特征消去(SVM-RFE)的基因選擇方法相結(jié)合對于基因選擇的優(yōu)異性,對于篩選出對分類有益的特征基因具有良好的效果。
特征基因;系統(tǒng)開發(fā);改進(jìn)的信噪比
腫瘤是目前威脅人類生命健康最主要的元兇之一,因而通過基因表達(dá)譜的信息基因進(jìn)行腫瘤的早期診斷已然成為當(dāng)今國內(nèi)和國際上研究熱點(diǎn)?;虮磉_(dá)譜具有樣本少、維數(shù)高、噪聲高、數(shù)據(jù)冗余的特點(diǎn)[1],處理數(shù)據(jù)時(shí)“過擬合”現(xiàn)象和“維數(shù)災(zāi)難”都給基因數(shù)據(jù)選擇方法提出了不小的挑戰(zhàn)。在腫瘤基因表達(dá)譜中,每個(gè)樣本都會(huì)記錄組織細(xì)胞中所有可測基因的表達(dá)水平,但實(shí)際上只有少部分基因才真正和樣本類別相關(guān)。因而基因選擇的目的就是要盡可能選擇那些與腫瘤基因密切相關(guān),并且包含樣本分類信息的基因,也稱腫瘤信息基因。
本軟件系統(tǒng)主要包括:數(shù)據(jù)標(biāo)準(zhǔn)化、改進(jìn)的信噪比進(jìn)行基因初選、SVM-RFE進(jìn)行基因精選,最終以圖形的形式得以體現(xiàn)。
本系統(tǒng)使用M atlab2010b或以上版本作為運(yùn)行環(huán)境,它具有非常低的硬件要求和平臺(tái)支持,可以保證該腫瘤基因選擇系統(tǒng)在各預(yù)定功能上實(shí)現(xiàn)。可運(yùn)行于W indow s2000,W indows XP,W indows 7等操作系統(tǒng)。
2.1 功能需求分析
根據(jù)腫瘤基因選擇的具體情況,系統(tǒng)軟件需要具備以下功能:
數(shù)據(jù)標(biāo)準(zhǔn)化。數(shù)據(jù)集中基因原始數(shù)據(jù)大小不一,范圍相差較大,導(dǎo)致數(shù)據(jù)處理過程中運(yùn)算復(fù)雜,所以在處理數(shù)據(jù)前,為消除量綱差異帶來指標(biāo)不可公度性問題,需要先運(yùn)用向量歸一法對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,將原始數(shù)據(jù)轉(zhuǎn)換在[0,1]區(qū)間內(nèi),便于數(shù)據(jù)的處理。
特征基因初選降噪。在腫瘤基因數(shù)據(jù)表達(dá)譜中大部分基因與樣本類別并不相關(guān),只有少數(shù)基因包含了該樣本具體的類別信息,初選主要針對數(shù)據(jù)冗余現(xiàn)象,起到降噪作用。
特征基因精選降維。在進(jìn)行初步去噪選擇后,已經(jīng)基本減少了很多高噪聲的基因,但仍需解決腫瘤基因具有高維度這一特點(diǎn)。
圖像屬性分析。圖像屬性分析指的是運(yùn)用圖像將分類信息指數(shù)分布、各基因信噪比分布表達(dá)出來,可以更加直觀且有利于觀察。
2.2 基于改進(jìn)的信噪比和SVM-RFE算法基因選擇系統(tǒng)構(gòu)架
從大量腫瘤特征數(shù)據(jù)中選出對研究有用的信息基因,過濾掉不相關(guān)基因,剔除維數(shù)大的冗余基因,文章提出基于改進(jìn)后信噪比的SVM-RFE算法的基因選擇系統(tǒng)構(gòu)架?;镜乃惴ㄋ枷刖唧w可分為3部分:第一部分針對原始數(shù)據(jù)基因相差較大的特點(diǎn),對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理;第二部分采用改進(jìn)后的信噪比公式過濾掉無關(guān)基因;第三部分選用支持向量機(jī)的回歸特征消去算法(SVM-RFE),按優(yōu)先級大小得到所有特征屬性的遞減順序。
假設(shè)數(shù)據(jù)(X,Y)包含m個(gè)特征基因,具體步驟如下[2]:
Step 1 數(shù)據(jù)標(biāo)準(zhǔn)化,在數(shù)據(jù)標(biāo)準(zhǔn)化過程中,特征基因數(shù)量m不變,只改變數(shù)據(jù)的區(qū)間范圍。
Step 2 改進(jìn)后信噪比方法過濾掉腫瘤基因數(shù)據(jù)集中大量無關(guān)基因,從新樣本m中選擇分類信息指數(shù)較高的的m'基因。
Step 3 選用SVM-RFE算法進(jìn)行特征排序,m'基因不斷循環(huán)迭代,依次去掉得分最小的特征屬性,最終得到特征排序表m''。
Step 4 實(shí)驗(yàn)論證并總結(jié)。
以上步驟均側(cè)重于算法本身,沒有可視化的界面,若普通用戶想要操作規(guī)模較為龐大的基因數(shù)據(jù)不僅需要掌握很多專業(yè)知識,還存在操作性繁瑣、可視化差的情況。本系統(tǒng)將軟件工程思想融入基因選擇中,有著簡潔的操作流程,提供良好的用戶界面,能夠方便快捷地為生物基因工作者提供腫瘤特征基因選擇,從而達(dá)到提高和改善工作效率的作用。系統(tǒng)現(xiàn)有的工作流程,如圖1所示。
3.1 數(shù)據(jù)預(yù)處理階段
為了確保基因表達(dá)水平具有可比性,基因表達(dá)值應(yīng)盡量處于同一數(shù)量級上,這就需要在進(jìn)行基因選擇之前對樣本數(shù)據(jù)進(jìn)行歸一化的預(yù)處理操作,基因數(shù)據(jù)標(biāo)準(zhǔn)化可按如下公式進(jìn)行:
其中,Xij是第i個(gè)樣本的第j個(gè)基因的數(shù)據(jù)表達(dá)值。
圖1 系統(tǒng)分析設(shè)計(jì)流程
3.2 改進(jìn)的信噪比初選階段
信噪比指標(biāo)可成為評價(jià)基因類別的基礎(chǔ),為有效避免傳統(tǒng)指標(biāo)“過擬合”現(xiàn)象,同時(shí)考慮到了方差不同所帶來的對樣本分類的貢獻(xiàn),軟件選用改進(jìn)的信噪比公式,從而達(dá)到對無關(guān)基因進(jìn)行初步過濾的目的。Golub等人提出了“信噪比”指標(biāo)[2],采用特征記分準(zhǔn)則(FSC)為每一個(gè)基因計(jì)算其分值,而按基因分值降序排列的基因稱為基因排序。但為了更加全面地評價(jià)基因含有的分類信息量,考慮到方差不同所帶來的對樣本分類的貢獻(xiàn),本系統(tǒng)利用改進(jìn)后的信噪比公式,即李穎新等[3]修正后的信噪比指標(biāo)(如公式3)處理腫瘤基因數(shù)據(jù)集,對無關(guān)基因進(jìn)行過濾。
3.3 支持向量機(jī)回歸特征消去法進(jìn)行基因精選
SVM-RFE在本質(zhì)上是一種啟發(fā)式搜索策略的封裝模式選擇方法,在特征選擇中將支持向量機(jī)用于高維數(shù)據(jù),使用SVM算法中的權(quán)重對所有波段進(jìn)行排序,并評估每一波段對分類的影響,按照排序準(zhǔn)則移除對分類器作用最小的波段[4],從而可以確定特征基因排序表。
基于數(shù)據(jù)處理的腫瘤基因選擇系統(tǒng)通過導(dǎo)入腫瘤基因集,可選擇出一些包含樣本分類信息且同腫瘤致病基因密切相關(guān)的基因,從而達(dá)到信息篩選的目的。系統(tǒng)可直接導(dǎo)入腫瘤原始基因數(shù)據(jù)集,避免了手動(dòng)輸入操作的復(fù)雜繁瑣,在篩選過程中可根據(jù)基因分值大小進(jìn)行排序且更為直觀地看到分布比例。系統(tǒng)不僅提供了傳統(tǒng)菜單欄的新建、打開、另存、打印等功能,還添加了定點(diǎn)插入、數(shù)據(jù)對比等操作。柱形圖、散點(diǎn)圖的表現(xiàn)形式為用戶的直觀體驗(yàn)提供了便利。
針對基因表達(dá)數(shù)據(jù)維數(shù)高、樣本少、復(fù)雜多樣的特點(diǎn),系統(tǒng)結(jié)合改進(jìn)的信噪比和SVM-RFE算法對腫瘤基因數(shù)據(jù)集進(jìn)行降噪降維,達(dá)到特征基因篩選的目的。融入軟件工程思想,利用Matlab軟件的數(shù)據(jù)處理和圖像生成功能,將基因選擇的數(shù)據(jù)形象直觀地表達(dá)出來,系統(tǒng)操作中簡單便捷、結(jié)果直觀有效,達(dá)到了最初預(yù)期的結(jié)果,未來將根據(jù)用戶體驗(yàn)繼續(xù)完善系統(tǒng),創(chuàng)造更大的價(jià)值。
[1]BROCK G N, SHAFFER J R, BLAKESLEY R E,et al. W hich m issing value imputation method to use in expression profiles: a comparative study and two selection schemes[J]. BMC Bioinformatics,2008(9):12.
[2]孫剛,張靖.面向高維微陣列數(shù)據(jù)的混合特征選擇算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015(6):1209-1213.
[3]李穎新,阮曉鋼.基于支持向量機(jī)的腫瘤分類特征基因選取[J].計(jì)算機(jī)研究與發(fā)展,2005(10):153-158.
[4]張睿,馬建文.一種SVM-RFE高光譜數(shù)據(jù)特征選擇算法[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2009(7):834-837.
Research on tumor gene selection system based on data processing
Tian Zijun, Cui Xinyu
(Computer and Ιnformation Engineering School of Henan Normal University, Xinxiang 453007, China)
Ιn recent years, w ith the increasing number of people who go to tumor hospitals, the extraction of characteristic genes has become a hot topic in domestic and foreign scholars. The research results have also provided great convenience for the diagnosis and prediction of clinical cancers. However, the gene expression data has the characteristics of high dimension, less sample, complex and diverse, it is the most important challenge to accurately dig the tumor information gene contained in gene data. Ιn this paper, the selection of tumor gene data selection system was developed in Matlab2010b programm ing environment, and the advantages of improved signal-tonoise ratio and support vector machine regression feature elim ination (SVM-RFE) gene selection method are also introduced. This system has a good effect on screening out the characteristic genes that are beneficial to the classification.
characteristic gene; system development; improved signal to noise ratio
河南師范大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃校級立項(xiàng)項(xiàng)目;項(xiàng)目編號:20150016。
田梓君(1995— ),女,黑龍江哈爾濱,本科。