亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于點的代數(shù)連通強度和非負矩陣分解的腫瘤基因分類

        2015-12-05 04:10:12汪沁紫
        安徽大學學報(自然科學版) 2015年1期
        關鍵詞:分類特征方法

        王 年,宋 豪,汪沁紫

        (安徽大學 計算機智能與信號處理教育部重點實驗室,安徽 合肥 230039)

        隨著基因表達譜技術的進步,對腫瘤基因的識別與分類的研究已經成為生物信息學的研究熱點.如果能夠對腫瘤基因做出正確的識別和判斷,挖掘出有用的信息和知識,對推動腫瘤學的基礎研究和腫瘤的臨床診斷和治療,進而研究腫瘤的致病機制都有至關重要的作用.

        近些年來,為了解決基因表達譜數(shù)據樣本少、維數(shù)高和冗余基因多等問題,研究者們提出了諸多方法.自從1999年Golub等[1]提出一種以“信噪比”為指標對白血病的兩個亞型樣本進行分類研究以來,隨著后人對基因分類技術的不斷發(fā)展與改善,基因的特征可以在更大程度上被挖掘出來.相關研究有2009年Ghoula等[2]提出的多層神經網絡算法,該算法可以解決聚類數(shù)目估計問題;Mishra等[3]于2011年對信噪比方法進行改進,使得該方法的分類效果進一步提高;2012年,秦傳東等[4]提出一種腫瘤基因的支持向量機的分類方法.在基因子集的選取方面,多種傳統(tǒng)方法得到運用,如T檢驗[5],相對熵[6]和基因調控概率[7].這些方法都是基于基因的重要性進行記分,以此選取重要的特征基因子集.然而經已有相關研究表明,被保留的基因子集間仍然有大量信息冗余存在,進而學者們對此進一步進行特征提取,其常用方法有主成分分析[8]、獨立成分分析[9]和非負矩陣分解[10]等,其中非負矩陣分解作為近來一種新的矩陣分解方法,由Lee和Seung[11]于1999年在《Nature》上提出.該方法在對矩陣進行分解時,對矩陣以及分解后的子矩陣都施以嚴格的非負性約束,這樣能夠通過少量的基向量的正加性組合來表征原矩陣的數(shù)據,且非負性約束的引入,可以保證原數(shù)據特征不會被削弱,實現(xiàn)原數(shù)據的純加性描述,使數(shù)據的結構變得更加清晰,基于上述優(yōu)點,非負矩陣分解在數(shù)據處理中得到了越來越廣泛的運用.

        然而這些早期常用的方法是運用某種記分準則對一系列基因進行重要性打分,以便度量每個基因含有腫瘤信息的多少,從而選取少量的特征基因子集達到降維和去噪的目的,然而記分準則方法易受異常值、污染值影響,使之不能客觀反映選取的基因的重要性,因此作者在該文中采用點的代數(shù)連通強度與非負矩陣分解來對腫瘤基因進行識別和分類.首先通過點的代數(shù)連通強度得到基因的客觀表達,再通過修訂的特征計分準則進行篩選,得到相應的基因子集,最后利用非負矩陣分解進一步提取基因表達特征,從而對腫瘤基因進行分類.經真實數(shù)據實驗及其他方法的對比,驗證文中方法的有效性.

        1 點的代數(shù)連通強度

        圖中點的代數(shù)連通強度定義[12]:設完全圖F中有N個頂點V(F)={v1,v2,…,vN},相應邊被賦予權值wi,j表示邊的兩個端i,j∈{1,2,…,N}點下標,對其任意結點vi,計算與其相鄰K個鄰接結點的邊權值之和,記,則Sum(vi)記為vi點的代數(shù)連通強度(the algebraic connectivity strength of point,簡稱ACSP).圖中點的代數(shù)連通強度可以很好地反映圖中某點與其他點的關聯(lián)程度,所得到的信息可以反映圖的基本特征信息,有助于找到更加有效的、客觀的點信息.

        對于每一個基因gi,則視該基因在同一類所有樣本中的表達值為點信息,構建一個完全圖,其邊緣權值定義如下

        其中:Num表示同類中的樣本個數(shù),因此記每個gi對應一個點集為:valuei={value1i,value2i,…,valueNumi},當鄰近點的數(shù)目K≈T×Num,這里T是一個參數(shù)且T∈[0,1].計算

        首先,確定最大值Sum(valueji)

        然后將與Summax對應的valueji看做中心點.基因gi在同種類別中表達水平的均值和方差可以通過分析T×Num個相鄰的valueji來獲得(包括valueji).同樣原理,基因在不同類別中表達水平的均值和方差也可以用相同方法得到.最后,利用修訂的特征記分準則對基因gi進行計分.

        2 非負矩陣分解

        由于高維數(shù)據的數(shù)據量非常龐大,對矩陣進行直接操作效率很低,甚至不可行,因此需要對矩陣進行分解,降低矩陣的維數(shù),壓縮數(shù)據,從而找到矩陣的關鍵信息,而非負矩陣分解(Non-negative Matrix Factorization,簡稱NMF)就是其中一種有效的分解方法,即對于給定的n×m的非負矩陣V,通過尋找兩個低秩的非負矩陣

        使得

        非負矩陣的算法是對W和H進行不斷地迭代更新,使得目標函數(shù)最小.其目標函數(shù)是由Lee等提出的一種基于V與W、H兩者乘積之間的歐氏距離的目標函數(shù),定義如下

        相應的迭代規(guī)則為

        3 分類方法與實驗驗證

        3.1 分類方法

        作者對急性白血病和結腸癌兩類公開的基因表達譜數(shù)據集進行了實驗,其中白血病數(shù)據集含有52個樣本(24個為急性淋巴性白血病——ALL,28個為急性粒性白血病——AML),每個樣本有12 564個基因;結腸癌數(shù)據集中含有62個樣本,其中22個為正常樣本,40個為結腸癌樣本,每個樣本中包含2 000個基因.通過上述分析,其分類方法和步驟如下:

        (1)導入基因表達譜數(shù)據,記為G=(gij)N×M,gij為第j個基因在第i個樣本中的表達水平,N、M分別為樣本數(shù)與基因數(shù);

        (2)對于每個基因,在T=0.8時,利用點的代數(shù)連通強度選取基因在各類所有樣本中的更客觀的、真實的表達值,消去各種外界因素導致的出格點,即突變值;

        (3)對M個基因都進行(2)處理,運用修正的特征記分準則(revised feature score criterion,簡稱RFSC)[13]對所有基因進行重要性記分并按降序排列,得到特征基因子集G′=(g′sk)N×L,L<M;

        (4)通過G'的選取,基于NMF理論,對該子集進行非負矩陣分解得到樣本的低維表達,獲得子矩陣Wn×r和Hr×L,則W的每行代表了原樣本在H={h1,h2,…,hr}低維空間中的特征表示;

        (5)最后以W的行作為樣本的特征數(shù)據輸入SVM分類器,對3組公開的基因表達譜數(shù)據進行分類驗證并給出分析.

        3.2 實驗驗證與結果分析

        作者首先對白血病數(shù)據集進行了實驗,通過點的代數(shù)連通強度算法,保留了ALL類和AML類中客觀的基因表達值,同時剔除了一些異常值(即出格點),再獲取基因特征子集,通過NMF方法的變換,將白血病樣本映射到一個低維特征空間,其實驗結果如圖1所示.

        當基因子集規(guī)模分別在Gene-Subset=50,90,…,290時,通過NMF方法將其映射到維數(shù)為r=2,3,…,9的低維空間中,圖1顯示了不同基因子集規(guī)模下及不同低維空間的分類正確率,可以發(fā)現(xiàn),分類正確率都在95%以上,其中在Gene-Subset=290時,隨著r的遞增,分類識別率達到100%且很穩(wěn)定,當Gene-Subset縮減到50時,也能達到客觀的效果;另一方面,在尋找較優(yōu)的及較穩(wěn)定的低維度時,r=6相對于其他情況能提供更好和穩(wěn)定的正確率.

        按同樣思路給出結腸癌數(shù)據的實驗結果,圖2顯示:分別在不同的Gene-Subset境況下,結合NMF方法,實現(xiàn)了正常樣本與癌癥樣本的識別.

        結腸癌數(shù)據分類在圖2的8個子圖中均在90%附近,通過異常點的消除、信息量小的基因的舍棄,以及NMF對信息基因間的冗余信息的壓縮,使不同類別得到有效識別.圖2中,在Gene-Subset=90的子圖中,對于公認的正負樣本規(guī)模不平衡、難以很好識別的結腸癌數(shù)據集,其最高識別率達到91.94%,說明了文中方法是有效的、可行的.

        將Sigh等[14]以“信噪比”作提取特征基因指標以及阮曉剛等[15]提出的CLUSTER-S2N方法提取特征基因等方法與該文方法進行比較,結果如表1所示.

        表1 實驗結果比較Tab.1 Comparison of experiment results

        在相同分類器SVM的情況下,對比識別效果,可以發(fā)現(xiàn)該文方法在識別精度上具有一定優(yōu)勢,表明利用文中方法處理白血病和結腸癌數(shù)據時,由于對實驗數(shù)據預處理時,使用將受外界影響較大的點的代數(shù)連通強度的數(shù)據剔除,使得基因表達值更加客觀,在獲取特征基因子集后,進一步利用NMF將數(shù)據樣本映射到低維的特征空間,使得數(shù)據可分性加強,因此白血病樣本分類正確率達到100%;而對于公認比較難分類的結腸癌樣本,利用該文方法進行試驗的正確率也非??捎^.

        4 結束語

        利用DNA微陣列數(shù)據對腫瘤基因數(shù)據進行分類識別是當前生物信息學研究的主要方向之一.作者提出了基于點的代數(shù)連通強度和非負矩陣分解相結合的方法,經過實驗驗證了該方法對腫瘤類型識別的可行性與有效性.由于文中的方法利用了非負矩陣分解,而NMF的復雜度與初始矩陣W的選取有很大關系,因此在選取合適的初始矩陣方面,該方法有待改善.

        [1]Golub T R,Slonim D K,Tamayo P,et al.Molecular classification of cancer:class discovery and class prediction by gene expression monitoring[J].Science,1999,286(5439):531-537.

        [2]Ghouila A,Yahia S B,Malouche D,et al.Application of multi-SOM clustering approach to macrophage gene expression analysis[J].Infection,Genetics and Evolution,2009,9(3):328-336.

        [3]Mishra D,Sahu B.Feature selection for cancer classification:a signal-to-noise ratio approach[J].International Journal of Scientific & Engineering Research,2011,2(4):1-7.

        [4]秦傳東,劉三陽,張市芳.一種腫瘤基因的支持向量機提取方法[J].西安電子科技大學學報:自然科學版,2012,39(1):191-196.

        [5]Jafari P,Azuaje F.An assessment of recently published gene expression data analyses:reporting experimental design and statistical factors[J].BMC Med Inform Decis Mak,2006,6(1):27.

        [6]Chang G,Wang T.Weighted relative entropy for alignment-free sequence comparison based on Markov model[J].Journal of Biomolecular Structure and Dynamics,2011,28(4):545-555.

        [7]Wang H Q,Huang D S.A gene selection algorithm based on the gene regulation probability using maximal likelihood estimation[J].Biotechnol Lett,2005,27(8):597-603.

        [8]陳樂,王年,蘇亮亮,等.基于鄰接譜主分量分析的腫瘤分類方法[J].安徽大學學報:自然科學版,2011,35(4):86-91.

        [9]Esposito F,Goebel R.Extracting functional networks with spatial independent component analysis:the role of dimensionality,reliability and aggregation scheme[J].Current Opinion in Neurology,2011,24(4):378-385.

        [10]葉愛霞,王年,蘇亮亮.基于非負矩陣分解和Normal-Matrix的腫瘤基因分類[J].安徽大學學報:自然科學版,2012,36(3):90-94.

        [11]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.

        [12]Wang N,Su L L,Tang J,et al.Informative gene selection using the algebraic connectivity strength of point and scoring criteria[J].Chinese Science Bulletin,2013,58(6):657-661.

        [13]李穎新,阮曉鋼.基于支持向量機的腫瘤分類特征基因選取[J].計算機研究與發(fā)展,2006,42(10):1796-1801.

        [14]Singh D,F(xiàn)ebbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.

        [15]阮曉鋼,晁浩.腫瘤識別過程中特征基因的選?。跩].控制工程,2007,14(4):373-375.

        猜你喜歡
        分類特征方法
        分類算一算
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        分類討論求坐標
        數(shù)據分析中的分類討論
        教你一招:數(shù)的分類
        抓住特征巧觀察
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        爱我久久国产精品| 夜夜躁狠狠躁日日躁视频| 精品久久久久成人码免费动漫| 这里有精品可以观看| 粉嫩小泬无遮挡久久久久久| 亚洲成在人线天堂网站| 久久久久成人精品免费播放动漫| 国产涩涩视频在线观看| Y111111国产精品久久久| 日本精品熟妇一区二区三区| 精品亚洲一区二区区别在线观看| 午夜精品久久久久久99热| 在线一区不卡网址观看| 日韩精品成人一区二区在线观看| 久久久精品人妻一区二区三区妖精| 人人妻人人爽人人澡欧美一区| 国产在线手机视频| 久久精品av一区二区免费| 欲女在线一区二区三区| 日韩少妇内射免费播放| 国产妇女乱一性一交| 国产午夜福利在线观看中文字幕| 99久久精品免费看国产| 国产成人无码av在线播放dvd| 久久久久久无码AV成人影院| 极品尤物在线精品一区二区三区| 少妇高潮一区二区三区99| 波多野结衣有码| 亚洲一区二区三区久久久| 国产小视频在线看不卡| 99久久精品费精品国产一区二区 | 亚洲女同高清精品一区二区99| 人妻熟妇乱又伦精品视频| 一区二区传媒有限公司| 亚洲性无码av在线| 国产视频最新| 视频国产一区二区在线| 成年女人a级毛片免费观看| 伊伊人成亚洲综合人网7777| 元码人妻精品一区二区三区9| 中文字幕乱码亚洲无限码|