譚青青,王 年,蘇亮亮,方正文
(安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230039)
DNA微陣列是分子生物學(xué)在實(shí)驗(yàn)領(lǐng)域的一項(xiàng)重大突破,它已經(jīng)成為分子診斷的一個(gè)重要手段.隨著DNA微陣列技術(shù)的出現(xiàn)和不斷發(fā)展,產(chǎn)生的基因表達(dá)譜數(shù)據(jù)規(guī)模日趨龐大,而這類數(shù)據(jù)的主要特點(diǎn)是基因維數(shù)大而樣本維數(shù)小.因此,如何對(duì)腫瘤基因進(jìn)行有效分析,繼而從海量的數(shù)據(jù)中提取出有意義的生物學(xué)信息就成了生物信息學(xué)研究的重點(diǎn)問題之一[1-2].通過檢測(cè)基因表達(dá)的變化,可以為疾病的診斷和預(yù)測(cè)提供新的目標(biāo).到目前為止,已經(jīng)有很多算法適合于處理高維數(shù)據(jù)集,如支持向量機(jī)[3]、隨機(jī)森林[4]、貝葉斯法[5]等,這些算法都已經(jīng)應(yīng)用到了各種腫瘤樣本的分類和聚類中.各種特征選擇的方法也已經(jīng)被提出并不斷發(fā)展,以便于準(zhǔn)確鑒定相關(guān)疾病基因.當(dāng)前對(duì)于基因表達(dá)譜數(shù)據(jù)分析和挖掘的一般方法是對(duì)基因數(shù)據(jù)進(jìn)行特征提取后,再用相應(yīng)的分類或聚類方法對(duì)腫瘤樣本進(jìn)行識(shí)別[6-7].1999年,Golub等[8]以“信噪比”為指標(biāo)對(duì)白血病的兩個(gè)亞型樣本進(jìn)行分類研究;Lee和Seung等首次提出了NMF[9]的概念,它是一種特征提取和降維的新方法.隨著NMF在現(xiàn)實(shí)生活中的廣泛應(yīng)用,NMF算法的缺點(diǎn)也顯現(xiàn)出來(lái)了.2008年,李樂等對(duì)各種非負(fù)矩陣分解算法進(jìn)行了總結(jié)[10];Cichocki等把稀疏懲罰項(xiàng)和SED(square of euclidian distance)結(jié)合作為目標(biāo)函數(shù),并對(duì)迭代規(guī)則進(jìn)行了修改,得到了稀疏性增強(qiáng)的NMF[11];Hoyer提出了可精確控制稀疏性的算法 NMFSC(NMF with sparseness constraints)[12].Wang等把Fisher鑒別信息作為懲罰項(xiàng)加入到目標(biāo)函數(shù)中,構(gòu)造了FNMF(Fisher NMF)算法[13],使得分解結(jié)果中蘊(yùn)含較多的分類信息.
論文所介紹的正交非負(fù)矩陣三因式分解算法是一種改進(jìn)的NMF方法[14].一般的NMF算法采用隨機(jī)初始化,而論文將K-均值聚類作為BONMTF算法的初始化步驟,這樣做提高了算法的效率.實(shí)驗(yàn)采用了4組具有代表性的腫瘤基因表達(dá)譜數(shù)據(jù)進(jìn)行研究,其結(jié)果證明了該方法的可行性和有效性.
1999年,Lee和Seung第一次提出了NMF的基本框架[9].假設(shè)矩陣X=(xij)m×n為一個(gè)m×n的矩陣,矩陣X中的所有元素值都是非負(fù)的.非負(fù)矩陣分解(NMF)算法就是將矩陣X分解成兩個(gè)非負(fù)矩陣其中:矩陣U∈Rm×k+,V∈Rk×n+,通常k的值要遠(yuǎn)遠(yuǎn)小于m和n,則獲得的子矩陣U和V的維數(shù)得到了降低,一個(gè)非負(fù)矩陣分解成了另外兩個(gè)非負(fù)矩陣相乘的形式.
矩陣X的一行可以寫成矩陣V的列的線性組合,即
其中:xj表示矩陣X的一行,vi表示矩陣V的一列,而uji表示矩陣U中的元素.此模型如圖1所示,在這個(gè)模型中,可以將矩陣V的k行作為基向量,而將矩陣U的行作為編碼系數(shù).此模型可以用于腫瘤分類的特征提取中,特征為矩陣U的行.經(jīng)過優(yōu)化U和V使之與矩陣X線性近似.
矩陣分解實(shí)際上是數(shù)據(jù)最優(yōu)化過程,因此需要定義一個(gè)目標(biāo)函數(shù)來(lái)量化近似度,并通過更新迭代規(guī)則來(lái)減小此函數(shù).此目標(biāo)函數(shù)可定義為
當(dāng)UV與X偏離越大時(shí),R的值也隨之增大;當(dāng)UV越接近于X時(shí),R的值隨之減小.從而R的大小能夠衡量UV與X的近似程度.使用迭代逼近的方法找到滿足式(1)的兩個(gè)矩陣,并使得R為非增的,則可使用如下的迭代規(guī)則
針對(duì)NMF算法的缺點(diǎn),2006年,Chris Ding和Tao Li等第一次提出了雙正交三因式非負(fù)矩陣分解和對(duì)稱三因式非負(fù)矩陣分解的概念[14],并給出了BONMTF迭代公式的計(jì)算規(guī)則.論文主要將正交非負(fù)矩陣三因式分解用于文件聚類,并給出了二因式NMF迭代規(guī)則的詳細(xì)證明.
假設(shè)X=(xij)m×n為一個(gè)m×n的矩陣,其每一行代表在同一樣本中所有基因的表達(dá)值,X中的所有元素值都為非負(fù)的.而每一列代表了一個(gè)基因在不同樣本中的表達(dá)值.BONMTF分解就是分解成3個(gè)矩陣相乘的形式
使得
然而只有當(dāng)三因式NMF不能轉(zhuǎn)化為二因式NMF時(shí),此研究才有意義.也就是說需要給三因式NMF施加一定的約束.顯然式(7)沒有與之相對(duì)應(yīng)的二因式,稱之為雙正交三因式分解,且其為論文的研究重點(diǎn).可以通過使用以下的更新規(guī)則來(lái)計(jì)算D的值
論文將BONMTF算法應(yīng)用于基因表達(dá)譜數(shù)據(jù)的分析.論文算法的基本步驟為:
(1)利用Fisher判別準(zhǔn)則對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行預(yù)處理,得到去除無(wú)關(guān)基因后的基因子集,并對(duì)所得的基因子集數(shù)據(jù)進(jìn)行歸一化處理.
對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行深入分析和挖掘,是基因表達(dá)譜數(shù)據(jù)分析的根本內(nèi)容[1].但是,由于癌癥基因表達(dá)譜數(shù)據(jù)的復(fù)雜性,所得的微陣列數(shù)據(jù)中只有較少的基因包含和類別相關(guān)的信息,因此要對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行預(yù)處理.簡(jiǎn)單的處理方法即按照某種記分準(zhǔn)則來(lái)對(duì)每一個(gè)基因進(jìn)行記分,所得分值越大則說明該基因越重要;再按照分值的大小對(duì)基因進(jìn)行降序排列,選取排在前面的一定數(shù)量的基因作為篩選的基因子集,從而初步去除了無(wú)關(guān)基因和噪聲,即實(shí)現(xiàn)了樣本維數(shù)的約減.論文選取Fisher判別準(zhǔn)則對(duì)基因表達(dá)譜數(shù)據(jù)進(jìn)行預(yù)處理,其基因的記分準(zhǔn)則表示為
(2)利用BONMTF算法提取特征向量,以此來(lái)進(jìn)一步剔除冗余基因,得到能夠表征樣本屬性的矩陣.
在二因式NMF的基礎(chǔ)上,給出了BONMTF算法的正確性和收斂性的證明,即旨在解決以下優(yōu)化問題
使得
其中:X為非負(fù)輸入矩陣.
根據(jù)約束優(yōu)化問題的標(biāo)準(zhǔn)理論,引入了拉格朗日乘數(shù)λ,并最小化拉格朗日函數(shù)L1(F),如下式
L1(F)的梯度為
由非負(fù)Fik的KTT互補(bǔ)條件,得
為了求解式(15)的耦合方程以及求解滿足約束條件FTF=I的F和λ,可以利用非線性的方法如牛頓法求解.然而非線性方程一般是很難解的,在這里可以利用一個(gè)更簡(jiǎn)單的算法即利用式(9)的更新規(guī)則來(lái)求解.但是在這里出現(xiàn)了兩個(gè)問題,即該算法是否是正確且收斂的.因此,下面給出了該算法正確性和收斂性的證明.
正確性:首先給出F的一個(gè)初始化預(yù)測(cè),然后通過利用以下公式的連續(xù)更新而收斂到一個(gè)局部最小值.
正確性是由收斂性來(lái)保障的,其解將滿足式(15),拉格朗日乘數(shù)λ將在接下來(lái)的式(27)中給出.
收斂性:?jiǎn)握{(diào)性定理保證了收斂性.論文利用命題1和定理1[14]來(lái)證明收斂性.
證明 令Sip=S′ipuip,則差值Δ=LHS-RHS可以寫成
由于矩陣A和B都為對(duì)稱矩陣,則上式等價(jià)于
當(dāng)B=I,S為一個(gè)列向量.命題1為證明定理1做好了準(zhǔn)備.
定理1 根據(jù)式(16)的迭代規(guī)則,假定SGTGSΤ+λ≥0時(shí),拉格朗日函數(shù)L1(F)為單調(diào)遞減(非增)函數(shù).
證明 在這里使用輔助函數(shù)的方法[15],一個(gè)函數(shù)Z(H,H,)若滿足以下條件,則被稱為L(zhǎng)(H)的輔助函數(shù)
對(duì)于任意的H和,定義
Z(F,F(xiàn)′)為L(zhǎng)1(F)的一個(gè)輔助函數(shù).由命題1可得,其滿足式(20)的條件.現(xiàn)在,根據(jù)式(21)可知,需要找到固定F′時(shí),f(F)=Z(F,F(xiàn)′)的全局最小值,而局部極小值可由下式給出
求解Fik,極小值為
由于海賽矩陣?Z(F,F(xiàn)′)/Fik?Fjl是正定的.因此,這是一個(gè)凸函數(shù),且極小值即為全局最小值.在式(16)中,有(-FΤXGSΤ+SGΤGSΤ=λ)kk=0.因此,可以獲得拉格朗日的對(duì)角元素為
拉格朗日因子的非對(duì)角元素是通過設(shè)定?L/?Fik=0近似獲得的,由式(14),可以得出下式
結(jié)合式(25)和(26),可以得到拉格朗日乘數(shù)
將式(27)代入式(16)中,可以獲得式(9)的迭代規(guī)則.
這里值得注意的是,由于拉格朗日因子Λ=λkl的非對(duì)角元素是近似獲得的,因此最后的解F并不恰好滿足FΤF=I.這實(shí)際上卻是一個(gè)優(yōu)勢(shì),如果FΤF正好等于I,根據(jù)非負(fù)性,F(xiàn)的每一行只能有一個(gè)非零元素.而對(duì)FΤF=I的輕微偏離卻能夠允許一行中的所有元素非零(盡管大多數(shù)值都很?。?
類似地,對(duì)于給定的F和S,可以使用式(8)的迭代規(guī)則來(lái)更新G,證明的方法與上述方法類似.綜上所述,論文可以通過式(8)、(9)來(lái)證明式(7)的最小化過程;對(duì)于給定的F和G,可使用式(10)來(lái)更新矩陣S的迭代規(guī)則,下文給出了證明[14].
定理2 令F和G為固定的矩陣,則
是單調(diào)遞減的.
證明 首先需要證明正確性.利用Sik的非負(fù)性和KTT互補(bǔ)條件,可以得出
由于式(10)的迭代規(guī)則滿足上式,則證明了式(10)的正確性.接下來(lái)需要考慮式(10)的收斂性.
定理3 目標(biāo)函數(shù)J2(S)在式(10)的迭代規(guī)則下是為非增的.
證明 同樣可以使用輔助函數(shù)的方法來(lái)證明.其中
為J2(S)的一個(gè)輔助函數(shù),根據(jù)式(21),當(dāng)固定S′=S(t)時(shí),通過最小化J(S,S′)可以得到S(t+1),最小值為
根據(jù)式(21),可以更新式(10).在這個(gè)更新規(guī)則下,J2(S)為單調(diào)遞減的.
由于一般的NMF算法采用隨機(jī)初始化,這導(dǎo)致算法的效率低,且算法的復(fù)雜度較高.為了提高算法的效率及降低算法復(fù)雜度,論文算法是首先使用K-均值聚類作為BONMTF的初始化步驟,即利用K-均值聚類產(chǎn)生矩陣F和G的初始矩陣,這樣做的好處是減小了最優(yōu)解的尋找區(qū)間,即可以節(jié)省時(shí)間,且使得結(jié)果更加穩(wěn)定.對(duì)矩陣S,采用下式來(lái)進(jìn)行初始化
由于在初始化過程中,F(xiàn)、G以及矩陣X都是已知的,從而根據(jù)上式可以求得初始矩陣S.
選用4組公開的且具有代表性的數(shù)據(jù)集:① 白血病數(shù)據(jù)(Leukemia),共52個(gè)樣本,其中24個(gè)樣本被確定為急性淋巴白血?。╝cute lymphoblastic leukemia,簡(jiǎn)稱ALL),28個(gè)樣本被確定為急性粒細(xì)胞白血病(acute myelold leukemia,簡(jiǎn)稱AML),每個(gè)樣本含有12 564個(gè)基因表達(dá)數(shù)據(jù);② 前列腺癌數(shù)據(jù)集(prostate cancer),共102個(gè)樣本,其中50個(gè)樣本為正常樣本,52個(gè)樣本被確定為腫瘤樣本,每個(gè)樣本含有12 600個(gè)基因表達(dá)數(shù)據(jù);③ 彌漫大B細(xì)胞淋巴瘤(diffuse large B-cell lymphoma,簡(jiǎn)稱DLBCL)數(shù)據(jù)集,共77個(gè)樣本,其中58個(gè)樣本為正常樣本,19個(gè)樣本被確定為腫瘤樣本,每個(gè)樣本含有5 469個(gè)基因;④ 結(jié)腸癌數(shù)據(jù)(colon cancer),共62個(gè)樣本,其中22個(gè)樣本為正常樣本,40個(gè)被確定為腫瘤樣本,每個(gè)樣本含有2 000個(gè)基因表達(dá)數(shù)據(jù).
利用Fisher準(zhǔn)則分別對(duì)白血病、前列腺癌、結(jié)腸癌以及彌漫大B細(xì)胞瘤的基因表達(dá)譜數(shù)據(jù)計(jì)算每個(gè)基因的得分,如圖2所示.由圖2可以看出有些基因的得分高而有些基因的得分低,而分值越高則表明含有越多的分類信息,所以需要保留得分高的基因,去除得分低的基因,以此來(lái)對(duì)基因集合進(jìn)行初選,去除無(wú)關(guān)基因.
論文采用留一法進(jìn)行測(cè)試,即在整個(gè)數(shù)據(jù)集中,始終保留一個(gè)樣本作為測(cè)試樣本,剩下的樣本作為訓(xùn)練樣本,直至所有的樣本都作為一次測(cè)試樣本為止.
癌癥數(shù)據(jù)集的實(shí)驗(yàn)按照如下步驟進(jìn)行:先利用Fisher準(zhǔn)則計(jì)算所有基因的得分,并通過對(duì)所計(jì)算的得分進(jìn)行降序排列,再選取排在前面的一定數(shù)量的基因作為篩選的基因子集.通過大量實(shí)驗(yàn)發(fā)現(xiàn)選取前90個(gè)基因作為基因子集時(shí),可以獲得較好的實(shí)驗(yàn)結(jié)果;將所得的基因子集數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,再利用BONMTF提取特征向量,以此來(lái)進(jìn)一步剔除冗余基因,得到能夠表征樣本屬性的矩陣F,然而F的維數(shù)k的不同將會(huì)影響最終的分類結(jié)果.因此要選擇合適的k值,這樣不僅使得類別信息得到凸顯,還使得冗余信息得到消除.圖3給出了在不同k值的情況下4個(gè)癌癥數(shù)據(jù)集的分類情況.最后利用SVM分類器實(shí)現(xiàn)樣本腫瘤類型的識(shí)別.
由圖3可知,對(duì)于白血病、結(jié)腸癌和彌漫大B細(xì)胞淋巴瘤而言,當(dāng)k值為2時(shí),在實(shí)驗(yàn)中取得的樣本分類的正確識(shí)別率相對(duì)較高,隨著k值的增加,樣本分類的正確識(shí)別率慢慢降低,最終趨于穩(wěn)定.而對(duì)前列腺癌來(lái)說,當(dāng)k值為3時(shí)分類正確率相對(duì)較高.這表明,當(dāng)k值為2和3時(shí),樣本屬性矩陣F最能反映樣本的分類特性.如在白血病的實(shí)驗(yàn)中,正確識(shí)別率接近100%,這說明在樣本屬性矩陣F中包含了完整的分類信息,可以對(duì)樣本集合中的所有樣本進(jìn)行正確分類.因此此時(shí)利用BONMTF算法獲得的矩陣F為最佳的分類特征矩陣.
然而在基因表達(dá)譜數(shù)據(jù)分類的方法中,很多方法并沒有普遍適用性,即可能針對(duì)某種數(shù)據(jù)的分類效果很好,但是對(duì)于其他數(shù)據(jù),其分類效果并不理想.為了進(jìn)一步驗(yàn)證論文的可行性、有效性以及普遍適用性,作者將論文方法與傳統(tǒng)的S2N-SVM[16]法、Cluster-S2N[17]方法以及傳統(tǒng)的 NMF法進(jìn)行比較.S2N-SVM以“信噪比”為指標(biāo)來(lái)選取特征基因,再利用SVM分類器對(duì)樣本進(jìn)行分類.Cluster-S2NSVM方法中的特征選取和分類器有關(guān),先從初始特征集合中選擇一個(gè)特征子集,并在此子集所包含的信息的基礎(chǔ)上構(gòu)建新的特征集合,最后結(jié)合SVM實(shí)現(xiàn)分類.如表1所示.
表1 論文方法與另外3種方法的實(shí)驗(yàn)結(jié)果比較Tab.1 Comparisons of experiment results with other three methods
由表1可知,對(duì)于4組不同的腫瘤數(shù)據(jù)集,論文算法的識(shí)別率都達(dá)到了90%以上,明顯優(yōu)于其他3種方法.這是因?yàn)樵撍惴軌蛱崛〉?組數(shù)量更少卻更具樣本分類能力的特征基因.雖然傳統(tǒng)NMF方法對(duì)于白血病的識(shí)別率也接近100%,但是對(duì)于其他3組數(shù)據(jù)集,其分類效果不如論文的方法.這說明論文算法具有相當(dāng)?shù)目尚行砸约捌毡檫m用性.
NMF已經(jīng)被廣泛地用于圖像分析、論本聚類以及癌癥的發(fā)現(xiàn)與分類.論文結(jié)合雙正交和三因式的思想,提出了一種改進(jìn)的NMF算法,稱之為BONMTF算法,并將其應(yīng)用于基因表達(dá)數(shù)據(jù)分析.該方法包括高維基因表達(dá)數(shù)據(jù)的基因選擇和特征提取兩個(gè)步驟,最后利用SVM進(jìn)行分類.論文計(jì)算了BONMTF算法的更新規(guī)則,并證明了此算法的收斂性和正確性.通過4組癌癥數(shù)據(jù)的實(shí)驗(yàn),證明了該方法在預(yù)測(cè)人體組織中正常樣本和腫瘤樣本的有效性和高效性,即有效地提高了預(yù)測(cè)的精度并降低了算法的時(shí)間復(fù)雜度,具有廣泛的應(yīng)用前景.
[1]黃德雙.基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M].北京:科學(xué)出版社,2009:20-66.
[2]莊振華,王年,李學(xué)俊,等.癌癥基因表達(dá)數(shù)據(jù)的熵度量分類方法[J].安徽大學(xué)學(xué)報(bào):自然科學(xué)版,2010,34(2):73-76.
[3]Buturovic L J.PCP:aprogram for supervised classification of gene expression profiles[J].Bioinformatics,2006,22(2):245-247.
[4]Nannapaneni P,Hertwig F,Depke M,et al.Defining the structer of the general stress regulon of Bacillus subtilis using targeted microarray analysis and random forest classification[J].Microbiology,2012,158(3):696-707.
[5]Nanni L,Brahnam S,Lumini A.Combining multiple approaches for gene microarray classification[J].Bioinformatics,2012,28(8):1151-1157.
[6]阮小剛,李曉明,王金蓮.邊介數(shù)聚類算法在腫瘤基因表達(dá)譜中的應(yīng)用[J].北京工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2008,34(7):696-700.
[7]Ancherla K,Mukkamala S.Feature selection for lung cancer detection using SVM based recursive feature elimination method[M].Berlin Heidelberg:Springer,2012,168-176.
[8]Golub T R,Slonim D K,Tamayo,et al.Class discover and class prediction by gene expression monitoring[J].Molecular classification of Cancer,1999,256(5439):531-527.
[9]Lee D D,Seung H S.Learning the parts of objects by nonnegative matrix factorization[J].Nature,1999,401(6755):788-791.
[10]李樂,章毓晉.非負(fù)矩陣分解算法綜述[J].電子學(xué)報(bào),2008,36(4):737-743.
[11]Cichocki A,Amory S,Zdunek R,et al.Extended SMART algorithms for non-negative matrix factorization[M].Berlin Heidelberg:Springer,2006:548-562.
[12]Hoyer P O.Non-negative factorization with sparseness constraints[J].J of Mach Learning Res,2004,5(9):1457-1469.
[13]Wang Y,Jia Y,Hu C,et al.Fisher non-negative matrix factorization for learning local features[C]//Proc of Asian Conf on Comp Vision,2004:27-30.
[14]Ding C,Li T,Peng W,et al.Orthogonal nonnegative matrix tri-factorization for clustering[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006:126-135.
[15]Lee D D,Seung H S.Algorithms for non-negative matrix factorization[J].Advances in Neural Information Processing Systems,2001,13(1):556-562.
[16]Singh D,F(xiàn)ebbo P G,Ross K,et al.Gene expression correlates of clinical prostate cancer behavior[J].Cancer Cell,2002,1(2):203-209.
[17]阮小剛,晁浩.腫瘤識(shí)別過程中特征基因的選?。跩].控制工程,2007,14(4):373-375.