亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)非負(fù)矩陣分解的腫瘤基因表達(dá)譜特征提取

        2017-08-12 12:22:05黃經(jīng)緯楊國亮王艷芳胡政偉
        關(guān)鍵詞:特征提取分類

        黃經(jīng)緯 楊國亮* 王艷芳 胡政偉

        1(江西理工大學(xué)電氣工程與自動(dòng)化學(xué)院 江西 贛州 341000) 2(贛州市立醫(yī)院信息技術(shù)科 江西 贛州 341000)

        ?

        基于改進(jìn)非負(fù)矩陣分解的腫瘤基因表達(dá)譜特征提取

        黃經(jīng)緯1楊國亮1*王艷芳2胡政偉1

        1(江西理工大學(xué)電氣工程與自動(dòng)化學(xué)院 江西 贛州 341000)2(贛州市立醫(yī)院信息技術(shù)科 江西 贛州 341000)

        針對腫瘤基因表達(dá)譜的特點(diǎn),提出基于低秩圖正則非負(fù)矩陣分解(LGNMF)的特征提取方法,解決了NMF算法中缺少數(shù)據(jù)的全局信息,提升特征提取的有效性。該算法在NMF算法的基礎(chǔ)上引入低秩圖約束,提高了對數(shù)據(jù)局部和全局結(jié)構(gòu)的描述,使得經(jīng)過特征提取后的特征空間具有更強(qiáng)的分類能力。通過LGNMF算法對腫瘤基因表達(dá)譜數(shù)據(jù)集進(jìn)行降維,獲得低維特征空間,再使用KNN分類器對低維特征空間進(jìn)行分類。通過與NMF、GNMF和RGNMF算法在四組標(biāo)準(zhǔn)腫瘤基因表達(dá)譜數(shù)據(jù)集進(jìn)行對比,實(shí)驗(yàn)結(jié)果表明LGNMF算法能夠有效提升分類效果。

        低秩圖 特征空間 腫瘤基因表達(dá)譜 特征提取

        0 引 言

        迄今為止,腫瘤仍然是人類難以完全攻克的病癥。為此,人們迫切希望找到預(yù)防和治療的方法。隨著生物學(xué)及計(jì)算機(jī)的結(jié)合,醫(yī)學(xué)疾病的診治過程出現(xiàn)了依賴于微陣列技術(shù)而導(dǎo)出的大量腫瘤基因表達(dá)譜的新技術(shù)。

        1999年,Golub等[1]率先發(fā)表了利用S2N作為指標(biāo)對急性白血病亞型(Leukemia)進(jìn)行分類,從此越來越多的人開始采用腫瘤基因表達(dá)譜進(jìn)行分析和研究。受限于獲取途徑,其通常具有維數(shù)遠(yuǎn)遠(yuǎn)大于樣本數(shù)量且具有冗余信息大的特點(diǎn)。由于實(shí)驗(yàn)是針對組織細(xì)胞進(jìn)行,所有可檢測的基因都被一一進(jìn)行表示,但是實(shí)際上真實(shí)起決定性作用的基因只占其中小部分,從而導(dǎo)致腫瘤基因表達(dá)譜數(shù)據(jù)集過度冗余,造成“維數(shù)災(zāi)難”和“過擬合”[2]。為了解決前面所述的問題,維數(shù)約簡[3]成為最行之有效的方法之一,受到了廣大學(xué)者們的關(guān)注。維數(shù)約簡是通過特征提取或者特征選擇的方法來降低原始數(shù)據(jù)空間的維數(shù)。特征選擇方法是指通過剔除原始數(shù)據(jù)空間中相關(guān)度低、冗余度高的特征,選取更具分類性能的特征子空間,以達(dá)到大幅度降低原始數(shù)據(jù)空間維數(shù)的目的,使得選取的特征子空間和分類目標(biāo)含有高相關(guān)性,進(jìn)而提升樣本分類的準(zhǔn)確率;而特征提取是對原始數(shù)據(jù)空間進(jìn)行數(shù)學(xué)變換使其投影到新的低維特征空間,以獲取盡可能少且分類能力強(qiáng)的特征空間,這樣的特征空間可更好地描述基因數(shù)據(jù)[4-9]。

        典型的特征提取方法主要有主成分分析(PCA)[6]、線性判別分析(LDA)[7]、非負(fù)矩陣分解(NMF)[8]等。NMF算法由于其特殊的非負(fù)特性,使得其被大量采用于處理各個(gè)范疇的問題。文獻(xiàn)[10]中作者利用NMF算法對DNA微陣列進(jìn)行分解達(dá)到降維的目的,但是NMF算法只考慮到數(shù)據(jù)的局部特性,忽略了數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)特性,從而影響特征提取的效果;文獻(xiàn)[11]的作者為了使數(shù)據(jù)降維后仍可以保持原有數(shù)據(jù)點(diǎn)之間的相似性,在NMF的基礎(chǔ)上添加了圖正則約束,提高了特征提取的有效性。Kim[12]等對NMF算法進(jìn)行改進(jìn),提出了稀疏NMF算法并且利用交替最小二乘法對其進(jìn)行求解。文獻(xiàn)[13]在NMF算法模型上同時(shí)添加了稀疏約束和圖正則約束,從數(shù)據(jù)全局的角度來揭示數(shù)據(jù)點(diǎn)間的關(guān)系,大大提高了特征提取的能力。本文主要研究的是將NMF算法應(yīng)用于腫瘤基因表達(dá)譜的特征提取,對NMF算法進(jìn)行改進(jìn),添加了低秩圖[12]約束,提出了基于低秩圖正則非負(fù)矩陣分解算法。經(jīng)實(shí)驗(yàn)驗(yàn)證,該算法在腫瘤基因表達(dá)譜分類問題上具有明顯的優(yōu)勢。

        1 非負(fù)矩陣分解模型

        1.1 典型的NMF算法模型

        NMF算法是對非負(fù)矩陣的一種線性的、非負(fù)的近似數(shù)據(jù)描述,對于給定的大小為m×n的原待分解矩陣X,其中m代表數(shù)據(jù)特征,n代表樣本數(shù)目。通過NMF算法,將矩陣X分解成大小為m×r和r×n的矩陣H和W,它們都不含負(fù)元素,得到:

        X≈HW

        (1)

        其中,H為基矩陣,W為系數(shù)矩陣,即W為原始矩陣X在基空間H上的投影,同時(shí)r的取值一般比m或n小,滿足不等式r≤min(m,n),使得矩陣H和W維數(shù)均低于原始矩陣X的維數(shù)。

        利用X和HW之間的歐氏距離的平方構(gòu)造代價(jià)函數(shù),得到

        (2)

        使用迭代的方法獲得最小化‖X-HW‖2來得到W和H的解:

        (3)

        NMF算法由于其具備的非負(fù)特性,使得降維后的結(jié)果可以部分地表示向量空間的數(shù)據(jù),具有局部性,然而卻忽略了空間數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)特性,而空間數(shù)據(jù)的內(nèi)在幾何結(jié)構(gòu)對聚類和分類問題卻至關(guān)重要。文獻(xiàn)[10]在NMF算法模型的基礎(chǔ)上引入了圖正則約束,提出了圖正則非負(fù)矩陣分解算法,該算法克服NMF算法的局限性,獲得了較好的分類效果。

        1.2 圖正則非負(fù)矩陣分解模型(GNMF)

        GNMF[11]算法在NMF的基礎(chǔ)上增加了圖正則約束,這樣即保留了NMF算法的局部稀疏性表示的優(yōu)勢,又使數(shù)據(jù)降維后仍可以保持原有數(shù)據(jù)點(diǎn)之間的相似性。其算法模型如下式所示:

        (4)

        矩陣K定義如下:

        (5)

        其中Nk(xj)表示第j個(gè)樣本k近鄰;K表示對稱矩陣。H和W的迭代更新公式如下式所示:

        (6)

        1.3 稀疏正則化NMF算法模型(RGNMF)

        文獻(xiàn)[13]分析了在圖正則NMF模型的基礎(chǔ)上添加稀疏正則項(xiàng):

        (7)

        式中,hi表示H的行向量,e為單位列向量。文獻(xiàn)[13]中對矩陣H的列和矩陣W的行加稀疏性正則,得到的目標(biāo)函數(shù)如下式所示:

        (8)

        其中,L=D-K,通過對式(8)構(gòu)造增廣拉格朗日函數(shù)然后再分別對H和WT求導(dǎo),最后由KKT條件得到乘法迭代公式如下:

        (9)

        添加了稀疏正則項(xiàng)的RGNMF算法與傳統(tǒng)NMF算法相比,它能更好地發(fā)現(xiàn)穩(wěn)定且直觀的局部特征,并且能夠按需求地調(diào)整分解后的矩陣的稀疏度大小。

        2 低秩圖正則非負(fù)矩陣分解(LGNMF)

        2.1LGNMF模型

        基于稀疏表示的RGNMF算法是從全局的角度來揭示數(shù)據(jù)點(diǎn)間的關(guān)系,揭示數(shù)據(jù)的全局結(jié)構(gòu)信息。但是由于稀疏性約束條件,通常只有很少的一部分全局信息能夠被表示出來,不僅如此,當(dāng)數(shù)據(jù)集存在一定噪聲[9]干擾時(shí),稀疏圖表示數(shù)據(jù)信息的能力就會受到影響。

        低秩圖[14-15]是揭示數(shù)據(jù)全局信息的一種結(jié)構(gòu)圖,具有更好的數(shù)據(jù)局部和全局描述能力,基于低秩圖的維數(shù)約簡方法是一種更為有效的特征提取方法。非負(fù)矩陣分解模型沒有考慮分解后數(shù)據(jù)特征空間的低秩特性,這種低秩特性在一定程度上反映了數(shù)據(jù)空間的全局結(jié)構(gòu)特征,有利于進(jìn)行基因特征提取[16]。為此,本文在普通NMF基礎(chǔ)上,引入低秩圖正則約束,構(gòu)建模型如式(10)所示:

        (10)

        其中,X為腫瘤基因表達(dá)譜數(shù)據(jù)集,H為投影空間一組基向量,W為投影坐標(biāo)矩陣(或回歸系數(shù)矩陣),由于同類樣本在特征空間的投影坐標(biāo)相似,故具有低秩特性,‖W‖*項(xiàng)為低秩約束項(xiàng),tr(WLWT)為圖正則項(xiàng),L為圖拉普拉斯矩陣,α、β為平衡參數(shù)。

        2.2LGNMF模型求解

        令W=J,對式(10)構(gòu)建增廣拉格朗日函數(shù)如下:

        tr(Y2HT)+tr(Y3WT)=

        βtr(WLWT)+tr((Y1)T(W-J))+

        tr(Y2HT)+tr(Y3WT)

        (11)

        其中,Y1、Y2和Y3表示拉格朗日算子,μ>0為常數(shù)。利用迭代方法求解最優(yōu)的(H,W,J),由于目標(biāo)函數(shù)式(11)中待求解的參數(shù)較多,我們無法一次性得出所有參數(shù)的最優(yōu)解,通過采用交替求解策略,固定其他參數(shù),分別對每個(gè)參數(shù)進(jìn)行獨(dú)立的更新。

        更新H,固定W和J,目標(biāo)函數(shù)(11)可以簡化成下式:

        (12)

        式(12)可通過求極小值的方法進(jìn)行求解,首先對式(12)進(jìn)行求導(dǎo)得:

        (13)

        更新W,固定H和J,目標(biāo)函數(shù)式(11)可簡化為

        Compared with the sham group,the femoral BMD in the OVX group was significantly decreased.Compared with the OVX group,the esculetin group had significantly greater femoral BMD.However,the esculetin group still had a lower femoral BMD than the sham group(Table 1).

        (14)

        同理,式(14)可通過求極小值的方法進(jìn)行求解,首先對式(14)進(jìn)行求導(dǎo)得:

        (15)

        由KKT條件得到H和W的乘法迭代公式如下:

        (16)

        更新J,固定H和W,目標(biāo)函數(shù)式(11)可簡化為

        (17)

        式(17)的求解采用奇異值閾值算法獲取最佳目標(biāo)值。其解為:

        (18)

        S(∑)=max(∑ii,0)

        (19)

        拉格朗日算子Y1的迭代公式為Y1=Y1+μ[W-J]。

        3 LGNMF算法描述

        結(jié)合第2節(jié)對算法模型的求解,下面給出基于LGNMF的分類算法描述。

        算法名稱:基于LGNMF的腫瘤基因表達(dá)譜分類輸入:腫瘤基因表達(dá)普數(shù)據(jù)矩陣X,參數(shù)λ和β,子空間維數(shù)k初始化:H=abs(rand(m,k));W=abs(rand(k,n));J=abs(rand(k,n));Y1=abs(rand(k,n));max_mu=106;mu=10-1;rh0=1.21.根據(jù)式(16)更新H和W矩陣;2.根據(jù)式(18)迭代更新J;3.更新拉格朗日算子Y1=Y1+μW-J[];4.mu=min(max_mu,mu?rh0);5.iter=iter+1,當(dāng)iter

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

        本實(shí)驗(yàn)采用四個(gè)公共的數(shù)據(jù)集,如表1所示。

        表1 實(shí)驗(yàn)數(shù)據(jù)集的描述

        (1) DLBCL數(shù)據(jù)集包含了77個(gè)樣本,5 469個(gè)基因,分為DLBCL和FL兩個(gè)子集,其中DLBCL樣本數(shù)為58,F(xiàn)L樣本數(shù)為19;

        (2) Prostate數(shù)據(jù)集由52個(gè)癌癥樣本和50個(gè)正?;驑颖?,共10 509個(gè)基因;

        (4) NCI數(shù)據(jù)集包含了66個(gè)樣本,2 308個(gè)基因,分為四類:第一類有23個(gè)樣本,第二類有8個(gè)樣本,第三類有15個(gè)樣本,第四類有20個(gè)樣本。

        本實(shí)驗(yàn)采用的實(shí)驗(yàn)環(huán)境配置為:計(jì)算機(jī)的配置為3.2 GHz的Intel Core i5-3470 CPU,4 GB RAM,運(yùn)行Matlab R2013a。

        4.2 實(shí)驗(yàn)結(jié)果分析

        通過對比NMF、GNMF、RGNMF、LGNMF算法在DLBCL、Prostate、Leukemia、NCI四個(gè)不同的表達(dá)譜數(shù)據(jù)集上的分類情況來驗(yàn)證LGNMF算法的可行性和有效性。實(shí)驗(yàn)過程中,我們將原始數(shù)據(jù)集根據(jù)1∶1的比例分為訓(xùn)練集和測試集。用分類準(zhǔn)確率 (Accurate)來精確區(qū)分算法的優(yōu)劣性,可定義如式(20)所示,實(shí)驗(yàn)在每種目標(biāo)特征維數(shù)下進(jìn)行15次,取Accurate值[17]的平均值作為實(shí)驗(yàn)結(jié)果。

        (20)

        其中,Tright為測試集中被正確分類的樣本數(shù),T為測試集當(dāng)中總的樣本數(shù)。

        4.2.1 DLBCL數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        DLBCL數(shù)據(jù)集由兩類總計(jì)77個(gè)樣本組成,有5 469個(gè)基因。本實(shí)驗(yàn)通過NMF、GNMF、RGNMF和本文提出的低秩圖正則非負(fù)矩陣分解(LGNMF)算法對DLBCL數(shù)據(jù)集進(jìn)行特征提取,使其維度依次降到如圖1所示維數(shù),再利用KNN分類器對其進(jìn)行分類,通過對比實(shí)驗(yàn)來驗(yàn)證LGNMF算法的有效性。

        特征提取的主要目的是為了有效地減少數(shù)據(jù)的維數(shù),促使某些算法在低維數(shù)據(jù)上能夠更加快速有效的進(jìn)行,同時(shí)又不影響數(shù)據(jù)內(nèi)在屬性的表達(dá)能力。為了驗(yàn)證本文提出的特征提取算法的性能,圖1中列出了包括本文算法在內(nèi)四種算法在不同維數(shù)下的分類表現(xiàn)結(jié)果。

        圖1 不同算法在DLBCL上分類表現(xiàn)

        如圖1所示的曲線圖,橫坐標(biāo)為腫瘤基因表達(dá)譜經(jīng)特征提取降維后的特征維數(shù),縱坐標(biāo)為分類準(zhǔn)確率,通過對比四種算法的分類結(jié)果可以看出:(1) 隨著特征維數(shù)的不斷上升,四種算法表現(xiàn)出分類準(zhǔn)確率不斷攀升的現(xiàn)象。圖中維數(shù)達(dá)到20時(shí),四中算法都獲得了不錯(cuò)的效果,準(zhǔn)確率均能保持在90%以上,其中LCNMF算法獲得了98.45%的準(zhǔn)確率,為四種算法最高;(2) LGNMF算法在20、10、5、3特征維數(shù)下的分類效果均優(yōu)于其他三種算法,并且隨著特征維數(shù)的減少,其優(yōu)勢越發(fā)的明顯,當(dāng)特征維數(shù)降到3維時(shí),其分類準(zhǔn)確率仍能達(dá)到80%以上。通過DLBCL數(shù)據(jù)集實(shí)驗(yàn)證明,低秩圖正則非負(fù)矩陣分解(LGNMF)算法在腫瘤基因表達(dá)譜數(shù)據(jù)集分類中相比于其他算法更具有優(yōu)勢。

        4.2.2 Prostate數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        Prostate數(shù)據(jù)集有52個(gè)癌癥樣本和50個(gè)正常樣本,共10 509個(gè)基因。本實(shí)驗(yàn)同樣通過NMF、GNMF、RGNMF和LGNMF算法對Prostate數(shù)據(jù)集進(jìn)行特征提取,使其維度依次降到如圖2所示維數(shù),再利用KNN分類器對其進(jìn)行分類,四種算法對應(yīng)的準(zhǔn)確率如圖2所示。

        圖2 不同算法在Prostate上分類表現(xiàn)

        從圖2中可以看出:(1) 對于Prostate數(shù)據(jù)集,四種算法對分類的影響在維數(shù)范圍處于10到20之間的效果比較接近,在維數(shù)為20時(shí),效果最好,除了NMF算法的分類準(zhǔn)確率稍低,其余算法的分類準(zhǔn)確率均達(dá)到了96%;(2) 低秩圖正則非負(fù)矩陣分解(LGNMF)算法在大多數(shù)特征維數(shù)下的分類效果均優(yōu)于其他三種算法,并且隨著特征維數(shù)的減少,其優(yōu)勢越發(fā)的明顯,當(dāng)特征維數(shù)降到3維時(shí),其分類準(zhǔn)確率仍能達(dá)到80%。通過DLBCL數(shù)據(jù)集實(shí)驗(yàn)證明,低秩圖正則非負(fù)矩陣分解(LGNMF)算法在腫瘤基因表達(dá)譜數(shù)據(jù)集分類中相比于其他算法更具有優(yōu)勢。

        4.2.3 Leukemia數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        Leukemia數(shù)據(jù)集分為三類,由72個(gè)樣本組成,每個(gè)樣本具有5 327個(gè)基因。本實(shí)驗(yàn)分別以NMF、GNMF、RGNMF和LGNMF算法作為特征提取方法,將NCI數(shù)據(jù)集降維到圖3所示,再利用KNN分類器對其進(jìn)行分類,通過對比實(shí)驗(yàn)來驗(yàn)證LGNMF算法的有效性。

        圖3 不同算法在Leukemia上分類表現(xiàn)

        從圖3中可以看出:(1) 相較于Prostate和DLBCL,LGNMF算法在Leukemia數(shù)據(jù)集上的Accurate值最高,達(dá)到98%。當(dāng)特征維數(shù)降到10時(shí),其他三種算法的Accurate值都有所下降,但LGNMF的分類準(zhǔn)確率仍然能夠保持95%左右,說明經(jīng)LGNMF算法處理的數(shù)據(jù)具有更高的分類能力;(2) LGNMF算法在20、10、5、3特征維數(shù)下的分類效果均優(yōu)于其他三種算法,并且隨著特征維數(shù)的減少,其優(yōu)勢越發(fā)的明顯,當(dāng)特征維數(shù)降到3維時(shí),其分類準(zhǔn)確率仍能達(dá)到82%。通過DLBCL數(shù)據(jù)集實(shí)驗(yàn)證明,低秩圖正則非負(fù)矩陣分解(LGNMF)算法在腫瘤基因表達(dá)普數(shù)據(jù)集分類中相比于其他算法更具有優(yōu)勢。

        4.2.4 NCI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果分析

        NCI數(shù)據(jù)集有4個(gè)種類,共含66個(gè)樣本,2 308個(gè)基因。本實(shí)驗(yàn)分別以NMF、GNMF、RGNMF和LGNMF算法作為特征提取方法,對NCI數(shù)據(jù)集進(jìn)行降維,使其維度依次降到如圖4所示,再利用KNN對其進(jìn)行分類檢測,再通過對比檢驗(yàn)LGNMF算法的有效性。圖4為NMF、GNMF、RGNMF和LGNMF算法在Prostate數(shù)據(jù)集上的分類結(jié)果。

        圖4 不同算法在NCI上分類表現(xiàn)

        從圖4中可以明顯地發(fā)現(xiàn)添加了圖正則約束的NMF算法比普通的NMF算法分類效果好,添加了稀疏約束的圖正則的NMF算法比圖正則非負(fù)矩陣分解分類準(zhǔn)確率更高,而本文提出的低秩圖正則非負(fù)矩陣分解(LGNMF)算法明顯優(yōu)于其他三種特征提取方法。且對于抗特征維數(shù)的降低帶來的分類準(zhǔn)確性下降的能力相對更強(qiáng),在維數(shù)為20時(shí),各算法往往能夠取得最好的分類效果,此時(shí),LGNMF的效果處于領(lǐng)先位置。

        綜合以上四個(gè)實(shí)驗(yàn)結(jié)果可以得出:在四個(gè)腫瘤基因表達(dá)譜數(shù)據(jù)集上,LGNMF的分類準(zhǔn)確率均比NMF、GNMF和RGNMF方法高,特別在Prostate數(shù)據(jù)集上,其分類準(zhǔn)確率高達(dá)98%。當(dāng)特征維數(shù)降到8后,NMF、GNMF和RGNMF算法的效果出現(xiàn)率明顯下滑,但是LGNMF算法的分類準(zhǔn)確率仍然能夠達(dá)到80%以上,說明本文提出的基于低秩圖正則非負(fù)矩陣分解(LGNMF)的基因表達(dá)譜數(shù)據(jù)特征提取算法是有效且穩(wěn)定的。

        5 結(jié) 語

        本文提出了一種基于低秩圖正則非負(fù)矩陣分解(LGNMF)的基因表達(dá)譜數(shù)據(jù)特征提取算法。該算法在NMF的基礎(chǔ)上引入低秩圖的概念,低秩圖具有更好的數(shù)據(jù)局部和全局描述能力,基于低秩圖的維數(shù)約簡的思路是一種更為有效地特征提取方法??紤]到分解后腫瘤基因表達(dá)譜數(shù)據(jù)特征空間的低秩特性,這種低秩特性在一定程度上反映了數(shù)據(jù)空間的全局結(jié)構(gòu)特征,有利于特征提取。同NMF、GNMF和RGNMF算法相比較,LGNMF在腫瘤基因表達(dá)譜數(shù)據(jù)集的分類任務(wù)中表現(xiàn)出更大優(yōu)勢。尤其在特征維數(shù)越低的情況下,優(yōu)勢更加明顯,體現(xiàn)了LGNMF特征提取算法能夠更加有效地提升模式識別中分類算法的性能。

        [1] Golub T R, Slonin D K, Golub T R, et al. Molecular classification of cancer [J]. Journal of Clinical Microbiology, 1999, 93(5):1210-1220.

        [2] Brock G N, Shaffer J R, Blakesley R E, et al. Which missing value imputation method to use in expression profiles: a comparative study and two selection schemes [J]. Bmc Bioinformatics, 2008, 9(2):1-12.

        [3] Espezua S, Villanueva E, Maciel C D, et al. A Projection Pursuit framework for supervised dimension reduction of high dimensional small sample datasets[J]. Neurocomputing, 2015, 149(PB):767-776.

        [4] 蘇雅茹. 高維數(shù)據(jù)的維數(shù)約簡算法研究[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 2012.

        [5] Gan B, Zheng C H, Zhang J, et al. Sparse representation for tumor classification based on feature extraction using latent low-rank representation.[J]. Biomed Research International, 2014, 2014(10):63-68.

        [6] Bro R, Smilde A K. Principal component analysis[J]. Analytical Methods, 2014, 6(6):433-459.

        [7] Valle D, Baiser B, Woodall C W, et al. Decomposing biodiversity data using the Latent Dirichlet Allocation model, a probabilistic multivariate statistical method[J]. Ecology Letters, 2014, 17(12):1591-1601.

        [8] Tan C S, Ting W S, Mohamad M S, et al. A Review of Feature Extraction Software for Microarray Gene Expression Data[J]. Biomed Research International, 2014, 2014:213656-213656.

        [9] 楊國亮, 魯海榮, 唐俊,等. 基于迭代對數(shù)閾值的加權(quán) RPCA非局部圖像去噪[J]. 江西理工大學(xué)學(xué)報(bào), 2016, 37(1):57-62.

        [10] 張東波. 基于非負(fù)矩陣分解的基因數(shù)據(jù)子空間分類研究[D]. 西安電子科技大學(xué), 2005.

        [11] Cai D, He X, Wu X, et al. Non-negative Matrix Factorization on Manifold[C]//Eighth IEEE International Conference on Data Mining. IEEE Computer Society, 2008:63-72.

        [12] Kim H, Park H. Sparse non-negative matrix factorizations via alternating non-negativity-constrained least squares for microarray data analysis.[J]. Bioinformatics, 2007, 23(12):1495-1502.

        [13] 沈永康. 非負(fù)矩陣分解的稀疏性模型及初始化研究[D]. 浙江大學(xué), 2011.

        [14] Zhuang L, Gao H, Huang J, et al. Semisupervised classification via low rank graph[C]//Image and Graphics (ICIG), 2011 Sixth International Conference on. IEEE, 2011: 511-516.

        [15] Zhang N, Yang J. Low-rank representation based discriminative projection for robust feature extraction[J]. Neurocomputing, 2013, 111(6):13-20.

        [16] Cui Y, Zheng C H, Yang J. Identifying Subspace Gene Clusters from Microarray Data Using Low-Rank Representation [J]. Plos One, 2012, 8(3):e59377.

        [17] 潘江山, 陳曉云, 董紅玉. 基于INCA的腫瘤基因表達(dá)譜分類模型[J]. 福州大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 42(4):639-645.

        FEATUREEXTRACTIONOFTUMORGENEEXPRESSIONPROFILESBASEDONIMPROVEDNON-NEGATIVEMATRIXFACTORIZATION

        Huang Jingwei1Yang Guoliang1*Wang Yanfang2Hu Zhengwei1
        1(SchoolofElectricalEngineeringandAutomation,JiangxiUniversityofScienceandTechnology,Ganzhou341000,Jiangxi,China)2(DepartmentofInformationEngineering,GanzhouMunicipalHospital,Ganzhou341000,Jiangxi,China)

        According to the characteristics of the tumor gene expression profiles, we proposed a feature extraction algorithm, based on low-rank graph non-negative matrix factorization (LGNMF). It solved the lack of information on the global structure data of NMF algorithm and promoted the validity of feature extraction. The algorithm had improved the description of local and global data structures, based on NMF algorithm with low-rank graph constraints, which made feature space have stronger classification ability after feature extraction. The low-dimensional feature space was obtained by LGNMF algorithm, and it was classified by KNN classifier. We compared with the NMF, GNMF and RGNMF algorithm in four groups of standard tumor gene expression profile data sets. The experimental results show that LGNMF algorithm can improve the effect on classification.

        Low-rank graph Feature space Tumor gene expression profile Feature extraction

        2016-09-25。國家自然科學(xué)基金項(xiàng)目(51365017,61305019);江西省教育廳科技計(jì)劃項(xiàng)目(GJJ150680)。黃經(jīng)緯,碩士生,主研領(lǐng)域:機(jī)器學(xué)習(xí)與模式識別。楊國亮,教授。王艷芳,碩士。胡政偉,碩士生。

        TP391.41

        A

        10.3969/j.issn.1000-386x.2017.08.045

        猜你喜歡
        特征提取分類
        特征提取和最小二乘支持向量機(jī)的水下目標(biāo)識別
        分類算一算
        垃圾分類的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類討論求坐標(biāo)
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        Bagging RCSP腦電特征提取算法
        給塑料分分類吧
        欧美精品偷自拍另类在线观看| 蜜桃av在线免费网站| 人人人妻人人澡人人爽欧美一区| 欧美激情内射喷水高潮| 人妻无码AⅤ不卡中文字幕| 人妻精品久久久一区二区| av剧情演绎福利对白| 亚洲va中文字幕| 日本午夜福利| 亚洲中国美女精品久久久| 久久一二区女厕偷拍图| 免费a级作爱片免费观看美国| 伊人网综合在线视频| 久久麻豆精亚洲av品国产精品| 国产日产一区二区三区四区五区| 国产白袜脚足j棉袜在线观看| 最新国产一区二区精品久久| 中文字幕成人乱码亚洲| 国产三级视频不卡在线观看| 激性欧美激情在线| 国产在线精品一区二区在线看| 男女男在线精品免费观看| 色综合久久中文综合网亚洲| 久久精品免费观看国产| 久久半精品国产99精品国产| 亚洲精品女优中文字幕| 久久亚洲av成人无码国产最大| 亚洲欧洲日本综合aⅴ在线| 免青青草免费观看视频在线| 亚洲精品不卡av在线免费| 亚洲亚洲人成综合丝袜图片| 又爽又黄禁片视频1000免费 | 日本人妻伦理片在线观看| 亚洲天堂成人av影院| 亚洲丁香五月天缴情综合| 69天堂国产在线精品观看| 国产一区资源在线播放| 国产成人亚洲综合无码品善网 | 日韩精品真人荷官无码| 成人无码午夜在线观看| 极品少妇一区二区三区四区|