梁雅麗
摘 ? 要:文章提出一種基于非負(fù)矩陣分解和正交匹配追蹤的癌癥基因表達(dá)數(shù)據(jù)分類方法。首先,采用主成分分析與奇異值分解相結(jié)合的方法對數(shù)據(jù)進(jìn)行降維;其次,通過非負(fù)矩陣分解訓(xùn)練傳感矩陣、正交匹配追蹤取得測試樣本的稀疏表達(dá);最后,根據(jù)稀疏表達(dá)和樣本特征矩陣進(jìn)行分類。與經(jīng)典的分類方法相比,該算法提高了分類準(zhǔn)確率,對多類別、不均衡的樣本分類效果更明顯。
關(guān)鍵詞:非負(fù)矩陣分解;正交匹配追蹤;分類
基因表達(dá)數(shù)據(jù)主要是通過DNA微陣列技術(shù)得到的癌癥檢查數(shù)據(jù),存在基因多、噪聲強(qiáng)、樣本少、分布不均衡等特點(diǎn)。如何有效進(jìn)行分類是一項(xiàng)重要的醫(yī)學(xué)研究課題,對預(yù)防、診斷癌癥,減少誤診率有極大意義。經(jīng)典的分類方法有支持向量機(jī)(Support Vector Machine,SVM)、決策樹(Dtree)、最近鄰分類(K-Nearest Neighbor,KNN)等[1-2]。壓縮感知理論[3-4]的出現(xiàn),為基因表達(dá)數(shù)據(jù)分類研究開辟了新的方向。近年來,Xu[5]提出了雙向壓縮感知模型,同時(shí)考慮了兩種相關(guān)性—不同樣本之間的關(guān)系和不同基因之間的關(guān)系,為生物信息的研究提供新的知識。Xu[6]和He[7]提出了新的基因表達(dá)數(shù)據(jù)分類稀疏學(xué)習(xí)模型(K-SVD和Group K-SVD),在簡化字典的基礎(chǔ)上,應(yīng)用稀疏特征進(jìn)行分類,具有較好的分類性能。
非負(fù)矩陣分解(Nonnegative Matrix Factor,NMF)常用來進(jìn)行特征提取和聚類,李小永[8]提出了基于NMF的基因表達(dá)數(shù)據(jù)特征提取和分類方法,表明NMF具有良好的應(yīng)用性能。本文將NMF應(yīng)用于壓縮感知模型中,對傳感矩陣進(jìn)行學(xué)習(xí),并將其映射到NMF基因隱藏特征空間中,然后通過正交匹配追蹤(Orthogonal Matching Pursuit,OMP)取得測試樣本的稀疏表達(dá),提出了NMF-OMP分類方法。通過在4個(gè)基因表達(dá)數(shù)據(jù)集上的對比實(shí)驗(yàn)證明,本文算法比經(jīng)典分類算法的分類準(zhǔn)確率高。
1 ? ?相關(guān)知識簡介
1.1 ?壓縮感知
對于DLBCL,4種算法在各維度上的最高分類準(zhǔn)確率依次為0.987,0.974,0.896,0.805;對于Leukemia,4種算法在各維度上的最高分類準(zhǔn)確率依次為0.986,0.972,0.903,0.653;對于SRBCT,4種算法在各維度上的最高分類準(zhǔn)確率依次為1,0.976,0.819,0.867;對于Brain Tumor,4種算法在各維度上的最高分類準(zhǔn)確率依次為0.878,0.811,0.733,0.767??傮w來說,本文提出的NMF-OMP算法相較于其他3種算法而言,分類準(zhǔn)確率得到了提高,但在低維度上的分類準(zhǔn)確率較低。
4 ? ?結(jié)語
癌癥基因表達(dá)數(shù)據(jù)的有效分類對病人預(yù)防和醫(yī)生診斷病癥均有重大意義,如何更高效、準(zhǔn)確地分類是重要的研究課題。本文結(jié)合壓縮感知理論和非負(fù)矩陣分解的特性,提出一種基于NMF-OMP的壓縮感知分類模型,適用于多類別基因表達(dá)數(shù)據(jù)的分類,在4個(gè)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),取得了較高的分類準(zhǔn)確率,且運(yùn)行時(shí)間較短。之后將進(jìn)一步改進(jìn)非負(fù)矩陣分解算法和樣本類別判斷方法,提高分類準(zhǔn)確率和穩(wěn)定性。
[參考文獻(xiàn)]
[1]STATNIKOV A,ALIFERIS C F,TSAMARDINOS I,et al.A comprehensive evaluation of multicategory classification methods for microarray gene expression cancer diagnosis[J].Booinformatics,2004(21):631-643.
[2]葉明全,高凌云,萬春圓.基于人工蜂群和SVM的基因表達(dá)數(shù)據(jù)分類[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2018(3):14-20.
[3]DONOHO D.Compressed sensing[J].IEEE Transactions on Information Theory,2006(4):1289-1306.
[4]BARANIUK R G,CAND?S,E,NOWAK R,et al.Compressive sampling[J].IEEE Signal Processing Magazine,2008(2)1433-1452.
[5]XU X H,F(xiàn)AN B,HE P,et al.Bidirectional compressive sensing for classification of gene expression data[J].Concurrency and Computation:Practice and Experience,2018(10):1002.
[6]XU X H,HE P.Compressive sensing classifier based on K-SVD[D].Yangzhou:Yangzhou University,2019.
[7]HE P,F(xiàn)AN B C,XU X H,et al.Group K-SVD for the classification of gene expression data[J].Computers and Electrical Engineering,2019(3):143-153.
[8]李小永.基于非負(fù)矩陣分解和稀疏表示對基因表達(dá)數(shù)據(jù)的研究[D].西安:西安電子科技大學(xué),2017.
Abstract:A classification method for cancer gene expression data based on nonnegative matrix decomposition and orthogonal matching pursuit was proposed. Firstly, principal component analysis and singular value decomposition were used to reduce the dimension of data. Secondly, non-negative matrix decomposition was used to train the sensor matrix and orthogonal matching tracing to obtain sparse expression of test samples. Finally, the sparse expression and sample feature matrix were used for classification. Compared with the classical classification methods, this algorithm improves the classification accuracy and has a more obvious effect on the multi-category and unbalanced sample classification.?
Key words:non-negative matrix factorization; orthogonal matching pursuit; classification