摘 要 [HTSS]質(zhì)譜成像技術(shù)能夠在同一個實驗里無需標記手段而獲得樣品表面的分子信息及其分布信息,是當前質(zhì)譜分析的熱點。其分析所得數(shù)據(jù)量大且復(fù)雜,使其特征難以提取。多元統(tǒng)計分析方法,特別是主成分分析法已應(yīng)用于質(zhì)譜成像數(shù)據(jù)的壓縮和特征提取。然而由于主成分分析常產(chǎn)生負的數(shù)據(jù)結(jié)果,其意義難以解釋且不易分解為單一的特征。本研究開發(fā)出一種基于非負分解的質(zhì)譜成像數(shù)據(jù)提取方法,能夠提取單一的分子特征及其在樣品上的分布特征,并將多個單一的特征分布通過紅、綠、藍三色疊加顯示,獲得輪廓直觀的綜合特征分布。應(yīng)用本方法對小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)進行分析,可直觀分解出灰質(zhì)區(qū)域、白質(zhì)區(qū)域和背景區(qū)域,相對主成分分析方法更直觀且易于解釋。應(yīng)用本方法對在同一個樣品靶上的人膀胱癌變組織和其相鄰非癌變組織切片質(zhì)譜成像數(shù)據(jù)進行分析,癌變與非癌變組織間差異清晰直觀。本研究設(shè)計的質(zhì)譜成像軟件可由http://www.msimaging.net獲取。
本文系國家科技支撐計劃課題(No. 2009BAK59B03)和國家重大科學(xué)儀器設(shè)備開發(fā)專項(No. 2011YQ0900501)資助
* Email:xingchuangxiong@gmail.com
1 引 言
質(zhì)譜成像技術(shù)(Mass spectrometry imaging,MSI)能夠在同一個實驗中同時獲取樣品表面的分子信息及分子的空間分布信息\\[1~3\\]。MSI分析對象隨著離子源的發(fā)展從元素成像發(fā)展到小分子成像,生物組織的蛋白、多肽和脂質(zhì)分子成像。MSI技術(shù)從二維成像發(fā)展到三維成像\\[4~6\\]。MSI的應(yīng)用從早期材料成像分析拓展到法庭科學(xué)\\[7\\]、字畫鑒定\\[8\\],藥物及其代謝物在組織內(nèi)的分布研究\\[9~11\\],癌變組織邊界測定\\[12\\]、腫瘤標志發(fā)現(xiàn)\\[13\\]、醫(yī)學(xué)診斷、分子病理研究等領(lǐng)域\\[14~19\\]。MSI成為當前質(zhì)譜分析的研究熱點。
MSI分析所得的數(shù)據(jù)往往包括樣品表面上每個采樣點的質(zhì)譜全譜數(shù)據(jù)。隨著樣品表面積、空間分辨率(單位面積內(nèi)樣品采樣點數(shù))、分析的質(zhì)量數(shù)范圍及質(zhì)量分辨率的增加,數(shù)據(jù)量及復(fù)雜度遞增。在復(fù)雜的表面質(zhì)譜成像分析中,空間分辨率、質(zhì)量分辨率和質(zhì)量范圍的增長呈越來越明顯的要求和趨勢。對復(fù)雜基質(zhì)的大量質(zhì)譜成像數(shù)據(jù),靠手動挑選每一個離子譜圖的方法,不僅耗時乏味,而且越來越不能滿足MSI高通量分析的需求\\[20\\]。為此,多元統(tǒng)計分析方法被用于處理MSI數(shù)據(jù),實現(xiàn)數(shù)據(jù)降維和特征提取\\[21,22\\]。其中應(yīng)用最廣泛的是主成分分析方法,主成分分析能夠有效對數(shù)據(jù)降維、壓縮數(shù)據(jù),但其結(jié)果數(shù)據(jù)中常有負數(shù)據(jù),使結(jié)果難以解釋。非負分解是一種多元變量數(shù)據(jù)因子分解方法,已成功應(yīng)用于圖像分析,提取局部圖像特征\\[23\\]。非負分解的約束條件是分解所得數(shù)據(jù)均為非負。原數(shù)據(jù)可以由分解所得數(shù)據(jù)線性組合近似表示,易于解釋其結(jié)果數(shù)據(jù)的意義,適合于MSI數(shù)據(jù)的分解和特征提取。
2 實驗部分
2.1 質(zhì)譜成像數(shù)據(jù)非負分解算法描述
設(shè)X是質(zhì)譜成像數(shù)據(jù)集,是N×M階矩陣,其中N表示樣品采樣點的個數(shù)(N通常有r行,c列; M表示質(zhì)量數(shù)的個數(shù))。從行向量看是N個樣品點對應(yīng)的質(zhì)譜圖數(shù)據(jù),從列向量看是M個質(zhì)量數(shù)對應(yīng)的離子圖像。非負分解方法就是尋找能夠近似表達X的非負矩陣W和非負矩陣H,其中W為N×P矩陣,H為P×M階矩陣,這兩個矩陣的每個元素都是非負數(shù)。P的選取通常遵守P<(N×M)/(N+M),由于P小于M和N,因此非負分解有降維、壓縮數(shù)據(jù)的功能。X=WH+E,其中E為N×M階矩陣,通常表示噪音或誤差。因此X≈WH,即
Xnm≈(WH)nm=∑Pa=1(WnaHam)(1)
其中,a,n,m變量分別是整數(shù)(a=1,...P; m=1,...M; n=1,...N),在本文的后續(xù)表述中,意義相同。
為了更好地解釋其意義,將等式(1)元素形式改寫為等式(2)向量形式:
分 析 化 學(xué)第40卷
第5期熊行創(chuàng)等: 基于非負分解方法的質(zhì)譜成像數(shù)據(jù)特征提取
xm≈∑Pa=1(Wahma)=Whm(2)
其中,向量xm是X(N×M)的第m列,是列向量(N×1),表示第m個質(zhì)量數(shù)對應(yīng)的離子圖像。Wa是W(N×P)的第a列(a=1,..., P),也是列向量(N×1)。W可以看作是由P個Wa數(shù)據(jù)塊(“數(shù)據(jù)積木”)組成。hm是H(P×M)的第m列,是列向量(P×1),而hma是該列向量中第a個元素,表示第a個數(shù)據(jù)塊Wa(“數(shù)據(jù)積木”)在第m個離子圖像上的強度值(或系數(shù)值)。
從(2)式可見,每個質(zhì)量數(shù)對應(yīng)的離子圖像都可以分解為P個公共基本圖像(P個Wa“數(shù)據(jù)積木”)與P個系數(shù)值的線性組合。因此,如果P選擇合理,由P個公共基本圖像組成的W可以表示為X的圖像特征,即分子在表面上的分布特征;而由P條譜圖數(shù)據(jù)組成的H可表示為質(zhì)譜成像的分子組成特征。
應(yīng)用等式(3)——誤差平方(歐式距離)函數(shù)表示非負分解結(jié)果與原數(shù)據(jù)間的誤差。
E(W,H)=‖X
Symbolm@@ WH‖2=∑nm(Xnm-(WHnm))2(3)
通過最小化E(W,H)誤差平方來尋找能夠近似表示X的非負W和H的分解因子。通過等式(4)進行多次迭代,計算最優(yōu)的W和H。
Ham←HamWTX(WTWH)am Wna←Wna(WHT)na(WHHT)na(4)
算法的原理參照相關(guān)文獻\\[24,25\\]
2.2 質(zhì)譜成像數(shù)據(jù)三色疊加顯示
從質(zhì)譜成像數(shù)據(jù)非負分解獲得的圖像特征數(shù)據(jù)集中,任選W1, W2和W3, 分別用紅、綠、藍3種顏色表示其信號強度,即RGB(IW1,0,0),RGB(0, IW2,0),RGB(0,0, IW3)。其中IW1、IW2和IW3分別表示強度的映射值,其數(shù)據(jù)范圍為\\[0,255\\],0表示強度的最小值、255表示最大值。然后將W1,W2,W3三幅圖疊加顯示,新合成圖的每個像素信號強度值的顏色表示RGB(IW1, IW2, IW3)。
2.3 代碼開發(fā)
應(yīng)用Matlab語言(The MathWorks, Natick, MA, USA)開發(fā)質(zhì)譜成像數(shù)據(jù)非負分解及三色疊加顯示軟件工具。數(shù)據(jù)輸入包括原始數(shù)據(jù)集X(樣品的行數(shù)r和列數(shù)c)及質(zhì)量軸列表信息,需要調(diào)節(jié)的運行參數(shù)包括成分數(shù)P和迭代次數(shù),輸出結(jié)果包括圖像特征W和分子特征H以及分解誤差系數(shù)(Mean squared normalized error)。通過任選3個基本圖像, 用三色疊加方式顯示其疊加圖,獲得不同分子分布特征的輪廓。
3 結(jié)果與討論
3. 1 小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)的非負分解與主成分分析
對小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)(由美國普渡大學(xué)Cooks教授課題組提供)分別進行主成分分析和非負分解。該原始數(shù)據(jù)由DESI離子源(負離子模式)結(jié)合Thermo LTQ質(zhì)譜儀進行質(zhì)譜成像分析獲得。對原始質(zhì)譜數(shù)據(jù)(質(zhì)量范圍m/z 150~1100,單位質(zhì)量分辨)進行圖像重構(gòu)和譜峰歸一化到\\[0,1\\]范圍內(nèi),獲得950個質(zhì)量數(shù),無數(shù)據(jù)平滑、譜峰篩選等處理過程。組織切片采樣數(shù)據(jù)行數(shù)r為75,列數(shù)c為104,共7800個采樣點。因此,原始質(zhì)譜成像數(shù)據(jù)X為7800×950。
3.1.1 主成分分析方法 應(yīng)用主成分分析方法(應(yīng)用Matlab開發(fā)小工具)處理X數(shù)據(jù)。主成分分析也可表示為X=WH+E或者X≈WH,類似于非負分解的表達形式。主成分分析與非負分解主要區(qū)別在于分解的限制條件不同,非負分解中W, H限制其每個元素都是非負值;主成分分析中的W和H要求分別各自正交(即HHT為單位矩陣,WTW為對角矩陣),因此W和H中常常有負值。通常,將W稱為得分數(shù)據(jù)集,將H稱為載荷數(shù)據(jù)集。主成分所占總信息量依次減少,即第1主成分最多,第2主成分次之。
選取前3個主成分(數(shù)據(jù)信息量共占原數(shù)據(jù)的74.01%)示于圖1。
[TS(][HT5”SS]圖1 應(yīng)用主成分析方法處理小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)結(jié)果圖
Fig.1 Principal component analysis (PCA) result maps of mass spectrometry imaging data of a mouse brain section tissue
(a) 圖為前3個主成分的載荷數(shù)據(jù)圖。 (b) 圖左列為m/z 256, m/z 835和m/z 889的載荷數(shù)據(jù),分別提取于載荷圖(a),用3種顏色標示。(b)圖中間列為前3個主成分的得分圖。(b)圖右列為重構(gòu)后的m/z 256, 835和889離子圖。前3個主成分占原數(shù)據(jù)總信息量74.01%(其中,PC1:47.18%,PC2:15.01%,PC3:11.82%)。應(yīng)用(hm)TWT=Whm=xm等式,將分解得到的m/z 256, m/z 835和m/z 889的載荷數(shù)據(jù)(示于(b)圖左列)與得分圖數(shù)據(jù)(示于(b)圖中間列)重構(gòu)出相應(yīng)的離子圖數(shù)據(jù)(示于(b)圖右列)。重構(gòu)圖與原始離子圖的均方根差分別為:0.8395, 0.1312和0.1366,基本反應(yīng)了原始數(shù)據(jù)的主要特征。但是其載荷數(shù)據(jù)和得分數(shù)據(jù)中都存在負值,使其結(jié)果難于解釋。
(a) Loading plots of the frist three principal components (PCs). (b) Loading data of m/z 256, 835 and 889 in the left column, the corresponding scores maps in the middle column, the reconstructed ion maps in the right column.. The three PCs kept 74.01% of the total variance (PC1: 47.18%, PC2: 15.01%, PC3: 11.82%). By applying the equation (hm)TWT=Whm=xm, the ion maps shown in the right column of (b) were reconstructed from the linear combination of the loading data shown in the left column of (b) and the scores shown in the middle column of (b). The rootmeansquareerror between the reconstructed maps and the corresponding original maps were 0.8395, 0.1312 and 0.1366, which indicated the reconstructed maps kept the principal feature of the original maps. However, there were negative value in both the loading plots and the scores maps, which made the interpretation of the results data from PCA very difficult.[HT][TS)]
從圖1可見,3個質(zhì)譜峰m/z 835(實際上是m/z 834.7,phosphatidylserine 18∶0/22∶6,在小鼠腦組織灰質(zhì)區(qū)域有較高含量),m/z 889(實際上是m/z 888.8,sulfatide 24∶1,在小鼠腦組織白質(zhì)區(qū)域有較高含量)和m/z 256特征突出。在第1主成分載荷圖(H1)中,m/z 835和m/z 889系數(shù)較高,為正值,而m/z 256系數(shù)也較高,為負值;在其相應(yīng)的得分圖(W1)中,可以看出灰質(zhì)區(qū)域(淺藍色表示)、白質(zhì)區(qū)域(藍色表示)為正值,背景區(qū)域為負值。第1主成分占了總信息量的主要特征。第2主成分載荷圖(H2)中,m/z 256和 835系數(shù)較高,為正值,m/z 889系數(shù)也較高,為負值,在其相應(yīng)的得分圖(W2)中,可以看出白質(zhì)區(qū)域為負值,背景區(qū)域為正值,但是灰質(zhì)區(qū)域不明顯。而在第3主成分載荷圖(H3)中,m/z 835系數(shù)較高,為正值,m/z 889系數(shù)也較高,為負值,在其相應(yīng)的得分圖(W3)中,可以看出白質(zhì)區(qū)域為負值,灰質(zhì)區(qū)域為正值,背景區(qū)域不明顯。
從離子圖的重建過程可以看出,m/z 256的系數(shù)(h1= m/z 256)有正值和負值,與得分數(shù)據(jù)(W有正值和負值)線性組合后,所得m/z 256離子圖(x1= m/z 256)正值部分為背景區(qū)域,與原始數(shù)據(jù)相似,但存在負值(白質(zhì)區(qū)域)。每一個離子圖的重構(gòu)可以表示為xm =Whm=(hm)TWT, 即載荷系數(shù)與得分數(shù)據(jù)的線性組合,但是各成分數(shù)值有正有負,重構(gòu)過程有加有減,難以解釋為單一的特征。
主成分分析所得的得分圖像與載荷圖譜,在提取特征時存在兩個問題:(1)由于存在負值,其解釋較為困難。此處的正負值不能簡單用大小區(qū)別,屬于同一符號的可以區(qū)分大小,但是符號不同需要分別對待。因此,需要將載荷數(shù)據(jù)的正值與相應(yīng)得分數(shù)據(jù)正值聯(lián)系起來,載荷數(shù)據(jù)的負值與相應(yīng)得分數(shù)據(jù)負值聯(lián)系起來解釋,而且在得分圖中,需要將正值與負值的表示用不同的顏色表示,以便區(qū)分;(2)由于主成分的所占的信息量是依次遞減,第1主分成分占最大信息,所以第1主成分就盡可能多地綜合了多個特征信息(能夠有效地降維、壓縮數(shù)據(jù)),信息的過分綜合就不易分解,很難直觀地解釋為單一分子特征譜和特征圖像。這是由主成分分析原理所決定的。以此圖為例,第1主成分綜合了白質(zhì)、灰質(zhì)和背景特征信息,第2主成分綜合了白質(zhì)和背景特征信息,第3主成分綜合了白質(zhì)和灰質(zhì)特征信息。
3.1.2 非負分解方法 應(yīng)用非負分解方法處理同一組數(shù)據(jù)。選取3個成分變量,即P=3,應(yīng)用非負分解方法處理結(jié)果示于圖2。由圖2可見,系數(shù)譜1(H1)主要質(zhì)譜峰是m/z 835,其相應(yīng)的公共基本圖像1(W1)為小鼠腦組織灰質(zhì)區(qū)域;系數(shù)譜2(H2)主要質(zhì)譜峰是m/z 256,其相應(yīng)的公共基本圖像2(W2)為非樣品組織區(qū)域,即背景區(qū)域;系數(shù)譜3(H3)主要質(zhì)譜峰是m/z 889,其相應(yīng)的公共基本圖像3(W3)為小鼠腦組織白質(zhì)區(qū)域。系數(shù)譜和公共基本圖像均無負值。各成分間沒有主次之分。
[TS(][HT5”SS]圖2 應(yīng)用非負分解方法(選取3個成分變量)處理小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)結(jié)果圖
Fig.2 Nonnegative matrix factorization (NMF) result maps (3 components) of mass spectrometry imaging data of mouse brain tissue
(a)圖為3個成分的系數(shù)譜圖。 (b)圖左列為m/z 256, 835和889的系數(shù),分別提取于系數(shù)譜圖(a),用不同的顏色標示。(b)圖中間列為3個成分的公共基本圖像。(b)圖右列為重構(gòu)圖后m/z 256, 835和889的離子圖。應(yīng)用(hm)TWT=Whm=xm等式將分解得到的m/z 256, 835和889的系數(shù)(示于(b)圖左列)與得分圖數(shù)據(jù)(示于(b)圖中間列)重構(gòu)出相應(yīng)的離子圖數(shù)據(jù)(示于(b)圖右列)。重構(gòu)圖與原始離子圖的均方根差分別是:0.0916, 0.1329和0.0535,基本能反應(yīng)原始數(shù)據(jù)的主要特征。
(a) Coefficient plots of three components. (b) Coefficient data of m/z 256, 835 and 889 in the left column, base images of the three components in the middle column, reconstructed ion maps in the right column. By applying the equation (hm)TWT=Whm=xm, the ion maps shown in the right column of (b) were reconstructed from the linear combination of the coefficient data shown in the left column of (b) and base images shown in the middle column of (b). Root mean square error between the reconstructed maps and the corresponding original maps were 0.0916, 0.1329 and 0.0535, which indicated the reconstructed maps kept the principal features of the original maps.[HT][TS)]
從離子圖的重建過程可以看出,m/z 256的系數(shù)(h1= m/z 256)為非負值,與得分數(shù)據(jù)(W,3個公共基本圖像)線性組合后,所得m/z 256離子圖(x1=m/z 256)正值部分為背景區(qū)域,與原始數(shù)據(jù)相似。每一個離子圖的重構(gòu)可以表示為xm =Whm=(hm)TWT, 即載荷系數(shù)與得分數(shù)據(jù)的線性組合,由于各成分數(shù)值非負,過程有加無減,是線性“加和”,可以解釋為若干個特征單一公共基本圖像(積木數(shù)據(jù)),按照相應(yīng)的系數(shù)加權(quán)疊加而成。因此,非負分解,如果組分P選擇合理,系數(shù)譜圖可以看作是質(zhì)譜成像數(shù)據(jù)的分子組成特征,而公共基本圖像可以看作是分子在表面上的分布特征。
對比圖1和圖2,可清晰地看出,由于主成分分析存在負值,其載荷圖和得分圖難以解釋, 不夠直觀;而非負分解無負值,一張離子圖可以表達為由各基本圖的線性“加和”,較容易解釋其意義,圖像直觀。
再應(yīng)用RGB三色疊加顯示,將非負分解所得的公共基本圖像通過紅、綠、藍三色疊加,示于圖3。從疊加圖可看出,其輪廓清晰直觀。
[TS(][HT5”SS]圖3 小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)經(jīng)過非負分解方法處理所得特征分布圖及其RGB疊加圖
Fig.3 Nonnegative matrix factorization (NMF) feature maps of mass spectrometry imaging (MSI) data of a mouse brain section and their RGB (redgreenbule) color overlaid map
(a) 為第一成分的分布圖(腦組織灰質(zhì)區(qū)域,用紅顏色表示);(b)為第二成分的分布圖(非樣品組織區(qū)域,用綠色表示);(c)為第三成分的分布圖(腦組織白質(zhì)區(qū)域,用藍色表示);(d)為這3個成分的RGB疊加圖
(a) First component distribution map with the grey matter regions of the mouse brain tissue highlighted in red, (b) Second component distribution map with the background regions in the whole sample highlighted in green, (c) Third component distribution map with the regions of white matter in the mouse brain tissue highlighted in blue, (d) RGB color map overlaid by (a), (b) and (c)[HT][TS)]
3.2 同一樣品靶上人膀胱癌組織和其鄰近正常組織質(zhì)譜成像數(shù)據(jù)的非負分解
用非負分解法及三色疊加法分析同一樣品靶上人膀胱癌組織和其鄰近非癌變組織質(zhì)譜成像數(shù)據(jù)(由美國普渡大學(xué)Cooks課題組提供)。該癌變組織及其鄰近非癌變組織均由提供該組織的臨床醫(yī)生嚴格確
[TS(][HT5”SS]圖4 人膀胱癌組織及其鄰近組織切片質(zhì)譜成像數(shù)據(jù)經(jīng)過非負分解方法(選取3個成分變量)處理所得特征分布圖及其RGB疊加圖
Fig.4 Nonnegative matrix factorization result maps of mass spectrometry imaging (MSI) data of a human cancerous and adjacent normal bladder tissue sections and their RGB overlaid map
(a), (b), (c)分別是3個成分的系數(shù)圖譜,即分子特征圖譜。(d), (e), (f)分別是相應(yīng)的公共基本圖像,即分子分布特征圖像。(g)為(d), (e), (f)三圖的RGB三色疊加圖。(h)為組織染色圖
(a), (b) and (c), Coefficient plots of three components with their feature mass spectral highlighted individually. (d), (e) and (f), Base images of three components showing the distribution of corresponding molecules on tissue sections. (g) RGB color overlaid map of (a), (b) and (c). (h) HE stained tissue sections of tumor tissue and its adjacent tissue.[HT][TS)]
認。質(zhì)譜原始數(shù)據(jù)均由DESI離子源(負離子模式)結(jié)合Thermo LTQ質(zhì)譜儀進行質(zhì)譜成像分析獲得\\[26\\]。
對原始質(zhì)譜數(shù)據(jù)(質(zhì)量范圍m/z 150~1000,單位質(zhì)量分辨)進行圖像重構(gòu)和質(zhì)譜峰強歸一化\\[0,1\\],獲得850個質(zhì)量數(shù),無數(shù)據(jù)平滑、譜峰篩選等處理過程。組織切片采樣數(shù)據(jù)行數(shù)r為32,列數(shù)c為69,共2208個采樣點。因此,原始質(zhì)譜成像數(shù)據(jù)X為2208×850。
應(yīng)用非負分解方法處理此質(zhì)譜成像數(shù)據(jù)。選取3個成分變量,即P=3,應(yīng)用非負分解方法處理結(jié)果示于圖4。從圖4可見,(a)為癌變區(qū)域的質(zhì)譜特征峰,
(e)為其相應(yīng)的癌變組織分布圖像;(b)為非癌變組織區(qū)域的質(zhì)譜特征峰,(d)為其相應(yīng)的非癌變組織分布特征;(c)為非組織區(qū)域的質(zhì)譜特征峰,(f)為相應(yīng)的背景區(qū)域。公共基本圖像三色疊加圖(g)與組織染色圖(h)非常相似,而且癌變與非癌變差異明顯,一目了然。該方法有可能發(fā)展為病變組織差異快速確認的數(shù)據(jù)分析方法。4 結(jié) 論
基于非負分解的質(zhì)譜成像數(shù)據(jù)特征提取方法,通過非負分解得出單一的分子組成特征及相應(yīng)分布特征,然后將多個單一特征分布進行三色疊加顯示,可直觀清晰顯示其輪廓。能夠快速有效提取成像數(shù)據(jù)的分子組成特征以及分子在表面上的分布特征。本方法相對于主成分分析,其數(shù)據(jù)結(jié)果更易解釋,更加直觀,而且具有原始數(shù)據(jù)前處理簡單等優(yōu)點,可作為快速特征提取方法應(yīng)用于基于生物分子質(zhì)譜成像臨床醫(yī)學(xué)研究和生命科學(xué)研究。
致 謝 感謝美國普渡大學(xué)Cooks教授課題組提供的質(zhì)譜成像原始數(shù)據(jù)。
References
1 Pacholski M L, Winograd N. Chemical Reviews, 1999, 99(10): 2977~3006
2 McDonnell L A,Heeren R M A. Mass Spectrometry Reviews, 2007, 26(4): 606~643
3 Caprioli R M. Proteomics, 2008, 8(18): 3679~3680
4 Sinha T K, KhatibShahidi S, Yankeelov T E, Mapara K, Ehtesham M, Cornett D S, Dawant B M, Caprioli R M,Gore J C. Nature Methods, 2008, 5(1): 57~59
5 Andersson M, Groseclose M R, Deutch A Y,Caprioli R M. Nature Methods, 2008, 5(1): 101~108
6 Eberlin L S, Ifa D R, Wu C, Cooks R G. Angewandte ChemieInternational Edition, 2010, 49(5): 873~876
7 Ifa D R, Manicke N E, Dill A L, Cooks G. Science, 2008, 321(5890): 805~805
8 Liu Y, Ma X, Lin Z, He M, Han G, Yang C, Xing Z, Zhang S, Zhang X. Angewandte ChemieInternational Edition, 2010, 49(26): 4435~4437
9 Wiseman J M, Ifa D R, Zhu Y X, Kissinger C B, Manicke N E, Kissinger P T,Cooks R G. Proceedings of the National Academy of Sciences of the United States of America, 2008, 105(47): 18120~18125
10 Rubakhin S S, Jurchen J C, Monroe E B,Sweedler J V. Drug Discovery Today, 2005, 10(12): 823~837
11 KhatibShahidi S, Andersson M, Gillespie T A, Caprioli R M. Anal. Chem., 2006, 78(18): 6448~6456
12 Oppenheimer S R, Mi D, Sanders M E,Caprioli R M. Journal of Proteome Research, 2010, 9(5): 2182~2190
13 Lemaire R, Ait Menguellet S, Stauber J, Marchaudon V, Lucot JP, Collinet P, Farine MO, Vinatier D, Day R, Ducoroy P, Salzet M, Fournier I. Journal of Proteome Research, 2007, 6(11): 4127~4134
14 YANG ShuiPing, CHEN HuanWen, YANG YuLing, HU Bin, ZHANG Xie, ZHOU YuFen, ZHANG LiLi, GU HaiWei. Chinese J. Anal. Chem., 2009, 37(3): 315~318
楊水平, 陳煥文, 楊宇玲, 胡 斌, 張 燮, 周瑜芬, 張麗麗, 顧海威. 分析化學(xué), 2009, 37(3): 315~318
15 Eberlin L S, Dill A L, Golby A J, Ligon K L, Wiseman J M, Cooks R G,Agar N Y R. Angewandte ChemieInternational Edition, 2010, 49(34): 5953~5956
16 Cazares L H, Troyer D, Mendrinos S, Lance R A, Nyalwidhe J O, Beydoun H A, Clements M A, Drake R R, Semmes O J. Clinical Cancer Research, 2009, 15(17): 5541~5551
17 LIU Nian, LIU Feng, XU Bin, GAO YaBing, LI XiangHong, WEI KaiHua, ZHANG XueMin, YANG SongCheng. Chinese J. Anal. Chem., 2008, 36(4): 421~425
劉 念, 劉 鋒, 許 彬, 高亞兵, 李向紅, 魏開華, 張學(xué)敏, 楊松成. 分析化學(xué), 2008, 36(4): 421~425
18 LIU Hui, CHEN GuoQiang, WANG YanYing, LI ZhiLi. Chinese J. Anal. Chem., 2011, 39(1): 87~90
劉 輝, 陳國強, 王艷英, 李智立. 分析化學(xué), 2011, 39(1): 87~90
19 CHEN HuanWen , HU Bin, ZHANG Xie. Chinese J. Anal. Chem., 2010, 38(8): 1069~1088
陳煥文, 胡 斌, 張 燮. 分析化學(xué), 2010, 38(8): 1069~1088
20 Watrous J D, Alexandrov T, Dorrestein P C. Journal of Mass Spectrometry, 2011, 46(2): 209~222
21 Dubey M, Emoto K, Cheng F, Gamble L J, Takahashi H, Grainger D W,Castner D G. Surface and Interface Analysis, 2009, 41(8): 645~652
22 Park J W, Min H, Kim Y P, Shon H K, Kim J, Moon D W, Lee T G. Surface and Interface Analysis, 2009, 41(8): 694~703
23 Lee D D, Seung H S. Nature, 1999, 401(6755): 788~791
24 Lee D D, Seung H S. Algorithms for Nonnegative Matrix Factorization, in Advances in Neural Information Processing Systems 13, Leen, Editor. 2001: 556~562
25 Hoyer P O. Journal of Machine Learning Research, 2004, 5: 1457~1469
26 Dill A L, Eberlin L S, Costa A B, Zheng C, Ifa D R, Cheng L A, Masterson T A, Koch M O, Vitek O, Cooks R G. Chemistrya European Journal, 2011, 17(10): 2897~2902
Feature Extraction Approach for Mass Spectrometry Imaging
Data Using Nonnegative Matrix Factorization
XIONG XingChuang1,2, FANG Xiang2, OUYANG Zheng3, JIANG You2, HUANG ZeJian2, ZHANG YuKui1
1(School of Life Science, Beijing Institute of Technology, Beijing 100081, China)
2(National Institute of Metrology Beijing 100013, China)
3(Weldon School of Biomedical Engineering, Purdue University, West Lafayette 47907, USA)
Abstract Mass spectrometry imaging (MSI) provides molecules composition information and corresponding spatial information on complex biological surfaces in a single experiment without label. It is getting significant amount of attention in the mass spectrometric community currently. However, due to the large mount and complexity of MSI data, its data reduction and feature extraction are always a problem. Some multivariate statistical analysis methods, for example, the famous principal component analysis (PCA), were developed to address this issue. But the results with negative value are hard to be interpreted as features about molecules. A feature extraction approach for MSI data by applying nonnegative matrix factorization was developed. It could extract single molecules composition feature and the corresponding distribution (basic images), and further integrated the basic images to create a profile showing the whole sample by RGB (redgreenblue) color overlaid model clearly. The MSI data of a mouse brain section were used to test the efficiency of this approach compared with PCA. The white matter regions, the grey matter regions and the background regions were clearly shown and the corresponding molecules mass spectra were extracted, which indicated the approach is easier than PCA in result interpreting. Moreover, the MSI data of a human cancerous and adjacent normal bladder tissue sections on the same sample target were analyzed by the approach, the cancerous regions and the normal regions were clearly differentiated. The software developed in this paper could be downcoaded from the website http://www.msimaging.net.
Keywords Mass spectrometry imaging; Feature extraction; Nonnegative matrix factorization; Principal component analysis
(Received 25 October 2011; accepted 5 December 2011)