亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于非負分解方法的質(zhì)譜成像數(shù)據(jù)特征提取

2012-04-12 00:00:00熊行創(chuàng)方向歐陽證江游黃澤建張玉奎

分析化學(xué) 2012年5期

摘要 [HTSS]質(zhì)譜成像技術(shù)能夠在同一個實驗里無需標記手段而獲得樣品表面的分子信息及其分布信息，是當前質(zhì)譜分析的熱點。其分析所得數(shù)據(jù)量大且復(fù)雜，使其特征難以提取。多元統(tǒng)計分析方法，特別是主成分分析法已應(yīng)用于質(zhì)譜成像數(shù)據(jù)的壓縮和特征提取。然而由于主成分分析常產(chǎn)生負的數(shù)據(jù)結(jié)果，其意義難以解釋且不易分解為單一的特征。本研究開發(fā)出一種基于非負分解的質(zhì)譜成像數(shù)據(jù)提取方法，能夠提取單一的分子特征及其在樣品上的分布特征，并將多個單一的特征分布通過紅、綠、藍三色疊加顯示，獲得輪廓直觀的綜合特征分布。應(yīng)用本方法對小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)進行分析，可直觀分解出灰質(zhì)區(qū)域、白質(zhì)區(qū)域和背景區(qū)域，相對主成分分析方法更直觀且易于解釋。應(yīng)用本方法對在同一個樣品靶上的人膀胱癌變組織和其相鄰非癌變組織切片質(zhì)譜成像數(shù)據(jù)進行分析，癌變與非癌變組織間差異清晰直觀。本研究設(shè)計的質(zhì)譜成像軟件可由http://www.msimaging.net獲取。

本文系國家科技支撐計劃課題（No. 2009BAK59B03）和國家重大科學(xué)儀器設(shè)備開發(fā)專項（No. 2011YQ0900501）資助

* Email:xingchuangxiong@gmail.com

1 引言



質(zhì)譜成像技術(shù)（Mass spectrometry imaging，MSI）能夠在同一個實驗中同時獲取樣品表面的分子信息及分子的空間分布信息\\[1～3\\]。MSI分析對象隨著離子源的發(fā)展從元素成像發(fā)展到小分子成像，生物組織的蛋白、多肽和脂質(zhì)分子成像。MSI技術(shù)從二維成像發(fā)展到三維成像\\[4～6\\]。MSI的應(yīng)用從早期材料成像分析拓展到法庭科學(xué)\\[7\\]、字畫鑒定\\[8\\]，藥物及其代謝物在組織內(nèi)的分布研究\\[9～11\\]，癌變組織邊界測定\\[12\\]、腫瘤標志發(fā)現(xiàn)\\[13\\]、醫(yī)學(xué)診斷、分子病理研究等領(lǐng)域\\[14～19\\]。MSI成為當前質(zhì)譜分析的研究熱點。

MSI分析所得的數(shù)據(jù)往往包括樣品表面上每個采樣點的質(zhì)譜全譜數(shù)據(jù)。隨著樣品表面積、空間分辨率（單位面積內(nèi)樣品采樣點數(shù)）、分析的質(zhì)量數(shù)范圍及質(zhì)量分辨率的增加，數(shù)據(jù)量及復(fù)雜度遞增。在復(fù)雜的表面質(zhì)譜成像分析中，空間分辨率、質(zhì)量分辨率和質(zhì)量范圍的增長呈越來越明顯的要求和趨勢。對復(fù)雜基質(zhì)的大量質(zhì)譜成像數(shù)據(jù)，靠手動挑選每一個離子譜圖的方法，不僅耗時乏味，而且越來越不能滿足MSI高通量分析的需求\\[20\\]。為此，多元統(tǒng)計分析方法被用于處理MSI數(shù)據(jù)，實現(xiàn)數(shù)據(jù)降維和特征提取\\[21，22\\]。其中應(yīng)用最廣泛的是主成分分析方法，主成分分析能夠有效對數(shù)據(jù)降維、壓縮數(shù)據(jù)，但其結(jié)果數(shù)據(jù)中常有負數(shù)據(jù)，使結(jié)果難以解釋。非負分解是一種多元變量數(shù)據(jù)因子分解方法，已成功應(yīng)用于圖像分析，提取局部圖像特征\\[23\\]。非負分解的約束條件是分解所得數(shù)據(jù)均為非負。原數(shù)據(jù)可以由分解所得數(shù)據(jù)線性組合近似表示，易于解釋其結(jié)果數(shù)據(jù)的意義，適合于MSI數(shù)據(jù)的分解和特征提取。

2 實驗部分

2.1 質(zhì)譜成像數(shù)據(jù)非負分解算法描述



設(shè)X是質(zhì)譜成像數(shù)據(jù)集，是N×M階矩陣，其中N表示樣品采樣點的個數(shù)（N通常有r行，c列； M表示質(zhì)量數(shù)的個數(shù)）。從行向量看是N個樣品點對應(yīng)的質(zhì)譜圖數(shù)據(jù)，從列向量看是M個質(zhì)量數(shù)對應(yīng)的離子圖像。非負分解方法就是尋找能夠近似表達X的非負矩陣W和非負矩陣H，其中W為N×P矩陣，H為P×M階矩陣，這兩個矩陣的每個元素都是非負數(shù)。P的選取通常遵守P＜（N×M）/（N＋M），由于P小于M和N，因此非負分解有降維、壓縮數(shù)據(jù)的功能。X＝WH＋E，其中E為N×M階矩陣，通常表示噪音或誤差。因此X≈WH，即

Xnm≈（WH）nm＝∑Pa＝1（WnaHam）（1）

其中，a，n，m變量分別是整數(shù)（a＝1，...P; m＝1，...M; n＝1，...N），在本文的后續(xù)表述中，意義相同。

為了更好地解釋其意義，將等式（1）元素形式改寫為等式（2）向量形式：

 分析化學(xué)第40卷

第5期熊行創(chuàng)等：基于非負分解方法的質(zhì)譜成像數(shù)據(jù)特征提取 

xm≈∑Pa＝1（Wahma）＝Ｗhm（2）

其中，向量xm是X（N×M）的第m列，是列向量（N×1），表示第m個質(zhì)量數(shù)對應(yīng)的離子圖像。Wa是W（N×P）的第a列（a＝1，...， P），也是列向量（N×1）。W可以看作是由P個Wa數(shù)據(jù)塊（“數(shù)據(jù)積木”）組成。hm是H（P×M）的第m列，是列向量（P×1），而hma是該列向量中第a個元素，表示第a個數(shù)據(jù)塊Wa（“數(shù)據(jù)積木”）在第m個離子圖像上的強度值（或系數(shù)值）。

從（2）式可見，每個質(zhì)量數(shù)對應(yīng)的離子圖像都可以分解為P個公共基本圖像（P個Wa“數(shù)據(jù)積木”）與P個系數(shù)值的線性組合。因此，如果P選擇合理，由P個公共基本圖像組成的W可以表示為X的圖像特征，即分子在表面上的分布特征；而由P條譜圖數(shù)據(jù)組成的H可表示為質(zhì)譜成像的分子組成特征。

應(yīng)用等式（3）——誤差平方（歐式距離）函數(shù)表示非負分解結(jié)果與原數(shù)據(jù)間的誤差。

E（W，H）＝‖X

Symbolm@@ WH‖2＝∑nm（Xnm－（WHnm））2（3）

通過最小化E（W，H）誤差平方來尋找能夠近似表示X的非負W和H的分解因子。通過等式（4）進行多次迭代，計算最優(yōu)的W和H。

Ham←HamWTX（WTWH）am Wna←Wna（WHT）na（WHHT）na（4）

算法的原理參照相關(guān)文獻\\[24，25\\]

2.2 質(zhì)譜成像數(shù)據(jù)三色疊加顯示

從質(zhì)譜成像數(shù)據(jù)非負分解獲得的圖像特征數(shù)據(jù)集中，任選W1， W2和W3，分別用紅、綠、藍3種顏色表示其信號強度，即RGB（IW1，0，0），RGB（0， IW2，0），RGB（0，0， IW3）。其中IW1、IW2和IW3分別表示強度的映射值，其數(shù)據(jù)范圍為\\[0，255\\]，0表示強度的最小值、255表示最大值。然后將W1，W2，W3三幅圖疊加顯示，新合成圖的每個像素信號強度值的顏色表示RGB（IW1， IW2， IW3）。

2.3 代碼開發(fā)

應(yīng)用Matlab語言（The MathWorks， Natick， MA， USA）開發(fā)質(zhì)譜成像數(shù)據(jù)非負分解及三色疊加顯示軟件工具。數(shù)據(jù)輸入包括原始數(shù)據(jù)集X（樣品的行數(shù)r和列數(shù)c）及質(zhì)量軸列表信息，需要調(diào)節(jié)的運行參數(shù)包括成分數(shù)P和迭代次數(shù)，輸出結(jié)果包括圖像特征W和分子特征H以及分解誤差系數(shù)（Mean squared normalized error）。通過任選3個基本圖像，用三色疊加方式顯示其疊加圖，獲得不同分子分布特征的輪廓。

3 結(jié)果與討論

3. 1 小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)的非負分解與主成分分析

對小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)（由美國普渡大學(xué)Cooks教授課題組提供）分別進行主成分分析和非負分解。該原始數(shù)據(jù)由DESI離子源（負離子模式）結(jié)合Thermo LTQ質(zhì)譜儀進行質(zhì)譜成像分析獲得。對原始質(zhì)譜數(shù)據(jù)（質(zhì)量范圍m/z 150～1100，單位質(zhì)量分辨）進行圖像重構(gòu)和譜峰歸一化到\\[0，1\\]范圍內(nèi)，獲得950個質(zhì)量數(shù)，無數(shù)據(jù)平滑、譜峰篩選等處理過程。組織切片采樣數(shù)據(jù)行數(shù)r為75，列數(shù)c為104，共7800個采樣點。因此，原始質(zhì)譜成像數(shù)據(jù)X為7800×950。

3.1.1 主成分分析方法應(yīng)用主成分分析方法（應(yīng)用Matlab開發(fā)小工具）處理X數(shù)據(jù)。主成分分析也可表示為X＝WH＋E或者X≈WH，類似于非負分解的表達形式。主成分分析與非負分解主要區(qū)別在于分解的限制條件不同，非負分解中W， H限制其每個元素都是非負值；主成分分析中的W和H要求分別各自正交（即HHT為單位矩陣，WTW為對角矩陣），因此W和H中常常有負值。通常，將W稱為得分數(shù)據(jù)集，將H稱為載荷數(shù)據(jù)集。主成分所占總信息量依次減少，即第1主成分最多，第2主成分次之。

選取前3個主成分（數(shù)據(jù)信息量共占原數(shù)據(jù)的74.01%）示于圖1。

[TS（][HT5”SS]圖1 應(yīng)用主成分析方法處理小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)結(jié)果圖

Fig．1 Principal component analysis （PCA） result maps of mass spectrometry imaging data of a mouse brain section tissue

（a）圖為前3個主成分的載荷數(shù)據(jù)圖。（b）圖左列為m/z 256， m/z 835和m/z 889的載荷數(shù)據(jù)，分別提取于載荷圖（a），用3種顏色標示。（b）圖中間列為前3個主成分的得分圖。（b）圖右列為重構(gòu)后的m/z 256， 835和889離子圖。前3個主成分占原數(shù)據(jù)總信息量74.01%（其中，PC1：47.18%，PC2：15.01%，PC3：11.82%）。應(yīng)用（hm）TWT＝Whm＝xm等式，將分解得到的m/z 256， m/z 835和m/z 889的載荷數(shù)據(jù)（示于（b）圖左列）與得分圖數(shù)據(jù)（示于（b）圖中間列）重構(gòu)出相應(yīng)的離子圖數(shù)據(jù)（示于（b）圖右列）。重構(gòu)圖與原始離子圖的均方根差分別為：0.8395， 0.1312和0.1366，基本反應(yīng)了原始數(shù)據(jù)的主要特征。但是其載荷數(shù)據(jù)和得分數(shù)據(jù)中都存在負值，使其結(jié)果難于解釋。

（a） Loading plots of the frist three principal components （PCs）. （b） Loading data of m/z 256， 835 and 889 in the left column， the corresponding scores maps in the middle column， the reconstructed ion maps in the right column.. The three PCs kept 74.01% of the total variance （PC1: 47.18%， PC2: 15.01%， PC3: 11.82%）. By applying the equation （hm）TWT＝Whm＝xm， the ion maps shown in the right column of （b） were reconstructed from the linear combination of the loading data shown in the left column of （b） and the scores shown in the middle column of （b）. The rootmeansquareerror between the reconstructed maps and the corresponding original maps were 0.8395， 0.1312 and 0.1366， which indicated the reconstructed maps kept the principal feature of the original maps. However， there were negative value in both the loading plots and the scores maps， which made the interpretation of the results data from PCA very difficult.[HT][TS）]

從圖1可見，3個質(zhì)譜峰m/z 835（實際上是m/z 834.7，phosphatidylserine 18∶0/22∶6，在小鼠腦組織灰質(zhì)區(qū)域有較高含量），m/z 889（實際上是m/z 888.8，sulfatide 24∶1，在小鼠腦組織白質(zhì)區(qū)域有較高含量）和m/z 256特征突出。在第1主成分載荷圖（H1）中，m/z 835和m/z 889系數(shù)較高，為正值，而m/z 256系數(shù)也較高，為負值；在其相應(yīng)的得分圖（W1）中，可以看出灰質(zhì)區(qū)域（淺藍色表示）、白質(zhì)區(qū)域（藍色表示）為正值，背景區(qū)域為負值。第1主成分占了總信息量的主要特征。第2主成分載荷圖（H2）中，m/z 256和 835系數(shù)較高，為正值，m/z 889系數(shù)也較高，為負值，在其相應(yīng)的得分圖（W2）中，可以看出白質(zhì)區(qū)域為負值，背景區(qū)域為正值，但是灰質(zhì)區(qū)域不明顯。而在第3主成分載荷圖（H3）中，m/z 835系數(shù)較高，為正值，m/z 889系數(shù)也較高，為負值，在其相應(yīng)的得分圖（W3）中，可以看出白質(zhì)區(qū)域為負值，灰質(zhì)區(qū)域為正值，背景區(qū)域不明顯。

從離子圖的重建過程可以看出，m/z 256的系數(shù)（h1＝ m/z 256）有正值和負值，與得分數(shù)據(jù)（W有正值和負值）線性組合后，所得m/z 256離子圖（x1＝ m/z 256）正值部分為背景區(qū)域，與原始數(shù)據(jù)相似，但存在負值（白質(zhì)區(qū)域）。每一個離子圖的重構(gòu)可以表示為xm ＝Whm＝（hm）TWT，即載荷系數(shù)與得分數(shù)據(jù)的線性組合，但是各成分數(shù)值有正有負，重構(gòu)過程有加有減，難以解釋為單一的特征。

主成分分析所得的得分圖像與載荷圖譜，在提取特征時存在兩個問題：（1）由于存在負值，其解釋較為困難。此處的正負值不能簡單用大小區(qū)別，屬于同一符號的可以區(qū)分大小，但是符號不同需要分別對待。因此，需要將載荷數(shù)據(jù)的正值與相應(yīng)得分數(shù)據(jù)正值聯(lián)系起來，載荷數(shù)據(jù)的負值與相應(yīng)得分數(shù)據(jù)負值聯(lián)系起來解釋，而且在得分圖中，需要將正值與負值的表示用不同的顏色表示，以便區(qū)分；（2）由于主成分的所占的信息量是依次遞減，第1主分成分占最大信息，所以第1主成分就盡可能多地綜合了多個特征信息（能夠有效地降維、壓縮數(shù)據(jù)），信息的過分綜合就不易分解，很難直觀地解釋為單一分子特征譜和特征圖像。這是由主成分分析原理所決定的。以此圖為例，第1主成分綜合了白質(zhì)、灰質(zhì)和背景特征信息，第2主成分綜合了白質(zhì)和背景特征信息，第3主成分綜合了白質(zhì)和灰質(zhì)特征信息。

3.1.2 非負分解方法應(yīng)用非負分解方法處理同一組數(shù)據(jù)。選取3個成分變量，即P＝3，應(yīng)用非負分解方法處理結(jié)果示于圖2。由圖2可見，系數(shù)譜1（H1）主要質(zhì)譜峰是m/z 835，其相應(yīng)的公共基本圖像1（W1）為小鼠腦組織灰質(zhì)區(qū)域；系數(shù)譜2（H2）主要質(zhì)譜峰是m/z 256，其相應(yīng)的公共基本圖像2（W2）為非樣品組織區(qū)域，即背景區(qū)域；系數(shù)譜3（H3）主要質(zhì)譜峰是m/z 889，其相應(yīng)的公共基本圖像3（W3）為小鼠腦組織白質(zhì)區(qū)域。系數(shù)譜和公共基本圖像均無負值。各成分間沒有主次之分。

[TS（][HT5”SS]圖2 應(yīng)用非負分解方法（選取3個成分變量）處理小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)結(jié)果圖

Fig．2 Nonnegative matrix factorization （NMF） result maps （3 components） of mass spectrometry imaging data of mouse brain tissue

（a）圖為3個成分的系數(shù)譜圖。（b）圖左列為m/z 256， 835和889的系數(shù)，分別提取于系數(shù)譜圖（a），用不同的顏色標示。（b）圖中間列為3個成分的公共基本圖像。（b）圖右列為重構(gòu)圖后m/z 256， 835和889的離子圖。應(yīng)用（hm）TWT＝Whm＝xm等式將分解得到的m/z 256， 835和889的系數(shù)（示于（b）圖左列）與得分圖數(shù)據(jù)（示于（b）圖中間列）重構(gòu)出相應(yīng)的離子圖數(shù)據(jù)（示于（b）圖右列）。重構(gòu)圖與原始離子圖的均方根差分別是：0.0916， 0.1329和0.0535，基本能反應(yīng)原始數(shù)據(jù)的主要特征。

（a） Coefficient plots of three components. （b） Coefficient data of m/z 256， 835 and 889 in the left column， base images of the three components in the middle column， reconstructed ion maps in the right column. By applying the equation （hm）TWT＝Whm＝xm， the ion maps shown in the right column of （b） were reconstructed from the linear combination of the coefficient data shown in the left column of （b） and base images shown in the middle column of （b）. Root mean square error between the reconstructed maps and the corresponding original maps were 0.0916， 0.1329 and 0.0535， which indicated the reconstructed maps kept the principal features of the original maps.[HT][TS）]

從離子圖的重建過程可以看出，m/z 256的系數(shù)（h1＝ m/z 256）為非負值，與得分數(shù)據(jù)（W，3個公共基本圖像）線性組合后，所得m/z 256離子圖（x1＝m/z 256）正值部分為背景區(qū)域，與原始數(shù)據(jù)相似。每一個離子圖的重構(gòu)可以表示為xm ＝Whm＝（hm）TWT，即載荷系數(shù)與得分數(shù)據(jù)的線性組合，由于各成分數(shù)值非負，過程有加無減，是線性“加和”，可以解釋為若干個特征單一公共基本圖像（積木數(shù)據(jù)），按照相應(yīng)的系數(shù)加權(quán)疊加而成。因此，非負分解，如果組分P選擇合理，系數(shù)譜圖可以看作是質(zhì)譜成像數(shù)據(jù)的分子組成特征，而公共基本圖像可以看作是分子在表面上的分布特征。

對比圖1和圖2，可清晰地看出，由于主成分分析存在負值，其載荷圖和得分圖難以解釋，不夠直觀；而非負分解無負值，一張離子圖可以表達為由各基本圖的線性“加和”，較容易解釋其意義，圖像直觀。

再應(yīng)用RGB三色疊加顯示，將非負分解所得的公共基本圖像通過紅、綠、藍三色疊加，示于圖3。從疊加圖可看出，其輪廓清晰直觀。

[TS（][HT5”SS]圖3 小鼠腦組織切片質(zhì)譜成像數(shù)據(jù)經(jīng)過非負分解方法處理所得特征分布圖及其RGB疊加圖

Fig．3 Nonnegative matrix factorization （NMF） feature maps of mass spectrometry imaging （MSI） data of a mouse brain section and their RGB （redgreenbule） color overlaid map

（a）為第一成分的分布圖（腦組織灰質(zhì)區(qū)域，用紅顏色表示）；（b）為第二成分的分布圖（非樣品組織區(qū)域，用綠色表示）；（c）為第三成分的分布圖（腦組織白質(zhì)區(qū)域，用藍色表示）；（d）為這3個成分的RGB疊加圖

（a） First component distribution map with the grey matter regions of the mouse brain tissue highlighted in red，（b） Second component distribution map with the background regions in the whole sample highlighted in green，（c） Third component distribution map with the regions of white matter in the mouse brain tissue highlighted in blue，（d） RGB color map overlaid by （a），（b） and （c）[HT][TS）]

3.2 同一樣品靶上人膀胱癌組織和其鄰近正常組織質(zhì)譜成像數(shù)據(jù)的非負分解

用非負分解法及三色疊加法分析同一樣品靶上人膀胱癌組織和其鄰近非癌變組織質(zhì)譜成像數(shù)據(jù)（由美國普渡大學(xué)Cooks課題組提供）。該癌變組織及其鄰近非癌變組織均由提供該組織的臨床醫(yī)生嚴格確

[TS（][HT5”SS]圖4 人膀胱癌組織及其鄰近組織切片質(zhì)譜成像數(shù)據(jù)經(jīng)過非負分解方法（選取3個成分變量）處理所得特征分布圖及其RGB疊加圖

Fig．4 Nonnegative matrix factorization result maps of mass spectrometry imaging （MSI） data of a human cancerous and adjacent normal bladder tissue sections and their RGB overlaid map

（a），（b），（c）分別是3個成分的系數(shù)圖譜，即分子特征圖譜。（d），（e），（f）分別是相應(yīng)的公共基本圖像，即分子分布特征圖像。（g）為（d），（e），（f）三圖的RGB三色疊加圖。（h）為組織染色圖

（a），（b） and （c）， Coefficient plots of three components with their feature mass spectral highlighted individually. （d），（e） and （f）， Base images of three components showing the distribution of corresponding molecules on tissue sections. （g） RGB color overlaid map of （a），（b） and （c）. （h） HE stained tissue sections of tumor tissue and its adjacent tissue.[HT][TS）]

認。質(zhì)譜原始數(shù)據(jù)均由DESI離子源（負離子模式）結(jié)合Thermo LTQ質(zhì)譜儀進行質(zhì)譜成像分析獲得\\[26\\]。

對原始質(zhì)譜數(shù)據(jù)（質(zhì)量范圍m/z 150～1000，單位質(zhì)量分辨）進行圖像重構(gòu)和質(zhì)譜峰強歸一化\\[0，1\\]，獲得850個質(zhì)量數(shù)，無數(shù)據(jù)平滑、譜峰篩選等處理過程。組織切片采樣數(shù)據(jù)行數(shù)r為32，列數(shù)c為69，共2208個采樣點。因此，原始質(zhì)譜成像數(shù)據(jù)X為2208×850。

應(yīng)用非負分解方法處理此質(zhì)譜成像數(shù)據(jù)。選取3個成分變量，即P＝3，應(yīng)用非負分解方法處理結(jié)果示于圖4。從圖4可見，（a）為癌變區(qū)域的質(zhì)譜特征峰，

（e）為其相應(yīng)的癌變組織分布圖像；（b）為非癌變組織區(qū)域的質(zhì)譜特征峰，（d）為其相應(yīng)的非癌變組織分布特征；（c）為非組織區(qū)域的質(zhì)譜特征峰，（f）為相應(yīng)的背景區(qū)域。公共基本圖像三色疊加圖（g）與組織染色圖（h）非常相似，而且癌變與非癌變差異明顯，一目了然。該方法有可能發(fā)展為病變組織差異快速確認的數(shù)據(jù)分析方法。4 結(jié) 論

基于非負分解的質(zhì)譜成像數(shù)據(jù)特征提取方法，通過非負分解得出單一的分子組成特征及相應(yīng)分布特征，然后將多個單一特征分布進行三色疊加顯示，可直觀清晰顯示其輪廓。能夠快速有效提取成像數(shù)據(jù)的分子組成特征以及分子在表面上的分布特征。本方法相對于主成分分析，其數(shù)據(jù)結(jié)果更易解釋，更加直觀，而且具有原始數(shù)據(jù)前處理簡單等優(yōu)點，可作為快速特征提取方法應(yīng)用于基于生物分子質(zhì)譜成像臨床醫(yī)學(xué)研究和生命科學(xué)研究。



致謝感謝美國普渡大學(xué)Cooks教授課題組提供的質(zhì)譜成像原始數(shù)據(jù)。



References

1 Pacholski M L， Winograd N. Chemical Reviews， 1999， 99（10）: 2977～3006

2 McDonnell L A，Heeren R M A. Mass Spectrometry Reviews， 2007， 26（4）: 606～643

3 Caprioli R M. Proteomics， 2008， 8（18）： 3679～3680

4 Sinha T K， KhatibShahidi S， Yankeelov T E， Mapara K， Ehtesham M， Cornett D S， Dawant B M， Caprioli R M，Gore J C. Nature Methods， 2008， 5（1）: 57～59

5 Andersson M， Groseclose M R， Deutch A Y，Caprioli R M. Nature Methods， 2008， 5（1）： 101～108

6 Eberlin L S， Ifa D R， Wu C， Cooks R G. Angewandte ChemieInternational Edition， 2010， 49（5）： 873～876

7 Ifa D R， Manicke N E， Dill A L， Cooks G. Science， 2008， 321（5890）： 805～805

8 Liu Y， Ma X， Lin Z， He M， Han G， Yang C， Xing Z， Zhang S， Zhang X. Angewandte ChemieInternational Edition， 2010， 49（26）： 4435～4437

9 Wiseman J M， Ifa D R， Zhu Y X， Kissinger C B， Manicke N E， Kissinger P T，Cooks R G. Proceedings of the National Academy of Sciences of the United States of America， 2008， 105（47）： 18120～18125

10 Rubakhin S S， Jurchen J C， Monroe E B，Sweedler J V. Drug Discovery Today， 2005， 10（12）： 823～837

11 KhatibShahidi S， Andersson M， Gillespie T A， Caprioli R M. Anal. Chem.， 2006， 78（18）： 6448～6456

12 Oppenheimer S R， Mi D， Sanders M E，Caprioli R M. Journal of Proteome Research， 2010， 9（5）： 2182～2190

13 Lemaire R， Ait Menguellet S， Stauber J， Marchaudon V， Lucot JP， Collinet P， Farine MO， Vinatier D， Day R， Ducoroy P， Salzet M， Fournier I. Journal of Proteome Research， 2007， 6（11）： 4127～4134

14 YANG ShuiPing， CHEN HuanWen， YANG YuLing， HU Bin， ZHANG Xie， ZHOU YuFen， ZHANG LiLi， GU HaiWei. Chinese J. Anal. Chem.， 2009， 37（3）： 315～318

楊水平，陳煥文，楊宇玲，胡斌，張燮，周瑜芬，張麗麗，顧海威. 分析化學(xué)， 2009， 37（3）： 315～318

15 Eberlin L S， Dill A L， Golby A J， Ligon K L， Wiseman J M， Cooks R G，Agar N Y R. Angewandte ChemieInternational Edition， 2010， 49（34）： 5953～5956

16 Cazares L H， Troyer D， Mendrinos S， Lance R A， Nyalwidhe J O， Beydoun H A， Clements M A， Drake R R， Semmes O J. Clinical Cancer Research， 2009， 15（17）： 5541～5551

17 LIU Nian， LIU Feng， XU Bin， GAO YaBing， LI XiangHong， WEI KaiHua， ZHANG XueMin， YANG SongCheng. Chinese J. Anal. Chem.， 2008， 36（4）: 421～425

劉念，劉鋒，許彬，高亞兵，李向紅，魏開華，張學(xué)敏，楊松成. 分析化學(xué)， 2008， 36（4）: 421～425

18 LIU Hui， CHEN GuoQiang， WANG YanYing， LI ZhiLi． Chinese J. Anal. Chem.， 2011， 39（1）: 87～90

劉輝，陳國強，王艷英，李智立. 分析化學(xué)， 2011， 39（1）: 87～90

19 CHEN HuanWen ， HU Bin， ZHANG Xie. Chinese J. Anal. Chem.， 2010， 38（8）: 1069～1088

陳煥文，胡斌，張燮. 分析化學(xué)， 2010， 38（8）： 1069～1088

20 Watrous J D， Alexandrov T， Dorrestein P C. Journal of Mass Spectrometry，  2011， 46（2）： 209～222

21 Dubey M， Emoto K， Cheng F， Gamble L J， Takahashi H， Grainger D W，Castner D G. Surface and Interface Analysis， 2009， 41（8）： 645～652

22 Park J W， Min H， Kim Y P， Shon H K， Kim J， Moon D W， Lee T G. Surface and Interface Analysis， 2009， 41（8）： 694～703

23 Lee D D， Seung H S. Nature， 1999， 401（6755）： 788～791

24 Lee D D， Seung H S. Algorithms for Nonnegative Matrix Factorization， in Advances in Neural Information Processing Systems 13， Leen， Editor. 2001： 556～562

25 Hoyer P O. Journal of Machine Learning Research， 2004， 5： 1457～1469

26 Dill A L， Eberlin L S， Costa A B， Zheng C， Ifa D R， Cheng L A， Masterson T A， Koch M O， Vitek O， Cooks R G. Chemistrya European Journal， 2011， 17（10）： 2897～2902



Feature Extraction Approach for Mass Spectrometry Imaging

Data Using Nonnegative Matrix Factorization



XIONG XingChuang1，2， FANG Xiang2， OUYANG Zheng3， JIANG You2， HUANG ZeJian2， ZHANG YuKui1



1（School of Life Science， Beijing Institute of Technology， Beijing 100081， China）

2（National Institute of Metrology Beijing 100013， China）

3（Weldon School of Biomedical Engineering， Purdue University， West Lafayette 47907， USA）



Abstract Mass spectrometry imaging （MSI） provides molecules composition information and corresponding spatial information on complex biological surfaces in a single experiment without label. It is getting significant amount of attention in the mass spectrometric community currently. However， due to the large mount and complexity of MSI data， its data reduction and feature extraction are always a problem. Some multivariate statistical analysis methods， for example， the famous principal component analysis （PCA）， were developed to address this issue. But the results with negative value are hard to be interpreted as features about molecules. A feature extraction approach for MSI data by applying nonnegative matrix factorization was developed. It could extract single molecules composition feature and the corresponding distribution （basic images）， and further integrated the basic images to create a profile showing the whole sample by RGB （redgreenblue） color overlaid model clearly. The MSI data of a mouse brain section were used to test the efficiency of this approach compared with PCA. The white matter regions， the grey matter regions and the background regions were clearly shown and the corresponding molecules mass spectra were extracted， which indicated the approach is easier than PCA in result interpreting. Moreover， the MSI data of a human cancerous and adjacent normal bladder tissue sections on the same sample target were analyzed by the approach， the cancerous regions and the normal regions were clearly differentiated. The software developed in this paper could be downcoaded from the website http://www.msimaging.net.

Keywords Mass spectrometry imaging; Feature extraction; Nonnegative matrix factorization; Principal component analysis

（Received 25 October 2011; accepted 5 December 2011）

分析化學(xué)2012年5期

分析化學(xué)的其它文章: 碳納米管負載鉑-二氧化釕納米顆粒用于葡萄糖傳感器的研究; 鄰碘苯甲酸電還原脫碘的原位紅外光譜研究; 高效液相色譜-串聯(lián)質(zhì)譜法測定食品中硝磺草酮; 銀二氧化硅核殼增強異硫氰酸熒光素酯濾紙基質(zhì)室溫磷光法檢測賴氨酸; 超高效液相色譜-串聯(lián)四極桿質(zhì)譜法檢測小型家電外殼中的六溴環(huán)十二烷; 基于液晶取向變化檢測有機胺化合物的方法