張 敏,黃 鋼
(1.上海理工大學(xué) 健康科學(xué)與工程學(xué)院,上海 200093;2.上海健康醫(yī)學(xué)院附屬嘉定中心醫(yī)院 上海市分子影像學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201318)
質(zhì)譜成像(Mass Spectrometry Imaging,MSI)是一項(xiàng)快速發(fā)展的免標(biāo)記分子成像技術(shù),能夠?qū)崿F(xiàn)蛋白質(zhì)、肽、脂質(zhì)、代謝物和藥物分子等多種分子的空間分布可視化和相對(duì)定量分析,具有高靈敏度和分子特異性[1]。這些分子數(shù)據(jù)可以在通路識(shí)別、生物標(biāo)志物發(fā)現(xiàn)、手術(shù)指導(dǎo)、改善臨床診斷和預(yù)后等方面發(fā)揮重要作用[2-4]。近年來(lái),研究者更多關(guān)注MSI 技術(shù)的空間分辨率、分子覆蓋深度和采集吞吐量的提升,大大增加了MSI 的數(shù)據(jù)量。因此,更有效、更準(zhǔn)確地挖掘MSI 數(shù)據(jù)以識(shí)別具有臨床重要性的分子特征并實(shí)現(xiàn)新的生物標(biāo)志物發(fā)現(xiàn)的計(jì)算發(fā)展是擴(kuò)大MSI 應(yīng)用的有效方式[5]。然而,由于MSI 數(shù)據(jù)的復(fù)雜性,傳統(tǒng)的機(jī)器學(xué)習(xí)算法在數(shù)據(jù)挖掘、聚類、可視化和分類上往往會(huì)受到計(jì)算機(jī)內(nèi)存和計(jì)算速度的限制[6]。原始的高分辨率MSI數(shù)據(jù)文件可高達(dá)數(shù)個(gè)TB 大小,其中包含了數(shù)萬(wàn)個(gè)光譜,每個(gè)光譜含104~106個(gè)質(zhì)荷比(mass-to-charge ratio,m/z),傳統(tǒng)的機(jī)器學(xué)習(xí)算法將造成“維度災(zāi)難”。
峰值拾取是分析原始MSI 數(shù)據(jù)的預(yù)處理步驟。峰值拾取可以減輕稀疏性并降低原始光譜維數(shù),同時(shí)通過(guò)保留盡可能多的m/z 特征信息來(lái)提高信噪比。此外,峰值拾取對(duì)于分子生物標(biāo)志物的識(shí)別、量化和發(fā)現(xiàn)至關(guān)重要[7]。盡管現(xiàn)有的峰值拾取算法已較為成熟,但基線去除、峰寬、信噪比和平滑等操作會(huì)引入一定程度的主觀性,從而影響生成的峰列表。預(yù)處理參數(shù)的選擇很大程度上依賴于使用者的專業(yè)知識(shí),這將導(dǎo)致生物標(biāo)志物識(shí)別的顯著差異。
進(jìn)行峰值拾取后,原始數(shù)據(jù)的維度降低,但MSI 數(shù)據(jù)仍具高維復(fù)雜性。MSI數(shù)據(jù)中的一張二維圖像通常由數(shù)千個(gè)高維像素組成,每個(gè)像素都有數(shù)百個(gè)峰值。常用的降維算法是將高維點(diǎn)投影到較小的子空間中,來(lái)實(shí)現(xiàn)潛在變量的捕獲和可視化,從而通過(guò)潛在變量揭示分子模式,反映可能具有生物學(xué)相關(guān)性的相似光譜簇[8]。主成分分析(Principal Component Analysis,PCA)和非負(fù) 矩陣分 解(Non-Negative Matrix Factorization,NNMF)的線性降維法已廣泛用于MSI數(shù)據(jù)分析[9-10]。線性降維法的主要限制在于算法的線性約束,不能捕獲光譜結(jié)構(gòu)中的非線性特征,進(jìn)而影響潛在變量的準(zhǔn)確識(shí)別。與此同時(shí),t 分布隨機(jī)鄰嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)的非線性降維法近年多被用于組學(xué)數(shù)據(jù)分析[11]。然而,盡管許多研究者在提高t-SNE 計(jì)算和內(nèi)存可擴(kuò)展性方面取得了進(jìn)展,但它仍然需要將全部數(shù)據(jù)加載到RAM 中,這限制了高分辨率MSI 數(shù)據(jù)集的應(yīng)用。有研究者對(duì)2D MSI 數(shù)據(jù)集進(jìn)行峰值拾取后,使用神經(jīng)網(wǎng)絡(luò)的自編碼器進(jìn)行降維。與PCA 和NNMF 方法相比,該方法實(shí)現(xiàn)了MSI 數(shù)據(jù)非線性流形的捕獲,但是分析速度有限。最近Walid 等[12]開(kāi)發(fā)了一種用于MSI 數(shù)據(jù)分析和峰值學(xué)習(xí)的深度學(xué)習(xí)工具——msiPL,該方法直接將原始MSI 數(shù)據(jù)輸入到模型,且無(wú)需進(jìn)行處理。
本研究在借鑒國(guó)內(nèi)外研究的基礎(chǔ)上,以兩種不同組織、不同質(zhì)譜儀器和不同分辨率的MSI 數(shù)據(jù)為例,基于變分自編碼器神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型學(xué)習(xí)并可視化MSI數(shù)據(jù)底層譜結(jié)構(gòu)的非線性特征;同時(shí)通過(guò)對(duì)復(fù)雜分子模式的無(wú)監(jiān)督分析及特定的m/z 值的學(xué)習(xí),揭示了小鼠腎臟組織解剖學(xué)的生物學(xué)相關(guān)簇(內(nèi)髓部、外皮層、腎盂和內(nèi)皮層小管)和小鼠胃癌模型中的腫瘤異質(zhì)性,并識(shí)別了潛在的特定m/z 峰。通過(guò)使用均方誤差(MSE)定量評(píng)估來(lái)評(píng)估VAE 模型的學(xué)習(xí)質(zhì)量,即評(píng)估模型的重建數(shù)據(jù)與原始數(shù)據(jù)之間的重建損失。最后,以MSE 為評(píng)估指標(biāo)將msiPL 方法與其他幾種專為MSI 開(kāi)發(fā)的高效降維方法(PCA、MemoryEfficient PCA 和DWT+PCA)進(jìn)行了比較。
實(shí)驗(yàn)中小鼠腎組織數(shù)據(jù)集來(lái)自METASPACE 中的Mouse Kidney 數(shù)據(jù)集,該數(shù)據(jù)集由MALDI+FT-ICR 儀器在正離子模式下獲得,其中m/z 在100~1998.07 的范圍內(nèi)。采集空間分辨率設(shè)置為50μm,包含了21535 個(gè)像素,每個(gè)像素含5397個(gè)m/z。
實(shí)驗(yàn)中的方法驗(yàn)證數(shù)據(jù)集來(lái)源于公開(kāi)數(shù)據(jù)集[13]。rapifleX MALDI-TOF 儀器,橫向分辨率50μm。在采集MALDI-TOF 數(shù)據(jù)之后,使用7T solariX XR MALDI FT-ICR 分析進(jìn)行質(zhì)譜成像的組織切片。MALDI 成像實(shí)驗(yàn)是在正離子模式下,通過(guò)將m/z 設(shè)置在100~3000 范圍內(nèi),光柵寬度為20μm和15 次激光射擊完成的。選擇十一肽物質(zhì)P(RPKPQQFFGLM;[M+H]+,m/z 1347.7354)作為示蹤蛋白酶底物,平均強(qiáng)度為23000。原始數(shù)據(jù)集使用m/z 780.551([PC(34:2)+Na]+)進(jìn)行內(nèi)部校準(zhǔn)。該數(shù)據(jù)集包含以下兩個(gè)數(shù)據(jù)集:①小鼠胃癌模型MSI 數(shù)據(jù)集1:沒(méi)有噴涂蛋白酶底物示蹤劑物質(zhì)P,原始數(shù)據(jù)包含11006個(gè)像素,每個(gè)像素是一個(gè)高維數(shù)據(jù)點(diǎn),每個(gè)像素點(diǎn)有4944 個(gè)m/z值,即4944 維;②小鼠胃癌模型MSI 數(shù)據(jù)集2:噴涂蛋白酶底物示蹤劑物質(zhì)P,原始數(shù)據(jù)包含11823 個(gè)像素,每個(gè)像素含5138 個(gè)m/z值,即5138維。
使用R 語(yǔ)言的Cardinal 包對(duì)MSI 數(shù)據(jù)進(jìn)行總離子流(Total Ion Current,TIC)歸一化。在輸入msiPL 模型之前要將imzML 標(biāo)準(zhǔn)格式的MSI 數(shù)據(jù)通過(guò)Python 的h5py 包轉(zhuǎn)換為hdf5 格式,并保證輸入數(shù)據(jù)在[0,1]區(qū)間內(nèi)。MSI 數(shù)據(jù)有不同的歸一化策略,最終使用者可以根據(jù)實(shí)驗(yàn)?zāi)康倪x擇最好的MSI 歸一化策略,但msiPL 模型的輸入數(shù)據(jù)均需限制在[0,1]內(nèi)。因?yàn)槟P偷妮敵鰧觼?lái)源于一個(gè)sigmoid 激活函數(shù),因此它產(chǎn)生的值在[0,1]之間;同時(shí),輸入和輸出層的動(dòng)態(tài)范圍的一致性對(duì)于優(yōu)化VAE 網(wǎng)絡(luò)損失函數(shù)和最小化重建誤差至關(guān)重要。
msiPL 模型基于變分自編碼器(Variational AutoEncoder,VAE)結(jié)構(gòu)建立有效的無(wú)監(jiān)督學(xué)習(xí)、非線性降維和隨機(jī)變分推理。VAE 網(wǎng)絡(luò)[14]可同時(shí)優(yōu)化用于變分推理的概率編碼器(Encoder)和用于無(wú)監(jiān)督學(xué)習(xí)的概率解碼器(Decoder),如圖1所示(彩圖掃OSID 碼可見(jiàn),下同)。
編碼特征表示在低維空間中學(xué)習(xí)到的非線性流形,并從原始高維空間捕獲分子的空間模式。這些空間模式是基于較小的m/z特征子集形成的,因此識(shí)別具有生物學(xué)相關(guān)性的潛在m/z特征分子至關(guān)重要。
基于高斯混合[15](Gaussian Mixture Model,GMM)的編碼特征聚類方法計(jì)算速度快,并且在識(shí)別生物學(xué)相關(guān)的空間簇(腫瘤和非腫瘤簇)方面非常有效。k是可調(diào)參數(shù),可以手動(dòng)或自動(dòng)設(shè)置?;谛畔⒄摰膬?yōu)化過(guò)程可用于模型自動(dòng)選擇,但通過(guò)手動(dòng)選擇最佳模型可避免遺漏或高估的聚類平衡。由于BIC score 的分布[16]在可搜索范圍內(nèi)逐漸減小,本文將Kneedle 算法(Python,Kneed 包)應(yīng)用于BIC score 以檢測(cè)臨界點(diǎn)選擇最佳模型的最大曲率,即可得到推薦聚類數(shù)。
模型輸入MSI 數(shù)據(jù)的高維度特征表示,輸出MSI 數(shù)據(jù)降維之后的特征表示,模型框架如圖1 所示。MSI 數(shù)據(jù)的表示為X={X1,X2,X3,…,XN},其中N為樣本數(shù)。VAE 網(wǎng)絡(luò)由輸入層、三個(gè)隱藏層(h1、h2和h3)和輸出層構(gòu)成。輸入層和輸出層的神經(jīng)元個(gè)數(shù)為m/zbin 的個(gè)數(shù);h1、h2和h3的神經(jīng)元個(gè)數(shù)分別為512、5、512,其中h2的輸出是MSI 數(shù)據(jù)的5 維空間中壓縮的編碼特征表示。無(wú)監(jiān)督學(xué)習(xí)主要通過(guò)優(yōu)化由最大化生成原始數(shù)據(jù)的概率值和最小化真實(shí)和估計(jì)后驗(yàn)分布的Kullback-Leibler 散度,KL 散度和VAE loss 函數(shù)來(lái)最小化原始數(shù)據(jù)和重構(gòu)數(shù)據(jù)之間的重構(gòu)損失。利用均方誤差(Mean Squared Error,MSE)來(lái)衡量原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)之間的重構(gòu)誤差。學(xué)習(xí)率為0.001 的Adam 隨機(jī)梯度優(yōu)化器被用于epoch 為100,batchsize 為64的訓(xùn)練網(wǎng)絡(luò)。VAE 網(wǎng)絡(luò)基于Keras 的開(kāi)源深度學(xué)習(xí)庫(kù)構(gòu)建,并在Tensorflow 上運(yùn)行。
使用msiPL 對(duì)來(lái)自小鼠腎組織樣本的超高光譜分辨率單個(gè)MALDI+FT-ICR MSI 數(shù)據(jù)進(jìn)行分析。原始MSI數(shù)據(jù)包含21535 個(gè)像素,每個(gè)像素是一個(gè)高維數(shù)據(jù)點(diǎn),每個(gè)像素點(diǎn) 的m/z 在100~2000 范圍內(nèi),包 含l5397 個(gè)m/z值,即15397 維。使用msiPL 模型在該數(shù)據(jù)集上進(jìn)行降維和可視化實(shí)驗(yàn),神經(jīng)網(wǎng)絡(luò)以迭代方式執(zhí)行無(wú)監(jiān)督學(xué)習(xí),以最小化重建損失。如圖2(a)所示,優(yōu)化器在PC 工作站(Intel(R)Core(TM)i7-1065G7 CPU @1.30 GHz 1.50 GHz、16GB RAM、64 位Windows)上經(jīng)過(guò)不到100 次迭代后收斂,總運(yùn)行時(shí)間約為2 h。模型在原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)中的MSE 為3.49×10-4。圖2(b)給出了原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)的平均光譜分布,它們的疊加反映了模型的高質(zhì)量估計(jì)。
5 維編碼特征表示學(xué)習(xí)到的非線性特征,可視化并捕獲了15397 維的原始高維MSI 數(shù)據(jù)的分子模式。這些編碼特征可用于預(yù)測(cè)原始數(shù)據(jù)。MSI 數(shù)據(jù)的5 維空間中壓縮的編碼特征表示可視化結(jié)果如圖3所示。
將學(xué)習(xí)到的低維嵌入特征使用GMM 模型進(jìn)行聚類。圖4(a)是BIC score 結(jié)果圖,推薦k為10,也可參考病理學(xué)注釋結(jié)果手動(dòng)選擇設(shè)置k的值,研究根據(jù)腎組織的生物解剖學(xué)分割區(qū)域?qū)為12。BIC score 的范圍逐漸減小,然后用Kneedle 算法檢測(cè)BIC score 的最大曲率臨界點(diǎn)。使用GMM(k=12)對(duì)整個(gè)數(shù)據(jù)集的編碼特征進(jìn)行聚類識(shí)別,每個(gè)簇代表一個(gè)與小鼠腎臟解剖結(jié)構(gòu)共定位的分子模式,聚類圖像如圖4(b)所示。聚類圖像揭示了不同分子在組織中的空間分布,其聚類結(jié)果與參考文獻(xiàn)[17]的結(jié)果具有一致性。
Fig.2 Experimental results of msiPL model on MALDI+FT-ICR MSI data圖2 msiPL模型msiPL在MALDI+FT-ICR MSI數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果
Fig.3 5-dimensional encoded features visualization results圖3 5維編碼特征可視化結(jié)果
Fig.4 GMM clustering results圖4 GMM聚類結(jié)果
圖5 對(duì)每個(gè)簇皮爾遜系數(shù)最高的m/z離子的空間分布進(jìn)行了可視化。這些離子與對(duì)應(yīng)簇共定位,如簇1(內(nèi)髓部)、簇2(外皮層)、簇7(腎盂)、簇9(內(nèi)皮層小管)。
為了更直觀地體現(xiàn)該數(shù)據(jù)的重建質(zhì)量,圖6 可視化了5 種特定m/z分子的測(cè)量數(shù)據(jù)和重建數(shù)據(jù)的空間分布。表1為這5種特定分子在METASPACE 平臺(tái)的注釋結(jié)果。
將編碼的特征鏈接到原始m/z 變量。拉格朗日乘子β為一個(gè)超參數(shù),當(dāng)β 為1的時(shí)候,它即為標(biāo)準(zhǔn)的VAE。一個(gè)較高的β 值會(huì)降低前變量空間表示信息的豐富度,同時(shí)增加模型的解糾纏能力。因此,β 可以作為表示能力和解糾纏能力之間的平衡因子。超參數(shù)β 設(shè)置在[1,2.5]范圍內(nèi)較好。簡(jiǎn)化的峰值列表能夠揭示潛在空間中捕獲的分子模式的主要決定因素。當(dāng)β 為1 時(shí),學(xué)習(xí)到439 個(gè)m/z;β 為1.5,286個(gè)m/z;β為2196個(gè)m/z;β為2.5,144個(gè)m/z。
Katrin 等[13]基于MALDI-MSI 技術(shù)探究了小鼠胃癌組織的蛋白酶活性,通過(guò)蛋白酶底物示蹤劑物質(zhì)P 的衰減評(píng)估內(nèi)源性蛋白酶活性的空間分布,并提供了小鼠胃癌模型MSI數(shù)據(jù)集。①小鼠胃癌模型MSI數(shù)據(jù)集1:沒(méi)有噴涂蛋白酶底物示蹤劑物質(zhì)P,原始數(shù)據(jù)包含11006個(gè)像素,每個(gè)像素含4944 個(gè)m/z 值,即4944 維;②小鼠胃癌模型MSI 數(shù)據(jù)集2:噴涂蛋白酶底物示蹤劑物質(zhì)P,原始數(shù)據(jù)包含11823個(gè)像素,每個(gè)像素含5138 個(gè)m/z 值,即5138 維。使用msiPL 模型對(duì)這兩個(gè)數(shù)據(jù)集進(jìn)行降維和可視化實(shí)驗(yàn)。
Fig.5 Visualize the spatial distribution of the m/z ions with the highest Pearson coefficients per cluster圖5 可視化每個(gè)簇皮爾遜系數(shù)最高的m/z離子的空間分布
Fig.6 Spatial distribution of measured and reconstructed data for five specific m/z molecules圖6 5種特定m/z分子的測(cè)量數(shù)據(jù)和重建數(shù)據(jù)的空間分布
Table 1 Annotation results of five molecules表1 5種分子的注釋結(jié)果
神經(jīng)網(wǎng)絡(luò)以迭代方式執(zhí)行無(wú)監(jiān)督學(xué)習(xí),以最小化損失函數(shù)。如圖7 所示,優(yōu)化器在PC 工作站上經(jīng)過(guò)不到100 次迭代后收斂,總運(yùn)行時(shí)間約為40 min。
Fig.7 Optimization convergence and distribution of epochs圖7 優(yōu)化收斂和迭代次數(shù)(epoch)的分布
數(shù)據(jù)集1 和數(shù)據(jù)集2 的原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)的TIC 歸一化平均光譜分布如圖8(a)、圖8(b)所示。原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)之間的MSE 分別為1.94×10-4、0.70×10-4,重疊的部分反映了高質(zhì)量估計(jì)。
Fig.8 Visualize the distribution of the mean spectrum of the raw and predicted data圖8 可視化原始數(shù)據(jù)和預(yù)測(cè)數(shù)據(jù)平均光譜的分布
使用msiPL 模型對(duì)數(shù)據(jù)集2 進(jìn)行可視化分析。將學(xué)習(xí)到的低維嵌入特征使用GMM 模型進(jìn)行聚類,聚類結(jié)果如圖9(b)所示。將基于GMM 模型的聚類分割結(jié)果與H&E注釋結(jié)果(腫瘤、黏膜、腫瘤—黏膜過(guò)渡區(qū)和黏膜肌層)進(jìn)行對(duì)比分析,發(fā)現(xiàn)msiPL 模型聚類自動(dòng)分割識(shí)別腫瘤和非腫瘤區(qū),H&E 注釋結(jié)果如圖9(a)所示。同時(shí)基于GMM 模型的聚類分割結(jié)果與基于R 語(yǔ)言的Cardinal 包的空間感知收縮質(zhì)心聚類分割結(jié)果具有一致性,空間感知收縮質(zhì)心聚類分割結(jié)果如圖9(c)所示。
重點(diǎn)分析這5 種特定離子:腫瘤標(biāo)志物脂質(zhì)離子m/z 798.5(PC(34:1)+K+)、m/z 1347.7(物質(zhì)P)和肽裂解產(chǎn)物(m/z 1104.6、900.5、753.4),它們的離子圖像可視化如圖10 所示,同時(shí)通過(guò)可視化結(jié)果評(píng)估原始數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的重建損失。結(jié)合GMM 模型的聚類分割結(jié)果和H&E 染色結(jié)果分析,發(fā)現(xiàn)m/z 為798.54—(PC(34:1)+K+在胃腫瘤區(qū)富集,即胃腫瘤組織比非腫瘤組織顯示出更顯著的蛋白酶活性。與周圍黏膜和黏膜肌層相比,腫瘤組織中的P 物質(zhì)離子強(qiáng)度顯著且選擇性降低(同時(shí)裂解產(chǎn)物m/z 1104.6 和753.4 增加)。相反,肽RPKPQQF(m/z 900.5)在腫瘤中耗盡但在粘膜中富集。值得注意的是,m/z 753.4 的最高濃度區(qū)域代表組織外的肽洗脫,此結(jié)果體現(xiàn)了抑制劑混合物對(duì)P物質(zhì)裂解和截短肽產(chǎn)生的影響。
使用MSE 定量評(píng)估來(lái)評(píng)價(jià)VAE 模型的學(xué)習(xí)質(zhì)量,即評(píng)估模型的重建數(shù)據(jù)與原始數(shù)據(jù)之間的重建損失。MSE是一個(gè)既定的定量機(jī)器學(xué)習(xí)評(píng)估標(biāo)準(zhǔn),既不主觀也不帶偏見(jiàn),因?yàn)樗菄?yán)格的數(shù)據(jù)驅(qū)動(dòng)的。將msiPL 方法與其他幾種專為MSI 開(kāi)發(fā)的高效降維方法(PCA、MemoryEfficient PCA 和DWT+PCA)進(jìn)行比較,MSE 的結(jié)果表明msPL 方法可替代這幾種方法進(jìn)行高效降維,如表2所示。
Fig.9 Visualization experimental results圖9 可視化實(shí)驗(yàn)結(jié)果
Fig.10 Spatial distribution of measured and reconstructed data for five specific m/z molecules圖10 5種特定m/z離子的測(cè)量數(shù)據(jù)和重建數(shù)據(jù)的空間分布
Table 2 MSE comparision of MSI data reconstruction using different methods表2 比較使用不同方法 MSI數(shù)據(jù)重建的均方誤差(MSE)
msiPL 模型可實(shí)現(xiàn)并行處理和提高內(nèi)存高效使用。實(shí)驗(yàn)中只需將一小部分光譜數(shù)據(jù)加載到內(nèi)存中,就可以有效地處理大型和復(fù)雜的數(shù)據(jù),這體現(xiàn)了對(duì)現(xiàn)有計(jì)算方法的顯著改進(jìn)?,F(xiàn)有計(jì)算方法需要將完整數(shù)據(jù)加載到內(nèi)存中以計(jì)算光譜之間的成對(duì)相似性。經(jīng)典機(jī)器學(xué)習(xí)方法對(duì)于高維度原始質(zhì)譜數(shù)據(jù)的能力有限,主要是因?yàn)檫@些方法遇到了一個(gè)常見(jiàn)的問(wèn)題,即“維度災(zāi)難”,這會(huì)降低高維數(shù)據(jù)的分類精度。相比之下,基于深度學(xué)習(xí)的方法已經(jīng)顯示出能夠避免“維度災(zāi)難”并建立相關(guān)特征的自學(xué)習(xí),從而提高分類準(zhǔn)確度。
峰值拾取是一種特征選擇,即從原始數(shù)據(jù)中丟棄大量信息(例如峰形),同時(shí)也承擔(dān)風(fēng)險(xiǎn)丟棄峰選擇算法無(wú)法識(shí)別的峰。這使得后續(xù)的質(zhì)量分析取決于前面的峰值選擇或特征選擇方法的質(zhì)量,這可能并不總是理想的。msiPL避免了影響下游分析的預(yù)處理步驟。此外,Murta等[18]近期的研究表明峰值拾取參數(shù)的選擇不僅影響聚類分析,還可能會(huì)影響生物學(xué)解釋。相比之下,msiPL無(wú)需優(yōu)化預(yù)處理參數(shù)即可實(shí)現(xiàn)快速靈敏的MSI數(shù)據(jù)處理,同時(shí)產(chǎn)生可靠的結(jié)果。
由于MSI 數(shù)據(jù)量過(guò)大,數(shù)據(jù)公開(kāi)集過(guò)少,且該研究使用的腎組織樣本MSI數(shù)據(jù)缺乏H&E 染色病理學(xué)數(shù)據(jù),因此未能將H&E 與MSI離子圖像進(jìn)行共注釋分析。
經(jīng)典機(jī)器學(xué)習(xí)方法處理高維度原始質(zhì)譜數(shù)據(jù)的能力有限,主要是因?yàn)檫@些方法通常會(huì)導(dǎo)致“維度災(zāi)難”,降低高維數(shù)據(jù)的分類精度。相比之下,基于深度學(xué)習(xí)的方法已經(jīng)顯示出能夠避免維度災(zāi)難并建立相關(guān)特征的自學(xué)習(xí),從而提高分類準(zhǔn)確度的能力。
本研究在借鑒國(guó)內(nèi)外研究的基礎(chǔ)上,以兩種不同組織、不同質(zhì)譜儀器和不同分辨率的MSI 數(shù)據(jù)為例,使用深度學(xué)習(xí)數(shù)據(jù)分析策略實(shí)現(xiàn)了從原始高維數(shù)據(jù)中準(zhǔn)確有效地識(shí)別和可視化分子模式所需的底層非線性流形,避免了傳統(tǒng)的、耗時(shí)的預(yù)處理計(jì)算。同時(shí)通過(guò)對(duì)復(fù)雜分子模式的無(wú)監(jiān)督分析及特定的m/z 值的學(xué)習(xí),揭示了小鼠腎臟組織解剖學(xué)的生物學(xué)相關(guān)簇(內(nèi)髓部、外皮層、腎盂和內(nèi)皮層小管)和小鼠胃癌模型中的腫瘤異質(zhì)性,并識(shí)別了潛在的特定m/z峰。由于MSI 數(shù)據(jù)量過(guò)大,數(shù)據(jù)公開(kāi)集過(guò)少,且該研究使用的腎組織樣本MSI數(shù)據(jù)缺乏H&E 染色病理學(xué)數(shù)據(jù),未能將H&E 與MSI 離子圖像進(jìn)行共注釋分析。msiPL 在MSI數(shù)據(jù)集無(wú)監(jiān)督分析和識(shí)別生物相關(guān)性的空間模式方面的高效處理能力,使msiPL 模型直接從質(zhì)譜數(shù)據(jù)中完成對(duì)腫瘤類型和等級(jí)的分類和預(yù)測(cè)在未來(lái)成為可能。