王成,白麗紅,文苗,張通
(上海理工大學醫(yī)療器械與食品學院生物醫(yī)學光學與視光學實驗室,上海200093)
流式細胞分析儀有能力做細胞和其它粒子的多參數(shù)測量,也是細胞和生物分子功能研究的重要平臺[1]。在過去10年里,流式細胞分析的參數(shù)測量的能力不斷增強,這種增強已通過增加光源和探測器的數(shù)量獲得了[2]。但是這樣的系統(tǒng)操作相當復雜,而且若想再增加可探測參數(shù)受制于可用的商業(yè)化的光源和探測器。拉曼光譜具有譜線窄,特異性高等優(yōu)點,正逐漸被應用到多參數(shù)、大通量流式細胞分析中[3,4]。這樣針對光譜的自動識別與分類提出了挑戰(zhàn),目前除了商用流式細胞分析軟件外,更多的是基于PCA算法的自動識別[5]。
拉曼散射源于樣品中化學鍵與光的作用而產生的分子振動特征譜。這個光譜具有比熒光更窄的譜線寬,包含很多生物組織樣品豐富的化學成分信息,被廣泛應用于分析化學。已經研究把拉曼散射光譜應用于流式細胞儀[3]。更有研究報道,細胞的散射光譜也被應用到了流式細胞分析領域[6,7]。針對大量的光譜數(shù)據的分析,需要一種自動、快速的識別算法來自動區(qū)分樣品的信息。
針對將來的流式細胞分析中存在的大數(shù)量級的光譜數(shù)據,本文利用現(xiàn)有癌變細胞和正常細胞顯微光譜數(shù)據以及PCA分類的結果[8],在原有細胞顯微散射光譜采集系統(tǒng)的基礎上,提出了基于PCA變換和誤差逆?zhèn)鞑ニ惴ǖ娜斯ど窠浘W絡(BP神經網絡)相結合的方法提取光譜信息中的差異,對正常細胞和癌細胞的光譜數(shù)據進行分類建模,并對癌細胞進行計數(shù),這將為開發(fā)無創(chuàng)、實時、動態(tài)地診斷和預后監(jiān)測、量化CTCs的技術提供基礎。
BP 神經網絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W絡,是最常見的網絡學習算法。它的學習規(guī)則是使用最速下降法,通過反向傳播來不斷調整網絡權值和閾值,使網絡誤差平方和最小。BP神經網絡含有輸入層、隱含層和輸出層組成。如圖1所示。輸入層對應輸入向量空間,本文中對應觀測到的細胞顯微光譜的PCA降維后的有效光譜向量;根據文獻[8]的研究,癌細胞和正常細胞光譜采用PCA前兩個主成分已經可以區(qū)分,但為了更穩(wěn)妥地預測細胞類型,選用累計貢獻率達97%以上的前五個PCA主成分向量為神經網絡的輸入,即BP神經網絡的輸入節(jié)點為5個,隱含層由11個神經元組成,輸出值為不同細胞類型的編碼,設定編碼0為正常細胞,編碼1為癌細胞,此代碼為訓練集中為目標值,在預測集中為相應的編碼,因此BP神經網絡的輸出節(jié)點為1。根據BP神經網絡算法,信息正向傳遞,隱含層中第i個神經元的輸出為
圖1誤差逆?zhèn)鞑ド窠浘W絡結構
進一步地計算輸入層到隱含層和隱含層到輸出層的校正誤差,選取下一個輸入,再計算(1)和(2)式反復訓練直到網絡設輸出誤差達到要求結束訓練。具體算法可參閱相關文獻[9,10]。本文中采用的訓練次數(shù)為1000次,目標誤差0.01。
訓練集樣本為200個樣本的光譜數(shù)據,前100個為正常細胞光譜數(shù)據,后100個為癌細胞光譜數(shù)據。光譜數(shù)據經平滑,歸一化后做PCA主成分分析得到主成分分量,具體的PCA結果可以參考文獻[8],然后取前五個主成分作為輸入信息進行訓練,訓練結果如圖3所示,經過6次訓練后,網絡的目標誤差達到要求。
圖2訓練結果
再采集18個樣本數(shù)據作為預測集樣本,1~9例為正常細胞光譜數(shù)據,其真實值為0,10~18例為癌細胞光譜數(shù)據,其真實值為1。
表1利用BP網絡對樣本的預測結果
從表1的預測結果和圖3的預測誤差可見,設定預測結果偏差在±0.2內為預測正確,該模型對預測樣本識別準確率達到100%,平均相對偏差為0.78%。
面對收集到的大量細胞散射光譜數(shù)據,利用多元統(tǒng)計方法進行信息的提取,并結合模式識別算法,有望從繁瑣的光譜數(shù)據中提取出主要信息,實現(xiàn)對不同類型細胞的光譜分類。最為常用的多元統(tǒng)計方法是主成分分析(PCA),但對于差異性不明顯的光譜達不到分類的效果。而采用BP網絡預測模型,能根據樣品的數(shù)據特征將其訓練到一個目標值上。對于被檢驗的樣品,可以通過比較預測結果和目標值來統(tǒng)計預測正確率,得到一個量化的數(shù)值。
圖3預測誤差
應用FCBS技術收集單個正常胃上皮細胞和胃癌細胞的后向顯微光譜,將PCA算法和BP神經網絡預測模型結合,對細胞光譜的預測達到了100%,平均相對偏差只有0.78%,這將為流式細胞的自動分類提供合適的算法。
[1] Shapiro H M. Practical Flow Cytometry. New York : Wiley-Liss,1995.
[2] Perfetto S P, Chattopadhyay P K, Roederer M. Seventeen-colour flow cytometry: Unravelling the immune system. Nat Rev Immunol,2004,4: 648-655.
[3] Dakota A W, Leif O B, Brown D F,et al.A flow cytometer for the measurement of Raman spectra. Cytometry Part A, 2008, 73A: 119-128.
[4] Gregory G, Lief O B,et al.High-resolution spectral analysis of individual SERS-Active nanoparticles in flow. JACS, 2010, 132:6081-6090.
[5] Dakota A W, Leif O B, Robb H,et al.A flow cytometer for the measurement of Raman spectra. Cytometry Part A, 2008, 73A: 119-128.
[6] Greiner C, Hunter M, Huang P,et al.Confocal backscattering spectroscopy for leukemic and normal blood cell discrimination.Cytometry Part A, 2011, 79A: 866-873.
[7] Greiner C, Hunter M, Rius F,et al.Confocal backscattering-based detection of leukemic cells in flowing blood samples. Cytometry Part A 2011, 79A: 874-883.
[8] 王成, 文苗, 白麗紅, 等. 基于主成分分析的單細胞后向散射顯微光譜自動識別研究. 中國科技論文在線. 2014年3月27日.
[9] 孫志強, 葛哲學. 神經網絡理論與MATLAB7 實現(xiàn). 北京: 電子工業(yè)出版社, 2005.
[10] 周志華, 曹存根. 神經網絡及其應用. 北京: 清華大學出版社,2004.