范賢光 巫梅琴 陳宇欣 方曉玲 胡雪亮 王昕
摘要:光譜解析方法是一種常見的光譜分析方法,廣泛用于各種化學(xué)計(jì)量學(xué)領(lǐng)域?,F(xiàn)有的解析方法無(wú)法處理純組分未知的應(yīng)用體系,本文針對(duì)該情況,提出了基于遺傳算法和最小二乘法的多元組分光譜解析定量分析方法。該方法首先通過(guò)遺傳算法在混合光譜上尋找未知組分的最優(yōu)峰位置和最優(yōu)峰形,得到一組的最優(yōu)純組分光譜矩陣,再利用最小二乘擬合曲線,能夠快速有效地解析混合光譜。在實(shí)驗(yàn)中,對(duì)純組分光譜全未知、純組分光譜部分未知及不同參數(shù)設(shè)置下算法的表現(xiàn)進(jìn)行了討論,分析其對(duì)算法收斂速度及計(jì)算結(jié)果精確性和穩(wěn)定性的影響。利用該方法對(duì)流式細(xì)胞儀光譜數(shù)據(jù)進(jìn)行處理,解析效果良好,譜線的契合程度高,驗(yàn)證其用于多組分流式細(xì)胞儀光譜數(shù)據(jù)分析的可行性、有效性和精確性。
關(guān)鍵詞:光譜解析;遺傳算法;最小二乘法;流式細(xì)胞儀
中圖分類號(hào):TH79 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2018)01-0134-04
隨著現(xiàn)代分析儀器的發(fā)展,多組分二維數(shù)據(jù)越來(lái)越容易獲得,而該數(shù)據(jù)矩陣的解析也成為分析化學(xué)中數(shù)據(jù)分析方法的研究焦點(diǎn)之一。在過(guò)去的幾十年里,各種化學(xué)因子分析方法都曾成功的應(yīng)用于二維數(shù)據(jù)的解析,如漸進(jìn)因子分析(EFA)主要利用數(shù)據(jù)曲線依次出現(xiàn)依次消失的特點(diǎn)得到組分濃度窗口信息,但增量計(jì)算導(dǎo)致誤差累積[1,2];窗口因子分析(WFA)能更加準(zhǔn)確、快速地解析數(shù)據(jù),但組分窗口數(shù)據(jù)的獲取需結(jié)合多次試驗(yàn)和直觀判斷[3,4];直觀推導(dǎo)式演進(jìn)特征投影分析(HELP)循環(huán)利用“組分剝離技術(shù)”將全部組分分離,實(shí)現(xiàn)光譜重疊峰完全解析[5,6]。但是當(dāng)數(shù)據(jù)矩陣存在較大噪音或缺乏量測(cè)誤差信息時(shí),由于以上方法對(duì)原始數(shù)據(jù)的依賴程度大,解析存在一定的困難[7]。
光譜流式細(xì)胞分析儀作為細(xì)胞和生物分子功能研究的重要平臺(tái),可實(shí)現(xiàn)對(duì)其粒徑、濃度和多種生化性狀的高分辨率定量表征[8,9]。針對(duì)流式細(xì)胞分析中大數(shù)量級(jí)的光譜數(shù)據(jù)[10],亟需一種快速估計(jì)純組分光譜且精度高、受噪音水平影響小的分析方法。其中遺傳算法(GA)是模擬生物在自然環(huán)境下的遺傳和進(jìn)化過(guò)程而形成的一種完全不同于傳統(tǒng)算法的自適應(yīng)全局優(yōu)化搜索算法,具有很強(qiáng)的魯棒性[11,12]。優(yōu)化過(guò)程不依賴于梯度、導(dǎo)數(shù)等輔助信息,僅以個(gè)體及其適應(yīng)度值作為搜索信息,使用概率搜索技術(shù)就可在全局空間中自動(dòng)地對(duì)非連續(xù)、多峰值、甚至有噪聲等復(fù)雜問題同時(shí)進(jìn)行多點(diǎn)搜索, 自適應(yīng)地控制搜索過(guò)程向最優(yōu)解方向發(fā)展,可以高效率地得到全局最優(yōu)解或滿意解。
本文研究了一種基于遺傳算法的流式細(xì)胞純組分光譜的自適應(yīng)尋優(yōu)算法,優(yōu)化純組分光譜的峰位置、峰寬,結(jié)合最小二乘法在減扣譜線均方誤差最小的情況下解析,實(shí)現(xiàn)流式細(xì)胞組分的定量分析。在實(shí)驗(yàn)中,驗(yàn)證了該方法在組分?jǐn)?shù)不同、純組分光譜已未知比例不同和尋優(yōu)類型不同的情況下均具有可行性、有效性和精確性。
1 理論
1.1 高斯模型
純組分光譜峰的峰位置、峰寬及峰高可由高斯曲線中具有明確物理意義的參數(shù)來(lái)描述[13]。用于模擬熒光光譜的高斯模型函數(shù)公式為:
其中,A為高斯峰的峰面積;為峰位置;為標(biāo)準(zhǔn)偏差。
但實(shí)際的純組分光譜峰是非對(duì)稱,以對(duì)稱的高斯峰來(lái)描述具有一定的局限性和誤差,因此本文依據(jù)分析體系復(fù)雜性及分析要求的不同,采取不同的策略。對(duì)于純組分光譜全未知的黑色分析體系[14],采用高斯峰來(lái)擬合光譜峰;對(duì)于純組分部分已知的灰色分析體系[14],結(jié)合已知組分光譜峰的特點(diǎn),采用高斯峰及已知光譜峰平移來(lái)擬合未知光譜峰。
1.2 遺傳算法優(yōu)化
遺傳算法從本質(zhì)上講是一種群體迭代過(guò)程,從一個(gè)任意初始(解)群體出發(fā),根據(jù)優(yōu)勝劣汰的原則,通過(guò)競(jìng)爭(zhēng)、選擇、繁殖、變異等類似生物遺傳進(jìn)化的作用,從而產(chǎn)生具有新性能、性能更優(yōu)的新一代群體,并逐步使群體進(jìn)化到包含或接近最優(yōu)解的狀態(tài)[15]。一般的遺傳算法由四個(gè)部分組成:編碼、適應(yīng)度函數(shù)(目標(biāo)函數(shù))、遺傳操作、終止條件。
1.3 基于遺傳算法優(yōu)化下的最小二乘光譜解析
最小二乘法是一種由觀測(cè)數(shù)據(jù)估算線性模型中未知參數(shù)的方法,其基本思想是選擇估算量使得模型輸出與實(shí)際測(cè)量輸出之差的平方和達(dá)到最小,能有效避免正負(fù)誤差相抵,且數(shù)學(xué)處理方便。
基于遺傳算法優(yōu)化純組分光譜對(duì)混合光譜解析的具體步驟為:
(1)編碼和初始化群體。本文采用實(shí)數(shù)編碼,每個(gè)染色體包含維數(shù)據(jù),N為待尋優(yōu)組分?jǐn)?shù),2維對(duì)應(yīng)高斯模型的2個(gè)參數(shù):峰位置,峰寬。并設(shè)定初始種群數(shù)目為200。
(2)適應(yīng)度函數(shù)?;诿總€(gè)峰的,構(gòu)建N組分的純光譜矩陣S,利用最小二乘法對(duì)混合光譜D進(jìn)行解析得到各組分含量C。
根據(jù)求解的目標(biāo),本文建立如下的適應(yīng)度函數(shù):
其中,是第j個(gè)細(xì)胞熒光光譜中第i個(gè)波點(diǎn)的預(yù)期光強(qiáng)值,是第j個(gè)細(xì)胞熒光光譜中第i個(gè)波點(diǎn)的實(shí)際光強(qiáng)值,是波長(zhǎng)點(diǎn)數(shù),是細(xì)胞個(gè)數(shù)。該適應(yīng)度函數(shù)的物理意義是預(yù)估光譜強(qiáng)度與實(shí)際光譜強(qiáng)度之間按采樣點(diǎn)計(jì)算的均方誤差的一個(gè)變形公式,其本質(zhì)反映預(yù)測(cè)譜圖與原譜圖之間的差異程度。顯然,某個(gè)體的適應(yīng)度函數(shù)值或某代群體的平均適應(yīng)度函數(shù)值越小,說(shuō)明該個(gè)體或群體接近最優(yōu)解的概率越大。
(3)遺傳操作 遺傳算子包括選擇(Selection)、交叉(Crossover)、變異(Mutation)。本文設(shè)定交叉率為0.8,變異率為0.7,使得運(yùn)行時(shí)間縮短,但誤差不變。
(4)終止條件 重復(fù)(3)和(4)步驟,不斷提取光譜峰信息,生成新的染色體基因,進(jìn)而優(yōu)化染色體的每個(gè)基因達(dá)到收斂條件,找到最佳的參數(shù)解。
(5)最優(yōu)純組分光譜組合 根據(jù)適應(yīng)度函數(shù)值優(yōu)化搜索空間范圍,進(jìn)一步減小擬合誤差,構(gòu)建最優(yōu)純組分光譜組合。
(6)得到最優(yōu)譜線組合后,利用最小二乘法對(duì)原始混合光譜進(jìn)行解析得到濃度矩陣,實(shí)現(xiàn)定量分析。
算法流程圖如圖1所示。
2 實(shí)驗(yàn)驗(yàn)證
用于實(shí)驗(yàn)驗(yàn)證的細(xì)胞流式光譜主要由6種蛋白質(zhì)(FITC,QD545,PE,QD605,AF610-PE,PerCP)的光譜組成。流式細(xì)胞儀的光譜波長(zhǎng)范圍為450nm~750nm,每0.1nm取值一次,波長(zhǎng)點(diǎn)數(shù)為3001,最大強(qiáng)度為100。
圖2(a)為1000個(gè)細(xì)胞的混合光譜信號(hào),圖2(b)為第401個(gè)細(xì)胞的光譜信號(hào),圖2(c)為N種熒光的純光譜信號(hào),圖2(d)第401個(gè)細(xì)胞N種組分的含量。
本文采用高斯峰來(lái)擬合組分光譜峰,基于遺傳算法對(duì)未知組分純光譜曲線的峰位置、峰寬進(jìn)行尋優(yōu),構(gòu)建最優(yōu)組分純光譜矩陣,每個(gè)峰的最大強(qiáng)度均為100。再利用最小二乘法進(jìn)行解析測(cè)定每個(gè)細(xì)胞每種組分的含量。
遺傳參數(shù)設(shè)定如下表1:
本文基于組分?jǐn)?shù)N=6,對(duì)純組分光譜已知和未知比例不同的情況下進(jìn)行討論,解析結(jié)果如圖3所示。圖3(a)為純光譜完全未知下第401個(gè)細(xì)胞混合光譜解析結(jié)果,圖3(b)為已知一個(gè)純光譜下第401個(gè)細(xì)胞混合光譜解析結(jié)果(組分5已知),圖3(c)為已知兩個(gè)純光譜下第401個(gè)細(xì)胞混合光譜解析結(jié)果(組分1,5已知),圖3(d)為已知三個(gè)純光譜下第401個(gè)細(xì)胞混合光譜解析結(jié)果(組分1,3,5已知)。
由圖3(a)~(d)可以看出,無(wú)論已知多少個(gè)純光譜,本文提出的算法對(duì)混合光譜多元組分解析后的擬合信號(hào)(加粗黑線)與原始仿真信號(hào)(加粗紅線)基本重合,雖然略有誤差,但均在可接受誤差范圍內(nèi);且隨著已知組分光譜個(gè)數(shù)的增加,譜線的契合程度更加完美。四種比例下第401個(gè)細(xì)胞N種組分預(yù)估含量與真實(shí)含量的對(duì)比如圖4所示。
為了評(píng)價(jià)算法的性能,采用變形后的均方根誤差(RMSE),即遺傳算法中的適應(yīng)度函數(shù)作為其指標(biāo),然后分別計(jì)算上述4種已知和未知組分比例不同的情況下,擬合信號(hào)和仿真信號(hào)的RMSE,計(jì)算結(jié)果如表2所示。由表2可知,隨著已知組分光譜個(gè)數(shù)的增加,譜線的均方根誤差減小,擬合效果更優(yōu)。
此外,為了驗(yàn)證本算法對(duì)不同總組分?jǐn)?shù)N均適用,本文在純組分光譜全未知時(shí),對(duì)不同組分?jǐn)?shù)(N=4,6,8,10)的混合光譜信號(hào)進(jìn)行解析并計(jì)算其均方根誤差(RMSE),結(jié)果如表3所示。由表3可知,本算法可穩(wěn)定處理不同組分?jǐn)?shù)的光譜數(shù)據(jù),具有通用性。該算法的性能主要取決于純組分的數(shù)量和已知純組分的個(gè)數(shù),而且純光譜的重疊程度也是影響其性能的一個(gè)重要因素。
為進(jìn)一步驗(yàn)證本文方法,采用流式細(xì)胞儀在446~754nm范圍內(nèi)分別對(duì)兩種編號(hào)WH7803和WH7805的藍(lán)細(xì)菌進(jìn)行熒光光譜掃描,所獲得的流式熒光光譜信號(hào)如圖5所示。
首先,利用主成分分析(PCA)得到最佳組分?jǐn)?shù)為6。利用本文所述算法分別對(duì)WH7803和WH7805的熒光光譜進(jìn)行尋優(yōu)解卷積。其中,根據(jù)專家知識(shí),有三種成分為已知,即藻紅蛋白(Phycoerythrin, PE)、藻藍(lán)蛋白(Phycocyanin, PC)、別藻藍(lán)蛋白(Pllo-Phycocyanin, APC)。圖6(a)為WH7803中某個(gè)細(xì)胞的熒光光譜信號(hào)解卷積結(jié)果,圖6(b)為WH7805某個(gè)細(xì)胞的熒光光譜信號(hào)解卷積結(jié)果。從圖中可知,盡管有三種組分的純光譜未知,本文方法依舊能夠獲得良好的重構(gòu)效果,其平均RMSE分別為2.3194和3.1678,與仿真的結(jié)果水平相當(dāng)。
3 結(jié)論
本文提出了一種基于遺傳算法和最小二乘法的多元組分解析定量分析方法,并用于流式細(xì)胞儀熒光光譜的處理。本文通過(guò)實(shí)驗(yàn)對(duì)該算法性能進(jìn)行了驗(yàn)證,事實(shí)說(shuō)明,使用遺傳算法在混合光譜上尋找特征峰的最優(yōu)峰位置和最優(yōu)峰形,獲取的最優(yōu)純組分光譜矩陣能準(zhǔn)確有效地實(shí)現(xiàn)混合熒光光譜的解析。該算法具有下述優(yōu)點(diǎn):不需要確切的解集空間,具有全局搜索特性;各種情況的結(jié)果均較為精確,相對(duì)誤差?。磺蠼庑矢?,結(jié)果穩(wěn)定性強(qiáng)。此外,該算法也有些不足,比如每次算法運(yùn)行的代數(shù)無(wú)規(guī)律可循,均有隨機(jī)性;為防止出現(xiàn)早熟而增加收斂條件,使得運(yùn)行時(shí)間變長(zhǎng)。但整體來(lái)說(shuō),該算法為處理多組分的熒光光譜信號(hào)提供了一個(gè)強(qiáng)有力的工具。
參考文獻(xiàn)
[1]Maeder M, Chem A. Evolving Factor-Analysis for the Resolution of Overlapping Chromatographic Peaks[J].Analytica Chimica Acta,1987,181(3):287-291.
[2]Whitson A C, Maeder M. Exhaustive evolving factor analysis (E-EFA)[J]. Journal of Chemometrics,2010,15(5):475-484.
[3]Malinowski E R. Window factor analysis: theoretical derivation and application to flow injection analysis data[J].Journal of Geographical Sciences,1992, 6(1):29-40.
[4]Zeng Z D, Liang Y Z, Wang Y L, et al. Alternative moving window factor analysis for comparison analysis between complex chromatographic data.[J].Journal of Chromatography A,2006,1107(1-2):273.
[5]Yi-Zeng Liang , Kvalheim O M, Rahmani A, et al. Resolution of strongly overlapping two-way multicomponent data by means of heuristic evolving latent projections[J]. Journal of Geographical Sciences,1993,7(1):15-43.
[6]Jiao L, Wang K, Zhang F, et al. Resolution of Overlapped Capillary Electrophoresis Peaks by Using Heuristic Evolving Latent Projections to Quantify Chloroquine Phosphate and Promethazine Hydrochloride[J].Journal of the Chinese Chemical Society,2008,55(2):286-291.
[7]邵利民.化學(xué)因子分析新型算法及其在分析化學(xué)中的應(yīng)用研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2003.
[8]Goddard G, Martin J C, Naivar M, et al. Single particle high resolution spectral analysis flow cytometry.[J]. Cytometry Part A the Journal of the International Society for Analytical Cytology,2006,69A(8):842-851.
[9]Futamura K, Sekino M, Hata A, et al. Novel full-spectral flow cytometry with multiple spectrally-adjacent fluorescent proteins and fluorochromes and visualization of in vivo cellular movement[J]. Cytometry Part A the Journal of the International Society for Analytical Cytology,2015,87(9):830.
[10]Zare H, Shooshtari P, Gupta A, et al. Data reduction for spectral clustering to analyze high throughput flow cytometry data[J].Bmc Bioinformatics,2010,11(1):1-16.
[11]Goldberg D E. Genetic Algorithm in Search, Optimization, and Machine Learning[J].1989, xiii(7):2104-2116.
[12]Chen C B, Wang L Y. Modified genetic algorithm for product family optimization with platform specified by information theoretical approach[J]. Journal of Shanghai Jiaotong University,2008,13(3):304-311.
[13]Yie L I, Qing-Kai L I, Zhou Z H, et al. Application of Gauss curve fitting in single-channel sequential scanning ICP-AES[J].Journal of Changchun Post & Telecommunication Institute,2002.
[14]Liang Y Z, Kvalheim O M, Manne R. White, grey and black multicomponent systems : A classification of mixture problems and methods for their quantitative analysis[J]. Chemometrics & Intelligent Laboratory Systems,1993,18(3):235-250.
[15]BIAN Xia, MI Liangb, 邊霞,等. Development on genetic algorithm theory and its applications遺傳算法理論及其應(yīng)用研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2010, 27(7):2425-2429.