魏偉偉, 王偉偉, 宋向崗, 程雅婷, 陳 超*, 王淑美*, 梁生旺
(1.廣東藥學(xué)院中藥學(xué)院,廣東廣州 510006; 2.廣州金域醫(yī)學(xué)檢驗(yàn)中心有限公司,廣東廣州 510330)
苯丙酮尿癥(Phenyketonuria,PKU)為新生兒的一種常見染色體基因隱性遺傳病,是由于苯丙氨酸(Phenylalanine,Phe)代謝途徑中苯丙氨酸羥化酶活性減低,導(dǎo)致Phe及其代謝產(chǎn)物在體內(nèi)積蓄,可損害腦及神經(jīng)細(xì)胞,影響患兒智力發(fā)育,是目前國內(nèi)新生兒疾病篩查的主要項(xiàng)目之一?,F(xiàn)有的篩查方法主要是對新生兒足跟部采血,滴于903#濾紙上,自然晾干,制成干血片;然后利用細(xì)菌抑制法[1]、高效液相色譜法[2]、串聯(lián)質(zhì)譜法[3]和熒光分析法[4]等方法,檢測Phe的濃度,一般大于120 μmol/L可視為陽性[5]。這些檢測方法雖具有較好的準(zhǔn)確度和特異性,但也普遍存在消耗試劑、步驟繁瑣、耗時較長等缺點(diǎn)。
紅外光譜分析技術(shù)利用物質(zhì)在紅外光譜區(qū)的光學(xué)特性快速測定物質(zhì)組成及含量,具有樣品處理簡單、不破壞樣品、不消耗試劑、不產(chǎn)生污染、分析速度快、可以同時測定多種成分等優(yōu)點(diǎn),適用于復(fù)雜樣品(如生物制品)的原位、在線、實(shí)時定量分析。目前,紅外光譜在石油化工、農(nóng)林、醫(yī)藥等領(lǐng)域已有廣泛應(yīng)用[6,7],在腫瘤、地中海貧血癥等疾病篩查方面也有不少報(bào)道[8 - 12]。本文應(yīng)用傅里葉變換-衰減全反射紅外光譜(FTIR/ATR)采集新生兒足底血干血片的紅外光譜信息,利用多模型共識偏最小二乘法(cPLS)建立Phe濃度的定量校正模型,以探討建立新生兒PKU篩查的新方法。
Tensor37型傅里葉變換紅外光譜儀(德國BRUKER公司),附OPUS7.2紅外光譜軟件,DLATGS檢測器,水平ATR附件,掃描譜區(qū)范圍為600~4 000 cm-1,掃描間隔為2 cm-1。
樣本材料:69例干血片樣本由廣州金域醫(yī)學(xué)檢驗(yàn)中心提供,采用串聯(lián)質(zhì)譜法測定Phe的濃度,其中35例陰性樣本的平均濃度為47.2 μmol/L,標(biāo)準(zhǔn)差為9.1 μmol/L;34例陽性樣本的平均濃度為292.8 μmol/L,標(biāo)準(zhǔn)差為258.9 μmol/L。
以空氣作為空白背景,采用FTIR/ATR法對干血片進(jìn)行光譜采集,對每個血斑各取5個不同位置掃描,計(jì)算夾角余弦剔除異常光譜后,取平均值作為該血片的紅外光譜數(shù)據(jù)。用紅外光譜儀自帶的OPUS7.2軟件對所得光譜進(jìn)行一階微分預(yù)處理。
本文用到的多模型共識偏最小二乘法[13,14]是基于傳統(tǒng)的偏最小二乘法提出的,其基本原理是利用同一訓(xùn)練集中的不同子集,建立一系列的子模型同時預(yù)測,將多個預(yù)測結(jié)果取平均,形成一個共識的結(jié)果。多模型共識的突出優(yōu)點(diǎn)是多次使用訓(xùn)練集中不同樣本建模,降低了模型對某一樣本的依賴性。
cPLS方法基本步驟如下:(1)樣本隨機(jī)分組后,確定cPLS中成員模型的接納標(biāo)準(zhǔn)、模型總數(shù)等相關(guān)參數(shù);(2)將訓(xùn)練集樣本隨機(jī)分為訓(xùn)練子集與驗(yàn)證集,并以訓(xùn)練子集建立PLS回歸模型;(3)用上述所建模型預(yù)測驗(yàn)證集,以預(yù)測值與標(biāo)準(zhǔn)值間的平均相對誤差作為該模型是否被接受的依據(jù);(4)重復(fù)(2)、(3)直至達(dá)到預(yù)設(shè)的模型總數(shù);(5)以符合條件的所有成員模型共同預(yù)測獨(dú)立測試集樣本,結(jié)果取均值作為最終的預(yù)測結(jié)果。
將全部69例樣本按3∶1隨機(jī)分配訓(xùn)練集與獨(dú)立測試集,訓(xùn)練集再按3∶1隨機(jī)分配訓(xùn)練子集與驗(yàn)證集。對預(yù)處理后的光譜數(shù)據(jù)進(jìn)行歸一化,以作為模型輸入;Phe的濃度尤其是陽性樣本濃度,因?yàn)闃?biāo)準(zhǔn)差較大,所以先采取了對數(shù)轉(zhuǎn)換,再作為模型輸出。偏最小二乘模型采用MATLAB自帶統(tǒng)計(jì)工具箱下plsregress命令實(shí)現(xiàn),其它接口程序自編。模型評價指標(biāo)包括預(yù)測均方根誤差(RMSEP)、平均相對誤差(MRE)、預(yù)測準(zhǔn)確率(Acc),計(jì)算方法如下:
預(yù)測均方根誤差(Root Mean Square Error of Prediction,RMSEP):
(1)
平均相對誤差(Mean Relative Error,MRE):
(2)
預(yù)測準(zhǔn)確率(Predictive Accuracy,Acc):
(3)
公式(1)~(3)中,Yp、Yr和n分別表示模型預(yù)測值、實(shí)驗(yàn)值以及樣本個數(shù),TP和TN表示正確預(yù)測的陽性和陰性樣本的數(shù)目。
利用訓(xùn)練子集建立PLS模型,并對驗(yàn)證集進(jìn)行預(yù)測,改變不同的主成分?jǐn)?shù),得到預(yù)測均方根誤差(RMSEP)和平均相對誤差(MRE)的變化曲線,如圖1所示。主成分?jǐn)?shù)大于15時兩者基本趨于穩(wěn)定,故最佳主成分?jǐn)?shù)設(shè)為15。
用單模型PLS預(yù)測時發(fā)現(xiàn)驗(yàn)證集MRE多在0.2以內(nèi),所以分別采用0.08,0.1,0.12,0.15,0.18和0.2為成員模型接納標(biāo)準(zhǔn),各自運(yùn)行40次。結(jié)果顯示,當(dāng)采用MRE小于0.15為標(biāo)準(zhǔn)時,獨(dú)立測試集預(yù)測結(jié)果的MRE最小。因此,本文選用MRE小于0.15作為最終成員模型的接納標(biāo)準(zhǔn)。
cPLS算法應(yīng)該包括盡可能多的不同的成員模型,通過對不同成員模型的結(jié)果整合,才能表現(xiàn)出cPLS的優(yōu)勢。因此,模型總數(shù)的確定對預(yù)測結(jié)果的穩(wěn)定性和準(zhǔn)確性有著重要影響。本文統(tǒng)計(jì)了模型總數(shù)從1到200時的結(jié)果,多次運(yùn)行均發(fā)現(xiàn),獨(dú)立測試集的RMSEP會隨模型數(shù)的增加漸趨穩(wěn)定,如圖2所示。模型數(shù)<100時,RMSEP較大且不穩(wěn)定;當(dāng)模型數(shù)>100時,RMSEP逐漸趨于穩(wěn)定。同時算法多次運(yùn)行中,因隨機(jī)分配數(shù)據(jù)集而對結(jié)果略有波動。經(jīng)綜合考慮,本文確定模型總數(shù)為120。
圖1 不同主成分?jǐn)?shù)時均方根誤差和平均相對誤差的變化Fig.1 Variation of RMSEP and MRE with the number of latent variables
圖2 不同成員模型總數(shù)下獨(dú)立測試集的RMSEP變化Fig.2 Variation of RMSEP with the number of member models in cPLS
用cPLS和PLS模型分別對獨(dú)立測試集進(jìn)行預(yù)測,并對結(jié)果進(jìn)行反對數(shù)轉(zhuǎn)換,重復(fù)運(yùn)算40次,計(jì)算各自評價指標(biāo)。cPLS模型的RMSEP、MRE和Acc的均值分別為88.4,0.26和99.3,標(biāo)準(zhǔn)偏差分別為19.8,0.04和2.4;而PLS模型的RMSEP、MRE和Acc的均值分別為103.3,0.32和97.1,標(biāo)準(zhǔn)偏差分別為30.0,0.07和4.4。從圖3和圖4也可以看出,cPLS的預(yù)測誤差低于PLS,結(jié)果更穩(wěn)定,性能表現(xiàn)更好。
圖3 PLS和cPLS對獨(dú)立測試集預(yù)測的RMSEP的穩(wěn)定性比較Fig.3 Comparison of the stability of the RMSEP by the PLS and cPLS on the independent datasets
圖4 PLS和cPLS對獨(dú)立測試集預(yù)測的MRE的穩(wěn)定性比較Fig.4 Comparison of the stability of the MRE by the PLS and cPLS on the independent datasets
多模型共識偏最小二乘法用同一訓(xùn)練集中不同子集建立多個模型,同時進(jìn)行預(yù)測,將多個預(yù)測結(jié)果取均值作為最終結(jié)果,從而降低了預(yù)測結(jié)果對某一樣本的依賴性,本質(zhì)上較單模型穩(wěn)健、預(yù)測精度高。
本文中cPLS模型較PLS單模型預(yù)測誤差更低,結(jié)果更穩(wěn)定。但是預(yù)測值的MRE仍然有待進(jìn)一步提高(約為0.3),究其原因應(yīng)該與數(shù)據(jù)集中陽性樣本濃度范圍寬泛、標(biāo)準(zhǔn)差較大有關(guān)。在今后的研究中,我們擬繼續(xù)搜集樣本,尤其是Phe濃度接近切值的樣本,以進(jìn)一步提高模型精度。盡管如此,cPLS方法將區(qū)分PKU的陰、陽性樣本的準(zhǔn)確率提高到平均值達(dá)到99.3%,一定程度上證實(shí)了本文基于cPLS和FTIR/ATR建立干血片中Phe含量校正模型的可行性,這將為新生兒PKU的篩查提供一種簡便、綠色新技術(shù)。