蔡嘉華, 尹嵩杰, 陳 超*, 王淑美, 梁生旺*
(1.廣東藥學院中藥學院,廣東廣州 510006;2.國家中醫(yī)藥管理局中藥數(shù)字化質(zhì)量評價技術重點研究室,廣東廣州 510006;3.廣東高校中藥質(zhì)量工程技術研究中心,廣東廣州 510006)
苯丙酮尿癥(Phenyketonuria,PKU)是一種先天性代謝疾病,其臨床表現(xiàn)為智力低下、癲癇、精神異常等。PKU作為國內(nèi)外常見的新生兒疾病,其治療的關鍵是及早診斷與治療。目前,常用的篩查方法是采集新生兒足底干血片,應用細菌抑制法(BIA)、熒光法(FA)、高效液相色譜法(HPLC)、串聯(lián)質(zhì)譜法(MS/MS)等檢測苯丙氨酸(Phe)的含量,但這些方法普遍存在消耗試劑、費用高、步驟繁瑣、耗時長等缺點。
本課題組曾利用傅里葉變換衰減全反射紅外光譜(FTIR/ATR),結合化學計量學方法建立了PKU篩查模型,取得了一定效果[1,2]。紅外光譜多以透射譜形式出現(xiàn),一般不直接用于微量或痕量分析;而ATR技術通過增加全反射的次數(shù),與紅外光譜相結合,增強了吸收譜帶的強度,大大提高了分析靈敏度,檢出濃度達到了mg/L甚至μg/L水平[3]。與傳統(tǒng)分析方法相比,F(xiàn)TIR/ATR技術具有操作簡便、分析速度快、能耗低、無需處理樣品、不消耗試劑、不產(chǎn)生污染、可同時測定多種成分等優(yōu)勢[4],已報道用于腫瘤、地中海貧血、冠心病、脂肪肝、白血病等疾病的篩查[5,6]。在測量過程中,紅外光譜受到光源強度微小變化、雜散光、外界震動、干涉儀動鏡移動、電子線路等因素干擾,不可避免產(chǎn)生噪聲,影響建模結果[7],因此需要在建模前對光譜進行去噪處理。
本文在課題組前期工作基礎上[1,2],引入小波變換和小波包變換兩種去噪方法,進一步考察和提高模型精度。小波變換具有獨特的時頻分離特性,能適應不同波形譜圖的去噪要求,已被廣泛用于圖像處理、電信號分析、能源勘察、語音分析、醫(yī)藥分析等多個學科領域[8,9]。小波和小波包變換對FTIR/ATR光譜可以有效去噪,進一步提高了PKU篩查模型的精度,使這種簡便、快速、綠色的篩查方法的推廣應用成為可能。
德國BRUKER公司的Tensor 37 型傅里葉變換紅外光譜儀,安裝有OPUS7.2紅外光譜軟件,DLATGS檢測器,水平三次全反射ATR附件;光譜范圍600~4 000 cm-1,掃描間隔為2 cm-1,掃描次數(shù)為16次。
樣本材料:69例干血片樣本由廣州金域醫(yī)學檢驗中心提供,采用串聯(lián)質(zhì)譜法測定Phe的濃度,其中35例陰性樣本的平均濃度為47.2 μmol/L,標準差為9.1 μmol/L;34例陽性樣本的平均濃度為292.8 μmol/L,標準差為258.9 μmol/L。
以空氣作為空白背景,采用FTIR/ATR法對干血片樣進行光譜采集,對每個血斑各取5個不同位置掃描,取平均值作為該血片的紅外光譜數(shù)據(jù)。用紅外光譜儀自帶的OPUS7.2軟件對所得光譜進行平滑和一階微分9點平滑預處理。
本文采用的小波去噪方法為非線性小波變換閾值法,其基本過程參見文獻報道[10]。小波包變換是小波變換的推廣,二者最根本的區(qū)別在于小波變換只對信號的低頻部分作分解,而小波包變換對高頻部分也提供更精細的分解,而且這種分解既無冗余,也無疏漏[10]。
本文以多模型共識偏最小二乘法(cPLS)[11,12]建立模型,它為傳統(tǒng)偏最小二乘法的一種改進方法,在同一訓練集中建立一系列不同子集,以多個訓練子集結果取平均作為最終結果,從而降低了模型對某一樣本的依賴性,提高了其穩(wěn)定性和精度。
本文將小波或小波包變換去噪后的光譜數(shù)據(jù)歸一化后輸入。由于樣本的Phe濃度范圍太廣,故先對其進行了對數(shù)轉換,再作為模型的預期輸出。根據(jù)訓練集與測試集的相對誤差小于1%,訓練集濃度范圍可覆蓋測試集濃度范圍這一要求,將69例樣本按3∶1隨機分配訓練集與獨立測試集。經(jīng)考察后,選取cPLS最佳主成分數(shù)為10,模型總數(shù)為120,重復運行20次結果取均值,作為最終結果。
模型評價指標有相關系數(shù)(R)、均方根誤差(RMSEP)、平均相對誤差(MRE)、準確率(Acc)、靈敏度(Sens)和特異性(Spec),其計算見文獻方法[1,2]。R越趨近于1,RMSEP和MRE越趨近于0,Acc、Sens和Spec越趨近于100,模型的精度越高。
在進行小波變換時,小波的去噪效果跟小波基、階數(shù)、分解尺度、閾值選取和重調(diào)方式等參數(shù)有關,但是目前其選取方法并未規(guī)范,如文獻報道[13 - 15]各自采用不同方法選取了這些參數(shù)。為獲得較優(yōu)的PKU篩查模型,本文以模型結果的R和預測RMSEP作為小波和小波包變換參數(shù)優(yōu)化的評價指標。
3.1.1小波母函數(shù)db小波系是最常見且應用較多的小波系,其較好的正則性能在信號或圖像的重構中獲得較好的平滑效果。sym小波系是db小波系的改進,在保持了db小波的優(yōu)點外,還具有更好的對稱性。coif小波和sym小波一樣,有比db小波更好的對稱性,其更高的消失矩能使盡量多的小波系數(shù)置零,有利于數(shù)據(jù)的壓縮和去噪。bior和rbio都是雙正交小波,兩個對偶的小波分別用于信號的分解和重構,解決了線性相位和正交性要求的矛盾,使光譜在獲得較好的平滑的同時,信號能量也能較好地集中,很好地克服了db小波的缺點。
本文先以Stein 無偏似然估計作為閾值選取的規(guī)則,根據(jù)不同層的噪聲估計來調(diào)整閾值,分解尺度為1,分別計算上述小波系,以樣品的1D9S光譜去噪后模型的R和RMSEP來選取最優(yōu)小波基和階數(shù),結果見圖1。從圖中可以看出sym1、sym12、bior2.4、 bior2.8、 bior6.8、rbio1.1、rbio3.5、rbio3.9和rbio4.4小波的相關性較好,R值均達到0.91或以上;而RMSEP較小的小波則為sym12、bior2.8、bior6.8,其值分別為89.17、89.30和89.95。綜合考慮,選擇R較大而RMSEP較小的小波基sym12、 bior2.8和bior6.8作為小波去噪的母函數(shù)。圖2為小波包去噪的結果,從中可以看出R值達0.90以上的有db3、db6、db10、sym1、sym4、sym6、sym11、bior1.5、bior3.5、rbio1.1、rbio2.2、rbio3.1、rbio3.5和rbio4.4;而RMSEP較小的小波分別是db4、db10、sym1、bior1.5、bior5.5和rbio4.4,其值均在96.08以下。綜合考慮,選擇db10、sym1和bior1.5作為小波包去噪的母函數(shù)。
圖1 小波變換中小波基的優(yōu)化結果Fig.1 The optimization of the base of wavelets
圖2 小波包變換中小波基的優(yōu)化結果Fig.2 The optimization of the base of wavelet packets
圖3 不同分解層數(shù)的光譜圖Fig.3 The spectra at different decomposition levels spectral region 600-4 000 cm-1,scanning interval 2 cm-1,scan times 16.
3.1.2分解層數(shù)本文用MATLAB自帶函數(shù)wmaxlev( )[16]計算出本實驗光譜的最大分解層數(shù)為10,即可分解層數(shù)為1~10。以R和RMSEP為指標選取最佳層數(shù),其結果相近且沒有一定規(guī)律,因此本文選擇以對比光譜分解后的信噪比(snr)來優(yōu)化層數(shù)[17]。信噪比值越大說明去噪效果越好[6]。以樣品編號為“N14070493”的原始光譜為例,以sym1為母小波,Stein 無偏似然估計作為閾值選取的規(guī)則,根據(jù)不同層的噪聲估計來調(diào)整閾值,對比1到10層的去噪效果,其snr值依次從56.34降低到6.69??梢?,隨著分解層數(shù)的增大snr逐漸減少,光譜中有效信息隨著分解層數(shù)的增加而丟失,這與圖3中光譜分解后的失真程度越來越高相對應。用其余60個小波分別對75個樣本進行去噪,所得結論一致。因此,本文選取最優(yōu)的分解層數(shù)為1層。
3.1.3閾值選取和重調(diào)本文用MATLAB自帶函數(shù)wden( )對信號進行自動降噪,經(jīng)考察小波去噪以軟閾值方式、小波包去噪以硬閾值方式進行。以1D9S光譜為例,選取sym1小波及分解層數(shù)1,對比snr選擇合適的閾值選取和重調(diào)方式。從表1可以看出,結果最優(yōu)的閾值選取方式為Stein無偏似然估計(rigrsure)和啟發(fā)式閾值(heursure),其次是極大極小值的方法(minimaxi),最差的是通用閾值的方法(sqtwolog);以第一層的系數(shù)進行噪聲層的估計來調(diào)整閾值(記作“sln”),比不進行調(diào)整(記作“one”)的結果要好。因此,本文選取文獻常用的“rigrsure”和“sln”方法,作為閾值選取和重調(diào)規(guī)則。
表1 各組閾值選取和重調(diào)方式下的信噪比
本文用上述優(yōu)化后的小波基和參數(shù)分別對原始光譜(OS)、9點平滑光譜(9S)和一階微分9點平滑光譜(1D9S)進行小波和小波包去噪,然后構建cPLS模型,結果列于表2和表3。從表2可見,原始光譜因為包含較多噪聲,所建模型性能最差;經(jīng)過平滑(9S)、求導(1D9S)處理后,性能有所改善,而最優(yōu)模型是1D9S+sym12,說明小波變換進一步提高了模型精度。與小波去噪前相比,R從0.87提高到0.91,RMSEP從114.79降低到89.17,MRE從0.3降低到0.28,Acc、Sens和Spec均提高到100。小波包去噪得到的最優(yōu)模型為1D9S+sym1。與去噪前相比,R從0.87提高到0.91,RMSEP從114.78降低到94.13,MRE從0.3降低到0.29,Acc、Sens和Spec同樣均提高到100,而且結果的標準差均為0。上述結果表明,光譜經(jīng)小波或小波包變換去噪后,所建模型更加準確、穩(wěn)定。
表2 OS、9S和1D9S光譜經(jīng)小波變換后模型輸出結果
表3 OS、9S和1D9S光譜經(jīng)小波包變換后模型輸出結果
本文在FTIR/ATR光譜預處理階段引進小波和小波包變換,對OS、9S、1D9S光譜分別進行去噪處理,比較去噪前后模型的各項評價指標,結果發(fā)現(xiàn)經(jīng)小波或小波包處理后的模型精度均有明顯提高,優(yōu)化后的模型對PKU陰、陽性樣本的識別準確率均達到了100%,為FTIR/ATR光譜提供了一種有效的去噪方法,有利于進一步提高模型精度,有望成為PKU的快速、準確和綠色篩查方法。