單 鵬,吳 綴,何 年,劉隆興
(東北大學(xué)秦皇島分校 控制工程學(xué)院,河北 秦皇島 066004)
聚谷氨酸(γ-polyglatamic-acid,γ-PGA)由于其水溶性、吸附性好等特點(diǎn),它及其衍生物被廣泛應(yīng)用于食品工業(yè)、化妝品行業(yè),以及醫(yī)療保健行業(yè)[1].γ-PGA作為一種批次發(fā)酵的產(chǎn)物,其發(fā)酵過程復(fù)雜,易受到各種因素的影響,無法嚴(yán)格保證每個(gè)批次發(fā)酵條件完全相同,使得不同批次生產(chǎn)的γ-PGA產(chǎn)品質(zhì)量有所差異.通過對(duì)γ-PGA發(fā)酵批次的鑒別,可以為鑒別γ-PGA產(chǎn)品質(zhì)量提供關(guān)鍵的信息.傳統(tǒng)的CTAB法[2]、HPLC法[3]、GPC法[4]等化學(xué)檢測(cè)方法對(duì)γ-PGA發(fā)酵過程提供信息十分有限,而且上述分析方法大多相對(duì)復(fù)雜、耗時(shí)長(zhǎng)且需要專業(yè)技能.此外,通常需要對(duì)樣品進(jìn)行預(yù)處理,這樣不僅進(jìn)一步增加檢測(cè)的復(fù)雜性和成本,還可能改變?chǔ)?PGA發(fā)酵有機(jī)分子官能團(tuán)特征.相比之下,衰減全反射傅里葉變換紅外光譜(ATR-FTIR)是一種相對(duì)簡(jiǎn)單、快速、廉價(jià)且非侵入性的技術(shù)[5],無需任何復(fù)雜的樣品預(yù)處理;此外其光譜范圍在4 000到400 cm-1之間,能夠準(zhǔn)確地提供γ-PGA發(fā)酵過程中大部分有機(jī)分子化學(xué)鍵和官能團(tuán)信息,非常適用于γ-PGA發(fā)酵過程的監(jiān)測(cè).
由于發(fā)酵條件無法保證完全相同,不同批次γ-PGA發(fā)酵液光譜存在差異.根據(jù)這些光譜差異,可以對(duì)γ-PGA產(chǎn)品批次進(jìn)行鑒別.γ-PGA光譜信息量大,而且變量之間存在多元相關(guān)性.傳統(tǒng)的判別分析方法,如線性判別分析(linear discriminant analysis, LDA)[6]、二次判別分析(quadratic discriminant analysis,QDA)[7]、K近鄰(K-nearest neighbor,KNN)[8]無法處理多元共線性,分類效果很不理想,所以本文采用了適合處理多元共線性問題的偏最小二次判別分析(partial least squares discriminant analysis, PLSDA)[9]方法.PLSDA方法包括了主成分分析、多元線性回歸分析、典型相關(guān)性分析,對(duì)于本文處理γ-PGA發(fā)酵光譜的高維度、噪聲大、變量間存在相關(guān)性的數(shù)據(jù)十分適用[10-15].
本文采集了5個(gè)批次的γ-PGA發(fā)酵液ATR-FTIR數(shù)據(jù).先利用波數(shù)選擇的方法挑選出了重要變量,再利用PLSDA建立分類模型,對(duì)樣品的批次進(jìn)行定性分析,測(cè)試樣品的準(zhǔn)確率可以達(dá)到87%以上.實(shí)驗(yàn)表明,波數(shù)選擇結(jié)合PLSDA可以對(duì)ATR-FTIR采集的γ-PGA發(fā)酵液光譜實(shí)現(xiàn)快速鑒別分類.
γ-PGA發(fā)酵實(shí)驗(yàn)選用中國(guó)工業(yè)微生物菌種保藏管理中心(China Center of Industrial Culture Collection, CICC)枯草芽孢桿菌亞種為菌種(編號(hào)20643).菌種是以凍干粉形式儲(chǔ)存的,將菌種溶于無菌水恢復(fù)活性后,用接種環(huán)將菌群接種于固體培養(yǎng)基,再將其置于電熱恒溫箱培養(yǎng)24~48 h.隨后挑選一株長(zhǎng)勢(shì)良好的菌體,接種在種子培養(yǎng)基中,然后在37 ℃和180 r/min的恒溫振蕩培養(yǎng)箱中(THZ-92A,躍進(jìn)醫(yī)療器械有限公司,中國(guó) 上海)培養(yǎng)10~16 h.接著將種子培養(yǎng)基中種子液按2%接種量接種至發(fā)酵培養(yǎng)基中,并將3 L的發(fā)酵培養(yǎng)基置于5 L的發(fā)酵罐(GRJB-5D,綠色生物工程有限公司,中國(guó) 鎮(zhèn)江)中,在37 ℃恒溫和300 r/min攪拌速度的條件下進(jìn)行發(fā)酵.上述三種培養(yǎng)基配置如下,固體培養(yǎng)基:蛋白胨(10 g/L),牛肉膏(5 g/L),氯化鈉(5 g/L)以及2%瓊脂粉;種子培養(yǎng)基:葡萄糖(10 g/L),牛肉膏(5 g/L),蛋白胨(10 g/L),氯化鈉(5 g/L);發(fā)酵培養(yǎng)基:葡萄糖(35 g/L),酵母膏(5 g/L),谷氨酸鈉(30 g/L),氯化銨(2 g/L),磷酸氫二鉀(5 g/L)和硫酸鎂(0.5 g/L).三種培養(yǎng)基均需在121 ℃下滅菌20 min.
圖1 γ-PGA 5個(gè)發(fā)酵批次的光譜圖
1.3.1 PLSDA原理簡(jiǎn)介
PLSDA是一種有監(jiān)督的判別分析統(tǒng)計(jì)方法[16],該方法被用來建立γ-PGA發(fā)酵液樣品光譜與發(fā)酵批次之間的關(guān)系模型,來實(shí)現(xiàn)對(duì)樣品批次的預(yù)測(cè).PLSDA是基于LDA基礎(chǔ)上的偏最小二乘(partial least squares,PLS),它同時(shí)對(duì)樣本光譜矩陣X∈Rm×n(m和n分別為樣本數(shù)和光譜變量數(shù))和類別標(biāo)簽向量y∈Rm×1進(jìn)行分解,突顯類別信息在光譜分解時(shí)的作用,以提取出與樣本類別最相關(guān)的光譜信息,即最大化提取不同類別光譜之間的差異.
PLSDA建立X與y之間的數(shù)學(xué)模型:
y=XB+E.
(1)
其中:B∈Rn×1為回歸系數(shù)向量;E為殘差向量.
在建立模型(1)之前,先通過PLS對(duì)X和y進(jìn)行雙線性分解:
X=TPT+EX,
(2)
y=UQT+Ey.
(3)
式中:T=[t1,…,tc]∈Rm×c和U=[u1,…,uc]∈Rm×c為關(guān)于X和y的得分矩陣;P∈Rq×c和Q∈Rq×c是X和y的載荷矩陣;EX和Ey是X和y的殘差矩陣.
T和U中的得分向量為原始變量的線性組合:
ti=Xwi,
(4)
ui=yvi.
(5)
式中:wi和vi是投影向量,用非線性迭代偏最小二乘(nonlinear iterative partial least squares,NIPLS)方法提取c組得分,提取c組得分關(guān)鍵在于求解wi和vi,只有求解出wi和vi才能得到ti和ui.提取每組得分需要滿足目標(biāo)函數(shù):
(6)
(7)
1.3.2 波數(shù)選擇方法
經(jīng)典的光譜波數(shù)選擇方法包括了子窗口置換分析(subwindow permutation analysis, SPA)、競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣(competitive adaptive reweighted sampling, CARS)、隨機(jī)青蛙(random frog, RF)等.其中SPA算法能夠考慮到多變量的協(xié)同效應(yīng),以及能夠識(shí)別信息“峰”,來進(jìn)行變量重要性評(píng)估[17].CARS算法以簡(jiǎn)單的“適者生存”原則[18],結(jié)合偏最小二乘回歸來選擇全光譜中的最佳波段.RF是一種基于模型整體分析的變量挑選方法,借鑒了可逆跳躍馬爾可夫鏈蒙特卡羅(reversible jump Markov chain-Monte Carlo, RJMCMC)[19]的思想,生成了一系列可以在整個(gè)模型空間中隨機(jī)跳躍的模型,根據(jù)每個(gè)變量的選擇概率作為變量重要性的度量[20].其中RF,SPA和CARS算法挑選的波數(shù)見圖2.通過觀察挑選波數(shù)的分布情況,發(fā)現(xiàn)SPA算法中挑選的波數(shù)位于波峰波谷處的多;RF算法挑選波數(shù)呈現(xiàn)出分散狀態(tài),正好對(duì)應(yīng)了其隨機(jī)跳躍的特點(diǎn).CARS對(duì)于變量重要程度判斷標(biāo)準(zhǔn)較為嚴(yán)格,是三種方法中挑選出波數(shù)最少的.
圖2 5個(gè)批次的平均光譜及不同選擇方法挑選的波數(shù)
1.3.3 建立模型
本文主要關(guān)注每個(gè)批次與其他批次的分類效果,因此采用二分類分類器,將每個(gè)批次作為一個(gè)小類,將其余4個(gè)批次作為一個(gè)大類.為了保證樣本劃分均衡,對(duì)大類和小類同時(shí)進(jìn)行KS(kennard-stone)劃分.用KS算法將γ-PGA發(fā)酵液光譜數(shù)據(jù)按照3∶1比例劃分,其中3份作為訓(xùn)練集,建立模型;一份作為測(cè)試集,用來驗(yàn)證模型.用波數(shù)選擇方法,挑選出重要性高的波數(shù).采用5折交叉驗(yàn)證,對(duì)挑選出的變量交叉驗(yàn)證分析,從1~20 中選出最佳潛在變量個(gè)數(shù).最后利用PLSDA算法對(duì)訓(xùn)練集建立模型,用測(cè)試集來驗(yàn)證模型精度.所有模型建立之前,光譜數(shù)據(jù)均進(jìn)行中心化預(yù)處理.
1.3.4 評(píng)價(jià)指標(biāo)
所得模型根據(jù)正確率、準(zhǔn)確率、召回率、特異性、F1得分共5個(gè)指標(biāo)來評(píng)價(jià),其中真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,FP)、假陰性(false negative,FN),真陰性(true negative,TN)評(píng)價(jià)指標(biāo)計(jì)算公式如下:
正確率表示預(yù)測(cè)正確樣本占總樣本數(shù)比例:
(8)
準(zhǔn)確率表示預(yù)測(cè)為正類中正確的比例:
(9)
召回率(敏感度)表示預(yù)測(cè)為正類正確個(gè)數(shù)占實(shí)際正類比例:
(10)
特異性表示預(yù)測(cè)為負(fù)類正確個(gè)數(shù)占實(shí)際負(fù)類比例:
(11)
F1得分表示準(zhǔn)確率與召回率的調(diào)和平均數(shù):
(12)
利用PLSDA和三種經(jīng)典的波數(shù)選擇方(SPA-PLSDA,CARS-PLSDA和 RF-PLSDA),對(duì)采集的5個(gè)批次γ-PGA發(fā)酵ATR-FTIR光譜進(jìn)行判別分析,通過對(duì)比波數(shù)選擇和無波數(shù)選擇判別分析精度、敏感度、F1得分來找到最適合γ-PGA發(fā)酵批次判別的方法.
不進(jìn)行波數(shù)挑選,直接利用PLSDA算法進(jìn)行5次二分類,5個(gè)批次訓(xùn)練集的精度都達(dá)到了100%,測(cè)試集精度除了批次3為100%,其余4個(gè)批次也在92.1%~94.9%之間.具體數(shù)據(jù)如表1所示.
表1 PLSDA方法分類結(jié)果
2.2.1 SPA-PLSDA結(jié)果分析
通過1 000次蒙特卡洛實(shí)驗(yàn),SPA挑選出合理的波數(shù),再結(jié)合PLSDA對(duì)挑選出的波數(shù)進(jìn)行建模,實(shí)驗(yàn)結(jié)果見表2.挑選的波數(shù)(見圖2c)主要集中在波峰與波谷處,挑選出連續(xù)的波數(shù),對(duì)應(yīng)了其移動(dòng)窗口選擇波數(shù)的特點(diǎn).相比于不進(jìn)行波數(shù)選擇,SPA-PLSDA模型在5個(gè)訓(xùn)練集模型精度都接近100%,測(cè)試集精度4個(gè)批次達(dá)到了100%,批次1為97.4%,而且F1得分、測(cè)試集敏感度以及測(cè)試集精度上都有顯著提升.經(jīng)過波數(shù)選擇后,大大降低了模型的復(fù)雜度,但預(yù)測(cè)精度仍然能夠保持甚至提升.這些結(jié)果都表明了SPA-PLSDA十分適用于γ-PGA發(fā)酵批次分類.
表2 SPA-PLSDA方法分類結(jié)果
2.2.2 CARS-PLSDA結(jié)果分析
利用CARS算法進(jìn)行波數(shù)選擇,首先構(gòu)建包含所有變量的模型,接著以迭代方式消除最不重要的變量.每次迭代中要消除的變量數(shù)量由指數(shù)遞減函數(shù)和自適應(yīng)加權(quán)采樣技術(shù)所決定.且在每次迭代中,不是對(duì)單個(gè)變量重要性評(píng)估,而是對(duì)變量子集進(jìn)行評(píng)估[21].CARS算法對(duì)于變量重要程度判斷標(biāo)準(zhǔn)較為嚴(yán)格,挑選的波數(shù)(見圖2d)主要集中在波段的前部和中后部;其中批次3雖然只挑選了10個(gè)特征波數(shù)的組合(279,282,501,569,602,793,937,943,952和996 cm-1),但預(yù)測(cè)性能與全波段模型性能相當(dāng).相比于表1不進(jìn)行波數(shù)選擇情況,盡管訓(xùn)練模型的精度仍然是100%,但測(cè)試集精度顯著降低,其中批次1,2和4都降低了5%~8%,降低幅度較大,特別是在測(cè)試集批次1中,將所有類別都?xì)w為了大類,而僅僅在批次5有一點(diǎn)提升,各項(xiàng)指標(biāo)也不夠理想,具體數(shù)據(jù)如表3所示.
表3 CARS-PLSDA方法分類結(jié)果
2.2.3 RF-PLSDA結(jié)果分析
RF通過在模型空間中模擬一條服從穩(wěn)態(tài)分布的馬爾科夫鏈,來計(jì)算每個(gè)變量的被選概率,然后根據(jù)所有變量的排名選擇變量[22].挑選的波數(shù)見圖2b,整個(gè)波數(shù)的選擇都比較隨機(jī),在整個(gè)波段中也比較均勻分散.特別是批次3與5分別挑選出10個(gè)(951,963,941,952,603,601,938,185,569和282 cm-1)和8個(gè)(207,233,336,536,760,529,491和585 cm-1)特征波數(shù)組合,仍然取得了測(cè)試集100%和97.4%的準(zhǔn)確率.相比直接進(jìn)行PLSDA分類,經(jīng)過RF算法挑選波數(shù),訓(xùn)練集準(zhǔn)確率仍然為100%,除了測(cè)試集3個(gè)批次仍然保持100%外,其他幾個(gè)批次均有2%~8%左右的提升,測(cè)試集準(zhǔn)確率均在97.4%以上,其余指標(biāo)如敏感度以及F1得分方面也有明顯提升,模型的復(fù)雜度經(jīng)過波數(shù)選擇后顯著降低,具體數(shù)據(jù)如表4所示.
表4 RF-PLSDA方法的分類結(jié)果
將SPA-PLSDA,CARS-PLSDA,RF-PLSDA三種方法進(jìn)行比較.對(duì)于訓(xùn)練集來說經(jīng)過波數(shù)選擇后對(duì)于鑒別γ-PGA批次準(zhǔn)確率都非常高,對(duì)于測(cè)試集來說CARS-PLSDA方法效果較差,主要是因?yàn)镃ARS-PLSDA將批次1分類中全部歸為了大類,導(dǎo)致準(zhǔn)確率低.而SPA-PLSDA和RF-PLSDA兩種波數(shù)選擇方法取得的效果相差不大,均能很好地對(duì)γ-PGA發(fā)酵批次進(jìn)行判別.其中SPA-PLSDA將批次2,4和5的準(zhǔn)確率提升到了100%,RF-PLSDA將批次2和4的準(zhǔn)確率提升到了100%,將批次5提升了2.5%達(dá)到97.4%.具體數(shù)據(jù)如表5所示.
表5 三種波數(shù)選擇方法比較
1)利用波數(shù)選擇的方法對(duì)ATR-FTIR光譜儀測(cè)量的γ-PGA發(fā)酵液的5個(gè)批次進(jìn)行快速鑒別,相比于直接應(yīng)用PLSDA,波數(shù)選擇方法顯著降低了模型復(fù)雜度.
2)在波數(shù)選擇方法中,CARS算法由于每次迭代中要消除的變量數(shù)量由指數(shù)遞減函數(shù)決定,消除變量數(shù)太多,盡管大幅降低模型復(fù)雜度,但其他指標(biāo)并不理想.
3)RF和SPA算法都取得了良好的效果,經(jīng)過SPA和RF波數(shù)選擇后,批次2,4和5的各項(xiàng)指標(biāo)都得到了提升.其中SPA-PLSDA方法在批次2~5上的準(zhǔn)確率更是達(dá)到100%,批次1達(dá)到97.4%.因此合適的波數(shù)選擇的方法結(jié)合PLSDA可以成功應(yīng)用到γ-PGA的批次鑒別上.