張英昊,薛照陽,趙廷彬,殷海松,喬長晟,,4,
(1.天津科技大學(xué)生物工程學(xué)院,天津 300457;2.天津慧智百川生物工程有限公司,天津 300457;3.天津現(xiàn)代職業(yè)技術(shù)學(xué)院生物工程學(xué)院,天津 300350;4.天津市食品綠色制造及安全校企協(xié)同創(chuàng)新實驗室,天津 300457)
聚蘋果酸是一種水溶性脂肪族聚酯,由蘋果酸單體以酯基聚合而成[1],在食品、藥品、化妝品、生物醫(yī)學(xué)材料、農(nóng)業(yè)等領(lǐng)域具有廣泛應(yīng)用前景。微生物發(fā)酵法現(xiàn)已成為生產(chǎn)聚蘋果酸的主要方式,其中出芽短梗霉(Aureobasidium pullulans)由于產(chǎn)量相對其他微生物高且具有胞外分泌的優(yōu)勢逐步成為了主要生產(chǎn)菌種[2-6]。
發(fā)酵液中聚蘋果酸的傳統(tǒng)測量方法是利用高溫酸水解的方式先將聚蘋果酸水解成L-蘋果酸單體,然后對單體進(jìn)行測量。常用的測量方法有Goodban比色法[7]、酶試劑盒法[8]和液相色譜法,其中液相色譜法是目前最成熟的測量方式[9-10]。酸水解過程具有高能耗、高污染的缺陷;Goodban法副反應(yīng)嚴(yán)重,影響測量精度;酶方法所需的酶試劑盒價格較貴,不易保存,對操作環(huán)境要求也較高;液相色譜法雖然是最成熟的方式,但是具有測量耗時、對樣品具有破壞性、儀器設(shè)備昂貴笨重等缺陷。因此有必要開發(fā)新的檢測技術(shù)。
近紅外檢測分析技術(shù)主要利用有機(jī)物中含氫化學(xué)鍵,如C—H、N—H、O—H、S—H等的倍頻與合頻吸收,對特定組分以快速無損、不需要化學(xué)試劑的方式進(jìn)行定量分析或定性判別[11]。近紅外光譜具有峰形嚴(yán)重重疊,峰強(qiáng)度較弱,信息冗余、雜峰多等特征,因此原始光譜難以用肉眼直接分析,需要以計算機(jī)軟件為工具對光譜進(jìn)行預(yù)處理,使用化學(xué)計量學(xué)方法建立數(shù)學(xué)模型計算待測物質(zhì)濃度,而偏最小二乘回歸(partial least square regression,PLSR)算法由于其良好的擬合精度,優(yōu)秀的泛化能力和相對而言較小的運(yùn)算量逐漸成為最常用的近紅外檢測數(shù)學(xué)建模算法,并在發(fā)酵制品的測量中得到廣泛應(yīng)用。例如董芹[12]利用近紅外檢測發(fā)酵液中透明質(zhì)酸的濃度和分子質(zhì)量;張樹明等[13]利用近紅外檢測葡萄酒發(fā)酵過程中的常用參數(shù);郭宇飛等[14]建立利用近紅外測量發(fā)酵液中L-色氨酸濃度的模型;Li Mengyao等[15]建立近紅外檢測生物反應(yīng)器培養(yǎng)CHO細(xì)胞過程中抗體濃度,細(xì)胞密度以及營養(yǎng)物質(zhì)濃度的模型。
鑒于聚蘋果酸的價值以及近紅外檢測技術(shù)的優(yōu)勢,本實驗選擇利用PLSR方法建立出芽短梗霉發(fā)酵液中聚蘋果酸濃度的近紅外定量模型,并進(jìn)一步驗證此模型在單因素培養(yǎng)基優(yōu)化和誘變菌種篩選2 類實際應(yīng)用情景中對發(fā)酵液樣品的預(yù)測精度,以期為近紅外檢測模型在發(fā)酵工業(yè)中的應(yīng)用提供理論依據(jù)。
1.1.1 菌種
出芽短梗霉CGMCC No.3337,保藏于天津北洋百川生物技術(shù)有限公司。
1.1.2 培養(yǎng)基
斜面保藏使用標(biāo)準(zhǔn)PDA固體培養(yǎng)基。種子培養(yǎng)基:蔗糖140 g/L、酵母粉3 g/L、丁二酸2 g/L、硫酸銨1 g/L、碳酸鉀0.4 g/L、磷酸二氫鉀0.1 g/L、硫酸鎂0.1 g/L、硫酸鋅0.05 g/L、碳酸鈣20 g/L(單獨(dú)滅菌)、玉米漿1 mL/L?;A(chǔ)發(fā)酵培養(yǎng)基:蔗糖180 g/L、蛋白胨35 g/L、硝酸鈉2 g/L、硫酸鎂0.3 g/L、氯化鉀0.5 g/L、磷酸二氫鉀0.1 g/L、硫酸錳0.05 g/L、碳酸鈣20 g/L(單獨(dú)滅菌)。
Antaris II傅里葉變換中近紅外光譜分析儀 美國賽默飛世爾科技有限公司;1100高效液相色譜分析儀 美國安捷倫科技有限公司;Sky2102搖床 上海蘇坤實業(yè)有限公司;YJ-875S醫(yī)用超凈臺 蘇州凈化設(shè)備廠;SPK-250B-Z生化培養(yǎng)箱 上海博訊實業(yè)有限公司醫(yī)療設(shè)備廠;LD5-10高速離心機(jī) 北京醫(yī)用離心機(jī)廠。
1.3.1 培養(yǎng)條件
搖瓶發(fā)酵:從PDA斜面挑取菌體接種于種子培養(yǎng)基中,在25 ℃、200 r/min條件下振蕩培養(yǎng)40 h,然后將種子液按體積分?jǐn)?shù)10%的比例接種于基礎(chǔ)發(fā)酵培養(yǎng)基中,在25 ℃、200 r/min條件下振蕩培養(yǎng)144 h,期間每隔12 h取一次樣以產(chǎn)生不同的聚蘋果酸濃度。
1.3.2 誘變篩選步驟
按照文獻(xiàn)[16]的方法進(jìn)行紫外誘變菌種篩選,經(jīng)搖瓶培養(yǎng)120 h后取樣做相關(guān)測量。
1.3.3 聚蘋果酸濃度的測定
取10 mL發(fā)酵液,15 000 r/min離心10 min,收集上清液,吸取1 mL上清液于水解反應(yīng)釜中,加入4 mL水與5 mL濃度2 mol/L的硫酸溶液,于110 ℃水解7 h,將聚蘋果酸完全水解為L-蘋果酸。高效液相色譜法測定水解前后的L-蘋果酸含量并依據(jù)稀釋倍數(shù)換算為發(fā)酵液原液中的濃度,兩者之差即為發(fā)酵液聚蘋果酸含量。
高效液相色譜檢測條件:J&K C18色譜柱(4.6 mm×250 mm,5 μm);流動相:25 mmol/L磷酸二氫鉀溶液(用磷酸調(diào)節(jié)pH值至2.5);柱溫25 ℃;恒定流速1 mL/min;進(jìn)樣量3 μL;紫外檢測器波長210 nm。
1.3.4 發(fā)酵液近紅外光譜掃描
應(yīng)用透射光譜模塊,以空氣作為掃描背景,室溫下每個樣品做3 次光譜采集,求平均光譜,每次采集掃描32次,掃描波長范圍4 000~10 000 cm-1,采樣間隔設(shè)置為2 cm-1。測試樣品為不同批次不同培養(yǎng)時間點取樣的發(fā)酵離心上清液。
1.3.5 數(shù)據(jù)分析與建模
1.3.5.1 樣本劃分
建模共涉及109 個樣本,利用Kennard-Stone方法[17]劃分校正集和內(nèi)部驗證集,其中校正集82 個,內(nèi)部驗證集27 個,另用完全未參與建模的發(fā)酵液樣品50 個作外部驗證集,驗證模型對完全未知樣品的預(yù)測精度。
分別取單因素優(yōu)化培養(yǎng)基樣品14 個以及紫外誘變菌株樣品集27 個作為外部驗證集,驗證模型在培養(yǎng)基優(yōu)化和誘變篩菌兩類應(yīng)用中的預(yù)測精度。其中單因素優(yōu)化樣品使用初始菌株,在基礎(chǔ)發(fā)酵培養(yǎng)基中額外添加了2~10 g/L的硝酸鈉后經(jīng)搖瓶獲得樣品;誘變菌株樣品集使用誘變菌株接種培養(yǎng),在基礎(chǔ)發(fā)酵培養(yǎng)基中經(jīng)搖瓶獲得樣品。
1.3.5.2 特征波段的選擇
分別以間隔偏最小二乘回歸(interval-partial least square regression,i-PLSR)法和移動窗口偏最小二乘回歸(moving window-PLSR,mw-PLSR)法選擇特征波段[18-19],以交叉驗證均方根誤差(root mean square error of cross validation,RMSECV)作為波段選擇依據(jù),對應(yīng)于最小的RMSECV的波段為最佳擬合波段。交叉驗證的計算方法參考文獻(xiàn)[20]。本研究所有交叉驗證均使用留一法。
1.3.5.3 光譜預(yù)處理與聚蘋果酸定量建模
光譜的一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、多元散射校正(multiplicative scatter correlation,MSC)、標(biāo)準(zhǔn)正規(guī)變換(standard normal variation,SNV)等原理和計算公式參考文獻(xiàn)[21]。具體的實現(xiàn)方式,MSC依照其數(shù)學(xué)原理用R軟件自行編程,其他的處理利用R軟件prospectr包進(jìn)行[17];PLSR由R軟件PLS包實現(xiàn)[22],以RMSECV值作為PLSR算法中因子數(shù)選擇的標(biāo)準(zhǔn),對應(yīng)于最小RMSECV值的因子數(shù)具有最佳擬合精度。以內(nèi)部和外部驗證集的均方根誤差(root mean square error of prediction set,RMSEP),以及液相色譜測量值與模型計算值間的相關(guān)系數(shù)R作為模型質(zhì)量的評價指標(biāo),RMSEP值越小且R越接近于1說明模型的定量擬合效果越好。RMSEP和R的計算公式如下,n為驗證集中的樣本數(shù)。
1.3.5.4 統(tǒng)計學(xué)分析
使用SPSS軟件對校正集、內(nèi)部驗證集和全部的外部驗證集作配對t檢驗以驗證液相色譜測量值與模型計算值之間差異的顯著性,并計算測量值、模型預(yù)測值間的誤差置信區(qū)間;從外部驗證集中挑選10 個樣本,分別以每個樣品掃描的3 次光譜平行代入模型算出濃度后進(jìn)行單樣本t檢驗,以驗證模型對同一樣品測量的穩(wěn)定性。
1.3.5.5 校正集樣品光譜代表性評價
全部樣品集,對其特征波段范圍內(nèi)的近紅外光譜進(jìn)行主成分分析,并選擇方差貢獻(xiàn)率最大的前2 位主成分,作出主成分得分圖。主成分分析由R軟件內(nèi)置基本函數(shù)計算。
如圖1所示,保留時間4.4 min左右的峰為L-蘋果酸單體,樣品中的L-蘋果酸單體峰分離良好,可以基本實現(xiàn)精確的測量。對于近紅外定量建模,校正集測量結(jié)果的準(zhǔn)確性是實現(xiàn)模型精度的基本前提。
圖 1 L-蘋果酸標(biāo)準(zhǔn)品(a)和酸水解發(fā)酵液上清液(b)液相色譜圖Fig. 1 HPLC chromatograms of L-malic acid (a) and the acid hydrolysate of the fermentation supernatant (b)
圖 2 校正集的原始近紅外光譜Fig. 2 Raw near-infrared spectra of calibration set
如圖2所示,芽短梗霉發(fā)酵液的近紅外光譜部分波段噪聲非常大,會嚴(yán)重影響定量精度,需要避開。而且出芽短梗霉發(fā)酵液成分高度復(fù)雜,除聚蘋果酸外,多糖和蛋白質(zhì)也會作為副產(chǎn)物被分泌至胞外[23-24]。因此根據(jù)聚蘋果酸的結(jié)構(gòu)特征查近紅外吸收表確定建模波段的方法不可靠,需要用計算的方式確定建模波段。
表 1 i-PLSR法選擇波段結(jié)果Table 1 Results of waveband selection using i-PLSR method
表 2 mw-PLSR法選擇波段結(jié)果Table 2 Results of waveband selection using mw-PLSR method
依次采用i-PLSR與mw-PLSR方法尋找特征波段,如表1、2所示。利用i-PLSR法先在全波段上粗略定位特征波段所在的大致范圍,再用mw-PLSR法進(jìn)一步精確定位,RMSECV越小則說明波段的預(yù)測精度越高。綜合表1、2結(jié)果可知,5 638~6 024 cm-1波段范圍對應(yīng)于最佳的擬合精度,為特征波段。依據(jù)常見化合物近紅外區(qū)段倍頻吸收表[25],該波段主要對應(yīng)于亞甲基和次甲基中的碳?xì)滏I的二倍頻吸收,是聚蘋果酸分子中存在的結(jié)構(gòu)。因此該波段可以對聚蘋果酸進(jìn)行定量。
表 3 不同預(yù)處理后的RMSECV值Table 3 RMSECV values with different pre-processing methods
預(yù)處理通常能夠消除輸入光譜中的隨機(jī)誤差或基線漂移等不利因素,對建模往往有積極影響。如表3所示,每種組合條件下交叉驗證過程中的PLSR運(yùn)算的因子數(shù)為對應(yīng)于最小的RMSECV值的因子數(shù)。RMSECV值越小,說明對應(yīng)的預(yù)處理條件能使模型預(yù)測精度最高。由表3可以看出,MSC+SNV+Savitzky-Golay 55點平滑+一級導(dǎo)數(shù)光譜的預(yù)處理組合能使模型預(yù)測精度最佳。
圖 3 經(jīng)過波段選擇和光譜預(yù)處理后的校正集輸入光譜波形Fig. 3 Input spectra of calibration set with selected waveband and pre-processing method
圖3 為5 638~6 024 cm-1特征波段在經(jīng)過MSC、SNV和Savitzky-Golay 55點平滑一級求導(dǎo)后的波形。該波形數(shù)據(jù)直接輸入PLSR模型用于聚蘋果酸的定量。
欠擬合與過擬合是數(shù)學(xué)建模中2 種常見的缺陷。其中欠擬合指的是模型輸入數(shù)據(jù)中與待測組分關(guān)聯(lián)的信息利用不充分,過擬合則是輸入數(shù)據(jù)中與待測組分無關(guān)的信息也被引入模型中。2 種情況均會使模型的精度下降。PLSR算法中不同的建模因子數(shù)目代表對原始數(shù)據(jù)不同程度的信息提取,故進(jìn)行建模前要確認(rèn)合適的建模因子數(shù)以平衡欠擬合與過擬合。從圖4可以看出,前5維因子對應(yīng)的RMSECV值均最低,說明此時模型預(yù)測狀態(tài)最佳。
圖 4 PLS因子數(shù)目選擇結(jié)果Fig. 4 Selection of the number of partial least square factors
圖 5 模型算法對校正集、內(nèi)部驗證集和外部驗證集樣品的預(yù)測結(jié)果Fig. 5 Model prediction results of samples in calibration set, internal test set and external test set
以前5維因子進(jìn)行PLSR建模并分別驗證模型對校正集和內(nèi)部驗證集的預(yù)測精度,結(jié)果如圖5所示。其中RMSEC為1.619,Rc為0.983 3,內(nèi)部驗證集預(yù)測均方根誤差(root mean square error of prediction,RMSEP)為1.553,Rp為0.970 0;外部驗證集RMSEP為1.378,Rp為0.992 4。從RMSEP值,相關(guān)系數(shù)R值以及散點的直觀分布來看,模型預(yù)測效果基本滿意。
分別以單因素培養(yǎng)基優(yōu)化組和紫外誘變菌種篩選組的樣品經(jīng)搖瓶培養(yǎng)后的樣品,作為完全未知的外部驗證集,用模型進(jìn)行聚蘋果酸濃度預(yù)測,結(jié)果如圖6所示。單因素培養(yǎng)基優(yōu)化樣品集的RMSEP為1.670,Rp為0.984 2;紫外誘變菌株樣品集的RMSEP為1.416,Rp為0.920 3。直觀上看這2 種情況下模型均具有尚可的預(yù)測效果。
圖 6 模型對培養(yǎng)基單因素優(yōu)化組和誘變菌株組的預(yù)測結(jié)果Fig. 6 Model prediction results for medium composition optimization and mutant screening
以配對t檢驗的方法分別檢驗校正集、內(nèi)部驗證集、外部驗證集、單因素培養(yǎng)基優(yōu)化組和誘變菌株組的聚蘋果酸液相色譜測量值與模型預(yù)測值間的差異顯著性,并計算在95%置信度下誤差的置信區(qū)間,結(jié)果如表4所示。其中校正集、內(nèi)部驗證集和外部驗證集的液相色譜值和計算值間無顯著差異,而培養(yǎng)基單因素優(yōu)化組和誘變菌株篩選組則存在顯著差異,表明模型不適合在這2 類應(yīng)用中對質(zhì)量濃度進(jìn)行測量,尤其單因素培養(yǎng)基優(yōu)化組,其95%置信度下的最大誤差能達(dá)到3.8 g/L,相對于液相色譜值的范圍來說過大。內(nèi)部、外部驗證集的測量值液相色譜值間無顯著差異,且偏差相對于液相色譜值而言小于最大值的5%,表明這種誤差是可以接受的。
表 4 配對t檢驗的結(jié)果Table 4 Result of paired t-test
進(jìn)行培養(yǎng)基優(yōu)化或誘變篩菌時,待測組分質(zhì)量濃度的相對大小往往比實際質(zhì)量濃度更受關(guān)注。根據(jù)單因素優(yōu)化組和誘變菌株組誤差的置信區(qū)間結(jié)果,結(jié)合置信區(qū)間的定義,可以得出2 個樣本模型計算值間的“最小差值”的計算公式,即置信區(qū)間上、下邊界之差的絕對值。2 個樣本在光譜計算結(jié)果偏差大于“最小差值”,即證明2 個樣本在給定置信度下在液相色譜值有顯著差異。因此在95%的置信水平上,單因素優(yōu)化組和誘變菌株組在模型計算值上的“最小差值”必須分別至少大于3.19 g/L和1.436 g/L才能以模型計算值的大小判斷液相色譜值,結(jié)合圖6結(jié)果,測量值與模型值間的線性較好,因此可以在滿足最小差值的條件下較可靠地由定量模型比較出組分大小。如表5所示,從外部驗證集中抽出的10 個樣本,分別由各自同一樣品的3 個平行光譜計算質(zhì)量濃度值并進(jìn)行單樣本t檢驗,以驗證3 次平行光譜的穩(wěn)定性。由結(jié)果可知每個樣本3 次平行經(jīng)t檢驗的顯著性均顯著大于0.05,說明沒有差異,表明模型對同一個樣品的預(yù)測值具有很高的穩(wěn)定性。
表 5 模型穩(wěn)定性檢驗結(jié)果Table 5 Results of model stability test
圖 7 全體涉及樣本光譜代表性評價結(jié)果Fig. 7 Representativeness evaluation of all the samples
對特征波段范圍的近紅外光譜進(jìn)行主成分分析評價樣品集光譜代表性,結(jié)果如圖7所示。校正集樣品的散點完全覆蓋了內(nèi)部和外部驗證集,并且基本分布均勻,沒有明顯的離群點。內(nèi)部與外部驗證集中也均沒有出現(xiàn)明顯偏離校正集范圍的樣本點。該結(jié)果說明樣品集的光譜具備代表性,可以在一定程度上代表實際運(yùn)用中常見的情況。
本實驗雖然建立近紅外聚蘋果酸定量模型,但模型對部分樣品的預(yù)測結(jié)果相對于液相色譜測量值仍有較大誤差。因此有必要分析近紅外模型中誤差的來源。
近紅外光譜具有信息高度重疊的特征,很難將背景組分對應(yīng)的光譜信息完全從目的組分的信息中排除,這表明近紅外檢測相對于中紅外等傳統(tǒng)光譜分析技術(shù)的外推性能較差,定量模型的精度高度受背景組分的影響。因此近紅外模型的校正集樣品要盡可能地包含各種可能出現(xiàn)的背景信息,即具備“代表性”[25]?!按硇浴钡谋憩F(xiàn)形式,即校正集樣品在光譜的主成分空間上應(yīng)該能覆蓋未知樣品,不能有明顯偏離,否則模型精度有可能降低。此時需要不斷輸入新的校正集樣品擴(kuò)大校正集的代表性,然后全體校正集樣本重新建模[25]以改善定量模型的精度(也可按照文獻(xiàn)[26]中所述方法先在主成分空間上進(jìn)行聚類,每一小類再分別建模并對類內(nèi)的未知樣品進(jìn)行預(yù)測,從而改善模型精度)。結(jié)合圖7結(jié)果看,校正集是具備代表性的。但是隨著未知樣品測量的增多,仍然需要適當(dāng)補(bǔ)充新的校正樣本。
本實驗所用PLSR本質(zhì)上是一種線性算法(即光譜矩陣可以經(jīng)歷一系列線性變換,或者乘上一個或幾個矩陣后得出質(zhì)量濃度矩陣)[27],用以描述光譜與質(zhì)量濃度間的換算關(guān)系;而在樣品存在散射干擾的情況下二者間的線性關(guān)系會發(fā)生偏離使預(yù)測精度不佳[28]。表3的光譜預(yù)處理方法最終確定了MSC+SNV+Savitzky-Golay 55點平滑+一階導(dǎo)數(shù)的預(yù)處理方式,能夠最好地改善預(yù)測精度;然而MSC+SNV(有時要進(jìn)一步結(jié)合導(dǎo)數(shù)光譜)是一種常用的消除散射因素干擾的預(yù)處理方式[21],加之出芽短梗霉發(fā)酵液黏稠、渾濁的直觀特征,暗示了出芽短梗霉中存在散射效應(yīng),并干擾了光譜與濃度間的線性關(guān)系,從而增大了誤差。因此,采用非線性算法改進(jìn)定量模型,是一個努力方向。
液相色譜測量值的精度同樣也會增大誤差。如圖1b所示,液相色譜值質(zhì)量濃度需要對L-蘋果酸峰求峰面積計算得出。然而由于發(fā)酵液是一種高度復(fù)雜的混合物,液相色譜不一定能完全將L-蘋果酸的峰分離開,這種情況下算出峰面積會偏離實際,并進(jìn)一步在聚蘋果酸質(zhì)量濃度液相色譜測量值中引入較大的系統(tǒng)誤差。這很可能是導(dǎo)致本實驗中誘變菌株組和單因素優(yōu)化組樣品的液相色譜、計算值間出現(xiàn)較大誤差的原因。因此合適的液相色譜測量條件對于近紅外建模的精度同樣重要。
最后,本實驗配對t檢驗的結(jié)論雖然表明近紅外模型在單因素優(yōu)化和誘變篩菌中的誤差較大不能進(jìn)行測量,但是可以在2 個計算值的偏差大于“最小差值”條件下,通過比較2 個計算值的大小實現(xiàn)比較的液相色譜測量值大小的目的,且能夠排除因近紅外模型的誤差、波動導(dǎo)致的“假陽性”現(xiàn)象,證明了近紅外模型在快速篩菌和組分優(yōu)化技術(shù)的中的應(yīng)用價值。
本實驗首先聯(lián)合使用i-PLSR法與mw-PLSR法,確定建模波段為5 638~6 024 cm-1;隨后經(jīng)一系列優(yōu)化后依次使用MSC+SNV+Savitzky-Golay 55點平滑+一階導(dǎo)數(shù)光譜+前5維因子PLSR建立定量模型,模型的校正集RMSEC為1.619,Rc為0.983 3,內(nèi)部驗證集RMSEP為1.553,Rp為0.970 0,外部驗證集的RMSEP為1.378,Rp為0.992 4。結(jié)合統(tǒng)計分析的結(jié)果表明測量值與模型計算值間無顯著差異,誤差可以接受,模型穩(wěn)定性良好,可用于對組分的測量。進(jìn)一步驗證模型在單因素培養(yǎng)基優(yōu)化和誘變菌種篩選應(yīng)用中的精度,并結(jié)合配對t檢驗的置信區(qū)間結(jié)果,證明了雖然在這這2 類應(yīng)用中模型對聚蘋果酸質(zhì)量濃度的誤差較大,但可以在模型計算值的差值分別滿足大于3.19 g/L和1.436 g/L的前提下以95%的置信度比較出不同樣品中聚蘋果酸濃度大小,因此近紅外模型有應(yīng)用于誘變篩菌和培養(yǎng)基組分優(yōu)化的價值。