楚秉泉, 李成峰, 丁 黎, 郭正彥, 王世宇, 孫偉杰, 金唯一, 何 勇
1. 浙江科技學(xué)院生物與化學(xué)工程學(xué)院, 浙江 杭州 310023 2. 浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院, 浙江 杭州 310058 3. 杭州方回春堂集團(tuán)有限公司, 浙江 杭州 311500
微藻是一種水生光養(yǎng)型單細(xì)胞微生物, 具有易于培養(yǎng)、 生長(zhǎng)周期短、 單位面積產(chǎn)量大和不占用農(nóng)業(yè)用地等特點(diǎn), 在添加劑、 生物固碳、 可再生生物能源等多領(lǐng)域具有廣泛應(yīng)用。 較高的培養(yǎng)成本始終是限制微藻商業(yè)化發(fā)展的主要瓶頸之一[1]。 在養(yǎng)殖過程中諸多因素如光照、 溫度、 培養(yǎng)基、 磁場(chǎng)等都會(huì)影響微藻生長(zhǎng)及胞內(nèi)物質(zhì)合成。 因此, 開發(fā)快速、 簡(jiǎn)單、 有效的無損檢測(cè)方法, 實(shí)現(xiàn)微藻生長(zhǎng)過程代謝信息的實(shí)時(shí)獲取, 并據(jù)此及時(shí)調(diào)整培養(yǎng)條件, 對(duì)保障微藻高效優(yōu)質(zhì)生產(chǎn)、 降低養(yǎng)殖成本至關(guān)重要。 傳統(tǒng)檢測(cè)微藻生長(zhǎng)和代謝產(chǎn)物(如碳水化合物、 蛋白質(zhì)等)的方法雖具有很高的靈敏度和特異性, 但高昂的設(shè)備及專業(yè)操作人員不僅增加了微藻養(yǎng)殖成本, 同時(shí)也費(fèi)時(shí)費(fèi)力且無法實(shí)現(xiàn)大規(guī)模實(shí)時(shí)無損檢測(cè)。
在微藻商業(yè)化養(yǎng)殖過程中, 應(yīng)用智慧農(nóng)業(yè), 可以帶來新的技術(shù)力量和科學(xué)的管理方法, 實(shí)現(xiàn)智能化養(yǎng)殖, 精準(zhǔn)化管理, 提高微藻產(chǎn)量, 降低培養(yǎng)成本。 智慧農(nóng)業(yè)是指利用物聯(lián)網(wǎng)技術(shù), 采集農(nóng)業(yè)數(shù)據(jù), 并通過云計(jì)算、 人工智能、 大數(shù)據(jù)等技術(shù)傳輸分析并建立決策模型, 對(duì)農(nóng)業(yè)生產(chǎn)各個(gè)環(huán)節(jié)進(jìn)行智能化管理的新興技術(shù)手段。 在智慧農(nóng)業(yè)中, 如何方便、 快速、 準(zhǔn)確地獲取作物信息, 是其關(guān)鍵問題之一[2]。 高光譜成像(hyperspectral imaging, HSI)技術(shù)作為一種綜合技術(shù), 集精密光學(xué)機(jī)械、 信號(hào)探測(cè)、 信息處理和計(jì)算機(jī)技術(shù)等于一體, 能同時(shí)表征像元光譜信息和空間物理特性, 目前已有許多研究致力于將其引入農(nóng)業(yè)生產(chǎn), 助力智慧農(nóng)業(yè)。 例如, 農(nóng)作物生化特性檢測(cè)、 營(yíng)養(yǎng)狀況監(jiān)測(cè)以及物種分類判別等。 HSI具有快速、 高效、 無損、 低價(jià)等特點(diǎn), 近些年也有相關(guān)研究將其應(yīng)用在微藻生長(zhǎng)監(jiān)測(cè)中。 例如, Xu等[3]采用透射光譜對(duì)棕囊藻(phaeocystis)生長(zhǎng)階段進(jìn)行監(jiān)測(cè); Lian等[4]基于高光譜熒光成像技術(shù)分析藍(lán)藻色素的分布和濃度; Lorenzo等[5]利用高光譜成像技術(shù)檢測(cè)集胞藻(Synechocystissp.)中聚羥基丁酸酯(polyhydroxybutyrates)的累積情況。 前期文獻(xiàn)檢索發(fā)現(xiàn), 將HSI應(yīng)用于微藻生長(zhǎng)監(jiān)測(cè)方面研究多集中在油脂及其特性、 色素等方面, 對(duì)于同作為微藻胞內(nèi)重要營(yíng)養(yǎng)成分的碳水化合物、 蛋白質(zhì)等的HSI研究則尚未見報(bào)到, 以往研究中所涉及的預(yù)處理方法、 特征選擇方法和建模算法相對(duì)較單一, 模型優(yōu)化有待進(jìn)一步完善[6]。
斜生四鏈藻(Tetradesmusobliquus)是一種在淡水中生長(zhǎng)、 適合大規(guī)模養(yǎng)殖的微藻, 富含油脂、 碳水化合物等營(yíng)養(yǎng)成分, 具有很大的商業(yè)應(yīng)用潛力。 碳水化合物、 蛋白質(zhì)和油脂是微藻細(xì)胞內(nèi)碳存在的主要形式, 各自合成代謝存在相互影響、 共同競(jìng)爭(zhēng)碳源底物現(xiàn)象。 即通過理解碳水化合物、 蛋白質(zhì)和油脂在微藻中的代謝分配規(guī)律及機(jī)制, 進(jìn)而采取合理手段進(jìn)行干預(yù)誘導(dǎo), 是提高微藻生產(chǎn)效率、 降低養(yǎng)殖成本的重要途徑。 要實(shí)現(xiàn)以上目標(biāo), 首先需要實(shí)現(xiàn)斜生四鏈藻培養(yǎng)過程中碳水化合物、 蛋白質(zhì)和油脂的快速、 無損和實(shí)時(shí)監(jiān)測(cè)。 前期利用可見/近紅外(visible/near infrared, VIS/NIR)HSI對(duì)斜生四鏈藻油脂及脂肪酸不飽和度進(jìn)行了建模分析及可視化研究, 取得了較好的效果[7]。 鑒于碳水化合物和蛋白質(zhì)較油脂具有完全不同的特性和化學(xué)基團(tuán), 國(guó)內(nèi)外未有相關(guān)報(bào)道, 故十分有必要對(duì)這兩種成分進(jìn)行HSI分析研究。
本研究以斜生四鏈藻為對(duì)象, 采用VIS/NIR HSI技術(shù)結(jié)合12種光譜預(yù)處理方式、 3種特征選擇算法和4種建模方法, 對(duì)HSI應(yīng)用于斜生四鏈藻生長(zhǎng)代謝信息實(shí)時(shí)無損獲取的可行性進(jìn)行了探究, 并對(duì)藻液中生物量、 碳水化合物和蛋白質(zhì)的空間分布和豐度進(jìn)行可視化展示。 以期為斜生四鏈藻規(guī)?;囵B(yǎng)過程的優(yōu)化控制提供實(shí)時(shí)、 快速檢測(cè)方法。
斜生四鏈藻(T.obliquus)購置于中國(guó)科學(xué)院淡水藻種庫(FACHB), 采用BG11培養(yǎng)基(配方由FACHB提供)置于條件為溫度25 ℃、 濕度60%、 光強(qiáng)(100±10) μmol·m-2·s-1、 光照時(shí)間12 h·d-1的人工智能氣候箱中培養(yǎng), 培養(yǎng)期間每天早、 中、 晚各搖微藻1次。 穩(wěn)定培養(yǎng)5 d后進(jìn)行實(shí)驗(yàn)。
由于前期研究發(fā)現(xiàn)30 mT的磁場(chǎng)結(jié)合100 μmol·m-2·s-1環(huán)繞式LED綠光對(duì)斜生四鏈藻生長(zhǎng)具有顯著促進(jìn)作用[8], 故本實(shí)驗(yàn)采用此條件培養(yǎng)微藻, 重復(fù)25組。 其他條件與穩(wěn)定培養(yǎng)期相同。
準(zhǔn)確量取45 mL混勻的藻液, 倒于直徑為90 mm的培養(yǎng)皿中, 立即采用ImSpector V10E可見光(VIS)高光譜成像(HSI)系統(tǒng)(Spectral Imaging Ltd., Specim, Finland, 380~1 030 nm, 512 wavebands)進(jìn)行掃描獲得VIS光譜數(shù)據(jù)。 考慮到NIR光譜需要更高的反射率, 故將藻液濃縮10倍后于35 mm培養(yǎng)皿, 采用ImSpector N17ENIR HSI(Spectral Imaging Ltd., Specim, Finland, 870~1 730 nm, 256 wavebands)獲得樣本NIR數(shù)據(jù)[7]。 每隔1 d(即培養(yǎng)的第1、 3、 5、 7、 9、 11、 13和15天)進(jìn)行取樣HSI掃描, 即一共采集25組×8次=200個(gè)樣本數(shù)據(jù)。
圖1為斜生四鏈藻VIS(a)和NIR(b)掃描圖像及感興趣區(qū)域(region of interest, ROI)選取示意圖(紅色框)。 采用ENVI軟件(ITT Visual Information Solutions, United States)截取可見光譜40 000個(gè)像素點(diǎn)作為ROI并得到ROI的平均光譜; 截取近紅外光譜400個(gè)像素點(diǎn)作為ROI并得到ROI的平均光譜。
圖2(a, b)展示了斜生四鏈藻在生長(zhǎng)周期內(nèi)不同時(shí)間獲得的200個(gè)樣本的VIS(a)和NIR(b)平均光譜。 由于光譜首尾存在噪聲(圖中陰影部分), 因此截取VIS區(qū)392~1 023 nm 共500個(gè)波段和NIRS區(qū)931.40~1 645.82 nm共213個(gè)波段, 作為光譜建模波段。 VIS/NIRS光譜主要反映含氫基團(tuán)(如C-H、 O-H、 N-H等)振動(dòng)的倍頻與合頻吸收, 可通過光譜數(shù)據(jù)處理及建模分析獲取樣本中豐富的結(jié)構(gòu)和組成信息。 例如, 屬于色素吸收波段的430和680 nm以及屬于水分子吸收波段的980 nm處有明顯的反射波谷[5]; 1 159 nm 附近的反射波谷則與O-H、 C-H有關(guān)[9]; 位于1 490~1 600 nm歸屬于N-H吸收譜帶[10], 也出現(xiàn)反射率降低。
圖2 斜生四鏈藻藻液的VIS(a)與NIRS(b)均值光譜圖Fig.2 VIS (a) and NIRS (b) average spectral data of T. obliquus liquid
樣本的光譜數(shù)據(jù)采集后, 立刻采用相應(yīng)方法對(duì)樣本中生物量、 碳水化合物和蛋白質(zhì)含量進(jìn)行分析, 具體方法參考文獻(xiàn)[8]。
由于數(shù)據(jù)采集過程中設(shè)備存在一定的暗電流且不同波段下光源的分布不均勻會(huì)產(chǎn)生較大的噪聲, 因此需要對(duì)高光譜圖像進(jìn)行黑白校正, 校正公式如式(1)
(1)
式(1)中:R0為原始高光譜圖像,Rd為反射率0%的黑板高光譜圖像,Rw為反射率100%的白板高光譜圖像,R為校正后的高光圖圖像。
光譜采集過程中難免會(huì)受到環(huán)境、 設(shè)備等各種條件的影響, 使得光譜出現(xiàn)基線漂移、 噪聲、 散射等問題。 因此需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理, 從中選擇合適的預(yù)處理方法提高模型的預(yù)測(cè)能力。
本研究采用12種較為常用的預(yù)處理方法[10], 包括原始光譜(raw)、 標(biāo)準(zhǔn)化(autosacling)、 標(biāo)準(zhǔn)正態(tài)化(standard normal variate transform, SNV)、 均值中心化(mean centering, MC)、 最大最小歸一化(min-max)、 矢量歸一化(vector normalization, VN)、 多元散射校正(multiplicative scatter correction, MSC)、 S-G(Savitzky-Golay smoothing)變換、 滑動(dòng)平均濾波(moving average filter, MAF)、 小波變換(wavelet transform, WT)、 一階差分(first difference, FD)和二階差分(second difference, SD)。
特征波長(zhǎng)的選取可以大大降低樣本的維度, 簡(jiǎn)化模型; 同時(shí)可以剔除不相關(guān)或冗余信息, 提升模型預(yù)測(cè)能力和穩(wěn)健性。 本研究采用競(jìng)爭(zhēng)自適應(yīng)重加權(quán)采樣算法(competitive adaptive reweighted sampling, CARS)、 區(qū)間隨機(jī)蛙跳算法(interval Random Frog, iRF)和模擬退火算法(simulated annealing, SA)進(jìn)行特征波長(zhǎng)選取。
采用了多元線性回歸(multiple linear regression, MLR)、 偏最小二乘(partial least squares, PLS)、 支持向量機(jī)回歸(support vector regression, SVR)以及隨機(jī)森林回歸(random forest regression, RFR), 用于構(gòu)建光譜信息與目標(biāo)組分之間的分析模型。
2.1.1 高光譜采集及預(yù)處理
將每次采集的25份斜生四鏈藻(T.obliquus)藻液樣本的高光譜數(shù)據(jù)按18∶7分為訓(xùn)練集和預(yù)測(cè)集, 即200個(gè)光譜數(shù)據(jù)中隨機(jī)選擇144個(gè)作為訓(xùn)練集, 56個(gè)作為預(yù)測(cè)集。 同時(shí), 采用偏最小二乘(PLS)進(jìn)行全波段建模, 評(píng)估不同預(yù)處理方法的優(yōu)劣, 最終選定較為良好的預(yù)處理方法。 表1為200個(gè)藻液樣本生物量范圍, 表2為不同光譜預(yù)處理方法處理后的建模效果。
表1 斜生四鏈藻藻液樣本中生物量范圍(mg·L-1)Table 1 Biomass range of T. obliquus liquid samples
2.1.2 光譜特征選擇
圖3 不同預(yù)處理方式下藻液中生物量CARS特征選擇建模結(jié)果評(píng)估Fig.3 Evaluation of microalgal liquid biomass model by CARS feature selection under different preprocessing methods
2.1.3 光譜建模
根據(jù)特征波段分析結(jié)果, 最終選擇VN預(yù)處理光譜數(shù)據(jù), 然后采用CARS選擇特征波段建立CARS-PLS、 CARS-MLR模型和CARS-SVM模型。 其結(jié)果見表3。
表3 經(jīng)不同算法處理的藻液中生物量建模評(píng)估結(jié)果Table 3 Evaluation results of biomass model by different modeling algorithms
由表3可知, CARS-PLS和CARS-MLR預(yù)測(cè)精度, 泛化能力都很好, 較全波段建模, 整體模型預(yù)測(cè)能力有較大提升, 而CARS-SVR模型效果較差。 綜合考量, 本實(shí)驗(yàn)最終選擇VN光譜預(yù)處理方式結(jié)合CARS-MLR進(jìn)行建模。 其模型公式如下
y=-41.096 6-21 806.072 34X452.35 nm+
16 779.819 6X487.46 nm+126 600.494 1X536.53 nm-
89 997.815 2X537.76 nm-165 549.437X593.75 nm+
83 791.885 7X610.06 nm-399 601.426 1X654.22 nm+
380 768.452 4X655.49 nm+214 234.526 9X714.04 nm-
188 444.272 9X715.32 nm-33 342.143 5X940.81 nm
(1)
式(1)中,Xi為波段第i個(gè)波段經(jīng)過VN處理后的光譜值。 所選波段中452.35、 487.46、 536.53、 537.76和593.75 nm波段與色素有關(guān); 610.06、 654.22、 655.49、 714.04和715.32 nm波段屬于C-H基團(tuán)振動(dòng)譜帶[7]; 940 nm屬于水的吸收范圍[9]; 生物量特征波段選擇與前人研究一致[12]。 圖4為光譜數(shù)據(jù)經(jīng)VN預(yù)處理后基于CARS-MLR模型的斜生四鏈藻藻液生物量的預(yù)測(cè)結(jié)果。
圖4 基于CARS-MLR模型的斜生四鏈藻藻液生物量的預(yù)測(cè)結(jié)果Fig.4 Prediction result of biomass of T. obliquus liquid based on CARS-MLR model
2.1.4 光譜成像
高光譜圖像不僅能夠?qū)ι锪繚舛茸龀鰷?zhǔn)確預(yù)測(cè), 還可將模型應(yīng)用于圖像的每個(gè)像素點(diǎn)。 通過對(duì)每個(gè)像素點(diǎn)的生物量濃度進(jìn)行預(yù)測(cè), 從而得到生物量在高光譜圖像中的分布圖。 圖5(a-h)為CARS-MLR模型預(yù)測(cè)斜生四鏈藻藻液樣本中生物量的高光譜圖像反演熱力圖。 可以看出, 從培養(yǎng)第9天起[圖5(a-e)], 斜生四鏈藻生長(zhǎng)速率顯著增加, 分析認(rèn)為培養(yǎng)前期(D1-D9)微藻以適應(yīng)環(huán)境為主(調(diào)整期), 生物量增長(zhǎng)較為滯緩, 而從D9起進(jìn)入生長(zhǎng)指數(shù)期。
圖5 磁場(chǎng)和綠光培養(yǎng)下斜生四鏈藻藻液中生物量分布的化學(xué)成像圖Fig.5 Chemical imaging of biomass distribution in liquid suspense of T. obliquus under MF and green LED exposure
2.2.1 光譜預(yù)處理
按同“2.1.1”的方式將藻液樣本分為訓(xùn)練集和預(yù)測(cè)集。 斜生四鏈藻藻液中碳水化合物濃度范圍如表4所示。
表4 斜生四鏈藻藻液樣本中碳水化合物含量范圍(mg·L-1)Table 4 Carbohydrate range of T. obliquus liquid samples (mg·L-1)
表5 不同光譜預(yù)處理方法對(duì)藻液中碳水化合物含量建模結(jié)果評(píng)估Table 5 Evaluation of carbohydrate model using different spectral preprocessing methods
2.2.2 光譜特征選擇
在光譜預(yù)處理的基礎(chǔ)之上, 選擇raw光譜、 autoscaling、 MC、 S-G變換、 MAF, WT這6種效果相對(duì)好的預(yù)處理方式結(jié)合區(qū)間隨機(jī)蛙跳(iRF)的方法進(jìn)行光譜特征選擇, 利用PLS算法建模, 其評(píng)估結(jié)果見圖6。
2.2.3 光譜建模
表6 經(jīng)不同算法處理的藻液中碳水化合物含量建模評(píng)估結(jié)果Table 6 Evaluation results of carbohydrate model of different modeling algorithms
圖7 基于iRF-RFR模型的斜生四鏈藻藻液中碳水化合物含量的預(yù)測(cè)結(jié)果Fig.7 Prediction result of carbohydrate of T. obliquus liquid based on iRF-RFR model
2.2.4 光譜成像
采用iRF-RFR模型, 對(duì)斜生四鏈藻選定的藻液ROI區(qū)域的每個(gè)像素點(diǎn)進(jìn)行反演, 得到每個(gè)像素點(diǎn)碳水化合物的濃度值, 形成其在藻液ROI區(qū)域的空間分布圖。 圖8為采用30 mT的磁場(chǎng)結(jié)合100 μmol·m-2·s-1環(huán)繞式LED綠光連續(xù)培養(yǎng)15 d的斜生四鏈藻藻液中碳水化合物的豐度變化。 可以看出, 隨著培養(yǎng)時(shí)間延長(zhǎng), 藻液中碳水化合物濃度逐漸增大, 尤其是從培養(yǎng)第11天起, 碳水化合物的累積效率明顯增加。 但相對(duì)于生物量的增長(zhǎng)有一定的滯后性, 可能的解釋是隨著微藻密度的增加, 藻液透光性明顯降低, 反過來抑制了微藻的光合作用, 從而導(dǎo)致光合作用的主要產(chǎn)物--碳水化合物合成的減緩[15]。
圖8 磁場(chǎng)和綠光培養(yǎng)下斜生四鏈藻藻液中碳水化合物分布的化學(xué)成像圖Fig.8 Chemical imaging of carbohydrate distribution in liquid suspense of T. obliquus under MF and green LED exposure
2.3.1 光譜預(yù)處理
按同“2.1.1”的方式將200個(gè)斜生四鏈藻藻液光譜數(shù)據(jù)分為訓(xùn)練集和預(yù)測(cè)集。 藻液中蛋白質(zhì)的濃度范圍見表7。 對(duì)比分析12種光譜數(shù)據(jù)預(yù)處理方法的效果, 表明raw光譜、 autoscaling、 MC、 S-G變換、 MAF和WT效果相對(duì)較好(表8)。
表7 斜生四鏈藻藻液樣本中蛋白質(zhì)含量范圍(mg·L-1)Table 7 Protein range of T. obliquus liquid samples
表8 不同光譜預(yù)處理方法對(duì)藻液中蛋白質(zhì)含量建模結(jié)果評(píng)估Table 8 Evaluation of protein model using different spectral preprocessing methods
2.3.2 光譜特征選擇
圖9 不同預(yù)處理方式下藻液中蛋白質(zhì)含量SA特征選擇建模結(jié)果評(píng)估Fig.9 Evaluation of microalgal liquid protein model by SA feature selection under different pretreatment methods
2.3.3 光譜建模
在前期SA-MLR的基礎(chǔ)上, 對(duì)選擇的特征波段采用PLS、 SVR以及隨機(jī)森林回歸(RFR)算法進(jìn)行建模, 并比較這幾種方法的建模效果。 結(jié)果如表9所示, 總體以SA-RFR建模效果最佳。 圖10為光譜數(shù)據(jù)經(jīng)WT預(yù)處理后基于SA-RFR模型的斜生四鏈藻藻液中蛋白質(zhì)含量的預(yù)測(cè)結(jié)果。
表9 經(jīng)不同算法處理的藻液中蛋白質(zhì)含量建模評(píng)估結(jié)果Table 9 Evaluation results of protein model by different modeling algorithms
圖10 基于SA-RFR模型的斜生四鏈藻藻液中蛋白質(zhì)含量的預(yù)測(cè)結(jié)果Fig.10 Prediction result of protein of T. obliquus liquid based on SA-RFR model
2.3.4 光譜成像
采用前期優(yōu)化篩選的SA-RFR模型對(duì)斜生四鏈藻藻液中的ROI區(qū)域的每個(gè)像素點(diǎn)進(jìn)行反演, 得到每個(gè)像素點(diǎn)的蛋白質(zhì)濃度值, 進(jìn)而描繪出蛋白質(zhì)在ROI區(qū)域上的豐度分布圖(圖11)。 從圖可以看出, 培養(yǎng)前7天, 藻液中蛋白質(zhì)含量增加速率較緩慢, 但從培養(yǎng)D9起, 蛋白質(zhì)累積效率顯著增高, 與生物量的變化較為同步, 可能是本研究采用的培養(yǎng)條件對(duì)斜生四鏈藻中蛋白質(zhì)含量占比影響較小[8]。
圖11 磁場(chǎng)和綠光培養(yǎng)下斜生四鏈藻藻液中蛋白質(zhì)分布的化學(xué)成像圖Fig.11 Chemical imaging of protein distribution in liquid suspense of T. obliquus under MF and green LED exposure