姚 燕,沈曉敏,邱 倩,王 晶,蔡晉輝,曾九孫,梁曉瑜
中國計量大學計量測試工程學院,浙江 杭州 310018
厭氧發(fā)酵工藝中,生化產甲烷潛力(biochemical methane potential,BMP)是一項重要的測試指標。BMP是指單位有機物料在厭氧條件下發(fā)酵產生甲烷氣體的能力,通過BMP測試可以了解有機廢棄物的生物降解性能和產氣潛力,從而衡量發(fā)酵效率和過程穩(wěn)定性、評估厭氧發(fā)酵工程投資收益[1]。傳統(tǒng)測量有機廢棄物BMP的方法是在BMP測試儀器上將原料厭氧發(fā)酵一定時間,得到發(fā)酵期間的產氣量[2]。目前得到商化儀的BMP自動測試設備有瑞典碧普公司AMPTS全自動甲烷潛力測試設備、德國WTW公司生產的OxiTop測試設備等。這些測試設備具有良好的準確性,但測試周期長、成本高、僅適用于事前分析,不適用于大批量實驗。近紅外光譜技術預測有機廢棄物BMP的方法[3],可以實現(xiàn)快速、準確的測定,這在監(jiān)控厭氧發(fā)酵狀態(tài)以及指導厭氧發(fā)酵系統(tǒng)運行具有重要的意義。利用近紅外光譜法測定有機廢棄物BMP[4]的主要思想是通過近紅外光譜儀掃描樣本,將樣本內部信息以光譜圖的形式表現(xiàn)出來,通過建立近紅外光譜定量分析模型預測樣本BMP。還對光譜進行波段篩選以及算法優(yōu)化,有效提高了有機廢棄物生化甲烷潛力預測模型的準確度。
實驗樣本選用中國東部、南部等地收集的水生植物及能源藻類植物,主要來源于公園、溝渠、海洋等地。樣品制備:將采集到的水生植物和能源藻類樣本放置于數顯式101A-2工業(yè)電熱恒溫鼓風干燥箱,干燥溫度設置為60 ℃,干燥時間為6 h。通過YB-600A型粉碎機研磨成粉末狀,通過100目樣本篩篩成顆粒大小均勻的粉末樣本。根據Triolo的研究[5],干燥過程在60 ℃下研磨不會影響B(tài)MP和其他沼氣生產特性。將干燥后的樣本迅速放入樣本袋中進行標號,放入干燥皿密封避光保存。實驗共制備64個樣本,隨機選取其中的54個樣本作為校正集,10個樣本作為預測集。
自行搭建實驗平臺,該平臺及簡圖如圖1所示。實驗中所用的接種物來自杭州市七格污水處理廠,底物為64種已制備的粉末樣本。將接種物和底物按5∶1的比率加至500 mL發(fā)酵瓶,在中溫條件(37 ℃)條件下進行發(fā)酵,不再產氣時視為發(fā)酵終止。實驗每批為期30 d,每隔兩天記錄一次排水量,發(fā)酵總歷時4個月。實驗設置實驗組和空白對照組(無底物)。
圖1 BMP基礎數據測定實驗系統(tǒng)示意圖Fig.1 Schematic diagram of BMP basic data measurement experiment system
利用美國Thermo Fisher Scientific公司生產的Nicolet系列NEXUS670型號的傅里葉變換近紅外光譜儀掃描樣本得到近紅外光譜,用樣品勺取出少量粉末狀樣本使其均勻的覆蓋在光譜儀操作臺的石英片上,光譜儀的掃描方式為漫反射,測量范圍806~2 500 nm,分辨率設為16 cm-1,掃描次數32次。每個樣本采集光譜5次,取5次平均值作為最終實驗數據,以減少隨機誤差造成的影響。實驗全程在室溫下進行,環(huán)境濕度為50%。
1.4.1 遺傳算法
遺傳算法(GA)模擬了遺傳選擇和自然淘汰的生物進化過程計算模型,是一種具有“生存+檢測”的迭代過程的搜索算法,可用于建立校正模型前的波長優(yōu)選[6],減少建模波長數據,提高預測精度,主要包括編碼、初始群體生成、適應性函數設定、復制、交叉、變異等六個主要步驟[7]。
1.4.2 支持向量回歸
支持向量機是建立在統(tǒng)計學習理論的VC維理論和最小化結構風險基礎上的一種數據挖掘方法[8],它根據有限的樣本信息在模型的復雜性和學習能力之間找到一個最佳平衡點,以獲得模型最好的推廣能力和適應能力[9]。研究中利用遺傳算法選取的特征波長作為輸入向量,建立支持向量回歸預測模型。
64個樣品產氣量如圖2所示。從圖2中可以看出,64個水生植物和能源藻類樣品在30天產氣周期里,產氣量范圍為615~1 428 mL,多數樣本產氣量在800 mL上下浮動。其中以64號樣本紅藻和63號樣本馬尾藻產氣量最多,1號樣本羊棲菜產氣量最少。根據Bryant提出的厭氧降解過程的四階段原理,碳水化合物經過4個階段的化學反應,產出甲烷和二氧化碳,樣本的生化產甲烷潛力與碳水化合物的含量成正比。實驗測得的樣本碳水化合物含量與BMP產氣量關系如圖3所示,BMP產氣量大體上隨碳水化合物含量減少而減少,本研究所得到的實驗數據基本與理論重合。實驗中存在個別樣本如8號、32號、35號、44號等碳水化合物含量相對較高,BMP相對較低的情況,經驗證得知,該情況的出現(xiàn)可能與這幾種樣本內在的特殊成分有關。
圖2 64個有機廢棄物樣本實際甲烷產氣量Fig.2 The actual methane gas production of 64 organic waste samples
圖4為64個廢棄物原始近紅外光譜圖。圖中顯示,樣本的吸收峰出現(xiàn)的范圍900~1 500和1 800~2 300 nm,其吸光度隨波長的增加而增加。1 000,1 200和1 500 nm附近的C—H,N—H和O—H的倍頻吸收帶以及2 000和2 100 nm附近的N—H和O—H倍頻吸收帶均可見,這些吸收峰反映了樣本中C—H,N—H和O—H等含氫基團的信息,樣本的主要成分如蛋白質、碳水化合物等均含有這些含氫基團,選擇的樣本具有代表性。
圖3 碳水化合物含量與產甲烷潛力關系Fig.3 The connection between carbohydrate content and gas production
圖4 64個有機廢棄物樣本原始近紅外光譜圖Fig.4 Original near infrared spectroscopy of 64 organic waste samples
由于本實驗直接采集樣本光譜,存在信號噪聲、信號干擾等問題,因此需要對樣本原始近紅外光譜進行預處理,減弱或消除各種非目標因素對光譜信號的影響。有研究表明,在建立定量分析模型前,通過正交的方法,可將與樣本無關的信息剔除,提高模型預測精度;同時還可以減少建模所需要的主因子數,進一步簡化模型[10]。在眾多消噪的方法中,選擇利用正交信號校正(orthogonal signal correction,OSC)進行濾除干擾信號。實驗選擇非線性迭代偏最小二乘(NIPALS)、類主成分分析(類PCA)和直接正交信號校正(DOSC)三種常用的正交信號校正算法分析,對校正后的光譜建立PLS模型,其結果如表1所示。
在表1中可以看出,與未經預處理的模型預測結果相比,經過預處理后的模型預測結果顯著提高,說明預處理能夠有效提高模型預測效果和穩(wěn)定性。在正交信號校正的三種算法中,NIPALS算法最佳,與不經過消噪處理的結果相比,預測均方根誤差RMSEP減少了16.33 mL,相關系數提高了0.15。
表1 光譜預處理校正后的模型預測結果Table 1 Model prediction results after spectral preprocessing correction
為了簡化模型數據,降低近紅外光譜區(qū)域內的冗余信息,提高模型預測精度,采用特征波長選取方法GA-SVM波長篩選算法選取近紅外原始光譜特征波段,與全波段范圍內建立的PCR、PLS及RPLS模型進行比較,通過比較交互驗證均方根差(RMSECV)、預測均方根誤差(RMSEP)、相關系數(R2)、相對分析誤差(RPD)等模型評價參數來探討GA-SVM方法的性質特點。
按照遺傳算法波長篩選步驟,將原始光譜譜區(qū)806~2 500 nm包含的2 179個光譜數據分為30個子區(qū)間,即染色體長度為30。遺傳算法的各參數設定如下:種群大小為54個,最大繁殖代數為200,交叉概率為0.85,變異概率為0.05,適應度函數為f=RMSECV。
當前RMSECV最小值隨遺傳代數變化趨勢如圖5所示,當遺傳代數達到140后,RMSECV基本不再減小,曲線趨于平坦,這時已經搜索到最優(yōu)解。由此挑選出了1 404個波長點以及三個特征波段,如表2所示,與原始2 179個波長點相比簡化了數據規(guī)模。
圖5 RMSECV與遺傳代數關系圖Fig.5 The connection between RMSECV and Genetic algebra
表2 遺傳算法篩選波段及波長點Table 2 The characteristic bands and characteristic wavelength points selected by GA
在選取的特征波段上建立支持向量機回歸模型,利用遺傳算法選取的1 404個波長點作為SVM建模的輸入量,采用RBF核函數,選擇懲罰系數C=1 000,核函數的寬度參量γ=0.5的條件下,GA-SVM模型的預測結果如圖6所示。將該GA-SVM建模實驗結果與原始波長下的PCR,PLS和RPLS三種建模方法進行比較,如表3所示。
圖6 GA-SVM模型預測結果圖Fig.6 The prediction results of GA-SVM model
結合圖6和表3分析發(fā)現(xiàn),在全波譜范圍內,PCR和PLS模型的預測精度較低,且這兩種預測模型的RPD均小于2.5,說明模型的預測效果較差,難以進行定量分析。
表3 PCR,PLS,RPLS和GA-SVM預測結果比較分析Table 3 The prediction results of PCR,PLS, RPLS and GA-SVM
RPLS的模型預測的準確性有所提高,R2為0.88,RPD為2.71,但是提高精度有限,仍需進一步改善。
相比在全譜區(qū)范圍建模,運用GA-SVM選擇特征波長建模后,模型的預測精度得到很大提高,RMSEP從RPLS的43.04 mL下降到16.61 mL,R2由RPLS的0.88提高到0.93,同時模型的波長點數由2 179下降到1 404,模型數據得到簡化。雖然GA-SVM預測模型的復雜程度有所加深,但是模型的RPD值達到6.56,表明GA-SVM模型預測精度有明顯提高,模型預測效果良好,可用于實際檢測。
綜合評價四種方法所建模型的預測能力,在提取的特征波段上建立預測模型可以有效地提高模型預測精度,GA-SVM所建模型各評價指標均優(yōu)于RPLS,可見遺傳算法對于提取水生植物和能源藻類有效的BMP近紅外光譜信息具有良好的效果,利用支持向量機建模大幅提高了預測精度和模型穩(wěn)定性,預測效果良好。
通過遺傳算法(GA)和支持向量機(SVM)對水生植物和能源藻類生物質的近紅外光譜進行特征譜區(qū)和特征波長的選取。結果發(fā)現(xiàn),與全譜區(qū)建立模型相比,GA-SVM算法能夠提取具有代表性的特征波段從而簡化了模型數據,較全譜區(qū)建模具有較高的BMP模型預測精度,兩者的結合有效提高了運算效率和模型精度,最終建立的水生植物和能源藻類生物質的近紅外光譜模型預測生化產甲烷潛力(BMP)的能力和精度更高。