任方濤,張 元,廉飛宇
(1. 河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001; 2.河南工業(yè)大學(xué) 糧食信息處理與控制教育部重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001; 3.河南省糧食光電探測(cè)與控制重點(diǎn)實(shí)驗(yàn)室,河南 鄭州 450001)
通信作者:張?jiān)?1961—),男,河南洛陽(yáng)人,教授,碩士生導(dǎo)師,主要研究方向?yàn)樗|(zhì)檢測(cè)技術(shù)、糧食信息處理,E-mail:zy_haut@163.com。
傳統(tǒng)的硝酸鹽氮檢測(cè)方法包括化學(xué)發(fā)光法、格里斯試劑法、電化學(xué)方法和毛細(xì)血管電泳法等,但是這些方法過(guò)程煩瑣、耗時(shí)長(zhǎng),并且由于在實(shí)驗(yàn)過(guò)程中需要加入化學(xué)試劑易造成二次污染、測(cè)定結(jié)果有較大誤差等因素,難以得到普及應(yīng)用[3]。Li等[4]采用化學(xué)發(fā)光法測(cè)定水體中亞硝酸鹽氮的濃度,但是化學(xué)分析法的發(fā)光強(qiáng)度易受到環(huán)境因素的影響,并且檢測(cè)的準(zhǔn)確性和穩(wěn)定性有待提升。Feng等[5]提出了一種基于格里斯反應(yīng)結(jié)合隔柱還原的流動(dòng)注射分光光度法檢測(cè)硝酸鹽和亞硝酸鹽含量,對(duì)天然水體如雨水、河口水等的檢測(cè)效果較好,但對(duì)一些雜質(zhì)稍復(fù)雜的水體檢測(cè)效果不明顯。Manea等[6]提出了基于電化學(xué)方法對(duì)水體硝酸鹽氮和亞硝酸鹽氮含量進(jìn)行同時(shí)檢測(cè),但檢測(cè)的精度有待提高。近年來(lái),用紫外吸收光譜法(UV法)做水質(zhì)定量分析,由于其簡(jiǎn)便、快捷、無(wú)需對(duì)試劑處理等諸多優(yōu)勢(shì)而被廣泛采用[7]。紫外吸收光譜法做水質(zhì)檢測(cè)基于朗伯比爾定律,該定律描述了在光程不變的情況下,溶液的濃度與吸光度成正比例關(guān)系。基于紫外光譜做水質(zhì)檢測(cè)的優(yōu)勢(shì),學(xué)者結(jié)合紫外吸收法做了不少研究。Drolc等[8]用UV法測(cè)定水質(zhì)中硝酸鹽氮和亞硝酸鹽氮的含量。王曉明等[9]用UV法結(jié)合偏最小二乘(PLS)對(duì)水質(zhì)中化學(xué)需氧量(COD)進(jìn)行定量分析。Guercio等[10]利用浸入式紫外可見(jiàn)(UV-Vis)光譜儀搭建了水質(zhì)控制預(yù)警系統(tǒng),對(duì)維生素C進(jìn)行實(shí)驗(yàn)?zāi)M,取得了相當(dāng)不錯(cuò)的效果。由此可見(jiàn),UV-Vis光譜技術(shù)可廣泛應(yīng)用于水質(zhì)檢測(cè)與預(yù)警,故本研究利用紫外可見(jiàn)分光光度計(jì)對(duì)實(shí)驗(yàn)室配制的不同含量的硝酸鹽氮樣品進(jìn)行光譜掃描,再結(jié)合數(shù)學(xué)定量分析算法對(duì)其進(jìn)行定量分析。
實(shí)驗(yàn)中采用的紫外光譜儀是國(guó)產(chǎn)島津UV-2450型,其掃描波長(zhǎng)為190~1 100 nm,該波段覆蓋紫外、可見(jiàn)光和近紅外3個(gè)波段,分辨率設(shè)置為0.5 nm。光譜儀開(kāi)機(jī)0.5 h后進(jìn)行儀器性能測(cè)試,性能測(cè)試通過(guò)后,開(kāi)始采集各個(gè)樣本在190~350 nm的吸收光譜。為保證實(shí)驗(yàn)的準(zhǔn)確性,待所有樣本配制好后,在同一溫度下靜置1 h再測(cè)量。光譜采集軟件是UV Probe,建模軟件是MATLAB 2016a,光譜預(yù)處理軟件是The Unscrambler 9.7。
取干燥后的硝酸鉀粉末7.215 0 g溶于去離子水1 000 mL,得到母液1 000 mg/L,經(jīng)去離子水稀釋依次得到74個(gè)不同濃度的樣本標(biāo)液。分別測(cè)試每個(gè)樣本的吸收光譜,每個(gè)樣品測(cè)量3次,取其平均值作為最終數(shù)據(jù)。為保證實(shí)驗(yàn)的公平性,從每種梯度樣本中選擇有代表性的樣本作為測(cè)試集,測(cè)試集樣品包含了從低濃度到高濃度的樣本。各樣本溶液的濃度、測(cè)試集與訓(xùn)練集樣本的信息如表1所示。
表1 樣本信息表Tab.1 Sample information
1.3.1光譜噪聲去除
為了進(jìn)一步提升建模的預(yù)測(cè)精準(zhǔn)度、更加有效地利用光譜信息,嘗試對(duì)原始光譜數(shù)據(jù)進(jìn)行去噪處理從而有效消除噪聲干擾、基線漂移等因素的影響[11]。采用Savitzky-Golay平滑算法、標(biāo)準(zhǔn)正態(tài)變換(SNV)、一階微分(First-Derivative)等6種預(yù)處理方法對(duì)光譜進(jìn)行去噪處理,并對(duì)以上幾種去噪算法進(jìn)行比較分析。
1.3.2主成分個(gè)數(shù)(LVs)
偏最小二乘回歸是常用的化學(xué)計(jì)量學(xué)建模方法,同時(shí)考慮光譜矩陣X和樣本理化值Y(本實(shí)驗(yàn)中代指樣本濃度mg/L)[12], 在利用PLS方法建立模型時(shí),非常關(guān)鍵的一點(diǎn)是X與Y主成分個(gè)數(shù)選取問(wèn)題。若選取的主成分個(gè)數(shù)較少,則不足以表征全樣本的光譜特性,造成模型精度下降,影響模型的預(yù)測(cè)效果;若選取的主成分個(gè)數(shù)較多,則噪聲會(huì)干擾模型的性能。本實(shí)驗(yàn)中把經(jīng)過(guò)PLS建模選取的最優(yōu)主成分作為BP、RBF和SVR模型的輸入進(jìn)行模型對(duì)比分析[13]。
1.3.3建模分析方法
采用5種建模方法,分別是偏最小二乘回歸(PLS)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)、支持向量機(jī)回歸(SVR)、極限學(xué)習(xí)機(jī)(ELM)模型。使用PLS建模時(shí),基于全樣本光譜信息作為模型輸入,使用BP神經(jīng)網(wǎng)絡(luò)和RBF神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)回歸建模時(shí),把經(jīng)過(guò)PLS提取的主成分作為模型輸入,使用極限學(xué)習(xí)機(jī)建模時(shí),基于特征波長(zhǎng)的選擇作為模型輸入,針對(duì)3種特征波長(zhǎng)算法進(jìn)行比較分析。
BP和RBF神經(jīng)網(wǎng)絡(luò)是非線性建模常用的兩種方法,被廣泛應(yīng)用在光譜建模分析中。神經(jīng)網(wǎng)絡(luò)由一個(gè)輸入層、一個(gè)或者多個(gè)隱含層和一個(gè)輸出層構(gòu)成,是一種非線性的建模方法。極限學(xué)習(xí)機(jī)(ELM)是一種相對(duì)簡(jiǎn)單易用且有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法。PLS是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,可通過(guò)降維獲取潛在變量、消除無(wú)用的光譜變量,達(dá)到理想建模的目的。SVR是解決多元建模的快速方法,能夠同時(shí)進(jìn)行線性和非線性建模分析。
1.3.4定量模型的構(gòu)建與評(píng)價(jià)
定量模型的評(píng)價(jià)指標(biāo)主要有相關(guān)系數(shù)(r)、相對(duì)誤差(e)、決定系數(shù)(R2)、平均絕對(duì)誤差(MAE)、平均絕對(duì)百分比誤差(MAPE)和均方根誤差(RMSE)。通過(guò)內(nèi)部交叉驗(yàn)證及預(yù)測(cè)集樣本外部驗(yàn)證檢驗(yàn)建模效果[14],具體參數(shù)計(jì)算如下:
(1)
相關(guān)系數(shù)r用來(lái)評(píng)價(jià)實(shí)際值和預(yù)測(cè)值之間的相關(guān)程度,r越接近1,表明擬合效果越好,否則擬合效果越差;rc和rv分別表示建模集和預(yù)測(cè)集的相關(guān)系數(shù)。
(2)
相對(duì)誤差ei表示預(yù)測(cè)值偏離實(shí)際值的程度,其值越小,表示預(yù)測(cè)值與實(shí)際值越接近。
(3)
決定系數(shù)R2越接近1,表明硝酸鹽氮紫外模型的擬合效果越好;RC2和RV2分別表示建模集和預(yù)測(cè)集決定系數(shù)。
(4)
平均絕對(duì)誤差MAE能更好地反映預(yù)測(cè)值與實(shí)際值誤差的情況;MAEC和MAEV分別表示建模集和預(yù)測(cè)值的平均絕對(duì)誤差。
(5)
平均絕對(duì)百分比誤差MAPE表示預(yù)測(cè)值與實(shí)際值相對(duì)誤差的平均值,其值越小表明模型的預(yù)測(cè)性能越好,反之較差;MAPEC和MAPEV分別表示建模集和預(yù)測(cè)集的平均絕對(duì)百分比誤差。
(6)
均方根誤差RMSE越趨近于0,表明水中硝酸鹽氮的實(shí)際值與紫外模型的預(yù)測(cè)值之間的偏差和越小,模型的預(yù)測(cè)結(jié)果越準(zhǔn)確;RMSEC和RMSEV分別為建模集和預(yù)測(cè)集的均方根誤差。
圖1為水中硝酸鹽氮不同濃度的UV-Vis原始光譜曲線。從圖1中可以看出,硝酸鹽氮溶液的吸收波長(zhǎng)主要分布在190~350 nm,在200 nm附近出現(xiàn)第一個(gè)吸收峰,該吸收峰隨著樣本濃度的增大出現(xiàn)向右移動(dòng)的現(xiàn)象,在300 nm處出現(xiàn)第二個(gè)吸收峰,該吸收峰對(duì)應(yīng)的波長(zhǎng)固定且峰值幅度隨著樣本濃度的增大而增大。另外發(fā)現(xiàn)在220 nm至較短波長(zhǎng)處,光譜受到實(shí)驗(yàn)條件如噪聲等因素的影響呈現(xiàn)一定波浪狀震動(dòng),所以有必要用光譜預(yù)處理提高模型性能[15]。
圖1 原始樣本光譜Fig.1 The original sample spectrogram
標(biāo)準(zhǔn)HJ 636—2012《水質(zhì) 總氮的測(cè)定 堿性過(guò)硫酸鉀 消解紫外分光光度法》[16]是采用275 nm處的吸光度A275 nm對(duì)220 nm處的吸光度A220 nm進(jìn)行校正,通過(guò)A校=2A275 nm-A220 nm的值與硝酸鹽氮含量的擬合關(guān)系來(lái)獲得濃度值。由原始光譜圖擬合出的校正曲線如圖2(全樣本)和圖3(低濃度樣本)所示。由圖2可知:對(duì)于低濃度的水樣,A校與樣本濃度呈現(xiàn)一定的線性關(guān)系,該濃度上限是4 mg/L,擬合的相關(guān)系數(shù)高達(dá)0.999 3;對(duì)于高濃度的水樣,朗伯比爾定律發(fā)生偏離,二者不再呈現(xiàn)線性關(guān)系。并且,由原始圖可知,對(duì)于低濃度的水樣,其吸光度值一般較小,受實(shí)驗(yàn)環(huán)境如噪聲等因素的影響很大。針對(duì)以上原因,采用雙波長(zhǎng)法僅對(duì)低濃度水樣實(shí)現(xiàn)了較好的預(yù)測(cè),并且誤差受外界因素的影響而變動(dòng),故可以采取機(jī)器學(xué)習(xí)的方法以實(shí)現(xiàn)更高濃度水樣的預(yù)測(cè)。
圖2 校正曲線(全樣本)Fig.2 The correction curve(all the samples)
圖3 低濃度校正值線性回歸Fig.3 The linear regressions of the low concentration correction
2.2.1PLS模型
為了更好地分析不同預(yù)處理消噪方法檢測(cè)水中硝酸鹽氮含量的性能,對(duì)使用不同預(yù)處理方法獲取的評(píng)價(jià)指標(biāo)進(jìn)行比較以選出最優(yōu)的光譜預(yù)處理方法,基于全光譜的PLS模型計(jì)算結(jié)果如表2所示。
表2 不同預(yù)處理方法的PLS建模結(jié)果Tab.2 PLS modeling effects of different pre-treatments
由表2可知,基于去趨勢(shì)法預(yù)處理的光譜PLS模型取得了最佳結(jié)果,預(yù)測(cè)集的決定系數(shù)RV2為0.999 1,RMSEV為3.613 6,建模集的RC2為0.999 9,RMSEC為1.385 8,無(wú)論是訓(xùn)練樣本還是預(yù)測(cè)樣本,其預(yù)測(cè)均方根誤差RMSE和決定系數(shù)R2都是最小的。因此,經(jīng)過(guò)去趨勢(shì)法去噪的光譜數(shù)據(jù)作為其他模型的數(shù)據(jù)效果較佳,可用來(lái)預(yù)測(cè)水中硝酸鹽氮的濃度,進(jìn)而提高模型的預(yù)測(cè)精度和穩(wěn)健性。經(jīng)去趨勢(shì)法處理的數(shù)據(jù)如圖4所示,測(cè)試樣本的預(yù)測(cè)結(jié)果如圖5所示。
圖4 去趨勢(shì)法預(yù)處理Fig.4 The de-trending pretreatment
圖5 測(cè)試樣本的預(yù)測(cè)結(jié)果(PLS模型)Fig.5 The prediction reference of test samples(PLS modeling)
由圖5可見(jiàn),PLS模型的預(yù)測(cè)值與實(shí)際值的坐標(biāo)點(diǎn)基本在一條擬合直線上,擬合直線與直線y=x接近,二者斜率相差0.022,可見(jiàn)擬合效果不錯(cuò),其預(yù)測(cè)集的決定系數(shù)RV2為0.999 1,相關(guān)系數(shù)r為0.999 8,二者皆接近于1,表明經(jīng)去趨勢(shì)法光譜消噪的PLS模型對(duì)水中硝酸鹽氮含量的測(cè)定較好。
2.2.2主成分個(gè)數(shù)
圖6 主成分個(gè)數(shù)和RMSEV的關(guān)系Fig.6 Relationship of latent variables and RMSEV
一般選取最優(yōu)主成分個(gè)數(shù)的標(biāo)準(zhǔn)是觀察預(yù)測(cè)集均方根誤差RMSEV隨著輸入主成分個(gè)數(shù)變化的情況[17]。當(dāng)主成分個(gè)數(shù)較少時(shí),預(yù)測(cè)集的RMSEV隨著輸入變量個(gè)數(shù)的增加逐漸減少,當(dāng)主成分個(gè)數(shù)達(dá)到6時(shí),預(yù)測(cè)集的RMSEV趨于穩(wěn)定,如圖6所示。因此,選取前6個(gè)主成分作為其他模型的輸入較為合適。
從貢獻(xiàn)率的角度解釋,PLS建模得到的6個(gè)主成分分別作為其他模型的輸入。之所以取前6個(gè),是因?yàn)檫@些主成分幾乎可以表達(dá)原始光譜100%的有用信息,這樣既降低了模型的復(fù)雜度,又提高了運(yùn)行速度和精度,具體如表3所示。
表3 主成分上的方差分布Tab.3 Variance percentage of top principal components
表4 基于主成分個(gè)數(shù)的SVR、BP和RBF神經(jīng)網(wǎng)絡(luò)模型結(jié)果Tab.4 Results of SVR, BP and RBF neural network models based on LVs
基于半監(jiān)督近鄰傳播算法(SAP)、連續(xù)投影算法(SPA)、無(wú)信息變量消除算法(UVE)3種特征波長(zhǎng)選擇建立ELM模型,經(jīng)3種算法提取的特征波長(zhǎng)點(diǎn)數(shù)如表5所示。 基于特征波長(zhǎng)提取的ELM模型建模效果如表6所示。
表5 通過(guò)SAP、SPA、UVE算法提取的波長(zhǎng)點(diǎn)數(shù)Tab.5 Number of characteristic wavelengths collected by SAP,SPA and UVE
表6 基于特征波長(zhǎng)提取的ELM模型建模效果Tab.6 ELM model modeling effect of characteristic wavelengths
不同模型的相對(duì)誤差見(jiàn)圖7,不同模型的評(píng)價(jià)參數(shù)對(duì)比見(jiàn)表7。
圖7 不同模型的相對(duì)誤差Fig.7 Relative analysis error modle of different analysis models
預(yù)測(cè)模型rMAEMAPE PCA+BP 0.998 8 4.632 7 0.124 0 PCA+RBF 0.999 9 1.075 1 0.021 8PLS 0.999 8 1.491 3 0.148 0 PCA+SVR 0.999 7 2.334 7 0.236 7 SPA+ELM 0.999 7 1.693 4 0.137 7
由圖7和表7可知,當(dāng)樣本濃度較小時(shí),5種模型有一個(gè)共性即對(duì)低濃度樣本預(yù)測(cè)誤差比較大,隨著樣本濃度的增大,誤差逐漸減少并趨于0,幾乎都在0.06以下。5種模型對(duì)比而言,PCA+RBF模型效果最優(yōu),它不僅預(yù)測(cè)誤差相對(duì)穩(wěn)定,而且對(duì)低濃度樣本的預(yù)測(cè)誤差最小,針對(duì)14個(gè)預(yù)測(cè)樣本的MAE為1.107 5,MAPE為0.021 8,即平均絕對(duì)誤差和平均絕對(duì)百分比誤差是5種模型中最小的,相關(guān)系數(shù)r為0.999 9,最接近于1,說(shuō)明預(yù)測(cè)效果較好。
以配制的74個(gè)不同濃度的硝酸鹽氮樣本為研究對(duì)象,利用PLS模型結(jié)合一些具體參數(shù)從6種光譜預(yù)處理方法中優(yōu)選出最佳光譜去噪方法,進(jìn)而提高模型的性能。把PLS回歸模型得到的主成分作為支持向量機(jī)回歸SVR、BP和RBF神經(jīng)網(wǎng)絡(luò)的輸入建立了PCA+SVR、PCA+BP和PCA+RBF模型,另外基于3種特征波長(zhǎng)的選擇建立了ELM模型。結(jié)果顯示:PCA+RBF神經(jīng)網(wǎng)絡(luò)模型優(yōu)于其他幾種模型,并且在實(shí)驗(yàn)過(guò)程中也發(fā)現(xiàn),針對(duì)低濃度的樣品,該模型也達(dá)到了較好的預(yù)測(cè)結(jié)果,與文獻(xiàn)[18]提出的雙波長(zhǎng)法即國(guó)標(biāo)法相比,測(cè)量上限從標(biāo)準(zhǔn)法的4 mg/L達(dá)到數(shù)百mg/L,也彌補(bǔ)了文獻(xiàn)[19]提出的BP神經(jīng)網(wǎng)絡(luò)對(duì)低濃度樣品預(yù)測(cè)誤差較大的不足,并且PCA+RBF神經(jīng)網(wǎng)絡(luò)性能較為穩(wěn)定,為水質(zhì)指標(biāo)的定量分析檢測(cè)奠定了基礎(chǔ)。