劉 偉,鄧 琥,2,3,劉泉澄,3,魏文卿,3,于洙海,尚麗平,2,3
(1.西南科技大學(xué)信息工程學(xué)院,四川 綿陽 621010;2.西南科大四川天府新區(qū)創(chuàng)新研究院,四川 成都 610299;3.特殊環(huán)境機(jī)器人技術(shù)四川省重點實驗室,四川 綿陽 621010)
乙二醇是一種非常重要的有機(jī)化工原料,可用于制造樹脂、增塑劑、合成纖維、化妝品和炸藥,也可用作溶劑、配制發(fā)動機(jī)的抗凍劑。水含量是評價聚酯級乙二醇產(chǎn)品質(zhì)量等級的一項極為重要的指標(biāo)。該指標(biāo)能反映出乙二醇產(chǎn)品的質(zhì)量狀況,實際生產(chǎn)中可以通過控制該指標(biāo)來保證產(chǎn)品質(zhì)量。因而快速準(zhǔn)確地測定乙二醇產(chǎn)品中的水含量,在乙二醇實際生產(chǎn)中有著極其重要的指導(dǎo)意義[1]。
根據(jù)現(xiàn)行GB/T6283-2008《化工產(chǎn)品中水分含量的測定卡爾·費休法(通用方法)》,乙二醇水分含量的測定標(biāo)準(zhǔn)方法為卡爾·費休法,卡爾·費休法是針對水分的特異性方法,是大多數(shù)溶劑水分測量的標(biāo)準(zhǔn)方法。但是卡爾費休法副反應(yīng)較多,操作繁瑣、耗時較長,存在人為滴定誤差,且使用的化學(xué)試劑具有一定毒性,使用不當(dāng)還會造成環(huán)境污染[2-3]。乙二醇本身也存在毒性,因此在檢測時需要嚴(yán)格規(guī)范檢測措施,結(jié)合乙二醇的質(zhì)量檢測指標(biāo)要求,高精度的在線檢測方法具有良好的契合性。太赫茲時域光譜技術(shù)是一種可實現(xiàn)水分快速和無損檢測的新興技術(shù),太赫茲波(Terahertz,THz)是一種介于微波和紅外波之間的電磁波,頻率范圍為0.1~10 THz、波長為0.03~3 mm、光子能量為0.414~41.4 meV。由于水分子在太赫茲波段獨有的分子鍵振動模式使其對太赫茲波具有極強(qiáng)的敏感性和吸收性,太赫茲時域光譜技術(shù)還具有、無損、安全、快速、高信噪比等特點,因而太赫茲時域光譜技術(shù)在物質(zhì)水分含量評價領(lǐng)域具有廣泛的應(yīng)用前景[4]。已有學(xué)者利用太赫茲技術(shù)開展了木材[5-6]、葉片[7-8]、藥材[9]、皮膚[10]等固體物質(zhì)含水率的檢測,通過建立樣本的吸收系數(shù)和折射率與含水率的關(guān)系,采用多元線性、偏最小二乘法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等回歸分析方法建立含水率預(yù)測模型,預(yù)測精度比較可觀,證明了太赫茲對于水分含量檢測的可行性。目前應(yīng)用太赫茲時域光譜技術(shù)對于液體水分含量的檢測研究主要集中于油水混合物的檢測[11-13],而對于極性溶液以及高含水率的相關(guān)檢測報道較少,主要原因是極性液體對太赫茲也具有較強(qiáng)吸收,因此太赫茲在對乙二醇水含量檢測上的研究有重要意義。
本文選用優(yōu)級純乙二醇,制備不同含水率的液體樣本(0~50 %),設(shè)計了可用于極性液體檢測的樣本池,為太赫茲液體檢測提供了樣品池參考,獲得了太赫茲時域光譜,根據(jù)光學(xué)參數(shù)提取模型計算出樣本的折射率和吸收系數(shù),采用不同的預(yù)處理算法對原始數(shù)據(jù)進(jìn)行優(yōu)化處理,并構(gòu)建了PCR、PLSR、SVR三種回歸預(yù)測模型,對不同模型比較選優(yōu),挑選出最優(yōu)的預(yù)處理方法和定量分析模型的組合,對含水率進(jìn)行了預(yù)測。
實驗需要用到的主要器材:采用光纖式太赫茲時域光譜系統(tǒng)(TeraSmart,MenloSystems)用于獲取樣本的光譜信息、空氣壓縮機(jī)(1200H-180)和空氣干燥機(jī)(TYWD-0.3)用于保持實驗系統(tǒng)的濕度≤1 %,此外還需要用到電子天平(AUW120D,Shimadzu)、超聲波震蕩儀、無水乙二醇(GR500 ml)、定制液體樣本池(PTFE)(如圖1),實驗器材具體清單如表1所示。
表1 實驗器材清單
圖1 定制液體池實物
采用德國MenloSystems公司光纖耦合式太赫茲時域光譜系統(tǒng)(TeraSmart),系統(tǒng)采用耦合式光纖發(fā)射和接收太赫茲信號,有效頻帶寬度>6 THz,光譜動態(tài)范圍>95 dB,其系統(tǒng)原理如圖2所示。為了使獲取的太赫茲樣本信息最大化,采用平行太赫茲光束與樣本作用。飛秒激光器(Femtosecond laser)產(chǎn)生兩束能量不同的光束,泵浦光(Pump)和探測光(Probe)。能量較強(qiáng)的泵浦光經(jīng)光纖耦合光電導(dǎo)天線發(fā)射端(THz TX)激發(fā)產(chǎn)生太赫茲波,太赫茲波經(jīng)離軸拋物鏡(OAP1)轉(zhuǎn)變成平行光束并與樣本作用,帶有樣本信息的太赫茲波經(jīng)OAP2、OAP3、OAP4聚焦到光纖耦合光電導(dǎo)天線接收端(THz RX)。能量較弱的探測光經(jīng)過時間延遲系統(tǒng)(Time delay )和光纖到達(dá)光纖耦合光導(dǎo)天線接收端與太赫茲信號匯合,再經(jīng)信號放大器(Amplifier)信號處理獲得被測樣本的太赫茲時域光譜。
圖2 光纖式太赫茲時域光譜系統(tǒng)原理圖
圖3 樣本的制備及測試流程
使用光纖式太赫茲時域光譜系統(tǒng)分別獲得空液體池和含水液體樣本的太赫茲時域光譜數(shù)據(jù),以空液體池時域光譜為參考,由于太赫茲波穿過很薄(0.5 mm)的液體池會使時域光譜信號產(chǎn)生反射峰,導(dǎo)致頻域信號會產(chǎn)生震蕩,需要先對反射峰及之后的數(shù)據(jù)進(jìn)行截斷補(bǔ)零處理,再通過快速傅里葉變換獲得太赫茲頻域光譜,采用Dorney[14]和Duvillaret[15]等提出的光學(xué)參數(shù)提取模型,計算得到液體樣本的吸收系數(shù)和折射率,其計算公式為:
(1)
(2)
式中,n(ω)為樣本實折射率;α(ω)為樣本吸收系數(shù);ω為角頻率;c為光速;d為液體樣本厚度;φ(ω)、T(ω)分別為液體樣本和空液體池頻譜信號相位之差和振幅之比。
步驟一,將樣本存液瓶置于天平并調(diào)零,用微量進(jìn)樣器取0.01 g去離子水注射到存液瓶,隨后加入無水乙二醇9.99 g,記錄數(shù)據(jù),放入超聲波震蕩儀中5 min使其混合均勻;
步驟二,按照步驟一方法制備不同濃度的乙二醇溶液,溶液含水濃度0.1~50 %;
步驟三,打開太赫茲時域系統(tǒng)飛秒激光器開關(guān),并預(yù)熱60 min,設(shè)置太赫茲時域光譜系統(tǒng)參數(shù):平均次數(shù)2000,掃描寬度100 ps;同時開啟空氣干燥裝置通入干燥空氣至整個系統(tǒng)相對濕度<1 %,即可開始測量;
步驟四,向液體池中通入干燥空氣持續(xù)2 min后,并測量其太赫茲光譜,用作參考信號;
步驟五,用注射器取出液體樣本注入到液體池,等其填充滿整個液體池塞上橡膠塞密封,并測量其太赫茲光譜;
步驟六,測量結(jié)束后排出液體池中樣品并用無水乙醇潤洗5次,隨后向液體池通入干燥空氣5 min;再進(jìn)行下一樣本測試;
步驟七,重復(fù)步驟五和步驟六,得到所有液體樣本太赫茲光譜。
圖4為利用太赫茲時域光譜系統(tǒng)得到的不同含水率的乙二醇樣品時域光譜,圖5和圖6分別為通過光學(xué)參數(shù)提取后的不同含水率乙二醇樣本吸收光譜及折射率譜;從圖中可以看出,隨著乙二醇含水率的增大,樣本時域光譜峰值呈減小和右移的趨勢,這是由于不同含水率的乙二醇樣本對太赫茲波的吸收強(qiáng)度、折射和反射各不相同,且在相同頻段內(nèi)其吸收系數(shù)和折射率隨含水率和頻率的變化趨勢基本相同,均呈現(xiàn)出正相關(guān)。由于不同含水率乙二醇樣本的吸收系數(shù)和折射率在0.5~1.5 THz之間的差異性顯著,0.5 T前及1.5 T 后數(shù)據(jù)波動較大,因此選取0.5~1.5 THz作為含水乙二醇樣本的太赫茲光譜分析頻段,當(dāng)乙二醇含水率以1 %、5 %、10 %梯度增加時,其吸收系數(shù)和折射率增加的趨勢顯著,當(dāng)含水率以0.1 %左右梯度增加時,吸收系數(shù)和折射率增加的趨勢不明顯。
圖4 不同含水率乙二醇樣本時域光譜
圖5 不同含水率乙二醇樣本吸收光譜
圖6 不同含水率乙二醇樣本折射率譜
從實驗結(jié)果中可以看出,單一頻率下的吸收系數(shù)和折射率與含水率之間有較好的相關(guān)性,但是單個維度的數(shù)據(jù)易受到光譜數(shù)據(jù)容易受到系統(tǒng)及環(huán)境噪聲、基線漂移等各方面的影響,使得光譜變得雜亂及信噪比降低,可能會造成樣品的很多重要信息丟失,影響定量分析的結(jié)果。為了減少或去除光譜中其他因素的干擾,減小光譜失真,使提取的樣品相關(guān)信息最大化,需要對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,使其能更加契合模型,提高模型質(zhì)量。選取0.5~1.5 THz頻段(138維數(shù)據(jù))的吸收系數(shù)與折射率進(jìn)行分析,使用一種和多種組合形式的預(yù)處理方法進(jìn)行處理,使用標(biāo)準(zhǔn)正態(tài)變換(Standard Normal Variate,SNV)、Savitzky-Golay平滑、z-score標(biāo)準(zhǔn)化和Min-max歸一化方法不同組合(共9種)對乙二醇太赫茲光譜數(shù)據(jù)進(jìn)行預(yù)處理分析;再結(jié)合3種回歸分析方法建立預(yù)測模型,依據(jù)最終建模效果評價選擇出最佳的預(yù)處理方法組合。
根據(jù)不同組合分析獲得的乙二醇光譜數(shù)據(jù)預(yù)處理結(jié)果,分別以乙二醇吸收系數(shù)和折射率為輸入,乙二醇含水率為輸出,建立主成分回歸(Principal components regression,PCR)、偏最小二乘回歸(Partial least squares regression,PLSR)和支持向量機(jī)回歸(Support vector regression,SVR)三種回歸預(yù)測模型。
主成分回歸是以主成分分析法為基礎(chǔ)思想的多元校正分析方法,可有效解決數(shù)據(jù)共線性問題,消除實驗誤差對模型結(jié)果的影響[16]。其基本思想是將原始高維變量重新組合成一組新的不相關(guān)的主成分低維變量。根據(jù)實際需求和累計貢獻(xiàn)率,選擇較少的主成分變量盡可能多地提取原始變量的信息,再對主成分變量進(jìn)行回歸分析得到回歸方程。
偏最小二乘法是一種典型的多變量統(tǒng)計分析方法,適用于小樣本數(shù)據(jù),偏最小二乘回歸與主成分回歸相關(guān),在構(gòu)建模型時,采用主成分分析對訓(xùn)練樣本進(jìn)行降維處理,將主成分中累積貢獻(xiàn)率超過98 %的數(shù)據(jù)作為特征數(shù)據(jù)。在預(yù)測模型中使用PLS分量,采用PLSR算法建立校正模型[17]。
Vapnik于1995年提出了支持向量機(jī)方法(Support Vector Machine,SVM),該方法在過去二十年中迅速流行,并在不同領(lǐng)域得到廣泛應(yīng)用。支持向量機(jī)是一種用于分析分類和回歸問題的監(jiān)督學(xué)習(xí)算法,可以應(yīng)用于線性和非線性系統(tǒng),在不同的領(lǐng)域中都有廣泛的應(yīng)用;近年來,支持向量機(jī)也被用于解析太赫茲光譜,進(jìn)行分類和回歸分析,其主要思想是找到一個使所有樣本都接近目標(biāo)樣本的最佳決策超平面[18-19]。而支持向量回歸(Supportvector Regression,SVR)基本思想是使用核函數(shù)將輸入數(shù)據(jù)映射到高維特征空間,并在高維特征空間建立線性回歸[20]。
采用決定系數(shù)R2與預(yù)測均方根誤差RMSEP來評價預(yù)測模型的準(zhǔn)確性和穩(wěn)定性,進(jìn)而優(yōu)選出最佳的預(yù)測模型及預(yù)處理方法的組合。R2表示自變量與因變量之間的線性關(guān)系的強(qiáng)度,反映用自變量可以解釋因變量變化的百分比,在濃度范圍相同的前提下,其值越接近1,模型的回歸和預(yù)測效果越好,其表達(dá)式如下:
(3)
(4)
式中,n為樣本數(shù)量;yi,act為第i個樣本實測含水率的值;yi,pre為測試集過程中第i個樣品含水率的預(yù)測值。
根據(jù)不同組合分析獲得的乙二醇吸收系數(shù)和折射率光譜數(shù)據(jù)預(yù)處理結(jié)果,建立三種回歸預(yù)測模型,建模時隨機(jī)抽取4/5樣本數(shù)據(jù)作為訓(xùn)練集,剩余1/5作為預(yù)測集。為了保證模型結(jié)果準(zhǔn)確性,模型隨機(jī)運行10次,并以10個隨機(jī)抽樣模型的平均值作為最終的預(yù)測結(jié)果。
3.4.1 基于吸收系數(shù)預(yù)測模型乙二醇含水率定量分析結(jié)果
圖7和圖8展示不同預(yù)處理下乙二醇吸收系數(shù)的三種定量預(yù)測模型預(yù)測性能結(jié)果對比,通過對比模型預(yù)測集決定系數(shù)R2與均方根誤差RMSEP,可以看出三種定量分析模型對于乙二醇含水率具有不同程度的預(yù)測精度,三種模型中SVR預(yù)測性能最佳,最契合乙二醇吸收系數(shù)的回歸預(yù)測,PLSR次之,PCR最差。不同預(yù)處理方法也對模型有不同程度的影響,綜合模型和預(yù)處理方法對預(yù)測結(jié)果的精度影響,可以得出,經(jīng)SNV處理后乙二醇吸收系數(shù)的SVR模型預(yù)測性能最佳,其預(yù)測集R2與RMSEP分別為0.9941和0.00451,具有較高的預(yù)測精度。
圖7 基于吸收系數(shù)三種模型RMSEP分析結(jié)果
圖8 基于吸收系數(shù)三種模型R2分析結(jié)果
3.4.2 基于折射率預(yù)測模型乙二醇含水率定量分析結(jié)果
圖9和圖10展示不同預(yù)處理下乙二醇折射率的三種定量預(yù)測模型預(yù)測性能結(jié)果對比,通過對比模型預(yù)測集決定系數(shù)R2與均方根誤差RMSEP,折射率模型的預(yù)測性能與基于吸收系數(shù)的模型預(yù)測性能高低順序一致,SVR>PLSR>PCR。綜合模型和預(yù)處理方法對預(yù)測結(jié)果的精度影響,可以得出,經(jīng)SNV處理后乙二醇吸收系數(shù)的SVR模型預(yù)測性能最佳,經(jīng)S-G平滑預(yù)處理處理后乙二醇折射率的SVR模型預(yù)測性能最佳,其預(yù)測集R2與RMSEP分別為0.9988和0.00507,預(yù)測精度良好。
圖9 基于折射率三種模型RMSEP分析結(jié)果
圖10 基于折射率三種模型R2分析結(jié)果
本文提出了基于太赫茲時域光譜技術(shù)檢測乙二醇含水率的新方法,實現(xiàn)了太赫茲光譜技術(shù)對于極性液體的定量分析研究,獲得了不同含水率乙二醇樣本的折射率和吸收系數(shù),結(jié)合光譜預(yù)處理方法,構(gòu)建了PLSR、PCR、SVR三種回歸模型對乙二醇含水率進(jìn)行了預(yù)測。得出以下結(jié)論:三種回歸預(yù)測模型都能有效預(yù)測乙二醇的含水率,其中SVR模型預(yù)測性能最佳,表明了太赫茲光譜技術(shù)應(yīng)用在乙二醇含水率的高精度檢測是可行的。適合的光譜數(shù)據(jù)預(yù)處理方法可以提升模型的性能,在基于吸收系數(shù)的預(yù)測模型中,經(jīng)SNV處理后乙二醇吸收系數(shù)的SVR模型預(yù)測性能最佳,預(yù)測集R2與RMSE分別為0.9941和0.00451;在基于折射率的預(yù)測模型中,經(jīng)S-G平滑預(yù)處理處理后乙二醇折射率的SVR模型預(yù)測性能最佳,其預(yù)測集R2與RMSE分別為0.9988和0.00507;均具有較高的預(yù)測精度。研究結(jié)果表明,所提方法能為乙二醇質(zhì)量快速評價提供技術(shù)指導(dǎo),也為有機(jī)溶劑水分含量檢測提供新的檢測思路。