沈先春,徐亮,孫永豐,胡運(yùn)優(yōu),金嶺,楊偉鋒,徐寒揚(yáng),劉建國(guó),劉文清
(1中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院安徽光學(xué)精密機(jī)械研究所環(huán)境光學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230031;2中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230026;3安徽省環(huán)境光學(xué)監(jiān)測(cè)技術(shù)重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230031)
被動(dòng)傅里葉變換紅外光譜(Passive-FTIR)在測(cè)量毒害危險(xiǎn)氣體時(shí)具有在線、遠(yuǎn)距離、非接觸等特點(diǎn),廣泛應(yīng)用各種監(jiān)測(cè)場(chǎng)合[1?6],在危險(xiǎn)氣體預(yù)警監(jiān)測(cè)過(guò)程中,光譜識(shí)別算法是預(yù)警功能的核心技術(shù)。傳統(tǒng)的FTIR定性識(shí)別算法一般采用譜庫(kù)檢索的方式[7?11]在低維度的光譜數(shù)據(jù)庫(kù)中進(jìn)行識(shí)別分析,例如點(diǎn)積運(yùn)算、混合匹配校正等方法,然而此類算法不能夠在光譜吸收種類較多或者干擾成分較多的情況下進(jìn)行定性識(shí)別分析[10,11]。近年來(lái),在模式識(shí)別和人工智能技術(shù)的蓬勃發(fā)展環(huán)境下,FTIR光譜定性識(shí)別算法的研究也更加普及。例如2012年Lavinea等[12]采用基于模式識(shí)別的譜庫(kù)檢索方法對(duì)化合物進(jìn)行識(shí)別分析;2015年Zhou等[13]通過(guò)半監(jiān)督支持向量機(jī)的方法實(shí)現(xiàn)對(duì)食用油和地溝油的快速識(shí)別,2006年Bai等[14]利用基于核主成分分析的支持向量回歸方法對(duì)混合烷烴進(jìn)行了識(shí)別分析;2004年Liu等[15]采用多重交叉與定量變異、自適應(yīng)變異相結(jié)合的遺傳算法對(duì)FTIR測(cè)量的光譜進(jìn)行定性定量分析,利用選擇概率和適應(yīng)度值控制整個(gè)識(shí)別過(guò)程,并用101種有毒有機(jī)化合物的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)對(duì)6個(gè)未知樣本進(jìn)行了定性定量分析,取得了理想的識(shí)別效果。
隨著標(biāo)準(zhǔn)光譜數(shù)據(jù)庫(kù)種類的不斷擴(kuò)增,用傳統(tǒng)的方法對(duì)光譜數(shù)據(jù)庫(kù)進(jìn)行建?;蛴?xùn)練需要大量的時(shí)間,除此之外,在利用大光譜數(shù)據(jù)庫(kù)進(jìn)行定性識(shí)別分析時(shí),光譜之間存在一定的多重共線性問(wèn)題。為了克服以上問(wèn)題,本文根據(jù)SFS、LASSO和Elastic Net變量選擇方法[16?18],結(jié)合廣義交互驗(yàn)證方法[19]對(duì)采集的光譜進(jìn)行變量的初步選擇,然后利用實(shí)際氣體濃度大于0的物理特征,對(duì)初步選擇的濃度變量小于0的予以剔除,再用最小二乘法對(duì)剩余變量重新擬合,計(jì)算得到新的濃度大小,循環(huán)該步驟直到所有變量的濃度均大于0為止,此步驟稱為迭代最小二乘,然后利用待選變量在擬合向量中的占比大小對(duì)變量進(jìn)行篩選,得到最終的目標(biāo)識(shí)別組分。以上所有步驟組合形成定性識(shí)別算法。下文中,為了簡(jiǎn)便描述,不同識(shí)別算法用各自的變量選擇方法名稱來(lái)表示。最后用兩組外場(chǎng)試驗(yàn)驗(yàn)證了不同算法的識(shí)別性能,并將識(shí)別的結(jié)果與基于數(shù)字光譜合成校準(zhǔn)思想的非線性最小二乘方法(NLLSQ)[20]定量分析濃度的相對(duì)誤差進(jìn)行聯(lián)合分析。實(shí)驗(yàn)結(jié)果表明所建立的識(shí)別分析算法具有無(wú)需進(jìn)行樣本訓(xùn)練分析、平均識(shí)別一條目標(biāo)波段內(nèi)的光譜成分速度為秒級(jí)響應(yīng)、并且識(shí)別準(zhǔn)確率高達(dá)98%以上等優(yōu)點(diǎn),能夠?yàn)楸粍?dòng)FTIR光譜實(shí)時(shí)在線預(yù)警監(jiān)測(cè)應(yīng)用提供技術(shù)支持。
基于朗伯-比爾定律將FTIR測(cè)量得到的透過(guò)率光譜表示為吸光度形式,并依據(jù)光譜數(shù)據(jù)庫(kù)的光譜參數(shù)信息,把目標(biāo)氣體吸光度的線性表達(dá)式表示為
式中:Am×1為測(cè)量得到的一列含有m個(gè)光譜數(shù)據(jù)點(diǎn)的吸光度光譜數(shù)據(jù);Km×n為m行n列標(biāo)準(zhǔn)光譜的吸光度矩陣,其中m為光譜數(shù)據(jù)點(diǎn)個(gè)數(shù),即波數(shù)點(diǎn)個(gè)數(shù),n為參與吸收的成分個(gè)數(shù);Cn×1為n個(gè)成分的濃度組成的列矩陣;L為氣體吸收的光程。定性識(shí)別方法的本質(zhì)就是要選出變量Km×i使得擬合的結(jié)果與測(cè)量吸光度的差值平方和最小,其中i即為識(shí)別出的氣體成分。
經(jīng)典的SFS算法應(yīng)用于定性識(shí)別中的本質(zhì)是將光譜從標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)集合T中一個(gè)個(gè)篩選到集合S中,然后利用待選集U中的光譜與當(dāng)前殘差譜的絕對(duì)相關(guān)性進(jìn)行不斷篩選,最終初步篩選得到光譜組分,算法的一般流程如下:
1)初始化:令組分選擇集合S為空集,對(duì)集合T進(jìn)行編號(hào),初始化i為0時(shí),代表濃度的自變量Ci=0,其中i為循環(huán)變量,i∈ {0,1,···,n?1}。
2)搜索原理:先求出殘差向量A?KCi與未選中組份KU的相關(guān)系數(shù)R,并利用相關(guān)系數(shù)的最大值進(jìn)行篩選得到初步目標(biāo)組分,而KU為集合K中與未選擇集合U中編號(hào)對(duì)應(yīng)的列矩陣。最大相關(guān)系數(shù)對(duì)應(yīng)的組分R可表示為
式中上標(biāo)T為矩陣轉(zhuǎn)置運(yùn)算,然后將R從集合U中不斷篩選到集合S中。
3)迭代:通過(guò)CLS方法迭代更新濃度自變量,則
4)循環(huán):迭代計(jì)算以上2)、3)兩步,直至i達(dá)到n?1時(shí)停止計(jì)算,最終識(shí)別得到組分變量的集合V=[C(0)···C(n)]。
上述流程便是完整的SFS識(shí)別方法。
LASSO方法的本質(zhì)是在CLS算法的最優(yōu)化目標(biāo)函數(shù)基礎(chǔ)上,增添一個(gè)L1范數(shù)的懲罰項(xiàng),達(dá)到對(duì)模型系數(shù)壓縮的目的,使一些系數(shù)變小甚至變成0,達(dá)到選擇變量的功能。根據(jù)線性模型(1)式,LASSO方法的最優(yōu)化目標(biāo)函數(shù)可表示為
式中第一項(xiàng)為CLS的最優(yōu)目標(biāo)函數(shù),第二項(xiàng)為添加的正則化項(xiàng)。其中λ為非負(fù)數(shù)的懲罰參數(shù),控制參數(shù)壓縮程度,其值越大,參數(shù)的懲罰壓縮力度越大,導(dǎo)致LASSO方法估計(jì)得到的非零變量個(gè)數(shù)越少,易得到稀疏解。數(shù)學(xué)原理上,(4)式第一項(xiàng)表示模型準(zhǔn)確性,該項(xiàng)值越小,模型的擬合誤差越小,精度越高;第二項(xiàng)表示模型的穩(wěn)定性,通常情況下,其值越小,模型越穩(wěn)定。LASSO方法應(yīng)用于光譜識(shí)別算法的具體步驟如下所示:
3)輸出結(jié)果:完成循環(huán)步驟2)后輸出變量選擇的集合V=[C(0)···C(k)]。以上算法步驟稱為L(zhǎng)ASSO識(shí)別分析算法。
Elastic Net方法集成了嶺回歸和LASSO方法的特點(diǎn),懲罰項(xiàng)中既有L1范數(shù)項(xiàng)又有L2范數(shù)項(xiàng),故Elastic Net方法可表示為
由(5)式可知,λ=0時(shí)就是嶺回歸方法,而δ=0時(shí)則為L(zhǎng)ASSO方法。故Elastic Net方法不僅具備組效應(yīng)性質(zhì),還具備LASSO方法的變量選擇能力。
對(duì)于嶺回歸確定的參數(shù)δ,(6)式的變換過(guò)程說(shuō)明Elastic Net問(wèn)題可轉(zhuǎn)換為L(zhǎng)ASSO問(wèn)題,進(jìn)而可用上述LASSO解的步驟解Elastic Net問(wèn)題,此處不再重復(fù)贅述。以上變量選擇方法選擇出來(lái)的結(jié)果用廣義交互驗(yàn)證進(jìn)行變量評(píng)判,基于以上變量選擇方法的定性識(shí)別分析方法在整體算法分析流程上可表示為圖1。
為驗(yàn)證以上各識(shí)別算法的準(zhǔn)確性和實(shí)用性,分別采用兩組不同方式的模擬排放實(shí)驗(yàn)進(jìn)行驗(yàn)證分析。
在空曠場(chǎng)地上,利用濃度為2%的CH4標(biāo)準(zhǔn)氣體進(jìn)行排放實(shí)驗(yàn)對(duì)識(shí)別算法進(jìn)行驗(yàn)證,而被動(dòng)FTIR遙測(cè)系統(tǒng)的檢出能力取決于目標(biāo)氣體與背景的溫差,實(shí)驗(yàn)時(shí)氣溫為32.7°C,濕度約為21%。將光譜儀固定在三腳架上,讓遠(yuǎn)處的樓墻充滿光譜儀的視場(chǎng),然后打開(kāi)光譜儀,儀器參數(shù)設(shè)置為32次平均,分辨率為1 cm?1,掃描頻率選擇375 kHz擋,待儀器穩(wěn)定后,連續(xù)采集當(dāng)前的背景光譜,在光譜儀視場(chǎng)上釋放CH4氣體,然后用以上建立的定性識(shí)別算法對(duì)采集的CH4氣體吸收光譜進(jìn)行定性識(shí)別分析,試驗(yàn)現(xiàn)場(chǎng)和采集得到未定標(biāo)的原始光譜數(shù)據(jù)如圖2所示。
用簡(jiǎn)化的三層大氣傳輸模型對(duì)采集的CH4透過(guò)率光譜進(jìn)行反演,并根據(jù)朗伯-比爾定律轉(zhuǎn)換成吸光度光譜,再用自動(dòng)基線校正方法[21]對(duì)得到的CH4吸光度光譜進(jìn)行基線校正,校正后的光譜如圖3中黑色實(shí)線所示,并用不同識(shí)別分析方法對(duì)得到的吸光度光譜進(jìn)行識(shí)別分析,識(shí)別的組分結(jié)果如表1所示,并且識(shí)別過(guò)程中的擬合光譜如圖3中虛線所示。
圖1 光譜識(shí)別算法流程圖Fig.1 Flow chart of the spectral identification algorithms
圖2 (a)實(shí)驗(yàn)場(chǎng)地;(b)原始光譜數(shù)據(jù)Fig.2 (a)Experimental field;(b)Original spectral dataset
根據(jù)圖3和表1結(jié)果可知,三種不同的變量選擇算法能夠準(zhǔn)確地識(shí)別出目標(biāo)氣體CH4,除此之外,也能夠識(shí)別出干擾成分H2O,并且各自的擬合光譜譜形相似,且LASSO與Elastic Net的擬合光譜幾乎相同,SFS、LASSO、Elastic Net三種不同識(shí)別算法耗時(shí)分別為0.376、2.06、2.02 s,各自擬合均方根誤差分別為0.576、0.579、0.579,滿足實(shí)際應(yīng)用的需求,表明所建立的識(shí)別算法可以應(yīng)用于簡(jiǎn)單的被動(dòng)遙測(cè)應(yīng)用場(chǎng)景。
表1 不同算法下CH4的識(shí)別結(jié)果Table 1 Identification results of CH4gas by different algorithms
圖3 基線校正后的吸光度光譜和識(shí)別算法對(duì)應(yīng)的擬合光譜Fig.3 Absorbance spectrum with baseline corrected and spectrum fitted by recognition algorithm
上述CH4排放實(shí)驗(yàn)是光譜識(shí)別分析方法最初級(jí)的外場(chǎng)應(yīng)用研究[22],因?yàn)槠渲粚?duì)單次CH4測(cè)量光譜進(jìn)行了識(shí)別分析方法研究,而此次采用不同時(shí)間段內(nèi)連續(xù)排放SF6氣體的實(shí)驗(yàn)對(duì)光譜識(shí)別算法的準(zhǔn)確性和靈敏性進(jìn)行驗(yàn)證,用識(shí)別結(jié)果中準(zhǔn)確的個(gè)數(shù)與確切目標(biāo)個(gè)數(shù)的比值衡量識(shí)別準(zhǔn)確率,用不同時(shí)間段內(nèi)目標(biāo)波段氣體的識(shí)別耗時(shí)來(lái)衡量靈敏性。實(shí)驗(yàn)采用自主研制的OP-FTIR光譜儀對(duì)SF6氣體釋放區(qū)進(jìn)行連續(xù)測(cè)量,SF6氣體的釋放間隔人為控制為由短到長(zhǎng),采集光譜數(shù)據(jù)參數(shù)設(shè)置為2次平均,分辨率為1 cm?1。整個(gè)過(guò)程的SF6釋放氣體時(shí)間紀(jì)錄如表2所示,OP-FTIR光譜儀連續(xù)采集的光譜如圖4所示,此次實(shí)驗(yàn)共采集124條光譜。
圖4 SF6原始光譜數(shù)據(jù)Fig.4 Original spectra of SF6
表2 放氣時(shí)間表Table 2 Outgassing schedule
用所提出識(shí)別算法對(duì)上述采集到的124條光譜進(jìn)行識(shí)別分析,識(shí)別分析波段采用900~980 cm?1,選擇變量在擬合向量中的占比值設(shè)置為0.5,為了檢驗(yàn)識(shí)別結(jié)果的準(zhǔn)確性,采用精準(zhǔn)的非線性最小二乘(NLLSQ)方法對(duì)測(cè)量的光譜進(jìn)行定量分析,在定量擬合分析過(guò)程中,如果強(qiáng)行擬合不存在的目標(biāo)氣體種類,定量結(jié)果的相對(duì)誤差較大,故識(shí)別結(jié)果的準(zhǔn)確性可依據(jù)此現(xiàn)象來(lái)輔助判斷。如圖5顯示了不同算法的識(shí)別結(jié)果和NLLSQ定量計(jì)算濃度的相對(duì)誤差大小,圖中方型曲線中的1表示識(shí)別出SF6氣體,0則表示未識(shí)別出SF6氣體,SF6定量計(jì)算濃度的相對(duì)誤差用星號(hào)表示,其中虛線代表相對(duì)誤差為0.1的直線,根據(jù)以上判斷規(guī)則,定量計(jì)算的相對(duì)誤差高于0.1的光譜可看作沒(méi)有SF6氣體,反之則有。
從圖5可以看出,各識(shí)別算法識(shí)別的結(jié)果與實(shí)際放氣時(shí)間相一致,并且不同識(shí)別算法的識(shí)別結(jié)果基本一致,除了第110條光譜,LASSO和Elastic Net方法未識(shí)別出SF6氣體,而SFS識(shí)別出SF6氣體,為了進(jìn)一步驗(yàn)證兩者之間的準(zhǔn)確性,給出了第109、110和111條原始數(shù)據(jù)和第110條光譜的不同識(shí)別算法擬合圖,如圖6所示。由圖6(a)可知,110和111號(hào)光譜的SF6氣體的特征吸收峰很弱,幾乎接近噪聲水平,但是三種識(shí)別方法均識(shí)別出111號(hào)光譜中含有SF6氣體,從圖6(b)的擬合效果可以看出SFS算法識(shí)別擬合誤差小,再根據(jù)實(shí)際現(xiàn)場(chǎng)氣體排放過(guò)程和順序信息對(duì)應(yīng)關(guān)系,第110號(hào)光譜中應(yīng)含有少量的SF6氣體,定量濃度為2.68μmol/mol,符合閾值基準(zhǔn)線判斷標(biāo)準(zhǔn)。綜上可得,當(dāng)光譜信噪比較低時(shí),LASSO與Elastic Net方法的識(shí)別準(zhǔn)確率下降。不同時(shí)間段內(nèi)的SF6氣體識(shí)別結(jié)果反映了各識(shí)別算法能夠快速識(shí)別出目標(biāo)成分,識(shí)別準(zhǔn)確率達(dá)99%以上,三種不同識(shí)別算法在氣體目標(biāo)波段內(nèi)識(shí)別的平均時(shí)間為0.16、1.37、1.31 s,充分說(shuō)明建立的FTIR光譜識(shí)別算法能夠滿足危險(xiǎn)氣體預(yù)警監(jiān)測(cè)的需求。
圖6 (a)基線校正后的三條光譜;(b)不同算法的擬合結(jié)果Fig.6 (a)Three spectra after baseline correction;(b)Spectra fitted by different algorithms
提出了基于變量選擇技術(shù)的光譜識(shí)別分析算法并進(jìn)行了實(shí)驗(yàn)研究,巧妙地利用NLLSQ定量分析濃度相對(duì)誤差來(lái)輔助判斷識(shí)別結(jié)果的準(zhǔn)確性,實(shí)驗(yàn)結(jié)果表明各識(shí)別算法均能夠有效且快速準(zhǔn)確地識(shí)別目標(biāo)氣體成分,還能識(shí)別出干擾組分水汽,整個(gè)過(guò)程無(wú)需采樣建模和模型訓(xùn)練,平均識(shí)別一條目標(biāo)波段范圍內(nèi)的光譜所需時(shí)間為秒級(jí),是快速有效的識(shí)別分析方法,大大提高了被動(dòng)FTIR對(duì)有毒有害氣體泄露的預(yù)警監(jiān)測(cè)能力,為災(zāi)害現(xiàn)場(chǎng)的智能防控提供了技術(shù)支持。
SF6連續(xù)間斷排放實(shí)驗(yàn)表明:當(dāng)光譜信噪比較低時(shí),LASSO和Elastic Net光譜識(shí)別算法的準(zhǔn)確性降低,而對(duì)于不同信噪比的光譜定性識(shí)別算法需要進(jìn)一步研究分析。根據(jù)吸光度光譜進(jìn)行識(shí)別分析時(shí),需要對(duì)測(cè)量得到的吸光度譜中漂移的基線進(jìn)行校正,而基線校正的程度決定了定性識(shí)別過(guò)程中的濃度大小,想要在識(shí)別目標(biāo)組分的同時(shí)獲取準(zhǔn)確的濃度信息則需要準(zhǔn)確的基線校正方法,基線校正的準(zhǔn)確性對(duì)識(shí)別算法的影響也值得深入研究。