張國(guó)勝
(防化研究院,北京102205)
化學(xué)毒劑紅外遙感監(jiān)測(cè)系統(tǒng)是防化兵的一種重要裝備。美國(guó)在1980年代中期形成M21型紅外遙測(cè)報(bào)警器并列裝部隊(duì)[1]。目前德國(guó)Bruker公司也有成熟的裝備RAPID系統(tǒng)。此裝備可以在數(shù)公里甚至數(shù)十公里以外發(fā)現(xiàn)敵方施放的化學(xué)毒劑云團(tuán)并發(fā)出告警信息,以使己方及早采取防護(hù)措施,免受化學(xué)毒劑的傷害。作為一種預(yù)警裝備,它對(duì)于防化保障能力的提高具有重要的意義。此裝備的原理是:用一個(gè)去掉光源的紅外光譜儀探測(cè)周圍大氣中的紅外信號(hào);用一個(gè)鑒別器對(duì)采集到的紅外光譜加以分析,給出光譜中是否含有化學(xué)毒劑特征的yes/no判決。
鑒別器設(shè)計(jì)是該系統(tǒng)的核心。早期采用的是線性分類器,后來為了提高鑒別率采用分段線性分類器,主要是樹狀分段線性分類器。上世紀(jì)90年代以來國(guó)外致力于一種新型分類器,即單邊式分段線性分類器的研究,但主要是進(jìn)行針對(duì)SF6、乙醇等揮發(fā)物時(shí)域信號(hào)(干涉圖)的判別[2~3]。有關(guān)這種分類器直接進(jìn)行光譜判別的研究目前還很少。該文利用DMMP模擬劑光譜對(duì)這種新型分類器的判別特性進(jìn)行研究,并與傳統(tǒng)的線性分類器、樹狀分段線性分類器進(jìn)行對(duì)比。
分段線性分類器是用線性分類器來解決非線性問題的一個(gè)實(shí)用的方法。它利用給定的模式空間訓(xùn)練出數(shù)個(gè)線性判別式,然后將這些線性判別式按照特定的邏輯關(guān)系組合起來給出一個(gè)非線性判別。
此處wi是權(quán)重矢量,xi是模式矢量,w0是閾值矢量,g(x)是判別函數(shù)。通常,用g(x)>0和g(x)≤0作出兩類判決。對(duì)于給定的樣本集,可以利用梯度下降法、偽逆法等方法求出wi和w0進(jìn)而得到判別函數(shù)。
樹狀分段線性分類器的基本原理是:首先利用整個(gè)樣本集訓(xùn)練出一個(gè)線性判別矢量,通過g(x)>0和g(x)≤0將樣本集分成二個(gè)子集,由于模式空間是非線性的,所以兩個(gè)子集中均包含兩種類別的樣本;然后再利用這兩個(gè)子集分別訓(xùn)練出兩個(gè)線性判別式……以此類推直至模式空間被完全分開或達(dá)到預(yù)定的步數(shù)。判別過程亦按此順序逐步進(jìn)行。圖1是一個(gè)由3步7維判別矢量構(gòu)成的樹狀分段線性分類器的結(jié)構(gòu)示意圖[4]。線性判別函數(shù)可以用下述方程描述:
圖1 一個(gè)3步7維判別矢量的樹狀分段線性分類器的流程圖,圖中LD表示判別矢量Fig.1 The flow chart of tree-like piecewise linear classifier with 3 steps and 7 vectors,LD denotes discriminant vector
單邊式分段線性分類器的原理是:首先利用給定的樣本集訓(xùn)練出若干個(gè)單邊線性判別式,然后利用這些線性判別式做出一個(gè)“委員會(huì)”式判別。所謂單邊線性判別式是指該判別式只有一邊是可正確判別的,例如,假定g(x)>0時(shí)給出一個(gè)類別1的判別,那么g(x)≤0是并非表示一個(gè)模式屬于類別2。而所謂“委員會(huì)”式判別是指只有當(dāng)所有的線性判別式均未做出類別1的判別時(shí),才做出類別2的判別。單邊式分段線性分類器的訓(xùn)練過程如圖2所示[3]。首先利用整個(gè)樣本集訓(xùn)練出一個(gè)單邊線性判別式,然后在樣本集中除去被正確判別的類別1樣本,再利用這個(gè)新的樣本集訓(xùn)練下一個(gè)判別式……以此類推直至模式空間被完全分開或者得到預(yù)定個(gè)數(shù)的判別式。最后如果需要再對(duì)各個(gè)判別式進(jìn)行優(yōu)化。各線性判別式按照取小的邏輯關(guān)系構(gòu)成類界面。
用DMMP(甲基膦酸二甲酯)作含磷毒劑的模擬劑并用草木煙、塵土等作干擾物進(jìn)行外場(chǎng)實(shí)驗(yàn),采集各種光譜500條。然后對(duì)這些光譜進(jìn)行背景扣除、滑動(dòng)平均、偏置調(diào)節(jié)等預(yù)處理步驟,得到DMMP信號(hào)被增強(qiáng)了的光譜,用其中的400條進(jìn)行分類器訓(xùn)練,用剩余的100條作鑒別率測(cè)試。
在擬定分類器設(shè)計(jì)方案之后,首先建立了一個(gè)由500個(gè)二維樣本組成的數(shù)據(jù)庫(在0~1之間隨機(jī)選取1 000個(gè)小數(shù),組成二維數(shù)組),人為設(shè)定一個(gè)兩類界面,對(duì)設(shè)計(jì)方案進(jìn)行初步地評(píng)價(jià),然后再進(jìn)行真實(shí)光譜的訓(xùn)練。
圖2 單邊式分段線性分類器的訓(xùn)練流程圖Fig.2 Flow chart showing the process for calculating and optimizing single-side piecewise linear discriminants
對(duì)于二維數(shù)據(jù),得到的線性判別式就是一條直線。因而比較直觀,便于審查訓(xùn)練結(jié)果。人為設(shè)定兩類界面為y=0.75-12(x-0.6)2進(jìn)行訓(xùn)練。3步7維樹狀分段線性分類器的訓(xùn)練結(jié)果見圖3(a)所示。其中LD3-2-2是在其樣本子集已經(jīng)被完全分開的情況下訓(xùn)練出來的,沒有實(shí)際意義。LD1判別式同時(shí)還是對(duì)應(yīng)于該樣本集的線性分類器。從圖中可以看出,對(duì)應(yīng)于這樣一個(gè)兩類界面,線性分類器基本上是無效的,必須用非線性分類器才能將兩類分開。除LD3-2-2之外的6個(gè)判別式按照菜單-路徑選擇模式構(gòu)成的類界面與真實(shí)界面仍有較大的差距,僅有LD3-1-2在一定程度上與真實(shí)界面有所逼近。單邊式分段線性分類器經(jīng)過訓(xùn)練之后得到了4個(gè)線性判別式,見圖3(b)所示。從圖中可以看出,這4個(gè)判別式按照取小的邏輯關(guān)系組合起來,對(duì)真實(shí)界面的逼近程度較上述樹狀分段線性分類器要高。兩圖中的分散點(diǎn)(■)顯示出了500個(gè)樣本的分布情況,它們是在0<x<1和0<y<1范圍內(nèi)隨機(jī)選取的,不含有任何會(huì)對(duì)訓(xùn)練產(chǎn)生影響的規(guī)律性。對(duì)比兩圖發(fā)現(xiàn),樹狀分段線性分類器的設(shè)計(jì)思想是力求每一步都獲得較高的鑒別率,其不足之處是只圖將兩類分開而不考慮類界面的真實(shí)情況,結(jié)果整體上對(duì)真實(shí)類界面的擬合程度不如單邊式分段線性分類器;單邊式分段線性分類器的特點(diǎn)是并不追求在每一步都獲得較高的鑒別率,但力求在某一局部區(qū)域逼近真實(shí)類界面,結(jié)果多個(gè)線性判別式組合起來對(duì)真實(shí)類界面的逼近程度高于樹狀分類器。此外,單邊式分類器所包含的判別式個(gè)數(shù)比樹狀分類器要少一些,這對(duì)于節(jié)省存儲(chǔ)空間、提高鑒別速度是一個(gè)有利的因素。
圖3 在二維數(shù)據(jù)上的訓(xùn)練結(jié)果,(a)樹狀分段線性分類器,(b)單邊式分段線性分類器Fig.3 The training results for 2-dimension data,(a)tree-like piecewise linear classifier,(b)single-side piecewise linear classifier
在二維數(shù)據(jù)訓(xùn)練試驗(yàn)取得了預(yù)期結(jié)果并獲得了成熟的分段線性分類器設(shè)計(jì)流程之后,用400條紅外光譜針對(duì)是否含有DMMP信息進(jìn)行分類鑒別試驗(yàn)。結(jié)果表明,由4個(gè)判別式構(gòu)成的單邊式分段線性分類器,被正確分類的訓(xùn)練樣本達(dá)到了97.8%,見表1所示。文獻(xiàn)[3]對(duì)含SF6信號(hào)干涉圖的訓(xùn)練設(shè)定判別式個(gè)數(shù)為5,訓(xùn)練樣本集被正確分類的百分比在96%~100%之間;或者達(dá)到4個(gè)判別式時(shí)樣本集已經(jīng)被完全分開。該文結(jié)果與此相近。表中的漏警(missed alarms)是指將DMMP光譜錯(cuò)判為背景光譜的情況,誤警(false alarms)是指將背景光譜錯(cuò)判為DMMP光譜的情況。表1中同時(shí)還給出了樹狀分段線性分類器和線性分類器的訓(xùn)練情況。樹狀分段線性分類器對(duì)訓(xùn)練樣本的分離與單邊式分類器略低一些,為95.5%。而線性分類器的訓(xùn)練結(jié)果較兩種分段線性分類器有明顯差距。
表1 對(duì)400條DMMP光譜的訓(xùn)練結(jié)果Tab.1 training results for 400 DMMP spectra
單獨(dú)選取100條光譜作為預(yù)測(cè)數(shù)據(jù)集對(duì)三種分類器的性能進(jìn)行了評(píng)估,結(jié)果見表2所示。單邊式分段線性分類器的判別正確率達(dá)到了89%,高于線性分類器的71%和樹狀分段線性分類器的84%,漏警和誤警率也均低于后兩者。此外,與表1所示結(jié)果對(duì)比發(fā)現(xiàn),三種分類器的預(yù)測(cè)結(jié)果均低于訓(xùn)練結(jié)果十個(gè)百分點(diǎn)以上,這可能與外場(chǎng)試驗(yàn)時(shí)人為地加入了各種干擾物有關(guān),同時(shí)預(yù)測(cè)結(jié)果低于訓(xùn)練結(jié)果應(yīng)屬正?,F(xiàn)象。
表2 三種分類器的預(yù)測(cè)分類結(jié)果Tab.2 predicting classification results of three classifiers
根據(jù)上述實(shí)驗(yàn)結(jié)果可以認(rèn)定,單邊式分段線性分類器與傳統(tǒng)的樹狀分段線性分類器和線性分類器相比具有明顯的優(yōu)勢(shì),在化學(xué)毒劑紅外遙感監(jiān)測(cè)系統(tǒng)鑒別器設(shè)計(jì)中體現(xiàn)出良好的應(yīng)用前景;此外,這種分類判別方法也可以應(yīng)用于其它分析檢測(cè)領(lǐng)域,因此有關(guān)這種分類器的研究有必要進(jìn)行更深入的研究。
[1]Meuzelaer H.ComputerEnhanced Analytical Spectroscopy[M].New York and London:Plenum,1990.71~111.
[2]Small G W,Carpenter S E,Kaltenbach T F.Discriminant analysis techniques for the identification of atmospheric pollutants from passive Fourier transform infrared interferograms[J].Analytica Chimica Acta,1991,246:85~102.
[3]Kaltenbach T F,Small G W.Development and optimization of piecewise linear discriminants for the automated detection of chemical species[J].Analytical Chemistry,1991,63:936~944.
[4]邊肇祺,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2000.83~120.