王桂瑤 ,李少鵬 ,詹 映 ,田 震 ,郭建華 ,宋紀(jì)真
(1.中國煙草總公司鄭州煙草研究院,河南 鄭州 450000;2.江蘇中煙工業(yè)有限責(zé)任公司,江蘇 南京 210000;3.上海創(chuàng)和億電子科技發(fā)展有限公司,上海 200092)
在近紅外定量模型建立過程中一個(gè)重要環(huán)節(jié)就是異常樣本剔除,這些異常樣本值不僅會誤導(dǎo)近紅外變量的選擇,而且會在建模過程中,給模型的參數(shù)選擇帶來誤判,造成最后模型的穩(wěn)定性降低、精度誤差變大。在實(shí)際近紅外模型構(gòu)建過程中,有很多情況會引起近紅外樣本的異常,一種是測定的標(biāo)準(zhǔn)值誤差較大,通過殘差分析,可以很容易剔出來。另一種異常值,也可以叫做強(qiáng)影響點(diǎn),其所對應(yīng)的光譜沒有代表性,偏離模型整體的平均光譜較大,建模過程中所表現(xiàn)出的殘差值不大,可是杠桿值很大[1-9]。
引起樣本異常的原因可以分為5 類。一類是基礎(chǔ)數(shù)據(jù)產(chǎn)生的異常樣本,即當(dāng)基礎(chǔ)數(shù)據(jù)操作失誤,或者樣本混淆的時(shí)候,化學(xué)值與樣本所對應(yīng)的近紅外光譜不一致所產(chǎn)生的異常樣本。一類是自身被檢測物質(zhì)引起的異常樣本,批次、等級、部位、年份之間的差異導(dǎo)致建立的模型與將要檢測的樣本光譜有差異,這部分異常樣本需要在模型維護(hù)的時(shí)候考慮[10-15]。一類是內(nèi)外界環(huán)境造成的異常光譜樣本,主要有近紅外儀器背景變化產(chǎn)生的影響,或者掃到了非煙物質(zhì),或是檢測環(huán)境的變化,如樣本的溫度、濕度。一類是工藝參數(shù)的改變引起的異常光譜樣本,近紅外光譜受外界環(huán)境影響比較大,如改變某些工藝參數(shù),導(dǎo)致近紅外儀器檢測條件發(fā)生變化,比如真空回潮等參數(shù)會改變煙葉物質(zhì)中所含有的水分,這個(gè)時(shí)候外界的濕度因素就會發(fā)生變化,產(chǎn)生異常光譜。一類是儀器自身的不穩(wěn)定引起的異常樣本,如儀器的硬件粗糙所引起的問題,近紅外儀器老化以及更換近紅外儀器零部件帶來的光譜差異性等[16-20]。這些不同原因造成的異常點(diǎn),如果建模時(shí)不進(jìn)行剔除,不僅模型檢測的數(shù)據(jù)精度不高,結(jié)果不可靠,而且需要頻繁地對模型進(jìn)行維護(hù),造成人力、物力、財(cái)力的損失。
采用不同產(chǎn)地、等級的初烤煙葉樣品167 個(gè),所有樣品在60 ℃的電熱烘箱中烘干30 min,經(jīng)過粉碎后過60目篩子。
主要設(shè)備:Antaris Ⅱ型實(shí)驗(yàn)室近紅外光譜儀(美國賽默飛世爾科技);FED240 電熱烘箱(德國Binder);旋轉(zhuǎn)式煙葉粉碎機(jī)。
1.2.1 光譜測定
實(shí)驗(yàn)室光譜采集采用Antaris Ⅱ型實(shí)驗(yàn)室近紅外光譜儀(美國賽默飛世爾科技),以儀器內(nèi)部空氣為背景,測量范圍3 799 cm-1~10 001 cm-1,采樣點(diǎn)數(shù)為1 609點(diǎn),每張光譜掃描次數(shù)為64次,分辨率為8 cm-1。
1.2.2化學(xué)值測定
所有的煙葉化學(xué)值測定都經(jīng)過去梗、剪碎,在40℃下烘焙4 h,粉碎,過60 目篩,制備好的樣品取10 g,將樣品粉末混合均勻裝入樣品杯中,Antaris Ⅱ型實(shí)驗(yàn)室近紅外光譜儀采用旋轉(zhuǎn)的方式進(jìn)行漫反射檢測。樣品測量過程中環(huán)境溫濕度基本保持一致。
測定方法為液相色譜法,具體方法參照YC/T 202—2006《煙草及煙草制品 多酚類化合物 綠原酸、莨菪亭和蕓香苷的測定》。
1.2.3 建立校正模型
用實(shí)驗(yàn)室近紅外光譜儀采集所有樣品的光譜,并進(jìn)行編號標(biāo)記,用液相色譜法測量對應(yīng)樣品化學(xué)值,將光譜與化學(xué)值按編號一一對應(yīng)。將光譜進(jìn)行預(yù)處理、波段選擇、異常樣本剔除后用偏最小二乘法(PLS)進(jìn)行建模,根據(jù)建模的平均絕對誤差、平均相對誤差、相關(guān)系數(shù)(R)和均方差(RMSEC)四個(gè)指標(biāo)來評價(jià)異常樣本剔除的不同方法,確定最佳異常樣本剔除方法。
馬氏距離的計(jì)算公式如下:
其中,ɡi、ɡj分別為第i個(gè)和第j個(gè)樣本的光譜行向量。P-1為類G協(xié)方差矩陣的逆矩陣,即:
樣本ɡi與某一類G之間的馬氏距離為:
其中,ˉɡ為G的平均光譜;GI為G均值中心化后的光譜陣。
在實(shí)際計(jì)算時(shí),通常用PCA 的得分T代替光譜數(shù)據(jù)G,這時(shí):
也可以寫成:
其中,c為主因子數(shù),tˉj為類G的第j個(gè)主成分得分的平均值;tij為樣本ɡi的第j個(gè)主成分得分,λj為矩陣(GITGI)的第j個(gè)特征值。
計(jì)算異常光譜樣本存在的閾值范圍:
其中,ε為調(diào)整閾值范圍的權(quán)重系數(shù)分別為AB的平均值和標(biāo)準(zhǔn)差。ABi- ̄AB值越小,則樣本i與平均光譜在主成分空間中就越相似。當(dāng)ABi? ̄AB+εσB時(shí),認(rèn)為樣本i為異常光譜樣本。因此,可以設(shè)置不同的權(quán)重系數(shù)ε來調(diào)節(jié)異常樣本的閾值范圍。運(yùn)用馬氏距離法剔除異?;瘜W(xué)值樣本,剔除樣本10個(gè),如圖1所示。
圖1 馬氏距離法剔除異常樣本圖
基于對原始光譜的隨機(jī)半數(shù)重采樣統(tǒng)計(jì)出現(xiàn)奇異長度的樣本。從原始光譜矩陣中隨機(jī)選擇部分(一般選擇總樣本數(shù)的一半)樣本作為采樣子集,計(jì)算每個(gè)采樣子集矩陣的均值和方差,再根據(jù)均值和方差計(jì)算采樣子集中每個(gè)樣本的向量長度(向量長度計(jì)算公式與數(shù)據(jù)標(biāo)準(zhǔn)化公式相同)。對光譜數(shù)據(jù)進(jìn)行多次隨機(jī)采樣,并記錄每次采樣后計(jì)算的向量長度。對樣本的向量長度進(jìn)行排序,距離最大的一定概率(如5%或10%)的樣本得分為1,其余為0。最后對各樣本的總得分進(jìn)行統(tǒng)計(jì),得分最高的部分樣本就為奇異樣本。采用半數(shù)重采樣法剔除了18個(gè)異常樣本,如圖2所示。
圖2 半數(shù)重采樣法剔除異常樣本圖
基于蒙特卡洛交叉驗(yàn)證(MCCV)的一類奇異樣本識別方法。利用MCCV 隨機(jī)劃分校正集與預(yù)測集,如果奇異樣本在校正集中,整個(gè)模型的質(zhì)量將受到影響;相反,如果奇異樣本在預(yù)測集中,僅此樣本的預(yù)測結(jié)果受到影響。盡管這種情況對預(yù)測結(jié)果都有影響,但效果明顯不同。本文就利用奇異樣本出現(xiàn)在校正集或預(yù)測集時(shí)模型預(yù)測誤差的差異,通過MCCV及統(tǒng)計(jì)分析來進(jìn)行奇異樣本的識別。根據(jù)預(yù)測集中奇異樣本的預(yù)測殘差會明顯大于正常樣本的預(yù)測殘差,提出了一種基于MCCV 的奇異樣本識別方法?;贛CCV 的奇異樣本識別方法充分利用統(tǒng)計(jì)學(xué)的性質(zhì),能夠在一定程度上降低由掩蔽效應(yīng)帶來的風(fēng)險(xiǎn),檢出光譜陣和性質(zhì)陣方向的奇異點(diǎn),有望在奇異樣本檢測中得到更廣泛的應(yīng)用。
算法具體步驟:1)用PLS 確定最佳主成分?jǐn)?shù);2)用蒙特卡洛隨機(jī)取樣法取90%的樣本作為校正集建立PLS 回歸模型,剩余部分作預(yù)測集;3)循環(huán)1 000 次,得到各樣本的一組預(yù)測殘差;4)求各樣本預(yù)測殘差的均值與方差,并作圖;5)若樣本偏離主體,則從校正集中剔除。采用蒙特卡洛偏最小二乘交叉檢驗(yàn)法剔除的18個(gè)異常樣本,如圖3所示。
圖3 蒙特卡洛偏最小二乘交叉檢驗(yàn)法剔除異常樣本圖
表1 是采用不同異常樣本剔除方法剔除異常樣本,建立PLS 模型得到的驗(yàn)證集驗(yàn)證結(jié)果。從表中可以得出:采用蒙特卡洛偏最小二乘交叉檢驗(yàn)法剔除異常樣本建立的PLS模型預(yù)測性和穩(wěn)定性最好。
表1 不同異常樣本剔除方法剔除異常樣本后所建模型結(jié)果對比表
在建立多酚類物質(zhì)咖啡奎尼酸定量模型前,應(yīng)首先剔除異常樣本,這些異常樣本可能含有光譜異常值、異?;瘜W(xué)組分或者濃度較為極端,與其他樣本存在顯著差異。如果這些異常值參與建模,必然會降低近紅外光譜檢測分析結(jié)果的準(zhǔn)確性和可靠性,因此需要將這些異常樣本進(jìn)行剔除。采用蒙特卡洛偏最小二乘交叉檢驗(yàn)法剔除異常樣本較其他方法效果更佳。