亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        近紅外光譜樣本集劃分以及預(yù)處理的方法研究*

        2023-04-06 10:41:20陳方方丁躍武李四海
        甘肅科技 2023年1期
        關(guān)鍵詞:殘差校正預(yù)處理

        陳方方,丁躍武,楊 友,李四海

        (甘肅中醫(yī)藥大學(xué)信息工程學(xué)院,甘肅 蘭州 730000)

        近紅外光譜技術(shù)是介于可見光與中紅外光譜之間的一種電磁波,光譜范圍為780~2 520 nm,主要信息來(lái)源于對(duì)氫基團(tuán)的倍頻和合頻的吸收,不同的基團(tuán)產(chǎn)生的信息不相同,相同的基團(tuán)在不同的環(huán)境下產(chǎn)生的信息也不相同。因近紅外光譜技術(shù)具有操作便捷、效率高、無(wú)污染等特點(diǎn)得到廣泛應(yīng)用[1-3]。

        以研究過(guò)程中的方法選擇、數(shù)據(jù)處理為主要研究?jī)?nèi)容,提取最大限度的化學(xué)和分析信息,不僅能夠提高操作中的效率,還可以提高模型的預(yù)測(cè)精度。異常樣本識(shí)別、樣本集劃分、光譜預(yù)處理是建立分析模型的基礎(chǔ),良好的數(shù)據(jù)處理方法是建立穩(wěn)定性好、預(yù)測(cè)能力強(qiáng)的分析模型的重要條件。褚小立等[4]、閔順耕等[5]分別對(duì)異常樣本識(shí)別、預(yù)處理等一些化學(xué)計(jì)量學(xué)方法進(jìn)行總結(jié),然而這些算法已是多年之前的研究,隨著技術(shù)的發(fā)展,近些年產(chǎn)生了大量的新算法,文章在此基礎(chǔ)上介紹了近幾年近紅外光譜的異常樣本識(shí)別、樣本集劃分、光譜預(yù)處理算法原理及應(yīng)用。

        1 近紅外光譜異常樣本識(shí)別

        近紅外光譜分析的對(duì)象通常都是較為復(fù)雜的對(duì)象,在對(duì)數(shù)據(jù)進(jìn)行化學(xué)分析時(shí),常常由于環(huán)境問(wèn)題、操作人員的失誤、取樣不均以及樣本的復(fù)雜度等問(wèn)題,導(dǎo)致檢測(cè)結(jié)果不可靠或異常樣本的出現(xiàn),會(huì)對(duì)模型精確度產(chǎn)生影響。因此,為建立一個(gè)更加穩(wěn)定可靠的模型,在進(jìn)行定量分析之前需要對(duì)樣本的異常值進(jìn)行識(shí)別和剔除。

        1.1 常用的異常樣本識(shí)別方法

        光譜數(shù)據(jù)中的異常樣本可以通過(guò)觀察光譜數(shù)據(jù)本身進(jìn)行剔除,但由于會(huì)受人為等一些其他因素的干擾,難以實(shí)現(xiàn)對(duì)光譜數(shù)據(jù)客觀、準(zhǔn)確地分析,選擇適合的方法對(duì)樣本進(jìn)行異常值篩選,能更好地保證模型的穩(wěn)定性。目前,常用的方法主要有Cook距離、馬氏距離、樣本杠桿值、學(xué)生化殘差、濃度殘差值、光譜殘差值、蒙特卡洛交叉驗(yàn)證(Monte-Carlo Cross Validation,MCCV)等[6-9]。

        1.1.1 Cook距離

        Cook距離主要用來(lái)檢驗(yàn)?zāi)硺颖镜拇嬖趯?duì)模型回歸系數(shù)產(chǎn)生的影響,其距離計(jì)算如下:

        1.1.2 樣本杠桿值和學(xué)生化殘差

        在多元回歸模型中,光譜矩陣Xc存在:

        H通常被稱為“帽子矩陣”,對(duì)角線上的元素Hi表示第i個(gè)樣本杠桿值(Leverage)。當(dāng)杠桿值大于的樣本被認(rèn)為是異常樣本,p是光譜波數(shù)個(gè)數(shù),n是樣本個(gè)數(shù)。樣本杠桿值表示樣本值對(duì)模型的影響程度,杠桿值越小代表該樣本有利于模型的建立,但樣本杠桿值大的不一定是異常樣本,需要結(jié)合學(xué)生化殘差來(lái)進(jìn)行綜合考慮。

        學(xué)生化殘差考慮了樣本性質(zhì)矩陣的預(yù)測(cè)能力,其表達(dá)式為:

        式中:yi是第i個(gè)樣本的真實(shí)值是第i個(gè)樣本的預(yù)測(cè)值,si是剔除第i個(gè)樣本后擬合回歸的均方根誤差。學(xué)生化殘差表示樣本杠桿值對(duì)應(yīng)的樣本濃度預(yù)測(cè)能力的優(yōu)劣,如果樣若樣本的學(xué)生化殘差和杠桿值都很大,判斷該樣本為異常樣本的可能性較大。

        1.1.3 馬氏距離

        馬氏距離是指樣本光譜集與標(biāo)準(zhǔn)光譜集的平均光譜距離,用來(lái)衡量某一個(gè)樣本對(duì)整個(gè)樣本集產(chǎn)生的影響,如果馬氏距離大于閾值,表明該樣本影響模型的穩(wěn)定性,此樣本可能是異常樣本。

        馬氏距離的算法步驟如下:

        式中:ti是樣本集的主成分得分向量,是標(biāo)準(zhǔn)光譜集的主成分得分的平均值,V-1是標(biāo)準(zhǔn)光譜數(shù)據(jù)集的協(xié)方差的逆矩陣。

        1.1.4 濃度化殘差

        濃度殘差法通過(guò)計(jì)算樣本的化學(xué)絕對(duì)值誤差的方差與整個(gè)數(shù)據(jù)集各樣本的絕對(duì)方差的平均值,用F檢驗(yàn)來(lái)判別,大于閾值可判定為異常樣本。

        當(dāng)Fi>F0.05(1,n-1)可以判斷第i個(gè)樣本為異常樣本。光譜化殘差是指計(jì)算原始光譜與重構(gòu)光譜的殘差譜的方差,可用來(lái)判斷光譜異常值和特征峰的異常。

        1.1.5 蒙特卡洛異常值采樣

        MCCV利用蒙特卡洛交叉驗(yàn)證中奇異樣本的統(tǒng)計(jì)規(guī)律來(lái)識(shí)別奇異樣本,通過(guò)MCCV計(jì)算出模型中預(yù)測(cè)殘差平方和(PRESS),再建立定量分析模型,如果樣本在具有小的PRESS的分析模型中的出現(xiàn)次數(shù)明顯偏離則表明為奇異樣本。具體過(guò)程如下:

        (1)對(duì)樣本建立PLS模型確定最佳主成分?jǐn)?shù);

        (2)采用蒙特卡洛隨機(jī)取樣法選取80%的樣本作為校正集,20%作為驗(yàn)證集,確定最佳主成分?jǐn)?shù),對(duì)校正集建立PLS回歸模型,用驗(yàn)證集進(jìn)行預(yù)測(cè),得到驗(yàn)證集樣本的預(yù)測(cè)值;

        (3)對(duì)步驟(2)進(jìn)行循環(huán),得到預(yù)測(cè)誤差分布;

        (4)計(jì)算樣本預(yù)測(cè)殘差的均值和方差,確定在一定的方差下,具有較大殘差下的樣本數(shù),將這些樣本視為異常樣本。

        此外,在對(duì)數(shù)據(jù)進(jìn)行異常樣本剔除時(shí),可能會(huì)存在異常樣本點(diǎn)的誤判,不能實(shí)現(xiàn)對(duì)樣本數(shù)據(jù)完全剔除,針對(duì)這種現(xiàn)象祝詩(shī)平等[10]提出對(duì)可疑樣本進(jìn)行二次驗(yàn)證,即“二審”剔除法,其基本思想是指在對(duì)樣本進(jìn)行一次異常樣本檢驗(yàn)時(shí),如果被檢測(cè)為可疑樣本,不馬上對(duì)其進(jìn)行剔除,而是繼續(xù)對(duì)其進(jìn)行二次計(jì)算,如果仍被判定為異常樣本,就對(duì)其進(jìn)行剔除,否則,進(jìn)行保留,通過(guò)“二審”剔除法,使模型更具有代表性和穩(wěn)定性,進(jìn)一步提高近紅外光譜模型定量分析的精度。

        2 近紅外光譜樣本集劃分

        在對(duì)樣本數(shù)據(jù)集進(jìn)行分析時(shí),選取合適有效的樣本進(jìn)行化學(xué)建模不僅可以提高模型的精準(zhǔn)度,還為后續(xù)模型的維護(hù)和更新提供更為便捷的方法。目前,常用的樣本集劃分方法有隨機(jī)抽樣(Random Sampling,RS)法[11]、常規(guī)選擇(Conventional Selection,CS)法[12]、Kennard-stone(KS)法[13]、X-Y聯(lián)合距離的樣本集劃分(Sample Set Portioning base on joint xy distance,SPXY)[14]等。詹雪艷等[15]比較了三種校正集選擇方法并對(duì)積雪草中的積雪草苷的含量建立NIR定量分析模型。陳奕云等[16]以江漢平原洪湖地區(qū)水稻土為研究對(duì)象,采用KS法,SPXY法構(gòu)建樣本數(shù)占總校正集不同比例的子校正集,建立定量分析模型。

        2.1 常用的樣本集劃分方法

        CS法在對(duì)樣本進(jìn)行劃分時(shí),增強(qiáng)樣本中的某些特征如:廠家、產(chǎn)地等一些因素的變異,對(duì)樣本的化學(xué)含量值進(jìn)行測(cè)量、篩選、按大小進(jìn)行排序,以校正集和測(cè)試集比例選擇化學(xué)測(cè)量值最高或最低的樣本進(jìn)行分配。RS法是指對(duì)光譜數(shù)據(jù)集進(jìn)行隨機(jī)挑選,篩選出來(lái)的一部分樣本作為校正集,其余的作為測(cè)試集。RS方法具有操作簡(jiǎn)單,不需要對(duì)數(shù)據(jù)進(jìn)行挑選、排序、計(jì)算等特點(diǎn),此方法適用于樣本數(shù)量比較大的樣本集,當(dāng)用于樣本集較少的情況下會(huì)導(dǎo)致樣本劃分不均勻,影響模型的預(yù)測(cè)精度。

        2.1.1 KS法

        在近紅外光譜分析模型分析中,樣本集較少的情況下可選擇KS法,根據(jù)計(jì)算樣本間光譜的歐式距離來(lái)計(jì)算樣本間差異。采用KS算法不僅可以起到降低算法計(jì)算代價(jià),加快學(xué)習(xí)速度之作用外,還可以避免過(guò)擬合現(xiàn)象發(fā)生。KS算法的具體步驟如下:

        (1)將所有的樣本都視為訓(xùn)練集,計(jì)算整個(gè)樣本集中的歐式距離,選擇歐式距離最大的2個(gè)樣本做為訓(xùn)練集;

        (2)計(jì)算剩余樣本與已選樣本之間的距離,最短距離選為訓(xùn)練集,待所有的剩余樣本計(jì)算過(guò)后,選擇這些最短距離中的最長(zhǎng)距離所對(duì)應(yīng)的樣本選作訓(xùn)練集;

        (3)重復(fù)步驟2,直至所選的樣本集樣本個(gè)數(shù)等于事先確定的數(shù)目為止。

        歐式距離為歐幾里得度量(Euclidean Metric)指在n維空間中兩點(diǎn)之間的真實(shí)距離,或者向量的自然長(zhǎng)度。其公式如下:

        式中:xp和xq表示2個(gè)不同的樣本,N表示樣本的光譜波點(diǎn)數(shù)量。

        2.1.2 SPXY

        SPXY算法是在KS的基礎(chǔ)上發(fā)展而來(lái)的,是一種均勻的采樣方法,在計(jì)算樣本間距離時(shí)綜合考慮了數(shù)據(jù)變量和化學(xué)測(cè)量值之間的歐式距離,能夠改善所建模型的預(yù)測(cè)能力。其計(jì)算公式如下:

        將光譜數(shù)據(jù)x和化學(xué)測(cè)量值y同時(shí)考慮在內(nèi),p、q之間的距離為dxy(p,q),公式如下:

        為確保x和y在每個(gè)樣本上具有相同的權(quán)重,對(duì)數(shù)據(jù)集中的最大距離值dx(p,q)和dy(p,q)進(jìn)行歸一化。然后,采用類似于KS算法逐步選擇,直到選擇出需要的數(shù)據(jù)為止。

        3 近紅外光譜預(yù)處理方法

        近紅外光譜在采集過(guò)程中由于光的散射、背景干擾以及儀器誤差等原因,對(duì)建立的分析模型產(chǎn)生影響,因此,有必要對(duì)已經(jīng)獲得的光譜信息進(jìn)行預(yù)處理。常用的預(yù)處理方法主要分為基線校正、散射校正、平滑處理、尺度縮放[17]四類。其中,基線校正包括一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、小波變換等,主要是消除儀器背景干擾以及光線漂移對(duì)信號(hào)產(chǎn)生的影響。尺度縮放包括均值中心化[18]、最大最小歸一化、標(biāo)準(zhǔn)化、矢量歸一化等,主要是通過(guò)消除尺度差異過(guò)大帶來(lái)的影響。散射校正主要包括多元散射校正(Multiplicative Scatter Correction,MSC)[19]、標(biāo)準(zhǔn)正態(tài)變量變換(Standard Normalized Variate,SNV)[20]、正交信號(hào)校正(Orthogonal Signal Correction,OSC)[21]、去趨勢(shì)算法(Dr-trending)等,主要通過(guò)消除由于樣品顆粒不均勻及顆粒大小不同而產(chǎn)生的散射。平滑處理包括移動(dòng)窗口平滑、Savitzky-Golay(SG)平滑[22]等,主要消除光譜中隨機(jī)噪聲產(chǎn)生的影響。

        3.1 基線校正

        光譜數(shù)據(jù)采集時(shí)會(huì)受到由基線漂移以及光譜重疊的影響,進(jìn)而在數(shù)據(jù)建模中產(chǎn)生較多的隨機(jī)誤差。對(duì)光譜數(shù)據(jù)進(jìn)行求導(dǎo)可以消除光譜數(shù)據(jù)集中不重要的基線漂移。一階導(dǎo)數(shù)可以用來(lái)消除同波長(zhǎng)無(wú)關(guān)漂移;二階導(dǎo)數(shù)可以消除同波長(zhǎng)線性相關(guān)的漂移,同時(shí)提高光譜的分辨率,但也會(huì)降低光譜的信噪比。此外,對(duì)光譜的求導(dǎo)方法包括直接差分法和Savitzky-Golay卷積求導(dǎo)法。當(dāng)獲得的數(shù)據(jù)具有高分辨率、波長(zhǎng)點(diǎn)數(shù)量多的情況下,直接差分法和Savitzky-Golay卷積求導(dǎo)存在誤差較小。

        小波變換主要包括離散小波變換(Discrete Wavelet Transform,DWT)和連續(xù)小波變換(Continuous Wavelet Transform,CWT)是一種有效的數(shù)值求導(dǎo)方法,不僅可以提高光譜分辨率還可以保證光譜的信噪比。通過(guò)對(duì)原始光譜進(jìn)行分解,得到時(shí)域和頻域的信息,進(jìn)一步對(duì)信號(hào)進(jìn)行濾噪和平滑,消除低頻背景和高頻噪聲。小波變換常用的小波函數(shù)具有多樣性,不同的小波函數(shù)處理相同的問(wèn)題得到的結(jié)果相差也較大,其小波函數(shù)的正確使用也是當(dāng)前研究的一大熱點(diǎn)之一。

        3.2 散射校正

        在對(duì)數(shù)據(jù)進(jìn)行采集時(shí)由于顆粒大小、形狀、分布不均勻等會(huì)引起光的散射漂移,導(dǎo)致相同的樣本在不同光譜圖中存在差異,這種現(xiàn)象稱為光的散射現(xiàn)象。MSC和SNV正是用來(lái)消除這種現(xiàn)象對(duì)光譜造成的影響,MSC計(jì)算校正集所有光譜的平均值,將每條光譜與平均光譜做一元線性回歸,得到線性回歸的斜率和截距,以此對(duì)原始光譜進(jìn)行校正,但對(duì)于光譜數(shù)據(jù)來(lái)說(shuō)將每條光譜都視為線性相關(guān)是難以實(shí)現(xiàn)的。相對(duì)于MSC,SNV是從原始光譜中減去該光譜的平均值,再除以標(biāo)準(zhǔn)差,以此來(lái)消除光的散射效應(yīng)。SNV可以減少散射、粒度以及多重線性對(duì)近紅外光譜中的一些影響,但這些情況是需要保證整個(gè)光譜范圍是均勻的。去趨勢(shì)算法[5]通過(guò)消除光譜漫反射產(chǎn)生的基線漂移,提高模型的預(yù)測(cè)效果,該方法不僅可以單獨(dú)使用,還可以跟其他預(yù)處理方法進(jìn)行結(jié)合使用。

        3.3 平滑處理

        平滑處理是一種低通濾波器,可以用來(lái)消除光譜信號(hào)中的隨機(jī)噪聲,提高信號(hào)的信噪比。移動(dòng)窗口算法會(huì)對(duì)光譜信息的邊界點(diǎn)造成損失,此外,在進(jìn)行移動(dòng)窗口時(shí)對(duì)其寬度需要設(shè)置一個(gè)恰當(dāng)?shù)膮?shù)。當(dāng)移動(dòng)窗口過(guò)小時(shí)不能更好地減少噪聲,過(guò)大則會(huì)對(duì)波譜的波峰平滑過(guò)多,造成有用信號(hào)失真。因此,提出了SG卷積平滑算法,其實(shí)質(zhì)是一種加權(quán)平均算法,主要是利用多項(xiàng)式對(duì)原始光譜移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式分解并對(duì)其進(jìn)行最小二乘擬合。SG平滑算法是目前使用較為廣泛的去噪方法,但對(duì)移動(dòng)窗口寬度及多項(xiàng)式次數(shù)的選擇仍需進(jìn)行優(yōu)化選擇。

        3.4 尺度縮放

        尺度縮放的作用就是用來(lái)消除數(shù)據(jù)由于尺度差異過(guò)大而帶來(lái)的一些影響。均值中心化是將每個(gè)樣品光譜減去校正集的平均光譜,用以消除光譜的絕對(duì)吸收,能夠增強(qiáng)樣本光譜之間的差異,提高建模時(shí)光譜特征的識(shí)別,減少數(shù)據(jù)之間的線性和相互作用項(xiàng)之間的協(xié)方差。光譜標(biāo)準(zhǔn)化又稱均值標(biāo)準(zhǔn)化,將數(shù)據(jù)經(jīng)過(guò)均值中心化后再除以校正集光譜陣的標(biāo)準(zhǔn)偏差,能夠賦予所有波長(zhǎng)變量相同的權(quán)重,這對(duì)低濃度組分樣品建模有較大幫助。其中,均值中心化和標(biāo)準(zhǔn)化是最常用的2種方法,這2種方法在對(duì)光譜數(shù)據(jù)進(jìn)行處理的同時(shí),往往對(duì)目標(biāo)函數(shù)也進(jìn)行同樣的變換。歸一化通常用于校正微小光程差異帶來(lái)的光譜變化,是將每個(gè)光譜點(diǎn)減去所在變量列的最小值后,再除以光譜所在列最大值和最小值的差值。最大最小歸一化具有可以提高模型收斂速度和模型精度的特點(diǎn)。

        目前,有學(xué)者提出對(duì)近紅外光譜預(yù)處理方法進(jìn)行組合,以提高模型預(yù)測(cè)效果[23]。張朱珊瑩[24]等對(duì)選取的血液樣本分別進(jìn)行無(wú)預(yù)處理和單一預(yù)處理,將每類最優(yōu)的預(yù)處理再進(jìn)行組合研究,并根據(jù)建模后的交互驗(yàn)證均方根誤差選出最優(yōu)的預(yù)處理方法。實(shí)驗(yàn)表明將預(yù)處理方法按照效果進(jìn)行分類并組合可得到最佳的預(yù)處理效果。羅曦等[25]對(duì)62份水稻抗性淀粉含量進(jìn)行測(cè)定,通過(guò)比較未進(jìn)行預(yù)處理、MSC+1thD、1thD+SNV預(yù)處理效果,表明經(jīng)過(guò)結(jié)合的預(yù)處理方法無(wú)論內(nèi)部驗(yàn)證還是外部驗(yàn)證都具有較高的決定系數(shù)和較低的誤差值,模型精度更高,誤差更小。

        4 結(jié)束語(yǔ)

        近紅外光譜技術(shù)在現(xiàn)代分析技術(shù)中的重要地位已經(jīng)不言而喻,文章綜述了多達(dá)幾十種的選擇算法,這些方法都有各自的優(yōu)點(diǎn)和缺點(diǎn)。然而,在實(shí)際應(yīng)用中還需要考慮如何選取最優(yōu)方案等問(wèn)題,盡管有規(guī)律可循,但不同方法進(jìn)行結(jié)合,產(chǎn)生的結(jié)果也不盡相同,需要對(duì)這些方法進(jìn)行比較,以獲得最優(yōu)效果?,F(xiàn)如今,近紅外光譜化學(xué)計(jì)量學(xué)算法也是未來(lái)發(fā)展的一個(gè)重要方向,也為近紅外光譜的發(fā)展提供一定的借鑒意義。

        猜你喜歡
        殘差校正預(yù)處理
        基于雙向GRU與殘差擬合的車輛跟馳建模
        基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
        劉光第《南旋記》校正
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        一類具有校正隔離率隨機(jī)SIQS模型的絕滅性與分布
        基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
        機(jī)內(nèi)校正
        淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
        絡(luò)合萃取法預(yù)處理H酸廢水
        平穩(wěn)自相關(guān)過(guò)程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        春色成人在线一区av| 九色综合九色综合色鬼| 女人被狂躁到高潮视频免费网站| 五月天激情小说| 国产韩国精品一区二区三区| 国产丝袜美腿一区二区三区| 大肉大捧一进一出好爽视频动漫 | 国产一级一区二区三区在线播放| 亚洲欧洲成人a∨在线观看 | 国产成人av在线免播放观看新| 精产国品一二三产区m553麻豆 | 毛茸茸的中国女bbw| 制服无码在线第一页| 一区二区三区在线观看人妖| 草色噜噜噜av在线观看香蕉| 精品国产三级a∨在线观看| 亚洲公开免费在线视频| 色噜噜亚洲精品中文字幕| 国产精品久久久久一区二区三区 | 久久国产精品免费专区| 成人无码av一区二区| 久久综合给合久久狠狠狠97色69 | 亚洲欧美日本| 美女黄频视频免费国产大全 | 毛片av在线尤物一区二区| 国产精品亚洲二区在线看| 欧美a级毛欧美1级a大片免费播放| 国产在线高清视频| 国产一级黄色性生活片| av天堂精品久久综合网| 精品日韩欧美一区二区在线播放 | 亚洲国产美女精品久久久 | 日韩精品乱码中文字幕| 亚洲妇女无套内射精| 國产AV天堂| 亚洲av免费看一区二区三区 | 国产aⅴ夜夜欢一区二区三区| 五十路一区二区中文字幕| 久久精品国产99国产精品亚洲| 激情欧美日韩一区二区| av黄片免费在线观看|