亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

近紅外光譜定量分析模型的樣本影響研究

2016-07-12 12:49:46劉麗瑩劉小溪石曉光張國玉宦克為

光譜學(xué)與光譜分析 2016年11期

關(guān)鍵詞：離群方差光譜

鄭峰，劉麗瑩，劉小溪，李野，石曉光，張國玉，宦克為*

1. 長春理工大學(xué)，吉林長春 130022 2. 吉林省科學(xué)技術(shù)信息研究所，吉林長春 130000

近紅外光譜定量分析模型的樣本影響研究

鄭峰1，劉麗瑩1，劉小溪2，李野1，石曉光1，張國玉1，宦克為1*

1. 長春理工大學(xué)，吉林長春 130022 2. 吉林省科學(xué)技術(shù)信息研究所，吉林長春 130000

作為二次分析方法，近紅外光譜分析的重現(xiàn)性和可靠性非常依賴于建模過程。以近紅外光譜小麥蛋白質(zhì)定量分析模型為例，研究了多變量定標(biāo)建模過程中異常樣本問題，旨在討論復(fù)雜樣本建模中的樣本對模型的影響和作用。以PLSR算法建模中校正方差與驗證方差的解釋百分比曲線的背離特性作為異常樣本存在的判據(jù)，當(dāng)兩個百分比曲線顯著偏離時，則認(rèn)為樣本集中存在異常樣本，并對建模產(chǎn)生了顯著影響。異常樣本的識別和處理，以及影響分析是本文主要的創(chuàng)新性工作，采用了基于樣本刪除的子模型遍歷統(tǒng)計方法，能夠漸次識別并提取出異常樣本。在剔除異常樣本后的模型預(yù)測結(jié)果中，以模型的預(yù)測殘差標(biāo)準(zhǔn)差作為參考距離對異常樣本進(jìn)行了離群程度分級，可分為顯著離群樣本，相對離群樣本以及潛在離群樣本，數(shù)據(jù)集中顯著離群樣本約占7.8%，相對離群樣本約占15.6%。異常樣本對模型的影響表現(xiàn)在對正常樣本的預(yù)測殘差上，使預(yù)測值偏離理想擬合直線，分散性增加。剔除異常樣本或以樣本權(quán)重建?？捎行б种飘惓颖镜挠绊?，使模型的解釋性更偏向于多數(shù)樣本數(shù)據(jù)，降低模型的經(jīng)驗風(fēng)險誤差。

近紅外光譜；樣本影響；灰色系統(tǒng)；子模型群集學(xué)習(xí)

引言

吸收光譜在近紅外光譜區(qū)已成為一個非常普遍的能得到產(chǎn)品指紋特征質(zhì)量指標(biāo)的測量方法。近紅外光譜(NIRS)技術(shù)是一種通過多元數(shù)據(jù)處理或其他化學(xué)計量學(xué)方法進(jìn)行建模預(yù)測的二次測量方法。作為一種二次測量方法，近紅外光譜分析技術(shù)的重現(xiàn)性和穩(wěn)健性非常依賴于統(tǒng)計建模過程，光譜數(shù)據(jù)的數(shù)學(xué)處理和基于適當(dāng)?shù)膮⒖挤椒ㄐ?zhǔn)使得化學(xué)成分或物理性質(zhì)可以通過近紅外光譜來確定。由于該方法的非入侵無損檢測形式和快速多指標(biāo)同時確定的特點，被廣泛地應(yīng)用于化學(xué)和生物領(lǐng)域的研究[1]。在化學(xué)領(lǐng)域的應(yīng)用過程中，由于大多數(shù)研究對象通常具有相對穩(wěn)定的成分構(gòu)成，不含或極少存在干擾雜質(zhì)成分，使得NIRS技術(shù)可以非常有效地取代很多傳統(tǒng)化學(xué)測量方法，極受化學(xué)分析工作者的關(guān)注，隨之產(chǎn)生了大量的關(guān)于該技術(shù)中數(shù)學(xué)算法的研究工作，使得NIRS的建模算法的發(fā)展極為迅速。由于生物和化學(xué)領(lǐng)域之間關(guān)系的緊密性，NIRS在生物領(lǐng)域的研究與應(yīng)用也非常廣泛，數(shù)據(jù)的分析建模算法也同樣有效，但是生物樣本的復(fù)雜性使得NIRS技術(shù)普遍地存在模型的選擇、失效、修正維護等問題。生物樣本與化學(xué)樣本之間存在本質(zhì)的差別，生物樣本具有高變異性、高離散性、低穩(wěn)定性、干擾成分未知和樣本采樣受限等特點，這是大多數(shù)化學(xué)樣本分析時不存在的問題[2]。最為關(guān)鍵的問題是，生物樣本的復(fù)雜性使得樣本和總體間的差異和變化總是存在的。實際上，樣本的復(fù)雜性通常意味著采樣信息的有限，即樣本與總體同分布假設(shè)這一條件未必滿足。信息不足是分析理論中灰色系統(tǒng)的典型特征，所以對于生物樣本這種由復(fù)雜性導(dǎo)致未知程度較高的近紅外光譜建模問題被梁逸曾教授稱為廣義灰色系統(tǒng)的建模問題[3-4]，其中“廣義”一詞的含義意指先驗信息非常少。本文以近紅外光譜小麥蛋白質(zhì)定量模型的樣本影響統(tǒng)計診斷為例，重點研究根據(jù)統(tǒng)計學(xué)習(xí)理論[5]和子模型信息進(jìn)行模型優(yōu)化。對于信息有限的灰色系統(tǒng)建模問題來講，在異常樣本識別后建立的模型更具健壯性。

1 原理

1.1 分析測量過程和統(tǒng)計學(xué)習(xí)

按照德國的分析化學(xué)家Danzer教授對分析測量過程的描繪，整個測量過程實際上是一個解決實際分析問題的全過程[6]，如圖1所示，其中1樣本預(yù)處理(制備)，2測量(操作)，3信號校驗，4評價/校正，5數(shù)據(jù)解釋與評價，6&7化學(xué)計量算法。該過程從采樣和選擇分析方法開始，經(jīng)過試驗設(shè)計、測量過程的控制和優(yōu)化、分析儀器所得信號的處理、數(shù)據(jù)的處理與分析，再到數(shù)據(jù)模型的評價解釋、分析結(jié)果的推斷統(tǒng)計、分析信息對研究目標(biāo)的解釋，直至最后對解決問題的決策信息的提取和確定。因此這種基于統(tǒng)計學(xué)習(xí)建模的推斷測量過程是一個相對復(fù)雜而內(nèi)涵極其豐富的高知識密度的技術(shù)系統(tǒng)，每個環(huán)節(jié)都涉及數(shù)學(xué)、物理、化學(xué)等學(xué)科或光、機、電、算等工程領(lǐng)域的相關(guān)知識。因此，可以認(rèn)為NIRS技術(shù)是一種通過各種層面的高知識密度集成技術(shù)，在數(shù)據(jù)及分析模型基礎(chǔ)上最大限度地獲取各種物理化學(xué)信息或生物信息的一種綜合性極高的現(xiàn)代測量技術(shù)方法。

圖1 Danzer提出的分析測量流程框圖

上述分析問題的過程可以被歸于統(tǒng)計學(xué)習(xí)理論范疇，其過程是一種研究訓(xùn)練樣本有限情況下的機器學(xué)習(xí)規(guī)律的學(xué)科。統(tǒng)計學(xué)習(xí)理論從一些觀測(訓(xùn)練)樣本出發(fā)，試圖得到一些目前不能通過原理進(jìn)行分析得到的規(guī)律(可精確表述的數(shù)學(xué)模型)，并利用這些規(guī)律來分析和解釋客觀對象，從而可以利用規(guī)律來對新的樣本或數(shù)據(jù)的較為準(zhǔn)確的推測。數(shù)學(xué)上可看作是基于經(jīng)驗數(shù)據(jù)進(jìn)行函數(shù)估計問題，或者說是在離散數(shù)據(jù)基礎(chǔ)上尋找近似的函數(shù)依賴關(guān)系。

一般來說，在基于大小為n的樣本集, 考慮逼近目標(biāo)函數(shù)的學(xué)習(xí)問題，可表示為：

設(shè)學(xué)習(xí)目標(biāo)函數(shù)f(x)∈D?RL，RL是L維歐幾里德(Euclid)空間。訓(xùn)練樣本由樣本點解釋數(shù)據(jù)xm和相對應(yīng)的樣本響應(yīng)數(shù)據(jù)值ym構(gòu)成，見式(1)

(1)

若θ是能決定學(xué)習(xí)結(jié)果的因素集合，則稱θ為樣本的模型參數(shù)。

(2)

經(jīng)驗風(fēng)險和實際風(fēng)險之間的關(guān)系可以用推廣的界來描述經(jīng)驗風(fēng)險，可以理解為經(jīng)驗誤差，也就是模型的訓(xùn)練誤差，那么實際風(fēng)險就可以理解為模型的實際誤差。實際誤差可以用模型的期望誤差來表示，根據(jù)VC維(vapnik-chervonenkis dimension)理論，可以得到一個經(jīng)驗誤差與實際誤差二者之差的上確界，

sup|Eexp-Eemp|=φ

即|Eexp-Eemp|≤φ

(3)

式(3)中Eexp是期望誤差,Eemp是經(jīng)驗誤差，通?？梢詫⑺竽Ｐ团c數(shù)據(jù)之間的擬合殘差作為經(jīng)驗誤差，φ是經(jīng)驗誤差的置信范圍。

1.2 基于子空間信息重采樣的期望誤差估計

(4)

(5)

1.3 基于隱變量的多元統(tǒng)計回歸建模方法

多重變量之間依賴關(guān)系的學(xué)習(xí)是多元數(shù)據(jù)統(tǒng)計分析中經(jīng)常遇到的問題。在灰色體系的光譜定量分析技術(shù)的建模過程中經(jīng)常存在所謂的變量選擇問題，即解釋變量數(shù)目多而樣本數(shù)目少，解釋變量之間存在多重共線性問題。隨著對此類問題的研究，基于隱變量的多元統(tǒng)計方法逐漸發(fā)展成為主流的建模手段。隱變量方法是將直接觀測變量通過協(xié)方差的分析轉(zhuǎn)變?yōu)樯贁?shù)的隱變量，隱變量可表示為原有觀測變量的線性組合。目前最為常用的就是偏最小二乘回歸(PLSR)法，PLSR是對樣本數(shù)據(jù)進(jìn)行“軟模型”建模的一種穩(wěn)健的統(tǒng)計分析方法，該方法在各種應(yīng)用領(lǐng)域中的用途都非常廣泛。當(dāng)解釋變量多且樣本個數(shù)少時，尤其是解釋變量遠(yuǎn)大于樣本個數(shù)，其他統(tǒng)計方法無法應(yīng)用時，該方法仍然相當(dāng)有效。PLSR核心環(huán)節(jié)是對協(xié)方差陣處理，該算法對數(shù)據(jù)的線性重構(gòu)和降維過程中主成分?jǐn)?shù)的選擇很大程度上等效于關(guān)鍵變量的選擇。因此，模型中的變量系數(shù)同時還具有變量權(quán)重的意義。所以采用PLSR方法時，關(guān)鍵變量選擇環(huán)節(jié)被主成分的確定環(huán)節(jié)所代替。對于大多數(shù)問題，留一驗證誤差的估計方法與PLSR配合使用能夠很好地克服PLSR經(jīng)驗誤差最小化的目標(biāo)優(yōu)化的過擬合問題。

2 谷物近紅外光譜測量系統(tǒng)及測量數(shù)據(jù)

2.1 谷物近紅外光譜測量系統(tǒng)

近紅外光譜技術(shù)最令人關(guān)注之處在于它可以直接對各種天然產(chǎn)品進(jìn)行快速無損檢測，因此在農(nóng)作物及產(chǎn)品的快速品質(zhì)評價領(lǐng)域得到了廣泛的重視和應(yīng)用。然而，直接對天然產(chǎn)品測試是它的優(yōu)點，也是技術(shù)上的難點，在保持自然顆粒狀態(tài)前提下準(zhǔn)確地得到光譜數(shù)據(jù)是對近紅外光譜技術(shù)的一項挑戰(zhàn)。在光譜采集過程中，顆粒樣品狀態(tài)、入射光束界面的穩(wěn)定性以及重復(fù)裝樣的隨機性等因素均對漫射測試有重要的影響。因此，對于近紅外漫射光譜采集，精巧合理的采集結(jié)構(gòu)是獲取高效穩(wěn)定的光譜數(shù)據(jù)的重要保障。

本工作采用了一種環(huán)帶分布式光纖采集結(jié)構(gòu)，對小麥樣本進(jìn)行漫透反射光譜數(shù)據(jù)的采集，耦合器效果如圖2所示。圖3則給出測試系統(tǒng)的3D圖和剖面圖。

圖2 環(huán)帶分布光纖束耦合器

圖3 近紅外光譜小麥蛋白質(zhì)定量分析系統(tǒng)

2.2 測量數(shù)據(jù)

通過樣本收集, 總共獲得了90種不同的小麥樣品。根據(jù)國家標(biāo)準(zhǔn)方法，分別檢測得到小麥的蛋白質(zhì)含量和水分含量。光譜數(shù)據(jù)是通過環(huán)帶光纖耦合器收集的漫透反射光導(dǎo)入近紅外光譜儀采集得到的, 光譜儀器采用的是Zeiss的MCS611系統(tǒng), 測試的譜段范圍為950～1 700 nm。漫透反射光譜和對應(yīng)的吸光度光譜曲線如圖4所示。漫透反射光譜公式表示為式(6)

Srtr(λ)=Srt(λ)/Sref(λ)

(6)

其中Srt(λ)是小麥樣品的漫透反射光譜，Sref(λ)是反射面的參考反射光譜。進(jìn)一步可以得到吸光度光譜，見式(7)

Sabs(λ)=log(1/Srtr(λ))=log(Sref(λ)/Srt(λ))

(7)

圖4 反射光譜(a)與光譜吸光度曲線(b)

3 異常樣本的統(tǒng)計診斷

3.1 異常樣本問題

對于近紅外光譜的小麥定量分析這類灰色系統(tǒng)建模問題，異常樣本識別或異常樣本影響分析是一個非常重要的環(huán)節(jié)。Bechman和Cook在1983年的報告中指出異常值可以被視為不協(xié)調(diào)點或雜質(zhì)點，統(tǒng)計意義是樣本數(shù)據(jù)與數(shù)據(jù)集主體明顯不協(xié)調(diào)，使研究者感到驚訝的數(shù)據(jù)點，其本質(zhì)是與樣本主體不是來自同一分布的數(shù)據(jù)[9]。異常樣本的識別與分析具有相當(dāng)?shù)碾y度，其實質(zhì)是統(tǒng)計學(xué)習(xí)中的邊緣問題(margin problem)。當(dāng)異常值顯著的時候，異常樣本與正常樣本在數(shù)據(jù)空間中相對較容易用一個邊界分割開，比較容易檢測出來。但是當(dāng)異常值與正常值之間的差別不顯著的時候，正常樣本的邊界就很難確定了。那么對于這種異常值與正常值之間差異很小，異常值個數(shù)不確定或相對較多(大于10%)時，異常樣本檢測就變得復(fù)雜了。異常樣本影響分析最常用的方法是數(shù)據(jù)刪除法(case deletion)，其核心思想是比較刪除數(shù)據(jù)點前后相關(guān)統(tǒng)計量的變化[10]。本文也是在以數(shù)據(jù)刪除法為基礎(chǔ)，利用子空間信息重采樣的思路，設(shè)計異常樣本識別算法。子空間信息重采樣是針對樣本采集有限信息不充足情況下的一種二次統(tǒng)計策略。重采樣的一個重要策略是蒙特卡洛(Monte Carlo，MC)策略，利用偽隨機算法在現(xiàn)有樣本集合中進(jìn)行重新抽樣來構(gòu)建新的樣本子集，建立子樣本信息空間。基于MC策略的算法主要需要3個參數(shù)，一是重采樣的樣本數(shù)目，二是重采樣次數(shù)，三是偽隨機生成算法。本文不采用這種方法的原因是，MC方法的目的是概率過程的構(gòu)造，對于樣本與總體同分布假設(shè)不作為前提條件的統(tǒng)計學(xué)習(xí)問題，構(gòu)造概率過程的意義不大。對于排中律破缺的問題，不必用頻率收斂于概率這種思想強行賦予問題一個概率意義，只需要在頻率概念的意義下用統(tǒng)計方法去分析即可。因此，本研究子樣本空間構(gòu)建的方法選擇了遍歷頻次統(tǒng)計策略，基于該策略的算法設(shè)計參數(shù)僅需要確定重采樣的樣本個數(shù)，因為對于遍歷頻次統(tǒng)計而言，對應(yīng)的重采樣次數(shù)等于樣本組合次數(shù)。

3.2 基于子空間信息重采樣策略的統(tǒng)計診斷

(8)

則總共需要考慮的子樣本集合的個數(shù)為式(9)所示

(9)

[89×(26-1)+22-1]×88+14=197 662，對應(yīng)樣本為26，22，14。

[89×(55-1)+26-1]×88+14=425 142，對應(yīng)樣本為55，26，14。

[89×(26-1)+15-1]×88+14=197 046，對應(yīng)樣本為26，15，14。

[89×(88-1)+26-1]×88+14=683 598，對應(yīng)樣本為88，26，14。

[89×(60-1)+26-1]×88+14=464 302，對應(yīng)樣本為60，26，14。

圖5 (a)第1輪3樣本刪除遍歷計算子模型擬合優(yōu)度；(b)第1輪異常值刪除后的校正解釋方差與驗證解釋方差的百分比曲線

Fig.5 (a) R-square of sub-model by 3 samples deletion ergodic calculation in the first round；(b) The interpretative percentage curves of calibration variance and validation variance after the first round outlier detection

可以確定14號和26號樣本是每一個強影響峰值處都存在的樣本，確定剔除。將刪除樣本后作為新的總樣本集合再次重復(fù)上述過程，圖5(a)和圖6(a)給出了首次和最后執(zhí)行的效果，圖5(b)和圖6(b)給出對應(yīng)的PLSR建模過程中的校正解釋方差和驗證解釋方差的百分比曲線，百分比曲線圖主要用于PLSR建模的主成分?jǐn)?shù)選取，可以通過閾值或斜率特征點(拐點等)來確定主成分?jǐn)?shù)。百分比曲線圖的另一個作用就是用來判斷異常樣本的存在性，當(dāng)驗證解釋方差與校正解釋方差的百分比曲線差存在顯著差異時可認(rèn)為存在異常樣本。所以從圖5(b)中可以看出，刪除14號和26號樣本后，驗證解釋方差與校正解釋方差的百分比曲線依然存在顯著分離。3樣本刪除分析重復(fù)執(zhí)行了6次直到驗證解釋方差與校正解釋方差的百分比曲線基本一致, 如圖6(b)中所示。

圖6 (a)第6輪3樣本刪除遍歷計算子模型擬合優(yōu)度；(b)第6輪異常值刪除后的校正解釋方差與驗證解釋方差的百分比曲線

Fig.6 (a) R-square of sub-model by 3 samples deletion ergodic calculation in the 6th round；(b) The interpretative percentage curves of calibration variance and validation variance after the 6th round outlier detection

上述過程中，一共執(zhí)行了6次3樣本刪除遍歷組合分析，根據(jù)子模型擬合優(yōu)度分布的強影響峰統(tǒng)計，每次可以刪除若干個頻次較高的異常樣本，最后一共選出了22個異常樣本。

3.3 異常樣本識別結(jié)果的分析與處理

對于很多簡單樣本的統(tǒng)計數(shù)據(jù)模型，異常樣本個數(shù)通常不會達(dá)到10%以上。但本研究中的異常樣本判別結(jié)果為22/90≈24%，主要原因如下：第一，小麥樣本收集的復(fù)雜性源自于小麥產(chǎn)地的嚴(yán)重分布不均，有些省份有幾十種小麥，而某些省份則可能僅有兩三種。對于這種全國范圍內(nèi)的高生長條件差異，必然會造成樣本分布上的復(fù)雜性。第二，近紅外定量分析建模的目標(biāo)成分是小麥的蛋白質(zhì)含量，蛋白質(zhì)是一大類含氮元素有機分子的總稱，目標(biāo)成分本身的化學(xué)鍵對應(yīng)圖譜的特異性就相對不高。第三，本底成分受環(huán)境影響大也增加了數(shù)據(jù)的干擾變異，使得樣本的變異性很強。

從異常樣本剔除后建立的模型來看，模型的校正及驗證擬合優(yōu)度(R方)均高于0.95，RMSEC和RMSEV分別為0.148 1和0.209 9。

圖7 (a)異常樣本刪除后的模型預(yù)測效果；(b)異常樣本與正常樣本以1∶2權(quán)重進(jìn)行重采樣后的模型預(yù)測效果

Fig.7 (a) Modeling after outlier deleted；(b) Modeling by 1∶2 resampling between outlier and normal sample

用剔除22個異常樣本之后的68個樣本建模，再對全部90個樣本進(jìn)行預(yù)測，可以得到如圖7(a)所示的模型的預(yù)測值與實際值的擬合圖。從圖中可以看出，所判別出的22個異常樣本有7個樣本處于3倍標(biāo)準(zhǔn)差線之外，14個樣本處于2倍標(biāo)準(zhǔn)差線與3倍標(biāo)準(zhǔn)差線之間。1個異常樣本處于標(biāo)準(zhǔn)差以內(nèi)。3倍標(biāo)準(zhǔn)差線之外的7個樣本同樣也符合拉依達(dá)判據(jù)，可以認(rèn)為是顯著的離群樣本，7/90≈7.8%。處于2倍標(biāo)準(zhǔn)差線與3倍標(biāo)準(zhǔn)差線之間的14個樣本是相對離群的樣本，14/90≈15.6%。處于標(biāo)準(zhǔn)差以內(nèi)的1個樣本可以認(rèn)為是潛異常樣本，該情況可能是由于該樣本與其他異常樣本之間具有矢量合作效應(yīng)而由組合刪除過程中被識別為異常樣本。

根據(jù)上述分析的過程及結(jié)果來看，異常樣本的唯一特性就是離群性，即屬于樣本集合中的少數(shù)派。異常樣本的識別實際上是需要根據(jù)各種樣本分布統(tǒng)計量進(jìn)行二次定義，在生成的分布空間中，以特定的界分割并提取出幾何化邊緣的少數(shù)樣本。以樣本刪除子模型的擬合優(yōu)度作為統(tǒng)計量分析的意義在于能夠直接反映樣本對建模的影響，或者說直接根據(jù)樣本對建模的影響來定義樣本的異常程度，這樣對于異常樣本的處理也具有非常明確的指示性。

異常樣本被判別出來以后處理方法通常采用樣本權(quán)重處理，通過可重復(fù)重成樣即可簡單的調(diào)整樣本權(quán)重。由圖7(b)給出異常樣本與正常樣本的1∶2重采樣建模效果。從建模效果中可以看出，異常樣本與正常樣本對建模呈現(xiàn)出兩種影響。從預(yù)測值與實際值的擬合圖來看，正常樣本表現(xiàn)為分布相對于集中在斜率為1的擬合中線附近，異常樣本則遠(yuǎn)離擬合中線。正常樣本所產(chǎn)生的作用是將異常樣本拉向擬合中線，降低數(shù)據(jù)的離散性，而異常樣本則將正常樣本向擬合中線的兩側(cè)拉開，使得數(shù)據(jù)的離散性更大。那么無論是剔除異常樣本建模還是調(diào)整樣本權(quán)重建模，目的都是使定量分析模型的預(yù)測結(jié)果更傾向于樣本中的多數(shù)派，減少或消除樣本中少數(shù)派的影響。

4 結(jié) 論

由于小麥樣品來自全國各種不同地理生長條件的地區(qū), 即樣本集具有生物樣本的復(fù)雜性, 樣本收集可能不符合相同分布的假設(shè), 因此對于生物樣本建模, 異常樣本分析就顯得非常重要。對于異常樣本的存在性，本文是以PLSR算法的隱變量建模中校正方差與驗證方差解釋百分比曲線的背離特性作為判斷依據(jù)，當(dāng)兩個百分比曲線具有顯著的偏離或偏離點時，則認(rèn)為樣本中存在異常樣本或樣本模式異常，異常樣本已經(jīng)顯著對建模產(chǎn)生影響。通過在樣本刪除法基礎(chǔ)上進(jìn)行子模型遍歷統(tǒng)計，能夠漸次識別并提取出異常樣本，根據(jù)樣本的離群程度，異常樣本也可以分為顯著離群樣本，相對離群樣本以及潛在離群樣本。無論模型上刪除異常值或降低異常樣本的權(quán)重，目的均是傾向于使多數(shù)樣本的定量分析模型預(yù)測結(jié)果得到改善，減少或消除異常值對多數(shù)樣本預(yù)測值離散性的影響。因此, 進(jìn)行異常樣本刪除建?；驑颖緳?quán)重調(diào)整建?？梢杂行Э刂飘惓颖舅鸬慕?jīng)驗誤差風(fēng)險，一定程度上降低由于高變異特性而產(chǎn)生的異常樣本的干擾，提高模型對多數(shù)樣本的解釋性。

[1] CHU Xiao-li, LU Wan-zhen(褚小立, 陸婉珍). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(10)： 2595.

[2] HAO Yong, CAI Wen-sheng, SHAO Xue-guang(郝勇, 蔡文生, 邵學(xué)廣), Chemical Journal of Chinese Universities(高等學(xué)校化學(xué)學(xué)報), 2009, 30： 28.

[3] LIANG Yi-zeng, XU Qing-song(梁逸曾, 徐青松). Instrumental Analysis of Complex Systems ——White, Gray and Black Analytical Systems and Their Multivariate Methods(復(fù)雜體系儀器分析——白、灰、黑分析體系及其多變量解析方法). Beijing: Chemical Industry Press(北京：化學(xué)工業(yè)出版社), 2012.

[4] LI Hongdong, Liang Yizeng, Cao Dongsheng, et al. Trac Trends in Analytical Chemistry, 2012, 38(9): 154.

[5] Vladimir N Vapnik. Statistical Learning Theory. New York: Wiley-Interscience, 1998.

[6] Klaus Danzer. Analytical Chemistry: Theoretical and Metrological Fundamentals. New York： Springer-Verlag Berlin Heidelberg Press, 2007.

[7] Tomaso Poggio, Ryan Rifkin, Sayan Mukherjee, et al. Nature，2004, 428： 419.

[8] Deng Baichuan, Yun Yonghuan, Liang Yizeng. Chemometrics and Intelligent Laboratory Systems, 2015, 149: 166.

[9] Beckman R J，Cook R D. Technometrics, 1983, 25(2): 119.

[10] BAI Wen-liang, ZHANG Jun, GAN Feng, et al. Computers and Applied Chemistry(計算機與應(yīng)用化學(xué))，2010, 27(11)： 1476.

(Received Aug. 5, 2015; accepted Dec. 21, 2015)

*Corresponding author

Study on Outliers Influence in NIR Quantitative Analysis Model

ZHENG Feng1，LIU Li-ying1，LIU Xiao-xi2，LI Ye1，SHI Xiao-guang1，ZHANG Guo-yu1，HUAN Ke-wei1*

1. Changchun University of Science and Technology, Changchun 130022, China 2. Institute of Scientific and Technical Information in Jilin Province, Changchun 130000, China

As a secondary analysis method, reproducibility and reliability of near-infrared spectroscopy (NIRS) quantitative analysis are quite dependent on modelling process. In this paper，it is focused on outlier analysis for protein quantitative model of wheat based on NIRS. The purpose is to discuss the outlier effect in modelling process of complex sample set. The indicator of outliers is the deviation between two interpretative percentage curves in partial least squares regression (PLSR) modelling, when two percentage curves have significant deviation or departure point, the sample set should include the outliers. The innovative research work is the analysis and treatment of outliers. On the basis of sub-model ergodic calculation method, outliers can be gradually identified and picked-up. The standard deviation of model’s prediction residual is used as the reference graduation to distinguish the degree of deviation. According to the degree of deviation from sample population, outliers can also be divided into significant outliers, relative outliers and potential outliers. In this paper, the significant outliers of the sample set are about 7.8%, and the relative outliers are about 15.6%. The outliers will pull normal samples apart from the ideal fitting line and make the dispersity increase. No matter modelling with removed outliers or weighted samples, the purpose is to make the fitting results of quantitative analysis modelling more inclined to majority samples, while reducing or eliminating the impact of outliers.

Near infrared spectroscopy; Outlier analysis; Gray system; Sub-model population learning

2015-08-05，

2015-12-21

2014年度國家公益性行業(yè)(氣象)科研專項課題(GYHY201406037)，2011年高等學(xué)校博士學(xué)科點專項科研基金聯(lián)合資助項目(20112216110006)資助

鄭峰，1981年生，長春理工大學(xué)博士研究生 e-mail: feng1214@126.com *通訊聯(lián)系人 e-mail: huankewei@126.com

O657.3

10.3964/j.issn.1000-0593(2016)11-3523-07

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

近紅外光譜定量分析模型的樣本影響研究

引 言

1 原 理

2 谷物近紅外光譜測量系統(tǒng)及測量數(shù)據(jù)

3 異常樣本的統(tǒng)計診斷

4 結(jié) 論

引言

1 原理