靳召晰、張秀娟、羅付義、安 冬,3*、趙盛毅、冉 航、嚴(yán)衍祿
1. 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院、北京 100083 2. 山東省德州市農(nóng)業(yè)局、山東 德州 253016 3. 農(nóng)業(yè)部農(nóng)業(yè)信息獲取技術(shù)重點(diǎn)實(shí)驗(yàn)室、北京 100083
近紅外光譜建模樣本選擇方法研究
靳召晰1、張秀娟2、羅付義2、安 冬1,3*、趙盛毅1、冉 航1、嚴(yán)衍祿1
1. 中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院、北京 100083 2. 山東省德州市農(nóng)業(yè)局、山東 德州 253016 3. 農(nóng)業(yè)部農(nóng)業(yè)信息獲取技術(shù)重點(diǎn)實(shí)驗(yàn)室、北京 100083
針對(duì)小麥品種多分類問(wèn)題、使用近紅外光譜進(jìn)行定性分析。建模樣本增加能夠使模型包含信息增多、但同時(shí)也會(huì)導(dǎo)致信息冗余、增加建模時(shí)間和存儲(chǔ)空間、所以需要通過(guò)樣本選擇降低數(shù)據(jù)量。如果盲目選擇必然會(huì)使信息丟失、模型效果將大打折扣、因此、在傳統(tǒng)選擇方法基礎(chǔ)上、提出k近鄰-密度樣本選擇方法。使用多天采集的小麥種子近紅外漫反射光譜、在對(duì)其原始光譜進(jìn)行預(yù)處理和特征提取后、分別使用隨機(jī)抽樣、k近鄰和k近鄰-密度三種方法進(jìn)行建模樣本選擇、然后建立仿生模式識(shí)別模型和改進(jìn)的仿生模式識(shí)別模型。實(shí)驗(yàn)結(jié)果顯示、在建立的仿生模式識(shí)別模型中、使用k近鄰-密度樣本選擇方法的模型識(shí)別效果優(yōu)于另兩種方法、且建模樣本量大大降低; 而在改進(jìn)的仿生模式識(shí)別模型中、使用k近鄰-密度樣本選擇方法識(shí)別效果明顯優(yōu)于隨機(jī)抽樣、略好于k近鄰方法、但使用k近鄰-密度方法所選擇的樣本數(shù)量遠(yuǎn)少于k近鄰方法。結(jié)果證明k近鄰-密度樣本選擇方法不僅能夠大大降低建模樣本量、而且保證了模型質(zhì)量、對(duì)解決小麥品種多分類問(wèn)題有明顯效果。
小麥; 近紅外光譜; 定性分析; 樣本選擇
近紅外光譜分析是利用近紅外譜區(qū)包含的物質(zhì)信息、對(duì)有機(jī)物質(zhì)進(jìn)行定性和定量分析的一種分析技術(shù)、兼?zhèn)淞丝梢?jiàn)光區(qū)光譜分析信號(hào)容易獲取和紅外區(qū)光譜分析信息量豐富的兩方面優(yōu)勢(shì)?,F(xiàn)代近紅外光譜分析是從農(nóng)業(yè)分析開(kāi)始的、由于近紅外光譜幾乎可以分析所有與含氫基團(tuán)有關(guān)樣品的物理性質(zhì)和化學(xué)性質(zhì)、被稱為“具有解決全球農(nóng)業(yè)分析的潛力”[1]。隨著光學(xué)技術(shù)、計(jì)算機(jī)技術(shù)和電子技術(shù)等現(xiàn)代科技的進(jìn)步、現(xiàn)代近紅外光譜分析技術(shù)逐漸發(fā)展并呈現(xiàn)出被廣泛運(yùn)用的趨勢(shì)。
近紅外光譜分析的關(guān)鍵是建立預(yù)測(cè)效果優(yōu)秀的數(shù)學(xué)模型、而數(shù)學(xué)模型對(duì)樣品的預(yù)測(cè)效果取決于建立模型時(shí)所用的數(shù)據(jù)[1]。隨著信息科技時(shí)代的來(lái)臨、我們需要處理的是海量高維的數(shù)據(jù)、當(dāng)數(shù)據(jù)的數(shù)量及所包含的信息日益增多時(shí)、如何從中提取有效信息加以利用是我們面對(duì)的問(wèn)題。近紅外光譜的數(shù)學(xué)模型并不是使用的樣本數(shù)越多越好、隨著建模樣本數(shù)的增加、模型中所引入的干擾因素及異常誤差就會(huì)增多、過(guò)多的干擾信息會(huì)掩蓋有用信息、降低模型性能[2]; 同時(shí)、大量相似、冗余的數(shù)據(jù)會(huì)大大增加建模運(yùn)算量、進(jìn)而增加建模時(shí)間和儲(chǔ)存空間。本工作所使用的小麥種子每個(gè)品種都有來(lái)自不同產(chǎn)地的多份樣品、信號(hào)復(fù)雜。所以、需要在保證模型性能的前提下、從大量可用的數(shù)據(jù)中選取具有代表性的建模樣本。
隨著近紅外光譜樣本選擇越來(lái)越受到重視、其相應(yīng)的研究也逐年增加。張其可等基于主元分析(principle component analysis,PCA)殘差、在同類就近取樣的基礎(chǔ)上引入異常光譜剔除技術(shù)進(jìn)行訓(xùn)練樣本的二次提取、建立偏最小二乘模型、用于近紅外校正模型的訓(xùn)練樣本選擇、能夠有效剔除異常光譜[3]; 高學(xué)金等提出一種樣本相似度度量方法、將親和度引入到加權(quán)歐氏距離中并轉(zhuǎn)化成相似度度量函數(shù)、應(yīng)用到相似樣本選擇中、該方法有效增強(qiáng)了模型的泛化能力、并縮短預(yù)測(cè)時(shí)間[4]; 祝詩(shī)平等提出“二審”算法、采用“回收”算子將錯(cuò)判的異常樣本保留、通過(guò)增加樣本量使模型更具代表性和穩(wěn)定性[5]。針對(duì)本實(shí)驗(yàn)室實(shí)驗(yàn)需求、及實(shí)驗(yàn)獲取樣本的大量復(fù)雜等特點(diǎn)、我們提出k近鄰-密度樣本選擇方法、有效選擇建模樣本。下面對(duì)不同算法進(jìn)行具體介紹。
1.1 基于統(tǒng)計(jì)抽樣的方法
抽樣是統(tǒng)計(jì)學(xué)中一種常用的調(diào)查方法、從全體調(diào)查對(duì)象中按照一定的方法抽取一部分進(jìn)行調(diào)查、然后根據(jù)樣本數(shù)據(jù)對(duì)總體目標(biāo)進(jìn)行評(píng)估。抽樣調(diào)查是一種從所有研究對(duì)象中抽取一部分進(jìn)行調(diào)查并對(duì)全體研究對(duì)象做出估計(jì)和推斷的非全面調(diào)查方法[6]。它按照隨機(jī)原則抽取樣本、每一部分樣本都有被抽取的概率。它具有降低成本、節(jié)約時(shí)間、正確性高及適用范圍廣等優(yōu)勢(shì)。隨著大規(guī)模數(shù)據(jù)采集應(yīng)用的普遍、抽樣思想被引入到模式分類、聚類分析和數(shù)據(jù)挖掘中、以達(dá)到高效分析處理數(shù)據(jù)的目的[7]。
1.2 基于最近鄰的方法
這類方法始于上世紀(jì)六七十年代、在最近鄰分類器被提出后陸續(xù)出現(xiàn)了一些基于最近鄰編輯規(guī)則(nearest neighbor editing rules)的樣本選擇方法。這些方法大都參考了樣本分布“同類相聚、異類相離”的假定?;谧罱徱?guī)則的樣本選擇方法注重于對(duì)噪聲的剔除及分類邊界的取舍、優(yōu)化了樣本分類能力。
1.3 基于密度的方法
基于密度的方法主要是以d1為半徑計(jì)算每個(gè)樣本的密度并進(jìn)行排序、然后根據(jù)需求進(jìn)行樣本刪除、密度函數(shù)和d1的選取是經(jīng)驗(yàn)值[8]、需要在不同場(chǎng)合適當(dāng)進(jìn)行調(diào)整改進(jìn)。
參考前人的研究和幾種經(jīng)典方法、提出k近鄰-密度樣本選擇方法、該方法分為基于k近鄰樣本選擇和按密度進(jìn)行選擇兩個(gè)步驟(圖1)、具體實(shí)現(xiàn)過(guò)程如下。
圖1 建模樣本選擇步驟
1)基于k近鄰的樣本選擇
在這一過(guò)程中、首先將建模樣本進(jìn)行k-means聚類、以聚類中心作為新的建模樣本、根據(jù)Prim(普利姆)算法[10]構(gòu)建最小生成樹(shù)、作為模型構(gòu)網(wǎng)點(diǎn)、然后根據(jù)k近鄰法則循環(huán)剔除樣本。步驟如圖2所示。
2)按樣本密度進(jìn)行選擇
第1)步能夠有效剔除離群點(diǎn)、但對(duì)于質(zhì)量良好的樣本數(shù)據(jù)并不能有效較少數(shù)據(jù)量、所以根據(jù)密度篩選原則對(duì)建模樣本進(jìn)行二次選擇。
圖2 基于k近鄰的樣本選擇流程圖
圖3 按密度進(jìn)行樣本選擇二維示意圖
(1)計(jì)算相關(guān)距離
計(jì)算每?jī)蓚€(gè)樣本點(diǎn)之間的相關(guān)距離、并找出最大距離dmax(假設(shè)為樣本a和樣本b之間的距離)和最小距離dmin(假設(shè)為樣本a和樣本c之間的距離)。
(2)密度篩選
將dmax與dmin的差值part等分、即
everypart=(dmax-dmin)/part
(1)
然后以樣本a或樣本b為球心、以dmin為基礎(chǔ)半徑、everypart為增量等間隔增加做球、即半徑
rn=dmin+everypart×n
(2)
其中、n為從0到part的自然數(shù)。
最后按梯度選擇每?jī)蓚€(gè)相鄰球之間的樣本。
3.1 儀器與樣品
實(shí)驗(yàn)所用光譜均使用聚光科技有限公司的SupNir-2720漫反射式谷物分析儀采集、譜區(qū)范圍:1 000~1 799 nm、實(shí)驗(yàn)分析軟件使用Matlab R2014a。
實(shí)驗(yàn)樣品使用山東良星種業(yè)有限公司提供的3個(gè)品種不同產(chǎn)地的共13份小麥樣品、具體信息如表1所示。光譜測(cè)量時(shí)、將小麥種子裝進(jìn)樣品池、并使表面均勻以避免差異、每次每個(gè)品種采集10條光譜、所采集到的光譜質(zhì)量良好。部分近紅外漫反射原始光譜如圖4所示。
3.2 光譜預(yù)處理和特征提取
小麥種子真實(shí)性鑒定模型系統(tǒng)框架如圖5所示。
表1 小麥樣品信息表
注:建模集使用光譜為20次采集得到、測(cè)試集光譜為與建模集間隔40天后分11次采集所得
Note:The spectra of the modeling set is collected in 20 times,the spectra of the test set 1 s collected in 11 times,and the collect time interval
光譜預(yù)處理使用平均窗口平滑(smoothing,SM)、一階差分求導(dǎo)(first derivative,FD)和均值中心化(mean center,MC)處理方法、以達(dá)到去除噪聲和背景干擾、提高光譜分辨率及消除多重共線性等目的。光譜的特征提取使用偏最小二乘(partial least squares,PLS)和線性判別分析(linear discriminant analysis,LDA)。
3.3 建立識(shí)別模型
使用仿生模式識(shí)別和經(jīng)過(guò)改進(jìn)的仿生模式識(shí)別分別建立識(shí)別模型、驗(yàn)證樣本選擇的有效性。
3.3.1 仿生模式識(shí)別(biomimetic pattern recognition,BPR)
仿生模式識(shí)別理論是王守覺(jué)院士于2002年提出的一種新的模式識(shí)別理論、與傳統(tǒng)模式識(shí)別不同的是、BPR是基于對(duì)每一類事物的的“認(rèn)識(shí)”、而不是劃分; 同時(shí)它引入了同類樣本之間存在的某些普遍聯(lián)系、利用這種規(guī)律性建立了“多維空間中非超球復(fù)雜幾何形體覆蓋”的識(shí)別原理。其理論分析數(shù)學(xué)工具正是點(diǎn)集拓?fù)鋵W(xué)中對(duì)高維流形的研究問(wèn)題、這與傳統(tǒng)模式識(shí)別的數(shù)學(xué)工具也有根本的差別。因此、仿生模式識(shí)別也稱為拓?fù)淠J阶R(shí)別[9]。
圖5 小麥種子真實(shí)性鑒定模型系統(tǒng)框架
3.3.2 改進(jìn)的仿生模式識(shí)別(biomimetic pattern recognition improved,BPRI)
基本的仿生模式識(shí)別算法會(huì)對(duì)每一個(gè)模型訓(xùn)練一個(gè)半徑、然后根據(jù)半徑判別測(cè)試樣品歸屬。在此基礎(chǔ)上、通過(guò)N近鄰方式、找出N個(gè)與模型的最小距離、然后投票選出測(cè)試樣本最終歸屬。這種方式不單單只依靠模型半徑、改善了測(cè)試樣本異常對(duì)結(jié)果的影響、增加了結(jié)果可靠性。
4.1 數(shù)據(jù)和評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中、建模樣本使用20次采集到的13份樣品各200條光譜數(shù)據(jù)、測(cè)試集樣本使用時(shí)間間隔40天后采集到11次數(shù)據(jù)。使用正確識(shí)別率(correct acceptance rate,CAR)、正確拒識(shí)率(crrect rejection rate,CRR)和偏離度來(lái)對(duì)模型性能進(jìn)行評(píng)價(jià)。
(3)
(4)
(5)
其中、類內(nèi)距離為同一種類測(cè)試集平均光譜和建模集平均光譜之間的歐氏距離、類間距離為建模集不同品種平均光譜之間歐氏距離的平均值。
對(duì)系統(tǒng)性能而言、正確識(shí)別率和正確拒識(shí)率都是越高越好、而偏離度則是越小越好、其說(shuō)明所選擇的建模樣本代表性越高、測(cè)試集和訓(xùn)練集數(shù)據(jù)的差別越小。實(shí)驗(yàn)中將三者均作為系統(tǒng)優(yōu)化目標(biāo)。
4.2 樣本選擇結(jié)果
在使用BPR和BPRI兩種識(shí)別方法建立模型前、分別用隨機(jī)抽樣、k近鄰樣本選擇和k近鄰-密度樣本選擇三種方法對(duì)建模樣本進(jìn)行選擇、然后對(duì)測(cè)試集進(jìn)行測(cè)試、統(tǒng)計(jì)平均識(shí)別率、拒識(shí)率和偏離度、從而比較三種樣本選擇方法的有效性。實(shí)驗(yàn)結(jié)果如圖6和圖7所示。
圖6 BPR建模結(jié)果統(tǒng)計(jì)
從圖6和圖7可以看出、使用BPR作為識(shí)別方法時(shí)k近鄰-密度樣本選擇后測(cè)試集的平均識(shí)別率和拒識(shí)率最高(除不進(jìn)行樣本選擇外)、偏離度最小、即識(shí)別效果最好、優(yōu)于k近鄰樣本選擇、隨機(jī)抽樣效果最差; 以BPRI作為識(shí)別方法結(jié)果相同、而且以k近鄰-密度方法進(jìn)行樣本選擇后識(shí)別效果略好于不進(jìn)行樣本選擇。同時(shí)從表1來(lái)看、雖然以k近鄰作為樣本選擇方法的模型識(shí)別效果只是稍稍低于k近鄰-密度樣本選擇方法、但后者使樣本量大大降低、約為原始樣本量的三分之一。
圖7 BPRI建模結(jié)果統(tǒng)計(jì)
表2 不同樣本選擇方法選擇后的樣本數(shù)量
綜合實(shí)驗(yàn)結(jié)果表明、以k近鄰-密度作為樣本選擇方法所建立的模型識(shí)別效果明顯優(yōu)于隨機(jī)抽樣、略好于k近鄰方法、但其建模樣本量遠(yuǎn)少于k近鄰所選擇的樣本。當(dāng)建模樣本品種較多時(shí)、該方法不僅能夠有效光滑樣本邊緣而且能夠在不影響樣本覆蓋的前提下刪除冗余樣本、從而保證了模型質(zhì)量。
對(duì)于多品種的小麥種子漫反射近紅外光譜、在對(duì)原始光譜進(jìn)行平滑(SM)、一階導(dǎo)(FD)、中心化(MC)預(yù)處理、偏最小二乘(PLS)和線性判別分析(LDA)特征提取后、分別以隨機(jī)抽樣、k近鄰和k近鄰-密度作為樣本選擇方法建立仿生模式識(shí)別和改進(jìn)后的仿生模式識(shí)別兩種模型、比較、模型平均識(shí)別率、平均拒識(shí)率和偏離度。實(shí)驗(yàn)結(jié)果表明、以k近鄰-密度作為樣本選擇方法建立的仿生模式識(shí)別或改進(jìn)后的仿生模式識(shí)別模型不僅能夠大大降低建模數(shù)據(jù)量、而且保證模型質(zhì)量不受損失、甚至略有提高、綜合效果優(yōu)于另外兩種方法。
[1] YAN Yan-lu,ZHAO Long-lian,HAN Dong-hai,et al(嚴(yán)衍祿,趙龍蓮,韓東海,等). Foundation and Application of Near-Infrared Spectroscopy Analysis(近紅外光譜分析基礎(chǔ)與應(yīng)用). Beijing:China Light Industry Press(北京:中國(guó)輕工業(yè)出版社)、2005.
[2] LIU Xu-ping,HU Chang-qin,TIAN Ke-ren,et al(劉緒平,胡昌勤,田克仁,等). Chinese Journal of Pharmaceutical Analysis(藥物分析雜志)、2010,30(7): 1340.
[3] ZHANG Qi-ke,DAI Lian-kui(張其可,戴連奎). Chinese Journal of Sensors and Actuators(傳感技術(shù)學(xué)報(bào)),2006,19(4):1190.
[4] GAO Xue-jin,GENG Ling-xiao,XUE Pan-na,et al(高學(xué)金,耿凌霄,薛攀娜、等). Chinese Journal of Scientific Instrument(儀器儀表學(xué)報(bào))、2015,36(2): 401.
[5] ZHU Shi-ping,WANG Yi-ming,ZHANG Xiao-chao,et al(祝詩(shī)平,王一鳴,張小超,等). Transactions of the Chinese Society for Agricultural Machinery(農(nóng)業(yè)機(jī)械學(xué)報(bào))、2004,35(4): 115.
[6] LIU Li,WANG Chun-zhi(劉 麗,王春枝). Software Guide(軟件導(dǎo)刊),2008,7(7): 97.
[7] ZHANG Chun-yang,ZHOU Ji-en,QIAN Quan,et al(張春陽(yáng),周繼恩,錢(qián) 權(quán),等). Computer Science(計(jì)算機(jī)科學(xué)),2004,31(2): 127,141.
[8] ZHANG Li,GUO Jun(張 莉,郭 軍). Journal of Beijing University of Posts and Telecommunications(北京郵電大學(xué)學(xué)報(bào)),2006,29(4): 77.
[9] WANG Shou-jue(王守覺(jué)). Acta Electronica Sinica(電子學(xué)報(bào)),2002,30(10): 1417.
[10] HU Zhi-qin(虎治勤). Computer Knowledge and Technology(電腦知識(shí)與技術(shù)),2011,7(27): 6711.
*Corresponding author
Study of Modeling Samples Selection Method Based on Near Infrared Spectrum
JIN Zhao-xi1,ZHANG Xiu-juan2,LUO Fu-yi2、AN Dong1,3*,ZHAO Sheng-yi1,RAN Hang1,YAN Yan-lu1
1. College of Information and Electrical Engineering,China Agricultural University,Beijing 100083,China 2. Dezhou Municipal Bureau of Agriculture,Dezhou 253016,China 3. Key Laboratory of Agricultural Information Acquisition Technology (Beijing),Ministry of Agriculture,Beijing 100083,China
For more wheat varieties classification problem,we use near infrared spectrumto do qualitative analysis. Increasing the size of modeling sample could increase information of the model,however,at the same time,it also makes information redundancy so that modeling time and storage space will increase,thus,we need to decrease the size of modeling sample though selecting them. Some information must be lost and the effects of the model must be worse if we select samples blindly. We put forward theknearest neighbor-density sample selection based on the traditional selection methods. Experiments use the near infrared diffuse reflection spectrum of wheat seed from lots of days. First,we use preprocessing and feature extraction to deal with the wheat original spectrum,then select modeling sample by three methods that are random sampling,knearest neighbor andknearest neighbor-density,finally,we establish the models of BPR(Biomimetic Pattern Recognition) and BPRI(Biomimetic Pattern Recognition Improved). The experimental results show that in the model of BPR we get the best results using the selection method ofknearest neighbor-density,especially it also decreases the size of modeling sample deeply,and in the model of BPRI the results using the selection method ofknearest neighbor-density are much better than random sampling and a little better thanknearest neighbor,but in the meanwhile the size of modeling sample using the selection method ofknearest neighbor-density are much smaller thanknearest neighbor. The experimental results prove that the sample selection method ofknearest neighbor-density can not only greatly reduce the modeling sample size,and ensure the quality of the model,it has obvious effect on varieties classification problem of wheat.
Wheat; Near infrared spectroscopy; Qualitative analysis; Modeling samples selection
Sep. 15,2015; accepted Jan. 23,2016)
2015-09-15、
2016-01-23
國(guó)家重大科學(xué)儀器設(shè)備開(kāi)發(fā)專項(xiàng) 光柵型近紅外分析儀及其共用模型開(kāi)發(fā)和應(yīng)用項(xiàng)目(2014YQ470377)、大北農(nóng)青年學(xué)者研究計(jì)劃項(xiàng)目(1081-2413001)、國(guó)家科技支撐計(jì)劃項(xiàng)目(2014BAD23B00)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(2015XD001)資助
靳召晰、女、1993年生、中國(guó)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院碩士研究生 e-mail: jzx@cau.edu.cn *通訊聯(lián)系人 e-mail: anclear@gmail.com; andong@semi.ac.cn
O657.33
A
10.3964/j.issn.1000-0593(2016)12-3920-06