張哲宇, 李耀翔,王志遠(yuǎn),李春旭
東北林業(yè)大學(xué)工程技術(shù)學(xué)院,黑龍江 哈爾濱 150040
木材密度可以很好地表征木材的干縮性、 抗壓抗拉強(qiáng)度等物理性質(zhì),同時(shí)還是確定加工價(jià)值與工藝需求的重要因素,是提高木材利用率中應(yīng)重點(diǎn)研究的木材材性之一[1-2],準(zhǔn)確、 實(shí)時(shí)地估算木材密度對(duì)木材材性預(yù)測及合理造材具有重要意義。近紅外光譜技術(shù)是一種快速、 無損的檢測技術(shù)[3-4],在近紅外定量預(yù)測過程中,所采集的樣本數(shù)據(jù)可能存在因人為因素或儀器因素出現(xiàn)的奇異樣本或偏離整體的強(qiáng)影響樣本,這些異常樣本會(huì)帶偏模型預(yù)測的方向,使模型預(yù)測結(jié)果變得不可靠[5]。因此有必要在近紅外建模過程中剔除上述異?,F(xiàn)象,以提高模型的精度。目前常用的剔除光譜異常樣本的方法包括:蒙特卡洛交互驗(yàn)證[6],馬氏距離[7],杠桿值檢驗(yàn)[8]及光譜殘差檢驗(yàn)[9]等。近年來新方法也層出不窮,尹寶全等提出一種聯(lián)合光譜數(shù)據(jù)X與組分信息Y的ODXY異常樣本剔除算法,通過對(duì)羊肉近紅外樣本的異常剔除,證明該算法能很好地提高模型的泛化能力[10]。Brownfield等將排序差異和算法(sum of ranking differences, SRD)與Procrustes分析相結(jié)合,通過同時(shí)跨窗口評(píng)估光譜與組分的異常值,調(diào)整參數(shù)值來提高異常檢測的效率和準(zhǔn)確率[11]。以上方法雖然可以有效識(shí)別異常樣本,但大多受經(jīng)驗(yàn)閾值或建模偏差的影響,容易在建模前的剔除過程中出現(xiàn)誤判,且對(duì)復(fù)雜樣品的異常樣本剔除能力相對(duì)較差,從而降低了模型的泛化能力及準(zhǔn)確性。
孤立森林算法(isolation forest,iForest)在統(tǒng)計(jì)學(xué)領(lǐng)域被廣泛應(yīng)用于識(shí)別高維復(fù)雜數(shù)據(jù)的異常值,其認(rèn)為特征空間中異常樣本是孤立的,可以選取子樣本,使用隨機(jī)超平面構(gòu)建孤立樹iTree,遞歸地連續(xù)分割數(shù)據(jù)集,其中正常樣本需要分割到孤立樹較深層的葉子節(jié)點(diǎn),需要較長的分割路徑,而異常樣本靠近孤立樹根節(jié)點(diǎn),只需較短的分割路徑就能孤立出來。孤立森林算法不假設(shè)樣本與背景空間的概率分布,是一種采用特征集成方法的無監(jiān)督異常檢測方法。目前孤立森林算法已開始應(yīng)用于高光譜影像的異常識(shí)別[12-13]等方面。
近紅外光譜數(shù)據(jù)的高維性及復(fù)雜性,在一定程度上限制了其建模精度及普及性,將孤立森林算法應(yīng)用于近紅外光譜數(shù)據(jù)將會(huì)大大提高數(shù)據(jù)分析的有效性,但是在實(shí)際應(yīng)用中也遇到兩個(gè)主要問題,其一近紅外光譜譜峰重疊嚴(yán)重,且各個(gè)波段共線性強(qiáng),采用孤立森林劃分時(shí)不易有效地區(qū)分無效波段與特征波段;其二光譜數(shù)據(jù)全譜波段信息量較大,可能會(huì)出現(xiàn)建完孤立樹后遺漏有效特征。針對(duì)以上兩點(diǎn),在使用孤立森林算法檢測近紅外光譜異常值前應(yīng)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理及特征波段選擇,以減少噪聲等對(duì)背景的干擾,同時(shí)簡化光譜數(shù)據(jù),增強(qiáng)光譜特征對(duì)比度。
為利用iForest高效檢測異常目標(biāo)的優(yōu)點(diǎn),同時(shí)克服將其直接應(yīng)用于近紅外光譜分析的困難,本研究提出一種孤立森林結(jié)合學(xué)生化殘差方法(isolation forest-studentized residual,IFSR)。首先通過對(duì)光譜數(shù)據(jù)預(yù)處理降低噪聲、 基線漂移等的影響,提高光譜分辨率。再通過選擇特征波段,簡化光譜數(shù)據(jù),突出強(qiáng)相關(guān)波長,降低特征峰重疊給iForest帶來的不確定性,利用iForest計(jì)算的異常得分,代入計(jì)算學(xué)生化殘差,考慮每個(gè)樣本對(duì)模型的影響程度,若異常得分過大或殘差值過大,則可認(rèn)定該樣本為異常樣本。
以落葉松木材密度為研究對(duì)象,分別采用多種預(yù)處理方法與特征波長選擇方法對(duì)光譜數(shù)據(jù)進(jìn)行處理,對(duì)比IFSR方法與不同異常樣本剔除方法處理樣本集后的建模效果,驗(yàn)證IFSR的異常識(shí)別能力。再基于常用的近紅外定量分析建模方法:偏最小二乘交叉驗(yàn)證[14](partial least squares,PLS)、 BP神經(jīng)網(wǎng)絡(luò)[15](back propagation neural network, BPNN)以及支持向量機(jī)回歸[16](support vector regression, SVR)建立預(yù)測模型,通過對(duì)比來得到最優(yōu)的近紅外模型。
孤立森林結(jié)合學(xué)生化殘差的異常樣本剔除算法(IFSR),其運(yùn)行共分三步。其原理如圖1所示。
圖1 IFSR算法原理圖Fig.1 IFSR algorithm schematic diagram
第一步是對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理和特征波段選擇,即先簡化光譜數(shù)據(jù),去除噪音及無關(guān)特征對(duì)異常樣本識(shí)別及建模的干擾,提高IFSR算法的準(zhǔn)確性和對(duì)異常樣本的敏感性。第二步是訓(xùn)練,即在樣本集吸光度矩陣x中隨機(jī)選取一個(gè)特征,并在x的范圍內(nèi)構(gòu)建iTree進(jìn)行二叉劃分,構(gòu)建一棵iTree時(shí),從n個(gè)樣本中均勻抽樣Ψ個(gè)樣本,作為這棵樹的訓(xùn)練樣本,將大于和小于該值的樣本歸于左右葉子節(jié)點(diǎn),繼續(xù)在左右葉子節(jié)點(diǎn)重復(fù)上述過程,直到達(dá)到終止條件:數(shù)據(jù)不可再分且達(dá)到樹的最大高度l=log2(Ψ)。第三步是預(yù)測,即記錄測試樣本從iTree的根節(jié)點(diǎn)到外部葉子節(jié)點(diǎn)所走過的邊數(shù),記為路徑長度h(x)。為標(biāo)準(zhǔn)化樣本集吸光度矩陣x的路徑長度h(x),需要計(jì)算樹的平均路徑長度c(n)
(1)
式(1)中,H(i)為調(diào)和數(shù)(i=1, 2, …,n-1),該值可以被估計(jì)為H(i)+0.577 215 664 9[17]。最后將h(x)代入,計(jì)算樣本集x的異常得分S
(2)
式(2)中,E[h(x)]為樣本x在孤立森林的路徑長度的期望。當(dāng)S接近1時(shí)樣本被識(shí)別為異常樣本,當(dāng)S接近0時(shí),樣本被識(shí)別為正常樣本,當(dāng)S在0.5附近時(shí),無法明確區(qū)分樣本是否異常。此時(shí)利用學(xué)生化殘差將異常得分考慮在內(nèi),計(jì)算校正集均方根誤差,見式(3)
(3)
則學(xué)生化殘差Ri為式(4)
(4)
很明顯Ri在考慮特征空間異常樣本的同時(shí)考慮了每個(gè)樣本對(duì)模型的影響度,可以更好地檢測異常樣本。
實(shí)驗(yàn)采用美國ASD公司制造的LabSpec?Pro FR/A114260便攜式物質(zhì)成分分析光譜儀測量近紅外光譜。該儀器可選擇的光譜范圍為:350~2 500,1 000~2 500,1 000~1 800,1 800~2 500,350~1 800和350~1 050 nm。光譜分辨率為:3 nm@700 nm,10 nm@1 400 nm,10 nm@2 100 nm。光譜采樣間隔為:1.4 nm@350~1 050 nm,2 nm@1 000~2 500 nm。本工作采用的所有算法均在MATLAB R2017a軟件上操作。
所用樣本采自黑龍江省方正縣高楞鎮(zhèn)星火林場 (N45°43′5.73″, E129°13′34.37″),在落葉松天然次生林區(qū),分別在向陽與背陰面共設(shè)立4塊樣地,每塊樣地大小為20 m×20 m,在每塊樣地中選取3棵標(biāo)準(zhǔn)木;各標(biāo)準(zhǔn)木經(jīng)伐倒后,用便攜油鋸在標(biāo)準(zhǔn)木胸徑(胸高1.3 m處)附近自下而上連續(xù)鋸截多個(gè)木圓盤,帶回實(shí)驗(yàn)室經(jīng)手工剝皮后,在木圓盤上過樹芯截取木條,共得到181個(gè)2 cm×2 cm×4 cm的落葉松木材樣本,并對(duì)每個(gè)樣本標(biāo)號(hào)記錄。在通風(fēng)干燥的室溫(20 ℃)環(huán)境中將樣本放置4周,測得樣本的平衡含水率約為10%,參照《木材密度測定方法(GB/T 1933—2009)》測定木材氣干密度。
用80目的砂紙打磨木材樣本各個(gè)面各5次, 使其表面粗糙度參數(shù)Ra接近12.5 μm。在樣本橫切面的兩個(gè)不同位置用光纖探頭掃描各1次,每次掃描時(shí)間約為1.5 s,設(shè)定掃描期間對(duì)樣本連續(xù)掃描30次。取兩次測量的平均值為原始光譜數(shù)據(jù)。得到原始光譜的吸光度如圖2所示。由圖可知在1 440,1 894和2 395 nm附近處存在明顯的吸收峰,且此三處波段對(duì)應(yīng)的吸收峰在水分子H—O鍵的二倍頻吸收帶附近,但1 840~2 500 nm的光譜存在較大的噪聲,因此需要對(duì)光譜數(shù)據(jù)進(jìn)行降噪及預(yù)處理。
圖2 落葉松木材樣本近紅外原始光譜圖Fig.2 Original near-infrared spectra of larch wood samples
采用光譜-理化值共生距離法SPXY(sample set partitioning based on joint X-Y distance)方法[18]劃分樣本集,選取樣本集的1/3作為預(yù)測集,2/3作為校正集,共得到校正集樣本121個(gè),預(yù)測集樣本60個(gè)。SPXY方法考慮了樣本集光譜所含理化值的權(quán)重以及與木材密度的關(guān)系,以光譜和木材密度為基本參數(shù)通過計(jì)算樣本空間距離來進(jìn)行樣本集劃分,所劃分的數(shù)據(jù)集更具有代表性。如表1所示,校正集與預(yù)測集的木材氣干密度均值與標(biāo)準(zhǔn)差均相差不大,樣本分散較為均勻。
表1 校正集與預(yù)測集樣本統(tǒng)計(jì)分析(g·cm-3)Table 1 Statistical analysis of correction set andprediction set results (g·cm-3)
由于近紅外光譜在掃描過程中主要靠漫反射來獲取物質(zhì)信息,其光譜通常不僅只包含實(shí)驗(yàn)所需要的信息,還包括了很多諸如各種噪音、 散射光、 以及來自樣本本身內(nèi)部的雜質(zhì)信息等等,這些噪音及無關(guān)信息會(huì)干擾預(yù)測模型的精度,同時(shí)增加識(shí)別異常樣本的難度。直接分析含有較多干擾信息的光譜數(shù)據(jù)容易出現(xiàn)誤判,可能錯(cuò)誤地刪除非異常樣本,因此本研究在進(jìn)行異常樣本的識(shí)別及剔除之前采用光譜預(yù)處理方法排除上述雜質(zhì)信息,從而提高識(shí)別的準(zhǔn)確度及后續(xù)建模的質(zhì)量和精度。
采用多元散射校正(multiplicative scatter correction, MSC),標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation, SNV),去趨勢(detrending, DT),移動(dòng)平均平滑(moving average smoothing, MAS),Savitzky-Golay卷積平滑(Savitzky-Golay smoothing, SGS),與均值中心化(mean centering, MC),標(biāo)準(zhǔn)化(autoscaling, Auto)相結(jié)合對(duì)原始光譜進(jìn)行預(yù)處理,結(jié)果如表2所示。由表2可以看出經(jīng)預(yù)處理后的光譜數(shù)據(jù)的預(yù)測集決定系數(shù)R2及均方根誤差(root mean squared error of prediction, RMSEP)相較原始光譜均有較大改善,均可以很好地校正光譜的基線漂移及去噪,其中采用SNV+DT+MC+Auto聯(lián)合光譜預(yù)處理方法,主因子個(gè)數(shù)為5,預(yù)測集R2為0.721 1,RMSEP相較原始光譜從0.042 2降為0.034 7,是不同預(yù)處理方法預(yù)測結(jié)果中的最小值。綜合考慮,確定采用SNV+DT+MC+Auto作為異常樣本剔除及建模前的預(yù)處理方法。
表2 基于不同預(yù)處理方法的落葉松木材密度預(yù)測結(jié)果Table 2 Prediction results of larch wood densitybased on different pretreatment methods
對(duì)預(yù)處理后的光譜數(shù)據(jù),盡管對(duì)其進(jìn)行了降噪,基本消除了基線漂移等對(duì)光譜數(shù)據(jù)的影響,但光譜中還存在大量冗余信息,其共線性對(duì)異常樣本識(shí)別以及后續(xù)建模仍有較大影響,因此需要進(jìn)一步分析光譜數(shù)據(jù),提取特征信息。工作中采用競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling method, CARS) 提取特征波段。采用CARS方法時(shí),設(shè)定蒙特卡洛采樣次數(shù)為50,以10折交叉驗(yàn)證構(gòu)建最大潛變量因子數(shù)為15的偏最小二乘模型。
模型整體預(yù)測效果相比無特征選擇提升明顯,其中R2從0.437 7提高到0.894 2,RMSEP從0.045 2降低為0.019 6。CARS方法的特征波段選擇結(jié)果如圖3所示,圖3(a)表示選取的特征變量數(shù)隨波長變量子集數(shù)的增加的變化趨勢圖,整體呈逐漸減小趨勢,且減小速度逐漸變緩。對(duì)比圖3(b)中的交叉驗(yàn)證均方根誤差(root mean squared error of cross validation, RMSECV)結(jié)果,曲線呈先減小后增加的趨勢,隨著無關(guān)信息的剔除RMSECV逐漸減小,模型效果漸優(yōu),但當(dāng)部分有用信息被剔除時(shí),RMSECV則趨于增加,模型出現(xiàn)過擬合現(xiàn)象,可以確定在波長變量子集數(shù)為40時(shí)得到最優(yōu)的特征波段集。圖3(c)表示各波段的穩(wěn)定度隨波長變量子集的變化軌跡,其中星號(hào)線表示最小RMSECV對(duì)應(yīng)的子集數(shù),穩(wěn)定度為選擇特征波段的主要依據(jù),當(dāng)有用信息的穩(wěn)定度變?yōu)?則RMSECV對(duì)應(yīng)也會(huì)增加。
圖3 CARS波段選擇變化趨勢圖 (a):選取變量數(shù);(b):RMSECV;(c):變量穩(wěn)定度軌跡Fig.3 CARS band selection trend chart (a):Number of sampled variables;(b) RMSECV; (c) Variable stability path
采用上述波段選擇后的光譜數(shù)據(jù)樣本集,剔除其中可能存在的對(duì)模型產(chǎn)生強(qiáng)影響的極端樣本或異常樣本。奇異樣本可能存在于光譜數(shù)據(jù)或組分指標(biāo)的真值,其可能是由于測量時(shí)的人為誤差或儀器誤差造成的,剔除這些奇異樣本是確保預(yù)測精度和模型準(zhǔn)確性的必要步驟。為驗(yàn)證IFSR算法對(duì)經(jīng)預(yù)處理及特征選擇后的光譜數(shù)據(jù)的異常篩選能力,分別應(yīng)用蒙特卡洛交互驗(yàn)證(Monte Carlo cross validation,MCCV)、 馬氏距離(Mahalanobis distance,MD)、 高杠桿值檢驗(yàn)(high leverage,HL)、 杠桿值與學(xué)生化殘差t檢驗(yàn)(high leverage-studentized residual,HLSR)、 光譜殘差檢驗(yàn)(spectral residual,SR)以及基于XY變量聯(lián)合的ODXY算法共六種算法與孤立森林算作對(duì)比,對(duì)上述數(shù)據(jù)進(jìn)行異常樣本剔除,并在異常樣本剔除后建立偏最小二乘交叉驗(yàn)證模型,根據(jù)模型的預(yù)測能力進(jìn)行評(píng)估。
對(duì)于MCCV方法,設(shè)定蒙特卡洛循環(huán)次數(shù)為1 000次,假設(shè)各樣本的預(yù)測殘差均滿足正態(tài)分布,引入設(shè)定參數(shù)q,分別計(jì)算預(yù)測殘差均值m(i)與預(yù)測殘差標(biāo)準(zhǔn)差s(i)的閾值Tm和Ts,超出閾值的樣本即為異常樣本。設(shè)定參數(shù)q根據(jù)3σ準(zhǔn)則設(shè)為3,Tm,Ts的計(jì)算公式如式(5)和式(6)
(5)
(6)
對(duì)于IFSR方法,設(shè)定iTree數(shù)量為100,iTree訓(xùn)練子樣本容量為256,iTree的最大特征容量為經(jīng)特征波長選擇方法簡化后的光譜波長數(shù),最大迭代次數(shù)為50次,學(xué)生化殘差檢驗(yàn)的t值查閱t分布臨界值表確定,本研究中t臨界值為2.601,其余參數(shù)均為默認(rèn)值。基于IFSR方法剔除結(jié)果如圖4所示,共剔除了樣本編號(hào)為33,39,107,146,150,172,175的7個(gè)異常樣本。
圖4 基于IFSR方法的異常樣本剔除結(jié)果Fig.4 Results of abnormal sample eliminationbased on IFSR method
對(duì)其他異常樣本剔除方法的閾值采用逐一放回法進(jìn)行確定,規(guī)定每種方法先預(yù)選出20個(gè)異常值,再按照次序從最后一個(gè)剔除的樣本開始放回,若模型性能沒有變差則保留放回,否則剔除,得到最佳模型性能的異常樣本數(shù)對(duì)應(yīng)的閾值即為最佳閾值。基于六種異常樣本剔除方法的樣本剔除結(jié)果分別如圖5(a—f)所示。
為進(jìn)一步確認(rèn)IFSR方法的異常樣本識(shí)別能力,將上述幾種異常樣本剔除方法剔除后的樣本集重新用SPXY方法按照3∶1劃分校正集與預(yù)測集,分別建立偏最小二乘交叉驗(yàn)證模型,并對(duì)各模型對(duì)比評(píng)價(jià),得到未經(jīng)異常樣本剔除(Full)與經(jīng)IFSR方法及六種對(duì)照方法所建交叉模型的預(yù)測結(jié)果如表3所示。
從表3可以看出經(jīng)異常剔除后的結(jié)果均比未剔除更優(yōu),且IFSR方法的剔除效果均為最優(yōu)。對(duì)比剔除樣本編號(hào),IFSR相較MD、 HL方法在剔除空間距離異常點(diǎn)的同時(shí)還剔除了殘差過大所造成的強(qiáng)影響點(diǎn);而IFSR相較傳統(tǒng)SR方法多考慮了空間距離的影響因素;MCCV方法雖然結(jié)合了X與Y變量間的關(guān)系進(jìn)行分析,但也會(huì)由于異常導(dǎo)致模型過擬合造成誤判;ODXY方法也聯(lián)合XY兩變量進(jìn)行分析,但其以平均光譜為參考進(jìn)行關(guān)聯(lián)分析也會(huì)由于異常樣本導(dǎo)致偏差從而造成誤判。IFSR方法雖然并未結(jié)合XY兩變量綜合考慮,但其以二叉樹對(duì)光譜數(shù)據(jù)進(jìn)行切割,對(duì)不同空間維度均可進(jìn)行切割,且該方法具有隨機(jī)性并結(jié)合了集成學(xué)習(xí)的優(yōu)點(diǎn),能在循環(huán)中快速找到異常樣本,同時(shí)切割過程無需建模,大大提高了搜索速度。
圖5 基于六種異常樣本剔除方法的樣本剔除結(jié)果 (a):MCCV;(b):MD;(c):HL;(d):HLSR;(e):SR;(f):ODXYFig.5 Sample removal results based on six abnormal sample removal methods (a):MCCV;(b):MD;(c):HL;(d):HLSR;(e):SR;(f):ODXY
表3 基于不同異常值剔除方法的落葉松木材密度建模及預(yù)測結(jié)果
為得到最優(yōu)的落葉松木材密度近紅外預(yù)測模型,對(duì)經(jīng)IFSR剔除異常樣本后重新劃分好的樣本集分別采用PSO-SVR,PLS和BPNN三種建模方法建模并確定最優(yōu)方法。所采用的PSO-SVR算法基于LIBSVM工具箱,確定核函數(shù)為徑向基核函數(shù),懲罰因子c與核參數(shù)g通過粒子群算法(particle swarm optimization, PSO)確定,PSO算法中設(shè)定種群規(guī)模大小為200,個(gè)體學(xué)習(xí)因子c1=1.5,社會(huì)學(xué)習(xí)因子c2=1.7,最大迭代次數(shù)為200,交叉驗(yàn)證折數(shù)為10折,主成分因子數(shù)為上述交叉驗(yàn)證偏最小二乘測試IFSR方法時(shí)所確定的主因子數(shù)。其中PSO參數(shù)尋優(yōu)適應(yīng)度曲線及校正集與預(yù)測集的擬合曲線可視化結(jié)果如圖6所示。由圖6(a)可知,在懲罰因子c=30.029 1,核參數(shù)g=0.01時(shí)的預(yù)測效果最優(yōu),此時(shí)預(yù)測集R2為0.932 1,RMSEP為0.015 4。PSO-SVR模型的預(yù)測效果很好。
圖6 PSO-SVR預(yù)測結(jié)果 (a):PSO參數(shù)尋優(yōu)適應(yīng)度曲線;(b):校正集與預(yù)測集的擬合曲線Fig.6 PSO-SVR prediction results (a):PSO parameter optimization fitness curve;(b):Fitting curve of correction set and prediction set
采用的BPNN算法基于MATLAB神經(jīng)網(wǎng)絡(luò)工具箱,經(jīng)過多次調(diào)試確定BPNN的訓(xùn)練參數(shù): 學(xué)習(xí)速率為0.01, 訓(xùn)練要求精度為0.000 1, 最大訓(xùn)練次數(shù)為2 000次。BPNN預(yù)測集擬合曲線如圖7所示。從圖中7可知,預(yù)測集的R2為0.913 1,RMSEP為0.017 7,BPNN也可以很好地預(yù)測木材密度。
圖7 BPNN預(yù)測集擬合曲線Fig.7 BPNN prediction set fitting curve
表4 基于PSO-SVR,BPNN,PLS方法的落葉松木材 密度建模及預(yù)測結(jié)果Table 4 Modeling and prediction results of larch wood densitybased on PSO-SVR, BPNN and PLS methods
分別對(duì)IFSR剔除異常樣本后的落葉松木材密度近紅外樣本集進(jìn)行PSO-SVR,BPNN及PLS建模,得到的預(yù)測結(jié)果如表4所示,從表4可以看出,PSO-SVR與PLS方法的建模效果優(yōu)于BPNN,而PSO-SVR方法的建模效果最優(yōu),R2為0.932 1,RMSEP為0.015 4,由此證明對(duì)于小樣本數(shù)據(jù),支持向量回歸要優(yōu)于神經(jīng)網(wǎng)絡(luò),且SVR考慮了非線性因素,所建模型的預(yù)測能力優(yōu)于線性的PLS。PSO-SVR所建落葉松木材密度近紅外模型的預(yù)測結(jié)果如圖8所示。
圖8 PSO-SVR模型預(yù)測結(jié)果Fig.8 Prediction results of PSO-SVR model
通過對(duì)預(yù)測結(jié)果與真實(shí)值進(jìn)行殘差分析(圖9),殘差值均勻分布在橫軸兩端,證明預(yù)測值是等方差分布的,且在±0.04范圍內(nèi)預(yù)測值具有很強(qiáng)的解釋性,進(jìn)而證明預(yù)測模型具有較強(qiáng)的可靠性。預(yù)測結(jié)果表明,基于IFSR的異常樣本剔除方法能在建模前準(zhǔn)確地識(shí)別樣本集中的異常樣本,尤其針對(duì)高維且多變量的數(shù)據(jù)集具有明顯效果,由于結(jié)合了學(xué)生化殘差檢驗(yàn),只需查表即可確定閾值,避免了根據(jù)經(jīng)驗(yàn)或多次實(shí)驗(yàn)確定閾值的復(fù)雜過程。相對(duì)傳統(tǒng)異常樣本剔除方法更加準(zhǔn)確簡便。
圖9 預(yù)測結(jié)果殘差分析Fig.9 Residual analysis of calibration prediction results
基于統(tǒng)計(jì)學(xué)方法孤立森林算法,提出了一種孤立森林結(jié)合學(xué)生化殘差方法(IFSR),并通過預(yù)處理及特征變量選擇消除數(shù)據(jù)中的噪音及無效信息,使其可用于識(shí)別并剔除高維、 高共線性的近紅外光譜數(shù)據(jù)中的異常樣本值,且在識(shí)別過程中只需查閱t分布臨界值表即可確定閾值,避免了設(shè)定閾值的問題。
為驗(yàn)證IFSR的可靠性,將該算法用于剔除落葉松木材密度樣本中的異常值,并建立近紅外預(yù)測模型,經(jīng)與多種傳統(tǒng)異常樣本剔除方法對(duì)比,證明用IFSR可以有效剔除近紅外光譜中的異常樣本值,所得預(yù)測模型穩(wěn)健性好,預(yù)測精度高。但I(xiàn)FSR方法也有一定的局限性,如未將光譜數(shù)據(jù)X與真實(shí)值Y聯(lián)合考慮來分析樣本中的異常值,下一步可從此方向,結(jié)合闊葉材、 竹材等多種樣本進(jìn)一步優(yōu)化算法。