仇遜超,曹 軍,張怡卓
(1.哈爾濱金融學(xué)院 計(jì)算機(jī)系,黑龍江 哈爾濱 150030; 2.東北林業(yè)大學(xué) 機(jī)電工程學(xué)院,黑龍江 哈爾濱 150040)
我國(guó)是名副其實(shí)的松子產(chǎn)量和出口大國(guó),約占全球松子交易量的77%,其中東北地區(qū)的產(chǎn)量占比達(dá)全國(guó)的90%左右,又以東北紅松籽最為著名。紅松仁富含亞油酸、亞麻酸等不飽和脂肪酸,具有降低膽固醇、血液黏稠,預(yù)防心絞痛、動(dòng)脈粥樣硬化、老年性肥胖癥,提高腦細(xì)胞活性等功效,因此,紅松籽有“長(zhǎng)生果”的美譽(yù)。然而紅松仁的油脂酸敗會(huì)使其氣味、色澤發(fā)生改變,影響其品質(zhì),縮短其存儲(chǔ)周期。索氏提取法是種子脂肪含量測(cè)定的普遍首選標(biāo)準(zhǔn)方法,但其耗時(shí)長(zhǎng)、步驟繁瑣,且需要使用對(duì)人體有害的乙醚試劑,僅適用于嚴(yán)苛的實(shí)驗(yàn)室環(huán)境,無(wú)法滿足大規(guī)模檢測(cè)自動(dòng)化及普及化的需求[1]。近紅外光譜間接檢測(cè)技術(shù)具有安全、簡(jiǎn)便、準(zhǔn)確、快速、非破壞性、穩(wěn)定性好等優(yōu)點(diǎn),且脂肪化學(xué)鍵在近紅外光譜頻段反應(yīng)良好,因此,近年來(lái)近紅外光譜技術(shù)被廣泛地應(yīng)用到堅(jiān)果、肉類、谷物、乳類等農(nóng)產(chǎn)品脂肪定量檢測(cè)研究中[2-6]。
紅松仁脂肪近紅外檢測(cè)研究還沒(méi)有廣泛開(kāi)展,作者前期利用反向間隔偏最小二乘法、間隔偏最小二乘法、無(wú)信息變量消除法,構(gòu)建了紅松仁近紅外特征篩選偏最小二乘脂肪定量預(yù)測(cè)模型。近紅外光譜數(shù)據(jù)具有信息量過(guò)剩、特征間相關(guān)性較高、高維數(shù)據(jù)建模運(yùn)算量大且耗時(shí)長(zhǎng)等問(wèn)題,除采用特征篩選來(lái)影響建模效率及模型預(yù)測(cè)的準(zhǔn)確性外,還可以采用數(shù)據(jù)降維的方法來(lái)實(shí)現(xiàn)。數(shù)據(jù)降維具有保留信息本質(zhì)結(jié)構(gòu)的特點(diǎn),降維方法分為線性和非線性兩種,其中,線性降維方法無(wú)法很好地保留高維數(shù)據(jù)復(fù)雜結(jié)構(gòu)的完整信息[7]。從數(shù)學(xué)拓?fù)涑霭l(fā)的流形學(xué)習(xí)是一種非線性降維方法,其原理是尋找到低維流形模型到高維歐式空間的映射,盡可能地保留全部數(shù)據(jù)信息,表征數(shù)據(jù)的某些本質(zhì)結(jié)構(gòu),并發(fā)掘數(shù)據(jù)的隱含信息[8]。
以紅松仁脂肪含量為研究對(duì)象,提出一種流形學(xué)習(xí)的近紅外光譜檢測(cè)方法。運(yùn)用變量標(biāo)準(zhǔn)化校正、一階導(dǎo)數(shù)、小波變換對(duì)獲取到的紅松仁近紅外光譜原始數(shù)據(jù)進(jìn)行預(yù)處理,在此基礎(chǔ)上,分別采用主成分分析的線性降維方法及等距映射、局部線性嵌入、改進(jìn)型局部線性嵌入、局部切空間對(duì)齊、黑塞特征映射的流形學(xué)習(xí)非線性降維方法進(jìn)行降維處理,以近紅外技術(shù)中最為廣泛采用的偏最小二乘為定標(biāo)模型,比對(duì)嶺回歸、支持向量回歸、極度梯度提升的建模結(jié)果,最終,找到最優(yōu)近紅外模型,實(shí)現(xiàn)對(duì)紅松仁脂肪的無(wú)損、準(zhǔn)確定量檢測(cè)。
本研究的紅松籽樣本購(gòu)買于試驗(yàn)當(dāng)年的涼水國(guó)家級(jí)自然保護(hù)區(qū)。對(duì)紅松籽進(jìn)行手工去殼脫紅衣,隨機(jī)選取390粒完整的紅松仁樣本,并進(jìn)行159份的劃分,其中,將134份樣本分別放入貼有1~134編號(hào)標(biāo)簽的密封袋中;另25份樣本分別放入貼有測(cè)1-測(cè)25編號(hào)標(biāo)簽的密封袋中,用于建模后對(duì)模型的測(cè)試。樣本置于相對(duì)濕度和溫度分別為50%~60%、-1~2 ℃的恒濕恒溫陰涼處進(jìn)行保存待用。
經(jīng)查找相關(guān)文獻(xiàn)發(fā)現(xiàn),光譜波長(zhǎng)范圍在950~1 700 nm包含的信息可以較理想地滿足本研究需求[9-10]。本研究采用德國(guó)INSION公司微型NIR-NT-spectrometer-OEM-system光纖光譜儀進(jìn)行樣本近紅外數(shù)據(jù)的采集,該儀器具有高集成性和抗震性,其光譜適用波長(zhǎng)范圍為900~1 700 nm,光譜分辨率在16 nm以下。在采集樣本近紅外光譜數(shù)據(jù)前,先將紅松仁樣本置于環(huán)境溫度為26 ℃左右的環(huán)境下24 h以上,打開(kāi)預(yù)熱光譜儀15 min左右,設(shè)置光譜儀積分時(shí)間為30 ms,平均次數(shù)設(shè)置為3次,將探頭放入操作臺(tái)底端的孔洞內(nèi),保持探頭與樣本距離在3 mm左右,固定探頭。采集近紅外光譜數(shù)據(jù)時(shí),將倒卵狀三角形的紅松仁平滑腹部置于圓孔固定夾上。近紅外光譜采集系統(tǒng)如圖1所示。
圖1 近紅外光譜采集系統(tǒng)示意圖Fig.1 Schematic diagram of near-infrared spectrum acquisition system
紅松仁脂肪的定量測(cè)定采用GB5009.6—2003索氏提取法。
采用以下幾種流形學(xué)習(xí)及改進(jìn)型非線性降維方法,對(duì)紅松仁近紅外光譜數(shù)據(jù)進(jìn)行降維處理。
1.4.1 局部線性嵌入及其改進(jìn)方法
局部線性嵌入(locally linear embedding, LLE)[11]的中心思想是,找到每個(gè)數(shù)據(jù)點(diǎn)的原始高維領(lǐng)域線性關(guān)系表達(dá)后,在經(jīng)過(guò)LLE降維處理后,在低維空間這種線性關(guān)系表達(dá)得到同樣的保持,且這種表達(dá)的權(quán)重系數(shù)保持不變。假設(shè)高維空間數(shù)據(jù)點(diǎn)xi的鄰域線性關(guān)系表達(dá)式為:
xi=ωihxh+ωikxk+ωilxl。
(1)
其中,ωih,ωik,ωil為權(quán)重系數(shù),權(quán)重系數(shù)ωij可以通過(guò)式(2)求取:
(2)
其中,Q(i)表示數(shù)據(jù)xi的n個(gè)鄰域數(shù)據(jù)點(diǎn)集合,m表示樣本個(gè)數(shù)。保持ωij不變,低維空間數(shù)據(jù)點(diǎn)yi通過(guò)式(3)求取:
(3)
基于上述LLE思想,進(jìn)一步衍生出了改進(jìn)型局部線性嵌入(modified locally linear embedding, MLLE)、局部切空間對(duì)齊(local tangent space alignment, LTSA)、黑塞特征映射(Hessian based locally linear embedding, HLLE)方法。
MLLE不僅尋找最近距離的鄰域數(shù),還對(duì)鄰域的分布權(quán)重進(jìn)行度量,希望鄰域的分布權(quán)重盡量在樣本的各個(gè)方向。LTSA則是希望在降維后,局部鄰域的幾何關(guān)系仍能得到保持。HLLE是依據(jù)黑森矩陣的二次型關(guān)系展開(kāi)構(gòu)建,以達(dá)到恢復(fù)鄰域內(nèi)局部線性結(jié)構(gòu)的目的。
1.4.2 等距映射方法
等距映射(isometric mapping, Isomap)是線性降維多維縮放(multi-dimensional scaling, MDS)的擴(kuò)展,與保持局部結(jié)構(gòu)信息的LLE不同,該方法對(duì)全局的信息進(jìn)行保存,使得高維數(shù)據(jù)點(diǎn)對(duì)間的測(cè)地距離在降維后的低維空間中得以保持不變[12]。
圖2所示為紅松仁樣本近紅外原始光譜曲線圖,實(shí)際采集的光譜波長(zhǎng)范圍為906.9~1 699.18 nm,掃描間隔為6.83 nm。
圖2 紅松仁原始近紅外光譜曲線圖Fig.2 Original near-infrared spectrum curve graph of peeled Korean pine seeds
脂肪是由脂肪酸和甘油組成的甘油酯,其化學(xué)元素主要為C、H、O,其CH、CH2、CH3群中的C—H鍵吸收譜帶被用于近紅外光譜脂肪檢測(cè)中的特征吸收波段[13]。圖2中920 nm附近的不明顯吸收峰為C—H伸縮振動(dòng)能級(jí)躍遷所引起的倍頻和合頻[14],1 160 nm附近的強(qiáng)烈吸收峰為C—H二級(jí)倍頻伸縮振動(dòng)基頻,1 380 nm附近的明顯吸收峰為C—H一級(jí)倍頻伸縮振動(dòng)基頻與C—H變形振動(dòng)基頻組合頻,1 670 nm附近的微弱吸收峰為C—H一級(jí)倍頻伸縮振動(dòng)基頻[15];脂肪C—H基團(tuán)的吸收譜帶分布在900~1 020 nm、1 070~1 440 nm、1 520~1 680 nm[16-17]。通過(guò)上述分析可知,本研究選取的光譜范圍可以反映紅松仁脂肪的相關(guān)特征信息。
紅松仁樣本脂肪分布情況如圖3所示,脂肪含量在60.04%~69.93%,虛線內(nèi)樣本占總樣本的55.22%,分布差異較大,基本覆蓋了紅松仁脂肪含量常規(guī)分布范圍,表明了樣本選取合理,能夠滿足后續(xù)的建模要求。
61.14%為均值-標(biāo)準(zhǔn)差,65.58%為均值+標(biāo)準(zhǔn)差。61.14% was the result of mean minus standard deviation, and 65.58% was the result of mean plus standard deviation.圖3 紅松仁樣本脂肪含量分布情況Fig.3 Distribution of fat content in peeled Korean pine seeds
訓(xùn)練集與驗(yàn)證集10次切分結(jié)果如表1所示。
表1 十次紅松仁脂肪訓(xùn)練集和驗(yàn)證集切分結(jié)果Table 1 Ten times segmentation results of fat in peeled Korean pine seeds’ training and validation sets
為了測(cè)試本研究構(gòu)建模型的穩(wěn)定性與可靠性,按照4∶1的比例對(duì)訓(xùn)練集與驗(yàn)證集進(jìn)行10次不同劃分,將10個(gè)固定取值的隨機(jī)種子與10次劃分結(jié)果相對(duì)應(yīng),以保證劃分結(jié)果的可重復(fù)性。分別在不同訓(xùn)練集上,進(jìn)行10次近紅外紅松仁脂肪定量模型的建立,以10次模型的平均評(píng)價(jià)指標(biāo)來(lái)評(píng)估模型。觀察表1發(fā)現(xiàn),10次劃分結(jié)果均不相同,且每次驗(yàn)證集脂肪含量覆蓋范圍均小于訓(xùn)練集,說(shuō)明10個(gè)紅松仁訓(xùn)練集樣本所建立的模型可以較好地適用于相應(yīng)的驗(yàn)證集樣本。
由于紅松仁樣本為固體,樣本的顆粒度不均勻,且采用漫反射技術(shù)進(jìn)行測(cè)定會(huì)使得光譜數(shù)據(jù)因散射影響而產(chǎn)生差異;觀察原始光譜曲線圖(圖2),發(fā)現(xiàn)原始光譜數(shù)據(jù)的吸收寬度分散,且存在重疊現(xiàn)象,會(huì)互相干擾,影響模型的穩(wěn)健性,因此,采用變量標(biāo)準(zhǔn)化校正(standard normalized variate, SNV)+一階導(dǎo)數(shù)(first derivative, 1st-Der)對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理[18]。但經(jīng)過(guò)求導(dǎo)處理后,會(huì)增加噪聲、降低信噪比,因此,再進(jìn)一步進(jìn)行小波變換平滑處理。近似對(duì)稱的緊支集正交小波(SymletN, SymN),能夠在對(duì)信號(hào)進(jìn)行分析與重構(gòu)時(shí)減少相位失真,在對(duì)近紅外光譜進(jìn)行濾除噪聲方面有較為廣泛的應(yīng)用[19-20]。采用Sym4小波基函數(shù)進(jìn)行2尺度分解,則經(jīng)SNV+1st-Der+Sym4預(yù)處理后的光譜曲線圖如圖4所示,觀察發(fā)現(xiàn),經(jīng)預(yù)處理后光譜吸收峰增多且更為明顯,光譜數(shù)據(jù)方差變小。隨機(jī)選取一條濾波前后的光譜曲線,并將濾波后的光譜曲線向上平移一段距離,進(jìn)行對(duì)比觀察,如圖5所示。由圖5可知,經(jīng)Sym4小波變換處理后,光譜曲線變得較為平滑,去掉了一些毛躁噪聲,達(dá)到了一定的濾噪目的。
圖4 變量標(biāo)準(zhǔn)化校正+一階導(dǎo)數(shù)+緊支集正交小波變換預(yù)處理后紅松仁光譜曲線圖Fig.4 Spectrum curve graph of peeled Korean pine seeds after standard normalized variate+first derivative+orthogonal and compactly supported wavelet transformation pretreatment
圖5 濾波前后紅松仁光譜對(duì)比Fig.5 Spectral comparison of peeled Korean pine seeds before and after filtering
圖6所示為經(jīng)預(yù)處理后的光譜數(shù)據(jù)特征熱度圖,由圖6可知,經(jīng)過(guò)預(yù)處理后特征間具有較高的線性相關(guān)性。
圖6 預(yù)處理后光譜特征熱度圖Fig.6 The spectral signatures’ heat map after preprocessing
采用經(jīng)典的線性主成分分析(principal components analysis,PCA)[21],及非線性流形學(xué)習(xí)中的Isomap、LLE、MLLE、LTSA、HLLE降維方法,在經(jīng)預(yù)處理后的光譜上,進(jìn)行數(shù)據(jù)降維處理。為了研究不同建模方法對(duì)紅松仁脂肪定量預(yù)測(cè)模型的影響,進(jìn)一步分別運(yùn)用嶺回歸(ridge regression,Ridge)[22]、支持向量回歸(support vector regression, SVR)[23]、極度梯度提升(extreme gradient boosting, XGBoost)[24]方法構(gòu)建紅松仁脂肪定量模型,并以偏最小二乘(partial least square, PLS)建立的模型為定標(biāo),根據(jù)模型的評(píng)價(jià)指標(biāo)確定最優(yōu)的降維及建模方法。
降維方法參數(shù)的不同取值,會(huì)對(duì)建模效果產(chǎn)生不同影響,因此,通過(guò)尋找最優(yōu)降維參數(shù),來(lái)進(jìn)一步構(gòu)建高質(zhì)量的紅松仁脂肪定量數(shù)學(xué)模型。
PCA需要對(duì)方差累計(jì)貢獻(xiàn)率(contribution)進(jìn)行最優(yōu)參數(shù)的選取,通常規(guī)定累積貢獻(xiàn)率需達(dá)到85%以上,因而其參數(shù)取值情況為:contribution=[0.85,0.86,0.88,0.90,0.92,0.94,0.96,0.98,0.99]。Isomap、LLE、MLLE、LTSA及HLLE需要確定鄰域數(shù)(neighbors)和維度(components)的最優(yōu)取值,其中,neighbors越大,降維后樣本的局部關(guān)系會(huì)得到更好地保持,但算法的復(fù)雜度會(huì)增加,建立樣本局部關(guān)系的耗時(shí)會(huì)更長(zhǎng),另外,neighbors最大取值不能超過(guò)紅松仁訓(xùn)練集樣本個(gè)數(shù);MLLE需要滿足:neighbors>components、HLLE需要滿足:neighbors>[components×(components+3)]/2,因此將Isomap、LLE、MLLE、LTSA參數(shù)取值情況設(shè)置為:neighbors=[20,30,40,50,60,70,80,90,100]、components=[2,3,4,6,8,10,12,14,16,18];HLLE參數(shù)的設(shè)定分為以下幾種情況,當(dāng)components=[2,3,4]時(shí),neighbors=[20,30,40,50,60,70,80,90,100];當(dāng)components=6時(shí),neighbors=[30,40,50,60,70,80,90,100];當(dāng)components=8時(shí),neighbors=[50,60,70,80,90,100];當(dāng)components=10時(shí),neighbors=[70,80,90,100];當(dāng)components=12時(shí),neighbors=100。
為了構(gòu)建出一個(gè)高質(zhì)量的PLS定標(biāo)模型,需要對(duì)PLS主成分?jǐn)?shù)(components)進(jìn)行確定,根據(jù)方差累計(jì)貢獻(xiàn)率在85%~99%的需求,主成分?jǐn)?shù)取值范圍為:components=[3,4,5,6,7,8,9,10,11,12,13,14,15,16]。根據(jù)比對(duì)10次不同切分出的10個(gè)驗(yàn)證集均方差(mean squared error of validation, MSEV)均值(mean-MSEV),確定最優(yōu)的主成分?jǐn)?shù),比對(duì)結(jié)果如圖7所示。
圖7 Partial least square參數(shù)優(yōu)化驗(yàn)證集均方差均值對(duì)比情況Fig.7 Comparison for partial least square’s parameter optimization of validation sets’ mean value of mean squared error
mean-MSEV值越小,擬合效果越好,則由圖7可知,當(dāng)components=9時(shí),PLS模型質(zhì)量最優(yōu),分別在全波段、光譜降維范圍下構(gòu)建紅松仁脂肪Ridge、SVR、XGBoost、PCA+Ridge、PCA+SVR、PCA+XGBoost、LLE+Ridge、LLE+SVR、LLE+XGBoost、Isomap+Ridge、Isomap+SVR、Isomap+XGBoost、MLLE+Ridge、MLLE+SVR、MLLE+XGBoost、LTSA+Ridge、LTSA+SVR、LTSA+XGBoost、HLLE+Ridge、HLLE+SVR、HLLE+XGBoost數(shù)學(xué)模型,并對(duì)降維方法進(jìn)行參數(shù)優(yōu)化。為了測(cè)試模型的穩(wěn)定性,每個(gè)模型會(huì)在10次不同切分出的10個(gè)訓(xùn)練集上進(jìn)行模型構(gòu)建,通過(guò)對(duì)比10次建模的mean-MSEV,從而確定降維、建模的選取方法,并找到相應(yīng)降維方法的最優(yōu)參數(shù)。對(duì)比情況如圖8、圖9所示。
圖8 全波段模型驗(yàn)證集均方差均值比較Fig.8 Comparison for full wavelengths of validation sets’ mean value of mean squared error
mean-MSEV,驗(yàn)證集均方差均值;Ridge,嶺回歸;SVR,支持向量回歸;XGBoost,極度梯度提升;PCA,主成分分析;Isomap,等距映射;LLE,局部線性嵌入;MLLE,改進(jìn)型局部線性嵌入;LTSA,局部切空間對(duì)齊;HLLE,黑塞特征映射。mean-MSEV, Mean value of mean squared error of validation; Ridge, Ridge regression; SVR, Support vector regression; XGBoost, Extreme gradient boosting; PCA, Principal components analysis; Isomap, Isometric mapping; LLE, Locally linear embedding; MLLE, Modified locally linear embedding; LTSA, Local tangent space alignment; HLLE, Hessian based locally linear embedding.圖9 不同降維、建模方法及參數(shù)驗(yàn)證集均方差均值比較Fig.9 Comparison for different dimension reduction, modeling methods and parameters of validation sets’ mean value of mean squared error
其mean-MSEV為1.519 2,驗(yàn)證集皮爾森相關(guān)系數(shù)(Pearson correlation coefficient of validation, PCCV)均值(mean-PCCV)為0.813 3,mean-PCCV越接近1越好。通過(guò)定標(biāo)模型可知,采用近紅外光譜技術(shù)對(duì)紅松仁脂肪進(jìn)行定量分析是可行的,結(jié)果是可靠的。
由圖8可知,不同建模方法構(gòu)建出的模型質(zhì)量不同,全波段范圍內(nèi)非線性模型XGBoost的建模效果最優(yōu),非線性模型SVR建模效果次優(yōu),Ridge則為線性模型,這說(shuō)明紅松仁光譜數(shù)據(jù)中,包含了對(duì)脂肪定量分析建模有用的非線性信息,而Ridge線性建模無(wú)法規(guī)劃約束復(fù)雜的非線性問(wèn)題。此外,由于PLS在建模過(guò)程中進(jìn)行了PCA降維處理(圖7),去除了冗余信息,因此其模型質(zhì)量?jī)?yōu)于全波段范圍下Ridge、SVR、XGBoost構(gòu)建的數(shù)學(xué)模型。
圖10為采用不同降維方法后,任意選取1個(gè)訓(xùn)練集的光譜特征熱度圖的對(duì)比情況,各熱度圖對(duì)應(yīng)的降維參數(shù)分別為:PCA,contribution=0.99;Isomap、LLE、MLLE、LTSA,components=18,neighbors=100;HLLE,components=12,neighbors=100。
PCA,主成分分析;Isomap,等距映射;LLE,局部線性嵌入;MLLE,改進(jìn)型局部線性嵌入;LTSA,局部切空間對(duì)齊;HLLE,黑塞特征映射。PCA, Principal components analysis; Isomap, Isometric mapping; LLE, Locally linear embedding; MLLE, Modified locally linear embedding; LTSA, Local tangent space alignment; HLLE, Hessian based locally linear embedding.圖10 不同降維方法后光譜特征熱度圖對(duì)比Fig.10 The comparison of spectral signatures’ heat maps after different dimension reduction
由圖10可知,經(jīng)PCA、Isomap降維處理后,幾乎完全去除了特征間的線性相關(guān)性;經(jīng)LLE、MLLE、LTSA、HLLE降維處理后,還保留了部分線性相關(guān)性信息。由圖9可知,與全波段構(gòu)建的模型相比(圖8),經(jīng)過(guò)降維處理后模型的質(zhì)量有所提升,這與圖10結(jié)果相呼應(yīng),表明了特征間線性相關(guān)性較高會(huì)影響建模的效果。上述降維方法對(duì)Ridge與SVR模型質(zhì)量的提升更為明顯,這是因?yàn)閄GBoost建模方法對(duì)數(shù)據(jù)維度具有相對(duì)較弱的敏感性[25]。為了更清晰地比較各最優(yōu)參數(shù)模型質(zhì)量,以表2形式進(jìn)行呈現(xiàn)。
需要說(shuō)明的是,由于10次切分出的訓(xùn)練集不同,因而依照方差累計(jì)貢獻(xiàn)率的PCA降維方法,在不同訓(xùn)練集上降維后的維度會(huì)存在差異。
由表2可知,線性降維方法對(duì)模型質(zhì)量的提升劣于非線性降維方法,這是由于經(jīng)PCA降維處理后,會(huì)丟失非線性相關(guān)信息,無(wú)法較好地保留信息、估計(jì)潛在隱含信息的數(shù)量,這也表明了對(duì)本樣本集來(lái)說(shuō)非線性結(jié)構(gòu)信息對(duì)脂肪定量建模效果的積極作用。流形學(xué)習(xí)中LLE及其改進(jìn)降維方法對(duì)模型質(zhì)量的提升優(yōu)于Isomap方法,這是由于LLE及其改進(jìn)降維方法更在意局部信息,能夠更好地找到最優(yōu)局部非線性嵌入,此外,通過(guò)圖10可知,經(jīng)LLE及其改進(jìn)降維方法處理后,還保持了部分?jǐn)?shù)據(jù)的局部線性特征,這些信息對(duì)本樣本集紅松仁脂肪含量的預(yù)測(cè)有較為重要的作用。相同建模方法采用LLE及其改進(jìn)降維方法后,構(gòu)建的模型質(zhì)量相當(dāng)?shù)致杂胁煌?這是由于MLLE、LTSA、HLLE降維方法的基本思想均基于LLE降維方法,只是在低維數(shù)據(jù)進(jìn)行恢復(fù)時(shí)遵循的優(yōu)化原理不同,其中,Ridge、XGBoost分別經(jīng)MLLE、LLE最優(yōu)參數(shù)降維后,構(gòu)建的模型質(zhì)量最佳,mean-MSEV分別為0.709 3、0.989 5。
MLLE+SVR構(gòu)建的模型質(zhì)量最優(yōu),其10個(gè)驗(yàn)證集上的MSEV分別為:0.643 7、0.418 4、0.452 9、0.592 1、0.742 4、0.554 5、0.534 9、0.890 0、0.416 3、1.218 6,mean-MSEV為0.646 4,mean-PCCV達(dá)0.914 5,最優(yōu)參數(shù)的取值為:components=16,neighbors=30。
采用最優(yōu)參數(shù)的MLLE+SVR模型,對(duì)用于測(cè)試的25份紅松仁樣本脂肪進(jìn)行定量預(yù)測(cè),圖11展示了化學(xué)實(shí)測(cè)值與預(yù)測(cè)值的散點(diǎn)分布情況。
圖11 紅松仁脂肪實(shí)測(cè)值與預(yù)測(cè)值散點(diǎn)分布情況Fig.11 Scatter distribution of fat in peeled Korean pine seeds’ measured and predicted values
本研究通過(guò)在900~1 700 nm波長(zhǎng)范圍內(nèi)對(duì)紅松仁近紅外光譜數(shù)據(jù)進(jìn)行采集,開(kāi)展了紅松仁脂肪定量無(wú)損檢測(cè)試驗(yàn)。在訓(xùn)練集與驗(yàn)證集劃分的過(guò)程中,為了保障所建模型的可靠性與穩(wěn)定性進(jìn)行了10次不同的切分,并分別在10個(gè)不同的訓(xùn)練集上進(jìn)行模型的建立,通過(guò)10個(gè)模型的平均評(píng)定指標(biāo)來(lái)評(píng)價(jià)模型。采用降維方法對(duì)光譜數(shù)據(jù)進(jìn)行降維處理,可以優(yōu)化模型的評(píng)價(jià)指標(biāo),表明了光譜降維在模型訓(xùn)練中的重要作用;與線性降維方法相比,由于非線性降維方法可以更好地保留非線性信息及部分建模必須的特征間相關(guān)性信息,因此,非線性降維方法可以更好地提升模型質(zhì)量。降維方法參數(shù)的取值也會(huì)影響模型的預(yù)測(cè)結(jié)果,參數(shù)優(yōu)化可以有效地提高模型預(yù)測(cè)的準(zhǔn)確性。運(yùn)用不同建模方法構(gòu)建數(shù)學(xué)模型,建模效果會(huì)存在很大差異,發(fā)現(xiàn)只有選取合適的建模方法才能構(gòu)建出高質(zhì)量的近紅外模型。試驗(yàn)結(jié)果表明:(1)經(jīng)過(guò)SNV+1st-Der+Sym4預(yù)處理后,光譜數(shù)據(jù)變得較為平滑,濾除了部分噪聲信息的同時(shí),也降低了光譜數(shù)據(jù)的分散程度。(2)經(jīng)參數(shù)優(yōu)化的MLLE+SVR,構(gòu)建的紅松仁脂肪定量預(yù)測(cè)模型質(zhì)量最佳,降維方法優(yōu)化參數(shù)取值為:components=16,neighbors=30,mean-MSEV為0.646 4,mean-PCCV達(dá)0.914 5。(3)運(yùn)用最優(yōu)參數(shù)模型,對(duì)選取的測(cè)試集25份紅松仁樣本進(jìn)行脂肪定量預(yù)測(cè),并與化學(xué)實(shí)測(cè)結(jié)果進(jìn)行對(duì)比,通過(guò)計(jì)算得MRE=0.999 2%。由此可見(jiàn),采用本研究方法對(duì)紅松仁脂肪進(jìn)行定量分析是可行的,并且預(yù)測(cè)結(jié)果是可靠的、準(zhǔn)確的,期望通過(guò)本研究的實(shí)現(xiàn),能夠?yàn)榧t松仁脂肪定量檢測(cè)提供一個(gè)新的方法和手段。