沈歡超,耿瑩蕊,倪鴻飛,王 輝,吳繼忠,廖 付,陳 勇,劉雪松*
(1.浙江大學(xué) 藥學(xué)院,浙江 杭州 310058;2.浙江大學(xué) 智能創(chuàng)新藥物研究院,浙江 杭州 310018;3.浙江中煙工業(yè)有限責(zé)任公司技術(shù)中心,浙江 杭州 310008)
烤煙作為工業(yè)卷煙的重要原料,等級(jí)判定是其質(zhì)量評(píng)價(jià)的重要工作。煙葉等級(jí)的主要考量因素有煙葉的著生部位、顏色等,國(guó)家烤煙標(biāo)準(zhǔn)將其分為42個(gè)等級(jí)。目前,煙葉的分級(jí)主要依賴行業(yè)專家的感官評(píng)判,而個(gè)人的主觀差異將影響分級(jí)結(jié)果。因此,采用智能化手段實(shí)現(xiàn)煙葉等級(jí)判定是煙草工業(yè)評(píng)判煙葉品質(zhì)的未來(lái)發(fā)展趨勢(shì)。
近紅外光譜技術(shù)(NIRs)具有快速、無(wú)損、操作簡(jiǎn)便等優(yōu)點(diǎn),已廣泛應(yīng)用于農(nóng)業(yè)[1-2]、石化[3-4]、食品[5-6]、醫(yī)藥[7-9]等領(lǐng)域,是一種極具潛力的化學(xué)分析手段。不少學(xué)者已將其應(yīng)用于烤煙等級(jí)判定領(lǐng)域,李士靜等[10]比較了不同預(yù)處理方法、不同分類模型以及不同特征波段數(shù)量對(duì)2 個(gè)數(shù)據(jù)集煙葉分類正確率的影響,但煙葉上部與中部數(shù)據(jù)集的樣本容量較小。王超等[11]基于2018 年不同產(chǎn)地的768 份烤煙煙葉樣品,分別建立了全國(guó)和分產(chǎn)區(qū)的偏最小二乘判別分析(PLS-DA)等級(jí)預(yù)測(cè)模型,在類別量化中采用連續(xù)數(shù)字編碼方式,使用定量模型實(shí)現(xiàn)質(zhì)量定性判別具有一定創(chuàng)新性,但其建立的模型預(yù)測(cè)準(zhǔn)確度較低。賓俊等[12]首次提出基于品質(zhì)相似、價(jià)格接近的煙葉分組方法,將極限學(xué)習(xí)機(jī)(ELM)應(yīng)用于烤煙煙葉的分級(jí)判別,但與常規(guī)的煙葉分級(jí)標(biāo)準(zhǔn)不同,可推廣性不強(qiáng)。
極限學(xué)習(xí)機(jī)由Huang 等[13]于2006 年提出并完善,是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)(SLFNs),具有學(xué)習(xí)速度快、泛化能力強(qiáng)的優(yōu)點(diǎn),在函數(shù)逼近與模式分類領(lǐng)域有著廣泛的應(yīng)用[14-15]。教與學(xué)優(yōu)化(TLBO)算法由Rao 等[16]于2011 年提出,是一種模擬課堂教學(xué)的基于群體的啟發(fā)式優(yōu)化算法。該算法的參數(shù)設(shè)置簡(jiǎn)單,收斂速度快,精度高,在許多工程優(yōu)化問(wèn)題中得到了應(yīng)用[17-18]。
本研究基于近紅外光譜技術(shù),比較了競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣方法[19](CARS)、蒙特卡洛無(wú)信息變量消除法[20](MC-UVE)以及隨機(jī)青蛙算法[21](RF)3種變量篩選方法,通過(guò)與常規(guī)PLS-DA模型的比較驗(yàn)證了ELM模型的優(yōu)勢(shì),首次將TLBO算法用于ELM烤煙等級(jí)判定模型優(yōu)化,在降低建模成本的同時(shí),提高了SLFNs的泛化能力,實(shí)現(xiàn)了對(duì)廣泛性分布烤煙樣本的等級(jí)判定。
煙葉樣本采集于2016~2018 年,包含來(lái)自全國(guó)13 個(gè)省份的上部煙葉(B)、中部煙葉(C)和下部煙葉(X),共937 份,樣本產(chǎn)地來(lái)源分布見(jiàn)表1。煙葉的近紅外光譜數(shù)據(jù)及其等級(jí)標(biāo)簽均由浙江中煙工業(yè)有限公司提供。使用MATLAB(R2020b)軟件進(jìn)行數(shù)據(jù)處理。
表1 樣本的不同產(chǎn)地來(lái)源及各部位分布Table 1 Distribution of samples from different places of origin and parts
1.2.1 極限學(xué)習(xí)機(jī)(ELM) ELM 是一種新型的快速學(xué)習(xí)算法,包含輸入層、隱含層和輸出層(如圖1)。在算法運(yùn)行過(guò)程中,隨機(jī)產(chǎn)生輸入層到隱含層的權(quán)值以及隱含層節(jié)點(diǎn)的偏置,計(jì)算得到隱含層到輸出層的權(quán)值。
圖1 ELM的基礎(chǔ)結(jié)構(gòu)Fig.1 Basic structure of ELM
給定訓(xùn)練集D= {(xi,ti)},i= 1,2,...,n,xi是d×1 的輸入向量,ti是k×1 的目標(biāo)輸出向量,對(duì)于具有m個(gè)隱含層節(jié)點(diǎn)數(shù)的SLFNs 與激活函數(shù)g(x)的數(shù)學(xué)模型可表示為:
其中,βj=[βj1,βj2,...,βjm]T,是連接第j個(gè)隱含層節(jié)點(diǎn)和輸出節(jié)點(diǎn)的權(quán)值向量;wj=[wj1,wj2,...,wjd],是連接輸入節(jié)點(diǎn)與第j個(gè)隱含層節(jié)點(diǎn)的權(quán)值向量;bj是第j個(gè)隱含層節(jié)點(diǎn)的偏置。wj和bj均隨機(jī)產(chǎn)生,且滿足:
式(2)可簡(jiǎn)寫成:
其中
且
H是隱含層的輸出矩陣,H的第i行是輸入xi時(shí)隱含層的輸出向量,H的第j列是輸入為x1,x2,...,xn時(shí)第j個(gè)隱含層節(jié)點(diǎn)的輸出向量。T是目標(biāo)輸出矩陣。
式(3)的最小二乘解為:
H?是H的廣義逆矩陣。
ELM算法如下:
輸入:訓(xùn)練集D={(xi,ti)},激活函數(shù)g(x),隱含層節(jié)點(diǎn)數(shù)m。
輸出:隱含層到輸出層的權(quán)值矩陣β。
第一步:隨機(jī)產(chǎn)生輸入權(quán)值wj和偏置bj,j=1,2,...,m;
第二步:計(jì)算隱含層輸出矩陣H;
第三步:計(jì)算輸出權(quán)值矩陣β=H?T。
1.2.2 教與學(xué)優(yōu)化算法(TLBO) TLBO 的優(yōu)化過(guò)程包括教師階段和學(xué)習(xí)者階段。在教師階段,每個(gè)學(xué)生均向最優(yōu)秀的個(gè)體學(xué)習(xí);在學(xué)習(xí)者階段,每個(gè)學(xué)生均以隨機(jī)的方式向其他學(xué)生學(xué)習(xí)。在TLBO 中,種群被視為一類學(xué)習(xí)者,每個(gè)學(xué)習(xí)者代表著優(yōu)化問(wèn)題的一種可能的解決方案,成績(jī)代表著適應(yīng)度值。在教師階段,教師T是在該種群中具備最大適應(yīng)度值的解決方案,M是該班級(jí)的平均成績(jī)。學(xué)習(xí)者試圖通過(guò)教師的教學(xué)提高班級(jí)的平均成績(jī)。對(duì)于第i個(gè)學(xué)習(xí)者Xi,候選解決方案newXi的計(jì)算公式如下:
ri是在[0,1]之間產(chǎn)生的隨機(jī)數(shù);TF是決定M值的教學(xué)因子,取值為1或2。
在學(xué)習(xí)者階段,每個(gè)學(xué)習(xí)者通過(guò)與隨機(jī)選擇的學(xué)習(xí)者進(jìn)行互動(dòng)來(lái)提高成績(jī)。Xj(i≠j)是從種群中隨機(jī)選取的學(xué)習(xí)者,若要優(yōu)化的目標(biāo)函數(shù)值?(Xj)>?(Xi),則優(yōu)化的解決方案計(jì)算公式如下:
反之,則:
最終得到最佳解決方案newX。
1.2.3 TLBO-ELM 模型 本研究旨在通過(guò)TLBO 算法對(duì)ELM 運(yùn)算過(guò)程中的隱藏層節(jié)點(diǎn)數(shù)進(jìn)行尋優(yōu),使TLBO-ELM烤煙等級(jí)判定模型達(dá)到更高的分類正確率。
TLBO-ELM算法如下:
第一步:輸入訓(xùn)練集D={(xi,ti)},激活函數(shù)g(x),學(xué)生數(shù)nPop,最大迭代次數(shù)MaxIt,變量數(shù)nVar,變量取值范圍VarMin及VarMax;
第二步:初始化,每次TLBO的迭代結(jié)果代表一個(gè)包含ELM參數(shù)(權(quán)值wj和偏置bj)與隱藏層節(jié)點(diǎn)數(shù)的解;
第三步:使用適應(yīng)度函數(shù)(本研究中即分類正確率的倒數(shù))對(duì)所有候選解決方案進(jìn)行評(píng)估,當(dāng)?shù)螖?shù)達(dá)到最大值時(shí),停止搜索過(guò)程并返回尋優(yōu)結(jié)果。
由于光譜掃描過(guò)程可能存在人為操作差異或儀器誤差導(dǎo)致采集光譜異常,通常采用化學(xué)計(jì)量學(xué)方法剔除異常值。本研究采用蒙特卡洛交叉驗(yàn)證(MCCV)方法對(duì)937個(gè)樣本進(jìn)行異常點(diǎn)剔除。
根據(jù)文獻(xiàn)[22],剔除均值(Mean)大于1、標(biāo)準(zhǔn)偏差(STD)大于0.1的樣本。本實(shí)驗(yàn)剔除了24個(gè)異常點(diǎn),剩余913個(gè)樣本。剔除的異常點(diǎn)編號(hào)為881、519、922、520、902、462、19、439、883、621、436、512、389、894、526、897、654、878、137、392、277、346、770、928(見(jiàn)圖2)。
圖2 蒙特卡洛剔除異常點(diǎn)的結(jié)果Fig.2 The results of Monte Carlo elimination of outliers
在除去異常點(diǎn)后,采用Kennard-Stone(K-S)算法[23]以6∶2∶2 劃分訓(xùn)練集、驗(yàn)證集及測(cè)試集。樣本劃分結(jié)果見(jiàn)表2。
表2 樣本劃分結(jié)果Table 2 The results of samples division
為減少光譜噪聲以及基線漂移等對(duì)實(shí)驗(yàn)結(jié)果的影響,本研究采用Savitzky-Golay 卷積平滑[24]方法進(jìn)行光譜預(yù)處理(number of points=15,polynominal order=2,derivative order=1)。
為得到預(yù)測(cè)能力更強(qiáng)、穩(wěn)健性更好的校正模型,首先對(duì)光譜數(shù)據(jù)中的冗余信息進(jìn)行剔除。本研究比較了CARS、MC-UVE以及RF 3種變量篩選方法。上述3種變量篩選方法最終從1 609個(gè)變量中分別篩選出151、66、223個(gè)關(guān)鍵變量。
為比較不同變量篩選方法對(duì)烤煙等級(jí)判定建模效果的影響,設(shè)置相同參數(shù):激活函數(shù)采用Sigmoid(sig)函數(shù),隱藏層節(jié)點(diǎn)數(shù)設(shè)為50,分別建立ELM 模型。考慮到ELM 建模過(guò)程中存在一定的隨機(jī)性,以運(yùn)行10次得到的分類正確率均值作為建模效果的評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表3。
表3 不同變量篩選方法的ELM分部位模型效果Table 3 ELM model effect of different variable screening methods in different parts
從正確率的均值結(jié)果來(lái)看,RF 法優(yōu)于CARS 法以及MC-UVE 法,但t檢驗(yàn)結(jié)果表明,3 種變量篩選方法的結(jié)果無(wú)顯著性差異??紤]到3 種變量篩選方法均在一定程度上降低了光譜數(shù)據(jù)維度,且在模型效果無(wú)顯著性差異的情況下,MC-UVE 法從原光譜的1 609個(gè)變量中篩選出66個(gè)關(guān)鍵變量,大大降低了計(jì)算成本,故采用MC-UVE 法進(jìn)行變量篩選。為檢驗(yàn)該模型的泛化能力,使用測(cè)試集對(duì)模型進(jìn)行外部驗(yàn)證,參數(shù)設(shè)置保持一致,以運(yùn)行10 次的結(jié)果均值作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果見(jiàn)表4。外部驗(yàn)證結(jié)果表明該模型表現(xiàn)良好,泛化能力好。
表4 測(cè)試集檢驗(yàn)ELM分部位模型的效果Table 4 The ELM model effect verified by testing set in different parts
通過(guò)建立常規(guī)的PLS-DA烤煙等級(jí)判定模型,與已建立的ELM烤煙等級(jí)判定模型比較,驗(yàn)證ELM模型的優(yōu)勢(shì)與應(yīng)用意義。
PLS-DA 的最佳潛變量數(shù)根據(jù)十折交叉驗(yàn)證確定為24(RMSECVmin=0.375 7)。采用與ELM 模型相同的光譜預(yù)處理方法(SG卷積平滑,number of points=15,polynominal order=2,derivative order=1)及變量篩選方法(MC-UVE)篩選出對(duì)應(yīng)的關(guān)鍵變量,并進(jìn)行計(jì)算。ELM 與PLS-DA 等級(jí)判定模型的結(jié)果比較見(jiàn)表5。PLS-DA模型訓(xùn)練集、驗(yàn)證集以及測(cè)試集預(yù)測(cè)結(jié)果相應(yīng)的混淆矩陣見(jiàn)圖3。
表5 PLS-DA與ELM分部位模型效果的比較Table 5 Comparison of the effects of PLS-DA and ELM models in different parts
表5結(jié)果顯示,使用ELM建立的等級(jí)判定模型訓(xùn)練集、驗(yàn)證集以及測(cè)試集的分部位分類正確率均優(yōu)于傳統(tǒng)的PLS-DA法。由圖3可知,PLS-DA建立的等級(jí)判定模型對(duì)下部煙葉的分類正確率較低,多誤判為中部煙葉,降低了總體分類正確率。因而本研究使用ELM建立等級(jí)判定模型具有現(xiàn)實(shí)意義,在此基礎(chǔ)上使用TLBO進(jìn)行優(yōu)化,突出了本研究的優(yōu)勢(shì)。
圖3 PLS-DA模型預(yù)測(cè)結(jié)果的混淆矩陣Fig.3 Confusion matrix of the prediction results about PLS-DA model A:training set;B:calibration set;C:testing set
盡管前期建立的ELM 模型泛化能力較好,但其分類正確率不佳,因而考慮采用TLBO算法對(duì)其隱含層節(jié)點(diǎn)數(shù)進(jìn)行優(yōu)化。將隱藏層節(jié)點(diǎn)數(shù)最大值設(shè)為250,ELM 激活函數(shù)g(x)= ‘sig’,TLBO 參數(shù)設(shè)置如下:nPop=30,MaxIt=50,nVar=1,VarMin=30,VarMax=250。參數(shù)尋優(yōu)過(guò)程如圖4 所示,得到最佳隱藏層節(jié)點(diǎn)數(shù)為111,適應(yīng)度最小值為1.109 1,驗(yàn)證集的分類正確率提升至90.16%,相較于ELM 模型(83.28%)提升了6.88%。測(cè)試集對(duì)該模型進(jìn)行外部驗(yàn)證,分類正確率達(dá)89.07%,相較于ELM模型(87.38%)略有提高,混淆矩陣結(jié)果見(jiàn)圖5。
圖4 TLBO-ELM的參數(shù)尋優(yōu)過(guò)程Fig.4 Parameter optimization process of TLBO-ELM
由圖5 可知,從測(cè)試集的預(yù)測(cè)結(jié)果分析,上部煙葉的分類準(zhǔn)確率為89.13%,其中10.87%被錯(cuò)分為中部煙葉;中部煙葉的分類準(zhǔn)確率為89.83%,其中7.63%被錯(cuò)分為上部煙葉,2.54%被錯(cuò)分為下部煙葉;下部煙葉的分類準(zhǔn)確率為84.21%,其中15.79%被錯(cuò)分為中部煙葉。盡管存在錯(cuò)誤預(yù)測(cè)的情況,但普遍被誤判為相鄰類,分類效果在可接受的范圍內(nèi)。且由于整體樣本量不夠大,下部煙葉樣本總體偏少,導(dǎo)致分類結(jié)果的偶然性影響增大,在一定程度上降低了總體分類正確率。
圖5 ELM模型測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣Fig.5 Confusion matrix of the prediction results about ELM model testing set
本研究基于NIRs技術(shù),以2016~2018年來(lái)自13個(gè)省份的937個(gè)烤煙樣本為研究對(duì)象,比較了CARS、MC-UVE、RF 3 種變量篩選方法的ELM模型效果,通過(guò)與PLS-DA模型進(jìn)行比較驗(yàn)證了ELM模型的優(yōu)勢(shì),并通過(guò)TLBO 算法對(duì)ELM 模型進(jìn)行優(yōu)化,建立了烤煙等級(jí)判定模型。首次將TLBO-ELM 應(yīng)用于烤煙等級(jí)判定,TLBO 尋優(yōu)過(guò)程不僅大大減少了ELM 模型反復(fù)嘗試隱藏層節(jié)點(diǎn)數(shù)的時(shí)間,而且將驗(yàn)證集的分類正確率由83.28%提升至90.16%,相較于ELM 模型,正確率提升了6.88%。測(cè)試集的外部驗(yàn)證效果良好,表明TLBO-ELM 模型泛化能力強(qiáng),為烤煙分級(jí)提供了一種新的思路。