李麗霞,張 浩,林宇浩,史 磊,李珊珊,張付杰,*,王 俊
(1.昆明理工大學(xué)現(xiàn)代農(nóng)業(yè)工程學(xué)院,云南 昆明 650500;2.浙江大學(xué)生物系統(tǒng)工程與食品科學(xué)學(xué)院,浙江 杭州 310058)
三七(Panax notoginseng(Burk.) F.H.Chen),又名文州三七,為五加科(Araliaceae)人參屬(Panax)植物,是臨床常用傳統(tǒng)中藥[1]。三七商品有主根、剪口、側(cè)根、須根的劃分,不同部位的藥用成分構(gòu)成有較大差異,臨床功效也不盡相同[2]。現(xiàn)代藥理學(xué)研究表明,三七總皂苷(Panax notoginsengsaponins,PNS)是三七藥效的主要物質(zhì)基礎(chǔ)[3]。根據(jù)GB/T 19086—2008《文山三七地理標(biāo)志產(chǎn)品》,三七不同部位總皂苷含量從高到低依次為剪口、主根、側(cè)根、須根。三七的主要商業(yè)價值在于剪口和主根,三七粉是三七的主要消費和商品形式[4]。剪口、主根、側(cè)根和須根等形態(tài)相對簡單,很容易通過外觀鑒別,但在粉末狀態(tài)下,它們的顏色相同,通過肉眼很難對其進(jìn)行鑒別[5]。所以,市場上一些不良商家會利用三七側(cè)根、須根粉假冒主根和剪口粉獲取暴利,這嚴(yán)重擾亂市場秩序,影響了三七的品質(zhì)與藥效。因此,鑒別不同部位的三七粉有利于保證三七的藥效,以及促進(jìn)該產(chǎn)業(yè)的規(guī)范化發(fā)展。
目前,對于三七粉的檢測研究,主要采用高效液相色譜法和近紅外光譜法。其中,高效液相色譜法雖然精度很高,但是操作復(fù)雜,且投入很高,無法達(dá)到快速、無損檢測的要求[6]。近紅外光譜技術(shù)分析樣品具有方便、快速和成本較低等優(yōu)點,但其單色光的譜帶較寬,波長分辨率差,且對溫濕度敏感,抗干擾能力差,導(dǎo)致檢測精度不高[7]。已有研究表明,三七揮發(fā)性成分眾多,且三七不同部位揮發(fā)物有差異[8-10]。因此,可以通過三七粉揮發(fā)物的檢測對不同部位三七粉進(jìn)行鑒別?;谛嵊X仿生技術(shù)的電子鼻操作簡單,且成本相對低廉,是一種分析、檢測復(fù)雜氣味和大多數(shù)揮發(fā)性成分的儀器,具有快速、無損等優(yōu)點[11-12],是實現(xiàn)中藥揮發(fā)物檢測的較佳方法。
迄今為止,電子鼻在農(nóng)業(yè)食品[13-15]、藥材檢測[16-17]、醫(yī)療健康[18-19]、環(huán)境監(jiān)控[20-21]等方面已經(jīng)取得較多應(yīng)用和研究成果。目前,已經(jīng)有一些學(xué)者通過電子鼻檢測不同頭數(shù)三七主根粉揮發(fā)物鑒別三七主根的質(zhì)量等級或者偽品[11,22],也有學(xué)者通過檢測三七主根粉和支根粉的揮發(fā)物判別三七主根、支根的產(chǎn)地[23]。然而,利用電子鼻鑒別不同部位三七粉的報道很少。電子鼻可以快速準(zhǔn)確地檢測出不同的揮發(fā)物類型,通常對一些產(chǎn)品的整體信息提供綜合評估,氣相色譜-質(zhì)譜(gas chromatography-mass spectrometry,GC-MS)主要用于揮發(fā)性物質(zhì)的定性和半定量[24],國內(nèi)外已有許多采用電子鼻結(jié)合GC-MS聯(lián)用技術(shù)研究五加科中藥材揮發(fā)性成分的研究[25-28]。因此,本研究采用電子鼻技術(shù)結(jié)合GC-MS對三七整根粉、剪口粉、主根粉、側(cè)根粉和須根粉5 種三七粉揮發(fā)性成分進(jìn)行分析,從而鑒別這5 種三七粉。
電子鼻數(shù)據(jù)分析主要包括特征提取和模式識別[29],不同的特征提取方法會影響分類效果,合適的特征提取方法應(yīng)該在很大程度上反映電子鼻傳感器的變化[30]。模式識別方法眾多,但仍然需要大量的工作選擇合適的算法表征電子鼻傳感器信號。本研究的重點是探究電子鼻結(jié)合GC-MS在鑒別不同部位三七粉中的潛在應(yīng)用。本研究探究利用金屬氧化物半導(dǎo)體傳感器PEN3電子鼻和GC-MS聯(lián)用技術(shù)鑒別5 種三七粉的可行性,尋找合適的基于電子鼻數(shù)據(jù)的三七粉特征選擇方法和分類模型,旨在應(yīng)用于5 種不同三七粉的鑒別分析。
三七樣品于2017年12月份采自云南文山州。將三七樣品進(jìn)行清洗,清洗后自然干燥,然后將干燥后的三七樣品分為整根、剪口、主根、側(cè)根和須根。最后將樣品用小型粉碎機(jī)進(jìn)行粉碎,粉碎的樣品過60 目篩后裝進(jìn)密封袋封口,保存于4 ℃冰箱備用。
乙酸辛酯(色譜純)、二氯甲烷(分析純)國藥集團(tuán)化學(xué)試劑有限公司。
7890A-5975C GC-MS儀 美國安捷倫公司;德國Airsense公司生產(chǎn)的PEN3型電子鼻系統(tǒng),該電子鼻的氣體傳感器陣列由10 個金屬氧化物半導(dǎo)體傳感器組成,不同傳感器對不同類型的揮發(fā)物靈敏性不同,具體見表1。
表1 PEN3電子鼻傳感器陣列性能特點Table 1 Response characteristics of PEN3 electronic nose sensor arrays
1.3.1 電子鼻檢測
制作5 種不同部位的三七粉樣本,分別為整根粉、剪口粉、主根粉、側(cè)根粉和須根粉,每組24 個樣本,每個樣本為5 g。將各三七粉末樣品分別置于500 mL的燒杯中,立即用保鮮膜密封,在25 ℃室溫靜置60 min,通過頂空進(jìn)樣的方式進(jìn)行采樣。采樣完成后,將氮氣泵入電子鼻,對傳感器進(jìn)行清洗使其恢復(fù)到初始狀態(tài)。電子鼻的檢測參數(shù)為樣品測定間隔時間1 s,清洗傳感器時間180 s,速率600 mL/min,樣品檢測時間120 s,速率400 mL/min。
1.3.2 GC-MS測定
采用頂空固相微萃取對樣品進(jìn)行萃取,GC-MS進(jìn)行分離、鑒定和定量揮發(fā)性化合物。稱取0.5 g樣品于15 mL頂空瓶中,并加入10 μL 2×10-4μL/mL的乙酸辛酯(溶質(zhì))二氯甲烷(溶劑)溶液作為內(nèi)標(biāo)物,用封口膜封口,渦旋振蕩30 s,放入80 ℃水浴鍋中平衡30 min,萃取頭(DVB/CAR/PDMS-50/35 μm)吸附30 min,解吸10 min,每組處理設(shè)置3 個重復(fù)樣品。
GC條件:進(jìn)樣口溫度為250 ℃,不分流,采用HP-5MS色譜柱(30 m×0.25 mm,0.25 μm),載氣為氦氣,流速2 mL/min。升溫程序:初始溫度50 ℃保持2 min,以8 ℃/min的速率升溫至140 ℃,保持0.1 min,然后以4 ℃/min的速率升溫至240 ℃,最后以8 ℃/min的速率升溫至280 ℃,保持3 min。
MS條件:離子化方式為電子電離,電子能量為70 eV,四極桿溫度為150 ℃,離子源溫度為230 ℃,接口溫度為280 ℃,質(zhì)量范圍為30~50 u。
1.4.1 電子鼻數(shù)據(jù)分析
1.4.11 特征提取
檢測模型的精度受氣敏信號特征參量選擇的影響。通過對前人研究分析[31-33],選擇積分值(integralvalue,INV)、平均微分值(average differential value,ADV)、相對穩(wěn)態(tài)平均值(relative steady-state averagevalue,RSAV)、最值(extreme value,EV)、二項式曲線擬合系數(shù)值(binomial curve fitting coefficient value,BFV)(a,b,c)作為三七粉電子鼻信號的特征,5 種特征分述如下:
1)INV:是傳感器響應(yīng)信號曲線與X軸組成區(qū)域的面積,反映了該傳感器對被測對象揮發(fā)性成分的總體響應(yīng)結(jié)果,本研究取0~120 s時間區(qū)間INV為特征值。其計算公式如下:
式中:i為傳感器的序號;f(xi)為第i根傳感器的響應(yīng)曲線函數(shù)。
2)ADV:反映了傳感器響應(yīng)曲線變化的快慢程度,直接體現(xiàn)了氣敏傳感器對氣體響應(yīng)的主流特征信息,取檢測時間為0~120 s,計算公式如下:
式中:i為傳感器的序號;yj為第j秒時第i根電子鼻傳感器的響應(yīng)值。
3)RSAV:氣敏傳感器響應(yīng)曲線存在1 個相對穩(wěn)態(tài)區(qū)間,可用此區(qū)間的平均值表征穩(wěn)態(tài)特征,本研究選取區(qū)間為101~120 s,計算公式如下:
式中:i為傳感器的序號;f(xi)為第i根傳感器的響應(yīng)曲線函數(shù)。
4)EV:為每條電子鼻響應(yīng)曲線的最大值和最小值。
5)BFV:曲線擬合方法采用解析表達(dá)式逼近離散數(shù)據(jù),擬合參數(shù)作為特征進(jìn)行計算。多項式函數(shù)(polynomial function,PF)是常用的具有魯棒性的曲線擬合模型。本研究用二次多項式用擬合第i根傳感器的響應(yīng)曲線,擬合參數(shù)的系數(shù)用來作為特征值[34],計算公式如下:
式中:i為傳感器序號;a、b、c分別為擬合系數(shù)。
本研究用以上8 個特征表征單個傳感器信號,10 個傳感器共80 個特征數(shù)據(jù),本實驗共有5 種三七粉,每種三七粉有24 個樣本,故特征提取后的數(shù)據(jù)為120×80的特征矩陣。
1.4.12 特征選擇
競爭性自適應(yīng)重加權(quán)算法[35](competitive adaptive reweighted sampling,CARS)是一種快速有效的特征選擇方法。采用偏最小二乘回歸(partial least squares regression,PLSR)系數(shù)的絕對值作為每個變量重要性的評價指標(biāo),通過自適應(yīng)重加權(quán)采樣和指數(shù)衰減函數(shù)技術(shù)進(jìn)行變量選擇,選出具有最小交互驗證均方根誤差(root mean square error of cross validation,RMSECV)的變量子集作為最優(yōu)變量集合。
空間變量迭代收縮算法[36](variable iterative space shrinkage approach,VISSA)基于模型集群分析的思想,通過引入加權(quán)二進(jìn)制采樣方法(weighted binary matrix sampling,WBMS),提取原始數(shù)據(jù)集中的子集,建立基于變量子集的PLSR模型,在每輪采樣中以RMSECV作為指標(biāo)對子模型進(jìn)行排序以獲得最優(yōu)模型,提取出最優(yōu)模型及新的子訓(xùn)練數(shù)據(jù)集,重復(fù)上述過程,直到所有的變量權(quán)重恒定為1或者0,最終得出最優(yōu)模型,選擇出最優(yōu)的特征變量組合。
迭代保留信息變量算法[37](iteratively retains informative variables,IRIV)是一種通過隨機(jī)組和考慮變量之間可能的交互作用策略,在對特征變量進(jìn)行篩選時,IRIV將所有特征變量分為強(qiáng)信息變量、弱信息變量、無信息變量和干擾變量,并在每一次迭代中只保留強(qiáng)信息變量和弱信息變量,直到不出現(xiàn)無信息和干擾變量后才停止迭代。
1.4.13 分類模型
支持向量機(jī)[38](support vector machine,SVM)是一種監(jiān)督式學(xué)習(xí)的方法,與常用算法相比,SVM通常能夠獲得較好分類性能。SVM在有限的樣本下可以實現(xiàn)準(zhǔn)確的狀態(tài)識別,廣泛地應(yīng)用于統(tǒng)計分類以及回歸分析。
最小二乘支持向量機(jī)[39-40](least squares support vector machine,LSSVM)是由SVM變化而來。SVM主要是根據(jù)監(jiān)督學(xué)習(xí)的方法對兩種不同類型的樣本點進(jìn)行分類,SVM決策邊界等同于最大的邊距超平面,它的經(jīng)驗風(fēng)險值是采用鉸鏈損失函數(shù)計算得出,并利用正則化方法進(jìn)行優(yōu)化。LSSVM打破了使用鉸鏈損失函數(shù)對經(jīng)驗風(fēng)險值進(jìn)行求解,而是將SVM中的不等式約束條件轉(zhuǎn)換為簡便的等式約束條件,這一改變將使得Lagrange乘子的求解過程變得方便,并將二次規(guī)劃求解轉(zhuǎn)變?yōu)榍蠼饩€性方程組,使得整個算法的計算過程更加簡便。
極限學(xué)習(xí)機(jī)[41](extreme learning machine,ELM)是一種針對單隱含層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feedforward neural network,SLFN)的算法。與傳統(tǒng)的SLFN訓(xùn)練算法不同,極限學(xué)習(xí)機(jī)隨機(jī)選取輸入層權(quán)重和隱藏層偏置,輸出層權(quán)重通過最小化由訓(xùn)練誤差項和輸出層權(quán)重范數(shù)的正則項構(gòu)成的損失函數(shù),依據(jù)Moore-Penrose(MP)廣義逆矩陣?yán)碚撚嬎憬馕銮蟪?。ELM相比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)可在保證學(xué)習(xí)精度的情況下具有更快的學(xué)習(xí)速度。
1.4.14 智能優(yōu)化算法
灰狼優(yōu)化算法[42](grey wolf optimization,GWO)是受到了灰狼捕食獵物活動的啟發(fā)而開發(fā)的一種優(yōu)化搜索方法,于2014年被Mirjalili等提出,主要步驟如下:根據(jù)優(yōu)化的問題,設(shè)計fitness函數(shù),設(shè)置可行域;初始化狼群的個數(shù)N,每頭狼的位置Xi(i=1,2,...,N),并指定α、β、δ狼的位置,以及它們對應(yīng)的適應(yīng)度fα、fβ、fδ=inf;依次更新每頭狼的位置Xα、Xβ、Xδ,對于第i頭狼,計算其與α、β、δ狼的距離,并產(chǎn)生向三頭狼移動的趨勢項,不斷重復(fù)這一步驟直至α狼群的位置穩(wěn)定。
1.4.2 揮發(fā)物分析
揮發(fā)物成分定性和定量方法:揮發(fā)物各組分的定性主要通過核對計算機(jī)質(zhì)譜庫(NIST11.0),以及比較相關(guān)參考文獻(xiàn)。揮發(fā)物各組分的定量采用峰面積歸一法測算[43],根據(jù)已知質(zhì)量濃度乙酸辛酯的峰面積計算出三七粉樣品中各揮發(fā)物質(zhì)的含量,公式如下:
式中:MX為目標(biāo)化合物的含量/(μg/kg);AX和Ai分別為目標(biāo)化合物的峰面積和內(nèi)標(biāo)化合物的峰面積;Ci為內(nèi)標(biāo)化合物的質(zhì)量濃度/(μg/mL);10為加入標(biāo)品體積(μL);0.5為加入樣品質(zhì)量(g);分子上1000代表1 kg,分母1000代表1000 μL。
經(jīng)G C-M S 聯(lián)用技術(shù)檢測發(fā)現(xiàn),5 種不同部位三七粉揮發(fā)物共有31 種,包括萜烯類17 種,占比43.51%~56.21%;芳香族化合物2 種,占比13.75%~25.77%;烷烴類8 種,占比1.06%~3.51%;烯烴、酸類和醇類4 種,占比26.86%~39.23%。采用Duncan法進(jìn)行多重比較,主要的代表性揮發(fā)物見表2。
由表2可知,5 種不同部位三七粉的揮發(fā)物在成分和含量上均存在差異(P<0.05)。5 種三七粉檢測到的揮發(fā)物總量相互之間差異顯著(P<0.05)(參照總量平均值)。側(cè)根粉未檢測出中苯乙酮和γ-依蘭油烯成分,主根中未檢測出α-杜松烯成分,其余成分在5 種三七粉中均有分布。5 種三七粉相互之間均存在顯著差異(P<0.05)的揮發(fā)物成分是桉油烯醇和香橙烯,無顯著差異(P>0.05)的成分是辛酸。其余萜烯類、芳香族化合物和烷烴成分均存在不同程度的差異(P<0.05)。因此,可以通過電子鼻利用以上化合物含量差異鑒別5 種三七粉。
從圖1可以看出,電子鼻每個傳感器對5 種三七粉均有響應(yīng),且響應(yīng)值的變化均不相同。其中傳感器S2、S6、S8和S9的響應(yīng)值變化顯著高于其他傳感器。傳感器S2具有廣譜響應(yīng)性,揮發(fā)物含量越大,其響應(yīng)值變化越大,萜烯類物質(zhì)在揮發(fā)物中含量占比最高,其對S2響應(yīng)值的變化貢獻(xiàn)率最高。5 種三七粉的萜烯類物質(zhì)在成分和含量上均存在顯著差異(P<0.05),總含量大小依次為整根粉、剪口粉、主根粉、側(cè)根粉、須根粉,與S2的響應(yīng)值變化規(guī)律一致。傳感器S6對烷烴化合物靈敏,其響應(yīng)值的變化從大到小依次為主根粉、剪口粉、整根粉、須根粉、側(cè)根粉,GC-MS聯(lián)用儀分析的結(jié)果(表2)顯示,5 種三七粉烷烴含量高低與S6的響應(yīng)值變化規(guī)律相同。傳感器S8和S9對芳香族化合物靈敏,響應(yīng)值的變化從大到小依次為整根粉、剪口粉、側(cè)根粉、須根粉、主根粉,GC-MS聯(lián)用儀分析結(jié)果顯示5 種三七粉的芳香族化合物在成分和含量上均存在差異(P<0.05),且5 種三七粉芳香族化合物在含量上的差異與電子鼻S8、S9的響應(yīng)值變化差異相同。由以上各樣品的電子鼻傳感器的響應(yīng)曲線差異分析可以表明,電子鼻在不同部位三七粉的鑒別上具有可行性。
圖1 不同部位三七粉的電子鼻傳感器響應(yīng)曲線Fig.1 Response curves of electronic nose sensors for five P. notoginseng powders
特征變量之間存在高沖突數(shù)據(jù)會影響特征融合數(shù)據(jù)的可靠性,繼而會影響分類模型建模結(jié)果,而Pearson相關(guān)系數(shù)在度量數(shù)據(jù)之間的沖突程度上表現(xiàn)良好[44]。以整根粉10 根傳感器響應(yīng)值的INV特征數(shù)據(jù)和整根粉單個傳感器S2響應(yīng)值的8 個特征數(shù)據(jù)為例分析特征數(shù)據(jù)之間的冗余程度。圖2是這兩種不同維度數(shù)據(jù)各自的Pearson相關(guān)矩陣,其中相關(guān)系數(shù)的絕對值越接近1,說明二者之間的相關(guān)性越大;相關(guān)系數(shù)的大小在圖中用橢圓形球的寬窄和顏色表示,正負(fù)用橢圓形球的左偏和右偏表示。由圖2A可知,除S7、S9傳感器外,其余8 個傳感器之間都存在大量冗余信息;由圖2B可知,除了最大值特征T4和BFVb特征T7外,其余6 個特征數(shù)據(jù)之間存在大量冗余信息。所以,需要對特征數(shù)據(jù)進(jìn)行特征降維提高分類模型的精度。
圖2 整根粉兩種不同維度特征數(shù)據(jù)的Pearson相關(guān)系數(shù)矩陣圖Fig.2 Pearson correlation coefficient matrix of two different dimensional feature data of the whole root powder
為了降低特征變量之間數(shù)據(jù)高沖突風(fēng)險,剔除特征之間的冗余信息,挖掘具有重要價值的特征參數(shù),本研究采用CARS、VISSA和IRIV對80 個三七粉特征變量進(jìn)行優(yōu)選,以提高模型的泛化能力和識別準(zhǔn)確率,增強(qiáng)模型的魯棒性。
2.4.1 基于CARS的三七粉特征選擇
在CARS的特征選擇過程中,設(shè)置蒙特卡羅采樣次數(shù)為50,采用5折交叉驗證的方法建立PLSR模型,以RMSECV最小值確定選擇的最優(yōu)特征組合。三七粉的特征選擇過程如圖3所示。從圖3a可以看出,隨著采樣次數(shù)的不斷增加,選擇的特征數(shù)量逐漸減少,且減少趨勢逐漸變緩,體現(xiàn)了CARS在特征選擇過程中的“粗選”和“精選”的過程。從圖3b可以看出,隨著采樣次數(shù)的增加,RMSECV的值呈現(xiàn)先下降后上升的趨勢,在下降的過程中,表明無用信息或者干擾信息正在被剔除,而在上升的過程中,表明有用信息正在被剔除。圖3c為特征選擇過程中各特征變量回歸系數(shù)的趨勢變化,藍(lán)色星號豎線表示最佳采樣位置,此時RMSECV值最低,選擇的特征變量組合最優(yōu)。最終通過CARS篩選出了15 個特征變量。
圖3 三七粉的CARS特征選擇過程Fig.3 CARS feature selection process for P. notoginseng powder
2.4.2 基于VISSA的三七粉特征選擇
在VISSA的特征選擇過程中,設(shè)置每輪WBMS生成的變量個數(shù)為5000,子模型的數(shù)據(jù)集占比為0.05,特征變量的初始權(quán)重為0.5,采用5折交叉驗證的方法建立PLS模型,根據(jù)RMSECV最小值確定最終特征個數(shù)。由圖4可知,隨著選擇的特征變量數(shù)量的增加,RMSECV的值呈先快速下降再趨于穩(wěn)定后又上升的趨勢。當(dāng)特征變量個數(shù)小于16時,RMSECV較大,表明這些特征變量無法準(zhǔn)確表征三七粉特征,當(dāng)特征變量個數(shù)大于28時,RMSECV增加,表明此時的特征變量組合中存在冗余或干擾信息,不利于建模。最終在RMSECV值最小(圖4箭頭)處選擇28 個特征變量。
圖4 三七粉的VISSA特征選擇過程Fig.4 VISSA feature selection process for P. notoginseng powder
2.4.3 基于IRIV的三七粉特征選擇
在IRIV特征選擇的過程中,采用5折交叉驗證的方法建立PLS模型,然后以RMSECV作為評價指標(biāo)選擇特征變量。在每次迭代中,IRIV均會剔除一些無用和干擾的特征變量,保留有用的特征。圖5為IRIV選擇特征變量數(shù)量的過程,經(jīng)過10 次迭代后,特征變量個數(shù)穩(wěn)定在16 個,再經(jīng)過反向消除無關(guān)變量和干擾變量后,最終保留了14 個特征。
圖5 三七粉的IRIV特征選擇過程Fig.5 IRIV feature selection process for P. notoginseng powder
2.4.4 3 種算法特征選擇結(jié)果分析
采用CARS、VISSA和IRIV對特征進(jìn)行選擇后分別得到15、28、14 個特征變量。3 種算法選擇后的特征變量分布如圖6所示,其中橫坐標(biāo)表示10 根電子鼻傳感器響應(yīng)值的特征變量編號,1~8、101~108分別代表電子鼻傳感器S1~S10響應(yīng)值的INV、ADV、RSAV、最大值、最小值、BFVa、b、c,8 個特征,縱坐標(biāo)表示特征選擇算法的類別。CARS選擇的15 個特征中,8 個是BFV特征,占比最大;6 個是EV特征,關(guān)于S2、S6、S8、S9四根傳感器的特征有5 個,占比為1/3。VISSA選擇的特征最多,共28 個,其中16 個是BFV特征,占比最大;剩下的主要是相對平均穩(wěn)態(tài)值和最大值,關(guān)于S2、S6、S8、S9四根傳感器的特征有14 個,占比為1/2。IRIV選擇的特征最少,共14 個,其中9 個是BFV特征,占比最大;而關(guān)于S2、S6、S8、S9四根傳感器的特征也是9 個,占比大于1/2。綜上,3 種特征選擇算法選擇的特征中占比最大的都是傳感器響應(yīng)曲線的BFV(a,b,c),說明其最能夠表征電子鼻信號;其中VISSA、IRIV選擇的關(guān)于S2、S6、S8、S9四根傳感器的特征比例占到了1/2及以上,說明在5 種三七粉的10 根電子鼻響應(yīng)信號中,這4 根傳感器的差異最大,與2.2節(jié)的分析一致。
圖6 3 種特征選擇算法優(yōu)選后的三七粉特征變量分布Fig.6 Feature variable distribution of P. notoginseng powder optimized by three feature selection algorithms
采用KS(Kennard-Stone)算法對數(shù)據(jù)進(jìn)行劃分訓(xùn)練集和測試集,將每類三七粉的24 個樣本中的16 個作為訓(xùn)練集,其余8 個作為測試集,該方法的優(yōu)點是能保證訓(xùn)練集中的樣本按照空間距離分布均勻,能夠增加模型的泛化能力[45]。分別建立基于特征提取數(shù)據(jù)和3 種特征選擇數(shù)據(jù)的SVM、ELM和LSSVM的三七粉電子鼻信號識別模型,并進(jìn)行對比,探究3 種分類模型對三七粉的識別效果,以及特征選擇算法對降低模型復(fù)雜度和提高模型精度的實際效果。其中,SVM和LSSVM的核函數(shù)選用徑向基核函數(shù),參數(shù)c、g、gam和sig2均設(shè)為默認(rèn)值,ELM的最佳隱含層神經(jīng)元個數(shù)設(shè)置為100,激活函數(shù)選擇線性整流函數(shù)(ReLU)。同時本研究使用測試集的準(zhǔn)確率進(jìn)行模型評價。各建模方法建模結(jié)果如表3所示。
表3 不同建模方法的三七粉識別準(zhǔn)確率Table 3 Identification accuracy of P. notoginseng powder by different modeling methods
由表3可知,基于原始數(shù)據(jù)和CARS、VISSA、IRIV 3 種特征選擇算法數(shù)據(jù)的3 種分類模型的測試集平均準(zhǔn)確率分別為72.5%、80%、84.17%和88.33%。基于3 種特征選擇數(shù)據(jù)模型的平均分類精度都高于原始數(shù)據(jù),其中IRIV數(shù)據(jù)的平均分類精度最高,比原始數(shù)據(jù)提高了15.83%,這驗證了特征選擇的必要性。對比3 種分類算法,基于原始數(shù)據(jù)和3 種特征選擇數(shù)據(jù)的LSSVM模型都表現(xiàn)出了最好的效果,基于IRIV數(shù)據(jù)的LSSVM模型的測試集準(zhǔn)確率最高,達(dá)到了90%。由圖6可知,IRIV選擇的關(guān)于S2、S6、S8、S9四根傳感器的特征占比最高,大于1/2,而這4 根傳感器檢測的是烷烴、芳香族化合物和揮發(fā)物總量,由表2可知,5 種三七粉揮發(fā)物總量、烷烴和芳香族化合物均差異顯著,這解釋了IRIV選擇的特征個數(shù)最少,但效果最好的原因。綜上所述,本研究采用分類效果最好的IRIV-LSSVM模型作為5 種三七粉分類模型。
LSSVM算法分類精度的高低主要取決于其懲罰因子gam和核參數(shù)sig2,因此,為了進(jìn)一步提高模型的分類精度,本研究引入智能優(yōu)化算法GWO對LSSVM中的gam和sig2進(jìn)行優(yōu)化。GWO的最大迭代次數(shù)設(shè)置為50,種群大小設(shè)置為20,參數(shù)gam和sig2的搜索范圍設(shè)置為[2-10,210],經(jīng)過50 次迭代后,優(yōu)化模型得出最優(yōu)解,優(yōu)化建模結(jié)果如表4所示。
表4 基于GWO的IRIV-LSSVM建模結(jié)果Table 4 Results of IRIV-LSSVM modeling based on GWO
從表3、4可以看出,優(yōu)化后分類模型的測試集準(zhǔn)確率相較于優(yōu)化前,提高了7.5%,說明最優(yōu)懲gam和sig2對提高LSSVM分類精度至關(guān)重要。
如圖7所示,其中整根粉、剪口粉、主根粉、側(cè)根粉、須根粉的測試集識別準(zhǔn)確率分別為100%、100%、100%、87.5%和100%,平均分級準(zhǔn)確率為97.5%;其中,有一個側(cè)根粉樣本分錯成了須根粉,由圖1電子鼻響應(yīng)曲線結(jié)果和IRIV選擇的特征結(jié)果可以推測是此樣本的S2、S6、S8、S9四根傳感器的響應(yīng)曲線與須根粉更相似。以上表明,此模型能夠正確地鑒別整根粉、剪口粉、主根粉和須根粉,對市場上用側(cè)根粉和須根粉冒充主根粉和剪口粉提供了一種鑒別方法。
圖7 IRIV-GWO-LSSVM的測試集混淆矩陣Fig.7 Test set confusion matrix of IRIV-GWO-LSSVM
采用電子鼻和GC-MS對5 種不同部位的三七粉樣品進(jìn)行分析、鑒別。從5 種樣品中鑒定出了31 種成分,對其中15 種主要成分進(jìn)行分析,主要成分在種類和含量上都有差異,特別是揮發(fā)物總量、烷烴和芳香族化合物差異顯著。通過特征提取和模型優(yōu)化兩種方法提高了電子鼻對三七粉的識別準(zhǔn)確率,IRIV選擇的特征是能夠體現(xiàn)烷烴、芳香族化合物和揮發(fā)物總量差異的4 根傳感器響應(yīng)值的特征。最優(yōu)的GWO-IRIV-LSSVM模型可對道地產(chǎn)區(qū)文山5 種不同部位三七粉進(jìn)行有效區(qū)分,測試集準(zhǔn)確率為97.5%。證實了一些重要化合物的含量在5 種樣品中存在顯著差異。該方法可對道地產(chǎn)區(qū)文山不同部位三七粉客觀、高效、準(zhǔn)確地鑒別,可用于道地產(chǎn)區(qū)優(yōu)質(zhì)三七粉混入劣質(zhì)三七粉的檢測。