鄭培超,鄭 爽,王金梅*,廖香玉,李曉娟,彭 銳
1. 重慶郵電大學(xué)光電工程學(xué)院,光電信息感測(cè)與傳輸技術(shù)重慶重點(diǎn)實(shí)驗(yàn)室,重慶 400065 2. 重慶市中藥研究院,重慶 400065
石斛一年四季均可采摘,但不同產(chǎn)地、不同采收時(shí)間的石斛,功效具有一定的差異,在適合的時(shí)間段采摘才可獲得藥用價(jià)值比較高的石斛。石斛在春天萌發(fā),夏天生長(zhǎng),但是到了十月份左右便不再繼續(xù)生長(zhǎng),冬天是石斛營(yíng)養(yǎng)儲(chǔ)蓄的階段。這個(gè)階段石斛內(nèi)部的光合作用不是很強(qiáng),含有的氨基酸、多糖和微量元素都處在一年中的峰值;其藥用成分累積在莖條中,這時(shí)采摘的石斛比較適用于藥用[1]。然而石斛中部分未知成分的存在,在分析和質(zhì)量控制方面存在很大的挑戰(zhàn),嚴(yán)重限制石斛的廣泛應(yīng)用,因此,石斛的鑒別對(duì)其使用和加工具有重要意義。常用的中藥材檢測(cè)技術(shù),如原子薄層色譜法[2]、氣相色譜分析[3]和電感耦合等離子體發(fā)射光譜法[4]等。雖然具有較高的檢測(cè)精度、穩(wěn)定度等優(yōu)點(diǎn),然而需要對(duì)實(shí)驗(yàn)樣品進(jìn)行繁瑣的化學(xué)預(yù)處理,檢測(cè)周期長(zhǎng)同時(shí)容易產(chǎn)生二次污染,所以,迫切需要發(fā)展一種方便、迅速的中藥材檢測(cè)技術(shù)。
激光誘導(dǎo)擊穿光譜(laser-induced breakdown spectroscopy, LIBS)是近幾年以來(lái)迅速發(fā)展的一種多元素分析技術(shù),具有快速響應(yīng)、遠(yuǎn)程檢測(cè)能力、高靈敏度和樣品制備簡(jiǎn)單等固有優(yōu)勢(shì),被廣泛應(yīng)用于地質(zhì)勘探[5]、能源分析[6-7]和食品安全[8-9]等。近年來(lái),LIBS技術(shù)逐漸應(yīng)用于中藥材的檢測(cè),劉曉娜[10]等采用LIBS對(duì)樹(shù)脂類藥材的元素進(jìn)行快速分析,通過(guò)主成分分析和偏最小二乘判別方法對(duì)3類樹(shù)脂類藥材進(jìn)行鑒別。Rai等[11]使用LIBS對(duì)草藥制劑中存在的元素種類進(jìn)行分析。我們課題組[12-13]采用LIBS對(duì)中藥川芎中鉛(Pb)和銅(Cu)進(jìn)行了定量分析,結(jié)合主成分分析和人工神經(jīng)網(wǎng)絡(luò)對(duì)不同產(chǎn)地和部位的當(dāng)歸、黨參、白芷根等進(jìn)行了分析鑒定。然而,少有關(guān)于利用LIBS技術(shù)對(duì)不同等級(jí)石斛的識(shí)別和定量分析的報(bào)道。
不同時(shí)間采集的石斛中氨基酸、多糖、微量元素含量各不同,價(jià)格也不同,在中藥材市場(chǎng),通常會(huì)以出售價(jià)格和品相區(qū)分不同等級(jí)規(guī)格的石斛,但是當(dāng)人工無(wú)法辨別時(shí),可能引起相似藥材的以假充次,導(dǎo)致治療效果低甚至損害人的身體。因此,石斛的等級(jí)識(shí)別對(duì)藥材的使用是有幫助的,為此,基于中藥材石斛樣品的LIBS光譜圖建立了隨機(jī)森林分類(random forests, RF)模型,實(shí)現(xiàn)了石斛等級(jí)的快速鑒別。
RF分類模型由i個(gè)決策樹(shù)模型{H(x,Θi),i=1, 2, …,i}組合而成,其中{Θi,i=1, 2, …,i}為獨(dú)立同分布的隨機(jī)向量,通過(guò)i次訓(xùn)練,獲得一個(gè)分類模型序列組{H1(x),H2(x), …,Hi(x)}[14],用其構(gòu)建一個(gè)多分類的系統(tǒng),最優(yōu)分類的結(jié)果為獲得票數(shù)最多的,最終的分類決策
其中,h(x)為組合分類模型,Hi為單個(gè)決策樹(shù)分類模型,y表示輸出變量,M(·)為示性函數(shù)[14]。每次構(gòu)建決策樹(shù)時(shí),通過(guò)重復(fù)抽樣得到一個(gè)數(shù)據(jù)用于訓(xùn)練決策樹(shù),還有大約1/e(e為自然常數(shù))的數(shù)據(jù)未被利用,該部分?jǐn)?shù)據(jù)可以用于對(duì)決策樹(shù)的性能進(jìn)行評(píng)估,計(jì)算模型的預(yù)測(cè)錯(cuò)誤率,稱為袋外數(shù)據(jù)誤差(out-of-bag error, OOB error)。
所用的石斛樣品均采購(gòu)于重慶中藥材市場(chǎng),石斛樣品均產(chǎn)自于同一產(chǎn)地(浙江),由于不同采收時(shí)間的石斛中微量元素含量各不相同,價(jià)格有一定的差異,根據(jù)價(jià)格對(duì)石斛設(shè)定五個(gè)等級(jí),等級(jí)一、二、三、四、五對(duì)應(yīng)的市場(chǎng)價(jià)分別為90元/50 g、70元/50 g、65元/50 g、60元/50 g、30元/50 g。為了對(duì)樣品進(jìn)行精確穩(wěn)定分析,所有石斛樣品均通過(guò)粉碎壓片的方式減小實(shí)驗(yàn)誤差。
實(shí)驗(yàn)裝置如圖1所示,激發(fā)光源為1 064 nm波長(zhǎng)Nd∶YAG脈沖激光器(Quantel Ultra 100,法國(guó)Quantel),重復(fù)頻率20 Hz可調(diào),輸出的激光能量1~100 mJ可調(diào)。樣品直接放置于三維移動(dòng)平臺(tái)上,激光器發(fā)出的高能激光經(jīng)反射鏡反射之后,由焦距為100 mm的石英平凸透鏡聚焦到位于平臺(tái)上的石斛樣品表面。樣品被激發(fā)產(chǎn)生高溫等離子體,發(fā)出的光由光纖耦合傳輸?shù)蕉嗤ǖ拦庾V儀(MX2500+,海洋光學(xué)),光譜范圍達(dá)198~877 nm,最高分辨率優(yōu)于0.1 nm,最后由電腦記錄采集的光譜。
圖1 LIBS裝置示意圖
根據(jù)課題組之前的研究經(jīng)驗(yàn)[12-13]選取激光脈沖能量為50 mJ,探測(cè)延時(shí)為1 μs,利用MaxLIBS(版本1.0)軟件采集光譜數(shù)據(jù),在樣品表面不同采樣點(diǎn)進(jìn)行采集,光譜數(shù)據(jù)是5次采集光譜的平均值,每個(gè)等級(jí)的石斛采集40組光譜,共200組數(shù)據(jù)用于后續(xù)分析。
采集石斛樣品200~880 nm范圍的光譜圖,由圖2可以看出,在石斛等離子體光譜中出現(xiàn)了Ca,Na,Al,K,F(xiàn)e和Mg等金屬譜線,同時(shí)也出現(xiàn)了C,H和O等元素譜線以及CN分子的輻射,另外,一些微量元素如Cr和Cu在光譜中也能看到。而在其他文獻(xiàn)中所提到的石斛中的Hg,As,Pb和Cd等元素在本實(shí)驗(yàn)中未被發(fā)現(xiàn)[1],可能是這些元素在石斛中含量很少并且難以激發(fā)。
圖2 等級(jí)1的石斛樣品等離子體光譜
在光譜采集過(guò)程中,樣品環(huán)境變化的影響,導(dǎo)致每次采集的光譜有輕微的差異,為了補(bǔ)償由環(huán)境變化引起的光譜變化,所有的光譜數(shù)據(jù)均進(jìn)行歸一化處理,使所有的數(shù)據(jù)轉(zhuǎn)換到-1~1之間。歸一化處理后的光譜數(shù)據(jù)采用PCA進(jìn)行降維,其中前7個(gè)主成分累積解釋了全譜數(shù)據(jù)信息的95.24%,因此選取前七個(gè)主成分做進(jìn)一步分析。
從圖3可以看出,等級(jí)1和4的樣品能比較明顯被識(shí)別,顯示出良好的聚類效果,但其他三個(gè)樣品大部分重疊,為了提高光譜準(zhǔn)確識(shí)別率,引入隨機(jī)森林模型進(jìn)行分析。以7個(gè)主成分作為輸入,所有樣本編號(hào)打亂,隨機(jī)選取50%的光譜數(shù)據(jù)作為訓(xùn)練集,剩下50%的光譜數(shù)據(jù)作為測(cè)試集,默認(rèn)決策樹(shù)個(gè)數(shù)ntree為500和分裂屬性集中的屬性個(gè)數(shù)mtry為5,建立模型進(jìn)行訓(xùn)練。最終的結(jié)果為同一數(shù)據(jù)集30次重復(fù)測(cè)試平均結(jié)果,每次運(yùn)行結(jié)果均一致,分類模型具有良好的穩(wěn)定性,分類結(jié)果如表1。
表1 隨機(jī)森林分類模型結(jié)合LIBS對(duì)石斛的等級(jí)預(yù)測(cè)結(jié)果Table 1 The prediction results of Dendrobium by RF classification model combined with LIBS
通過(guò)袋外誤差估計(jì)研究了不同的ntree和mtry對(duì)分類模型的影響,如圖4所示,當(dāng)ntree達(dá)到一定值時(shí),分類器的泛化誤差趨于有限上界,即如果ntree增加到最優(yōu)值以上,運(yùn)行速度一般會(huì)變慢,但結(jié)果并沒(méi)有顯著改善。從袋外錯(cuò)誤率來(lái)看,選擇參數(shù)ntree為300,mtry為1為最優(yōu)參數(shù)對(duì)五種不同等級(jí)的石斛進(jìn)行分類,結(jié)果如表1所示。
圖4 決策樹(shù)個(gè)數(shù)和屬性個(gè)數(shù)優(yōu)化趨勢(shì)圖
可以看出優(yōu)化后的隨機(jī)森林模型對(duì)石斛的等級(jí)鑒別平均識(shí)別率為96.46%,其中等級(jí)1的石斛是最優(yōu)質(zhì)的,其品質(zhì)較其他等級(jí)有很大的區(qū)別,等級(jí)4的石斛為人工加工的耳環(huán)石斛,由于加工過(guò)程中破壞了樣品的角質(zhì)層,所以石斛形態(tài)及所含膠質(zhì)有較大區(qū)別,易于鑒別出來(lái)。等級(jí)3與等級(jí)5分辨率較差,可能在主成分分析中,提取出的前七個(gè)主成分雖然闡述了石斛原始輸入數(shù)據(jù)的大部分信息,消除了局部相互重疊的信息,但是沒(méi)有考慮主成分對(duì)輸出變量的解釋能力,可能導(dǎo)致部分等級(jí)分辨率效果較差。
采用隨機(jī)森林對(duì)五個(gè)不同價(jià)格等級(jí)的石斛進(jìn)行鑒定,隨機(jī)森林模型采用的7個(gè)主成分作為輸入,默認(rèn)決策樹(shù)的顆數(shù)ntree為500,分裂屬性集中的屬性個(gè)數(shù)mtry為5,平均識(shí)別率為90.57%,通過(guò)優(yōu)化,選擇參數(shù)ntree為300,mtry為1,平均識(shí)別率提高了5.89%。這表明LIBS技術(shù)結(jié)合隨機(jī)森林模型對(duì)不同等級(jí)的中藥材進(jìn)行鑒別是可行的,拓寬了中藥材鑒別的方法,為未來(lái)快速鑒別中藥材等級(jí)鑒別提供了新的可能性。