孫成玉,焦 龍*,閆春華,王彩玲,王 薇,張晟瑞,王 芹
(1.西安石油大學(xué) 化學(xué)化工學(xué)院,西安 710065;2.西安石油大學(xué) 計(jì)算機(jī)學(xué)院,西安 710065;3. 陜西中醫(yī)藥大學(xué) 藥學(xué)院,咸陽(yáng) 712046;4.陜西理工大學(xué) 化學(xué)與環(huán)境科學(xué)學(xué)院,漢中 723000)
丹參是目前治療心血管疾病的常用藥物,具有多種顯著的醫(yī)學(xué)作用[1-3],如抗氧化、抗動(dòng)脈粥樣硬化、抗腫瘤、預(yù)防腦卒中、降低血糖等。不同來(lái)源的丹參因生長(zhǎng)環(huán)境、栽培措施、采收時(shí)間、加工方法等各不相同而導(dǎo)致藥材質(zhì)量差異較大。根據(jù)形態(tài)主觀判斷或進(jìn)行活性成分含量對(duì)比是鑒定丹參來(lái)源的主要傳統(tǒng)方法,但丹參的形態(tài)或活性成分含量相似時(shí),這些方法的準(zhǔn)確度則會(huì)受到影響。此外,通過(guò)活性成分的差異鑒別,常需要經(jīng)過(guò)復(fù)雜的樣品制備及預(yù)處理[4],效率不高。因此,需要構(gòu)建一種鑒別不同來(lái)源丹參樣品的快速有效、準(zhǔn)確可靠方法。
高光譜技術(shù)具有快速、實(shí)時(shí)、無(wú)損檢測(cè)等優(yōu)點(diǎn)[5-7],可用于地質(zhì)勘查[7]、工業(yè)過(guò)程分析[8]、科學(xué)考古[9]、醫(yī)學(xué)診斷[10]、農(nóng)業(yè)及環(huán)境監(jiān)測(cè)[11-12]等領(lǐng)域。高光譜技術(shù)已被成功應(yīng)用于梔子、紅參、甘草等中藥材的分析鑒別(如產(chǎn)地鑒別等)[13-15]。人工神經(jīng)網(wǎng)絡(luò)法(ANN)具有強(qiáng)大的輸入輸出非線性映射能力、自我適應(yīng)能力和學(xué)習(xí)能力[16]。采用高光譜技術(shù)結(jié)合ANN[17]建模的定性分析,已被應(yīng)用于諸如杭白菊、阿膠、纈草等中藥材的產(chǎn)地識(shí)別[18]、摻假鑒別[19]及元素檢測(cè)[20]等方面。
因此,本工作將反向傳播-人工神經(jīng)網(wǎng)絡(luò)法(BP-ANN)與高光譜技術(shù)相結(jié)合,提出了不同來(lái)源丹參飲片的鑒別方法,并研究了不同光譜預(yù)處理方法對(duì)模型的影響。
9批不同來(lái)源的丹參飲片樣品,均以中藥飲片的形式從西安醫(yī)藥市場(chǎng)購(gòu)買。其中,1#、2#樣本(Shandong A,Shandong B)產(chǎn)自山東省,3#~5#樣本(Hebei A,Hebei B,Hebei C)產(chǎn)自河北省,6#樣本(Henan)產(chǎn)自河南省,7#樣本(Shanxi)產(chǎn)自山西省,8#樣本(Shaanxi)產(chǎn)自陜西省,9#樣品(Anhui)產(chǎn)自安徽省。所有試驗(yàn)樣品均由陜西中醫(yī)藥大學(xué)藥學(xué)院王薇教授鑒定為丹參(SalviaMiltiorrhizaRadix et Rhizoma)飲片。
使用FieldSpec4型便攜式地物光譜儀進(jìn)行丹參樣品的高光譜采集。將丹參飲片置于地物光譜儀的樣品夾中并夾緊,保持樣品夾密閉,防止環(huán)境光干擾,并利用樣品夾中自帶的光源進(jìn)行高光譜采集。測(cè)試之前,儀器先預(yù)熱30 min,然后使用標(biāo)準(zhǔn)白板對(duì)其進(jìn)行校正;每個(gè)光譜數(shù)據(jù)的采集時(shí)間為0.2 s,波長(zhǎng)范圍為350~2 500 nm,分辨率1 nm,共2 151個(gè)輸出波長(zhǎng)。為提高光譜的穩(wěn)定性,以平行采集3次的平均光譜作為樣品的光譜,從每批丹參飲片中選擇120個(gè)樣品進(jìn)行光譜采集,共得到1 080組光譜。
BP-ANN是單向傳播的多層前向網(wǎng)絡(luò),由輸入層、隱含層和輸出層組成,利用該網(wǎng)絡(luò)可以實(shí)現(xiàn)輸入-輸出的非線性映射。BP-ANN模型的學(xué)習(xí)過(guò)程由正向傳播和反向傳播組成,正向傳播計(jì)算如公式(1)、(2)所示:
(1)
(2)
式中:i、j、k分別表示輸入層、隱含層、輸出層的神經(jīng)元個(gè)數(shù);yh表示隱含層的輸出;f1表示輸入層到隱含層的Sigmoid傳遞函數(shù);wij表示輸入層與隱含層間的權(quán)值;li表示輸入層的數(shù)值,即為丹參高光譜;Cj表示輸出層的輸出值,即為不同來(lái)源丹參飲片;f2表示隱含層到輸出層的線性傳遞函數(shù);wjk表示隱含層與輸出層的權(quán)值。
反向傳播公式為
Ep=(tpj-ypj)2
(3)
式中:Ep表示輸出值的誤差;tpj表示期望輸出值,ypj表示實(shí)際輸出值。li通過(guò)f1的非線性變換處理,再經(jīng)過(guò)線性變換傳入輸出層,如果輸出層沒(méi)有達(dá)到期望值,則把Ep反向傳播回去,以此對(duì)各層神經(jīng)元之間的權(quán)值進(jìn)行迭代調(diào)整,直至Ep減小到設(shè)定的范圍內(nèi),然后即可按照新的權(quán)值來(lái)完成神經(jīng)網(wǎng)絡(luò)的測(cè)定。
BP-ANN建模采用Matlab(2019b)中的Neural Network Pattern Recognition工具箱。全部計(jì)算在配置為Intel(R) Core(TM) i7-6500U CPU的計(jì)算機(jī)中進(jìn)行。
表1所示為說(shuō)明分類模型準(zhǔn)確度的混淆矩陣,其中TP表示真實(shí)正例樣本被正確分類為正例樣本的數(shù)目,TN表示真實(shí)負(fù)例樣本被正確分類為負(fù)例樣本的數(shù)目,FP表示真實(shí)負(fù)例樣本被錯(cuò)誤分類為正例樣本的數(shù)目,FN表示真實(shí)正例樣本被錯(cuò)誤分類為負(fù)例樣本的數(shù)目。
表1 混淆矩陣
準(zhǔn)確率(記為A1)、真正率(S1)、命中率(P1)和特異度(S2)可分別表示為公式(4)~(7)。
(4)
(5)
(6)
(7)
圖1展示了代表性丹參飲片樣品的高光譜。通過(guò)對(duì)比圖1可以看出,不同來(lái)源丹參飲片的譜線強(qiáng)度存在著差異,這可能是由于不同來(lái)源丹參藥材的種植環(huán)境因素(如氣候、土壤、水和光照等)以及人為因素(如栽培技術(shù)、采收方法及時(shí)間、加工及炮制技術(shù)等)的影響,導(dǎo)致不同來(lái)源的丹參飲片樣品中各種元素含量存在一些差異,同時(shí)丹參中各種元素含量的差異也導(dǎo)致了丹參藥材的質(zhì)量存在差異。通過(guò)以上分析可以看出,不同來(lái)源丹參飲片的高光譜確實(shí)存在差異,但是僅憑人眼很難區(qū)分這些樣品;同時(shí),面對(duì)大量光譜數(shù)據(jù)集時(shí),僅靠人力對(duì)于譜線進(jìn)行區(qū)分工作量繁重。因此,有必要采用高光譜結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)不同來(lái)源丹參飲片進(jìn)行鑒別。
圖1 代表性丹參樣品的高光譜
對(duì)于高光譜數(shù)據(jù),除了丹參樣品的特征信息外,還可能有光譜采集過(guò)程中產(chǎn)生的背景噪聲輻射以及信號(hào)轉(zhuǎn)換程中產(chǎn)生的附加噪聲[21]。通常需要使用光譜預(yù)處理方法來(lái)消除冗余信息,提高ANN模型的訓(xùn)練效果。因此,分別采用最大最小歸一化(MMN)、均值中心化(MC)、標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、Savitzky-Golay平滑濾波(SG)以及多元散射校正(MSC)等5種方法對(duì)高光譜進(jìn)行預(yù)處理。5種預(yù)處理方法結(jié)合ANN建立分類模型,通過(guò)對(duì)比1.5節(jié)中的各項(xiàng)評(píng)價(jià)指標(biāo),選擇最佳預(yù)處理方法。
以丹參的9種不同來(lái)源為分類標(biāo)簽,高光譜數(shù)據(jù)為輸入數(shù)據(jù),建立BP-ANN模型。采用隨機(jī)劃分的方法,將高光譜數(shù)據(jù)集按70%…15%…15%的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。用測(cè)試集驗(yàn)證BP-ANN模型的分類準(zhǔn)確率。
基于丹參高光譜的特點(diǎn),BP-ANN模型的輸入層為光譜數(shù)據(jù),隱含層為神經(jīng)網(wǎng)絡(luò)模型的神經(jīng)元,輸出層為丹參分類標(biāo)簽。使用Matlab中自帶的Scaled conjugate gradient backpropagation(Trainscg)算法對(duì)BP-ANN模型進(jìn)行學(xué)習(xí)訓(xùn)練。Trainscg算法根據(jù)縮放共軛梯度法更新權(quán)重和偏差值,同時(shí)占用更少的內(nèi)存,適用于高光譜數(shù)據(jù)等一維數(shù)據(jù),Trainscg算法中迭代次數(shù)(epoch)閾值為1 000,交叉熵?fù)p失值(performance)范圍為0~0.410,梯度(gradient)范圍為1.00×10-6~2.50,驗(yàn)證檢查(validation check)的范圍為0~6。BP-ANN模型的訓(xùn)練流程如圖2所示。
圖2 BP-ANN訓(xùn)練流程圖
以10~20作為隱含層節(jié)點(diǎn)數(shù)變量選擇范圍,以原始光譜BP-ANN模型為例,探究不同隱含層節(jié)點(diǎn)數(shù)對(duì)BP-ANN模型分類準(zhǔn)確率的影響,驗(yàn)證集分類準(zhǔn)確率如表2所示。
表2 隱含層節(jié)點(diǎn)數(shù)對(duì)ANN模型的影響
由表2可知,當(dāng)隱含層節(jié)點(diǎn)數(shù)設(shè)置為17時(shí),BP-ANN模型的性能達(dá)到最優(yōu),驗(yàn)證集分類準(zhǔn)確率為95.06%,且具有較少的迭代次數(shù),即訓(xùn)練時(shí)間較短,因此后續(xù)試驗(yàn)選擇17作為BP-ANN模型的隱含層節(jié)點(diǎn)數(shù)。
結(jié)合2.2節(jié)中的5種不同預(yù)處理方法,建立BP-ANN模型,探究不同預(yù)處理方法對(duì)BP-ANN模型分類準(zhǔn)確率的影響,隱含層節(jié)點(diǎn)數(shù)設(shè)置為17,測(cè)試集分類準(zhǔn)確率如表3所示。此外,每種樣品的真正率、命中率和特異度也在表3中列出。
表3 不同預(yù)處理模型獲得的丹參樣品的判別結(jié)果
從表3中可以看出,原譜BP-ANN模型測(cè)試集分類準(zhǔn)確率為94.44%,基于5種預(yù)處理方法所構(gòu)建的ANN模型與原譜相比,測(cè)試集分類準(zhǔn)確率均有不同程度的提升,MC-ANN模型取得最佳的判別效果,測(cè)試集分類準(zhǔn)確率為98.77%。此外,與其他5種判別模型相比,MC-ANN模型對(duì)每種丹參樣品都取得了良好的判別結(jié)果,其中,1#~7#(Shandong A,Shandong B,Hebei A,Hebei B,Hebei C,Henan,Shanxi)等7種丹參樣品的判別結(jié)果最好,真正率、命中率和特異度均達(dá)到100.00%;其余兩種丹參樣品8#、9#(Shaanxi,Anhui)的真正率、命中率和特異度也不小于90.00%。
本工作采用高光譜儀對(duì)9種不同來(lái)源的丹參飲片樣品進(jìn)行高光譜采集;分別使用MMN、MC、SNV、SG和MSC 5種光譜預(yù)處理方法,結(jié)合ANN建立了不同丹參飲片來(lái)源判別模型。MC-ANN模型判別效果顯著,測(cè)試集分類準(zhǔn)確率為98.77%。由此可見,高光譜技術(shù)結(jié)合ANN應(yīng)用于不同產(chǎn)地丹參飲片的判別具有良好的可行性,更加簡(jiǎn)便、可靠,為中藥材定性分類研究提供了一種新的方法。