李 超, 李孟芝, 李丹霞, 韋詩冰, 崔占虎, 項麗玲, 黃顯章*
1. 南陽理工學院河南省張仲景方藥與免疫調節(jié)重點實驗室, 河南 南陽 473000
2. 福建農林大學農學院, 福建 福州 350002
艾葉為菊科植物艾ArtemisiaargyiLevl et Vant的干燥葉[1], 性味苦、 溫、 辛, 歸肝、 脾、 腎經, 具有散寒止痛、 溫經止血、 理氣安胎等功效, 距今已有2000余年的臨床用藥歷史[2-4]。 歷代本草中已明確記載“蘄艾”、 “北艾”、 “海艾”及“祁艾”為道地藥材, 即現(xiàn)在湖北蘄春、 河南安陽、 浙江寧波及河北安國等地所產艾葉[5]。 目前, 河南省南陽市已成為國內最大的艾葉生產和集散地, 產業(yè)規(guī)模居全國之首。 開展以上產區(qū)艾葉的研究能夠涵蓋我國目前艾葉主產區(qū)的整體情況, 具有重要的現(xiàn)實意義。
近年來, 中醫(yī)藥產業(yè)的快速發(fā)展帶來了中藥材資源需求量的激增, 但同時也存在諸多安全隱患, 就艾葉而言, 國內中藥材交易市場的現(xiàn)狀令人堪憂。 到目前為止, 仍未發(fā)現(xiàn)道地產區(qū)艾葉的鑒別特征和行之有效的分類方法。 在經濟利益的驅使下, 藥材市場存在一些不法經銷商以次充好, 以假亂真, 恣意謊稱優(yōu)質產區(qū)艾葉而從中謀取暴利。 雖有研究者已意識到艾葉產地鑒別的重要性, 并報道了產地間多種活性成分含量差異顯著, 為艾葉產地差異化研究積累了有益的本底資料[6-8], 但前人研究均是在明確產地的前提下對單個或多個化學成分含量的比較, 并不能有效地進行艾葉產地溯源和未知地域來源艾葉的產地鑒別。 傅里葉變換紅外光譜分析技術具有無損、 快捷、 可在線檢測等顯著的優(yōu)點, 且沒有復雜的預處理, 更不涉及有毒的化學試劑, 已成功應用于多種中藥材的產地溯源[9-10]。 本研究采用FTIR法對不同產地艾葉樣品進行測定和分析, 建立艾葉藥材紅外指紋圖譜, 并對指紋圖譜進行表征解析、 相似度計算及計量學分析。 在此基礎上, 通過比較多種光譜預處理方法和多種模式識別技術, 確立適合艾葉產地鑒別的模型, 研究結果可為中藥材的產地鑒別和質量控制提供一種新的思路和方法。
ALPHA Ⅱ型傅里葉變換紅外光譜儀(德國Bruker公司), 自帶DTGS檢測器(8 000~350 cm-1, 信噪比為4 000∶1, 掃描累積64次); MS-105型電子天平(瑞士梅特勒-托利多公司生產), FSJ-A05N6微型粉碎機(廣東小熊電器股份有限公司生產); FY-15型粉末壓片機(上海天闔機械設備有限公司); 8401-2A型紅外干燥箱(常州諾基儀器有限公司); KBr(光譜純, 天津科密歐化學試劑有限公司)。
艾葉樣品于2020年5月—6月在河南省南陽市和安陽市、 湖北省蘄春縣、 浙江省寧波市以及河北省安國市等地采集, 經南陽理工學院黃顯章教授鑒定為菊科蒿屬草本植物艾Artemisiaargyilevl.et Vant.。 將不同產地的艾葉樣品去雜、 挑選、 干燥、 剪碎并混勻后備用。
將不同產地的艾葉樣品去雜、 挑選、 干燥、 剪碎并混勻, 于50 ℃烘箱中低溫烘干直至恒重, 粉碎, 過80目篩, 備用。 精密稱取艾葉樣品1 mg與干燥后的KBr 150 mg混合并充分研磨, 壓片成厚度約為1 mm的錠片, 上機測定。 在掃描中, 每個樣品片隨機掃描3個方位, 獲得3幅光譜圖, 取其平均譜圖作為最后的樣品譜圖。
實驗室內溫度和相對濕度分別控制在22~27 ℃和30%~40%, 掃描時扣除H2O和CO2的干擾。 得到的原始光譜數(shù)據(jù)經OPUS軟件進行基線校正和平滑處理, 初步消除基線和噪聲的影響。
在精密度實驗中, 取同一編號的艾葉樣品, 按照上述測定方法, 連續(xù)測定5次, 并計算其共有峰的相對標準偏差; 在穩(wěn)定性實驗中, 取同一編號的艾葉樣品, 按照上述測定方法, 分別于0, 2, 4, 8, 16, 24 h測定并計算其共有峰波數(shù)的相對標準偏差。 在重復性實驗中, 取同一編號的艾葉樣品, 連續(xù)稱取該編號的5份平行樣, 按照上述測定方法, 并計算其共有峰波數(shù)的相對標準偏差。
運用SPSS 19.0(IBM, USA)、 Simca-p 11.5(Umetrics, Sweden)、 Origin 9.0(OriginLab, USA)、 Matlab 2017A(Mathworks Inc., USA)等軟件進行數(shù)據(jù)挖掘、 繪圖和模式識別。
精密度實驗結果表明, 共有峰波數(shù)的相對標準偏差均小于0.65%; 穩(wěn)定性實驗結果表明, 共有峰波數(shù)的相對標準偏差在0.21%~4.58%之間, 且樣品在24 h內穩(wěn)定; 重復性實驗結果表明, 共有峰波數(shù)的相對標準偏差在0.28%~4.85%之間。 以上方法學考察結果表明, 該分析方法可靠、 重復性好、 穩(wěn)定性強, 符合指紋圖譜的要求, 不同產地艾葉的原始紅外光譜見圖1。
圖1 不同產地艾葉的原始傅里葉變換紅外光譜
湖北省蘄春縣是艾葉的傳統(tǒng)道地產區(qū), 也是臨床制劑和民間傳統(tǒng)用藥的主要采集區(qū)。 以共有模式建立艾葉的對照紅外圖譜, 選擇湖北省蘄春縣3個鄉(xiāng)鎮(zhèn)的15批樣品作為對照藥材, 每份樣品隨機掃描3次, 最終以45批對照藥材吸收強度均值作為對照圖譜的吸收強度(見圖2)。
圖2 艾葉紅外對照圖譜及共有特征峰
采用三種方式對不同產地艾葉紅外指紋圖譜相似度進行分析, 分別是共有特征峰相似度分析(3 273, 3 008, 2 917, 1 656, 1 485, 1 195, 1 051, 843及664 cm-1)、 特征波段相似度分析(3 650~2 600和1 600~550 cm-1)以及全光譜相似度分析。 通過三種方式的分析和對比, 既能突出共有特征峰的特點, 又能將紅外信息較為全面展現(xiàn)出來, 分析結果見表1。 從表1可以看出, 不同產地艾葉樣品特征峰與對照樣品特征峰有一定的差異, 但整體上相似度較高, 相關系數(shù)均在0.9以上; 在特征波段和全光譜的相似度對比中, 除河南省安陽市艾葉樣品與對照圖譜表現(xiàn)出較為明顯的差異性外(分別為0.803和0.734), 其他產地的相似度均較高(大于0.9), 故此方法產地分類的可行性較低。 整體來看, 艾葉的紅外光譜信息在產地間相似度較高, 僅采用共有特征峰、 特征波段及全譜的相似度比對無法對艾葉產地進行有效的預測和鑒別。
表1 相似度分析結果
在主成分分析過程中, 指紋區(qū)的光譜信息被轉換成1 749個數(shù)據(jù)節(jié)點, 并形成1 749×75高維矩陣, 將上述數(shù)據(jù)帶入SIMCA和MATLAB中進行降維和計算。 通過對75份艾葉樣品的特征提取, 共得到8個有效主成分(表2), 其方差貢獻率分別為82.50%, 9.61%, 3.28%, 2.71%, 0.71%, 0.53%, 0.20%及0.19%, 累計貢獻率共達到99.73%, 說明所提取的8個主成分能夠充分地解釋和代表原始光譜信息, 且主成分累計交叉驗證準確率較高(99.55%), 表明所構建的主成分分析方法有效且穩(wěn)定。
用貢獻率最大的前三主成分繪制3D-plots散點圖, 如圖3所示, 不同產地的艾葉樣品雖出現(xiàn)部分重疊的情況, 但從整體來看分類趨勢較為明顯, 且不同產地樣品的分布相對集中且獨立, 說明基于傅里葉變換紅外光譜技術的艾葉產地溯源具有較高的可行性。 然而主成分分析僅能提供聚類和距離的趨勢, 并不能對不同產地的艾葉樣品進行量化分類, 為了得到更為準確和直觀的結果, 我們將借助計量學模型進行進一步的分析。
表2 主成分的特征值及貢獻率
圖3 艾葉前三主成分3D-plots圖
K-最近鄰算法(KNN)是數(shù)據(jù)分類技術中最簡單的方法之一, 該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 因KNN算法主要依據(jù)周圍有限的鄰近樣本, 對于類域的交叉或重疊較多的待分樣本集, 該方法更為適合。
采用KNN算法對艾葉的產地進行鑒別, 通過比較歐氏距離、 曼哈頓距離及夾角余弦的分類效果, 并經過K值的持續(xù)尋優(yōu), 最終得到分類結果見表3。 從表3可以看出, 艾葉樣品在不同預處理方式和不同距離算法下的鑒別率差異較大, 歐氏距離算法和曼哈頓距離算法的正確率均在66.7%~100%之間, 夾角余弦算法正確率在60.0%~100%之間。 在不同的信號預處理中, 一階導數(shù)+Norris Gap的處理方法效果最好, 在3種距離算法中樣本分類正確率均達到100%。 整體來比較, KNN分類模型結合一階導數(shù)+Norris Gap信號預處理方法可用于艾葉的產地差異化鑒別, 且該模型運行時間短, 準確率高, 值得推廣和應用。
表3 KNN算法的鑒別效果
隨機森林(RF)算法是基于多個決策樹的分類器, 是最常用也是最強大的監(jiān)督學習算法之一, 該算法按照集成學習的思想, 將多棵決策樹進行集成學習, 其輸出的類別由個別樹輸出的眾數(shù)所決定。 在RF算法中, 選擇數(shù)據(jù)量的80%為訓練集, 數(shù)據(jù)量的20%為測試集, 通過Matlab軟件進行學習和識別, 結果見表4。 從表4可以看出, 不同產地艾葉樣品在訓練集中的鑒別正確率均達到100%, 而測試集中正確率在53.3%~86.7%之間。 在不同信號預處理中, 去噪處理和一階導數(shù)+SG平滑效果最好, 訓練集和測試集的正確率均為100%和86.7%; 其次是高斯濾波、 歸一化處理及一階導數(shù)+Norris Gap 3種預處理方法, 訓練集和測試集的正確率均為100%和80.0%; 而其他4種信號處理方法效果不佳, 測試集的正確率均在80%以下。 總之RF分類模型對艾葉產地分類效果欠佳, 有待進一步調試和優(yōu)化。
表4 RF算法的鑒別效果
貝葉斯分類算法(Bayes)是一類利用概率統(tǒng)計知識進行分類的算法。 在許多數(shù)據(jù)挖掘過程中, 樸素貝葉斯分類算法可以與決策樹和神經網絡分類算法相媲美, 該算法能運用到大型數(shù)據(jù)庫中, 而且方法簡單、 分類準確率高、 速度快。 基于Bayes算法的鑒別效果見表5, 從表5可以看出, 不同產地艾葉樣品訓練集正確率在83.3%~100%之間, 測試集正確率在6.7%~100%之間。 在不同的信號預處理中, 一階導數(shù)+Norris Gap效果最好, 樣本在訓練集和測試集的正確率均為100%; 其次是去噪處理, 訓練集和測試集的正確率為100%和93.33%; 而其他7種信號處理方法效果不佳, 測試集的正確率均不高于80%。 從上述分析可以看出, Bayes算法結合一階導數(shù)+Norris Gap信號預處理方法可以實現(xiàn)艾葉的產地鑒別, 正確率達到100%, 產地溯源效果理想。
表5 貝葉斯算法的鑒別效果
粒子群優(yōu)化支持向量機算法(SVM-pso)是一種模擬鳥群隨機搜索食物行為的算法, 該算法對每個優(yōu)化問題的潛在解讀是搜索空間中的一只鳥, 稱為“粒子”, 所有的“粒子”都有一個由優(yōu)化函數(shù)決定的適應值, 且每個粒子還有一個速度決定它們“飛行”的方向和距離, 通過群體中個體之間的協(xié)作和信息共享來尋找最優(yōu)解。 在SVM-pso算法中, 選擇數(shù)據(jù)量的80%為訓練集, 數(shù)據(jù)量的20%為測試集, 適應度曲線MSE的參數(shù)為c1=2,c2=2, 終止代數(shù)=100, 種群數(shù)量=20, Bestc=81.678 5,g=0.024 229, 分析結果見表6。 從表6可以看出, 訓練集正確率均為100%, 測試集正確率在46.7%~100%之間。 在不同的信號預處理中, 一階導數(shù)+Norris Gap效果最好, 訓練集和測試集的正確率均為100%; 其次是去噪處理、 高斯濾波、 歸一化處理、 多元散射校正及一階導數(shù)+SG平滑5種信號預處理方式, 訓練集和測試集的正確率均為100%和86.7%; 而其他3種信號處理方法效果不佳, 測試集的正確率均低于80%。 從上述分析可以看出, SVM-pso算法結合一階導數(shù)+Norris Gap信號預處理方法可以實現(xiàn)艾葉的產地鑒別, 正確率達到100%, 產地溯源效果理想。
表6 SVM-pso算法的鑒別效果
BP神經網絡算法(BP-NN)理論上可以逼近任意函數(shù), 具有很強的非線性映射能力。 該算法的中間層數(shù)、 各層處理單元數(shù)及網絡學習系數(shù)等參數(shù)可根據(jù)具體情況設定, 靈活性很大, 在優(yōu)化、 信號處理與模式識別等領域都有著廣泛的應用前景。 在BP-NN算法中, 選擇數(shù)據(jù)量的80%為訓練集, 數(shù)據(jù)量的20%為測試集, 通過Matlab軟件進行學習和識別, 分析結果見表7。
表7 BP神經網絡算法的鑒別效果
從表7可以看出, 雖然不同產地艾葉訓練集正確率可以達到100%, 但是無論采用何種預處理方式, 其測試集的正確率均不高于60%, 說明BP-NN模型對艾葉產地的識別程度較低, 不適用于艾葉的產地溯源研究。
最小二乘支持向量機(LS-SVM)是將Kernel應用到Ridge regression中的一種方法, 該算法通過將所有樣本用最小二乘誤差進行擬合(在kernel變換過的高維空間), 相比常規(guī)的SVM而言具有訓練速度較快, 結果較準等優(yōu)點。 在LS-SVM模型的構建中, 選擇數(shù)據(jù)量的80%為訓練集, 數(shù)據(jù)量的20%為測試集, 通過Matlab軟件進行學習和識別, 分析結果見表8。 從表8可以看出, 雖然不同產地艾葉訓練集的正確率均達到100%, 但是無論采用何種預處理方式, 其測試集的正確率均不高于33.3%, 說明LS-SVM模型對艾葉產地的識別程度較低, 亦不適用于艾葉的產地溯源研究。
表8 LS-SVM算法的鑒別效果
選取不同計量學模型和不同預處理方式的最佳鑒別結果進行分析和比較, 結果見表9, 從表9可以看出, 6種溯源模型正確率的高低順序為: SVM-pso(100%, 一階導數(shù)+Norris Gap)=KNN(100%, 一階導數(shù)+Norris Gap)= Bayes(100%, 一階導數(shù)+Norris Gap)>RF(86.67%, 去噪處理)>BP-NN(60.0%, 一階導數(shù)+SG平滑)>LS-SVM(33.3%, 高斯濾波)。 其中, SVM-pso、 KNN及Bayes 3種模型分類效果最為理想, 測試集的正確率均達到100%。 基于運行時間、 鑒別正確率與模型穩(wěn)定性綜合考慮, 最終確定KNN溯源模型是艾葉產地鑒別的最優(yōu)方法。 總體來說, 基于傅里葉變換紅外光譜指紋技術與適當?shù)挠嬃繉W模型相結合, 可用于艾葉的產地鑒別。
表9 不同模式識別方法的比較
隨著中醫(yī)藥行業(yè)的高速發(fā)展, 下游產業(yè)對中藥材資源的需求量不斷提升, 而中藥材整體質量參差不齊已成為制約中醫(yī)藥產業(yè)健康發(fā)展的主要因素。 目前, 艾葉制劑備受認可和青睞, 臨床應用范圍也日益增多, 越來越多的消費者希望能夠明確原料藥材的來源, 道地產區(qū)的艾葉已供不應求。 前人雖已對不同產地艾葉進行了初步的品質評價研究, 但大多報道僅限于艾葉中單個或幾個化學成分含量的比較, 并不能有效地進行質量控制和產地區(qū)分, 且所用方法操作復雜、 耗時費力, 并不適合日常生產實踐所需。
針對以上瓶頸問題, 以國內4個省份5個主產區(qū)的75份艾葉樣品為實驗材料, 采用FTIR法進行紅外特征分析和數(shù)據(jù)挖掘, 通過比較去噪處理、 高斯濾波、 歸一化處理、 多元散射校正、 標準正態(tài)變換、 一階/二階導數(shù)+SG平滑及一階/二階導數(shù)+Norris Gap等光譜信號預處理方法和LS-SVM, SVM-pso, Bayes, RF, BP-NN及KNN等模式識別技術, 探索適合艾葉產地溯源的計量學方法。 研究結果表明, 基于運行時間、 鑒別正確率與模型穩(wěn)定性綜合考慮, KNN模型是艾葉產地鑒別的最優(yōu)方法, 測試集的正確率均為100%, 產地溯源效果理想。 本研究為艾葉道地性評價和質量控制提供了有益的技術支持, 且該方法具有無損、 快捷、 可在線檢測等顯著的優(yōu)點, 有望藥企或監(jiān)管部門應用和推廣。 課題組將持續(xù)擴大樣品的收集范圍, 結合藥效成分、 藥理作用等指標進行綜合評價與溯源, 并采用外部盲樣對所建判別模型的預測準確度做出驗證, 以期建立艾葉更為穩(wěn)定和準確的產地判別模型。