馬 騫, 楊婉琪, 李福生*, 程惠珠, 趙彥春
1. 電子科技大學(xué)自動(dòng)化工程學(xué)院, 四川 成都 611731
2. 電子科技大學(xué)長(zhǎng)三角研究院(湖州), 浙江 湖州 313001
中藥作為我國(guó)傳統(tǒng)的民族瑰寶, 隨著國(guó)家醫(yī)療水平的提高與養(yǎng)生保健需求的增加, 中藥材的需求量也在不斷增大[1]。 然而中醫(yī)藥產(chǎn)業(yè)的蓬勃發(fā)展時(shí)期, 中藥材重金屬污染問(wèn)題時(shí)有發(fā)生, 嚴(yán)重阻礙了中藥行業(yè)健康有序發(fā)展與國(guó)際化的腳步。 有關(guān)中藥材重金屬問(wèn)題, 2015年中國(guó)中醫(yī)科學(xué)院牽頭制定了ISO國(guó)際標(biāo)準(zhǔn)《中醫(yī)藥-中藥材重金屬限量》, 明確制定了中藥材重金屬標(biāo)準(zhǔn)[2]。 傳統(tǒng)的中藥材元素分類方法有判別分析、 模糊聚類分析法、 卷積神經(jīng)網(wǎng)絡(luò)等。 其中判別分析可準(zhǔn)確有效鑒定天麻不同產(chǎn)地[3], 運(yùn)用模糊分類方法可判別藥物微量元素與療效的相關(guān)性[4], 卷積神經(jīng)網(wǎng)絡(luò)與指紋圖譜成功運(yùn)用于中藥的視圖識(shí)別與鑒定中[5-6]。 在實(shí)驗(yàn)樣本充足的條件下, 這些傳統(tǒng)的分析算法有時(shí)也能夠達(dá)到很好的效果。 然而傳統(tǒng)的機(jī)器學(xué)習(xí)分類模型通常建立在訓(xùn)練集和測(cè)試集服從相同數(shù)據(jù)分布的基礎(chǔ)上, 而實(shí)際情況下, 這種條件并不一定能夠滿足。 當(dāng)我們分類的目標(biāo)發(fā)生改變, 無(wú)法使用的舊數(shù)據(jù)會(huì)被直接丟棄, 導(dǎo)致大量的浪費(fèi), 而建立新的數(shù)據(jù)集往往需要較大的成本。 中藥種類繁雜、 地區(qū)特性明顯, 全國(guó)僅用于飲片和中成藥的藥材就有1 000~1 200余種, 建立標(biāo)準(zhǔn)中藥樣品數(shù)據(jù)集的工作量非常龐大, 因此研究人員幾乎無(wú)法購(gòu)買到大量的標(biāo)準(zhǔn)樣品用于實(shí)驗(yàn)分析, 大大阻礙了中藥材重金屬超標(biāo)問(wèn)題的研究[7]。 遷移學(xué)習(xí)作為一種利用相似樣本的信息來(lái)幫助完成目標(biāo)樣本中的學(xué)習(xí)任務(wù), 可以有效地在輔助樣本與目標(biāo)領(lǐng)域之間進(jìn)行信息的共享與遷移, 針對(duì)具有相似信息的輔助樣本與目標(biāo)領(lǐng)域樣本, 使用大量已有的數(shù)據(jù)對(duì)小樣本目標(biāo)進(jìn)行數(shù)據(jù)擴(kuò)充。 這種方法已被成功運(yùn)用于物體種類識(shí)別與小樣本高光譜圖像分類[8], 證明其可以運(yùn)用于樣本分類問(wèn)題, 解決小樣本帶來(lái)的分析準(zhǔn)確性差的缺陷。
傳統(tǒng)的中藥元素檢測(cè)方法主要有ICP-AES法、 原子吸收光譜法、 火焰原子吸收光譜法等, 這些方法往往需要對(duì)固體樣本進(jìn)行化學(xué)消解, 分析費(fèi)用高, 儀器也比較貴[9-11]。 XRF即X射線熒光光譜分析技術(shù), 由于其幾乎不需要樣品預(yù)處理、 無(wú)污染以及快速便捷分析的特點(diǎn)可以滿足中藥中檢測(cè)微量元素的需求[12-14]。 XRF在礦物藥真?zhèn)舞b別和質(zhì)量控制應(yīng)用中已取得了較好的工作成果, 在防風(fēng)樣品中也實(shí)現(xiàn)了多種金屬元素含量測(cè)定[15-16]。 XRF光譜分類常使用支持向量機(jī)算法(SVM), 成功應(yīng)用于汽油牌號(hào)的快速識(shí)別與建立藥品組分含量的檢測(cè)模型中, 結(jié)果表明SVM的預(yù)測(cè)效果較優(yōu), 分類效果最好, 具有廣泛的應(yīng)用價(jià)值[17]。
我國(guó)的科研工作者對(duì)中藥重金屬超標(biāo)問(wèn)題已經(jīng)展開了大量的研究工作, 韓小麗等統(tǒng)計(jì)并分析了中藥材中4種重金屬元素的污染情況, 各國(guó)對(duì)于Pb的含量要求較其他3種元素更為詳實(shí), 且超標(biāo)率較高[18]。 根據(jù)譚鐳等的研究發(fā)現(xiàn)金銀花在Pb含量超標(biāo)的統(tǒng)計(jì)結(jié)果中較突出, 鉛超標(biāo)排名前20的藥材中, 金銀花就占了10項(xiàng)[19]。 在有關(guān)的統(tǒng)計(jì)結(jié)果中不難發(fā)現(xiàn)金銀花在ISO國(guó)際標(biāo)準(zhǔn)下存在4種重金屬同時(shí)超標(biāo)現(xiàn)象[20]。 土壤作為中藥材生長(zhǎng)的溫床, 為其提供了良好的生根立足條件、 充足的營(yíng)養(yǎng)、 水分和空氣, 土壤是否受重金屬和農(nóng)藥等污染也是判斷中藥材品質(zhì)、 道地性的重要因素。 本工作使用金銀花作為實(shí)驗(yàn)樣本, 針對(duì)四大重金屬中的鉛元素(Pb)展開研究, 使用與中藥成分息息相關(guān)的大量土壤樣本數(shù)據(jù), 建立了基于遷移學(xué)習(xí)與支持向量機(jī)結(jié)合(TrAdaBoost-SVM)的分類模型, 將該模型用于小數(shù)據(jù)集的分類測(cè)定, 并與單獨(dú)使用支持向量機(jī)與AdaBoost的分類模型進(jìn)行比較, 提出了針對(duì)小樣本中藥材重金屬分類的新方法。
實(shí)驗(yàn)輔助樣本使用的59份土壤樣本購(gòu)自國(guó)家標(biāo)準(zhǔn)樣品網(wǎng)站, 包括GSS系列、 GBW(E)系列土壤組分與GSD河流泥沙組分樣本。 樣本中的鉛元素含量范圍為0.077~552 mg·kg-1, 具有適當(dāng)?shù)暮刻荻取?/p>
30份金銀花樣本購(gòu)買自河南、 山東、 湖南及廣西省。 由于中藥重金屬Pb超標(biāo)率并不高(為3.46%), 導(dǎo)致少數(shù)樣本幾乎無(wú)法概括各個(gè)含量梯度的重金屬含量樣本, 因此實(shí)驗(yàn)中購(gòu)買了0.101 4 mol·L-1的硝酸鉛溶液, 將其加水稀釋配置10~1 000 mg·kg-1不同重金屬濃度的Pb元素溶液。 將20份實(shí)驗(yàn)金銀花樣本置于干凈的平面上, 將上述配置好的溶液均勻滴入金銀花中, 置于通風(fēng)處自然風(fēng)干。 將風(fēng)干后的金銀花均勻混合攪拌, 放入研磨機(jī)過(guò)200(0.074 mm)目篩, 完成30份樣本的裝杯制作。 實(shí)驗(yàn)測(cè)試采用的安裝Ag陽(yáng)極X射線管TS-XH4000-P型手持式ED-XRF熒光分析儀(由TecSonde生產(chǎn)), 最大電壓均為45 kV。
選取2020年最新版《中國(guó)藥典》對(duì)重金屬含量的規(guī)定, 將59份國(guó)家標(biāo)準(zhǔn)土壤樣本與30份金銀花樣本按照Pb含量大于5 mg·kg-1標(biāo)記為1, 小于5 mg·kg-1標(biāo)記為-1的規(guī)則進(jìn)行類別劃分, 設(shè)置為兩類重金屬Pb的污染程度。 實(shí)驗(yàn)中, 59份國(guó)家標(biāo)準(zhǔn)土壤樣本均作為訓(xùn)練集, 30份金銀花樣本按照比例隨機(jī)劃分為訓(xùn)練集與測(cè)試集。
1.2.1 數(shù)據(jù)預(yù)處理
土壤及中藥樣本中的基體效應(yīng)對(duì)譜圖的準(zhǔn)確性有非常大的影響, 因此在進(jìn)行分類模型建立之前, 使用對(duì)XRF光譜背景扣除具有較好效果的迭代離散小波變換算法(IDWT)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。 以具有代表性的GBW07380(GSD-29)土壤樣品與山東金銀花樣品為例, 選擇db5小波對(duì)土壤譜圖進(jìn)行7層低頻分解, 選擇最佳分解層數(shù)a7, 并且在使用IDWT處理光譜數(shù)據(jù)后, 得到了此時(shí)擬合曲線決定系數(shù)(R2)的值均有了一定幅度的提升, 證明了算法的有效性。 使用sym3小波對(duì)金銀花譜圖進(jìn)行7層低頻分解, 最終得到的土壤與中藥的擬合曲線分別如圖1(a, b)所示。
圖1 (a)處理前后土壤中Pb元素的擬合曲線對(duì)比與(b)處理前后中藥中Pb元素的擬合曲線對(duì)比
1.3.1 TrAdaBoost-SVM算法原理
訓(xùn)練支持向量機(jī)(SVM)模型, 定義核函數(shù)及相關(guān)參數(shù), 簡(jiǎn)化多分類問(wèn)題為二分類問(wèn)題。 遷移學(xué)習(xí)(Tradboost)算法是一種利用不同分布的輔助土壤樣本數(shù)據(jù)與少量中藥目標(biāo)樣本數(shù)據(jù), 從輔助土壤樣本的數(shù)據(jù)中, 篩選有效數(shù)據(jù), 在分類算法實(shí)施的過(guò)程中, 過(guò)濾掉與目標(biāo)中藥樣本不匹配的數(shù)據(jù)。 在迭代的過(guò)程中, 調(diào)用SVM分類算法, 根據(jù)結(jié)果在輔助土壤樣本中增加有效數(shù)據(jù)權(quán)重, 降低無(wú)效數(shù)據(jù)權(quán)重, 使得元素分類朝正確的方向進(jìn)行, 進(jìn)而實(shí)現(xiàn)在原有土壤模型的基礎(chǔ)上遷移至中藥元素分類并能夠準(zhǔn)確地預(yù)測(cè)。
在類別空間Y={-1, 1}中, 定義土壤樣本的重金屬元素?cái)?shù)據(jù)Xa的輔助樣本與少量金銀花樣品的重金屬元素?cái)?shù)據(jù)Xb的源樣本, 將其合并為訓(xùn)練數(shù)據(jù)集T[式(1)], 定義包含未標(biāo)注類別的中藥元素為測(cè)試數(shù)據(jù)集S[式(2)]。
T∈{(Xb∪Xa)×Y}
(1)
(2)
式中,j=1, 2, …,k;k是未標(biāo)記的測(cè)試集S的大小。
(3)
(4)
(5)
分類模型的度量是準(zhǔn)確率, 以訓(xùn)練集和測(cè)試集的分類準(zhǔn)確率作為模型度量。 準(zhǔn)確率Accuracy為正確分類的樣本數(shù)Ts占總樣本數(shù)S的比值, 由式(6)得到
(6)
為更直觀地了解這兩組XRF數(shù)據(jù)集的固有特性, 采用t-SNE算法將350維的XRF特征映射到二維空間并在同一幅圖中進(jìn)行可視化分析。 如圖2所示, 兩個(gè)數(shù)據(jù)集在二維空間聚集成了兩個(gè)分布位置不同的簇。 首先, 兩組樣本在含有重要相關(guān)信息的350維數(shù)據(jù)在二維圖中有了明顯的區(qū)分, 比原始XRF反射光譜圖更易于分辨; 其次, 從特征維度上觀察實(shí)測(cè)金銀花樣本, 發(fā)現(xiàn)由于樣本數(shù)量過(guò)少, 進(jìn)行特征可視化之后樣本基本聚集在一起, 對(duì)于訓(xùn)練模型而言很難在聚集維度中訓(xùn)練出較好的結(jié)果, 而本研究所使用的輔助土壤樣本在橫向和縱向的特征維度中拓展了數(shù)據(jù)特征, 為實(shí)驗(yàn)的可行性提供了較為直觀的理論依據(jù)。
圖2 兩組XRF樣本集的t-SNE特征降維可視化圖
對(duì)于含有同種污染物Pb的不同區(qū)域種類樣本集(樣本顏色相同), 可以看出在二維空間樣本集區(qū)分度很高。 t-SNE算法保留了數(shù)據(jù)集的內(nèi)部非線性特征, 從圖2可直規(guī)地看出樣本集的內(nèi)部特征之間其實(shí)差異很大。 t-SNE可視化進(jìn)一步驗(yàn)證了使用XRF技術(shù)在不同數(shù)據(jù)集中評(píng)估中藥材重金屬Pb污染水平的可行性, 并可進(jìn)一步分析后續(xù)可遷移模型構(gòu)建的結(jié)果。
在SVM模型中, 可以看出當(dāng)用源域數(shù)據(jù)訓(xùn)練的SVM模型用于目標(biāo)域的重金屬Pb污染程度檢測(cè)后, 模型對(duì)于目標(biāo)域中Pb污染的平均檢測(cè)準(zhǔn)確率為28.1%~15.6%, 準(zhǔn)確率整體上有了明顯的下降, 由于兩組樣本雖然有著一定的相關(guān)性, 但數(shù)據(jù)集內(nèi)部非線性特征亦存在相當(dāng)大的差距, 在沒(méi)有數(shù)據(jù)特征提取篩選的遷移學(xué)習(xí)加入時(shí), 準(zhǔn)確率的下降是可以預(yù)見(jiàn)的。 就AdaBoost模型而言, 準(zhǔn)確率達(dá)到88%~91%, 略低于TrAdaBoost-SVM分類模型。 建立TrAdaBoost-SVM分類模型時(shí), 將30份金銀花樣本數(shù)據(jù)按照訓(xùn)練集與測(cè)試集分別為1∶2、 1∶1、 2∶1、 1∶5、 5∶1的比例進(jìn)行10次隨機(jī)實(shí)驗(yàn), 其中Pb元素超標(biāo)的樣本隨機(jī)分布在訓(xùn)練集與測(cè)試集中, 每種測(cè)試條件下重復(fù)測(cè)試10次的結(jié)果準(zhǔn)確率如表1所示。 實(shí)驗(yàn)結(jié)果中, TrAdaBoost-SVM分類模型中無(wú)論測(cè)試集樣本數(shù)量如何分布, 其分類準(zhǔn)確率均高于僅使用SVM與AdaBoost分類模型的準(zhǔn)確率, 并且三組算法在訓(xùn)練集的準(zhǔn)確率均優(yōu)于測(cè)試集。 顯然, 本實(shí)驗(yàn)中, 輔助樣本的同分布數(shù)據(jù)符合遷移學(xué)習(xí)的數(shù)據(jù)要求, 故遷移出的相關(guān)特征有效輔助了目標(biāo)樣本的分類, 提高了分類精度, 有效擴(kuò)充了原本的小樣本數(shù)據(jù)。 TrAdaBoost-SVM的準(zhǔn)確率在測(cè)試集與訓(xùn)練集上, 當(dāng)數(shù)據(jù)為5∶1分布時(shí), 準(zhǔn)確率最高。 當(dāng)參與訓(xùn)練的金銀花樣本由25份逐漸減少至5份時(shí), 分類準(zhǔn)確性也隨之降低, 即小樣本條件越苛刻, 相似樣本分類效果越不明顯。 但是在這種數(shù)據(jù)量很小的情況下TrAdaBoost-SVM模型均優(yōu)于SVM與AdaBoost模型, 表示可以有效利用土壤模擬出的譜圖信息輔助完成金銀花樣本的分類, 分類準(zhǔn)確性得到了有效的提高, 較好地解決了小樣本情況下使用XRF光譜對(duì)中藥重金屬元素超標(biāo)分類準(zhǔn)確性低的問(wèn)題。
表1 SVM、 AdaBoost與TrAdaBoost-SVM模型在土壤遷移至中藥金銀花任務(wù)中的準(zhǔn)確率(單位: %)
采用X熒光光譜分析技術(shù), 借助TrAdaBoost-SVM分類模型將輔助土壤樣本的有效信息遷移至中藥材金銀花的重金屬分析, 實(shí)現(xiàn)對(duì)金銀花中Pb含量超標(biāo)現(xiàn)象進(jìn)行快速、 準(zhǔn)確區(qū)分。 本實(shí)驗(yàn)對(duì)單一分類模型SVM、 AdaBoost與基于遷移學(xué)習(xí)和SVM結(jié)合的TrAdaBoost-SVM分類模型效果進(jìn)行比較, 結(jié)果表明TrAdaBoost-SVM分類模型可將準(zhǔn)確度可達(dá)96.7%。 這兩種算法結(jié)合可作為中藥材重金屬分類可靠、 準(zhǔn)確的分類方法, 并且利用研究人員可大量獲取的土壤樣本輔助建立中藥材分類模型, 有效解決了中藥材標(biāo)準(zhǔn)樣品稀少, 購(gòu)買困難的問(wèn)題。 未來(lái)工作中, 可以將此類模型遷移的方法擴(kuò)展至其他種類元素的分析過(guò)程, 在樣品組成等條件發(fā)生變化的情況下使用其他有效樣本輔助, 達(dá)到準(zhǔn)確預(yù)測(cè)分類的目的, 為XRF元素?zé)o損檢測(cè)與定性分類提供有效的分析工具。