李 夢,張小波,劉紹波,陳興峰,黃璐琦,史婷婷,楊 瑞,劉 舒,鄭逢杰
1. 河南中醫(yī)藥大學藥學院,河南 鄭州 450046 2. 中國中醫(yī)科學院中藥資源中心道地藥材國家重點實驗室培育基地,北京 100700 3. 航天恒星科技有限公司大數(shù)據(jù)項目辦公室,北京 100086 4. 中國科學院空天信息創(chuàng)新研究院國家環(huán)境保護衛(wèi)星遙感重點實驗室,北京 100094 5. 中國中醫(yī)科學院道地藥材國家重點實驗室培育基地,北京 100700 6. 中國科學院西北生態(tài)環(huán)境資源研究院甘肅省遙感重點實驗室,甘肅 蘭州 730000 7. 中國科學院長春應用化學研究所吉林省中藥化學與質(zhì)譜重點實驗室,吉林 長春 130022 8. 航天工程大學航天信息學院,北京 101416
人參是五加科植物人參(PanaxginsengC. A. Meyer)的干燥根和根莖,是我國名貴中藥材,應用歷史悠久。 栽培的俗稱“園參”,播種在山林野生狀態(tài)下自然生長的稱“林下山參”,習稱“籽?!盵1]。 人參早在秦漢時期應用已較為普遍,在《神農(nóng)本草經(jīng)》中被列為上品,記載其具有“主補五臟,安精神,定魂魄,止驚悸,除邪氣,明目,開心益智。 久服,輕身延年”功效。
《中國藥材學》記載: “野生品稱山參、野山參,主產(chǎn)于東北長白山區(qū),大、小興安嶺,栽培品稱園參,主產(chǎn)于吉林、遼寧、黑龍江;河北、山西、山東、湖北及北京等地有引種試種”。 依據(jù)歷代本草記載,人參最早出于山西上黨(潞州)及遼東等地,后因資源枯竭,至明之后,基本以東北為主產(chǎn)地,奉為道地。 道地中藥材,是指經(jīng)過中醫(yī)臨床長期應用優(yōu)選出來、產(chǎn)在特定地域,與其他地區(qū)所產(chǎn)同種中藥材相比,品質(zhì)和療效更好,且質(zhì)量穩(wěn)定,具有較高知名度的中藥材。 故人參道地藥材指產(chǎn)于以東北長白山山脈為中心,核心區(qū)域包括吉林撫松、集安、靖宇,遼寧寬甸、桓仁及周邊地區(qū),也包括黑龍江大興安嶺、小興安嶺等地區(qū)的人參。
近年來,通常采用性狀觀察法、化學指紋圖譜法、光譜分析、分子識別等方法[2-7]進行人參產(chǎn)地的識別,但上述方法均要求有一定的經(jīng)驗積累或者專業(yè)知識,同時在識別的過程中易造成樣品損毀,故對于經(jīng)濟價值較高的人參藥材,迫切需要研發(fā)一種無損的檢測方法。 本工作采用高光譜成像技術對人參的產(chǎn)地進行識別分析,該技術具備快速無損的突出優(yōu)勢,其電磁波在較短的波長范圍內(nèi)(如400~2 500 nm)照射到人參藥材上產(chǎn)生反射信號,測量時間短,不對人參藥材造成損壞,未涉及到熱輻射波段,不受環(huán)境溫度影響,通過對其高光譜數(shù)據(jù)進行分析來識別人參產(chǎn)地。 本研究以我國黑龍江、吉林、遼寧、山東四省十個地區(qū)的人參樣品為研究對象,采用高光譜成像設備獲取人參藥材的光譜反射率信息,基于具備部分可解釋性的隨機森林機器學習模型對人參進行產(chǎn)地識別。
收集黑龍江省(伊春市、鐵力市、虎林市),吉林省(撫松縣、靖宇縣、臨江市、長白縣、琿春市)、遼寧省(寬甸縣)、山東省共十個不同產(chǎn)地的54個人參(園參)樣品。 統(tǒng)一進行簡單清洗及干燥處理。 隨機選取一定數(shù)量樣本作為機器學習的訓練數(shù)據(jù)集,剩余的樣本作為測試驗證數(shù)據(jù)集。 機器學習方法的訓練和驗證重復10次,以測試方法穩(wěn)定性。
人參的高光譜數(shù)據(jù)使用NEO公司的兩臺相機獲取: Hyspex VNIR-1024的可見光近紅外高光譜相機和Hyspex SWIR-384短波紅外高光譜相機。 二者均為線陣掃描方式,線陣探元個數(shù)分別為1 024和384,覆蓋波段分別為400~1 000和940~2 500 nm,聯(lián)合使用可以覆蓋400~2 500 nm的光譜范圍。 使用暗室環(huán)境拍攝,內(nèi)置穩(wěn)定人工光源,保證所有樣本的高光譜數(shù)據(jù)是在同樣的光照條件下獲取。 人參樣本放置在黑色背景中接受掃描。 掃描成像的同時放置具有接近朗伯體反射特性的白板,用以實現(xiàn)絕對和相對輻射校正。
將每個人參樣本的高光譜圖像處理成一條光譜曲線。 數(shù)據(jù)處理方案如下。
(1)為減小采集過程中光源分布不均及鏡頭中暗電流造成的噪聲影響,對每個波段的圖像進行相對和絕對輻射校正。 白板以上的所有像素值(digital number, DN) 按照式(1)進行校正,校正后得到反射率
(1)
式(1)中,λ為電磁波長,DN(i, j)為校正前的第i行,第j列的像素值,E(DNwb(:, j))是第j列白板所有像素值的平均值,此處平均計算目的是消除白板因塵埃污染等造成的空間反射差異。 將DN值除以白板值定義為是歸一化到白板反射率為1情況下的人參反射率數(shù)值,通過白板作為參考完成絕對輻射校正。 所有樣本中的反射率絕對值具有大小可比性。 其值域范圍理論上為從0到無窮大,實際上處于(0, 2.5)的區(qū)間。 從白板亮度可以看出相機掃描的每個探元對應的光照條件并不一致,呈現(xiàn)中間亮邊緣暗的低頻相對輻射差異,探元之間響應能力不同導致固定的高頻相對輻射差異,通過按照每列分別除以白板均值,可以完成相對輻射校正。
(2)圖像分割。 通過統(tǒng)計黑色背景、白板、人參在單波段的數(shù)值差異,構建了僅基于單波段反射率閾值的人參目標圖像分割方法,可以確定人參所包含的所有像素,完成人參目標的圖像分割,存為二值圖像掩膜Mask,1代表人參,0代表非人參。
(3)獲得反射率光譜曲線數(shù)據(jù),計算方法如式(2)所示。
(2)
式(2)中,ρλ是一個數(shù)值,表示波長為λ的反射率,公式中分子表示波長為λ的圖像中所有人參像素反射率之和,公式右側(cè)分母表示人參像素數(shù)量。 通過循環(huán)處理高光譜圖像的每個波段,每個樣本可以得到一條反射率光譜曲線。
隨機森林是一種包含多個決策樹的機器學習模型,大多用于解決分類問題,隨機森林的輸出是所有決策樹輸出的眾數(shù)。 “森林”中的單個決策樹使用部分樣本進行訓練,因此每個決策樹都是“弱分類器”,最終結(jié)果取決于多個弱分類器投票表決。 因使用了決策樹,隨機森林可以根據(jù)輸入特征作為決策依據(jù)的重要程度,給出輸入特征的重要性排序,從而具備部分可解釋性。
人參高光譜產(chǎn)地識別系統(tǒng)基于scikit-learn0.23.2版本,使用python語言開發(fā),隨機森林設置使用默認參數(shù)。 產(chǎn)地,是一個通俗說法,在研究中需要明確地域尺度大小才能進行識別研究。 共使用三種產(chǎn)地歸類尺度,分別為東北與否二分類、省域四分類、縣級或地級八分類識別。 通過測試驗證數(shù)據(jù)集預測混淆矩陣給出結(jié)果的總體精度進行評價。
將人參樣品擺放于移動平臺上,擺放時突出每一樣品的特征,將用于黑白校正的白板擺放在樣品后方5 cm處。 通過高光譜設備采集數(shù)據(jù),在高光譜數(shù)據(jù)收集完成后,為消除儀器對樣品數(shù)據(jù)的影響,利用儀器自帶RAD校正軟件校正原始高光譜圖像。 得到單個樣品的高光譜圖像如圖1(a,b)所示。
因不同相機在采集樣品高光譜圖像的過程中,可能會受光源分布不均及鏡頭中暗電流造成的噪聲等多重因素影響,故對400~1 000和940~2 500 nm兩個不同波段范圍的高光譜圖像分別進行數(shù)據(jù)處理,得到每個樣品的反射率光譜曲線。
圖1 人參高光譜成像示例
其光譜曲線數(shù)據(jù),反射率絕對值具有大小可比性,且避免了人參單一位置光譜因雜質(zhì)等造成噪聲、因選取部位不同造成光譜不可比等問題,具有較高的信噪比和穩(wěn)定性。
為合并分析400~2 500 nm光譜范圍內(nèi)人參高光譜曲線規(guī)律,將兩個不同波段范圍的人參反射率光譜曲線在1 000 nm處拼接在一起。 可見-近紅外波段的相機(visible-near infrared, VNIR)和短波紅外(short wavelength infrared, SWIR)兩臺相機拍攝的燈光照射角度不同,兩個反射率的方向定義差異導致形成曲線斷層,但每個樣本的拍攝條件相同,不影響隨機森林方法識別。 通過數(shù)據(jù)處理后,得到54個人參樣品反射率光譜曲線如圖2所示。 其中黑龍江省樣品標為紅色,吉林省樣品標為綠色,遼寧省樣品標為藍色,山東省樣品標為黑色。
從圖2中可以看出,僅靠反射率大小很難將不同產(chǎn)地分開,使用機器學習的方法是一種較好的解決方案。 在當前的54個樣本集中,將東北與否二分類隨機森林隨機選取20%(11個)用于驗證,共驗證識別110次;考慮到總樣本數(shù)量有限,參與訓練的樣本要保障一定數(shù)量,四省分類和八地分類尺度,按照隨機選取10%(5個)用于驗證。 按照三種產(chǎn)地歸類尺度,每種尺度分別使用隨機森林訓練并驗證重復10次,驗證結(jié)果如表1所示。
圖2 不同產(chǎn)地的人參反射率光譜曲線Fig.2 Spectral reflectance curves from different geographical origins
表1 三種產(chǎn)地歸類尺度下的識別精度(百分比)Table 1 The recognition accuracies under three origin classification scale (100%)
人參是我國東北三省的“三寶”之一,東三省是傳統(tǒng)的人參產(chǎn)區(qū)。 首先按照東三省與否來進行產(chǎn)地區(qū)分,共有2次將東北人參錯分為山東人參,平均總體精度98.2%,對于人參產(chǎn)地是否屬于東三省“道地產(chǎn)區(qū)”的識別具有較高的實際應用價值。 受到本批次人參樣品數(shù)量限制,四省分類和八地分類已經(jīng)受到樣本數(shù)量的影響,平均總體精度分別為82%和68%。 尤其是八地分類,隨機選取訓練和識別樣本不同,導致驗證精度從100%可能降到20%,樣本數(shù)量少導致的學習不足最為明顯。
從三種產(chǎn)地歸類尺度均有100%識別精度的情況來看,可以預期在樣本數(shù)量增加的情況下,所有產(chǎn)地歸類尺度下的隨機森林識別精度將會進一步提升。
將三種產(chǎn)地歸類尺度下,按照(1)超過80%驗證精度,(2)各波段重要性累加后,需要占到全部光譜的重要性的96%以上。 將符合上述兩個條件的訓練和驗證輪次得到的光譜波段重要性進行了統(tǒng)計,將重要性高的波段視為特征波段,如表2所示。
表2 隨機森林統(tǒng)計出的人參產(chǎn)地識別特征波段Table 2 The feature bands statistics of ginsengorigin recognition by random forest
從表2可以看出,對于東北人參與否的識別,SWIR具有明顯優(yōu)勢,在訓練樣本數(shù)量夠多的情況下,甚至僅使用SWIR光譜相機即可滿足應用需求。 對于四個省份的人參識別,依然是短波紅外占據(jù)了主要信息量,仍然存在僅使用SWIR即可達到較高精度的可能。 對于縣級和地市級區(qū)分的八地識別,暫無明確結(jié)論。
(1)基于機器學習方法,可以僅通過光譜信息進行高精度的人參產(chǎn)地識別,在四省和東北與否兩種尺度下,識別精度分別可達82%和98.2%。 按照純反射光譜的識別要求開發(fā)專用設備,將具有高精度、無損、快速、普通人可以簡易操作的優(yōu)勢。
(2)可見-近紅外波段的相機(VNIR)和短波紅外(SWIR)相機因探測器不同,可以認為是兩臺設備,在產(chǎn)地識別中,應重點探索基于SWIR的識別技術和硬件方案。
(3)人參屬于貴重中藥材,機器學習方法需要采集購買足夠多的樣本來提高識別算法的精度。
(4)基于決策樹的機器學習方法有利于發(fā)現(xiàn)描述產(chǎn)地之間差異的特征光譜,為進一步建立人參高光譜圖譜提供支撐。