亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

部分可解釋機(jī)器學(xué)習(xí)方法的高光譜人參產(chǎn)地識(shí)別和分析

2022-04-06 03:46:08張小波劉紹波陳興峰黃璐琦史婷婷鄭逢杰

光譜學(xué)與光譜分析 2022年4期

李夢(mèng)，張小波，劉紹波，陳興峰，黃璐琦，史婷婷，楊瑞，劉舒，鄭逢杰

1. 河南中醫(yī)藥大學(xué)藥學(xué)院，河南鄭州 450046 2. 中國(guó)中醫(yī)科學(xué)院中藥資源中心道地藥材國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地，北京 100700 3. 航天恒星科技有限公司大數(shù)據(jù)項(xiàng)目辦公室，北京 100086 4. 中國(guó)科學(xué)院空天信息創(chuàng)新研究院國(guó)家環(huán)境保護(hù)衛(wèi)星遙感重點(diǎn)實(shí)驗(yàn)室，北京 100094 5. 中國(guó)中醫(yī)科學(xué)院道地藥材國(guó)家重點(diǎn)實(shí)驗(yàn)室培育基地，北京 100700 6. 中國(guó)科學(xué)院西北生態(tài)環(huán)境資源研究院甘肅省遙感重點(diǎn)實(shí)驗(yàn)室，甘肅蘭州 730000 7. 中國(guó)科學(xué)院長(zhǎng)春應(yīng)用化學(xué)研究所吉林省中藥化學(xué)與質(zhì)譜重點(diǎn)實(shí)驗(yàn)室，吉林長(zhǎng)春 130022 8. 航天工程大學(xué)航天信息學(xué)院，北京 101416

引言

人參是五加科植物人參(PanaxginsengC. A. Meyer)的干燥根和根莖，是我國(guó)名貴中藥材，應(yīng)用歷史悠久。栽培的俗稱(chēng)“園參”，播種在山林野生狀態(tài)下自然生長(zhǎng)的稱(chēng)“林下山參”，習(xí)稱(chēng)“籽?！盵1]。人參早在秦漢時(shí)期應(yīng)用已較為普遍，在《神農(nóng)本草經(jīng)》中被列為上品，記載其具有“主補(bǔ)五臟，安精神，定魂魄，止驚悸，除邪氣，明目，開(kāi)心益智。久服，輕身延年”功效。

《中國(guó)藥材學(xué)》記載： “野生品稱(chēng)山參、野山參，主產(chǎn)于東北長(zhǎng)白山區(qū)，大、小興安嶺，栽培品稱(chēng)園參，主產(chǎn)于吉林、遼寧、黑龍江；河北、山西、山東、湖北及北京等地有引種試種”。依據(jù)歷代本草記載，人參最早出于山西上黨(潞州)及遼東等地，后因資源枯竭，至明之后，基本以東北為主產(chǎn)地，奉為道地。道地中藥材，是指經(jīng)過(guò)中醫(yī)臨床長(zhǎng)期應(yīng)用優(yōu)選出來(lái)、產(chǎn)在特定地域，與其他地區(qū)所產(chǎn)同種中藥材相比，品質(zhì)和療效更好，且質(zhì)量穩(wěn)定，具有較高知名度的中藥材。故人參道地藥材指產(chǎn)于以東北長(zhǎng)白山山脈為中心，核心區(qū)域包括吉林撫松、集安、靖宇，遼寧寬甸、桓仁及周邊地區(qū)，也包括黑龍江大興安嶺、小興安嶺等地區(qū)的人參。

近年來(lái)，通常采用性狀觀察法、化學(xué)指紋圖譜法、光譜分析、分子識(shí)別等方法[2-7]進(jìn)行人參產(chǎn)地的識(shí)別，但上述方法均要求有一定的經(jīng)驗(yàn)積累或者專(zhuān)業(yè)知識(shí)，同時(shí)在識(shí)別的過(guò)程中易造成樣品損毀，故對(duì)于經(jīng)濟(jì)價(jià)值較高的人參藥材，迫切需要研發(fā)一種無(wú)損的檢測(cè)方法。本工作采用高光譜成像技術(shù)對(duì)人參的產(chǎn)地進(jìn)行識(shí)別分析，該技術(shù)具備快速無(wú)損的突出優(yōu)勢(shì)，其電磁波在較短的波長(zhǎng)范圍內(nèi)(如400～2 500 nm)照射到人參藥材上產(chǎn)生反射信號(hào)，測(cè)量時(shí)間短，不對(duì)人參藥材造成損壞，未涉及到熱輻射波段，不受環(huán)境溫度影響，通過(guò)對(duì)其高光譜數(shù)據(jù)進(jìn)行分析來(lái)識(shí)別人參產(chǎn)地。本研究以我國(guó)黑龍江、吉林、遼寧、山東四省十個(gè)地區(qū)的人參樣品為研究對(duì)象，采用高光譜成像設(shè)備獲取人參藥材的光譜反射率信息，基于具備部分可解釋性的隨機(jī)森林機(jī)器學(xué)習(xí)模型對(duì)人參進(jìn)行產(chǎn)地識(shí)別。

1 實(shí)驗(yàn)部分

1.1 樣品

收集黑龍江省(伊春市、鐵力市、虎林市)，吉林省(撫松縣、靖宇縣、臨江市、長(zhǎng)白縣、琿春市)、遼寧省(寬甸縣)、山東省共十個(gè)不同產(chǎn)地的54個(gè)人參(園參)樣品。統(tǒng)一進(jìn)行簡(jiǎn)單清洗及干燥處理。隨機(jī)選取一定數(shù)量樣本作為機(jī)器學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集，剩余的樣本作為測(cè)試驗(yàn)證數(shù)據(jù)集。機(jī)器學(xué)習(xí)方法的訓(xùn)練和驗(yàn)證重復(fù)10次，以測(cè)試方法穩(wěn)定性。

1.2 高光譜圖像獲取

人參的高光譜數(shù)據(jù)使用NEO公司的兩臺(tái)相機(jī)獲?。?Hyspex VNIR-1024的可見(jiàn)光近紅外高光譜相機(jī)和Hyspex SWIR-384短波紅外高光譜相機(jī)。二者均為線陣掃描方式，線陣探元個(gè)數(shù)分別為1 024和384，覆蓋波段分別為400～1 000和940～2 500 nm，聯(lián)合使用可以覆蓋400～2 500 nm的光譜范圍。使用暗室環(huán)境拍攝，內(nèi)置穩(wěn)定人工光源，保證所有樣本的高光譜數(shù)據(jù)是在同樣的光照條件下獲取。人參樣本放置在黑色背景中接受掃描。掃描成像的同時(shí)放置具有接近朗伯體反射特性的白板，用以實(shí)現(xiàn)絕對(duì)和相對(duì)輻射校正。

1.3 數(shù)據(jù)處理和光譜曲線繪制

將每個(gè)人參樣本的高光譜圖像處理成一條光譜曲線。數(shù)據(jù)處理方案如下。

(1)為減小采集過(guò)程中光源分布不均及鏡頭中暗電流造成的噪聲影響，對(duì)每個(gè)波段的圖像進(jìn)行相對(duì)和絕對(duì)輻射校正。白板以上的所有像素值(digital number, DN) 按照式(1)進(jìn)行校正，校正后得到反射率

(1)

式(1)中，λ為電磁波長(zhǎng)，DN(i, j)為校正前的第i行，第j列的像素值，E(DNwb(:, j))是第j列白板所有像素值的平均值，此處平均計(jì)算目的是消除白板因塵埃污染等造成的空間反射差異。將DN值除以白板值定義為是歸一化到白板反射率為1情況下的人參反射率數(shù)值，通過(guò)白板作為參考完成絕對(duì)輻射校正。所有樣本中的反射率絕對(duì)值具有大小可比性。其值域范圍理論上為從0到無(wú)窮大，實(shí)際上處于(0, 2.5)的區(qū)間。從白板亮度可以看出相機(jī)掃描的每個(gè)探元對(duì)應(yīng)的光照條件并不一致，呈現(xiàn)中間亮邊緣暗的低頻相對(duì)輻射差異，探元之間響應(yīng)能力不同導(dǎo)致固定的高頻相對(duì)輻射差異，通過(guò)按照每列分別除以白板均值，可以完成相對(duì)輻射校正。

(2)圖像分割。通過(guò)統(tǒng)計(jì)黑色背景、白板、人參在單波段的數(shù)值差異，構(gòu)建了僅基于單波段反射率閾值的人參目標(biāo)圖像分割方法，可以確定人參所包含的所有像素，完成人參目標(biāo)的圖像分割，存為二值圖像掩膜Mask，1代表人參，0代表非人參。

(3)獲得反射率光譜曲線數(shù)據(jù)，計(jì)算方法如式(2)所示。

(2)

式(2)中，ρλ是一個(gè)數(shù)值，表示波長(zhǎng)為λ的反射率，公式中分子表示波長(zhǎng)為λ的圖像中所有人參像素反射率之和，公式右側(cè)分母表示人參像素?cái)?shù)量。通過(guò)循環(huán)處理高光譜圖像的每個(gè)波段，每個(gè)樣本可以得到一條反射率光譜曲線。

1.4 隨機(jī)森林方法

隨機(jī)森林是一種包含多個(gè)決策樹(shù)的機(jī)器學(xué)習(xí)模型，大多用于解決分類(lèi)問(wèn)題，隨機(jī)森林的輸出是所有決策樹(shù)輸出的眾數(shù)。 “森林”中的單個(gè)決策樹(shù)使用部分樣本進(jìn)行訓(xùn)練，因此每個(gè)決策樹(shù)都是“弱分類(lèi)器”，最終結(jié)果取決于多個(gè)弱分類(lèi)器投票表決。因使用了決策樹(shù)，隨機(jī)森林可以根據(jù)輸入特征作為決策依據(jù)的重要程度，給出輸入特征的重要性排序，從而具備部分可解釋性。

2 結(jié)果與討論

人參高光譜產(chǎn)地識(shí)別系統(tǒng)基于scikit-learn0.23.2版本，使用python語(yǔ)言開(kāi)發(fā)，隨機(jī)森林設(shè)置使用默認(rèn)參數(shù)。產(chǎn)地，是一個(gè)通俗說(shuō)法，在研究中需要明確地域尺度大小才能進(jìn)行識(shí)別研究。共使用三種產(chǎn)地歸類(lèi)尺度，分別為東北與否二分類(lèi)、省域四分類(lèi)、縣級(jí)或地級(jí)八分類(lèi)識(shí)別。通過(guò)測(cè)試驗(yàn)證數(shù)據(jù)集預(yù)測(cè)混淆矩陣給出結(jié)果的總體精度進(jìn)行評(píng)價(jià)。

2.1 高光譜圖像

將人參樣品擺放于移動(dòng)平臺(tái)上，擺放時(shí)突出每一樣品的特征，將用于黑白校正的白板擺放在樣品后方5 cm處。通過(guò)高光譜設(shè)備采集數(shù)據(jù)，在高光譜數(shù)據(jù)收集完成后，為消除儀器對(duì)樣品數(shù)據(jù)的影響，利用儀器自帶RAD校正軟件校正原始高光譜圖像。得到單個(gè)樣品的高光譜圖像如圖1(a,b)所示。

2.2 反射率光譜曲線

因不同相機(jī)在采集樣品高光譜圖像的過(guò)程中，可能會(huì)受光源分布不均及鏡頭中暗電流造成的噪聲等多重因素影響，故對(duì)400～1 000和940～2 500 nm兩個(gè)不同波段范圍的高光譜圖像分別進(jìn)行數(shù)據(jù)處理，得到每個(gè)樣品的反射率光譜曲線。

圖1 人參高光譜成像示例

其光譜曲線數(shù)據(jù)，反射率絕對(duì)值具有大小可比性，且避免了人參單一位置光譜因雜質(zhì)等造成噪聲、因選取部位不同造成光譜不可比等問(wèn)題，具有較高的信噪比和穩(wěn)定性。

為合并分析400～2 500 nm光譜范圍內(nèi)人參高光譜曲線規(guī)律，將兩個(gè)不同波段范圍的人參反射率光譜曲線在1 000 nm處拼接在一起。可見(jiàn)-近紅外波段的相機(jī)(visible-near infrared, VNIR)和短波紅外(short wavelength infrared, SWIR)兩臺(tái)相機(jī)拍攝的燈光照射角度不同，兩個(gè)反射率的方向定義差異導(dǎo)致形成曲線斷層，但每個(gè)樣本的拍攝條件相同，不影響隨機(jī)森林方法識(shí)別。通過(guò)數(shù)據(jù)處理后，得到54個(gè)人參樣品反射率光譜曲線如圖2所示。其中黑龍江省樣品標(biāo)為紅色，吉林省樣品標(biāo)為綠色，遼寧省樣品標(biāo)為藍(lán)色，山東省樣品標(biāo)為黑色。

2.3 識(shí)別精度

從圖2中可以看出，僅靠反射率大小很難將不同產(chǎn)地分開(kāi)，使用機(jī)器學(xué)習(xí)的方法是一種較好的解決方案。在當(dāng)前的54個(gè)樣本集中，將東北與否二分類(lèi)隨機(jī)森林隨機(jī)選取20%(11個(gè))用于驗(yàn)證，共驗(yàn)證識(shí)別110次；考慮到總樣本數(shù)量有限，參與訓(xùn)練的樣本要保障一定數(shù)量，四省分類(lèi)和八地分類(lèi)尺度，按照隨機(jī)選取10%(5個(gè))用于驗(yàn)證。按照三種產(chǎn)地歸類(lèi)尺度，每種尺度分別使用隨機(jī)森林訓(xùn)練并驗(yàn)證重復(fù)10次，驗(yàn)證結(jié)果如表1所示。

圖2 不同產(chǎn)地的人參反射率光譜曲線Fig.2 Spectral reflectance curves from different geographical origins

表1 三種產(chǎn)地歸類(lèi)尺度下的識(shí)別精度(百分比)Table 1 The recognition accuracies under three origin classification scale (100%)

人參是我國(guó)東北三省的“三寶”之一，東三省是傳統(tǒng)的人參產(chǎn)區(qū)。首先按照東三省與否來(lái)進(jìn)行產(chǎn)地區(qū)分，共有2次將東北人參錯(cuò)分為山東人參，平均總體精度98.2%，對(duì)于人參產(chǎn)地是否屬于東三省“道地產(chǎn)區(qū)”的識(shí)別具有較高的實(shí)際應(yīng)用價(jià)值。受到本批次人參樣品數(shù)量限制，四省分類(lèi)和八地分類(lèi)已經(jīng)受到樣本數(shù)量的影響，平均總體精度分別為82%和68%。尤其是八地分類(lèi)，隨機(jī)選取訓(xùn)練和識(shí)別樣本不同，導(dǎo)致驗(yàn)證精度從100%可能降到20%，樣本數(shù)量少導(dǎo)致的學(xué)習(xí)不足最為明顯。

從三種產(chǎn)地歸類(lèi)尺度均有100%識(shí)別精度的情況來(lái)看，可以預(yù)期在樣本數(shù)量增加的情況下，所有產(chǎn)地歸類(lèi)尺度下的隨機(jī)森林識(shí)別精度將會(huì)進(jìn)一步提升。

2.4 特征光譜分析

將三種產(chǎn)地歸類(lèi)尺度下，按照(1)超過(guò)80%驗(yàn)證精度，(2)各波段重要性累加后，需要占到全部光譜的重要性的96%以上。將符合上述兩個(gè)條件的訓(xùn)練和驗(yàn)證輪次得到的光譜波段重要性進(jìn)行了統(tǒng)計(jì)，將重要性高的波段視為特征波段，如表2所示。

表2 隨機(jī)森林統(tǒng)計(jì)出的人參產(chǎn)地識(shí)別特征波段Table 2 The feature bands statistics of ginsengorigin recognition by random forest

從表2可以看出，對(duì)于東北人參與否的識(shí)別，SWIR具有明顯優(yōu)勢(shì)，在訓(xùn)練樣本數(shù)量夠多的情況下，甚至僅使用SWIR光譜相機(jī)即可滿足應(yīng)用需求。對(duì)于四個(gè)省份的人參識(shí)別，依然是短波紅外占據(jù)了主要信息量，仍然存在僅使用SWIR即可達(dá)到較高精度的可能。對(duì)于縣級(jí)和地市級(jí)區(qū)分的八地識(shí)別，暫無(wú)明確結(jié)論。

3 結(jié) 論

(1)基于機(jī)器學(xué)習(xí)方法，可以僅通過(guò)光譜信息進(jìn)行高精度的人參產(chǎn)地識(shí)別，在四省和東北與否兩種尺度下，識(shí)別精度分別可達(dá)82%和98.2%。按照純反射光譜的識(shí)別要求開(kāi)發(fā)專(zhuān)用設(shè)備，將具有高精度、無(wú)損、快速、普通人可以簡(jiǎn)易操作的優(yōu)勢(shì)。

(2)可見(jiàn)-近紅外波段的相機(jī)(VNIR)和短波紅外(SWIR)相機(jī)因探測(cè)器不同，可以認(rèn)為是兩臺(tái)設(shè)備，在產(chǎn)地識(shí)別中，應(yīng)重點(diǎn)探索基于SWIR的識(shí)別技術(shù)和硬件方案。

(3)人參屬于貴重中藥材，機(jī)器學(xué)習(xí)方法需要采集購(gòu)買(mǎi)足夠多的樣本來(lái)提高識(shí)別算法的精度。

(4)基于決策樹(shù)的機(jī)器學(xué)習(xí)方法有利于發(fā)現(xiàn)描述產(chǎn)地之間差異的特征光譜，為進(jìn)一步建立人參高光譜圖譜提供支撐。

光譜學(xué)與光譜分析2022年4期

光譜學(xué)與光譜分析的其它文章: 本刊聲明; 敬告讀者
——《光譜學(xué)與光譜分析》已全文上網(wǎng); 《光譜學(xué)與光譜分析》對(duì)來(lái)稿英文摘要的要求; 關(guān)于《光譜學(xué)與光譜分析》調(diào)整審稿費(fèi)收費(fèi)標(biāo)準(zhǔn)的通知; 《光譜學(xué)與光譜分析》期刊社決定采用ScholarOne Manuscripts在線投稿審稿系統(tǒng); 第22屆全國(guó)分子光譜學(xué)學(xué)術(shù)會(huì)議暨2022年光譜年會(huì)(第一輪通知)