程 瑩 許亞男 侯浩楠 寧翠玲 楊成民 董學(xué)會(huì) 曹海祿 孫 群*
(1.中國(guó)農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院/農(nóng)業(yè)農(nóng)村部農(nóng)作物種子全程技術(shù)研究北京創(chuàng)新中心/ 北京市作物遺傳改良重點(diǎn)實(shí)驗(yàn)室,北京 100193; 2.承德恒德本草農(nóng)業(yè)科技有限公司,河北 承德067000; 3.中國(guó)醫(yī)學(xué)科學(xué)院 藥用植物研究所,北京 100193; 4.恒德本草(北京)農(nóng)業(yè)科技有限公司,北京 100070)
種子和種苗是中藥材生產(chǎn)的物質(zhì)基礎(chǔ),與農(nóng)作物種子相比,中藥材種子的生產(chǎn)、加工過程還處于相對(duì)粗放的階段,種子質(zhì)量已成為限制中藥材規(guī)范化種植的關(guān)鍵因素之一。《中華人民共和國(guó)種子法》管理范圍涵蓋農(nóng)作物和林木的種子,但納入其中的中藥材品種數(shù)量很少。我國(guó)人工栽培的中藥材有300多種,大部分藥用植物尚未建立種子質(zhì)量檢測(cè)標(biāo)準(zhǔn)和種子生產(chǎn)加工規(guī)程,其中具備全程質(zhì)控體系的品種很少。目前,中藥材種子質(zhì)量管理遠(yuǎn)落后于農(nóng)作物種子,存在種源混雜、凈度低、成熟度不一致、發(fā)芽率低、出苗慢且不整齊等諸多問題,種子成為中藥材生產(chǎn)最薄弱的環(huán)節(jié),成為制約中藥材規(guī)范化生產(chǎn)和發(fā)展的“瓶頸”。其中,凈度是判定種子質(zhì)量的重要指標(biāo)之一,農(nóng)作物種子質(zhì)量標(biāo)準(zhǔn)中種子凈度≥99.0%,相關(guān)行業(yè)標(biāo)準(zhǔn)或地方標(biāo)準(zhǔn)對(duì)中藥材種子凈度均要求≥95.0%,中藥材種子人工引種馴化時(shí)間短,野生性較強(qiáng),良種繁育技術(shù)研究不夠,凈度遠(yuǎn)低于農(nóng)作物種子的要求,且不同藥材不同批次間種子凈度差異極大。凈度分析是對(duì)樣品中凈種子、其他植物種子和雜質(zhì)的檢測(cè)分析,一般人工借助于放大鏡、風(fēng)選凈度儀、鑷子和雙倍目測(cè)鏡等進(jìn)行逐粒觀察和分離鑒定,流程較為繁瑣冗長(zhǎng)。對(duì)于小粒中藥材種子來說,雜質(zhì)外形與中藥材種子相似,采用傳統(tǒng)方法進(jìn)行凈度分析的難度大于大粒種子,存在耗時(shí)、繁瑣等問題。因此,亟需一種成本低、快速且高效的鑒定方法,以改進(jìn)傳統(tǒng)小粒中藥材種子凈度檢測(cè)方法存在的不足,便于小粒中藥材種子生產(chǎn)、加工規(guī)范化管理。
機(jī)器視覺技術(shù)近年來發(fā)展迅速,是一種計(jì)算機(jī)技術(shù)和圖像識(shí)別處理技術(shù)相結(jié)合的多領(lǐng)域新型交叉技術(shù),具有計(jì)算能力強(qiáng)、價(jià)格低、非破壞性和高效率等特點(diǎn),該技術(shù)可獲取種子圖像信息,包括種子顏色、尺寸和紋理等信息,已廣泛應(yīng)用于種子發(fā)芽率的識(shí)別、種子質(zhì)量分類、品種鑒別、純度和凈度識(shí)別等方面。機(jī)器視覺技術(shù)應(yīng)用于中藥材種子凈度提升方面的研究尚未見報(bào)道。本研究以黃芩、桔梗、黃芪、紫蘇和柴胡等5種大宗常用小粒中藥材種子為試驗(yàn)材料,采用機(jī)器視覺技術(shù)獲取凈種子、其他植物種子及所含雜質(zhì)的圖像及物理信息,通過2種不同算法的比較,建立5種中藥材種子凈度快速檢測(cè)模型,旨在探究應(yīng)用機(jī)器視覺技術(shù)對(duì)小粒中藥材種子進(jìn)行快速檢測(cè),以期為實(shí)際生產(chǎn)中小粒中藥材種子凈度快速、高效檢測(cè)提供參考。
Scutellaria
baicalensis
Georgi)、桔梗(Platycodon
grandiflorum
(Jacq.) A. DC.)、黃芪(Astragalus
membranaceus
(Fisch.) Bge.)、紫蘇(Perilla
frutescens
(L.) Britt.)、柴胡(Bupleulum
chinense
DC.)種子,2020年從河北省安國(guó)市中藥材批發(fā)市場(chǎng)上收集。檢測(cè)儀器:Microtek MiCardWizard掃描儀(上海中晶科技有限公司),種子自動(dòng)化分析系統(tǒng)(PhenoSeed,中國(guó)農(nóng)業(yè)大學(xué)種子科學(xué)與技術(shù)研究中心與南京智農(nóng)云芯大數(shù)據(jù)科技有限公司共同研發(fā))。1
.2
.1
傳統(tǒng)種子凈度測(cè)定參照GB/T 2930.1—2017《草種子檢驗(yàn)規(guī)程 扦樣》扦取樣品,測(cè)定凈度。采用“四分法”分取樣品,得到5 g種子樣品。
凈度=凈種子質(zhì)量/(凈種子質(zhì)量+ 其他植物種子質(zhì)量+雜質(zhì)質(zhì)量)×100%
(1)
1
.2
.2
圖像掃描及種子物理指標(biāo)提取從每種中藥材中隨機(jī)選取500粒凈種子,500粒其他植物種子和雜質(zhì),凈種子、其他植物種子和雜質(zhì)之間留有一定空隙,整齊排列,使用掃描儀進(jìn)行掃描(圖1),圖片保存為tif無損格式,分辨率為300 dpi。使用PhenoSeed對(duì)每粒凈種子、其他植物種子和雜質(zhì)進(jìn)行物理指標(biāo)的提取,顏色指標(biāo)包括R
(紅色值,Red)、G
(綠色值,Green)、B
(藍(lán)色值,Blue)、H
(色相,Hue)、S
(飽和度,Saturation)、V
(明度,Value)、L
(明度,Luminosity)、a
(從洋紅色至綠色的范圍)、b
(從黃色至藍(lán)色的范圍)、Gray(灰度),尺寸指標(biāo)包括長(zhǎng)度(Length)、寬度(Width)、長(zhǎng)寬比(L
/W
Ratio)、投影面積(Area)、周長(zhǎng)(Perimeter)、圓度(Roundness),紋理指標(biāo)包括Gray、R
、G
和B
這4個(gè)分量下的對(duì)比度(Contrast)、相異性(Dissimilarity)、同質(zhì)性(Homogeneity)、能量(Energy)、自相關(guān)(Correlation)、角二階矩(ASM)、熵(Entropy),共計(jì)54個(gè)物理指標(biāo)。其他種子掃描和提取方式相同。 Other seeds scanning and extracting methods are the same.圖1 黃芩凈種子、其他植物種子和雜質(zhì)圖片掃描(a)與數(shù)據(jù)提取(b)過程Fig.1 Processes of image scanning (a) and data extracting (b) of Scutellariabaicalensis Georgi purity seeds, seeds of other plants and impurities
1
.2
.3
凈度計(jì)算及校正根據(jù)1.2.2中選取的500粒凈種子、500粒其他植物種子及所含雜質(zhì),分別稱取其總質(zhì)量。計(jì)算得到每粒凈種子、其他植物種子和雜質(zhì)質(zhì)量,此處將其他植物種子及所含雜質(zhì)視作一類樣本(命名為0),凈種子作為另一類樣本(命名為1),兩者比值(單粒0類樣本質(zhì)量/單粒1類樣本質(zhì)量)得到換算系數(shù),3次重復(fù)。
1
.2
.4
多層感知器網(wǎng)絡(luò)(Multilayer perceptron network,MLP)多層感知器的結(jié)構(gòu)類似于一套級(jí)聯(lián)的感知器,將一組輸入向量映射到一組輸出向量,輸入與輸出之間可以多層加權(quán)連接,對(duì)事物和環(huán)境具有很強(qiáng)的自學(xué)習(xí)、自適應(yīng)、聯(lián)想記憶和并行處理等能力。
通過相關(guān)性分析和主成分分析可對(duì)54個(gè)物理指標(biāo)進(jìn)行特征指標(biāo)的提取,避免冗余信息對(duì)建模效果的干擾,可提高建模速率和模型穩(wěn)定性,之后對(duì)不同特征指標(biāo)下建模效果進(jìn)行顯著性分析。這些指標(biāo)作為MLP的輸入層神經(jīng)元,其他植物種子和雜質(zhì)(0)和凈種子(1)作為輸出結(jié)果,最后能建立凈種子、其他植物種子及所含雜質(zhì)的分類模型(圖2)。本研究通過IBM SPSS Statistics 21.0進(jìn)行MLP建模分析。訓(xùn)練集∶測(cè)試集∶保持集的樣本比例為2∶1∶1;訓(xùn)練集和測(cè)試集共600粒種子、其他植物種子及所含雜質(zhì),保持集是不參與模型訓(xùn)練的樣本集,從剩余的400粒種子、其他植物種子及所含雜質(zhì)中隨機(jī)組合,將保持集樣本質(zhì)量?jī)舳仍O(shè)置成75.0%、80.0%、85.0%、90.0%、95.0%和100.0%,用于最終網(wǎng)絡(luò)的獨(dú)立評(píng)估。其中單隱藏層和輸出層激活函數(shù)分別為雙曲正切和Softmax。
圖2 多層感知器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Multilayer perceptron network topology
1
.2
.5
二元邏輯回歸(Binary Logistic Regression, BLR)二元邏輯回歸是1種以二分類變量為因變量的線性回歸分析方法,本研究使用IBM SPSS Statistics 21.0軟件根據(jù)54個(gè)指標(biāo)和特征指標(biāo)進(jìn)行BLR凈度預(yù)測(cè)模型的建立,模型樣本集設(shè)定同1.2.4。
(2)
式中:C
為種子凈度第i
種情況的概率;對(duì)于第i
種情況,X
是第j
個(gè)變量;d
是第j
個(gè)變量的系數(shù)。C
為“0”和“1”,0是指其他植物種子及所含雜質(zhì),1是指凈種子,同1.2.3。通過Microsoft Excel 2016和IBM SPSS Statistics 21.0軟件,進(jìn)行MLP和BLR建模分析,之后運(yùn)用單因素方差分析對(duì)模型準(zhǔn)確率進(jìn)行分析比較。
中藥材種子采收過程中會(huì)混入碎葉片、秸稈、小土粒和其他植物種子等,凈度分析表明黃芩種子混雜的主要是其他植物種子、小石塊和碎葉片,桔梗種子混雜的主要是碎葉片和秸稈,黃芪種子混雜的主要是蕎麥種子、秸稈和小土粒,紫蘇種子混雜的主要是碎葉片、小土粒,柴胡種子中混雜的主要是其他植物種子和小土粒。
P
<0.01),其中Length、Width、Area、Perimeter、Roundness、H
與凈度均呈極顯著正相關(guān),相關(guān)系數(shù)范圍為0.350~0.895;L/W
Ratio、R
、G
、B
、L
、a
、b
、S
、V
、Gray與凈度均呈極顯著負(fù)相關(guān),相關(guān)系數(shù)范圍為-0.844~-0.082。選用尺寸和顏色指標(biāo)(不含標(biāo)準(zhǔn)差)建立的MLP模型最優(yōu),訓(xùn)練集和測(cè)試集準(zhǔn)確率均為100.0%。2)桔梗種子:桔梗與凈度相關(guān)系數(shù)較高的指標(biāo)有7個(gè),分別是Length、Area、Perimeter、R
、G
、B
、Gray,其中Length、Area、Perimeter與凈度均呈極顯著正相關(guān)(P
<0.01),相關(guān)系數(shù)范圍為0.515~0.762;R
、G
、B
、Gray均與凈度呈極顯著負(fù)相關(guān)(P
<0.01),相關(guān)系數(shù)范圍為-0.851~-0.782。采用這7個(gè)特征指標(biāo)建立的MLP模型,測(cè)試集準(zhǔn)確率最高,為99.3%。3)黃芪種子:黃芪的尺寸和顏色指標(biāo)(包含標(biāo)準(zhǔn)差)均與凈度呈顯著或極顯著相關(guān)(P
<0.05),相關(guān)系數(shù)范圍為-0.634~0.733,共26個(gè)指標(biāo)。采用這26個(gè)指標(biāo)建立的MLP模型較優(yōu),訓(xùn)練集和測(cè)試集準(zhǔn)確率分別為99.9%和99.6%。4)紫蘇和柴胡種子:紫蘇和柴胡絕大多數(shù)指標(biāo)與凈度呈顯著或極顯著相關(guān)(P
<0.05),共50個(gè)尺寸、顏色和紋理指標(biāo),紫蘇和柴胡相關(guān)系數(shù)分別分布在-0.649~0.830和-0.554~0.571。這50個(gè)指標(biāo)進(jìn)行MLP建模,訓(xùn)練集和測(cè)試集準(zhǔn)確率最高,分別是99.6%和99.4%。根據(jù)2.2中篩選得到的特征指標(biāo),保證訓(xùn)練集和測(cè)試集樣本數(shù)分別是400和200粒,其中凈種子數(shù)量300粒,其他植物種子及所含雜質(zhì)共300粒,對(duì)比在不同指標(biāo)下BLR和MLP這2種模型建模效果。從表2可知,黃芩、桔梗、黃芪、紫蘇和柴胡種子基于54個(gè)指標(biāo)和特征指標(biāo)(表1)建立的MLP模型訓(xùn)練集和測(cè)試集準(zhǔn)確率>96.0%。黃芩、桔梗、黃芪和紫蘇種子基于54個(gè)指標(biāo)和特征指標(biāo)(表1)建立的BLR模型訓(xùn)練集和測(cè)試集準(zhǔn)確率≥97.0%;而柴胡基于54個(gè)指標(biāo)和特征指標(biāo)(表1)建立的BLR模型測(cè)試集準(zhǔn)確率≤93.1%。綜合而言,特征指標(biāo)建模效果優(yōu)于全部指標(biāo)建模效果,同時(shí)MLP模型穩(wěn)定性更優(yōu)于BLR模型穩(wěn)定性。
根據(jù)1.2.3換算系數(shù)的計(jì)算方式,即兩者比值(單粒0類樣本質(zhì)量/單粒1類樣本質(zhì)量)得到換算系數(shù)。黃芩、桔梗、黃芪、紫蘇和柴胡的換算系數(shù)分別是0.49、0.39、0.67、0.09和0.48。
質(zhì)量?jī)舳?1類樣本數(shù)量/(1類樣本數(shù)量+ 0類樣本數(shù)量×換算系數(shù))×100%
(3)
利用公式(3)進(jìn)行數(shù)量?jī)舳扰c質(zhì)量?jī)舳鹊膿Q算,將75.0%、80.0%、85.0%、90.0%、95.0%和100.0%質(zhì)量?jī)舳确謩e帶入模型中進(jìn)行檢驗(yàn),將實(shí)際凈度與預(yù)測(cè)凈度做擬合曲線。對(duì)于黃芩種子而言,根據(jù)16個(gè)特征指標(biāo)進(jìn)行MLP建模,該模型對(duì)6個(gè)梯度種子凈度預(yù)測(cè)效果均較好,回歸曲線的決定系數(shù)(R
)達(dá)到0.999 9;桔梗種子根據(jù)7個(gè)關(guān)聯(lián)指標(biāo)進(jìn)行MLP建模,對(duì)凈度預(yù)測(cè)的回歸曲線R
達(dá)到0.999 6;黃芪種子26個(gè)指標(biāo)MLP模型對(duì)凈度的擬合曲線R
達(dá)到0.991 4;對(duì)于紫蘇和柴胡種子而言,根據(jù)50個(gè)關(guān)聯(lián)指標(biāo)建模,MLP對(duì)種子凈度預(yù)測(cè)效果較好,R
分別達(dá)到0.997 1和0.999 8,見圖3。R
>0.99(BLR擬合結(jié)果未展示);這2種模型算法結(jié)構(gòu)不復(fù)雜,操作簡(jiǎn)單,不要求使用人員具備專業(yè)知識(shí)背景;2種算法建模和預(yù)測(cè)過程均耗時(shí)較短,MLP和BLR分別耗時(shí)20.63和22.69 s。同時(shí),研究所使用的 PhenoSeed軟件是由本實(shí)驗(yàn)室與南京智農(nóng)云芯大數(shù)據(jù)科技有限公司共同研發(fā),可實(shí)現(xiàn)尺寸、顏色和紋理等54個(gè)物理指標(biāo)自動(dòng)化提取,本研究中黃芩、桔梗和黃芪種子使用尺寸顏色關(guān)聯(lián)指標(biāo)進(jìn)行建模,模型準(zhǔn)確率≥97.5%,并未采用紋理指標(biāo)參與模型的建立,這是考慮到應(yīng)用可行性,目前許多加工設(shè)備主要基于尺寸顏色指標(biāo)進(jìn)行加工處理,比如風(fēng)篩清選機(jī)和色選機(jī)等。此外,本研究首次提出以數(shù)量進(jìn)行種子凈度計(jì)算的概念,而非GB/T 2930.2—2017《草種子檢驗(yàn)規(guī)程 凈度分析》以凈種子質(zhì)量占比計(jì)算凈度,模型的樣本集包括訓(xùn)練集、測(cè)試集和保持集,均基于樣本數(shù)量進(jìn)行數(shù)據(jù)分析,從而建立凈度快速檢測(cè)模型,但這2種方式計(jì)算的凈度之間存在一個(gè)換算系數(shù),而該系數(shù)會(huì)隨不同的中藥材種子發(fā)生改變,并不具備普適性?;诒狙芯克岢龅膬舳瓤焖贆z測(cè)模型,后續(xù)將深入研發(fā)集凈度、生活力和純度等方面于一體的自動(dòng)化檢測(cè)系統(tǒng)。R
>0.99。綜上,以特征指標(biāo)建立MLP模型可用于小粒中藥材種子的凈度快速檢測(cè)。表2 5種中藥材種子凈度檢測(cè)模型的識(shí)別準(zhǔn)確率
Table 2 Discrimination accuracy of seed clarity detection models for five Chinese medicinal plants %
指標(biāo)Features中藥材Chinese medicinalplantsBLR模型 BLR modelMLP模型 MLP model訓(xùn)練集Training set測(cè)試集Testing set訓(xùn)練集Training set測(cè)試集Testing set黃芩100.0100.099.999.9桔梗100.098.099.598.854個(gè)指標(biāo)54 features黃芪100.097.0100.0100.0紫蘇100.097.099.499.2柴胡100.090.699.597.1黃芩100.0100.0100.0100.0桔梗100.097.599.499.3特征指標(biāo)Characteristicfeatures黃芪100.099.0100.0100.0紫蘇100.098.099.599.6柴胡100.093.199.496.5
圖3 MLP模型對(duì)5種中藥材種子凈度擬合效果Fig.3 Fitting effect of MLP model on seed clarity of 5 kinds of Chinese medicinal plants
中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào)2022年5期