接昭瑋,周世瑞,王繼芬*,孔藝青,李文憑,邵作山
(1.中國(guó)人民公安大學(xué) 偵查學(xué)院,北京 100038;2.中國(guó)人民公安大學(xué) 犯罪學(xué)院,北京 100038;3.國(guó)家體育總局反興奮劑中心,北京 100029;4.青島青源峰達(dá)太赫茲科技有限公司,山東 青島 266100)
糧食安全在保障百姓飲食安全方面具有重大戰(zhàn)略地位。自“昆侖行動(dòng)”開展以來,全國(guó)公安機(jī)關(guān)對(duì)于糧食安全生產(chǎn)高度重視,加大了對(duì)危害糧食生產(chǎn)安全類犯罪行為的打擊。自專項(xiàng)行動(dòng)開展至今,全國(guó)共破獲制售種子摻假類犯罪案件1 200余起,打掉犯罪團(tuán)伙260余個(gè),涉案總金額高達(dá)20.5億元[1]。在糧食生產(chǎn)領(lǐng)域,水稻不僅是當(dāng)今世界重要的糧食作物,還具有極其顯著的經(jīng)濟(jì)和藥用價(jià)值。近年來,某些不法分子將未達(dá)標(biāo)的水稻種子摻雜于合格水稻種子中兜售以獲得巨額經(jīng)濟(jì)利益,使國(guó)家和社會(huì)利益蒙受巨大損失。因此,種子安全事關(guān)國(guó)計(jì)民生,是國(guó)家糧食生產(chǎn)安全的第一道防線。
當(dāng)前針對(duì)種子鑒定的常用方法主要有兩種,即特異性、一致性和穩(wěn)定性栽培(Distinctness,uniformity and stability,DUS)實(shí)驗(yàn)鑒定及簡(jiǎn)單重復(fù)序列(Single sequence repeat,SSR)標(biāo)記鑒定。其中,DUS鑒定屬于田間鑒定,鑒定周期由植物生長(zhǎng)周期決定,因此鑒定時(shí)間較長(zhǎng),且實(shí)驗(yàn)誤差相對(duì)較大;SSR鑒定屬于DNA鑒定,即利用DNA點(diǎn)位標(biāo)記法對(duì)樣本進(jìn)行標(biāo)記,其成本較高。這兩種鑒定方法均不能滿足一線執(zhí)法人員對(duì)摻假種子鑒定的快檢需求。近年來,有研究人員采用高光譜成像技術(shù)對(duì)水稻種子開展分類識(shí)別工作[2],研究過程中發(fā)現(xiàn)高光譜成像技術(shù)雖然能夠同時(shí)獲得樣品的光譜分辨率和空間分辨率,但其靈敏度較低,同時(shí)會(huì)導(dǎo)致數(shù)據(jù)冗余,增加后續(xù)數(shù)據(jù)處理的工作量。而太赫茲光譜作為一種新興的時(shí)域光譜檢測(cè)技術(shù),具有光子能量低、穿透性強(qiáng)、空間分辨率高以及脈沖時(shí)間短等特點(diǎn),可有效探測(cè)復(fù)雜物質(zhì)在太赫茲波段的物理和化學(xué)信息。吳靜珠等[3]采用太赫茲時(shí)域光譜及其成像技術(shù)發(fā)現(xiàn)了玉米種子活力敏感的太赫茲波段,證明了將太赫茲技術(shù)用于種子活力無損檢測(cè)的可行性;譚佐軍等[4]利用太赫茲時(shí)域光譜技術(shù)對(duì)谷粒中的儲(chǔ)糧害蟲及其種類開展識(shí)別工作,結(jié)合機(jī)器學(xué)習(xí)模型構(gòu)建了谷粒中是否有害蟲的快速無損檢測(cè)方法。因此,太赫茲時(shí)域光譜在農(nóng)產(chǎn)品和食品加工業(yè)等領(lǐng)域具有重要應(yīng)用前景[5-6]。
機(jī)器學(xué)習(xí)是對(duì)計(jì)算機(jī)算法的研究,其本質(zhì)是計(jì)算機(jī)在已知樣本數(shù)據(jù)的基礎(chǔ)上建立模型從而解決特定問題的過程,在靈活性、精度和執(zhí)行速度等方面具有顯著優(yōu)勢(shì)。在司法鑒定領(lǐng)域,現(xiàn)代儀器分析技術(shù)的廣泛應(yīng)用為分析復(fù)雜混合物物證提供了便利條件,但這些分析方法會(huì)產(chǎn)生大量數(shù)據(jù)集,使鑒定人員的工作變得更加繁瑣,出現(xiàn)錯(cuò)誤的概率成倍增加。因此,將機(jī)器學(xué)習(xí)算法應(yīng)用于現(xiàn)代儀器分析領(lǐng)域可以幫助鑒定人員獲得更加準(zhǔn)確而有意義的分析結(jié)果[7-8]。
傅里葉變換(Fourier transform,F(xiàn)T)是數(shù)字信號(hào)處理領(lǐng)域的一種重要分析方法,該方法對(duì)于信號(hào)頻率具有較高的分辨率,因而可以清晰得到光譜信號(hào)中所包含的頻率成分(即頻譜)。王毅凡等[9]采用太赫茲時(shí)域光譜對(duì)四環(huán)素類抗生素進(jìn)行定性分析,結(jié)果表明四環(huán)素類抗生素經(jīng)FT方法處理后在太赫茲波段具有不同的特征吸收峰,實(shí)驗(yàn)根據(jù)該方法找到了定性鑒別抗生素種類的新思路。孫然等[10]借助太赫茲時(shí)域光譜技術(shù)對(duì)對(duì)羥基苯甲酸酯類物質(zhì)進(jìn)行分類識(shí)別,通過傅里葉變換方法獲得樣本在0.3 ~ 2.4 THz頻段的頻域光譜,并基于此對(duì)不同比例混合樣品的光譜特性進(jìn)行了定性分析。
鑒于此,本文利用太赫茲時(shí)域光譜結(jié)合機(jī)器學(xué)習(xí)算法對(duì)不同水稻種子品牌進(jìn)行分類識(shí)別。通過太赫茲時(shí)域光譜系統(tǒng)獲得不同品牌水稻種子樣本的光譜數(shù)據(jù),并采用特征選擇算法進(jìn)行處理,同時(shí)設(shè)計(jì)分類器對(duì)特征選擇后的樣本進(jìn)行分類,并針對(duì)分類結(jié)果對(duì)模型進(jìn)行優(yōu)化,從而為公安機(jī)關(guān)在偵破種子摻假類案件方面提供偵查方向和完整證據(jù)鏈。
結(jié)合實(shí)際案例,從濟(jì)南食藥環(huán)偵大隊(duì)等實(shí)戰(zhàn)部門收集4種不同品質(zhì)與品牌的水稻種子樣本,研磨粉碎后均制備成單一樣本,每種樣本壓片40個(gè)。將粉碎后的單一樣本按質(zhì)量比1∶1兩兩混合均勻,共制備成6種混合樣本,每種樣本壓片40個(gè)。種子樣本信息詳見表1。
表1 種子樣本信息統(tǒng)計(jì)表Table 1 Statistical table of seed samples
(續(xù)表1)
實(shí)驗(yàn)采用型號(hào)為QT-TS 2000的快速太赫茲時(shí)域光譜系統(tǒng)對(duì)10種種子樣品壓片進(jìn)行掃描。其中,儀器的光譜寬度區(qū)間為0.1 ~ 4 THz,頻譜分辨率為8 GHz,工作模式選擇透射式,工作電源選擇24 V直流電源。
通過太赫茲時(shí)域光譜系統(tǒng)掃描并結(jié)合快速傅里葉變換方法對(duì)10類種子樣本的時(shí)域光譜信號(hào)進(jìn)行處理,最終得到各類樣本在0 ~ 1.5 THz頻段的頻域光譜(圖1)。為更加準(zhǔn)確地對(duì)水稻種子進(jìn)行光譜模式識(shí)別研究,采用不同的特征選擇方法對(duì)種子進(jìn)行特征波長(zhǎng)提取,以獲得更為精確的分類效果。
圖1 經(jīng)FT方法預(yù)處理后的10類水稻種子的太赫茲光譜圖Fig.1 Terahertz spectra of 10 kinds of rice seeds pretreated by FT method
特征選擇是從已有樣本的原始特征數(shù)據(jù)集中選擇某些有效特征從而使系統(tǒng)內(nèi)特定指標(biāo)最優(yōu)化的過程[11]。采用合適的特征選擇方法不僅可以解決批量樣本數(shù)據(jù)的“維度災(zāi)難”問題,更會(huì)提升分類器的學(xué)習(xí)效率,有效降低模型的運(yùn)行時(shí)間和增加模型的可解釋性。
1.2.1Relief算法Relief算法是一種基于特征權(quán)重進(jìn)行特征選擇的算法,即在各類別及其特征的相關(guān)性基礎(chǔ)上分析各特征權(quán)重,當(dāng)其特征權(quán)重小于某個(gè)閾值時(shí)該特征被剔除。張萌[12]團(tuán)隊(duì)采用高光譜成像技術(shù)對(duì)蘋果輕微損傷開展快速識(shí)別工作,借助Relief算法提取到8個(gè)特征波段,最終有效提升了后續(xù)分類器的學(xué)習(xí)效率。
1.2.2隨機(jī)森林算法隨機(jī)森林(RF)算法作為一種集成學(xué)習(xí)方法,具有分析復(fù)雜相互作用分類特征的能力,該算法可通過對(duì)變量的重要性度量使數(shù)據(jù)作為特征選擇的工具。馮志立等[13]利用RF算法對(duì)不同類型的冬小麥光譜進(jìn)行特征選擇研究,發(fā)現(xiàn)基于RF算法的特征選擇方法使得冬小麥的分類精度高達(dá)98.33%,其模型能夠有效提升分類器的學(xué)習(xí)效率;袁自然等[14]采用RF特征選擇算法對(duì)辣椒葉片的高光譜圖像和葉綠素含量進(jìn)行數(shù)據(jù)篩選,發(fā)現(xiàn)利用RF算法選擇的波段所建模型的決定系數(shù)均大于0.8,說明該方法具有較高的穩(wěn)定性和預(yù)測(cè)精度。
1.2.3支持向量機(jī)遞歸特征消除算法支持向量機(jī)遞歸特征消除(SVM-RFE)算法是一種尋找最優(yōu)特征子集的貪心算法,即建立支持向量機(jī)(SVM)模型選擇最優(yōu)特征,對(duì)剩余特征重復(fù)該過程直至遍歷所有特征,其過程中特征被消除的次序即為特征排序。SVM-RFE的優(yōu)勢(shì)在于其模型性能好、泛化能力強(qiáng),被選擇的特征子集對(duì)樣本整體更具有代表性[15]。陳輝煌等[16]建立了SVM-RFE模型對(duì)9種鮮茶葉的高光譜數(shù)據(jù)進(jìn)行特征提取并采用線性SVM分類器進(jìn)行分類,實(shí)驗(yàn)結(jié)果表明基于SVM-RFE特征選擇后的SVM分類結(jié)果準(zhǔn)確率達(dá)95%以上,證明了SVM-RFE模型在數(shù)字信號(hào)處理領(lǐng)域的穩(wěn)定性和有效性。
1.2.4最大相關(guān)最小冗余算法最大相關(guān)最小冗余(mRMR)算法是一種濾波式特征選擇算法,即在原始特征集合中篩選出與分類變量間相關(guān)性最大而與特征間相關(guān)性最小的一組特征,其優(yōu)勢(shì)在于能夠找到最優(yōu)區(qū)分度的特征,并最大程度地消除特征變量的冗余。張?zhí)炝恋龋?7]利用高光譜成像技術(shù)對(duì)8個(gè)玉米品種的葉片各區(qū)域進(jìn)行光譜分析,采用mRMR算法成功提取到各葉片區(qū)域的品種分類特征;沈宇等[18]采用高光譜成像技術(shù)對(duì)蘋果損傷時(shí)間開展識(shí)別預(yù)測(cè)工作,實(shí)驗(yàn)通過建立mRMR模型提取到利于預(yù)測(cè)蘋果損傷時(shí)間的光譜特征,其結(jié)果對(duì)于提升蘋果損傷時(shí)間的預(yù)測(cè)精度具有參考價(jià)值。
因此,本實(shí)驗(yàn)采用Relief算法、RF算法、SVM-RFE算法和mRMR算法對(duì)不同品牌水稻種子樣本的太赫茲時(shí)域光譜進(jìn)行研究,以提高后續(xù)分類器的分類效率,為種子摻假類案件的偵破提供參考。
實(shí)驗(yàn)采用MATLAB R2021b軟件建立基于Relief、RF、SVM-RFE和mRMR算法的4種特征選擇模型,分別對(duì)10類水稻種子樣本進(jìn)行特征波長(zhǎng)選擇,結(jié)果如圖2所示。
圖2 4種特征選擇算法對(duì)樣本波長(zhǎng)的提取結(jié)果Fig.2 Extraction results of sample wavelengths by four feature selection algorithms
由圖2可知,不同特征選擇方法由于其建模原理不同,因此所選擇出的特征波長(zhǎng)結(jié)果也會(huì)有較多差異?;赗elief算法的特征選擇方法對(duì)10類水稻種子的波長(zhǎng)選擇結(jié)果主要集中在0.6 ~ 0.8 Thz區(qū)間內(nèi);RF算法對(duì)樣本波長(zhǎng)的特征選擇結(jié)果主要集中在0.1 ~ 0.6 Thz和0.8 ~ 1.5 Thz區(qū)間;SVM-RFE算法主要集中在0.1 ~ 0.82 Thz和1.0 ~ 1.5 Thz區(qū)間;mRMR算法則集中在0.9 ~ 1.32 Thz區(qū)間。特征選擇方法的優(yōu)勢(shì)在于能夠去除與后續(xù)機(jī)器學(xué)習(xí)任務(wù)不相關(guān)的特征,從而增加模型效果的穩(wěn)定性。此外,特征選擇還能夠降低過擬合風(fēng)險(xiǎn)并使模型的泛化能力加強(qiáng),最終增大特征與特征值之間的相關(guān)性。
2.2.1 模型分類結(jié)果極限學(xué)習(xí)機(jī)(ELM)是一種基于前饋神經(jīng)網(wǎng)絡(luò)搭建的機(jī)器學(xué)習(xí)模型,憑借其學(xué)習(xí)效率高和泛化能力好等優(yōu)勢(shì)被應(yīng)用于法庭科學(xué)領(lǐng)域[19]。張晗等[20]利用相機(jī)采集圖像并結(jié)合ELM模型對(duì)玉米單粒種子發(fā)芽潛力進(jìn)行研究,結(jié)果表明基于ELM的機(jī)器視覺技術(shù)對(duì)種子發(fā)芽的查準(zhǔn)率預(yù)測(cè)高達(dá)88.51%。支持向量機(jī)則是一種監(jiān)督式線性分類模型[21],其本質(zhì)是找到樣本間最佳決策邊界從而對(duì)樣本進(jìn)行分類。在解決多分類問題時(shí),SVM模型可將多個(gè)分類面參數(shù)求解并合并至一個(gè)最優(yōu)化問題中最終實(shí)現(xiàn)多樣本分類。本實(shí)驗(yàn)采用MATLAB R2021b軟件分別建立ELM和SVM分類模型,將訓(xùn)練集與測(cè)試集的比例設(shè)置為7∶3。在ELM模型中,隱含層節(jié)點(diǎn)個(gè)數(shù)設(shè)置為40個(gè),使用Sigmoid函數(shù)作為激活函數(shù);在SVM模型中,對(duì)特征數(shù)據(jù)進(jìn)行歸一化處理,同時(shí)采用徑向基函數(shù)(RBF)作為核函數(shù)進(jìn)行分類。兩種模型的分類結(jié)果如圖3和圖4所示。
圖3 ELM模型對(duì)10類水稻種子樣本的分類結(jié)果圖Fig.3 Classification results of ELM model on 10 categories of rice seed samples
由圖3和圖4可知,經(jīng)特征選擇后的水稻種子樣本分類準(zhǔn)確率均遠(yuǎn)高于未經(jīng)特征選擇的原始樣本。分析原因在于原始樣本中的無關(guān)特征和冗余特征太多,增加了分類器的復(fù)雜性,從而使機(jī)器學(xué)習(xí)任務(wù)的難度提高,最終導(dǎo)致模型分類的準(zhǔn)確度降低。
圖4 SVM模型對(duì)10類水稻種子樣本的分類結(jié)果圖Fig.4 Classification results of SVM model on 10 categories of rice seed samples
2.2.2 分類模型的優(yōu)化將基于不同特征選擇方法的ELM模型和SVM模型分類結(jié)果可視化(圖5)。由圖5可知,ELM模型對(duì)經(jīng)過不同特征選擇方法處理的種子樣本的分類結(jié)果總體高于SVM模型。原因在于SVM分類模型是通過二次規(guī)劃求解支持向量進(jìn)行分類,對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施,需要耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間;而ELM模型具有隱含層,機(jī)器學(xué)習(xí)過程中僅計(jì)算權(quán)重,因此在學(xué)習(xí)速率和泛化能力方面更具優(yōu)勢(shì)。在ELM模型的分類結(jié)果中,基于RF算法進(jìn)行特征選擇的樣本分類準(zhǔn)確率最高(90%),原因在于RF算法能夠?qū)ψ兞康闹匾赃M(jìn)行度量并且對(duì)特征進(jìn)行排序,從而可有效識(shí)別并消除冗余特征和不相關(guān)特征,提高分類器的分類性能。但ELM模型本身可控性較差,沒有考慮結(jié)構(gòu)化風(fēng)險(xiǎn),會(huì)導(dǎo)致樣本結(jié)果出現(xiàn)過擬合等問題。因此,本實(shí)驗(yàn)對(duì)ELM分類模型進(jìn)行優(yōu)化,以進(jìn)一步提升其分類的準(zhǔn)確率。
圖5 基于不同特征選擇方法的ELM模型和SVM模型分類結(jié)果比較Fig.5 Comparison of classification results of ELM model and SVM model based on different feature selection methods
布谷鳥搜索(Cuckoo search,CS)算法是一種群智能優(yōu)化算法,其主要特點(diǎn)是參數(shù)少、操作簡(jiǎn)單且尋優(yōu)能力強(qiáng)[22]。高桂革等[23]建立了CS-ELM模型對(duì)風(fēng)速序列進(jìn)行預(yù)測(cè),論證了模型應(yīng)用的合理性;童成寶等[24]利用CS-ELM模型對(duì)遙感影像開展分類鑒別工作,結(jié)果發(fā)現(xiàn)CS算法可以解決ELM模型中因參數(shù)計(jì)算錯(cuò)誤導(dǎo)致分類結(jié)果較差的問題。鑒于此,本實(shí)驗(yàn)將CS算法應(yīng)用于ELM模型中并對(duì)輸入層和隱含層的權(quán)值進(jìn)行優(yōu)化,以提高模型的預(yù)測(cè)精度。
在建立CS-ELM模型的過程中,將訓(xùn)練集與測(cè)試集的比例設(shè)置為7∶3,ELM隱含層節(jié)點(diǎn)數(shù)設(shè)置為2 000,迭代次數(shù)設(shè)置為70,布谷鳥巢穴數(shù)量設(shè)置為9個(gè),被宿主發(fā)現(xiàn)的概率設(shè)置為0.2。CSELM模型對(duì)樣本的分類結(jié)果如圖6所示。
由圖6可知,經(jīng)RF算法對(duì)10類水稻種子樣本的太赫茲時(shí)域光譜進(jìn)行特征選擇后,CS-ELM模型對(duì)于樣本的分類準(zhǔn)確率達(dá)到100%。其中,RF特征選擇算法對(duì)于水稻種子樣本波長(zhǎng)的重要性度量結(jié)果如圖7所示。結(jié)合圖2B可知,RF模型選擇圖7中依據(jù)重要性從大到小順序排列的前15個(gè)波長(zhǎng)點(diǎn)作為特征波長(zhǎng)點(diǎn)進(jìn)行后續(xù)分類識(shí)別。圖6結(jié)果表明,基于RF特征選擇算法的CS-ELM模型具有較高的分類精度,能夠很好地彌補(bǔ)傳統(tǒng)ELM模型訓(xùn)練速度慢、可控性能差等不足。因此,實(shí)驗(yàn)結(jié)果證明太赫茲時(shí)域光譜結(jié)合RF-CS-ELM模型在種子摻假鑒定領(lǐng)域具有一定的實(shí)用性。
圖6 基于RF特征選擇算法的CS-ELM模型分類結(jié)果Fig.6 Classification results of CS-ELM model based on RF feature selection algorithm
圖7 基于RF算法的波長(zhǎng)重要性度量結(jié)果圖Fig.7 Results of wavelength importance measurement based on RF algorithm
本文利用太赫茲時(shí)域光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)方法對(duì)不同品牌水稻種子的摻假問題進(jìn)行研究?;谔掌潟r(shí)域光譜系統(tǒng)采集到的10類水稻種子樣本在不同頻率下的吸收率譜圖,采用傅里葉變換對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理,在預(yù)處理的基礎(chǔ)上,建立了4種特征選擇方法對(duì)經(jīng)預(yù)處理后的光譜樣本進(jìn)行特征波長(zhǎng)選擇,并搭建ELM和SVM模型對(duì)經(jīng)過特征選擇的樣本數(shù)據(jù)進(jìn)行分類識(shí)別。結(jié)果顯示,通過優(yōu)化建立的CS-ELM分類模型對(duì)基于RF算法進(jìn)行特征選擇后的10類水稻種子樣本的識(shí)別效果最好,準(zhǔn)確率達(dá)到100%。因此,將太赫茲時(shí)域光譜與機(jī)器學(xué)習(xí)相結(jié)合,可對(duì)待測(cè)樣本進(jìn)行快速檢測(cè)與分類識(shí)別,為太赫茲時(shí)域光譜技術(shù)在種子摻假鑒定領(lǐng)域的應(yīng)用提供了一定的參考與借鑒。