吳靜珠, 李 陽, 孫麗娟, 劉翠玲, 孫曉榮, 陳媛媛
(北京工商大學食品安全大數(shù)據(jù)技術北京市重點實驗室1,北京 100048) (中國農(nóng)業(yè)科學院作物科學研究所2,北京 100081)
我國是世界上水稻產(chǎn)量第一、種植面積第二的國家。水稻的品質(zhì)和產(chǎn)量跟水稻的種植品種有著直接關系[1],同時隨著雜交技術的廣泛應用,種子間的混雜問題越發(fā)突出,因此對水稻種子實現(xiàn)品種快速鑒別成為農(nóng)業(yè)生產(chǎn)和水稻品種選育的重要環(huán)節(jié)。
常見應用于水稻品種鑒定技術有形態(tài)學鑒定法、田間種植鑒定法、電泳法、DNA指紋技術和SSR分子標記鑒定技術等[2,3]。形態(tài)學鑒定法和田間種植鑒定法,需要根據(jù)形態(tài)學性狀進行判定,簡單直接但主觀性強,且易受環(huán)境條件影響;而電泳法、DNA指紋技術和SSR分子標記法雖鑒別精度高,但是實驗周期較長、有損、需專門操作人員、且無法實現(xiàn)批量分析,因此建立一種水稻品種鑒別高效無損的檢測方法至關重要。
太赫茲(terahertz,簡稱THz) 波作為一種頻率處于0.1~10 THz之間的電磁波[4],以其獨特的透視性、指紋圖譜、低能量性、對環(huán)境輻射不敏感等技術優(yōu)勢,日趨成為農(nóng)業(yè)領域[5,6]的研究熱點,有望成為近紅外光譜技術和X射線技術的有益補充。楊亞玲等[7]采集16種雜交水稻種子光譜數(shù)據(jù),通過研究雜交水稻粉末粒度和固定劑濃度對其光譜的影響,結果表明通過雜交水稻種子的太赫茲光譜特征吸收頻率無法直接識別水稻品種,需要結合其他方式進一步探究。杜秀洋[8]基于太赫茲時域光譜技術與化學計量學算法結合對不同霉變程度的稻米進行品質(zhì)的深入研究,結果顯示使用 RBF 核函數(shù)的 LS-SVM 算法建模結合太赫茲時域光譜分析能夠達到較高的準確率。胡曉華[9]從水稻種子的太赫茲時域圖像中提取太赫茲光譜信息,采用多種建模方式建立轉基因水稻種子判別模型,其中最優(yōu)模型的識別準確率可達96.67%?;谔掌澕夹g可用于水稻種子品質(zhì)檢測,但也存在實驗過程較長,實驗樣本被破壞等問題。本研究將太赫茲衰減全反射式(THz-TDS)光譜技術結合支持向量機分類算法,建立水稻品種識別模型,為高效、無損、安全的水稻品種鑒別開辟新的方法。
8種水稻種子,均為粳型常規(guī)稻,主要種植在河南、江蘇、安徽、山東黃淮流域、江蘇省淮北地區(qū)以及長江中下游等多個區(qū)域。圖1為8種水稻樣本圖,可以看出種子性狀差異微小,很難通過肉眼進行品種鑒別,從左到右依次是冀旱糯3、金粳818、連糯1、洛稻998、南粳9108、紹糯9714、徐稻9、鄭旱10。
圖1 8種水稻樣本
TeraPulse 4000太赫茲脈沖光譜儀見圖2,光譜采集由儀器配備的入射角為45°的單晶硅ATR附件完成。ATR附件光譜范圍為0~359.97 cm-1,掃描平均為500次,光譜分辨率 1.901 cm-1。ATR技術具有采樣面積小、非破壞性、更換樣本方便等優(yōu)點。
圖2 TeraPulse 4000太赫茲脈沖光譜儀
實驗每個品種隨機選取100粒,每粒采集1次,即光譜樣本數(shù)量800。為保證儀器系統(tǒng)的穩(wěn)定性,實驗的環(huán)境溫度控制在22 ℃,逐一掃描樣本時保證ATR采樣平臺干凈無污染,將ATR晶體掃描窗口緊貼樣本放置,確保樣本和ATR晶體間有良好的光學接觸且樣本不被外力破壞。圖3a為8種水稻樣本的平均時域譜圖,圖3b為時域信號局部放大圖。
從圖3a中可以看出,8種樣本時域光譜曲線相似,說明系統(tǒng)的穩(wěn)定性較好。將主脈沖放大進行對比,發(fā)現(xiàn)不同品種的水稻樣本主脈沖時延位置有所差異且對應THz波的信號強度也不同,即各類樣本主脈沖在相位和幅度呈現(xiàn)出不同程度的延遲和衰減如圖3b所示。其中在-5.9 ps處的信號強度從高到低依次為鄭旱10>冀旱糯3>洛稻998>金粳818>徐稻9>連糯1>南粳9108>紹糯9714,且連糯1、南粳9108、紹糯9714的主脈沖時延位置明顯右移,這考慮THz波通過不同厚度的樣本產(chǎn)生不同時延。
圖3 時域信號譜(a)和時域信號譜局部放大圖(b)
混淆矩陣[10]是監(jiān)督學習中的一種可視化工具,主要用于比較分類結果與真實情況,能直觀地衡量一個分類模型分類的準確程度?;煜仃囆袑念悇e表示樣本的真實類別,每行的樣本總數(shù)為該類真實樣本數(shù);矩陣的列對應預測類別,每列的樣本數(shù)是預測為該類別的總數(shù)。其中,準確率、精確率、召回率是混淆矩陣常用的指標,其計算公式如式(1)~式(3)所示。準確率表示模型正確預測的樣本與總樣本的比;精確率為正確預測為第i類樣本數(shù)與模型預測為第i類樣本的比,衡量分類模型識別特定類別的能力;召回率表示模型正確預測第i類樣本數(shù)和第i類真實樣本數(shù)之比,是衡量分類器預測相關類別的精度。
(1)
(2)
(3)
式中:Nii、Nki、Nik分別為混淆矩陣中第i行第i列、第k行第i列、第i行第k列對應的數(shù)值。
2.1.1 光學常數(shù)提取
(4)
(5)
式中:w為角頻率;d為樣本厚度;c為太赫茲波在真空中的傳播速度。
實驗過程中儀器會受到環(huán)境噪聲和空氣中水分的干擾,采集的樣本時域信號會存在一定幅度的波動,無法達到儀器理想的信噪比,難以直接通過特征光譜來快速鑒別某一樣本的真實品種。因此,對經(jīng)過光學常數(shù)提取后的光譜需要進一步處理,并結合模式識別方法建立水稻品種無損鑒別模型。
2.1.2 光譜噪聲處理
由于不同生物大分子在太赫茲波段具有強烈吸收和色散特性,其轉動和振動模式的不同,因此各物質(zhì)在太赫茲頻段顯示出特有的“指紋”特性[13],表現(xiàn)在不同物質(zhì)在特定波數(shù)處具有獨特的吸收峰。本實驗分別對8種水稻樣本提取吸收系數(shù)譜和折射率譜進行平均,得到平均吸收系數(shù)譜和平均折射率譜如圖4所示。
原始光譜除了包含樣本成分的光譜信息外,還包含一些干擾模型準確性的無關信息,如高頻隨機噪聲、樣本表面的光散射以及實驗設備自身固有的干擾等。從圖4a可以看到在90~359.97 cm-1范圍內(nèi)吸收系數(shù)譜譜線雜亂無章,有大量無規(guī)則尖銳峰,難以分析出光譜的特征性變化,因此選擇10~90 cm-1作為樣本吸收系數(shù)的有效范圍。隨后對10~90 cm-1吸收系數(shù)譜和0~90 cm-1折射率譜進一步進行預處理,去除噪聲干擾、平滑尖峰校正樣本信號。移動窗口均值通過計算每個窗口內(nèi)點的均值,幫助消除從一個數(shù)據(jù)點到下一個數(shù)據(jù)點的非顯著變化,從而顯著改善波形異常抖動,提高模型魯棒性。
本研究采用3點移動窗口均值,圖4b和圖4c為經(jīng)過預處理后吸收系數(shù)譜和折射率譜,可以看出經(jīng)過預處理后,吸收系數(shù)和折射率的信號強度降低,譜線整體趨于平緩,且特征吸收峰并未被破壞。不同品種的吸收譜線在57、58、75、88 cm-1均有形態(tài)一致、強度不同的吸收峰,不同品種的折射率譜線在7、12、18 cm-1處也有吸收峰,這也為后續(xù)建立水稻品種的鑒別模型提供有力支撐。
圖4 吸收系數(shù)局部圖(a)、預處理后吸收系數(shù)譜(b)、折射率譜(c)和預處理后折射率譜(d)
2.2.1 建模方法
支持向量機[14]是基于結構風險最小化原理,通過控制經(jīng)驗風險和置信范圍值,提高模型泛化能力,針對小樣本、高緯度、非線性樣本獨具優(yōu)勢。SVM非線性映射[15]是將樣本空間映射到高維,在特征空間中應用線性學習機的方法解決樣本空間中高度非線性分類。本研究應用RBF核函數(shù),基于5折交叉驗證的網(wǎng)格搜索用于參數(shù)優(yōu)化,其參數(shù)懲罰因子c和核函數(shù)參量g的初值范圍設置為[2-10, 210],移動步長為0.5。
本文數(shù)據(jù)處理均使用MATLAB 2016a進行。
2.2.2 基于吸收系數(shù)的品種識別
基于吸收系數(shù)對8種水稻樣本進行精確品種識別。樣本共800個,每種以3∶1比例隨機劃分,即訓練集600個,測試集200個。針對上述數(shù)據(jù)集,基于SVM算法進行品種分類識別,品種識別結果的混淆矩陣圖5所示,其中圖5a是未經(jīng)過預處理品種識別混淆矩陣圖,實驗準確率為80.5%;圖5b是經(jīng)過3點移動窗口均值處理后的分類結果,實驗準確率為98.5%。
注:數(shù)字1~8代表冀旱糯3、金粳818、連糯1、洛稻998、南粳9108、紹糯9714、徐稻9、鄭旱10。圖5 無預處理品種識別混淆矩陣(a)和預處理后品種識別混淆矩陣(b)
對比圖5a和圖5b,經(jīng)過預處理后品種識別模型準確率有明顯的提高。圖5b所示在模型品種識別中200個測試樣本中僅有3個被誤判,其中冀旱糯3有1個被誤判為連糯1,金粳818中1個誤判為洛稻998,徐稻9中1個誤判為金粳818;同時為了進一步評判品種對模型的適應情況,由混淆矩陣計算出品種識別的召回率和精確率,如表1所示,結果顯示品種識別模型對于連糯1、洛稻998、南粳9108、紹糯9714、鄭旱10這5種能夠完全識別出來,對比吸收系數(shù)譜圖可以看出88 cm-1處的吸收峰對于品種識別模型的判別有一定作用,同時針對誤判的3個樣本,發(fā)現(xiàn)在樣本特定波數(shù)處與被誤判的品種譜線有大量重疊。
表1 基于吸收系數(shù)的8種水稻品種識別的召回率和精確率
2.2.3 基于折射率的品種識別
基于折射率對8種水稻樣本進行精確品種識別,其中樣本共800個,每種以3∶1比例隨機劃分,即訓練集600個,測試集200個。針對上述數(shù)據(jù)集,結合SVM算法進行品種識別,實驗準確率為89%,分類結果的混淆矩陣如圖6所示。 基于折射率的水稻樣本八品種識別模型對冀旱糯3、鄭旱10能夠全識別?;煜仃囉嬎愠稣凵渎势贩N識別的召回率和精確率如表2所示,冀旱糯3的召回率和精確率均為100%,表明冀旱糯3與基于折射率的品種識別模型適應度最好,同時模型對于其他品種樣本識別能力相對較差;對比圖4d發(fā)現(xiàn),冀旱糯3能夠被完全識別且不被別的品種誤判,其折射率譜完全區(qū)別于其他品種有一定的相關性;同時金粳818、連糯1、徐稻9的精確率均為100%,考慮是5~12 cm-1處折射率譜嚴重重疊是影響其余品種間判別錯誤的主要原因。
圖6 基于折射率的8種水稻品種識別混淆矩陣
表2 基于折射率的8種水稻品種識別的召回率和精確率
2.2.4 建模結果對比與分析
基于SVM網(wǎng)絡的水稻品種識別模型的建模結果,如表3所示。經(jīng)過3點移動窗口均值后,品種識別模型性能穩(wěn)健、模型預測能力更好,同時建模結果顯示基于吸收系數(shù)的模型識別準確率高于折射率模型,考慮在實驗范圍內(nèi)吸收系數(shù)譜比折射率譜上有更多不同特征吸收峰,同時吸收系數(shù)譜的吸收峰峰位和的峰值的強弱均有所差異,從而攜帶了更多的種子信息為識別模型建立提供了條件。
表3 水稻品種定性分析結果表
水稻品種鑒別是農(nóng)業(yè)育種過程中的關鍵環(huán)節(jié),目前常用的水稻品種鑒別存在耗時費力,效率低等問題。本實驗選取8種水稻樣本,采集其衰減全反射式 THz-TDS光譜圖,通過提取樣本光學常數(shù)折射率和吸收系數(shù)數(shù)據(jù),經(jīng)3點移動窗口均值優(yōu)化處理后,分別建立基于SVM算法的品種識別模型。結果表明基于吸收系數(shù)的SVM模型預測準確率98.5%,基于折射率譜的SVM模型預測準確率89%,吸收系數(shù)數(shù)據(jù)建模結果優(yōu)于折射率模型;研究結果也論證了將太赫茲衰減全反射光譜技術應用于水稻品種識別的可行性,同時通過對比不同光學常數(shù)的建模結果,來尋求一種高效、無損的水稻品種識別方法,為太赫茲波在水稻選育應用提供重要參考。