施 洋,高 進,陳建平,楊 華,陸鎮(zhèn)威,王永慧,施慶華,孫艷茹
(江蘇沿海地區(qū)農業(yè)科學研究所,江蘇鹽城 224002)
土壤鹽漬化是全球性的環(huán)境問題,是限制農業(yè)生產的因素之一[1-2]。我國海岸線綿長,擁有豐富的鹽堿地資源,在主要產棉區(qū)皆分布著較大規(guī)模的鹽堿地,應用棉花耐鹽的生物學特性發(fā)展鹽堿地植棉是緩解糧棉爭地矛盾、發(fā)展棉花生產、提升棉花產量的有效途徑[3-5]。棉花在不同生育階段耐鹽能力不同,一般認為,幼苗階段時期對鹽分較為敏感,隨著生育期的延長,棉花耐鹽性逐步提高。因此,幼苗期是鑒定棉花耐鹽性的重要階段[6-8]。常規(guī)的棉花苗期鹽脅迫試驗是通過表型、光合作用、氧化應激、滲透調節(jié)、離子平衡等方面來判斷棉花耐鹽性,從而篩選出耐鹽材料并挖掘耐鹽基因[9-10]。
隨著進入機器學習的新技術時代,深度學習被應用到植物上,卷積神經網絡可以通過可見光和近紅外光譜數(shù)字圖像進行植物分類和病蟲害診斷[11-16]。遷移學習可提高識別的準確率,解決小樣本訓練深度卷積神經網絡的問題[17-21]。李博等[22]使用 3種識別模型對蘋果等14類園藝作物26種葉部病害進行識別,準確率達95%。許景輝等[23]提出基于遷移學習的卷積神經網絡玉米健康葉、大斑病葉、銹病葉圖像識別方法。張建華等[24]提出基于改進VGG16卷積神經網絡的病害識別模型。前人主要研究人工智能對植物分類和病蟲害圖像的識別,但棉花受鹽脅迫圖像的研究尚鮮見報道。鑒于此,筆者以海水模擬沿海土地鹽堿地成分對苗期棉花進行脅迫,對不同濃度海水脅迫下棉花的頂視圖和側視圖進行分類研究,探索利用卷積神經網絡快速準確地檢測苗期棉花受海水脅迫程度,對于耐鹽棉花育種和改良鹽堿地等方面具有現(xiàn)實意義。
1.1 試驗設計棉花種質資源共30份,包括蘇棉22 、蘇棉25、蘇棉30、泗抗1號、GK39、蘇研608、魯棉28、中棉所10、中棉所41、中棉所50、冀豐4號、邯棉646、泗陽518、泗棉3號、鹽1046、冀優(yōu)851、肖縣133長絨、長絨67-12、川169-6、冀省病檢7、冀省病檢5、海興耐鹽6、海興耐鹽9、海興耐鹽10、中植棉2號、鹽豐39、K236、NT1號、1138、H602。
試驗于2019 年9月在江蘇沿海地區(qū)農業(yè)科學研究所試驗場遮雨大棚中進行。試驗用種經濃硫酸脫絨后,選取發(fā)育正常、飽滿、成熟度均一的健康種子,用 3% H2O2浸泡 30 s進行消毒。選取備好的試驗材料,用蒸餾水浸種 20 h 后,進行穴盤育苗,每個材料播50穴,每穴1~2粒種子,待供試品種長至2葉1心時,挑選長勢一致的5株棉花移入盛有基質的底部具孔(直徑 10 cm,高 15 cm)的塑料杯中,每杯1株。將塑料杯置于60 cm × 45 cm × 20 cm(長×寬×高)的周轉箱中,進行不同濃度的海水脅迫處理。以蒸餾水和海水調配不同濃度海水,試驗海水濃度設0(蒸餾水)、25%、50%和100%共4個處理。試驗期間,每隔3 d更換1次海水,每天補充去離子水至標記液面刻度。海水取自鹽城市射陽港港口(33°49′ N,120°30′ E),用DDS-307型電導率儀測定值為19.21 μS/cm。
1.2 圖片采集于海水處理的第20天時選取棉株進行圖片采樣。該研究采用可見光收集不同濃度海水處理下的棉花頂視圖和側視圖。拍攝所用相機型號為佳能EOS 800D,固定光圈F4,IOS 400。取出塑料杯用紙巾擦干,平放在方桌上,以白布作為拍攝背景,控制鏡頭與拍攝對象之間距離為20 ~ 30 cm時拍攝頂視圖,30 ~ 40 cm時拍攝側視圖。共采集0、25%、50%和100%濃度海水處理的4種類型樣本圖像1 056幅,其中側視圖和頂視圖各528幅。將采集的圖像設置為jpg格式(分辨率為3 984像素×2 656像素),建立試驗樣本圖像。圖1為采集到的棉花側視和頂視圖像。
圖1 可見光收集的棉花圖像
1.3 模型建立針對卷積神經網絡識別需大量的樣本對網絡長時間訓練,該研究結合卷積神經網絡和遷移學習的思想,提出了一種基于模型遷移的方法對棉花受海水脅迫情況進行分類。選用VGG16卷積神經網絡對其進行模型參數(shù)遷移,該網絡已經接受了約100萬種圖像的訓練,可以對不同濃度海水脅迫下棉株的頂視圖和側視圖進行分類研究。使用528張棉花頂視圖和側視圖,以4∶1比例隨機劃分訓練集和測試集,模型使用在ImageNet數(shù)據集上訓練過的VGG16進行遷移學習,將后面的全連接層和SoftMax去掉,換成1個1 024的全連接層,1個為4的全連接層和1個SoftMax層,訓練時只訓練所加結構的網絡參數(shù)。遷移學習的Epoch為100,Learning Rate為5e-5(圖2)。編程語言使用python 3.6.9,模型訓練使用keras 2.3.1。
圖2 遷移學習后的網絡結構
2.1 側視圖的模型訓練與測試網絡對棉花受海水脅迫的側視圖集訓練100個輪次,得到如圖3所示的結果。可以看出,模型在80~100輪次時預測的準確率趨于穩(wěn)定,訓練集準確率接近100%,這是因為VGG16卷積神經網絡模型可以很好地提取棉花受海水脅迫的特征,并在分類空間上有良好的表現(xiàn)。隨著訓練周期數(shù)的不斷增加,訓練集和測試集的損失值呈降低趨勢。
圖3 棉花側視圖像集的網絡訓練與測試過程
表1 棉花側視圖像集的網絡測試結果
棉花側視圖像集網絡測試結果的混淆矩陣如圖4所示。混淆矩陣的列標簽表示模型預測的類別,其對應的行數(shù)值總和為網絡預測該類別的樣本總數(shù)?;煜仃嚨男袠撕灡硎緦嶋H類別,其對應的列數(shù)值總和為該類別的真實樣本總數(shù)。行列交叉處的數(shù)值表示該類別被預測為對應列標簽的數(shù)量,對角線處的數(shù)值表示正確預測的標簽樣本數(shù)量??梢钥闯?,測試樣本有105個,共計21個樣本被識別錯誤,網絡測試的準確率為80.00%。測試的錯誤識別集中在25%和50%濃度海水處理,其中25%濃度海水處理中有15個樣本被錯誤識別,當中有11次被識別為50%濃度海水處理,50%濃度海水處理中有4個樣本被錯誤識別為100%濃度海水處理。
圖4 棉花側視圖像集網絡測試結果的混淆矩陣
2.2 頂視圖的模型訓練與測試網絡對棉花受海水脅迫的頂視圖集的訓練和測試過程如圖5所示??梢钥闯鼍W絡訓練和測試的準確率逐步上升,到第60輪后趨于穩(wěn)定。
圖5 棉花頂視圖像集的網絡訓練與測試過程
由表2可知,100%濃度海水處理的精確率和召回率最高,分別為92.86%和83.87%。0、25%、50%和100%濃度海水處理下,模型的F1值分別為86.79%、65.31%、65.30%和88.14%,整體上低于側視圖的測試結果。頂視圖的測試結果表明,網絡對0和100%濃度海水處理的預測能力較好。
表2 棉花頂視圖像集的網絡測試結果
從棉花頂視圖的網絡測試結果的混淆矩陣(圖6)可知,測試樣本有105個,共計24個樣本被識別錯誤,網絡測試的準確率為77.14%。25%濃度海水處理有9個樣本識別錯誤,其中2個樣本被識別為0濃度海水處理,7個樣本被識別為50%濃度海水處理。網絡對50%濃度海水處理有5個樣本識別錯誤,其中3個樣本被識別為25%濃度海水處理,2個樣本識別為100%濃度海水處理。網絡對不同濃度海水脅迫下棉花頂視圖的識別具有可行性,對0和100%濃度海水處理識別能力較高。
圖6 棉花頂視圖像集的網絡測試結果的混淆矩陣
該研究將遷移學習應用于VGG16卷積神經網絡,通過對不同濃度海水脅迫下30個棉花種質資源側視圖和頂視圖的圖像集測試,得到以下結論:
(1)該研究驗證了遷移學習技術對棉花受海水脅迫程度判斷進行端到端識別具有可行性。網絡對棉花側視圖的測試準確率達到80.00%,對頂視圖的測試準確率達到77.14%,側視圖更有利于模型的判斷。
(2)2種視圖下,模型對0和100%濃度海水處理的測試中F1均達到85%以上,預測能力更強。
該研究的模型測試結果能夠較客觀地判斷棉花苗期受海水脅迫情況,但還是存在一些問題需要探討。在0濃度海水處理下,模型測試結果中綜合評價指標F1高,這是由于棉花在無海水脅迫下長勢良好,圖片特征明顯,易于模型識別。雖然棉花的耐鹽性比較強,但是不同基因型棉花之間耐鹽性存在差異[25-29],部分棉花材料的耐鹽性較高,這導致了模型對25%和50%濃度海水處理的識別能力低,且模型多次把25%濃度海水處理的圖片樣本錯誤識別為50%濃度海水處理。100%濃度海水處理下模型預測準確度高,這是由于棉花是中度耐鹽作物,當處于高鹽分的環(huán)境條件下,株高、葉面積和莖粗等表型指標均受影響[30-31],部分出現(xiàn)死苗情況,受害特征較明顯。
在該模型的基礎上,后續(xù)可以構建篩選耐鹽性好的棉花材料模型,為育種家提供便利。同時,該研究豐富了人工智能育種的內容,為沿海灘涂的改良和使用提供了理論參考。今后還可以深入到對多種作物在鹽脅迫下的分類研究,充分利用鹽害的多尺度特征,提高模型的識別準確率,為開發(fā)基于智能手機等移動終端的耐鹽材料篩選系統(tǒng)提供模型支持,在現(xiàn)有的基礎上進一步提升應用價值。