摘要:小麥種子常混有燕麥、大麥等其他種子,如何分類足夠純度的種子是一個重要問題。為解決種子純度問題,提出一種基于改進的EfficientNet-V2模型的種子分類方法,將其命名為CA-EfficientNet-V2_xs。首先,通過購買常用小麥種子(含有常見的燕麥、大麥等雜種),自制數(shù)據(jù)集;其次,為加快訓練以及針對自制數(shù)據(jù)集數(shù)量不足的問題,采用遷移學習的方法;再次,為更好地幫助模型更加精準地定位和識別感興趣的目標,將采用Coordinate Attention(CA)注意力機制來替換SE注意力機制;最后,通過精簡網(wǎng)絡結構使模型更小、訓練速度更快。試驗表明,改進后模型的分類準確率達到99.7%,比未改進之前的網(wǎng)絡分類準確率提升1.3%;與EfficientNet-V2_s模型的78 MB相比,改進后模型大小降至3.8 MB,模型大小降低;改進后的模型速度比主流網(wǎng)絡更快。
關鍵詞:小麥種子;深度學習;注意力機制;遷移學習;EfficientNet-V2模型
中圖分類號:S512.2; TP183" " " 文獻標識碼:A" " " 文章編號:2095?5553 (2024) 09?0111?07
Wheat seed classification based on improved lightweight EfficientNet-V2 model
Han Pengfei, Song Qijiang, Jia Mengshi
(School of Mechanical and Electrical Engineering, Northeast Forestry University, Harbin, 150040, China)
Abstract: Wheat seeds are often mixed with other seeds such as oats and barley, and how to classify seeds of sufficient purity is an important problem. In order to address this issue, a seed classification method based on an improved EfficientNet-V2 model is proposed, and the enhanced network is named CA-EfficientNet-V2_xs. Firstly, a dataset is constructed by purchasing commonly used wheat seeds (including common impurities such as oats and barley). Secondly, in order to expedite training and overcome the issue of insufficient data in the self?made dataset, transfer learning is adopted. Thirdly, in order to assist the model in more accurately locating and identifying the target of interest, the Coordinate Attention (CA) mechanism is adopted to replace the SE attention mechanism. Finally, the network structure is streamlined to reduce the model size and enhance training speed. The experimental results show that the classification accuracy of the improved model reaches 99.7%, which is 1.3% higher than that of the network before the improvement. Compared with 78 MB in the EfficientNet-V2_s model, the improved model size is reduced to 3.8 MB and the model size is reduced. The improved model is faster than mainstream networks.
Keywords: wheat seed; deep learning; attention mechanism; transfer learning; EfficientNet-V2 model
0 引言
小麥作為我國主要農(nóng)作物之一,產(chǎn)量關乎我國民生以及國家糧食安全,然而現(xiàn)在許多地區(qū)小麥農(nóng)田中常生長其他種子作物,常見的有燕麥、大麥等,這些種子常?;煸谛←湻N子中與小麥一同播種,導致在生長期與小麥爭奪養(yǎng)分以及陽光。雖然當前種子公司的種子有足夠的純度,但是中國仍有很大一部分地區(qū)農(nóng)民為了降低成本選擇自留種[1],而自留種的純度通常很難保證。研究表明[2],混有這些種子的麥田,通常會減產(chǎn)10%~50%,嚴重的地塊會減產(chǎn)50%以上。因此,提出種子分類模型,將小麥種子與其他雜種分離,對提高農(nóng)作物產(chǎn)量,減小農(nóng)民勞動量以及改善民生有重要意義。
傳統(tǒng)機器學習分類方法有支持向量機、隨機森林、BP神經(jīng)網(wǎng)絡等,深度學習分類模型主要有CNN[3]。隨著深度學習的發(fā)展,涌現(xiàn)出許多優(yōu)秀的分類模型,主流網(wǎng)絡有AlexNet、VGG16、ResNet、DCNN、Inception及輕量化模型EfficientNet[4]等,這些網(wǎng)絡已經(jīng)在許多分類、檢測任務上應用。Kiratiratanapruk等[5]對14個水稻品種,每個品種超過3 500個種子樣本,總共接近50 000個種子進行分類研究,運用機器學習四種方法,包括LR、LDA、KNN、和SVM,運用深度學習技術的五個訓練模型,包括VGG16、VGG19、Xception、InceptionV3和InceptionResNetV2進行比較,結果表明,最佳的分類準確度來自深度學習InceptionResNetV2模型的95.1%。Gulzar等[6]提出一種基于深度學習模型和對稱性應用的種子識別和分類,通過CNN和遷移學習構建種子分類模型系統(tǒng),并對234幅圖像進行測試試驗,結果表明,分類模型的分類準確度為99%。袁國武等[7]提出基于ResNeSt的煙支外觀缺陷分類,采用遷移學習的方法應對數(shù)據(jù)集不足的情況,并采用多尺度測試以及采用h-swish激活函數(shù)試驗,通過試驗發(fā)現(xiàn),ResNeSt對煙支外觀缺陷的分類準確率達92.04%。
在小麥分類問題中,國內(nèi)外主要以傳統(tǒng)機器學習方法與深度學習中的主流網(wǎng)絡進行特征提取,如張濤[8]利用傳統(tǒng)機器學習方法(隨機森林和支持向量機),進行小麥種子分類,文中對小麥的面積、周長、種子飽滿程度、谷粒長度、偏度系數(shù)、谷粒槽長度等七個特征進行提?。粡堄钭康萚9]基于CNN的玉米種子內(nèi)部裂紋圖像檢測系統(tǒng),利用ResNet對玉米內(nèi)部裂紋進行分類檢測等。
本文結合前人研究成果,對輕量化Efficient-V2網(wǎng)絡進行改進,通過添加注意力機制提升模型網(wǎng)絡的分類性能,并將兩種傳統(tǒng)機器學習算法以及兩種主流卷積神經(jīng)網(wǎng)絡[10]與改進網(wǎng)絡進行對比,以尋求最優(yōu)的網(wǎng)絡配置,使得網(wǎng)絡訓練速度更快,進一步使網(wǎng)絡更加輕量化,為小麥種子的分類提供參考。
1 圖像處理與數(shù)據(jù)集制作
1.1 圖像采集系統(tǒng)
為使數(shù)據(jù)集更具有代表性,本文試驗所用小麥數(shù)據(jù)集是農(nóng)家常用的幾種品種的混合,所用燕麥是收集的小麥田中常見的成熟野生燕麥,大麥選用的是收集到的小麥田中混雜的成熟野生大麥。為獲取三種類型種子的各種特征,本數(shù)據(jù)集將三種種子的大、中、小個體均勻分布。為了后續(xù)模型能夠更好地提取三類種子的特征,必須將拍攝圖像的質(zhì)量提高。為突出種子與背景,本文采用純黑色紙板作為種子的背景。由于拍攝時物體會受到光源的照射產(chǎn)生陰影,影響拍攝質(zhì)量,為了減少此影響,本研究設計一個種子圖像采集設備,采用三光源設計,在種子垂直正上方放置一個光源,在種子左右兩邊各設置一個光源,與載物臺呈45°,為了避免其他光線干擾,將其放入遮光罩內(nèi)進行拍攝。整體拍攝設備如圖1所示,該設備有足夠的分辨率、足夠均勻的光線、足夠快的圖像采集速度,該裝置能夠滿足對圖像采集的需求。
如圖1所示,將小麥種子放在載物臺上的黑色背景板中,啟動相機進行拍攝,如圖2所示。
1.2 基于形態(tài)學變換的OpenCV-Python圖像裁剪
由于要提取單個種子特征作為分類依據(jù),圖2中所拍攝圖像不能直接作為數(shù)據(jù)集,必須經(jīng)過圖像裁剪,將其每一粒種子裁剪為單個圖片。
1.2.1 圖像裁剪流程
首先,通過canny算子進行邊緣提取,將提取結果送入形態(tài)學變換函數(shù),通過腐蝕膨脹增強邊緣輪廓,如圖3(a)所示。其次,提取邊緣后進一步進行邊緣檢測,檢測結果如圖3(b)所示;再次,進行檢測輪廓的最小外接矩形,檢測結果如圖3(c)所示;最后,按照最小外界矩形進行批量裁剪,結果如圖4所示。
通過對采集的圖像進行裁剪試驗,將尺寸大小為1 279像素×1 706像素,且含有200個小麥目標的圖像,通過形態(tài)學變換的OpenCV-Python圖像裁剪,所需要的時間為1 s左右,正確裁剪準確率可以達到99.0%以上,但對種子嚴重重合部分的裁剪效果要稍差一些,這也是后續(xù)改進點之一,總體來說能夠滿足應用要求。
1.2.2 圖像預處理
對三類種子分別采集3 000張圖片,總共9 000張圖片。為了將數(shù)據(jù)集擴充[11],將采集到的種子圖片進行數(shù)據(jù)增強,如圖5所示,通過隨機旋轉(zhuǎn)、隨機縮放、添加噪聲等方式,將數(shù)據(jù)集進行擴充,總種子數(shù)為18 000張圖片,并且按照8∶2的比例劃分,其中訓練集14 400張圖像以及驗證集3 600張圖像。
2 模型建立
2.1 EfficientNetV2模型構建
EfficientNetV2是在EfficientNet的基礎上改進而來,EfficientNetV2-S模型結構見表1。
EfficientNet模型中存在以下問題:(1)當圖像的尺寸很大時,訓練速度會變慢;(2)在網(wǎng)絡淺層使用Depthwise convolutions時,速度會很慢;(3)進行同等縮策略并不是最優(yōu)的。針對這些問題,EfficientNet-V2設計了一個搜索空間,包含額外的操作,主要是通過將淺層的MBConv結構替換成Fused-MBConv結構,從而提升了訓練速度,MBConv結構與Fused-MBConv結構如圖6所示。
EfficientNetV2中有兩個核心算法,分別是搜索空間(NAS)以及漸進學習方式(Progressively Learning),其中漸進學習方式分為兩步,第一,在訓練的初期使用更小尺寸的輸入圖像和更弱的正則;第二,逐漸增大圖像分辨率和網(wǎng)絡以及使用更強的正則。
2.2 添加CA注意力機制的CA-EfficientNetV2
2.2.1 CA注意力機制
合理利用注意力機制通??梢詢?yōu)化模型的關注度[12],提升模型準確率。CA(Coordinate Attention)注意力機制是一個靈活、輕量且高效的注意力機制,它將位置信息放進通道注意力中,這樣做的優(yōu)勢是使網(wǎng)絡在避免大量計算開銷的前提下參與較大的像素區(qū)域。CA注意力機制結構如圖7所示。
該注意力機制將原先的通道注意力分解為兩個部分,使其沿著兩個不同的方向聚合特征進行一維編碼,這樣可以沿一個空間方向捕獲遠程依賴關系,同時可以沿另一空間方向保留精確的位置信息。后面就可以將生成的特征圖進行編碼,從而獲得方向感知和位置感知的特征圖,通過這一操作對特征圖進行互補,應用到輸入特征圖,從而增強網(wǎng)絡感的興趣的目標。
2.2.2 CA-EfficientNetV2模型
EfficientNet-V2中的SE注意力模塊僅考慮了通道信息,而忽視了位置信息的重要性,但位置信息對于捕獲圖像特征結構至關重要。對于CA這種高效率注意力機制,可以使EfficientNet-V2這種輕量級的網(wǎng)絡[13]關注的區(qū)域更大,而且還不會產(chǎn)生大量的開銷計算,從而有效緩解了二維全局池化造成的位置信息丟失。因此,本文將EfficientNet-V2模型中MBConv模塊的SE注意力機制替換為CA注意力機制,命名為CA-EfficientNet-V2,替換位置如圖8所示。
在MBconv模塊中,經(jīng)過CA模塊時CA通過精確地位置信息,對對象的通道關系以及長期依賴性進行編碼具體分為Coordinate信息嵌入和Coordinate Attention生成2步。
首先,在Coordinate信息嵌入中,為了使CA注意力模塊能夠精確地獲得位置信息的遠程空間交互,通過式(1)進行分解全局池化,從而轉(zhuǎn)化對一維特征編碼操作
2.3 模型參數(shù)選擇及優(yōu)化
為了進一步減小模型大小、降低內(nèi)存開銷以及加快訓練速度[14],在網(wǎng)絡結構中減少一個Stage,將Stage4和Stage5的重復次數(shù)修改為2,并且將Stage2~Stage5的expansion ratio減小為2,改進的模型結構見表2,將此模型命名為CA-EfficientNet-V2_xs。
模型的學習率設定為0.000 1,并且每經(jīng)過10個epochs衰減0.1倍,將采用結合了AdaGrad和RMSProp兩種優(yōu)化算法優(yōu)點的Adam優(yōu)化器對模型進行優(yōu)化,采用遷移學習[15]策略提高模型的收斂速度,每組訓練100個epoch。
3 試驗結果與分析
試驗所用硬件設備是一塊GPU顯卡,顯卡型號為NVIDIA GeForce RTX3060,顯存大小為12 GB,顯卡頻率為1.867 GHz。試驗是基于深度學習框架PyTorch1.8.0,使用Python3.8版本進行編程。
采用AlexNet、VGG16、ResNet34等三種主流深度學習網(wǎng)絡作為改進EfficientNet-V2模型的對比網(wǎng)絡,以證明本網(wǎng)絡的有效性。將三類種子18 000張圖片作為研究對象,分別使用三種卷積神經(jīng)網(wǎng)絡與兩種傳統(tǒng)機器學習[16]算法以及原始EfficientNetV2進行訓練,為了使結果更精確,在試驗中對每個網(wǎng)絡訓練了20次,每次訓練100輪,取最后結果的平均值。試驗使用準確率[Facc]、精度[Fpre]、召回率[Frecall]、特異度[Fspe]等作為模型評價指標,計算如式(7)~式(10)所示。
3.1 不同卷積網(wǎng)絡訓練數(shù)據(jù)分析
3.1.1 五種卷積網(wǎng)絡總體分類性能分析
由表3可知,除改進后的網(wǎng)絡外的四種卷積網(wǎng)絡中分類效果最好的為VGG16模型,準確率達到了99.2%,但其模型大小也是四種卷積網(wǎng)絡中最大的,模型權重達到了527 MB,花費計算成本較高,不利于在低算力設備上進行部署。除改進模型外模型權重最小的是AlexNet網(wǎng)絡,模型權重只有63.4 MB,但其準確率最低只有91.2%,這樣的準確率不利于對研究對象分類。而改進后的CA-EfficientNetV2_xs網(wǎng)絡識別準確率為99.7%,單粒種子平均識別速度為1.15 ms,高于AlexNet、VGG16以及ResNet50,與原始EfficientNetV2網(wǎng)絡模型相比降低了69.9%,并且模型大小僅有3.53 MB,遠比VGG16、ResNet50以及AlexNet都要低,而在實際運用中,模型的準確率以及速度是非常重要的指標,因此,本文采用改進后的CA-EfficientNet_xs模型網(wǎng)絡對于小麥種子識別以及落地具有一定優(yōu)勢。
3.1.2 五種卷積網(wǎng)絡訓練過程準確率及損失分析
在訓練時五種卷積網(wǎng)絡驗證集的準確率曲線如圖9所示,在訓練的前25輪五種卷積網(wǎng)絡整體呈上升趨勢,并且在后續(xù)訓練中不斷趨于穩(wěn)定,在一定范圍內(nèi)進行波動。除改進網(wǎng)絡外其他四種網(wǎng)絡在訓練初期波動較大,模型收斂較為緩慢。相對其他四種卷積網(wǎng)絡來說,改進后的網(wǎng)絡在迭代10輪以后就已經(jīng)趨于平穩(wěn),并且準確率達到極高的水準,這體現(xiàn)了添加CA注意力機制之后網(wǎng)絡對獲取特征圖的空間以及通道信息能力的提升,使得改進后的網(wǎng)絡對特征圖的特征提取能力的增強,也體現(xiàn)了遷移學習[17]在加快模型收斂性以及改進網(wǎng)絡在提高模型準確率上的優(yōu)越性。
損失函數(shù)能夠很好地衡量一個模型的優(yōu)劣,因此,本試驗繪制了五種卷積神經(jīng)網(wǎng)絡的損失函數(shù)對比曲線,如圖10所示。在初始訓練時,五種網(wǎng)絡的損失整體都在快速減小,最終在一個小范圍內(nèi)進行波動,但與改進網(wǎng)絡相比其他四種網(wǎng)絡在訓練初期損失波動大,收斂相對較慢。改進的CA-EfficientNetV2_xs網(wǎng)絡在迭代10輪以后就已經(jīng)開始趨于平穩(wěn),而改進前網(wǎng)絡以及其他三種網(wǎng)絡基本在20輪以后才開始趨于穩(wěn)定,并且改進的CA-EfficientNetV2_xs網(wǎng)絡損失與其他四種網(wǎng)絡相比始終保持最低,由此也證明了改進的網(wǎng)絡對本數(shù)據(jù)集有更好的分類性能。
3.2 傳統(tǒng)機器學習與五種卷積網(wǎng)絡分類性能對比分析
五種卷積網(wǎng)絡與兩種傳統(tǒng)機器學習算法對種子分類的性能進行比較,如表4所示。
由表4可以看出,無論是傳統(tǒng)機器學習算法還是深度學習模型都對小麥有著優(yōu)秀的分類能力,基本精確率都在99.0%以上,但是傳統(tǒng)機器學習算法對燕麥以及大麥的分類效果很差,如BP神經(jīng)網(wǎng)絡,對燕麥以及大麥的精確率還不到80.0%,同樣召回率也都小于80.0%。
在卷積網(wǎng)絡中AlexNet網(wǎng)絡對燕麥以及大麥的分類效果最差,精確率只有85.0%左右。雖然改進前的EfficientNet-V2網(wǎng)絡對小麥和燕麥的分類效果很好,但是其對大麥的分類精確率只有95.4%遠小于改進后的99.6%。因此,這些算法雖然對小麥都有著非常好的分類能力,但是傳統(tǒng)機器學習算法對大麥以及燕麥的分類效果就差了很多,而改進的EfficientNet網(wǎng)絡對三類種子的分類精確率都達到了99.6%以上,具有較好的分類精確率以及優(yōu)秀的召回率和特異度,從而體現(xiàn)改進的網(wǎng)絡性能更強。
3.3 分類結果展示分析
五類深度學習模型分類結果見圖11~圖16,其中圖11~圖15為正確分類效果圖,圖16為錯誤分類效果圖。
改進模型對單個種子分類效果明顯好于其他模型,雖然每個模型能夠準確分類出絕大部分種子,但是仍有部分種子被分類錯誤,分析可知,分類錯誤的原因主要是三類種子顏色相近,種子紋理多變,尤其對于不飽滿的種子,很容易使得三類種子形狀相近,這也增加了模型的訓練難度,使模型更容易分類錯誤。
4 結論
1) 為更好地對種子進行采樣獲得所需數(shù)據(jù)集,設計一個種子采樣系統(tǒng),提高數(shù)據(jù)集采集效率,更加突出種子特征。
2) 為改進原EfficientNetV2網(wǎng)絡中SE注意力機制只關注通道信息編碼而忽略位置信息的問題,采用Coordinate Attention(CA)注意力機制替換SE注意力機制。試驗表明,CA注意力機制在幾乎不會帶來額外計算開銷的情況下,使訓練模型的準確率提高1.3%。
3) 為加快訓練以及降低模型大小,本研究對網(wǎng)絡架構進行修改,通過試驗發(fā)現(xiàn)改進后模型大小降至38 M,改進的網(wǎng)絡使精度提升的同時極大減小網(wǎng)絡模型的大小,為小麥種子分類的工業(yè)化應用及落地部署提供基礎。
4) 通過試驗結果發(fā)現(xiàn),改進的網(wǎng)絡模型準確率達到99.7%,訓練速度也符合預期,很好地解決小麥種子分類問題,也為其他種子分類應用提供有益思路,對提高農(nóng)作物產(chǎn)量及提高民生具有積極意義。
參 考 文 獻
[ 1 ] 姜楠, 韓一軍, 李雪. 中國小麥種業(yè)發(fā)展研究[J]. 中國種業(yè), 2013(10): 1-4.
[ 2 ] 任庭璽. 海晏縣農(nóng)田野燕麥影響小麥產(chǎn)量的調(diào)查[J]. 青海農(nóng)牧業(yè), 2010(2): 8, 16.
[ 3 ] Eryigit R, Tugrul B. Performance of various deep?learning networks in the seed classification problem [J]. Symmetry, 2021, 13(10): 1892.
[ 4 ] Zhang J, Dai L, Cheng F. Identification of corn seeds with different freezing damage degree based on hyperspectral reflectance imaging and deep learning method [J]. Food Analytical Methods, 2021, 14: 389-400.
[ 5 ] Kiratiratanapruk K, Temniranrat P, Sinthupinyo W, et al. Development of paddy rice seed classification process using machine learning techniques for automatic grading machine [J]. Journal of Sensors, 2020(1): 7041310.
[ 6 ] Gulzar Y, Hamid Y, Soomro A B, et al. A convolution neural network?based seed classification system [J]. Symmetry, 2020, 12(12): 2018.
[ 7 ] 袁國武, 劉建成, 劉鴻瑜, 等. 基于ResNeSt的煙支外觀缺陷分類[J]. 云南大學學報(自然科學版), 2022, 44(3): 464-470.
Yuan Guowu, Liu Jiancheng, Liu Hongyu, et al. Classification of cigarette appearance defects based on ResNeSt [J]. Journal of Yunnan University(Natural Sciences Edition), 2022, 44(3): 464-470.
[ 8 ] 張濤. 基于隨機森林和支持向量機在小麥種子分類中的比較研究[J]. 河西學院學報, 2020, 36(2): 33-40.
Zhang Tao. A comparative study on the application of random forest and support vector machine to wheat seed classification [J]. Journal of Hexi University, 2020, 36(2): 33-40.
[ 9 ] 張宇卓, 王德成, 方憲法, 等. 基于CNN的玉米種子內(nèi)部裂紋圖像檢測系統(tǒng)[J]. 農(nóng)業(yè)機械學報, 2022, 53(5): 309-315.
Zhang Yuzhuo, Wang Decheng, Fang Xianfa, et al. Image detection system of corn seed internal crack based on CNN [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 309-315.
[10] 樊湘鵬, 周建平, 許燕, 等. 基于改進卷積神經(jīng)網(wǎng)絡的復雜背景下玉米病害識別[J]. 農(nóng)業(yè)機械學報, 2021, 52(3): 210-217.
Fan Xiangpeng, Zhou Jianping, Xu Yan, et al. Corn disease recognition under complicated background based on improved convolutional neural network [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(3): 210-217.
[11] 胡定一. 基于深度學習的缺陷柑橘分類識別檢測方法研究[D]. 武漢: 華中農(nóng)業(yè)大學, 2021.
[12] 胡志偉, 楊華, 黃濟民, 等. 基于注意力殘差機制的細粒度番茄病害識別[J]. 華南農(nóng)業(yè)大學學報, 2019, 40(6): 124-132.
Hu Zhiwei, Yang Hua, Huang Jimin, et al. Fine?grained tomato disease recognition based on attention residual mechanism [J]. Journal of South China Agricultural University, 2019, 40(6): 124-132.
[13] Velesaca H O, Mira R, Suárez P L, et al. Deep learning based corn kernel classification [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 66-67.
[14] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25.
[15] 廉小親, 成開元, 安颯, 等. 基于深度學習和遷移學習的水果圖像分類[J]. 測控技術, 2019, 38(6): 15-18.
Lian Xiaoqin, Cheng Kaiyuan, An Sa, et al. Fruit image classification based on deep learning and transfer learning [J]. Measurement amp; Control Technology, 2019, 38(6): 15-18.
[16] Javanmardi S, Ashtiani S H M, Verbeek F J, et al. Computer?vision classification of corn seed varieties using deep convolutional neural network [J]. Journal of Stored Products Research, 2021, 92: 101800.
[17] Gulzar Y, Hamid Y, Soomro A B, et al. A convolution neural network?based seed classification system [J]. Symmetry, 2020, 12(12): 2018.