摘 要:玉米是世界上最重要的糧食作物之一,其品質鑒別對農(nóng)業(yè)生產(chǎn)和食品加工具有重要意義。傳統(tǒng)的玉米籽粒品質鑒別方法往往需要大量人力和時間成本,并且易受主觀因素影響?;贏lexNet模型,提出了一種改進的并且適配于玉米籽粒品質鑒別的AlexNet算法,并針對玉米籽粒數(shù)據(jù)集進行微調。在微調過程中,采用數(shù)據(jù)增強、批量歸一化、隨機失活等技術,以提高模型的性能。經(jīng)試驗,該模型在測試集上的準確率為96.6%,優(yōu)于原本的AlexNet模型對玉米籽粒品質鑒別性能。該模型的應用有望提供更快速、準確的玉米籽粒品質鑒別方法,有利于玉米籽粒品質把控。
關鍵詞:AlexNet;玉米品質鑒別;批量歸一化
中圖分類號:S513;TP391.41 文獻標志碼:A 文章編號:1674-7909-(2023)13-148-3
0 引言
在計算機視覺深度學習領域,AlexNet神經(jīng)網(wǎng)絡算法是最出名的算法之一,被認為是開創(chuàng)性研究之一。然而,隨著研究的深入,人們發(fā)現(xiàn)AlexNet模型在某些方面存在一些不足之處,如容易出現(xiàn)過擬合、計算復雜度較高等[1]。因此,筆者對AlexNet模型進行一定的改進,以解決其原本存在的問題,并提高模型在玉米籽粒品質鑒別任務中的性能。此外,筆者采用了一些常用的深度學習技術,如數(shù)據(jù)增強(Data Augmentation)、批量歸一化(Batch Normalization)、隨機失活(Dropout)等,以提高模型的性能。Data Augmentation技術被廣泛應用于圖像分類、目標檢測、語音識別等領域,可通過對訓練集數(shù)據(jù)進行變換和擾動,擴增訓練集的規(guī)模,提高模型的泛化能力。應用Batch Normalization技術,可對每一層的輸入進行標準化,減少內部協(xié)變量移位,提高模型的訓練速度和魯棒性。應用Dropout技術,則可隨機將一部分神經(jīng)元的輸出值置為0,以減少過擬合的風險,提高模型的泛化能力。
1 模型改進
1.1 圖像預處理
1.1.1 圖像尺寸調整
將輸入圖像的尺寸調整為2 448像素×2 448像素。對于訓練集中的每個圖像,首先將其在較短的一側進行調整,然后將其中心區(qū)域裁剪為224像素×224像素。
1.1.2 像素值歸一化
將輸入圖像的像素值歸一化到[0,1]范圍內。具體來說,將每個像素的RGB值除以255即可。
1.1.3 數(shù)據(jù)增強
在訓練過程中,采用Data Augmentation技術,如隨機裁剪、隨機水平翻轉、隨機色彩抖動等,以增加訓練數(shù)據(jù)的多樣性和泛化能力。
1.1.4 數(shù)據(jù)標準化
在訓練過程中,對輸入圖像的每個通道進行標準化處理,以便更好地滿足模型的輸入要求。具體來說,對于每個通道,計算其均值和標準差,然后對輸入圖像進行標準化處理。
1.2 改進AlexNet模型
相對于Bottleneck,BasicBlock更適合深度較淺的網(wǎng)絡。因此,在AlexNet第五層卷積層后面添加一個輸入與輸出通道數(shù)相同的BasicBlock[2-3](見圖1)。BasicBlock是ResNet中使用的一種殘差塊,由2個3×3的卷積層和一個Residual連接組成。在BasicBlock中,輸入經(jīng)過第一個卷積層進行特征提取,然后經(jīng)過Residual連接進行信息傳遞,最后經(jīng)過第二個卷積層得到輸出。通過這種方式,減少了梯度消失和梯度爆炸問題,提高了模型的訓練速度和準確性。
Batch Normalization是一種在神經(jīng)網(wǎng)絡中用于加速收斂并提高模型訓練效果的技術[4-6]。其主要思想是在訓練過程中對每一層的輸入進行歸一化處理,使輸入數(shù)據(jù)在訓練過程中具有相同的均值和方差。在下一層卷積層的輸入前添加一個Batch Normalization層,該層將每個Batch的輸入進行歸一化處理,并對其進行縮放和平移操作。這樣可以使網(wǎng)絡在進行梯度下降時更加穩(wěn)定,防止出現(xiàn)梯度消失或梯度爆炸的情況,同時能夠加速模型的收斂。
為進一步提高模型的泛化能力,應用Dropout技術(見圖2)減少過擬合的風險。在訓練階段,對于每個神經(jīng)元,按照一定的概率P將其輸出值置為0,即丟棄該神經(jīng)元的輸出值。概率P通常是在0.2~0.5(此次研究P=0.5)。這樣一來,每次訓練時都會隨機選擇不同的神經(jīng)元進行丟棄,從而產(chǎn)生不同的神經(jīng)網(wǎng)絡結構。通過這種方式,可以讓神經(jīng)網(wǎng)絡不依賴于任何一個特定的神經(jīng)元,而是通過整個神經(jīng)網(wǎng)絡的結構來學習,從而提高模型的泛化能力。
2 試驗設計
2.1 試驗環(huán)境
算法訓練和測試環(huán)境均是在Windows11下進行,CPU型號為12th Gen Intel(R)Core(TM)i7-12700H 2.30 GHz,內存為16 GB,GPU型號為NVIDIA GeForce RTX 4060 Laptop,采用python3.9+pytorch框架進行編譯。
2.2 數(shù)據(jù)集
采用玉米籽粒品質檢測數(shù)據(jù)集(先采集16個玉米籽粒為一組,然后對每一組玉米籽粒俯瞰拍攝得到圖像,再進行分類的數(shù)據(jù)集),玉米籽粒品質圖像試驗樣本主要有5類,共3 000幅。其中,S級分類600幅,A級分類600幅,B級分類600幅,C級分類600幅,D級分類600幅。試驗圖片數(shù)據(jù)采用jpg格式,大小為2 448像素×2 448像素;將數(shù)據(jù)集按5∶1劃分為訓練集和測試集。
2.3 試驗流程
分別將激活函數(shù)Tanh和ReLU進行對比訓練和測試,得出數(shù)據(jù);在其他條件相同的情況下,將改進后取得最高準確率的算法與原版AlexNet模型算法進行訓練測試對比。
2.4 評判標準
為了更好地驗證算法性能,筆者采用以下方法計算準確率及損失值。
準確率反映試驗分類圖片樣本集的正確程度,設當前分類任務中正確分類的樣本數(shù)為NT,當前分類任務中錯誤分類的樣本數(shù)為NF,那么此次分類任務的準確率Acc為
損失函數(shù)采用交叉熵損失函數(shù)[7],設計算在一個批次的訓練樣本中計算得到的損失函數(shù)計算所得的平均數(shù)為L,訓練樣本總數(shù)為N,每次迭代樣本數(shù)為Nb,所得當前分類任務損失值Loss為
3 試驗結果與分析
試驗樣本統(tǒng)一為2 448像素×2 448像素,中心切割為224像素×224像素,每次迭代樣本數(shù)設置為32,學習率統(tǒng)一為0.000 2,優(yōu)化器為Adam,迭代次數(shù)統(tǒng)一為30次。
統(tǒng)一其他條件,測試不同激活函數(shù)對模型的影響。如表1所示,在其他條件不變的情況下(均引入一層BasicBlock),使用ReLU激活函數(shù)模型的準確率為96.6%,Tanh激活函數(shù)的模型準確率為94.2%。由此可見,ReLU激活函數(shù)是優(yōu)于Tanh激活函數(shù)的,所以筆者后續(xù)將采用ReLU激活函數(shù)進行優(yōu)化。
通過以上對比,將優(yōu)化改進過后的AlexNet模型算法與原版模型算法進行對比(見表2),原版AlexNet算法準確率為93.7%,改進后算法準確率為96.6%,其性能提升明顯。
利用混淆矩陣對測試集上共計500張樣本進行分類,結果如圖3所示。由于玉米圖片數(shù)據(jù)背景處理較為干凈,因而準確率較為高,錯誤鑒別占總數(shù)的1%左右。
4 結束語
筆者通過對AlexNet模型的歸一化、激活函數(shù)及算法進行優(yōu)化,使其泛化性和準確率有所提高,最終準確率達到96.6%,然而還有不足之處需要繼續(xù)試驗改進。
參考文獻:
[1]何前,郭峰林,王哲豪,等.基于改進AlexNet的葡萄葉部病害分類算法[J].揚州大學學報(自然科學版),2023(2):52-58.
[2]HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016:770-778.
[3]段宇飛,董庚,孫記委,等.基于SE-ResNet網(wǎng)絡的油茶果果殼與茶籽分選模型[J].中國農(nóng)機化學報,2023(4):89-95.
[4]張百川,趙佰亭.結合批歸一化的輕量化卷積神經(jīng)網(wǎng)絡分類算法[J].哈爾濱商業(yè)大學學報(自然科學版),2021(3):300-306.
[5]郭永存,張勇,李飛,等.嵌入空洞卷積和批歸一化模塊的智能煤矸識別算法[J].礦業(yè)安全與環(huán)保,2022(3):45-50.
[6]劉建偉,趙會丹,羅雄麟,等.深度學習批歸一化及其相關算法研究進展[J].自動化學報,2020(6):1090-1120.
[7]曾華福,楊杰,李林紅.基于改進ShuffleNet v1的服裝圖像分類算法[J].現(xiàn)代紡織技術,2023(2):23-35.
作者簡介:陳增旭(1996—),男,碩士生,研究方向:機器視覺、機器學習。
通信作者:尹淑欣(1977—),女,博士,副教授,研究方向:圖像處理、智能信息識別。