薄琪葦,彭 俊,夏 凱,2
(1.浙江農(nóng)林大學(xué)信息工程學(xué)院,浙江 杭州 311300;2.浙江農(nóng)林大學(xué)浙江省林業(yè)智能監(jiān)測與信息技術(shù)研究重點實驗室)
最早的蔬果智能識別系統(tǒng)是由IBM公司的BOLLE等[1]于1995年為超市設(shè)計的,系統(tǒng)只能提取簡單的圖像顏色、形狀、紋理等特征參數(shù),利用簡單的最小緊鄰法對多種蔬果進(jìn)行分類。ZHANG等[2]運(yùn)用Unser、RGB顏色直方圖等作為識別特征,再采用多類支持向量機(jī)(SVM)對蔬果進(jìn)行識別,取得了較好的識別效果。國內(nèi)對圖像識別技術(shù)應(yīng)用于蔬果識別的研究起步較晚且較少。羅承成等[3]針對超市環(huán)境中的果蔬農(nóng)產(chǎn)品進(jìn)行分類識別,利用改進(jìn)的鄰域特征提取算法,但特征提取時間較長,適用的范圍相對有限。黃曉琳等人[4]引入壓縮感知機(jī)方法,對提取的特征信息進(jìn)行融合后實現(xiàn)分類。但在研究對象選擇上,多數(shù)研究僅是對單一蔬果圖像進(jìn)行識別。綜合國內(nèi)外研究現(xiàn)狀可以看出,當(dāng)前研究較多集中于理論上的算法優(yōu)化和論證,而實際應(yīng)用進(jìn)展不大。其他的分類識別技術(shù),一般需要較多的人工預(yù)處理、圖像分割等操作,數(shù)據(jù)運(yùn)算量較大。鑒于此,本研究嘗試將深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于蔬果農(nóng)產(chǎn)品的自動分類中,研究側(cè)重于實際的應(yīng)用場景,以期為基于圖像識別技術(shù)的蔬果智能化研究提供一定的參考。
所用的蔬菜水果均由農(nóng)貿(mào)市場隨機(jī)購買,采集的種類主要有:桃子Amygdalus persica,紅棗Ziziphus jujuba,蘋果Malus pumila,番茄Lycopersicon esculentum,香蕉Musa nana,西蘭花Brassica oleracea var.italic,荷蘭豆Pisum sativum,土豆Solanum tuberosum,秋葵Abelmoschus esculentus等9種蔬菜水果。在日常生活中,環(huán)境復(fù)雜,不可控因素很多。為了盡量模擬蔬果在日常生活中的情形,分別將不同數(shù)量的蔬果靜置于不同的背景中,例如報紙、塑料袋、電子秤托盤等,然后通過數(shù)碼相機(jī)進(jìn)行拍攝,以此來獲取實驗圖像。以番茄為例,在自然光照下,不同背景所拍攝到的示例如圖1所示。
圖1 自然光照下不同背景拍攝的番茄
從拍攝的9種不同種類的蔬果圖像中,隨機(jī)選取一部分作為訓(xùn)練集,剩余另一部分不重復(fù)的作為驗證集,具體拍攝數(shù)量,統(tǒng)計結(jié)果見表1。
表1 9種蔬果訓(xùn)練集和驗證集圖像數(shù)量
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuron networks,CNN)是以多層感知機(jī)作為基礎(chǔ),受生物視覺系統(tǒng)“局部感知”影響而設(shè)計完成的一種深層神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層和降采樣層構(gòu)成,而在最頂層則是由普通神經(jīng)網(wǎng)絡(luò)的全連接層,其結(jié)構(gòu)見圖2。
圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型
卷積層用來實現(xiàn)對輸入數(shù)據(jù)的卷積操作,其由多個卷積核構(gòu)成,用于構(gòu)建不同的特征圖像。通過不同的卷積核函數(shù),將前一層數(shù)據(jù)的所有特征在后一層進(jìn)行表述。
降采樣層根據(jù)圖像局部相關(guān)性原理,通過對卷積層進(jìn)行子抽樣,在保證特征不變的情況下,減少圖像分辨率,從而減少計算量。一般的,其置于2個卷積層之間,每一卷積層對應(yīng)于1個降采樣層。當(dāng)前典型的降采樣方法主要有均值、最大值和隨機(jī)降采樣3種[5-6]。
相比于LeNet-5模型,本實驗改進(jìn)后的蔬果識別模型增加了1個S6降采樣層,進(jìn)一步降低圖像大小,使得擁有3對成對的卷積降采樣層。而在其后新增的Dropout層,則是為了避免過擬合的問題,加強(qiáng)模型的特征表達(dá)能力,其結(jié)構(gòu)示意圖如圖3所示。
構(gòu)建好識別模型之后,就需要通過蔬果圖像來訓(xùn)練模型,以此來獲取特征值。
從拍攝的9種蔬果圖片中,每個種類隨機(jī)挑選一部分圖片作為訓(xùn)練集,用來訓(xùn)練模型。將壓縮后的訓(xùn)練集圖片轉(zhuǎn)換成二進(jìn)制文件,輸入到模型中,訓(xùn)練模型,獲得訓(xùn)練結(jié)果。
圖3 改進(jìn)后的蔬果識別模型示意圖
在自然光下,以白色為背景的單體蔬果圖片為例,設(shè)定訓(xùn)練迭代次數(shù)10000次,對模型訓(xùn)練后,可用TensorFlow自帶的可視化工具TensorBoard來顯示訓(xùn)練過程。如圖4所示:在迭代次數(shù)達(dá)6000次時,總的缺失值(交叉熵和權(quán)重衰減項的和)趨于穩(wěn)定,此時模型已經(jīng)獲取到單體白色背景的9種蔬果特征,基本訓(xùn)練完成。
其他不同背景(報紙、塑料袋、鋁制托盤)的蔬果圖片,訓(xùn)練過程與上述過程相同,并且將全部的復(fù)雜背景圖片一起訓(xùn)練,獲得針對復(fù)雜背景的蔬果識別模型。
圖4 訓(xùn)練過程中總?cè)笔е档淖兓闆r
在對蔬果圖像模型完成訓(xùn)練后,為了驗證其識別可行性,選擇不同的背景對圖像進(jìn)行識別,其識別率如表2所示。
從表2可以看出,不同種類的蔬果,由于顏色、外觀等不同,識別效果各有差異。如紅棗、香蕉等顏色較背景色更為突出,且形狀較為規(guī)律,自身特有的屬性較為明顯,因此識別率較高。而荷蘭豆等,形狀較為不規(guī)律,個體間的差異相對較大,識別率也相對較低。
從實驗結(jié)果來看,識別率普遍依然很高,識別效果較好,說明模型在訓(xùn)練過程中擬合效果較好,具有良好的泛化能力和魯棒性能。
在對蔬果圖像分類識別上,傳統(tǒng)選用的方法多采用對圖像顏色、紋理、形狀等進(jìn)行提取,再進(jìn)行分類。在操作上對圖像進(jìn)行灰度化、歸一化等,預(yù)處理過程相較于利用卷積網(wǎng)絡(luò)進(jìn)行識別更為繁瑣。
而在識別效果上,本研究構(gòu)建的識別模型,在白色底背景下,其圖像識別率平均可達(dá)97.4%,與沒有考慮環(huán)境背景的研究方法相比,識別率更高。同時,在考慮環(huán)境背景下,采用報紙、塑料購物袋、鋁制托盤等進(jìn)行蔬果圖像采集,相比于其他研究方法,圖片采集量多,識別率高,環(huán)境干擾因素更為豐富,更符合現(xiàn)實中的交易環(huán)境。
表2 不同背景下的蔬果識別率
傳統(tǒng)識別技術(shù)應(yīng)用于蔬果分類識別時,普遍缺少對復(fù)雜背景環(huán)境的考慮。本研究識別模型以LeNet-5模型為基礎(chǔ),調(diào)整網(wǎng)絡(luò)層和相應(yīng)參數(shù),并加入Dropout層,使網(wǎng)絡(luò)具有更好的泛化能力,從而進(jìn)一步優(yōu)化模型結(jié)構(gòu),提升識別率。然后再通過大量的蔬果圖片來訓(xùn)練模型,獲取到蔬果特征值,得到針對蔬果圖像的卷積識別模型。整個訓(xùn)練過程不需要人為設(shè)定預(yù)設(shè)值,避免過多的人為干預(yù)。
本文拍攝具有相對復(fù)雜背景的蔬果圖像,將背景因素引入到研究中,圖像信息量更為豐富,更貼近現(xiàn)實生活,應(yīng)用的范圍也更廣。只是前期需要拍攝大量的圖片,以及較長的時間來訓(xùn)練模型。但從識別結(jié)果來看,實驗中的幾個常見背景識別率都較高,可用性很強(qiáng)。相比于其他的分類識別方法,自動化程度高、識別效果更好,具有創(chuàng)新性和一定的社會價值和研究意義。
參考文獻(xiàn)(References):
[1]BOLLE R M,CONNELL J H,HASS N,et al.Distinctive image features from scale-invariant key points[J].Int J Comput Vision,2004.60(2):91-110
[2]ZHANG Yudong,WU Lenan.Classification of fruits using computer vision and multiclass support vector machine[J].Sensors,2012,12(9):12439-12505
[3]羅承成,李書琴,唐晶磊.基于多示例學(xué)習(xí)的超市農(nóng)產(chǎn)品圖像識別[J].計算機(jī)應(yīng)用,2012.32(6):1560-1562
[4]黃曉琳,薛月菊,涂淑琴等.基于壓縮感知理論的RGB-D圖像分類方法[J].計算機(jī)應(yīng)用與軟件,2014.31(3):195-198
[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[J].Comput Sci,2015.2(1):1-127
[6]李衛(wèi).深度學(xué)習(xí)在圖像識別中的研究及應(yīng)用[D].武漢理工大學(xué),2014.