姚偉盛 沈宇帆 彭玉波 沈煒
摘 要: 隨著社交網(wǎng)絡(luò)的快速發(fā)展,人們通常會(huì)上傳、分享和記錄食物圖片,因此食物圖像分類(lèi)的應(yīng)用價(jià)值也越來(lái)越大,對(duì)食品推薦、營(yíng)養(yǎng)搭配、烹飪文化等方面都產(chǎn)生了積極的影響。盡管食物圖像分類(lèi)有著巨大的應(yīng)用潛力,但從圖像中識(shí)別食物仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。為了解決食物的細(xì)粒度識(shí)別問(wèn)題,本文提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)模型,通過(guò)自我監(jiān)督的學(xué)習(xí)方式更高程度地學(xué)習(xí)食物圖像特征。該模型在基于密集連接網(wǎng)絡(luò)的食物圖像分類(lèi)模型DenseFood基礎(chǔ)上搭建,采用上下文恢復(fù)的自我監(jiān)督策略,將訓(xùn)練好的網(wǎng)絡(luò)權(quán)重用于初始化DenseFood模型,訓(xùn)練微調(diào)完成分類(lèi)任務(wù)。上下文恢復(fù)的自我監(jiān)督策略和密集連接網(wǎng)絡(luò)都是專(zhuān)注于圖像特征的提取,同時(shí)結(jié)合兩者,充分學(xué)習(xí)食物圖像特征,來(lái)達(dá)到更好的食物圖像分類(lèi)精確度。為了進(jìn)行性能比較,使用VIREO-172數(shù)據(jù)集對(duì)基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)模型、未預(yù)處理的食物圖像分類(lèi)模型DenseFood以及基于ImageNet數(shù)據(jù)集訓(xùn)練預(yù)處理的DenseNet、ResNet這四個(gè)模型進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文提出的食物圖像分類(lèi)模型優(yōu)于其他策略。
關(guān)鍵詞: 圖像分類(lèi); 自監(jiān)督學(xué)習(xí); 卷積神經(jīng)網(wǎng)絡(luò)
文章編號(hào): 2095-2163(2021)03-0009-07 中圖分類(lèi)號(hào):TP183 文獻(xiàn)標(biāo)志碼:A
【Abstract】With the rapid development of social networks, people usually upload, share and record food images, so the application value of food image classification is also increasing, which has a positive impact on food recommendation, nutrition collocation, cooking culture and so on. Although food image classification has great application potential, it is still a challenging task to recognize food from images. In order to solve the problem of fine-grained food recognition, this paper proposes a food image classification model based on self supervised preprocessing, which can learn food image features to a higher degree through self supervised learning. The model is based on DenseFood, a food image classification model based on dense connected network. The self-monitoring strategy of context recovery is adopted. The trained network weight is used to initialize DenseFood model, and fine-tuned trained to complete the classification task. The self-monitoring strategy of context recovery and dense connection convolution network are both focused on the extraction of image features. The research combines them to fully learn the food image features to achieve better classification accuracy of food image. In order to compare the performance, VIREO-172 data set is used to train four food image classification models: self supervised preprocessing based food image classification model, non preprocessed food image classification model densefood, and ImageNet data set based training preprocessing DenseNet and ResNet. The experimental results show that the proposed food image classification model is superior to other strategies.
【Key words】 image classification; self supervised learning; convolution neural network
0 引 言
食物是人類(lèi)生活的必需品,關(guān)系到人民群眾的身體健康和生命安全。隨著社交網(wǎng)絡(luò)的快速發(fā)展,人們通常會(huì)記錄、上傳和分享食物圖片,因此食物圖像分類(lèi)的應(yīng)用價(jià)值也越來(lái)越大,對(duì)營(yíng)養(yǎng)搭配、食品推薦、餐飲、社交等方面都產(chǎn)生了積極的影響,受到了廣泛的關(guān)注。在營(yíng)養(yǎng)搭配方面,營(yíng)養(yǎng)習(xí)慣被認(rèn)為是導(dǎo)致糖尿病和肥胖癥等健康問(wèn)題的主要原因。因此,食物攝入評(píng)估是肥胖管理的一個(gè)重要方法[1],可以幫助人們了解和保持良好的飲食習(xí)慣,在跟蹤卡路里消耗量的日常健身中進(jìn)行使用[2]。在食品推薦方面,可以幫助社交媒體平臺(tái)為餐館和飲料公司針對(duì)其用戶(hù)提供食品推薦方案。在餐飲方面,通過(guò)客戶(hù)提供的圖像樣本幫助餐廳和食堂識(shí)別食物,并通過(guò)識(shí)別托盤(pán)中的食物幫助出納自動(dòng)計(jì)費(fèi)。使用自動(dòng)計(jì)費(fèi)可以在保證減少錯(cuò)誤的前提下提高工作效率[3]。在社交方面,可以通過(guò)社交媒體與朋友分享食物照片,根據(jù)其食物偏好對(duì)使用者進(jìn)行聚類(lèi)。此外,還可以幫助人們使用圖像搜索食物。
盡管食物圖像分類(lèi)有著巨大的應(yīng)用潛力,但從圖像中識(shí)別食物仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù),挑戰(zhàn)來(lái)自3個(gè)方面:
(1)缺乏用于食物識(shí)別的大規(guī)模數(shù)據(jù)集?,F(xiàn)有的工作主要集中在利用較小的數(shù)據(jù)集進(jìn)行食物識(shí)別,如ETH-food-101[4]和Vireo-food-172[5]。例如,Bossard等人[4]發(fā)布了一個(gè)來(lái)自西餐的食物數(shù)據(jù)集ETH food-101,包含101個(gè)食物類(lèi)別和101 000張圖片。Chen等人[5]介紹了來(lái)自172個(gè)中國(guó)食品類(lèi)別的Vireo Food-172數(shù)據(jù)集。這些數(shù)據(jù)集缺乏食品類(lèi)別的多樣性和覆蓋面,沒(méi)有包括廣泛的食品圖像。因此,可能并不足以構(gòu)建更復(fù)雜的食物識(shí)別深度學(xué)習(xí)模型。
(2)不同種類(lèi)的食物可能從外觀上看極其相似,但是類(lèi)間相似性非常高,如圖1所示。由圖1可知,麻婆豆腐和紅燒豆腐從外觀上看基本上無(wú)法分辨。雖然已經(jīng)有許多方法用于解決食物識(shí)別問(wèn)題,但這些方法大多側(cè)重于提取特定類(lèi)型或某些類(lèi)型的特征,而忽略了其他方面。例如,研究[6]的工作主要是提取顏色特征,而Martinel等人[7]設(shè)計(jì)了一個(gè)用于食物識(shí)別的網(wǎng)絡(luò)來(lái)捕獲特定的垂直結(jié)構(gòu)。
(3)一種特定的食物可能有數(shù)千種不同的外觀,但其本質(zhì)上是相同的食物,如圖2所示。由圖2可知,烤魚(yú)以不同形式的外觀表現(xiàn)出來(lái)。因?yàn)橄嗤澄锏呐浞娇梢愿鶕?jù)位置、食材成分以及最后但并非最不重要的個(gè)人口味而有所不同。食物圖像中有細(xì)微的辨別細(xì)節(jié),在很多情況下很難捕捉到。食物識(shí)別屬于細(xì)粒度識(shí)別,其中有很多細(xì)微差別的細(xì)節(jié),現(xiàn)有的圖像分類(lèi)技術(shù)還無(wú)法很好地獲取并區(qū)分圖像細(xì)節(jié)特征[8]。
由于有監(jiān)督學(xué)習(xí)需要大量的手動(dòng)數(shù)據(jù)注釋?zhuān)@一要求耗時(shí)耗力,因此無(wú)監(jiān)督學(xué)習(xí)越來(lái)越受到了關(guān)注,尤其是在自我監(jiān)督學(xué)習(xí)方面。自我監(jiān)督學(xué)習(xí)是一種特殊的無(wú)監(jiān)督學(xué)習(xí),其目標(biāo)是監(jiān)督特征學(xué)習(xí),其中監(jiān)督任務(wù)是從數(shù)據(jù)本身生成的。模型必須充分學(xué)習(xí)圖像特征,才能有效完成這類(lèi)監(jiān)督任務(wù),所以基于自我監(jiān)督的卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練會(huì)產(chǎn)生有用的權(quán)重,有助于后續(xù)的學(xué)習(xí)任務(wù)[9]。
本文主要研究食物圖像的自我監(jiān)督,提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)模型。文中的方法是將上下文恢復(fù)作為一項(xiàng)自我監(jiān)督任務(wù),上下文恢復(fù)策略訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)專(zhuān)注于學(xué)習(xí)有用的語(yǔ)義特征,學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)特征對(duì)后續(xù)分類(lèi)任務(wù)有用[10]。同時(shí)由于基于密集連接網(wǎng)絡(luò)的食物圖像分類(lèi)模型DenseFood在食物識(shí)別應(yīng)用中表現(xiàn)出的優(yōu)異性能[11],研究中選擇其作為后續(xù)的分類(lèi)任務(wù)。建立自我監(jiān)督預(yù)處理模型,訓(xùn)練好的網(wǎng)絡(luò)權(quán)重初始化DenseFood網(wǎng)絡(luò),訓(xùn)練微調(diào)完成分類(lèi)任務(wù)。通過(guò)使用VIREO-172數(shù)據(jù)集,對(duì)基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)、無(wú)預(yù)處理的DenseFood網(wǎng)絡(luò)模型以及基于ImageNet數(shù)據(jù)集訓(xùn)練預(yù)處理的DenseNet、ResNet這四個(gè)模型進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果表明,所提出的基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)模型優(yōu)于其他策略。
1 相關(guān)研究
自我監(jiān)督學(xué)習(xí)的關(guān)鍵挑戰(zhàn)是確定一個(gè)合適的自我監(jiān)督任務(wù),即通過(guò)數(shù)據(jù)生成模型輸入輸出對(duì)。Chen等人[10](2019)提出了一種醫(yī)學(xué)圖像自監(jiān)督學(xué)習(xí)策略。具體來(lái)說(shuō),給定一幅圖像,隨機(jī)選擇并交換2個(gè)補(bǔ)丁。多次重復(fù)此操作會(huì)產(chǎn)生一個(gè)新的圖像,該圖像的強(qiáng)度分布被保留,但其空間信息被改變,然后通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)將改變后的圖像恢復(fù)到原來(lái)的版本。所提出的上下文恢復(fù)策略有3個(gè)優(yōu)點(diǎn):在該任務(wù)中訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)專(zhuān)注于學(xué)習(xí)有用的語(yǔ)義特征;在該任務(wù)中學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)特征對(duì)后續(xù)不同類(lèi)型的任務(wù)(包括分類(lèi)、定位和分割)有用;實(shí)現(xiàn)簡(jiǎn)單明了。
針對(duì)醫(yī)學(xué)圖像分析中的3個(gè)常見(jiàn)問(wèn)題,即:分類(lèi)、定位和分割,對(duì)該自監(jiān)督學(xué)習(xí)策略進(jìn)行了評(píng)估。評(píng)估使用了不同類(lèi)型的醫(yī)學(xué)圖像:對(duì)二維胎兒超聲(US)圖像進(jìn)行圖像分類(lèi);對(duì)腹部計(jì)算機(jī)斷層掃描(CT)圖像進(jìn)行器官定位;對(duì)腦磁共振(MR)圖像進(jìn)行分割。在這三個(gè)任務(wù)中,基于上下文恢復(fù)策略的預(yù)訓(xùn)練都優(yōu)于其他的自監(jiān)督學(xué)習(xí)策略,也優(yōu)于沒(méi)有自監(jiān)督訓(xùn)練的學(xué)習(xí)策略。
食物圖像分類(lèi)方面,卷積神經(jīng)網(wǎng)絡(luò)取得了廣泛的成功,其性能優(yōu)于其他方法。卷積神經(jīng)網(wǎng)絡(luò)有許多不同的架構(gòu),如AlexNet[12]、VGG[13]、GoogleNet[14]、ResNet[15]、DenseNet[16]等,其中DenseNet的性能表現(xiàn)優(yōu)異。密集連接網(wǎng)絡(luò)DenseNet在2017年的ImageNet大規(guī)模視覺(jué)識(shí)別大賽(ILSVRC)上表現(xiàn)出出眾的效果。DenseNet專(zhuān)注于圖像特征的提取與復(fù)用,加強(qiáng)了圖像特征的傳遞,一定程度上減輕了梯度消失的問(wèn)題,通過(guò)對(duì)圖像特征的極致利用達(dá)到了更少的參數(shù)和更好的效果。Metwalli等人[11](2020)提出了基于DenseNet的食物圖像識(shí)別模型DenseFood,使用了softmax損失函數(shù)和中心損失函數(shù)相結(jié)合的方法,該模型從頭開(kāi)始訓(xùn)練就達(dá)到了81.23%的準(zhǔn)確率,僅次于基于大規(guī)模ImageNet數(shù)據(jù)集訓(xùn)練的ResNet和DenseNet。
基于此,本次研究中針對(duì)食物圖像分類(lèi),提出了一種基于自我監(jiān)督預(yù)處理的網(wǎng)絡(luò)模型,使用基于上下文恢復(fù)的自我監(jiān)督預(yù)處理方法,訓(xùn)練好的權(quán)重用于初始化食物分類(lèi)網(wǎng)絡(luò)模型DenseFood,再進(jìn)一步訓(xùn)練微調(diào)完成分類(lèi)任務(wù),來(lái)達(dá)到更好的分類(lèi)效果。
2 本文方法
研究中基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)模型由2部分組成,分別是:基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型和食物圖像分類(lèi)模型。對(duì)此擬展開(kāi)研究論述如下。
2.1 基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型
基于上下文恢復(fù)的自我監(jiān)督預(yù)處理是將原始的圖像進(jìn)行打亂,再利用卷積網(wǎng)絡(luò)將其上下文訓(xùn)練恢復(fù)為原始圖片[10]。打亂的方式是選取圖像中隨機(jī)的2個(gè)小塊進(jìn)行交換,迭代多次,保證所有小塊不會(huì)出現(xiàn)重疊,防止圖片打亂過(guò)于復(fù)雜,最終將會(huì)生成一個(gè)亂序的圖片。亂序算法的偽代碼如圖3所示,其中,x為原圖,取小塊大小為10×10,迭代次數(shù)N為10。亂序圖像生成過(guò)程如圖4所示。通過(guò)上下文恢復(fù)的自我監(jiān)督學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)可以更加專(zhuān)注地學(xué)習(xí)食物圖像的語(yǔ)義特征。如圖5所示,基于上下文恢復(fù)的自我監(jiān)督預(yù)處理模型由2部分組成,即:預(yù)處理部分和恢復(fù)部分。
預(yù)處理部分主要由初始化層、密集連接塊和過(guò)渡層組成,訓(xùn)練出的權(quán)重用于初始化后續(xù)的圖像分類(lèi)網(wǎng)絡(luò)。初始化層由卷積層和匯聚層組成,在將信息輸入密集塊層之前從圖像中提取出大量的信息,特征映射被下采樣以減少參數(shù)的數(shù)量。密集連接塊由批標(biāo)準(zhǔn)化、激活函數(shù)和卷積層組成。如圖6所示,每一層的輸出都作為輸入提供給后續(xù)層,因此,第k層接受來(lái)自先前所有層的特征映射。將X0,X1,...,Xk-1視為輸入,即:
為了降低特征映射的維數(shù),將網(wǎng)絡(luò)結(jié)構(gòu)劃分為4個(gè)密集連接塊,密集連接塊之間通過(guò)過(guò)渡層銜接,過(guò)渡層由批處理歸一化、ELU、1×1卷積層和2×2最大池化層組成。池化層使用最大池、而不是平均池來(lái)減少特征映射的數(shù)量,避免過(guò)擬合,以使模型更具通用性。值得一提的是,簡(jiǎn)單模型可能無(wú)法很好地?cái)M合數(shù)據(jù),因此可能會(huì)出現(xiàn)欠擬合,而層數(shù)較多的模型可能會(huì)產(chǎn)生較高的計(jì)算成本,通常需要更大的數(shù)據(jù)集來(lái)避免過(guò)度擬合,提高精度,并實(shí)現(xiàn)可推廣的性能[17]??紤]到本次研究的數(shù)據(jù)集不夠大,無(wú)法訓(xùn)練一個(gè)復(fù)雜的模型,因此分別構(gòu)造了4個(gè)6層、12層、24層和16層的密集連接塊,以避免過(guò)度擬合和欠[CM(22]擬合。由于密集連接網(wǎng)絡(luò)較深,導(dǎo)致圖像恢復(fù)效果[CM)]
較差,研究中就選取了前三個(gè)密集連接塊作為預(yù)處理部分,既加強(qiáng)了圖像特征學(xué)習(xí),又保證了圖像恢復(fù)效果?;謴?fù)部分主要由upSampling上采樣層、過(guò)渡層和Min-Max標(biāo)準(zhǔn)化層組成,輸出為圖片。由于恢復(fù)部分不會(huì)應(yīng)用于后續(xù)的分類(lèi)工作,所以相對(duì)預(yù)處理部分較為簡(jiǎn)單,upSampling上采樣層采用重采樣和插值方法,過(guò)渡層由批處理歸一化、ELU、1×1卷積層組成,Min-Max標(biāo)準(zhǔn)化層將輸出進(jìn)行標(biāo)準(zhǔn)化,Min-Max標(biāo)準(zhǔn)化公式見(jiàn)如下:
其中,x1,x2,...,xn為輸入序列,對(duì)其進(jìn)行變換得到標(biāo)準(zhǔn)化序列y1,y2,...,yn。由于該模型訓(xùn)練的數(shù)據(jù)標(biāo)簽是圖片,會(huì)占用大量?jī)?nèi)存,導(dǎo)致可訓(xùn)練的數(shù)據(jù)集容量較小,因而將網(wǎng)絡(luò)輸出的圖片大小以及做比對(duì)的原始圖片都縮小為原來(lái)的1/4(寬和高各縮小為原來(lái)的1/2),來(lái)保證可以訓(xùn)練更大的數(shù)據(jù)集,提高訓(xùn)練效率及效果。同時(shí)由于恢復(fù)部分的網(wǎng)絡(luò)權(quán)重并不會(huì)應(yīng)用到后續(xù)的分類(lèi)工作中,因此縮小輸出圖片所帶來(lái)的像素?fù)p失對(duì)分類(lèi)結(jié)果的影響較小。
2.2 食物圖像分類(lèi)模型
將上下文恢復(fù)預(yù)處理模型中的預(yù)處理部分的網(wǎng)絡(luò)權(quán)重對(duì)食物圖像分類(lèi)網(wǎng)絡(luò)進(jìn)行初始化,再進(jìn)一步訓(xùn)練微調(diào)。如圖7所示,主要由4部分組成,即初始層、密集連接塊層、過(guò)渡層和完全連接層。前面介紹過(guò),為了避免過(guò)度擬合和欠擬合,研究中構(gòu)造了4個(gè)6層、12層、24層和16層的密集連接塊,初始層、前三個(gè)密集連接塊層、過(guò)渡層組成了預(yù)處理部分,由預(yù)處理模型權(quán)重進(jìn)行初始化。最后一部分包括一個(gè)密集連接塊層、過(guò)渡層和2個(gè)完全連接層,第一個(gè)完全連接層使用全局平均池將特征映射展平成一個(gè)包含1 024個(gè)節(jié)點(diǎn)的數(shù)組,然后將其作為分類(lèi)器輸入到第二個(gè)完全連接層,該層包含172個(gè)神經(jīng)元,每個(gè)神經(jīng)元代表一個(gè)食物類(lèi)。
2.3 損失函數(shù)
對(duì)于自我監(jiān)督預(yù)處理模型,文中采用L2損失訓(xùn)練網(wǎng)絡(luò)來(lái)完成上下文恢復(fù)任務(wù),L2損失可以預(yù)估出圖片的恢復(fù)程度:
其中,xi和yi分別表示恢復(fù)圖和原圖的像素值;L2損失函數(shù)又稱(chēng)為最小平方誤差,把目標(biāo)值和估計(jì)值的平方和最小化。盡管上下文恢復(fù)的輸出可能是模糊的,但是L2損失對(duì)于特征學(xué)習(xí)來(lái)說(shuō)是足夠的了。
對(duì)于分類(lèi)網(wǎng)絡(luò)模型,考慮到食物圖像具有類(lèi)間相似性和類(lèi)內(nèi)變化,采用softmax損失和中心損失相結(jié)合,并使用λ來(lái)平衡2個(gè)損失函數(shù)[18-19],如下所示:
softmax損失可以最大化類(lèi)間差異[19]:
2.4 圖像預(yù)處理
研究中使用的數(shù)據(jù)集的大小有限,平均每個(gè)類(lèi)641張圖像的172個(gè)類(lèi)只包含110 241個(gè)圖像。為了解決這一問(wèn)題,防止訓(xùn)練中的過(guò)度擬合,通過(guò)使用水平翻轉(zhuǎn)、旋轉(zhuǎn)、錯(cuò)切變換、縮放和平移等方法來(lái)增加數(shù)據(jù),如圖8所示。圖像的大小總是調(diào)整為224×224,以適應(yīng)模型。
3 實(shí)驗(yàn)與結(jié)果
3.1 數(shù)據(jù)集
VIREO-FOOD數(shù)據(jù)集是一個(gè)大型的公共中餐食品數(shù)據(jù)庫(kù),包含172類(lèi)的110 241張圖片,如圖9所示,用于訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)有不錯(cuò)的效果。文中將數(shù)據(jù)集分為2個(gè)子集,即:80%用于分類(lèi)網(wǎng)絡(luò)訓(xùn)練,20%用于分類(lèi)網(wǎng)絡(luò)測(cè)試。同時(shí)用于訓(xùn)練的子集部分中,80%作為訓(xùn)練集,20%作為校驗(yàn)集。分類(lèi)網(wǎng)絡(luò)的訓(xùn)練集的40%用于自我監(jiān)督預(yù)處理的訓(xùn)練,校驗(yàn)集的30%用于自我監(jiān)督預(yù)處理的校驗(yàn)。
3.2 實(shí)驗(yàn)平臺(tái)
文中使用TensorFlow實(shí)現(xiàn)了研究中的分類(lèi)網(wǎng)絡(luò)模型,TensorFlow是由Google開(kāi)發(fā)的一個(gè)端到端開(kāi)放源代碼機(jī)器學(xué)習(xí)平臺(tái),具有靈活和全面的工具、庫(kù)和資源生態(tài)系統(tǒng)[20]。訓(xùn)練過(guò)程是在Intel CoreTM i7 2.8 GHz CPU、32 GB RAM和一個(gè)6 GB的Nvidia GeForce GTX 1060 GPU。訓(xùn)練以平均52.48張圖像/s的速度進(jìn)行。
3.3 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練
自我監(jiān)督預(yù)處理模型的訓(xùn)練初始學(xué)習(xí)率設(shè)置為0.01,分類(lèi)網(wǎng)絡(luò)模型是在預(yù)訓(xùn)練基礎(chǔ)上訓(xùn)練的,為了避免權(quán)重失真,初始學(xué)習(xí)率改為0.005。此外,在學(xué)習(xí)速率表中使用余弦衰減來(lái)降低學(xué)習(xí)速率。同時(shí)使用中心損失函數(shù)和softmax分類(lèi)交叉熵函數(shù)相結(jié)合進(jìn)行分類(lèi),其中λ的值設(shè)為0.5,以平衡損失函數(shù),因?yàn)榇蠖鄶?shù)食品類(lèi)別的類(lèi)內(nèi)變化較小。為了避免過(guò)度擬合和提高精度,在訓(xùn)練期間使用了數(shù)據(jù)擴(kuò)充,使用隨機(jī)的水平翻轉(zhuǎn)、旋轉(zhuǎn)、錯(cuò)切變換、縮放和平移。由于計(jì)算資源有限,批量大小設(shè)為16,訓(xùn)練時(shí)長(zhǎng)設(shè)為40個(gè)周期。
3.4 實(shí)驗(yàn)結(jié)果
研究中,在VIREO-172數(shù)據(jù)集上評(píng)估了上下文恢復(fù)模型以及分類(lèi)網(wǎng)絡(luò)模型,上下文恢復(fù)訓(xùn)練結(jié)果如圖10所示,還原圖較為模糊,但對(duì)于預(yù)訓(xùn)練分類(lèi)網(wǎng)絡(luò)已經(jīng)足夠了。緊接著,訓(xùn)練了無(wú)預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)模型DenseFood、基于ImageNet數(shù)據(jù)集預(yù)處理的DenseNet121、ResNet50和基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)四個(gè)模型,提供Top-1和Top-5精度,實(shí)驗(yàn)結(jié)果見(jiàn)表1。由表1可以看出,基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)的Top-1和Top-5精度分別為84.25%和96.97%,準(zhǔn)確率高于其他模型,驗(yàn)證了本文的網(wǎng)絡(luò)模型具有更有效的食物圖像特征學(xué)習(xí)。在此基礎(chǔ)上,還繪制了這4個(gè)模型的損失曲線和精確度曲線,如圖11、圖12所示,文中的模型對(duì)損失值做到了更好的最小化,其損失值為0.69。
4 結(jié)束語(yǔ)
本文提出了一種基于自我監(jiān)督預(yù)處理的食物圖像分類(lèi)網(wǎng)絡(luò)。研究中構(gòu)建模型訓(xùn)練食物圖片的上下文恢復(fù)能力來(lái)學(xué)習(xí)圖像特征,將該模型訓(xùn)練出的網(wǎng)絡(luò)權(quán)重在分類(lèi)網(wǎng)絡(luò)中進(jìn)行初始化,再進(jìn)一步訓(xùn)練微調(diào),使用密集連接卷積網(wǎng)絡(luò)進(jìn)一步提取和復(fù)用圖像特征,充分實(shí)現(xiàn)對(duì)食物圖片細(xì)節(jié)上的圖像特征的學(xué)習(xí)和提取,來(lái)提高食物圖像分類(lèi)的精確度。實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文的論點(diǎn),文中研發(fā)的模型Top-1和Top-5精確度高達(dá)84.25%和96.97%,優(yōu)于其他模型。
參考文獻(xiàn)
[1] HE Hongsheng, KONG Fanyu, TAN Jindong. DietCam: Multiview food recognition using a multikernel SVM[J]. IEEE Journal of Biomedical and Health Informatics, 2015, 20(3):848-855.
[2] PANDEY P, DEEPTHI A, MANDAL B, et al. FoodNet: Recognizing foods using ensemble of Deep Networks[J]. IEEE Signal Processing Letters, 2017, 24(12):1758-1762.
[3] AGUILAR E, REMESEIRO B ,BOLAOS M, et al. Grab, Pay and eat: Semantic food detection for smart restaurants[J]. IEEE Transactions on Multimedia, 2018,20(12):3266-3275.
[4] BOSSARD L, GUILLAUMIN M, GOOL L V. Food-101-Mining discriminative components with Random Forests[C]//European Conference on Computer Vision.Zurich:Springer,2014:446-461.
[5] CHEN Jingjing, NGO C W. Deep-based ingredient recognition for cooking recipe retrieval[C]//Proceedings of the 24th ACM on International Conference on Multimedia (MM'16). New York, NY, United States:ACM,2016: 32-41.
[6] BETTADAPURA V, THOMAZ E, PARNAMI A, et al. Leveraging context to support automated food recognition in restaurants[C]// IEEE Winter Conference on Applications of Computer Vision. Waikoloa, HI, USA:IEEE,2015:580-587.
[7] MARTINEL N, FORESTI G L, MICHELONI C. Wide-slice residual networks for food recognition[C]// IEEE Winter Conference on Applications of Computer Vision.Lake Placid,NY,USA: IEEE Computer Society, 2016: 567-576.
[8] MIN Weiqing, LIU Linhu, WANG Zhiling, et al. ISIA Food-500: A dataset for large-scale food recognition via stacked global-local attention network[C]// Proceedings of the 28th ACM International Conference on Multimedia(MM '20).2020:393-401.
[9] ?GIDARIS S, SINGH P, KOMODAKIS N. Unsupervised representation learning by predicting image rotations[J]. arXiv preprint arXiv:1803.07728,2018.
[10]CHEN L, BENTLEY P, MORI K, et al. Self-supervised learning for medical image analysis using image context restoration[J]. Medical Image Analysis, 2019,58(11):101539.
[11]METWALLI A S, SHEN W, WU C Q. Food image recognition based on densely Connected Convolutional Neural Networks[C]// 2020 International Conference on Artificial Intelligence in Information and Communication (ICAIIC).Fukuoka, Japan:IEEE, 2020:27-32.
[12]KRIZHEVSKY A, SUTSKEVER I, HINTON G. ImageNet classification with Deep Convolutional Neural Networks[C]// Neural Information Processing Systems(NIPS). USA:Morgan Kaufmann Publishers, Inc., United States of America, 2012,141:1097-1105.
[13]SIMONYAN K, ZIEEERMAN A. Very Deep Convolutional Networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[14]SZEGEDYC, IOFFE S, VANHOUCKE V, et al. Inception-v4, inceptionresnet and the impact of residual connections on learning[C]// AAAI Conference on Artificial Intelligence (AAAI). San Francisco, California,USA: AAAI, 2017:4278-4284.
[15]SZEGEDY C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C]//Proceedings of The IEEE Conference On Computer Vision and Pattern Recognition, Boston, MA:IEEE, 2015:1-9.
[16]HUANG G, LIU Z, LAURENS V D M, et al. Densely Connected Convolutional Networks[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR 2017). Washington, DC: IEEE Computer Society,2017:2261-2269.
[17]KABKAB M, HANDS E, CHELLAPPA R. On the size of Convolutional Neural Networks and generalization performance[C]// 2016 23rd International Conference on Pattern Recognition (ICPR). Cancun, Mexico:IEEE, 2016:3572-3577.
[18]WANG F, XIANG X, CHENG J, et al. NormFace: L2 hypersphere embedding for face verification[C]//Proceedings of the 2017 ACM on Multimedia Conference. Mountain View, CA, USA:ACM, 2017: 1041-1049.
[19]ZHANG Tong, WANG Rong, DING Jianwei, et al. Face recognition based on densely Connected Convolutional Networks[C]// IEEE Fourth International Conference on Multimedia Big Data(BigMM). Xi'an, China:IEEE Computer Society, 2018:1-6.
[20]Google. Tensorflow[EB/OL]. [2019]. http://tensorflow.google.cn.