王柯力,袁紅春
(上海海洋大學(xué)信息學(xué)院,上海201306)
(*通信作者電子郵箱hcyuan@shou.edu.cn)
近年來智能化水產(chǎn)養(yǎng)殖已成為行業(yè)發(fā)展趨勢,在節(jié)省勞動力的同時可大幅提高工作效率[1]。為水產(chǎn)動物制訂相應(yīng)的智能化管理策略,首先需要進(jìn)行高效的識別工作,但養(yǎng)殖數(shù)量與品種通常相當(dāng)龐大,傳統(tǒng)依靠人工篩選的識別方式,如:Naiberg等[2]提出的魚尺寸測量原型系統(tǒng)(Fish Image Capturing and Sizing System,F(xiàn)ICASS),雖然有不錯的精度,但會極大降低養(yǎng)殖系統(tǒng)的工作效率,且存在較強(qiáng)的主觀性;而新興的深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)雖然有著卓越的性能優(yōu)勢,但訓(xùn)練模型開銷極大,嚴(yán)重限制了這一技術(shù)在水產(chǎn)養(yǎng)殖領(lǐng)域的應(yīng)用。
遷移學(xué)習(xí)的目標(biāo)是將從原環(huán)境中學(xué)到的知識遷移到新環(huán)境中輔助完成學(xué)習(xí)任務(wù),避免傳統(tǒng)機(jī)器學(xué)習(xí)中普遍存在的同分布假設(shè)。這一概念在提出后已經(jīng)應(yīng)用到了實(shí)際問題中,如文本分類[3]和情緒挖掘[4]等,但在水產(chǎn)動物圖像識別方面我國對此方面的研究還很少,缺乏具有針對性的應(yīng)用實(shí)例。
本文提出一種基于參數(shù)遷移策略,以微調(diào)的方式將VGG16、InceptionV3、ResNet50 這三個采用 ImageNet訓(xùn)練集開發(fā)的預(yù)訓(xùn)練模型,在小規(guī)模水產(chǎn)養(yǎng)殖單位所具有的資源條件下進(jìn)行移植再訓(xùn)練,并通過實(shí)驗(yàn)比較模型的優(yōu)劣,分析不同場景下的適應(yīng)性。
傳統(tǒng)圖像識別算法如支持向量機(jī)(Support Vector Machine,SVM)經(jīng)過多年的研究發(fā)展雖已趨于成熟接近性能上限,依然難以充分利用圖像的全部信息達(dá)到較高的準(zhǔn)確率,而其他基于特征設(shè)計的淺層模型,如點(diǎn)分布模型(Point Distribution Model,PDM)[5]、模板匹配法(Template Matching,TM)[6]、Haar分類器[7]仍不同程度存在依賴人工參考點(diǎn)、需要建立模板等缺點(diǎn),在實(shí)現(xiàn)自動化的進(jìn)程上還有很大的局限性。在這一情況下,近年來深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展成為圖像識別方面最突出的進(jìn)步,這種方法模仿生物神經(jīng)網(wǎng)絡(luò)的層次結(jié)構(gòu),低層表示抽象細(xì)節(jié),高層表示具體語義,通過逐層提取以高度挖掘數(shù)據(jù)的本質(zhì)信息,從而完成識別分類,且學(xué)習(xí)過程中完全自動、無需人工干預(yù)的特點(diǎn)是其具有應(yīng)用潛力的最大優(yōu)勢,近年來通過海量樣本集訓(xùn)練得到的深度卷積神經(jīng)網(wǎng)絡(luò)模型已經(jīng)在速度、識別準(zhǔn)確率等性能上達(dá)到了前所未有的高度[8]。
卷積神經(jīng)網(wǎng)絡(luò)通過卷積層與采樣層的交替堆疊對原始圖像進(jìn)行特征提取,得到圖像的一般化抽象表示,再通過分類器進(jìn)行分類得到輸出結(jié)果[9],運(yùn)算的形式如式(1)所示:
其中:L表示網(wǎng)絡(luò)層數(shù),K為卷積核(過濾器),Mj為輸入特征圖的組合選擇,每一層輸出特征圖都會有唯一的偏置項(xiàng)b[10]。由于權(quán)值共享原理,在某一層可以同時有多種過濾器一起工作,但參數(shù)量只和過濾器種類相關(guān),因此在提高特征提取效率的同時精簡了模型復(fù)雜度。每種過濾器負(fù)責(zé)提取輸入圖像上的某一種特征,且一次只觀察圖像的一小塊區(qū)域,傳遞給下一卷積層,因此低層輸出結(jié)果偏抽象、局部;而隨著層次加深,卷積核的感受野逐漸擴(kuò)大,高層的輸出結(jié)果越來越具體、全局,在足夠高的層次后可以觀察到人類可以理解的具有原始圖像含義的結(jié)果。
1.1.1 VGG16
VGG16是由牛津大學(xué)計算機(jī)視覺組開發(fā)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[11],至今仍被認(rèn)為是一個杰出的圖像識別模型,雖然它的性能已經(jīng)被后來的Inception和ResNet架構(gòu)超越,但作為經(jīng)典模型,其簡潔的結(jié)構(gòu)和易于實(shí)現(xiàn)的特點(diǎn)使其依然具有研究價值。
VGG16模型把特征提取層分成了5個模塊,在整個卷積過程中都使用3×3的過濾器,接受224×224×3的圖片作為輸入,經(jīng)過分別具有64、128、256、512、512個卷積核共 5組卷積模塊逐步提取特征后,通過2個4 096神經(jīng)元的全連接層,最后由一個1000神經(jīng)元的Softmax分類器得到結(jié)果,搭建方式簡單易懂,但參數(shù)利用率較低。
1.1.2 InceptionV3
InceptionV3由Google提出,前身為GoogleNet。在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)的卷積結(jié)構(gòu)中,通常只選用某一種尺寸的卷積核,InceptionV3模型提出一種Inception架構(gòu),在一個卷積層中同時使用多種尺寸的卷積核,且把較大尺寸的卷積核拆分為較小尺寸,同時提取特征后再合并到一起作為輸出結(jié)果。Inception結(jié)構(gòu)還使用了1×1卷積核,主要作用在于保持特征圖空間尺寸的同時壓縮或增加通道數(shù),減少了參數(shù)量又能靈活調(diào)控張量維度,增強(qiáng)卷積操作的非線性表達(dá)能力[12]。
1.1.3 ResNet50
ResNet模型提出一種新的殘差結(jié)構(gòu),與其直接擬合原本的期望網(wǎng)絡(luò)映射H(x),轉(zhuǎn)為嘗試擬合另一個映射:F(x)=H(x)-x,則原來的期望映射變?yōu)镕(x)+x,這一結(jié)構(gòu)的原理類似差分放大器,當(dāng)網(wǎng)絡(luò)深度極大,直接擬合H(x)時,x的變化幅度在經(jīng)過多層傳遞后變得越來越小,此時對H(x)影響會變得極其微小以至于不能對權(quán)值更新作出貢獻(xiàn);而在嘗試擬合F(x)時,由于F(x)是原始輸入x與期望映射H(x)之差,x的微小變動會更容易影響到F(x),使網(wǎng)絡(luò)Loss值對輸入樣本的變化更加敏感,提高了網(wǎng)絡(luò)權(quán)值更新的精度。這一結(jié)構(gòu)的提出真正實(shí)現(xiàn)了極深層網(wǎng)絡(luò)的搭建[13]。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法存在一個嚴(yán)重弊端:假設(shè)訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)服從相同的數(shù)據(jù)分布,但許多情況下并不滿足這種假設(shè),通常需要花費(fèi)大量的人力與資源重新標(biāo)注大量數(shù)據(jù)以滿足訓(xùn)練要求,造成了數(shù)據(jù)的浪費(fèi);而遷移學(xué)習(xí)可從現(xiàn)有數(shù)據(jù)中抽取并遷移知識,用來完成新的學(xué)習(xí)任務(wù)。具體可形式化定義為:源域Ds,源任務(wù)Ts,目標(biāo)域Dt,域目標(biāo)任務(wù)Tt,域D定義為一個二元對{x,P(X)},其中x為特征空間,P(X)是X的邊緣分布,X={x1,x2,…,xn}。任務(wù)T也是一個二元對{y,f(x)},y是標(biāo)簽空間,y=f(x)是從訓(xùn)練樣本{xi,yi}學(xué)習(xí)到的目標(biāo)函數(shù)。遷移學(xué)習(xí)目的是利用Ds與Ts的知識在Dt上幫助求解或提升Tt,其中源域的訓(xùn)練樣本數(shù)記為ns,目標(biāo)域中的記為 nt[14]。
作為機(jī)器學(xué)習(xí)的分支,遷移學(xué)習(xí)初衷是節(jié)省人工標(biāo)注樣本的時間,近年來由于深度神經(jīng)網(wǎng)絡(luò)的迅速發(fā)展,遷移學(xué)習(xí)越來越多地與神經(jīng)網(wǎng)絡(luò)相結(jié)合,其高資源利用率與較低訓(xùn)練成本的特點(diǎn)吸引學(xué)術(shù)界和工業(yè)界開展了許多相關(guān)研究,如DeepMind 開發(fā)的PNN(Progress Neural Network)模型[15],通過lateral connection結(jié)構(gòu),在學(xué)習(xí)源域知識的基礎(chǔ)上,在遷移到其他領(lǐng)域的同時仍然保留模型在源域上的已習(xí)得能力,實(shí)現(xiàn)源域與目標(biāo)域之間的信息融合。基于這一技術(shù),PNN使用Mujoco庫模擬Jaco機(jī)械臂行動并學(xué)習(xí)行為特征,再遷移至真實(shí)機(jī)械臂上成功完成相應(yīng)動作;Long等[16]提出多層適配和多核MMD(Multi-Kernel MMD,MK-MMD)的方法,將源域與目標(biāo)域投射在一個再生核希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)中求映射后的數(shù)據(jù)均值差異,再對深度神經(jīng)網(wǎng)絡(luò)的高層部分多層適配以進(jìn)行遷移。
遷移學(xué)習(xí)根據(jù)具體實(shí)現(xiàn)方法可分為:樣本遷移、特征遷移和參數(shù)遷移。當(dāng)源域和目標(biāo)域的數(shù)據(jù)非常相近時,樣本遷移可以有效解決目標(biāo)域樣本不足的問題,如Dai等[17]通過推廣傳統(tǒng)AdaBoost算法提出的Tradaboosting算法,可過濾源域中與目標(biāo)域相似度低的樣本,剩下的數(shù)據(jù)可以直接放入目標(biāo)域?qū)W習(xí)新任務(wù);特征遷移通過重構(gòu)特征找到源域和目標(biāo)域共享的潛在特征空間從而最小化領(lǐng)域間的差異,如基于流型結(jié)構(gòu)的空間特征網(wǎng)格算法(Spectral Feature Alignment,SFA)[18];參數(shù)遷移即當(dāng)源域樣本與目標(biāo)域樣本分布相似時,學(xué)習(xí)任務(wù)之間可共享部分模型分布或先驗(yàn)參數(shù),如Tommasi等[19]使用遷移項(xiàng)代替最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LS-SVM)模型中的正則項(xiàng)來得到新的分類模型。
針對圖像識別任務(wù),即使不同圖像內(nèi)容差異巨大,但在卷積神經(jīng)網(wǎng)絡(luò)的低層表示中都由邊緣、紋理、顏色等細(xì)節(jié)構(gòu)成,對于這類任務(wù),模型的特征抽象能力是可以共用的。本文方法主要涉及參數(shù)遷移,即認(rèn)為可將源模型所具有的特征抽取能力作為先驗(yàn)知識遷移至目標(biāo)域,使新模型快速獲得低層過濾能力,再通過高層的自適應(yīng)訓(xùn)練調(diào)整,進(jìn)一步完善對圖像具體語義的概括能力,從而完成新的識別任務(wù)。
簡單的參數(shù)遷移方式只替換并訓(xùn)練分類層,而保留源模型的全部特征提取能力,當(dāng)目標(biāo)域樣本不被包含在源域中時,通常會導(dǎo)致識別準(zhǔn)確率下降。
基于圖像底層細(xì)節(jié)通用的特點(diǎn),在進(jìn)行參數(shù)遷移時保留卷積模塊的低層結(jié)構(gòu)與參數(shù),并設(shè)置靠近分類層的高層卷積部分為可訓(xùn)練狀態(tài),包括矩陣權(quán)重、偏置項(xiàng)與其他正則項(xiàng)系數(shù)。將模型放入目標(biāo)域中進(jìn)行再訓(xùn)練,由于可訓(xùn)練參數(shù)繼承自源模型,因此在進(jìn)行微調(diào)時并不是從隨機(jī)初始值開始進(jìn)行梯度下降,通常經(jīng)過小幅度的調(diào)整后就可以達(dá)到新的最優(yōu)值,使模型可針對目標(biāo)樣本自適應(yīng)地調(diào)整高層卷積參數(shù)從而提高全局概括能力。
以微調(diào)VGG16為例,將源模型的1000神經(jīng)元Softmax分類器替換成適應(yīng)本文實(shí)驗(yàn)背景的4元分類器,由于圖像識別的特殊性,通常要將靠近全連接層的高層卷積部分全部置為參數(shù)可更新狀態(tài),而不能只截取其中一段進(jìn)行微調(diào),因此將卷積模塊5的參數(shù)設(shè)置為可更新,而卷積模塊1~4的參數(shù)保持固定,繼承源模型的底層特征提取能力,如圖1所示。在實(shí)驗(yàn)中將通過設(shè)置不同參數(shù)凍結(jié)量,以訓(xùn)練時間、驗(yàn)證集準(zhǔn)確率為主要指標(biāo)來評價各模型的性能與優(yōu)劣。
圖1 采用微調(diào)方式修改VGG16模型Fig.1 Modification of VGG16 model through fine-tune
本文采用的實(shí)驗(yàn)環(huán)境為Windows10專業(yè)版,使用一塊GTX 1080ti顯卡在TensorFlow+Keras框架下完成實(shí)驗(yàn),實(shí)驗(yàn)流程如圖2所示。
圖2 實(shí)驗(yàn)流程Fig.2 Flow chat of experiment
為評估微調(diào)在遷移源模型時對性能的提升,實(shí)驗(yàn)一設(shè)計為首先不使用微調(diào),直接替換分類器,檢驗(yàn)其準(zhǔn)確率作為對照組,隨后再應(yīng)用微調(diào)方式修改模型并進(jìn)行同樣的訓(xùn)練過程并觀察結(jié)果。
為比較不同微調(diào)策略對模型性能的影響,實(shí)驗(yàn)二設(shè)計為同時訓(xùn)練分類器與卷積層,并調(diào)節(jié)微調(diào)時的可訓(xùn)練參數(shù)量,對InceptionV3與ResNet50模型進(jìn)行深入研究與對比。
實(shí)驗(yàn)采用的數(shù)據(jù)集由水下攝像機(jī)在實(shí)驗(yàn)室魚缸拍攝得到,本文背景項(xiàng)目養(yǎng)殖基地數(shù)據(jù)庫以及網(wǎng)絡(luò)收集,分為魚、蝦、蟹、貝4類,各300張共計1200張圖片作為訓(xùn)練集,另額外各選100張作為驗(yàn)證集。在選取訓(xùn)練樣本的過程中采用了部分含有非目標(biāo)物體(如容器、人手、背景物體等)的圖片來模擬隨機(jī)噪聲以提升模型的泛化能力。如圖3列出了其中一部分帶有噪聲的樣本。由于采集設(shè)備及來源的不同使分辨率相差較大,需先將原始圖片進(jìn)行歸一化處理,根據(jù)不同模型要求裁剪為224×224或299×299像素。
圖3 水產(chǎn)動物圖像實(shí)例Fig.3 Examples of aquatic animal images
在深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程中,過擬合是常見的問題,尤其在樣本集較小的情況下是很容易遇到的難點(diǎn)。本文實(shí)驗(yàn)為緩解過擬合現(xiàn)象,在訓(xùn)練中對樣本集進(jìn)行數(shù)據(jù)提升,采用旋轉(zhuǎn)、平移、翻轉(zhuǎn)、光照變化等操作處理,使每張?jiān)紙D片生成32張變形圖,擴(kuò)大樣本空間,如圖4所示列出了一組示例。
圖4 數(shù)據(jù)提升示例Fig.4 Examples of data enhancement
2.3.1 替換分類器
首先觀察只進(jìn)行簡單參數(shù)遷移后的模型性能,分別將三種源模型的全連接層替換為4分類Softmax分類器,卷積層保持權(quán)值不變,即保留預(yù)訓(xùn)練模型的歸納能力和泛化能力,將修改后的模型放入目標(biāo)樣本集中訓(xùn)練。
訓(xùn)練的通用參數(shù)設(shè)置迭代次數(shù)為100,批數(shù)量為32,其他主要超參數(shù)基本一致,均為ImageNet比賽版本中所使用的設(shè)置,具體如表1所示,其中Momentum為梯度下降算法中的歷史梯度權(quán)重系數(shù);BN表示模型是否使用Batch-Normalization技術(shù),即在中間層激活函數(shù)輸出后進(jìn)行正則化操作;Inputtensor表示對應(yīng)模型所接受原始圖像的維度。
表1 模型超參數(shù)設(shè)置Tab.1 Model hyper-parameters setting
訓(xùn)練過程中,每次迭代結(jié)束后即在驗(yàn)證集上進(jìn)行一次校驗(yàn),驗(yàn)證集樣本同樣經(jīng)過上述的歸一化和數(shù)據(jù)提升處理,記錄每一次迭代后的驗(yàn)證集準(zhǔn)確率,取最好成績作為評估模型性能的依據(jù),結(jié)果如表2所示。需要注意的是表中所示的層數(shù)并非該模型在ISLVRC比賽版本中的邏輯結(jié)構(gòu)層數(shù),而是在Keras框架下的代碼實(shí)現(xiàn)層數(shù)。
表2 替換分類器后的模型性能Tab.2 Model performance after replacing classifier
2.3.2 通過fine-tune微調(diào)特征提取層
為進(jìn)一步提高準(zhǔn)確率,對3個模型進(jìn)行微調(diào),根據(jù)模型結(jié)構(gòu)不同分別采用不同的凍結(jié)層數(shù)(可訓(xùn)練參數(shù)占比均為75%左右),同樣迭代100次,并記錄全部完成時所用的時間,結(jié)果如表3所示。
表3 經(jīng)過微調(diào)后的模型性能Tab.3 Model performance after fine-tune
實(shí)驗(yàn)表明采用微調(diào)處理可以對模型性能起明顯提升作用,尤其是針對VGG16模型提升幅度達(dá)到接近20個百分點(diǎn),原因是VGG16比其他兩個模型規(guī)模要更小,其卷積模塊蘊(yùn)含的抽象信息量較少,因此在微調(diào)過程中產(chǎn)生的權(quán)值更新量相對總參數(shù)量占比較大,對模型識別能力的修正作用明顯。3個模型中在驗(yàn)證集準(zhǔn)確率的表現(xiàn)上InceptionV3表現(xiàn)最好,在本實(shí)驗(yàn)環(huán)境下最高可以達(dá)到97%左右的正確率,且InceptionV3的總參數(shù)量略少于ResNet50,說明Inception模型的參數(shù)利用率最高;而ResNet50雖然準(zhǔn)確率略低于InceptionV3,但具有明顯的訓(xùn)練時間優(yōu)勢,與 Szegedy等[20]的研究結(jié)果一致,即殘差結(jié)構(gòu)對于深度神經(jīng)網(wǎng)絡(luò)來說并非提高準(zhǔn)確率的必要因素,但采用這一結(jié)構(gòu)可以大幅加速訓(xùn)練,從解決梯度彌散問題和縮短訓(xùn)練時間這兩方面同時為神經(jīng)網(wǎng)絡(luò)模型往極深方向發(fā)展提供了理論依據(jù)。
若同時訓(xùn)練分類器與微調(diào)卷積模塊,模型準(zhǔn)確率在一開始會比較低且成本函數(shù)的loss值呈快速下降趨勢,經(jīng)過一定數(shù)量的迭代后趨于收斂,最后得到與實(shí)驗(yàn)一近似的性能,實(shí)驗(yàn)二重點(diǎn)以InceptionV3與ResNet50模型為例,在可訓(xùn)練參數(shù)占比同為75%的情況下其訓(xùn)練過程圖像如圖5、6所示。
圖5 InceptionV3模型訓(xùn)練過程Fig.5 Training process of InceptionV3 model
圖6 ResNet50模型訓(xùn)練過程Fig.6 Training process of ResNet50 model
兩種模型都在50次迭代后開始趨于收斂,InceptionV3模型在訓(xùn)練集與驗(yàn)證集上的準(zhǔn)確率和loss值都非常接近,模型表現(xiàn)良好,沒有出現(xiàn)過擬合;而ResNet50模型的訓(xùn)練集圖像和驗(yàn)證集圖像之間存在一定的間隙,即使將迭代次數(shù)提升到200次以后依然沒有改善,因此認(rèn)為產(chǎn)生了過擬合現(xiàn)象。這一結(jié)果進(jìn)一步驗(yàn)證了Inception架構(gòu)的多尺寸過濾器設(shè)計使其在參數(shù)利用率上比ResNet架構(gòu)更高,與預(yù)期的一致,ResNet的殘差結(jié)構(gòu)犧牲了部分局部的對圖像的特征提取能力,這一結(jié)構(gòu)可以支持更加深層次的結(jié)構(gòu),在擴(kuò)大訓(xùn)練樣本集后可補(bǔ)足模型的歸納能力,將在后期的實(shí)驗(yàn)中進(jìn)行驗(yàn)證,使在經(jīng)過數(shù)據(jù)提升后也難以完全避免,在擴(kuò)大數(shù)據(jù)集后可以得到改善。
實(shí)驗(yàn)還對InceptionV3和ResNet50在不同的凍結(jié)層數(shù)時對模型的影響進(jìn)行了多次實(shí)驗(yàn),結(jié)果如表4、5所示。觀察到在減少凍結(jié)層數(shù)的情況下,ResNet50模型的驗(yàn)證集準(zhǔn)確度會略有提升,但當(dāng)減少到凍結(jié)層數(shù)為0時,性能會有所下降;而InceptionV3則只有很小幅度的變化,屬于隨機(jī)震蕩的范圍之內(nèi),平均統(tǒng)計后發(fā)現(xiàn)在凍結(jié)175層時得到最佳結(jié)果。綜合結(jié)果可觀察到通過InceptionV3再訓(xùn)練時當(dāng)可訓(xùn)練參數(shù)占比在75%時可以取得較理想的性能;而通過ResNet50再訓(xùn)練得到的模型準(zhǔn)確率會隨著可訓(xùn)練參數(shù)的增加而提高,但在可訓(xùn)練參數(shù)超過95%后開始下降。
表4 不同凍結(jié)層數(shù)時InceptionV3模型性能Tab.4 Performance of InceptionV3 model with different freezing layers
表5 不同凍結(jié)層數(shù)時ResNet50模型性能Tab.5 Performance of ResNet50 model with different freezing layers
從實(shí)驗(yàn)結(jié)果可以看出預(yù)訓(xùn)練模型強(qiáng)大的泛化能力與移植能力,在經(jīng)過耗費(fèi)資源較少的改造后,即可應(yīng)用在樣本規(guī)模和計算資源都較小的應(yīng)用項(xiàng)目之上。本文針對Inception和ResNet兩種優(yōu)秀的圖像識別模型進(jìn)行了重點(diǎn)實(shí)驗(yàn)對比和分析,得出結(jié)論:Inception結(jié)構(gòu)具有最高的參數(shù)利用率,即可以在較少參數(shù)量的情況下達(dá)到更高的準(zhǔn)確率且沒有出現(xiàn)過擬合現(xiàn)象;而ResNet結(jié)構(gòu)的模型表達(dá)能力略遜于Inception,但其殘差結(jié)構(gòu)在訓(xùn)練時間速度方面有巨大優(yōu)勢,且可以有效地應(yīng)用在極深網(wǎng)絡(luò)上,以速度和深度的優(yōu)勢來補(bǔ)足,兩者各有特點(diǎn)。將深度學(xué)習(xí)模型應(yīng)用到各實(shí)際領(lǐng)域時,在收集到更大規(guī)模的樣本集后可以顯著提高模型的性能和應(yīng)用覆蓋面。值得一提的是本實(shí)驗(yàn)中使用的ResNet50網(wǎng)絡(luò)是ResNet模型中較小規(guī)模的實(shí)例,實(shí)際上在ISLVRC2015上比賽的ResNet網(wǎng)絡(luò)為152層結(jié)構(gòu),有條件可以使用這一更深層次的網(wǎng)絡(luò)以取得超越InceptionV3的結(jié)果。在后期工作中,將進(jìn)一步實(shí)驗(yàn)討論不同模型在不同參數(shù)凍結(jié)量下性能變化的原因,試圖找出一個合理的方法來定量地分析應(yīng)該如何確定凍結(jié)層數(shù)的選擇。