楊雪珂,蒙金超,馮悅恒,林婷婷,,王兆君,劉 輝
(1. 海南大學(xué) 林學(xué)院,???570228; 2. 中國科學(xué)院 動(dòng)物研究所,北京 100101)
隨著科技的發(fā)展,鳥類圖像的大量采集變得更加便捷,可利用圖像采集設(shè)備(如紅外相機(jī)[1]、普通相機(jī))采集,也可利用智能手機(jī)采集。隨著鳥類數(shù)據(jù)共享平臺(tái)(eBird[2]、中國愛鳥網(wǎng)等)的建立,來自世界各地的大量鳥類圖像數(shù)據(jù)被上傳至網(wǎng)絡(luò)數(shù)據(jù)庫。僅以eBird為例,已有超過2 000萬張鳥類圖像被上傳至該平臺(tái),并且圖像數(shù)量依舊在迅速增長(zhǎng)。鳥類圖像記錄了鳥類形態(tài)學(xué)特征、生境信息[3]及行為學(xué)特征,對(duì)鳥類學(xué)研究有著重要的價(jià)值,但面對(duì)如此大量的鳥類圖像數(shù)據(jù),僅憑人工處理是無法滿足需求的。為了能快速自動(dòng)化處理大量的鳥類圖像數(shù)據(jù),深度學(xué)習(xí)(Deep Learning)領(lǐng)域的研究人員已經(jīng)開展了相關(guān)研究。圖像識(shí)別技術(shù)應(yīng)用于鳥類物種識(shí)別已有一些成功案例,在標(biāo)準(zhǔn)鳥類圖像數(shù)據(jù)庫CUB200-2011[4]的技術(shù)報(bào)告中,Welinder等[4]就使用局部區(qū)域和基于傳統(tǒng)特征的詞包模型實(shí)現(xiàn)分類,Berg等[5]提出POOF特征,Yao[6]和Yang[7]等均嘗試使用模板匹配的方法替換定位算法中的滑動(dòng)窗口,以降低算法復(fù)雜度?;趫D像識(shí)別技術(shù)的珍稀瀕危鳥類的行為識(shí)別具有重大應(yīng)用價(jià)值[8],但整體看來,目前的研究主要涉及計(jì)數(shù)[9]、密度估計(jì)[10]、生境因素識(shí)別[11]等。雖然目前自動(dòng)監(jiān)測(cè)獲得的影像數(shù)據(jù)量極大,其中很大一部分行為表達(dá)數(shù)據(jù)對(duì)于無人為干擾下鳥類行為的研究很有價(jià)值,但是目前使用這種方式對(duì)野生鳥類行為學(xué)進(jìn)行的研究少之又少。動(dòng)物通常以身體運(yùn)動(dòng)和身體姿勢(shì)來表達(dá)行為,動(dòng)物的行為是其對(duì)環(huán)境和生理狀況的一種反應(yīng),為研究動(dòng)物健康水平提供了重要的線索[12],所以進(jìn)行動(dòng)物行為識(shí)別或動(dòng)作識(shí)別是十分必要的。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為深度學(xué)習(xí)的代表算法之一,其在圖像識(shí)別領(lǐng)域展現(xiàn)了非常大的潛力和極佳的性能[13-15]。經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型包括ResNet[16]、VGG Net[17]、ALexNet[18]、GoogLeNet[19]等,其中,殘差網(wǎng)絡(luò)(Residual Network, ResNet)良好地解決了網(wǎng)絡(luò)加深帶來的學(xué)習(xí)退化問題,該模型目前在各領(lǐng)域取得了廣泛應(yīng)用[20]。目前利用卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)野生動(dòng)物自動(dòng)識(shí)別的研究較多。史春妹等[21]運(yùn)用單次多盒目標(biāo)檢測(cè)方法來進(jìn)行東北虎的個(gè)體識(shí)別,達(dá)到97.4%的準(zhǔn)確率。石鑫鑫等[22]提出了一種全連接算法與稀疏連接算法相結(jié)合的全卷積神經(jīng)網(wǎng)絡(luò)解決了蛙聲識(shí)別問題,準(zhǔn)確率達(dá)到99.67%。還有使用基于感興趣區(qū)域與卷積神經(jīng)網(wǎng)絡(luò)的野生動(dòng)物物種自動(dòng)識(shí)別方法實(shí)現(xiàn)了基于野生動(dòng)物監(jiān)測(cè)圖像的物種識(shí)別研究,平均識(shí)別率均可達(dá)到90%左右[23]。殘差網(wǎng)絡(luò)模型的應(yīng)用研究成果對(duì)于鳥類圖像大數(shù)據(jù)的有效利用有著重要的輔助作用,但仍不能滿足實(shí)際需要,仍缺乏應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行野生鳥類的動(dòng)作自動(dòng)化識(shí)別研究[24]。
勺嘴鷸隸屬鷸科(Scolopacidae)濱鷸屬(Calidris), 是一種僅分布于東亞–澳大利西亞候鳥遷徙路線上的涉禽[25],被世界自然保護(hù)聯(lián)盟(IUCN)紅色名錄列為極度瀕危(CR)物種。其在我國的江蘇、浙江、福建、廣東、海南等省份均有被記錄到,其中,海南儋州灣是海南島目前已知的為數(shù)不多的勺嘴鷸的為數(shù)不多的越冬地。繁殖期以外的時(shí)期,勺嘴鷸只在濱海灘涂濕地有分布,覓食地主要為潮間帶的灘涂[26]。目前,國內(nèi)外主要利用環(huán)志等回收數(shù)據(jù),開展勺嘴鷸的棲息地保護(hù)[27]、種群數(shù)量[28]和分布區(qū)系[29]等的研究,未涉及其行為動(dòng)作的識(shí)別。因此,筆者嘗試使用卷積神經(jīng)網(wǎng)絡(luò)模型(ResNet50、ResNet101和ResNet152)進(jìn)行勺嘴鷸動(dòng)作的自動(dòng)識(shí)別研究,以期開啟海南熱帶地區(qū)鸻鷸類[30]涉禽的動(dòng)作識(shí)別以及其他野生鳥類行為學(xué)自動(dòng)識(shí)別的研究。
1.1 研究區(qū)域概況 儋州灣(109°02′~109°36′E,19°33′~20°01′N)位于海南省儋州市中北部,由北部灣伸入洋浦半島進(jìn)而形成的半封閉內(nèi)灣, 面積約為 50 km2。該區(qū)域?qū)儆诩撅L(fēng)性氣候,冬季干燥、夏季濕潤,年平均降雨量約1 426 mm,年均氣溫23.1 ℃[31]。儋州灣于1986年被設(shè)立為市級(jí)自然保護(hù)區(qū),紅樹林面積約133 hm2,是黑臉琵鷺(Platalea minor)、小青腳鷸(Tringa guttifer)、勺嘴鷸等珍稀瀕危遷徙涉禽的重要越冬地和停歇地[32]。
1.2 研究方法
1.2.1 數(shù)據(jù)的采集與預(yù)處理 數(shù)據(jù)采集于2020-11-21—2021-03-20,采集時(shí)間段主要集中在9:00-17:30,共獲得42份用相機(jī)拍攝的勺嘴鷸視頻(佳能SX60HS長(zhǎng)焦數(shù)碼相機(jī)、尼康D500單反相機(jī)和尼康Z6微單相機(jī),視頻尺寸為1920×1 080 30p)。將采集的數(shù)據(jù)進(jìn)行預(yù)處理:1)通過查找相關(guān)文獻(xiàn)、咨詢專家和快速瀏覽現(xiàn)有視頻資料確定可以用于識(shí)別勺嘴鷸動(dòng)作的標(biāo)簽(表1);2)將42份視頻數(shù)據(jù)解幀(每5秒解幀,有重復(fù)的圖片只保留1張,再進(jìn)行人工修正),共獲得66 875張勺嘴鷸圖像;3)刪除勺嘴鷸與其他鳥類同框的圖像和因拍攝抖動(dòng)或?qū)故⌒纬傻哪:龍D像,手動(dòng)篩選相應(yīng)標(biāo)簽的圖像(每1張圖像包含1種標(biāo)簽),并在篩選結(jié)束后創(chuàng)建以標(biāo)簽命名的文件夾,最后共獲得9個(gè)標(biāo)簽文件夾;4)使用Grad-Cam[33]對(duì)3種模型的預(yù)測(cè)結(jié)果進(jìn)行可視化處理(圖1)。圖1中橙色部分表示模型是基于這些區(qū)域判斷出圖像中的動(dòng)作類別。
圖1 Grad-CAM熱力圖
表1 勺嘴鷸的動(dòng)作分類及定義
1.2.2 構(gòu)建數(shù)據(jù)集 由于目前沒有用于識(shí)別勺嘴鷸動(dòng)作的公共數(shù)據(jù)集,因此,筆者建立了1個(gè)由獵食、覓食、休憩、理羽、洗浴、抖羽、振翅和踱步9種動(dòng)作標(biāo)簽構(gòu)成的共2 174張圖片的數(shù)據(jù)集(表2),該數(shù)據(jù)集按照 3∶ 1∶ 1的比例隨機(jī)劃為訓(xùn)練集、驗(yàn)證集和測(cè)試集[34]。
表2 動(dòng)作標(biāo)簽數(shù)據(jù)集
1.3 殘差卷積神經(jīng)網(wǎng)絡(luò)和遷移學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò)包含多個(gè)卷積層、池化層和全連接層[35]。卷積層和池化層是提煉圖像特征關(guān)鍵部分的模型,全連接層能夠在高層次特征域內(nèi)把圖像分類作為主要實(shí)現(xiàn)的圖像映射[36-38]。卷積神經(jīng)網(wǎng)絡(luò)也可以被認(rèn)為是由特征提取器和分類器2個(gè)部分組成,具有端到端特征提取和分類的特性。在卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,卷積的層次更深,網(wǎng)絡(luò)學(xué)習(xí)的能力也就更強(qiáng),那么特征圖能得到的信息也會(huì)更全。然而,隨著網(wǎng)絡(luò)層次和結(jié)構(gòu)逐漸加深,網(wǎng)絡(luò)內(nèi)的計(jì)算量也將隨之增多,進(jìn)而導(dǎo)致網(wǎng)絡(luò)也變得更為復(fù)雜,同時(shí)可能會(huì)導(dǎo)致梯度消失和網(wǎng)絡(luò)退化等問題[39],從而導(dǎo)致識(shí)別效果和穩(wěn)定性都不理想。
殘差網(wǎng)絡(luò)(ResNet)是最近十多年以來相關(guān)領(lǐng)域研究人員提出的最新關(guān)于執(zhí)行計(jì)算機(jī)領(lǐng)域視覺任務(wù)的一種典型的卷積神經(jīng)網(wǎng)絡(luò),因其加入了殘差模塊從而減少了隨網(wǎng)絡(luò)深度的增加而引起的梯度消失的問題[40],一方面減少了參數(shù)數(shù)量,另一方面在網(wǎng)絡(luò)中增加了直連通道,增加了卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力[41]。鑒于此背景,筆者使用ResNet101[42]、ResNet50[43]和ResNet152[44]3種不同層數(shù)的殘差卷積網(wǎng)絡(luò)模型作為本研究的基本網(wǎng)絡(luò)。
因本研究數(shù)據(jù)集的圖像相對(duì)較少,所以采用殘差網(wǎng)絡(luò)遷移學(xué)習(xí)[20]的方法, 將前人訓(xùn)練ImageNet 圖像數(shù)據(jù)集得到的不同深度殘差網(wǎng)絡(luò)模型的模型參數(shù)當(dāng)作勺嘴鷸圖像訓(xùn)練3種網(wǎng)絡(luò)模型的初始化值, 然后把預(yù)訓(xùn)練網(wǎng)絡(luò)內(nèi)的最后一層的全連接層輸出替換為本研究的勺嘴鷸圖像數(shù)據(jù)集的類別數(shù)9,以此為基礎(chǔ),再將勺嘴鷸圖像識(shí)別模型進(jìn)行下一步訓(xùn)練(圖2)。
圖2 殘差網(wǎng)絡(luò)數(shù)據(jù)分析流程圖
1.4 實(shí)驗(yàn)環(huán)境配置 實(shí)驗(yàn)中所有代碼均是在PyTorch[45]神經(jīng)網(wǎng)絡(luò)框架下完成的。本研究選用的是PyTorch1.3.1,框架環(huán)境為GPU: Tesla V100Mem: 32 GB,操作系統(tǒng)是Linux Cento OS 7.2服務(wù)器。
1.5 實(shí)驗(yàn)?zāi)P?/p>
1.5.1 模型結(jié)構(gòu) 本研究所用模型是以經(jīng)典的ResNet50、ResNet101和ResNet152模型為基礎(chǔ)進(jìn)行新的改善,網(wǎng)絡(luò)結(jié)構(gòu)超參數(shù)具體設(shè)置分別為損失函數(shù)設(shè)置為交叉熵函數(shù);優(yōu)化器設(shè)置為自適應(yīng)矩估算法;學(xué)習(xí)率設(shè)置為0.000 1;訓(xùn)練輪數(shù)為100;批量為64。
1.5.2 模型優(yōu)化與評(píng)價(jià)標(biāo)準(zhǔn) 本研究采用自適應(yīng)矩估計(jì)(Adam)方法[46]進(jìn)行模型的優(yōu)化。圖像分類評(píng)估中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率(精度)、精確率、召回率和F1-score[47],在此基礎(chǔ)上本研究添加模型訓(xùn)練時(shí)長(zhǎng)作為模型的評(píng)價(jià)指標(biāo)。根據(jù)真實(shí)標(biāo)簽和預(yù)測(cè)結(jié)果,將所有測(cè)試圖像分為4類??偣灿?個(gè)基本數(shù):真陽性(TP)、真陰性(TN)、假陽性(FP)和假陰性(FN)。正確預(yù)測(cè)的測(cè)試圖像的數(shù)量由TP和TN表示,錯(cuò)誤預(yù)測(cè)的圖像的數(shù)量由FN和FP表示。準(zhǔn)確率就是正確分類樣本所占總樣本的比率,能夠衡量分類器對(duì)于總樣本的判斷能力[33]。精確率又稱查準(zhǔn)率,值越高說明正確分類率越高。召回率又稱查全率,值越高說明識(shí)別得越全面。F1-score表示的是算法的綜合性能,可以平衡召回率和準(zhǔn)確率的影響,其取值范圍為0~1,值越大表示算法性能越好。以上評(píng)價(jià)標(biāo)準(zhǔn)形式化定義如下:
式中:陽性與陰性是相對(duì)的,若陽性代表覓食,陰性代表踱步;TP為真陽性(true positive)圖像數(shù)目,真陽性則證明這個(gè)圖像在整個(gè)預(yù)測(cè)分類的結(jié)果和標(biāo)記標(biāo)簽中屬于覓食;FP為假陽性(false positive)圖像數(shù)目,假陽性證明此圖像標(biāo)記標(biāo)簽是覓食,但是在預(yù)測(cè)分類結(jié)果中為踱步;TN為真陰性(true negative)圖像數(shù)目,真陰性證明該圖像標(biāo)記標(biāo)簽為踱步,并且對(duì)其預(yù)測(cè)的結(jié)果也屬于踱步;FN(false negative)是假陰性圖像數(shù)目,假陰性是圖像標(biāo)記標(biāo)簽踱步,但在預(yù)測(cè)的分類結(jié)果里是覓食[26]。
2.1 不同模型的損失和驗(yàn)證精度 隨著訓(xùn)練輪數(shù)的增加,每個(gè)模型的預(yù)測(cè)值與真實(shí)值之間的損失都呈下降趨勢(shì),驗(yàn)證集中的準(zhǔn)確性都呈上升趨勢(shì)(圖3)。最后,隨著訓(xùn)練輪數(shù)增多,每個(gè)模型的驗(yàn)證準(zhǔn)確率都趨于穩(wěn)定,僅存在小幅波動(dòng),這表明網(wǎng)絡(luò)得到了充分的訓(xùn)練。
圖3 3種模型的損失和準(zhǔn)確率
2.2 不同模型的識(shí)別準(zhǔn)確率和訓(xùn)練時(shí)長(zhǎng) 從準(zhǔn)確率來說,3種網(wǎng)絡(luò)模型準(zhǔn)確率之間的差別較小,不同模型的驗(yàn)證集準(zhǔn)確率和測(cè)試集準(zhǔn)確率都在95%以上,說明模型的泛化能力良好(表3)。模型在每輪訓(xùn)練時(shí)長(zhǎng)上都有較快的速度,時(shí)長(zhǎng)由短到長(zhǎng)依次為ResNet50、ResNet101和ResNet152,其中,ResNet50和ResNet152測(cè)試集準(zhǔn)確率都是96.90%,ResNet101測(cè)試集準(zhǔn)確率為96.64%,低于其他2個(gè)模型。ResNet50訓(xùn)練時(shí)長(zhǎng)是89.78 s·輪,ResNet152訓(xùn)練時(shí)長(zhǎng)是101.87 s·輪,在同樣準(zhǔn)確率的情況下,ResNet50訓(xùn)練時(shí)長(zhǎng)低于ResNet152。
2.3 3種模型的精度、召回率及F1-score 圖4展示了不同模型在數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)結(jié)果。進(jìn)食動(dòng)作標(biāo)簽在ResNet101和ResNet152模型的F1-score值偏低于0.90,除此之外的其他動(dòng)作標(biāo)簽在不同的模型的F1-score值都高于0.90,表明本研究算法的綜合性能較好。在模型精度方面,除踱步和進(jìn)食2種動(dòng)作標(biāo)簽的精度在ResNet50和ResNet101上低于0.90,其余標(biāo)簽的精度都不低于0.90,說明3種模型在識(shí)別動(dòng)作標(biāo)簽時(shí)都有較強(qiáng)的識(shí)別能力。在召回率方面,進(jìn)食標(biāo)簽在ResNet152上的召回率在0.80以下,其余標(biāo)簽在不同的模型上召回率都在0.80以上,且大部分高于0.90,說明進(jìn)食動(dòng)作識(shí)別得不夠全面。
圖4 3種模型的精度、召回率及F1-score
2.4 勺嘴鷸9種動(dòng)作標(biāo)簽的預(yù)測(cè)分類結(jié)果 圖5對(duì)角線上表示在測(cè)試集中預(yù)測(cè)正確的圖像數(shù)量,其余為預(yù)測(cè)錯(cuò)誤的數(shù)量。模型對(duì)一些動(dòng)作的識(shí)別容易存在誤判現(xiàn)象,如ResNet50模型在識(shí)別獵食和踱步時(shí)錯(cuò)判最多,有4張獵食被錯(cuò)判成踱步;ResNet101模型有2張抖羽被錯(cuò)判成理羽;ResNet152模型有3張進(jìn)食被錯(cuò)判成覓食。Res-Net50、ResNet101和ResNet152模型識(shí)別錯(cuò)誤的圖像總數(shù)分別是12、13、20張。
圖5 測(cè)試集勺嘴鷸圖像識(shí)別后統(tǒng)計(jì)的混淆矩陣
目前在家禽的動(dòng)作和行為識(shí)別方面已經(jīng)有了初步研究。勞鳳丹等[48]基于人工設(shè)計(jì)的10種特征利用貝葉斯分類法對(duì)單只蛋雞的行為進(jìn)行了識(shí)別,取得了不錯(cuò)的結(jié)果。但文獻(xiàn)[48]中蛋雞的行為識(shí)別是在人工設(shè)計(jì)的特征(如蛋雞圖像的質(zhì)心點(diǎn)坐標(biāo)、輪廓面積、移動(dòng)距離等)的基礎(chǔ)上進(jìn)行的,人工設(shè)計(jì)的特征往往對(duì)領(lǐng)域知識(shí)依賴度高,還需要大量的實(shí)驗(yàn)測(cè)試,可能只在特定的任務(wù)上才能獲得不錯(cuò)的效果[49]。相比而言,本研究利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)“端到端”的方式進(jìn)行勺嘴鷸動(dòng)作識(shí)別,特征提取和分類過程均由模型自動(dòng)完成,使用這種方法的門檻被大大降低。Wang等[11]驗(yàn)證了利用深度卷積神經(jīng)網(wǎng)絡(luò)從鳥類圖像中識(shí)別棲息環(huán)境元素的可行性,最大識(shí)別率達(dá)到95.52%,所以筆者期望未來可以進(jìn)行勺嘴鷸等稀瀕危涉禽棲息地的因素識(shí)別,進(jìn)一步推進(jìn)棲息地選擇的研究。本研究的數(shù)據(jù)集樣本相對(duì)較少,只實(shí)現(xiàn)了9種動(dòng)作識(shí)別,未實(shí)現(xiàn)勺嘴鷸所有可能動(dòng)作的識(shí)別,期望未來可以通過補(bǔ)充勺嘴鷸不同動(dòng)作類別的圖像進(jìn)一步完善勺嘴鷸的其他動(dòng)作的識(shí)別研究。因鸻鷸類涉禽可能存在外觀、體型或行為相似的情況(勺嘴鷸與紅頸濱鷸),所以模型未來可以推廣到鸻鷸類涉禽的動(dòng)作識(shí)別,進(jìn)一步推動(dòng)有關(guān)瀕危珍稀涉禽的保護(hù)研究。
本研究的不足主要有兩個(gè)。第一,只進(jìn)行勺嘴鷸的動(dòng)作研究,所以模型在識(shí)別與勺嘴鷸體型、行為等方面差異較大的鳥類時(shí),識(shí)別效果可能不大理想。此外,因一些不可避免的環(huán)境因素和人為因素,采集的視頻數(shù)據(jù)主要集中在光線較好的9:00-17:30,所以模型可能更適用于在光線良好時(shí)間段拍攝圖像的識(shí)別。本研究中踱步和進(jìn)食的識(shí)別精度低于其他動(dòng)作的主要原因是數(shù)據(jù)量不夠充足,導(dǎo)致識(shí)別某幾個(gè)標(biāo)簽的時(shí)候容易混淆,而且因?yàn)殪o態(tài)圖像識(shí)別動(dòng)作的缺陷,導(dǎo)致踱步和進(jìn)食的識(shí)別較差,筆者會(huì)在后續(xù)工作中進(jìn)行數(shù)據(jù)補(bǔ)充。第二,使用的是單標(biāo)簽方法來標(biāo)記勺嘴鷸的動(dòng)作,而在實(shí)際應(yīng)用時(shí)可能會(huì)出現(xiàn)1張圖像有多標(biāo)簽、部分分類照片較少的情況,遷徙候鳥具有顯著的集群行為[50],此類研究往往需要識(shí)別1張圖像中不同鳥種的不同動(dòng)作。如果未來通過結(jié)合目標(biāo)檢測(cè)、圖像分割和物種識(shí)別等技術(shù),把一群鳥轉(zhuǎn)換成單只鳥進(jìn)行識(shí)別,實(shí)現(xiàn)從多種鳥同框的圖片中識(shí)別出多個(gè)不同的動(dòng)作并用一個(gè)框?qū)⒚總€(gè)動(dòng)作分割出來,進(jìn)一步再通過采集更多的圖像數(shù)據(jù)進(jìn)行訓(xùn)練,可以使訓(xùn)練模型在實(shí)際應(yīng)用時(shí)具有更強(qiáng)的適應(yīng)性。
致謝:新英灣紅樹林保護(hù)區(qū)陳正平同志和中國熱帶農(nóng)業(yè)科學(xué)院橡膠研究所楊川助理研究員對(duì)本研究的野外工作提供了大力的支持,在此深表感謝!