裴凱洋,張勝茂,樊 偉,王 斐,鄒國(guó)華,鄭漢豐
(1.中國(guó)水產(chǎn)科學(xué)研究院東海水產(chǎn)研究所,農(nóng)業(yè)農(nóng)村部漁業(yè)遙感重點(diǎn)實(shí)驗(yàn)室,上海 200090;2.上海海洋大學(xué)信息學(xué)院,上海 201306;3.上海峻鼎漁業(yè)科技有限公司,上海 200090)
魚(yú)類行為和游泳能力可以反映其所在水域的生態(tài)環(huán)境狀況[1]。利用高清相機(jī)拍攝的魚(yú)類視頻可用于分析魚(yú)類行為和游泳能力,監(jiān)控生態(tài)系統(tǒng)健康程度和生物多樣性[2]。傳統(tǒng)的魚(yú)類行為和游泳能力主要通過(guò)人工觀察并記錄,勞動(dòng)強(qiáng)度大、耗時(shí)長(zhǎng)、效率低,且需要豐富的專業(yè)知識(shí)和經(jīng)驗(yàn)儲(chǔ)備,專業(yè)人員培養(yǎng)周期較長(zhǎng)且受主觀評(píng)判因素影響較大。
目前魚(yú)類跟蹤技術(shù)已有廣泛應(yīng)用,通過(guò)監(jiān)控不同水深處魚(yú)群的狀態(tài),能夠反映魚(yú)類分布及物種豐富程度[3];通過(guò)將攝像設(shè)備定置在珊瑚附近,監(jiān)控珊瑚魚(yú)類生長(zhǎng)狀況、物種豐富度和活動(dòng)痕跡,可以直接反映珊瑚礁生態(tài)系統(tǒng)的健康程度[4];通過(guò)在水產(chǎn)養(yǎng)殖廠安裝監(jiān)控設(shè)備,可以實(shí)時(shí)獲取魚(yú)類生長(zhǎng)及健康狀況,動(dòng)態(tài)管理養(yǎng)殖環(huán)境[5]。
計(jì)算機(jī)視覺(jué)技術(shù)可以有效監(jiān)控水下魚(yú)類行為。計(jì)算機(jī)視覺(jué)技術(shù)可以從自然光或主動(dòng)光照環(huán)境下拍攝的魚(yú)類視頻中獲取魚(yú)的種類、數(shù)量、行為及游泳速度等信息,這種方式可以在不干擾魚(yú)正?;顒?dòng)的情況下,獲取更加客觀真實(shí)的數(shù)據(jù)。非干擾式連續(xù)檢測(cè)魚(yú)類,可量化魚(yú)類有用行為參數(shù),對(duì)評(píng)價(jià)魚(yú)類游泳能力、魚(yú)群數(shù)量、魚(yú)類生長(zhǎng)情況和區(qū)域生態(tài)環(huán)境等信息具有重要的生物學(xué)和生態(tài)學(xué)意義[6]。本文系統(tǒng)綜述了魚(yú)類視頻跟蹤技術(shù)最新的研究進(jìn)展,介紹不同方法的技術(shù)路線及優(yōu)缺點(diǎn),指出魚(yú)類視頻跟蹤領(lǐng)域的發(fā)展方向。
魚(yú)類視頻跟蹤主要分為水下圖像采集、圖像清晰化、魚(yú)類跟蹤、軌跡輸出4個(gè)部分。水下拍攝的情況復(fù)雜,因此在視頻跟蹤目標(biāo)前需要先對(duì)圖像進(jìn)行清晰化處理,再根據(jù)魚(yú)類目標(biāo)所在不同幀的序列位置,確定運(yùn)動(dòng)目標(biāo)所在位置,關(guān)聯(lián)獲得魚(yú)類運(yùn)動(dòng)軌跡[7]。其中,圖像清晰化和魚(yú)類跟蹤是流程中最重要的環(huán)節(jié)。
自然條件中拍攝的水下圖像受光線在水中傳播的影響,水下不同波長(zhǎng)的光線呈現(xiàn)不同程度的指數(shù)衰減,光線散射導(dǎo)致水下圖像出現(xiàn)模糊、偏色和能見(jiàn)度低等問(wèn)題[8-9]。水下圖像清晰化領(lǐng)域的研究方向主要分為圖像增強(qiáng)、圖像復(fù)原和深度學(xué)習(xí)。
2.1.1 直方圖拉伸
水下圖像的直方圖分布相對(duì)集中,大部分像素的灰度值較大,具有較低對(duì)比度和動(dòng)態(tài)范圍[10]。同態(tài)濾波[11]、多色彩直方圖拉伸[12]均通過(guò)直方圖變換實(shí)現(xiàn)水下圖像增強(qiáng)。2010年IQBAL等[13]提出顏色修正和選擇性直方圖拉伸的對(duì)比度優(yōu)化方法,在此方法之上,GHANI和ISA[14]采用瑞利分布函數(shù)對(duì)輸入圖像直方圖進(jìn)行重新分布。單純的直方圖變換方法可以在一定程度上提升水下圖像的質(zhì)量,但當(dāng)拍攝圖像質(zhì)量較差或環(huán)境較復(fù)雜時(shí)會(huì)引入噪聲。
限制對(duì)比度直方圖優(yōu)化算法CLAHE(contrast limited adaptive histogram equalization),可以一定程度上克服引入的噪聲問(wèn)題?;贑LAHE算法的CLAHE-RGB算法是將CLAHE分別應(yīng)用于RGB模型的3個(gè)組件,組合各個(gè)分量獲得全彩色RGB結(jié)果,CLAHE-HSV算法是將CLAHE分別應(yīng)用于色相、飽和度和像素值獲取結(jié)果;HITAM等[15]提出混合限制對(duì)比度自適應(yīng)直方圖算法(Mix-CLAHE)能夠提高水下圖像能見(jiàn)度,增強(qiáng)對(duì)比度并降低噪聲和偽影,并顯著提高水下圖像的視覺(jué)質(zhì)量。
2.1.2 Retinex理論
Retinex理論[16]對(duì)圖像有較好的色彩恢復(fù)和保持效果,在色彩校正和邊緣細(xì)節(jié)銳化等方面有明顯提升,被廣泛應(yīng)用于水下圖像增強(qiáng)算法中。WANG等[17]在Retinex理論基礎(chǔ)上提出估計(jì)非均勻光照條件下圖像光照分量方法,將Retinex理論引入水下圖像增強(qiáng)。隨著Retinex理論研究的不斷深入,F(xiàn)U等[18]在空間域中估計(jì)圖像反射和照射分量并與顏色修正圖像融合,克服了Retinex方法在對(duì)數(shù)變換過(guò)程中運(yùn)算速度慢的缺點(diǎn)。ZHANG等[19]結(jié)合Retinex方法,使用雙邊濾波和三邊濾波方法增強(qiáng)水下圖像的CIELAB色彩空間,相比FU等的方法在復(fù)雜場(chǎng)景下的應(yīng)用更有寬容度。
圖像復(fù)原的思想是根據(jù)水下圖像的正向退化過(guò)程構(gòu)建數(shù)學(xué)模型,并利用該模型反演圖像退化過(guò)程,從而獲得理想狀態(tài)下的復(fù)原圖像。SCHECHNER和KARPEL[20]利用水下散射的偏振效應(yīng)恢復(fù)水下圖像,HAN等[21]根據(jù)圖像的傾斜邊緣對(duì)點(diǎn)擴(kuò)散函數(shù)進(jìn)行估計(jì),最終復(fù)原水下圖像。DREWS等[22]求解了水下圖像成像模型獲得復(fù)原圖像,利用暗通道先驗(yàn)知識(shí)估計(jì)水下圖像的傳輸函數(shù),實(shí)現(xiàn)水下圖像增強(qiáng)。楊愛(ài)萍等[23]結(jié)合水下成像模型,通過(guò)構(gòu)造圖像亮度、對(duì)比度等特征權(quán)重圖并進(jìn)行多尺度融合,有效去除水下圖像的藍(lán)綠色調(diào)。以上方法在單一場(chǎng)景的水下圖像增強(qiáng)效果較好,但在復(fù)雜光照的水下圖像中適用性較差。
由于霧天圖像與水下圖像相似,都呈現(xiàn)對(duì)比度較低、畫(huà)面模糊的現(xiàn)象,因此有研究將霧天增強(qiáng)算法應(yīng)用于水下圖像增強(qiáng)。HE等[24]提出基于暗通道先驗(yàn)的霧天圖像復(fù)原算法,同樣可以用于水下圖像復(fù)原。GALDRAN等[25]將暗通道先驗(yàn)方法與圖像去霧模型結(jié)合,使復(fù)原圖像的對(duì)比度有較大提升。LI等[26]提出了使用白平衡和改進(jìn)的暗通道先驗(yàn)結(jié)合的方法,利用PROVENZI等[27]提出的灰度世界假設(shè)對(duì)圖像紅通道進(jìn)行顏色校正處理,并通過(guò)暗通道先驗(yàn)方法對(duì)水下圖像的藍(lán)綠通道進(jìn)行處理,從而解決圖像過(guò)亮或過(guò)暗問(wèn)題。
2017年深度學(xué)習(xí)方法開(kāi)始被應(yīng)用于水下圖像清晰化領(lǐng)域。PEREZ等[28]使用成對(duì)的水下清晰和退化圖像組成數(shù)據(jù)集,使用深度學(xué)習(xí)訓(xùn)練得到二者映射模型,完成水下圖像增強(qiáng)任務(wù)。LI等[29]同樣采用成對(duì)的清晰圖像和水下實(shí)拍圖像作為數(shù)據(jù)集,訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)單幅影像的實(shí)時(shí)修正。YANG等[30]也采用生成對(duì)抗網(wǎng)絡(luò)構(gòu)造數(shù)據(jù)集,然而不同于LI等[29]的方法,YANG等[30]采用雙重判別器獲取水下圖像的全局語(yǔ)義信息,進(jìn)而可以合成更加逼真的水下圖像。生成對(duì)抗網(wǎng)絡(luò)模型雖然可以明顯提升水下圖像的整體清晰度,但復(fù)原后的圖像仍然存在細(xì)節(jié)模糊和邊緣不清楚的情況。
除生成對(duì)抗網(wǎng)絡(luò)外,也有采用卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)水下圖像增強(qiáng)的研究。DING等[31]采用自適應(yīng)顏色校正方法對(duì)水下圖像進(jìn)行色彩補(bǔ)償,再用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像補(bǔ)償和去模糊處理。區(qū)別于DING等[31]校正圖像色彩的方法,WANG等[32]利用卷積神經(jīng)網(wǎng)絡(luò)模型獲得圖像RGB 3個(gè)通道的衰減系數(shù),進(jìn)而實(shí)現(xiàn)水下圖像去霧和顏色校正。除對(duì)圖像進(jìn)行直接處理的方法外,徐巖和孫美雙[33]使用卷積神經(jīng)網(wǎng)絡(luò)直接在清晰圖像和水下圖像之間建立映射關(guān)系,通過(guò)提取水下圖像特征進(jìn)行圖像復(fù)原。SUN等[34]提出了像素-像素的模型對(duì)水下圖像增強(qiáng),模型采用編碼器-解碼器框架,使用卷積層作為編碼器對(duì)水下圖像去噪,使用反卷積增強(qiáng)圖像細(xì)節(jié)。卷積神經(jīng)網(wǎng)絡(luò)模型在水下圖像去噪方面效果比較明顯。
面對(duì)水下圖像的清晰度低、對(duì)比度低、邊緣模糊等情況,實(shí)現(xiàn)清晰化的方法有很多,但不同方法都有各自效果及優(yōu)缺點(diǎn)。圖像增強(qiáng)方法通過(guò)調(diào)整圖像色彩實(shí)現(xiàn),圖像復(fù)原方法通過(guò)建立水下圖像退化模型實(shí)現(xiàn),深度學(xué)習(xí)方法通過(guò)學(xué)習(xí)模糊水下圖像和清晰圖像間的特征實(shí)現(xiàn)。表1為圖像清晰化方法對(duì)比。
表1 水下清晰化算法對(duì)比Tab.1 Com parison of underwater definition algorithms
水下視頻魚(yú)類跟蹤主要受魚(yú)類運(yùn)動(dòng)狀態(tài)不確定性和觀測(cè)數(shù)據(jù)不確定性影響,導(dǎo)致水下觀測(cè)設(shè)備無(wú)法準(zhǔn)確感知魚(yú)類的運(yùn)動(dòng)規(guī)律,跟蹤目標(biāo)不確定。魚(yú)類跟蹤方法根據(jù)觀測(cè)模型的不同,主要分為生成式方法和判別式方法。
生成式方法通過(guò)分析視頻圖像第一幀中的目標(biāo)特征,從而生成跟蹤模板,并在后續(xù)圖像幀中搜索與模板最相近的目標(biāo),實(shí)現(xiàn)跟蹤任務(wù)?;谙∈杈幋a的跟蹤是生成式方法應(yīng)用最廣泛的方法,其是通過(guò)目標(biāo)模板生成子空間,并在后續(xù)的視頻幀中確定候選區(qū),計(jì)算候選區(qū)與目標(biāo)模板之間的重構(gòu)誤差,重構(gòu)誤差最小的候選區(qū)就作為跟蹤的目標(biāo)。
基于稀疏編碼思想,JIA等[35]對(duì)要跟蹤的目標(biāo)采取分塊操作,并對(duì)跟蹤目標(biāo)進(jìn)行建模,最后用得到的模型完成目標(biāo)跟蹤任務(wù)。此方法跟蹤效率高,但當(dāng)對(duì)水下魚(yú)類跟蹤時(shí),由于魚(yú)類游泳姿態(tài)變化較大,容易出現(xiàn)目標(biāo)丟失的情況。因此,DONG等[36]在圖像多特征融合中加入聯(lián)合稀疏表示,還對(duì)目標(biāo)進(jìn)行多特征表現(xiàn)描述,實(shí)現(xiàn)在魚(yú)類游泳姿態(tài)變化時(shí)對(duì)魚(yú)類目標(biāo)相對(duì)穩(wěn)定的跟蹤。在多目標(biāo)跟蹤方面,HU等[37]為了動(dòng)態(tài)約束相關(guān)模板,將稀疏權(quán)重引入全模板集中,并在部分遮擋情況下加入多特征融合稀疏表示,從而實(shí)現(xiàn)對(duì)多目標(biāo)的跟蹤。生成式方法通常執(zhí)行效率較高,但由于其重點(diǎn)關(guān)注目標(biāo)信息而忽略背景信息,當(dāng)目標(biāo)被部分遮擋或形態(tài)變化較大時(shí),容易出現(xiàn)目標(biāo)丟失或跟蹤不穩(wěn)定的情況。
判別式方法將目標(biāo)跟蹤問(wèn)題轉(zhuǎn)換為分類問(wèn)題,通過(guò)分類器判別目標(biāo)和背景,從而實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤任務(wù)。由于分類器的使用,使判別式方法在跟蹤任務(wù)中的速度更快、精度更高、性能更優(yōu)越,因此在目標(biāo)跟蹤領(lǐng)域應(yīng)用廣泛。
3.2.1 相關(guān)濾波
基于相關(guān)濾波跟蹤的基本思想是通過(guò)預(yù)先設(shè)定的濾波模板,對(duì)下一幀圖像中使用模板進(jìn)行卷積操作計(jì)算響應(yīng)值,響應(yīng)值最大的區(qū)域就是目標(biāo)所處的位置,依次操作完成目標(biāo)跟蹤任務(wù)。
BOLME等[38]提出的MOSS(minimum output sum of squared error filter)算法是較早的基于相關(guān)濾波的跟蹤算法,主要使用圖像的單一灰度特征實(shí)現(xiàn)目標(biāo)跟蹤,處理速度最快可達(dá)669 fps,但跟蹤精度較低。HENRIQUES等[39]提出核相關(guān)濾波算法KCF(kernel correlation filter),先在當(dāng)前幀圖像中訓(xùn)練一個(gè)目標(biāo)檢測(cè)器,再判斷檢測(cè)器檢測(cè)之后圖像幀中預(yù)測(cè)的位置是否包含目標(biāo),進(jìn)而完成對(duì)目標(biāo)的跟蹤,并用新的檢測(cè)結(jié)果訓(xùn)練檢測(cè)器,實(shí)現(xiàn)目標(biāo)檢測(cè)更新。楊東海等[40]提出根據(jù)當(dāng)前和之前圖像幀中的魚(yú)類目標(biāo),訓(xùn)練多核相關(guān)濾波器,并與新輸入的視頻幀進(jìn)行相關(guān)性計(jì)算,根據(jù)響應(yīng)值預(yù)測(cè)跟蹤結(jié)果,響應(yīng)值最大處即為跟蹤的魚(yú)類位置。
區(qū)別于使用單特征作為魚(yú)類目標(biāo)檢測(cè)的方法,YANG和ZHU[41]提出的SAMF(scale adaptive with multiple features)算法使用多特征方法,將方向梯度直方圖特征、聯(lián)合顏色特征和灰度特征進(jìn)行矢量疊加,完成多特征融合,同時(shí)引入尺度池方法,對(duì)候選區(qū)域做尺度運(yùn)算,找到當(dāng)前幀與上一幀中魚(yú)類目標(biāo)的最大響應(yīng)值,從而實(shí)現(xiàn)魚(yú)類視頻跟蹤。在尺度池方法的基礎(chǔ)之上,DANELLJAN等[42]提 出 了DSST(discriminative scale space tracking)算法,相比SAMF算法對(duì)7個(gè)尺度進(jìn)行運(yùn)算,DSST算法提出對(duì)33個(gè)尺度進(jìn)行運(yùn)算,比SAMF算法跟蹤效果更加精細(xì)準(zhǔn)確。
3.2.2 深度學(xué)習(xí)
深度學(xué)習(xí)在目標(biāo)分類方面性能突出,適合作判別式跟蹤方法中的分類器,近年來(lái)有一系列深度學(xué)習(xí)方法應(yīng)用于目標(biāo)跟蹤領(lǐng)域[43-48]。NGUYEN[49]等 提 出 的MDNet(multi-domain network)采用特征提取和多分支檢測(cè)結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),并針對(duì)每個(gè)視頻序列構(gòu)建一個(gè)新的檢測(cè)分支進(jìn)行訓(xùn)練。網(wǎng)絡(luò)分支間共享網(wǎng)絡(luò)特征,從而在進(jìn)行水下魚(yú)類跟蹤時(shí)確定魚(yú)類位置。除多分支結(jié)構(gòu)的網(wǎng)絡(luò)模型外,還有使用SiamRPN[50]和Siam RCNN[51]等孿生網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)跟蹤。
卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別方面效果出色,被廣泛應(yīng)用于判別式跟蹤方法的分類器中。基于KCF算 法,MA等[52]提 出HCF(hierarchical convolutional features)算法,將KCF中提取的特征部分由方向梯度直方圖特征替換為VGG19模型中conv3-4、conv4-4和conv5-4輸出的卷積特征,經(jīng)過(guò)相關(guān)濾波學(xué)習(xí)得到3個(gè)置信圖,通過(guò)加權(quán)融合確定最終魚(yú)類位置,實(shí)現(xiàn)魚(yú)類跟蹤。VALMADRE等[53]提出的CFNet(correlation filter network)算法同樣是在相關(guān)濾波算法中融入圖像卷積特征。CFNet模型將相關(guān)濾波作為卷積神經(jīng)網(wǎng)絡(luò)中的一層,使得相關(guān)濾波算法可以用端到端的方法在卷積神經(jīng)網(wǎng)絡(luò)中訓(xùn)練。CFNet模型運(yùn)算速度快,對(duì)魚(yú)類目標(biāo)跟蹤的實(shí)時(shí)性效果較好。
生成式和判別式方法均可實(shí)現(xiàn)魚(yú)類目標(biāo)跟蹤,生成式方法運(yùn)算速度較快,但受制于生成的模板固定,當(dāng)目標(biāo)形態(tài)變化或被遮擋時(shí),跟蹤精度較低。相比于生成式方法,判別式方法先用分類器檢測(cè)目標(biāo)與背景,再對(duì)目標(biāo)進(jìn)行跟蹤。如此,當(dāng)目標(biāo)形態(tài)變化時(shí)依然能檢測(cè)到目標(biāo),但運(yùn)算效率相對(duì)低下。表2為不同跟蹤算法對(duì)比。
表2 魚(yú)類跟蹤算法對(duì)比Tab.2 Comparison of fish tracking algorithms
計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展為水下魚(yú)類行為分析和生態(tài)系統(tǒng)監(jiān)控提供了新的觀測(cè)途徑。但應(yīng)用計(jì)算機(jī)視覺(jué)技術(shù)時(shí),也存在下面的不足與局限性,有待進(jìn)一步開(kāi)展相關(guān)研究。
1)水下拍攝環(huán)境復(fù)雜,受光照和水文條件影響較大。光線在水中傳播時(shí)能量衰減較快,且在水質(zhì)混濁的區(qū)域光散射現(xiàn)象嚴(yán)重,更好的圖像增強(qiáng)或圖像復(fù)原方法清晰化處理水下圖像,可以提高圖像水下目標(biāo)檢測(cè)和跟蹤精度[54]。
2)在深度學(xué)習(xí)方面仍需繼續(xù)投入研究,提高模型精度,降低模型占用資源,便于嵌入離線設(shè)備中。
3)對(duì)水下視頻監(jiān)控應(yīng)用計(jì)算機(jī)視覺(jué)輔助研究魚(yú)類行為、評(píng)估漁業(yè)資源的方法起步較晚,得出的結(jié)果需與大量實(shí)地調(diào)查結(jié)果進(jìn)行對(duì)比,以檢驗(yàn)方法的實(shí)用性和可行性。