張明華,龍 騰,宋 巍,黃冬梅,2,梅海彬,覃學標
一種水下魚類動態(tài)視覺序列運動目標檢測方法
張明華1,龍 騰1,宋 巍1,黃冬梅1,2,梅海彬1,覃學標1
(1. 上海海洋大學信息學院,上海 201306; 2.上海電力大學,上海 200090)
針對水下視頻質量不高、視頻模糊不清甚至很難辨認的問題,利用計算機視覺技術對水下魚類目標進行快速目標檢測,提出了一種基于背景去除的水下視頻目標檢測方法。設計適合水下環(huán)境的魚類目標檢測框架,使用偏最小二乘(PLS)分類器進行目標檢測。利用水下拍攝的魚類數據集收集輸入的視頻序列,并提取單獨的幀。將幀的RGB格式轉換為HSI格式并進行中值濾波器去噪的預處理,利用GMG背景去除過程,提取了基于局部二值模式(LBP)紋理和灰度系數的重要特征,最后將所提取的特征,利用PLS分類器,實現了分別對白天及夜晚環(huán)境中的水下魚類目標檢測。結果表明,該方法在水下拍攝的魚類視頻數據集目標檢測精度可達96.89%,提高了檢測效率,降低了人工成本。為水下魚類等生物資源的監(jiān)測、保護和可持續(xù)開發(fā)等工程應用提供了一定的參考價值。
偏最小二乘;背景去除;魚類;目標檢測;動態(tài)視覺序列
我國是世界水產養(yǎng)殖大國,水產養(yǎng)殖也是國民經濟收入的一項重要來源,我國在水產養(yǎng)殖方面的科技水平相對于國外許多發(fā)達國家還較為滯后,在水產養(yǎng)殖和海洋捕撈方面,需要對魚類的行為及運動軌跡進行檢測和跟蹤,并對魚類進行目標檢測[1]。傳統的方法是通過人工對視頻進行檢測,該方法存在人力、物力耗費大,效率低下等問題。目前計算機視覺技術在運動視頻目標檢測領域應用廣泛。在水下視頻中引入計算機視覺技術,對水下魚類進行目標檢測,可節(jié)省大量人力、物力,提高水產養(yǎng)殖自動化水平,大大提高經濟效益[2-6]。
當下許多成熟的視覺技術并不適用于水下環(huán)境,是由于水下環(huán)境比陸地環(huán)境更加復雜、多變,拍攝環(huán)境惡劣,光線的散射以及水體對光線的吸收,導致視頻模糊不清,甚至難辨認,使得目標檢測任務變得更加困難。如何對水下魚類視頻進行目標檢測,是目前圖像識別研究的熱點問題之一[7]。
機器學習方法是通過提取魚類特征,再將特征輸入支持向量機(support vector machine,SVM)[8]等分類器進行檢測分類。其中ROVA等[9]提出了一種基于模板匹配的可變形提取技術用于魚類檢測;張志強等[10]提出了一種一般化方法,將魚類圖像中各顏色分量和長短軸之比作為魚類特征;姚潤璐等[11]則從魚類圖像中分割出魚各部位的圖像模塊,并提取關聯度更高的特征,但提取過程非常復雜,需要人工制定魚類各部位的匹配規(guī)則,不適用于分析海量數據;DALAL和TRIGGS[12]提出方向梯度直方圖(histogram of oriented gradients,HOG)特征具有較好的分類特性。上述方法提取到的魚類特征通常只適用于光照充足、清晰度高、背景環(huán)境對比度高的情景,在水下較難產生作用。
由于水下目標檢測任務的特殊性,已有的檢測算法大多依賴圖像的灰度信息。OLMOS和TRUCCO[13]提出了一種基于無約束水下魚類視頻的目標檢測方法,利用圖像灰度以及輪廓信息完成目標檢測,但檢測速度較慢。張銘鈞等[14]提出了一種基于不變矩的水下目標檢測方法,使用最小交叉熵確定閾值,可確保灰度信息的完整,并利用灰度-梯度不變矩實現水下圖像的目標檢測,魯棒性較好、召回率較高,但精度仍未達到預期要求。
文獻[15]和文獻[16]總結了基于深度學習的目標檢測方法和發(fā)展現狀,認為目前主流的深度學習目標檢測方法可以更高效地進行目標檢測。但由于基于神經網絡的深度學習目標檢測方法,不僅需要大量的數據支撐,還需要對數據集進行標記,且在檢測環(huán)境有較大差別時,不具有通用性,反而增大了前期訓練模型的難度。
為此,本文在背景去除方法[17-18]的基礎上,提出了基于偏最小二乘(partial least squares,PLS)分類器的水下視頻魚類目標實時檢測算法,有效地解決了在白天和夜晚不同的水下環(huán)境中,對魚類的精確檢測問題,克服深度學習方法中需要大量數據支撐的弊端,使得水下視頻魚類目標檢測更加精準、高效。本工作的主要目標是檢測水下視頻中的運動魚目標,并使用不同的分類算法對其進行檢測。圖1為白天和夜晚靜態(tài)以及動態(tài)的視頻環(huán)境。
本方法針對水下環(huán)境的視頻數據,提出一種先對數據進行預處理,然后經過GMG (geometric multigid)背景去除[18]以及局部二值模式(local binary pattern,LBP)[19]和灰度值[20]特征提取,最后使用PLS分類器[21]進行目標檢測的方法。
圖1 白天和夜晚靜態(tài)以及動態(tài)的視頻環(huán)境((a)白天靜態(tài)環(huán)境;(b)夜晚靜態(tài)環(huán)境;(c)白天動態(tài)環(huán)境;(d)夜晚動態(tài)環(huán)境)
從數據集中收集所需的輸入視頻序列。先將其轉換成幀,并進行預處理,以提高幀的質量,消除噪聲;然后將增強后的幀應用于背景去除過程;再提取特征向量;通過PLS分類器對不同視頻序列的特征進行目標檢測。該方法的總體示意圖如圖2所示。
從數據集中獲得的輸入視頻序列首先被轉換成幀。然后對每一幀進行預處理,以提高幀的質量。預處理的目的是通過去除噪聲來提高工作的準確性。將從視頻中獲得的每一幀RGB格式轉換成HSI (H:色調(Hue),S:飽和度(Saturation),I:亮度(Intensity))格式[22],并單獨提取亮度(I)部分進行進一步處理。
提取亮度(I)主要是與色調以及飽和度參數相比,因為噪聲會對亮度產生較大的影響。將提取的亮度部分應用到中值濾波器中去除噪聲。
為了提高對比度,中值濾波器的輸出采用對比度有限的自適應直方圖均衡(contrast limited adaptive histogram equalization,CLAHE)算法[23]。
在背景去除中,需要對視頻幀進行前景和背景的圖像分割,前景區(qū)域的提取是通過時間圖像分析和背景去除處理相結合來完成的。利用背景去除方法檢測水下運動魚類目標,目的是將視頻中運動物體的前景區(qū)域從背景區(qū)域中分離出來。通過背景去除方法和時間差分方法,可以克服其他算法時間復雜度較高的缺點。背景去除時使用輸入的視頻序列,并找出當前與背景參考幀像素的差來檢測幀內的運動對象。通常使用第一幀作為參考幀,然后按固定時間更新。而時間差分則是對視頻連續(xù)幀中像素特征的差分。
本文采用GMG背景去除算法,此算法結合了靜態(tài)背景圖像估計和每個像素的貝葉斯分割[24]。時間分析是通過比較2個連續(xù)幀的時間來執(zhí)行的。設v為視頻序列中時間點的像素,=(,)點為該像素的特征向量。由貝葉斯規(guī)則,該像素為背景的后驗概率為
圖2 方法總體示意圖
式中的分母為
則將v分類為背景,否則,分類為前景。其中,為前景值。
在特征提取過程中用一些對分類過程有用的可量化信息來表示一個像素。本文選擇了以下特征向量集。
(1) 使用LBP算法提取基于紋理的特征。
通過文獻研究,利用LBP提取了24個基于紋理的特征。LBP是用于圖像處理和機器學習的強大特征描述符之一。對比其他紋理特征,其計算復雜度非常低。
該算法的關鍵是在獲得的前景區(qū)域中為每個像素放置一個標簽;并通過計算像素的局部鄰域內點和半徑的數量得到;計算中心像素的強度值,并選擇該值作為參考;根據這個參考值,鄰域像素形成二值模式的閾值;最后,通過將每個像素相加,并以2為冪進行加權,計算出LBP標簽,即
其中,I和I分別為鄰域像素和中心像素的灰度值,為以半徑為圓上的樣本數。
從每個LBP模式計算出均值、標準差、中位數、熵、偏度和峰度6個統計特征。分別計算=1,2,3,4時的統計特征,共得到24個。
(2)提取基于前景對象灰度的5個不同特征[20]。
灰度特征為輸入序列的分類提供了更有意義的特征。可從前景對象中提取一組灰度特征。設S,y為像素(,)上運行的坐標集。其可表示為
其中,為色調值;為亮度值;1,2,3,4,5分別為感興趣區(qū)域內所有像素值的灰度值、最小值、標準差、平均值、最大值。
水下視頻由于光照反射、折射和水體流動等原因,以及夜晚視頻光照條件不理想,僅使用背景去除進行目標檢測會有較大的誤差,有時會將動態(tài)的折射光線判定為運動目標,所以需要在數據預處理基礎上進行LBP和灰度值特征提取,以確保檢測出的結果為目標物體。
將提取的LBP和灰度特征組合成特征向量。為了將輸入的視頻序列分為不同的類別,并將其特征向量應用到分類器算法中。本文選擇了將特征向量應用到PLS分類器中進行目標檢測。
該分類器在不同分類之間具有低偏差和高方差。本文采用閾值可調的線性回歸PLS分類器。選擇該分類器的主要原因是其提供了較高的精度,避免了過擬合問題。通常,該分類器可表示為
其中,為具有分類度量的向量;為提取的特征向量;為線性回歸系數;為殘余向量。
將提取的特征向量應用于PLS分類器進行訓練,得到最優(yōu)的線性回歸系數。將此最優(yōu)值應用于測試階段,對輸入的水下魚視頻序列進行目標檢測。
實驗輸入的視頻數據集均來自實際拍攝的上海海洋大學第二教學樓旁水池內水下視頻。數據集為使用水下固定攝像頭分白天和夜晚2個場景拍攝,夜晚拍攝以白燈作為照明。水下視頻共計270 min,大小為11.1 G,共轉換90 000幀,其中,用于實驗的白天和夜晚視頻均為100 min,夜晚和白天混合視頻70 min。從各部分視頻中取80%作為訓練集,20%作為測試集。
該數據集包含不同的視頻序列,在白天、夜晚2個場景由高分辨率攝像機捕獲。通過不同的視頻序列以及白天和夜晚混合的視頻序列來驗證和比較本文方法的性能。
由于在相鄰幾幀圖像中目標運動一般不會發(fā)生太大的變化,因此本文采取每隔5幀進行一次檢測,這樣做既保證了檢測的精確率,同時也加快了目標檢測的總體速度。
本文算法是在Intel(R) Core(TM) i5-8500 CPU @ 3.00 GHz處理器上使用OpenCV+Pycharm+ Python3.6運行的。
定量數據通過計算精度(Accuracy)、查準率(Precision)、查全率(Recall)和平均檢測時間獲得,即
其中,為正確標記為正;為錯誤標記為正;為錯誤標記為負;為正確標記為負;準確率為檢測到的與移動對象相對應的像素的數量;誤報率為檢測到的不符合移動對象的像素數量;漏報率為未檢測到的移動對象像素。另F1=2×TP/(樣例總數+TP-TN)×100%。
表1給出了使用本文方法,在白天、夜晚和混合環(huán)境下,不同視頻序列數據上得到的目標檢測結果,
從實驗結果可以看出,由于夜晚視頻和混合視頻光照條件較差,水下魚類的目標檢測精度略有下降,但總體檢測精度依然保持92%以上,魚類目標的真實值(Ground Truth)為54。
表1 PLS分類器目標檢測結果
本文對未經預處理的數據集同樣利用PLS分類器對輸入序列進行目標檢測,實驗結果見表2。
表2 PLS分類器對未處理序列目標檢測結果
從表2數據可以看出,原始數據集經過數據預處理后,目標檢測結果的精度有很大地提升,尤其是夜晚視頻的目標檢測精度提升了10%。
圖3為使用PLS分類器對最終輸入的白天和夜間視頻的目標檢測實驗效果。
圖3 水下魚視頻目標檢測結果((a)白天視頻目標檢測結果;(b)夜晚視頻目標檢測結果)
為了驗證本文使用的特征提取方法是否效果最佳,在原實驗數據集的預處理基礎上,特征提取采用HOG特征,將提取的特征應用到PLS分類器算法中進行目標檢測,表3為使用HOG特征的PLS分類器進行目標檢測的實驗結果。
從實驗結果可以看出,使用HOG特征應用到PLS分類器與本文方法相比,檢測精度有明顯的下降,這是因為HOG特征主要偏重用于行人檢測,但不適用于水下視頻中運動的目標。
本文還將實驗數據輸入到SVM和概率神經網絡(probabilistic neural network,PNN)[25]2種分類器中進行目標檢測,并與本文使用的PLS分類器在精度、檢測率、錯檢率以及檢測時間等指標上做了對比。表4為SVM和PNN分類器對不同序列的目標檢測實驗結果。
表3 HOG特征PLS分類器目標檢測結果
表4 SVM和PNN分類器目標檢測結果
從表4可以看出,運用本文方法對處理后的數據集進行目標檢測,精度可以達到83%以上。從計算時間上看,PLS分類器比SVM和PNN分類器的用時略有增加。對比3種分類器的目標檢測結果,對于白天視頻的目標檢測效果比較好,夜晚視頻和混合視頻由于光線和水面折射的原因,精度略有下降,但本文使用的PLS分類器的目標檢測精度比SVM和PNN的精度高出10%。
表5為目前主流的深度學習目標檢測算法YOLOv3的目標檢測結果。
表5 YOLOv3目標檢測結果
可以看出,對比YOLOv3算法,本文檢測所需要的時間較少,這是因為本文方法是基于視頻的背景去除,不需要使用深層的網絡結構。
為解決水下低清晰度、低對比度、低質量的圖像中魚類目標快速檢測問題,本文首先對水下視頻數據集進行RGB轉HSI的格式轉換和中值濾波器去噪的數據預處理,然后使用GMG背景去除算法進行背景去除,之后提取出其中的LBP和灰度值特征,輸入到PLS分類器中進行實時目標檢測。利用本文方法,對水下視頻序列中的目標魚類進行檢測,實驗結果表明,對于白天視頻的檢測精度為96.89%,對于夜晚視頻的檢測精度為94.13%,對于混合視頻的檢測精度為92.62%。本文比較了不同分類器的性能,解決了應用背景去除技術所產生的視覺源質量差或低質量而產生的幀內噪聲以及前景物體作為移動物體投影的陰影區(qū)域問題。
本文對比了提取HOG特征,使用了SVM和PNN 2種分類器以及YOLOv3方法進行目標檢測,對比結果表明,在不同方法的檢測精度上,本文使用的PLS分類器精度更高。
后續(xù)將針對夜晚環(huán)境下的水下魚類,基于目前在目標檢測效果較好的深度學習算法,進行針對夜晚水下環(huán)境的改進,尋求在夜晚水下環(huán)境中對魚類更加精準快速的目標檢測方法,提高檢測效率。
[1] ROUT D K, SUBUDHI B N, VEERAKUMAR T, et al. Spatio-contextual Gaussian mixture model for local change detection in underwater video[J]. Expert Systems with Applications, 2018, 97: 117-136.
[2] VASAMSETTI S, SETIA S, MITTAL N, et al. Automatic underwater moving object detection using multi-feature integration framework in complex backgrounds[J]. IET Computer Vision, 2018, 12(6): 770-778.
[3] XIE C H, WANG J Y, ZHANG Z S, et al. Adversarial examples for semantic segmentation and object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 1378-1387.
[4] ZHU X Z, WANG Y J, DAI J F, et al. Flow-guided feature aggregation for video object detection[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 408-417.
[5] RAVANBAKHSH M, SHORTIS M R, SHAFAIT F, et al. Automated fish detection in underwater images using shape-based level sets[J]. Photogrammetric Record, 2015, 30(149): 46-62.
[6] MAHMOOD A, BENNAMOUN M, AN S J, et al. Deep image representations for coral image classification[J]. IEEE Journal of Oceanic Engineering, 2019, 44(1): 121-131.
[7] SALMAN A, SIDDIQUI S A, SHAFAIT F, et al. Automatic fish detection in underwater videos by a deep neural network-based hybrid motion learning system[J]. ICES Journal of Marine Science, 2020, 77(4): 1295-1307.
[8] RAMASUBRAMANIAN B. An efficient integrated approach for the detection of exudates and diabetic maculopathy in colour fundus images[J]. Advanced Computing: An International Journal, 2012, 3(5): 83-91.
[9] ROVA A, MORI G, DILL L M. One fish, two fish, butterfish, trumpeter: recognizing fish in underwater video[EB/OL]. [2020-06-03]. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.144.501.
[10] 張志強, 牛智有, 趙思明. 基于機器視覺技術的淡水魚品種識別[J]. 農業(yè)工程學報, 2011, 27(11): 388-392.ZHAGN Z Q, NIU Z Y, ZHAO S M. Identification of freshwater fish species based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering, 2011, 27(11): 388-392 (in Chinese).
[11] 姚潤璐, 桂詠雯, 黃秋桂. 基于機器視覺的淡水魚品種識別[J].微型機與應用, 2017, 36(24): 37-39.YAO R L, GUI Y W, HUANG Q G. Recognition of freshwater fish species based on machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 36(24): 37-39 (in Chinese).
[12] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05). New York: IEEE Press, 2005: 886-893.
[13] OLMOS A, TRUCCO E. Detecting man-made objects in unconstrained subsea videos[C]//2002 British Machine Vision Conference 2002. Durham: British Machine Vision Association, 2002: 517-526.
[14] 張銘鈞, 尚云超, 楊杰. 基于灰度-梯度不變矩的水下目標識別系統[J]. 哈爾濱工程大學學報, 2009, 30(6): 653-657.ZHANG M Y, SHANG Y C, YANG J. Recognition system for underwater objects based on gray and grads invariant moments[J]. Journal of Harbin Engineering University, 2009, 30(6): 653-657 (in Chinese).
[15] ZHAO Z Q, ZHENG P, XU S T, et al. Object detection with deep learning: a review[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(11): 3212-3232.
[16] LI P X, WANG D, WANG L J, et al. Deep visual tracking: review and experimental comparison[J]. Pattern Recognition, 2018, 76: 323-338.
[17] CHRISTOPHER J BAHR, WILLIAM C HORNE. Subspace-based background subtraction applied to aeroacoustic wind tunnel testing[J]. International Journal of Aeroacoustics. 2017, 16(4-5): 299-325.
[18] GODBEHERE A B, MATSUKAWA A, GOLDBERG K. Visual tracking of human visitors under variable-lighting conditions for a responsive audio art installation[C]//2012 American Control Conference (ACC). New York: IEEE Press, 2012: 4305-4312.
[19] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[20] MARíN D, AQUINO A, GEGUNDEZ-ARIAS M E, et al. A new supervised method for blood vessel segmentation in retinal images by using gray-level and moment invariants-based features[J]. IEEE Transactions on Medical Imaging, 2011, 30(1): 146-158.
[21] AGURTO C, MURRAY V, YU H, et al. A multiscale optimization approach to detect exudates in the macula[EB/OL]. [2020-06-04]. http://www.doc88.com/ p-9744466164469.html.
[22] 楊旭強, 馮勇, 劉洪臣. 一種基于HSI顏色模型的目標提取方法[J]. 光學技術, 2006, 32(2): 290-292.YANG X Q, FENG Y, LIU H C. An object extraction method based on HSI color model[J]. Optical Technique, 2006, 32(2): 290-292 (in Chinese).
[23] REZA A M. Realization of the contrast limited adaptive histogram equalization (CLAHE) for real-time image enhancement[J]. Journal of VLSI Signal Processing Systems for Signal, Image and Video Technology, 2004, 38(1): 35-44.
[24] 汪西莉, 劉芳, 焦李成. 融合上下文信息的多尺度貝葉斯圖像分割[J]. 計算機學報, 2005, 28(3): 386-391.WANG X L, LIU F, JIAO L C. Multiscale bayesian image segmentation fusing context information[J]. Chinese Journal of Computers, 2005, 28(3): 386-391 (in Chinese).
[25] GEORGIOU V L, PAVLIDIS N G, PARSOPOULOS K E, et al. New self-adaptive probabilistic neural networks in bioinformatic and medical tasks[J]. International Journal on Artificial Intelligence Tools, 2006, 15(3): 371-396.
Method for moving object detection of underwater fish using dynamic video sequence
ZHANG Ming-hua1, LONG Teng1, SONG Wei1, HUANG Dong-mei1,2, MEI Hai-bin1, QIN Xue-biao1
(1. College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2. Shanghai University of Electric Power, Shanghai 200090, China)
In order to overcome the problems of underwater videos, such as low quality, blurring and even unrecognizability, using the computer vision technology for fast detection of underwater fish targets, an underwater video object detection method was proposed based on background removal methods. An object detection framework for underwater fish was designed, using the partial least squares (PLS) classifier for object detection. Input video sequences were collected from underwater fish data sets, and individual frames were extracted. After the format conversion of RGB to HSI and median filter denoising pretreatment, using the GMG background removal process, the texture and the characteristic of the gray scale coefficient were extracted based on local binary (LBP) pattern. At last, with the above extracted characteristics, the object detection of underwater fish in the daytime and night was realized using the PLS classifier. The results show that the method can achieve the object detection accuracy of 96.89% using the underwater fish video datasets, which improves the detection efficiency of underwater fish and reduces the labor cost. It can also provide some guidance for the monitoring, protection and sustainable development of underwater fish and other biological resources.
partial least squares; background removal; fish; object detection; dynamic video sequence
TP 183
10.11996/JG.j.2095-302X.2021010052
A
2095-302X(2021)01-0052-07
2020-07-15;
15 July,2020;
2020-08-05
5 August,2020
國家自然科學基金面上項目(61972240);上海市科委能力建設項目(17050501900),大洋漁業(yè)資源可持續(xù)開發(fā)教育部重點實驗室開放基金項目(A1-2006-00-301104)
s:General Program of National Natural Science Foundation of China (61972240);Science and Technology Commission of Shanghai Capacity Building Projects (17050501900); Open Fund Project of Key Laboratory of Ministry of Eeducation for Sustainable Development of Ocean Fishery Resources (A1-2006-00-301104)
張明華(1977–),女,河南鄭州人,副教授,博士。主要研究方向為遙感圖像處理、海洋信息處理。E-mail:mhzhang@shou.edu.cn
ZHANG Ming-hua (1977–), female, associate professor, Ph.D. Her main research interests cover remote sensing image processing, ocean information processing. E-mail:mhzhang@shou.edu.cn
黃冬梅(1964–),女,河南鄭州人,教授,碩士。主要研究方向為海洋遙感處理與分析、海洋大數據管理和智能輔助決策系統。E-mail:dmhuang@shou.edu.cn
HUANG Dong-mei (1964–), female, professor, master. Her main research interests cover ocean remote sensing processing and analysis, ocean big data management, intelligent DSS. E-mail:dmhuang@shou.edu.cn