韓素月 戴奇林 張律
【摘 要】 近年來,隨著計(jì)算機(jī)技術(shù)的發(fā)展,圖像識(shí)別技術(shù)在各個(gè)領(lǐng)域都有了廣泛的應(yīng)用。同時(shí),圖像識(shí)別技術(shù)也在不斷地優(yōu)化,其在人們的日常生活中發(fā)揮著越來越重要的作用。本文主要綜述了YOLO模型在圖像識(shí)別技術(shù)上的研究現(xiàn)狀。
【關(guān)鍵詞】 圖像識(shí)別 YOLO模型
1 引言
隨著互聯(lián)網(wǎng)技術(shù)的不斷向前發(fā)展,人們可以更加便捷地通過個(gè)人終端接入互聯(lián)網(wǎng),通過移動(dòng)終端帶有的攝像頭,隨時(shí)隨地對(duì)物體進(jìn)行拍照,利用互聯(lián)網(wǎng)進(jìn)行共享。由于圖像本身的特點(diǎn),圖像比傳統(tǒng)文字更加生動(dòng)形象地傳達(dá)了信息,使人們更容易理解,被人們廣泛使用。圖像數(shù)據(jù)的數(shù)據(jù)量十分巨大,不僅包含著對(duì)人們有用的有效信息,還包含著無用的無效信息。作為機(jī)器視覺的一個(gè)重要領(lǐng)域,圖像識(shí)別不斷滿足人們?nèi)找嬖鲩L(zhǎng)的美好生活需要,如何快速和高效地處理圖像信息有力地推動(dòng)了圖像識(shí)別技術(shù)的不斷發(fā)展。近年來,人工智能和機(jī)器學(xué)習(xí)變得越來越熟悉起來,進(jìn)入了普通大眾的視野,極大地促進(jìn)了圖像識(shí)別技術(shù)的發(fā)展。機(jī)器識(shí)別中的機(jī)器視覺是通過模擬人類大腦[1],運(yùn)用機(jī)器來獲取圖像,然后對(duì)圖像進(jìn)行一系列處理,經(jīng)過抽象、傳遞和反復(fù)迭代,最終達(dá)到識(shí)別相關(guān)物體的目的,最終讓機(jī)器能夠像人一樣識(shí)別和處理圖像信息。YOLO算法大幅提高了圖像識(shí)別的識(shí)別速度和識(shí)別準(zhǔn)確率,具有良好的經(jīng)濟(jì)效益,有很高的研究?jī)r(jià)值。
2.國(guó)內(nèi)外研究現(xiàn)狀
圖像識(shí)別技術(shù)發(fā)展至今,一共經(jīng)歷了三個(gè)階段。①文字識(shí)別階段;②圖像處理與識(shí)別階段;③物體識(shí)別階段。目前,圖像識(shí)別領(lǐng)域的重點(diǎn)研究方向是物體識(shí)別中的分類識(shí)別,目前已經(jīng)廣泛應(yīng)用于安防領(lǐng)域、交通領(lǐng)域以及互聯(lián)網(wǎng)領(lǐng)域,物體分類識(shí)別主要以特征學(xué)習(xí)為主。
2016年,Redmon J等[2]提出了YOLO算法。利用YOLO算法對(duì)圖像中的目標(biāo)進(jìn)行特征提取分類識(shí)別,可以實(shí)現(xiàn)圖像特征提取和分類識(shí)別的自動(dòng)化,摒棄了傳統(tǒng)圖像識(shí)別過程中依靠手工標(biāo)注圖像特征的方法,其網(wǎng)絡(luò)結(jié)構(gòu)是在GoogleNet模型之上建立的。YOLO檢測(cè)框架把目標(biāo)檢測(cè)問題當(dāng)成一個(gè)回歸問題,通過劃分網(wǎng)格來進(jìn)行回歸目標(biāo)的位置和類別。YOLO將圖片進(jìn)行7×7的劃分,然后通過卷積神經(jīng)網(wǎng)絡(luò)也產(chǎn)生這樣的7×7的輸出,7×7中的每一個(gè)輸出都去預(yù)測(cè)中心點(diǎn)落在這個(gè)網(wǎng)格上的目標(biāo),預(yù)測(cè)的目標(biāo)參數(shù)包括目標(biāo)的類別和目標(biāo)框的位置。YOLO算法主要通過三步實(shí)現(xiàn),首先,將輸入圖像軟寸歸一化;其次,卷積網(wǎng)絡(luò)特征提取,預(yù)測(cè)邊界框置信度;最后,通過非極大值抑制算法過濾邊界框,得到最優(yōu)結(jié)果。與Faster R-CNN算法相比,采用這種統(tǒng)一模型,實(shí)現(xiàn)了端對(duì)端的訓(xùn)練和預(yù)測(cè),其檢測(cè)速度更快,背景誤判率低,泛化能力和魯棒性較好。但由于每個(gè)單元格僅對(duì)同一組類別進(jìn)行邊界框預(yù)測(cè),這使得YOLO算法的定位準(zhǔn)確率受到影響。由于YOLO劃分網(wǎng)格的方式,使得對(duì)于比較密集的目標(biāo)無法得到足夠的候選網(wǎng)格來對(duì)目標(biāo)進(jìn)行預(yù)測(cè),造成過多的漏檢。YOLO對(duì)于小目標(biāo)也檢測(cè)的不好,主要是網(wǎng)格劃分的比較粗糙,對(duì)于小目標(biāo)的特征無法得到很好的保留。這些原因都造成YOLO檢測(cè)精度偏低。之后,再次提出了YOLOv2,在VOC 2007測(cè)試集上進(jìn)行測(cè)試后,mAP由原來的67.4%提高到了76.8%。v2相對(duì)之前的v1版本,在繼續(xù)保持處理速度的基礎(chǔ)上,在預(yù)測(cè)更準(zhǔn)確尺,速度更快尺,識(shí)別對(duì)象更多這三個(gè)方面做了改進(jìn)尺。
YOLO9000[3]是YOLOv2的一個(gè)延伸,它在YOLOv2的基礎(chǔ)上做了如下改進(jìn),使檢測(cè)精度得到大幅提升:(1)YOLOv2使用了自己設(shè)計(jì)的一個(gè)基礎(chǔ)網(wǎng)絡(luò),該網(wǎng)絡(luò)在設(shè)計(jì)上考慮了卷積的計(jì)算量,使得YOLOv2速度比較快。在YOLO9000中,在基礎(chǔ)網(wǎng)絡(luò)上增加了批量歸一化,來使網(wǎng)絡(luò)收斂的更快。(2)在檢測(cè)時(shí)使用比分類更高分辨率的圖片,在訓(xùn)練檢測(cè)網(wǎng)絡(luò)之前,對(duì)預(yù)訓(xùn)練的分類器在高分辨率的圖片上進(jìn)行一次微調(diào),使網(wǎng)絡(luò)提前適應(yīng)檢測(cè)圖片的分辨率,這也使得分類網(wǎng)絡(luò)的精度得到一定的提升,得到更好的分類器。(3)使用卷積來替代YOLOv2的全連接進(jìn)行回歸目標(biāo)的參數(shù)。(4)在回歸目標(biāo)寬高的時(shí)候,使用多尺度的基準(zhǔn)框來對(duì)進(jìn)行匹配訓(xùn)練,減小檢測(cè)的定位誤差。(5)檢測(cè)不僅需要對(duì)目標(biāo)進(jìn)行分類,還要對(duì)目標(biāo)進(jìn)行定位,分類需要高層的語義特征,而定位要圖片的細(xì)節(jié)信息,在該方法中使用跨層的特征融合得到多尺度的特征,得到的卷積特征可以很好的適用于檢測(cè)。2018年4月,再次提出了YOLOv3算法,與YOLO 9000算法相比,該算法采用殘差網(wǎng)絡(luò)模型Darknet 53進(jìn)行特征提取,并且利用特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)多尺度檢測(cè)。同時(shí),通過分析數(shù)據(jù)集中目標(biāo)的分布情況,修正anchor box,使得anchor box更加符合目標(biāo)尺寸,增強(qiáng)了收斂效果。在Pascal VOC數(shù)據(jù)集上的實(shí)驗(yàn)表明,在不影響檢測(cè)速度的情況下,YOLOv3準(zhǔn)確率提高了1個(gè)百分點(diǎn)左右,且收斂速度變快,這使YOLOv3的目標(biāo)檢測(cè)能力進(jìn)一步提升。
3 結(jié)論
通過YOLO算法系列的改進(jìn)可以看出:通過不斷優(yōu)化算法,可以使YOLO算法的檢測(cè)速度達(dá)到實(shí)時(shí)分析的要求[4],滿足人們對(duì)高效率、高精度目標(biāo)識(shí)別技術(shù)的需要。鑒于圖像識(shí)別技術(shù)的快速發(fā)展,YOLO等目標(biāo)檢測(cè)算法擁有無比廣闊的發(fā)展空間,推動(dòng)圖像識(shí)別技術(shù)不斷向前發(fā)展。由于YOLOv3算法良好的檢測(cè)性能與檢測(cè)精度,其具有比其他版本更廣泛的應(yīng)用意義。
【參考文獻(xiàn)】
[1] 高浩宇. 基于機(jī)器學(xué)習(xí)的圖像識(shí)別研究與應(yīng)用[D]. 華中師范大學(xué),2018.
[2] Redmon J, Divvala S, Girshick R, et al. You Only Look Once:Unified, Real-Time Object Detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, NV, 2016:779-788.
[3] 郭澤方. 圖像物體檢測(cè)深度學(xué)習(xí)算法綜述[J]. 機(jī)械工程與自動(dòng)化,2019(2).
[4] 呂鑠, 蔡烜, 馮瑞. 基于改進(jìn)損失函數(shù)的YOLOv3網(wǎng)絡(luò)[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2019(2).