劉詩(shī)晗 李天劍
摘要:隨著社會(huì)經(jīng)濟(jì)的發(fā)展,科學(xué)技術(shù)發(fā)展迅猛,特別是在計(jì)算機(jī)領(lǐng)域先進(jìn)技術(shù)層出不窮,極大地促進(jìn)了社會(huì)的發(fā)展,便捷了人們的日常生活。深度學(xué)習(xí)是計(jì)算機(jī)學(xué)習(xí)和研究中的一個(gè)新領(lǐng)域,可以通過(guò)對(duì)人類大腦的模仿釋放相關(guān)數(shù)據(jù)。本文探究深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用進(jìn)展研究,希望能夠促進(jìn)計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展。
摘要:深度學(xué)習(xí);計(jì)算機(jī)視覺(jué)領(lǐng)域;應(yīng)用;進(jìn)展
一、前言
在當(dāng)前社會(huì)中,由于社會(huì)發(fā)展的需要,計(jì)算機(jī)視覺(jué)成為社會(huì)生產(chǎn)生活的重要組成部分。所謂計(jì)算機(jī)視覺(jué),就是指通過(guò)攝影機(jī)和計(jì)算機(jī)代替我們?nèi)祟惖难劬?duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量,并能夠?qū)⑺脭?shù)據(jù)進(jìn)行圖形處理,最后把它變成更適合人類觀察的圖像,或者適合儀器檢查的圖像。對(duì)于圖像的處理包括圖像分類、圖像匹配、目標(biāo)檢測(cè)、圖像問(wèn)答、圖像語(yǔ)義分割、行為識(shí)別等。圖像語(yǔ)義分割和圖像問(wèn)答是近年來(lái)計(jì)算機(jī)技術(shù)發(fā)展的重點(diǎn)方向,需要用到深度學(xué)習(xí)的技術(shù)。深度學(xué)習(xí)技術(shù)對(duì)于計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展起到了重要的作用。
二、深度學(xué)習(xí)算法在圖像分類中的應(yīng)用
通過(guò)在深度學(xué)習(xí)中建立卷積神經(jīng)網(wǎng)絡(luò)模型,計(jì)算機(jī)視覺(jué)系統(tǒng)有了大的突破,其中應(yīng)用最廣的是圖像分類和物體檢測(cè)。
圖像分類就是通過(guò)對(duì)圖像進(jìn)行分析,能夠把圖像劃分到某種類別中。圖像分類強(qiáng)調(diào)圖像整體語(yǔ)義的判定。當(dāng)前最常用語(yǔ)評(píng)判此類算法的帶標(biāo)簽數(shù)據(jù)集就是ImageNet和CIFAR-10/100。ImageNet的規(guī)模比較大,種類也比較多,在遷移學(xué)習(xí)的思想運(yùn)用比較多。遷移學(xué)習(xí)的通用場(chǎng)景為:在普通的場(chǎng)景下訓(xùn)練深度模型,通過(guò)將它的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)與小數(shù)據(jù)集進(jìn)行共享的任務(wù)場(chǎng)景,這樣深度模型上的小數(shù)據(jù)任務(wù)就可以進(jìn)行微調(diào)。除此之外,圖像分類領(lǐng)域既是計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)領(lǐng)域,也是最早使用深度學(xué)習(xí)的領(lǐng)域。計(jì)算機(jī)視覺(jué)領(lǐng)域的其他領(lǐng)域也可以在借鑒分類任務(wù)經(jīng)驗(yàn)的基礎(chǔ)上,把模型遷移到其他任務(wù)之上,這也是計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展趨勢(shì)。
三、深度學(xué)習(xí)在物體檢測(cè)中的應(yīng)用
將物體檢測(cè)與圖像分類進(jìn)行對(duì)比會(huì)發(fā)現(xiàn),物體檢測(cè)任務(wù)更加復(fù)雜。物體檢測(cè)就是指在給出的一張圖像中(圖像中包含了多個(gè)不同類別的物體),可以對(duì)每個(gè)物體進(jìn)行識(shí)別和定位??梢哉f(shuō),想要在物體檢測(cè)中獲得好的效果是比較難以實(shí)現(xiàn)的,深度學(xué)習(xí)模型在物體檢測(cè)中也更加復(fù)雜。
當(dāng)前的計(jì)算機(jī)視覺(jué)領(lǐng)域中,物體檢測(cè)模型的建立基礎(chǔ)是卷積神經(jīng)網(wǎng)絡(luò)?;旧纤械奈矬w檢測(cè)中的困難都集中在如何提取候選區(qū)域和如何對(duì)候選區(qū)域進(jìn)行分類這兩個(gè)問(wèn)題上。這也就是物體檢測(cè)問(wèn)題比圖像分類問(wèn)題的難度更高、更加復(fù)雜的原因。同時(shí)物體檢測(cè)問(wèn)題對(duì)于模型的性能要求也比較高。近些年來(lái),隨著科學(xué)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)算法在結(jié)構(gòu)方面也有了較大的突破和技術(shù)創(chuàng)新,促進(jìn)了物體檢測(cè)技術(shù)的發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用范圍不限于圖像分類和物體檢測(cè),在計(jì)算機(jī)視覺(jué)領(lǐng)域的其他方面也有著重要的作用。卷積神經(jīng)網(wǎng)絡(luò)中的“端到端”技術(shù),能夠使用可以更加方便。同時(shí),卷積神經(jīng)網(wǎng)絡(luò)可以在增多神經(jīng)元和加深網(wǎng)絡(luò)層次的情況下將訓(xùn)練網(wǎng)絡(luò)進(jìn)行優(yōu)化,使得卷積神經(jīng)網(wǎng)絡(luò)可以適用于結(jié)構(gòu)抽取型和數(shù)據(jù)稠密型的任務(wù)。
四、深度學(xué)習(xí)在人臉識(shí)別系統(tǒng)中的應(yīng)用
留心觀察周圍的生活我們不難發(fā)現(xiàn),人臉識(shí)別技術(shù)在多個(gè)行業(yè)中都有了應(yīng)用。通過(guò)人臉識(shí)別技術(shù),可以便于企業(yè)的員工考勤、優(yōu)化客戶的使用體驗(yàn)、提高服務(wù)水平等。如在防盜門上安裝人臉識(shí)別技術(shù),便可以防盜。在企業(yè)安裝人臉識(shí)別技術(shù),可以提高員工的工作積極性。
人臉識(shí)別技術(shù)主要分為兩類:人臉特征提取識(shí)別和人臉檢測(cè)定位。人臉檢測(cè)定位要求能夠從所取的圖像中分割出人臉目標(biāo),然后進(jìn)行歸一化處理。人臉特征提取識(shí)別時(shí)要求算法具有不變形。人臉特征提取識(shí)別中的技術(shù)難點(diǎn)在于人臉不是一成不變的,而是具有一定彈性和可變性,建模難度高。人臉檢測(cè)定位中的技術(shù)難點(diǎn)在于人臉目標(biāo)模式的多樣性和背景的復(fù)雜性。未來(lái)人臉檢測(cè)定位的技術(shù)要能夠簡(jiǎn)化復(fù)雜的背景,還要建立高維空間人臉建模。
五、計(jì)算機(jī)視覺(jué)領(lǐng)域的商用和創(chuàng)新應(yīng)用
計(jì)算機(jī)視覺(jué)技術(shù)在商業(yè)中的應(yīng)用越來(lái)越廣泛。主要應(yīng)用范圍為安全監(jiān)控、犯罪體態(tài)識(shí)別、人臉識(shí)別、電子商務(wù)以及戶籍管理等許多方面。計(jì)算機(jī)視覺(jué)技術(shù)對(duì)于社會(huì)的經(jīng)濟(jì)、安全、發(fā)展起到了積極的作用。如通過(guò)犯罪體態(tài)識(shí)別,可以幫助刑警將犯罪嫌疑人盡快捉拿歸案,保障人民群眾的人身和財(cái)產(chǎn)安全。企業(yè)通過(guò)使用人臉識(shí)別技術(shù),可以防止替班、遲到、早退等不良現(xiàn)象出現(xiàn),便于提高企業(yè)生產(chǎn)效率,促進(jìn)企業(yè)發(fā)展。
現(xiàn)在計(jì)算機(jī)視覺(jué)技術(shù)在許多其他領(lǐng)域也有了新的應(yīng)用。在工業(yè)生產(chǎn)中,通過(guò)圖像處理和物體檢測(cè)技術(shù),工業(yè)生產(chǎn)中的某些相關(guān)任務(wù)的準(zhǔn)確率和效率有了提升。在農(nóng)業(yè)生產(chǎn)領(lǐng)域,對(duì)水果進(jìn)行分級(jí)時(shí)往往采用人工分級(jí)。但是在實(shí)際人工分級(jí)時(shí),操作難度比較大。這是因?yàn)楣叨际亲匀划a(chǎn)品,在外觀的有著較大的差異。計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用,可以讓果蔬實(shí)現(xiàn)自動(dòng)分級(jí)。通過(guò)相關(guān)技術(shù)設(shè)置,可以根據(jù)果蔬的大小、顏色、形狀、表面損傷和光滑程度進(jìn)行分級(jí)。
六、深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展
雖然計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)有了較大的發(fā)展和進(jìn)步,但是還有較大的進(jìn)步空間。在計(jì)算機(jī)算法方面,最近的研究報(bào)告指出將計(jì)算機(jī)視覺(jué)系統(tǒng)收集到的時(shí)序信息與CNN抽到的結(jié)構(gòu)信息結(jié)合后能夠取得更好的效果,那么未來(lái)科研人員可以把此作為新的研究方向。另外,計(jì)算機(jī)視覺(jué)領(lǐng)域中的圖像問(wèn)答和圖像摘要在近幾年的科研中有了新的突破,這都是計(jì)算機(jī)視覺(jué)技術(shù)與自然語(yǔ)言處理互相結(jié)合的結(jié)果。未來(lái)幾年,科研人員一定能有更大的研究發(fā)現(xiàn)和研究成果。最后,通過(guò)對(duì)網(wǎng)絡(luò)提取中的特征表示進(jìn)行升級(jí)和改造,計(jì)算機(jī)在人工智能的應(yīng)用范圍會(huì)更廣。
七、結(jié)束語(yǔ)
隨著科研人員的不懈努力,深度學(xué)習(xí)技術(shù)在近些年取得了不俗的發(fā)展和進(jìn)步。文中提到的圖像分析、物體檢測(cè)以及人臉識(shí)別系統(tǒng)在技術(shù)方面已經(jīng)成熟,在社會(huì)生產(chǎn)和生活中的應(yīng)用也已經(jīng)十分廣泛。對(duì)于圖像分割、圖像問(wèn)答、圖像識(shí)別等領(lǐng)域也在不斷地發(fā)展進(jìn)步中。相信在科研人員和全社會(huì)的共同努力下,計(jì)算機(jī)視覺(jué)領(lǐng)域會(huì)有更好的發(fā)展。
參考文獻(xiàn)
[1]張忠寶.關(guān)于人臉識(shí)別技術(shù)在商業(yè)銀行方面的應(yīng)用——基于計(jì)算機(jī)視覺(jué) [J]. 計(jì)算機(jī)光盤軟件與應(yīng)用,2012,15(20):61-62.
[2] 李東. 計(jì)算機(jī)視覺(jué)技術(shù)在工業(yè)領(lǐng)域中的應(yīng)用 [J]. 電子技術(shù)與軟件工程,2017,(16):147.
[3]張瑞宇,劉順淑.計(jì)算機(jī)視覺(jué)技術(shù)在果蔬采后處理中的應(yīng)用[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版)[J],2004,(05)
[4] 陳鴻翔. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割 [D]. 浙江大學(xué),2016.
[5] 周益淇.深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域的應(yīng)用進(jìn)展 [J].電子制作,2018(08).
(作者單位:北京信息科技大學(xué)機(jī)電工程學(xué)院)