亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)人系統(tǒng)之“眼”
        ——計(jì)算機(jī)視覺(jué)技術(shù)與應(yīng)用淺析

        2019-12-22 13:06:36單海軍吳陳煒
        無(wú)人系統(tǒng)技術(shù) 2019年2期
        關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)領(lǐng)域計(jì)算機(jī)

        張 丹,單海軍,王 哲,吳陳煒

        (1.之江實(shí)驗(yàn)室,杭州 311121;2.約克大學(xué),多倫多 M3J1P3;3.商湯集團(tuán)有限公司,香港 999077)

        1 引 言

        近年來(lái),人工智能和深度學(xué)習(xí)獲得突破,成為了大眾關(guān)注的焦點(diǎn)。如LeCun Y,Bengio Y,Hinton G等[1]提出的深度卷積網(wǎng)絡(luò)在圖像識(shí)別領(lǐng)域大放異彩就是典型。計(jì)算機(jī)視覺(jué)是人工智能領(lǐng)域最重要的研究方向,因?yàn)橐曈X(jué)也是人體獲得信息最多的感官來(lái)源,Treicher[2]等通過(guò)實(shí)驗(yàn)證實(shí):視覺(jué)信息占人類獲得全部信息的83%。因此,計(jì)算機(jī)視覺(jué)也一直是各大研究機(jī)構(gòu)和企業(yè)爭(zhēng)相研究的熱點(diǎn),也是人工智能領(lǐng)域研究歷史最長(zhǎng)、技術(shù)積累最多的方向。本文嘗試從計(jì)算機(jī)視覺(jué)的兩大研究?jī)?nèi)容——圖像和視頻,來(lái)闡述圖像識(shí)別與理解、視頻識(shí)別與理解的研究歷史和最新技術(shù)進(jìn)展,并對(duì)計(jì)算機(jī)視覺(jué)技術(shù)在公共安防、智慧醫(yī)療、自動(dòng)駕駛等領(lǐng)域的應(yīng)用現(xiàn)狀進(jìn)行介紹。通過(guò)對(duì)技術(shù)及應(yīng)用的歸納和總結(jié),希望能為關(guān)注該領(lǐng)域的專家和學(xué)者提供最新且有價(jià)值的內(nèi)容。

        2 圖像識(shí)別與理解進(jìn)展綜述

        計(jì)算機(jī)視覺(jué)的研究主體之一是圖像,目的是對(duì)圖像進(jìn)行各種各樣的處理與分析。按照對(duì)圖像理解層次的不同,一般可以把計(jì)算機(jī)視覺(jué)分為低級(jí)視覺(jué)和高級(jí)視覺(jué),低級(jí)視覺(jué)包括圖像去噪、拼接、超分辨率等傳統(tǒng)任務(wù)。通常而言,這些任務(wù)不需要計(jì)算機(jī)理解圖像上有什么,而高級(jí)視覺(jué)則明確要求計(jì)算機(jī)理解圖像上有什么,以及解決基于此而引出的新問(wèn)題。本文將重點(diǎn)對(duì)高級(jí)視覺(jué)進(jìn)行介紹。

        人們通常喜歡把計(jì)算機(jī)和人腦進(jìn)行對(duì)比,以更好地理解和探討計(jì)算機(jī)視覺(jué)技術(shù)在做什么。我們也由一個(gè)例子開(kāi)始:對(duì)于一個(gè)牙牙學(xué)語(yǔ)的嬰兒,父母會(huì)拿著一張圖,問(wèn)這是什么,這其實(shí)就是在教嬰兒做最簡(jiǎn)單的圖像分類。等嬰兒大了一些,他可以指著圖上的樹(shù)、房子、小狗,依次說(shuō)出這些是什么,聰明的孩子還可以用手指把房子的輪廓勾勒出來(lái),這就是計(jì)算機(jī)視覺(jué)中的圖像檢測(cè)和圖像分割。隨著大腦發(fā)育,孩子對(duì)圖像理解地更深了,學(xué)會(huì)看圖說(shuō)話了,這也就對(duì)應(yīng)了我們要介紹的圖像描述任務(wù)。

        本節(jié)將以圖像分類、圖像檢測(cè)、圖像分割和圖像描述的順序,由易到難地介紹計(jì)算機(jī)視覺(jué)的幾個(gè)重要方面。

        2.1 圖像分類進(jìn)展綜述

        圖像分類是計(jì)算機(jī)視覺(jué)最基礎(chǔ)的任務(wù)之一,也叫圖像識(shí)別,主要通過(guò)算法識(shí)別圖像中的物體類別,如一匹馬、花朵、小狗等。該領(lǐng)域長(zhǎng)期以來(lái)吸引了大量研究者們的關(guān)注。2012年,由Hinton團(tuán)隊(duì)[3]研發(fā)的基于神經(jīng)網(wǎng)絡(luò)的算法在ImageNet圖像分類挑戰(zhàn)賽上奪得第一,并以15.3%的錯(cuò)誤率大幅領(lǐng)先第二名的26.2%,一舉震驚學(xué)術(shù)界。在此之前,傳統(tǒng)算法大多使用手工設(shè)計(jì)的特征配合當(dāng)時(shí)最好的分類算法支持向量機(jī)來(lái)進(jìn)行分類[4],這類方法最大的問(wèn)題就是當(dāng)分類種類變多后,人一般很難設(shè)計(jì)出相應(yīng)的圖像特征來(lái)表示新的類別,需要相關(guān)領(lǐng)域的專家花費(fèi)以年為單位的時(shí)間反復(fù)試驗(yàn)。而Hinton團(tuán)隊(duì)的巨大成功讓人們看到:神經(jīng)網(wǎng)絡(luò)可以通過(guò)學(xué)習(xí)大量標(biāo)注后的數(shù)據(jù)以及梯度反傳算法,端到端地優(yōu)化整個(gè)圖像識(shí)別任務(wù),從而使得人們不再需要關(guān)注為每個(gè)新的種類設(shè)計(jì)獨(dú)特的特征,而只需要設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)使網(wǎng)絡(luò)更容易被優(yōu)化。

        神經(jīng)網(wǎng)絡(luò)一般由一層層的神經(jīng)元組成,神經(jīng)元之間通過(guò)權(quán)重進(jìn)行關(guān)聯(lián),不同層的神經(jīng)元之間還會(huì)設(shè)置激活函數(shù),使得神經(jīng)網(wǎng)絡(luò)具有非線性的表達(dá)能力。在其后的幾年至今,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法幾乎統(tǒng)治了所有計(jì)算機(jī)視覺(jué)相關(guān)領(lǐng)域。一個(gè)最重要的發(fā)現(xiàn)就是隨著神經(jīng)網(wǎng)絡(luò)的層數(shù)加深,參數(shù)增多,它的表達(dá)能力越強(qiáng),能擬合的數(shù)據(jù)量越大,VGG和Inception網(wǎng)絡(luò)都是其中的典型代表。但是隨著網(wǎng)絡(luò)變深,梯度消失問(wèn)題逐漸明顯,較淺的神經(jīng)層幾乎接收不到深層網(wǎng)絡(luò)傳來(lái)的梯度,導(dǎo)致網(wǎng)絡(luò)無(wú)法收斂到較好的局部最優(yōu)。此后最重要的工作就是2015年何愷明等[5]提出的殘差網(wǎng)絡(luò),該方法通過(guò)恒等映射解決了梯度消失的問(wèn)題,并破記錄的將原來(lái)幾十層的網(wǎng)絡(luò)加深到了幾百層,基于該網(wǎng)絡(luò)的方法在多個(gè)挑戰(zhàn)中都取得了冠軍。2016年圍棋人機(jī)大戰(zhàn)中,以4∶1戰(zhàn)勝世界圍棋冠軍李世石的算法AlphaGo 采用的也是殘差網(wǎng)絡(luò)的結(jié)構(gòu)。雖然現(xiàn)在圖像分類問(wèn)題上的研究已有很多,該領(lǐng)域的研究也相對(duì)比較成熟。但是還面臨較多的細(xì)分問(wèn)題挑戰(zhàn),如同種類物體內(nèi)的識(shí)別,圖像遮擋下的物體識(shí)別與分類,視點(diǎn)變化和尺度變化等,這些問(wèn)題都值得繼續(xù)探索。

        2.2 圖像目標(biāo)檢測(cè)進(jìn)展綜述

        圖像目標(biāo)檢測(cè)的任務(wù)是要求算法用一個(gè)矩形框框出圖上每一個(gè)物體,并對(duì)框里的物體進(jìn)行分類。從任務(wù)難度上看,圖像檢測(cè)比圖像分類增加了一個(gè)定位的功能,即需要找到圖上所有目標(biāo)的位置,然后再對(duì)框進(jìn)行圖像分類的處理。

        經(jīng)典的檢測(cè)算法包括基于梯度直方圖(HOG)特征的算法以及Deformable Part Model (DPM)。HOG 特征算法主要提取圖上的方向梯度直方圖,并通過(guò)支持向量機(jī)來(lái)得到目標(biāo)的模板。然而,對(duì)于一些非剛體、可以形變的目標(biāo)來(lái)說(shuō),要用模板來(lái)窮盡其所有的姿態(tài)幾乎是不可能的。DPM的解決辦法就是對(duì)目標(biāo)的每個(gè)部分單獨(dú)建立子模型,并且建立了子模型與主模型之間的形變約束。比如人的手臂可以擺到頭部附近,但是不可能離開(kāi)身體兩米遠(yuǎn)。這些先驗(yàn)的位置關(guān)系通過(guò)損失函數(shù)的形式定義出來(lái),就可以有效建模目標(biāo)的變形情況。

        深度學(xué)習(xí)興起后,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(RCNN)首次將其應(yīng)用到目標(biāo)檢測(cè)問(wèn)題上,并在檢測(cè)準(zhǔn)確率上大幅超越以往的HOG和DPM算法,成為了新的研究熱點(diǎn)[6]。RCNN首先通過(guò)Selective Search算法為圖像生成上百個(gè)候選框,再將每個(gè)候選框送入神經(jīng)網(wǎng)絡(luò)提取特征,最后用支持向量機(jī)進(jìn)行分類[7]。RCNN在訓(xùn)練和測(cè)試時(shí)都有多個(gè)步驟,只有其中提取特征的部分是由神經(jīng)網(wǎng)絡(luò)完成的,之后的研究重點(diǎn)集中在如何將其余所有步驟都通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)完成,從而可以端到端的優(yōu)化整個(gè)系統(tǒng)的性能。其中,快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster-RCNN)算法提出了Region Proposal network (RPN)來(lái)進(jìn)行候選框的生成,由神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)候選框的位置和大?。?],同時(shí),RPN和RCNN兩部分可以共享底層網(wǎng)絡(luò)并聯(lián)合優(yōu)化。這個(gè)方法大大提高了網(wǎng)絡(luò)效率,而且由網(wǎng)絡(luò)預(yù)測(cè)的候選框質(zhì)量也優(yōu)于Selective Search和Edgebox這類傳統(tǒng)算法。Faster-RCNN推理時(shí)分為兩個(gè)階段,第一階段是RPN生成上萬(wàn)個(gè)候選框,網(wǎng)絡(luò)預(yù)測(cè)框里是否有物體,按框得分篩選出可信度較高的候選框,進(jìn)入第二階段,進(jìn)一步細(xì)分類。為了讓網(wǎng)絡(luò)運(yùn)行更快,研究者又提出了以SSD和YOLO為代表的一階段檢測(cè)器,這些方法的特點(diǎn)是對(duì)所有的候選框直接進(jìn)行分類,跳過(guò)了是否有目標(biāo)的步驟。

        2.3 圖像分割進(jìn)展綜述

        圖像分割是將整個(gè)圖像分成一個(gè)個(gè)像素組,并對(duì)每個(gè)像素進(jìn)行標(biāo)記和分類。它試圖在語(yǔ)義上理解圖像中每個(gè)像素的類別,是行人、道路、建筑物還是其他類別。因此,與圖像分類不同,研究人員需要用模型對(duì)密集的像素進(jìn)行預(yù)測(cè)。較早的算法一般通過(guò)對(duì)每個(gè)像素的局部領(lǐng)域提取紋理、光照等特征,再對(duì)該像素進(jìn)行粗分類,然后基于條件隨機(jī)場(chǎng)對(duì)分割結(jié)果進(jìn)行建模。粗分類的結(jié)果由于是基于每個(gè)像素獨(dú)立預(yù)測(cè)的,一般有比較大的不穩(wěn)定性。條件隨機(jī)場(chǎng)假設(shè)相鄰的像素應(yīng)該具有相同的類別,除非兩個(gè)像素剛好落在圖像梯度較大的位置。通過(guò)優(yōu)化單像素的預(yù)測(cè)結(jié)果和領(lǐng)域約束,條件隨機(jī)場(chǎng)可以優(yōu)化出一個(gè)較平滑的分割結(jié)果。

        由于神經(jīng)網(wǎng)絡(luò)可以通過(guò)數(shù)據(jù)驅(qū)動(dòng),并能自動(dòng)優(yōu)化參數(shù),特征提取和分類兩部分可以在網(wǎng)絡(luò)中統(tǒng)一完成。只需要將以每個(gè)像素為中心選取一個(gè)鄰域作為網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)就可以較好地預(yù)測(cè)出該區(qū)塊中心像素的類別,比如2013年Lecun等[9]提出的方法是提取多尺度的圖像區(qū)塊進(jìn)行學(xué)習(xí),讓網(wǎng)絡(luò)從多個(gè)層級(jí)的信息中學(xué)到更全面的信息;2014年P(guān)inheiro等[10]提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)圖像區(qū)塊進(jìn)行預(yù)測(cè),每次的輸入是圖像塊以及上一輪的預(yù)測(cè)概率圖,網(wǎng)絡(luò)可以基于上一輪的預(yù)測(cè)對(duì)自己進(jìn)行修正。

        但是,這類方法在推理時(shí),需要將相鄰像素的重合部分反復(fù)輸入網(wǎng)絡(luò),非常低效。2015 國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì)上,Darrell 等[11]提出的全卷積神經(jīng)網(wǎng)絡(luò)(FCN)因?yàn)榻鉀Q此問(wèn)題而獲得了最佳論文的榮譽(yù)。FCN的原理就是通過(guò)卷積操作等效替換了原本分割網(wǎng)絡(luò)中的全連接層,并且用反卷積層解決了網(wǎng)絡(luò)特征層降采樣后分辨率下降的問(wèn)題。這樣,F(xiàn)CN的輸入不再是某個(gè)像素為中心的圖像區(qū)塊,而直接是原圖像,輸出則是相同大小的分割結(jié)果圖。此后,幾乎所有的圖像分割方法都采用了FCN或其相似的原理。較有代表性的是Deeplab,將概率統(tǒng)計(jì)模型條件隨機(jī)場(chǎng)通過(guò)神經(jīng)網(wǎng)絡(luò)建模,自動(dòng)學(xué)習(xí)其中的參數(shù)。圖像分割(UNet)在網(wǎng)絡(luò)中添加了跳層連接,增加了多尺度的信息使預(yù)測(cè)的細(xì)節(jié)更完善。

        2.4 圖像描述進(jìn)展綜述

        圖像描述是指給定一張圖像,算法自動(dòng)生成一段描述性文字,即看圖作文。圖像描述是上述幾個(gè)任務(wù)的能力遞進(jìn)與語(yǔ)義理解遞進(jìn),它需要算法不僅要理解圖上有什么物體,而且要理解物體之間的相互關(guān)系,最后要用文字將其描述出來(lái)。因此,主流的圖像描述框架一般分為兩步,先將圖像進(jìn)行編碼,提取語(yǔ)義特征,然后再將特征通過(guò)長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行解碼,逐字輸出描述語(yǔ)句。

        由于圖像上的物體可能有很多,但真正重要的目標(biāo)只有少量,最早的方法在圖像編碼中引入了注意力機(jī)制,即讓網(wǎng)絡(luò)在無(wú)監(jiān)督的情況下自己學(xué)習(xí)哪些空間區(qū)域是比較重要的,這樣會(huì)比直接不加區(qū)分地對(duì)整張圖編碼要更合理,比如SCACNN和Show,Attend and Tell就是其中的代表。但是,由于注意力機(jī)制是靠網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)的,本身的精度無(wú)法保證,并且一般來(lái)說(shuō)圖像描述的主語(yǔ)都是圖上的目標(biāo)物體,因此研究者又引入了目標(biāo)檢測(cè)和屬性分析的模型。通??梢园言趯iT(mén)做目標(biāo)檢測(cè)和屬性分析的數(shù)據(jù)集上訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)引入到系統(tǒng)中,作為一種強(qiáng)有力的圖像編碼方式。這種編碼方式不僅得到了顯式的目標(biāo)類別、屬性等信息,同時(shí)也通過(guò)這些網(wǎng)絡(luò)得到了目標(biāo)的外觀特征,可以進(jìn)一步在解碼中幫助生成語(yǔ)句。

        在訓(xùn)練方式上,一般深度學(xué)習(xí)的算法使用交叉熵?fù)p失來(lái)優(yōu)化網(wǎng)絡(luò),每個(gè)算法預(yù)測(cè)的句子需要和人類描述的句子逐個(gè)單詞地一一對(duì)應(yīng)起來(lái)。但是,由于自然語(yǔ)言具有多義性的特點(diǎn),即同一個(gè)意思可以由多種相同的方式表達(dá),逐詞比較的損失函數(shù)顯然過(guò)于死板。同時(shí),由于生成單詞的過(guò)程是不可微的,無(wú)法通過(guò)反向傳播算法來(lái)直接優(yōu)化,因此很多工作引入了強(qiáng)化學(xué)習(xí)來(lái)解決這些問(wèn)題[12-14]。

        3 視頻識(shí)別與理解進(jìn)展綜述

        視頻是圖像在時(shí)序上的序列組成。相對(duì)圖像而言,視頻有其特點(diǎn):不僅僅只有視覺(jué)畫(huà)面,視頻還包含聲音,具有多模態(tài)信息;另外視頻中包含運(yùn)動(dòng),有物體的運(yùn)動(dòng)信息,它對(duì)于行為類的內(nèi)容有強(qiáng)有力的表現(xiàn)形式,需要理解的層次和維度更深。計(jì)算機(jī)視覺(jué)技術(shù)的迅速發(fā)展和深度學(xué)習(xí)的突破不僅拓寬了圖像領(lǐng)域的應(yīng)用,同時(shí)也給視頻內(nèi)容的識(shí)別與理解帶來(lái)了新的契機(jī)。相對(duì)圖像識(shí)別與理解,視頻信息更豐富,研究也更富挑戰(zhàn)性。目前,視覺(jué)領(lǐng)域研究還比較少,隨著AI能力的進(jìn)一步發(fā)展,以及與5G時(shí)代的深度融合,視頻將成為未來(lái)社會(huì)主要的溝通交流的信息媒介。所以說(shuō)視頻是下一個(gè)風(fēng)口,值得大力投入進(jìn)行研究。

        下文將由淺入深地介紹視頻識(shí)別與理解的幾大領(lǐng)域:視頻目標(biāo)檢測(cè)與識(shí)別、視頻目標(biāo)跟蹤、視頻行為識(shí)別和視頻描述,闡述各分支的研究現(xiàn)狀。

        3.1 視頻目標(biāo)檢測(cè)與識(shí)別進(jìn)展綜述

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的一個(gè)熱門(mén)研究方向,應(yīng)用廣泛,如視頻智能監(jiān)控、機(jī)器人導(dǎo)航、工業(yè)視覺(jué)檢測(cè)等諸多領(lǐng)域。視頻目標(biāo)檢測(cè)是圖像目標(biāo)檢測(cè)的延伸,找出圖像或視頻幀中所有感興趣的物體,并定位出目標(biāo)物體位置和類別。不過(guò)在圖像中,目標(biāo)是靜態(tài)的,目標(biāo)和位置均固定不變;在視頻中,目標(biāo)和位置均隨視頻動(dòng)態(tài)變化,要進(jìn)行目標(biāo)檢測(cè)難度更大。

        計(jì)算機(jī)視覺(jué)對(duì)于目標(biāo)運(yùn)動(dòng)的分析可以大致分為三個(gè)層次:運(yùn)動(dòng)分割與目標(biāo)檢測(cè),目標(biāo)跟蹤,動(dòng)作識(shí)別與行為描述。其中,目標(biāo)檢測(cè)既是計(jì)算機(jī)視覺(jué)領(lǐng)域要解決的基礎(chǔ)任務(wù)之一,同時(shí)也是視頻監(jiān)控技術(shù)的基本任務(wù)。視頻目標(biāo)檢測(cè)本質(zhì)上解決兩個(gè)問(wèn)題:圖像識(shí)別和目標(biāo)定位。

        簡(jiǎn)單來(lái)講,相比單張圖片檢測(cè),視頻檢測(cè)多了時(shí)間上下文的信息。充分利用好時(shí)序上下文關(guān)系,可以解決視頻中連續(xù)幀之間的信息冗余問(wèn)題,減少計(jì)算量,從而提高檢測(cè)速度。同時(shí)關(guān)注如何提高檢測(cè)質(zhì)量,解決視頻中的運(yùn)動(dòng)模糊、視頻失焦等問(wèn)題。

        按照技術(shù)實(shí)現(xiàn)的原理來(lái)看,現(xiàn)在的視頻目標(biāo)檢測(cè)方法主要有以下三類:一是與光流相結(jié)合,如微軟亞洲研究院的Dai的Deep Feature Flow(DFF)算法[15-16],該模型首先將檢測(cè)任務(wù)分為特征提取任務(wù)和檢測(cè)任務(wù)兩部分,通過(guò)算法識(shí)別出關(guān)鍵幀、非關(guān)鍵幀,在關(guān)鍵幀上提取特征得到特征圖,在非關(guān)鍵幀上使用FlowNet估計(jì)光流,通過(guò)關(guān)鍵幀提取的特征做雙線性的形式得到非關(guān)鍵幀的特征圖,在兩種方式得到特征圖后使用檢測(cè)網(wǎng)絡(luò)完成目標(biāo)檢測(cè)。二是與RNN模型結(jié)合,如Xiao等[17]提出了用于視頻對(duì)象檢測(cè)的空間-時(shí)間記憶網(wǎng)絡(luò),其核心是一種新穎的時(shí)空記憶模塊(STMM)作為反復(fù)計(jì)算單元,用于模擬長(zhǎng)期時(shí)間外觀和運(yùn)動(dòng)動(dòng)力學(xué)。STMM的設(shè)計(jì)實(shí)現(xiàn)了預(yù)訓(xùn)練骨干卷積神經(jīng)網(wǎng)絡(luò)(CNN)重量的完全集成,這對(duì)于精確檢測(cè)至關(guān)重要。此外,針對(duì)視頻中的對(duì)象運(yùn)動(dòng),提出了一種新穎的MatchTrans模塊,用于在幀與幀之間對(duì)齊空間-時(shí)間記憶。三是與檢測(cè)相結(jié)合,如Feichtenhofer等[18]提出了一種ConvNet架構(gòu),它能同時(shí)執(zhí)行檢測(cè)和跟蹤??偟膩?lái)說(shuō),視頻目標(biāo)檢測(cè)相關(guān)的研究還不多,該領(lǐng)域處于起步階段。但是不管是從實(shí)用性而言,還是從學(xué)術(shù)研究的角度來(lái)說(shuō),都是很不錯(cuò)的研究課題。

        3.2 視頻目標(biāo)跟蹤進(jìn)展綜述

        目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)中一類非常重要的問(wèn)題,也是視頻中特有的研究問(wèn)題。簡(jiǎn)單來(lái)講,目標(biāo)跟蹤是在動(dòng)態(tài)連續(xù)的視頻序列中,建立所要跟蹤物體的位置關(guān)系,得到目標(biāo)物體完整的運(yùn)動(dòng)軌跡,并判斷其運(yùn)動(dòng)趨勢(shì)。按照跟蹤目標(biāo)數(shù)量的多少,可分為單目標(biāo)跟蹤與多目標(biāo)跟蹤。前者跟蹤視頻畫(huà)面中的單個(gè)目標(biāo),后者則同時(shí)跟蹤視頻畫(huà)面中的多個(gè)目標(biāo),得到這些目標(biāo)的運(yùn)動(dòng)軌跡。

        單目標(biāo)跟蹤一般默認(rèn)為目標(biāo)一直在視頻中,視頻中跟蹤的目標(biāo)也唯一。這類問(wèn)題研究歷史已久,相對(duì)比較成熟。對(duì)于多目標(biāo)跟蹤,一般情況下,對(duì)象位置變化很大,跟蹤目標(biāo)個(gè)數(shù)不固定。相對(duì)單目標(biāo)跟蹤來(lái)說(shuō),多目標(biāo)跟蹤問(wèn)題更加復(fù)雜,通常需要解決以下問(wèn)題:跟蹤目標(biāo)的自動(dòng)初始化和自動(dòng)終止,即如何判斷新目標(biāo)的出現(xiàn),舊目標(biāo)的消失;跟蹤目標(biāo)的運(yùn)動(dòng)預(yù)測(cè)和相似度判別,即準(zhǔn)確的區(qū)分每一個(gè)目標(biāo);跟蹤目標(biāo)之間的交互和遮擋處理;跟丟目標(biāo)再次出現(xiàn)時(shí),如何進(jìn)行再識(shí)別等。

        目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的熱點(diǎn)問(wèn)題之一,過(guò)去幾十年以來(lái),涌現(xiàn)出了一批性能出色的技術(shù)和方法,按照技術(shù)的原理,大致可以分為三大類:一是經(jīng)典跟蹤方法,如 Meanshift、粒子濾波(Particle Filter)和卡爾曼濾波等;二是基于檢測(cè)(Track By Detection)或相關(guān)濾波(Correlation Filter)的方法;三是近幾年來(lái)出現(xiàn)的深度學(xué)習(xí)相關(guān)方法。

        2010年以前,目標(biāo)跟蹤領(lǐng)域大部分采用一些經(jīng)典的跟蹤方法,比如Meanshift、粒子濾波和卡爾曼濾波,以及基于特征點(diǎn)的光流算法等。Meanshift 的本質(zhì)是一種基于概率密度分布的跟蹤方法,其原理是使目標(biāo)的搜索一直沿著概率梯度上升的方向,直到迭代收斂到局部峰值。粒子濾波方法是一種基于粒子分布統(tǒng)計(jì)的方法,首先對(duì)跟蹤目標(biāo)進(jìn)行建模,并定義一種相似度度量方法,以確定粒子與目標(biāo)的匹配程度??柭鼮V波常被用于描述目標(biāo)的運(yùn)動(dòng)模型,它不對(duì)目標(biāo)的特征建模,而是對(duì)目標(biāo)的運(yùn)動(dòng)模型進(jìn)行建模,以估計(jì)目標(biāo)在下一幀的位置。另外,基于特征點(diǎn)的光流跟蹤也屬于經(jīng)典跟蹤方法,它的原理是在目標(biāo)上提取一些特征點(diǎn),然后在下一幀計(jì)算這些特征點(diǎn)的光流匹配點(diǎn),統(tǒng)計(jì)得到目標(biāo)的位置。

        經(jīng)典的跟蹤方法有很多缺陷:如無(wú)法處理和適應(yīng)復(fù)雜的跟蹤變化,另外,算法也不夠魯棒,準(zhǔn)確性也偏低。隨著技術(shù)的發(fā)展,逐漸提出了基于檢測(cè)的跟蹤方法,基本原理是把跟蹤的目標(biāo)作為前景,利用在線學(xué)習(xí)或離線訓(xùn)練的檢測(cè)器來(lái)區(qū)分前景目標(biāo)和背景,從而得到前景目標(biāo)的位置。相比經(jīng)典方法,基于檢測(cè)的跟蹤方法更能適應(yīng)跟蹤過(guò)程中的復(fù)雜變化。隨著技術(shù)的發(fā)展,還出現(xiàn)了相關(guān)濾波的跟蹤算法,如Martins等[19]在2012年提出的CSK方法,作者提出了一種基于循環(huán)矩陣的核跟蹤方法,并解決了密集采樣的問(wèn)題,最后利用傅立葉變換快速實(shí)現(xiàn)了檢測(cè)過(guò)程。其后又衍生出了基于HOG特征的KCF方法、考慮多尺度或顏色特征的方法以及用深度學(xué)習(xí)提取的特征結(jié)合 KCF 的方法等。

        第三大類是深度學(xué)習(xí)相關(guān)的視頻目標(biāo)跟蹤方法。在目標(biāo)跟蹤上,深度學(xué)習(xí)的應(yīng)用方式是把神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征直接應(yīng)用到相關(guān)濾波或Struck的跟蹤框架里面,從而實(shí)現(xiàn)目標(biāo)跟蹤。本質(zhì)上,深度學(xué)習(xí)方法是提取到了更好的特征表達(dá),跟蹤模型有效地利用深度學(xué)習(xí)的特征提升目標(biāo)跟蹤性能。根據(jù)特征的層次不同,基于深度學(xué)習(xí)的多目標(biāo)跟蹤可以分為表觀特征的深度學(xué)習(xí)、基于相似性度量的深度學(xué)習(xí),以及基于高階匹配特征的深度學(xué)習(xí)。另外,基于深度學(xué)習(xí)的跟蹤方法有比較好的特性,是端到端輸出的跟蹤框架,如GOTURN。目前,基于深度學(xué)習(xí)的跟蹤框架還在不斷發(fā)展中,從SiameseFC到CFNet等,這個(gè)領(lǐng)域正在蓬勃發(fā)展。

        總的來(lái)說(shuō),基于深度學(xué)習(xí)的單目標(biāo)跟蹤算法取得了長(zhǎng)足的進(jìn)步。相對(duì)而言,深度學(xué)習(xí)在多目標(biāo)跟蹤領(lǐng)域的應(yīng)用還比較多的局限于匹配度量的學(xué)習(xí)。在多目標(biāo)跟蹤領(lǐng)域中,研究如何采用生成式網(wǎng)絡(luò)模型和深度強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)跟蹤場(chǎng)景的適應(yīng)性,以提升跟蹤算法的性能是未來(lái)的研究趨勢(shì)。

        3.3 視頻行為識(shí)別

        視頻行為識(shí)別,也稱為動(dòng)作識(shí)別,在智能監(jiān)控、人機(jī)交互、視頻序列理解、醫(yī)療健康等眾多領(lǐng)域扮演著很重要的角色。簡(jiǎn)單來(lái)講,是給定一個(gè)視頻,讓計(jì)算機(jī)判斷感興趣的人或物體在進(jìn)行什么行為,比如跑步、打太極、騎自行車等。視頻行為識(shí)別是計(jì)算機(jī)視覺(jué)的一個(gè)基本問(wèn)題,也是計(jì)算機(jī)視覺(jué)中視頻理解的關(guān)鍵基礎(chǔ)技術(shù),只有識(shí)別視頻中的單個(gè)行為,才能整合起來(lái)對(duì)視頻整體有所理解。

        行為識(shí)別是非常有難度的,其處理對(duì)象是視頻,相對(duì)于圖像分類來(lái)說(shuō)多了一個(gè)需要處理的時(shí)序維度。行為識(shí)別還有一個(gè)難點(diǎn)是視頻段長(zhǎng)度不一,而且開(kāi)放環(huán)境下視頻中存在多尺度、多目標(biāo)、攝像機(jī)移動(dòng)等眾多問(wèn)題,實(shí)際問(wèn)題非常復(fù)雜。

        按照技術(shù)的發(fā)展歷程來(lái)看,行為識(shí)別技術(shù)主要分為兩類:一是傳統(tǒng)方法,如iDT (improved Dense Trajectories)方法;二是基于深度學(xué)習(xí)的相關(guān)方法。

        在傳統(tǒng)方法中,iDT算法最為經(jīng)典和有效,其框架主要包含密集采樣特征點(diǎn)、特征軌跡跟蹤和基于軌跡的特征提取三個(gè)部分。通過(guò)網(wǎng)格劃分的方式在多尺度圖像中分別密集采樣特征點(diǎn),特征軌跡跟蹤通過(guò)計(jì)算特征點(diǎn)領(lǐng)域內(nèi)的光流中值來(lái)得到特征點(diǎn)的運(yùn)動(dòng)方向,運(yùn)動(dòng)描述完成基于軌跡的特征提取。

        基于深度學(xué)習(xí)的行為識(shí)別方法是目前行為識(shí)別領(lǐng)域的主流技術(shù)。按照實(shí)現(xiàn)原理的不同,也可以分為幾大類:時(shí)空結(jié)合網(wǎng)絡(luò)、雙流網(wǎng)絡(luò)、深層生成網(wǎng)絡(luò)。

        時(shí)空網(wǎng)絡(luò)(Spatialtemporal Networks)建模本質(zhì)上是三維卷積網(wǎng)絡(luò),受到卷積神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域取得成功的啟發(fā),研究人員把卷積神經(jīng)網(wǎng)絡(luò)用于視頻分類,即在2D卷積網(wǎng)絡(luò)的基礎(chǔ)之上把時(shí)間信息加入卷積運(yùn)算。利用三維核從空間和時(shí)間維度提取特征,從而捕捉編碼在相鄰幀中的時(shí)空信息和運(yùn)動(dòng),最經(jīng)典的方法就是Facebook提出的C3D模型。

        雙流網(wǎng)絡(luò)模型(Two-Stream Networks)[20]主要借鑒人類視覺(jué)皮層織物的原理,視覺(jué)皮層包含兩個(gè)通路:腹流參與物體識(shí)別,背流參與空間位置信息處理以及識(shí)別動(dòng)作。Simonyan和Zisserman設(shè)計(jì)了一類深層神經(jīng)網(wǎng)絡(luò),引入兩個(gè)并行網(wǎng)絡(luò)用于行為識(shí)別,即空間流(Spatial stream)接受原始靜止視頻幀,時(shí)間流網(wǎng)絡(luò)(Temporal stream)接受光流場(chǎng)為輸入,這兩個(gè)流在最后融合進(jìn)行識(shí)別和分類。

        深層生成網(wǎng)絡(luò)(Deep Generative Networks)本質(zhì)是一種無(wú)監(jiān)督技術(shù),因?yàn)閿?shù)據(jù)注釋的成本很高,如果訓(xùn)練不需要標(biāo)簽,模型還能夠很好地捕捉到序列的內(nèi)容和運(yùn)動(dòng),則可以實(shí)現(xiàn)準(zhǔn)確的預(yù)測(cè)。目前主要的模型有Dynencoder[21],它是一種深度自動(dòng)編碼器,用于捕獲視頻動(dòng)態(tài);還有LSTM 自動(dòng)編碼器,它能接受序列為輸入并學(xué)習(xí)相應(yīng)的緊湊表示,用于發(fā)現(xiàn)長(zhǎng)期線索[22]。

        行為識(shí)別現(xiàn)在是一個(gè)正在大力進(jìn)行研究的領(lǐng)域,還有很多問(wèn)題遠(yuǎn)遠(yuǎn)沒(méi)有到解決:從短時(shí)特征的提取到長(zhǎng)時(shí)時(shí)間序列的建模,包括多尺度的檢測(cè)、跟蹤、姿態(tài)估計(jì)以及相關(guān)問(wèn)題。另外,行為分析識(shí)別還和視頻描述有很大的相關(guān)性,是后者的基礎(chǔ),都屬于視頻理解。

        3.4 視頻描述

        在對(duì)視頻的物體識(shí)別分類,目標(biāo)的行為識(shí)別之后,最重要的工作是對(duì)視頻內(nèi)容的理解。圖像描述(Image Captioning)是為一張圖像生成一句描述,視頻描述(Video Captioning)與其類似,是為一個(gè)視頻片段生成一句描述。因?yàn)槎桃曨l包含多幀視頻圖像,所以相比于圖像描述,視頻描述更復(fù)雜更具難度,需要考慮幀與幀之間的關(guān)系(時(shí)序因素)對(duì)生成句子的影響,以及視頻上下文之間的聯(lián)系。

        在視頻描述中,理解視頻時(shí)不僅要理解每一幀中的物體,也要理解物體在多幀之間的運(yùn)動(dòng)。所以,視頻理解往往比圖像理解更為復(fù)雜。主要表現(xiàn)為如下幾點(diǎn):一、視頻既可以被視為幀流,亦可以視為T(mén)rimmed Video Clip;當(dāng)其被視為幀流的時(shí)候,首先將視頻幀作為圖片,最后對(duì)其進(jìn)行池化操作;對(duì)于Trimmed Video Clip的情況,可以使用時(shí)域頻域模型來(lái)學(xué)習(xí)視頻中的一些行為。二、視頻中的多模態(tài)信息,如音頻和字符,都可以作為視頻描述的輸入特征。三、在視頻描述中可以使用不同的池化方式,如基于時(shí)間軸的均值池化和最大值池化,還可以使用注意力機(jī)制,比如Hard-Attention和Soft-Attention,或者使用編解碼的方法對(duì)其進(jìn)行處理。

        S2VT 模型(Sequence to Sequence-Video to Text)是視頻描述領(lǐng)域最早的研究之一,它使用了編碼器解碼器結(jié)構(gòu)[23]。編碼器的主要作用是將有用的視頻信息使用深度神經(jīng)網(wǎng)絡(luò)(CNN,RNN)轉(zhuǎn)化成特征給解碼器使用。

        SA 模型和S2VT 模型一樣是比較經(jīng)典的視頻描述任務(wù)模型,兩者的創(chuàng)新性各有偏重:S2VT將seq2seq模型引入了視頻描述任務(wù),SA模型則是將注意力機(jī)制引入了視頻描述任務(wù)。注意力機(jī)制本質(zhì)上是在視頻中有權(quán)重地選擇特征,即視頻提取多幀的圖像特征后,在生成描述的時(shí)候,會(huì)給每個(gè)圖像特征一個(gè)權(quán)重系數(shù),決定這個(gè)權(quán)重系數(shù)的是模型解碼階段每個(gè)RNN(LSTM)隱藏單元,所有權(quán)重系數(shù)的和為1。

        總結(jié)來(lái)講,在視頻描述領(lǐng)域,目前主要有兩大類方法:一類是基于CNN-LSTM框架,另一類是基于編解碼框架。

        4 計(jì)算機(jī)視覺(jué)的應(yīng)用概況

        4.1 在智慧醫(yī)療領(lǐng)域的應(yīng)用

        隨著近幾年來(lái)計(jì)算機(jī)視覺(jué)技術(shù)的進(jìn)步,智慧醫(yī)療領(lǐng)域受到了學(xué)術(shù)界和產(chǎn)業(yè)界的持續(xù)關(guān)注,其應(yīng)用也越來(lái)越廣泛和深入。Topol等[24]指出,面向智慧醫(yī)療,人工智能技術(shù)從三個(gè)層面將產(chǎn)生深刻的影響:第一層面對(duì)于臨床醫(yī)生,計(jì)算機(jī)視覺(jué)技術(shù)能幫助其更快速、更準(zhǔn)確地進(jìn)行圖像分析工作;第二層面對(duì)于衛(wèi)生系統(tǒng),其能通過(guò)人工智能的方式改善工作流程、減少醫(yī)療差錯(cuò);第三層面對(duì)于患者,通過(guò)增強(qiáng)的云存儲(chǔ)能力,他們可以處理自己的數(shù)據(jù),以促進(jìn)自我健康。

        深度學(xué)習(xí)在醫(yī)學(xué)圖像等領(lǐng)域的應(yīng)用有大量的研究成果被報(bào)道。如圖像配準(zhǔn)技術(shù),是在醫(yī)學(xué)圖像分析領(lǐng)域進(jìn)行量化多參數(shù)分析與視覺(jué)評(píng)估領(lǐng)域的關(guān)鍵技術(shù)[25]。Monti[26]等比較并且評(píng)估了PET與MR 兩種圖像模式下的配準(zhǔn)方式,通過(guò)實(shí)驗(yàn)論證了PET 與MR 混合的配準(zhǔn)方式能在頭頸部這類復(fù)雜的解剖區(qū)域提供更高的配準(zhǔn)精度。Esener等[27]則針對(duì)乳腺癌的診斷,采用多階段分類的方式研究了一種特征集合技術(shù),獲得了相對(duì)于單階段分類更高的分類準(zhǔn)確率。Gargiulo 等[28]將CT和MRI圖像與DTI跟蹤成像結(jié)合起來(lái),使用圖像分割協(xié)議對(duì)顱骨基底、腫瘤和關(guān)鍵纖維束進(jìn)行三維建模,為神經(jīng)外科手術(shù)提供了先進(jìn)的治療方式。

        Gurovich等[29]通過(guò)訓(xùn)練能代表200 多種綜合癥的17000 多張罕見(jiàn)病患者的面部圖像,得到了DeepGestlt 算法模型,該模型能夠提高識(shí)別罕見(jiàn)遺傳綜合征的準(zhǔn)確率,在實(shí)驗(yàn)的502 張不同的圖像中,其正確識(shí)別綜合征的準(zhǔn)確率達(dá)到了91%。Friedman等人訓(xùn)練了基于卷積神經(jīng)網(wǎng)絡(luò)的人工智能來(lái)識(shí)別心室功能障礙患者,當(dāng)在52870名患者上測(cè)試該神經(jīng)網(wǎng)絡(luò),靈敏度、特異性和準(zhǔn)確度的值分別為86.3%、85.7%和85.7%。而且在沒(méi)有心室功能障礙的患者中,人工智能篩查陽(yáng)性的患者未來(lái)發(fā)生心室功能障礙的風(fēng)險(xiǎn)是陰性的4倍。

        4.2 在公共安全領(lǐng)域的應(yīng)用

        公共安防領(lǐng)域是計(jì)算機(jī)視覺(jué)技術(shù)的重要應(yīng)用場(chǎng)景,尤其是人臉識(shí)別技術(shù),作為構(gòu)建立體化、現(xiàn)代化社會(huì)治安防控體系的重要抓手和技術(shù)突破點(diǎn),在當(dāng)前的圖偵實(shí)戰(zhàn)中具有重要應(yīng)用價(jià)值[30]。近十年來(lái),街道攝像頭等視覺(jué)傳感器的普及為智能安防的應(yīng)用提供了硬件基礎(chǔ)與數(shù)據(jù)基礎(chǔ),為深度學(xué)習(xí)算法模型提供了大量的訓(xùn)練數(shù)據(jù),從而大幅提升了人臉識(shí)別的技術(shù)水平[31-33]。

        國(guó)內(nèi)多家人臉識(shí)別產(chǎn)品已經(jīng)被公安部門(mén)用于安防領(lǐng)域。完整的人臉識(shí)別系統(tǒng)包括人臉檢測(cè)、人臉配準(zhǔn)、人臉匹配、人臉屬性分析等模塊[34],其主要應(yīng)用包括靜態(tài)人臉識(shí)別、動(dòng)態(tài)人臉識(shí)別、視頻結(jié)構(gòu)化等。如1:1比對(duì)的身份認(rèn)證,相當(dāng)于靜態(tài)環(huán)境下的人臉驗(yàn)證任務(wù),用于比對(duì)輸入圖像與指定圖像之間的匹配,已經(jīng)成熟應(yīng)用于人臉解鎖、身份驗(yàn)證等場(chǎng)景,在2008年北京奧運(yùn)會(huì)期間作為國(guó)家級(jí)項(xiàng)目投入使用,在奧運(yùn)會(huì)歷史上第一次使用該項(xiàng)技術(shù)保障了開(kāi)閉幕式安檢的安全通暢[35]。

        動(dòng)態(tài)人臉識(shí)別技術(shù)則通過(guò)攝像頭等視覺(jué)傳感設(shè)備在視頻流中獲得動(dòng)態(tài)的多個(gè)人臉圖像,從數(shù)據(jù)庫(kù)中的大量圖像中找到相似度最高的人臉圖像,用于人群密集場(chǎng)所當(dāng)中的布控,協(xié)助安全部門(mén)進(jìn)行可疑人口排查、逃犯抓捕等情報(bào)研判任務(wù)。視頻結(jié)構(gòu)化則是面向人、車、物等對(duì)象,從視頻流中抽象出對(duì)象的屬性,如人員的體貌特征、車輛的外形特征等。這些技術(shù)能夠預(yù)警打架斗毆、高危車輛等社會(huì)治安問(wèn)題的發(fā)生,為公安工作提供了一大利器,成為打擊違法犯罪活動(dòng)、建設(shè)平安城市的重要技術(shù)[36]。

        4.3 在無(wú)人機(jī)與自動(dòng)駕駛領(lǐng)域的應(yīng)用

        無(wú)人機(jī)與自動(dòng)駕駛行業(yè)的興起,讓計(jì)算機(jī)視覺(jué)在這些領(lǐng)域的應(yīng)用也成為了近年來(lái)的研究熱點(diǎn)。以無(wú)人機(jī)為例,簡(jiǎn)單至航拍,復(fù)雜至救援救災(zāi)和空中加油等應(yīng)用,都需要高精度的視覺(jué)信號(hào)以保障決策與行動(dòng)的可靠性[37]。無(wú)人機(jī)的核心導(dǎo)航系統(tǒng)中,很重要的一個(gè)子系統(tǒng)就是視覺(jué)系統(tǒng),通過(guò)單攝像頭、雙攝像頭、三攝像頭甚至全方向的攝像頭布置,視覺(jué)系統(tǒng)能克服傳統(tǒng)方法的限制與缺點(diǎn),結(jié)合SLAM、VO等技術(shù),應(yīng)用近幾年熱門(mén)的深度學(xué)習(xí)算法,能夠提升位姿估計(jì)、高度探測(cè)、地標(biāo)跟蹤、邊緣檢測(cè)、視覺(jué)測(cè)距、障礙檢測(cè)與規(guī)避、定位與導(dǎo)航等任務(wù)的進(jìn)度。從外界獲取的信號(hào)與無(wú)人機(jī)飛控系統(tǒng)的視覺(jué)伺服系統(tǒng)形成閉環(huán)能提升飛行器的穩(wěn)定性[38]。目前,商用的無(wú)人機(jī)已被廣泛地應(yīng)用于活動(dòng)拍攝、編隊(duì)表演、交通檢測(cè)乃至載人飛行等領(lǐng)域。

        計(jì)算機(jī)視覺(jué)軟硬件技術(shù)的齊頭并進(jìn)加速了自動(dòng)駕駛汽車技術(shù)的發(fā)展,特別是在攝像頭普及,激光雷達(dá)、毫米波雷達(dá)、360o大視場(chǎng)光學(xué)成像、多光譜成像等視覺(jué)傳感器配套跟進(jìn)條件下,在卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)算法等的配合下,基于計(jì)算機(jī)視覺(jué)系統(tǒng)的目標(biāo)識(shí)別系統(tǒng)利用計(jì)算機(jī)視覺(jué)觀測(cè)交通環(huán)境,從實(shí)時(shí)視頻信號(hào)中自動(dòng)識(shí)別出目標(biāo),為自動(dòng)駕駛,如起步、加速、制動(dòng)、車道線跟蹤、換道、避撞、停車等操作提供判別依據(jù)[39]。自動(dòng)駕駛的車輛可以完成道路及道路邊沿識(shí)別、車道線檢測(cè)、車輛識(shí)別、車輛類型識(shí)別、非機(jī)動(dòng)車識(shí)別、行人識(shí)別、交通標(biāo)志識(shí)別、障礙物識(shí)別與避讓等任務(wù)。目前國(guó)內(nèi)外一些企業(yè)在自動(dòng)駕駛領(lǐng)域都取得了不錯(cuò)的成績(jī)。

        4.4 在其他社會(huì)領(lǐng)域的應(yīng)用

        計(jì)算機(jī)視覺(jué)應(yīng)用非常廣泛,除了上文提到的三個(gè)重要的領(lǐng)域之外,在三大產(chǎn)業(yè)(工業(yè)、農(nóng)業(yè)、服務(wù)業(yè))都有著大量的應(yīng)用實(shí)踐,為人類生活提供了越來(lái)越多的便利。如在工業(yè)領(lǐng)域,計(jì)算機(jī)視覺(jué)是工業(yè)機(jī)器人領(lǐng)域的關(guān)鍵技術(shù),配合機(jī)械裝置能夠?qū)崿F(xiàn)產(chǎn)品外觀檢測(cè)、缺陷檢測(cè)、質(zhì)量檢測(cè)、產(chǎn)品分類、部件裝配等功能。ABB公司研發(fā)的IRB360工業(yè)機(jī)器人借助FlexPiker視覺(jué)系統(tǒng)實(shí)現(xiàn)了跟蹤傳送帶物品并且完成分揀,大大提升了工作效率。在工業(yè)互聯(lián)網(wǎng)大力推進(jìn)的大背景下,計(jì)算機(jī)視覺(jué)的應(yīng)用將越來(lái)越普及,在智能化、無(wú)人化的工業(yè)上發(fā)揮出更大的作用。

        在農(nóng)業(yè)領(lǐng)域,計(jì)算機(jī)視覺(jué)的應(yīng)用成果涉及農(nóng)產(chǎn)品品質(zhì)檢測(cè)、作物識(shí)別與分級(jí)、農(nóng)副產(chǎn)品出廠質(zhì)量監(jiān)測(cè)、植物生長(zhǎng)監(jiān)測(cè)、病蟲(chóng)害的探測(cè)與防治、自動(dòng)化收獲等領(lǐng)域,為精細(xì)農(nóng)業(yè)和農(nóng)業(yè)生產(chǎn)自動(dòng)化奠定了基礎(chǔ)。騰訊報(bào)道了其在2018年利用攝像頭等傳感器收集溫室氣溫等環(huán)境數(shù)據(jù),再通過(guò)深度學(xué)習(xí)模型計(jì)算、判斷與決策,遠(yuǎn)程控制黃瓜的生產(chǎn),減少了人力資源的投入。

        在第三產(chǎn)業(yè),“智慧城市”概念帶動(dòng)了諸如智慧交通、智慧教育、智慧社區(qū)、智慧零售、智慧政務(wù)等基于計(jì)算機(jī)視覺(jué)技術(shù)的應(yīng)用場(chǎng)景。在泛娛樂(lè)行業(yè),應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的AlphaGo在2016年擊敗了圍棋世界冠軍李世石九段,成為了人工智能發(fā)展歷史上的一個(gè)里程碑事件。而不久后,其研發(fā)團(tuán)隊(duì)推出了更為先進(jìn)的AlphaGoZero系統(tǒng),采用新的強(qiáng)化學(xué)習(xí)算法,獲得了超人的性能,同時(shí)打敗圍棋、將棋、西洋棋的世界頂尖人類選手。這也預(yù)示以計(jì)算機(jī)視覺(jué)為代表的人工智能技術(shù)未來(lái)將深刻改變?nèi)祟惖纳罘绞侥酥辽鐣?huì)形態(tài)。

        5 結(jié)束語(yǔ)

        近年來(lái),互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)帶來(lái)了海量的數(shù)據(jù)積累,以圖形處理單元為代表的計(jì)算力顯著提升,深度學(xué)習(xí)這一關(guān)鍵技術(shù)蓬勃發(fā)展,計(jì)算機(jī)視覺(jué)技術(shù)在多個(gè)領(lǐng)域突破了實(shí)用的技術(shù)紅線,并且開(kāi)始在越來(lái)越多公眾熟知的領(lǐng)域起到至關(guān)重要的作用。本文主要從圖像和視頻的識(shí)別與理解兩個(gè)角度總結(jié)了計(jì)算機(jī)視覺(jué)領(lǐng)域的最新研究成果,并解釋了這些技術(shù)背后的原理。最后,介紹了計(jì)算機(jī)視覺(jué)在智慧醫(yī)療、公共安全和自動(dòng)駕駛等領(lǐng)域的應(yīng)用。可以預(yù)見(jiàn)未來(lái)以計(jì)算機(jī)視覺(jué)為代表的人工智能技術(shù)將深刻改變?nèi)祟惖纳罘绞侥酥辽鐣?huì)形態(tài)。

        猜你喜歡
        神經(jīng)網(wǎng)絡(luò)領(lǐng)域計(jì)算機(jī)
        計(jì)算機(jī)操作系統(tǒng)
        基于計(jì)算機(jī)自然語(yǔ)言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介
        科技傳播(2019年22期)2020-01-14 03:06:34
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        領(lǐng)域·對(duì)峙
        青年生活(2019年23期)2019-09-10 12:55:43
        信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
        基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
        Fresnel衍射的計(jì)算機(jī)模擬演示
        亚洲国产av一区二区三| 国产精品久久人妻无码| 亚洲精品综合一区二区| 国产精品美女久久久久久大全| 亚洲色图视频在线观看,| 精品高清免费国产在线| 内射人妻视频国内| 一本色综合亚洲精品蜜桃冫| 蜜臀aⅴ永久无码一区二区| 白白色免费视频一区二区在线| 亚洲精品久久激情国产片| 337人体做爰大胆视频| 亚洲免费一区二区三区视频| 久久精品伊人久久精品| 国产成人精品免费久久久久| 999久久久无码国产精品| 视频一区精品自拍| 亚洲国产大胸一区二区三区| 中文字幕亚洲精品一区二区三区| 777午夜精品免费观看| 久久久久亚洲AV无码专| 蜜桃av一区二区三区久久| 欧美疯狂性受xxxxx喷水| 中国丰满熟妇xxxx| 99re国产电影精品| 天堂丝袜美腿在线观看| 国产午夜成人av在线播放| 男人天堂网在线视频| 亚洲黄色一插一抽动态图在线看 | 国产成人AⅤ| 亚洲av无一区二区三区| 天堂无码人妻精品av一区| 91白浆在线视频| 中文字幕人妻av四季| 曰韩无码无遮挡a级毛片| 欧美精品一区二区性色a+v| 亚洲乱码中文字幕综合69堂| 亚洲av熟女少妇久久| 无码国产午夜福利片在线观看 | 欲妇荡岳丰满少妇岳| 国产三级国产精品三级在专区 |