亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視覺(jué)圖靈:從人機(jī)對(duì)抗看計(jì)算機(jī)視覺(jué)下一步發(fā)展

        2021-07-06 11:56:00黃凱奇李喬哲胡世宇
        圖學(xué)學(xué)報(bào) 2021年3期
        關(guān)鍵詞:計(jì)算機(jī)人類(lèi)

        黃凱奇,趙 鑫,李喬哲,胡世宇

        視覺(jué)圖靈:從人機(jī)對(duì)抗看計(jì)算機(jī)視覺(jué)下一步發(fā)展

        黃凱奇1,2,趙 鑫1,李喬哲1,胡世宇1

        (1. 中國(guó)科學(xué)院自動(dòng)化研究所智能系統(tǒng)與工程研究中心,北京 100190;2.中國(guó)科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心,上海 200031)

        計(jì)算機(jī)視覺(jué)一直是人工智能研究的熱點(diǎn)方向,經(jīng)過(guò)近60年的發(fā)展,已經(jīng)在算法、技術(shù)和應(yīng)用等方面取得了巨大的進(jìn)步。近十年來(lái),以大數(shù)據(jù)、大算力為基礎(chǔ)的深度學(xué)習(xí)進(jìn)一步推動(dòng)計(jì)算機(jī)視覺(jué)走向大模型時(shí)代,但其算法適應(yīng)能力仍然和人類(lèi)存在較大差距。本文從視覺(jué)任務(wù)評(píng)估評(píng)測(cè)(評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、評(píng)估方式)出發(fā),對(duì)計(jì)算機(jī)視覺(jué)的發(fā)展進(jìn)行了總結(jié),對(duì)現(xiàn)存的依賴(lài)大數(shù)據(jù)學(xué)習(xí)的計(jì)算機(jī)視覺(jué)發(fā)展問(wèn)題進(jìn)行了梳理和分析,從人機(jī)對(duì)抗智能評(píng)測(cè)提出了計(jì)算機(jī)視覺(jué)下一步發(fā)展方向:視覺(jué)圖靈。最后對(duì)視覺(jué)圖靈發(fā)展方向進(jìn)行了思考和討論,探討了未來(lái)研究可能的方向。

        計(jì)算機(jī)視覺(jué);視覺(jué)圖靈;評(píng)估評(píng)測(cè);圖靈測(cè)試;數(shù)據(jù)集

        1 緒 論

        計(jì)算機(jī)視覺(jué)旨在通過(guò)對(duì)人類(lèi)視覺(jué)系統(tǒng)進(jìn)行建模,讓機(jī)器具備感知視覺(jué)信息的能力。作為人工智能技術(shù)的研究熱點(diǎn),計(jì)算機(jī)視覺(jué)技術(shù)經(jīng)過(guò)近60年的發(fā)展,已經(jīng)在理論方法、關(guān)鍵技術(shù)和實(shí)際應(yīng)用等方面取得巨大進(jìn)步[1-2],并廣泛應(yīng)用于智慧城市、自動(dòng)駕駛、智能醫(yī)療等領(lǐng)域。作為引領(lǐng)計(jì)算機(jī)視覺(jué)發(fā)展的風(fēng)向標(biāo)和催化劑,評(píng)估評(píng)測(cè)所采用的數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、評(píng)估方式的演變給整個(gè)計(jì)算機(jī)視覺(jué)研究的發(fā)展帶來(lái)了多次大的變革。其中,隨著大規(guī)模圖像數(shù)據(jù)集ImageNet[3]發(fā)布,以大數(shù)據(jù)、大算力為基礎(chǔ)的深度學(xué)習(xí)方法在人臉識(shí)別、物體檢測(cè)、圖像分割、目標(biāo)跟蹤等領(lǐng)域大幅度超越了傳統(tǒng)方法的性能,引領(lǐng)計(jì)算機(jī)視覺(jué)發(fā)展到了依賴(lài)大規(guī)模計(jì)算方法的時(shí)代。

        以無(wú)人駕駛為例,深度模型需要通過(guò)對(duì)周?chē)h(huán)境的感知,完成對(duì)車(chē)輛運(yùn)動(dòng)的決策。以特斯拉為代表的科技公司已將具備自主泊車(chē)、自主變道、主動(dòng)避障等功能的車(chē)輛進(jìn)行量產(chǎn),并完成在城市街道上的自動(dòng)駕駛(autosteer on city streets)系統(tǒng)測(cè)試。該系統(tǒng)以30億英里駕駛數(shù)據(jù)為基礎(chǔ)完成算法的搭建[4],然而當(dāng)面對(duì)惡劣天氣、復(fù)雜車(chē)流、障礙物干擾時(shí),依賴(lài)于視覺(jué)傳感器的自動(dòng)駕駛系統(tǒng)仍然無(wú)法實(shí)現(xiàn)精準(zhǔn)的感知和決策。2020年6月,特斯拉Model 3因未正確識(shí)別橫向側(cè)翻的白色大貨車(chē),在高速公路上以110公里的時(shí)速與貨車(chē)發(fā)生碰撞。這與人類(lèi)在復(fù)雜場(chǎng)景甚至在對(duì)抗環(huán)境下的感知能力存在巨大的鴻溝。這類(lèi)問(wèn)題讓人們對(duì)當(dāng)前依賴(lài)大數(shù)據(jù)、大算力的計(jì)算機(jī)視覺(jué)發(fā)展模式產(chǎn)生思考和質(zhì)疑,是什么原因?qū)е逻@些方法在實(shí)驗(yàn)室環(huán)境下性能優(yōu)異,但對(duì)真實(shí)應(yīng)用場(chǎng)景的適應(yīng)能力仍和人類(lèi)的能力存在較大差距?計(jì)算機(jī)視覺(jué)發(fā)展可能的方向在哪里?針對(duì)以上問(wèn)題,多位學(xué)者和專(zhuān)家從計(jì)算機(jī)視覺(jué)理論、方法、研究?jī)?nèi)容等開(kāi)展了探討,提出了許多有建設(shè)性的觀點(diǎn)[5-7]。與此不同,本文從計(jì)算機(jī)視覺(jué)算法和技術(shù)應(yīng)用出發(fā),探討以計(jì)算機(jī)視覺(jué)算法評(píng)估評(píng)測(cè)(評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、評(píng)估方式)為主要視角,對(duì)計(jì)算機(jī)視覺(jué)的發(fā)展歷程進(jìn)行梳理,并對(duì)各個(gè)階段存在的問(wèn)題進(jìn)行分析,從而提出計(jì)算機(jī)視覺(jué)發(fā)展的下一步思考和建議。

        算法驗(yàn)證是計(jì)算機(jī)視覺(jué)算法實(shí)驗(yàn)的重要組成,算法的評(píng)估評(píng)測(cè)是計(jì)算機(jī)視覺(jué)理論之外的另一個(gè)重要部分。本文按照算法評(píng)估評(píng)測(cè)將計(jì)算機(jī)視覺(jué)發(fā)展劃分為簡(jiǎn)單評(píng)測(cè)、開(kāi)放評(píng)測(cè)、競(jìng)賽評(píng)測(cè)和圖靈評(píng)測(cè)4個(gè)階段(圖1)。早期,計(jì)算機(jī)視覺(jué)理論處于逐步完善階段,相關(guān)實(shí)驗(yàn)在簡(jiǎn)單環(huán)境下依托少量數(shù)據(jù)完成對(duì)理論的驗(yàn)證。隨著視覺(jué)理論和框架的逐步完善,其研究重點(diǎn)逐步細(xì)化到相關(guān)具體任務(wù)的研究,如物體檢測(cè)、字符識(shí)別、人臉識(shí)別等,產(chǎn)生了包括數(shù)字手寫(xiě)識(shí)別數(shù)據(jù)集MNIST[8]、圖像分類(lèi)數(shù)據(jù)集CIFAR-10[9]與CIFAR-100[10]等在內(nèi)的系列數(shù)據(jù)集。為了更加公開(kāi)公平地評(píng)測(cè)算法性能,不僅開(kāi)放數(shù)據(jù)集,對(duì)評(píng)測(cè)指標(biāo)也逐步統(tǒng)一,誕生了依托于競(jìng)賽的評(píng)測(cè)方式,如針對(duì)目標(biāo)分類(lèi)、檢測(cè)和分割的PASCAL VOC[11]競(jìng)賽、ImageNet[3](ImageNet large Scale Visual Recognition Challenge,ILSVRC)大規(guī)模視覺(jué)識(shí)別挑戰(zhàn)賽等,對(duì)于推動(dòng)計(jì)算機(jī)視覺(jué)發(fā)展取得了巨大效果。然而,簡(jiǎn)單評(píng)測(cè)、開(kāi)放評(píng)測(cè)和競(jìng)賽評(píng)測(cè)數(shù)據(jù)集所代表的環(huán)境過(guò)于簡(jiǎn)單,未充分涵蓋真實(shí)環(huán)境下的對(duì)抗因素,導(dǎo)致模型在面對(duì)真實(shí)應(yīng)用中光照變化、快速運(yùn)動(dòng)、相似物體干擾等挑戰(zhàn)性因素時(shí)適應(yīng)性較差。此外,評(píng)估評(píng)測(cè)方式均只針對(duì)模型進(jìn)行設(shè)計(jì),無(wú)法實(shí)現(xiàn)機(jī)器和人類(lèi)視覺(jué)能力的比較。值得一提的是,由于將人引入到評(píng)估過(guò)程中,圖靈測(cè)試逐漸得到相關(guān)學(xué)者的關(guān)注。2015年布朗大學(xué)學(xué)者提出視覺(jué)圖靈測(cè)試(visual Turing test,VTT)方案[12],旨在通過(guò)一系列沒(méi)有歧義的二值問(wèn)題評(píng)估機(jī)器是否具有和人類(lèi)一樣的視覺(jué)理解能力。雖然嘗試通過(guò)問(wèn)答的形式對(duì)比機(jī)器和人類(lèi)的能力,但這種評(píng)測(cè)方式側(cè)重于評(píng)估機(jī)器對(duì)時(shí)間、空間和因果關(guān)系的綜合理解,無(wú)法有效度量機(jī)器在傳統(tǒng)視覺(jué)任務(wù)上的智能程度與人類(lèi)的差距(圖2)。

        綜上所述,本文從人機(jī)對(duì)抗評(píng)測(cè)的角度提出了計(jì)算機(jī)視覺(jué)下一步發(fā)展方向:視覺(jué)圖靈。首先,評(píng)估對(duì)象實(shí)現(xiàn)“從物到人”的轉(zhuǎn)變,不是以大數(shù)據(jù)、大算力等“外物”為評(píng)測(cè)標(biāo)準(zhǔn),而是真正關(guān)注在評(píng)價(jià)“類(lèi)人”視覺(jué)能力,以人類(lèi)視覺(jué)為基準(zhǔn)度量機(jī)器的智能程度。其次,評(píng)測(cè)內(nèi)容實(shí)現(xiàn)“從粗到細(xì)”的具化,在任務(wù)層面將視覺(jué)圖靈從視覺(jué)問(wèn)答拓展至計(jì)算機(jī)視覺(jué)所研究的具體任務(wù),在指標(biāo)層面從回答二值問(wèn)題拓展為對(duì)人類(lèi)視覺(jué)能力的量化。最后,評(píng)估環(huán)境實(shí)現(xiàn)“從演到用”的轉(zhuǎn)變,從針對(duì)常規(guī)環(huán)境的“表演性”數(shù)據(jù)集拓展至包含挑戰(zhàn)因素的對(duì)抗性數(shù)據(jù)集。依托于以上3點(diǎn)的突破,計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展將不再局限于對(duì)大數(shù)據(jù)和大算力的強(qiáng)烈依賴(lài),而是以人類(lèi)感知能力為引導(dǎo),使得計(jì)算機(jī)視覺(jué)研究邁向下一個(gè)新的發(fā)展階段,進(jìn)而為探索實(shí)現(xiàn)近似或超越人類(lèi)的視覺(jué)信息感知提供重要的研究基礎(chǔ)。

        2 研究現(xiàn)狀

        如果將計(jì)算機(jī)視覺(jué)理論作為算法的源頭,那么評(píng)估評(píng)測(cè)就是算法的落腳。源頭決定著算法的天花板,但評(píng)估評(píng)測(cè)決定著算法的應(yīng)用水平。早期計(jì)算機(jī)視覺(jué)的研究主要集中在對(duì)基礎(chǔ)視覺(jué)理論的完善,提出了馬爾(DAVID MARR)視覺(jué)理論[13]、成分識(shí)別理論[14]等計(jì)算機(jī)視覺(jué)奠基性理論框架,這些理論和框架經(jīng)過(guò)不斷發(fā)展細(xì)化,研究重點(diǎn)逐步聚焦到以物體識(shí)別和分類(lèi)、目標(biāo)檢測(cè)和定位、目標(biāo)分割、目標(biāo)跟蹤等為代表的視覺(jué)任務(wù)。近幾年,大規(guī)模數(shù)據(jù)集為視覺(jué)任務(wù)提供實(shí)驗(yàn)環(huán)境,推動(dòng)了以深度學(xué)習(xí)為代表的技術(shù)發(fā)展,并在智慧城市、公共安全、人機(jī)交互等應(yīng)用場(chǎng)景發(fā)揮重要作用。

        圖1 從視覺(jué)任務(wù)評(píng)估評(píng)測(cè)看計(jì)算機(jī)視覺(jué)發(fā)展

        圖2 視覺(jué)任務(wù)評(píng)估評(píng)測(cè)總結(jié)

        本章從評(píng)估評(píng)測(cè)(評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、評(píng)估方式)出發(fā),將計(jì)算機(jī)視覺(jué)的發(fā)展歷程劃分為簡(jiǎn)單評(píng)測(cè)、開(kāi)放評(píng)測(cè)、競(jìng)賽評(píng)測(cè)和圖靈評(píng)測(cè)4個(gè)階段,并對(duì)每個(gè)階段的評(píng)估評(píng)測(cè)特點(diǎn)進(jìn)行梳理和總結(jié)。

        2.1 簡(jiǎn)單評(píng)測(cè)

        在計(jì)算機(jī)視覺(jué)發(fā)展初期,研究者主要針對(duì)基礎(chǔ)視覺(jué)理論展開(kāi)研究。此階段所使用的實(shí)驗(yàn)數(shù)據(jù)(通常為包含簡(jiǎn)單內(nèi)容的圖像)用于驗(yàn)證特定視覺(jué)理論,具有形式單一、未成體系、非公開(kāi)發(fā)布等特點(diǎn)。

        1962年,為研究視覺(jué)信息的處理機(jī)制,神經(jīng)生理學(xué)家HUBEL和WIESEL[15]通過(guò)幻燈片對(duì)貓展示包含特定模式(具有不同位置和大小的圓形光斑、具有不同朝向和長(zhǎng)度的條形光斑)的圖像,并記錄貓腦神經(jīng)元在不同模式刺激下的電活動(dòng)。1963年,ROBERTS[16]通過(guò)算法從包含單一幾何體的圖片中提取簡(jiǎn)單幾何結(jié)構(gòu),以“積木世界”的方式實(shí)現(xiàn)對(duì)物體形狀和空間關(guān)系的描述。1966年,麻省理工學(xué)院人工智能實(shí)驗(yàn)室[17]舉辦夏季視覺(jué)項(xiàng)目,以包含若干非重疊物體(具有不同紋理和顏色的幾何體,如球類(lèi)、磚塊或者圓柱體)的圖片為實(shí)驗(yàn)對(duì)象,嘗試通過(guò)前景-背景分割完成從圖像中自動(dòng)提取對(duì)象。

        20世紀(jì)80年代,認(rèn)知科學(xué)家以物體識(shí)別任務(wù)為載體,將基礎(chǔ)元素(幾何圖形、字母、線條等)組合為實(shí)驗(yàn)圖片,并根據(jù)受試者面對(duì)不同類(lèi)型圖片的認(rèn)知表現(xiàn),對(duì)人類(lèi)視覺(jué)認(rèn)知過(guò)程進(jìn)行解析。1980年,加州大學(xué)伯克利分校TREISMAN和GELADE[18]選擇由簡(jiǎn)單元素(不同顏色的字母或不同大小的橢圓)構(gòu)成的實(shí)驗(yàn)圖片,對(duì)視覺(jué)加工問(wèn)題進(jìn)行分析,并提出特征整合理論。1982年,麻省理工學(xué)院MARR[13]提出不同于“積木世界”的視覺(jué)計(jì)算理論,即通過(guò)對(duì)心理學(xué)、生理學(xué)、信息學(xué)等領(lǐng)域進(jìn)行綜合,將視覺(jué)定義為對(duì)外部圖像的有效符號(hào)描述。1982年,中科院生物物理所CHEN[19]用正方形、圓形和環(huán)形等幾何形狀組成實(shí)驗(yàn)圖片,對(duì)視覺(jué)感知中的拓?fù)浣Y(jié)構(gòu)展開(kāi)研究。1987年,南加州大學(xué)BIEDERMAN[14]在MARR視覺(jué)計(jì)算理論的基礎(chǔ)上提出成分識(shí)別理論,以包含可拆解物體(如水壺、剪刀、訂書(shū)機(jī)、手電筒、臺(tái)燈等)的圖片為測(cè)試數(shù)據(jù),分析人類(lèi)對(duì)圖片的理解能力。視覺(jué)理論的出現(xiàn)標(biāo)志著計(jì)算機(jī)視覺(jué)成為一門(mén)獨(dú)立學(xué)科,并逐步從理論實(shí)驗(yàn)向真實(shí)應(yīng)用拓展。

        2.2 開(kāi)放評(píng)測(cè)

        20世紀(jì)90年代起,計(jì)算機(jī)視覺(jué)研究從基礎(chǔ)理論逐步關(guān)注到具體視覺(jué)任務(wù)。和簡(jiǎn)單評(píng)測(cè)階段的零散實(shí)驗(yàn)圖片相比,此階段以特定任務(wù)為導(dǎo)向進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)經(jīng)過(guò)篩選和整理,且初具規(guī)模,并以公開(kāi)數(shù)據(jù)集的形式進(jìn)行發(fā)布。1998年,LECUN等[8]針對(duì)數(shù)字手寫(xiě)識(shí)別任務(wù)發(fā)布包含6萬(wàn)張32×32尺寸圖片的MNIST數(shù)據(jù)集。2004年,加州理工學(xué)院發(fā)布針對(duì)目標(biāo)識(shí)別任務(wù)的Caltech-101[20]數(shù)據(jù)集,其包含101類(lèi)物體、由9 146張圖像構(gòu)成,并于2007年擴(kuò)充為包含256類(lèi)物體的Caltech-256[21]。2009年,KRIZHEVSKY和HINTON[22]發(fā)布了針對(duì)目標(biāo)識(shí)別任務(wù)的CIFAR數(shù)據(jù)集,由6萬(wàn)張尺寸為32×32的彩色圖像構(gòu)成,具有CIFAR-10(包含10類(lèi)物體)與CIFAR-100(包含100類(lèi)物體)2個(gè)版本。

        2009年,DENG等[3]發(fā)布大規(guī)模數(shù)據(jù)集ImageNet,其在語(yǔ)義學(xué)框架WordNet的指導(dǎo)下采集包含2.2萬(wàn)類(lèi)物體的1 400萬(wàn)張圖像,為物體識(shí)別和分類(lèi)任務(wù)帶來(lái)全新挑戰(zhàn),標(biāo)志著計(jì)算機(jī)視覺(jué)進(jìn)入大規(guī)模數(shù)據(jù)庫(kù)時(shí)代。不同于早期針對(duì)特定視覺(jué)任務(wù)構(gòu)建的開(kāi)放數(shù)據(jù)集,以ImageNet為代表的數(shù)據(jù)集具有規(guī)模大、數(shù)據(jù)全面、標(biāo)注精度高、構(gòu)建準(zhǔn)則科學(xué)等特點(diǎn),從數(shù)據(jù)集多樣性的角度為模型過(guò)擬合提出一種解決方案,并推動(dòng)了以大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法的發(fā)展。此后,各項(xiàng)視覺(jué)任務(wù)均出現(xiàn)高質(zhì)量的代表性數(shù)據(jù)集,如針對(duì)人臉識(shí)別任務(wù)的CelebA[23]和WIDER FACE[24]、針對(duì)自動(dòng)駕駛場(chǎng)景的KITTI[25]、針對(duì)目標(biāo)跟蹤任務(wù)的GOT-10k[26]和LaSOT[27]、針對(duì)場(chǎng)景解析和語(yǔ)義理解任務(wù)的ADE20k[28]和Cityscapes[29]、針對(duì)行人重識(shí)別和屬性識(shí)別的RAP[30]等數(shù)據(jù)集。

        2.3 競(jìng)賽評(píng)測(cè)

        在開(kāi)放評(píng)測(cè)的基礎(chǔ)上,部分?jǐn)?shù)據(jù)集以競(jìng)賽的形式發(fā)布。競(jìng)賽評(píng)測(cè)通過(guò)統(tǒng)一度量參賽算法性能、以排行榜或論文的形式發(fā)布競(jìng)賽結(jié)果、依據(jù)競(jìng)賽結(jié)果對(duì)數(shù)據(jù)集進(jìn)行更新、擴(kuò)充競(jìng)賽任務(wù)范疇等方式推動(dòng)計(jì)算機(jī)視覺(jué)的發(fā)展。

        前深度學(xué)習(xí)時(shí)代,競(jìng)賽評(píng)測(cè)以2005–2012年舉辦的PASCAL VOC[11,31-32]挑戰(zhàn)賽為代表。第一屆競(jìng)賽僅包含1 578張圖片,針對(duì)4類(lèi)物體開(kāi)展分類(lèi)和檢測(cè)競(jìng)賽。2007年,第三屆競(jìng)賽對(duì)數(shù)據(jù)集規(guī)模進(jìn)行擴(kuò)充,將物體類(lèi)別擴(kuò)大至20類(lèi),并引入分割和人體部位檢測(cè)任務(wù)。2012年舉辦的最后一屆競(jìng)賽中,數(shù)據(jù)集規(guī)模達(dá)到11 530張圖片,并包含27 450個(gè)物體標(biāo)注和6 929個(gè)分割標(biāo)注。

        2010–2017年舉辦的ImageNet大型視覺(jué)識(shí)別挑戰(zhàn)賽是近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域最具影響力的學(xué)術(shù)競(jìng)賽之一[33-34],該競(jìng)賽從ImageNet數(shù)據(jù)集中抽取部分樣本作為競(jìng)賽數(shù)據(jù),并從最初的圖像分類(lèi)拓展至目標(biāo)檢測(cè)、場(chǎng)景分類(lèi)等任務(wù)。2012年,SIMONYAN和ZISSERMAN[35]采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的AlexNet模型奪冠,引發(fā)研究者對(duì)深度學(xué)習(xí)方法的關(guān)注。此后,GoogLeNet[36],VGG[37],ResNet[38]和DenseNet[39]等模型ILSVRC競(jìng)賽上展示優(yōu)異性能,標(biāo)志著深度神經(jīng)網(wǎng)絡(luò)成為視覺(jué)任務(wù)的主流方法。

        除ILSVRC之外,VOT[40],MS COCO[41],MOT[42]等計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽吸引全球科研機(jī)構(gòu)和科技公司參與。VOT[40]是自2013年起每年在ICCV和ECCV研討會(huì)上舉辦的視覺(jué)物體跟蹤挑戰(zhàn)賽,通過(guò)更新評(píng)測(cè)序列、擴(kuò)充任務(wù)范疇、優(yōu)化評(píng)測(cè)指標(biāo),實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境下單目標(biāo)跟蹤算法性能的評(píng)測(cè)。MS COCO[41]競(jìng)賽起源于微軟公司2014年標(biāo)注的同名數(shù)據(jù)集,圖片選取自日常場(chǎng)景,并為每個(gè)實(shí)例提供額外的分割標(biāo)注來(lái)輔助物體定位。該競(jìng)賽以場(chǎng)景理解為目標(biāo),包含物體檢測(cè)、目標(biāo)分割、人體關(guān)鍵點(diǎn)檢測(cè)、場(chǎng)景分割等任務(wù)。MOT[42]競(jìng)賽自2015年起針對(duì)復(fù)雜場(chǎng)景下多目標(biāo)跟蹤任務(wù)展開(kāi)評(píng)測(cè),任務(wù)場(chǎng)景從2D街景下的行人/車(chē)輛跟蹤拓展至3D場(chǎng)景下斑馬魚(yú)跟蹤,任務(wù)范疇從多目標(biāo)跟蹤拓展至多目標(biāo)分割。

        高速、高精度和高穩(wěn)定性是現(xiàn)代印刷機(jī)械的重要特征和必然要求.卷筒紙印刷機(jī)是目前世界上印刷速度最高的大型設(shè)備,而折頁(yè)機(jī)構(gòu)是制約卷筒紙印刷機(jī)速度進(jìn)一步提高的關(guān)鍵因素之一.本文結(jié)合印刷機(jī)械特點(diǎn)和發(fā)展趨勢(shì),以卷筒紙印刷機(jī)折頁(yè)機(jī)構(gòu)為研究對(duì)象,圍繞提高折頁(yè)機(jī)構(gòu)的精度和穩(wěn)定性,對(duì)折頁(yè)機(jī)構(gòu)進(jìn)行含間隙機(jī)構(gòu)動(dòng)力學(xué)研究.

        2.4 圖靈評(píng)測(cè)

        計(jì)算機(jī)視覺(jué)的發(fā)展目標(biāo)是實(shí)現(xiàn)或超越人類(lèi)視覺(jué)感知能力,但簡(jiǎn)單評(píng)測(cè)、開(kāi)放評(píng)測(cè)和競(jìng)賽評(píng)測(cè)專(zhuān)注于在數(shù)據(jù)集上算法性能的比較,缺乏與人類(lèi)視覺(jué)能力的對(duì)比。在計(jì)算機(jī)視覺(jué)的發(fā)展過(guò)程中,有學(xué)者提出借助圖靈在1950年提出的模擬游戲思路[43],以圖靈評(píng)測(cè)的形式對(duì)計(jì)算機(jī)視覺(jué)模型開(kāi)展評(píng)估。

        已有的視覺(jué)圖靈評(píng)測(cè)主要采用視覺(jué)描述和視覺(jué)問(wèn)答方式,如通過(guò)機(jī)器對(duì)與場(chǎng)景內(nèi)容相關(guān)的二值問(wèn)題(Yes/No,Real/Fake)的回答情況,判定其是否具有和人類(lèi)相近的理解能力;或在生成式視覺(jué)任務(wù)中根據(jù)人類(lèi)受試者對(duì)生成效果的判定,衡量機(jī)器的創(chuàng)造能力。

        然而,現(xiàn)階段的視覺(jué)圖靈工作雖然嘗試將人類(lèi)引入到評(píng)測(cè)流程中,但其評(píng)測(cè)形式單一、評(píng)測(cè)內(nèi)容寬泛,未有效度量機(jī)器的智能程度。以下本文將重點(diǎn)介紹視覺(jué)圖靈測(cè)試,并從視覺(jué)圖靈出發(fā)給出計(jì)算機(jī)視覺(jué)發(fā)展的方向。

        3 視覺(jué)圖靈測(cè)試

        3.1 圖靈測(cè)試

        1950年,英國(guó)科學(xué)家阿蘭·圖靈在《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)一文中首先提出了著名的“圖靈測(cè)試”概念[43]。圖靈設(shè)計(jì)了一個(gè)模擬游戲(imitation game),并提出一個(gè)問(wèn)題:“如果游戲中用一臺(tái)機(jī)器代替人類(lèi)會(huì)出現(xiàn)什么情況?”而這也引申出了另一個(gè)重要問(wèn)題,即“機(jī)器是否能思考(Can machine think)”?圖靈認(rèn)為,如果詢(xún)問(wèn)者無(wú)法判斷另一個(gè)屋子里是人還是機(jī)器,那么屋子里的機(jī)器就可以稱(chēng)得上是有智能的。

        值得一提的是,雖然圖靈測(cè)試這一概念自誕生以來(lái)就引發(fā)了廣泛而持久的爭(zhēng)論[44],然而圖靈測(cè)試對(duì)于人工智能的重要意義不言而喻,其給出了一種具體可操作的方式來(lái)度量智能,即根據(jù)對(duì)一系列特定問(wèn)題的反應(yīng)來(lái)決定某一客體是否是智能體。這就為判斷智能提供了一個(gè)客觀標(biāo)準(zhǔn),從而避免了有關(guān)智能本質(zhì)的無(wú)謂爭(zhēng)論。比如,從1990年開(kāi)始舉辦的羅布納獎(jiǎng)競(jìng)賽(Loebner Prize Competition)[45]采用標(biāo)準(zhǔn)的圖靈測(cè)試對(duì)機(jī)器的能力進(jìn)行評(píng)估?;趫D靈測(cè)試的人機(jī)對(duì)抗智能技術(shù)也一直是國(guó)內(nèi)外人工智能研究的熱點(diǎn)[46],尤其近年來(lái),以AlphaGo[47]、冷撲大師[48]等為代表的智能算法在邊界確定、規(guī)則固定的決策智能問(wèn)題中已經(jīng)戰(zhàn)勝了人類(lèi)頂級(jí)專(zhuān)業(yè)選手,成為圖靈測(cè)試在智能體評(píng)估中的標(biāo)志性成果。

        3.2 視覺(jué)圖靈研究現(xiàn)狀

        自20世紀(jì)80年代MARR提出視覺(jué)計(jì)算理論以來(lái),計(jì)算機(jī)視覺(jué)問(wèn)題也成為人工智能研究的重要組成部分。受相關(guān)研究的啟發(fā),研究者們開(kāi)始將圖靈測(cè)試引入到計(jì)算機(jī)視覺(jué)任務(wù)的評(píng)估中,并取得了一定進(jìn)展。其中,最著名的莫過(guò)于2002年由卡內(nèi)基梅隆大學(xué)提出的CAPTCHA測(cè)試(Completely Automated Public Turing test to tell Computers and Humans Apart)[49],也就是俗稱(chēng)的驗(yàn)證碼。CAPTCHA測(cè)試通常以文本或圖像為載體,使服務(wù)器自動(dòng)產(chǎn)生一個(gè)問(wèn)題并根據(jù)相應(yīng)回答對(duì)人類(lèi)用戶(hù)和計(jì)算機(jī)程序進(jìn)行區(qū)分。需要指出的是,CAPTCHA目的是使人類(lèi)通過(guò)測(cè)試而機(jī)器無(wú)法通過(guò),因此這一技術(shù)也被稱(chēng)為反向圖靈測(cè)試。CAPTCHA對(duì)學(xué)術(shù)研究和相關(guān)技術(shù)發(fā)展起到了重要的推動(dòng)作用。目前,CAPTCHA已經(jīng)成為一種標(biāo)準(zhǔn)的網(wǎng)絡(luò)安全技術(shù),廣泛應(yīng)用于互聯(lián)網(wǎng)行業(yè)。以CAPTCHA為基礎(chǔ),卡內(nèi)基梅隆大學(xué)進(jìn)一步提出了reCAPTCHA技術(shù)[50]來(lái)幫助完成典籍的數(shù)字化。目前,這一技術(shù)已經(jīng)實(shí)現(xiàn)了《紐約時(shí)代》報(bào)紙掃描存檔的數(shù)字化。

        自深度學(xué)習(xí)提出以來(lái),計(jì)算機(jī)視覺(jué)在理論和方法上都取得了重要進(jìn)步。按照經(jīng)典的機(jī)器學(xué)習(xí)指標(biāo),相關(guān)算法模型在現(xiàn)有大規(guī)模公開(kāi)評(píng)估數(shù)據(jù)集上已經(jīng)實(shí)現(xiàn)了性能的跨越式提升。那么,如何對(duì)機(jī)器視覺(jué)和人類(lèi)視覺(jué)的能力關(guān)系進(jìn)行有效評(píng)估?這些問(wèn)題受到了研究者們的關(guān)注。2015年,布朗大學(xué)學(xué)者在“美國(guó)科學(xué)院院報(bào)”上發(fā)表論文,提出了一種針對(duì)計(jì)算機(jī)視覺(jué)的圖靈測(cè)試方法[12],目的是評(píng)估計(jì)算機(jī)能否像人類(lèi)一樣實(shí)現(xiàn)對(duì)自然圖像的有效理解。在該圖靈測(cè)試方法中,系統(tǒng)會(huì)根據(jù)圖像的標(biāo)注內(nèi)容,按照“故事情節(jié)”生成一系列沒(méi)有歧義的二值問(wèn)題,而機(jī)器和人類(lèi)可以按照同樣的方式進(jìn)行回答。測(cè)試方式如圖3所示。

        圖3 基于視覺(jué)問(wèn)答的視覺(jué)圖靈測(cè)試方案

        基于視覺(jué)內(nèi)容理解的圖靈測(cè)試也受到了研究者的持續(xù)關(guān)注。QI等[51]提出了一種針對(duì)場(chǎng)景和事件理解的視覺(jué)圖靈測(cè)試。該測(cè)試同樣采用是非判斷的方式,但是測(cè)試涉及的場(chǎng)景更為復(fù)雜,更加側(cè)重計(jì)算機(jī)對(duì)時(shí)間、空間和因果關(guān)系的理解能力。除了包含更加復(fù)雜的測(cè)試場(chǎng)景,有研究者設(shè)計(jì)了更加復(fù)雜的圖靈測(cè)試問(wèn)題[52-54],視覺(jué)問(wèn)答的涵蓋范圍和回答難度進(jìn)一步提升,需要圍繞計(jì)數(shù)、物體類(lèi)別、實(shí)例信息等內(nèi)容進(jìn)行相應(yīng)回答。這些研究對(duì)于視覺(jué)描述(visual caption)和視覺(jué)問(wèn)答(visual question answering,VQA)任務(wù)發(fā)展起到了積極的意義。

        在經(jīng)典的視覺(jué)識(shí)別、檢測(cè)任務(wù)之外,越來(lái)越多的研究開(kāi)始關(guān)注生成式視覺(jué)任務(wù),如圖像風(fēng)格遷移、圖像生成和圖像渲染等。這類(lèi)生成任務(wù)通常無(wú)法采用經(jīng)典的機(jī)器學(xué)習(xí)指標(biāo)進(jìn)行評(píng)估,視覺(jué)圖靈測(cè)試成為了評(píng)估這類(lèi)任務(wù)效果的一種可行方式。2013年,華盛頓大學(xué)和Google的研究者將視覺(jué)圖靈測(cè)試引入到場(chǎng)景重建任務(wù)的評(píng)估中[55]。在測(cè)試中,研究者分別提供一張真實(shí)圖像和算法渲染后的圖像,并要求受試者判斷哪一張圖像看起來(lái)“更真實(shí)”。實(shí)驗(yàn)結(jié)果表明,部分較低分辨率的渲染圖像可以通過(guò)圖靈測(cè)試,而高分辨率的圖像大概率無(wú)法通過(guò)測(cè)試。作者指出,使低分辨率圖像通過(guò)圖靈測(cè)試是三維重建算法短期內(nèi)可以企及的目標(biāo)。2015年,麻省理工大學(xué)的LAKE等[56]也采用圖靈測(cè)試的方式對(duì)計(jì)算機(jī)概念學(xué)習(xí)(Concept Learning)的能力進(jìn)行評(píng)估。其以手寫(xiě)體字符為研究對(duì)象,圖靈測(cè)試的方式與文獻(xiàn)[55]較為類(lèi)似,即同時(shí)給出手寫(xiě)體字符和機(jī)器生成字符,讓受試者判斷哪一個(gè)字符是由機(jī)器產(chǎn)生的(圖4)。測(cè)試結(jié)果表明,在手寫(xiě)體字符生成這一任務(wù)上機(jī)器行為與人類(lèi)已經(jīng)很難區(qū)分了。文獻(xiàn)[57]同樣采用了標(biāo)準(zhǔn)圖靈測(cè)試來(lái)對(duì)圖像染色算法的性能進(jìn)行評(píng)估,測(cè)試中32%的算法生成圖像成功欺騙了“參與者”。此外,在藝術(shù)圖像生成效果評(píng)估中[58],研究者在真假判斷的基礎(chǔ)上還添加了可靠性判斷和美感判斷的測(cè)試內(nèi)容??梢钥闯?,視覺(jué)圖靈測(cè)試已經(jīng)成為生成式視覺(jué)任務(wù)一種重要的評(píng)估方式。

        圖4 概念學(xué)習(xí)中的圖靈測(cè)試[56]

        4 展 望

        隨著深度學(xué)習(xí)技術(shù),海量數(shù)據(jù)集以及競(jìng)賽評(píng)測(cè)方式的普及,諸多視覺(jué)算法在相關(guān)數(shù)據(jù)集上已經(jīng)達(dá)到較高的性能,但當(dāng)前依賴(lài)大算力、大數(shù)據(jù)的算法在真實(shí)應(yīng)用中表現(xiàn)并不如人意。以人機(jī)對(duì)抗為評(píng)測(cè)方式的圖靈測(cè)試為計(jì)算機(jī)視覺(jué)的發(fā)展提出了新的思路。然而,現(xiàn)階段的視覺(jué)圖靈工作雖然嘗試將人類(lèi)引入到評(píng)測(cè)流程中,但其評(píng)測(cè)形式單一、評(píng)測(cè)內(nèi)容寬泛,未有效度量機(jī)器在具體視覺(jué)任務(wù)上的智能程度,本文從人機(jī)對(duì)抗出發(fā)給出基于視覺(jué)圖靈的計(jì)算機(jī)視覺(jué)發(fā)展可能的方向。

        4.1 對(duì)象由物到人

        正如上述分析,當(dāng)前計(jì)算機(jī)視覺(jué)關(guān)注在數(shù)據(jù)集的大小,計(jì)算資源的多少,稱(chēng)之為“物”,這與計(jì)算機(jī)視覺(jué)是以人類(lèi)視覺(jué)為目標(biāo)(“人”)的初衷并不符合,而海量標(biāo)注數(shù)據(jù)不僅需要大量數(shù)據(jù)搜集和繁重的標(biāo)注工作,并且大規(guī)模訓(xùn)練對(duì)計(jì)算資源也提出了非常高的要求。算法性能的提升越來(lái)越倚仗算力的堆疊而不是視覺(jué)模型和方法的改進(jìn)。這種研究模式越來(lái)越關(guān)注數(shù)據(jù)和算力等“物”的層面,忽略了視覺(jué)研究的目的,即機(jī)器具備自然(人類(lèi))視覺(jué)的能力,這種模式對(duì)于計(jì)算機(jī)視覺(jué)的發(fā)展是不利的。

        機(jī)器的大規(guī)模學(xué)習(xí)過(guò)程與人類(lèi)的學(xué)習(xí)過(guò)程存在明顯的區(qū)別?,F(xiàn)有最大規(guī)模的識(shí)別數(shù)據(jù)集ImageNet包括約2萬(wàn)類(lèi)物體,其中僅有1 000類(lèi)物體圖像有較多的標(biāo)注樣本并用于訓(xùn)練和評(píng)估。相關(guān)研究表明,人類(lèi)一生可識(shí)別的物體種類(lèi)大約為3萬(wàn)類(lèi)[59],更重要的是,人類(lèi)可以在僅獲得少量樣本的前提下迅速理解新的概念并將其泛化[56,59]。而目前的評(píng)測(cè)標(biāo)準(zhǔn)很難從人類(lèi)學(xué)習(xí)能力的角度對(duì)機(jī)器進(jìn)行更加有效的評(píng)估。

        盡管現(xiàn)有深度模型在統(tǒng)計(jì)學(xué)意義的指標(biāo)上有著優(yōu)異的表現(xiàn),但是算法也存在著明顯的弱點(diǎn)。文獻(xiàn)[60]指出,深度學(xué)習(xí)模型即使是在識(shí)別最常見(jiàn)的物體類(lèi)別時(shí)仍會(huì)出現(xiàn)很明顯的錯(cuò)誤,而人類(lèi)幾乎不太可能出現(xiàn)這類(lèi)問(wèn)題。此外,文獻(xiàn)[61]發(fā)現(xiàn)當(dāng)給某些圖像添加某種程度的噪音時(shí),機(jī)器會(huì)改變?cè)窘o出的高置信度的正確預(yù)測(cè)結(jié)果并做出錯(cuò)誤的類(lèi)別判斷,深度模型可以輕易地被對(duì)抗樣本所“愚弄”。另一方面,相關(guān)認(rèn)知實(shí)驗(yàn)[62]表明,人類(lèi)可以有效辨認(rèn)對(duì)抗樣本,而且可以對(duì)機(jī)器在面對(duì)對(duì)抗樣本時(shí)將做出何種判斷進(jìn)行有效預(yù)測(cè)。這也從一個(gè)方面印證了人類(lèi)的視覺(jué)能力要遠(yuǎn)遠(yuǎn)超過(guò)以大數(shù)據(jù)大算力為基礎(chǔ)的深度學(xué)習(xí)機(jī)器模型。

        因此,在接下來(lái)的視覺(jué)研究中,有必要改變目前基于大數(shù)據(jù)、大算力的評(píng)估標(biāo)準(zhǔn),將“人”的因素加入到回路中,根據(jù)人類(lèi)的能力對(duì)機(jī)器的能力進(jìn)行更加有效的評(píng)估[63]。而視覺(jué)圖靈測(cè)試本質(zhì)上是以類(lèi)人視覺(jué)為標(biāo)準(zhǔn)的一種評(píng)估體系,其可以在一定程度上打破機(jī)器和人類(lèi)認(rèn)知的鴻溝。相信隨著對(duì)視覺(jué)圖靈研究的深入,可以使計(jì)算機(jī)更好的借鑒、模仿人類(lèi)的視覺(jué)和學(xué)習(xí)過(guò)程,從而朝著具備真正意義上的人工智能邁出更踏實(shí)的一步。

        4.2 任務(wù)由粗到細(xì)

        通過(guò)和人對(duì)抗來(lái)評(píng)估智能體能力的圖靈測(cè)試評(píng)估方式越來(lái)越得到關(guān)注,并取得了一定的進(jìn)展,對(duì)相關(guān)領(lǐng)域發(fā)展也起到了重要推動(dòng)作用。但是,正如存在的質(zhì)疑所提到的,現(xiàn)有的圖靈測(cè)試方法仍然存在目標(biāo)不明確、任務(wù)寬泛、無(wú)法量化等問(wèn)題,如,①評(píng)估所針對(duì)的視覺(jué)任務(wù)相對(duì)寬泛;②部分視覺(jué)任務(wù)缺乏針對(duì)性圖靈測(cè)試設(shè)計(jì);③缺乏具體的指標(biāo)對(duì)人類(lèi)能力進(jìn)行有效量化等,因此,從粗放式的視覺(jué)圖靈測(cè)試走向精細(xì)化的視覺(jué)任務(wù)測(cè)試也是大勢(shì)所趨。

        以視覺(jué)問(wèn)答為例,VTT涉及物體分類(lèi)、物體定位和關(guān)系推理等多項(xiàng)視覺(jué)任務(wù),屬于對(duì)機(jī)器視覺(jué)能力的綜合考察。因此,很難就機(jī)器的某一項(xiàng)具體能力得到可量化的評(píng)估結(jié)果。而后續(xù)針對(duì)VQA的方法研究[53-54]已經(jīng)涉及到了視覺(jué)與自然語(yǔ)言處理2方面的結(jié)合,這與最初的視覺(jué)圖靈測(cè)試設(shè)定出現(xiàn)了一定的偏差。文獻(xiàn)[12]提出,VTT測(cè)試僅僅是一個(gè)關(guān)于視覺(jué)的測(cè)試,不涉及自然語(yǔ)言處理的過(guò)程(“The interpretation of the questions is unambiguous and does not require any natural language process”)。因此,有必要針對(duì)計(jì)算機(jī)視覺(jué)的具體視覺(jué)任務(wù)進(jìn)行細(xì)化研究。

        不同的計(jì)算機(jī)視覺(jué)任務(wù)存在著明顯的差異,設(shè)計(jì)一種通用的視覺(jué)圖靈測(cè)試方案較為困難。如,物體跟蹤就屬于人類(lèi)視覺(jué)中的一項(xiàng)重要能力[64],視覺(jué)問(wèn)答可以對(duì)機(jī)器的圖像內(nèi)容理解能力進(jìn)行評(píng)估,但并不適用于直接評(píng)估視覺(jué)跟蹤任務(wù),因?yàn)楂@取、量化人類(lèi)的視覺(jué)跟蹤軌跡較為復(fù)雜。這就要求研究者根據(jù)不同視覺(jué)任務(wù)的特點(diǎn)進(jìn)行相應(yīng)的具體設(shè)計(jì)。一種可能的解決方案是借鑒視覺(jué)顯著性的研究過(guò)程[65],采用傳感設(shè)備對(duì)人類(lèi)的視覺(jué)跟蹤過(guò)程進(jìn)行有效捕捉,并在此基礎(chǔ)上進(jìn)行視覺(jué)圖靈測(cè)試。

        在圖靈最初的設(shè)想中,如果機(jī)器讓參與者做出超過(guò)30%的誤判,那么可以認(rèn)為這臺(tái)機(jī)器通過(guò)了測(cè)試。后續(xù)的研究基本按照這個(gè)指標(biāo)對(duì)機(jī)器的能力進(jìn)行評(píng)估。然而,圖靈并沒(méi)有提出如何對(duì)人類(lèi)的能力進(jìn)行量化。相關(guān)研究表明[66],人類(lèi)在不同年齡階段的視覺(jué)認(rèn)知能力存在明顯差異,而現(xiàn)有的視覺(jué)圖靈測(cè)試并沒(méi)有考慮相關(guān)因素。另一方面,在零和博弈任務(wù)中就存在對(duì)人類(lèi)能力的具體量化標(biāo)準(zhǔn),如Elo等級(jí)分制度,其反映了人類(lèi)在具體博弈任務(wù)上的水平。因此,在視覺(jué)圖靈測(cè)試有必要借鑒相關(guān)研究,對(duì)機(jī)器視覺(jué)和人類(lèi)視覺(jué)能力的關(guān)系進(jìn)行可量化的評(píng)估。

        4.3 數(shù)據(jù)由演到用

        評(píng)測(cè)數(shù)據(jù)集是任務(wù)評(píng)估評(píng)測(cè)的重要組成。在早期的視覺(jué)研究中,視覺(jué)理論和框架尚在探索階段。此時(shí)構(gòu)建的任務(wù)大部分是“toy problem”,數(shù)據(jù)集均較為簡(jiǎn)單、規(guī)模較小,有著明顯的“表演”性質(zhì)。比如行為識(shí)別中的KTH數(shù)據(jù)集和Weizmann數(shù)據(jù)集[67-68]等。這類(lèi)數(shù)據(jù)集通常只包含在單一場(chǎng)景下的簡(jiǎn)單動(dòng)作。盡管對(duì)早期的算法研究和評(píng)估起到了推動(dòng)作用,但是這類(lèi)數(shù)據(jù)與真實(shí)的應(yīng)用場(chǎng)景存在明顯的差距。

        互聯(lián)網(wǎng)行業(yè)的發(fā)展,使得海量數(shù)據(jù)的獲取、標(biāo)注變?yōu)榭赡?。而這也推動(dòng)了以深度學(xué)習(xí)為標(biāo)志的大規(guī)模訓(xùn)練和評(píng)估。此時(shí)的數(shù)據(jù)集類(lèi)別和樣本數(shù)量大幅度增加,數(shù)據(jù)更加接近真實(shí)的復(fù)雜場(chǎng)景。然而,隨著數(shù)據(jù)規(guī)模的進(jìn)一步提升,數(shù)據(jù)出現(xiàn)了明顯的同質(zhì)化現(xiàn)象,這并不利于對(duì)機(jī)器能力的真實(shí)評(píng)估。此外,統(tǒng)計(jì)學(xué)的準(zhǔn)確率提升并不意味著機(jī)器真正具備解決困難問(wèn)題的能力。

        隨著計(jì)算機(jī)視覺(jué)從理論走向應(yīng)用,研究的問(wèn)題逐漸從簡(jiǎn)單任務(wù)、復(fù)雜任務(wù)走向?qū)谷蝿?wù)。比如,某些場(chǎng)景下背景環(huán)境會(huì)對(duì)物體識(shí)別帶來(lái)極大干擾[69],需要識(shí)別的目標(biāo)存在刻意的隱藏和偽裝[70],篡改偽造內(nèi)容以混淆視聽(tīng)[71]等。這些對(duì)抗因素會(huì)對(duì)現(xiàn)有的方法帶來(lái)極大的挑戰(zhàn)。因此,有必要設(shè)計(jì)更加合理的評(píng)價(jià)體系,對(duì)機(jī)器在對(duì)抗條件下的能力進(jìn)行更加有效的評(píng)估。相比于機(jī)器,目前人類(lèi)仍然具備一定的優(yōu)勢(shì)[62]。而人類(lèi)在對(duì)抗視覺(jué)任務(wù)上的表現(xiàn)可以為機(jī)器能力的評(píng)估提供重要的參考依據(jù)。這也是計(jì)算機(jī)視覺(jué)逼近甚至超過(guò)人類(lèi)的過(guò)程中必然要經(jīng)歷的環(huán)節(jié)。

        5 結(jié) 論

        作為人工智能領(lǐng)域的熱點(diǎn)研究方向,計(jì)算機(jī)視覺(jué)已在理論方法、關(guān)鍵技術(shù)和實(shí)際應(yīng)用等方面取得巨大進(jìn)步,但以大數(shù)據(jù)、大算力為基礎(chǔ)的發(fā)展模式已無(wú)法有效推動(dòng)計(jì)算機(jī)視覺(jué)下一步發(fā)展。本文以算法評(píng)估評(píng)測(cè)(評(píng)測(cè)數(shù)據(jù)集、評(píng)測(cè)指標(biāo)、評(píng)估方式)為主要視角,對(duì)計(jì)算機(jī)視覺(jué)的發(fā)展歷程進(jìn)行梳理。通過(guò)對(duì)各階段存在問(wèn)題的分析,探討提出了計(jì)算機(jī)視覺(jué)下一步發(fā)展方向:視覺(jué)圖靈,并提出了3個(gè)可能的方向:評(píng)估對(duì)象實(shí)現(xiàn)“從物到人”的拓展、評(píng)測(cè)內(nèi)容實(shí)現(xiàn)“從粗到細(xì)”的具化和評(píng)估環(huán)境實(shí)現(xiàn)“從演到用”的轉(zhuǎn)變,試圖推動(dòng)計(jì)算機(jī)視覺(jué)研究的發(fā)展。

        總之,計(jì)算機(jī)視覺(jué)的發(fā)展推進(jìn)了人類(lèi)社會(huì)的智能化進(jìn)程,但依賴(lài)大數(shù)據(jù)、大算力為基礎(chǔ)的發(fā)展模式和真實(shí)場(chǎng)景的需求仍存在差異。視覺(jué)圖靈為打破現(xiàn)階段發(fā)展瓶頸提供一種可行的思路,為實(shí)現(xiàn)近似或超越人類(lèi)視覺(jué)信息感知能力提供重要的研究基礎(chǔ)。

        [1] 黃凱奇, 任偉強(qiáng), 譚鐵牛. 圖像物體分類(lèi)與檢測(cè)算法綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2014, 37(6): 1225-1240.

        HUANG K Q, REN W Q, TAN T N. A review on image object classification and detection[J]. Chinese Journal of Computers, 2014, 37(6): 1225-1240 (in Chinese).

        [2] 黃凱奇, 陳曉棠, 康運(yùn)鋒, 等. 智能視頻監(jiān)控技術(shù)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2015, 38(6): 1093-1118.

        HUANG K Q, CHEN X T, KANG Y F, et al. Intelligent visual surveillance: a review[J].Chinese Journal of Computers, 2015, 38(6): 1093-1118 (in Chinese).

        [3] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

        [4] KARPATHY A. The homepage of Sr. director of AI at tesla[EB/OL]. [2020-01-10]. https://cs.stanford.edu/people/karpathy/.

        [5] 中國(guó)計(jì)算機(jī)學(xué)會(huì)計(jì)算機(jī)視覺(jué)專(zhuān)委會(huì). 未來(lái)5-10年計(jì)算機(jī)視覺(jué)發(fā)展趨勢(shì)[EB/OL]. [2021-01-19]. https://www.zhuanzhi.ai/ vip/9063e592ca07daedd5e0cd9ba90eb10c.

        Technical Committee on Computer Vision, China Computer Federation. Development trend of computer vision in the next 5-10 years[EB/OL]. [2020-01-019]. https://www.zhuanzhi.ai/ vip/9063e592ca07daedd5e0cd9ba90eb10c (in Chinese).

        [6] 胡占義. 計(jì)算機(jī)視覺(jué)簡(jiǎn)介: 歷史、現(xiàn)狀和發(fā)展趨勢(shì), 2017[EB/OL]. [2021-01-05]. http://vision.ia.ac.cn/zh/teaching/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E8%AE%B2%E4%B9%89%E7%AC%AC%E4%B8%80%E7%AB%A0.pdf.

        HU Z Y. Introduction to computer vision: history, present situation and development trend, 2017[EB/OL]. [2021-01-05]. http://vision.ia.ac.cn/zh/teaching/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89%E8%AE%B2%E4%B9%89%E7%AC%AC%E4%B8%80%E7%AB%A0.pdf(in Chinese).

        [7] 黃凱奇, 譚鐵牛. 視覺(jué)認(rèn)知計(jì)算模型綜述[J]. 模式識(shí)別與人工智能, 2013, 26(10): 951-958.

        HUANG K Q, TAN T N. Review on computational model for vision[J]. Pattern Recognition and Artificial Intelligence, 2013, 26(10): 951-958 (in Chinese).

        [8] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.

        [9] FERRARI V, JURIE F, SCHMID C. From images to shape models for object detection[J]. International Journal of Computer Vision, 2010, 87(3): 284-303.

        [10] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[EB/OL]. [2021-01-28]. https://www. researchgate.net/publication/306218037_Learning_multiple_layers_of_features_from_tiny_images.

        [11] EVERINGHAM M, VAN GOOL L, WILLIAMS C K I, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

        [12] GEMAN D, GEMAN S, HALLONQUIST N, et al. Visual turing test for computer vision systems[J]. Proceedings of the National Academy of Sciences, 2015, 112(12): 3618-3623.

        [13] MARR D. Vision: a computational investigation into the human representation and processing of visual information[EB/OL]. [2021-01-20]. https://dl.acm.org/doi/ book/10.5555/1095712.

        [14] BIEDERMAN I. Recognition-by-components: a theory of human image understanding[J]. Psychological Review, 1987, 94(2): 115.

        [15] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex[J]. The Journal of Physiology, 1962, 160(1): 106-154.

        [16] ROBERTS L G. Machine perception of three-dimensional solids[D]. Cambridge: Massachusetts Institute of Technology, 1963.

        [17] MIT Libraries-DSpace@MIT. The summer vision project[EB/OL]. [2020-10-19]. https://dspace.mit.edu/handle/ 1721.1/6125.

        [18] TREISMAN A M, GELADE G. A feature-integration theory of attention[J]. Cognitive Psychology, 1980, 12(1): 97-136.

        [19] CHEN L. Topological structure in visual perception[J]. Science, 1982, 218(4573): 699-700.

        [20] FEI-FEI L, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories[C]//2004 Conference on Computer Vision and Pattern Recognition Workshop. NewYork: IEEE Press, 2004: 178-178.

        [21] GRIFFIN G, HOLUB AD, PERONA P. Caltech-256 Object Category Dataset[R]. Pasadena: California Institute of Technology, 2007.

        [22] KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[EB/OL]. [2021-01-28]. https://www. researchgate.net/publication/306218037_Learning_multiple_layers_of_features_from_tiny_images.

        [23] LIU Z W, LUO P, WANG X G, et al. Deep learning face attributes in the wild[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 3730-3738.

        [24] YANG S, LUO P, LOY C C, et al. Wider face: a face detection benchmark[C]//2016 IEEE Cnference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5525-5533.

        [25] GEIGER A, LENZ P, URTASUN R. Are we ready for autonomous driving? the kitti vision benchmark suite[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 3354-3361.

        [26] HUANG L H, ZHAO X, HUANG K Q. Got-10k: a large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562-1577.

        [27] FAN H, LIN L T, YANG F, et al. Lasot: a high-quality benchmark for large-scale single object tracking[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5374-5383.

        [28] ZHOU B L, ZHAO H, PUIG X, et al. Scene parsing through ade20k dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 633-641.

        [29] Cityscapes Dataset. Semantic understanding of urban street scenes [EB/OL]. [2020-12-10]. https://www.cityscapes-dataset. com/.

        [30] LI D W, ZHANG Z, CHEN X T, et al. A richly annotated pedestrian dataset for person retrieval in real surveillance scenarios[J]. IEEE Transactions on Image Processing, 2019, 28(4): 1575-1590.

        [31] HUANG Y Z, HUANG K Q, YU Y N, et al. Salient coding for image classification[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2011: 1753-1760.

        [32] ZHANG J G, HUANG K Q, YU Y N, et al. Boosted local structured HOG-LBP for object localization[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2011: 1393-1400.

        [33] WANG C, REN W Q, HUANG K Q, et al. Weakly supervised object localization with latent category learning[C]//2014 the European Conference on Computer Vision. New York: IEEE Press, 2014: 431-445.

        [34] WANG C, HUANG K Q, REN W Q, et al. Large-scale weakly supervised object localization via latent category learning[J]. IEEE Transactions on Image Processing, 2015, 24(4): 1371-1385.

        [35] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-02-10]. https: //arxiv.org/abs/1409.1556.

        [36] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 1-9.

        [37] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2021-02-10]. https://arxiv.org/abs/1409.1556.

        [38] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

        [39] HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4700-4708.

        [40] Academic and Research Network of Slovenia. Visual object tracking (VOT) [EB/OL]. [2020-12-19]. http://www.votchallenge. net/.

        [41] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context[C]//2014 European Conference on Computer Vision. Heidelberg: Springer, 2014: 740-755.

        [42] Multiple object tracking benchmark[EB/OL]. [2020-11-30]. https://motchallenge.net/.

        [43] TURING A M. Computing machinery and intelligence[J]. Mind, 1950, 59(236): 433-460.

        [44] FRENCH R M. The turing test: the first 50 years[J]. Trends in Cognitive Sciences, 2000, 4(3): 115-122.

        [45] SHIEBER S M. Lessons from a restricted Turing test[J]. Communications of the ACM, 1994, 37(6): 70-78.

        [46] 黃凱奇, 興軍亮, 張俊格, 等. 人機(jī)對(duì)抗智能技術(shù)[J]. 中國(guó)科學(xué): 信息科學(xué), 2020, 50(4): 540-550.

        HUANG K Q, XING J L, ZHANG J G, et al. Intelligent technologies of human-computer gaming[J]. Sciencein China: Information Sciences, 2020, 50(4): 540-550 (in Chinese).

        [47] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of go without human knowledge[J]. Nature, 2017, 550(7676): 354-359.

        [48] BROWN N, SANDHOLM T. Safe and nested subgame solving for imperfect-information games[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACMPress, 2017: 689-699.

        [49] VON AHN L, BLUM M, HOPPER N J, et al. CAPTCHA: using hard AI problems for security[C]//International Conference on the Theory and Applications of Cryptographic Techniques. Heidelberg: Springer, 2003: 294-311.

        [50] VON AHN L, MAURER B, MCMILLEN C, et al. Recaptcha: Human-based character recognition via web security measures[J]. Science, 2008, 321(5895): 1465-1468.

        [51] QI H, WU T F, LEE M W, et al. A restricted visual turing test for deep scene and event understanding[EB/OL]. [2020-11-15]. https://arxiv.org/abs/1512.01715v2.

        [52] MALINOWSKI M, FRITZ M. A multi-world approach to question answering about real-world scenes based on uncertain input[C]//The 27th International Conference on Neural Information Processing Systems. New York: ACM Press, 2014: 1682-1690.

        [53] MALINOWSKI M, ROHRBACH M, FRITZ M. Ask your neurons: a neural-based approach to answering questions about images[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1-9.

        [54] GAO H Y, MAO J H, ZHOU J, et al. Are you talking to a machine? dataset and methods for multilingual image question[EB/OL]. [2020-12-19]. https://arxiv.org/abs/1505. 05612.

        [55] SHAN Q, ADAMS R, CURLESS B, et al. The visual turing test for scene reconstruction[C]//2013 International Conference on 3D Vision. New York: IEEE Press, 2013: 25-32.

        [56] LAKE B M, SALAKHUTDINOV R, TENENBAUM J B. Human-level concept learning through probabilistic program induction[J]. Science, 2015, 350(6266): 1332-1338.

        [57] ZHANG R, ISOLA P, EFROS A A. Colorful image colorization[C]//European Conference on Computer Vision. Heidelberg: Springer, 2016: 649-666.

        [58] XUE A. End-to-end Chinese landscape painting creation using generative adversarial networks[C]//2021 IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE Press, 2021: 3863-3871.

        [59] LAKE B, SALAKHUTDINOV R, GROSS J, et al. One shot learning of simple visual concepts[EB/OL]. [2021-01-09]. https://www.researchgate.net/publication/285764506_One_shot_learning_of_simple_visual_concepts.

        [60] HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification[C]//2015 IEEE international conference on computer vision. New York: IEEE Press, 2015: 1026-1034.

        [61] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[EB/OL]. [2020-10-12]. https:// arxiv.org/abs/1412.6572.

        [62] ZHOU Z, FIRESTONE C. Humans can decipher adversarial images[J]. Nature Communications, 2019, 10(1): 1-9.

        [63] HU B G, DONG W M. A design of human-like robust AI machines in object identification[EB/OL]. [2020-10-11]. https://arxiv.org/abs/2101.02327v1.

        [64] HYV?RINEN L, WALTHES R, JACOB N, et al. Current understanding of what infants see[J]. Current ophthalmology reports, 2014, 2(4): 142-149.

        [65] AZAM S, GILANI S O, JEON M, et al. A benchmark of computational models of saliency to predict human fixations in videos[C]//The 11th Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VZSIGRAPP 2016). S. Francisco: SCITEPRESS Science and Technology Publications, Lda. 2016: 134-142.

        [66] SMITH L B, SLONE L K. A developmental approach to machine learning?[J]. Frontiers in Psychology, 2017, 8: 2124.

        [67] SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//The 17th International Conference on Pattern Recognition. New York: IEEE Prtess, 2004: 32-36.

        [68] GORELICK L, BLANK M, SHECHTMAN E, et al. Actions as space-time shapes[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(12): 2247-2253.

        [69] HUANG K, WANG L, TAN T, et al. A real-time object detecting and tracking system for outdoor night surveillance[J]. Pattern Recognition, 2008, 41(1): 432-444.

        [70] FAN D P, JI G P, SUN G L, et al. Camouflaged object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 2777-2787.

        [71] AGARWAL S, FARID H, FRIED O, et al. Detecting deep-fake videos from phoneme-viseme mismatches[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2020: 660-661.

        Visual Turing: the next development of computer vision in the view of human-computer gaming

        HUANG Kai-qi1,2, ZHAO Xin1, LI Qiao-zhe1, HU Shi-yu1

        (1. Center for Research on Intelligent System and Engineering, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China; 2. CAS Center for Excellence in Brain Science and Intelligence Technology, Chinese Academy of Sciences, Shanghai 200031, China)

        Computer vision has gained wide attention in the research of artificial intelligence. After nearly 60 years of its development, great achievement has been made in aspect of algorithms, technologies, and applications. Over the past decade, deep learning, which is on the basis of big data and huge computation power, has further ushered computer vision in an era of large model. However, there remains a huge gap between algorithm adaptability and human beings. From the perspective of visual task evaluation (in terms of datasets, metrics, and methods), this paper summarized the development history of computer vision. In addition, a systematic analysis was conducted on the existing problems and obstacles for the development of computer vision heavily dependent on big data learning. Based on the analysis, this paper argued that the visual Turing test could be the next research direction of computer vision. Finally, the development of the visual Turing test and its potential research were discussed.

        computer vision; visual Turing; evaluation of visual tasks; Turing test; datasets

        TP 391

        10.11996/JG.j.2095-302X.2021030339

        A

        2095-302X(2021)03-0339-10

        2021-03-26;

        2021-04-12

        26March,2021;

        12April,2021

        黃凱奇(1977-),男,江西豐城人,研究員,博士。主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、人機(jī)對(duì)抗智能、模式識(shí)別等。E-mail:kqhuang@nlpr.ia.ac.cn

        HUANG Kai-qi (1977-), male, professor, Ph.D. His main research interests cover computer vision, pattern recognition and game theory. E-mail:kqhuang@nlpr.ia.ac.cn

        猜你喜歡
        計(jì)算機(jī)人類(lèi)
        顫抖吧,人類(lèi)
        人類(lèi)能否一覺(jué)到未來(lái)?
        計(jì)算機(jī)操作系統(tǒng)
        人類(lèi)會(huì)成長(zhǎng)起來(lái)嗎?
        人類(lèi)第一殺手
        穿裙子的“計(jì)算機(jī)”
        基于計(jì)算機(jī)自然語(yǔ)言處理的機(jī)器翻譯技術(shù)應(yīng)用與簡(jiǎn)介
        科技傳播(2019年22期)2020-01-14 03:06:34
        計(jì)算機(jī)多媒體技術(shù)應(yīng)用初探
        科技傳播(2019年22期)2020-01-14 03:06:30
        1100億個(gè)人類(lèi)的清明
        信息系統(tǒng)審計(jì)中計(jì)算機(jī)審計(jì)的應(yīng)用
        亚欧视频无码在线观看| 丝袜美腿一区二区三区| 午夜性无码专区| 亚洲综合性色一区| 亚洲伊人免费综合网站| 中国男男女在线免费av| 人妻精品久久无码区| 亚洲精品国产精品国自产观看| 久久久亚洲精品蜜桃臀| 91国产精品自拍视频| 999精品无码a片在线1级| 精品久久久久久久久久中文字幕| 精品99在线黑丝袜| 丰满熟女人妻一区二区三区 | 亚洲成a∨人片在线观看无码| 久久水蜜桃亚洲av无码精品麻豆 | 在线一区不卡网址观看| 日韩精品一区二区三区在线观看的 | 91精品国产色综合久久| 一本色道久久88精品综合| 亚洲 欧美 综合 另类 中字 | 免费无码不卡视频在线观看| 欧美老熟妇欲乱高清视频| 国产目拍亚洲精品一区二区| 97人妻精品一区二区三区免费| 日日摸日日碰人妻无码| 欧美综合自拍亚洲综合图片区| 国产成人一区二区三区影院免费| 99久久国产免费观看精品| 影音先锋色小姐| 亚洲区在线| 国产精品农村妇女一区二区三区| av在线观看一区二区三区| 另类内射国产在线| 午夜影院91| 香港三级日本三韩级人妇久久| 亚洲av无码乱码在线观看裸奔| 亚洲区在线| 麻豆激情视频在线观看| 每日更新在线观看av| 亚洲欧美日韩中文无线码|