[摘要]針對(duì)人工智能領(lǐng)域的計(jì)算機(jī)視覺方向,分別從視覺感知和視覺生成兩個(gè)維度分析計(jì)算機(jī)視覺技術(shù)的最新進(jìn)展,包含但不限于表示學(xué)習(xí)、識(shí)別分類、目標(biāo)檢測(cè)、圖像分割、像素級(jí)別的圖像與視頻生成以及視覺與語言等技術(shù)。在計(jì)算機(jī)視覺技術(shù)的新興應(yīng)用方面,分別論述了內(nèi)容審核、拍照購物及搭配購物等方面的產(chǎn)品在電商領(lǐng)域的成功落地應(yīng)用。
[關(guān)鍵詞]人工智能;計(jì)算機(jī)視覺;視覺理解;視覺生成;電商
[中圖分類號(hào)]TP391.4 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]1005-0310(2020)01-0063-07
0 引言
近年來,隨著大數(shù)據(jù)的發(fā)展和深度學(xué)習(xí)的推進(jìn),人工智能逐漸進(jìn)入大眾視野,不管其是否可以如科幻故事中訴說的那般造福人類,它都正在逐步滲透進(jìn)人們的生活。其中,計(jì)算機(jī)視覺是人工智能落地的最好的領(lǐng)域之一,由于人眼可以包羅萬象,因此計(jì)算機(jī)視覺的應(yīng)用也是無處不在。從市政安防、自動(dòng)駕駛、影視娛樂、時(shí)尚設(shè)計(jì),到日常生活中觸手可及的人機(jī)交互、刷臉認(rèn)證、掃碼支付、相冊(cè)管理,再到目前新興的電商平臺(tái)領(lǐng)域應(yīng)用,等等,計(jì)算機(jī)視覺技術(shù)正持續(xù)快速地落地與滲透。
計(jì)算機(jī)視覺技術(shù)與人的肉眼理解圖片的方式不同,它以數(shù)字矩陣的形式存取圖片。若圖片是RGB格式,那么每一個(gè)像素點(diǎn)顏色便可以用代表RGB(紅綠藍(lán))的3個(gè)數(shù)值作為3個(gè)顏色通道,從而整張圖片便可以用一個(gè)矩陣表示。如圖1[1],人類肉眼觀看到的僅是左側(cè)的一只普通的貓,而在計(jì)算機(jī)眼里每個(gè)像素點(diǎn)都是由3個(gè)0~255之間的數(shù)字組成的矩陣。
2012年是計(jì)算機(jī)視覺發(fā)展歷史中的重要節(jié)點(diǎn),深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用越來越廣泛,取得的突破性成果也日益增加。傳統(tǒng)計(jì)算機(jī)視覺算法逐步被深度學(xué)習(xí)方法所替代,新方法及模型如雨后春筍般快速誕生。
1 計(jì)算機(jī)視覺技術(shù)研究進(jìn)展
計(jì)算機(jī)視覺技術(shù)類別眾多,本文將分別從視覺感知和視覺生成兩個(gè)維度進(jìn)行分析。其中,視覺感知包含表示學(xué)習(xí)、識(shí)別分類、目標(biāo)檢測(cè)和圖像分割等重要任務(wù),視覺生成包括圖像與視頻的生成、視覺與文字結(jié)合進(jìn)行“看圖說話”等。
1.1 視覺感知
1.1.1 識(shí)別分類
在圖像理解的識(shí)別與分類方向,ImageNet比賽是一項(xiàng)著名的物體識(shí)別賽事,從2010年到2017年舉辦競賽的8年間,計(jì)算機(jī)視覺技術(shù)取得了漫長且突破性的進(jìn)步。因?yàn)槲矬w識(shí)別是視覺領(lǐng)域的試金石,學(xué)者普遍會(huì)選擇在ImageNet測(cè)試集上的效果作為模型效果評(píng)判的一個(gè)重要指標(biāo)。ImageNet數(shù)據(jù)集[2]于2009年發(fā)布,其中包括超過1500萬張圖像、約2.2萬類別的物體。ImageNet比賽[3]包含數(shù)據(jù)集中的分類任務(wù)1000類,共1431167張圖像。從2010年起,比賽每年舉辦一場,識(shí)別錯(cuò)誤率逐年降低,網(wǎng)絡(luò)結(jié)構(gòu)逐年加深,歷年比賽奪冠模型的錯(cuò)誤率可見圖2[1],其中,2014年有兩個(gè)不同的模型效果。2012年是取得重大突破的一年,識(shí)別錯(cuò)誤率從2011年的25.8%驟減到16.4%,這需歸功于深度學(xué)習(xí)的引入,即卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Network),其效果在當(dāng)年比賽中脫穎而出[4]。自2012年AIexNet[4]的誕生后,深度學(xué)習(xí)不斷被挖掘,識(shí)別錯(cuò)誤率記錄也一次次被刷新。
除通用物體的大類識(shí)別外,細(xì)粒度視覺分類(Fine-Grained Visual Categorization)也是識(shí)別分類任務(wù)中的一個(gè)重要問題。通常需要利用圖像的整體信息并結(jié)合特定區(qū)域的特征信息,從而判斷圖像中的細(xì)粒度類別。其動(dòng)機(jī)很直觀,例如對(duì)于蝴蝶專家來說,僅通過識(shí)別蝴蝶翅膀的局部信息便可以作出準(zhǔn)確的類別判斷,模型同樣利用了這個(gè)思路。細(xì)粒度分類的難點(diǎn)在于相似大類間的差異以及大類內(nèi)部個(gè)體的細(xì)微差異。例如菜品、鳥類、蝴蝶、商品等類內(nèi)的細(xì)粒度分類,這些難點(diǎn)都在逐一被挑戰(zhàn)。面向不同的場景算法可以分為兩種形式:強(qiáng)監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)。以文獻(xiàn)[5]為例,該比賽數(shù)據(jù)包括2019種款式的商品,超過一百萬張圖片,并以弱監(jiān)督的標(biāo)注方式提供給參賽者。各個(gè)商品大類內(nèi)部個(gè)體間的差異很小,再者又是自然場景拍攝的圖片,拍攝的光線和角度也會(huì)影響到識(shí)別的結(jié)果,因此具有較高的識(shí)別難度。
分析圖片識(shí)別的發(fā)展趨勢(shì)不難發(fā)現(xiàn),隨著時(shí)間的推移,網(wǎng)絡(luò)深度逐年上升,識(shí)別錯(cuò)誤率逐年下降。這便會(huì)產(chǎn)生一種網(wǎng)絡(luò)深度越深、網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率越高的錯(cuò)覺。然而,在視頻識(shí)別領(lǐng)域,隨著網(wǎng)絡(luò)加深,識(shí)別錯(cuò)誤率并沒有穩(wěn)步降低。因此,目前視頻領(lǐng)域的識(shí)別仍然是一個(gè)開放性的問題,相比圖像而言,視頻識(shí)別更加復(fù)雜。ActivityNet[6]比賽是與ImageNet大賽齊名的視頻領(lǐng)域較為重要的比賽。從2011年支持51類到2019年支持700類復(fù)雜動(dòng)作的識(shí)別,視頻識(shí)別技術(shù)在迅速提升。2019年比賽使用Kinetics-700數(shù)據(jù)集作為大賽數(shù)據(jù),要求參賽者從65萬段視頻中,識(shí)別700類復(fù)雜動(dòng)作,類別包括人與物、人與人、人體運(yùn)動(dòng)等互動(dòng)性動(dòng)作,很多類別連人都很難進(jìn)行區(qū)分。而目前最新算法準(zhǔn)確率可達(dá)80%以上,相當(dāng)于幾千段視頻中只錯(cuò)幾十段。
1.1.2 目標(biāo)檢測(cè)
目標(biāo)檢測(cè)任務(wù)同樣是計(jì)算機(jī)視覺領(lǐng)域一個(gè)重要的研究任務(wù),需運(yùn)用算法定位目標(biāo)在圖中的準(zhǔn)確位置,并且給出目標(biāo)的準(zhǔn)確類別信息。目標(biāo)檢測(cè)相比識(shí)別任務(wù)更為復(fù)雜,需首先定位到圖中的目標(biāo)區(qū)域,進(jìn)而對(duì)目標(biāo)區(qū)域進(jìn)行分類處理。目標(biāo)檢測(cè)的示意效果如圖3[7],這是由經(jīng)典的檢測(cè)網(wǎng)絡(luò)Faster R-CNN實(shí)現(xiàn)的檢測(cè)效果,其難點(diǎn)集中在目標(biāo)的多尺度、多角度及多個(gè)目標(biāo)物的準(zhǔn)確檢測(cè)方面。PASCAL VOC[8]作為國際頂級(jí)的計(jì)算機(jī)視覺競賽,其中的目標(biāo)檢測(cè)任務(wù)是權(quán)威的檢測(cè)基準(zhǔn)測(cè)試比賽。這項(xiàng)挑戰(zhàn)賽雖已于2012年停止,但是為評(píng)估最新研究的模型性能,學(xué)者仍可以提交測(cè)試集結(jié)果進(jìn)行評(píng)測(cè)。該比賽數(shù)據(jù)集包含20個(gè)類別,截至目前,平均精確率(mean Average Precision,mAP)可高達(dá)92.9%[9]。
目標(biāo)檢測(cè)可作為諸多細(xì)粒度分支任務(wù)的第一步驟執(zhí)行。例如在人體相關(guān)任務(wù)中,首先需檢測(cè)圖像中的人體區(qū)域,隨后獲取骨骼姿態(tài)的信息,進(jìn)而對(duì)人體圖像的各部分作分割處理,最終建立人體的三維模型。人體相關(guān)的檢測(cè)任務(wù)在視頻和圖像中都有諸多應(yīng)用,包括自動(dòng)駕駛、智能監(jiān)控(客流量的統(tǒng)計(jì))、人機(jī)交互、智能結(jié)算等。目前前沿的人體檢測(cè)模型,當(dāng)前向速度在每秒傳輸幀數(shù)(Frame PerSecond,F(xiàn)PS)為25時(shí),準(zhǔn)確率可達(dá)到90%以上。
另外,人臉檢測(cè)是人臉相關(guān)任務(wù)中重要的一個(gè)環(huán)節(jié)。人臉識(shí)別系統(tǒng)的整個(gè)流程,需首先從圖像中檢測(cè)到包含人臉的區(qū)域,隨后對(duì)框內(nèi)的人臉進(jìn)行關(guān)鍵點(diǎn)定位。通過定位可以對(duì)人臉進(jìn)行矯正和歸一化處理,進(jìn)而執(zhí)行隨后的系列人臉識(shí)別任務(wù)。落地應(yīng)用包括防偽識(shí)別、人臉屬性識(shí)別、表情識(shí)別等。
在視頻任務(wù)中,動(dòng)作檢測(cè)與跟蹤也是富有挑戰(zhàn)性的工作。目前,視頻動(dòng)作檢測(cè)可以支持100多個(gè)動(dòng)作類別,mAP可達(dá)50%以上。實(shí)際上,當(dāng)mAP達(dá)到30%以上時(shí),便可以應(yīng)用到實(shí)際場景中。另外,在人體的關(guān)鍵點(diǎn)追蹤任務(wù)中,依據(jù)關(guān)鍵點(diǎn)對(duì)人體進(jìn)行跟蹤,可以實(shí)現(xiàn)給每個(gè)人體定義唯一編號(hào),并獲取每個(gè)姿態(tài)的關(guān)鍵點(diǎn)出現(xiàn)位置,即使有遮擋或復(fù)雜的動(dòng)作也可以準(zhǔn)確地進(jìn)行跟蹤。
1.1.3 其他任務(wù)
除上述兩個(gè)基礎(chǔ)任務(wù)外,還有諸多計(jì)算機(jī)視覺理解的任務(wù)。
表示學(xué)習(xí)旨在更加深入地分析如何理解圖像。對(duì)于人眼來說很直觀的圖像,計(jì)算機(jī)需要將它轉(zhuǎn)換成矩陣、模型等形式進(jìn)行理解。因此,表示學(xué)習(xí)需要學(xué)習(xí)到可以最佳體現(xiàn)圖像特征信息的表示方法。利用特征之間的相似度比較,可應(yīng)用在圖像匹配的相關(guān)任務(wù)上。例如,將手繪圖與商品圖進(jìn)行匹配,利用表示學(xué)習(xí)將不同維度的圖片轉(zhuǎn)化到同一空間下進(jìn)行表示,根據(jù)手繪圖特征信息,在商品圖特征庫中搜索用戶手繪圖對(duì)應(yīng)的商品。相反地,利用特征間的互補(bǔ)性,可將其應(yīng)用在搭配搜索的相關(guān)問題中,將服飾搭配問題轉(zhuǎn)換為搜索與其特征互補(bǔ)的服飾圖片而得到解決,可節(jié)省聘請(qǐng)專業(yè)搭配師的大量成本且具有高擴(kuò)展性。
圖像分割也是計(jì)算機(jī)視覺中非常重要的一環(huán)。依據(jù)分割的粒度,可將分割任務(wù)分為普通分割、語義分割和實(shí)例分割。普通分割指圖片像素級(jí)別的分割,意在分割圖中不同的區(qū)域;在此基礎(chǔ)上,語義分割可提供每個(gè)區(qū)域的語義信息;實(shí)例分割則是在語義分割基礎(chǔ)上給出各個(gè)區(qū)域唯一的編號(hào)。實(shí)例分割的示意效果可見圖4,這是由Mask R-CNN實(shí)現(xiàn)的分割效果[10]。人體部分的分割是其中一項(xiàng)更細(xì)粒度的任務(wù),大到人體各個(gè)部位的剖析,小到人佩戴的眼鏡、皮包、項(xiàng)鏈等零部件的分割。通過人體分割,可對(duì)人體服飾進(jìn)行解析,進(jìn)而可用于時(shí)尚搭配分析等。在視頻領(lǐng)域,分割任務(wù)也有諸多有重要價(jià)值的應(yīng)用,例如在自動(dòng)駕駛領(lǐng)域,舉辦了國際權(quán)威的分割比賽[11],數(shù)據(jù)集包含來自50個(gè)不同城市的街道場景,標(biāo)注共30類物體。
1.2 視覺生成
1.2.1 圖像與視頻的像素級(jí)生成
計(jì)算機(jī)視覺在感知理解圖像與視頻的基礎(chǔ)上,還可以完成多維度的生成任務(wù)。例如,超分辨率的圖像及視頻的生成,老照片、老影片的修復(fù);或是對(duì)圖片進(jìn)行編輯,實(shí)現(xiàn)智能摳圖,生成去背景的主體透底圖、自拍人像等。同時(shí),生成任務(wù)還可輔助設(shè)計(jì),例如時(shí)尚海報(bào)的設(shè)計(jì)。通過輸人模特的圖片,利用空間心理學(xué)的概念,結(jié)合計(jì)算機(jī)視覺的布局分析、模板設(shè)計(jì)、顏色心理學(xué)的多重關(guān)系進(jìn)行海報(bào)的設(shè)計(jì)。除此之外,結(jié)合人體檢測(cè)技術(shù),通過輸人模特的圖片生成其他姿勢(shì)的模特圖片,或給模特?fù)Q裝,或手動(dòng)編輯衣服類別生成所需效果。甚至可以通過學(xué)習(xí)模特的走步特征,由靜態(tài)圖片生成模特走步的動(dòng)態(tài)視頻。再者,圖像生成也可實(shí)現(xiàn)圖像和視頻的風(fēng)格遷移,例如將真實(shí)街景變?yōu)榭ㄍó?、水墨畫風(fēng)格,將自天和黑夜場景進(jìn)行視頻互換等。
1.2.2 視覺與語言
計(jì)算機(jī)視覺與語言的結(jié)合是近些年計(jì)算機(jī)視覺領(lǐng)域一個(gè)新興的研究方向。通過文本生成圖像,從2014年起發(fā)展,直到近些年可以實(shí)現(xiàn)通過輸人描述性的句子,便可生成自然場景中對(duì)應(yīng)的圖片。例如通過描述鳥的翅膀顏色,算法可以畫出多種不同姿態(tài)的鳥類圖片,如圖5[12]、圖6[13]、圖7[14],隨著技術(shù)的不斷發(fā)展,算法逐漸可以畫出更加清晰的鳥類,甚至可以生成更為廣泛類別的清晰物體圖像。在視頻領(lǐng)域也同樣可以實(shí)現(xiàn)文字到視頻的生成。
通過圖像生成文字,所謂“看圖說話”,即通過一張圖片生成一段沒有語法錯(cuò)誤的文字。如圖8所示,目前算法不僅可以識(shí)別出圖中含有斑馬目標(biāo),還可生成“彩虹在空中”以及“斑馬在吃草”這類目標(biāo)物體之間的關(guān)系描述。而技術(shù)不是一朝一夕、一蹴而就的,經(jīng)歷了從2015年到2018年的逐漸演變,研究日益深入,文字描述才逐漸精準(zhǔn)且全面。早在2015年“看圖說話”初步興起時(shí),算法僅能給出基本的描述:“a group of zebras standing in afield”[15],但這個(gè)描述相對(duì)籠統(tǒng)且缺乏細(xì)節(jié)。2016年和2017年生成的句子可以更精準(zhǔn)地描述出“grazing”[16-17]的動(dòng)作,而非簡單的“standing”。直至2018年,算法可描述得更加細(xì)致,對(duì)物體間關(guān)系的細(xì)節(jié)描述也更加清晰,如“rainbow in thesky”[18-19]已非常接近人類的描述能力,文字描述愈發(fā)具體且全面。
同樣,算法可通過視頻生成描述性的文字。對(duì)視頻中動(dòng)作識(shí)別的復(fù)雜性和對(duì)象間的遮擋關(guān)系都增大了視頻描述的難度。因此2015年和2016年的算法對(duì)視頻中人類的性別和動(dòng)作都很難準(zhǔn)確判斷,直至2017年生成的句子才可以準(zhǔn)確地描述人類性別和動(dòng)作,到2019年甚至可以描述出場景的細(xì)節(jié)信息。
“看圖說話”在實(shí)際場景中也有諸多應(yīng)用,例如在電商領(lǐng)域?qū)ι唐愤M(jìn)行描述,針對(duì)不同的用戶生成個(gè)性化的文字描述;在視頻領(lǐng)域,算法可以為網(wǎng)絡(luò)直播寫評(píng)論,為球賽作轉(zhuǎn)播等。
2 計(jì)算機(jī)視覺技術(shù)新興應(yīng)用
2.1 內(nèi)容審核
內(nèi)容審核在互聯(lián)網(wǎng)內(nèi)容領(lǐng)域有較大的應(yīng)用必要性,確保網(wǎng)絡(luò)平臺(tái)的運(yùn)營遵守國家網(wǎng)絡(luò)內(nèi)容安全規(guī)范,避免監(jiān)管風(fēng)險(xiǎn),例如約談、整改、罰款甚至關(guān)停等??蓱?yīng)用在互聯(lián)網(wǎng)領(lǐng)域的電商、社交、新聞傳媒等平臺(tái),從而對(duì)內(nèi)容安全進(jìn)行把控。這類審核產(chǎn)品有效地利用了計(jì)算機(jī)視覺的識(shí)別分類技術(shù)、目標(biāo)檢測(cè)技術(shù)等。
例如智能鑒黃,應(yīng)用圖像的識(shí)別分類技術(shù),對(duì)人體裸露的敏感部位、敏感涉黃動(dòng)作的圖片與視頻進(jìn)行識(shí)別,將海量圖片或視頻分為正常、低俗、涉黃等不同類別,從而依據(jù)其類別與置信度過濾涉黃違禁圖。算法審核極大地縮小人力審核的工作量,大幅節(jié)約了人力的審核成本,并減少了對(duì)審核人員造成的精神傷害。
另外,利用算法對(duì)暴恐場景、違禁品進(jìn)行識(shí)別,需應(yīng)用識(shí)別分類技術(shù)并結(jié)合目標(biāo)檢測(cè)技術(shù),將圖庫中的涉恐及違禁品圖片進(jìn)行分類,包括暴亂、血腥、爆炸火光、管制刀具、違禁槍支、毒品、賭博行為等。同時(shí),可以對(duì)圖中恐怖組織旗幟的標(biāo)識(shí)進(jìn)行目標(biāo)檢測(cè)與識(shí)別。利用算法對(duì)大規(guī)模數(shù)據(jù)進(jìn)行過濾,可以有效地避免給用戶帶來的不適體驗(yàn)和錯(cuò)誤引導(dǎo),減少危險(xiǎn)信息利用網(wǎng)絡(luò)傳播的風(fēng)險(xiǎn)。
2.2 拍照購物及搭配購物
拍照購物是計(jì)算機(jī)視覺技術(shù)在電商領(lǐng)域的一個(gè)成功應(yīng)用。如圖9所示,用戶僅需要提供所想購買的商品圖片,計(jì)算機(jī)就能在商城海量的圖片數(shù)據(jù)中找到匹配用戶需求的商品。拍照購物使用的計(jì)算機(jī)視覺技術(shù)主要有目標(biāo)檢測(cè)、分類、特征學(xué)習(xí)及檢索等。
拍照購物有效地打通了所見即所得的購物渠道,省去了用戶大量的文字搜索時(shí)間,極大地提升了用戶的購物體驗(yàn)。離線部分的流程包括:將商品圖、曬單圖清洗人庫,用于訓(xùn)練檢測(cè)、分類和特征模型,進(jìn)而將商品的特征人庫保存并建立索引。線上流程則包括:用戶端輸人欲購買商品的拍攝圖,計(jì)算機(jī)將其依次經(jīng)過已訓(xùn)練完備的分類、檢測(cè)、特征模型,從而得到欲購買商品的特征,在離線特征庫中進(jìn)行檢索,最終對(duì)商品順序合理化重排后,將所有疑似商品信息反饋展示給用戶。
此外,搭配購物也是一個(gè)新興的計(jì)算機(jī)視覺算法的落地方向。例如在用戶購買上衣后,算法可以根據(jù)上衣類型及用戶喜好為用戶推薦搭配該上衣的套裝,兼具合理性、美觀性、多樣性及個(gè)性化的特點(diǎn)。其流程與拍照購物類似,首先對(duì)圖中單品進(jìn)行檢測(cè),進(jìn)而提取商品特征,進(jìn)行搭配搜索、打分,最終還會(huì)生成搭配理由。目前算法的搭配效果與專業(yè)搭配師的搭配相比,人類其實(shí)很難進(jìn)行區(qū)分。利用算法進(jìn)行搭配推薦,可以極大地節(jié)省聘請(qǐng)專業(yè)搭配師的費(fèi)用,并且具有時(shí)效性,其類別拓展性也更強(qiáng)。
3 結(jié)束語
計(jì)算機(jī)視覺技術(shù)在視覺理解和內(nèi)容生成方面都有深度的拓展,其中發(fā)展較為成熟的技術(shù)已經(jīng)落地應(yīng)用到實(shí)際工業(yè)場景,并得到了有效海量數(shù)據(jù)的驗(yàn)證與認(rèn)可。計(jì)算機(jī)視覺技術(shù)應(yīng)用在諸多新興領(lǐng)域,例如在電商領(lǐng)域,通過對(duì)大規(guī)模數(shù)據(jù)的批量處理,完成人力無法輕易完成的工作量,有效地對(duì)大數(shù)據(jù)質(zhì)量進(jìn)行把控。對(duì)計(jì)算機(jī)視覺技術(shù)自身而言,由于目前落地產(chǎn)品大多是數(shù)據(jù)驅(qū)動(dòng),研究的熱點(diǎn)包括小樣本學(xué)習(xí)、遷移學(xué)習(xí)及無監(jiān)督信息學(xué)習(xí)等方面,致力實(shí)現(xiàn)通過提供少量的訓(xùn)練樣本或是無完備標(biāo)注信息的樣本,得到效果理想的模型。
[參考文獻(xiàn)]
[1]JOHNSON J,YEUNG S,LI F F.CS231n:convolutional neural network for visual recognition[EB/OL].(2019-02-04)[2019-11-18].http:/vision.stanford.edu/teaching/es231n/slides/2019/cs231n_2019 lecture01.pdf.
[2]DENG J,DONG W,SOCHER R,et al.ImageNet:a large-scale hierarchical image database[C]// 2009 IEEE ComputerSociety Conference on Computer Vision and Pattern Recognition(CVPR 2009),20-25th June,2009,Miami,F(xiàn)lorida,USA.IEEE,2009:248-255.
[3]ImageNet[EB/OL].[2019-11-18].http://www.image-net.org/.
[4] KRIZHEVSKY A,SUTSKEVERI,HINTON G E.ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems,2012:1097-1105.
[5]IMaterialist challenge on product recognition[EB/OL].[2019-11-18].https://www.kaggle.com/c/imaterialist-product-2019/overview/description
[6]Activity-net Competition[EB/OL].[2019-11-18].http://activity-net.org.
[7]REN S Q,HE KM,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2015,39(6):1137-1149.
[8]University of Oxford,Microsoft Research Cambridge,University of Illinois at Urbana-Champaign.Pascal VOC[ER/OL].[2019-11-18].http://http://hots.ox.ac.uk/pascal/VOC/.
[9]PASCAL VOC challenge performance evaluation and download server[EB/OL].[2019-11-18].http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4.
[10]HE KM,GKIOXARI G,DOLLAR P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision(ICCV).IEEE Computer Society,2017:2961-2969.
[11]Cityscapes dataset[EB/OL].[2019-11-18].https://www.cityscapes-dataset.com.
[12]REED S,AKATA Z,YAN X,et al.Generative adversarial text to image synthesis[C]//2016 International Conference onMachine Learning(ICML 2016),19-24 June,2016,New York,USA.2016:1681-1690.
[13]XU T,ZHANG P C,HUANG Q Y,et al.AttnGAN:fine-grained text to image generation with attentional generativeadversarial networks[C]//2018 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR2018),19-21st June,2018,Salt Lake City,Utah,USA.IEEE,2018:1316-1324.
[14]BROCK A,DONAHUEJ,SIMONYAN K.Large scale GAN training for high fidelity natural image synthesis[Z/OL].(2019-02-25)[2019-11-18].https://arxiv.org/abs/1809.11096.
[15]VINYALS 0,TOSHEV A,BENGIO S,et al.Show and tell:a neural image caption generator[C]//2015 IEEE ComputerSnciety Conference on Computor Vision and Pattern Recognition(CYPR 2615),8-10th June,2015,Boston,Massachusetts,USA.IEEE,2015:3156-164.
[16]YOU Q,JIN H,WANG Z,et al. Image captioning with semantic attention[C]//2016 IEEE Computer Society Conference onComputer Vision and Pattern Recognition(CVPR 2016),26th June-1 st July,Las Vegas,Nevada,USA,IEEE,2016:4651-4659.[17]YAO T,PAN Y,LI Y,et al.Boosting image captioning with attributes[C]//2017 IEEE International Conforene onComputer Vision(ICCY 2017),22-29th October,Venice,Italy.IEEE,2017:4894-4902.
[18]ANDERSON P,HE X,BUEHLER C,et al.Bottom-up and top-down attention for image captioning and visual questionanswering[C]//2018 IEEE Computer Society Conference on Computer Vision and Pattern Reurlition(CVPR 2018),19-21st June,2018,Salt Lake City,Utah,USA.IEEE,2018:6077-6086.
[19]YAO T,PAN Y,LI Y,et al.Exploring visual relationship for image captioning[C]//2018 European Conference onComputer Vision(ECCV 2019),8-14 th September,2018,Munich,Germany.2018:711-727.
(責(zé)任編輯 白麗緩)
[收稿日期]2019-11-20
[作者簡介]余京蕾(1994-),女,北京市人,美國賓夕法尼亞大學(xué)計(jì)算機(jī)與信息學(xué)院碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺。E-mail:yujinglei2015@163.com