周珊 劉子龍
摘要:圖片相比文字而言,可以為人們呈現(xiàn)更生動(dòng)、更易于理解和更豐富的信息,海量圖片成為互聯(lián)網(wǎng)信息交流的主要媒介之一。因此,如何快速、便捷地自動(dòng)生成圖像描述具有研究意義。介紹了一種根據(jù)圖像生成其內(nèi)容的自然語(yǔ)言描述模型,該模型是基于一種在圖像區(qū)域上應(yīng)用改進(jìn)的Faster-RCNN、在句子上應(yīng)用BRNN以及通過(guò)多模嵌入達(dá)成兩種模態(tài)對(duì)齊的一種結(jié)構(gòu)化目標(biāo)的新穎組合。對(duì)實(shí)驗(yàn)生成描述與圖片本來(lái)描述相似度進(jìn)行評(píng)估,B-1為0.63,B-2為0.45,B-1為0.32,相較于初始的一些語(yǔ)言描述模型性能有明顯提高,說(shuō)明該模型有一定的實(shí)用性。
關(guān)鍵詞:自然語(yǔ)言描述模型;改進(jìn)Faster-RCNN;BRNN;多模嵌入;模態(tài)對(duì)齊
DOIDOI:10.11907/rjdk.181011
中圖分類號(hào):TP317.4
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2018)008-0040-05
英文摘要Abstract:Nowadays millions of pictures have become communicate media of the Internet information.Compared with words,pictures are more vivid,easy-to-understand and they are interesting information to people.Therefore,the research on automatic acquisition of image content has great theoretical and practical significance.This paper mainly introduces a natural language description model based on image to generate its content.It is mainly based on an improved Faster-RCNN applied to the image region.BRNN is applied to sentences and a structured objective which aligns two modalities by a multimodal embedding.The similarity assessment between experimental description and the original description of the picture are as followed:the B-1 was 0.63,the B-2 was 0.45 and the B-1 was 0.32.The performance of the model was obviously improved compared with some of the original language description models,which showed that the model has certain practicality.
英文關(guān)鍵詞Key Words:natural anguage description model; improved faster-RCNN; BRNN; multimodal embedding; modality alignment
0 引言
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和電子設(shè)備數(shù)字影像技術(shù)的提高,人們更喜歡用智能手機(jī)拍攝和截屏,更方便、更快速地采集和記錄信息??焖贋g覽一張圖像足以讓人們指出并描述關(guān)于視覺場(chǎng)景的大量細(xì)節(jié)。然而,如果只能通過(guò)識(shí)別出數(shù)字信息的計(jì)算機(jī)技術(shù)獲取圖像內(nèi)容,其算法過(guò)程之復(fù)雜是難以想象的。目前大多數(shù)的視覺識(shí)別工作都集中在使用固定模型對(duì)圖像進(jìn)行標(biāo)注上,雖然實(shí)現(xiàn)了對(duì)整幅圖像內(nèi)容的自動(dòng)標(biāo)注,但與人類可表達(dá)的豐富描述相比仍有很大的局限性。這些模型通常使用特定的模板對(duì)圖片和句子進(jìn)行學(xué)習(xí),這對(duì)圖片的豐富描述產(chǎn)生了限制。此外,有研究將復(fù)雜的視覺場(chǎng)景減縮為單個(gè)句子,這也是沒(méi)必要的約束。
本文的核心思想是:給模型輸入一些圖像及其相應(yīng)的句子描述,將這些圖片及句子數(shù)據(jù)集視為弱標(biāo)簽進(jìn)行學(xué)習(xí),學(xué)習(xí)連續(xù)的詞段及在圖片中對(duì)應(yīng)的位置。通過(guò)大量的學(xué)習(xí),模型可生成句子段并推斷出其描述對(duì)應(yīng)的圖像區(qū)域,如圖1所示。
本文研究的目的是對(duì)給定的輸入圖片自動(dòng)生成語(yǔ)言描述。提出一個(gè)多模嵌入模型,它能檢索圖片中的內(nèi)容及所處位置,然后生成文本段對(duì)應(yīng)到圖片中所描述的區(qū)域,最后用文本段生成完整的句子描述。該模型涉及兩種深度神經(jīng)網(wǎng)絡(luò),分別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。本文利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像從底層到高層的多示例融合視覺特征,對(duì)圖像進(jìn)行區(qū)域標(biāo)注;基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人工描述序列中的語(yǔ)法和語(yǔ)義,然后對(duì)區(qū)域的文本段生成自然語(yǔ)言描述。
1 相關(guān)工作
圖像的多標(biāo)簽自動(dòng)標(biāo)注已有大量研究,如Gould和Socher等[1-2]研究了在固定類別集上對(duì)圖片中的物體、場(chǎng)景和區(qū)域進(jìn)行正確的語(yǔ)義標(biāo)注?;诰矸e神經(jīng)網(wǎng)絡(luò)能對(duì)圖像進(jìn)行多尺度的特征提取,在處理圖像數(shù)據(jù)集時(shí)有很好的分類效果。針對(duì)一般模型在訓(xùn)練和測(cè)試時(shí)速度慢的特征,本文應(yīng)用更快區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster-Region Convolutional Neural Network,F(xiàn)aster-RCNN),在訓(xùn)練時(shí)占空相對(duì)較小,并且能提高檢測(cè)運(yùn)算的精度和速度。該方法標(biāo)注內(nèi)容更豐富,對(duì)區(qū)域的描述也更準(zhǔn)確。
對(duì)于圖像的句子描述,Kiros等[3]提出了邏輯雙線性模型生成對(duì)圖像的完整句子描述,但是這種模型使用的是固定的上下文窗口。Donahue等[4]使用RNN模型,它與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的不同之處在于其帶有記憶功能,能夠處理對(duì)前面輸出內(nèi)容有關(guān)聯(lián)的輸出問(wèn)題。本文采用BRNN,它不僅與前面的內(nèi)容有關(guān),還與后面的內(nèi)容有關(guān),可以很好地根據(jù)上下文預(yù)測(cè)生成的句子描述。此外,有許多不同的研究方法用來(lái)把詞段和圖片聯(lián)系起來(lái),例如Karpathy等[5]把圖片和句子分解成片段并推斷它們之間的對(duì)應(yīng)關(guān)系,本文方法和它有類似之處,但是本文沒(méi)有固定長(zhǎng)度的上下文窗口。
2 模型介紹
2.1 模型特征
人們撰寫句子時(shí)會(huì)頻繁地引用圖像中某些特定但未知的位置,如圖1中 “貓正倚靠在木桌上”一句涉及到貓和木桌,要從圖片和描述中推斷出這些對(duì)應(yīng)關(guān)系,從而學(xué)會(huì)從圖像區(qū)域自動(dòng)生成這些文本段。本文先將句子和圖像區(qū)域映射到共同的、多模嵌入的神經(jīng)網(wǎng)絡(luò),使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)獲取圖像的特征區(qū)域,使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)計(jì)算句子中詞段的表示,并允許詞及上下文在句子中不受限制地交互。接著,通過(guò)兩種模型采取嵌入的表示方法,使語(yǔ)義相似概念占據(jù)圖片空間中鄰近的區(qū)域。
2.1.1 Faster-RCNN
3 實(shí)驗(yàn)與分析
本文實(shí)驗(yàn)使用MSCOCO數(shù)據(jù)集[9],它包含的圖像信息有目標(biāo)類別標(biāo)簽及位置坐標(biāo)等,標(biāo)簽文件的坐標(biāo)精確度均為小數(shù)點(diǎn)后兩位,包含80k的訓(xùn)練圖片、40k校驗(yàn)圖片、20k的測(cè)試圖片和80多種分類。
TensorFlow框架是谷歌開源的軟件庫(kù),該系統(tǒng)功能強(qiáng)大,可用于復(fù)雜的數(shù)字計(jì)算,是目前為止效果較好的實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的框架。它實(shí)現(xiàn)模型功能非常靈活,處理框架以數(shù)據(jù)流圖的方式運(yùn)算,支持個(gè)人電腦或服務(wù)器上多處理器運(yùn)行。
3.1 模型訓(xùn)練
Faster-RCNN采用RPN+VGG模型,其中VGG訓(xùn)練模型采用VGG-16,雖然實(shí)驗(yàn)效果較好,但它占用GPU顯存較大、速度過(guò)慢。針對(duì)這個(gè)問(wèn)題,訓(xùn)練過(guò)程中對(duì)模型卷積核的步長(zhǎng)和一些參數(shù)進(jìn)行修改,提升算法速度和內(nèi)存占用。模型訓(xùn)練先在檢測(cè)挑戰(zhàn)賽的200多個(gè)類別的ImageNet圖像集上進(jìn)行,得到初始結(jié)果,然后再進(jìn)行微調(diào)。訓(xùn)練過(guò)程采用端到端近似聯(lián)合訓(xùn)練方式,這種方式使用顯存較小,訓(xùn)練速度較快,準(zhǔn)確率也很高。需要注意的是要把標(biāo)簽含有大寫字母全部改成小寫字母,否則會(huì)出現(xiàn)關(guān)鍵字錯(cuò)誤。
訓(xùn)練多模深度神經(jīng)網(wǎng)絡(luò)根據(jù)上下文預(yù)測(cè)下一個(gè)輸出單詞。將h0初始值設(shè)為零向量,x1設(shè)置為特殊的START向量,并將期望的標(biāo)簽y1設(shè)置為序列中的第一個(gè)字。類似地,將x2設(shè)置為第一個(gè)字的字矢量,并期望網(wǎng)絡(luò)預(yù)測(cè)第二個(gè)字,等等。最后一步,當(dāng)xt表示最后一個(gè)字時(shí),目標(biāo)標(biāo)簽設(shè)置為特殊的END標(biāo)記。本文使用SGD優(yōu)化算法,每批訓(xùn)練數(shù)據(jù)輸入50組圖片和描述,使用Inverted Dropout函數(shù)訓(xùn)練,提高訓(xùn)練效果,使用softmax分類器進(jìn)行優(yōu)化。
3.2 模型測(cè)試與評(píng)估
為了解算法對(duì)圖像特征提取和標(biāo)注的性能,本文對(duì)模型準(zhǔn)確率和召回率作了評(píng)估,選擇一些具有代表性的模型進(jìn)行比較,包括2010年文獻(xiàn)[2]中Socher提出的模型、2015年文獻(xiàn)[14]中的Fast-RCNN模型,2016年文獻(xiàn)[15]中的NSIDML模型。
通過(guò)表1可以看到,本文使用的方案與其它幾種方案相比,在平均準(zhǔn)確率和平均召回率上都有優(yōu)勢(shì)。本文的準(zhǔn)確率雖然沒(méi)有NSIDML模型高,但也達(dá)到了較高水平,綜合指標(biāo)F1一Score是最高的。雖然在F1一Score綜合衡量上與NSIDML相比并沒(méi)有大幅度提高,但在召回率上有大幅度提高,說(shuō)明該方案在常用標(biāo)簽上具有較強(qiáng)的實(shí)用性,該方法對(duì)圖片標(biāo)注的測(cè)試結(jié)果如圖6所示。如果使用更多大規(guī)模數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,該方案理論上能取得更好效果。
為驗(yàn)證對(duì)圖像區(qū)域文本描述性能,本文用n-單位片段評(píng)價(jià)方法對(duì)模型得到的描述與圖片本身的相似度作評(píng)估,表示為B-n。本文還選擇一些有代表性的模型與本文模型進(jìn)行對(duì)比,分?jǐn)?shù)越高代表性能越好。對(duì)比模型有文獻(xiàn)[12]中提出的RNN模型,文獻(xiàn)[13]中提出的Google NIC模型,文獻(xiàn)[4]中提出的LRCN模型和本文模型,簡(jiǎn)寫為MDNN。
通過(guò)表2可以看到,本文模型與最初的RNN模型相比性能有了明顯提高,說(shuō)明該模型確實(shí)有一定的實(shí)用性。雖然本文給出的實(shí)驗(yàn)沒(méi)有Google NIC性能好,但如果使用更多的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練可能會(huì)取得更好的實(shí)驗(yàn)效果。最終自動(dòng)生成描述的測(cè)試圖片效果如圖7所示。
4 結(jié)語(yǔ)
本文采用一種基于圖像和句子數(shù)據(jù)集弱標(biāo)簽的形式生成圖像區(qū)域的自然語(yǔ)言描述模型。首先介紹了Faster-RCNN和BRNN兩個(gè)深度神經(jīng)網(wǎng)絡(luò),然后描述了標(biāo)注詞與圖片分割域?qū)R的方法,最后介紹了單詞序列整合及在多模深度神經(jīng)網(wǎng)絡(luò)中的生成描述。
盡管本文模型對(duì)圖片產(chǎn)生的描述效果較好,但也有很多限制,如模型只能以固定分辨率的圖像生成一組像素?cái)?shù)據(jù)和文字描述數(shù)據(jù)作為輸入。 此外,本文方法是由圖像處理模型和語(yǔ)言分析模型組合而成,直接從圖像數(shù)據(jù)集到圖像描述端到端模型仍需進(jìn)一步研究。
圖像包含信息豐富的背景,應(yīng)當(dāng)充分利用圖像的多種數(shù)據(jù)源特征,如圖像生成時(shí)間和地理位置等,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行多特征融合,對(duì)圖像進(jìn)行分析和描述。
參考文獻(xiàn):
[1] GOULD S, FULTON R,KOLLER D.Decomposing a scene into geometric and semantically consistent regions[C].IEEE 12th International Conference onComputer Vision,2009:1-8.
[2] SOCHER R,F(xiàn)EI-FEI L.Connecting modalities:semi-supervised segmentation and annotation of images using unaligned text corpora[J].Computer Vision & Pattern Recognition,2010:966-973.
[3] KIROS R,ZEMEL R S,SALAKHUTDINOV R.Multimodal neural language models[C].International Conference on International Conference on Machine Learning,2014:II-595.
[4] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al.Long-term recur- rent convolutional networks for visual recognition and description[DB/OL].arXiv preprint arXiv:1411.4389,2014.
[5] KARPATHY A,JOULIN A,F(xiàn)EI-FEI L.Deep fragment embeddings for bidirectional image sentence mapping[DB/OL].arXiv preprint arXiv:1406.5679,2014.
[6] REN S,GIRSHICK R,SUN J.Fasterr R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015.
[7] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].2014 IEEE Conference on Computer Vision and Pattern Recognition ,2014:580-587.
[8] DENKOWSKI M,LAVIE A.Meteor universal:language specific translation evaluation for any target language[C].Proceedings of the EACL 2014 Workshop on Statistical Machine Translation,2014:376-380.
[9] CHEN X,F(xiàn)ANG H,LIN T Y,et al.Microsoft coco captions:data collection and evaluation server[DB/OL].arXiv preprint arXiv:1504.00325,2015.
[10] 高揚(yáng),衛(wèi)崢.白話深度學(xué)習(xí)與TensorFlow[M].北京:機(jī)械工業(yè)出版社,2017.
[11] KIROS R,SALAKHUTDINOV R,ZEMEL R S.Unifying visual-semantic embeddings with multimodal neural language models[DB/OL].arXiv preprint arXiv:1411.2539,2014.
[12] MAO J,XU W,YANG Y,et al.Explain images with multimodal recurrent neural networks[DB/OL].arXiv preprint arXiv:1410.1090,2014.
[13] VINYALS O,TOSHEV A,BENGIO S,et al.Show and tell:A neural image caption generator[DB/OL].arXiv preprint arXiv:1411.4555,2014.
[14] GIRSHICK R.Fast R-CNN[C].Proceedings of the IEEE International Conference on Computer Vision.2015:1440-1448.
[15] JIN C,JIN S W.Image distance metric learning based on neighborhood sets for automatic image annotation[J].Journal of Visual Communication and Image Representation,2016(34):167-175.
(責(zé)任編輯:杜能鋼)