摘要:圖像理解是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)非常難的科學(xué)問(wèn)題,傳統(tǒng)的圖像處理方法很難給出比較有效的解決方案。深度學(xué)習(xí)技術(shù)相比于傳統(tǒng)圖像處理分析技術(shù)具有獨(dú)特的優(yōu)勢(shì),因此其在圖像理解任務(wù)中獲得了比較好的結(jié)果。本文對(duì)基于深度學(xué)習(xí)的圖像理解技術(shù)的研究現(xiàn)狀進(jìn)行了分析與對(duì)比,并對(duì)后續(xù)的發(fā)展進(jìn)行了展望。
關(guān)鍵詞:圖像理解;深度學(xué)習(xí);深度神經(jīng)網(wǎng)絡(luò);計(jì)算機(jī)視覺(jué)
一、概述
圖像視覺(jué)信息是人類感知外部世界的重要信息來(lái)源,研究表明人類感知信息80%來(lái)源于視覺(jué)。視覺(jué)信息具有多樣、靈活、多變等特點(diǎn),包含的信息量大而豐富,人類可以通過(guò)發(fā)達(dá)的大腦快速的處理視覺(jué)信息,并給出其語(yǔ)義理解。
然而計(jì)算機(jī)在圖像理解方面卻很難做到這一點(diǎn),一方面由于圖像信息量過(guò)大,而計(jì)算機(jī)計(jì)算能力有限;另一方面由于早期的視覺(jué)信息處理技術(shù)不能夠滿足圖像理解的需求[1]。
二、基于深度學(xué)習(xí)的圖像理解技術(shù)
傳統(tǒng)的圖像理解技術(shù)只能實(shí)現(xiàn)圖像的識(shí)別與分類等初級(jí)任務(wù),然后利用識(shí)別的結(jié)果進(jìn)行分析處理,并未達(dá)到利用計(jì)算機(jī)對(duì)圖像進(jìn)行直接理解的層面。深度學(xué)習(xí)提出以后,圖像理解技術(shù)有了一個(gè)質(zhì)的飛躍,從傳統(tǒng)的簡(jiǎn)單識(shí)別圖像到能夠讀懂圖像所表達(dá)的內(nèi)容?;谏疃葘W(xué)習(xí)的圖像理解技術(shù)主要有三類:早期主要是采用基于檢索的方法;隨著技術(shù)的發(fā)展,基于模板技術(shù)的圖像理解方法被提出;近年來(lái)更加有效的端到端方法,能夠更加有效的實(shí)現(xiàn)對(duì)圖像內(nèi)容的理解。
基于檢索的圖像理解方法,通過(guò)深度網(wǎng)絡(luò)提取圖像的特征信息,然后從已有的圖像信息庫(kù)中檢索對(duì)應(yīng)的相似圖像,從而獲得圖像的詞語(yǔ)表達(dá),這就要求圖像數(shù)據(jù)庫(kù)要具有豐富的種子信息[2]。
基于模板的圖像理解方法通過(guò)圖像目標(biāo)識(shí)別以及語(yǔ)言模型兩個(gè)模塊完成圖像的理解。圖像目標(biāo)識(shí)別算法檢測(cè)出圖像中所包含的目標(biāo)關(guān)鍵詞,然后利用語(yǔ)言模板生成完整的句子。這兩部分具有相對(duì)的獨(dú)立性,目標(biāo)檢測(cè)算法負(fù)責(zé)圖像內(nèi)目標(biāo)的識(shí)別,可單獨(dú)進(jìn)行訓(xùn)練;語(yǔ)言模型利用目標(biāo)識(shí)別結(jié)果生成合理的句子,語(yǔ)言模型的訓(xùn)練同樣可單獨(dú)進(jìn)行。然而在這種方式下,圖像目標(biāo)的檢測(cè)與語(yǔ)言的生成是脫節(jié)的,語(yǔ)言模型無(wú)法根據(jù)圖像的背景信息等,對(duì)圖像進(jìn)行綜合的表達(dá)。
基于端到端的圖像理解技術(shù),能夠?qū)崿F(xiàn)輸入圖像到語(yǔ)言表達(dá)的一體化訓(xùn)練,從而克服了基于模板的圖像理解技術(shù)的缺陷,利用深度神經(jīng)網(wǎng)絡(luò),建立輸入圖像與目的標(biāo)注之間的映射,基于端到端的圖像理解模型包括NIC模型、基于注意力的圖像理解模型、稠密圖像標(biāo)準(zhǔn)模型等等。在建立輸入圖像與語(yǔ)言模型之間的映射關(guān)系時(shí),主要還是利用目標(biāo)檢測(cè)技術(shù)實(shí)現(xiàn)目標(biāo)的檢測(cè),并用于語(yǔ)言模型的生成,只是這兩部分被有機(jī)的統(tǒng)一在一起,實(shí)現(xiàn)網(wǎng)絡(luò)的一體化訓(xùn)練,從而實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)圖像更好的理解。在對(duì)圖像進(jìn)行理解的過(guò)程中,圖像內(nèi)的目標(biāo)固然很重要,而背景信息有時(shí)也起決定性作用,因此背景信息的使用也是不可忽視的[3]。如下圖是所示,如果不根據(jù)背景信息判斷所選區(qū)域,計(jì)算機(jī)算法將認(rèn)為所選部分為個(gè)人臺(tái)式電腦,而如果采用背景信息,則可判斷所選區(qū)域?yàn)橐蛔F(xiàn)代大樓。
單個(gè)句子或是多個(gè)短語(yǔ)往往很難將圖像內(nèi)的所有信息進(jìn)行有效的表達(dá),隨著技術(shù)的發(fā)展,圖像段落化描述技術(shù)被提出,通過(guò)該模型能夠?qū)D像內(nèi)所表達(dá)的內(nèi)容利用多個(gè)句子進(jìn)行描述,包含了圖像內(nèi)眾多的細(xì)節(jié)信息,相比與單個(gè)句子、多個(gè)短語(yǔ)的表達(dá)方式,基于段落的表達(dá)能夠更好地表達(dá)圖像的信息,如下圖2所示為圖像的段落描述[4]。
一個(gè)男人在一條街道上駕駛著一輛馬車,兩個(gè)人坐在馬車上,馬車是木質(zhì)的,馬車是黑色的,背景建筑是白色的。
三、發(fā)展前景
盡管深度學(xué)習(xí)技術(shù)使計(jì)算機(jī)圖像理解取得了大幅的進(jìn)步,但與人眼相比差別還是非常大,并且還有很多待解決的問(wèn)題,如計(jì)算機(jī)的表達(dá)很僵硬,并且經(jīng)常會(huì)出現(xiàn)重復(fù)性的表達(dá);圖像中的小的細(xì)節(jié)容易被忽略掉,而影響了圖片所表達(dá)的內(nèi)容等等。因此,學(xué)者們也都在不斷的改進(jìn)和提出新的模型,以改善和解決現(xiàn)有模型所出現(xiàn)的問(wèn)題,從而實(shí)現(xiàn)計(jì)算機(jī)通過(guò)視覺(jué)理解場(chǎng)景內(nèi)容。
參考文獻(xiàn):
[1]鮑泓,徐光美,馮松鶴,等.自動(dòng)圖像標(biāo)注技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2011,38(7):35-40.
[2]霍華,趙剛.基于改進(jìn)視覺(jué)詞袋模型的圖像標(biāo)注方法[J].計(jì)算機(jī)工程,2012,38(22):276-278.
[3]邱澤宇,方全,?;w,等.基于區(qū)域上下文感知的圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2014,37(6):1390-1397.
作者簡(jiǎn)介:
張彩霞,機(jī)械設(shè)計(jì)及理論專業(yè)碩士,工程師,威海職業(yè)學(xué)院,機(jī)械制造與制造專業(yè),教師。