亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

圖像理解技術(shù)現(xiàn)狀

2018-10-21 10:51:00張彩霞

文存閱刊 2018年22期

摘要：圖像理解是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)非常難的科學(xué)問(wèn)題，傳統(tǒng)的圖像處理方法很難給出比較有效的解決方案。深度學(xué)習(xí)技術(shù)相比于傳統(tǒng)圖像處理分析技術(shù)具有獨(dú)特的優(yōu)勢(shì)，因此其在圖像理解任務(wù)中獲得了比較好的結(jié)果。本文對(duì)基于深度學(xué)習(xí)的圖像理解技術(shù)的研究現(xiàn)狀進(jìn)行了分析與對(duì)比，并對(duì)后續(xù)的發(fā)展進(jìn)行了展望。

關(guān)鍵詞：圖像理解；深度學(xué)習(xí)；深度神經(jīng)網(wǎng)絡(luò)；計(jì)算機(jī)視覺(jué)

一、概述

圖像視覺(jué)信息是人類感知外部世界的重要信息來(lái)源，研究表明人類感知信息80%來(lái)源于視覺(jué)。視覺(jué)信息具有多樣、靈活、多變等特點(diǎn)，包含的信息量大而豐富，人類可以通過(guò)發(fā)達(dá)的大腦快速的處理視覺(jué)信息，并給出其語(yǔ)義理解。

然而計(jì)算機(jī)在圖像理解方面卻很難做到這一點(diǎn)，一方面由于圖像信息量過(guò)大，而計(jì)算機(jī)計(jì)算能力有限；另一方面由于早期的視覺(jué)信息處理技術(shù)不能夠滿足圖像理解的需求[1]。

二、基于深度學(xué)習(xí)的圖像理解技術(shù)

傳統(tǒng)的圖像理解技術(shù)只能實(shí)現(xiàn)圖像的識(shí)別與分類等初級(jí)任務(wù)，然后利用識(shí)別的結(jié)果進(jìn)行分析處理，并未達(dá)到利用計(jì)算機(jī)對(duì)圖像進(jìn)行直接理解的層面。深度學(xué)習(xí)提出以后，圖像理解技術(shù)有了一個(gè)質(zhì)的飛躍，從傳統(tǒng)的簡(jiǎn)單識(shí)別圖像到能夠讀懂圖像所表達(dá)的內(nèi)容?；谏疃葘W(xué)習(xí)的圖像理解技術(shù)主要有三類：早期主要是采用基于檢索的方法；隨著技術(shù)的發(fā)展，基于模板技術(shù)的圖像理解方法被提出；近年來(lái)更加有效的端到端方法，能夠更加有效的實(shí)現(xiàn)對(duì)圖像內(nèi)容的理解。

基于檢索的圖像理解方法，通過(guò)深度網(wǎng)絡(luò)提取圖像的特征信息，然后從已有的圖像信息庫(kù)中檢索對(duì)應(yīng)的相似圖像，從而獲得圖像的詞語(yǔ)表達(dá)，這就要求圖像數(shù)據(jù)庫(kù)要具有豐富的種子信息[2]。

基于模板的圖像理解方法通過(guò)圖像目標(biāo)識(shí)別以及語(yǔ)言模型兩個(gè)模塊完成圖像的理解。圖像目標(biāo)識(shí)別算法檢測(cè)出圖像中所包含的目標(biāo)關(guān)鍵詞，然后利用語(yǔ)言模板生成完整的句子。這兩部分具有相對(duì)的獨(dú)立性，目標(biāo)檢測(cè)算法負(fù)責(zé)圖像內(nèi)目標(biāo)的識(shí)別，可單獨(dú)進(jìn)行訓(xùn)練；語(yǔ)言模型利用目標(biāo)識(shí)別結(jié)果生成合理的句子，語(yǔ)言模型的訓(xùn)練同樣可單獨(dú)進(jìn)行。然而在這種方式下，圖像目標(biāo)的檢測(cè)與語(yǔ)言的生成是脫節(jié)的，語(yǔ)言模型無(wú)法根據(jù)圖像的背景信息等，對(duì)圖像進(jìn)行綜合的表達(dá)。

基于端到端的圖像理解技術(shù)，能夠?qū)崿F(xiàn)輸入圖像到語(yǔ)言表達(dá)的一體化訓(xùn)練，從而克服了基于模板的圖像理解技術(shù)的缺陷，利用深度神經(jīng)網(wǎng)絡(luò)，建立輸入圖像與目的標(biāo)注之間的映射，基于端到端的圖像理解模型包括NIC模型、基于注意力的圖像理解模型、稠密圖像標(biāo)準(zhǔn)模型等等。在建立輸入圖像與語(yǔ)言模型之間的映射關(guān)系時(shí)，主要還是利用目標(biāo)檢測(cè)技術(shù)實(shí)現(xiàn)目標(biāo)的檢測(cè)，并用于語(yǔ)言模型的生成，只是這兩部分被有機(jī)的統(tǒng)一在一起，實(shí)現(xiàn)網(wǎng)絡(luò)的一體化訓(xùn)練，從而實(shí)現(xiàn)網(wǎng)絡(luò)對(duì)圖像更好的理解。在對(duì)圖像進(jìn)行理解的過(guò)程中，圖像內(nèi)的目標(biāo)固然很重要，而背景信息有時(shí)也起決定性作用，因此背景信息的使用也是不可忽視的[3]。如下圖是所示，如果不根據(jù)背景信息判斷所選區(qū)域，計(jì)算機(jī)算法將認(rèn)為所選部分為個(gè)人臺(tái)式電腦，而如果采用背景信息，則可判斷所選區(qū)域?yàn)橐蛔F(xiàn)代大樓。

單個(gè)句子或是多個(gè)短語(yǔ)往往很難將圖像內(nèi)的所有信息進(jìn)行有效的表達(dá)，隨著技術(shù)的發(fā)展，圖像段落化描述技術(shù)被提出，通過(guò)該模型能夠?qū)D像內(nèi)所表達(dá)的內(nèi)容利用多個(gè)句子進(jìn)行描述，包含了圖像內(nèi)眾多的細(xì)節(jié)信息，相比與單個(gè)句子、多個(gè)短語(yǔ)的表達(dá)方式，基于段落的表達(dá)能夠更好地表達(dá)圖像的信息，如下圖2所示為圖像的段落描述[4]。

一個(gè)男人在一條街道上駕駛著一輛馬車，兩個(gè)人坐在馬車上，馬車是木質(zhì)的，馬車是黑色的，背景建筑是白色的。

三、發(fā)展前景

盡管深度學(xué)習(xí)技術(shù)使計(jì)算機(jī)圖像理解取得了大幅的進(jìn)步，但與人眼相比差別還是非常大，并且還有很多待解決的問(wèn)題，如計(jì)算機(jī)的表達(dá)很僵硬，并且經(jīng)常會(huì)出現(xiàn)重復(fù)性的表達(dá)；圖像中的小的細(xì)節(jié)容易被忽略掉，而影響了圖片所表達(dá)的內(nèi)容等等。因此，學(xué)者們也都在不斷的改進(jìn)和提出新的模型，以改善和解決現(xiàn)有模型所出現(xiàn)的問(wèn)題，從而實(shí)現(xiàn)計(jì)算機(jī)通過(guò)視覺(jué)理解場(chǎng)景內(nèi)容。

參考文獻(xiàn)：

[1]鮑泓，徐光美，馮松鶴，等.自動(dòng)圖像標(biāo)注技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)，2011，38（7）：35-40.

[2]霍華，趙剛.基于改進(jìn)視覺(jué)詞袋模型的圖像標(biāo)注方法[J].計(jì)算機(jī)工程，2012，38（22）：276-278.

[3]邱澤宇，方全，?；w，等.基于區(qū)域上下文感知的圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào)，2014，37（6）：1390-1397.

作者簡(jiǎn)介：

張彩霞，機(jī)械設(shè)計(jì)及理論專業(yè)碩士，工程師，威海職業(yè)學(xué)院，機(jī)械制造與制造專業(yè)，教師。