亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多特征提取的圖像語義描述算法

        2021-07-02 08:54:32趙小虎
        計(jì)算機(jī)應(yīng)用 2021年6期
        關(guān)鍵詞:語義特征信息

        趙小虎,李 曉*

        (1.礦山互聯(lián)網(wǎng)應(yīng)用技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室(中國礦業(yè)大學(xué)),江蘇徐州 221008;2.中國礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇徐州 221008)

        (?通信作者電子郵箱ts18060032a31@cumt.edu.cn)

        0 引言

        圖像語義描述一直是人工智能領(lǐng)域中最重要的研究方向之一,是圖像理解的高級任務(wù)。它首先需要識別圖像中的對象和場景,描述目標(biāo)類別、屬性以及對象和其在場景中位置之間的關(guān)系,然后將描述信息轉(zhuǎn)化為一個(gè)有一定的語法結(jié)構(gòu)和語義的句子,這樣人們可以在沒有看到圖像的情況下很快地理解圖像內(nèi)容。因此圖像的語義描述設(shè)計(jì)了多種模型,根據(jù)句子生成方法的不同,可分為基于模板的方法[1-4]、基于檢索的方法[5-8]和基于神經(jīng)網(wǎng)絡(luò)的方法。目前,基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義描述方法在這一領(lǐng)域取得了重大突破,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合的語義描述生成模型。此模型生成的句子與人工標(biāo)注的句子非常接近,在多個(gè)數(shù)據(jù)集上都取得了良好的效果。

        Mao 等[9]創(chuàng)造性地將卷積神經(jīng)網(wǎng)絡(luò)和遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,解決了圖像描述和句子檢索等問題。自此之后,基于深度神經(jīng)網(wǎng)絡(luò)的圖像語義描述方法得到了廣泛的發(fā)展。Kiros等[10]率先將編碼-解碼框架引入圖像語義描述研究,利用深度卷積神經(jīng)網(wǎng)絡(luò)對視覺信息進(jìn)行編碼,同時(shí)利用長短時(shí)記憶網(wǎng)絡(luò)對文本數(shù)據(jù)進(jìn)行編碼。Szegedy 等[11]提出了一種基于GoogLeNet 和長短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的圖像標(biāo)語義描述模型,該模型只需要將整個(gè)圖像特征放入LSTM 的初始時(shí)間步長,以此降低模型的復(fù)雜度。為了生成與圖像內(nèi)容密切相關(guān)的圖像標(biāo)題,Jia 等[12]提出了一種擴(kuò)展的LSTM 模型g-LSTM(guiding-LSTM),提取圖像的語義信息來表示圖像與描述之間的關(guān)系。在圖像語義描述生成階段,該模型利用語義信息指導(dǎo)LSTM 的每一步生成。實(shí)驗(yàn)結(jié)果表明,語義信息可以顯著提高描述性能。Xu等[13]首先提出了一種基于注意力機(jī)制的圖像標(biāo)題方法,該方法將圖像平均分成14×14圖像塊,利用“soft”和“hard”注意力機(jī)制對圖像的突出區(qū)域進(jìn)行自動搜索,生成圖像標(biāo)題。Li 等[14]提出了一種基于全局-局部注意機(jī)制(Global-Local Attention,GLA)的圖像語義描述方法,該模型將注意機(jī)制分解為目標(biāo)級局部表示和圖像級全局表示,從而在保持圖像全局上下文信息的同時(shí),更準(zhǔn)確地預(yù)測突出目標(biāo)。Luo 等[15]利用從圖像中檢測出的語義概念實(shí)現(xiàn)圖像語義描述。He 等[16]使用詞性標(biāo)注引導(dǎo)長短時(shí)記憶網(wǎng)絡(luò)生成單詞。Yang 等[17]提出了情感概念,用以增強(qiáng)文本描述的情感表達(dá)能力,通過將適當(dāng)?shù)那楦懈拍罱M合到句子中來實(shí)現(xiàn)。

        綜上所述,現(xiàn)有方法主要是依靠卷積神經(jīng)網(wǎng)絡(luò)(CNN)獲取固定的全局圖像特征向量,并通過循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對其進(jìn)行解碼。然而全局圖像特征不足以表示完整的圖像信息,需要進(jìn)一步獲取圖像中的場景類型、位置信息等以增強(qiáng)圖像的語義表達(dá)。其次,在RNN 中存在梯度消失問題,利用LSTM 可消除梯度消失現(xiàn)象,但是LSTM 只能夠捕捉單向時(shí)序信息,未實(shí)現(xiàn)真正意義上的全局上下文。為了解決以上問題,本文提出了一種基于多特征提取的圖像語義描述算法,在圖像視覺特征提取時(shí)加入了圖像屬性提取,利用圖像的全局特征和附加的高級語義信息來建立圖像和句子之間的關(guān)系。此外,在解碼階段使用了雙向長短時(shí)記憶(Bidirectional LSTM,Bi-LSTM)網(wǎng)絡(luò),使得模型能夠捕捉雙向語義依賴,有效地提高了模型對圖像的語義描述性能。

        1 本文模型

        本文的模型是基于深度神經(jīng)網(wǎng)絡(luò)框架下的圖像語義描述模型。如圖1 所示,該模型包括三個(gè)部分:圖像特征提?。?8]、圖像屬性提取以及用于單詞生成的雙向長短時(shí)記憶網(wǎng)絡(luò)。其中,采用Resnet-50 殘差網(wǎng)絡(luò)架構(gòu)的卷積層與平均池化層提取圖像的全局特征Vimg。Resnet-50 殘差網(wǎng)絡(luò)在ImageNet 分類數(shù)據(jù)集上預(yù)先訓(xùn)練。

        圖1 本文模型整體結(jié)構(gòu)Fig.1 Overall structure of proposed model

        1.1 圖像屬性提取

        圖像語義描述成功的關(guān)鍵在于良好的圖像特征表示。根據(jù)人類對圖像的直觀描述可知,良好的圖像特征能夠準(zhǔn)確地反映圖像的內(nèi)容和屬性信息,如場景類型、位置信息等。但是只提取圖像全局特征過于粗糙,會丟失很多重要信息,難以滿足上述要求,因此在句子生成過程中會產(chǎn)生對象誤差預(yù)測的問題。針對以上問題,本文采用SSD(Single Shot multibox Detector)模型對圖像的屬性信息進(jìn)行提取以增強(qiáng)圖像特征表示,從而提高圖像語義表達(dá)性能。和一般方法不同的是本文對SSD 進(jìn)行進(jìn)一步的改進(jìn),使其不僅可以準(zhǔn)確地描述目標(biāo)細(xì)節(jié),還可以更加準(zhǔn)確地描述目標(biāo)的行為及其所在場景,極大提高了其在真實(shí)場景中的應(yīng)用。

        SSD 網(wǎng)絡(luò)[19]用于檢測圖像屬性特征。如圖2 所示,選用Resnet-50[20]殘差結(jié)構(gòu)為其前置網(wǎng)絡(luò),代替了原來的VGG16網(wǎng)絡(luò),解決目標(biāo)尺度小、分辨率低等問題,并且相較于原來的網(wǎng)絡(luò)增加了一層特征提取層,提高了網(wǎng)絡(luò)的特征提取能力。選取的特征提取層為Conv2_x、Conv3_x、Conv4_x、Conv5_x 以及Conv7_x、Conv8_x、Conv9_x,共提取7 個(gè)特征圖。輸入圖像大小為224×224。

        圖2 圖像屬性提取結(jié)構(gòu)Fig.2 Structure of image attribute extraction

        為了能夠檢測到圖像中不同尺寸的物體,此網(wǎng)絡(luò)使用若干不同輸出尺寸的特征圖進(jìn)行檢測。位于不同層的特征圖設(shè)置的先驗(yàn)框數(shù)目不同,其參數(shù)包括尺度和長寬比兩個(gè)方面。先驗(yàn)框的設(shè)置遵守線性遞增規(guī)則:

        其中:n為特征圖個(gè)數(shù);sk表示先驗(yàn)框相對于圖像所占的比例,smin、smax分別為0.2、0.9。對于先驗(yàn)框長寬比,一般選取ar=則每個(gè)先驗(yàn)框的寬、高分別為:先驗(yàn)框的中心點(diǎn)為為第k個(gè)特征圖的大小。

        先驗(yàn)框的參數(shù)設(shè)置直接影響著模型檢測不同尺度物體的性能,先驗(yàn)框長寬比的分布也同樣影響模型檢測目標(biāo)的準(zhǔn)確率。為了達(dá)到最高準(zhǔn)確率,并且減少不必要的計(jì)算量,對先驗(yàn)框長寬比的選擇進(jìn)行了實(shí)驗(yàn),結(jié)果如圖3所示。

        圖3 不同先驗(yàn)框長寬比的平均精確率對比Fig.3 Comparison of mean average precision of different anchor box length-width ratios

        圖3 中,橫坐標(biāo)為使用的先驗(yàn)框長寬比的集合,例如,[1/2,1]表示針對當(dāng)前圖像采用的先驗(yàn)框的長寬比分別為1/2和1。折線[3/7]表示7個(gè)卷積層的先驗(yàn)框都是3個(gè),即先驗(yàn)框長寬比為[1/2,1,2]。從圖3 可知,折線[3,5/6]和[5/7]在此實(shí)驗(yàn)中的平均精確率(mean Average Precision,mAP)較高,分別為85.2%和85.4%。相較[3,5/6]卷積層長寬比的分布,[5/7]的分布需要多計(jì)算6 272 個(gè)先驗(yàn)框,增加了計(jì)算復(fù)雜度,但mAP值卻只增加了0.2個(gè)百分點(diǎn)。因此本文選擇的先驗(yàn)框參數(shù)如表1所示。

        表1 先驗(yàn)框參數(shù)Tab.1 Anchor box parameters

        屬性提取得到矩陣Matt,將輸出矩陣通過式(2)計(jì)算得到圖像屬性Vatt:

        其中:m為輸入圖片上的邊界框個(gè)數(shù),m=14 658;c為檢測類別數(shù),在Visual Genome 數(shù)據(jù)集上訓(xùn)練屬性提取模型(ATTribute extraction model,ATT),令c=300。

        1.2 雙向長短時(shí)記憶網(wǎng)絡(luò)

        在傳統(tǒng)的圖像語義描述中,循環(huán)神經(jīng)網(wǎng)絡(luò)隨著時(shí)間步長的增加,存在梯度消失的問題,缺乏前一時(shí)刻的指向性信息;并且該網(wǎng)絡(luò)只能利用單向時(shí)序信息,未實(shí)現(xiàn)真正意義上的全局上下文。為了解決以上問題,本模型使用了雙向長短時(shí)記憶網(wǎng)絡(luò),能夠充分利用句子過去和將來的上下文信息預(yù)測語義,生成涵蓋豐富的語義信息的語句,并且更加符合人類表達(dá)習(xí)慣。

        Bi-LSTM[21]模型建立在LSTM 單元上,LSTM 單元是傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)的一種特殊形式。圖4 為長短時(shí)記憶網(wǎng)絡(luò)單元示意圖。讀寫存儲單元c由一組sigmoid 門控制,當(dāng)時(shí)間步長為t時(shí),LSTM的輸入來源有:當(dāng)前輸入xt、所有LSTM單元之前的隱藏狀態(tài)ht-1以及記憶單元ct-1。對于給定的輸入向量xt、ht-1和ct-1,t時(shí)刻門的更新如下:

        圖4 長短時(shí)記憶網(wǎng)絡(luò)單元Fig.4 LSTM network unit

        其中:W為網(wǎng)絡(luò)的權(quán)重矩陣;b為偏置向量;σ是sigmoid 激活函數(shù),即σ(x)=;φ是雙曲正切函數(shù),即φ(x)=;“?”表示門值計(jì)算。LSTM 隱藏層輸出ht=,ht和權(quán)重矩陣Ws、偏置向量bs通過Softmax 函數(shù)被用于預(yù)測下一單詞的概率:

        其中pti為預(yù)測詞的概率分布。

        如圖5 所示為Bi-LSTM 模型,該模型由三部分組成:圖像全局特征Vimg、用于編碼句子輸入的T-LSTM(Test LSTM)、用于將視覺和文本向量嵌入到公共語言空間的M-LSTM(Multimodal LSTM)。輸入向量xt與圖像屬性Vatt共同作為Bi-LSTM的輸入,因此T-LSTM層的輸入Vt可表示為:

        圖5 Bi-LSTM結(jié)構(gòu)Fig.5 Structure of Bi-LSTM

        其中:fv(?)為全連接層;“⊕”表示級聯(lián)運(yùn)算。

        Bi-LSTM 是由兩層分開的LSTM 組成,用于計(jì)算前向隱藏層序列和后向隱藏層序列。前向LSTM 開始于t=1,后向LSTM開始于t=T。模型工作中,對前向句子和后向句子編碼表現(xiàn)為:

        其中:T代表T-LSTM,Θl是它們相應(yīng)的權(quán)重;{x0,x1,…,xT}={xT,xT-1,…,x0}。為從網(wǎng)絡(luò)中學(xué)習(xí)得到的雙向嵌入矩陣。之后將編碼的視覺和文本表示通過以下計(jì)算式嵌入到M-LSTM:

        其中:M為M-LSTM,Θm為其權(quán)重。目的是在不同的時(shí)間步長的情況下,捕捉視覺語境與詞匯之間的相關(guān)性。在每個(gè)時(shí)間步長向模型中輸入可視化向量Vimg,以捕獲強(qiáng)大的可視化單詞相關(guān)性。在M-LSTM 的最上層是Softmax 層,通過該層計(jì)算下一個(gè)預(yù)測詞的概率分布:

        其中,p∈RK,K為字典大小。

        1.3 損失函數(shù)

        本文模型通過采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)的方法實(shí)現(xiàn)端到端的訓(xùn)練。在訓(xùn)練中,通過給定的圖像上下文I和前向順序P(wt|w1:t-1,I)或者后向順序P(wt|wt+1:T,I)中的先前的單詞上下文w1:t-1預(yù)測單詞wt,分別設(shè)置w1=wT=0 時(shí)為前向和后向的起點(diǎn)。聯(lián)合損失函數(shù)L=是累加前后向的Softmax損失得到。

        其中,T為生成序列的長度。本文的目標(biāo)是最小化L,這就相當(dāng)于最大化生成正確句子的概率。最后可從兩個(gè)方向生成句子,本文根據(jù)句子的單詞生成概率確定給定圖像p(w1:T|I)最終的句子。

        2 實(shí)驗(yàn)與結(jié)果分析

        2.1 訓(xùn)練細(xì)節(jié)

        在訓(xùn)練過程中,每張圖像都有3 個(gè)相關(guān)的注釋。首先通過提取圖像屬性得到Vatt,Vatt被用于計(jì)算Bi-LSTM 網(wǎng)絡(luò)的每個(gè)時(shí)間步長。符號〈start〉是一個(gè)句子的開頭,〈end〉是句子的結(jié)尾。本文使用了雙層循環(huán)神經(jīng)網(wǎng)絡(luò)Bi-LSTM,隱藏單元數(shù)為512,權(quán)重衰減率為0.000 5。優(yōu)化器學(xué)習(xí)速率為0.001,設(shè)置batch size為64、動量為0.9來訓(xùn)練本文的模型。

        2.2 數(shù)據(jù)集

        本文使用的數(shù)據(jù)集為Flickr8k、Flickr30k 和MSCOCO 數(shù)據(jù)集。Flickr8k數(shù)據(jù)集中有6 000張訓(xùn)練圖像、1 000張測試圖像和1 000張驗(yàn)證圖像。Flickr30k數(shù)據(jù)集包含31 000張圖像,隨機(jī)將其中29 000 張圖像用于訓(xùn)練,1 000 張圖像用于測試,1 000 張圖像用于驗(yàn)證。兩個(gè)數(shù)據(jù)集中的每個(gè)圖像對應(yīng)五個(gè)人工生成的描述。MSCOCO 數(shù)據(jù)集包含82 738張用于訓(xùn)練的圖像,40 504 張用于驗(yàn)證的圖像,每個(gè)圖像有5 個(gè)由AMT(Amazon Mechanical Turk)得到的句子。

        2.3 結(jié)果分析

        為了評估屬性提取模型(ATT)和Bi-LSTM 的有效性,分別在Microsoft COCO Caption 數(shù)據(jù)集和Flickr8k、Flickr30k數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),將本文的模型與當(dāng)前流行的圖像語義描述方法進(jìn)行比較,結(jié)果如表2~3 所示。所用的評估指標(biāo)為BLEU(Bilingual Evaluation Understudy)、METEOR、ROUGE-L 和CIDEr(Consensus-based Image Description Evaluation),具體內(nèi)容如下:

        1)BLEU 是一種基于精確度的相似性度量機(jī)器翻譯評價(jià)指標(biāo),用于分析候選譯文和參考譯文中n元組共同出現(xiàn)的程度。

        2)METEOR是基于單精度的加權(quán)調(diào)和平均數(shù)和單字召回率,其目的是解決一些BLUE 標(biāo)準(zhǔn)中的缺陷,與BLUE 相比,其結(jié)果和人工判斷的結(jié)果有較高的相關(guān)性。

        3)ROUGE-L 是基于最長公共子句的度量方法。參考譯文與待評測譯文的共現(xiàn)性精確度越高,則生成的句子質(zhì)量越高。

        4)CIDEr 是專用于圖像語義描述的度量標(biāo)準(zhǔn),通過TFIDF(Term Frequency-Inverse Document Frequency)計(jì)算每個(gè)n元組的權(quán)重來衡量圖像語義描述的一致性。

        表2 為不同模型在MSCOCO(Microsoft COCO)數(shù)據(jù)集上的結(jié)果。評價(jià)指標(biāo)有BLEU、METEOR、ROUGE-L 和CIDEr。其中,模型Bi-LSTM+ATT+CNNR以及Bi-LSTM+CNNR在BLEU-1、BLEU-2、BLEU-3、BLEU-4 指標(biāo)上分別達(dá)到了74.5%、59.3%、45.5%、36.3%和74.0%、57.2%、44.5%、33.6%。由此可知,兩種類型的圖像語義信息能更準(zhǔn)確描述圖像信息。由表2 還可以看出,本文模型的性能顯著優(yōu)于其他方法,表中用于對比的方法為最新的方法,分別為:NIC(Neural Image Caption)[22]、LRCN(Long-term Recurrent Convolutional Network)[23]、Deep-Vis(Deep Visual-semantic)[24]、m-RNN(multimodal Recurrent Neural Network)[9]、g-LSTM[12]、Hard-Attention[13]、Soft-Attention[13]、HMA(Hierarchical Multimodal Attention-based)[25]、VLM(Visual attention based on Long-short term Memory)[26]、GLA[14]和PSG(Part of Speech Guidance)[16]。這些方法使用了不同的特征提取方式[27],NIC 和g-LSTM 使用GoogLeNet 獲得圖像特征;LRCN 利用AlexNet 來提取圖像特征;Deep-Vis、m-RNN、Hard-Attention、Soft-Attention利用VGG16獲得圖像特征。不同的卷積神經(jīng)網(wǎng)絡(luò)提取特征的能力是不一樣的,以上所有模型均未使用高級語義信息。實(shí)驗(yàn)結(jié)果表明,與僅用單一的語義信息特征的模型相比,兩種類型的圖像信息能夠有更好的描述效果。遞歸神經(jīng)網(wǎng)絡(luò)的使用也是不同的:NIC、g-LSTM、Hard-Attention 和Soft-Attention 使用LSTM 網(wǎng)絡(luò)作為語言模型生成圖像句子描述;m-RNN 利用基本的RNN作為解碼器;LRCN 使用一個(gè)堆疊的兩層LSTM 將圖像轉(zhuǎn)換成句子描述;在本文的模型中,使用了Bi-LSTM 得到圖像語義描述。

        表2 Microsoft COCO 數(shù)據(jù)集上不同模型實(shí)驗(yàn)結(jié)果對比 單位:%Tab.2 Experimental result comparison of different models on Microsoft COCO dataset unit:%

        不同模型在Flickr8k 和Flickr30k 數(shù)據(jù)集上的結(jié)果如表3所示。同樣地,在Flickr8k 和Flickr30k 數(shù)據(jù)集上,本文的模型也獲得了BLEU和METEOR指標(biāo)的最佳性能。

        表3 Flickr8k、Flickr30k數(shù)據(jù)集上不同模型實(shí)驗(yàn)結(jié)果對比 單位:%Tab.3 Experimental result comparison of different models on Flickr8k,F(xiàn)lickr30k datasets unit:%

        由表2~表3 的結(jié)果可知,本文的模型在Microsoft COCO數(shù)據(jù)集和Flickr8k、Flickr30k 數(shù)據(jù)集上是有效的,表明將Bi-LSTM 網(wǎng)絡(luò)與ATT 相結(jié)合可以提高圖像語義描述性能,使用兩種語義信息能夠有效地提高模型的表達(dá)能力,擁有較強(qiáng)的競爭力。

        2.4 描述效果對比

        圖6 為圖像在前向LSTM 和后向LSTM 生成的語義描述。從圖6 中可以發(fā)現(xiàn)兩者的一些區(qū)別:1)在棒球和橘子汁圖像中,一個(gè)描述靜態(tài)場景,另一個(gè)描述在下一個(gè)時(shí)間可能發(fā)生的潛在動作或運(yùn)動。2)生成的語句與標(biāo)注語句有很高的相似度,例如在火車圖像中,前向描述與標(biāo)注語句“A passenger train that is pulling into a station.”相似,后向描述與標(biāo)注語句“A train is in a tunnel by a station.”相似。由此可以看出,本文的模型具有較強(qiáng)的視覺語言關(guān)聯(lián)學(xué)習(xí)能力和生成新句子的能力。

        圖6 不同LSTMs的圖像語義描述效果對比Fig.6 Image captioning effect comparison of different LSTMs

        圖7 為不同圖像在模型中生成的句子。雖然這三幅圖像不同,但都可以通過模型生成與圖像密切相關(guān)并且語言流暢的句子。以廚房圖像為例,人物可以很容易識別,但人物的運(yùn)動狀態(tài)卻很難被識別。與m-RNN 模型生成的句子相比,本文的模型生成的“Two cooks cooking with pans in a restaurant kitchen.”可以準(zhǔn)確地描述圖片中人物的動作。此外,在食物和沙灘圖像中,本文的模型能準(zhǔn)確地識別出“doughnuts”和“seagull”,而不僅僅只是描述成“baked goods”和“bird”。結(jié)果表明,本文的模型可以更準(zhǔn)確地識別出圖像中的物體,并且能夠準(zhǔn)確表述出圖像中各個(gè)物體之間的關(guān)系,生成更相關(guān)、更連貫的自然語言句子來描述圖像。

        圖7 不同模型的圖像語義描述效果對比Fig.7 Image captioning effect comparison of different models

        根據(jù)以上實(shí)驗(yàn)分析可知,本文所構(gòu)建的模型能夠準(zhǔn)確地識別圖像中物體,并且能細(xì)致地描述所檢測到的物體之間的關(guān)系;對于圖像中較小的物體,本文的模型識別更精確,可以根據(jù)圖像中人物和場景推測出圖像中的人物動作;相較于其他圖像語義描述方法,本文的模型在衡量指標(biāo)上的描述效果更好。

        3 結(jié)語

        本文提出了一種多特征提取的圖像語義描述算法,在Flickr8k、Flickr30k和MSCOCO 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了本文算法在圖像語義描述任務(wù)中的有效性。與現(xiàn)有的算法相比,本文算法通過提取圖像高級語義信息和利用生成語句的雙向信息,不僅能準(zhǔn)確地描述目標(biāo)細(xì)節(jié),而且能更準(zhǔn)確地表現(xiàn)行為和場景。簡單的圖像語義描述算法有很多局限性,更傾向于捕獲全局特征信息,難以在現(xiàn)實(shí)場景中應(yīng)用,未來考慮細(xì)粒度圖像語義描述生成,如圖像段落描述、圖像和語言的雙向檢索等。

        猜你喜歡
        語義特征信息
        語言與語義
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語義模糊
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        線性代數(shù)的應(yīng)用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        語義分析與漢俄副名組合
        蜜桃视频第一区免费观看| 国产成人亚洲综合无码DVD| av在线免费观看你懂的| 成人爽a毛片在线播放| 亚洲无线一二三四区手机| 老湿机香蕉久久久久久| 成人永久福利在线观看不卡| 国产亚洲一区二区毛片| 内射中出日韩无国产剧情| 精品久久久久久久久久中文字幕| 国产高清精品自在线看| 中文字幕日韩精品亚洲精品| 亚洲乱码一区二区三区在线观看 | 精品黑人一区二区三区| 亚洲国产精品成人av在线不卡| 国产午夜福利在线观看红一片| 欧美成人三级一区二区在线观看| 中文字幕成人乱码亚洲| 男女18视频免费网站| 久久精品国产网红主播| 久久99久久久无码国产精品色戒| 国产av三级精品车模| 久久99亚洲精品久久久久 | 亚洲精品白浆高清久久| 日韩高清不卡一区二区三区| 亚洲va久久久噜噜噜久久男同| 高清国产日韩欧美| 亚洲成av人片在久久性色av| 亚洲中国精品精华液| 欧美丰满熟妇aaaaa片| 91极品尤物国产在线播放| 少妇被爽到高潮喷水免费福利| 精品免费久久久久久久| 国产一级毛片AV不卡尤物| 日韩日本国产一区二区| 乱色欧美激惰| 国产成人+亚洲欧洲+综合| 国产在线观看不卡网址| 久久久国产精品| 大地资源在线播放观看mv| 中文字幕精品亚洲无线码二区 |