亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的視覺問答任務(wù)研究

        2020-10-15 11:01:26白姣姣柯顯信
        計算機(jī)應(yīng)用與軟件 2020年10期
        關(guān)鍵詞:特征模型

        白姣姣 柯顯信 曹 斌

        (上海大學(xué)機(jī)電工程與自動化學(xué)院 上海 200444)

        0 引 言

        近幾年來人工智能飛速發(fā)展,智能機(jī)器人的功能也因此越來越強(qiáng)大,具備圖像識別、語音識別、情感識別和對話處理等多種功能。對智能機(jī)器人視覺問答任務(wù)的研究可以幫助盲人這一弱勢群體。視覺問答系統(tǒng)可以回答盲人的詢問,幫助盲人了解周圍環(huán)境等。盲人用戶可以直接通過語音進(jìn)行提問,經(jīng)過一系列處理后返回對應(yīng)答案,實(shí)現(xiàn)盲人輔助。

        視覺問答涉及多方面的人工智能技術(shù),如:細(xì)粒度識別(這位女士是黃種人嗎?)、物體識別(圖中的水果是蘋果嘛?)、行為識別(這位男士在干什么呢?)和對問題所包含文本的理解(自然語言處理)等。自由式和開放式的視覺問答任務(wù)首次出現(xiàn)于2015年,雖然出現(xiàn)時間較晚,但經(jīng)過幾年的發(fā)展已成為研究的熱點(diǎn)。視覺問答任務(wù)涉及圖像處理、自然語言處理等多個領(lǐng)域,雖然目前的圖像處理技術(shù)已經(jīng)可以很好地進(jìn)行圖像檢測與識別,但還不能較好地理解圖片內(nèi)容。而視覺問答任務(wù)旨在解決這一問題,將圖像及基于圖像的問題輸入模型,經(jīng)過處理后輸出該問題對應(yīng)的答案。

        目前,科研工作者們已經(jīng)在視覺問答領(lǐng)域做了很多工作。文獻(xiàn)[1-3]采用無注意力機(jī)制的深度學(xué)習(xí)模型來處理視覺問答任務(wù),其中文獻(xiàn)[1]使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)編碼圖像,使用循環(huán)神經(jīng)網(wǎng)絡(luò)編碼問題,將圖片與問題特征融合后傳入全連接層,最后傳入Softmax層;文獻(xiàn)[3]使用三個不同的卷積神經(jīng)網(wǎng)絡(luò)分別編碼圖像、問題,以及二者融合后的特征,其中編碼圖像的卷積神經(jīng)網(wǎng)絡(luò)與VGG模型的架構(gòu)相同。文獻(xiàn)[4-7]則采用基于注意力機(jī)制的深度學(xué)習(xí)模型來處理視覺問答任務(wù),該方法可以賦予圖片不同區(qū)域的特征不同的重要性,突出圖片中與問題相關(guān)的部分。其中:文獻(xiàn)[5]為了獲得更細(xì)粒度的視覺信息,反復(fù)計算圖像的注意力權(quán)重;文獻(xiàn)[6]既計算圖像的注意力權(quán)重,也計算問題的注意力權(quán)重;文獻(xiàn)[7]將視覺問答任務(wù)視為多類別分類問題而不是多選一。文獻(xiàn)[8-10]借助外部知識庫中的信息來處理視覺問答,通過知識庫可以使模型能夠像人類一樣具有“常識”,例如,在回答“圖片中有多少種花?”時,模型首先要知道花的種類有哪些,這種方法極大地提高了模型的泛化能力。

        1 視覺問答系統(tǒng)

        本文提出的視覺問答系統(tǒng)的實(shí)現(xiàn)包括語音識別、語音合成、圖像識別、視覺問答模型四個子模塊。在交互過程中,交互對象聲音由麥克風(fēng)錄制,錄制的音頻由語音識別模塊轉(zhuǎn)化為文本;圖像由攝像頭捕捉,由圖片識別模塊提取其特征;視覺問答模型首先提取文本特征,然后將其與圖片特征融合,融合后的特征輸入神經(jīng)網(wǎng)絡(luò),經(jīng)過處理后生成相應(yīng)回答并合成語音。

        系統(tǒng)將視覺問答任務(wù)視為一個多分類任務(wù)進(jìn)行處理,其流程如圖1所示。

        圖1 視覺問答任務(wù)流程

        1.1 圖像特征提取

        卷積神經(jīng)網(wǎng)絡(luò)憑借其突出的性能在圖像處理領(lǐng)域獲得了舉足輕重的地位,它于1998年被Lecun等首次提出,被稱為LeNet。該網(wǎng)絡(luò)有3個卷積層,2個下采樣層和1個全連接層,卷積層的卷積核大小均為5×5,該模型在識別手寫字符和打印字符的任務(wù)中取得了優(yōu)秀的效果。2012年,Alex等提出了AlexNet模型,該模型是卷積神經(jīng)網(wǎng)絡(luò)的突破模型,在“ILSVRC”圖像分類的比賽中獲得了冠軍,證明了通過增加網(wǎng)絡(luò)的深度可以提高網(wǎng)絡(luò)的性能。該模型包括5個卷積層和3個全連接層,卷積層的第一層卷積核大小為11×11,步長為4,第二卷積核大小為5×5,步長為1,剩余卷積層的卷積核大小都為3×3,步長為1。在2014年“ILSVR”挑戰(zhàn)賽中贏得了定位任務(wù)冠軍和分類任務(wù)亞軍的VGG卷積網(wǎng)絡(luò)模型進(jìn)一步加深了網(wǎng)絡(luò)的結(jié)構(gòu),由于其優(yōu)異的性能被人們廣泛運(yùn)用于各種圖像處理任務(wù)。然而,神經(jīng)網(wǎng)絡(luò)層數(shù)的增加使得網(wǎng)絡(luò)的訓(xùn)練變得困難,出現(xiàn)層數(shù)越大錯誤率越高的退化現(xiàn)象。何凱明等于2015年提出了ResNet殘差神經(jīng)網(wǎng)絡(luò),該模型成功地解決了退化問題。隨著卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,人們又相繼提出了R-CNN、Fast R-CNN、Faster R-CNN等區(qū)域卷積神經(jīng)網(wǎng)絡(luò)來更好地處理目標(biāo)檢測的問題。

        本文模型使用預(yù)訓(xùn)練的VGG16卷積網(wǎng)絡(luò)進(jìn)行圖像特征提取,使用VGG16模型最后一層池化層提取得到的特征作為圖像特征。VGG16的模型結(jié)構(gòu)如圖2所示,該模型包含13個卷積層,5個最大池化層和2個全連接層,卷積核的大小均為3×3,最后一層池化層輸出的特征向量為(7,7,512)。

        圖2 VGG16模型

        1.2 問答對特征提取

        首先處理答案,統(tǒng)計數(shù)據(jù)集中答案出現(xiàn)的頻率,選取出現(xiàn)頻率最高的1 000個答案作為標(biāo)簽,并通過獨(dú)熱編碼(One-Hot Encoding)。

        接著處理問題,在對問題進(jìn)行預(yù)處理之前,首先判斷與之對應(yīng)的答案是否被編碼,舍棄答案未被編碼的問答對。然后,采用NLTK工具包對問題進(jìn)行預(yù)處理。通過正則表達(dá)式對問題進(jìn)行分詞處理,匹配句中的單詞并去掉標(biāo)點(diǎn)符號。英文分詞比中文分詞容易實(shí)現(xiàn),可以直接基于空格分詞。在對問題進(jìn)行分詞處理后,句子中仍然存在“the”“that”“this”等出現(xiàn)頻率相當(dāng)高的詞,這類詞的存在對問題的理解并沒有太大的作用,還會增加數(shù)據(jù)量。NLTK工具包中提供了一個英文停用詞表,通過刪除在問題中出現(xiàn)的該表中的詞來實(shí)現(xiàn)去停用詞處理。接著,進(jìn)行詞型還原的處理,即將英文單詞的復(fù)數(shù)或第三人稱單數(shù)形式還原成單詞原型,該步驟同樣利用NLTK工具包實(shí)現(xiàn)。最后,將問題中的單詞統(tǒng)一恢復(fù)為小寫。問題預(yù)處理變化如表1所示。

        表1 問題預(yù)處理

        問題通過上述預(yù)處理,降低特征維度,減少沒有用的信息,增強(qiáng)模型的泛化能力,同時也可以避免模型過擬合。經(jīng)過預(yù)處理后,問題的最大長度是13個單詞,采用尾部對齊的方式,將不足13個單詞的句子后面補(bǔ)0,并統(tǒng)計每個句子的實(shí)際長度。采用預(yù)訓(xùn)練的Glove模型進(jìn)行詞嵌入,該模型的向量維度是300維。Glove模型是通過構(gòu)造一個共現(xiàn)矩陣來學(xué)習(xí),共現(xiàn)矩陣主要是計算一個單詞在上下文中出現(xiàn)的頻率。

        最后將問題詞向量經(jīng)過一個單元數(shù)為512的LSTM神經(jīng)網(wǎng)絡(luò),得到問題的特征向量為(1,512)。

        LSTM神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,循環(huán)神經(jīng)網(wǎng)絡(luò)能夠在記憶單元中儲存之前的信息,可以很好地處理序列問題,因此在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用。LSTM模型可以學(xué)習(xí)長期依賴的信息,解決了梯度爆炸的問題,其結(jié)構(gòu)如圖3所示。

        圖3 LSTM結(jié)構(gòu)示意圖

        ft=σ(Wf·[ht-1,xt]+bf)

        (1)

        it=σ(Wi·[ht-1,xt]+bi)

        (2)

        ot=σ(Wo·[ht-1,xt]+bo)

        (3)

        式中:ft、it、ot分別表示t時刻遺忘門、輸入門和輸出門的狀態(tài);ht-1代表前一時刻的記憶;xt為當(dāng)前時刻的輸入;ht為當(dāng)前時刻的輸出;W、b分別代表權(quán)重和偏置,為神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù)。

        1.3 圖像注意力計算

        深度學(xué)習(xí)中的注意力機(jī)制(Attention),實(shí)現(xiàn)了將更多的注意力資源投入某一區(qū)域的功能,與人類的注意力機(jī)制類似。人類可以通過快速瀏覽整幅圖像,獲得需要重點(diǎn)關(guān)注的區(qū)域,也就是人們常說的注意力焦點(diǎn),然后將注意力集中在這一區(qū)域,以獲取需要重點(diǎn)關(guān)注的目標(biāo)的信息,而忽略其他無用的信息。注意力機(jī)制可以幫助人類從大量的信息中篩選出高價值的信息,是人類在長期進(jìn)化中形成的一種生存機(jī)制。從本質(zhì)上講,深度學(xué)習(xí)中的注意力機(jī)制和人類的注意力機(jī)制類似,也是為了從繁多的信息中篩選出對當(dāng)前任務(wù)更有用的信息。目前,注意力機(jī)制已被廣泛應(yīng)用于自然語言處理、圖像識別、語音識別等各種領(lǐng)域,并取得了良好的效果。

        本文所使用的圖像特征的注意力計算方法如圖4所示。將圖像特征與問題特征拼接后經(jīng)過一個非線性層,之后經(jīng)過一個線性層和Softmax層,從而得到一幅圖像不同區(qū)域的注意力權(quán)重。

        圖4 圖像注意力計算示意圖

        如圖4所示,在拼接圖像與問題特征時,將問題的特征向量拼接在圖像每一個區(qū)域的特征向量之后。最后經(jīng)過Softmax層得到圖像各區(qū)域的注意力權(quán)重后,進(jìn)行如下運(yùn)算:

        (4)

        式中:α代表各區(qū)域注意力權(quán)重;v代表圖像各區(qū)域的特征向量;K值為49,是圖像被劃分的區(qū)域數(shù)。

        非線性層的計算公式如下:

        (5)

        g=σ(W′x+b′)

        (6)

        (7)

        式中:x代表圖像與問題特征拼接后的向量;y代表計算得到的特征向量;“·”代表逐元素相乘。

        1.4 特征融合

        在得到了圖片特征和問題特征后,需要對二者進(jìn)行特征融合。通過計算注意力之后得到的圖片特征向量為512維,通過LSTM神經(jīng)網(wǎng)絡(luò)得到的問題向量也為512維。將二者進(jìn)行點(diǎn)乘來實(shí)現(xiàn)特征融合,同時也將二者按列進(jìn)行拼接實(shí)現(xiàn)特征融合對比。

        1.5 訓(xùn) 練

        將特征融合之后的向量通過兩層全連接層和一層Softmax層。搭建的視覺問答模型結(jié)構(gòu)如圖5所示。模型使用交叉熵作為損失函數(shù),全連接層單元數(shù)分別為1 024和1 000,使用RMSprop作為優(yōu)化函數(shù),batch的數(shù)目為200,epoch的數(shù)目為20。

        圖5 模型結(jié)構(gòu)圖

        2 實(shí) 驗(yàn)

        2.1 數(shù)據(jù)集

        視覺問答任務(wù)發(fā)展至今,已有很多的數(shù)據(jù)集,包括DQAUAR、COCO-QA、FM-IQA、Visual Genome和VQA等。DQAUAR數(shù)據(jù)集中的部分圖片質(zhì)量較低,且圖片的內(nèi)容較為單一,只包含室內(nèi)場景,限制了問題的多樣性,但它所有答案的個數(shù)不超過1 000個。COCO-QA數(shù)據(jù)集的主要問題是問答對由自然語言處理模型根據(jù)圖片標(biāo)題自動生成,答案的個數(shù)也不超過1 000個。FM-IQA數(shù)據(jù)集中有的問題的回答是一個句子,這給統(tǒng)計答案頻率增加了難度。Visual Genome數(shù)據(jù)集中頻率最高的1 000個答案僅占所有答案的65%,而VQA數(shù)據(jù)集中頻率最高的1 000個答案約占答案總數(shù)的82.7%。

        綜上,本文模型采用VQA數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,該數(shù)據(jù)集中包含了82 783幅訓(xùn)練圖片、81 434幅測試圖片以及40 505幅驗(yàn)證圖片,而且圖片涉及了多種多樣的場景。每幅圖片對應(yīng)3個問答對,問題的種類繁多,如‘what is this’‘what color’‘is this’‘does the’‘how many’等。其中被編碼的1 000個答案對應(yīng)訓(xùn)練集中的387 976句問題,測試集中的186 937句問題。對于問題中未出現(xiàn)在預(yù)訓(xùn)練的“Glove”中的詞,編碼為0。VQA數(shù)據(jù)集的舉例如圖6所示,數(shù)據(jù)集中的問題與答案如表2所示。

        圖6 VQA數(shù)據(jù)集舉例(穿著橘色上衣的人)

        表2 數(shù)據(jù)集中針對圖6的問題

        2.2 實(shí)驗(yàn)結(jié)果分析

        針對第1章節(jié)中介紹的模型,使用VQA訓(xùn)練集進(jìn)行訓(xùn)練,并與下列無注意力機(jī)制模型的準(zhǔn)確率進(jìn)行對比:

        1)模型一:圖片特征由VGG16最后一層全連接層提取得到,特征向量為(None,1,4 096),將其經(jīng)過全連接層得到特征向量為(None,1,300);問題經(jīng)過預(yù)處理和詞嵌入后得到的特征向量為(None,13,300)。將圖像作為問題的最后一個單詞,實(shí)現(xiàn)特征融合后得到特征向量為(None,14,300),之后分別傳入單元數(shù)為1 024的LSTM和BiLSTM神經(jīng)網(wǎng)絡(luò),最后傳入Softmax得到分類結(jié)果。

        2)模型二:只使用問題特征,只通過LSTM神經(jīng)網(wǎng)絡(luò),其余參數(shù)設(shè)置與模型一中一致。

        3)模型三:圖片特征由VGG16最后一層全連接層提取得到,特征向量為(None,1,4 096),其經(jīng)過全連接層得到特征向量為(None,1,1 024);問題經(jīng)過預(yù)處理和詞嵌入后得到的特征向量為(None,13,300),其通過LSTM神經(jīng)網(wǎng)絡(luò)之后得到特征向量為(None,1,1 024)。二者按行融合后得到特征向量(None,2,1 024),之后通過單元數(shù)為512的LSTM神經(jīng)網(wǎng)絡(luò),最后再通過Softmax層實(shí)現(xiàn)分類。

        4)模型四:將文獻(xiàn)[4]中計算注意力權(quán)重的方式應(yīng)用到本文模型當(dāng)中,即二者除注意力權(quán)重計算方法外,其余參數(shù)與方法均一致。

        不同模型在驗(yàn)證集上得到的準(zhǔn)確率結(jié)果如表3所示。

        表3 實(shí)驗(yàn)結(jié)果

        可以看出,基于注意力機(jī)制的模型的準(zhǔn)確率高于其他模型,而使用點(diǎn)乘融合方式的注意力模型準(zhǔn)確率高于使用拼接融合方式的注意力模型,與模型四不相上下,但本文模型相對需要較少的計算。所有模型的準(zhǔn)確率都高于模型二,這說明模型在訓(xùn)練過程中確實(shí)使用了圖像信息。

        為了驗(yàn)證模型在不同類型問題上的準(zhǔn)確率,從測試集中提取出53 692對關(guān)于“是非”的問答,23 192對關(guān)于“數(shù)量”的問答,以及19 962對關(guān)于“顏色”的問答,結(jié)果如表4所示。

        表4 分類實(shí)驗(yàn)結(jié)果

        可以看出,所有模型均是在是非問題上的準(zhǔn)確率最高,因?yàn)槭欠菃栴}只有“Yes”“No”兩種答案,這也是模型二在是非問題上準(zhǔn)確率在50%左右的原因,而其他模型有圖片信息作為輸入,準(zhǔn)確率均高于模型二。注意力模型在關(guān)于數(shù)量問題上的準(zhǔn)確率最低,說明模型不能很好地完成數(shù)數(shù)任務(wù)。

        將圖片和問題在上述六個模型上作對比,對于同一個問題,不同模型預(yù)測的答案中排名前三的結(jié)果如圖7所示。

        (a)詢問顏色(綠色交通燈,燈桿紅白相間,背景有霧)

        正如圖7所示,基于注意力機(jī)制的視覺問答模型可以初步輔助盲人解決顏色及是非問題,但在數(shù)數(shù)方面做得不好。

        3 結(jié) 語

        為了實(shí)現(xiàn)多功能的人機(jī)交互,本文提出基于注意力機(jī)制的視覺問答系統(tǒng),通過采集問題及周圍環(huán)境信息,再通過基于注意力的深度學(xué)習(xí)模型的處理,得到回答并合成語音。實(shí)驗(yàn)表明,本文模型在一定程度上完成視覺問答任務(wù),能幫助盲人解決某些場景中的問題,有助于盲人理解周圍環(huán)境。然而,模型也有很多不足之處,比如特征融合方式、模型準(zhǔn)確率等。今后將致力于圖像特征與問題特征融合方式的研究、注意力權(quán)重計算方法的研究,以及基于知識圖譜的模型研究,以提高模型的準(zhǔn)確率,更好地完成視覺問答任務(wù),從而實(shí)現(xiàn)盲人輔助的功能。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        中文字幕第七页| 国产激情一区二区三区| 亚洲精品久久久久中文字幕一福利| 人与嘼av免费| 国产精品自在在线午夜出白浆| 日本综合视频一区二区| 久久人妻无码一区二区| 亚洲色偷偷综合亚洲av伊人| 久国产精品久久精品国产四虎| 色视频不卡一区二区三区| 国产成人精品无码一区二区三区| 亚洲熟妇丰满大屁股熟妇| 国产高清白浆| 日本一区二区在线播放视频| 欧美成人精品a∨在线观看 | aa视频在线观看播放免费| 中文字幕一二三四五六七区| 欧美人做人爱a全程免费| 屁屁影院一区二区三区| 初尝人妻少妇中文字幕在线| av免费播放网站在线| 黑人巨大跨种族video| 精品亚洲午夜久久久久| 亚洲综合国产精品一区二区| 国产午夜片无码区在线播放| 国产嫖妓一区二区三区无码| 亚洲AV永久无码精品表情包| 放荡成熟人妻中文字幕| 欧美人与动人物牲交免费观看久久| 69精品免费视频| 男的和女的打扑克的视频| 亚洲午夜精品一区二区| 精品国产精品久久一区免费式| 国产高清黄色在线观看91| 久久国产成人午夜av免费影院| 亚洲va中文字幕| 久久久久久国产精品免费网站| 国产另类av一区二区三区| 99久久亚洲精品日本无码| 国产成人精品电影在线观看18 | 久久99亚洲精品久久久久|