陶云松,張麗紅
(山西大學 物理電子工程學院,山西 太原 030006)
圖像描述是將圖像輸入到系統(tǒng)框架中自動生成描述的任務(wù).圖像能夠生動地表示事件和實體,但之前的圖像描述方法僅將圖像作為輸入,通過深度學習框架自動學習.例如,Oriol V等[1]設(shè)計出圖像描述的基本框架,利用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,使用長短期記憶網(wǎng)絡(luò)生成描述.Xu等[2]將注意力機制引入到圖像描述的基本框架中,該機制可以使框架在生成描述時關(guān)注圖片中的顯著特征.但是,在深度學習框架學習的過程中,其內(nèi)部具體參數(shù)的變化難以獲取,不能獲知圖片的特征提取過程.此外,圖像描述架構(gòu)大都采用卷積神經(jīng)網(wǎng)絡(luò)提取特征,采用等分提取方法無法準確提取目標[3].為解決上述問題,提出一個新的雙通道圖像描述結(jié)構(gòu),該結(jié)構(gòu)輸入采用圖像通道與主題通道雙通道結(jié)構(gòu)生成圖像描述.主題通道采用知識強化方法產(chǎn)生圖像中物體相對應的主題單詞.知識強化方法是在圖像描述中加入一些圖片的內(nèi)容詞來規(guī)范圖像描述.主題通道可以自動產(chǎn)生圖片的內(nèi)容詞,而不需人為設(shè)置每張圖片的內(nèi)容詞.圖像通道采用極快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regional Convolutional Neural Network,F(xiàn)aster RCNN)提取圖像特征,能自動確定圖像中物體的大小.輸出階段將兩通道預測的隱層信息進行整合并生成圖像描述,進而實現(xiàn)主題通道對圖像通道的知識強化.
Faster RCNN的結(jié)構(gòu)如圖1 所示.首先,將整張圖片輸入卷積神經(jīng)網(wǎng)絡(luò)中得到圖像特征,其次,將圖像特征輸入到區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)中自動生成候選框.候選框映射到圖像特征得到興趣區(qū)域特征,將興趣區(qū)域特征通過興趣區(qū)域池化層(Region of Interest Pooling Layer,ROI Pooling)得到相同大小的輸出,再通過兩層全連接層得到興趣區(qū)域特征向量.最后,使用分類器判決興趣區(qū)域特征是否屬于一個特定的類,對于屬于某一特征的候選框,用回歸器進一步調(diào)整其位置.RPN與卷積神經(jīng)網(wǎng)絡(luò)之間的特征映射如圖2 所示.
圖1 Faster RCNN結(jié)構(gòu)圖Fig.1 Structure diagram of Faster RCNN
圖2 特征映射圖Fig.2 Feature mapping
RPN的功能是直接生成候選框并與特征融合,這也是Faster-RCNN的顯著優(yōu)勢,能夠極大提升候選框的生成速度.經(jīng)典的傳統(tǒng)檢測方法如區(qū)域卷積神經(jīng)網(wǎng)絡(luò)、快速卷積神經(jīng)網(wǎng)絡(luò)都要采用選擇搜索性算法生成大量的候選框,這些候選框與圖像融合在一起,每個候選框內(nèi)的圖像都要輸入到卷積神經(jīng)網(wǎng)絡(luò)中,計算量很大[4].RPN使每張圖片一次性通過卷積神經(jīng)網(wǎng)絡(luò),候選框在生成圖像特征上進行映射從而得到各候選框內(nèi)圖像特征.
ROI Polling的功能是將大小不同的候選框內(nèi)特征調(diào)整為相同大小輸出,它可以看作是一個單層的空間金字塔池化層[5].空間金字塔池化層使用空間金字塔采樣將每個窗口劃分為4×4,2×2,1×1的塊,然后每個特征塊使用最大池化下采樣,這樣對于每個窗口經(jīng)過空間金字塔池化層之后都得到了一個長度為(4×4+2×2+1)×256維度的特征向量,將此特征向量作為全連接層的輸入并進行后續(xù)操作[6].
長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)是一類用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它在幾個時間步內(nèi)共享相同的權(quán)重,不需要分別學習序列中每個位置的規(guī)則[7].LSTM的展開圖如圖3 所示,A代表內(nèi)部單元,x為輸入,y為輸出,ht為LSTM單元在t時刻最后保留的信息.LSTM的重要思想是每個時間步都有輸入,并且隱藏單元之間有循環(huán)連接的循環(huán)網(wǎng)絡(luò).
圖3 LSTM的展開圖Fig.3 Expansion diagram of LSTM
循環(huán)神經(jīng)網(wǎng)絡(luò)前期模型訓練困難,其原因在于不穩(wěn)定梯度問題,在反向傳播時梯度越變越小,使得前期層學習非常緩慢.在循環(huán)神經(jīng)網(wǎng)絡(luò)中此問題更加嚴重,因為梯度不僅僅通過層反向傳播,還會根據(jù)時間進行反向傳播.網(wǎng)絡(luò)運行很長一段時間后,梯度特別不穩(wěn)定,使網(wǎng)絡(luò)學習能力很差[8].引入LSTM可以解決上述問題,LSTM的內(nèi)部結(jié)構(gòu)如圖4 所示.
圖4 LSTM內(nèi)部結(jié)構(gòu)Fig.4 Internal structure of LSTM
在圖像描述生成時,每個輸出的詞語并不是與所有的圖片特征相關(guān),因此引入注意力機制.注意力機制在輸出詞語時能夠關(guān)注圖像中不同的特征.注意力機制結(jié)構(gòu)如圖5 所示.
圖5 注意力機制內(nèi)部結(jié)構(gòu)Fig.5 Internal structure of attention mechanism
圖像特征集合V=[v1,v2,…,vL]通過壓縮原始圖像特征V的寬W和高H得到,其中L=W*H,vi∈RD,vi為D維度的空間圖像特征,代表圖片中的某個區(qū)域.
圖像特征和LSTM的隱層狀態(tài)被傳入一個單層感知機中,再通過softmax函數(shù)產(chǎn)生圖片K個區(qū)域的注意力分布.
αt=softmax(zt),(2)
式中:kv,kta,kh為一組需要學習的權(quán)重參數(shù);αt為圖像特征的注意權(quán)重.基于注意力分布,圖像顯著信息為
將注意力機制與LSTM結(jié)合在一起,如圖6 所示,由注意力機制獲得的圖像顯著信息作為LSTM的輸入之一,Ct與隱層狀態(tài)ht一起預測出結(jié)果.
圖6 與注意力機制組合的LSTMFig.6 LSTM combined with attention mechanisms
基于Faster RCNN、LSTM及注意力機制對雙通道圖像描述網(wǎng)絡(luò)進行了設(shè)計,如圖7 所示,該網(wǎng)絡(luò)由主題通道與圖像通道組成.
圖7 雙通道圖像描述結(jié)構(gòu)Fig.7 A two-channel image description structure
主題通道引用知識增強方法,在圖像描述結(jié)構(gòu)中加入一些圖片內(nèi)容的主題單詞進行知識增強,即明確描述的范圍.主題通道采用極快速卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,該通道與圖像通道不同,文本特征來自極快速卷積神經(jīng)網(wǎng)絡(luò)的全連接層.主題信息通過注意力機制篩選之后輸入LSTM進行語義推測.主題通道的優(yōu)勢在于能夠自動生成主題信息而不是提前為每張圖片準備好主題詞.
V=Faster-RCNN(I),(4)
at=softmax(zt),(6)
CcCvt-1+bc),(11)
yt=softmax(Whht+b),(14)
式中:yt為網(wǎng)絡(luò)的輸出單詞,是下一個時間的輸入單詞xt+1.
實驗采用MS COCO數(shù)據(jù)集與Flickr30k數(shù)據(jù)集.MS COCO數(shù)據(jù)集是圖像描述中最大的數(shù)據(jù)集,擁有訓練樣本82 783張,驗證樣本40 504張和測試樣本40 775張,每張圖片對應5個人的描述.在訓練時,驗證和測試圖片都是5 000張.Flickr30k數(shù)據(jù)集中含有31 783張圖像,模型在該數(shù)據(jù)集上測試泛化性.表1 和表2 為本文模型在MSCOCO數(shù)據(jù)集和Flickr30k數(shù)據(jù)集上與其他模型評估分數(shù)對比表,使用的評估指標有基于共識的圖像描述評估(Consensus-based Image Description Evaluation,CIDEr)、雙語評估替換分數(shù)(Bilingual Evaluation Understudy,BLEU)、自動文摘評測方法(Recall-Oriented Understudy for Gisting Evaluation,ROUGE)和機器翻譯評價方法(Machine Translation Evaluation System,METEOR)[9].
表1 MSCOCO數(shù)據(jù)集上各模型參數(shù)Tab.1 Model parameters on MSCOCO dataset
表2 Flickr30k數(shù)據(jù)集上各模型參數(shù)Tab.2 Model parameters on Flickr30k dataset
雙通道圖像描述網(wǎng)絡(luò)與多種圖像描述網(wǎng)絡(luò)進行比較,從表1 與表2 中可以看出,雙通道圖像描述網(wǎng)絡(luò)在數(shù)據(jù)集MS COCO和Flickr30k上的準確率獲得了提高,在數(shù)據(jù)集Flickr30k上的測試結(jié)果也表明本文模型有良好的泛化性.
圖8 為雙通道圖像描述網(wǎng)絡(luò)在MS COCO數(shù)據(jù)集上相關(guān)參數(shù)的檢驗值,圖9 為雙通道圖像描述網(wǎng)絡(luò)在Flickr30k數(shù)據(jù)集上CIDEr和METEOR參數(shù)的檢驗值,縱坐標為參數(shù)精度值,精度值越大,代表某次圖像描述效果越好,橫坐標為檢驗次數(shù).對檢驗值取期望得到模型某指標的參數(shù)值.
圖8 MSCOCO數(shù)據(jù)集下各參數(shù)檢驗值圖Fig.8 Test values of each parameter under MSCOCO datase
如圖8 所示,CIDEr與BLEU-4檢測值分布較集中,表明在這兩個標準下圖像描述波動較小,ROUGE-L分布較分散,表明在此標準下圖像描述好壞波動較大.去掉METEOR中接近0的錯誤值,其整體參數(shù)較好,并且有一定的參數(shù)值超過平均期望,即圖像描述效果較好.圖9 與圖8 相比較,參與CIDEr與METEOR分布離散度變大,但整體趨勢一致,表明在驗證集Flickr30k上模型的泛化性較好.損失函數(shù)圖如圖10 所示,可以看出該算法是收斂的.圖11 為模型的生成圖.
圖9 Flickr30k數(shù)據(jù)集下各參數(shù)檢驗值圖Fig.9 Test values of each parameter under Flickr30k dataset
圖10 損失函數(shù)圖Fig.10 Loss function graph
圖11 圖像樣例圖Fig.11 The sample graph
在圖像描述任務(wù)中引入知識增強方法來改善端對端訓練過程中內(nèi)部參數(shù)不可控的影響.提出了一種新的雙通道圖像描述網(wǎng)絡(luò),該網(wǎng)絡(luò)包括圖像通道與主題通道兩大部分,主題通道首先提取生成圖像中的主題信息,并通過注意力機制篩選主題信息進行語義推測;圖像通道的主要作用為提取圖像特征,通過注意力機制篩選特征進行語義推測.最后,主題通道的語義信息與圖像通道的語義信息進行增強融合后進行語義推斷,生成圖像描述.與此同時,在結(jié)構(gòu)中使用極快速卷積神經(jīng)網(wǎng)絡(luò)替換卷積神經(jīng)網(wǎng)絡(luò)提取圖像和主題特征以便更準確提取特征.該結(jié)構(gòu)在雙語評估替換分數(shù)等評價指標上取得了較好的效果.