彭姣麗
(湖南環(huán)境生物職業(yè)技術學院,湖南 衡陽 421005)
隨著數(shù)據(jù)規(guī)模、運算能力的飛速提升,深度學習開始逐漸顯露優(yōu)勢。作為視覺與語言處理的綜合任務,自動生成圖像描述能夠實現(xiàn)從圖像到文本的轉換功能,拓展了視覺描述的應用范圍,例如人機交互、為盲人提供輔助以及幼童教育等。傳統(tǒng)自動生成圖像描述技術具有一定局限性,無法適用于新場景,與人類描述的關聯(lián)性較低[1]。因此,該文設計了一種基于深度學習的自動生成圖像描述模型,采用深度卷積神經(jīng)網(wǎng)絡作為編碼器來提取圖像特征,用記憶神經(jīng)網(wǎng)絡生成描述句子。經(jīng)試驗分析,與其他模型相比,該模型的性能較高,各子模塊均有助于提高模型圖像描述的性能,具有廣泛的應用價值。
模型由特征提取、特征融合以及語言處理模塊構成。特征提取模塊選取微型神經(jīng)網(wǎng)絡Mobilenet V3,其采用深度可分卷積的形式,將標準卷積分為深度卷積和逐點卷積;特征融合模塊選取特征金字塔網(wǎng)絡(Feature Pyramid Networks,F(xiàn)PN),將低層邊緣特征與高層語義特征結合,在提高檢測性能的同時也提高了模型的魯棒性[2];語言處理模塊則是選用記憶神經(jīng)網(wǎng)絡(Memory Neural Network,MNN)。模型整體架構如圖1 所示,Mobilenet V3 共有10層,除首層的標準卷積層和最后的全連接層以外,其他均是深度可分卷積層。深度可分卷積層將標準卷積分為深度卷積和1×1 的點卷積,DC 表示該層是深度卷積,PC 表示該層是點卷積[3]。在設計中,各層深度卷積和點卷積后應加入定額層和激活層,定額層負責對卷積提取到的特征進行歸一化處理,激活層則是對神經(jīng)網(wǎng)絡各層的輸出結構進行非線性變換。
圖1 模型整體架構設計
演化策略算法(Evolutionary Strategy,ES)是一種通過模擬進化原理來解決參數(shù)優(yōu)化的算法[4]。創(chuàng)建包括x個體的群體p,迭代計算系列群體,在迭代過程中從p中生成y個子體。對各類情況來說,生成子群體的操作如下:1) 從p中選取獨立個體作為父代重組。2) 通過重組產生新的個體并變異。迭代后計算其與父代p的誤差,得出值后開始排序,從x個子代和y個p代的集合中選擇誤差最小的向量作為下代p+1。重復迭代過程,直到得到最小精度。與傳統(tǒng)圖像描述模型不同,該文構建的模型關注結合視覺注意力,以發(fā)揮其優(yōu)勢。同時,提及的神經(jīng)網(wǎng)絡可以通過圖像描述來彌補將圖像輸入解碼器的弊端。
卷積神經(jīng)網(wǎng)絡在提取視覺信息的過程中具有優(yōu)勢,因此在編碼器中可以生成視覺信息。該文采用最后一個卷積層的輸出作為圖像細節(jié),用v表示在第n個網(wǎng)格位置中的視覺信息,如公式(1)所示。
式中:vn為第n個網(wǎng)格位置的視覺信息。
神經(jīng)網(wǎng)絡可以連接編碼器和自適應門閥,其將演化策略算法融入深度學習的全過程中,從而使重構誤差最小化,進而達到優(yōu)化學習模型結構的目的。
將演化策略算法引入深度學習是為了讓模型在滿足精度要求的同時,具有最簡單的結構[5]。由于該模型是通過最小重構誤差實現(xiàn)的,因此采用重構誤差作為優(yōu)化目標。神經(jīng)網(wǎng)絡中使用的重構誤差可以通過比較視覺層節(jié)點t的狀態(tài)得到。根據(jù)通用方法,采用信息散度來衡量不同概率的相似性S,如公式(2)所示。
式中:Dd為數(shù)據(jù)維度;h為隱藏節(jié)點數(shù);k為輸入節(jié)點數(shù);F為節(jié)點效率。
當F(k=t)=F(kDd=t)時,S=0。
節(jié)點選擇是利用偏差函數(shù)計算各節(jié)點的適應度,從而根據(jù)適應度選擇性能更高的隱藏節(jié)點。節(jié)點被選擇的概率應與適應度成反比,實現(xiàn)該設計一般需要設置節(jié)點t的選擇概率為Ft,如公式(3)所示。
式中:q為隱藏節(jié)點數(shù)量;Et為節(jié)點t的適應度。
這樣有利于從父代獲得良好遺傳,計算節(jié)點適應度后,排序節(jié)點并設置合理閾值,同時選擇具有適應度且小于該閾值Et的節(jié)點作為全新的隱藏節(jié)點。
可以通過特征提取、特征融合以及語言處理等模塊獲取視覺特征和文本信息。自適應門閥將接收視覺特征和文本信息(有效利用視覺特征和文本信息)[6]。最便捷的方法是取視覺特征和文本信息的均值表示其擁有同一權重。但是視覺特征與文本信息的權值不應該一致,其原因是當各時步長產生不同描述時,描述焦點是具有差異化的[7]。因此,設計自適應門閥是為了調整視覺特征與文本信息的比例。針對該問題,該文提出了一種能夠在各時間步自適應學習的方法,先引入自適應平衡計算閾值ABv,如公式(4)所示。
式中:Vc為視覺特征權重;Ti為文本信息權重;Bm為平衡門閥值。
Bm可以表示文本信息相對視覺特征的必要性,Bm越小,表明模型比較關注視覺信息;當Bm為0 時,表明自適應門閥僅采用視覺特征;當Bm為1 時,表明自適應門閥僅采用文本信息。因此,其關鍵點是Bm的取值。對自適應門閥來說,視覺模塊和文本模塊能夠幫助自適應門閥有效利用所有可用信息,同樣自適應門閥也能平衡視覺與文本信息,使圖像描述的效果更好。
Mxnet 是一種開源深度學習框架,可以在計算機視覺和語言處理等方面應用。Mxnet 框架采用Julia 語言接口進行編程,還具有其他開源框架不具有的特性。Mxnet 可視為圖形處理器的擴展,其優(yōu)勢在于能夠輕松進行代碼調試,包括許多損失函數(shù),適用于各類嵌入式框架。該文采用易于調試并能高效擴展的Mxnet 框架來實現(xiàn)自動生成圖像描述算法,具體試驗環(huán)境配置見表1。
表1 試驗環(huán)境
機器翻譯評價指標(Bilingual Evaluation Understudy,BLEU)應用于許多潛在應用中,例如自動生成圖像描述,由于評估目的是相同的,因此將生成描述與人工描述進行比較。使用小批量數(shù)據(jù)平均各類度量,比較生成描述和參考文本中的小批量數(shù)據(jù),并計算匹配數(shù)量,完全匹配分值為1,不匹配分值為0。小批量數(shù)據(jù)匹配的是n個長度的元祖相似度,匹配結果與順序無關,匹配越多,生成的描述越好[8]。BLEU分值由懲罰因子Pf與修正的小批量數(shù)據(jù)統(tǒng)計精度Sa的均值相乘得到,Pf的引入使計算BLEU分值時須考慮生成句子的長度范圍,如公式(5)所示。
式中:d為生成候選句子長度;l為參考句子長度,wm為最大值為m的小批量數(shù)據(jù)均勻加權的權重。
如果僅計算小批量數(shù)據(jù)的BLEU分值,那么僅能度量生成描述的充分性,無法保證生成描述的流暢性,導致低質量生成描述會得到較高的評價結果。因此,試驗分別對4 個不同的BLEU分值進行計算比較。
在VisualData、Graviti 等數(shù)據(jù)集上對所設計的模型與幾類較常見的模型進行比較:1) NIC 模型和MR 模型是“端→端”的多模態(tài)網(wǎng)絡,其采用預訓練好的卷積神經(jīng)網(wǎng)絡作為編碼器,同時采用循環(huán)神經(jīng)網(wǎng)絡作為語言模型。2)Hard attention 模型為圖像描述生成引入了注意力機制,其通過最大化變分下界的形式進行訓練。3) Adaptive 模型能夠使用視覺標記(不是非隱藏狀態(tài))為解碼器提供后備選項。4) SCA-CNN 模型在卷積神經(jīng)網(wǎng)絡中結合空間注意力機制,從而識別多層特征中的特征條目。
當語言模型訓練時,VisualData 數(shù)據(jù)集的小批量數(shù)據(jù)的大小設置為15,學習率初始化為0.000 1。B1~B4分別表示模型在BLEU評價指標上1~4 的分數(shù)。由表2 可知,該文設計的模型的BLEU評價指標比NIC 模型高,顯示了特征提取器的差異對圖像標注模型性能的影響。此外,該文設計的模型的性能也比其他模型高,為改進基于深度學習的自動生成圖像描述算法提供了不同思路。
表2 VisualData 數(shù)據(jù)集上的模型比較試驗(單位:%)
在表3 中加入與MR 模型、Hard attention 模型的比較,當訓練該文提出的模型時,根據(jù)數(shù)據(jù)集大小的差異,Graviti數(shù)據(jù)集的小批量數(shù)據(jù)設置為60,學習率初始化為0.000 1。
表3 Graviti 數(shù)據(jù)集上的模型比較試驗(單位:%)
該模型與NIC 模型在BLEU評價指標上的分值情況如圖2 所示,通過在各數(shù)據(jù)集上的比較得出該模型在Graviti數(shù)據(jù)集上的分值提高得更顯著。在VisualData 數(shù)據(jù)集上,該文提出的模型比NIC 模型的B1分值高了10%;在Graviti 數(shù)據(jù)集上,該文提出的模型比NIC 模型的B2分值高了20%。結果表明,在采用大規(guī)模數(shù)據(jù)集訓練該文提出的模型的情況下,增加感受野的形式在更大的數(shù)據(jù)集中可以獲取更多的圖像信息,從而有效地提高訓練效果。
圖2 基于不同數(shù)據(jù)集的評估結果比較
由試驗結果可知,該模型的評價指標比其他圖像標注方法高,驗證了改進圖像特征提取部分可以提高圖像描述生成模型的性能。其中,Hard attention 模型通過引入注意力機制來改進卷積神經(jīng)網(wǎng)絡,但是對神經(jīng)網(wǎng)絡結構的改變在一定程度上提高了模型的復雜度,當將模型應用于其他數(shù)據(jù)集時,所需的參數(shù)調整也很復雜。該模型通過改進特征提取形式更精準地識別圖像細節(jié),可以提取完整的視覺語義,從而使生成描述與人工描述更接近。
綜上所述,利用視覺和文本優(yōu)勢,該文設計了一種基于深度學習的自動生成圖像描述模型,該模型由特征提取、特征融合以及語言處理模塊構成,并對編碼器、神經(jīng)網(wǎng)絡以及自適應門閥進行了定性設計。為了驗證模型的有效性,分別在VisualData、Graviti 等數(shù)據(jù)集上進行模擬試驗,在分析后用評價指標BLEU對模型進行評估。試驗結果表明,該文設計的AGDL 模型可以生成語義合理的圖像描述,且與其他模型相比具有明顯優(yōu)勢。在未來工作中應更有計劃地探索自適應機制,從而充分利用各類層次的圖像信息。