胡北辰
(安徽電子信息職業(yè)技術學院 信息與智能工程系,安徽 蚌埠233000)
文本生成圖像是指根據(jù)自然語言描述生成對應的圖像,該圖像應該具有足夠的視覺細節(jié),并且在語義上與文本的描述保持一致。從描述性的文本中生成對應的圖像是近年來熱門的研究領域,在多個領域都發(fā)揮著重要作用。研究者通過對生成對抗網(wǎng)絡(GAN, Generative Adversarial Networks)的生成器網(wǎng)絡進行改進[1-3],以生成高質(zhì)量的圖像。但是,由于自然語言具有抽象的特點,其所表達的信息也有限,單一的文本往往缺少詳細信息。因此,為了生成高質(zhì)量的圖像,我們需要帶有條件約束的生成器來補充文本細節(jié)。本研究提出了一種新穎文本生成圖像算法,通過利用由訓練數(shù)據(jù)集形成的先驗知識充實給定的標題,以解決信息量有限的問題并提高合成圖像的質(zhì)量。
如圖1所示,給定標題后,首先對其包含的文本信息進行了充實,而不是直接合成圖像。在標題匹配的過程中,由于在通用數(shù)據(jù)集中一幅圖像可能對應多個標題,因此需要將每個圖像及其訓練部分的標題作為知識庫(內(nèi)存)中的一項。然后,從知識庫中檢索兼容的項目,并精煉項目的標題以得到最佳的補語。最后,使用帶有自注意力機制的GAN來生成對應的圖像。
給定一個標題,通過標題匹配操作返回兼容的標題以實現(xiàn)標題的充實。該標題匹配的過程是一個信息檢索問題,即從訓練數(shù)據(jù)集中
圖1算法流程
(1)
其中,評分器SRE2(t,tik)用于計算標題t和tik的匹配分數(shù)。評分器由編碼器、對齊層和融合層組成。
(2)
其中,σ是一個sigmoid函數(shù)。給定標題t,可以從知識庫Ω中獲得K個最佳的候選標題,用ΩK(t)表示。為了提高語義一致性并進一步排除沖突的標題,通過選擇Ntest個余弦相似度更接近標題t的標題以達到精煉的目的。
從文本生成圖像的過程中,可以使用文本編碼器生成給定標題的嵌入e,并將該嵌入輸入到GAN中以生成圖像。對于GAN,結合自注意力機制和多標題相似模型構造了注意力GAN,以支持多標題,如圖2所示。
(3)
引入自注意力機制來融合標題的嵌入。給定上采樣模塊1產(chǎn)生的隱藏狀態(tài)hi,對于每個tj,其對應的嵌入計算如下:
(4)
為了提取標題T的嵌入,利用自注意模塊[5]融合所有標題的嵌入進行融合:
(5)
其中fmax(x)函數(shù)輸出一個張量,張量中的每個元素是x每一列中的最大值,fposw是位置前饋網(wǎng)絡,LMHA是multi-head注意層,即:
LMHA(v)=Lnl(Ldrop([H0(v),…,HNH(v)]·M3)+v)
(6)
同時考慮所有標題T,多標題相似模型損失函數(shù)定義為:
(7)
其中μk是句子tk的權重,L3(I,tk)是相似模型的損失函數(shù),即
(8)
由多標題合成的圖像應與這些標題一致,在多標題的約束下,總價值函數(shù)可以寫成:
(9)
實驗部分采用Caltech-UCSD Birds (CUB)數(shù)據(jù)集[7],該數(shù)據(jù)集中的每個圖像都有10個標題來描述細粒度的視覺細節(jié)。本文對比的算法是AGan[8]、DGAN[9]和C4Synth[10]。首先采用IS(Inception Score)指標來衡量生成圖像的質(zhì)量,結果如圖3所示。由結果可知,本算法具有最高的IS,說明生成的圖像具有較高的質(zhì)量。
接下來考察算法的相關精度,對比結果如圖4所示。由于圖像是通過使用標題索引為0的第一個標題生成的,因此除了ground truth(GT)之外,圖像和第0個標題之間的相關精度都高于其他。真實圖像及其標題之間的相關精度約為0.25,比索引0處的合成圖像的相關精度小,這說明真實圖像包含了比標題中的視覺細節(jié)更多的細節(jié)。本方法通過使用多標題對關聯(lián)過程進行了顯式建模,因此其相關精度會高于GT,這表明合成圖像比標題所描述的真實圖像包含更多相關的視覺細節(jié)。
為了實現(xiàn)信息有限的文本生成高質(zhì)量圖像,本文提出了一種基于GAN的文本生成圖像算法。在Caltech-UCSD Birds數(shù)據(jù)集上進行的實驗表明,與現(xiàn)有算法相比,本算法可以合成更逼真的圖像。但是,要提高根據(jù)多標題來生成高質(zhì)量圖像并不是一件容易的事,該過程需要結合自然語言處理等方法來進一步提高性能。因此,在未來的工作中,我們將結合自然語言處理的相關技術來優(yōu)化文本生成圖像的性能。