李小瑞,謝 誠,李 賓,柳 青,胡健龍
基于知識元模型的跨模態(tài)聊天卡通表情圖像合成
李小瑞,謝 誠,李 賓,柳 青,胡健龍
(云南大學軟件學院,云南 昆明 650500)
傳統(tǒng)的聊天卡通表情圖像生成技術主要基于預定義的聊天卡通表情圖像庫,通過用戶的語義描述,進行“語義-視覺”跨模態(tài)檢索,匹配合適的表情圖像。但是,預定義表情圖像庫樣本數量有限且是固定形式的,在實際的聊天場景中常常出現表情圖像的錯誤匹配或無合適匹配。針對此問題,聚焦于合成新的聊天卡通表情圖像而非檢索,設計了一種基于知識元模型的跨模態(tài)聊天卡通表情圖像合成方法,根據用戶的語義描述,即時合成對應的聊天卡通表情圖像。通過表情知識元模型建立聊天卡通表情圖像的內在語義邏輯關系,增強聊天卡通表情圖像合成的語義一致性。通過多生成器模型,從每個元知識點合成對應的局部圖像,再經過聯合生成器整合為完整的卡通表情圖像,極大地減少了訓練樣本需求。在公開的聊天卡通表情圖像合成數據集的測試中,該方法在語義一致性上取得了更好的結果,同時在圖像質量上與現有的方法具有可比性。
圖像生成;跨模態(tài)學習;文本合成圖像(T2I);知識元模型;圖像表情包
互聯網聊天表情圖像合成是“語義-視覺”跨模態(tài)圖像生成[1]領域的一種典型應用,即用戶可以通過語音或文字表達一個自己所期望的動畫表情,模型可以根據語音或描述中的語義信息,針對性地合成出與所表達語義高度契合的卡通圖像表情。這種合成而非搜索式的“語義-視覺”映射方法,能夠顯著地提高聊天表情圖像合成的即時性、準確性和上下文符合性,在計算機語義-視覺融合領域具有重要的研究意義和應用價值。
現有的聊天表情圖像主要通過“語義-視覺”匹配的方式生成,如百度輸入法表情、搜狗輸入法表情、facemoji等,在預定義的表情庫中,匹配最符合語義描述的表情圖像,并嵌入文字描述。但由于預定義表情庫中的圖像是靜態(tài)且有限的,難以完全符合聊天場景中的上下文語義,無法滿足當今社交聊天[2]的需求。隨著圖像合成技術[3]的不斷發(fā)展,目前已有研究采用生成對抗網絡(generative adversarial networks,GAN)[4]進行“語義-視覺”的圖像合成,能夠合成高質量的、符合一定語義上下文的圖像,是目前聊天表情圖像合成的一種可行技術方向。
然而,改進后的GAN進行“語義-視覺”的跨模態(tài)圖像合成,在語義一致性、訓練樣本需求上仍具挑戰(zhàn),無法直接運用于需要高度語義一致的表情圖像合成任務中。近期的研究中,StackGAN[5],StackGAN++[6],AttnGAN[7],MirrorGAN[8]擴展了傳統(tǒng)的GAN,能夠實現“語義-視覺”的圖像合成。雖然此類方法能夠合成較高紋理質量的圖像,但圖像的語義一致性并不理想,難以應用在注重語義一致性的表情圖像合成任務中。此外,現有的GAN對每個類都需求大量的訓練樣本,而表情圖像主要以卡通線條為主,每種類別并沒有足夠的訓練樣本,現有的方法難以直接運用。
針對此問題,本文設計了一種基于知識元模型的跨模態(tài)表情圖像合成模型。通過表情知識元模型建立表情圖像的內在語義邏輯關系,增強表情圖像合成的語義一致性。通過多生成器模型,從每個元知識點合成對應的局部圖像,再經過聯合生成器整合為完整的表情圖像,極大地減少了訓練樣本需求。在公開的表情圖像合成數據集的測試中,本文提出的基于知識元模型的跨模態(tài)表情圖像合成模型在語義一致性上取得了更好的結果,且在圖像質量上與現有的方法具有可比性。
根據自然語言描述自動生成圖像(text to image)是藝術生成和計算機輔助設計等多種應用中的一個基本問題。隨著深度學習技術的出現,該方面的研究已取得了顯著的進展[5-15]。本文的表情圖像合成是圖像生成任務中文本到圖像生成的一大應用。
圖像生成任務包括圖像到圖像、文本到圖像。在2016年以前,主流的圖像生成方法有變分自編碼器(variational auto encoder,VAE)[16]和深度遞歸注意力生成模型(deep recurrent attention writer,DRAW)[17]。VAE通過統(tǒng)計的方法進行建模最大化數據的最小可能性來生成圖像,并直接對比原始圖像和重建圖像的差異,但缺乏類似GAN模型[4]中生成器和判別器的博弈,會趨向于生成模糊的圖像。DRAW使用循環(huán)神經網絡,利用注意力機制,每一步關注一個生成對象,依次生成一個批量以疊加出最終結果。MANSIMOV等[18]提出的AlignDRAW在傳統(tǒng)DRAW的基礎上加入了文本對齊,同時生成新的圖像,其不完全是訓練集中出現過的圖像,圖像質量不可信且精度低。隨著2014年GAN被提出,其在圖像生成任務上表現出良好的性能,成為圖像生成模型的首選之一。
另一方面,圖像到圖像的生成任務被定義為將一個場景表示轉換成另一個場景表示的問題,其目標是通過一組對齊圖像對的訓練集來學習輸入圖像和輸出圖像之間的映射關系。但對于其他許多任務,成對的訓練數據較難獲得。2017年ZHU等[19]提出的CycleGAN實現了無監(jiān)督的圖像到圖像的轉換,該模型在沒有成對例子的情況下學習將圖像從源域轉換到目標域的方法。而相較圖像到圖像的合成,文本到圖像合成任務要困難得多,因為文本和圖像之間的跨域和跨模態(tài)差異比具有不同屬性(如風格)的圖像之間的差異要大得多。
2016年文獻[9]提出了GAN-INT-CLS網絡,并首次用GAN的思想完成文本到圖像的合成任務。GAN-INT-CLS模型的主干為GAN,在輸入中加入文本特征作為生成器和判別器的輸入,解決了文本信息的稀疏問題,另在文本特征中使用插值,使得生成的圖像更加多樣,但最終只能生成64×64的圖像。2016年文獻[5]擴展了GAN-INT-CLS網絡,提出了堆疊生成式對抗網絡StackGAN,該模型能基于文本描述生成較真實的圖像,使用2個GAN模型分步生成圖像。因僅在網絡中增加上采樣層并不能提升生成圖片的質量,所以文獻[5]提出了一個分兩階段的GAN網絡:第一階段用于生成低精度(64×64)的圖像;第二階段將第一階段結果和文本描述作為輸入,最終生成了較高分辨率的圖像,但該模型不是端到端的訓練。2017年文獻[6]進一步提出了StackGAN++,將GAN擴充成一個樹狀的結構,采用了多個生成器和多個鑒別器并行訓練,得到不同精度(64×64,128×128,256×256)的圖像,低精度生成器輸出的隱藏信息,一方面生成低精度圖,另一方面作為更高精度生成器的輸入;該模型雖能生成比之前精度更高的圖像,但該模型輸入為整個句子特征,遺漏了更多細粒度的信息,而阻礙了更高精度、更高語義信息的圖像生成。2018年,文獻[7]提出了一種注意力模型AttnGAN,其相比于StackGAN++[6]增加了注意力機制,不僅提取文本句子特征作為全局約束,同時也將注意力精確到詞級提取了詞級特征作為局部約束,生成器和鑒別器每次針對詞級特征進行部分精準優(yōu)化,在生成圖像不同的子區(qū)域時,引導生成器關注不同的單詞,從而使得生成圖像更突出文本中的細節(jié)。其已能生成高質量的圖像,也首次評估了圖像的語義一致性。2019年,文獻[8]提出MirrorGAN,其結合了“全局到局部”的注意力機制和保留語義的文本到圖像再到文本的框架,保證文本描述和視覺內容之間的語義一致性。同年,文獻[13]提出故事可視化任務,并提出了一個基于序列條件GAN的故事圖像序列生成模型StoryGAN,其能根據輸入故事中每一個句子生成一張對應的圖片;文獻[14]提出ReSTGAN,能逐步生成可能的圖像,以補充查詢中服裝的細粒度風格和顏色,旨在幫助顧客可視化服飾的風格和顏色,匹配其“搜索查詢關鍵字”,幫助顧客購買其喜歡的產品。以上2個為文本到圖像生成[5-15]任務的應用。
自2016年使用GAN完成圖像生成任務以來,生成圖像的質量和圖像語義性均有很大進展,提出的模型在各大數據集上都表現良好,但極度缺乏應用,且各模型要在大數據集上訓練,每個數據集少則幾萬張,多則幾十萬張,極大限制了文本生成圖像技術在其他方向或領域的拓展應用。
文本到表情圖像合成任務還有待研究。斯坦福大學的PEIRSON和TOLUNAY[20]提出了一個模因生成系統(tǒng),該系統(tǒng)能為任何圖片生成幽默且相關的標題;系統(tǒng)可依賴圖片,還可依賴與模因模板相關的用戶自定義標簽,為用戶提供對模因內容的處理。共收集了大約40萬張帶標簽圖片或圖說圖片,其中有2 600個獨特的圖像-標簽對。但該系統(tǒng)僅為表情圖片生成標題,類似于圖像理解[21-26],并不是真正意義的文本合成表情圖像;且目前還沒有國內社交用戶喜歡的專門的表情圖像數據集。因此,提供一個表情圖像合成的數據集,實現真正意義的文本合成表情圖像,構建一個符合當代社交用戶需求的表情圖像合成系統(tǒng)勢在必行。
圖1為本文設計的基于知識元模型的跨模態(tài)表情圖像合成模型。第一部分為表情多元知識元模型,以建立表情圖像的內在語義邏輯關系;第二部分為基于知識元模型的多生成器,從每個元知識點合成對應的局部圖像;第三部分為多生成器聯合模型,把多生成器生成的局部圖像整合為完整的表情圖像。
表情知識元模型如圖2所示。每張表情圖像都被定義為包含13個特征的多元知識圖譜,即頭型、五官、臉部、頭部、嘴巴、衣服、褲子、左手、左拿、右手、右拿、左腳、右腳。
圖1 基于知識元模型的跨模態(tài)圖像合成模型
Fig. 1 Cross-modal image synthesis model based on knowledge meta-model
圖2 表情圖像多元知識圖譜
其中,為第個特征的增廣向量,本文為128維。
基于知識元模型的多生成器,從每個元知識點合成對應的局部圖像,如圖1的右上角所示。本文考慮到頭型、五官和上半身足夠表示一張表情圖像,也為了簡化模型,采用了三元生成器對表情圖像的頭型、五官和上半身局部圖像進行生成。且每個知識元模型生成器結構相同。
最后經過多生成器聯合模型的生成器生成一張128×128的表情圖像。
其中,為真實樣本圖像;為文本標簽數據0和f,在式(5)和(6)中給出。
基于知識元模型的跨模態(tài)圖像合成模型生成一張完整的表情圖像,其是多階段的,最終的目標函數定義為
本文基于目前的表情圖像合成任務公開了專用數據集(表情圖像合成數據集:https://github.com/ fefa/MemeGAN)。該數據集包含了熊貓頭和蘑菇頭2類用戶常用表情圖像。從互聯網上爬取了14 000張表情圖像,去除了模糊和不符合的圖像及圖中文本,最后獲得512張表情圖像。其中,每張圖片分為6個部分:頭型、五官、上半身、下半身、左手和右手,每個部分都有對應的文本標簽。為了評估提出的模型,本文還指定了測試集,其包含了70張2類表情圖像,每張圖片包括5條文本標簽,其中只有一條與圖片相對應。
本文使用了2個指標評估該模型:首先,FID (Fréchet inception distance)[27]評估生成圖像的質量和多樣性,分數越低表示生成的圖像質量更高和多樣性更好。另外,還用R-precision[7]評估生成的圖像與對應的文本描述之間的視覺語義相似度。
為了獲得R-precision得分,本文專門訓練了一個文本語義相似度模型,包括圖像編碼器和文本編碼器2個部分。該模型將文本和圖像映射到共同的語義空間,并從文本角度評測生成圖像和輸入文本的相似度。文本編碼器是目前開源的中文詞向量模型,以提取語義特征;圖像編碼器為卷積神經網絡(convolutional neural network,CNN),將圖像映射到語義向量空間,CNN中間層學習圖像塊特征,后面層學習圖像的全局特征。即圖像編碼器是在表情圖像合成數據集上訓練的inception-v3網絡[28]。最后,通過添加全連接層將圖像特征轉到文本特征的公共語義空間。
對于每一張生成的圖像,均包含1條真實文本描述和4條從測試集中隨機選擇的不匹配文本描述的文本描述池。然后計算池中每1條文本特征和生成圖像特征的余弦相似度;因測試集只是5條文本描述,所以最后只計算top-1設置下的平均精度,即只有=1時為正確。分數越高,則表示生成的圖像與輸入文本描述的視覺語義相似性越高。
3.3.1 定量結果分析
將本文提出的表情圖像合成模型與傳統(tǒng)的文本合成圖像模型進行定性和定量的比較,以驗證本文模型的有效性。為公平評估,將傳統(tǒng)的文本生成圖像模型在本文數據集上訓練。因數據集中的圖像分辨率為130×130,對StackGAN,AttnGAN和MirrorGAN[8]模型的參數進行了調整:StackGAN各階段生成圖像的分辨率依次為64×64,128×128;AttnGAN和MirrorGAN生成圖像的分辨率依次為32×32,64×64和128×128。StackGAN1表示StackGAN模型第一階段,以此類推?;谥R元模型的跨模態(tài)表情圖像合成模型與其他方法獲得的FID分數見表1,分數越低表示生成的圖像質量越好,所有模型FID分數取分均值。與傳統(tǒng)的文本合成圖像模型StackGAN,AttnGAN和MirrorGAN相比,本文模型均取得最好的FID分數177.01分。結果表明,與傳統(tǒng)的文本合成圖像的模型相比,本文模型更能生成多樣化、質量更好的表情圖像。
表1 表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在表情圖像數據集上的FID分數
注:↓表示越低越好
表2展示了表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在本文數據集上的R-precision[7]的得分。分數越高表示生成的圖像與輸入的文本有更高的語義相似度。所有得分都取top-1分數均值。
表2 表情圖像合成模型與傳統(tǒng)的文本合成圖像模型在表情圖像數據集上的R-precision(↑)top-1分數(%)
注:↑表示越高越好
可以看出,與傳統(tǒng)的文本合成圖像相比,本文模型生成的圖像有更強的語義性。特別說明,AttnGAN3雖然也獲得了較高分數,但生成的表情圖像各個部分不清晰,不可用。
另外,本文還評估了不同的Learning rate()和多生成器聯合模型不同的對整體損失的影響,取值為0.000 1~0.000 5,設置1,2,3,5和10,計算不同和設置下的FID分數,結果如圖3所示,展示了500輪結果的均值、最大值和最小值,在為0.000 3、為3的設置下,獲得最好的FID(↓)分數。
3.3.2 定性結果分析
基于知識元模型的多生成器生成的局部表情圖像如圖4所示,可以看出多生成器能準確地生成表情局部圖像。表情圖像合成模型與StackGAN,AttnGAN和MirrorGAN的主觀視覺比較如圖5所示,第1行為GroundTruth真實樣本,包括文字描述和對應的表情圖像。接下來是各模型以真實的樣本文字描述為輸入,連續(xù)生成的5張表情圖像。
在實際訓練中,隨著階段增加分辨率提高,AttnGAN,MirrorGAN模型生成的圖像模糊不清,表明其難以對多個對象和關系進行建模,因此合成包含多個對象的圖像比較困難。同3.3.1節(jié)所述,因訓練集圖像分辨率為130×130,為了公平的比較,對StackGAN,AttnGAN和MirrorGAN模型參數進行了調整。本文僅與各模型的最后階段生成的圖像進行比較。可以看出,StackGAN生成的圖像比AttnGAN和MirrorGAN視覺效果更好,但生成圖片偏離了輸入的文本描述。而本文模型生成的圖像相比于其他模型,圖像質量和語義更接近于真實樣本。
圖3 模型超參結果分析((a)表情圖像合成模型不同的learning rate獲得的FID分數;(b)表情圖像合成模型不同l獲得的R-precision分數)
圖4 多生成器生成的局部圖像
基于知識元模型的跨模態(tài)表情圖像合成模型的手機APP原型程序(https://github.com/fesfa/ memeApp)已經設計并開發(fā)。該應用程序一共包括表情圖像4個模塊:語義合成、人臉定制、風格遷移和智能推薦。本文模型運用到表情圖像語義合成模塊。表情圖像語義合成模塊用戶可以自由輸入、提示輸入合成表情圖片,如圖6(a)所示;表情圖像人臉定制模塊用戶需上傳個人照片和場景照片,可獲得個性化的表情圖像,如圖6(b)所示;表情圖像風格遷移模塊用戶需上傳照片,選擇遷移風格,得到風格遷移的表情圖像,目前可得到9種類型的表情圖像,如圖6(c)所示;表情圖像智能推薦如圖6(d)所示。
圖6 原型應用程序((a)語義合成表情圖像,文本描述合成表情圖像;(b)個性化定制表情圖像,定制任意風格的表情圖像;(c)風格遷移表情圖像;(d)智能推薦表情圖像)
本文設計了一種基于知識元模型的跨模態(tài)表情圖像合成方法,即根據用戶語義描述,即時合成對應的表情圖像。提出通過表情知識元模型建立表情圖像的內在語義邏輯關系,有效地提高了合成圖像的語義一致性;提出多生成器模型,從元知識點合成局部表情圖像,最后經過聯合生成器整合局部表情圖像為完整的表情圖像,整個架構極大地減少了訓練樣本需求。通過該方法,用戶可在復雜的聊天場景中快速獲得符合語義的表情圖像。解決了以往只能“語義-視覺”跨模態(tài)檢索獲得表情圖像的問題。并基于該方法開發(fā)了原型應用程序,基于目前的表情圖像合成任務公開了專用數據集,為后續(xù)的表情圖像研究提供了數據支撐。
在后續(xù)工作中,將首先拓展生成的表情圖像類型,合成多種類的高質量和高語義的表情圖像;然后融合圖像理解,即在應用程序中,理解用戶上下文語義,自動生成下一個符合場景語義的表情圖像,這將是一項有趣又有挑戰(zhàn)性的工作。
[1] TAIGMAN Y, POLYAK A, WOLF L. Unsupervised cross-domain image generation[EB/OL]. [2021-01-19]. https://arxiv.org/abs/1611.02200.
[2] 王月. 淺析“表情包”興起的特點及其影響[J]. 傳播與版權, 2016(9): 116-117, 124.
WANG Y. Analysis of the characteristics and influence of the rise of emoticons[J].Communication and Copyright , 2016(9): 116-117, 124 (in Chinese).
[3] HUANG H, YU P S, WANG C H. An introduction to image synthesis with generative adversarial nets[EB/OL]. [2021-02-03]. https://arxiv.org/abs/1803.04469v2.
[4] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144.
[5] ZHANG H, XU T, LI H S, et al. StackGAN: text to photo-realistic image synthesis with stacked generative adversarial networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 5908-5916.
[6] ZHANG H, XU T, LI H S, et al. StackGAN++: realistic image synthesis with stacked generative adversarial networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(8): 1947-1962.
[7] XU T, ZHANG P C, HUANG Q Y, et al. AttnGAN: fine-grained text to image generation with attentional generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 1316-1324.
[8] QIAO T T, ZHANG J, XU D Q, et al. MirrorGAN: learning text-to-image generation by redescription[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 1505-1514.
[9] REED S, AKATA Z, YAN X Y, et al. Generative adversarial text to image synthesis[C]//The 33rd International Conference on Machine Learning. New York ACM Press, 2016: 1060-1069.
[10] ZHANG Z Z, XIE Y P, YANG L. Photographic text-to-image synthesis with a hierarchically-nested adversarial network[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6199-6208.
[11] LI Y T, GAN Z, SHEN Y L, et al. StoryGAN: a sequential conditional GAN for story visualization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 6322-6331.
[12] SURYA S, SETLUR A, BISWAS A, et al. ReStGAN: a step towards visually guided shopper experience via text-to-image synthesis[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1189-1197.
[13] HAN F D, GUERRERO R, PAVLOVIC V. CookGAN: meal image synthesis from ingredients[C]//2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE Press, 2020: 1439-1447.
[14] 孫鈺, 李林燕, 葉子寒, 等. 多層次結構生成對抗網絡的文本生成圖像方法[J]. 計算機應用, 2019, 39(11): 3204-3209.
SUN Y, LI L Y, YE Z H, et al. Text-to-image synthesis method based on multi-level structure generative adversarial networks[J]. Journal of Computer Applications, 2019, 39(11): 3204-3209 (in Chinese).
[15] LI W B, ZHANG P C, ZHANG L, et al. Object-driven text-to-image synthesis via adversarial training[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 12166-12174.
[16] KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2021-01-23]. https://arxiv.org/abs/1312.6114.
[17] GREGOR K, DANIHELKA I, GRAVES A, et al. DRAW: a recurrent neural network for image generation[C]//The 32nd International Conference on Machine Learning. New York: ACM Press, 2015:1462-1471.
[18] MANSIMOV E, PARISOTTO E, BA J L, et al. Generating images from captions with attention[EB/OL]. [2021-03-01]. https://arxiv.org/abs/1511.02793.
[19] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2242-2251.
[20] PEIRSON V A L, TOLUNAY E M. Dank learning: generating memes using deep neural networks[EB/OL]. [2021-03-10]. . https://arxiv.org/abs/1806.04510.
[21] 李學明, 岳貢, 陳光偉. 基于多模態(tài)注意力機制的圖像理解描述新方法[J]. 電子科技大學學報, 2020, 49(6): 867-874.
LI X M, YUE G, CHEN G W. A novel end-to-end image caption based on multimodal attention[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 867-874 (in Chinese).
[22] 胡丹, 袁東芝, 余衛(wèi)宇, 等. 一種基于深度殘差網絡和LSTM的圖像理解方法: CN106650813B[P]. 2019-11-15.
HU D, YUAN D Z, YU W Y, et al. Image understanding method based on depth residual error network and LSTM: CN106650813B[P]. 2019-11-15 (in Chinese).
[23] HE X D, DENG L. Deep learning for image-to-text generation: a technical overview[J]. IEEE Signal Processing Magazine, 2017, 34(6): 109-116.
[24] 魏忠鈺, 范智昊, 王瑞澤, 等. 從視覺到文本: 圖像描述生成的研究進展綜述[J]. 中文信息學報, 2020, 34(7): 19-29.
WEI Z Y, FAN Z H, WANG R Z, et al. From vision to text: a brief survey for image captioning[J]. Journal of Chinese Information Processing, 2020, 34(7): 19-29 (in Chinese).
[25] DONG H, ZHANG J Q, MCILWRAITH D, et al. I2T2I: learning text to image synthesis with textual data augmentation[C]//2017 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2017: 2015-2019.
[26] LI S, ZHAO Z, HU R F, et al. Analogical reasoning on Chinese morphological and semantic relations[EB/OL]. [2021-02-19]. https://arxiv.org/abs/1805.06504.
[27] HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time-scale update rule converge to a Nash equilibrium[EB/OL]. [2021-01-16]. https://arxiv.org/abs/1706. 08500
[28] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 2818-2826.
Cross-modal chat cartoon emoticon image synthesis based on knowledge meta-model
LI Xiao-rui, XIE Cheng, LI Bin, LIU Qing, HU Jian-long
(School of Software, Yunnan University, Kunming Yunnan 650500, China)
The traditional chatcartoon emoticon technologies are mainly based on the predefined chatcartoon emoticon library. Through the semantic description of users, the “semantic-to-visual” cross-modal retrieval is carried out to match the appropriate emoticon. However, the number of predefined emoticon samples in the library is limited and fixed. In the actual chat scenarios, the emoticon is often mismatched or there is no match at all. In view of this problem, this research focused on synthesizing new chat cartoon emoticon rather than retrieval. A new method of cross-modal chat cartoon emoticon synthesis based on knowledge meta-model was designed. According to the semantic description of users, the corresponding chat cartoon emoticons were synthesized immediately. The method established the inner semantic logic relation of chat cartoon emoticon through the knowledge meta-model, and enhanced the semantic consistency of chat cartoon emoticon synthesis. Through the multi-generator model, the corresponding partial chat cartoon emoticons were synthesized from each meta-knowledge point, and then integrated into a complete cartoon emoticon by the joint generator, which greatly reduced the training sample demand. In the test of public chat cartoon emoticon synthesis data set, the method has achieved better semantic consistency, and it is comparable with the existing methods in the quality of synthesized image.
image synthesis; cross-modal learning; text to image (T2I); knowledge meta-model; emoticon pack
TP 391
10.11996/JG.j.2095-302X.2021060908
A
2095-302X(2021)06-0908-09
2021-03-16;
2021-06-11
云南省科技廳面上項目(202001BB050035,202001BB05003);中國科協(xié)“青年人才托舉工程”項目(W8193209)
李小瑞(1997-),女,云南紅河人,碩士研究生。主要研究方向為知識圖譜、圖像理解、圖像生成。E-mail:lxr136242@163.com
謝 誠(1987-),男,云南普洱人,副教授,博士。主要研究方向為知識圖譜、圖像識別、零次學習。E-mail:xiecheng@ynu.edu.cn
16 March,2021;
11 June,2021
General Project of Yunnan Provincial Department of Science and Technology (202001BB050035, 202001BB05003); China Association for Science and Technology “Young Talents Support Project” (W8193209)
LI Xiao-rui (1997-), female, master student. Her main research interests cover knowledge graph, image understanding and image generation. E-mail:lxr136242@163.com
XIE Cheng (1987-), male, associate professor, Ph.D. His main research interests cover knowledge graph,image recognition, zero-shot learning. E-mail:xiecheng@ynu.edu.cn