摘" 要:文本圖像生成技術(shù)可以通過輸入自然語言文本進(jìn)行圖像生成操作,輸出圖像精度高、樣本量豐富且生成內(nèi)容與文本一致性強(qiáng),在視覺傳達(dá)設(shè)計(jì)中有巨大應(yīng)用潛力。該文在分析視覺傳達(dá)設(shè)計(jì)圖像生成需求基礎(chǔ)上,解析文本生成圖像的技術(shù)原理,探索文本生成圖像技術(shù)在視覺傳達(dá)設(shè)計(jì)中的應(yīng)用路徑,研究成果可以輔助設(shè)計(jì)師提高工作效率,激發(fā)創(chuàng)意靈感,為視覺傳達(dá)設(shè)計(jì)視覺創(chuàng)作提供實(shí)踐技術(shù)參考。
關(guān)鍵詞:語義文本;智能圖像生成;視覺傳達(dá)設(shè)計(jì);技術(shù)原理;設(shè)計(jì)應(yīng)用
中圖分類號(hào):J524" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2024)25-0017-04
Abstract: Text image generation technology can carry out image generation operation by inputting natural language text, which has high accuracy of output image, rich sample size and strong consistency between the generated content and text, so it has great application potential in visual communication design. Based on the analysis of the requirements of image generation in visual communication design, this paper analyzes the technical principle of text generation image, and explores the application path of text generation image technology in visual communication design. The research results can assist designers to improve work efficiency, stimulate creative inspiration, and provide practical technical reference for visual creation of visual communication design.
Keywords: semantic text; intelligent image generation; visual communication design; technical principle; design application
人工智能已是當(dāng)前科技發(fā)展的前沿重點(diǎn),其中計(jì)算機(jī)視覺相關(guān)理論研究與模型經(jīng)過多輪技術(shù)迭代后,在圖像智能生成領(lǐng)域取得了突出成果?;谧匀徽Z言的文本圖像生成技術(shù)催生出一批面向公眾的圖像生成工具,可以通過理解和學(xué)習(xí)人類語言同使用者進(jìn)行互動(dòng)交流,并基于文本輸入完成多種風(fēng)格的視覺作品生成,其作品生成視覺效果日趨專業(yè)、成熟,給當(dāng)前視覺傳達(dá)設(shè)計(jì)行業(yè)帶來極大沖擊。文本圖像生成技術(shù)的沖擊一方面給設(shè)計(jì)從業(yè)者帶來技術(shù)替代的壓力,另一方面也為設(shè)計(jì)實(shí)踐的技術(shù)更新和效率提升提供更多問題解決可行方案。因此,研究文本生成圖像技術(shù)在視覺傳達(dá)設(shè)計(jì)中的應(yīng)用實(shí)施路徑,對(duì)設(shè)計(jì)師理解、掌握、應(yīng)用智能技術(shù),提高自身設(shè)計(jì)能力,拓寬視覺傳達(dá)設(shè)計(jì)實(shí)踐思路具有重要意義。
1" 視覺傳達(dá)設(shè)計(jì)中圖像的生成需求
視覺傳達(dá)設(shè)計(jì)是以可視化、視覺化為創(chuàng)作手段來傳播特定信息和事物的設(shè)計(jì)門類[1]。實(shí)踐過程中,設(shè)計(jì)師需要根據(jù)設(shè)計(jì)方案的創(chuàng)意構(gòu)思進(jìn)行針對(duì)性的視覺創(chuàng)作,經(jīng)過多輪草圖修改、多版方案對(duì)比才能獲得最終的視覺作品,其間工作量巨大,耗時(shí)耗力。使用文本生成圖像技術(shù)能夠輔助設(shè)計(jì)師使用自然語言描述創(chuàng)意內(nèi)容,快速生成貼合創(chuàng)意思路的圖像作為效果參考,提高工作效率,智能生成的圖像也可反向?yàn)樵O(shè)計(jì)師提供更多創(chuàng)意思路,提升設(shè)計(jì)決策。當(dāng)前文本生成圖像模型與工具種類繁多,針對(duì)視覺傳達(dá)設(shè)計(jì)所需圖像視覺效果特征,需滿足以下生成需求。
1.1" 圖像生成內(nèi)容與文本一致性高
視覺傳達(dá)設(shè)計(jì)實(shí)踐中,圖像是視覺載體,圖像蘊(yùn)含的創(chuàng)意和信息才是需要傳達(dá)給受眾的核心內(nèi)容,信息傳達(dá)的準(zhǔn)確性也是評(píng)價(jià)視覺傳達(dá)設(shè)計(jì)效果的重要標(biāo)準(zhǔn)。因此,在圖像生成過程中對(duì)圖像內(nèi)容與文本輸入內(nèi)容的一致性有較高訴求。使用文本生成圖像技術(shù)進(jìn)行視覺傳達(dá)設(shè)計(jì)創(chuàng)作時(shí),需要著重考慮技術(shù)模型中理解自然語言,以及捕捉文本和圖像之間映射關(guān)系的技術(shù)精度,以提高生成圖像與創(chuàng)意文本之間的貼合度。
1.2" 圖像生成質(zhì)量高
視覺傳達(dá)設(shè)計(jì)的作品多為商業(yè)用途,在圖像生成內(nèi)容和圖像清晰度方面的質(zhì)量要求較高。圖像生成內(nèi)容需要在設(shè)計(jì)風(fēng)格、畫面結(jié)構(gòu)、人物比例和圖像逼真度等方面達(dá)到專業(yè)設(shè)計(jì)師出圖水平,同時(shí)圖像清晰度也必須滿足在大規(guī)格尺寸印刷版面或高精度顯示屏上清晰顯示的需求。因此需要文本生成圖像技術(shù)在生成模型選用上有更好的解釋性,有豐富的圖片數(shù)據(jù)集并允許使用者能夠自主進(jìn)行圖片風(fēng)格模型訓(xùn)練,以及高性能計(jì)算能力。
1.3" 圖像生成樣本量豐富
視覺傳達(dá)設(shè)計(jì)創(chuàng)作環(huán)節(jié)中存在許多圖像產(chǎn)出工作,如設(shè)計(jì)手法與設(shè)計(jì)風(fēng)格確認(rèn)階段,需要生成大量草圖以選出貼合創(chuàng)意的基本構(gòu)圖與視覺要素;設(shè)計(jì)元素組合與畫面布局編排時(shí),需要不斷調(diào)整視覺元素間的組合關(guān)系與位置,產(chǎn)出多幅圖像進(jìn)行對(duì)比優(yōu)化,等等。設(shè)計(jì)者在不同環(huán)節(jié)需要通過對(duì)多個(gè)圖像方案進(jìn)行決策篩選,才能推進(jìn)設(shè)計(jì)工作,獲得最佳方案。因此需要文本生成圖像技術(shù)在模式覆蓋和樣本多樣性上有較好表現(xiàn),生成豐富的樣本方案以便設(shè)計(jì)者選擇適合設(shè)計(jì)方案的圖像,或啟發(fā)設(shè)計(jì)者的創(chuàng)意靈感。
2" 文本圖像生成技術(shù)工作原理
文本生成圖像技術(shù)采用自然語言與圖像集特征映射的方法,將文本描述與圖像視覺特征進(jìn)行對(duì)應(yīng)編碼,結(jié)合圖像生成模型,實(shí)現(xiàn)視覺圖像的智能生成[2]。其中,編碼環(huán)節(jié)采用CLIP(Contrastive Language-Image Pretraining)模型,即基于自然語言監(jiān)督信號(hào),采用對(duì)比學(xué)習(xí)的文本與圖像配對(duì)預(yù)訓(xùn)練可遷移模型[3]。該模型將自然語言的文本特征和自然語言對(duì)應(yīng)圖像的視覺特征通過文本編碼器和圖像編碼器進(jìn)行提取與編碼,通過計(jì)算文本特征和圖像特征編碼的對(duì)應(yīng)關(guān)系,使圖像的視覺特征與自然語言聯(lián)系到一起。圖像生成環(huán)節(jié)采用的圖像生成模型包括生成對(duì)抗網(wǎng)絡(luò)、變分自編碼器和擴(kuò)散模型等。CLIP模型與圖像生成模型結(jié)合,可以將使用者輸入的文本通過文本編碼器轉(zhuǎn)換為文本嵌入,通過文本與圖像之間的映射關(guān)系,利用對(duì)應(yīng)的圖像編碼對(duì)潛在目標(biāo)圖像進(jìn)行有條件的約束,進(jìn)而生成目標(biāo)圖像。
不同的圖像生成模型在生成原理和效果上各有側(cè)重:生成對(duì)抗網(wǎng)絡(luò)主要由生成器和鑒別器組成,分別用于生成指定數(shù)據(jù)和判斷輸入的數(shù)據(jù)是真實(shí)數(shù)據(jù)還是生成數(shù)據(jù),二者交替迭代優(yōu)化并最終生成目標(biāo)對(duì)象[4];變分自編碼器主要由編碼器和解碼器組成,通過將數(shù)據(jù)進(jìn)行編碼,再還原解碼生成具有多樣性的圖像樣本[5];擴(kuò)散模型的生成思路是通過多次迭代來系統(tǒng)地、緩慢地破壞數(shù)據(jù)的分布結(jié)構(gòu),使其擴(kuò)散模糊,再采用新的方式逆向恢復(fù)數(shù)據(jù)結(jié)構(gòu),從而構(gòu)建一個(gè)靈活且易于處理的數(shù)據(jù)生成模型[6]。其中,擴(kuò)散模型在生成過程中靈活可控,生成的圖像在整體一致性上也表現(xiàn)得較好,不會(huì)出現(xiàn)片段或局部不協(xié)調(diào)的情況,并且具有良好的圖像修復(fù)和重建能力,可以用于生成高質(zhì)量的圖像。
3" 文本圖像生成技術(shù)在視覺傳達(dá)設(shè)計(jì)中的應(yīng)用
根據(jù)視覺傳達(dá)設(shè)計(jì)對(duì)圖像的生成需求,結(jié)合對(duì)文本生成圖像技術(shù)運(yùn)行效果的評(píng)價(jià)標(biāo)準(zhǔn),即圖像質(zhì)量、樣本參數(shù)量以及易擴(kuò)展性,通過對(duì)比各生成模型的運(yùn)行特征和生成效果,得出擴(kuò)散模型在圖像質(zhì)量和樣本參數(shù)量方面有較好表現(xiàn),可以生成質(zhì)量比較高且具有較強(qiáng)多樣性的圖像,并能通過硬件配置改善來提高擴(kuò)展性。因此本研究選擇基于擴(kuò)散模型為生成模型的Stable Diffusion作為圖像生成工具進(jìn)行視覺傳達(dá)設(shè)計(jì)創(chuàng)作應(yīng)用實(shí)踐研究。
Stable Diffusion由StabilityAI開發(fā),可通過本地部署Stable Diffusion WebUI(以下簡(jiǎn)稱SDWebUI),在個(gè)人電腦上使用瀏覽器網(wǎng)頁界面進(jìn)行文本生成圖像的創(chuàng)作,圖像生成細(xì)節(jié)豐富、畫質(zhì)高清,插件、素材多樣,并能通過訓(xùn)練模型的方式生成用戶自定義風(fēng)格的數(shù)據(jù)集模型。
3.1" 文本生成圖像實(shí)踐流程與方法
使用SDWebUI進(jìn)行文本生成圖像的基本流程:設(shè)置提示詞對(duì)所需生成的圖像畫面進(jìn)行描述,并借助模型素材、插件等控制作品風(fēng)格和畫面細(xì)節(jié),通過調(diào)整參數(shù),生成相應(yīng)圖像。
3.1.1" 提示詞文本組織
提示詞,即prompt,是由用戶輸入的對(duì)期望生成圖像的文本信息描述,分為正向提示詞和反向提示詞,分別用于控制生成用戶希望畫面呈現(xiàn)和不呈現(xiàn)的視覺效果,僅支持英文編寫。經(jīng)過大量文本描述與圖像生成效果相關(guān)度評(píng)價(jià)測(cè)試后可得出,提示詞以詞條化、詞組化的方式編寫能夠提高編寫效率、靈活性和準(zhǔn)確度,用戶可以通過更改特定詞條,對(duì)詞條映射的內(nèi)容進(jìn)行精確調(diào)整,而無須重新組織文本。用戶使用盡量詳盡的文本去描述創(chuàng)作構(gòu)思,并通過多次生成效果對(duì)比,在文本雛形的基礎(chǔ)上不斷進(jìn)行細(xì)化、微調(diào)和補(bǔ)充,才能確定合適的本文框架與內(nèi)容。
在視覺傳達(dá)設(shè)計(jì)實(shí)踐中進(jìn)行提示詞文本組織時(shí),為確保圖像生成效果貼合用戶的創(chuàng)作構(gòu)想,可將其文本結(jié)構(gòu)邏輯性地劃分為3個(gè)部分:用于描述畫面生成內(nèi)容的提示詞,包括針對(duì)畫面主體物、畫面場(chǎng)景和構(gòu)圖視角的特征與細(xì)節(jié)描述,如小女孩(littlegirl)、全景(fullview)等;用于限定畫面視覺風(fēng)格的提示詞語,如動(dòng)漫風(fēng)格(anime)等;用于規(guī)范畫面畫質(zhì)標(biāo)準(zhǔn)的提示詞,如高品質(zhì)(highquality)等。依據(jù)一定的結(jié)構(gòu)順序組織提示詞內(nèi)容可以更系統(tǒng)、精準(zhǔn)地描述畫面內(nèi)容,提高生成效果和生成效率,并且可以通過調(diào)整詞條的權(quán)重和優(yōu)先級(jí)對(duì)畫面特定內(nèi)容進(jìn)行效果增強(qiáng)或削弱。
3.1.2" 模型與參數(shù)調(diào)試
SDWebUI執(zhí)行生成需要加載經(jīng)過特定風(fēng)格圖片素材訓(xùn)練而成的模型文件(checkpoint),才能生成符合用戶設(shè)計(jì)風(fēng)格需求的圖像。用戶也可以根據(jù)視覺傳達(dá)設(shè)計(jì)實(shí)踐所需的畫面風(fēng)格,使用特定風(fēng)格的圖片素材自行訓(xùn)練模型,以便生成更符合期望的圖像。為減少設(shè)計(jì)實(shí)踐中對(duì)圖像后期處理時(shí)的工作量,還可在生成界面的參數(shù)調(diào)整區(qū)域?qū)ο嚓P(guān)參數(shù)進(jìn)行預(yù)設(shè)和調(diào)試,以控制圖像生成的具體實(shí)施效果。
其中,采樣迭代步數(shù)用于控制采樣的隨機(jī)性,采樣步長(zhǎng)過大會(huì)導(dǎo)致采樣效率低或采樣結(jié)果被舍棄,步長(zhǎng)過小則采樣的隨機(jī)性高,采樣效果不夠好,通常設(shè)置在10~40之間較為合理;采樣方法,即程序進(jìn)行圖像生成時(shí)使用特定算法,這些采樣方法在處理不同風(fēng)格模型和提示詞時(shí)有不同生成效果,如Euler更適合插畫風(fēng)格,SDE Karras細(xì)節(jié)會(huì)較為豐富。
寬度、高度用于控制生成圖像的尺寸規(guī)格。通過測(cè)試發(fā)現(xiàn),越高的分辨率生成的畫面質(zhì)感和細(xì)節(jié)效果越好,但由于生成工具在進(jìn)行訓(xùn)練時(shí)使用的圖片分辨率都比較小,過高的分辨率在生成過程中容易出現(xiàn)圖像內(nèi)容拼接的情況,如需生成分辨率較高的圖像,可以通過先使用低分辨率生成目標(biāo)圖像再選擇高清修復(fù)來放大圖像的方式來確保畫面質(zhì)量。
生成批次數(shù)指提示詞和參數(shù)值確定的情況下,程序執(zhí)行生成操作的次數(shù)。每批數(shù)量指每次生成操作產(chǎn)生的圖片數(shù)量。文本智能生成圖像具有隨機(jī)性,同樣的提示詞,每次點(diǎn)擊生成的圖像都會(huì)不太一樣,且無法保證每一張都滿足用戶的需求,需要通過反復(fù)實(shí)驗(yàn),生成多組圖像進(jìn)行對(duì)比,才能選出最符合需求的作品。通過生成實(shí)驗(yàn)結(jié)果對(duì)比發(fā)現(xiàn),調(diào)高生成批次數(shù)比調(diào)高每批數(shù)量在效率和生成效果方面表現(xiàn)更好,因?yàn)槊颗鷶?shù)量的參數(shù)值受限于設(shè)備硬件配置,參數(shù)值過高會(huì)降低計(jì)算效率并出現(xiàn)生成失誤,而使用提高生成批次數(shù)可以通過少量多次的方法,更好地滿足圖像批量生成需求,降低工作量。
提示詞相關(guān)性控制生成作品對(duì)提示詞的傾向程度,數(shù)值越高,生成圖像越貼合提示詞的描述,但通過測(cè)試結(jié)果發(fā)現(xiàn),過高的提示詞相關(guān)性參數(shù)值會(huì)導(dǎo)致圖像變形,將參數(shù)值設(shè)置在7~12之間生成效果較為合理。隨機(jī)種子用于控制生成圖像的隨機(jī)狀態(tài)。圖像每次隨機(jī)生成的方式都會(huì)被記錄為一組隨機(jī)數(shù),即隨機(jī)種子,被記錄在圖片信息中,如需批量生成畫面內(nèi)容和風(fēng)格相似度較高的圖像,可以在生成時(shí)復(fù)制并使用同一個(gè)隨機(jī)種子來控制畫面的一致性,反之則可以把隨機(jī)種子設(shè)置為-1,生成差異較大、隨機(jī)性強(qiáng)的圖像。
執(zhí)行生成操作時(shí),用戶可以根據(jù)生成圖像的效果判斷其與設(shè)計(jì)方案的關(guān)聯(lián)性,不斷進(jìn)行文本和參數(shù)調(diào)整,在批量生成圖像中選擇最接近創(chuàng)作構(gòu)思的單張或多張作為樣本,針對(duì)圖像中需要修改的內(nèi)容進(jìn)行局部變更或重新生成,以便生成圖像越來越貼合視覺創(chuàng)意。
3.2" 基于文本生成圖像技術(shù)的視覺傳達(dá)創(chuàng)作流程
完整的視覺傳達(dá)設(shè)計(jì)活動(dòng)遵循“調(diào)研與需求分析—預(yù)期設(shè)計(jì)效果—視覺設(shè)計(jì)方案創(chuàng)作—方案實(shí)施—效果反饋”的基本工作流程,其中視覺創(chuàng)作流程又可細(xì)分為多個(gè)環(huán)節(jié),各環(huán)節(jié)存在大量低復(fù)雜、高重復(fù)、長(zhǎng)耗時(shí)的工作,如設(shè)計(jì)元素的繪制和修改、畫面排版布局的調(diào)整等,都可以借助文本生成圖像技術(shù)來提升設(shè)計(jì)效率,如圖1所示。
設(shè)計(jì)構(gòu)思階段由于思路發(fā)散,需要對(duì)設(shè)計(jì)形式和方法的選用進(jìn)行不同設(shè)計(jì)效果的比對(duì),利用文本生成圖像技術(shù)設(shè)置不同內(nèi)容的文本提示詞,可以快速生成多個(gè)方案草圖進(jìn)行比對(duì),大大縮短草圖繪制時(shí)間,快速確定創(chuàng)意方案。
在方案修改確定階段,可以通過加載特定的設(shè)計(jì)風(fēng)格模型、采樣方法,或使用風(fēng)格限定的提示詞可以快速切換不同的設(shè)計(jì)風(fēng)格,還可以調(diào)整提示詞的文本內(nèi)容和權(quán)重,對(duì)畫面構(gòu)成所需的視覺元素、編排布局和設(shè)計(jì)細(xì)節(jié)進(jìn)行優(yōu)化,將冗雜耗時(shí)的修改工作交由人工智能處理,而設(shè)計(jì)師只需要控制創(chuàng)意思維的走向即可。如果僅需對(duì)畫面中部分要素進(jìn)行修改,還可以對(duì)獨(dú)立的視覺要素進(jìn)行單獨(dú)生成,最后將分別生成的各個(gè)視覺要素在設(shè)計(jì)軟件中進(jìn)行組織。
相對(duì)于傳統(tǒng)的設(shè)計(jì)流程,文本生成圖像技術(shù)的介入可以有效提升設(shè)計(jì)活動(dòng)的工作效率。但鑒于視覺傳達(dá)設(shè)計(jì)在信息處理和視覺呈現(xiàn)手段上的復(fù)雜性,文本生成圖像技術(shù)在不同設(shè)計(jì)作品中的具體應(yīng)用途徑還需要設(shè)計(jì)師進(jìn)行組織。例如文本生成圖像技術(shù)中的風(fēng)格模型素材種類繁多,但無法完全覆蓋所有常用設(shè)計(jì)風(fēng)格,在畫面質(zhì)感上的表現(xiàn)也無法做到完全替代的效果,更擅長(zhǎng)生成偏向3D建模的風(fēng)格或是典型的動(dòng)漫、攝影風(fēng)格等,更無法憑空生出前所未有的視覺風(fēng)格,創(chuàng)新、創(chuàng)意和創(chuàng)作的核心依然在設(shè)計(jì)師的頭腦。此外,文本生成圖像技術(shù)由于自身機(jī)器語言的局限性,對(duì)主觀性、抽象性強(qiáng)的詞匯以及文化限定較強(qiáng)或是語義修飾豐富的詞條進(jìn)行理解和生成時(shí),往往容易誤讀,導(dǎo)致生成內(nèi)容表現(xiàn)不佳,也需要設(shè)計(jì)師對(duì)其監(jiān)督與糾偏。
4" 結(jié)束語
文本圖像生成技術(shù)近年來發(fā)展迅猛,為視覺傳達(dá)設(shè)計(jì)帶來新的視覺創(chuàng)作靈感與實(shí)踐思路。本文介紹了當(dāng)下較為前沿的文本生成圖像技術(shù),探索其輔助視覺傳達(dá)設(shè)計(jì)實(shí)踐的應(yīng)用路徑和實(shí)施方法,對(duì)設(shè)計(jì)師提高創(chuàng)作效率,拓展創(chuàng)意思路有一定積極作用?;谖谋緢D像生成技術(shù)開展人機(jī)協(xié)作,設(shè)計(jì)師可以將構(gòu)思?xì)w納為文本,快速生成視覺樣本作為參考,并據(jù)此對(duì)創(chuàng)意進(jìn)行調(diào)整,還可以直接生成獨(dú)立的視覺元素,用于整體畫面編排,或調(diào)整畫面布局,將設(shè)計(jì)師從冗雜的設(shè)計(jì)軟件操作中釋放。然而,人工智能雖能輔助視覺傳達(dá)設(shè)計(jì)中實(shí)操部分的工作并有突出表現(xiàn),但在設(shè)計(jì)決策和創(chuàng)意執(zhí)行方面仍無法替代人類設(shè)計(jì)師,這促使設(shè)計(jì)師需要更聚焦于創(chuàng)意創(chuàng)造、設(shè)計(jì)管理和團(tuán)隊(duì)溝通工作,提高自身綜合設(shè)計(jì)能力,去應(yīng)對(duì)不斷智能化的設(shè)計(jì)前景。
參考文獻(xiàn):
[1] 周博.改革開放以來的視覺傳達(dá)設(shè)計(jì):媒介轉(zhuǎn)型與社會(huì)變遷[J].美術(shù)大觀,2022(6):85-93.
[2] 賴麗娜,米瑜,周龍龍,等.生成對(duì)抗網(wǎng)絡(luò)與文本圖像生成方法綜述[J].計(jì)算機(jī)工程與應(yīng)用,2023,59(19):21-39.
[3] RADFORD A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning,2021.
[4] 李樂陽,佟國(guó)香,趙迎志,等.基于生成對(duì)抗網(wǎng)絡(luò)的文本生成圖像研究綜述[J].電子科技,2023,36(10):39-55.
[5] 翟正利,梁振明,周煒,等.變分自編碼器模型綜述[J].計(jì)算機(jī)工程與應(yīng)用,2019,55(3):1-9.
[6] 楊光鍇.基于擴(kuò)散模型的指紋圖像生成方法[J].河北省科學(xué)院學(xué)報(bào),2023,40(1):13-18,66.