趙 宇
北京師范大學(xué)藝術(shù)與傳媒學(xué)院,北京 100875
20 世紀(jì)50 年代,人工智能(AI)開(kāi)始了早期萌芽,之后經(jīng)歷了不斷發(fā)展和沉淀積累,至2010年前后出現(xiàn)了突飛猛進(jìn)的進(jìn)步。人工智能在自然語(yǔ)言處理(NLP)和語(yǔ)音識(shí)別方面開(kāi)始走向應(yīng)用,通過(guò)深度學(xué)習(xí)(DL)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),實(shí)現(xiàn)了語(yǔ)音識(shí)別、機(jī)器翻譯、文本生成等功能[1]。2022 年,隨著OpenAI 發(fā)布的ChatGPT 大模型面世,作為人工智能技術(shù)浪潮的一部分,深度學(xué)習(xí)算法不斷迭代,人工智能生成內(nèi)容百花齊放。其中,人工智能在與影視的結(jié)合中,不斷創(chuàng)新探索、出奇出新。2023 年2 月,紐約舉辦了一場(chǎng)人工智能電影節(jié),藝術(shù)家們使用Midjourney 制作出了極具想象力的影像作品,以及使用神經(jīng)輻射場(chǎng)(Neural Radiance Fields, NeRF)技術(shù)將2D 照片變成3D 虛擬影像。2023年2月,日本Netflix 也推出了全球首例使用AIGC 制作的動(dòng)畫(huà)短片《犬與少年》,小冰日本分公司rinna 負(fù)責(zé)動(dòng)畫(huà)場(chǎng)景部分的AI 制作,Production I.G 與WIT STUDIO 共同協(xié)力完成[2]。該動(dòng)畫(huà)中的所有場(chǎng)景和人物都是通過(guò)人工智能自動(dòng)生成,這也標(biāo)志著人工智能與影視的結(jié)合不局限在實(shí)驗(yàn)階段,而逐步推向了市場(chǎng),影視的類型也漸漸多樣化。人工智能與虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、混合現(xiàn)實(shí)(MR)等技術(shù)的結(jié)合也在探索和創(chuàng)新中。
虛擬現(xiàn)實(shí)作為一種計(jì)算機(jī)圖形模擬真實(shí)世界、創(chuàng)造想象世界的技術(shù),為觀看者提供了一種新的全景互動(dòng)體驗(yàn)。它由沉浸式顯示和沉浸式交互組成,通過(guò)計(jì)算機(jī)圖形學(xué)(CG)和3D 成像來(lái)顯示圖像信號(hào),通過(guò)動(dòng)作捕捉采集交互動(dòng)作并使用機(jī)器視覺(jué)系統(tǒng)進(jìn)行交互的判斷決策,為體驗(yàn)者提供沉浸式交互需求的3D 實(shí)時(shí)影像數(shù)據(jù)[3]。其中成像顯示與交互之間相互作用,圖像顯示交互反饋,交互數(shù)據(jù)輸入圖像之中。顯示系統(tǒng)一般為頭戴式顯示器,通過(guò)屏蔽現(xiàn)實(shí)世界,直接向用戶的眼睛顯示圖像,從而營(yíng)造一種沉浸感。除了視覺(jué)的全部接管,也在聽(tīng)覺(jué)方面增強(qiáng)了體驗(yàn)者的沉浸感,使用空間設(shè)計(jì)讓體驗(yàn)者從不同方向聽(tīng)到聲音。觸覺(jué)方面則增加了反饋裝置,利用物理感覺(jué)來(lái)模擬觸摸,與虛擬世界中的物體互動(dòng)來(lái)創(chuàng)造一種沉浸感。
人工智能涵蓋機(jī)器學(xué)習(xí)(ML)、深度學(xué)習(xí)(DL)等技術(shù),能夠?qū)?wèn)題做出連貫和智能的反應(yīng)[4]。這項(xiàng)技術(shù)主要依賴于高級(jí)編程,旨在讓機(jī)器像人類一樣回答問(wèn)題和做出決策。人工智能的發(fā)展起始于20世紀(jì)50 年代,但直到最近幾十年,由于計(jì)算能力的提升、大數(shù)據(jù)可用性以及深度學(xué)習(xí)算法的引入,人工智能取得了顯著的進(jìn)步。人工智能在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)中的應(yīng)用也備受矚目,實(shí)現(xiàn)令人驚嘆的虛擬場(chǎng)景和角色的同時(shí),還能進(jìn)行情感建模,實(shí)現(xiàn)多種形式的交互體驗(yàn),且不僅限于簡(jiǎn)單的觸碰和控制,而是多模態(tài)的沉浸式互動(dòng)[5]。人工智能的介入使得虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)有了更加生動(dòng)、逼真、個(gè)性化的環(huán)境,為用戶提供了前所未有的沉浸式互動(dòng)體驗(yàn)。
作為一種結(jié)合人工智能和圖形內(nèi)容的技術(shù),AIGC 旨在提升圖形設(shè)計(jì)、內(nèi)容創(chuàng)作和視覺(jué)效果的質(zhì)量與效率,以大數(shù)據(jù)、算法模型和算力為基本前提保障發(fā)揮巨大作用[6]。2022 年中國(guó)信息通信研究院和京東探索研究院在《人工智能生成內(nèi)容(AIGC)白皮書(shū)》中將AIGC 定義為“既是一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式,還是用于內(nèi)容自動(dòng)化生成的一類技術(shù)集合”[7]。
AIGC 通過(guò)算法和數(shù)據(jù)驅(qū)動(dòng),利用計(jì)算機(jī)視覺(jué)(CV)、機(jī)器學(xué)習(xí)(ML)、自然語(yǔ)言處理(NLP)和生成式對(duì)抗網(wǎng)絡(luò)(GAN)等領(lǐng)域的技術(shù),實(shí)現(xiàn)對(duì)圖形和內(nèi)容的智能處理和生成。其核心目標(biāo)是通過(guò)人工智能輔助,提供更快速、更精確、更創(chuàng)新的圖形和內(nèi)容創(chuàng)作工具和方法。它可以應(yīng)用于各種領(lǐng)域,包括動(dòng)畫(huà)制作、電影特效、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等。借助AIGC 技術(shù),創(chuàng)作者可以更高效地完成復(fù)雜的視覺(jué)效果和內(nèi)容創(chuàng)作任務(wù),同時(shí)也能夠拓展創(chuàng)作的想象力和創(chuàng)新性。
在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域,通過(guò)算法和深度學(xué)習(xí),AIGC 能夠從海量角色數(shù)據(jù)中提取出有用的信息和規(guī)律,進(jìn)而自動(dòng)生成虛擬人物的外觀、動(dòng)作、語(yǔ)音和行為,并根據(jù)環(huán)境和用戶的交互進(jìn)行實(shí)時(shí)調(diào)整和優(yōu)化。通過(guò)學(xué)習(xí)和迭代改進(jìn)自己的行為與表現(xiàn),以便更加智能地適應(yīng)用戶需求。這種自主學(xué)習(xí)和適應(yīng)性能力使得虛擬角色能夠更好地滿足不同用戶和場(chǎng)景的需求,提供個(gè)性化、定制化的體驗(yàn)。
在分析大量的圖形和內(nèi)容數(shù)據(jù)后,AIGC 可以根據(jù)劇情需求自動(dòng)生成場(chǎng)景,快速地創(chuàng)建逼真的視覺(jué)效果,包括虛擬場(chǎng)景、特殊效果和物理模擬等。從質(zhì)感、紋理、光照等角度加強(qiáng)場(chǎng)景細(xì)節(jié)的構(gòu)建,從而提高制作效率和質(zhì)量,優(yōu)化場(chǎng)景布局和設(shè)計(jì),以提供更具吸引力和沉浸感的虛擬體驗(yàn)。
通過(guò)情感計(jì)算、情感識(shí)別和情感生成等技術(shù),AIGC 能夠識(shí)別和理解用戶的情感,并表達(dá)出適當(dāng)?shù)那楦蟹磻?yīng),如喜悅、憤怒、悲傷等。此外,AIGC 能夠推斷出用戶的意圖、偏好和情感狀態(tài),從而建立起與用戶的虛擬關(guān)系。通過(guò)情感建模,人工智能可以模擬和表現(xiàn)虛擬人物的情感和認(rèn)知能力,使其在虛擬現(xiàn)實(shí)場(chǎng)景中更加智能和逼真,通過(guò)與用戶的情感互動(dòng),產(chǎn)生情感共鳴。
通過(guò)分析用戶數(shù)據(jù)和行為模式,人工智能可以為用戶提供多樣化的虛擬現(xiàn)實(shí)體驗(yàn)。通過(guò)機(jī)器學(xué)習(xí)和推薦算法等技術(shù),根據(jù)用戶的偏好和興趣,定制虛擬場(chǎng)景、虛擬人物和虛擬關(guān)系,使用戶能夠享受到更加符合自己需求的虛擬現(xiàn)實(shí)體驗(yàn)。
綜上,在AIGC 的幫助下,虛擬現(xiàn)實(shí)交互藝術(shù)家們?cè)谔摂M角色設(shè)計(jì)、感官體驗(yàn)、用戶行為預(yù)判、交互生成、虛擬場(chǎng)景構(gòu)建、編寫(xiě)劇本和音樂(lè)等方面,將會(huì)更加精確和具有效率。隨著AIGC 技術(shù)的逐漸成熟,其在虛擬現(xiàn)實(shí)交互體驗(yàn)領(lǐng)域的應(yīng)用是大勢(shì)所趨。
在虛擬現(xiàn)實(shí)交互領(lǐng)域,人工智能主要在自然語(yǔ)言處理、機(jī)器視覺(jué)、虛擬現(xiàn)實(shí)應(yīng)用程序接口和智能代理方面介入虛擬現(xiàn)實(shí)的構(gòu)建[8]。論述人工智能與虛擬現(xiàn)實(shí)體驗(yàn)的探索中,學(xué)者們已經(jīng)總結(jié)出了人工智能的諸多應(yīng)用:在人工智能對(duì)藝術(shù)創(chuàng)作的影響上,王嘉奇等[9]認(rèn)為其作用體現(xiàn)在模仿學(xué)習(xí)以及創(chuàng)新工具等方面,它并不是完全代替人的創(chuàng)造力,而是為人類的創(chuàng)造提供了有效方式;在影像的美術(shù)風(fēng)格創(chuàng)作中,薄一航[10]認(rèn)為人工智能以及人機(jī)協(xié)同技術(shù)無(wú)疑會(huì)提升效率,計(jì)算機(jī)的海量存儲(chǔ)能力和計(jì)算能力將會(huì)為藝術(shù)家的創(chuàng)作提供靈感;高銳[11]詳細(xì)闡述了AIGC 技術(shù)如何協(xié)助創(chuàng)作者設(shè)計(jì)和繪制動(dòng)畫(huà)短片中的角色和場(chǎng)景,并展示了AIGC 技術(shù)在劇本創(chuàng)作和音頻處理等方面的出色表現(xiàn)??偠灾?,AIGC 在跨模態(tài)生成能力、大型預(yù)訓(xùn)練模型的發(fā)展逐步成熟。
虛擬現(xiàn)實(shí)兼具戲劇的舞臺(tái)空間、電影的敘事特點(diǎn)和游戲的交互特征。360°全景呈現(xiàn)是對(duì)全感官的最大調(diào)動(dòng),交互體驗(yàn)將空間與敘事結(jié)合,視覺(jué)塑造與情感調(diào)動(dòng)同時(shí)進(jìn)行。虛擬現(xiàn)實(shí)影像通過(guò)呈現(xiàn)與真實(shí)世界維度一致的虛擬時(shí)空,消除了需要想象的環(huán)境、人物、位置、角度、運(yùn)動(dòng)、方向、關(guān)系等元素,制造出了與現(xiàn)實(shí)世界幾乎一致的視聽(tīng)維度和存在感知,讓觀眾獲得了與現(xiàn)實(shí)世界相似的感知體驗(yàn)。技術(shù)賦予虛擬現(xiàn)實(shí)空間以逼真感觀和體驗(yàn),甚至具有了比真實(shí)感官更真實(shí)的超真實(shí)性(Hyperreality)[12]。虛擬現(xiàn)實(shí)影像藝術(shù)家們通過(guò)視角轉(zhuǎn)換、角色代入等方式為體驗(yàn)者提供一種進(jìn)入虛擬故事空間的機(jī)會(huì),在360°的虛擬空間包裹下,體驗(yàn)者以身臨其境的方式參與到故事發(fā)生的時(shí)空中,跟隨著人物、情節(jié)的推進(jìn)去體驗(yàn)故事。沉浸感是虛擬現(xiàn)實(shí)體驗(yàn)者的最大感受,依賴于逼真的場(chǎng)景和環(huán)境,置身于此的體驗(yàn)者能夠迅速代入環(huán)境和角色中。場(chǎng)景的構(gòu)建是虛擬現(xiàn)實(shí)世界的基礎(chǔ),也是人工智能發(fā)揮能力代替人力的領(lǐng)域。
在場(chǎng)景的設(shè)置和優(yōu)化中,人工智能通過(guò)生成式對(duì)抗網(wǎng)絡(luò)(GAN)和深度學(xué)習(xí),學(xué)習(xí)空間的不同物理組件,如紋理、照明等,實(shí)時(shí)創(chuàng)建更加逼真的環(huán)境。人工智能算法還在生物反饋應(yīng)用中根據(jù)用戶的反饋和行為,實(shí)時(shí)調(diào)整場(chǎng)景以提供更符合用戶需求的體驗(yàn);實(shí)時(shí)修改和優(yōu)化虛擬現(xiàn)實(shí)環(huán)境中的場(chǎng)景,包括場(chǎng)景的自動(dòng)化生成,在地形、建筑、天氣、動(dòng)態(tài)物體的表現(xiàn)上更加細(xì)致、逼真。隨著大型預(yù)訓(xùn)練模型的逐步成熟,文字生成圖像(Text-to-Image)、文字生成視頻(Text-to-Video)等跨模態(tài)生成能力逐步提高。如Runway 出品的AI 視頻編輯工具Gen-2,在前序版本“將實(shí)拍視頻進(jìn)行動(dòng)畫(huà)轉(zhuǎn)變”的基礎(chǔ)上,能夠輕易實(shí)現(xiàn)文字生成視頻(Text-to-Video),實(shí)現(xiàn)人物在不同時(shí)空、不同人種(物種)之間的瞬間穿越。
在創(chuàng)建場(chǎng)景的人工智能技術(shù)中,英偉達(dá)(NVIDIA)的GET3D 是2D 轉(zhuǎn)為3D 的代表工具。該軟件通過(guò)對(duì)2D 圖像進(jìn)行訓(xùn)練,生成具有高保真紋理和復(fù)雜幾何細(xì)節(jié)的三維圖形,同時(shí)允許將其形體導(dǎo)入3D 渲染器,這使得用戶能夠輕松地將對(duì)象導(dǎo)入游戲引擎、3D 建模軟件和電影渲染器并進(jìn)行編輯。NVIDIA 近期推出的AI 模型Neuralangelo 則能夠?qū)⒁曨l片段轉(zhuǎn)化為細(xì)節(jié)層次豐富的高精3D 模型,并且可以準(zhǔn)確呈現(xiàn)復(fù)雜材料的質(zhì)地,例如屋頂瓦片、玻璃窗格和光滑的大理石。在虛擬現(xiàn)實(shí)影像的應(yīng)用中,NVIDIA 又推出了GauGAN360 工具以實(shí)現(xiàn)3D 場(chǎng)景的360°呈現(xiàn)。此外,基于與NVIDIA 最初GauGAN AI 繪畫(huà)應(yīng)用程序相同的技術(shù),可讓用戶以景觀的整體形式進(jìn)行繪畫(huà),并讓GauGAN360 生成匹配的立方體貼圖或等距矩形圖像。
在虛擬現(xiàn)實(shí)的時(shí)空中,故事中的人物扮演著至關(guān)重要的角色,對(duì)用戶的體驗(yàn)和情感聯(lián)結(jié)起著重要作用。人物一般在虛擬現(xiàn)實(shí)場(chǎng)景中充當(dāng)著引導(dǎo)者或敘事者的角色,有助于用戶更好地理解和探索虛擬環(huán)境,讓體驗(yàn)更有目的性和連貫性。同時(shí),通過(guò)人物的表情、姿態(tài)和語(yǔ)言等傳遞情感和表達(dá)情緒,以增強(qiáng)用戶與虛擬環(huán)境之間的情感連接和情緒體驗(yàn)。
由Epic Games 開(kāi)發(fā)的MetaHuman Creator 是一款具有代表性的創(chuàng)建虛擬人物的智能工具。該工具利用高度逼真的數(shù)字人物技術(shù),旨在提供一種快速、直觀的方式來(lái)創(chuàng)建高質(zhì)量的虛擬人物模型[13]。Meta-Human Creator 允許用戶通過(guò)簡(jiǎn)單的拖拽來(lái)創(chuàng)建虛擬人物的外觀和特征,包括面部特征、發(fā)型、服裝和身體比例等。以計(jì)算機(jī)圖形學(xué)(CG)和渲染技術(shù)為支撐,MetaHuman Creator 可以在短時(shí)間內(nèi)生成逼真、高質(zhì)量的虛擬人物模型,用戶能夠?qū)μ摂M人物的面部表情、眼睛、嘴唇、頭發(fā)、膚色等各個(gè)方面進(jìn)行自定義。這種高效且直觀的方式,無(wú)疑為快速生成逼真的數(shù)字人物模型節(jié)省了大量時(shí)間和人力成本。
對(duì)于人物、場(chǎng)景、環(huán)境等的逼真描摹是為了增強(qiáng)“真實(shí)感”,但虛擬現(xiàn)實(shí)要實(shí)現(xiàn)的效果不止于此,其逼真效果還會(huì)調(diào)動(dòng)體驗(yàn)者的多感官系統(tǒng),最終達(dá)到一種“在場(chǎng)感”。虛擬現(xiàn)實(shí)通過(guò)充分調(diào)動(dòng)用戶視覺(jué)、聽(tīng)覺(jué)、味覺(jué)、嗅覺(jué)等多重感觀實(shí)現(xiàn)對(duì)事件的多重解構(gòu),在創(chuàng)造性空間中,帶領(lǐng)體驗(yàn)者真正嵌入重塑的情境中,以體驗(yàn)者的“在場(chǎng)”感知重新體會(huì)認(rèn)知某一事件的“本真性”[14],在虛擬現(xiàn)實(shí)體驗(yàn)設(shè)計(jì)中,多模態(tài)體驗(yàn)設(shè)計(jì)是一項(xiàng)重要的任務(wù)之一。其中,最關(guān)鍵的是如何將不同感官的信息融合在一起,讓用戶感受到真實(shí)且統(tǒng)一的感覺(jué)[15],即組合多維度的感官信息輸入,進(jìn)一步提高虛擬現(xiàn)實(shí)場(chǎng)景的逼真度和互動(dòng)性,其中包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)等諸多認(rèn)知刺激的整合與應(yīng)用。同時(shí),認(rèn)知科學(xué)的引入為虛擬現(xiàn)實(shí)體驗(yàn)設(shè)計(jì)提供了一種非??茖W(xué)化的設(shè)計(jì)者工具,可以指導(dǎo)設(shè)計(jì)者精細(xì)迭代,影響到虛擬現(xiàn)實(shí)體驗(yàn)中人類行為模式的制定與修正。
除了通過(guò)各種感官體驗(yàn)帶來(lái)“在場(chǎng)感”之外,與虛擬場(chǎng)景中的元素進(jìn)行交互也會(huì)增加觀眾的“沉浸感”,這也是虛擬現(xiàn)實(shí)體驗(yàn)與二維影像相比更具優(yōu)勢(shì)之處。交互性被稱為交互影像中最具顛覆性的特質(zhì),是虛擬場(chǎng)域中對(duì)多元對(duì)象的操作性和從適時(shí)環(huán)境中得到自然反饋程度的體現(xiàn)[16]。機(jī)器視覺(jué)技術(shù)的支持是眼動(dòng)交互、手勢(shì)交互和姿勢(shì)交互等技術(shù)的基礎(chǔ)[17]。典型的機(jī)器視覺(jué)系統(tǒng)包含光源投射、圖像采集、圖像數(shù)字化、數(shù)字處理、判斷決策和信號(hào)反饋六大模塊[18]。通過(guò)對(duì)信息進(jìn)行判斷決策,該系統(tǒng)將結(jié)果反饋到人機(jī)交互界面,生成相應(yīng)的變化。機(jī)器通過(guò)對(duì)人類面部表情、手勢(shì)和體態(tài)的捕捉和識(shí)別,來(lái)觀察和學(xué)習(xí)用戶偏好,響應(yīng)用戶的語(yǔ)音命令,更好地理解用戶的意圖和交互行為,幫助創(chuàng)造更加身臨其境的體驗(yàn)。例如Omniverse 的云原生超級(jí)計(jì)算機(jī)(Avatar Cloud Engine,ACE)是一套基于生成式AI 技術(shù)的模型代工服務(wù),它能夠?yàn)橛螒蛑薪巧恼Z(yǔ)音、對(duì)話及動(dòng)作交互提供AI 模型。ACE 支持下的NeMo 服務(wù)會(huì)根據(jù)預(yù)先輸入的角色背景知識(shí),構(gòu)建、定制并部署相應(yīng)的語(yǔ)言模型;Riva 則用于識(shí)別體驗(yàn)者的語(yǔ)音、實(shí)現(xiàn)文本和語(yǔ)音互轉(zhuǎn)化,讓AI 人物給出實(shí)時(shí)語(yǔ)音對(duì)話;Audio2Face 用于即時(shí)創(chuàng)建匹配語(yǔ)音的AI 人物的面部動(dòng)作,并直接添加到Epic Games 的虛幻引擎5 或其他工具中[19]。
在現(xiàn)有的虛擬現(xiàn)實(shí)交互設(shè)計(jì)中,用戶往往只能依靠手柄等外接設(shè)備來(lái)控制角色的移動(dòng)和行為,有些體驗(yàn)甚至是完全靠視覺(jué)沉浸來(lái)實(shí)現(xiàn)。但是,通過(guò)人工智能生物反饋技術(shù)應(yīng)用,體驗(yàn)者可以通過(guò)呼吸、心跳等生理數(shù)據(jù)來(lái)為角色提供實(shí)時(shí)控制信號(hào),從而增加虛擬現(xiàn)實(shí)中的身體體驗(yàn)、情感和互動(dòng)[20]。例如,在虛擬環(huán)境中進(jìn)行武術(shù)對(duì)決,用戶可以通過(guò)呼吸來(lái)控制角色的招式和力度,增強(qiáng)用戶沉浸感,提高互動(dòng)性。人體動(dòng)作生成(Human Pose Generation)即為一項(xiàng)計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)技術(shù),通過(guò)分析現(xiàn)實(shí)世界中的人體姿勢(shì)數(shù)據(jù),生成逼真的動(dòng)畫(huà)角色姿勢(shì),以此快速生成復(fù)雜的角色動(dòng)作,并在影視制作中降本增效。
圖1 人工智能技術(shù)在虛擬現(xiàn)實(shí)交互影像生產(chǎn)中的應(yīng)用
2017 年,當(dāng)時(shí)的Facebook 公司把基于生成式對(duì)抗網(wǎng)絡(luò)(GAN)、風(fēng)格遷移(Style Transfer)等方法的圖像生成和處理技術(shù)運(yùn)用到了VR影像中。Facebook巴黎AI 研究院和電影制作公司OKIO 工作室、Saint George VFX 工作室以及導(dǎo)演Jér?me Blanquet 合作完成了VR影像作品《變動(dòng)》(Alteration)。影片人工智能技術(shù)生成虛擬環(huán)境和虛擬人物,同時(shí)探討了虛擬現(xiàn)實(shí)和人工智能在塑造人類體驗(yàn)和身份認(rèn)同方面的潛力。人工智能在這部影片中的突出貢獻(xiàn)是風(fēng)格遷移技術(shù)的使用[21]。以Julien Drevelle 作品衍生出來(lái)的風(fēng)格為目標(biāo),巴黎AI 研究院的技術(shù)團(tuán)隊(duì)選擇了17 種變體,以此為基礎(chǔ)來(lái)訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),并使其修改影像的每一幀。彼時(shí),風(fēng)格遷移在360°立體圖像上還是一個(gè)全新領(lǐng)域,F(xiàn)acebook 團(tuán)隊(duì)用768×768 的圖像訓(xùn)練了神經(jīng)網(wǎng)絡(luò)[22],通過(guò)將每個(gè)目標(biāo)樣式應(yīng)用于單個(gè)幀來(lái)生成高分辨率測(cè)試圖像,最終實(shí)現(xiàn)了導(dǎo)演所希望的畫(huà)面風(fēng)格,也保證了雙眼看到的立體效果??梢钥吹?,人工智能在風(fēng)格遷移的學(xué)習(xí)和制作中表現(xiàn)頗佳。它使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和生成式對(duì)抗網(wǎng)絡(luò)(GAN),將一幅圖像的內(nèi)容與另一幅圖像的風(fēng)格進(jìn)行分離,然后將內(nèi)容圖像與風(fēng)格圖像進(jìn)行合成,從而實(shí)現(xiàn)風(fēng)格的遷移。除了圖像風(fēng)格遷移,它還可以應(yīng)用于視頻、音頻等領(lǐng)域。例如,將電影的風(fēng)格應(yīng)用于個(gè)人視頻,或?qū)⑺囆g(shù)家的音樂(lè)風(fēng)格應(yīng)用于其他音頻作品[23]。
2019 年西南偏南電影節(jié)最佳VR 敘事獎(jiǎng)作品——沉浸式VR 動(dòng)畫(huà)電影《咕魯米的眼睛》(Gloomy Eyes)也是一部使用人工智能技術(shù)創(chuàng)作的VR 影片。AIGC 系統(tǒng)在學(xué)習(xí)了大量相關(guān)電影和視覺(jué)效果后,使用深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)技術(shù)生成了影片的場(chǎng)景和人物。故事場(chǎng)景包括了暗黑森林、水下世界、深海城市等,角色包括巨型生物、AI 機(jī)器人、機(jī)器怪獸、僵尸角色等。這些元素均由人工智能技術(shù)制作而成,雖然還存在著幀速率不高、清晰度不夠等問(wèn)題,但已經(jīng)顯示出了人工智能的作用。影片中涉及人工智能的制作包括虛擬角色的智能行為、根據(jù)觀影者的行為和互動(dòng)作出的智能反應(yīng)以及情感反饋等,例如回應(yīng)觀影者的笑容或哭泣,通過(guò)人工智能語(yǔ)音識(shí)別技術(shù)將觀影者的語(yǔ)音指令轉(zhuǎn)化為指令。此前這種技術(shù)在《掌聲》(Clap)、《庫(kù)松達(dá)》(Kusunda)等VR 影片中也有使用,通過(guò)語(yǔ)音輸入進(jìn)行交互,與劇中人物產(chǎn)生互動(dòng)。除此之外,通過(guò)識(shí)別體驗(yàn)者的動(dòng)作產(chǎn)生對(duì)應(yīng)效果的動(dòng)作交互也有不少應(yīng)用,如VR 交互影片《一瞥》(Glimpse)中,體驗(yàn)者會(huì)自動(dòng)代入主人公的角色,拿取和閱讀場(chǎng)景中的物品,甚至可以吹滅虛擬場(chǎng)景中的蠟燭,通過(guò)動(dòng)作交互來(lái)參與劇情,體驗(yàn)主人公的情感變化。
雖然人工智能技術(shù)已經(jīng)在影視制作方面進(jìn)行了一些探索,也取得了一定的進(jìn)步,但也仍然存在沉浸感不強(qiáng)、交互性不夠自然等問(wèn)題。針對(duì)這些問(wèn)題,邵將等[24]提出可以借用機(jī)器學(xué)習(xí)技術(shù)中的典型算法來(lái)增強(qiáng)VR 電影體驗(yàn)效果,“包括針對(duì)沉浸感缺失的基于卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù)的應(yīng)對(duì)策略,以及針對(duì)真實(shí)感困境提出的決策樹(shù)、層次聚類算法下的優(yōu)化方案等”。
盡管AIGC 技術(shù)在圖形和內(nèi)容創(chuàng)作方面取得了顯著進(jìn)展,但仍存在一些技術(shù)上的限制。首先,AIGC技術(shù)的準(zhǔn)確性和真實(shí)性仍需進(jìn)一步提高。雖然機(jī)器學(xué)習(xí)和算法能夠通過(guò)大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,但在某些情況下,AIGC 技術(shù)生成的圖形和內(nèi)容可能仍然缺乏真實(shí)感和細(xì)節(jié),特別是在需要高度逼真和精確的視覺(jué)效果時(shí),AIGC 技術(shù)可能無(wú)法完全滿足需求。其次,AIGC 技術(shù)的知識(shí)和數(shù)據(jù)依賴性也是一個(gè)挑戰(zhàn)。AIGC 技術(shù)需要大量的圖形和內(nèi)容數(shù)據(jù)進(jìn)行學(xué)習(xí)和訓(xùn)練,以便生成高質(zhì)量的結(jié)果。然而,獲取和處理這些數(shù)據(jù)可能會(huì)面臨困難,尤其是涉及人像生成、專有數(shù)據(jù)和知識(shí)產(chǎn)權(quán)的問(wèn)題。AIGC 技術(shù)還需要領(lǐng)域?qū)<业闹R(shí)和經(jīng)驗(yàn)來(lái)指導(dǎo)和驗(yàn)證其生成的結(jié)果。此外,一些藝術(shù)家和設(shè)計(jì)師更傾向于手工創(chuàng)作和表達(dá),而AIGC 技術(shù)則可能限制了他們的創(chuàng)作自由度。確保AIGC 技術(shù)的合法性、道德性和隱私保護(hù)亦成為亟待解決的問(wèn)題。
AIGC 在數(shù)字建模、虛擬人、場(chǎng)景合成和藝術(shù)創(chuàng)作等領(lǐng)域的迅速擴(kuò)展,是隨著產(chǎn)業(yè)界虛擬現(xiàn)實(shí)、數(shù)字孿生和融合共生等場(chǎng)景的不斷豐富而實(shí)現(xiàn)的。未來(lái),人工智能還將與其他技術(shù)如增強(qiáng)現(xiàn)實(shí)、混合現(xiàn)實(shí)等進(jìn)行更深入的融合,創(chuàng)造更加綜合、交互性強(qiáng)的虛擬現(xiàn)實(shí)體驗(yàn)。這種融合可以通過(guò)機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺(jué)等技術(shù)實(shí)現(xiàn)對(duì)真實(shí)世界的感知和理解,進(jìn)一步提升虛擬現(xiàn)實(shí)的沉浸感。