亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于視覺畫面的空間音頻合成及電影行業(yè)應用研究

2023-10-10 01:35:16李思佳劉世光

現(xiàn)代電影技術 2023年9期

李思佳劉世光

天津大學智能與計算學部，天津 300350

1 引言

科技的發(fā)展不斷推動電影技術創(chuàng)新，也有力支撐著電影藝術的蓬勃發(fā)展。如人工智能（AI）、虛擬現(xiàn)實（VR）等技術，正在逐步改變電影工業(yè)的傳統(tǒng)工藝并逐步定義著未來的發(fā)展方向。科學技術是第一生產(chǎn)力，電影產(chǎn)業(yè)技術的自主研發(fā)和創(chuàng)新已成為新時代的必然要求。為此，我們需要加強自主創(chuàng)新，站在科技發(fā)展的前沿，緊跟科技發(fā)展趨勢，更好地掌握主動權，促進產(chǎn)業(yè)升級，進一步解放和發(fā)展生產(chǎn)力，推動電影產(chǎn)業(yè)和文化產(chǎn)業(yè)高質(zhì)量發(fā)展。

電影效果的呈現(xiàn)不僅依賴于視覺的設計，也離不開聽覺、觸覺、嗅覺等的應用。與畫面匹配的逼真音頻可以給用戶營造一種更真實的體驗，例如，當畫面中有一個人從鏡頭的左側(cè)走到右側(cè)時，同時也應聽到從左到右的腳步聲，即在鏡頭左側(cè)時左耳聽到更明顯的腳步聲，走到鏡頭右側(cè)時則右耳聽到更清晰的聲音。如果用戶在觀影過程中能夠聽到模擬現(xiàn)實中雙耳效果的，帶有與畫面一致的空間感的音頻，沉浸感會得到顯著提升。

部分早期的影片僅包含單聲道音頻，用戶不易獲得很好的聽覺體驗。當影片僅包含單聲道音頻時，人的雙耳接收到的信息是完全一致的，在不依靠視覺信息的情況下無法辨認聲源位置，這顯然與現(xiàn)實聽感不符，導致整體代入感減弱。我們無法直接將單聲道音頻轉(zhuǎn)換為雙耳音頻，因為我們不能憑空添加缺失的空間信息。但在一部電影中，同時擁有畫面和聲音，視覺和聽覺反映了一致的空間信息，因此我們可以利用視覺中的空間信息，對單聲道音頻進行空間化。

本文將介紹一種視覺信息輔助的音頻空間化方法，可以將視頻中的單聲道音頻轉(zhuǎn)換為與畫面位置信息相一致的空間音頻。該框架輸入視頻幀和單聲道音頻，輸出對應的具有兩個聲道的雙耳音頻，即左右聲道分別還原左右耳聽到的聲音。本文將該任務拆解成兩個子任務，即聲源分離定位和空間音頻重構，緩解了由于空間音頻數(shù)據(jù)集規(guī)模較小引發(fā)的過擬合問題，實現(xiàn)了在給定視頻條件下空間音頻的直接合成，提升了用戶體驗。近年來，AI 大模型逐漸成為研究熱點，在自然語言[1]、視覺[2]、音頻領域[3]以及多模態(tài)領域[4]都取得了一定的進展。如果可以將大模型的知識運用到本文特定任務的小模型中，對其效果也將有所提升。

2 國內(nèi)外研究現(xiàn)狀

近年來，基于視覺的音頻空間化受到了越來越多的關注。由于我們處理的是視頻場景，因此無法直接獲得聲源及其信息以進行空間音頻[5]的渲染。隨著深度學習的發(fā)展，出現(xiàn)了使用監(jiān)督學習進行音頻空間化的方法，利用數(shù)據(jù)驅(qū)動，隱式地學習音頻中的空間信息。

單聲道音頻缺少空間信息，無法直接進行空間音頻的重建，必須借助其他模態(tài)，如視覺信號，對其空間信息進行補充。有許多研究者利用將不同的信號與單聲道音頻相結(jié)合，實現(xiàn)單聲道音頻的空間化。其中Morgado 等人[6]利用全景視頻進行輔助，預測不同方向上的聲音分量以獲得音頻的空間信息。雖然全景視頻提供了較多的視覺位置信息，但是日常生活中的多數(shù)視頻并非全景格式，因此其適用范圍有限，不直接適用于普通視角的視頻。同樣基于全景視頻進行音頻空間化的還有Kim 等人[7]，不同的是作者估計的是房間的幾何結(jié)構和聲學特性以重建空間音頻。類似地，也有利用聲學脈沖響應[8]或估計房間的聲學材料特征[9]以完成空間音頻渲染的相關研究。以上這幾種方法仍然有使用場景的局限性，只適用于室內(nèi)場景，無法拓展到室外的聲學場景。

針對普通視角的視頻，Gao 和Grauman[10]采用監(jiān)督學習的方法來解決這個問題。他們針對此問題采用專業(yè)人頭錄音設備錄制了一個雙耳聲數(shù)據(jù)集，即FAIR-Play 數(shù)據(jù)集，該數(shù)據(jù)集包含上千段室內(nèi)樂器演奏的雙耳聲視頻。作者采用UNet 網(wǎng)絡，輸入視頻幀和單聲道音頻，預測雙耳聲音頻。Lu 等人[11]同樣使用UNet 網(wǎng)絡作為主干網(wǎng)絡，同時在生成網(wǎng)絡后添加了一個分類器來完善模型。由于雙耳聲的左右聲道不能互換，因此分類器用來判斷生成雙耳聲的左右聲道是否相反，依次進行生成任務和分類任務，以進一步約束模型。Yang 等人[12]首先學習空間音頻的良好表示，再將空間音頻生成作為一項下游任務來進行。同一視頻的視覺和音頻所包含的空間信息存在一致性，因此作者通過判斷音視頻特征是否在空間上對齊以學習一個空間音視頻的良好表示。這里的空間音頻生成作為音視頻表示學習的下游任務，兩項任務是獨立考慮的。與本文密切相關的另一項研究則是視覺輔助的聲源分離與音頻空間化的多任務學習[13]。該研究將聲源分離任務視為一種特殊的音頻空間化任務，即將音頻分離看作聲源分別在最左端和最右端的音頻空間化。研究者設計了一種關聯(lián)神經(jīng)網(wǎng)絡結(jié)構以更好地融合視聽特征，但這種方法需要引入額外的數(shù)據(jù)集。

以上討論的方法都是監(jiān)督學習的方法，雖然生成效果較好，但也存在一些問題。一方面，現(xiàn)有的可用于監(jiān)督學習的空間音頻數(shù)據(jù)集較少，數(shù)據(jù)規(guī)模較小，場景也較為局限，多為樂器演奏或室內(nèi)視頻。這使得這類方法很容易產(chǎn)生過擬合問題，泛化性較差，不易推廣到其他應用場景。另一方面，空間音頻的錄制需要一定的成本，錄制大規(guī)模的數(shù)據(jù)集較為困難，這也限制了訓練出的模型的能力。因此，也有研究者嘗試在不依賴此類數(shù)據(jù)集監(jiān)督訓練的情況下，對給定單聲道視頻，直接合成相應的空間音頻[14]。研究者首先挑選出只有單個聲源的視頻，并將其裁剪下來，得到畫面和聲音都只包含一個聲源的視頻。之后再將這些視頻隨機粘貼到空間中的不同位置，得到一個新的混合視頻。有了聲源及其位置，便可以進行空間音頻的合成。合成出來的新的空間音視頻，又可以作為監(jiān)督學習數(shù)據(jù)集的補充，進行數(shù)據(jù)增強，改善監(jiān)督學習合成的效果，緩解過擬合問題。但是該方法需要選擇單聲源數(shù)據(jù)，這類數(shù)據(jù)依舊較少。另外該方法在不斷創(chuàng)建本來不存在的新數(shù)據(jù)，而不是直接對給定視頻數(shù)據(jù)進行轉(zhuǎn)換，更類似于一種數(shù)據(jù)增強方法。

本文旨在介紹一種更加直接的音頻空間化方法，將給定的單聲道視頻轉(zhuǎn)換為空間音頻，這里重點關注的是具有左右聲道的雙耳聲。本文將音頻空間化任務分成兩步執(zhí)行，即視覺信息輔助的聲源分離定位以及空間音頻的重構。我們首先訓練一個聲源分離網(wǎng)絡，然后對視頻幀沿水平方向進行等距劃分，并將每個分區(qū)的中心位置作為聲源的位置坐標。將這些視頻幀輸入到訓練好的聲源分離網(wǎng)絡中，得到分離出的聲源。有了聲源及其位置信息，便可以對其進行空間音頻的重構，獲得具有空間感的較為逼真的聲音效果。

3 音頻空間化

我們的雙耳能根據(jù)聽到的聲音辨別物體的方位，這種特性也被稱為雙耳效應，如果在音頻制作中模擬這種效果，可以增強觀眾的聽覺體驗。人耳可以依據(jù)雙耳時間差和雙耳聲級差實現(xiàn)聲源的定位，前者是指聲音傳播到左右耳的時間不同，存在時間差，后者則指左右耳接收到的聲音信號強度也有所差異，這些左右耳聽到的聲音差異就是我們辨別聲源方位的依據(jù)。在單聲道音頻中，左右耳接收到的信號完全一致，減弱了沉浸感。如果可以利用電影畫面信息作為提示，補全雙耳聲音信號之間的差異，將會帶來更真實的體驗。

本章詳細介紹將視頻的單聲道音頻轉(zhuǎn)換成空間音頻的方法，主要分為兩個步驟：聲源分離定位和空間音頻重構?？傮w流程圖如圖1所示，輸入視頻幀和單聲道音頻，通過聲源分離定位模塊得到分離出的多個單聲源及其位置信息，之后將其輸入到空間音頻重構模塊，完成音頻空間化。具體來講，對需要進行音頻空間化的電影片段，我們首先對其電影畫面的視頻幀進行提取，然后將電影的單聲道音軌分離出來。分別將電影畫面幀及音頻輸入到雙流（Two-Stream）網(wǎng)絡中，實現(xiàn)電影畫面的聲源分離定位。如電影畫面中有兩個人物在進行不同的活動，我們將其分割開，并將二人發(fā)出的聲音也從混合音頻中剝離出來。之后我們依據(jù)二人的位置重構空間音頻，使最終的聽感和二人在畫面中的位置一致。接下來我們對本文的模塊展開介紹。

圖1 空間音頻轉(zhuǎn)換流程

3.1 聲音分離定位模塊

聲音分離定位模塊的主要作用是將包含多個聲源的音頻分離成單個聲源的音頻，并給出每個聲源在畫面中的位置坐標。本文將視頻畫面劃分成不同區(qū)域，把每個區(qū)域視作一個聲源，用其中心位置代表其坐標。同時采用混合分離的訓練策略[15]訓練聲源分離網(wǎng)絡，將單個聲源依據(jù)畫面分離出來。

聲源分離網(wǎng)絡采用的是PixelPlayer 模型[15]，是一個雙流處理網(wǎng)絡，主要由三部分組成：視頻處理模塊、音頻處理模塊以及音頻合成模塊，如圖2所示。

圖2 聲源分離模塊訓練和測試示意圖

視頻處理模塊提取每個視頻幀中重要的視覺特征，用于指導之后的聲源分離。網(wǎng)絡的主干結(jié)構是帶有擴張卷積的ResNet 網(wǎng)絡，這里采用在ImageNet上預訓練的模型初始化其權重。

與視頻處理模塊相對應，音頻處理模塊主要作用是分離聲音分量。音頻網(wǎng)絡的架構采用UNet 網(wǎng)絡，其輸入是音頻譜圖，輸出是音頻譜圖的不同分量，其分量數(shù)目和視覺特征的維度相匹配，將原始音頻進行分解以便和視覺特征相關聯(lián)。

最后由音頻合成模塊實現(xiàn)視聽特征的整合，并預測最終分離的輸出。視頻特征的維度和音頻譜圖分量的數(shù)目相同，可以通過乘法操作將二者進行結(jié)合，得到一個和音頻譜圖大小一致的掩模。該模塊預測不同視覺特征對應的聲源掩模，得到掩模再和原始混合音頻譜圖相乘，得到該視覺特征對應的音頻譜圖，即根據(jù)視覺分離出不同的聲源。之后利用逆短時傅里葉變換（Inverse Short Time Fourier Transform，ISTFT）將譜圖轉(zhuǎn)換回時域即可。

在訓練過程中，由于采用的數(shù)據(jù)集MUSIC-21[16]沒有標注，因此要構建合適的訓練目標。本文采用的是混合分離訓練策略[15]，隨機選取兩個視頻，將其音頻進行混合得到混合音頻，網(wǎng)絡訓練目標是還原這兩個視頻的原始音頻，從而達到學習聲源分離的目的。所以訓練時網(wǎng)絡的輸入是兩個視頻的視頻幀以及它們的混合音頻，輸出是兩個視頻分別對應的原始音頻。通過人為地構造監(jiān)督條件，可以在無標注數(shù)據(jù)的條件下，完成聲源的分離。

在測試階段，不再隨機選取多個視頻混合，而是直接對給定的視頻進行處理。考慮到人耳對水平方向上的聲音更敏感，因此可以將給定的視頻幀沿水平方向進行切分，將其分割成不同的聲源。首先將視頻幀從中間切分成左右兩個部分，將左右兩側(cè)看成兩個不同的聲源。和訓練過程相對應，此時待混合的視頻變?yōu)榍蟹趾蟮膬蓚€視頻，而混合音頻則是原視頻對應的音頻。將其輸入到訓練好的網(wǎng)絡中后，可以分別得到切分后的視頻畫面對應的音頻。至此，可以從一個混合的聲源中分離出兩個單獨的聲源。選取兩個分區(qū)的中心位置（在原視頻中的位置）作為其聲源的坐標，完成聲源的分離和定位。

在本文中，視覺處理網(wǎng)絡利用的是在ImageNet數(shù)據(jù)上預訓練的ResNet 網(wǎng)絡，也可以考慮將其換成更大規(guī)模的模型，如ViT[17]、Swin Transformer[18]等，將其作為主干網(wǎng)絡進行特征提取，獲得更豐富的視覺特征，不過其對訓練資源的要求也會更高。近年來，結(jié)合自然語言處理（NLP）領域的大模型也越來越多，尤其是文本和圖像的結(jié)合[19][20]成為了又一個熱點。加入文本模態(tài)，用文字提示來輔助對畫面的音頻分離,或許會是一種更有效的方式。

3.2 空間音頻重構模塊

通過聲源分離定位模塊，獲得了聲源及其位置信息，再將其輸入至空間音頻重構模塊，便可以獲得模擬雙耳的空間音頻。該模塊利用高保真環(huán)境立體聲（Ambisonics）和雙耳聲重構技術[14]，利用多個聲源及其位置重構空間音頻。

和文獻[14]的研究類似，假設聲源分布在一個球面上。不同的是，本文旨在對給定的單聲道進行直接的空間音頻轉(zhuǎn)換，在轉(zhuǎn)換過程中不再創(chuàng)建新的視頻。本文將畫面劃分成不同的區(qū)域，每個區(qū)域看作一個抽象的聲源，不再利用目標檢測對畫面進行裁剪，因為其非常依賴于目標檢測器的精度。聲源的位置坐標也不再是隨機生成，而是計算每個區(qū)域的中心位置坐標進行近似。另外文獻[14]要求選取的是單聲源視頻，數(shù)據(jù)要求較高，本文通過添加聲源分離定位模塊避免了這個問題。

由于假設聲源分布在球面上，首先要進行坐標系的轉(zhuǎn)換。將平面直角坐標轉(zhuǎn)換到球面坐標，從而將聲源映射到球面上，即：

得到球面坐標后，可以利用Ambisonics 技術進行空間音頻的重建。將聲源映射到球面后，利用球諧函數(shù)分解來對空間音頻進行描述。如果聲源的入射方向為Ω =(θ,φ)，則球諧函數(shù)可以用式（2）表示：

其中m是階數(shù)，l是次數(shù)則是伴隨勒讓德多項式是歸一化常數(shù)，采用的是施密特正交化。球諧函數(shù)可以作為基函數(shù)，因此一個給定的從Ω 方向入射的聲音信號可以用式（3）表示：

其中L是最高次數(shù)是對應的系數(shù)。每一項的系數(shù)都可以根據(jù)聲源及其位置信息計算出來。因此，只要在聲源分離定位模塊計算出聲源和位置，就可以實現(xiàn)空間音頻的重構。本文只考慮一階Ambisonics 的情況，即有四個方向上的聲道：全向、x 方向、y 方向以及z 方向，每個方向?qū)南禂?shù)同樣可以通過聲源及其所在位置計算出來。

之后我們只需將其轉(zhuǎn)換成雙耳聲即可，這里需要利用頭相關脈沖響應（(Head-Related Impulse Response,HRIR)）。先將信號分解成N 個不同方向上的虛擬聲源，利用其球諧函數(shù)將其求解出來。求解出的虛擬聲源再和HRIR 進行卷積，由于雙耳聲有兩個聲道，分別進行卷積得到左耳和右耳對應的聲音：

其中hl和hr分別是左耳和右耳對應的HRIR是虛擬聲源。

4 實驗結(jié)果與分析

本章主要介紹實驗所用的數(shù)據(jù)集，并對不同模塊的結(jié)果進行展示，以表明其有效性。針對電影畫面，我們首先將其切割成視頻片段，然后對每個片段進行抽幀，并分離出單聲道音軌。再將得到的電影片段視頻幀及單聲道音頻按照第三章的方法進行處理，即可得到具有空間音頻效果的電影片段。

4.1 實驗數(shù)據(jù)集

在聲源分離定位模塊，本文采用MUSIC-21 數(shù)據(jù)集[16]，其是視覺輔助的聲源定位領域常用的數(shù)據(jù)集之一。它對數(shù)據(jù)集MUSIC[15]進行補充，原始數(shù)據(jù)集包括714 個樂器演奏視頻，涵蓋11 種樂器，分別為：手風琴、原聲吉他、單簧管、長笛、大提琴、薩克斯管、大號、小號、二胡、小提琴和木琴。通過查詢樂器名加演奏擴充后，MUSIC-21[16]共收集了1365 個You-Tube 上的樂器演奏視頻，多為獨奏或二重奏，涵蓋21種樂器，與之前相比新添加了以下10種常見的樂器：電貝斯、風笛、康佳鼓、班卓琴、古箏、巴松管、鋼琴、鼓、琵琶和尤克里里。該數(shù)據(jù)集沒有額外的標注，其中1065個視頻用于訓練集，300個視頻用于測試集。

在空間音頻重構模塊，本文采用的是CIPIC HRTF 數(shù)據(jù)集[21]。這是一個實驗測量得到的頭相關傳輸函數(shù)（Head Related Transfer Function，HRTF）數(shù)據(jù)集。在空間音頻重構模塊中，本文利用了頭相關脈沖響應（HRIR），其正是HRTF 的時域表示。將聲源分離定位模塊得到的單聲源與頭相關脈沖響應（HRIR）進行卷積，得到模擬的雙耳聲。也可以先對聲源信號進行傅里葉變換，再與頭相關傳輸函數(shù)（HRTF）做乘積得到雙耳聲。該數(shù)據(jù)集記錄了45 名受試者的相應數(shù)據(jù)，其中共有男性27 人，女性16 人。其中音頻的采樣率為44.1kHz，16 比特位深。頭相關脈沖響應（HRIR）的長度約為4.5 毫秒，大約200 個樣本點。該數(shù)據(jù)集在半徑1 米的1250 個方向上進行測量，同時也包含了受試者的身體測量數(shù)據(jù)。該數(shù)據(jù)集是常用的HRTF 數(shù)據(jù)集之一，可以利用它實現(xiàn)對雙耳聲較好的模擬重現(xiàn)。

4.2 聲源分離結(jié)果

給定一個視頻幀，往往存在多個同時發(fā)聲的聲源，聲源分離定位模塊旨在根據(jù)畫面內(nèi)容將其分解成多個單聲源音頻，本節(jié)展示該模塊的分離結(jié)果，驗證其有效性。對于聲源分離網(wǎng)絡，訓練和測試階段的輸入有所差異。在訓練階段，輸入在數(shù)據(jù)集中任選的兩個獨奏視頻的視頻幀及其混合音頻。在測試階段，則只選取了數(shù)據(jù)集中任意一個二重奏視頻的視頻幀及其音頻作為輸入。將視頻幀沿水平方向分割裁剪，再將這些分割后的視頻輸入到網(wǎng)絡中，得到每個分區(qū)對應的聲音。之后再分別計算其中心坐標作為聲源的位置信息。

部分分離結(jié)果如圖3 所示。展示的例子中存在兩個聲源，分別是左側(cè)的吉他和右側(cè)的小提琴?？梢詮钠湟纛l譜圖中看出，兩種聲源混疊在一起，難以直接從譜圖中進行區(qū)分。圖3 中下面兩圖是將該視頻幀從中間等分裁剪后分別輸入至網(wǎng)絡得到的結(jié)果。可以看出網(wǎng)絡根據(jù)圖像內(nèi)容將聲源較好地分離出來，從混合音頻中成功分離出來畫面左側(cè)的吉他聲音以及畫面右側(cè)的小提琴聲音，驗證了聲源分離定位模塊的有效性。

圖3 聲源分離結(jié)果展示

4.3 空間音頻重構結(jié)果

有了聲源分離和定位的結(jié)果，將其輸入到空間音頻重構模塊，模擬現(xiàn)實中的雙耳聲效果。如果我們獲得分離出的聲源后，只是簡單地將它們分別分配給左右聲道，這顯然是不符合實際的。因為人的左耳不止能聽到畫面左邊的聲音，也能聽到畫面右邊的聲音，只是接收到的聲音信號的時間和強度存在著一些差異。因此我們必須根據(jù)其在畫面中的位置進行重構，而這正是聲源分離定位模塊的輸出。

部分重構后的空間音頻結(jié)果如圖4 所示。由于本文重建的是雙耳聲，所以重建結(jié)果中有兩個聲道，分別對應左右耳的聲音。從圖4中可以看出，空間音頻重構模塊將兩種聲源重新進行組合，獲得了模擬雙耳聲的效果。左右兩個聲道的譜圖非常接近，但又存在著細微差異，既不會像單聲道音頻左右耳聽到完全一樣的聲音，也不會像將聲源簡單地分配給左右聲道而聽到完全不同的聲音。當佩戴耳機時可以感受到與畫面一致的有空間感的音頻，驗證了空間音頻重構模塊的有效性。

圖4 音頻空間化結(jié)果展示

5 結(jié)語

本文介紹了一種視覺信息輔助的音頻空間化方法，可以根據(jù)給定的視頻幀直接將其單聲道音頻轉(zhuǎn)換為空間音頻。該方法包括聲源分離定位和空間音頻重構兩個模塊。首先訓練一個聲源分離定位網(wǎng)絡，然后將給定的視頻幀按水平方向進行等區(qū)域劃分，將劃分后的區(qū)域看作單獨待分離的聲源輸入進訓練好的網(wǎng)絡，得到對應的音頻。分別取其中心位置作為聲源坐標，編碼得到Ambisonics 音頻，再利用頭相關脈沖響應（HRIR）解碼成雙耳聲。相比單聲道音頻，采用本文方法的結(jié)果具有更強的空間感，能給用戶帶來更加沉浸的體驗，可應用到電影沉浸式音頻的制作。由于存儲方式或壓縮等其他因素的影響，部分電影只留下了單軌音頻，當觀眾再次觀看時不能獲得良好的體驗。通過本文方法將其轉(zhuǎn)換為空間音頻后，可以盡力還原沉浸式的音頻體驗。

本文方法依然有許多局限性，在未來的工作中仍有待改進。本文方法將音頻空間化拆成兩個子任務并順序執(zhí)行，導致后一個任務對前一個任務有著較強的依賴性。如果聲源分離的效果較差，則在后一步也很難渲染出具有真實感的雙耳聲。例如當畫面中存在兩個相似的樂器時，很難完美地將其分離開。另外在此過程中可能會引入噪聲，導致最終高頻細節(jié)缺失，影響音頻聽感。在本文中沒有考慮運動信息，但聲音是由物體振動產(chǎn)生的，對運動的描述有利于更好地重構聲音，這也是未來值得研究的工作。此外，如何進一步提高模型的泛化性，使其能更好地應用到現(xiàn)實世界的視頻中，也是未來需要考慮的方向。對AI 大模型的融入或許是一個解決方法，AI 大模型在大規(guī)模數(shù)據(jù)集上進行訓練，可以引入一些額外的先驗知識，在一定程度上可以緩解部分泛化性問題。另外利用大語言模型（LLM）將文本模態(tài)引入，利用文本提示來進行空間化的輔助，也是一個研究方向。

未來我們需要自主提出更多的創(chuàng)新算法，彌補現(xiàn)有不足，并將創(chuàng)新技術應用到實際中，理論結(jié)合實踐，努力實現(xiàn)電影科技自立自強，為電影強國的建設添磚加瓦。同時也要捕捉科學技術發(fā)展的新趨勢，站在科技發(fā)展前沿，研發(fā)先進的視聽技術，推動電影產(chǎn)業(yè)的持續(xù)發(fā)展與提質(zhì)升級。

作者貢獻聲明：

李思佳：設計和實現(xiàn)算法，撰寫論文初稿，全文文字貢獻90%；

劉世光：指導論文框架，修訂論文，全文文字貢獻10%。

現(xiàn)代電影技術2023年9期

現(xiàn)代電影技術的其它文章: 本期導讀; 《中國電影數(shù)字制作規(guī)范》正式出版發(fā)行; 《長安三萬里》：中國古典詩歌的視覺探索和特效呈現(xiàn); 電影虛擬攝制“再探析”：歷史溯源、演進趨勢與藝術互動; VR 影像信息可視化與空間敘事融合方式探析; AIGC 技術在人工智能電影創(chuàng)作中的應用策略研究