靳 聰,吳鳳鵑,李 波,郭子淳,王 晶
(1.中國傳媒大學(xué) 信息與通信工程學(xué)院, 北京 100024; 2.西北工業(yè)大學(xué) 電子信息學(xué)院, 西安 710129; 3.北京化工大學(xué) 藝術(shù)與設(shè)計(jì)系, 北京 100029; 4.北京理工大學(xué) 信息與電子學(xué)院, 北京 100029)
數(shù)字孿生是當(dāng)前軍事裝備應(yīng)用研究中的一項(xiàng)關(guān)鍵技術(shù)。通過建立設(shè)備運(yùn)行數(shù)據(jù)庫,掌握物理設(shè)備整個(gè)生命周期的所有數(shù)據(jù)和參數(shù),提高設(shè)備配置的合理性。通過創(chuàng)建逼真的三維戰(zhàn)場(chǎng)環(huán)境,數(shù)字孿生將支持戰(zhàn)場(chǎng)態(tài)勢(shì)感知和規(guī)劃能力的戰(zhàn)略轉(zhuǎn)型等。
由于人類對(duì)環(huán)境中聲音信息的接收不像對(duì)視覺信息的接收那樣容易受到角度和方向的限制,通過聲音可以獲得的不可見的事件狀態(tài)或?qū)嶓w行為信息,這無疑是對(duì)視覺信息的重要補(bǔ)充,尤其在戰(zhàn)場(chǎng)上具有重要的意義。然而,在虛擬戰(zhàn)場(chǎng)仿真中,聽覺作為成員與環(huán)境之間的信息交互的重要來源卻常常被忽視。成員、物理世界和虛擬環(huán)境(virtualenvironment,VE)之間的關(guān)系不僅應(yīng)該激發(fā)自然的多模態(tài)界面的設(shè)計(jì),而且應(yīng)該被發(fā)現(xiàn)以使VR技術(shù)的中介作用更有意義。
從哲學(xué)角度,聽覺數(shù)字孿生可以解釋為將人或代理的空間位置賦予一種虛擬的數(shù)字化身,并以具身性的聽覺感知完成映射。“具身性”這個(gè)理念最早來自于梅洛·龐蒂,其本意是關(guān)注身體如何影響人類的心智和行動(dòng),以及基于身體本質(zhì)對(duì)其所處空間的探尋。它能有效地通過調(diào)節(jié)“外來感官刺激所產(chǎn)生的印象,而其方式是身體將它對(duì)當(dāng)前位置或地點(diǎn)的感覺與它對(duì)過去某種東西的感覺相聯(lián)系”[1]。
本文中設(shè)計(jì)了一個(gè)具有技術(shù)-數(shù)字性質(zhì)的聽覺元環(huán)境,它是監(jiān)護(hù)者、仔細(xì)的觀察者和每個(gè)行動(dòng)者的對(duì)話和參與的生命線。從“以人為本”的角度來看,它圍繞著聽眾形成,即對(duì)它有意義的真實(shí)世界。為什么是數(shù)字孿生?因?yàn)檫@個(gè)術(shù)語讓人想起2個(gè)不同的和遙遠(yuǎn)的實(shí)體或人之間的深刻聯(lián)系,通常以具身性為基礎(chǔ)。這個(gè)框架從生態(tài)學(xué)的角度延伸到通過考慮VR內(nèi)在的多感官性質(zhì),從生態(tài)學(xué)擴(kuò)展到多感官領(lǐng)域。由于這些原因,本文中提出了一個(gè)音頻優(yōu)先的視角,采用了一種更易讀的、不損失信息的合成表達(dá),即聽覺數(shù)字孿生。
一些面向軍事模擬作戰(zhàn)場(chǎng)景的虛擬仿真設(shè)計(jì)在虛擬現(xiàn)實(shí)方面傾向于視覺優(yōu)先,將聽覺信息限定為次要和輔助角色[2]。雖然聲音是實(shí)現(xiàn)沉浸式效果的重要組成部分,但與視覺相比,針對(duì)聽覺空間和環(huán)境的相關(guān)研究工作較少。如今,人們?cè)絹碓蕉嗟亻_始關(guān)注空間聽覺對(duì)于虛擬環(huán)境所起到的重要作用,也在VR模擬[3-5]中達(dá)成共識(shí)。空間音頻渲染技術(shù)現(xiàn)在能夠通過從現(xiàn)實(shí)生活中的錄音[6]或歷史檔案中重建刺激來傳達(dá)可信感知的模擬,如2019年火災(zāi)前后的巴黎圣母院[7],越來越接近于與自然現(xiàn)實(shí)無異的虛擬版本[8]。這是由高度個(gè)性化的用戶形態(tài)建模和人體與室內(nèi)聲場(chǎng)產(chǎn)生的聲學(xué)轉(zhuǎn)換合成的,通過計(jì)算機(jī)結(jié)合房間聲學(xué)模型,建立聲場(chǎng)環(huán)境的數(shù)字孿生[9-10],如圖1所示。
圖1 聽覺數(shù)字孿生系統(tǒng)圖
哲學(xué)家莫里斯-梅洛-龐蒂在模糊性概念指出,所有的經(jīng)驗(yàn)都是模糊的,不是由已定義的、可識(shí)別本質(zhì)的東西組成,而是由開放靈活的風(fēng)格或互動(dòng)和發(fā)展模式組成[12-13]。從以自我為中心的沉浸式VR的空間角度出發(fā),當(dāng)聽眾的注意力被引導(dǎo)到外部的虛擬聲音時(shí),其學(xué)習(xí)和轉(zhuǎn)化過程就會(huì)發(fā)生具身性的改變。因此,虛擬環(huán)境的聽覺模擬,是由聽者和數(shù)字孿生體過去的認(rèn)知經(jīng)驗(yàn)形成的,在建構(gòu)主義的意義上,他們不清楚如何從物理或控制論世界中獲得,由身體、頭部和耳朵誘發(fā)或模擬的物理-聲音印記,以及③由與技術(shù)共生誘發(fā)的主動(dòng)和適應(yīng)性的感知再學(xué)習(xí)過程[14-15]。正如Vindenes等[16]所指出的,經(jīng)驗(yàn)是以聽眾的主觀性為中介的,而聽眾的主觀性是與VE的客觀性聯(lián)系在一起的。將物理世界和虛擬世界放在同一水平上,對(duì)于聽眾和它的數(shù)字孿生體來說,產(chǎn)生了相似性的具身表征,能夠促進(jìn)VR體驗(yàn)的變革作用,使人與現(xiàn)實(shí)的關(guān)系在接觸后發(fā)生改變。
廣泛使用的空間音頻生成技術(shù)主要以傳統(tǒng)的數(shù)字信號(hào)處理(DSP)為基礎(chǔ),通過DSP技術(shù)將雙耳聲音與空間信息作為一組線性時(shí)不變的聲學(xué)組件,基于簡(jiǎn)化的幾何模型實(shí)現(xiàn)模擬。由于精確的基于波形的室內(nèi)脈沖響應(yīng)模擬在計(jì)算上開銷巨大,并且需要詳細(xì)的幾何和材料信息,因此實(shí)際中不常采用。頭部相關(guān)的傳遞函數(shù)在電波暗室中進(jìn)行測(cè)量[17],而高質(zhì)量的空間化需要在近10k的不同空間位置進(jìn)行雙耳記錄[18]。為了生成雙耳音頻,基于DSP的雙耳渲染器通常會(huì)對(duì)分量脈沖響應(yīng)進(jìn)行一系列卷積。目前,神經(jīng)網(wǎng)絡(luò)的空間化研究進(jìn)程已經(jīng)開始。Gebru等[19]的研究表明:HRTF可通過訓(xùn)練原始波形,實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)隱式學(xué)習(xí)。Manocha等[20]的一項(xiàng)工作致力于預(yù)測(cè)以視覺信息為條件的空間聲音,但由于工作局限于一階雙聲道,無法詳盡地模擬雙耳效應(yīng)。與之相比,Yang和Zhou的一系列針對(duì)于2.5D視覺音效系統(tǒng)的論文[21-22]更為密切。在這一系列論文中,雙耳音頻是在視頻幀嵌入的條件下生成的,因此可有效判斷聲音來源的位置。
本文中旨在將與虛擬環(huán)境中的聲音交互(SIVE)有關(guān)的研究群島轉(zhuǎn)化為一個(gè)研究領(lǐng)域,提出聽覺數(shù)字孿生的理論框架,對(duì)未來的挑戰(zhàn)有一個(gè)包容性的看法。在一個(gè)采用了沉浸式音頻技術(shù)的VE中,VR模擬的作用必須由人類和非人類代理(稱為行動(dòng)器)網(wǎng)絡(luò)中的意識(shí)制造的參與性探索來發(fā)布。聽覺數(shù)字孿生技術(shù)促進(jìn)了人類和技術(shù)之間的內(nèi)部互動(dòng),動(dòng)態(tài)和流暢地重新定義所有那些對(duì)沉浸式和連貫性體驗(yàn)至關(guān)重要的配置。糾纏理論的想法在這里主要是在“以人為本”的空間視角中被拒絕,這與聽者感知能力的知識(shí)有關(guān)。
本文中的核心是創(chuàng)建一個(gè)理想的聽覺數(shù)字孿生系統(tǒng),以一種音頻視角來實(shí)現(xiàn)“以人為本”的模擬聽眾和其數(shù)字孿生體之間的具身映射關(guān)系。本文中的主要目標(biāo)是通過一個(gè)聽覺數(shù)字孿生體來描述聽者和虛擬環(huán)境之間的交互行動(dòng),實(shí)現(xiàn)擴(kuò)展現(xiàn)實(shí)(XR)體驗(yàn)下的空間音頻孿生及多感官具身交互,并應(yīng)用于軍事虛擬仿真場(chǎng)景。
空間音頻,即從雙耳收到的信號(hào)中解讀空間信息的能力,通過向大腦提供相匹配的聽覺與視覺輸入來建立對(duì)空間的沉浸感、具身感,能夠幫助我們實(shí)現(xiàn)在虛擬環(huán)境和真實(shí)環(huán)境之間映射的自我定位。目前,空間音頻合成的大多數(shù)方法主要建立在傳統(tǒng)的DSP技術(shù)的基礎(chǔ)上,將每個(gè)組件——HRTF、環(huán)境噪聲、房間聲學(xué)等建模成線性時(shí)不變系統(tǒng)(LTI)。這些LTI能夠被很好地理解,也較容易用數(shù)學(xué)建模,經(jīng)過實(shí)驗(yàn)證明能在一定程度上產(chǎn)生接近于雙耳音頻的效果,因而至今仍得到廣泛使用。但是,真實(shí)的聲波傳播為非線性波效應(yīng),故LTI無法對(duì)其進(jìn)行適當(dāng)建模,最終效果也不盡如人意。因此,數(shù)字信號(hào)處理技術(shù)雖然具備較好理解、相對(duì)簡(jiǎn)單的優(yōu)勢(shì),但無法體現(xiàn)出動(dòng)態(tài)場(chǎng)景的感知真實(shí)性,無法產(chǎn)生準(zhǔn)確的度量結(jié)果,最終導(dǎo)致生成的波形與記錄的雙耳音頻相似度較差,具身感知大大削弱。本文中通過理解、研究一種端到端的神經(jīng)合成方法,可有效克服上述限制,合成精確的空間音頻。端到端的神經(jīng)合成方法能夠自然地捕捉聲波傳播的線性和非線性效應(yīng),并且采用完全卷積的技術(shù),在硬件上實(shí)現(xiàn)有效執(zhí)行。這一神經(jīng)合成方法優(yōu)勢(shì)主要體現(xiàn)在以下3點(diǎn):超越現(xiàn)有技術(shù)水平的雙聲道模型;通過分析原始損耗的缺點(diǎn)以減輕這些損耗所帶來的損失;在非消聲環(huán)境中捕獲真實(shí)的雙聲道數(shù)據(jù)集。
空間音頻合成系統(tǒng)的框架如圖2所示。一個(gè)神經(jīng)時(shí)間規(guī)整模塊首先將單通道輸入信號(hào)規(guī)整成雙通道信號(hào),時(shí)間規(guī)整補(bǔ)償了粗略的時(shí)間效應(yīng),以及聲源到聽者雙耳間的距離差造成的時(shí)間差效應(yīng)。給定每個(gè)時(shí)間步長(zhǎng)的聲源和聽者位置和方向,將單通道輸入信號(hào)轉(zhuǎn)換為雙耳信號(hào)。神經(jīng)時(shí)間規(guī)整模塊在尊重物理特性(如單調(diào)性和因果性)的基礎(chǔ)上,實(shí)現(xiàn)從源位置到聽者左耳和右耳的精確規(guī)整;時(shí)間卷積神經(jīng)網(wǎng)絡(luò)模塊模擬了細(xì)微的影響(如房間混響或與頭部和耳朵形狀相關(guān)的信號(hào)修改)對(duì)最終輸出信號(hào)造成的差異。圖2中的第2個(gè)方框代表一個(gè)N層的堆棧,每一層都是條件超卷積,然后是正弦激活,有研究證明這樣有利于實(shí)現(xiàn)更高頻率的建模[22]。按照WaveNet的設(shè)計(jì),我們使用尺寸為2的卷積核,每一層的膨脹系數(shù)為2來增加感受野。這種時(shí)間卷積網(wǎng)絡(luò)模擬了由房間混響、頭部和耳朵的形狀或頭部方向的變化引起的細(xì)微影響。
圖2 空間音頻合成系統(tǒng)框架圖
(1)
XR體驗(yàn)的音頻根據(jù)場(chǎng)景可分為動(dòng)態(tài)音頻和靜態(tài)音頻,動(dòng)態(tài)音頻是指音頻內(nèi)容不能提前制作,需要根據(jù)場(chǎng)景和環(huán)境實(shí)時(shí)渲染,例如直播、游戲等場(chǎng)景,一般使用游戲引擎制作。靜態(tài)音頻是可以提前制作的音頻,例如音樂、影片等,常用的格式是ADM-BW64或已經(jīng)渲染的雙耳音頻和揚(yáng)聲器音頻,一般使用數(shù)字音頻工作站(DAW)制作。其中ADM是三維空間音頻的元數(shù)據(jù)定義框架,參考BS.2076-2,使用BW64格式的wav文件存儲(chǔ)音頻數(shù)據(jù)和ADM。靜態(tài)音頻有時(shí)可作為動(dòng)態(tài)音頻的輸入以制作交互音頻。
圖3的制作流程包含以下功能:靜態(tài)音頻制作時(shí),需要具備生成Object軌跡、錄音、導(dǎo)入音頻、回放、導(dǎo)出的功能。動(dòng)態(tài)音頻制作時(shí),具備使用三維空間場(chǎng)景的能力,并且能夠進(jìn)行頭部追蹤、場(chǎng)景交互,同時(shí)具備靜態(tài)音頻的錄音,回放功能。交互音頻最終回放形式為雙耳回放或揚(yáng)聲器回放。渲染器具備解析渲染包含ADM元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù)音頻的能力。靜態(tài)音頻可作為動(dòng)態(tài)音頻的一部分輸入。
圖3 空間音頻渲染流程圖
基于具身引擎的聽覺數(shù)字孿生系統(tǒng)主要有以下2種制作方法:第1種方法是在引擎中使用空間化插件模擬聽眾的具身環(huán)境,通過混響插件和基于函數(shù)計(jì)算的音頻處理插件來處理音頻,第2種方法是使用外部DAW制作空間音頻并與模型中的虛擬擴(kuò)聲系統(tǒng)進(jìn)行路由。
第1種方法是在引擎中使用空間化插件、混響插件和基于函數(shù)計(jì)算的插件來處理音頻??臻g化插件使用HRTF以雙耳渲染直接處理聲音,以準(zhǔn)確模擬聲源相對(duì)于聽者的方向,用戶可以清晰感知虛擬聲源在三維空間中的絕對(duì)和相對(duì)位置(為達(dá)到聽者所聽內(nèi)容差異性最小化的目的,需采集并對(duì)比大量用戶的雙耳以及頭部相關(guān)物理數(shù)據(jù),計(jì)算得出符合多數(shù)人耳聽音條件的“頭部相關(guān)函數(shù)(HRTF)”,在聆聽房間中的各種濾波和反射聲整合而成,此處的聆聽房間聲場(chǎng)大致接近于由麥克風(fēng)陣列所錄制聲音合成的聲床),還需測(cè)算出聆聽房間的“雙耳房間傳遞函數(shù)(BRIR)”?;祉懖寮梢苑治鰣?chǎng)景中房間和對(duì)象的大小、形狀、布局和材質(zhì)屬性,使用這些信息通過模擬聲音的物理特性來自動(dòng)計(jì)算環(huán)境影響,使用混響插件時(shí)不必在整個(gè)場(chǎng)景中手動(dòng)放置效果過濾器,也不必在各處手動(dòng)調(diào)整過濾器,混響插件使用自動(dòng)實(shí)時(shí)或基于預(yù)計(jì)算的過程,在整個(gè)場(chǎng)景中計(jì)算環(huán)境音頻屬性(使用物理原理),混響插件還可以計(jì)算卷積混響,這涉及在整個(gè)場(chǎng)景中的幾個(gè)點(diǎn)計(jì)算脈沖響應(yīng),卷積混響會(huì)產(chǎn)生令人信服的環(huán)境,聽起來比參數(shù)混響更逼真?;诤瘮?shù)計(jì)算的插件將眾多混音與音頻流處理工作中常用的效果器,如壓縮器、限制器、EQ等,以及各種波形生成器,以引擎代表性的節(jié)點(diǎn)的形式,作為一個(gè)個(gè)單獨(dú)的函數(shù)存放在插件中。使用者可以用類似著色器的形式,創(chuàng)造一條可視化的音頻渲染管線。目前,在立體聲場(chǎng)方面,這種基于函數(shù)計(jì)算的插件提供了至多8個(gè)聲道的立體聲混音器,用于在X/Y錄音模式與M/S錄音模式間轉(zhuǎn)換的中-側(cè)聲道編解碼器,以及可以模擬雙耳時(shí)間差參數(shù),以實(shí)現(xiàn)HRTF定位的雙耳時(shí)間差的聲像擺位器。
第2種方法是外部DAW中制作空間環(huán)繞聲并將各個(gè)聲道與模型中虛擬擴(kuò)聲系統(tǒng)進(jìn)行路由。目前,主流DAW都已經(jīng)擁有原生的3D Panner,部分DAW擁有內(nèi)置的原生渲染器,除此之外,還可以使用我們自研發(fā)的渲染器結(jié)合開源程度較高的DAW制作。此方法采用多聲道虛擬音頻與引擎的交互,實(shí)現(xiàn)聲音與舞臺(tái)模型的結(jié)合?;趯?duì)象的環(huán)繞聲制作不再受限于嚴(yán)格的重放制式,雙耳渲染應(yīng)用場(chǎng)景大幅增加。由于各個(gè)引擎可兼容和編輯的音頻格式不同且有局限性,虛擬音頻母版文件不便用于聲音與模型的鏈接。在母版文件混音制作結(jié)束后,對(duì)照對(duì)象在空間中的位置信息和移動(dòng)軌跡,在響度模擬軟件中進(jìn)行虛擬擴(kuò)聲系統(tǒng)設(shè)計(jì)(虛擬擴(kuò)聲系統(tǒng)在引擎中的信號(hào)路由參照真實(shí)擴(kuò)聲系統(tǒng)的搭建),水平、環(huán)繞、天空音箱以及超低的分布應(yīng)保證各個(gè)音頻對(duì)象運(yùn)動(dòng)于可用的重放范圍內(nèi)?,F(xiàn)階段音樂響度標(biāo)準(zhǔn)、影視響度標(biāo)準(zhǔn)和擴(kuò)聲響度標(biāo)準(zhǔn)各不相同,應(yīng)在系統(tǒng)設(shè)計(jì)結(jié)束后嚴(yán)格對(duì)混音做出調(diào)整以達(dá)到最真實(shí)的現(xiàn)場(chǎng)聽音效果。不同于在引擎中直接播放模板文件,根據(jù)對(duì)象的運(yùn)動(dòng)軌跡設(shè)計(jì)重放系統(tǒng)并直接將單獨(dú)音頻對(duì)象添加到引擎的播放系統(tǒng)中,可以最大程度還原空間信息,最大程度減小雙耳重放造成的聲場(chǎng)變化。對(duì)引擎中的揚(yáng)聲器模型加以動(dòng)態(tài)效果,視覺上實(shí)現(xiàn)聲音可視化,能進(jìn)一步完善現(xiàn)場(chǎng)聽音環(huán)境的還原。
以7.1.4環(huán)繞聲系統(tǒng)設(shè)計(jì)為例,包括頂部左、右前置和后置揚(yáng)聲器4個(gè)、右后和左后揚(yáng)聲器2個(gè)、左右環(huán)繞聲場(chǎng)揚(yáng)聲器2個(gè)、左、中和右揚(yáng)聲器3個(gè)和超低音音箱1個(gè),如圖4所示。其中,頂部左、右前置和后置揚(yáng)聲器使用相同的全音域設(shè)計(jì),根據(jù)主聆聽座位進(jìn)行放置;右后揚(yáng)聲器和左后揚(yáng)聲器通過進(jìn)一步定位音效來增加聽感體驗(yàn)的強(qiáng)度,將它們布置在座位區(qū)的后面,與中心成135°~150°角;左環(huán)繞聲場(chǎng)揚(yáng)聲器和右環(huán)繞聲場(chǎng)揚(yáng)聲器,環(huán)繞聲揚(yáng)聲器營造逼真的空間感,提供環(huán)境音效,將這2個(gè)布置于座位位置略靠后的區(qū)域并形成一定的角度,最好剛剛高于耳高;左、中和右揚(yáng)聲器有助于音樂隨舞臺(tái)燈光的變化而變化;超低音音箱可發(fā)出最強(qiáng)的低音,從而為音樂增加力量。
圖4 揚(yáng)聲器擺放位置示意圖
1) 立體聲聲像平衡。利用“立體聲聲像擺位器”節(jié)點(diǎn),同時(shí)輸入音頻信號(hào)與聲像參數(shù)(以浮點(diǎn)數(shù)形式),即可分別輸出調(diào)整聲像后的不同聲道音頻,用于進(jìn)一步渲染或是直接輸出,并且可以更改聲像工作法則預(yù)設(shè),以在“自動(dòng)平衡功率”與“僅進(jìn)行線性疊加”2種模式間進(jìn)行自由切換,以匹配不同的聲場(chǎng)設(shè)計(jì)需要,如圖5所示。
圖5 立體聲聲像聲場(chǎng)設(shè)計(jì)
2) 音頻資產(chǎn)參數(shù)隨機(jī)變化。通過隨機(jī)生成節(jié)點(diǎn),可以獲得在某個(gè)范圍內(nèi)不斷變化的隨機(jī)數(shù)并接入聲波播放器節(jié)點(diǎn)作為參數(shù),以實(shí)現(xiàn)聲音資產(chǎn)的隨機(jī)變化,增強(qiáng)真實(shí)感,且同樣可將雙聲道音頻分別輸出以用于雙耳渲染。其中,音頻資產(chǎn)可以是特定的某個(gè)wav文件,或者由自行設(shè)置的變量輸入音頻流,而此變量既可以是wav資產(chǎn),也可以為一維音頻數(shù)組(圖6)。
圖6 音頻資產(chǎn)參數(shù)隨機(jī)變化
3) 多軌立體聲處理。用UE5中Metasound插件構(gòu)建一套最多可支持8個(gè)音軌輸入,可同時(shí)處理并輸出雙聲道音頻的實(shí)時(shí)渲染、混音工具,其中每個(gè)音軌均可獨(dú)立控制聲像、響度增益、生效概率(該聲軌在單個(gè)獨(dú)立事件中被觸發(fā)的概率),隨機(jī)聲像參數(shù)的變化范圍等(圖7)。
基于具身引擎所建構(gòu)的聽覺孿生系統(tǒng),完成了人(虛擬人)、空間、聽覺感知三者的具身關(guān)系,建構(gòu)了主-客之間聲音感知在空間位置中的包裹性,利用聲像擺位將聲音達(dá)到耳朵感知區(qū)域的那一刻,實(shí)現(xiàn)了具身性的包裹,主體被卷入“聲音場(chǎng)”中心。在這種具身化的“聲音場(chǎng)”中,聲音的強(qiáng)弱、高低觸動(dòng)著人的聽覺神經(jīng),并基于聽覺完成外部空間的建構(gòu)。例如,盲人對(duì)于現(xiàn)實(shí)世界的空間定位,就是來自于聲音場(chǎng)所帶來的具身感知,聲音會(huì)隨著盲人身體的運(yùn)動(dòng)變化完成衰減與增益,這種細(xì)微的變化為盲人的空間導(dǎo)航提供了保障。因此,基于具身引擎搭建的聽覺數(shù)字孿生系統(tǒng),可以有效適配每一個(gè)實(shí)戰(zhàn)環(huán)境,完成真正意義上的虛擬戰(zhàn)場(chǎng)仿真。
圖7 多軌立體聲處理過程
以無人機(jī)作戰(zhàn)為例,聲音作為一種和作戰(zhàn)活動(dòng)有著密切聯(lián)系的因素,無人機(jī)聽覺系統(tǒng)在這個(gè)過程中產(chǎn)生出的“具身性”十分明顯。這種關(guān)系從本質(zhì)上離不開身音主體在聽覺、空間二者之間的深層同構(gòu)關(guān)系。
聽覺裝置需要識(shí)別炮彈爆炸聲、車輛發(fā)動(dòng)機(jī)在不同轉(zhuǎn)速和負(fù)荷條件下發(fā)出的不同聲音,對(duì)發(fā)聲對(duì)象的類型、狀態(tài)等特征做出準(zhǔn)確判斷,并通過具身算法與環(huán)境進(jìn)行交互,快速做出躲避或攻擊等一系列決策。與傳統(tǒng)的無人機(jī)作戰(zhàn)相比,基于具身引擎的無人機(jī)能夠快速適應(yīng)不同作戰(zhàn)環(huán)境,展現(xiàn)出更高的作戰(zhàn)效率。
此外,在資源保障作戰(zhàn)等場(chǎng)景下,無人機(jī)的空中聲學(xué)系統(tǒng)需要在人類叫聲和環(huán)境噪音及其他非人類求救信號(hào)(如動(dòng)物的叫聲和風(fēng)聲等)之間進(jìn)行破譯,還可能需要識(shí)別求救人員試圖引起救援隊(duì)注意的踢腿、鼓掌或者其他響動(dòng),正確識(shí)別哪些聲音是人類發(fā)出的,從而定位求救人員產(chǎn)生特定聲音的準(zhǔn)確位置,提高救援效率。由于無人機(jī)的紅外探測(cè)器和雷達(dá)探測(cè)器的可探測(cè)距離易受某些因素限制,后續(xù)無人機(jī)在裝備聽覺孿生設(shè)備后,有望彌補(bǔ)現(xiàn)有探測(cè)傳感器的不足,在災(zāi)害救援時(shí)增加識(shí)別概率和加快識(shí)別速度,避免更大的損失。
在無人機(jī)自主導(dǎo)航情形下,傳統(tǒng)的無人機(jī)基于視覺或燈光系統(tǒng)提供指導(dǎo),當(dāng)視覺提供的信息不足時(shí)容易造成無人機(jī)自主導(dǎo)航系統(tǒng)失效。而基于具身感知的無人機(jī)引擎能夠有效適應(yīng)黑暗、雨雪等條件,從而保障無人機(jī)的安全性。
1) 作為軍事虛擬仿真的應(yīng)用場(chǎng)景創(chuàng)造身臨其境和交互式的擴(kuò)展現(xiàn)實(shí)體驗(yàn)需要在嚴(yán)格的實(shí)時(shí)限制內(nèi)魯棒地模擬出真實(shí)的聽覺孿生效果。
2) 為了滿足上述要求,實(shí)時(shí)系統(tǒng)遵循模塊化方法,本文中將問題分為空間音頻合成、聽覺孿生制作和具身交互3個(gè)部分,并通過HRTFs進(jìn)行數(shù)學(xué)公式化,從而形成一個(gè)通用框架。
3) 針對(duì)具身性聽覺孿生系統(tǒng)提出了在無人機(jī)作戰(zhàn)方面的應(yīng)用與展望,利用聽覺數(shù)字孿生實(shí)現(xiàn)更具沉浸感、真實(shí)感的擴(kuò)展現(xiàn)實(shí)(XR)體驗(yàn),可以提高作戰(zhàn)效率。