趙曼琳,方 勇
(上海大學 通信與信息工程學院,上海 200444)
近年來,虛擬現(xiàn)實(Virtual Reality,VR)和增強現(xiàn)實(Augmented Reality,AR)技術(shù)發(fā)展迅速。虛擬立體聲作為虛擬現(xiàn)實的重要組成部分,已廣泛應(yīng)用于游戲、視頻會議以及助聽器等領(lǐng)域[1]??臻g聲音的質(zhì)量對于在虛擬環(huán)境中實現(xiàn)高保真沉浸式體驗尤為重要。
目前,空間音頻技術(shù)已經(jīng)支持在多種設(shè)備上播放,其中頭部相關(guān)的傳輸功能對于耳機再現(xiàn)虛擬音頻非常重要。時域形式的頭部相關(guān)傳遞函數(shù)(Head Related Transfer Function,HRTF)或頭部相關(guān)脈沖響應(yīng)(Head Related Impulse Response,HRIR)描述了在自由場環(huán)境下從聲源到聽者耳膜的過程中頭部、軀干及耳廓的聲音過濾效果。HRTF 取決于聽者的形態(tài)特征。用戶擁有不同的生理參數(shù),他們的HRTF 也不同。在使用不匹配數(shù)據(jù)時,用戶容易出現(xiàn)頭中心效應(yīng)、前后位置混淆、上下混淆等問題[2]。
為了獲得更符合聽覺感知的空間音頻,需要單獨設(shè)計每個聽者的HRTF。為此,研究人員提出了多種HRTF 個性化方法,包括測量方法[3]、數(shù)據(jù)庫匹配方法[4]、數(shù)值建模方法[5]以及人體測量參數(shù)回歸方法。其中,測量方法最為準確,但需要專門的設(shè)備,耗時很長。因此,人體參數(shù)回歸方法被廣泛研究,因為預(yù)測模型一旦確定就可以重復(fù)使用。
本文提出了一個深度神經(jīng)網(wǎng)絡(luò)模型,根據(jù)人體測量學參數(shù)和角度信息重建個性化頭相關(guān)函數(shù)(HRTF)。所提出的方法由三個子網(wǎng)組成,包括將人體測量參數(shù)作為輸入特征的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),將角度信息作為輸入的展開層(Flatten),最后將其合并送入深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)個性化HRTF 的預(yù)測,并在實驗結(jié)果處對所提出方法的整體性能進行了客觀評價。
本文提出了一種使用人體測量參數(shù)和角度信息來估計個性化HRTF 的方法。模型的神經(jīng)網(wǎng)絡(luò)由三個子網(wǎng)絡(luò)組成。所提出的神經(jīng)網(wǎng)絡(luò)的第一個子網(wǎng)絡(luò)是DNN,使用人體測量參數(shù)(頭部、軀干、耳廓參數(shù)等)作為輸入特征來表示人體測量值和HRTFs 之間的關(guān)系,被稱為“子網(wǎng)A”。第二個子網(wǎng)絡(luò)用于將二維的方位角信息(仰角及方位角)一維化,被稱為“子網(wǎng)B”。使用另一個DNN 網(wǎng)絡(luò)將兩個子網(wǎng)組合在一起,以估計個性化HRTF,稱為“子網(wǎng)C”。模型框架如圖1 所示。
圖1 模型框架
在設(shè)計和實現(xiàn)個性化HRTF 的過程中,使用了加州大學戴維斯分校圖像處理與集成計算中心(CIPIC)公開提供的HRTF 數(shù)據(jù)庫[6]。該數(shù)據(jù)庫包含45 名受試者在25 個不同方位角和50 個不同仰角、1 250 個空間方位角的頭部相關(guān)脈沖響應(yīng)(HRIR),采樣長度為200,采樣率為44.1 kHz??臻g采樣大致均勻分布在半徑為1 m 的球面上。水平方位角范圍為-80~+80,高度角范圍為-45~230.625。采樣點如圖2 所示,可以看出,采樣點分布在整個球面上。
圖2 采樣點位置
該數(shù)據(jù)庫還提供了每個受試者的人體測量參數(shù)和耳朵圖像,包括17 個頭部和軀干參數(shù)以及10個耳廓參數(shù)。具體測量參數(shù)如圖3 所示。
圖3 人體測量參數(shù)
由于不同人體測量參數(shù)的尺寸范圍不同,小尺寸測量參數(shù)對學習過程的影響可能會被忽略,因此首先使用文獻[7]提出的sigmoid 函數(shù)對輸入的27個生理參數(shù)進行歸一化處理,處理方式為:
式中:xi是耳朵、頭部或軀干測量參數(shù)的第i個測量值,ui和σi分別是所有訓練對象的平均值和標準差。
子網(wǎng)A 首先對27 個人體測量參數(shù)(左耳耳廓及頭部、軀干參數(shù))進行標準化,然后通過2 層32個節(jié)點的隱藏層提取特征,最后輸出32 個節(jié)點。子網(wǎng)B 是一個Flatten 層,用于將二維的角度數(shù)據(jù)展平,成為子網(wǎng)C 的一部分。子網(wǎng)C 同樣是一個DNN 網(wǎng)絡(luò),包括34 個節(jié)點的輸入層和2 層64 個節(jié)點的隱藏層,最后輸出200 個節(jié)點,對應(yīng)CIPIC 數(shù)據(jù)庫中HRTF 的長度。其中,為了避免梯度消失的問題,除輸出層外,每一層激活函數(shù)均使用線性校正單元(ReLU)。
良好權(quán)重的初始化可以降低成本并加快收斂速度,因此在訓練階段使用Xavier 技術(shù)將所有偏差初始化為零。算法的成本函數(shù)為參考HRTF 和估計HRTF 之間的均方誤差(Mean Square Error,MSE),同時采用梯度下降的反向傳播方法最小化成本函數(shù)來進一步更新權(quán)重。在這個過程中,采用梯度自適應(yīng)Adam 方法對算法進行進一步優(yōu)化,一階衰減率設(shè)為0.9,二階衰減率設(shè)為0.999,學習率設(shè)為0.001。同時使用Dropout 技術(shù)(保留概率設(shè)為0.9)進一步提高收斂速度,防止過擬合問題。
實驗結(jié)果部分,將基于客觀測試來評估所提出的個性化HRTF 估計方法的性能。同時將該方法的性能與其他幾種HRTF 估計方法進行比較。對比涉及的方法有:
(1)平均HRTF 的方法,使用35 名受試者的HRTF 平均值;
(2)DNN37[7]的方法,使用了左右耳廓及頭部軀干的37 個生理參數(shù);
(3)本文提出的方法,稱為“Proposed HRTF”。
為了進一步衡量所提出的個性化方法的估計性能,使用均方根誤差(Root Mean Square Error,RMSE)和光譜距離(Spectral Distance,SD)作為客觀評價指標。
均方根誤差通常是用來評估兩者之間距離的指標,定義如下:
式中:y(n)是數(shù)據(jù)庫測量給出的參考HRTF,是該方法估計HRTF,N=200,是HRTF 的總長度。
光譜距離通常用于評估預(yù)測HRTF 的性能,定義如下:
式中:H(d)(n)為參考HRTF 在方向d的幅度響應(yīng),為方法估計HRTF 在方向d的幅度響應(yīng),k是頻率倉的索引,K=129,是頻率倉的總數(shù)。
計算SD 在多個方向上的平均值,即全局SD:
式中:D=1 250,是方向的總數(shù)。
為驗證所提出方法的有效性,圖4(a)、圖4(b)分別顯示了受試者subject009 在(θ,φ)=(-80°,-45°)和(-45°,0°)方向預(yù)測HRTF 與真實HRTF 的結(jié)果(HRIR 是HRTF 相對應(yīng)的時域表示)。可以看到最高點的幅值、包括整體曲線的走勢,所提出的方法的預(yù)測效果都較好。
圖4 subject009 在不同方向下預(yù)測及真實HRTF 對比
所提出的個性化方法通過一次訓練即可得到全部1 250 個方向下(25 個方位角和50 個仰角)的HRTF 預(yù)測結(jié)果,因此給出的客觀評價結(jié)果均為全局平均均方誤差和光譜距離。
表1 給出了所提出方法在所有受試者的全局平均RMSE 和SD 值。此外,圖5、圖6 分別給出了所提出方法在不同個體受試者的全局RMSE 和全局SD 值。
表1 所提出方法的全局RMSE 和SD 值(單位:dB)
圖5 不同個體受試者的全局RMSE 值
圖6 不同個體受試者的全局SD 值
為了進一步評估所提出方法的性能,與其他三種HRTF 估計方法進行比較,分別計算了參考HRTF 與估計HRTF 之間的RMSE和SD。結(jié)果如表2 所示。
表2 不同估計方法的平均RMSE 比較(單位:dB)
從表2 和表3 可以看到,所提出的方法的RMSE值分別比平均HRTF 和DNN37 HRTF 低1.65 dB 和3.56 dB,方法的SD值比平均HRTF 低3.54 dB,比DNN37 HRTF 高0.38 dB。對于DNN37方法,它的每個模型都是針對一個方向建立的,因此,要獲得所有聲源位置的HRTFs,需要構(gòu)建1 250 個DNN 模型。因此,就需訓練的模型數(shù)量而言,所提出的方法需要更少的模型和更少的參數(shù)。
表3 不同估計方法的平均SD 比較(單位:dB)
本文提出了一個生成個性化HRTF 的深度神經(jīng)網(wǎng)絡(luò)模型,通過人體生理參數(shù)及角度信息重建全局的HRTFs。在算法中,通過加入角度信息作為輸入特征,僅需一次訓練就可獲得所有聲源位置的HRTFs,使得需訓練的模型數(shù)量大幅度下降。實驗部分對算法的性能進行了評估,給出了算法在不同方向時預(yù)測HRTF 和真實HRTF 的結(jié)果對比圖。實驗結(jié)果表明,該算法具有良好的性能,與其他幾種估計HRTF 方法相比,具有較好的定位性能。