亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于生理參數(shù)與角度的個性化HRTF 深度學習重建方法

2022-06-15 02:33:10趙曼琳

電聲技術(shù) 2022年4期

趙曼琳，方勇

（上海大學通信與信息工程學院，上海 200444）

0 引言

近年來，虛擬現(xiàn)實（Virtual Reality，VR）和增強現(xiàn)實（Augmented Reality，AR）技術(shù)發(fā)展迅速。虛擬立體聲作為虛擬現(xiàn)實的重要組成部分，已廣泛應(yīng)用于游戲、視頻會議以及助聽器等領(lǐng)域[1]?？臻g聲音的質(zhì)量對于在虛擬環(huán)境中實現(xiàn)高保真沉浸式體驗尤為重要。

目前，空間音頻技術(shù)已經(jīng)支持在多種設(shè)備上播放，其中頭部相關(guān)的傳輸功能對于耳機再現(xiàn)虛擬音頻非常重要。時域形式的頭部相關(guān)傳遞函數(shù)（Head Related Transfer Function，HRTF）或頭部相關(guān)脈沖響應(yīng)（Head Related Impulse Response，HRIR）描述了在自由場環(huán)境下從聲源到聽者耳膜的過程中頭部、軀干及耳廓的聲音過濾效果。HRTF 取決于聽者的形態(tài)特征。用戶擁有不同的生理參數(shù)，他們的HRTF 也不同。在使用不匹配數(shù)據(jù)時，用戶容易出現(xiàn)頭中心效應(yīng)、前后位置混淆、上下混淆等問題[2]。

為了獲得更符合聽覺感知的空間音頻，需要單獨設(shè)計每個聽者的HRTF。為此，研究人員提出了多種HRTF 個性化方法，包括測量方法[3]、數(shù)據(jù)庫匹配方法[4]、數(shù)值建模方法[5]以及人體測量參數(shù)回歸方法。其中，測量方法最為準確，但需要專門的設(shè)備，耗時很長。因此，人體參數(shù)回歸方法被廣泛研究，因為預(yù)測模型一旦確定就可以重復(fù)使用。

本文提出了一個深度神經(jīng)網(wǎng)絡(luò)模型，根據(jù)人體測量學參數(shù)和角度信息重建個性化頭相關(guān)函數(shù)（HRTF）。所提出的方法由三個子網(wǎng)組成，包括將人體測量參數(shù)作為輸入特征的深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNN），將角度信息作為輸入的展開層（Flatten），最后將其合并送入深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)個性化HRTF 的預(yù)測，并在實驗結(jié)果處對所提出方法的整體性能進行了客觀評價。

1 模型設(shè)計

本文提出了一種使用人體測量參數(shù)和角度信息來估計個性化HRTF 的方法。模型的神經(jīng)網(wǎng)絡(luò)由三個子網(wǎng)絡(luò)組成。所提出的神經(jīng)網(wǎng)絡(luò)的第一個子網(wǎng)絡(luò)是DNN，使用人體測量參數(shù)（頭部、軀干、耳廓參數(shù)等）作為輸入特征來表示人體測量值和HRTFs 之間的關(guān)系，被稱為“子網(wǎng)A”。第二個子網(wǎng)絡(luò)用于將二維的方位角信息（仰角及方位角）一維化，被稱為“子網(wǎng)B”。使用另一個DNN 網(wǎng)絡(luò)將兩個子網(wǎng)組合在一起，以估計個性化HRTF，稱為“子網(wǎng)C”。模型框架如圖1 所示。

圖1 模型框架

2 數(shù)據(jù)庫介紹

在設(shè)計和實現(xiàn)個性化HRTF 的過程中，使用了加州大學戴維斯分校圖像處理與集成計算中心（CIPIC）公開提供的HRTF 數(shù)據(jù)庫[6]。該數(shù)據(jù)庫包含45 名受試者在25 個不同方位角和50 個不同仰角、1 250 個空間方位角的頭部相關(guān)脈沖響應(yīng)（HRIR），采樣長度為200，采樣率為44.1 kHz?？臻g采樣大致均勻分布在半徑為1 m 的球面上。水平方位角范圍為-80～+80，高度角范圍為-45～230.625。采樣點如圖2 所示，可以看出，采樣點分布在整個球面上。

圖2 采樣點位置

該數(shù)據(jù)庫還提供了每個受試者的人體測量參數(shù)和耳朵圖像，包括17 個頭部和軀干參數(shù)以及10個耳廓參數(shù)。具體測量參數(shù)如圖3 所示。

圖3 人體測量參數(shù)

由于不同人體測量參數(shù)的尺寸范圍不同，小尺寸測量參數(shù)對學習過程的影響可能會被忽略，因此首先使用文獻[7]提出的sigmoid 函數(shù)對輸入的27個生理參數(shù)進行歸一化處理，處理方式為：

式中：xi是耳朵、頭部或軀干測量參數(shù)的第i個測量值，ui和σi分別是所有訓練對象的平均值和標準差。

3 網(wǎng)絡(luò)架構(gòu)

子網(wǎng)A 首先對27 個人體測量參數(shù)（左耳耳廓及頭部、軀干參數(shù)）進行標準化，然后通過2 層32個節(jié)點的隱藏層提取特征，最后輸出32 個節(jié)點。子網(wǎng)B 是一個Flatten 層，用于將二維的角度數(shù)據(jù)展平，成為子網(wǎng)C 的一部分。子網(wǎng)C 同樣是一個DNN 網(wǎng)絡(luò)，包括34 個節(jié)點的輸入層和2 層64 個節(jié)點的隱藏層，最后輸出200 個節(jié)點，對應(yīng)CIPIC 數(shù)據(jù)庫中HRTF 的長度。其中，為了避免梯度消失的問題，除輸出層外，每一層激活函數(shù)均使用線性校正單元（ReLU）。

4 監(jiān)督學習

良好權(quán)重的初始化可以降低成本并加快收斂速度，因此在訓練階段使用Xavier 技術(shù)將所有偏差初始化為零。算法的成本函數(shù)為參考HRTF 和估計HRTF 之間的均方誤差（Mean Square Error，MSE），同時采用梯度下降的反向傳播方法最小化成本函數(shù)來進一步更新權(quán)重。在這個過程中，采用梯度自適應(yīng)Adam 方法對算法進行進一步優(yōu)化，一階衰減率設(shè)為0.9，二階衰減率設(shè)為0.999，學習率設(shè)為0.001。同時使用Dropout 技術(shù)（保留概率設(shè)為0.9）進一步提高收斂速度，防止過擬合問題。

5 實驗結(jié)果

實驗結(jié)果部分，將基于客觀測試來評估所提出的個性化HRTF 估計方法的性能。同時將該方法的性能與其他幾種HRTF 估計方法進行比較。對比涉及的方法有：

（1）平均HRTF 的方法，使用35 名受試者的HRTF 平均值；

（2）DNN37[7]的方法，使用了左右耳廓及頭部軀干的37 個生理參數(shù)；

（3）本文提出的方法，稱為“Proposed HRTF”。

5.1 評價指標

為了進一步衡量所提出的個性化方法的估計性能，使用均方根誤差（Root Mean Square Error，RMSE）和光譜距離（Spectral Distance，SD）作為客觀評價指標。

均方根誤差通常是用來評估兩者之間距離的指標，定義如下：

式中：y(n)是數(shù)據(jù)庫測量給出的參考HRTF，是該方法估計HRTF，N=200，是HRTF 的總長度。

光譜距離通常用于評估預(yù)測HRTF 的性能，定義如下：

式中：H(d)(n)為參考HRTF 在方向d的幅度響應(yīng)，為方法估計HRTF 在方向d的幅度響應(yīng)，k是頻率倉的索引，K=129，是頻率倉的總數(shù)。

計算SD 在多個方向上的平均值，即全局SD：

式中：D=1 250，是方向的總數(shù)。

5.2 性能評估

為驗證所提出方法的有效性，圖4（a）、圖4（b）分別顯示了受試者subject009 在(θ,φ)=(-80°,-45°)和(-45°,0°)方向預(yù)測HRTF 與真實HRTF 的結(jié)果（HRIR 是HRTF 相對應(yīng)的時域表示）。可以看到最高點的幅值、包括整體曲線的走勢，所提出的方法的預(yù)測效果都較好。

圖4 subject009 在不同方向下預(yù)測及真實HRTF 對比

所提出的個性化方法通過一次訓練即可得到全部1 250 個方向下（25 個方位角和50 個仰角）的HRTF 預(yù)測結(jié)果，因此給出的客觀評價結(jié)果均為全局平均均方誤差和光譜距離。

表1 給出了所提出方法在所有受試者的全局平均RMSE 和SD 值。此外，圖5、圖6 分別給出了所提出方法在不同個體受試者的全局RMSE 和全局SD 值。

表1 所提出方法的全局RMSE 和SD 值（單位：dB）

圖5 不同個體受試者的全局RMSE 值

圖6 不同個體受試者的全局SD 值

5.3 性能比較

為了進一步評估所提出方法的性能，與其他三種HRTF 估計方法進行比較，分別計算了參考HRTF 與估計HRTF 之間的RMSE和SD。結(jié)果如表2 所示。

表2 不同估計方法的平均RMSE 比較（單位：dB）

從表2 和表3 可以看到，所提出的方法的RMSE值分別比平均HRTF 和DNN37 HRTF 低1.65 dB 和3.56 dB，方法的SD值比平均HRTF 低3.54 dB，比DNN37 HRTF 高0.38 dB。對于DNN37方法，它的每個模型都是針對一個方向建立的，因此，要獲得所有聲源位置的HRTFs，需要構(gòu)建1 250 個DNN 模型。因此，就需訓練的模型數(shù)量而言，所提出的方法需要更少的模型和更少的參數(shù)。

表3 不同估計方法的平均SD 比較（單位：dB）

6 結(jié)語

本文提出了一個生成個性化HRTF 的深度神經(jīng)網(wǎng)絡(luò)模型，通過人體生理參數(shù)及角度信息重建全局的HRTFs。在算法中，通過加入角度信息作為輸入特征，僅需一次訓練就可獲得所有聲源位置的HRTFs，使得需訓練的模型數(shù)量大幅度下降。實驗部分對算法的性能進行了評估，給出了算法在不同方向時預(yù)測HRTF 和真實HRTF 的結(jié)果對比圖。實驗結(jié)果表明，該算法具有良好的性能，與其他幾種估計HRTF 方法相比，具有較好的定位性能。