亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生理參數(shù)與角度的個性化HRTF 深度學習重建方法

        2022-06-15 02:33:10趙曼琳
        電聲技術(shù) 2022年4期
        關(guān)鍵詞:子網(wǎng)全局頭部

        趙曼琳,方 勇

        (上海大學 通信與信息工程學院,上海 200444)

        0 引言

        近年來,虛擬現(xiàn)實(Virtual Reality,VR)和增強現(xiàn)實(Augmented Reality,AR)技術(shù)發(fā)展迅速。虛擬立體聲作為虛擬現(xiàn)實的重要組成部分,已廣泛應(yīng)用于游戲、視頻會議以及助聽器等領(lǐng)域[1]??臻g聲音的質(zhì)量對于在虛擬環(huán)境中實現(xiàn)高保真沉浸式體驗尤為重要。

        目前,空間音頻技術(shù)已經(jīng)支持在多種設(shè)備上播放,其中頭部相關(guān)的傳輸功能對于耳機再現(xiàn)虛擬音頻非常重要。時域形式的頭部相關(guān)傳遞函數(shù)(Head Related Transfer Function,HRTF)或頭部相關(guān)脈沖響應(yīng)(Head Related Impulse Response,HRIR)描述了在自由場環(huán)境下從聲源到聽者耳膜的過程中頭部、軀干及耳廓的聲音過濾效果。HRTF 取決于聽者的形態(tài)特征。用戶擁有不同的生理參數(shù),他們的HRTF 也不同。在使用不匹配數(shù)據(jù)時,用戶容易出現(xiàn)頭中心效應(yīng)、前后位置混淆、上下混淆等問題[2]。

        為了獲得更符合聽覺感知的空間音頻,需要單獨設(shè)計每個聽者的HRTF。為此,研究人員提出了多種HRTF 個性化方法,包括測量方法[3]、數(shù)據(jù)庫匹配方法[4]、數(shù)值建模方法[5]以及人體測量參數(shù)回歸方法。其中,測量方法最為準確,但需要專門的設(shè)備,耗時很長。因此,人體參數(shù)回歸方法被廣泛研究,因為預(yù)測模型一旦確定就可以重復(fù)使用。

        本文提出了一個深度神經(jīng)網(wǎng)絡(luò)模型,根據(jù)人體測量學參數(shù)和角度信息重建個性化頭相關(guān)函數(shù)(HRTF)。所提出的方法由三個子網(wǎng)組成,包括將人體測量參數(shù)作為輸入特征的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN),將角度信息作為輸入的展開層(Flatten),最后將其合并送入深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)個性化HRTF 的預(yù)測,并在實驗結(jié)果處對所提出方法的整體性能進行了客觀評價。

        1 模型設(shè)計

        本文提出了一種使用人體測量參數(shù)和角度信息來估計個性化HRTF 的方法。模型的神經(jīng)網(wǎng)絡(luò)由三個子網(wǎng)絡(luò)組成。所提出的神經(jīng)網(wǎng)絡(luò)的第一個子網(wǎng)絡(luò)是DNN,使用人體測量參數(shù)(頭部、軀干、耳廓參數(shù)等)作為輸入特征來表示人體測量值和HRTFs 之間的關(guān)系,被稱為“子網(wǎng)A”。第二個子網(wǎng)絡(luò)用于將二維的方位角信息(仰角及方位角)一維化,被稱為“子網(wǎng)B”。使用另一個DNN 網(wǎng)絡(luò)將兩個子網(wǎng)組合在一起,以估計個性化HRTF,稱為“子網(wǎng)C”。模型框架如圖1 所示。

        圖1 模型框架

        2 數(shù)據(jù)庫介紹

        在設(shè)計和實現(xiàn)個性化HRTF 的過程中,使用了加州大學戴維斯分校圖像處理與集成計算中心(CIPIC)公開提供的HRTF 數(shù)據(jù)庫[6]。該數(shù)據(jù)庫包含45 名受試者在25 個不同方位角和50 個不同仰角、1 250 個空間方位角的頭部相關(guān)脈沖響應(yīng)(HRIR),采樣長度為200,采樣率為44.1 kHz??臻g采樣大致均勻分布在半徑為1 m 的球面上。水平方位角范圍為-80~+80,高度角范圍為-45~230.625。采樣點如圖2 所示,可以看出,采樣點分布在整個球面上。

        圖2 采樣點位置

        該數(shù)據(jù)庫還提供了每個受試者的人體測量參數(shù)和耳朵圖像,包括17 個頭部和軀干參數(shù)以及10個耳廓參數(shù)。具體測量參數(shù)如圖3 所示。

        圖3 人體測量參數(shù)

        由于不同人體測量參數(shù)的尺寸范圍不同,小尺寸測量參數(shù)對學習過程的影響可能會被忽略,因此首先使用文獻[7]提出的sigmoid 函數(shù)對輸入的27個生理參數(shù)進行歸一化處理,處理方式為:

        式中:xi是耳朵、頭部或軀干測量參數(shù)的第i個測量值,ui和σi分別是所有訓練對象的平均值和標準差。

        3 網(wǎng)絡(luò)架構(gòu)

        子網(wǎng)A 首先對27 個人體測量參數(shù)(左耳耳廓及頭部、軀干參數(shù))進行標準化,然后通過2 層32個節(jié)點的隱藏層提取特征,最后輸出32 個節(jié)點。子網(wǎng)B 是一個Flatten 層,用于將二維的角度數(shù)據(jù)展平,成為子網(wǎng)C 的一部分。子網(wǎng)C 同樣是一個DNN 網(wǎng)絡(luò),包括34 個節(jié)點的輸入層和2 層64 個節(jié)點的隱藏層,最后輸出200 個節(jié)點,對應(yīng)CIPIC 數(shù)據(jù)庫中HRTF 的長度。其中,為了避免梯度消失的問題,除輸出層外,每一層激活函數(shù)均使用線性校正單元(ReLU)。

        4 監(jiān)督學習

        良好權(quán)重的初始化可以降低成本并加快收斂速度,因此在訓練階段使用Xavier 技術(shù)將所有偏差初始化為零。算法的成本函數(shù)為參考HRTF 和估計HRTF 之間的均方誤差(Mean Square Error,MSE),同時采用梯度下降的反向傳播方法最小化成本函數(shù)來進一步更新權(quán)重。在這個過程中,采用梯度自適應(yīng)Adam 方法對算法進行進一步優(yōu)化,一階衰減率設(shè)為0.9,二階衰減率設(shè)為0.999,學習率設(shè)為0.001。同時使用Dropout 技術(shù)(保留概率設(shè)為0.9)進一步提高收斂速度,防止過擬合問題。

        5 實驗結(jié)果

        實驗結(jié)果部分,將基于客觀測試來評估所提出的個性化HRTF 估計方法的性能。同時將該方法的性能與其他幾種HRTF 估計方法進行比較。對比涉及的方法有:

        (1)平均HRTF 的方法,使用35 名受試者的HRTF 平均值;

        (2)DNN37[7]的方法,使用了左右耳廓及頭部軀干的37 個生理參數(shù);

        (3)本文提出的方法,稱為“Proposed HRTF”。

        5.1 評價指標

        為了進一步衡量所提出的個性化方法的估計性能,使用均方根誤差(Root Mean Square Error,RMSE)和光譜距離(Spectral Distance,SD)作為客觀評價指標。

        均方根誤差通常是用來評估兩者之間距離的指標,定義如下:

        式中:y(n)是數(shù)據(jù)庫測量給出的參考HRTF,是該方法估計HRTF,N=200,是HRTF 的總長度。

        光譜距離通常用于評估預(yù)測HRTF 的性能,定義如下:

        式中:H(d)(n)為參考HRTF 在方向d的幅度響應(yīng),為方法估計HRTF 在方向d的幅度響應(yīng),k是頻率倉的索引,K=129,是頻率倉的總數(shù)。

        計算SD 在多個方向上的平均值,即全局SD:

        式中:D=1 250,是方向的總數(shù)。

        5.2 性能評估

        為驗證所提出方法的有效性,圖4(a)、圖4(b)分別顯示了受試者subject009 在(θ,φ)=(-80°,-45°)和(-45°,0°)方向預(yù)測HRTF 與真實HRTF 的結(jié)果(HRIR 是HRTF 相對應(yīng)的時域表示)。可以看到最高點的幅值、包括整體曲線的走勢,所提出的方法的預(yù)測效果都較好。

        圖4 subject009 在不同方向下預(yù)測及真實HRTF 對比

        所提出的個性化方法通過一次訓練即可得到全部1 250 個方向下(25 個方位角和50 個仰角)的HRTF 預(yù)測結(jié)果,因此給出的客觀評價結(jié)果均為全局平均均方誤差和光譜距離。

        表1 給出了所提出方法在所有受試者的全局平均RMSE 和SD 值。此外,圖5、圖6 分別給出了所提出方法在不同個體受試者的全局RMSE 和全局SD 值。

        表1 所提出方法的全局RMSE 和SD 值(單位:dB)

        圖5 不同個體受試者的全局RMSE 值

        圖6 不同個體受試者的全局SD 值

        5.3 性能比較

        為了進一步評估所提出方法的性能,與其他三種HRTF 估計方法進行比較,分別計算了參考HRTF 與估計HRTF 之間的RMSE和SD。結(jié)果如表2 所示。

        表2 不同估計方法的平均RMSE 比較(單位:dB)

        從表2 和表3 可以看到,所提出的方法的RMSE值分別比平均HRTF 和DNN37 HRTF 低1.65 dB 和3.56 dB,方法的SD值比平均HRTF 低3.54 dB,比DNN37 HRTF 高0.38 dB。對于DNN37方法,它的每個模型都是針對一個方向建立的,因此,要獲得所有聲源位置的HRTFs,需要構(gòu)建1 250 個DNN 模型。因此,就需訓練的模型數(shù)量而言,所提出的方法需要更少的模型和更少的參數(shù)。

        表3 不同估計方法的平均SD 比較(單位:dB)

        6 結(jié)語

        本文提出了一個生成個性化HRTF 的深度神經(jīng)網(wǎng)絡(luò)模型,通過人體生理參數(shù)及角度信息重建全局的HRTFs。在算法中,通過加入角度信息作為輸入特征,僅需一次訓練就可獲得所有聲源位置的HRTFs,使得需訓練的模型數(shù)量大幅度下降。實驗部分對算法的性能進行了評估,給出了算法在不同方向時預(yù)測HRTF 和真實HRTF 的結(jié)果對比圖。實驗結(jié)果表明,該算法具有良好的性能,與其他幾種估計HRTF 方法相比,具有較好的定位性能。

        猜你喜歡
        子網(wǎng)全局頭部
        一種簡單子網(wǎng)劃分方法及教學案例*
        計算機時代(2023年1期)2023-01-30 04:08:22
        Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
        量子Navier-Stokes方程弱解的全局存在性
        頭部按摩治療老伴失憶
        火箭的頭部為什么是圓鈍形?
        軍事文摘(2020年22期)2021-01-04 02:16:38
        子網(wǎng)劃分問題研究及應(yīng)用
        落子山東,意在全局
        金橋(2018年4期)2018-09-26 02:24:54
        子網(wǎng)劃分的簡易方法
        自適應(yīng)統(tǒng)計迭代重建算法在頭部低劑量CT掃描中的應(yīng)用
        新思路:牽一發(fā)動全局
        又长又大又粗又硬3p免费视频| 中文字幕人妻精品一区| 综合国产婷婷精品久久99之一| 中文字幕乱码亚洲精品一区| 亚洲人成网站免费播放| 杨幂Av一区二区三区| 国产在线一区二区三区香蕉| 风流老太婆大bbwbbwhd视频| 免费人成无码大片在线观看 | 一区二区三区视频免费观看在线| 视频在线观看一区二区三区| 少妇无码av无码专区| 日本视频中文字幕一区在线| 色视频日本一区二区三区| 中文字幕一区二区三区视频| 亚洲性啪啪无码av天堂| 青草网在线观看| 免费av在线 国产精品| 婷婷色综合视频在线观看| 影视先锋av资源噜噜| 亚洲欧洲日产国码无码| 中文乱码字幕在线亚洲av| 蜜臀性色av免费| 亚洲在AV极品无码天堂手机版 | 中文亚洲av片不卡在线观看| 亚洲老妇色熟女老太| 亚洲欧洲日产国码久在线| 国产精品亚洲综合久久系列| 99精品久久精品一区二区| 可以免费观看的毛片| 人妻尤物娇呻雪白丰挺| 亚洲啪啪视频一区二区| 青青草原综合久久大伊人| 亚洲国产成人资源在线桃色| 久久亚洲乱码中文字幕熟女| 人人妻一区二区三区| 国产人在线成免费视频麻豆| 精品中文字幕久久久人妻| 女人18毛片a级毛片| 日韩精品一区二区三区视频| 亚洲国产av一区二区三|