亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

汽車內(nèi)駕駛員語音增強(qiáng)評價研究

2022-01-21 15:20:18景亞鵬蘇海濤桂文華王明杰

聲學(xué)技術(shù) 2021年6期

景亞鵬，蘇海濤,2，王紹，桂文華，郭慶,2，王明杰

（1.桂林電子科技大學(xué)電子工程與自動化學(xué)院，廣西桂林 541004；2.廣西自動檢測技術(shù)與儀器重點(diǎn)實驗室，廣西桂林 541004）

0 引言

隨著汽車行業(yè)的快速發(fā)展，駕駛員對汽車駕駛體驗的要求越來越高。這不但對汽車駕駛中語音交互系統(tǒng)的要求越來越高，而且對車內(nèi)聲品質(zhì)的要求也越來越高。在理想的狀態(tài)下，車上的電子設(shè)備能夠利用語音交互系統(tǒng)準(zhǔn)確地接收、識別駕駛員語音命令，并根據(jù)其命令執(zhí)行相應(yīng)操作。但在實際的駕駛環(huán)境中，語音交互系統(tǒng)的語音識別率不可避免地會受到外部環(huán)境噪聲的影響，例如車內(nèi)發(fā)動機(jī)噪聲、路面噪聲、輪胎噪聲，或者通訊系統(tǒng)的內(nèi)部噪聲。對駕駛員語音進(jìn)行增強(qiáng)可以有效地提高駕駛員對車載語音控制系統(tǒng)的使用體驗，因此選擇合理的語音增強(qiáng)算法性能評價標(biāo)準(zhǔn)顯得尤為重要。對汽車內(nèi)駕駛員語音增強(qiáng)算法性能的評價主要分為主觀評價和客觀評價兩種方式[1]。主觀評價方式是利用人工試聽對語音質(zhì)量作出評價，其結(jié)果準(zhǔn)確，但是費(fèi)時費(fèi)力難以實現(xiàn)；客觀評價方式是利用客觀參數(shù)對語音性能進(jìn)行評價，可以量化地評價算法性能，不會受到主觀不穩(wěn)定因素的影響，所以在很多研究中使用客觀評價指標(biāo)進(jìn)行語音增強(qiáng)算法性能評價。文獻(xiàn)[2-3]利用信噪比（Signal to Noise Ratio,SNR）、信號干擾比（Signal to Interference Ratio,SIR）、信號失真比（Signal to distortion Ratio,SDR）作為語音增強(qiáng)算法性能的客觀評價指標(biāo)，這些評價參數(shù)是從信號時域分析的角度來評價算法的性能。文獻(xiàn)[4-6]利用了對數(shù)譜距離（Log Spectral distance,LSD）、對數(shù)似然比（Log Likelihood Ratio,LLR）、對數(shù)譜失真度（Log-Spectral distortion,LSD）去客觀地評價語音增強(qiáng)算法性能，這些參數(shù)是從信號的頻域角度來分析算法的性能。文獻(xiàn)[7-8]利用了語音質(zhì)量感知評估（Perceptual Evaluation of Speech Quality,PESQ[9]）對語音質(zhì)量進(jìn)行評價。PESQ是國際電信聯(lián)盟標(biāo)準(zhǔn)化部門（ITU-T）在P.862標(biāo)準(zhǔn)中提出，適用于通訊系統(tǒng)語音質(zhì)量的評估。可以看出，現(xiàn)有的語音增強(qiáng)客觀評價參數(shù)是從信號處理的角度去評價語音增強(qiáng)算法性能，不能有效地反映人對聲音感知的主觀性，與主觀評價結(jié)果有一定的誤差。因此本文從心理聲學(xué)參數(shù)的角度出發(fā)，研究了言語可懂度指數(shù)對汽車內(nèi)駕駛員語音增強(qiáng)算法性能評價的適用性。

采用均勻線性傳聲器陣列對駕駛員的語音信號進(jìn)行采集，利用延時求和波束形成[10]算法，對語音信號進(jìn)行處理實現(xiàn)駕駛員的語音增強(qiáng)，選擇信噪比和言語可懂度指數(shù)對語音增強(qiáng)算法性能進(jìn)行評價。通過兩個參數(shù)對不同速度和不同陣列組合方式下語音增強(qiáng)算法性能的評價，找到汽車內(nèi)駕駛員語音增強(qiáng)算法性能評價的最佳參數(shù)，為基于傳聲器陣列的汽車內(nèi)駕駛員語音增強(qiáng)算法性能評價提供有力的參考。

1 傳聲器陣列模型與延時求和波束形成

1.1 傳聲器陣列模型

圖1 傳聲器陣列模型Fig.1 Microphone array model

均勻線性陣列可以應(yīng)用于多種場合，其結(jié)構(gòu)簡單且規(guī)律性極強(qiáng)[14]。本文采用均勻線陣的方式來采集聲音，在近場模型中，聲音信號以球面波的形式到達(dá)傳聲器陣列，陣列中不同傳聲器的到達(dá)時間差不同。假設(shè)聲源信號到達(dá)第一個傳聲器的角度為θ，距離為d1，則圖1中以第一個傳聲器為參考，可以得到聲源和其他傳聲器的距離為

以第一個傳聲器為參考，可以得出均勻線性陣列的近場導(dǎo)向矢量a為[14]

1.2 延時求和波束形成器

傳聲器陣列波束形成分為固定波束形成和自適應(yīng)波束形成。固定波束形成就是指其波束形成器的權(quán)系數(shù)是一個固定不變的值[15]，又稱延時求和波束形成算法。其工作原理主要分為兩個部分：首先對采集的傳聲器陣列信號的到達(dá)時間差進(jìn)行估計，然后對各通道的時間差進(jìn)行補(bǔ)償并求和。盡可能獲得聲源方向的目標(biāo)信號，抑制其他方向的干擾信號，實現(xiàn)目標(biāo)信號的語音增強(qiáng)，固定波束形成器的結(jié)構(gòu)如圖2所示。

圖2 固定波束形成器示意圖Fig.2 Schematic diagram of fixed beamformer

假設(shè)固定波束形成器的每個通道只引入時延和衰減，則在k時刻第n個傳聲器的輸出為

本文研究語音增強(qiáng)算法性能的評價，不對語音增強(qiáng)算法進(jìn)行改進(jìn)，所以本文利用經(jīng)典的延時求和波束形成算法實現(xiàn)語音增強(qiáng)，利用語音清晰度和信噪比對延時求和波束形成算法的性能進(jìn)行評價。延時求和波束形成算法的計算過程分為兩步：

（2）對各個通道時延之后的信號進(jìn)行等權(quán)重相加求和，最終延時波束形成器的輸出為

2 言語可懂度指數(shù)

隨著心理聲學(xué)的發(fā)展，出現(xiàn)了許多客觀評價參量來反映語音清晰度。語音清晰度是指收聽人所聽到的聲音總量中目標(biāo)語音所占的比例，可以有效地反映語音的質(zhì)量。反映語音清晰度的客觀參數(shù)主要有語音清晰度（Articulation Index,AI）、言語可懂度指數(shù)（Speech Intelligibility Index,SII）、語音傳遞指數(shù)（Speech Transmission Index,STI）[17]等。SII的計算條件較容易滿足，所以得到了廣泛的應(yīng)用。

SII的計算需要大量的參數(shù)，例如：等效語音頻譜級、等效噪聲頻譜級、等效聽力閾值[18]等，在SII的計算標(biāo)準(zhǔn)中 ANSI -S3.5—1997[19]已經(jīng)給出了上述參數(shù)的數(shù)值。因為上述參數(shù)和人對聲音感知的心理和生理息息相關(guān)，所以這些參數(shù)是通過仿生測試人對聲音感知試驗得出的，這種測試方式保證了SII可以有效地反映人對聲音感知的主觀性。SII的計算過程為：

（1）在SII計算標(biāo)準(zhǔn)提供的4種計算方式中選擇1種。4種計算方式的原理基本相同，其區(qū)別在于頻帶的劃分方式不同，分別為臨界頻帶、三分之一倍頻程、相同貢獻(xiàn)頻帶、單倍頻帶。從結(jié)果上看4種計算方式的精度略有不同，本文選擇三分之一倍頻程計算方式。然后查表可以得到SII計算時所需參數(shù)對應(yīng)的數(shù)值，例如：標(biāo)準(zhǔn)語音頻譜級、參考內(nèi)部噪聲頻譜級，自由場耳膜傳輸函數(shù)等。

（2）確定等效語音頻譜級E′、等效噪聲頻譜級N′和聽力閾值頻譜級T′。

（3）等效掩蔽頻譜級Zi的求解。掩蔽包括帶內(nèi)掩蔽、帶間掩蔽（掩蔽的擴(kuò)展），以及一種語音對另一種語音的掩蔽（自語音掩蔽）。

③利用公式（8）計算每個頻帶的每倍頻程上掩蔽傳播的斜率Ci，計算公式為

其中：Fi為三分之一倍頻程頻帶的標(biāo)稱中心頻率，Bi由上面第②步可求得。

④對于最低的頻帶，等效掩蔽譜級Zi等于Bi。對于其他頻帶利用式（9）得到等效掩蔽譜級Zi：

式（9）包含兩部分，分別表示相同頻帶內(nèi)的帶內(nèi)掩蔽和較低的i?1個頻帶對第i個頻帶的帶間掩蔽。

Ni′為等效噪聲頻譜級，Bk由步驟②中描述的方法計算得到，hk是頻帶k內(nèi)的最高頻率。Fk是頻帶k的中心頻率。

（8）通過查表可以得到頻帶重要性函數(shù)Ii，各頻帶的頻帶重要性函數(shù)和頻帶可聽性函數(shù)相乘，然后再將各個頻帶所獲乘積求和得到言語可懂度指數(shù)的值。言語可懂度指數(shù)S計算公式為

從語音清晰度的計算過程可以看出，其計算過程符合人對聲音的感知過程，從而有效地保證了言語可懂度指數(shù)和人對聲音感知的一致性，為言語可懂度指數(shù)評價語音增強(qiáng)算法性能提供了保障。

3 實驗平臺與模型分析

3.1 實驗平臺

本文利用某品牌汽車進(jìn)行實驗，利用B&K公司的數(shù)據(jù)采集平臺采集語音信號。傳聲器采用的是4966-H-041，它是一款1/2 in（1 in=2.54 cm）高精度自由場傳聲器，帶1706型前置放大器，可測頻率范圍是6.3 Hz～20 kHz。數(shù)據(jù)采集卡利用兩塊LAN-XI 3052，它是一款三通道數(shù)據(jù)采集卡，輸入信號頻率范圍是0～102.4 kHz，支持多個模塊擴(kuò)展使用，能夠?qū)崿F(xiàn)多個通道的實時同步采集。最后將采集好的信號在PC端進(jìn)行處理。

3.2 實驗方法

在實驗過程中，駕駛員將汽車分別控制在指定的速度下勻速運(yùn)行，分別進(jìn)行兩組實驗。第一組實驗是由駕駛員說一段固定語音“現(xiàn)在是北京時間2019年9月21日，請導(dǎo)航至解放橋”，且語音重復(fù)說三遍；第二組實驗是駕駛員不發(fā)聲，只錄制汽車在指定速度下的車內(nèi)噪聲。

圖3 測試工況下汽車俯視示意圖Fig.3 Overlooking diagram of the vehicle under test conditions

圖4 現(xiàn)場測試圖Fig.4 Field test diagram

3.3 線性傳聲器陣列模型分析

本文取權(quán)矢量等于導(dǎo)向矢量，成功補(bǔ)償了不同傳聲器采集信號的相位差，進(jìn)而實現(xiàn)了各通道以語音信號為標(biāo)準(zhǔn)進(jìn)行對齊，最后再將對齊后的各通道信號進(jìn)行求和。最終駕駛員語音的增強(qiáng)結(jié)果為

4 駕駛員語音增強(qiáng)結(jié)果分析

本文在PC端利用Matlab軟件進(jìn)行數(shù)據(jù)處理實現(xiàn)駕駛員的語音增強(qiáng)。并使用信噪比、言語可懂度指數(shù)對語音增強(qiáng)算法性能進(jìn)行評價對比，得出更適合評價汽車內(nèi)語音增強(qiáng)算法的評價指標(biāo)。

4.1 特定速度下不同傳聲器所采集信號的評價

本節(jié)討論在特定速度下，陣列上不同傳聲器所采集信號的差異。在特定速度下各個傳聲器采集信號的信噪比和言語可懂度指數(shù)如圖5所示。

圖5 不同速度下各傳聲器采集信號評價參數(shù)曲線Fig.5 Evaluation parameter curves of signal acquired by each microphone at different driving speeds

從圖5中可以看出，通道1到通道5的信噪比逐漸降低，其原因是1號傳聲器到5號傳聲器與聲源的距離在逐漸增大，造成了通道1到通道5的信噪比逐漸降低。同時1號和2號傳聲器的言語可懂度指數(shù)無明顯變化，之后言語可懂度指數(shù)隨著傳聲器標(biāo)號的增加而逐漸降低。

4.2 不同陣列組合方式對語音增強(qiáng)效果的影響

本節(jié)討論2個傳聲器、3個傳聲器、4個傳聲器的不同組合方式對語音增強(qiáng)的影響。圖6所示為2個傳聲器下不同組合方式得到的語音增強(qiáng)結(jié)果的信噪比、言語可懂度指數(shù)曲線，其組合方式為（1&2）、（2&3）、（3&4）、（4&5）。

由圖6可知，當(dāng)兩個傳聲器之間的距離為固定值20 cm時，采用2個傳聲器進(jìn)行語音增強(qiáng)，組合（2&3）可以獲得最高的信噪比和言語可懂度指數(shù)。同時也發(fā)現(xiàn)，言語可懂度指數(shù)曲線和信噪比曲線變化趨勢相似，信噪比相對于言語可懂度指數(shù)變化幅度較大。

圖6 不同速度下2個傳聲器不同組合的語音增強(qiáng)結(jié)果評價參數(shù)曲線Fig.6 Evaluation parameter curves of speech enhancement results of different combinations of 2 microphones at different driving speeds

當(dāng)傳聲器組合為3個傳聲器時，因為陣列最多包含5個傳聲器，且相鄰兩個傳聲器的距離為固定值20 cm，所以對于3個傳聲器的組合方式只有3種形式（1&2&3）、（2&3&4）、（3&4&5）。信噪比和語音清晰度對三種組合方式語音增強(qiáng)結(jié)果評價如圖 7所示。

圖7 不同速度下3個傳聲器不同組合的語音增強(qiáng)結(jié)果評價參數(shù)曲線Fig.7 Evaluation parameter curves of speech enhancement results of different combinations of 3 microphones at different driving speeds

通過圖7對比發(fā)現(xiàn)，信噪比和言語可懂度指數(shù)的曲線趨勢大體相同，隨著組合方式的改變數(shù)值均有所下降，組合（1&2&3）可以取得最佳的信噪比和言語可懂度指數(shù)。

對于4個傳聲器的組合方式，由于陣列中最多為5個傳聲器，故只討論組合（1&2&3&4）和（2&3&4&5）的語音增強(qiáng)結(jié)果。對應(yīng)的評價參數(shù)曲線如圖8所示。

圖8 不同速度下4個傳聲器不同組合的語音增強(qiáng)結(jié)果評價參數(shù)曲線Fig.8 Evaluation parameter curves of speech enhancement results of different combinations of 4 microphones at different driving speeds

由圖8可知，4個傳聲器下最佳的語音增強(qiáng)組合方式為（1&2&3&4）。

經(jīng)過分析，對于每類特定傳聲器個數(shù)的陣列組合都選擇出了各類中相對最優(yōu)的組合方式，分別為：（2&3）、（1&2&3）、（1&2&3&4）、（1&2&3&4&5）。下面利用信噪比和語音清晰度對上面4種組合方式的語音增強(qiáng)結(jié)果進(jìn)行評價，其評價結(jié)果如圖9所示。

圖9 相對最優(yōu)組合的語音增強(qiáng)結(jié)果評價參數(shù)曲線Fig.9 Evaluation parameter curves of speech enhancement results of the relative optimal combination

從圖9中可以發(fā)現(xiàn)，信噪比隨著傳聲器個數(shù)的增加有大幅度的提高，但是言語可懂度指數(shù)不具備類似的規(guī)律，言語可懂度指數(shù)總體變化幅度較小，在組合（1&2&3）時取得最佳的語音清晰度。

5 結(jié) 論

通過某汽車內(nèi)不同陣列組合方式下駕駛員語音增強(qiáng)的試驗，分析了信噪比和語音清晰度對不同車速下、不同陣列組合方式的駕駛員語音增強(qiáng)算法的評價，得到了適用于駕駛員語音增強(qiáng)算法性能的評價指標(biāo)和最優(yōu)的傳聲器陣列組合，為汽車內(nèi)駕駛員語音增強(qiáng)的研究提供了參考，結(jié)論如下：

（1）在不同速度下，陣列中不同傳聲器所采集信號的信噪比和言語可懂度指數(shù)具有相同的變化規(guī)律，即傳聲器與聲源的距離越遠(yuǎn)，則所采集信號的信噪比和言語可懂度指數(shù)越低。

（2）當(dāng)陣列組合中傳聲器個數(shù)一定時，信噪比和言語可懂度指數(shù)具有相同的變化趨勢，但是信噪比的變化較為劇烈，言語可懂度指數(shù)的變化更為平緩，更接近人耳對聲音的感知效果。

（3）當(dāng)陣列組合中傳聲器個數(shù)改變時，增強(qiáng)后語音的信噪比隨著陣元個數(shù)的增加而增加，但增強(qiáng)后語音的清晰度隨陣元個數(shù)的改變無明顯變化，更接近人對聲音的感知效果。

（4）通過對不同速度、陣列組合方式的試驗，得出言語可懂度指數(shù)更適合作為基于傳聲器陣列的汽車內(nèi)駕駛員語音增強(qiáng)的評價指標(biāo)。