亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種基于感知語(yǔ)音質(zhì)量評(píng)價(jià)的列車顯示器語(yǔ)音自動(dòng)檢測(cè)方法

2021-03-22 06:26:12張宏偉

控制與信息技術(shù) 2021年1期

高峰，張宏偉

（株洲中車時(shí)代電氣股份有限公司，湖南株洲 412001）

0 引言

隨著復(fù)興號(hào)電力動(dòng)車組的大量投入應(yīng)用，建立一套針對(duì)復(fù)興號(hào)電力動(dòng)車組列車顯示器（以下簡(jiǎn)稱“列車顯示器”）的全自動(dòng)測(cè)試系統(tǒng)非常重要。語(yǔ)音是列車顯示器與駕駛員間傳遞信息的重要載體之一，但駕駛員對(duì)語(yǔ)音的判斷會(huì)受駕駛室內(nèi)噪聲的影響；同時(shí)列車顯示器在裝配過(guò)程中受喇叭公差、殼體公差、電路板輸入信號(hào)誤差及背景噪聲等因素的影響，會(huì)導(dǎo)致部分喇叭播放的語(yǔ)音存在能被感知到的異音，因此有必要建立一套全自動(dòng)的語(yǔ)音質(zhì)量評(píng)價(jià)系統(tǒng)來(lái)評(píng)價(jià)顯示器語(yǔ)音的清晰度、可懂度和自然度[1]。

列車顯示器測(cè)試的一個(gè)重要評(píng)價(jià)指標(biāo)是語(yǔ)音質(zhì)量。探索和研究穩(wěn)定、可靠的語(yǔ)音體驗(yàn)質(zhì)量(quality of experience，QoE) 評(píng)價(jià)模型/方法成為國(guó)內(nèi)外眾多研究者共同的目標(biāo)。目前業(yè)界已有語(yǔ)音質(zhì)量評(píng)價(jià)技術(shù)包括信噪比（signal noise ratio, SNR）、線性預(yù)測(cè)編碼（LPC）、Bark譜失真和聽覺模型等，各評(píng)價(jià)方法均是基于一個(gè)參考音頻來(lái)模擬人耳的感知原理，對(duì)獲得的音頻進(jìn)行打分。列車顯示器的語(yǔ)音由芯片內(nèi)部的數(shù)字量轉(zhuǎn)換成模擬量并通過(guò)喇叭播放出來(lái)，類似于移動(dòng)電話接收信號(hào)并轉(zhuǎn)變成語(yǔ)音播放的過(guò)程?；谝陨峡紤]，一般采用國(guó)際電信聯(lián)盟標(biāo)準(zhǔn)ITU-T P.862.1《評(píng)估寬帶電話網(wǎng)絡(luò)和語(yǔ)音編碼器的端到端語(yǔ)音質(zhì)量的客觀方法》中推薦的感知語(yǔ)音質(zhì)量評(píng)價(jià)(perceptual evaluation of speech quality，PESQ)算法作為檢測(cè)列車顯示器語(yǔ)音的解決方案。PESQ算法得到的評(píng)分結(jié)果與平均意見得分(mean opinion score，MOS)相關(guān)，比如，MOS分?jǐn)?shù)為4.0 的語(yǔ)音與PESQ分?jǐn)?shù)為3.7～3.9的語(yǔ)音質(zhì)量相當(dāng)。PESQ是國(guó)際電信聯(lián)盟公布的語(yǔ)音質(zhì)量客觀評(píng)價(jià)算法中與主觀評(píng)價(jià)相關(guān)度最高的一種[2]。

語(yǔ)音質(zhì)量評(píng)價(jià)一般都是通過(guò)測(cè)試系統(tǒng)來(lái)比較原始語(yǔ)音和輸出語(yǔ)音之間的某種差異[3]。本文主要在列車顯示器自動(dòng)測(cè)試臺(tái)上，通過(guò)對(duì)喇叭的語(yǔ)音質(zhì)量作評(píng)價(jià)來(lái)有效檢驗(yàn)出有異音的產(chǎn)品，從而保證列車顯示器的語(yǔ)音質(zhì)量。首先通過(guò)人耳對(duì)聲音的感受和認(rèn)知過(guò)程的抽象得到一個(gè)數(shù)據(jù)模型，然后將同一設(shè)備錄制的標(biāo)準(zhǔn)語(yǔ)音音頻（無(wú)噪音的音頻）和被測(cè)列車顯示器輸出后錄制的語(yǔ)音音頻一起輸入該模型，比較兩者的差異并給出列車顯示器語(yǔ)音質(zhì)量的客觀評(píng)價(jià)。該軟件評(píng)價(jià)模型的優(yōu)點(diǎn)是能夠滿足大腦對(duì)語(yǔ)音質(zhì)量的感知和評(píng)價(jià)，不足之處是受人的主觀行為影響比較大，并且需要花費(fèi)較多的時(shí)間和精力去獲取樣本評(píng)價(jià)結(jié)果。為此，文獻(xiàn)[4]優(yōu)化了對(duì)語(yǔ)音質(zhì)量評(píng)價(jià)的客觀方法，研究了用軟件模型自動(dòng)判別語(yǔ)音質(zhì)量的可行性?？v觀語(yǔ)音評(píng)價(jià)方法，只要評(píng)價(jià)中考慮了人對(duì)語(yǔ)音信號(hào)的感知特性，就會(huì)大幅提高整個(gè)評(píng)價(jià)方法的性能[5]。本文借鑒了此優(yōu)化方法，在優(yōu)化后的條件下（測(cè)試環(huán)境為隔音環(huán)境）進(jìn)行列車顯示器的語(yǔ)音測(cè)試。

1 PESQ評(píng)價(jià)模型

PESQ的軟件評(píng)價(jià)模型如圖1所示。其將語(yǔ)音信號(hào)的特征（如頻率、響度等參數(shù)）與人耳對(duì)語(yǔ)音質(zhì)量的感知及大腦的主觀評(píng)價(jià)通過(guò)建立模擬人的聽覺模型與認(rèn)知模型相結(jié)合，實(shí)現(xiàn)了語(yǔ)音質(zhì)量評(píng)價(jià)。PESQ的電平對(duì)齊功能對(duì)列車顯示器語(yǔ)音播放延時(shí)、環(huán)境噪聲引起的差異等具有較好的抑制作用，從而保證了列車顯示器語(yǔ)音評(píng)價(jià)的一致性。

圖1 感知語(yǔ)音質(zhì)量評(píng)價(jià)模型框圖Fig.1 Block diagram of PESQ model

PESQ算法流程如圖2所示。

圖2 感知語(yǔ)音質(zhì)量算法流程Fig.2 Flow chart of PESQ algorithm

PESQ軟件評(píng)價(jià)模型在處理語(yǔ)音信號(hào)時(shí)，首先將標(biāo)準(zhǔn)語(yǔ)音X(t)和列車顯示器播放的語(yǔ)音Y(t)進(jìn)行電平對(duì)齊，得到標(biāo)準(zhǔn)音頻Xs(t)和被測(cè)語(yǔ)音信號(hào)Ys(t)，再將被測(cè)語(yǔ)音信號(hào)和列車顯示器發(fā)出的語(yǔ)音信號(hào)調(diào)整到指定的聲壓級(jí)（如79 dB）的標(biāo)準(zhǔn)聽覺電平；然后將對(duì)齊后的標(biāo)準(zhǔn)音頻Xs(t) 通過(guò)中間參考系統(tǒng)（intermediate reference system，IRS）濾波得到XIRSS(t)，將語(yǔ)音信號(hào)Ys(t)通過(guò)IRS濾波得到Y(jié)IRSS(t)并經(jīng)過(guò)延時(shí)補(bǔ)償?shù)玫結(jié)′IRSS(t)；對(duì)通過(guò)時(shí)間對(duì)準(zhǔn)后的兩路信號(hào)XIRSS(t)和Y′IRSS(t)，以指定間隔（如32 ms）為一幀，相鄰的前后幀之間有一定的重疊（如50%），依次進(jìn)行Hanning 窗和快速傅里葉變換，得到標(biāo)準(zhǔn)音頻的功率譜PXWIRSS(f)n和列車顯示器發(fā)出的語(yǔ)音信號(hào)的標(biāo)準(zhǔn)功率譜PYWIRSS(f)n；最后將兩者的功率譜通過(guò)頻率尺度映射分別獲得Bark譜（也稱音調(diào)功率譜）PPX′WIRSS(f)n和PPYWIRSS(f)n，再對(duì)兩路信號(hào)的Bark 譜進(jìn)行比較。被測(cè)語(yǔ)音是被評(píng)價(jià)的對(duì)象，因此線性頻率補(bǔ)償只針對(duì)參考語(yǔ)音，首先計(jì)算兩路語(yǔ)音信號(hào)Bark值，將被測(cè)語(yǔ)音與參考語(yǔ)音的平均Bark值進(jìn)行比較并補(bǔ)償參考語(yǔ)音（如最大不超過(guò)20 dB），得到標(biāo)準(zhǔn)音頻的響度值LX(f)n和列車顯示器語(yǔ)音的響度值LY(f)n。將LX(f)n和LY(f)n相減并對(duì)得到的差值做歸零處理，得到一個(gè)相對(duì)于標(biāo)準(zhǔn)音頻的擾動(dòng)值Da(f)n。分析擾動(dòng)曲面提取出兩個(gè)失真參數(shù)DAn和Dn，并在頻率和時(shí)間上累積起來(lái)，映射到PESQ評(píng)分預(yù)測(cè)值[6]。

2 列車顯示器自動(dòng)測(cè)試臺(tái)

2.1 列車顯示器自動(dòng)測(cè)試臺(tái)簡(jiǎn)介

列車顯示器自動(dòng)測(cè)試臺(tái)（圖3）主要由上位機(jī)、視覺模塊、顯示器、電源模塊、音頻分析模塊、通信測(cè)試模塊及機(jī)器人模塊等組成。

圖3 列車顯示器自動(dòng)測(cè)試臺(tái)三維圖Fig.3 3D image of the automatic test equipment for HMI

圖4示出列車顯示器自動(dòng)測(cè)試臺(tái)功能框圖。其中上位機(jī)集成各種采集卡，用于數(shù)據(jù)采集和控制；電源模塊用于給顯示器供電；4軸機(jī)器人模塊用于測(cè)試列車顯示器的按鍵和觸摸屏；視覺模塊用于視覺檢測(cè)及視覺校準(zhǔn)；通信模塊負(fù)責(zé)列車顯示器數(shù)據(jù)交換；機(jī)器視覺模塊負(fù)責(zé)列車顯示器屏幕顯示狀態(tài)的監(jiān)測(cè)；音頻分析模塊負(fù)責(zé)列車顯示器播放語(yǔ)音采集。本文主要介紹音頻分析模塊。

圖4 列車顯示器自動(dòng)測(cè)試臺(tái)功能框圖Fig.4 Block Diagram of the automatic test equipment for HMI

2.2 音頻分析模塊

列車顯示器自動(dòng)測(cè)試臺(tái)上的音頻分析模塊主要負(fù)責(zé)列車顯示器語(yǔ)音測(cè)試的啟動(dòng)控制、語(yǔ)音數(shù)據(jù)的采集及處理、PESQ評(píng)價(jià)模型計(jì)算、數(shù)據(jù)庫(kù)記錄及分析，其軟件功能如圖5所示。

圖5 音頻檢測(cè)模塊功能框圖Fig.5 Block diagram of sound test module

語(yǔ)音啟動(dòng)控制主要是由4軸機(jī)器人模塊通過(guò)機(jī)械臂上的按壓筆按壓列車顯示器的按鍵或觸摸屏，利用壓力傳感器監(jiān)測(cè)按鍵或觸摸屏的壓力并記錄相應(yīng)數(shù)據(jù)（圖6）。

圖6 壓力測(cè)試示意圖Fig.6 Schematic diagram of pressure test

語(yǔ)音數(shù)據(jù)采集部分主要根據(jù)列車顯示器揚(yáng)聲器位置，由音頻卡控制其中1個(gè)麥克風(fēng)來(lái)采集顯示器播放的語(yǔ)音信息，再將采集到的語(yǔ)音信號(hào)變成“wav”格式的文件并保存到本地。

語(yǔ)音數(shù)據(jù)處理部分主要是使錄制的語(yǔ)音文件滿足感知語(yǔ)音質(zhì)量的要求，將音頻文件對(duì)齊，以避免因?yàn)樯衔粰C(jī)、機(jī)器人模塊和列車顯示器之間的累積時(shí)間差產(chǎn)生的空白區(qū)域超過(guò)PESQ規(guī)定的0.2 s的要求[7]，并將語(yǔ)音文件前面過(guò)長(zhǎng)的空白部分刪除，以便生成符合要求的測(cè)試文件。包含空白區(qū)域的語(yǔ)音文件示例如圖7所示。

圖7 包含空白區(qū)域的語(yǔ)音文件Fig.7 Voice file with blank area

感知語(yǔ)音質(zhì)量軟件評(píng)價(jià)模型計(jì)算是將所測(cè)得的語(yǔ)音信號(hào)與標(biāo)準(zhǔn)語(yǔ)音信號(hào)進(jìn)行對(duì)比，采用PESQ系統(tǒng)得到各個(gè)音頻文件的評(píng)價(jià)分?jǐn)?shù)。根據(jù)標(biāo)準(zhǔn)ITU-T P.830《電話頻段和寬帶數(shù)字編解碼器的主觀性能評(píng)定》中的要求，收集列車顯示器發(fā)出的語(yǔ)音與預(yù)先設(shè)定的標(biāo)準(zhǔn)語(yǔ)音并在特定的環(huán)境下提供給測(cè)試者，通過(guò)收集測(cè)試者對(duì)上述語(yǔ)音的主觀感受，包括聲音的失真及聲音中所含噪聲等。MOS得分采用五分制，相關(guān)標(biāo)準(zhǔn)如表1所示。

表1 平均意見得分（MOS）標(biāo)準(zhǔn)Tab.1 Standard of MOS

數(shù)據(jù)庫(kù)記錄及分析模塊主要是將語(yǔ)音信號(hào)的結(jié)果記錄至數(shù)據(jù)庫(kù)并進(jìn)行定期的分析，生成對(duì)應(yīng)的分析報(bào)告。

3 語(yǔ)音客觀評(píng)價(jià)系統(tǒng)訓(xùn)練及應(yīng)用

基于LabVIEW開發(fā)的語(yǔ)音檢測(cè)系統(tǒng)在處理語(yǔ)音文件中將聲音數(shù)據(jù)存儲(chǔ)為波形數(shù)組。數(shù)組中的一個(gè)波形即代表一個(gè)特定的通道。波形Y方向的數(shù)值表示幅值（該幅值由脈沖代碼調(diào)制數(shù)據(jù)獲得），0表示靜音。例如14號(hào)樣本語(yǔ)音文件，其與標(biāo)準(zhǔn)文件的差異如圖8中紅色線框所示，此差異是由外界轉(zhuǎn)運(yùn)車?yán)嚷曀鸬?。因樣本中包含了喇叭聲，從而?dǎo)致樣本文件評(píng)價(jià)分?jǐn)?shù)較低，為3.076分，遠(yuǎn)遠(yuǎn)低于預(yù)期的3.3分。

采集到的語(yǔ)音樣本用于PESQ模型訓(xùn)練。通過(guò)少量的樣本數(shù)據(jù)對(duì)結(jié)構(gòu)成熟的模型進(jìn)行訓(xùn)練，訓(xùn)練過(guò)程中將列車顯示器測(cè)試臺(tái)的采樣參數(shù)固定，微調(diào)延時(shí)參數(shù)獲得最佳結(jié)果。調(diào)整過(guò)程中，采用無(wú)監(jiān)督的方式進(jìn)行訓(xùn)練，根據(jù)輸出的結(jié)果與估算結(jié)果的誤差反向自動(dòng)調(diào)節(jié)模型中的部分參數(shù)，從而得到一個(gè)最優(yōu)解。當(dāng)樣本量比較大時(shí)，迭代速度會(huì)很慢，但是獲得的結(jié)果更貼近實(shí)際情況。

圖8 14號(hào)樣本與標(biāo)準(zhǔn)語(yǔ)音文件波形對(duì)比Fig.8 Waveforms comparison between NO.14 file and standard file

為了將PESQ的閾值與人工主觀判斷的接受標(biāo)準(zhǔn)建立聯(lián)系，現(xiàn)場(chǎng)質(zhì)量檢查人員對(duì)所獲得的列車顯示器語(yǔ)音樣本進(jìn)行人工主觀評(píng)價(jià)（將不同PESQ得分的顯示器混在一起），獲取平均意見得分（MOS）。結(jié)果顯示，MOS得分在3.0分以上的，能感受到語(yǔ)音質(zhì)量有所下降但不影響通話，滿足使用要求[8]。經(jīng)過(guò)測(cè)試發(fā)現(xiàn)，可接受的PESQ得分閾值為3.3，即客戶認(rèn)為語(yǔ)音質(zhì)量評(píng)價(jià)高于3.3分的均可接受。表2示出樣本得分情況。

語(yǔ)音經(jīng)過(guò)PESQ軟件評(píng)價(jià)模型處理之后，上位機(jī)對(duì)被測(cè)列車顯示器語(yǔ)音進(jìn)行平均意見得分(MOS) 測(cè)試和PESQ 算法打分。查詢基于兩種算法獲取到的評(píng)分結(jié)果資料，發(fā)現(xiàn)客觀評(píng)價(jià)PESQ與主觀評(píng)價(jià)的MOS 得分的平均相關(guān)度可以達(dá)到0.935[9]，由此可見，PESQ評(píng)分方法是現(xiàn)有的基于聽覺模型評(píng)價(jià)算法中效果最好的。通過(guò)表2可以發(fā)現(xiàn)，PESQ評(píng)分與MOS評(píng)分二者趨勢(shì)保持一致，兩者偏離最大值為0.14（樣本14），能夠滿足我們對(duì)列車顯示語(yǔ)音自動(dòng)檢測(cè)質(zhì)量的要求。

表2 樣本的得分Tab.2 Scores of samples

PESQ評(píng)分完成后，列車顯示器測(cè)試臺(tái)通過(guò)機(jī)械手調(diào)整顯示器上的音量控制按鈕，通過(guò)上位機(jī)軟件結(jié)合視覺拍照分析，使得列車顯示器發(fā)出聲音的響度一致，列車顯示器在該檔位發(fā)出語(yǔ)音的音量大小既不能低于50 dB也不能高于60 dB，如此即可完成列車顯示器完整的語(yǔ)音質(zhì)量檢測(cè)。

4 結(jié)語(yǔ)

當(dāng)前基于PESQ的評(píng)價(jià)應(yīng)用越來(lái)越普遍，其將人的視覺、聽覺等感知進(jìn)行模型化、代碼化、工具化，通過(guò)共享數(shù)據(jù)以全新的應(yīng)用模式，構(gòu)建測(cè)試模型，解決了人工評(píng)估語(yǔ)音質(zhì)量帶來(lái)的效率低、成本高和一致性差的問(wèn)題，提升了測(cè)試效率，保證了測(cè)試質(zhì)量。本文提出一種采用PESQ算法對(duì)列車顯示器語(yǔ)音進(jìn)行自動(dòng)檢測(cè)和評(píng)價(jià)的方法。該語(yǔ)音質(zhì)量評(píng)估方法可靠性高，一致性好，但仍有以下問(wèn)題需要解決：

（1）標(biāo)準(zhǔn)語(yǔ)音獲取成本較高，語(yǔ)音內(nèi)容發(fā)生改變時(shí)，需要重新建立標(biāo)準(zhǔn)語(yǔ)音和PESQ閾值，適應(yīng)性較差；

（2）列車顯示器語(yǔ)音自動(dòng)檢測(cè)過(guò)程數(shù)據(jù)記錄不完整，只能獲取最終的結(jié)果，無(wú)法有效支撐PESQ模型中底層參數(shù)的優(yōu)化與調(diào)整，參數(shù)的訓(xùn)練和改進(jìn)都要在后續(xù)的工作中持續(xù)研究。