亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

多媒體英語聽力自動評價(jià)系統(tǒng)設(shè)計(jì)

2022-11-07 10:49:18王青云

計(jì)算機(jī)應(yīng)用與軟件 2022年10期

王青云

(鄭州大學(xué)體育學(xué)院河南鄭州 450044)

0 引言

英語聽力作為學(xué)習(xí)英語語言必須掌握的技能，在提高英語學(xué)習(xí)者對于口語的發(fā)音與應(yīng)用能力方面具有十分重要的作用，被越來越多的英語語言學(xué)習(xí)者所重視[1]。傳統(tǒng)的英語教學(xué)模式是教師通過錄音設(shè)備來播放錄好的英語磁帶，這種方式隨著教學(xué)體制的改革，逐漸被多媒體教學(xué)模式取代。多媒體語言教學(xué)支持課堂講解和自主學(xué)習(xí)兩種學(xué)習(xí)模式，這種教學(xué)方式更利于學(xué)生與教師之間的教學(xué)互動，深得學(xué)生的好評，且教學(xué)效果得到了顯著提高[2]。目前，多媒體英語信號源發(fā)出的標(biāo)準(zhǔn)語音信號參數(shù)單一，音頻信號分析儀測量結(jié)果缺乏多樣性，采用常規(guī)評價(jià)方法難以全面評價(jià)英語聽力信號的準(zhǔn)確性，無法有效滿足多媒體英語聽力校準(zhǔn)的實(shí)際需求，在此背景下，研究更有效的評價(jià)方法具有非常重要的現(xiàn)實(shí)意義。

音頻質(zhì)量評價(jià)可以分為兩種，其中一種是文獻(xiàn)[3]給出的音頻質(zhì)量評價(jià)方法，其屬于主觀評價(jià)方法，通過對測聽者的平均意見分直接顯現(xiàn)人對聽力的感覺，但該方法可重復(fù)性較差；另一種是文獻(xiàn)[4]給出的音頻質(zhì)量評價(jià)方法，其屬于客觀評價(jià)方法，通過測量音頻信號特征參數(shù)來評價(jià)聽力質(zhì)量，使客觀評價(jià)結(jié)果可以準(zhǔn)確預(yù)測出音頻質(zhì)量的主觀評價(jià)結(jié)果，但該方法無法實(shí)現(xiàn)實(shí)時(shí)評測語音質(zhì)量。針對上述方法存在的問題，設(shè)計(jì)多媒體英語聽力自動評價(jià)系統(tǒng)，可應(yīng)用于多媒體英語聽力音頻質(zhì)量實(shí)際評價(jià)中。

1 多媒體英語聽力音頻質(zhì)量參數(shù)分析

1.1 音頻信號預(yù)處理

MFCC參數(shù)能夠反映人類聽覺系統(tǒng)對聽力的幅頻感知特性，在噪聲環(huán)境下具有魯棒性。多媒體英語聽力自動評價(jià)系統(tǒng)開發(fā)框架結(jié)構(gòu)如圖1所示。

在多媒體英語聽力自動評價(jià)系統(tǒng)中，選取三角形濾波器對輸入多媒體英語聽力信號實(shí)施濾波處理后，對濾波處理后信號分析音頻信號能量譜提取音頻信號MFCC特征參數(shù)，以MFCC特征參數(shù)為理論依據(jù)，根據(jù)MBSD測度值、噪聲幀與弱音幀占總音頻信號幀的比率及擬合獲得的估計(jì)結(jié)果，得到與MOS高度一致的音頻質(zhì)量評價(jià)值，通過平衡控制支持向量機(jī)模型的復(fù)雜度與逼近誤差[5]，以MOS值為評價(jià)測度分析與管理音頻質(zhì)量，選取少量準(zhǔn)確的聽力音頻數(shù)據(jù)采用支持向量機(jī)與擴(kuò)展因子訓(xùn)練，支持向量機(jī)模型輸出結(jié)果即可實(shí)現(xiàn)多媒體英語聽力質(zhì)量的判斷，實(shí)現(xiàn)多媒體英語聽力自動評價(jià)。

設(shè)定經(jīng)過預(yù)處理后的英語聽力音頻片段x(n)經(jīng)過加窗分幀和FFT變換得到音頻信號頻譜Xk(f)，采用Mel頻譜尺度更符合人類聽覺特性，以下給出Mel頻率與實(shí)際英語聽力音頻信號頻率的具體關(guān)系：

M(f)=2 595 lg(1+f/700)

(1)

式中：頻率f的單位是Hz。

采用三角形濾波器對音頻信號進(jìn)行濾波處理時(shí)，近鄰頻帶之間存在頻譜能量彼此泄露[6]，難以反映出共振特性。聽覺分析濾波器剛好可以彌補(bǔ)三角形濾波器這一不足，式(2)為聽覺分析濾波器在時(shí)域?qū)σ纛l信號進(jìn)行濾波處理的表達(dá)式：

gl(t)=tn-1e-2.038cos(2πflt+φl)u(t)

(2)

式中：n用于描述濾波器階數(shù)；bl表示第l個濾波器的等效矩陣帶寬；fl表示第l個濾波器的中心頻率；φl表示第l個濾波器的初始相位；u(t)表示濾波器階躍函數(shù)；L表示濾波器數(shù)量。

采用聽覺分析濾波器組在頻域?qū)τ⒄Z音頻信號能量譜進(jìn)行濾波處理，可獲得各個聽覺分析濾波器的輸出能量：

(3)

MFCC參數(shù)將對數(shù)運(yùn)算考慮為語音信號幅值轉(zhuǎn)換過程，但對數(shù)運(yùn)算從本質(zhì)上來看是屬于同態(tài)解卷積，其變換特性難以模擬英語聽力的強(qiáng)度-響度感知特性。非線性壓縮運(yùn)算剛好能彌補(bǔ)此不足，采用非線性壓縮運(yùn)算替換對數(shù)運(yùn)算[7]，使MFCC參數(shù)更符合人類聽覺生理模型。通過立方根函數(shù)來描述英語聽力的強(qiáng)度-響度感知變換，即：

Sk(l)=[Pk(l)]1/3

(4)

對各個濾波器的輸出能量求取對數(shù)，來模擬聽力強(qiáng)度-響度變換，對數(shù)能量通過DCT變換到音頻信號的倒譜域，獲得MFCC參數(shù)。

對于英語聽力音頻信號中的頻率常量采用RASTA濾波器進(jìn)行濾波處理，即：

(5)

通過RASTA濾波和DCT變換后獲得優(yōu)化后的MFCC參數(shù)：

(6)

式中：i=0,1,…,p，p表示MFCC參數(shù)的階數(shù)。

1.2 失真測度計(jì)算

失真測度能夠較好地模擬人耳對英語聽力原始語音和失真語音的對比過程。利用MBSD作為失真語音大小的度量，以計(jì)算獲得的各幀音頻信號的不同臨界帶的響度和噪聲掩蓋門限，結(jié)合MBSD測度的設(shè)定獲得MBSD值。計(jì)算出信號失真幀與弱音幀之間的比率。為了計(jì)算出該值，需要計(jì)算各幀輸入信號與編碼信號的能量，再根據(jù)設(shè)置的能量門限值先判定該幀信號是失真幀還是弱音幀，再判斷該幀信號為失真幀和弱音幀時(shí)占總音頻信號幀總數(shù)的比例[8]，由通過擬合獲得的音頻質(zhì)量評價(jià)式獲得與MOS值高度相關(guān)的英語聽力質(zhì)量評價(jià)值。

評價(jià)多媒體英語聽力音頻質(zhì)量與人體感受聲音響度有著十分密切的關(guān)系，設(shè)定MBSD時(shí)，應(yīng)當(dāng)以每幀原始音頻信號和編碼信號響度間差值的平均來考慮。在進(jìn)行響度計(jì)算時(shí)需要將音頻信號轉(zhuǎn)換到響度中，來模擬人類的聽覺感受特性[9]。

對于音頻信號臨界帶，原始音頻信號與編碼信號之間的能量差值與噪聲掩蔽門限值相比較小時(shí)，則在此臨界帶內(nèi)信號失真將不會被感知；相反假設(shè)原始音頻信號和編碼語音之間的能量差值與噪聲掩蔽門限值相比較大時(shí)，則此臨界帶內(nèi)信號失真將被感知。噪聲掩蔽門限經(jīng)過臨界帶濾波、擴(kuò)展函數(shù)作用與絕對門限聯(lián)合得到。通過臨界帶濾波處理后可獲得信號不同臨界帶的能量[10]；擴(kuò)展函數(shù)可用于描述不通過音頻信號臨界帶之間噪聲信號的相互作用。當(dāng)通過擴(kuò)展函數(shù)作用后獲得噪聲掩蔽門限值比其相應(yīng)的臨界帶絕對門限值小時(shí)，MBSD測度值利用式(7)計(jì)算：

(7)

如果某幀音頻信號在初始階段能量較小，后期能量值明顯增大，則該幀音頻信號為噪聲信號；如果某幀音頻信號在編碼階段能量損失較為明顯，則該幀信號為弱音幀。信號噪聲幀以及弱音幀占整個聽力音頻幀的多少反映了該段音頻信號的失真程度[11]。各幀音頻信號的能量如下：

(8)

(9)

式中：X(i,j)和Y(i,j)分別用于表示與輸入的英語聽力音頻信號第j幀相應(yīng)的短時(shí)功譜序列中第i個樣值點(diǎn)。

考慮到測試階段英語聽力的響度級在75 dB以上的占50%以上，門限值應(yīng)當(dāng)設(shè)定小于聽力音頻信號能量最大值的35 dB和45 dB，即：

(10)

(11)

當(dāng)?shù)趈幀音頻信號的能量小于xt2，而第j幀編碼信號能量大于yt1時(shí)，說明該幀音頻信號經(jīng)過編碼處理后能量被放大，則該幀為噪聲信號幀；當(dāng)?shù)趈幀音頻信號的能量大于10 dB，而第j幀編碼后的音頻信號小于yt2時(shí)，說明該幀音頻信號經(jīng)過編碼處理后能量損失較多，則該幀為弱音幀。信號噪聲幀與弱音幀占總聽力音頻信號幀總數(shù)的比率為Vnm。

在IBSD中，音頻信號質(zhì)量評估值應(yīng)當(dāng)與主觀質(zhì)量評價(jià)值存在正相關(guān)關(guān)系，英語聽力質(zhì)量越好[12]，相應(yīng)的評估值越高。為了方便起見，將主觀質(zhì)量評估值區(qū)間設(shè)定為[0,1]，為1時(shí)說明音頻信號沒有失真現(xiàn)象，為0時(shí)說明音頻信號質(zhì)量較差。

2 自動評價(jià)方法

2.1 支持向量機(jī)模型

支持向量機(jī)(SVM)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小原理及VC維理論所建立的，可有效解決高維數(shù)、小樣本以及容易陷入局部最小點(diǎn)等問題，是機(jī)器學(xué)習(xí)算法中解決非線性問題的重要方法[13]，支持向量機(jī)模型具有較好的學(xué)習(xí)性能已廣泛應(yīng)用于各種評價(jià)問題中。

用xk∈Rn表示輸入數(shù)據(jù)，用yk∈R表示輸出數(shù)據(jù)，可得待評價(jià)樣本集為B={(xk,yk)|k=1,2,…,N}。通過非線性特征映射將Rn映射至特征空間內(nèi)用G表示，利用函數(shù)f(x)=ωTφx+b逼近未知函數(shù)g(x)，函數(shù)f(x)屬于訓(xùn)練集B內(nèi)函數(shù)，ω與b分別表示特征空間G內(nèi)權(quán)向量以及偏置，且b∈R。

支持向量機(jī)利用極小化結(jié)構(gòu)風(fēng)險(xiǎn)獲取目標(biāo)函數(shù)如下：

(12)

(13)

選取拉格朗日乘子建立拉格朗日泛函，獲取二次規(guī)劃問題的對偶公式如下：

(14)

(15)

(16)

2.2 音頻質(zhì)量估計(jì)

在IBSD中，音頻質(zhì)量評估結(jié)果受到MBSD和Vnm的影響，MBSD值越大，說明原始音頻信號和重建后的音頻信號之間譜失真情況較為嚴(yán)重[14]，此時(shí)音頻質(zhì)量將隨之下降。而隨著Vnm數(shù)值的不斷增大，音頻信號中含有的噪聲幀和弱音幀也不斷增加，此時(shí)英語聽力質(zhì)量隨之下降。通過上述分析可知，IBSD和Vnm之間為反比關(guān)系，即受到有界的約束，可利用式(17)計(jì)算音頻信號的IBSD值：

(17)

2.3 多媒體英語聽力的自動評價(jià)系統(tǒng)

由于聽力信號受信號節(jié)點(diǎn)的中繼位置的擴(kuò)展因子影響，因此需結(jié)合該因子的分析對語音信號進(jìn)行訓(xùn)練，以實(shí)現(xiàn)多媒體英語聽力自動評價(jià)，其中聽力語音信號的中繼位置與擴(kuò)展因子關(guān)聯(lián)性關(guān)系如圖2所示。

由圖2可知，發(fā)送端的坐標(biāo)點(diǎn)為(0,0)，轉(zhuǎn)發(fā)節(jié)點(diǎn)的坐標(biāo)為(d,0)。將支持向量機(jī)中一組錯誤擴(kuò)展因子作為螢火蟲算法個體，采用螢火蟲算法優(yōu)化支持向量機(jī)模型參數(shù)擴(kuò)展因子，采用少數(shù)準(zhǔn)確的多媒體英語聽力音頻片段對SVM模型進(jìn)行訓(xùn)練，以實(shí)現(xiàn)多媒體英語聽力的自動評價(jià)。具體過程如下所述：

擴(kuò)展因子可以控制SVM模型復(fù)雜度與逼近誤差之間的平衡，將SVM中一組錯誤擴(kuò)展因子作為螢火蟲算法個體，對擴(kuò)展因子C進(jìn)行優(yōu)化，具體步驟如下：

(1) 初始化種群中熒光素?fù)]發(fā)函數(shù)ρ，增強(qiáng)因子γ，種群個體的感知范圍rs，鄰域變化率β，螢火蟲移動步長s。

(2) 確定SVM模型中擴(kuò)展因子的取值區(qū)間。

(3) 在擴(kuò)展因子C的取值區(qū)間內(nèi)，隨機(jī)選取一個值，將其作為種群個體當(dāng)前所在位置。采用英語聽力音頻數(shù)據(jù)，將音頻信號實(shí)際MBSD測度值的誤差作為種群適應(yīng)度函數(shù)，誤差較小，SVM模型性能越好，種群適應(yīng)度越大。

(4) 計(jì)算種群中每一個個體的熒光素濃度，其近鄰個體的熒光素濃度值確定個體的搜索方向[15]。

(5) 判斷是否達(dá)到終止條件，如果此時(shí)已達(dá)到中止條件，則將此時(shí)搜索得到的最優(yōu)解視為模型的參數(shù)，否則轉(zhuǎn)至步驟(4)。

假設(shè)yi、yj分別表示ti、tj時(shí)刻兩段英語聽力音頻片段數(shù)據(jù)，則這兩個階段聽力音頻數(shù)據(jù)間的分段函數(shù)為：

(18)

設(shè)定兩次測試間分段函數(shù)可以偏離的能量損失為h，則ti、tj時(shí)刻英語聽力音頻數(shù)據(jù)的上限函數(shù)為：

(19)

在線測量數(shù)據(jù)的下限函數(shù)為：

(20)

假設(shè)兩次離線測試間的多媒體英語聽力音頻數(shù)據(jù)若超過了上限或是下限，則認(rèn)為在線測量的音頻數(shù)據(jù)質(zhì)量差。采用少數(shù)準(zhǔn)確的英語聽力音頻數(shù)據(jù)對模型進(jìn)行訓(xùn)練，通過訓(xùn)練好的SVM模型對英語聽力音頻信號質(zhì)量進(jìn)行自動評價(jià)。

3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所提出的多媒體英語聽力自動評價(jià)系統(tǒng)設(shè)計(jì)的合理性，選取Intel Celeron Tulatin 1 GHz CPU和384 MB SD內(nèi)存的硬件環(huán)境和MATLAB 6.1的軟件環(huán)境進(jìn)行測試。表1列出了評價(jià)系統(tǒng)運(yùn)行環(huán)境及實(shí)驗(yàn)信息的基礎(chǔ)參數(shù)。

表1 實(shí)驗(yàn)參數(shù)表

本文所設(shè)計(jì)多媒體英語聽力自動評價(jià)系統(tǒng)界面圖如圖3所示。

可以看出，所設(shè)計(jì)多媒體英語聽力自動評價(jià)系統(tǒng)可有效評價(jià)英語聽力的韻律、情感及重音情況，有效驗(yàn)證了系統(tǒng)評價(jià)的有效性。

多媒體英語聽力樣本為語音數(shù)據(jù)庫中已知MOS值的聽力文件，對聽力文件進(jìn)行數(shù)據(jù)轉(zhuǎn)化，得到語音信號幅值情況，結(jié)果如圖4所示。

可以看出，系統(tǒng)可有效將聽力文件數(shù)據(jù)轉(zhuǎn)化至語音信號幅值情況，所獲取語音信號幅值有助于提升多媒體英語聽力精準(zhǔn)性。

選取專家評價(jià)法評價(jià)采用本文系統(tǒng)評價(jià)8段多媒體英語音頻片段韻律、情感及重音情況的評分準(zhǔn)確性，滿分為10分，專家評分結(jié)果如表2所示。

表2 專家評分結(jié)果

可以看出，本文系統(tǒng)對于多媒體英語聽力8個音頻片段評價(jià)韻律、情感以及重音情況準(zhǔn)確性的評分結(jié)果分別為9.2分、9.3分、9.2分，專家評分結(jié)果說明采用本文系統(tǒng)可準(zhǔn)確評價(jià)多媒體英語音頻片段，具有較高的實(shí)用性。

本文系統(tǒng)對隨機(jī)音頻片段運(yùn)行100 s內(nèi)的幅值信號統(tǒng)計(jì)結(jié)果如圖5所示。

可以看出，所設(shè)計(jì)系統(tǒng)可直觀體現(xiàn)不同音頻片段的信號情況，依據(jù)所展示幅值可準(zhǔn)確評估不同多媒體英語音頻片段的信號質(zhì)量，有效驗(yàn)證所設(shè)計(jì)系統(tǒng)評價(jià)多媒體英語聽力音頻信號質(zhì)量有效性。

統(tǒng)計(jì)采用所設(shè)計(jì)系統(tǒng)評價(jià)8段多媒體英語音頻片段的評價(jià)時(shí)間，并選取基于層次分析法的評價(jià)系統(tǒng)及基于神經(jīng)網(wǎng)絡(luò)的評價(jià)系統(tǒng)作為對比系統(tǒng)，對比結(jié)果如表3所示。

表3 不同系統(tǒng)評價(jià)時(shí)間對比

單位：ms

可以看出，采用本文系統(tǒng)評價(jià)8個多媒體英語聽力音頻片段平均評價(jià)時(shí)間僅為111 ms，對比結(jié)果說明所設(shè)計(jì)系統(tǒng)評價(jià)多媒體英語聽力具有較高的實(shí)時(shí)性。

4 結(jié) 語

本文提出一種多媒體英語聽力自動評價(jià)系統(tǒng)設(shè)計(jì)。該系統(tǒng)結(jié)合了人耳的聽覺生理模型、MBSD測度，并考慮了噪聲幀和弱音幀比率對多媒體英語聽力音頻質(zhì)量的影響，將其應(yīng)用于多媒體英語聽力的校準(zhǔn)。實(shí)驗(yàn)證明所設(shè)計(jì)系統(tǒng)可準(zhǔn)確評價(jià)多媒體英語聽力音頻文件，相比其他系統(tǒng)具有較高的實(shí)時(shí)性。