亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于雙模態(tài)融合特征的模糊語音識別研究

        2022-01-25 10:25:48馮曉靜白靜薛珮蕓戎如意
        電子設(shè)計工程 2022年2期
        關(guān)鍵詞:識別率信噪比發(fā)音

        馮曉靜,白靜,薛珮蕓,戎如意

        (太原理工大學(xué)信息與計算機(jī)學(xué)院,山西晉中 030600)

        語音作為信息交互最直接、最便捷的載體,在人機(jī)交互中發(fā)揮著重大作用。語音識別作為一種人機(jī)交互的關(guān)鍵技術(shù),發(fā)展到如今已經(jīng)取得飛躍性的進(jìn)步。但是在某些特定詞匯的識別中,其性能就變得差強(qiáng)人意。如模糊語音,即那些具有相近發(fā)音機(jī)理,在聽覺上易混淆,容易被系統(tǒng)誤識的語音。這些語音的存在是影響語音識別的主要因素,是漢語普通話語音識別錯誤的主要來源。

        對于模糊語音的研究,單靠音頻信息一種模態(tài)是遠(yuǎn)遠(yuǎn)不夠的,而語音是一種多模態(tài)的通訊方式,包括視覺、聽覺、發(fā)音器官運(yùn)動等多種自然模態(tài)和大腦活動等非自然模態(tài)[1],可以選擇多種器官協(xié)同工作的“多模態(tài)”機(jī)理[2]來進(jìn)行研究。近年來,多模態(tài)融合的研究方式逐漸增多,例如黃立鶴[3]的《語料庫4.0:多模態(tài)語料庫建設(shè)及其應(yīng)用》、基于決策融合的雙模態(tài)語音情感識別[4]以及特征融合的雙模態(tài)[5]識別研究。

        基于此,文中從數(shù)據(jù)庫出發(fā),選擇了5 位男生和5位女生共計10 位被試者,利用電磁發(fā)音儀(Electromagnetic Articulograph,EMA)和筆記本電腦同步采集被試者說話時發(fā)音器官的運(yùn)動數(shù)據(jù)與音頻數(shù)據(jù),經(jīng)過濾波、篩選、加噪,建立雙模態(tài)模糊語音數(shù)據(jù)庫。然后從特征域出發(fā),選擇聲學(xué)特征與發(fā)音器官運(yùn)動特征。為了研究不同信噪比下模糊語音的魯棒性與抗噪性,設(shè)計了以支持向量機(jī)(SVM)為模型的語音識別實(shí)驗進(jìn)行分類,并且對單模態(tài)特征與雙模態(tài)融合特征進(jìn)行了對比研究。

        1 特征提取

        為了進(jìn)一步提高惡劣環(huán)境中語音識別的正確識別率,分別提取不同信噪比下模糊語音的聲學(xué)特征與運(yùn)動學(xué)特征[6],對不同的特征進(jìn)行特征層融合驗證,得到不同的雙模態(tài)融合特征組合。

        1.1 運(yùn)動學(xué)特征

        語音的產(chǎn)生過程是一個十分復(fù)雜的過程。由大腦、呼吸系統(tǒng)、聲帶以及舌部、唇部、齒等發(fā)音器官的相互配合最終形成人們所需要的語音。通過研究發(fā)音器官的生理特性,以鼻梁和雙耳為參考點(diǎn)減小頭部轉(zhuǎn)動帶來的誤差,采集舌、唇、頜部的運(yùn)動數(shù)據(jù),根據(jù)發(fā)音器官的軌跡數(shù)據(jù)計算唇、舌尖、舌中的位移、速度、發(fā)音運(yùn)動起始時間等作為發(fā)音動作特征[7](Articulatory Movement Features,AMF)。

        發(fā)音運(yùn)動特征的數(shù)據(jù)由EMA 采集,每個傳感器都是一個獨(dú)立的信息通道,并且所有傳感器都在同一個三維坐標(biāo)空間中,前后方向為X軸,左右方向為Y軸,垂直方向為Z軸。通過軟件Visartico 來觀察發(fā)音器官的運(yùn)動軌跡并提取運(yùn)動學(xué)特征。實(shí)驗結(jié)果表明,舌部和下頜的運(yùn)動軌跡幅度要大于唇部的運(yùn)動幅度,X軸和Y軸的運(yùn)動幅度也比Z軸的運(yùn)動幅度大,可以更加清晰地表征語音的信息,所以最后選擇舌部和下頜的Z軸和Y軸來提取發(fā)音運(yùn)動特征。音素/an/和/ang/的發(fā)音軌跡對比如圖1 所示,所選數(shù)據(jù)是舌尖和下頜在Y軸和Z軸方向的運(yùn)動軌跡,由圖中可以看出這兩個音素的發(fā)音軌跡有明顯的區(qū)別,相較于下頜,舌尖的運(yùn)動軌跡區(qū)別尤為明顯。

        圖1 /an/和/ang/的發(fā)音軌跡對比

        從運(yùn)動軌跡提取速度與位移特征,位移指相對于初始位置傳感器的移動距離;速度指發(fā)音器官在每一時刻的位移變化量,是位移對時間的一階導(dǎo)數(shù),計算公式如式(1)所示:

        式中,Sx表示X軸最大位移,x(t)表示t時刻傳感器的X軸坐標(biāo)值,x(0)表示初始時刻傳感器的X軸坐標(biāo)值,Z軸同理。

        如圖2所示,是/an/的發(fā)音器官舌尖和舌根的運(yùn)動軌跡與其對應(yīng)的語音波形圖??梢钥闯霭l(fā)音器官從開始發(fā)音到發(fā)音結(jié)束是一個完整的信號[8],并且運(yùn)動軌跡波形先于發(fā)音波形,因此選擇發(fā)音運(yùn)動的起始時間(Articulator Onset Time,AOT)作為另一種運(yùn)動特征。

        圖2 /an/的發(fā)音器官運(yùn)動軌跡及語音波形圖

        最終選擇舌尖、舌根以及下頜3 個傳感器上X軸與Z軸的AOT、速度和位移數(shù)理統(tǒng)計值的最大值、最小值、標(biāo)準(zhǔn)差作為最終的運(yùn)動學(xué)特征,共計42 維。

        1.2 聲學(xué)特征

        除了對運(yùn)動數(shù)據(jù)提取發(fā)音運(yùn)動學(xué)特征之外,還需要對音頻數(shù)據(jù)提取聲學(xué)特征,而文中所選的聲學(xué)特征包括韻律特征、伽瑪通濾波倒譜系數(shù)[9-10](GFCC)、梅爾濾波倒譜系數(shù)(MFCC)以及耳蝸濾波倒譜系數(shù)[11](CFCC)特征。

        韻律特征指的是語音中除音質(zhì)特征之外的高音、音長和音強(qiáng)方面的變化,是語音研究中的重要特征。文中選擇語速(一維)、平均過零率(一維)、振幅及振幅變化率的統(tǒng)計值(6 維)、基頻及基頻變換率的統(tǒng)計值(6 維)、短時能量及其變換率的統(tǒng)計值(6 維)中前3 個共振峰的統(tǒng)計值及一階差分(24 維),共計44 維的韻律特征。

        MFCC[12]是現(xiàn)如今語音識別領(lǐng)域使用最經(jīng)典的聲學(xué)特征之一,基于人耳聽覺特性,采用梅爾濾波器。在梅爾刻度下,人耳對聲音頻率的感知呈線性關(guān)系,具體如式(2)所示,其中f為語音頻率。

        文中選擇離散余弦變換后的前12 維特征進(jìn)行數(shù)理統(tǒng)計,選其最大值、最小值、平均值、中位數(shù)和標(biāo)準(zhǔn)差共計60 維。

        GFCC 與MFCC 的不同之處在于用伽瑪通濾波器代替了梅爾三角濾波器,在一定程度上減小了噪聲對特征提取的影響。每個濾波器的帶寬與人耳的臨界頻帶有關(guān),如式(3)所示:

        CFCC[13]是2011 年開始提出的一種使用聽覺變換提取的特征參數(shù)。將耳蝸濾波函數(shù)作為一種新的小波基函數(shù),運(yùn)用小波變換實(shí)現(xiàn)濾波過程,代替快速傅里葉變換模擬人耳聽覺機(jī)理。

        首先定義了一個耳蝸濾波函數(shù)ψ(t),并且滿足以下條件:

        假設(shè)f(t)為經(jīng)預(yù)處理后的語音信號,經(jīng)過聽覺變換后在某一頻帶范圍內(nèi)的輸出為:

        具體的耳蝸濾波函數(shù)如式(6)所示,u(t)為單位階躍函數(shù),b為可變實(shí)數(shù),為尺度變量,α和β是大于0 的實(shí)數(shù),取經(jīng)驗值3 和0.2。

        經(jīng)過聽覺變換的信號還要通過耳蝸內(nèi)的毛細(xì)胞去極化才能轉(zhuǎn)變?yōu)槿四X可分析的電信號。其中毛細(xì)胞函數(shù)用式(7)來模擬:

        然后對毛細(xì)胞函數(shù)的輸出結(jié)果進(jìn)行非線性變換,將能量值轉(zhuǎn)換為感知響度。傳統(tǒng)的CFCC 進(jìn)行立方根變換如式(8)所示:

        最后進(jìn)行離散余弦變換,減去貢獻(xiàn)量很小的特征向量,降低特征向量間的相關(guān)性,減小特征向量的冗余度,得到耳蝸濾波倒普系數(shù)CFCC1。

        根據(jù)MFCC 的提取過程,改進(jìn)非線性變換函數(shù),可以對毛細(xì)胞輸出結(jié)果進(jìn)行對數(shù)變換,如式(9)所示:

        語音信號的每一幀對于識別結(jié)果的貢獻(xiàn)是不同的,并且特征參數(shù)的階數(shù)越高越不易受噪聲影響,可以有很好的抗噪性與魯棒性。因此選擇半升正弦函數(shù)進(jìn)行倒譜提升,對特征參數(shù)進(jìn)行改進(jìn),降低易受噪聲干擾的低階向量。所選用的倒譜提升窗函數(shù)為式(10)所示,第一個1/2 的作用是保證倒譜分量的完整性,第二個1/2 是對低階分量進(jìn)行加權(quán)計算。

        最終經(jīng)過提升對數(shù)變換和半升正弦函數(shù)倒譜,改進(jìn)后得到新的特征CFCC2。計算公式如式(11)所示:

        1.3 特征層雙模態(tài)融合

        目前多種信息融合的方法主要有兩種,分別是特征層早融合和決策層晚融合[14]。特征層融合的優(yōu)勢是可以同時得到更多的模態(tài)信息,更好地捕捉各模態(tài)間的關(guān)聯(lián)。

        首先進(jìn)行運(yùn)動特征間各傳感器的特征融合,將各傳感器的特征向量首尾相連組成一個新的特征向量。

        然后進(jìn)行運(yùn)動學(xué)和聲學(xué)雙模態(tài)間的特征融合。假設(shè)x,y是兩個模態(tài)的特征向量,則復(fù)合向量z=x+iy(i 是虛數(shù)單位)為x,y的融合特征向量。如果維度不一致,則對低維補(bǔ)0。

        最后通過核主成分分析(KPCA)對融合特征降維。KPCA 是對主成分分析(PCA)的非線性擴(kuò)展,能夠挖掘到數(shù)據(jù)集中蘊(yùn)含的非線性信息,在保持原數(shù)據(jù)信息量的基礎(chǔ)上達(dá)到降維的目的。文中選擇高斯徑向基核函數(shù)(RBF)來完成降維工作,如式(12)所示:

        通過非線性函數(shù)映射到高維后對其進(jìn)行主成分分析,在高維空間進(jìn)行降維,通過KPCA 降維后的數(shù)據(jù)如式(13)所示:

        其中,Q是在高維降維后的降維矩陣。

        2 語音識別模型選擇

        支持向量機(jī)(Support Vector Machine,SVM)根據(jù)統(tǒng)計學(xué)知識和結(jié)構(gòu)風(fēng)險最小化來構(gòu)建分類器和回歸器,結(jié)合了感知機(jī)和logistic 分類回歸思想。對于線性不可分的樣本,通過核函數(shù)把原來的樣本空間映射到高維空間上來尋求最優(yōu)分類的超平面,即最大間隔分離超平面,從而將非線性分類問題轉(zhuǎn)換為線性分類問題。SVM 超平面分類示意圖如圖3 所示。

        圖3 SVM超平面分類示意圖

        文中選用的是RBF 核函數(shù),采用六折交叉驗證進(jìn)行分類實(shí)驗。利用平均分類精度(MCA)得出6 個識別結(jié)果,再取6 個結(jié)果的平均值為最終的評價指標(biāo)。假設(shè)有N個數(shù)據(jù),隨機(jī)分成6 份,每一份都循環(huán)作為測試集,其他5 份作為訓(xùn)練集。MCA的定義如式(14)所示:

        其中,Ni表示預(yù)測類別標(biāo)簽與真實(shí)類別標(biāo)簽相同的個數(shù)。

        3 實(shí)驗數(shù)據(jù)

        該文主要研究了雙模態(tài)模糊語音在不同信噪比下的抗噪性與魯棒性,所選實(shí)驗數(shù)據(jù)應(yīng)該包含多種模態(tài)信息。伴隨著發(fā)音器官數(shù)據(jù)采集技術(shù)的改進(jìn),從X-ray 到實(shí)時磁共振技術(shù)(rMRI)再到EMA 和電聲門圖儀(EGG),采集難度降低的同時對人體傷害也減小。目前,國外包含發(fā)音器官運(yùn)動的多模態(tài)語音數(shù)據(jù)庫有USC-TIMIT 語料庫[15],是MRI 唯一公開的大型MRI 數(shù)據(jù)集;EMA-IEEE 數(shù)據(jù)集[16]包括4 名男性與4 名女性以正常速度和快速讀720 條語音平衡的IEEE 句子。但是很難找到漢語普通話含發(fā)音器官運(yùn)動數(shù)據(jù)的多模態(tài)語音庫,所以文中選擇自建雙模態(tài)模糊語音數(shù)據(jù)庫。

        選擇10 位(5 男5 女)被試者,要求每個被試者的水平都在普通話二級乙等以上,并且都不曾進(jìn)行過口腔手術(shù)。對篩選后的文本信息進(jìn)行錄制,每個文本錄制3 次。具體篩選后的文本信息如表1 所示,選擇8 對容易混淆的韻母音素,與不同的聲母組成孤立詞。

        表1 韻母文本信息表

        通過筆記本電腦和EMA 儀器同步錄制音頻數(shù)據(jù)和發(fā)音器官的運(yùn)動數(shù)據(jù)。其中音頻數(shù)據(jù)的采樣率為16 kHz,EMA 的采樣率為400 Hz。一共設(shè)置11 個傳感器,其中8 個用于收集有效數(shù)據(jù),具體位置[17]是舌部設(shè)置3 個傳感器,最佳位置距舌尖19.93 mm,38.2 mm 和80.51 mm;唇部設(shè)置4 個傳感器;下齒槽設(shè)置一個傳感器,最佳位置距下唇的距離為26.37 mm 處。另外3 個是參考傳感器,目的是消除頭部運(yùn)動產(chǎn)生的誤差,分別位于鼻梁、左耳后和右耳后。

        用Praat 篩選聲學(xué)數(shù)據(jù),Visartico 軟件篩選運(yùn)動學(xué)數(shù)據(jù),經(jīng)過雙重篩選之后,對音頻數(shù)據(jù)加入不同信噪比的白噪聲和混合噪聲。篩選后數(shù)據(jù)庫中語音類型數(shù)量如表2所示,共計1 268條運(yùn)動數(shù)據(jù),6 300條含噪語音數(shù)據(jù)。

        表2 篩選后數(shù)據(jù)庫中語音類型數(shù)量

        4 實(shí)驗結(jié)果與分析

        為了驗證模糊語音的不同特征在兩種噪聲條件下的識別性能,選擇文中自建的雙模態(tài)模糊語音數(shù)據(jù)庫,分別提取單模態(tài)的特征以及雙模態(tài)的融合特征,經(jīng)過語音識別模型后得出確切的識別率。

        4.1 單模態(tài)特征識別結(jié)果

        對提取的5 種聲學(xué)特征進(jìn)行特征識別性能驗證,白噪聲條件下的識別率如表3 所示,混合噪聲條件下的識別率如表4 所示。

        表3 單模態(tài)白噪聲識別率

        表4 單模態(tài)混合噪聲識別率

        從表3 和表4 中可以發(fā)現(xiàn),韻律特征的識別率在5 種聲學(xué)特征中最低,CFCC 特征相較于GFCC 和MFCC 有較好的識別率,說明基于聽覺變換濾波的特征相比于梅爾變換濾波和伽瑪通濾波的特征能更好地表征語音的信息。而對數(shù)變換的CFCC2 的識別率又優(yōu)于傳統(tǒng)立方根變換的CFCC1 的識別率,說明對數(shù)變換相較于立方根變換能更好地模擬耳蝸聽覺變換。

        對比表3 和表4,在低信噪比時,白噪聲下的韻律特征和GFCC 特征的識別率要高于混合噪聲下同類噪聲的識別率,但是總體而言,混合噪聲下的識別率要高于白噪聲下的識別率。

        4.2 雙模態(tài)融合特征識別結(jié)果

        選擇單模態(tài)中識別率較高的3 種特征:MFCC、CFCC1 和CFCC2,與提取的運(yùn)動學(xué)特征進(jìn)行雙模態(tài)融合,然后分別得到融合1、融合2 和融合3 三種雙模態(tài)融合特征,將它們作為輸入樣本進(jìn)行分類識別,在白噪聲和混合噪聲兩種噪聲背景條件下,具體的分類識別結(jié)果如表5 和表6 所示。

        表5 雙模態(tài)白噪聲識別率

        表6 雙模態(tài)混合噪聲識別率

        對比表3和表5,表4和表6,可以發(fā)現(xiàn)3種融合特征都比原單模態(tài)的識別率有所提升,說明了雙模態(tài)融合特征相較于單模態(tài)特征能更完整的表征語音中蘊(yùn)含的信息,可以對單一信息進(jìn)行補(bǔ)充,混合噪聲下的識別率依舊高于白噪聲下的識別率。計算不同信噪比下識別率的提升幅度,得出如圖4、圖5 的結(jié)果。

        觀察圖4 和圖5,在同一信噪比下,不同特征的提升幅度不同,同一種特征在不同信噪比下的提升幅度也不同。但總體而言,低信噪比下的提升幅度要高于較高信噪比下的提升幅度。隨著信噪比的增加提升幅度越來越小,在白噪聲背景下,提升幅度最高為6.53%,混合噪聲下提升幅度最高為6.39%。

        圖4 白噪聲下識別率提升幅度

        圖5 混合噪聲下識別率提升幅度

        5 結(jié)論

        文中建立了含有發(fā)音器官運(yùn)動數(shù)據(jù)和語音音頻數(shù)據(jù)的雙模態(tài)模糊語音數(shù)據(jù)庫,其中包括音素和孤立詞兩種類型的文本,總計有1 268 條運(yùn)動數(shù)據(jù)和6 300 條語音數(shù)據(jù)。然后從特征域入手,對具有相似發(fā)音機(jī)理、在聽覺上容易混淆且易被智能機(jī)器誤識的模糊語音提取聲學(xué)特征以及運(yùn)動學(xué)特征,從特征層進(jìn)行雙模態(tài)融合,選擇核主成分分析算法通過降維減小冗余,然后根據(jù)支持向量機(jī)模型設(shè)計語音識別實(shí)驗,在白噪聲和混合噪聲的背景條件下對所提出的特征進(jìn)行測試,研究其抗噪性與抗魯棒性。實(shí)驗結(jié)果表明,在兩種噪聲條件下對數(shù)變換的耳蝸倒譜系數(shù)特征CFCC2 始終優(yōu)于GFCC、MFCC 和立方根變化的CFCC1,可達(dá)86.95%。雙模態(tài)融合特征可以從多個角度更加完整的表征語音信息,相比于單模態(tài)特征識別率有較大提升,在低信噪比情況下的提升幅度要明顯的大于較高信噪比下識別率的提升幅度,最高可提升6.53%。在今后的研究中,可以進(jìn)一步地擴(kuò)充雙模態(tài)模糊語音數(shù)據(jù)庫,為模糊語音識別研究提供可靠的語音數(shù)據(jù)平臺。

        猜你喜歡
        識別率信噪比發(fā)音
        Hickory, Dickory, Dock
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
        基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計算法
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
        低信噪比下LFMCW信號調(diào)頻參數(shù)估計
        電子測試(2018年11期)2018-06-26 05:56:02
        提升高速公路MTC二次抓拍車牌識別率方案研究
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
        Playing with h
        保持信噪比的相位分解反褶積方法研究
        中文字幕亚洲精品码专区| 国产农村熟妇videos| 国产农村乱子伦精品视频| 国产免费av片在线观看播放| 国产av熟女一区二区三区老牛| 国产高清自产拍av在线| 亚洲乱码中文字幕在线播放| 挺进邻居丰满少妇的身体| 国产精品国产三级国产av′| 国产精品原创av片国产日韩| 成人性生交大片免费看激情玛丽莎 | 在线观看二区视频网站二区| 国产免费又色又爽粗视频| 女局长白白嫩嫩大屁股| 国产人妻人伦精品1国产盗摄| 老熟女多次高潮露脸视频| 国产国语对白一区二区三区| 国产精品一区二区三区蜜臀| 国产成人高清在线观看视频| 玩50岁四川熟女大白屁股直播| 蜜桃av噜噜一区二区三区| 美女裸体无遮挡黄污网站| 极品少妇人妻一区二区三区| 亚洲欧美色一区二区三区| 品色堂永远的免费论坛| 亚洲不卡av不卡一区二区| 在线播放草猛免费视频| 久久精品无码一区二区三区免费| 在教室伦流澡到高潮hgl视频 | 国产精品成人观看视频国产奇米| 麻豆╳╳╳乱女另类| 精品欧美乱子伦一区二区三区| 麻豆AV无码久久精品蜜桃久久| 中文字幕人妻激情在线视频 | 一本大道无码av天堂| 久久亚洲AV无码一区二区综合| 神马不卡影院在线播放| 波多野结衣在线播放| 精品国产乱码久久久软件下载 | 在线亚洲AV成人无码一区小说| 91久久国产露脸国语对白|