亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于自適應(yīng)心理聲學(xué)模型的智能語(yǔ)音識(shí)別系統(tǒng)*

        2017-11-14 08:07:11熊笑顏黃燦英南昌大學(xué)科學(xué)技術(shù)學(xué)院南昌330029
        關(guān)鍵詞:效應(yīng)

        熊笑顏, 陳 栩, 黃燦英, 陳 艷(南昌大學(xué) 科學(xué)技術(shù)學(xué)院, 南昌 330029)

        基于自適應(yīng)心理聲學(xué)模型的智能語(yǔ)音識(shí)別系統(tǒng)*

        熊笑顏, 陳 栩, 黃燦英, 陳 艷
        (南昌大學(xué) 科學(xué)技術(shù)學(xué)院, 南昌 330029)

        針對(duì)包含環(huán)境噪聲和信道失真等噪聲的語(yǔ)音處理問(wèn)題,提出了一種基于自適應(yīng)心理聲學(xué)模型的智能語(yǔ)音識(shí)別系統(tǒng),并建立了聽(tīng)覺(jué)模型.該模型將心理聲學(xué)和耳聲發(fā)射(OAE)合并到了自動(dòng)語(yǔ)音識(shí)別(ASR)系統(tǒng)中,利用AURORA2數(shù)據(jù)庫(kù)分別在清潔訓(xùn)練條件和多訓(xùn)練條件下進(jìn)行試驗(yàn).結(jié)果表明,所提出的特征提取方法可以顯著提高詞識(shí)別率,優(yōu)于梅爾頻率倒譜系數(shù)(MFCC)、前向掩蔽(FM)、側(cè)向抑制(LI)和倒譜平均值及方差歸一化(CMVN)算法,能夠有效地提高智能語(yǔ)音識(shí)別系統(tǒng)的性能.

        梅爾頻率倒譜系數(shù); 耳聲發(fā)射; 自適應(yīng); 心理聲學(xué)濾波器; 自動(dòng)語(yǔ)音識(shí)別; AURORA2數(shù)據(jù)庫(kù); 前向掩蔽; 側(cè)向抑制

        語(yǔ)音是人類(lèi)通信中最重要的形式,近年來(lái),自動(dòng)語(yǔ)音識(shí)別(ASR)已受到廣泛的關(guān)注.經(jīng)過(guò)多年發(fā)展,ASR已經(jīng)能夠有效地解碼語(yǔ)音,例如,在高于20 dB信噪比(SNR)的情況下,小詞匯語(yǔ)境中可以實(shí)現(xiàn)超過(guò)95%的詞精確度,大詞匯語(yǔ)境中達(dá)到超過(guò)90%的詞精確度.然而,隨著SNR下降(例如至0 dB),識(shí)別精度會(huì)降低到50%以下,這對(duì)于許多典型應(yīng)用是不可接受的[1].對(duì)于人類(lèi)而言,語(yǔ)音感知是一種感覺(jué)和感知過(guò)程[2-4],本文專(zhuān)注于該過(guò)程的心理聲學(xué)和耳聲發(fā)射(OAE)方面研究.心理聲學(xué)是對(duì)人類(lèi)語(yǔ)言感知的廣泛研究,包括聲壓級(jí)和響度、人對(duì)不同頻率響應(yīng)以及各種掩蔽效應(yīng),在一定程度上,梅爾頻率倒譜系數(shù)(MFCC)的普及是這一研究領(lǐng)域的成果[5-7];OAE是在耳蝸中產(chǎn)生的聲學(xué)信號(hào),其廣泛用于新生兒聽(tīng)力損失的檢測(cè)[8-10],但并未真正應(yīng)用于ASR.

        之前在心理聲學(xué)中的工作已經(jīng)系統(tǒng)地研究了語(yǔ)音信號(hào)如何由人類(lèi)聽(tīng)覺(jué)系統(tǒng)處理并轉(zhuǎn)換成神經(jīng)尖峰[11],并且已經(jīng)提出了幾種不同的數(shù)學(xué)模型用于有效實(shí)現(xiàn)掩蔽效應(yīng),通過(guò)并入時(shí)間積分對(duì)系統(tǒng)進(jìn)行了改進(jìn)[12].本文在此基礎(chǔ)上對(duì)聽(tīng)覺(jué)模型進(jìn)行了改進(jìn),將心理聲學(xué)和耳聲發(fā)射合并到了自動(dòng)語(yǔ)音識(shí)別系統(tǒng)中,顯著提高詞識(shí)別率.

        1 聽(tīng)覺(jué)模型

        本文研究了聽(tīng)覺(jué)神經(jīng)科學(xué)的兩個(gè)分區(qū),即心理聲學(xué)和OAE[13].心理聲學(xué)涵蓋諸多不同的主題,包括聲音定位和掩蔽效應(yīng).掩蔽效應(yīng)主要是由時(shí)間和頻率上的神經(jīng)元信號(hào)處理機(jī)制引起的[14-15],為了定量測(cè)量掩蔽效應(yīng),通常需要確定掩蔽閾值.掩蔽閾值是測(cè)試聲音的聲壓級(jí),當(dāng)存在掩蔽物的情況下幾乎不可聽(tīng)見(jiàn),信號(hào)可能被前面的聲音(前向掩蔽(FM))或后續(xù)聲音(后向掩蔽)所掩蔽.

        OAE是從內(nèi)耳產(chǎn)生的聲信號(hào),其可以使用靈敏的麥克風(fēng)記錄在耳道中,OAE是耳蝸中聲音的非線(xiàn)性和主動(dòng)預(yù)處理結(jié)果.經(jīng)過(guò)實(shí)驗(yàn)已經(jīng)證明,OAE是通過(guò)眾多不同的機(jī)械原因在內(nèi)耳產(chǎn)生的[16].

        2 算法描述

        本文所提出的聽(tīng)覺(jué)系統(tǒng)數(shù)學(xué)模型主要由兩部分組成:自適應(yīng)2D心理聲學(xué)濾波和OAE濾波.

        2.1 自適應(yīng)2D心理聲學(xué)濾波

        聽(tīng)覺(jué)系統(tǒng)對(duì)不同頻率的響應(yīng)不同,且掩蔽效應(yīng)同樣依賴(lài)于頻率,即掩蔽物的頻率影響掩蔽的總量.圖1給出了前向掩蔽的特性曲線(xiàn)[17],其描述了掩蔽總量Mtotal隨時(shí)間變化過(guò)程,其中,1和4 kHz參數(shù)分別用于低頻帶和高頻帶時(shí)間掩蔽.

        掩蔽效應(yīng)參數(shù)隨頻率改變而變化,理想算法則是對(duì)于不同頻率應(yīng)當(dāng)存在不同的2D心理聲學(xué)濾波器,但顯然在計(jì)算中無(wú)法實(shí)現(xiàn).在本文的實(shí)現(xiàn)方案中,將每個(gè)語(yǔ)音樣本劃分為兩個(gè)部分,即低頻帶和高頻帶,可表示為

        圖1 前向掩蔽的特性曲線(xiàn)Fig.1 Characteristic curve for FM

        (1)

        式中,Ys1和Ys2分別定義為

        (2)

        (3)

        式中,Es和Ts分別為語(yǔ)音信號(hào)的頻率和時(shí)間矩陣.

        每個(gè)頻帶由不同的2D心理聲學(xué)濾波器處理,掩蔽量為時(shí)間積分參數(shù)與Ys矩陣的乘積,最佳時(shí)間積分參數(shù)是根據(jù)經(jīng)驗(yàn)獲得的.低頻帶和高頻帶下語(yǔ)音的時(shí)間積分參數(shù)分別為4、3;低頻帶和高頻帶下非語(yǔ)音的時(shí)間積分參數(shù)分別為3、2.圖2給出了自適應(yīng)2D心理聲學(xué)濾波的流程框圖.語(yǔ)音在經(jīng)過(guò)離散傅里葉變換(DFT)之后,語(yǔ)音頻譜圖均等地分成高頻帶和低頻帶,語(yǔ)音活動(dòng)檢測(cè)器(VAD)用于區(qū)分語(yǔ)音/非語(yǔ)音幀.對(duì)于每個(gè)頻帶,使用兩個(gè)不同的時(shí)間積分參數(shù),因此,在實(shí)現(xiàn)方案中總共有4個(gè)不同的2D心理聲學(xué)濾波器.

        2.2 耳聲發(fā)射濾波

        OAE被認(rèn)為與耳蝸的放大功能相關(guān),且在內(nèi)耳中產(chǎn)生,OAE與諸多其他心理聲學(xué)效應(yīng)(例如掩蔽效應(yīng)、初步頻帶等)一同改變語(yǔ)音的頻譜,這有助于增強(qiáng)或抑制原始語(yǔ)音的某些區(qū)域.

        圖2 自適應(yīng)2D心理聲學(xué)濾波框圖Fig.2 Block diagram of adaptive 2Dpsychoacoustic filtering

        本文算法主要目的是將語(yǔ)音轉(zhuǎn)換為可由聽(tīng)覺(jué)系統(tǒng)神經(jīng)尖峰來(lái)識(shí)別的信號(hào),因此,新版本OAE可被建模為

        (4)

        式中:f和t分別為語(yǔ)音信號(hào)的頻率和時(shí)間;MOAE為OAE的總量,MOAE計(jì)算表達(dá)式為

        MOAE=μMtotal=

        (5)

        式中:μ為經(jīng)驗(yàn)系數(shù);-Tbm≤Δt≤Tfm,Tfm和Tbm分別為前向掩蔽和后向掩蔽的有效范圍;-F1≤Δf≤F2,F(xiàn)1和F2為同時(shí)掩蔽的有效范圍;α(Δf,Δt)為時(shí)間積分參數(shù).新語(yǔ)音的最終版本可通過(guò)心理聲學(xué)和OAE的聯(lián)合效應(yīng)來(lái)計(jì)算.對(duì)于聽(tīng)到的聲學(xué)信號(hào)Y(f,t),其首先通過(guò)OAE濾波,濾波后信號(hào)為

        YOAE(f,t)=Y(f,t)?Mask

        (6)

        式中,Mask表達(dá)式為

        (7)

        之后信號(hào)通過(guò)掩蔽效應(yīng)進(jìn)一步處理可得

        Y(f,t)?Mask?Mpsy

        (8)

        式中,Mpsy為心理聲學(xué)濾波器,其計(jì)算參見(jiàn)文獻(xiàn)[18].OAE和心理聲學(xué)濾波器在式(8)中依次實(shí)現(xiàn),這是因?yàn)镺AE主要由內(nèi)耳產(chǎn)生,而心理聲學(xué)(掩蔽)效應(yīng)主要由緊鄰的聽(tīng)覺(jué)神經(jīng)限制產(chǎn)生,即在混合語(yǔ)音通過(guò)整個(gè)聽(tīng)覺(jué)系統(tǒng)之前,首先將OAE添加到原始語(yǔ)音中.

        3 實(shí)驗(yàn)與分析

        分別在AURORA2數(shù)據(jù)庫(kù)上進(jìn)行清潔訓(xùn)練條件和多訓(xùn)練條件的識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)中將本文所提出的算法與MFCC、前向掩蔽(FM)、側(cè)向抑制(LI)和倒譜平均值(包含TW-2D和TFW-2D)及方差歸一化(CMVN)算法進(jìn)行比較.清潔訓(xùn)練條件集中沒(méi)有添加噪聲,其包括從55個(gè)男性和55個(gè)女性成年人記錄的8 440個(gè)語(yǔ)音;在多訓(xùn)練條件集中,記錄語(yǔ)音中添加了數(shù)據(jù)庫(kù)中包含的4種白噪聲.

        在SNR等級(jí)分別為20、15、10、5、0和-5 dB條件下添加8種類(lèi)型的噪聲(地鐵、人群、汽車(chē)、展覽會(huì)、餐廳、街道、飛機(jī)場(chǎng)和火車(chē))進(jìn)行識(shí)別率實(shí)驗(yàn).表1、2為本文所提算法對(duì)兩種不同訓(xùn)練條件語(yǔ)音的識(shí)別實(shí)驗(yàn)結(jié)果;表3、4為不同算法對(duì)兩種不同訓(xùn)練條件語(yǔ)音在SNR等級(jí)為-5 dB及平均值(信噪比為0~20 dB之間取得)條件下的相對(duì)提高率對(duì)比,相對(duì)提高率被定義為

        (9)

        式中:rp為所提出算法的識(shí)別率;rt為比較算法的識(shí)別率.

        在清潔訓(xùn)練條件下,所提出的算法明顯優(yōu)于其他方法,其對(duì)比圖如圖3a所示.與MFCC、FM、LI和CMVN相比,本文所提算法的平均識(shí)別率相對(duì)提高了19.62%、10.27%、15.29%和9.64%;在噪聲等級(jí)為-5 dB時(shí),相對(duì)提高率分別為90.03%、16.34%、45.17%和78.27%.TW-2D和TFW-2D心理聲學(xué)濾波器參見(jiàn)文獻(xiàn)[2].與TW-2D和TFW-2D算法相比,本文所提出算法的平均識(shí)別率相對(duì)提高了6.12%和1.04%;在噪聲等級(jí)為-5 dB時(shí),相對(duì)提高率分別為71.84%和1.68%.

        圖3b為多訓(xùn)練條件下,所提出算法相對(duì)于其他算法的比較結(jié)果.與MFCC、FM、LI和CMVN相比,本文所提算法的平均識(shí)別率相對(duì)提高了5.22%、5.67%、4.73%和0.76%;在噪聲等級(jí)為-5 dB時(shí),相對(duì)提高率分別為71.93%、81.19%、73.49%和8.18%.與TW-2D和TFW-2D算法相比,本文所提算法的平均識(shí)別率相對(duì)提高了1.08%和0.69%;在噪聲等級(jí)為-5 dB時(shí),相對(duì)提高率分別為19.60%和5.18%.

        4 結(jié) 論

        本文提出了基于MFCC的混合特征提取算法,該種方法設(shè)法反映了人類(lèi)聽(tīng)覺(jué)系統(tǒng)的不對(duì)稱(chēng)性質(zhì).所提出算法的關(guān)鍵特征是結(jié)合了自適應(yīng)方案,其更好地反映掩蔽效應(yīng)的頻率相關(guān)屬性.語(yǔ)音頻譜被分成多個(gè)頻帶,不同的心理聲學(xué)濾波器被設(shè)計(jì)成更適合特定頻帶.此外,所提出的方法無(wú)需任何額外的訓(xùn)練過(guò)程,使得計(jì)算負(fù)擔(dān)較低.由于所提算法的簡(jiǎn)單性,故其可輕易地與其他算法進(jìn)行組合.

        表1 清潔訓(xùn)練條件下所提出算法的識(shí)別結(jié)果Tab.1 Recognition results of proposed algorithm under clean training condition %

        表2 多訓(xùn)練條件下所提出算法的識(shí)別結(jié)果Tab.2 Recognition results of proposed algorithm under multiple training condition %

        表3 清潔訓(xùn)練條件下的相對(duì)提高Tab.3 Relative improvement underclean training condition %

        表4 多訓(xùn)練條件下的相對(duì)提高Tab.4 Relative improvement undermultiple training condition %

        圖3 清潔和多訓(xùn)練條件下的對(duì)比結(jié)果Fig.3 Test results under clean andmultiple training conditions

        [1] Heimrath K,Breitling C,Krauel K,et al.Modulation of pre-attentive spectro-temporal feature processing in the human auditory system by HD-tDCS [J].European Journal of Neuroscience,2015,41(12):1580-1586.

        [2] Dai P,Soon I Y.A temporal frequency warped (TFW) 2D psychoacoustic filter for robust speech recognition system [J].Speech Communication,2012,54(3):402-413.

        [3] Kleinschmidt D F,Jaeger T F.Robust speech perception:recognize the familiar,generalize to the similar,and adapt to the novel [J].Psychological Review,2015,122(2):148-153.

        [4] Bidelman G M,Weiss M W,Moreno S,et al.Coordinated plasticity in brainstem and auditory cortex contributes to enhanced categorical speech perception in musicians [J].European Journal of Neuroscience,2014,40(4):2662-2673.

        [5] Jeong K H,Lee J W,Park J.Chatter diagnosis using mel-frequency cepstral coefficient of vibrational signal for various operating conditions [J].Journal of the Acoustical Society of America,2016,140:124-131.

        [6] Sch?dler M R,Kollmeier B.Separable spectro-temporal gabor filter bank features:reducing the complexity of robust features for automatic speech recognition [J].Journal of the Acoustical Society of America,2015,137(4):2047-2059.

        [7] Govindan S M,Duraisamy P,Yuan X.Adaptive wavelet shrinkage for noise robust speaker recognition [J].Digital Signal Processing,2014,33:180-190.

        [8] Sisto R,Moleti A,Shera C A.On the spatial distribution of the reflection sources of different latency components of otoacoustic emissions [J].Journal of the Acoustical Society of America,2015,137(2):768-776.

        [9] Christensen A T,Ordoez R,Hammersh?i D.Stimulus ratio dependence of low-frequency distortion-product otoacoustic emissions in humans [J].Journal of the Acoustical Society of America,2015,137(2):679-689.

        [10]Jedrzejczak W W,Konopka W,Kochanek K,et al.Otoacoustic emissions in newborns evoked by 0.5kHz tone bursts [J].International Journal of Pediatric Otorhinolaryngology,2015,79(9):1522-1526.

        [11]Ekanadham C,Tranchina D,Simoncelli E P.A unified framework and method for automatic neural spike identification [J].Journal of Neuroscience Methods,2014,222(1):47-55.

        [12]Oxenham A J,Plack C J.Effects of masker frequency and duration in forward masking:further evidence for the influence of peripheral nonlinearity [J].Hearing Research,2000,150:258-266.

        [13]Oetjen A,Verhey J L.Spectro-temporal modulation masking patterns reveal frequency selectivity [J].Journal of the Acoustical Society of America,2015,137(2):714-717.

        [14]Li N,Osborn M,Wang G,et al.A digital multichannel neural signal processing system using compressed sensing [J].Digital Signal Processing,2016,55(3):64-77.

        [15]Azad A K,Wang L,Guo N,et al.Signal processing using artificial neural network for BOTDA sensor system [J].Optics Express,2016,24(6):67-69.

        [16]Kujawa S G,F(xiàn)allon M,Skellett R A,et al.Time-varying alterations in the f2-fl DPOAE response to continuous primary stimulation II.influence of local calcium-dependent mechanisms [J].Hearing Research,1996,97(1/2):153-164.

        [17]Jesteadt W,Bacon S P,Lehman J R.Forward masking as a function of frequency,masker level,and signal delay [J].Journal of the Acoustical Society of America,1982,71(2):950-962.

        [18]Oxenham A J.Forward masking:adaptation or integration [J].Journal of the Acoustical Society of America,2001,109(2):732-741.

        Intelligentspeechrecognitionsystembasedonself-adaptionpsychoacousticmodel

        XIONG Xiao-yan, CHEN Xu, HUANG Can-ying, CHEN Yan
        (School of Science and Technology, Nanchang University, Nanchang 330029, China)

        Aiming at such noise speech processing problems as environmental noise and channel distortion, an intelligent speech recognition system based on adaptive psychoacoustic system was proposed, and an auditory model was established. In the proposed model, the psychoacoustics and otoacoustic emission (OAE) were integrated into an automatic speech recognition (ASR) system. With the AURORA2 database, the experiments were performed under both clean and multiple training conditions, respectively. The results show that the proposed feature extraction method can significantly improve the word recognition rate, is superior to those of Mel-frequency cepstral coefficients (MFCCs), forward masking (FM), lateral inhibition (LI) and cepstral mean & variance normalization (CMVN) algorithms, and can effectively enhance the performance of intelligent speech recognition system.

        Mel-frequency cepstral coefficient (MFCC); otoacoustic emission (OAE); self-adaption; psychoacoustic filter; automatic speech recognition(ASR); AURORA2 database; forward masking (FM); lateral inhibition (LI)

        2016-12-12.

        江西省教育廳科學(xué)技術(shù)研究項(xiàng)目(GJJ151504,GJJ151505); 江西省教育改革課題資助項(xiàng)目(JXJG-14-28-3,JXJG-14-28-1,JXJG-14-28-6,JXJG-14-28-8).

        熊笑顏(1974-),女,湖北房縣人,講師,碩士,主要從事聲學(xué)數(shù)據(jù)處理、電子技術(shù)及嵌入式系統(tǒng)等方面的研究.

        * 本文已于2017-10-25 21∶13在中國(guó)知網(wǎng)優(yōu)先數(shù)字出版. 網(wǎng)絡(luò)出版地址: http:∥www.cnki.net/kcms/detail/21.1189.T.20171025.2113.066.html

        10.7688/j.issn.1000-1646.2017.06.14

        TP 511

        A

        1000-1646(2017)06-0675-05

        (責(zé)任編輯:景 勇 英文審校:尹淑英)

        猜你喜歡
        效應(yīng)
        鈾對(duì)大型溞的急性毒性效應(yīng)
        懶馬效應(yīng)
        場(chǎng)景效應(yīng)
        雨一直下,“列車(chē)效應(yīng)”在發(fā)威
        決不能讓傷害法官成破窗效應(yīng)
        紅土地(2018年11期)2018-12-19 05:10:56
        死海效應(yīng)
        應(yīng)變效應(yīng)及其應(yīng)用
        福建醫(yī)改的示范效應(yīng)
        福建醫(yī)改的示范效應(yīng)
        偶像效應(yīng)
        精品国产av一区二区三四区| 亚洲中文字幕国产综合| 亚洲国产成人精品激情资源9| 亚洲日日噜噜噜夜夜爽爽| 日韩av在线不卡观看| 国产精品自拍网站在线| 涩涩鲁精品亚洲一区二区| 风间由美中文字幕在线| 精品一区二区三区人妻久久福利| 白嫩人妻少妇偷人精品| 西西午夜无码大胆啪啪国模 | 久久九九av久精品日产一区免费| 人妻少妇被猛烈进入中文| 久久黄色国产精品一区视频| 天天躁日日躁aaaaxxxx| 一品二品三品中文字幕| 精品国产成人亚洲午夜福利| 久久综合视频网站| 一本大道久久精品一本大道久久| 草青青视频手机免费观看| 日本人妻伦理在线播放| 国产成人av综合色| 久久久久久久久久久国产| 亚洲va在线va天堂va手机| 亚洲欧美日韩精品香蕉| 在线观看免费的黄片小视频| 国产自拍成人免费视频| 成人一区二区免费中文字幕视频| 久久精品国产亚洲精品| 亚洲偷自拍另类图片二区| 日韩在线精品视频观看| 青青草小视频在线播放| 国产精品a免费一区久久电影| 亚洲乱亚洲乱少妇无码99p| 中文字幕亚洲好看有码| 亚洲熟女一区二区三区不卡 | 国产成人亚洲精品77| 国产一区二区三区成人av| 中国美女a级毛片| 18禁裸男晨勃露j毛免费观看 | 亚洲中文字幕乱码|