亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動(dòng)態(tài)時(shí)間規(guī)整算法的語(yǔ)音識(shí)別技術(shù)研究

        2017-11-08 16:42:04張慧敏
        科技資訊 2017年26期
        關(guān)鍵詞:語(yǔ)音識(shí)別

        張慧敏

        摘 要:語(yǔ)音控制作為一種新型的人機(jī)交互手段,給用戶帶來(lái)更多的操作體驗(yàn),在很多特定場(chǎng)景中具有必要性。本文將梅爾倒譜系數(shù)(MFCC)作為語(yǔ)音特征參數(shù),采用動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)進(jìn)行模式識(shí)別和分類,實(shí)現(xiàn)了小樣本孤立詞匯的實(shí)時(shí)識(shí)別,具有高識(shí)別率。在基本算法的基礎(chǔ)上進(jìn)行了邊界條件改進(jìn),克服了端點(diǎn)檢測(cè)缺陷。在語(yǔ)音特征提取上,分析比較了線性預(yù)測(cè)系數(shù)(LPC)和梅爾倒譜系數(shù)(MFCC)作為特征參數(shù)的優(yōu)缺點(diǎn),最后選定基于人耳聽覺特性的MFCC作為語(yǔ)音特征參數(shù)。語(yǔ)音信號(hào)采用NI公司USB-6218采集卡將數(shù)據(jù)直接傳輸至MATLAB開發(fā)平臺(tái),在MATLAB集成環(huán)境下實(shí)現(xiàn)了語(yǔ)音識(shí)別程序。實(shí)驗(yàn)結(jié)果表明,系統(tǒng)可以實(shí)現(xiàn)6個(gè)特定的孤立詞識(shí)別,滿足實(shí)時(shí)性和準(zhǔn)確性要求。

        關(guān)鍵詞:語(yǔ)音識(shí)別 端點(diǎn)檢測(cè) DTW MFCC

        中圖分類號(hào):TP39 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)09(b)-0028-04

        Abstract: Speech control, as a new type of human-computer interaction method, brings better operation experience to users, and it is necessary in many specific scenes. In this paper, the MFCC are used as speech feature parameters, and the dynamic time warping algorithm (DTW) is used for pattern recognition and classification, which realizes the real-time recognition of small sample isolated words with high recognition rate. On the basis of the basic algorithm, the boundary condition is improved and the defect of endpoint detection is overcome. In the speech feature extraction, analysis and comparison of the linear prediction coefficient (LPC) and MFCC advantages and disadvantages as characteristic parameters, finally selected based on human auditory characteristics MFCC as speech feature parameters. The voice signals are directly transmitted to the MATLAB development platform by NI company's USB-6218 acquisition card, and the voice recognition program is implemented in the MATLAB integrated environment. Experimental results show that the system can implement 6 specific isolated word recognition, which meets the requirements of real-time and accuracy.

        Key Words: Speech recognition; Endpoint detection; DTW; MFCC

        語(yǔ)言是人與人之間最自然、最重要的交流工具,同時(shí)也是人類獲取信息的重要途徑之一。語(yǔ)音信號(hào)處理有四大分支,分別為語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音編碼和說(shuō)話人識(shí)別。語(yǔ)音識(shí)別是下一代人機(jī)交互的核心技術(shù)之一,能夠讓機(jī)器按照人的語(yǔ)音指令進(jìn)行各項(xiàng)操作,甚至與人交流,這在實(shí)際應(yīng)用中具有極其重要的意義。1956年,美國(guó)普林斯頓大學(xué)RCA實(shí)驗(yàn)室利用帶通濾波器組提取頻譜參數(shù)特征,成功地研制出能識(shí)別10個(gè)單音節(jié)詞的語(yǔ)音識(shí)別系統(tǒng)。20世紀(jì)60年代,隨著計(jì)算機(jī)技術(shù)的發(fā)展和應(yīng)用,動(dòng)態(tài)規(guī)劃(DP,Dynamic Programming)和線性預(yù)測(cè)分析技術(shù)(LP,Linear Prediction)兩大技術(shù)推動(dòng)了語(yǔ)音識(shí)別技術(shù)理論研究的發(fā)展。20世紀(jì)70年代,語(yǔ)音識(shí)別技術(shù)的研究取得了突破性的進(jìn)展。動(dòng)態(tài)時(shí)間規(guī)整算法(DTW,Dynamic time warping)、隱馬爾可夫模型(HMM,Hidden Markov Models)和矢量量化(VQ,Vector Quantization)理論的提出為語(yǔ)音識(shí)別的研究提供了理論依據(jù)。20世紀(jì)80年代,經(jīng)過(guò)Rabiner等人的研究,卡內(nèi)基梅隆大學(xué)的李開復(fù)教授最終實(shí)現(xiàn)了第一個(gè)基于隱馬爾科夫模型(HMM)的大詞匯量語(yǔ)音識(shí)別系統(tǒng)Sphinx。進(jìn)入20世紀(jì)90年代以來(lái),小波變換、模糊控制、人工神經(jīng)網(wǎng)絡(luò)等數(shù)學(xué)工具的完善為語(yǔ)音識(shí)別技術(shù)提供了很多設(shè)計(jì)參考和問(wèn)題解決方案,使得語(yǔ)音識(shí)別技術(shù)在細(xì)化模型設(shè)計(jì),參數(shù)提取和優(yōu)化以及系統(tǒng)的自適應(yīng)技術(shù)上取得了很大的進(jìn)展。因此,語(yǔ)音識(shí)別技術(shù)的研究具有極大的研究意義和應(yīng)用價(jià)值。

        1 系統(tǒng)設(shè)計(jì)

        本系統(tǒng)中,語(yǔ)音信號(hào)經(jīng)過(guò)兩級(jí)放大、二階巴特沃斯帶通濾波、A/D轉(zhuǎn)換后輸入到MATLAB軟件系統(tǒng)進(jìn)行數(shù)據(jù)處理和分析,系統(tǒng)硬件框架如圖1所示。

        語(yǔ)音系統(tǒng)的聲電轉(zhuǎn)換采用小巧的全指向性背極式駐極體聲電換能器,該傳聲器參數(shù)如表1所示。

        電容式駐極體聲電換能器采用2V供電,根據(jù)參數(shù)計(jì)算,說(shuō)話者距離麥克風(fēng)有1M遠(yuǎn)時(shí),平均輸出電信號(hào)1~2mV。語(yǔ)音信號(hào)放大電路設(shè)計(jì)為反向放大電路,其增益比例為A1=(R2/R1),其中R2=30kΩ,R1=1kΩ。因此,信號(hào)反向放大倍數(shù)為30倍。為了保證信號(hào)不失真,語(yǔ)音信號(hào)放大部分采用兩級(jí)反向放大,總增益為900倍輸出。endprint

        系統(tǒng)中的模數(shù)轉(zhuǎn)換采用美國(guó)NI公司的USB-6218多功能DAQ數(shù)據(jù)采集卡。該采集卡具有USB接口和多功能DAQ模塊,具有總線供電帶隔離、高采樣率、高精度特點(diǎn)。語(yǔ)音信號(hào)經(jīng)過(guò)DAQ轉(zhuǎn)換后,通過(guò)USB接口輸入到MATLAB軟件分析處理。

        2 識(shí)別算法研究

        軟件算法主要分為語(yǔ)音信號(hào)濾波去噪、預(yù)加重、分幀、端點(diǎn)檢測(cè)、特征參數(shù)提取、模式匹配。算法的關(guān)鍵點(diǎn)和難點(diǎn)是特征參數(shù)提取和模式匹配。孤立詞的語(yǔ)音識(shí)別應(yīng)用程序也是基于MATLAB的GUI進(jìn)行開發(fā)。

        2.1 語(yǔ)音預(yù)處理

        語(yǔ)音信號(hào)是一種典型的非平穩(wěn)隨機(jī)信號(hào),容易受到呼吸氣流、環(huán)境背景噪聲、電流噪聲的影響。所以,在對(duì)語(yǔ)音信號(hào)進(jìn)行下一步分析之前,需要對(duì)硬件電路采集回來(lái)的語(yǔ)音信號(hào)進(jìn)行預(yù)濾波、預(yù)加重、分幀加窗、端點(diǎn)檢測(cè)等。預(yù)處理后的語(yǔ)音信號(hào)噪聲干擾較小,信號(hào)較純凈,特征參數(shù)較穩(wěn)定,適合后續(xù)的模式識(shí)別和匹配分類,圖2是語(yǔ)言信號(hào)預(yù)處理過(guò)程圖。

        在本系統(tǒng)中,預(yù)濾波采用數(shù)字濾波方法,設(shè)計(jì)了一個(gè)五階巴特沃斯帶通濾波器,通頻帶范圍為370Hz~3.4kHz。經(jīng)過(guò)預(yù)提升后,原始語(yǔ)音信號(hào)中的低頻干擾得到抑制,改善了高頻部分,使得高頻信號(hào)得到增強(qiáng)。預(yù)加重不僅能夠有效抑制低頻,提升高頻,還能有效消除5~60Hz的工頻干擾。特別是在端點(diǎn)檢測(cè)前進(jìn)行預(yù)加重,可以起到消除基線漂移、抑制隨機(jī)噪聲的作用。在分幀加窗中,采樣語(yǔ)音時(shí)間長(zhǎng)度為1.2s,采樣頻率為8000Hz,即9600點(diǎn)。分幀函數(shù)中,每幀長(zhǎng)度設(shè)置為80,幀移間隔為40,為了減少信號(hào)的時(shí)域截?cái)嘈?yīng),窗函數(shù)選用漢明窗。經(jīng)過(guò)分幀以后,語(yǔ)音信號(hào)被分成了239幀。最后在語(yǔ)音識(shí)別系統(tǒng)中,通過(guò)端點(diǎn)檢測(cè)準(zhǔn)確找到原始語(yǔ)音信號(hào)的起始點(diǎn)可以獲取有效的語(yǔ)音信息,減少語(yǔ)音處理數(shù)據(jù)量,抑制無(wú)聲段噪聲干擾,有助于實(shí)時(shí)語(yǔ)音識(shí)別。本系統(tǒng)采用基于能量和過(guò)零率的雙門限來(lái)實(shí)現(xiàn)端點(diǎn)檢測(cè)。

        2.2 語(yǔ)音特征信息提取

        經(jīng)過(guò)端點(diǎn)檢測(cè)后的語(yǔ)音信息再進(jìn)行特征參數(shù)提取和模式匹配研究,該算法基于線性預(yù)測(cè)系數(shù)LPC模型為基礎(chǔ)開展研究,由于LPC模型對(duì)于動(dòng)態(tài)性較強(qiáng)的輔音不嚴(yán)格成立,語(yǔ)音信號(hào)的特征參數(shù)魯棒性不是很好?,F(xiàn)階段在語(yǔ)音識(shí)別技術(shù)中得到廣泛應(yīng)用的梅爾頻率倒譜系數(shù)是另一種更加有效的語(yǔ)音特征參數(shù)。梅爾(Mel)頻率倒譜系數(shù)是基于人耳聽覺特性提出的,將人耳聽覺感知特性與人類語(yǔ)音產(chǎn)生結(jié)合起來(lái)得到的一種特征參數(shù)。由于對(duì)輸入信號(hào)不做假設(shè)和約束,與輸入信號(hào)特性無(wú)關(guān),因此,具有較高的魯棒性。

        當(dāng)聲音頻率低于1000Hz的時(shí)候,人耳對(duì)聲音的感知近似滿足線性關(guān)系;當(dāng)聲音頻率高于1000Hz的時(shí)候,人耳對(duì)聲音的感知不再近似滿足線性關(guān)系,而是在對(duì)數(shù)頻率坐標(biāo)上近似滿足線性關(guān)系。

        MEL頻率倒譜系數(shù)的計(jì)算過(guò)程見圖3。

        通常MFCC系數(shù)的第一維的能量很大,在語(yǔ)音識(shí)別系統(tǒng)中,將稱為能量系數(shù),不作為倒譜系數(shù)。

        利用上述方法提取的MFCC參數(shù)只能表征語(yǔ)音信號(hào)的靜態(tài)特征,然而人耳對(duì)語(yǔ)音信號(hào)的動(dòng)態(tài)特征更為敏感。為了更準(zhǔn)確地反映語(yǔ)音動(dòng)態(tài)特征需要進(jìn)行二次特征提取。二次特征提取是指對(duì)原始特征向量進(jìn)行二次分析,通常是加權(quán)、差分、篩選。在語(yǔ)音識(shí)別中,一階和二階差分可以表示特征向量變化速度,體現(xiàn)了語(yǔ)音的言語(yǔ)和韻律變化,較好地描述了語(yǔ)音信號(hào)的動(dòng)態(tài)特性。因此,采用一階和二階差分倒譜參數(shù)來(lái)描述語(yǔ)音信號(hào)。

        2.3 動(dòng)態(tài)時(shí)間規(guī)整識(shí)別算法

        前面的端點(diǎn)檢測(cè)算法確定了語(yǔ)音信號(hào)的起點(diǎn)和終點(diǎn)。假設(shè)參考模板為,共M幀;測(cè)試語(yǔ)音為,共N幀。由于M≠N,動(dòng)態(tài)時(shí)間規(guī)整通過(guò)尋找一個(gè)時(shí)間規(guī)整函數(shù)m=w(n),使得測(cè)試語(yǔ)音的時(shí)間軸通過(guò)非線性變換函數(shù)映射到參考模板的時(shí)間軸,并使得該函數(shù)滿足一下關(guān)系式:

        在這里,是第n幀測(cè)試語(yǔ)音特征矢量與第m幀參考模板特征矢量之間的距離。D就是處于最優(yōu)時(shí)間規(guī)整情況下兩矢量的累積距離。由于DTW不斷地計(jì)算兩矢量的距離以尋找最優(yōu)的匹配路徑,所以得到的是兩矢量匹配時(shí)累積距離最小所對(duì)應(yīng)的規(guī)整函數(shù),這就保證了它們之間存在的最大聲學(xué)相似性。

        基本的DTW算法對(duì)端點(diǎn)檢測(cè)非常敏感,它要求進(jìn)行比較的兩個(gè)模板起點(diǎn)和終點(diǎn)分別對(duì)應(yīng),并且對(duì)端點(diǎn)檢測(cè)的精度要求很高,在背景噪聲較大或者語(yǔ)音中存在摩擦音時(shí),端點(diǎn)檢測(cè)往往不會(huì)非常精準(zhǔn),端點(diǎn)檢測(cè)結(jié)果可能會(huì)對(duì)動(dòng)態(tài)規(guī)整造成不可預(yù)知的誤差。此時(shí),必須將邊界約束條件放寬。通常的做法是放寬區(qū)域中邊界約束條件不再要求起點(diǎn)和終點(diǎn)嚴(yán)格對(duì)齊,這樣就解決了由于端點(diǎn)檢測(cè)算法的缺陷帶來(lái)的參考模板和測(cè)試模板的起點(diǎn)和終點(diǎn)不能分別對(duì)齊的問(wèn)題。實(shí)際中,起點(diǎn)和終點(diǎn)分別在橫軸和縱軸兩個(gè)方向上各放寬2~3幀,即起點(diǎn)(1,1)、(1,2)、(1,3)、(2,1)、(3,1)處,終點(diǎn)類推,就可以在不影響識(shí)別結(jié)果的前提下解決端點(diǎn)檢測(cè)缺陷問(wèn)題。

        3 實(shí)驗(yàn)與分析

        實(shí)驗(yàn)采集了8位實(shí)驗(yàn)者的語(yǔ)音數(shù)據(jù),4位男性實(shí)驗(yàn)者,4位女實(shí)驗(yàn)者,受試者沒有發(fā)音障礙,不對(duì)受試者口音限制。每位實(shí)驗(yàn)者根據(jù)屏幕提示分別朗讀6個(gè)詞語(yǔ),每個(gè)詞語(yǔ)重復(fù)10遍,采集卡每次記錄1.2s的語(yǔ)音數(shù)據(jù),采樣率為8000Hz。為了減少偶然性,奇數(shù)次朗讀作為訓(xùn)練集,偶數(shù)次朗讀作為測(cè)試集。整個(gè)實(shí)驗(yàn)在白天普通實(shí)驗(yàn)室環(huán)境下進(jìn)行。為保證實(shí)驗(yàn)效果,正式實(shí)驗(yàn)前,受試者進(jìn)行10min的熟悉和練習(xí)。實(shí)驗(yàn)結(jié)果如下。

        實(shí)驗(yàn)結(jié)果表明,對(duì)于每個(gè)實(shí)驗(yàn)者而言,識(shí)別準(zhǔn)確率都超過(guò)95%,識(shí)別率高,效果好。男性實(shí)驗(yàn)組和女性實(shí)驗(yàn)組沒有統(tǒng)計(jì)學(xué)差異,說(shuō)明DTW語(yǔ)音識(shí)別算法不會(huì)因?yàn)樾詣e不同影響性能。

        4 結(jié)語(yǔ)

        針對(duì)孤立小詞匯識(shí)別選用了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW),并且基于端點(diǎn)檢測(cè)缺陷的考慮,提出改進(jìn)的DTW算法。通過(guò)軟件編程實(shí)現(xiàn)了DTW算法,在實(shí)驗(yàn)中進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明DTW算法可以很好地實(shí)現(xiàn)系統(tǒng)中指定的孤立詞匯識(shí)別,具有較好的魯棒性和抗噪性能,識(shí)別率高。

        參考文獻(xiàn)

        [1] 舒琦.小詞匯量的孤立詞語(yǔ)音識(shí)別方法研究[D].武漢:武漢理工大學(xué),2012.

        [2] 徐曉娜.基于HMM和ANN的語(yǔ)音識(shí)別算法研究[D].長(zhǎng)春:長(zhǎng)春理工大學(xué),2009.

        [3] 胡航.語(yǔ)音信號(hào)處理[M].2版.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.

        [4] 楊行峻.語(yǔ)音信號(hào)數(shù)字處理[M].北京:電子工業(yè)出版社,2003.

        [5] WH Shin,BS Lee,YK Lee,et al.Speech/non-speech Classification Using Multiple Features for Roust Endpoint Detection[J].IEEE International Conferece on Acoustics,2000(3):1399-1402.

        [6] 張軍.基于MFCC的語(yǔ)音識(shí)別加速技術(shù)研究[D].北京:北京化工大學(xué),2009.

        [7] 謝禮瑩.模擬電路實(shí)驗(yàn)技術(shù)(上冊(cè))[M].重慶:重慶大學(xué)出版社,2005.endprint

        猜你喜歡
        語(yǔ)音識(shí)別
        空管陸空通話英語(yǔ)發(fā)音模板設(shè)計(jì)與應(yīng)用
        通話中的語(yǔ)音識(shí)別技術(shù)
        面向移動(dòng)終端的語(yǔ)音簽到系統(tǒng)
        淺析智能語(yǔ)音技術(shù)及其應(yīng)用
        語(yǔ)音識(shí)別的SVM模型選擇分析
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺(tái)手機(jī)秘書功能分析與實(shí)現(xiàn)
        基于LD3320的非特定人識(shí)別聲控?zé)粝到y(tǒng)設(shè)計(jì)
        航天三維可視化系統(tǒng)中語(yǔ)音控制技術(shù)的研究與應(yīng)用
        基于語(yǔ)音識(shí)別的萬(wàn)能遙控器的設(shè)計(jì)
        基于語(yǔ)音技術(shù)的商務(wù)英語(yǔ)移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
        亚洲av日韩专区在线观看| 亚洲国产日韩综一区二区在性色 | 亚洲人妻av综合久久| 国产乱码一区二区三区精品| 久久精品国产久精国产果冻传媒| 亚洲欧美日韩综合久久| 国产成人精品三上悠亚久久| 国产av精品久久一区二区| 白嫩人妻少妇偷人精品| 欧洲熟妇色xxxx欧美老妇多毛| 国产最新网站| 少妇爽到爆视频网站免费| 白白色发布免费手机在线视频观看| 一本色道久久爱88av| 国产福利姬喷水福利在线观看| 日韩精品视频在线观看免费| 国产精品髙潮呻吟久久av| 隔壁老王国产在线精品| 老头巨大挺进莹莹的体内免费视频| 国产国拍亚洲精品福利| 水蜜桃视频在线观看入口| 亚洲国产精彩中文乱码av| 男女18禁啪啪无遮挡| 好爽~又到高潮了毛片视频| 五月婷婷开心六月激情| 99久久99久久精品免费看蜜桃| 精品一区二区三区在线观看| 亚洲无码毛片免费视频在线观看 | 国产xxxxx在线观看| 日韩成人精品在线| 麻豆av在线免费观看精品| 免费av一区二区三区| 中国丰满熟妇av| 久久亚洲成a人片| av网站国产主播在线| 久久无码专区国产精品| 久久成年片色大黄全免费网站| 亚洲成人免费久久av| 无码人妻久久一区二区三区免费丨 | 白白色免费视频一区二区在线| 久久人妻无码一区二区|