亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于STRAIGHT譜的非特定人數(shù)字語音識別

        2011-07-18 11:44:13姚建霄張歆奕
        關(guān)鍵詞:信息

        姚建霄,張歆奕

        (五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)

        基于STRAIGHT譜的非特定人數(shù)字語音識別

        姚建霄,張歆奕

        (五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020)

        介紹了STRAIGHT算法的原理,并選擇STRAIGTH譜作為語音識別的特征參數(shù). 采用對應(yīng)點映射方法以提高同一發(fā)音不同樣本參數(shù)間的匹配效果,在特征匹配的方法上選擇差別子空間法,將二者結(jié)合應(yīng)用于非特定人漢語數(shù)字0~9的語音識別,實驗結(jié)果表明,基于STRAIGHT譜的非特定人數(shù)字語音識別可以達到97%的識別率.

        語音識別;STRAIGHT譜;差別子空間;對應(yīng)點映射

        語音識別研究如何采用數(shù)字信號處理技術(shù)自動提取以及確定語音信號中的信息,時域分析和頻域分析是分析語音信號的2種重要方法,但都有局限:時域分析對語音信號的頻譜特性沒有直觀的了解,而頻域特性中沒有語音信號隨時間變化的表現(xiàn). 語譜圖分析綜合了頻譜圖和波形圖的優(yōu)點,集中顯示了大量的與語音特性有關(guān)的信息,能直觀地分析語音信號幅度、頻率與時間的關(guān)系,一直以來人們都注意用語譜圖來描述語音信號,并將其應(yīng)用于語音識別和說話人識別[1]. 日本學(xué)者Hideki Kawahara等[2-4]提出的STRAIGHT算法(Speech Transformation and Representation by Adaptive Interpolation of weiGHTed spectrogram)將語音信號分解成獨立的激勵源參數(shù)和濾波器參數(shù),并將其中的濾波器參數(shù)以譜圖的形式表示. 由于STRAIGHT譜保留了語音要表達的語義內(nèi)容,并在很大程度上抑制了其中與說話人相關(guān)的個性信息,因而可以很好地滿足語音識別特征選取的要求. 本文嘗試將STRAIGHT算法應(yīng)用于非特定人漢語“0~9”的語音識別.

        1 STRAIGHT算法的原理

        STRAIGHT算法以Dudely的VODER理論為基礎(chǔ),用源—濾波器的思想表征語音信號,并將語音分解為相互獨立的頻譜參數(shù)(STRAIGHT譜)和一系列脈沖的卷積. STRAIGHT算法最早應(yīng)用于語音合成領(lǐng)域,整個算法分為3部分:抑制周期性影響的譜估計,可靠的基頻檢測,有效的語音合成控制. 下面介紹抑制周期性干擾的方法.

        1.1 基音同步分析

        語音信號短時平穩(wěn)性和動態(tài)通帶帶寬所造成的頻譜失真會引起基音頻率F0的估計誤差,常引入邊界連續(xù)性好的時窗以減少失真,這里通過高斯加權(quán)的方法來實現(xiàn).

        以式(1)Bartlett窗為例,對其進行高斯加權(quán),得到ωP(t)作為原始窗,并用來計算語譜圖P0(ω,t).式(2)中,η為增加頻譜分辨率的一個臨時系數(shù),*代表與基音同步的卷積;ωP(t)的補償窗ωC(t)=ωP(t )sin(πt/T0),其中T0為原窗函數(shù)的周期,由ωC(t )計算得到的語譜圖記為PC(ω,t). P0(ω,t)和PC(ω,t)有大致相同的諧波結(jié)構(gòu),二者的合成頻譜,其中ε為混合參數(shù).對ε的選定標(biāo)準(zhǔn)是確保PR(ω,t)的時域波動最小,一般情況下取ε=0.13655.

        1.2 自適應(yīng)平滑內(nèi)插

        用二維B樣條卷積法生成的線性譜對基音頻率F0的估計誤差不敏感. 原線性語譜圖PR(ω,t)經(jīng)濾波后的語譜PS(ω,t)形式如下:

        其中,ω0即F0,γ表示非線性程度,一般定為0.3,濾波核hω是一種三角映射關(guān)系,定義域為[-1,1].其STRAIGHT譜PST(ω,t)為:

        引入r(x)是為確保語音譜在各處均為正值,取r(x)=βlog(ex/β+1). 通過自適應(yīng)平滑內(nèi)插,頻譜進一步被光滑化,消除了邊緣不連續(xù)性.[3]

        2 對應(yīng)點映射方法

        對應(yīng)點映射方法用以提高同一發(fā)音不同樣本間的匹配程度. Hideki Kawahara[3]用這種方法對STRAIGHT譜和對應(yīng)激勵參數(shù)進行操作,再將其合成出聲音,以此改變一個發(fā)音的長度、語氣、情緒等內(nèi)容. 本文舉例說明對應(yīng)點映射方法的使用,圖1為2個不同語氣Hai發(fā)音的STRAIGHT譜圖,我們將這2個發(fā)音標(biāo)定錨點、融合后,得到同時包含二者信息的中性發(fā)音.

        2.1 錨點標(biāo)定

        在圖1上分別標(biāo)定一些有意義的錨點,這些錨點將在樣本間的映射過程中用于時域和頻域上的對應(yīng). 選取錨點的規(guī)則:對所有樣本來說,它應(yīng)該是穩(wěn)定的、有代表性的. 在頻域上,錨點一般選在共振峰的位置. 在時域上,一般選取這些位置:1)發(fā)音的始末位置,以此保證融合時2個發(fā)音時間上的一致. 2)元音和輔音的過渡點,這是對應(yīng)語音頻譜變化的地方. 3)元音中點,這是發(fā)音中最穩(wěn)定的部分. 對圖1分別標(biāo)定錨點得到圖2.

        圖1 angryHai和neutralHai的STRAIGHT譜圖

        圖2 標(biāo)定錨點后的STRAIGHT譜

        圖3 對數(shù)插值方法得到的morphHai譜

        2.2 融合

        利用錨點信息從neutralHai和angryHai分別向融合morphHai進行映射,然后將二者映射的結(jié)果按比例疊加(該比例可自由確定,若希望生氣的成分多一些,可以把angryHai的比例設(shè)為70%). 具體的映射是一個插值的過程,這里以neutralHai向morphHai進行映射為例. 先由二者錨點的時域坐標(biāo)確定時域上的插值系數(shù),各段內(nèi)樣點的插值系數(shù)再由段末端點處的錨點頻域坐標(biāo)確定,以此完成整個譜的映射. 圖3為對數(shù)插值方法得到的morphHai譜. 在STRAIGHT算法中,為了得到效果更好的合成音,可以在更細的層次(如音素)上對源音進行校準(zhǔn).

        3 基于STRAIGHT譜的語音識別實驗

        文獻[5]提出了基于差別子空間的語音識別算法,并證明基于差別子空間的識別算法要優(yōu)于基于動態(tài)時間歸正技術(shù)(DTW)的識別算法.

        3.1 語音識別實驗

        用非特定說話人漢語 “0~9”的發(fā)音進行測試. 實驗方案:0~9每個數(shù)字錄音25次(分別由3男2女,每人錄5次),即為25個樣本;25個樣本中,15個用于訓(xùn)練(每人3個),另外10個用于識別;所有樣本都標(biāo)記相同維數(shù)的錨點.

        圖4是上述錄音集中任意2個不同說話人數(shù)字9發(fā)音的STRAIGHT譜,比較發(fā)現(xiàn):在錨點時域中間段、頻域800~2 000 Hz,這兩個譜有比較大的差別. 為了說明錨點信息的重要性,筆者對錄制語音分2種情況進行訓(xùn)練:只利用錨點中的端點信息和利用全部錨點信息,每種情況下都先統(tǒng)計全部訓(xùn)練樣本的錨點信息和譜矩陣大小,由此確定模板的對應(yīng)信息. 用上述5個人共15個樣本訓(xùn)練后,得到的模板譜如圖5所示(圖5-a使用全部錨點信息訓(xùn)練,圖5-b只利用端點信息). 將時域70~220 ms、頻域800~2 000 Hz的譜與圖4的樣本譜比較,可以發(fā)現(xiàn):使用全部錨點信息得到的模板譜和實際樣本譜更接近.

        圖4 數(shù)字9兩個樣本的STRAIGHT譜

        圖5 數(shù)字9在不同錨點信息下的模板譜

        3.2 實驗結(jié)果

        經(jīng)過對錨點的多次調(diào)整,得到結(jié)果:共100個測試樣本,每個數(shù)字10次,訓(xùn)練時,只利用錨點端點信息的情況下,不用差別子空間法時錯了20個(實驗1),用差別子空間法錯了12個(實驗2);利用全部錨點信息,不用差別子空間法時錯了4個(實驗3),用差別子空間法錯了3個(實驗4). 具體結(jié)果如表1所示,該結(jié)果證明了對應(yīng)點映射方法和差別子空間法的有效性.

        表1 不同實驗方法時非特定人數(shù)字語音識別結(jié)果

        4 結(jié)論

        選取STRAIGHT譜作為特征參數(shù),用對應(yīng)點映射方法和差別子空間法進行非特定人數(shù)字識語音別可以達到較高的識別率. 錨點信息對識別很重要,選取合適的錨點位置,可以有效提高識別效率;因此,確定一套合理的規(guī)則用于選擇錨點位置是需要迫切解決的問題. 從STRAIGHT譜特征出發(fā),找到維數(shù)更低的特征來描述不同詞、不同說話人之間的差別,是我們今后工作的重點.

        [1] 阮伯堯. 脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)在基于語譜圖的說話人識別中的應(yīng)用[D]. 江門:五邑大學(xué),2008.

        [2] KAWAHARA HIDEKI, IKUYO Masuda-Katsuse, ALAIN de Cheveigne. Restructuring speech representations using a pitch adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds [J]. Speech Communication, 1999, 27: 187-207.

        [3] KAWAHARA Hideki. STRAIGHT, exploitation of the other aspect of VOCODER: Perceptually isomorphic decomposition of speech sounds [J]. Acoust Sci & Tech, 2006, 27(6): 349-353.

        [4] KAWAHARA Hideki. Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited [C]// ICASSP-97. Munich: [s.n.], 1997, 2: 1303-1306.

        [5] 張歆奕,吳今培,張其善. 一種基于差別子空間的語音識別算法研究和實現(xiàn)[J]. 五邑大學(xué)學(xué)報:自然科學(xué)版,2002, 16(1): 17-20.

        Research on STRAIGHT Spectrum in Speech Recognition

        YAO Jian-xiao, ZHANG Xin-yi
        (School of Information Engineering, Wuyi University, Jiangmen 529020, China)

        The principle of the STRAIGHT algorithm was introduced and the STRAGHT spectrum as feature index for speech recognition was chose. Corresponding point mapping was used to improve the effect of matching different sample parameters and the difference subspace was used for feature matching. These methods can be applied to digital identification of non-specific persons. The result shows that the STRAIGHT spectrum-based digital voice recognition can achieve a high recognition rate.

        speech recognition; STRAIGHT spectrum; difference subspace; corresponding points mapping

        TN912.34

        A

        1006-7302(2011)01-0056-05

        2009-04-25

        姚建霄(1980—),男,山西臨猗人,碩士研究生,研究方向是語音識別;張歆奕,副教授,博士,碩士生導(dǎo)師,通信作者,主要從事信息與信號處理研究.

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息超市
        展會信息
        展會信息
        展會信息
        展會信息
        展會信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        最近中文av字幕在线中文| 成熟人妻换xxxx| 亚洲av美国av产亚洲av图片| 国产麻无矿码直接观看| 久久久久久久尹人综合网亚洲 | 亚洲欧洲日产国码无码久久99| 日韩精品视频在线观看免费| 人妻有码中文字幕在线| 欧美性高清另类videosex| 国产精品久久久久av福利动漫| 欧洲亚洲视频免费| 亚洲一区二区三区av无| 综合偷自拍亚洲乱中文字幕| 一本加勒比hezyo无码人妻| 精品99在线黑丝袜| 久久久国产精品三级av| 无码av天天av天天爽| 亚洲日本在线电影| 精品国产亚欧无码久久久| 中文字幕亚洲乱码熟女1区2区| 放荡的美妇在线播放| 国产在线精品一区二区| 亚洲AV乱码毛片在线播放| 区一区二区三免费观看视频| 亚洲av成人片在线观看| 亚洲国产精品久久久久久久| 国产美女胸大一区二区三区| 91精品国产乱码久久中文| 中文字幕欧美人妻精品一区| 国产日产精品久久久久久| 日本黄色高清视频久久| 色综合天天综合欧美综合 | 国产午夜在线观看视频播放| 日韩十八禁在线观看视频| 国精产品一区一区三区有限在线| 亚洲男人第一无码av网站| 911国产在线观看精品| 全亚洲最大的私人影剧院在线看| 欧美成人aaa片一区国产精品| 午夜一级韩国欧美日本国产| 青青草视全福视频在线|