亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        南疆維吾爾語(yǔ)語(yǔ)音識(shí)別研究與實(shí)現(xiàn)

        2012-08-08 07:10:22吐?tīng)柡榻?/span>
        關(guān)鍵詞:維吾爾語(yǔ)南疆端點(diǎn)

        吳 剛 吐?tīng)柡榻?/p>

        (塔里木大學(xué)信息工程學(xué)院,新疆阿拉爾843300)

        語(yǔ)音識(shí)別(Speech Recognition,簡(jiǎn)稱SR)的根本目的是要讓機(jī)器聽(tīng)懂人說(shuō)的話,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,并根據(jù)其信息意圖生成相應(yīng)的文本或是執(zhí)行某種操作。對(duì)語(yǔ)音識(shí)別的研究始于20世紀(jì)50年代,其中特定說(shuō)話人和非特定說(shuō)話人連續(xù)語(yǔ)音識(shí)別技術(shù)研究比較成熟,部分技術(shù)已經(jīng)在相關(guān)領(lǐng)域廣泛應(yīng)用。

        在新疆,少數(shù)民族尤其是維吾爾族人口占有很大的比例,維吾爾族有自己獨(dú)特的語(yǔ)言,且不同地域其語(yǔ)言發(fā)音差異非常大。隨著新疆信息化快速發(fā)展,維吾爾語(yǔ)語(yǔ)言文字信息技術(shù)的研究與應(yīng)用也是新疆信息化建設(shè)進(jìn)程中的重要組成部分。特別是在新疆大力發(fā)展旅游經(jīng)濟(jì)的過(guò)程中,為加強(qiáng)民族文化交流,積極研究與開(kāi)發(fā)維吾爾語(yǔ)人機(jī)對(duì)話系統(tǒng)意義重大。但當(dāng)前對(duì)新疆維吾爾語(yǔ)語(yǔ)音識(shí)別的研究還處于初步階段,離實(shí)際應(yīng)用還有很多問(wèn)題需要解決。南疆維吾爾語(yǔ)語(yǔ)音識(shí)別研究以南疆區(qū)域維吾爾語(yǔ)發(fā)音為研究對(duì)象,對(duì)其語(yǔ)音進(jìn)行特征分析并探討其識(shí)別方法。

        1 維吾爾語(yǔ)發(fā)音特點(diǎn)

        現(xiàn)代維吾爾語(yǔ)是現(xiàn)代維吾爾民族共同使用的語(yǔ)言,在漫長(zhǎng)的歷史發(fā)展過(guò)程中,維吾爾語(yǔ)形成了明顯的方言差異?,F(xiàn)代維吾爾語(yǔ)主要分為中心方言、和田方言和羅布方言三大方言,三個(gè)方言的差別主要表現(xiàn)在語(yǔ)音上,其中又以中心方言為標(biāo)準(zhǔn)語(yǔ)、以烏魯木齊發(fā)音為標(biāo)準(zhǔn)語(yǔ)音[1,2]?,F(xiàn)代維吾爾語(yǔ)共有32個(gè)字母,其中元音8個(gè),輔音24個(gè),維吾爾語(yǔ)是一種拼音式文字,分別由這8個(gè)元音字母和24個(gè)輔音字母拼寫(xiě)而成,在書(shū)寫(xiě)時(shí)是從右向左書(shū)寫(xiě)。

        以發(fā)音音位來(lái)看,8個(gè)元音音位為閉展唇音2個(gè),閉圓唇音2個(gè),開(kāi)展唇音2個(gè),開(kāi)圓唇音2個(gè),在閉、開(kāi)展唇和圓唇中以發(fā)音部位又可分為前、央、后三種音位。24個(gè)輔音的發(fā)音音位為雙唇音3個(gè)、唇齒音1個(gè)、齒音6個(gè)、齒齦音1個(gè)、齒齦后音4個(gè)、硬腭音1個(gè)、軟腭音2個(gè)、喉音4個(gè)及其他2個(gè),在輔音的發(fā)音中細(xì)分有塞音、鼻音、擦音、塞擦音、閃音、半元音和邊音等。發(fā)音中存在元音和諧律,舌位合諧比較嚴(yán)整,唇狀和諧比較松弛,有元音弱化現(xiàn)象。

        2 語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)

        語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)圖如圖1所示,主要包括語(yǔ)音特征提取(包括語(yǔ)音預(yù)處理)、模型訓(xùn)練、模式匹配及邏輯決策等三個(gè)主要模塊。

        圖1 語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)圖

        在研究中根據(jù)語(yǔ)音識(shí)別過(guò)程,從兩個(gè)方面來(lái)進(jìn)行處理:一是對(duì)語(yǔ)音語(yǔ)料庫(kù)中的語(yǔ)音進(jìn)行預(yù)處理,提取特征,進(jìn)行樣本訓(xùn)練,建立識(shí)別樣本庫(kù);二是對(duì)待識(shí)別語(yǔ)音進(jìn)行預(yù)處理并提取其特征參數(shù),應(yīng)用一定的識(shí)別算法將所提取的特征參數(shù)與識(shí)別樣本庫(kù)進(jìn)行匹配,得到識(shí)別的結(jié)果。

        3 語(yǔ)音信號(hào)預(yù)處理

        語(yǔ)音預(yù)處理指采用各種數(shù)字信號(hào)處理技術(shù),運(yùn)用軟、硬件手段對(duì)語(yǔ)音信號(hào)進(jìn)行處理,包括采樣、去噪聲、信號(hào)預(yù)加重、加窗和端點(diǎn)檢測(cè)等規(guī)范化處理,獲得較標(biāo)準(zhǔn)的語(yǔ)音樣本,以進(jìn)行后期特征提取及識(shí)別研究。語(yǔ)音預(yù)處理是語(yǔ)音識(shí)別過(guò)程中關(guān)鍵的一個(gè)環(huán)節(jié),預(yù)處理的效果直接影響到識(shí)別結(jié)果。

        3.1 語(yǔ)音采樣

        Nyquist采樣定理表明[3]:如果模擬信號(hào)的頻譜帶寬是有限的,且假設(shè)其信號(hào)不包含高于fm的頻率成分,那么用等于或大于2fm的取樣頻率進(jìn)行取樣,或者說(shuō)用等于或小于1/(2 fm)的間隔取樣,所得到的等間隔離散時(shí)間取樣值或取樣信號(hào)就能夠完全唯一的代表原信號(hào),就能夠由取樣信號(hào)恢復(fù)出原始模擬信號(hào)來(lái)。

        語(yǔ)音識(shí)別時(shí)常用的采樣頻率為10 kHz或16 kHz。南疆維吾爾語(yǔ)語(yǔ)音信號(hào)是在實(shí)驗(yàn)室環(huán)境下用PC機(jī)進(jìn)行采集,語(yǔ)音信號(hào)以單聲道PCM格式,選擇采樣率為16 kHz,采樣精度是16 bit,采集到的語(yǔ)音以.wav格式文件存儲(chǔ)。實(shí)驗(yàn)室條件下采集語(yǔ)音信號(hào)質(zhì)量高,信號(hào)干擾小,便于預(yù)處理。

        3.2 預(yù)加重處理

        對(duì)語(yǔ)音信號(hào)進(jìn)行分析要先進(jìn)行預(yù)加重處理,按照語(yǔ)音能量損耗規(guī)律,語(yǔ)音信號(hào)高頻部分約以6dB/倍頻程下降。預(yù)加重處理一般采用6dB/oct來(lái)提升高頻部分,使語(yǔ)音信號(hào)的頻譜變得平坦,分布在低頻到高頻的整個(gè)頻帶中,以便于進(jìn)行頻譜分析和聲道參數(shù)分析。

        常用的預(yù)加重處理方法有以下兩種[4]:

        (1)采用6dB/oct(20dB/dec)的高頻增強(qiáng)濾波器來(lái)實(shí)現(xiàn),傳遞函數(shù)為

        (2)采用一階的數(shù)字濾波器來(lái)實(shí)現(xiàn),傳遞函數(shù)為H(z)=1-αz-1,其中α為預(yù)加重系數(shù),可取1或比1稍小的值。

        在對(duì)維吾爾語(yǔ)語(yǔ)音預(yù)加重處理時(shí),采用軟件處理方法,預(yù)加重系數(shù)取α=0.94,圖2為南疆阿克蘇阿瓦提采集到的維語(yǔ)數(shù)字“0”語(yǔ)音在預(yù)加重處理后的時(shí)域波形圖。

        圖2 數(shù)字“0”語(yǔ)音在預(yù)加重后的時(shí)域波形圖

        3.3 端點(diǎn)檢測(cè)[5,6]

        采集到的語(yǔ)音信息是一段時(shí)間內(nèi)的連續(xù)信息,將要處理識(shí)別的信息稱為有效語(yǔ)音,采集信息中還包含有效語(yǔ)音前信息和有效信息后語(yǔ)音信息。在語(yǔ)音中,要準(zhǔn)確獲得識(shí)別有效信息,就要對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)的目的是確定語(yǔ)音信息中的有效語(yǔ)音起始位置和終止位置,獲取最終的識(shí)別有效信息,端點(diǎn)檢測(cè)的檢測(cè)精度將直接影響到識(shí)別精度。

        通過(guò)對(duì)南疆維吾爾語(yǔ)語(yǔ)音波形特征進(jìn)行分析,選擇從語(yǔ)音信號(hào)的時(shí)域短時(shí)參數(shù)、短時(shí)平均幅度和短時(shí)過(guò)零率三個(gè)方面來(lái)進(jìn)行端點(diǎn)檢測(cè),實(shí)驗(yàn)效果較好。在處理時(shí)選擇信號(hào)在10ms到20ms之間,取幀長(zhǎng)為20 ms(采樣率為16 KHz),每幀320(N)個(gè)信號(hào)樣值S(n),其中n=0,1,2…,N-1。

        短時(shí)平均幅度處理函數(shù)為:

        短時(shí)過(guò)零率處理函數(shù)為:

        在MATLAB中,南疆阿克蘇阿瓦提采集的維語(yǔ)數(shù)字“0”語(yǔ)音信號(hào)進(jìn)行短時(shí)平均幅度處理效果如圖3所示。

        圖3 數(shù)字“0”語(yǔ)音短時(shí)幅值波形圖

        進(jìn)行短時(shí)過(guò)零率處理,結(jié)果如圖4所示。

        圖4 數(shù)字“0”語(yǔ)音短時(shí)過(guò)零率處理圖

        端點(diǎn)檢測(cè)后獲得有效語(yǔ)音信息,數(shù)字“0”語(yǔ)音有效信息波形圖如下圖5所示。

        圖5 數(shù)字“0”語(yǔ)音端點(diǎn)檢測(cè)有效信息波形圖

        4 特征提取與識(shí)別模型

        語(yǔ)音信息特征的提取與選擇是語(yǔ)音識(shí)別的基礎(chǔ)、關(guān)鍵,特征參數(shù)的提取與選擇將直接關(guān)系到識(shí)別分類器的設(shè)計(jì)。語(yǔ)音信號(hào)中包含的信息非常豐富,通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去掉無(wú)關(guān)冗余信息,獲得能夠反映語(yǔ)音對(duì)象的狀態(tài)、本質(zhì)及性質(zhì)等影響語(yǔ)音識(shí)別的重要特征參數(shù),并且特征要求對(duì)分類有效,具有較高的模式區(qū)分能力。

        目前在語(yǔ)音識(shí)別中常用的特征提取參數(shù)有Mel倒譜系數(shù)(MFCC)、線性預(yù)測(cè)系數(shù)(LPCC)以及它們的變體。經(jīng)過(guò)對(duì)南疆維吾爾語(yǔ)發(fā)音特點(diǎn)分析,語(yǔ)音的個(gè)性特征很大程度上體現(xiàn)在發(fā)音聲道變化上,及聲道頻率特征明顯,故采用計(jì)算Mel倒譜系數(shù)作為特征參數(shù)。

        倒譜系數(shù)的計(jì)算方法[7]是將一幀中的語(yǔ)音信號(hào)表示為:s(n)=h(n)*i(n),其中h(n)為語(yǔ)音信號(hào)s(n)的音源激勵(lì),i(n)為s(n)的聲道沖激相應(yīng)。對(duì)乘積h(n)*i(n)取幅度對(duì)數(shù),再對(duì)所得到聲道沖激響應(yīng)和音源激勵(lì)的傅里葉變換的對(duì)數(shù)之和進(jìn)行逆傅里葉變換,得到語(yǔ)音信號(hào)倒譜為:

        即為聲道分量的倒譜h`(n)和音源激勵(lì)分量的倒譜之i`(n)和,其中h`(n)是非常有效的語(yǔ)音特征參數(shù)。

        識(shí)別算法提供有效計(jì)算語(yǔ)音的特征矢量序列和每個(gè)發(fā)音樣本之間的距離。目前比較成熟的語(yǔ)音識(shí)別算法模型有模板匹配模型、向量量化模型、高斯混合模型、隱馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)模型以及多方法混合模型,在南疆維吾爾語(yǔ)音識(shí)別中采用成熟的模板匹配算法[8]來(lái)實(shí)現(xiàn)。

        先對(duì)識(shí)別樣本進(jìn)行訓(xùn)練,提取MFCC系數(shù)存儲(chǔ)在訓(xùn)練模板信息庫(kù)中。在識(shí)別時(shí)先提取輸入語(yǔ)音的特征參數(shù)(MFCC系數(shù)),將該特征參數(shù)與訓(xùn)練模板信息庫(kù)中特征參數(shù)進(jìn)行相似度比較,相似度最高的就作為識(shí)別結(jié)果。在實(shí)際過(guò)程中,語(yǔ)音信號(hào)具有較大的隨機(jī)性,這些時(shí)長(zhǎng)的變化會(huì)影響測(cè)度的估計(jì),因此在識(shí)別過(guò)程中需要對(duì)說(shuō)話偏差率進(jìn)行補(bǔ)償,常用的有效方法為動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)方法[9]。DTW是一種非線性規(guī)整,它將時(shí)間規(guī)整和距離測(cè)度計(jì)算相結(jié)合,設(shè)參考樣本的特征矢量序列為X={x1,x2,A,xI},待識(shí)別語(yǔ)音特征矢量序列為Y={y1,y2,A,yJ}通常因?yàn)闀r(shí)間不完全一致,I和J并不相等,DTW算法就是通過(guò)局部?jī)?yōu)化的方法實(shí)現(xiàn)加權(quán)距離總和最小,即

        其中f作為二者的匹配路徑。

        5 實(shí)驗(yàn)分析

        MATLAB軟件中提供了強(qiáng)大的語(yǔ)音處理工具包,借助該軟件仿真實(shí)現(xiàn)了一個(gè)非特定人的南疆維吾爾語(yǔ)的語(yǔ)音識(shí)別系統(tǒng)。系統(tǒng)使用10個(gè)常用詞作為測(cè)試樣本,發(fā)音為和田方言,選擇在實(shí)驗(yàn)室環(huán)境下每詞發(fā)音16次,錄音為單聲道PCM格式,采樣率為16 kHz,對(duì)應(yīng)采樣精度為16 bit。將采用中的10個(gè)語(yǔ)音數(shù)據(jù)作為訓(xùn)練樣本,對(duì)訓(xùn)練樣本經(jīng)預(yù)處理后分別提取特征參數(shù),然后對(duì)同1個(gè)詞的10個(gè)樣本特征參數(shù)進(jìn)行兩兩計(jì)算相似度,選擇匹配距離最小的3組,進(jìn)行第2輪篩選。在第2輪篩選中,用第1次選出每詞3個(gè)樣本和其余9個(gè)樣本的10個(gè)樣本進(jìn)行兩兩計(jì)算相似度,選擇匹配距離最大的2組作為模板樣本。對(duì)所有選出的模版樣本進(jìn)行訓(xùn)練,提取Mel倒譜系數(shù)作為特征參數(shù),并將訓(xùn)練樣本特征存儲(chǔ)。所有樣本模板訓(xùn)練好后,用其他6個(gè)語(yǔ)音數(shù)據(jù)作為測(cè)試樣本對(duì)該系統(tǒng)進(jìn)行試驗(yàn)。

        上述試驗(yàn)對(duì)南疆和田方言發(fā)音的6名特定人進(jìn)行測(cè)試,10個(gè)詞,每詞測(cè)試樣本7個(gè),總測(cè)試樣本為420,識(shí)別正確樣本394,識(shí)別正確率為93.8%,識(shí)別效果較好。

        6 結(jié)論與展望

        實(shí)驗(yàn)表明本研究方法對(duì)南疆維吾爾語(yǔ)語(yǔ)音(方言)非特定人語(yǔ)音識(shí)別效果較好,獲得了較理想的實(shí)驗(yàn)效果。但由于維吾爾語(yǔ)音方言發(fā)音復(fù)雜,包含音素豐富[10],聲道頻率變化多樣,較難提取出穩(wěn)定的特征參數(shù),識(shí)別難度大,距離自由人機(jī)交互的應(yīng)用更是還有很長(zhǎng)的路要走。

        本研究方法對(duì)維吾爾語(yǔ)語(yǔ)音實(shí)驗(yàn)研究有一定的借鑒意義,后期該項(xiàng)工作還有待優(yōu)化與完善,進(jìn)一步分析其語(yǔ)音發(fā)音特點(diǎn),優(yōu)化特征選擇及提取方法,設(shè)計(jì)多分類器識(shí)別模型,提高識(shí)別魯棒性及識(shí)別效率。

        [1] 姑麗加瑪麗·麥麥提艾力,艾斯卡爾·艾木都拉.多基元及韻律參數(shù)匹配的維吾爾語(yǔ)語(yǔ)音合成方法[J] .計(jì)算機(jī)工程與應(yīng)用,2012,48(2):116-117.

        [2] 艾斯卡爾·艾木都拉.從實(shí)驗(yàn)語(yǔ)音學(xué)角度探析維吾爾語(yǔ)鼻音的聲學(xué)特征[J] .中文信息學(xué)報(bào),2012(1):110-111.

        [3] 高琨琦.淺談數(shù)字音頻處理中的關(guān)鍵問(wèn)題[J] .電聲技術(shù),2011(8):66.

        [4] 吳朝暉,楊瑩春.說(shuō)話人識(shí)別模型與方法[M] .北京:清華大學(xué)出版社,2009:20-21.

        [5] 汪石農(nóng),許鋼等.多語(yǔ)音特征參數(shù)的端點(diǎn)檢測(cè)方法研究[J] .計(jì)算機(jī)工程與設(shè)計(jì),2012(2):685-686.

        [6] 韓立華,王博等.語(yǔ)音端點(diǎn)檢測(cè)技術(shù)研究進(jìn)展[J] .計(jì)算機(jī)應(yīng)用研究,2010(4):1222-1223.

        [7] 趙力編著.語(yǔ)音信號(hào)處理[M] .北京:機(jī)械工業(yè)出版社,2009:51-52.

        [8] 聶曉飛,趙禹,詹慶才.一種基于模板匹配的語(yǔ)音識(shí)別算法[J] .電子設(shè)計(jì)工程,2011(19):58-59.

        [9] 胡金平;陳若珠;李戰(zhàn)明;語(yǔ)音識(shí)別中DTW改進(jìn)算法的研究[J] .微型機(jī)與應(yīng)用,2011(3):30-31.

        [10] 木合塔爾·沙地克等.維吾爾語(yǔ)廣播新聞連續(xù)語(yǔ)音敏感詞檢索系統(tǒng)[J] .計(jì)算機(jī)系統(tǒng)應(yīng)用,2012(3):29-31.

        猜你喜歡
        維吾爾語(yǔ)南疆端點(diǎn)
        非特征端點(diǎn)條件下PM函數(shù)的迭代根
        南疆木棉紅似火
        歌海(2021年6期)2021-02-01 11:27:18
        南疆最美是春天
        藝術(shù)家(2020年6期)2020-08-10 08:35:28
        不等式求解過(guò)程中端點(diǎn)的確定
        統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語(yǔ)人名識(shí)別方法
        參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
        筑夢(mèng)南疆
        基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
        維吾爾語(yǔ)話題的韻律表現(xiàn)
        維吾爾語(yǔ)詞重音的形式判斷
        男女啪动最猛动态图| 中文亚洲一区二区三区| av日韩高清一区二区| 日本最新免费二区| 国产欧美VA欧美VA香蕉在| 精品久久久无码不卡| 国产精品一区二区三区播放| 午夜男女很黄的视频| 熟妇五十路六十路息与子| 亚洲大尺度动作在线观看一区| 久久久熟女一区二区三区| 一本精品99久久精品77| 玩弄放荡人妻一区二区三区| 一本色道久久综合亚洲精品蜜臀| 精品国产黄一区二区三区| 中文字幕久久熟女蜜桃 | 免费又黄又爽又猛的毛片| 久久亚洲国产精品五月天| 国产一级黄色片在线播放| 亚洲人交乣女bbw| 无码欧亚熟妇人妻AV在线外遇| 亚洲中文字幕av一区二区三区人| 亚洲国产精品国自拍av| 国产产区一二三产区区别在线| 97se亚洲国产综合自在线图片| 青青草久热手机在线视频观看| 人妻中文字幕在线中文字幕| 99久久婷婷国产综合精品电影| 亚洲亚洲网站三级片在线| av免费网站不卡观看| 日韩av无码中文字幕| 欧美丰满大屁股ass| 巨臀精品无码AV在线播放| 久久久精品亚洲一区二区国产av| а√资源新版在线天堂| 国产在线视频国产永久视频| 久久久精品少妇—二区| 欧美又粗又长又爽做受| 精品国产一区二区三区19| av天堂一区二区三区| 中出人妻希奇杰卡西av|