亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的四川方言識(shí)別

        2016-06-08 06:48:51石佳影黃威
        現(xiàn)代計(jì)算機(jī) 2016年13期
        關(guān)鍵詞:深度模型

        石佳影,黃威

        (四川大學(xué)軟件學(xué)院,成都 610065)

        ?

        基于深度神經(jīng)網(wǎng)絡(luò)的四川方言識(shí)別

        石佳影,黃威

        (四川大學(xué)軟件學(xué)院,成都610065)

        摘要:

        關(guān)鍵詞:

        0 引言

        中國(guó)話將普通話作為官方語(yǔ)言,但是各地區(qū)、各民族的方言種類眾多,四川方言則普遍的通用于西南地區(qū)。四川方言是盛行于四川省和重慶市的主要方言,并對(duì)云貴地區(qū)方言產(chǎn)生深遠(yuǎn)影響,方言發(fā)音主要從古巴蜀語(yǔ)的西南官話演變而來(lái)。但由于四川方言缺少舌尖后音聲母和韻母兒化的特點(diǎn),四川方言發(fā)音與普通話有很大區(qū)別,這也同時(shí)表現(xiàn)在聲學(xué)特征方面,其中重點(diǎn)是表現(xiàn)在聲韻母系統(tǒng)和語(yǔ)音韻律不同。元音聲學(xué)特征的共振峰上的差異是四川方言與普通話聲韻母系統(tǒng)不同的主要表現(xiàn);普通發(fā)音音調(diào)和說(shuō)話語(yǔ)速之間的差別導(dǎo)致四川方言的語(yǔ)音韻律有明顯不同,其中用來(lái)衡量說(shuō)話人發(fā)音韻律變化的特征向量的連續(xù)動(dòng)態(tài)變化軌跡的差分特征表現(xiàn)最為明顯[1]。國(guó)內(nèi)對(duì)于語(yǔ)音識(shí)別技術(shù)已日趨成熟,但是方言識(shí)別還甚少研究,針對(duì)四川話的獨(dú)特發(fā)音特點(diǎn)和其聲學(xué)特征的明顯差異,本文提出一種基于深度神經(jīng)網(wǎng)絡(luò)的四川方言識(shí)別技術(shù)。

        聲學(xué)模型的使用決定著語(yǔ)音識(shí)別準(zhǔn)確與否。傳統(tǒng)的聲學(xué)建模方法是以隱馬爾科夫模型(Hidden Markov model,HMM)框架為基礎(chǔ),并采用混合高斯模型(Gaussian Mixture Model,GMM)來(lái)描述語(yǔ)音聲學(xué)特征的概率分布。但是這種聲學(xué)模型構(gòu)建方法是在一些不合理的假設(shè)基礎(chǔ)上提出的,其中主要的假設(shè)有聲學(xué)特征各維之間線性無(wú)關(guān)、概率分布形式服從混合高斯等[2]。這些假設(shè)的存在導(dǎo)致真實(shí)的概率分布不能準(zhǔn)確描述。在本文的研究中,提出了一種基于Kaldi平臺(tái)的深度神經(jīng)網(wǎng)絡(luò)模型的四川方言識(shí)別技術(shù),研究發(fā)現(xiàn)了四川方言的發(fā)音特征,并構(gòu)建了四川話發(fā)音字典和基于語(yǔ)音與普通話文本的四川方言語(yǔ)料庫(kù),實(shí)現(xiàn)了從四川方言對(duì)普通話的映射識(shí)別。實(shí)驗(yàn)結(jié)果表明,利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行四川話方言識(shí)別,出錯(cuò)率隨著訓(xùn)練集數(shù)據(jù)的增多,有明顯下降趨勢(shì),并保持在較低狀態(tài),當(dāng)訓(xùn)練集有1435條數(shù)據(jù)量時(shí),出錯(cuò)率明顯下降到5%。

        1 特征參數(shù)的提取

        在進(jìn)行特征提取時(shí),常用的倒譜系數(shù)有:線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstrum Coefficient簡(jiǎn)稱LPCC)和梅爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficient簡(jiǎn)稱MFCC)[3]。倒譜系數(shù)作為聲道共振性能的反映,其中基于MFCC的特征利用了聽(tīng)覺(jué)模型的研究成果,并且對(duì)輸入信號(hào)沒(méi)有限制,也不會(huì)因?yàn)樾盘?hào)性質(zhì)不同而造成明顯的特征差異。因此,采用魯邦性更好的梅爾倒譜系數(shù)特征能更有效地提取語(yǔ)音特征參數(shù),除此之外梅爾倒譜對(duì)卷積性信道失真有補(bǔ)償?shù)哪芰?,基于以上原因,本研究同樣采取MFCC進(jìn)行四川方言語(yǔ)音特征參數(shù)提取。

        圖1 特征參數(shù)的計(jì)算過(guò)程

        圖1為語(yǔ)音特征參數(shù)MFCC提取過(guò)程。連續(xù)的一段語(yǔ)音經(jīng)過(guò)預(yù)加重處理,提升語(yǔ)音中高頻部分,是信號(hào)的族譜變得平坦,使其能用同樣的信噪比求頻譜。之后進(jìn)行分幀處理和加窗處理,在分幀處理中幀長(zhǎng)設(shè)置為256,采樣頻率設(shè)置為為8 kHz;下一步是FFT處理,在這個(gè)環(huán)節(jié)中對(duì)加窗處理之后的每幀語(yǔ)音信號(hào)x(n)進(jìn)行FFT變換得到信號(hào)的頻譜X(n);之后i將每幀信號(hào)的離散功率譜用M階三角濾波器濾波(傳遞參數(shù)為Hm(k),中心頻率為f(m),m=1,2,…,M,關(guān)系如圖2所示),三角濾波器的頻率響應(yīng)定義為:

        其中:

        計(jì)算每個(gè)三角濾波器組輸出的對(duì)數(shù)能量譜:

        經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):

        提取了MFCC參數(shù)后,再求一階查分特征參數(shù)(ΔMFCC)和二階差分參數(shù)(ΔMFCC),其公式為:

        圖2 f(m)與H(m)的關(guān)系

        圖3 一段語(yǔ)音的MFCC和階數(shù)與幅值的關(guān)系

        2 模型及訓(xùn)練

        2.1深度神經(jīng)網(wǎng)絡(luò)模型(DNN)

        深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)本質(zhì)上是一個(gè)帶有很多隱含層的多層感知器。深度神經(jīng)網(wǎng)絡(luò)(DNN)是在專家乘積(PoE)系統(tǒng)上的改進(jìn),并且DNN與傳統(tǒng)的專家求和系統(tǒng)(SoE)有本質(zhì)差異。按照Hinton的說(shuō)法[4],DNN是由輸入層、隱含層和輸出層構(gòu)成,這種神經(jīng)網(wǎng)絡(luò)之所以稱為深度神經(jīng)網(wǎng)絡(luò)是因?yàn)樗闹虚g隱含層多于3層。深度神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)音識(shí)別在一定程度上優(yōu)于相比于混合高斯模型,主要體現(xiàn)在兩個(gè)方面。第一,使用DNN可以直接使用相鄰的幀的結(jié)構(gòu)信息;第二,DNN模型允許的輸入特征是沒(méi)有限制的,離散或者連續(xù)或者多種混合特征都可以作為輸入。并且研究發(fā)現(xiàn)DNN的性能提升最重要的原因是相鄰幀的結(jié)構(gòu)信息的互相使用。為了描述神經(jīng)網(wǎng)絡(luò),先介紹最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò),即單個(gè)神經(jīng)元,如圖4所示。

        該神經(jīng)元接收4個(gè)輸入,x1,x2,x3,x4和一個(gè)偏置+1,其輸出為:

        其中,Wi為xi在輸入中的權(quán)重,函數(shù)f(x)被稱作激活函數(shù)。

        圖4 單個(gè)神經(jīng)元

        神經(jīng)網(wǎng)絡(luò)將許多單一的神經(jīng)元連接在一起,而DNN則是由多層神經(jīng)網(wǎng)絡(luò)構(gòu)成的龐大網(wǎng)絡(luò)模型,如圖5所示。其中a表示當(dāng)前層輸入,z表示當(dāng)前層的輸出。對(duì)于中間層采用sigmoid激活函數(shù)[5]的神經(jīng)元來(lái)說(shuō)輸入和輸出按如下公式進(jìn)行計(jì)算:

        對(duì)于輸出層采用softmax分類器的神經(jīng)元,輸入和輸出計(jì)算公式如下:

        其中,y表示神經(jīng)網(wǎng)絡(luò)輸出,L表示神經(jīng)網(wǎng)絡(luò)隱層數(shù),N表示輸出層神經(jīng)元數(shù)量。

        圖5 深度神經(jīng)網(wǎng)絡(luò)

        2.2四川方言語(yǔ)料庫(kù)

        為了支持四川方言的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)了四川方言語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)由1435條四川方言發(fā)音(涵蓋四川方言中成渝片及灌赤片)構(gòu)成。其中80%數(shù)據(jù)來(lái)源為四川地區(qū)本土風(fēng)情影視作品,20%數(shù)據(jù)來(lái)源為10個(gè)說(shuō)話人(男性:10人,女性:7人),其中每個(gè)說(shuō)話人的發(fā)音包括12或13條語(yǔ)句。并且該語(yǔ)料庫(kù)的所有數(shù)據(jù)均配有對(duì)應(yīng)四川話、普通話中文釋義和對(duì)應(yīng)字詞典,以及分詞文件。

        語(yǔ)音數(shù)據(jù)中來(lái)源于影視作品的部分?jǐn)?shù)據(jù)源為《王保長(zhǎng)外傳》、《奇人安世敏》、《讓子彈飛》、《傻兒軍長(zhǎng)》、《李伯清單口相聲》等。語(yǔ)音數(shù)據(jù)中來(lái)源于說(shuō)話人錄制的數(shù)據(jù)錄音設(shè)備為三星I9500移動(dòng)手機(jī),錄音環(huán)境為普通辦公室環(huán)境。所有的語(yǔ)料庫(kù)數(shù)據(jù)均為wav格式,單聲道,量化精度16bit,采樣頻率16khz,語(yǔ)速為正常說(shuō)話語(yǔ)速。錄音時(shí),沒(méi)有刻意避免周圍環(huán)境噪聲。

        2.3模型訓(xùn)練

        DNN模型訓(xùn)練主要分為三個(gè)階段。第一,基于RBMS(受限波爾滋蔓機(jī)),對(duì)每一層進(jìn)行預(yù)訓(xùn)練;第二,每一幀進(jìn)行交叉熵訓(xùn)練;第三,用格子框架通過(guò)sMBR準(zhǔn)則(狀態(tài)的最小貝葉斯風(fēng)險(xiǎn)),對(duì)序列的區(qū)分性訓(xùn)練。

        預(yù)訓(xùn)練中,我們將句子級(jí)別和幀級(jí)別上分別置亂來(lái)模仿從訓(xùn)練數(shù)據(jù)分布里提取樣本,每一個(gè)Minibatch更新一次。在交叉熵訓(xùn)練中,采用BP算法,由DNN計(jì)算得到的預(yù)估概率分布之間的交叉熵作為目標(biāo)函數(shù)再通過(guò)Mini-batch隨機(jī)梯度下降算法來(lái)將每一幀分成三音素狀態(tài)來(lái)訓(xùn)練,默認(rèn)的學(xué)習(xí)率為0.008,Minibatch的大小為256。模型學(xué)習(xí)率在最初的幾次迭代中是保持不變的,當(dāng)神經(jīng)網(wǎng)絡(luò)不在提高,我們?cè)诿看斡?xùn)練時(shí)將學(xué)習(xí)率減半,直到它再次停止提高。

        3 實(shí)驗(yàn)及討論

        實(shí)驗(yàn)分別用不同的訓(xùn)練集Train1和Train2進(jìn)行模型訓(xùn)練,訓(xùn)練集的數(shù)據(jù)分布如表1所示。對(duì)測(cè)試語(yǔ)言進(jìn)行24維MFCC特征提取,并用DNN模型和softmax函數(shù)進(jìn)行分類計(jì)算。

        表1 實(shí)驗(yàn)數(shù)據(jù)分布

        實(shí)驗(yàn)結(jié)果表明,利用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行四川方言識(shí)別大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率。由于訓(xùn)練數(shù)據(jù)的增多,會(huì)加大的增加模型訓(xùn)練數(shù)量,所以適當(dāng)?shù)挠?xùn)練數(shù)據(jù)量對(duì)于識(shí)別效率的限制是比較大的,在本次研究采用的訓(xùn)練數(shù)據(jù)量為75min的479條語(yǔ)音數(shù)據(jù)和220min的1435條語(yǔ)音數(shù)據(jù)。從表2可以看出采取適當(dāng)并且盡可能多的訓(xùn)練數(shù)據(jù),可以明顯的提高四川方言的識(shí)別率,減少識(shí)別出錯(cuò)率。并在220min的訓(xùn)練模型下的語(yǔ)音識(shí)別出錯(cuò)率明顯降為4.5%,比75min的訓(xùn)練模型出錯(cuò)率下降了16.3%,得到了明顯的準(zhǔn)確率的提升。

        表2 實(shí)驗(yàn)結(jié)果

        4 結(jié)語(yǔ)

        本文提出的深度神經(jīng)網(wǎng)絡(luò)模型是一個(gè)高容量復(fù)雜的網(wǎng)絡(luò)模型,其層數(shù)較多,每一層都單獨(dú)訓(xùn)練。研究中采用的基于深度神經(jīng)網(wǎng)絡(luò)的四川方言語(yǔ)音識(shí)別方法,基于Kaldi平臺(tái),成功搭建了四川方言深度神經(jīng)網(wǎng)絡(luò)模型,同時(shí)構(gòu)建了擁有1435條數(shù)據(jù)量的四川方言語(yǔ)料庫(kù)。本實(shí)驗(yàn)為了減少訓(xùn)練數(shù)據(jù)質(zhì)量對(duì)識(shí)別結(jié)果的影響,利用HMM中基于三因素的方法進(jìn)行識(shí)別。實(shí)驗(yàn)顯示該方法極大地降低了方言識(shí)別的出錯(cuò)率,隨著訓(xùn)練集數(shù)據(jù)的增多,有明顯下降趨勢(shì),并保持在較低狀態(tài)。當(dāng)訓(xùn)練數(shù)據(jù)量為220min時(shí),四川方言識(shí)別出錯(cuò)率為4.5%。

        參考文獻(xiàn):

        [1]王岐學(xué),錢盛友,趙新民.基于差分特征和高斯混合模型的湖南方言識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(35):129-131.

        [2]Auger L. The Journal of the Acoustical Society of America.[M]. American Institute of Physics for the Acoustical Society of America,1929.

        [3]Zhang H,Li D. Naive Bayes Text Classifier[C]// Granular Computing,2007. GRC 2007. IEEE International Conference on. IEEE,2007:708-708.

        [4]Hinton G,Deng L,Yu D,et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine,2012,29(6):82-97.

        [5]張雨濃,曲璐,陳俊維,等.多輸入Sigmoid激勵(lì)函數(shù)神經(jīng)網(wǎng)絡(luò)權(quán)值與結(jié)構(gòu)確定法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(11):4113-4116.

        Sichuan Dialect Speech Recognition Based on Deep Neural Network

        SHI Jia-ying,HUANG Wei
        (College of Software Engineering,Sichuan University,Chengdu 610065)

        Abstract:

        Keywords:

        針對(duì)四川方言的發(fā)音以及音調(diào)的特點(diǎn),提出一種新的基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的四川方言語(yǔ)音識(shí)別方法。該研究基于Kaldi平臺(tái)提供的深度神經(jīng)網(wǎng)絡(luò)模型,利用梅爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficient,MFCC)對(duì)四川方言進(jìn)行特征提取并構(gòu)建四川話發(fā)音字典對(duì)四川方言進(jìn)行識(shí)別研究,實(shí)現(xiàn)從四川方言對(duì)普通話的映射識(shí)別,并構(gòu)建基于語(yǔ)音與普通話標(biāo)簽的四川方言語(yǔ)料庫(kù)。實(shí)驗(yàn)結(jié)果表明,采用該方法進(jìn)行四川方言識(shí)別,出錯(cuò)率隨著訓(xùn)練集數(shù)據(jù)的增多有明顯下降趨勢(shì),并保持在較低狀態(tài)。

        四川方言識(shí)別;深度神經(jīng)網(wǎng)絡(luò);語(yǔ)音識(shí)別

        文章編號(hào):1007-1423(2016)13-0003-04

        DOI:10.3969/j.issn.1007-1423.2016.13.001

        作者簡(jiǎn)介:

        石佳影(1995-),女,河北唐山人,本科,研究方向?yàn)闄C(jī)器智能

        黃威(1995-),男,浙江溫州人,本科,研究方向?yàn)闄C(jī)器智能

        收稿日期:2016-01-12修稿日期:2016-04-30

        In view of the pronunciation and tone of Sichuan dialect,presents a new method of speech recognition based on deep neural network (DNN)in Sichuan dialect. This study is based on the deep neural network model provided by Kaldi platform,which uses Mel-scale Frequency Cepstral Coefficient(MFCC)to extract the features and constructs the pronunciation dictionary of Sichuan dialect. This recognition method maps from Sichuan dialect to mandarin,and we also construct the Sichuan dialect corpus based on the pronunciation and the Chinese label. The experimental results show that with this method of speech recognition,the error rate has a clear downward trend with the increase of the training set data,and keeps in a low state.

        Sichuan Dialect Speech Recognition;Deep Neural Network;Speech Recognition

        猜你喜歡
        深度模型
        一半模型
        深度理解一元一次方程
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        深度觀察
        深度觀察
        深度觀察
        深度觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        极品美女尤物嫩模啪啪| 精品无码人妻一区二区三区不卡| 亚洲熟伦熟女新五十路熟妇| 久久频精品99香蕉国产| 小草手机视频在线观看| 中出人妻希奇杰卡西av| 48沈阳熟女高潮嗷嗷叫| 久久精品无码一区二区三区不| 亚洲av色香蕉第一区二区三区| 日韩一区在线精品视频| 精品久久久无码中字| aaa毛片视频免费观看| 在线一区二区三区免费视频观看| 中文字幕女同系列在线看一| а√资源新版在线天堂| 99热精品国产三级在线观看 | 在线观看免费的黄片小视频| 大尺度免费观看av网站| 日本一卡2卡3卡四卡精品网站| 精品国产福利久久久| 麻豆国产精品伦理视频| 亚洲av成人无码久久精品老人| 亚洲精品综合一区二区三| 久久综合给合久久狠狠狠9| av在线播放免费观看| 国产午夜福利久久精品| 久久精品国产夜色| 久久精品av一区二区免费| 亚洲国产高清精品在线| 8av国产精品爽爽ⅴa在线观看| 日本专区一区二区三区| 色爱区综合激情五月综合小说| 久久一区av蜜桃人妻| 中文字日产幕码三区国产| www插插插无码视频网站| 亚洲精品黄网在线观看| 日本久久视频在线观看| 久久人人爽爽爽人久久久| 亚洲精品国产美女久久久| 高清亚洲精品一区二区三区| 少妇真人直播免费视频|