亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        小語(yǔ)料庫(kù)重慶話語(yǔ)音識(shí)別的研究

        2018-11-28 09:21:34,,
        計(jì)算機(jī)測(cè)量與控制 2018年11期
        關(guān)鍵詞:重慶模型

        , ,

        (重慶第二師范學(xué)院 數(shù)學(xué)與信息工程學(xué)院,重慶 400065)

        0 引言

        語(yǔ)音識(shí)別技術(shù)[1]是人機(jī)交互領(lǐng)域的重要研究?jī)?nèi)容,解決了人機(jī)交互過(guò)程中計(jì)算機(jī)不能夠聽(tīng)懂人說(shuō)話的問(wèn)題。語(yǔ)音識(shí)別技術(shù)起步于上世紀(jì)五十年代,發(fā)展至今已經(jīng)取得了長(zhǎng)足的進(jìn)步。國(guó)內(nèi)外很多科技公司都在語(yǔ)音識(shí)別領(lǐng)域進(jìn)行了深入的研究。如谷歌、微軟以及科大訊飛等公司已經(jīng)走在了語(yǔ)音識(shí)別領(lǐng)域最前沿。目前研究語(yǔ)音識(shí)別主要的研究對(duì)象是主流的語(yǔ)言,而關(guān)于方言的研究就相對(duì)少些。

        重慶話是重慶地區(qū)方言文化,承載著重慶本地的傳統(tǒng)文化,人口覆蓋超過(guò)3 000萬(wàn)。近些年來(lái),重慶的電子信息產(chǎn)業(yè)已經(jīng)成為重慶經(jīng)濟(jì)的重要增長(zhǎng)極,在2012年重慶市提出的“兩江有云,西永有端,南岸有網(wǎng)”的電子信息產(chǎn)業(yè)發(fā)展總戰(zhàn)略布局背景下,人工智能產(chǎn)品將在重慶各個(gè)領(lǐng)域廣泛應(yīng)用。語(yǔ)音識(shí)別是人工智能領(lǐng)域的重要組成部分,實(shí)現(xiàn)了計(jì)算機(jī)能“聽(tīng)懂”人的語(yǔ)音。重慶話語(yǔ)音識(shí)別的研究將有助于實(shí)現(xiàn)重慶地區(qū)的人們能夠自然地利用重慶話與人工智能產(chǎn)品進(jìn)行交流,實(shí)現(xiàn)“人機(jī)對(duì)話”,從而讓人們享受到科技發(fā)展給生活帶來(lái)的便利和高效。

        1 重慶話的發(fā)音特點(diǎn)

        重慶方言雖然也屬于漢語(yǔ),但是和漢語(yǔ)普通話存在一些差異。在聲母方面的差異,漢語(yǔ)普通話有21個(gè)聲母[2],而重慶話中沒(méi)有翹舌聲母/zh/、/ch/、/sh/以及鼻音聲母/n/;重慶話只有17個(gè)聲母[3-6],重慶話不能區(qū)分/n/和/l/,也就是說(shuō)沒(méi)有鼻音聲母/n/,并且通常把聲母/h/讀成/f/。在韻母方面的差異,漢語(yǔ)普通話共有39個(gè)韻母[2],而重慶話只有37個(gè)韻母[3-6],沒(méi)有/ing/和/eng/這兩個(gè)后鼻音韻母,多一個(gè)/vu/,少一個(gè)/ui/。漢語(yǔ)普通話、重慶話的聲母和韻母分別如表1、表2、表3和表4。

        表1 漢語(yǔ)普通話聲母表

        表2 漢語(yǔ)普通話韻母表

        表3 重慶話聲母表

        表4 重慶話韻母表

        2 重慶話識(shí)別方法

        簡(jiǎn)單來(lái)講,重慶話語(yǔ)音識(shí)別是利用聲學(xué)模型匹配方法將輸入是語(yǔ)音識(shí)別系統(tǒng)的待識(shí)別語(yǔ)音與經(jīng)過(guò)訓(xùn)練的聲學(xué)模型進(jìn)行模式匹配,并按照一定的判別規(guī)則得到待識(shí)別語(yǔ)音對(duì)應(yīng)的文本信息。

        2.1 訓(xùn)練方法

        語(yǔ)音識(shí)別過(guò)程中需要對(duì)語(yǔ)料庫(kù)中的語(yǔ)音基元建立聲學(xué)模型,并對(duì)語(yǔ)音基元的聲學(xué)模型的參數(shù)進(jìn)行訓(xùn)練[7],得到含有語(yǔ)音特征信息的聲學(xué)模型。對(duì)建立的聲學(xué)模型的狀態(tài)轉(zhuǎn)移概率進(jìn)行重估訓(xùn)練,重估訓(xùn)練的方法如公式(1)所示。

        (1)

        (2)

        從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的由公式(3)嵌入式重估完成。

        (3)

        然后,從HMM模型進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(4)嵌入式重估完成。

        (4)

        最后,從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(5)嵌入式重估完成。

        (5)

        在公式(2)、公式(3)、公式(4)以及公式(5)中的下標(biāo)q表示嵌入式重估的次數(shù),如果q沒(méi)有明顯的標(biāo)注出來(lái),嵌入式重估的輸出概率分布公式和單個(gè)模型的輸出分布是一樣。然而,概率計(jì)算公式必須將公式(6)變成公式(7)才能實(shí)現(xiàn)從入口狀態(tài)的轉(zhuǎn)移。

        (6)

        (7)

        語(yǔ)音識(shí)別中訓(xùn)練聲學(xué)模型的方法較多,以上7個(gè)公式僅僅是語(yǔ)音識(shí)別中對(duì)聲學(xué)模型進(jìn)行重估訓(xùn)練所涉及的基本公式。

        2.2 識(shí)別方法

        語(yǔ)音識(shí)別過(guò)程就是待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的模型進(jìn)行匹配,得到匹配度最高的聲學(xué)模型即是識(shí)別結(jié)果。待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的語(yǔ)音的匹配過(guò)程采用維特比算法實(shí)現(xiàn)。本文基于HMM模型的維特比算法基本思想是從觀測(cè)序列O=(o1,o2,o3,...,ot)中求取給定模型λ=(A,B,π)下的最大似然概率。維特比算法用于語(yǔ)音識(shí)別解碼的公式[7]如下所示。

        給定一個(gè)模型M,設(shè)Φj(t)表示在t時(shí)刻觀測(cè)到語(yǔ)音序列從O1到Ot處于j狀態(tài)的最大似然,那么Φj(t)如公式(8)所示。

        (8)

        其中:i和j為不同的狀態(tài),aij為狀態(tài)轉(zhuǎn)移概率,bj(ot)為輸出概率密度如公式(9)所示。

        (9)

        其中:cjsm是第m個(gè)分量的權(quán)重,Ν(o;μ,Σ)是具有均值向量μ和協(xié)方差矩陣Σ的多元高斯模型,ost是在時(shí)間t觀測(cè)向量被分成s個(gè)獨(dú)立的數(shù)據(jù)流。

        3 重慶話識(shí)別過(guò)程

        重慶話語(yǔ)音識(shí)別是將重慶話語(yǔ)音識(shí)別成文本的過(guò)程。重慶話語(yǔ)音識(shí)別分為兩個(gè)過(guò)程,即訓(xùn)練過(guò)程和識(shí)別過(guò)程。其中訓(xùn)練過(guò)程是利用語(yǔ)料對(duì)聲學(xué)模型進(jìn)行訓(xùn)練,最終得到聲學(xué)模型庫(kù);識(shí)別過(guò)程是將待識(shí)別的語(yǔ)音進(jìn)行預(yù)處理,然后提取語(yǔ)音的特征參數(shù),最后利用相應(yīng)的識(shí)別方法實(shí)現(xiàn)語(yǔ)音識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行分析得到識(shí)別結(jié)果。重慶話語(yǔ)音識(shí)別過(guò)程如圖1所示。

        圖1 重慶話語(yǔ)音識(shí)別過(guò)程

        3.1 建立重慶話語(yǔ)料庫(kù)

        首先采集本實(shí)驗(yàn)需要的語(yǔ)音文件對(duì)應(yīng)的文本,選擇重慶話和普通話發(fā)音標(biāo)準(zhǔn)的錄音人;然后按照實(shí)驗(yàn)方案分別錄制重慶話語(yǔ)音30句,重慶話口音的普通話語(yǔ)音30句,每句語(yǔ)音發(fā)音10遍,共得到(30+30)*10句語(yǔ)音;最后由重慶話語(yǔ)音以及重慶話口音的普通話語(yǔ)音文本和與之對(duì)應(yīng)的語(yǔ)音文件形成語(yǔ)料庫(kù)。

        語(yǔ)料庫(kù)由訓(xùn)練集和測(cè)試集組成,訓(xùn)練集中包含(30+30)*7句語(yǔ)料,測(cè)試集中包括(30+30)*3句語(yǔ)料。其中測(cè)試集細(xì)分為(30+30)*1句、(30+30)*2句以及(30+30)*3句。語(yǔ)料庫(kù)中語(yǔ)音對(duì)應(yīng)的文本如表5所示。

        表5 重慶話語(yǔ)料庫(kù)文本與發(fā)音對(duì)照表

        3.2 語(yǔ)音預(yù)處理

        語(yǔ)料庫(kù)中的語(yǔ)音是連續(xù)且非平穩(wěn)的信號(hào),而非平穩(wěn)的信號(hào)不便于處理,因此需要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。預(yù)處理包括采樣量化、分幀加窗以及預(yù)加重等過(guò)程。

        1)采樣量化是將連續(xù)語(yǔ)音信號(hào)轉(zhuǎn)換成離散數(shù)字信號(hào)。本實(shí)驗(yàn)的語(yǔ)料庫(kù)采用的采樣量化標(biāo)準(zhǔn)是16 kHz采樣、16 bit量化。

        2)分幀加窗是為了將語(yǔ)音信號(hào)進(jìn)行短時(shí)化處理,我們可以認(rèn)為語(yǔ)音信號(hào)長(zhǎng)度在10~30ms時(shí)為準(zhǔn)平穩(wěn)信號(hào),因此需要對(duì)語(yǔ)音信號(hào)加窗函數(shù)以實(shí)現(xiàn)短時(shí)化處理。常用的窗函數(shù)有矩形窗、哈明窗以及哈寧窗等,根據(jù)語(yǔ)音信號(hào)的特點(diǎn),本文選取哈明窗函數(shù),如公式(10)所示。

        (10)

        3)預(yù)加重是為了解決高頻低功率譜的問(wèn)題,即語(yǔ)音信號(hào)在高頻部分呈現(xiàn)低能量,而低頻部分呈現(xiàn)高能量的現(xiàn)象。在對(duì)語(yǔ)音信號(hào)進(jìn)行處理分析過(guò)程中需要提高語(yǔ)音高頻部分的功率譜,因此需要預(yù)加重處理。

        3.3 提取特征參數(shù)

        語(yǔ)音信號(hào)含有大量的信息,包括基頻、時(shí)長(zhǎng)以及頻譜等基本聲學(xué)參數(shù),也包括語(yǔ)音韻律等信息。為了便于對(duì)語(yǔ)音信號(hào)的處理,去掉一些不太重要的冗余信息,因此需要對(duì)語(yǔ)音信號(hào)提取能夠表征語(yǔ)音信號(hào)的相關(guān)參數(shù),即語(yǔ)音信號(hào)特征參數(shù)。語(yǔ)音特征參數(shù)常見(jiàn)的語(yǔ)音特征參數(shù)有線性預(yù)測(cè)系數(shù)(linear predictive coefficients, LPC)、線性預(yù)測(cè)倒譜系數(shù)(linear predictive cepstral coefficients, LPCC)、基于Mel頻率倒譜系數(shù)(mel frequency cepstral coefficients, MFCC)[8-9]。本論文根據(jù)聲學(xué)建模的需要,選擇接近人耳對(duì)語(yǔ)音信號(hào)頻率的感知特性的特征參數(shù)。以上3種參數(shù)中的基于Mel頻率倒譜系數(shù)(MFCC)作為特征參數(shù)。Mel頻率與Hz頻率之間的映射關(guān)系如公式(11)所示。

        fMel=(1000/lg2)×lg(1+0.001fHz)

        (11)

        MFCC特征參數(shù)的產(chǎn)生過(guò)程如圖2所示。

        圖2 MFCC參數(shù)提取過(guò)程

        本文對(duì)語(yǔ)音信號(hào)提取的信號(hào)是12維的MFCC特征參數(shù),為了反應(yīng)語(yǔ)音信號(hào)的停頓及重音等參數(shù)需要加上1維短時(shí)平均能量構(gòu)成13維特征參數(shù),并且為了表示語(yǔ)音的動(dòng)態(tài)特征,需對(duì)13維的特征參數(shù)求取一階差分和二階差分得到39維的特征參數(shù)。

        3.4 訓(xùn)練聲學(xué)模型

        語(yǔ)音基元是發(fā)聲的基本單元,本文是以重慶話的聲韻母為語(yǔ)音基元,因此要為參與模型訓(xùn)練的聲韻母建立聲學(xué)模型。常用的聲學(xué)模型較多,其中隱馬爾可夫模型(hidden markov model, HMM)[10-12]是應(yīng)用很廣泛的聲學(xué)模型。HMM模型是由“單鏈”的馬爾可夫演變?yōu)椤半p鏈”而來(lái),其中一條隱藏的鏈描述了狀態(tài)的轉(zhuǎn)移,產(chǎn)生了不可觀測(cè)的狀態(tài)序列;另外一條可見(jiàn)的鏈描述了狀態(tài)和觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。觀察者只能通過(guò)可見(jiàn)的觀測(cè)值來(lái)感知狀態(tài)的轉(zhuǎn)移關(guān)系。五狀態(tài)的HMM模型如圖3[13]所示。

        圖3 5狀態(tài)的HMM模型

        從圖3中可以看出,由于5狀態(tài)的HMM模型左右兩端的狀態(tài)只起到前后連接作用,這兩個(gè)狀態(tài)并沒(méi)有高斯分布,因此5狀態(tài)的HMM模型只有中間3個(gè)狀態(tài)有狀態(tài)轉(zhuǎn)移。

        聲學(xué)模型p(y|x,λ)在HMM模型中方可以變換如公式(12)所示。

        =

        (12)

        其中:P(·)表示一個(gè)概率密度函數(shù),p(yt|qt,λ)是第qt個(gè)狀態(tài)的狀態(tài)輸出概率密度,它是一個(gè)典型對(duì)角協(xié)方差矩陣的單高斯分布,并且q={q1,...,qT}是HMM狀態(tài)序列。

        為每一個(gè)語(yǔ)音基元建立了HMM模型之后,需要對(duì)HMM模型進(jìn)行重估訓(xùn)練,訓(xùn)練方法如2.1節(jié)。對(duì)訓(xùn)練后的HMM模型建立HMM模型庫(kù),模型庫(kù)中包含了(30+30)*7句語(yǔ)料的所有基元對(duì)應(yīng)的聲學(xué)模型。

        3.5 語(yǔ)音識(shí)別

        語(yǔ)音識(shí)別是將待識(shí)別的語(yǔ)音識(shí)別成對(duì)應(yīng)文本的過(guò)程,即在聲學(xué)模型和語(yǔ)言模型下,對(duì)待識(shí)別語(yǔ)音的特征參數(shù)進(jìn)行解碼,從而將語(yǔ)音識(shí)別成對(duì)應(yīng)的文本。

        語(yǔ)音識(shí)別過(guò)程分為4個(gè)大組,每1個(gè)大組再以測(cè)試語(yǔ)句細(xì)分為30句、60句以及90句3個(gè)小組,共計(jì)12組語(yǔ)音識(shí)別實(shí)驗(yàn)。具體的實(shí)驗(yàn)方案設(shè)計(jì)如下:

        1)利用重慶話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。

        2)利用重慶話口音的普通話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話口音的普通話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。

        3)利用重慶話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話口音的普通話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。

        4)利用重慶話口音的普通話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型,重慶話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。

        4 識(shí)別結(jié)果

        根據(jù)以上4個(gè)大組,共12個(gè)小組的實(shí)驗(yàn)方案分別進(jìn)行識(shí)別實(shí)驗(yàn),并將實(shí)驗(yàn)結(jié)果整理如表6所示。

        從表6中可以看出,重慶話和重慶口音的普通話對(duì)應(yīng)識(shí)別自己本身的正確識(shí)別率為100%,而兩種語(yǔ)音交叉進(jìn)行語(yǔ)音識(shí)別則呈現(xiàn)出不同的正確識(shí)別率。其中重慶話聲學(xué)模型去識(shí)別重慶話口音的普通話在不同的測(cè)試集下呈現(xiàn)出不同的識(shí)別結(jié)果,當(dāng)測(cè)試集為30句和60句時(shí)均為76.67%,而在90句時(shí)達(dá)到78.89%;重慶話口音的普通話聲學(xué)模型去識(shí)別重慶話在不同的測(cè)試集下也呈現(xiàn)出不同的識(shí)別結(jié)果,隨著測(cè)試集語(yǔ)句數(shù)的增加,正確識(shí)別率總體趨勢(shì)上也隨之增加,并在30句時(shí)達(dá)到90.00%,60句和90句時(shí)分別達(dá)到91.67%和91.11%。

        表6 12組實(shí)驗(yàn)結(jié)果

        5 結(jié)語(yǔ)

        本文以重慶話為實(shí)驗(yàn)研究對(duì)象,采集了重慶話文本,并將文本錄制成重慶話和重慶話口音的普通話,建立了兩種語(yǔ)音與之對(duì)應(yīng)的小語(yǔ)料庫(kù)。搭建了基于HMM的重慶話語(yǔ)音識(shí)別系統(tǒng),設(shè)計(jì)了12組語(yǔ)音識(shí)別方案,并得到了12個(gè)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明:在30句、60句以及90句測(cè)試集下重慶話和重慶話口音的普通話訓(xùn)練得到聲學(xué)模型分別去識(shí)別對(duì)應(yīng)的兩種語(yǔ)音的正確識(shí)別率均為100%;重慶話語(yǔ)音聲學(xué)模型識(shí)別重慶話口音的普通話語(yǔ)音的正確識(shí)別率要比重慶話口音的普通話語(yǔ)音聲學(xué)模型識(shí)別重慶話語(yǔ)音的正確識(shí)別率要高。

        猜你喜歡
        重慶模型
        一半模型
        重慶客APP
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        重慶人為什么愛(ài)吃花
        “逗樂(lè)坊”:徜徉相聲里的重慶味
        重慶非遺
        在這里看重慶
        今日重慶(2017年5期)2017-07-05 12:52:25
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        在线看片无码永久免费aⅴ| 色窝窝无码一区二区三区| 玩中年熟妇让你爽视频| 中文字幕av日韩精品一区二区 | 色噜噜av亚洲色一区二区| 99国产精品99久久久久久| 亚洲国产免费公开在线视频| 日本a爱视频二区三区| 国产美女做爰免费视频| 特级毛片a级毛片免费播放| 国产精品视频一区二区三区,| 中文字幕综合一区二区| 欧美人妻aⅴ中文字幕| 欧美日韩精品一区二区在线视频| 亚洲乱码一区AV春药高潮| 亚洲男人的天堂av一区| 无码人妻少妇久久中文字幕蜜桃| 国产精品一区二区久久| 精品免费看国产一区二区白浆| 99在线视频这里只有精品伊人| 久久婷婷人人澡人人喊人人爽| 日韩区在线| 日韩女同一区二区三区久久| 伊人久久综合无码成人网| 欧美亚洲国产片在线播放| 日本口爆吞精在线视频| 亚洲天码一区二区三区| 东京热久久综合久久88| 99久久久无码国产精品9| 精品粉嫩国产一区二区三区| 精品亚洲国产成人av色哟哟| a级国产乱理伦片在线播放| 国产午夜无码精品免费看动漫| 蜜桃国产精品视频网站| 欧美性猛交xxxx三人| 伊人99re| 亚洲一区二区三区码精品色| 亚洲自偷自拍另类第1页| 初尝黑人巨砲波多野结衣 | 国产女主播一区二区三区在线观看| 男人扒开女人双腿猛进视频|