亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

小語(yǔ)料庫(kù)重慶話語(yǔ)音識(shí)別的研究

2018-11-28 09:21:34,,

計(jì)算機(jī)測(cè)量與控制 2018年11期

關(guān)鍵詞：重慶模型

, ,

(重慶第二師范學(xué)院數(shù)學(xué)與信息工程學(xué)院，重慶 400065)

0 引言

語(yǔ)音識(shí)別技術(shù)[1]是人機(jī)交互領(lǐng)域的重要研究?jī)?nèi)容，解決了人機(jī)交互過(guò)程中計(jì)算機(jī)不能夠聽(tīng)懂人說(shuō)話的問(wèn)題。語(yǔ)音識(shí)別技術(shù)起步于上世紀(jì)五十年代，發(fā)展至今已經(jīng)取得了長(zhǎng)足的進(jìn)步。國(guó)內(nèi)外很多科技公司都在語(yǔ)音識(shí)別領(lǐng)域進(jìn)行了深入的研究。如谷歌、微軟以及科大訊飛等公司已經(jīng)走在了語(yǔ)音識(shí)別領(lǐng)域最前沿。目前研究語(yǔ)音識(shí)別主要的研究對(duì)象是主流的語(yǔ)言，而關(guān)于方言的研究就相對(duì)少些。

重慶話是重慶地區(qū)方言文化，承載著重慶本地的傳統(tǒng)文化，人口覆蓋超過(guò)3 000萬(wàn)。近些年來(lái)，重慶的電子信息產(chǎn)業(yè)已經(jīng)成為重慶經(jīng)濟(jì)的重要增長(zhǎng)極，在2012年重慶市提出的“兩江有云，西永有端，南岸有網(wǎng)”的電子信息產(chǎn)業(yè)發(fā)展總戰(zhàn)略布局背景下，人工智能產(chǎn)品將在重慶各個(gè)領(lǐng)域廣泛應(yīng)用。語(yǔ)音識(shí)別是人工智能領(lǐng)域的重要組成部分，實(shí)現(xiàn)了計(jì)算機(jī)能“聽(tīng)懂”人的語(yǔ)音。重慶話語(yǔ)音識(shí)別的研究將有助于實(shí)現(xiàn)重慶地區(qū)的人們能夠自然地利用重慶話與人工智能產(chǎn)品進(jìn)行交流，實(shí)現(xiàn)“人機(jī)對(duì)話”，從而讓人們享受到科技發(fā)展給生活帶來(lái)的便利和高效。

1 重慶話的發(fā)音特點(diǎn)

重慶方言雖然也屬于漢語(yǔ)，但是和漢語(yǔ)普通話存在一些差異。在聲母方面的差異，漢語(yǔ)普通話有21個(gè)聲母[2]，而重慶話中沒(méi)有翹舌聲母/zh/、/ch/、/sh/以及鼻音聲母/n/；重慶話只有17個(gè)聲母[3-6]，重慶話不能區(qū)分/n/和/l/，也就是說(shuō)沒(méi)有鼻音聲母/n/，并且通常把聲母/h/讀成/f/。在韻母方面的差異，漢語(yǔ)普通話共有39個(gè)韻母[2]，而重慶話只有37個(gè)韻母[3-6]，沒(méi)有/ing/和/eng/這兩個(gè)后鼻音韻母，多一個(gè)/vu/,少一個(gè)/ui/。漢語(yǔ)普通話、重慶話的聲母和韻母分別如表1、表2、表3和表4。

表1 漢語(yǔ)普通話聲母表

表2 漢語(yǔ)普通話韻母表

表3 重慶話聲母表

表4 重慶話韻母表

2 重慶話識(shí)別方法

簡(jiǎn)單來(lái)講，重慶話語(yǔ)音識(shí)別是利用聲學(xué)模型匹配方法將輸入是語(yǔ)音識(shí)別系統(tǒng)的待識(shí)別語(yǔ)音與經(jīng)過(guò)訓(xùn)練的聲學(xué)模型進(jìn)行模式匹配，并按照一定的判別規(guī)則得到待識(shí)別語(yǔ)音對(duì)應(yīng)的文本信息。

2.1 訓(xùn)練方法

語(yǔ)音識(shí)別過(guò)程中需要對(duì)語(yǔ)料庫(kù)中的語(yǔ)音基元建立聲學(xué)模型，并對(duì)語(yǔ)音基元的聲學(xué)模型的參數(shù)進(jìn)行訓(xùn)練[7]，得到含有語(yǔ)音特征信息的聲學(xué)模型。對(duì)建立的聲學(xué)模型的狀態(tài)轉(zhuǎn)移概率進(jìn)行重估訓(xùn)練，重估訓(xùn)練的方法如公式(1)所示。

(1)

(2)

從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的由公式(3)嵌入式重估完成。

(3)

然后，從HMM模型進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(4)嵌入式重估完成。

(4)

最后，從HMM模型的非發(fā)射入口狀態(tài)進(jìn)入HMM模型的非發(fā)射入口狀態(tài)由公式(5)嵌入式重估完成。

(5)

在公式(2)、公式(3)、公式(4)以及公式(5)中的下標(biāo)q表示嵌入式重估的次數(shù)，如果q沒(méi)有明顯的標(biāo)注出來(lái)，嵌入式重估的輸出概率分布公式和單個(gè)模型的輸出分布是一樣。然而，概率計(jì)算公式必須將公式(6)變成公式(7)才能實(shí)現(xiàn)從入口狀態(tài)的轉(zhuǎn)移。

(6)

(7)

語(yǔ)音識(shí)別中訓(xùn)練聲學(xué)模型的方法較多，以上7個(gè)公式僅僅是語(yǔ)音識(shí)別中對(duì)聲學(xué)模型進(jìn)行重估訓(xùn)練所涉及的基本公式。

2.2 識(shí)別方法

語(yǔ)音識(shí)別過(guò)程就是待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的模型進(jìn)行匹配，得到匹配度最高的聲學(xué)模型即是識(shí)別結(jié)果。待識(shí)別語(yǔ)音的聲學(xué)模型和聲學(xué)模型庫(kù)中的語(yǔ)音的匹配過(guò)程采用維特比算法實(shí)現(xiàn)。本文基于HMM模型的維特比算法基本思想是從觀測(cè)序列O=(o1,o2,o3,...,ot)中求取給定模型λ=(A,B,π)下的最大似然概率。維特比算法用于語(yǔ)音識(shí)別解碼的公式[7]如下所示。

給定一個(gè)模型M，設(shè)Φj(t)表示在t時(shí)刻觀測(cè)到語(yǔ)音序列從O1到Ot處于j狀態(tài)的最大似然，那么Φj(t)如公式(8)所示。

(8)

其中:i和j為不同的狀態(tài)，aij為狀態(tài)轉(zhuǎn)移概率，bj(ot)為輸出概率密度如公式(9)所示。

(9)

其中:cjsm是第m個(gè)分量的權(quán)重，Ν(o;μ,Σ)是具有均值向量μ和協(xié)方差矩陣Σ的多元高斯模型，ost是在時(shí)間t觀測(cè)向量被分成s個(gè)獨(dú)立的數(shù)據(jù)流。

3 重慶話識(shí)別過(guò)程

重慶話語(yǔ)音識(shí)別是將重慶話語(yǔ)音識(shí)別成文本的過(guò)程。重慶話語(yǔ)音識(shí)別分為兩個(gè)過(guò)程，即訓(xùn)練過(guò)程和識(shí)別過(guò)程。其中訓(xùn)練過(guò)程是利用語(yǔ)料對(duì)聲學(xué)模型進(jìn)行訓(xùn)練，最終得到聲學(xué)模型庫(kù)；識(shí)別過(guò)程是將待識(shí)別的語(yǔ)音進(jìn)行預(yù)處理，然后提取語(yǔ)音的特征參數(shù)，最后利用相應(yīng)的識(shí)別方法實(shí)現(xiàn)語(yǔ)音識(shí)別，并對(duì)識(shí)別結(jié)果進(jìn)行分析得到識(shí)別結(jié)果。重慶話語(yǔ)音識(shí)別過(guò)程如圖1所示。

圖1 重慶話語(yǔ)音識(shí)別過(guò)程

3.1 建立重慶話語(yǔ)料庫(kù)

首先采集本實(shí)驗(yàn)需要的語(yǔ)音文件對(duì)應(yīng)的文本，選擇重慶話和普通話發(fā)音標(biāo)準(zhǔn)的錄音人；然后按照實(shí)驗(yàn)方案分別錄制重慶話語(yǔ)音30句，重慶話口音的普通話語(yǔ)音30句，每句語(yǔ)音發(fā)音10遍，共得到(30+30)*10句語(yǔ)音；最后由重慶話語(yǔ)音以及重慶話口音的普通話語(yǔ)音文本和與之對(duì)應(yīng)的語(yǔ)音文件形成語(yǔ)料庫(kù)。

語(yǔ)料庫(kù)由訓(xùn)練集和測(cè)試集組成，訓(xùn)練集中包含(30+30)*7句語(yǔ)料，測(cè)試集中包括(30+30)*3句語(yǔ)料。其中測(cè)試集細(xì)分為(30+30)*1句、(30+30)*2句以及(30+30)*3句。語(yǔ)料庫(kù)中語(yǔ)音對(duì)應(yīng)的文本如表5所示。

表5 重慶話語(yǔ)料庫(kù)文本與發(fā)音對(duì)照表

3.2 語(yǔ)音預(yù)處理

語(yǔ)料庫(kù)中的語(yǔ)音是連續(xù)且非平穩(wěn)的信號(hào)，而非平穩(wěn)的信號(hào)不便于處理，因此需要對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理。預(yù)處理包括采樣量化、分幀加窗以及預(yù)加重等過(guò)程。

1)采樣量化是將連續(xù)語(yǔ)音信號(hào)轉(zhuǎn)換成離散數(shù)字信號(hào)。本實(shí)驗(yàn)的語(yǔ)料庫(kù)采用的采樣量化標(biāo)準(zhǔn)是16 kHz采樣、16 bit量化。

2)分幀加窗是為了將語(yǔ)音信號(hào)進(jìn)行短時(shí)化處理，我們可以認(rèn)為語(yǔ)音信號(hào)長(zhǎng)度在10～30ms時(shí)為準(zhǔn)平穩(wěn)信號(hào)，因此需要對(duì)語(yǔ)音信號(hào)加窗函數(shù)以實(shí)現(xiàn)短時(shí)化處理。常用的窗函數(shù)有矩形窗、哈明窗以及哈寧窗等，根據(jù)語(yǔ)音信號(hào)的特點(diǎn)，本文選取哈明窗函數(shù)，如公式(10)所示。

(10)

3)預(yù)加重是為了解決高頻低功率譜的問(wèn)題，即語(yǔ)音信號(hào)在高頻部分呈現(xiàn)低能量，而低頻部分呈現(xiàn)高能量的現(xiàn)象。在對(duì)語(yǔ)音信號(hào)進(jìn)行處理分析過(guò)程中需要提高語(yǔ)音高頻部分的功率譜，因此需要預(yù)加重處理。

3.3 提取特征參數(shù)

語(yǔ)音信號(hào)含有大量的信息，包括基頻、時(shí)長(zhǎng)以及頻譜等基本聲學(xué)參數(shù)，也包括語(yǔ)音韻律等信息。為了便于對(duì)語(yǔ)音信號(hào)的處理，去掉一些不太重要的冗余信息，因此需要對(duì)語(yǔ)音信號(hào)提取能夠表征語(yǔ)音信號(hào)的相關(guān)參數(shù)，即語(yǔ)音信號(hào)特征參數(shù)。語(yǔ)音特征參數(shù)常見(jiàn)的語(yǔ)音特征參數(shù)有線性預(yù)測(cè)系數(shù)(linear predictive coefficients, LPC)、線性預(yù)測(cè)倒譜系數(shù)(linear predictive cepstral coefficients, LPCC)、基于Mel頻率倒譜系數(shù)(mel frequency cepstral coefficients, MFCC)[8-9]。本論文根據(jù)聲學(xué)建模的需要，選擇接近人耳對(duì)語(yǔ)音信號(hào)頻率的感知特性的特征參數(shù)。以上3種參數(shù)中的基于Mel頻率倒譜系數(shù)(MFCC)作為特征參數(shù)。Mel頻率與Hz頻率之間的映射關(guān)系如公式(11)所示。

fMel=(1000/lg2)×lg(1+0.001fHz)

(11)

MFCC特征參數(shù)的產(chǎn)生過(guò)程如圖2所示。

圖2 MFCC參數(shù)提取過(guò)程

本文對(duì)語(yǔ)音信號(hào)提取的信號(hào)是12維的MFCC特征參數(shù)，為了反應(yīng)語(yǔ)音信號(hào)的停頓及重音等參數(shù)需要加上1維短時(shí)平均能量構(gòu)成13維特征參數(shù)，并且為了表示語(yǔ)音的動(dòng)態(tài)特征，需對(duì)13維的特征參數(shù)求取一階差分和二階差分得到39維的特征參數(shù)。

3.4 訓(xùn)練聲學(xué)模型

語(yǔ)音基元是發(fā)聲的基本單元，本文是以重慶話的聲韻母為語(yǔ)音基元，因此要為參與模型訓(xùn)練的聲韻母建立聲學(xué)模型。常用的聲學(xué)模型較多，其中隱馬爾可夫模型(hidden markov model, HMM)[10-12]是應(yīng)用很廣泛的聲學(xué)模型。HMM模型是由“單鏈”的馬爾可夫演變?yōu)椤半p鏈”而來(lái)，其中一條隱藏的鏈描述了狀態(tài)的轉(zhuǎn)移，產(chǎn)生了不可觀測(cè)的狀態(tài)序列；另外一條可見(jiàn)的鏈描述了狀態(tài)和觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。觀察者只能通過(guò)可見(jiàn)的觀測(cè)值來(lái)感知狀態(tài)的轉(zhuǎn)移關(guān)系。五狀態(tài)的HMM模型如圖3[13]所示。

圖3 5狀態(tài)的HMM模型

從圖3中可以看出，由于5狀態(tài)的HMM模型左右兩端的狀態(tài)只起到前后連接作用，這兩個(gè)狀態(tài)并沒(méi)有高斯分布，因此5狀態(tài)的HMM模型只有中間3個(gè)狀態(tài)有狀態(tài)轉(zhuǎn)移。

聲學(xué)模型p(y|x,λ)在HMM模型中方可以變換如公式(12)所示。

(12)

其中:P(·)表示一個(gè)概率密度函數(shù)，p(yt|qt,λ)是第qt個(gè)狀態(tài)的狀態(tài)輸出概率密度，它是一個(gè)典型對(duì)角協(xié)方差矩陣的單高斯分布，并且q={q1,...,qT}是HMM狀態(tài)序列。

為每一個(gè)語(yǔ)音基元建立了HMM模型之后，需要對(duì)HMM模型進(jìn)行重估訓(xùn)練，訓(xùn)練方法如2.1節(jié)。對(duì)訓(xùn)練后的HMM模型建立HMM模型庫(kù)，模型庫(kù)中包含了(30+30)*7句語(yǔ)料的所有基元對(duì)應(yīng)的聲學(xué)模型。

3.5 語(yǔ)音識(shí)別

語(yǔ)音識(shí)別是將待識(shí)別的語(yǔ)音識(shí)別成對(duì)應(yīng)文本的過(guò)程，即在聲學(xué)模型和語(yǔ)言模型下，對(duì)待識(shí)別語(yǔ)音的特征參數(shù)進(jìn)行解碼，從而將語(yǔ)音識(shí)別成對(duì)應(yīng)的文本。

語(yǔ)音識(shí)別過(guò)程分為4個(gè)大組，每1個(gè)大組再以測(cè)試語(yǔ)句細(xì)分為30句、60句以及90句3個(gè)小組，共計(jì)12組語(yǔ)音識(shí)別實(shí)驗(yàn)。具體的實(shí)驗(yàn)方案設(shè)計(jì)如下：

1)利用重慶話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型，重慶話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。

2)利用重慶話口音的普通話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型，重慶話口音的普通話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料為測(cè)試語(yǔ)句。

3)利用重慶話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型，重慶話口音的普通話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。

4)利用重慶話口音的普通話語(yǔ)音庫(kù)中訓(xùn)練集的語(yǔ)料訓(xùn)練語(yǔ)音模型，重慶話語(yǔ)音庫(kù)中測(cè)試集的語(yǔ)料作為測(cè)試語(yǔ)句。

4 識(shí)別結(jié)果

根據(jù)以上4個(gè)大組，共12個(gè)小組的實(shí)驗(yàn)方案分別進(jìn)行識(shí)別實(shí)驗(yàn)，并將實(shí)驗(yàn)結(jié)果整理如表6所示。

從表6中可以看出，重慶話和重慶口音的普通話對(duì)應(yīng)識(shí)別自己本身的正確識(shí)別率為100%，而兩種語(yǔ)音交叉進(jìn)行語(yǔ)音識(shí)別則呈現(xiàn)出不同的正確識(shí)別率。其中重慶話聲學(xué)模型去識(shí)別重慶話口音的普通話在不同的測(cè)試集下呈現(xiàn)出不同的識(shí)別結(jié)果，當(dāng)測(cè)試集為30句和60句時(shí)均為76.67%，而在90句時(shí)達(dá)到78.89%；重慶話口音的普通話聲學(xué)模型去識(shí)別重慶話在不同的測(cè)試集下也呈現(xiàn)出不同的識(shí)別結(jié)果，隨著測(cè)試集語(yǔ)句數(shù)的增加，正確識(shí)別率總體趨勢(shì)上也隨之增加，并在30句時(shí)達(dá)到90.00%，60句和90句時(shí)分別達(dá)到91.67%和91.11%。

表6 12組實(shí)驗(yàn)結(jié)果

5 結(jié)語(yǔ)

本文以重慶話為實(shí)驗(yàn)研究對(duì)象，采集了重慶話文本，并將文本錄制成重慶話和重慶話口音的普通話，建立了兩種語(yǔ)音與之對(duì)應(yīng)的小語(yǔ)料庫(kù)。搭建了基于HMM的重慶話語(yǔ)音識(shí)別系統(tǒng)，設(shè)計(jì)了12組語(yǔ)音識(shí)別方案，并得到了12個(gè)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明：在30句、60句以及90句測(cè)試集下重慶話和重慶話口音的普通話訓(xùn)練得到聲學(xué)模型分別去識(shí)別對(duì)應(yīng)的兩種語(yǔ)音的正確識(shí)別率均為100%；重慶話語(yǔ)音聲學(xué)模型識(shí)別重慶話口音的普通話語(yǔ)音的正確識(shí)別率要比重慶話口音的普通話語(yǔ)音聲學(xué)模型識(shí)別重慶話語(yǔ)音的正確識(shí)別率要高。