亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于Android 智能手機(jī)的語(yǔ)音庫(kù)自動(dòng)構(gòu)建研究

2019-10-19 07:31:28孫亞鵬王嘯飛

現(xiàn)代計(jì)算機(jī) 2019年25期

孫亞鵬，王嘯飛

（湖南科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，湘潭411201）

0 引言

隨著語(yǔ)音技術(shù)的迅速發(fā)展，語(yǔ)音庫(kù)作為其中的重要一環(huán)凸顯了越來(lái)越重要的作用。一個(gè)高質(zhì)量的語(yǔ)音庫(kù)，在語(yǔ)音應(yīng)用的各種重要領(lǐng)域，例如語(yǔ)音合成、語(yǔ)音識(shí)別、情緒感知、人機(jī)交互等，可以獲得更好的效果。

傳統(tǒng)的語(yǔ)音庫(kù)的構(gòu)建，需要經(jīng)過(guò)一系列的人工工作過(guò)程，例如文本處理、語(yǔ)料處理、語(yǔ)音錄制、語(yǔ)音處理、語(yǔ)音存儲(chǔ)等。使用傳統(tǒng)的構(gòu)建方法時(shí)，整個(gè)過(guò)程耗時(shí)長(zhǎng)、受到地域限制多、花費(fèi)大、人工處理誤差大一致性不好。考慮到這些因素，結(jié)合現(xiàn)在正在蓬勃發(fā)展和普及應(yīng)用的Android 智能手機(jī)，可以開(kāi)發(fā)一個(gè)基于智能手機(jī)的語(yǔ)音庫(kù)自動(dòng)構(gòu)建的App。通過(guò)該App 可以在服務(wù)器端或者管理端預(yù)先設(shè)置好需要錄音的文本，然后用戶打開(kāi)App 后，根據(jù)現(xiàn)實(shí)的文本，在提示下進(jìn)行朗讀，獲得朗讀錄音后，進(jìn)行濾波去除噪聲，然后進(jìn)行語(yǔ)音的切分對(duì)齊，最后將一一對(duì)應(yīng)好的語(yǔ)音和文本存入語(yǔ)音庫(kù)。下面將進(jìn)一步進(jìn)行闡述。

1 文本處理

語(yǔ)音的發(fā)音是基于文字的，所以需要先確定好文本內(nèi)容和格式，App 可以設(shè)置多種格式文本進(jìn)行顯示，可以是字、詞、句、段落和文章。在服務(wù)器端或者管理端，將需要朗讀錄音的文本，按照需要的格式進(jìn)行錄入。完成后，用戶在App 上將看到按照設(shè)定的格式一個(gè)一個(gè)顯示的文本內(nèi)容，就可以在提示下進(jìn)行錄音操作。

2 語(yǔ)音錄制

語(yǔ)音的錄制時(shí)語(yǔ)音庫(kù)構(gòu)建的一項(xiàng)關(guān)鍵性工作，其效果直接決定了語(yǔ)音庫(kù)的質(zhì)量高低。用戶在App 上的朗讀指定的文本進(jìn)行語(yǔ)音錄制時(shí)，其操作簡(jiǎn)單明了，在這個(gè)環(huán)節(jié)除了對(duì)用戶的錄制過(guò)程進(jìn)行一定的指導(dǎo)外，還有一些工作可以提高語(yǔ)音錄制的效果。例如說(shuō)在推廣App 的使用時(shí)，可以在選定特定的用戶群體上下一些功夫，若是錄制的是標(biāo)準(zhǔn)普通話，則可以分析用戶數(shù)據(jù)，更多的選定一些大學(xué)生、教師等一些群體進(jìn)行推廣錄制；若是錄制的是某種方言，則選定這個(gè)方言的聚居區(qū)一定年紀(jì)的人群進(jìn)行推廣錄制；若是要求的是女性或者男性語(yǔ)音用來(lái)做合成，也可以根據(jù)需要進(jìn)行靈活選擇，以此為基礎(chǔ)，能夠完成一些專業(yè)化特色化語(yǔ)音庫(kù)的快速構(gòu)建。

3 語(yǔ)音濾波去噪

由于語(yǔ)音在錄制過(guò)程中是使用用戶智能手機(jī)的App 軟件在開(kāi)放環(huán)境下進(jìn)行錄制的，不是在錄音棚之類的專業(yè)環(huán)境下，所以很可能帶有一些噪聲，另外電子設(shè)備在工作環(huán)境下也會(huì)自帶噪聲干擾。對(duì)錄制的語(yǔ)音進(jìn)行濾波去噪是一種必要的預(yù)處理操作。

在進(jìn)行語(yǔ)音濾波去噪處理時(shí)，首先要進(jìn)行的是將長(zhǎng)段的語(yǔ)音數(shù)據(jù)分割為短段的語(yǔ)音數(shù)據(jù)，這是考慮長(zhǎng)段的語(yǔ)音數(shù)據(jù)在統(tǒng)計(jì)上是不平穩(wěn)的，我們需要先將之處理為合適的平穩(wěn)的語(yǔ)音數(shù)據(jù)。在實(shí)踐中漢明窗和矩形窗經(jīng)常被用來(lái)處理這個(gè)問(wèn)題，這里使用選擇漢明窗進(jìn)行分幀處理。其分幀組幀處理如圖1 所示。

接下來(lái)需要進(jìn)行參數(shù)估計(jì)，考慮到實(shí)時(shí)性要求，采用端點(diǎn)檢測(cè)法來(lái)區(qū)分語(yǔ)音段和噪聲段，通過(guò)兩段功率譜相減可以得到語(yǔ)音段的參數(shù)。

然后利用改進(jìn)的卡爾曼濾波前期處理過(guò)的語(yǔ)音數(shù)據(jù)進(jìn)行濾波，考慮到實(shí)際噪聲信號(hào)有色性，改進(jìn)的卡爾曼濾波可以在有色噪聲情況下獲得更好的濾波效果。改進(jìn)卡爾曼濾波的增益計(jì)算公式：K=PHT(HPHT+μR)-1其中當(dāng)μ =1 時(shí)，就相當(dāng)于白噪聲假設(shè)原始卡爾曼增益，因此改進(jìn)后的公式更加適應(yīng)一般情形一些，更加具有普遍性。

4 語(yǔ)音的切分對(duì)齊

經(jīng)過(guò)去噪處理的語(yǔ)音，接下來(lái)要進(jìn)行切分對(duì)齊處理，就是按照文本里的文字，和語(yǔ)音中的每個(gè)字的發(fā)音，進(jìn)行一一對(duì)應(yīng)的切分對(duì)齊，使得每個(gè)字都對(duì)應(yīng)好自己的發(fā)音。整個(gè)過(guò)程中主要包括語(yǔ)句自動(dòng)切分技術(shù)和音段自動(dòng)切分技術(shù)。

在語(yǔ)句自動(dòng)切分處理時(shí)，首先是隱馬爾可夫的訓(xùn)練和語(yǔ)音解碼，得到被處理語(yǔ)音的特征參數(shù)，對(duì)每個(gè)音素建立隱馬爾可夫,然后獲得音素的時(shí)間信息，對(duì)于語(yǔ)句的標(biāo)點(diǎn)符號(hào)，采取音素sil 代表。最后根據(jù)語(yǔ)句的音素sil 的時(shí)間信息，將篇幅語(yǔ)音切分成句子語(yǔ)音。

在音段自動(dòng)切分處理中結(jié)合隱馬爾可夫和維特比算法，使用維特比算法對(duì)語(yǔ)音信號(hào)和相應(yīng)文本進(jìn)行強(qiáng)制對(duì)齊，可以取得較好的切分效果。過(guò)程如圖2 所示。

圖2 音段自動(dòng)切分圖

完成語(yǔ)音和文本的切分對(duì)齊后，最后將語(yǔ)音數(shù)據(jù)和文本數(shù)據(jù)一一對(duì)應(yīng)存儲(chǔ)，建立索引，基本完成了語(yǔ)音庫(kù)建設(shè)。

5 結(jié)語(yǔ)

利用現(xiàn)在普及的移動(dòng)智能手機(jī)和計(jì)算機(jī)技術(shù)構(gòu)建語(yǔ)音庫(kù)，相較于傳統(tǒng)的語(yǔ)音庫(kù)建設(shè)，在效率方面可以達(dá)到更加高效快速，在效果方面可以達(dá)到更加一致專業(yè)。不論是在建設(shè)大型、綜合性的語(yǔ)音庫(kù)，還是特殊、專業(yè)化的小型語(yǔ)音庫(kù)都不失為一種更好的途徑和選擇。