亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向方言語音合成的文本分析研究

2015-11-02 05:57:19郭威彤楊鴻武宋繼華甘振業(yè)

計(jì)算機(jī)工程 2015年9期

關(guān)鍵詞：國(guó)際音標(biāo)韻母韻律

郭威彤，楊鴻武，宋繼華，顧香，甘振業(yè)

（1.西北師范大學(xué)物理與電子工程學(xué)院，蘭州730070；2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院，北京100875）

·人工智能及識(shí)別技術(shù)·

面向方言語音合成的文本分析研究

郭威彤1，楊鴻武1，宋繼華2，顧香1，甘振業(yè)1

（1.西北師范大學(xué)物理與電子工程學(xué)院，蘭州730070；2.北京師范大學(xué)信息科學(xué)與技術(shù)學(xué)院，北京100875）

為實(shí)現(xiàn)方言的統(tǒng)計(jì)參數(shù)語音合成，提出一種從文字到方言讀音的文本分析方法。通過對(duì)比普通話和方言在聲韻母方面的發(fā)音異同，設(shè)計(jì)方言的語音評(píng)估方法音標(biāo)字母（SAMPA），用來標(biāo)注方言聲韻母的讀音，得到從普通話讀音到方言讀音的轉(zhuǎn)換規(guī)則。對(duì)輸入的漢語文本進(jìn)行分析，獲得語法詞、聲母、韻母信息，使用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法獲得語句的韻律詞和韻律短語邊界，利用普通話讀音到方言讀音的轉(zhuǎn)換規(guī)則，獲得方言發(fā)音的SAMPA音標(biāo)，從而將輸入的文本轉(zhuǎn)換為統(tǒng)計(jì)參數(shù)語音合成所需的上下文相關(guān)標(biāo)注。測(cè)試結(jié)果表明，該方法能較為準(zhǔn)確地生成上下文相關(guān)標(biāo)注。

文本分析；字音轉(zhuǎn)換；語音評(píng)估方法音標(biāo)字母；語音合成；語法分析

1 概述

語音合成［1］作為一種新的信息傳遞技術(shù)，已被應(yīng)用在人機(jī)交互中。然而，不同民族、不同國(guó)家有自己不同的語言，因此，多語種的語音合成成為了人機(jī)語音交互領(lǐng)域的研究熱點(diǎn)［2-3］。

目前，漢語普通話的語音合成系統(tǒng)已經(jīng)比較成熟，可以合成出自然度、可懂度較高的語音，這很大程度上是因?yàn)橛斜容^完善的漢語文本分析系統(tǒng)，可以正確地將輸入的漢語文本轉(zhuǎn)換為拼音。文本分析首先將輸入的文本進(jìn)行規(guī)范化處理，獲得特殊符號(hào)的讀音。進(jìn)而對(duì)文本進(jìn)行分詞，獲得文本的詞邊界和詞性。在此基礎(chǔ)上，通過韻律預(yù)測(cè)，獲得文本的韻律邊界信息。最后，利用字音轉(zhuǎn)換獲得文本的正確讀音。文獻(xiàn)［4］利用數(shù)據(jù)驅(qū)動(dòng)的方法，采用二元文法對(duì)文本進(jìn)行分詞，并訓(xùn)練韻律結(jié)構(gòu)預(yù)測(cè)模型。文獻(xiàn)［5］對(duì)輸入文本進(jìn)行分詞及詞性標(biāo)注，利用句法分析樹進(jìn)行實(shí)體識(shí)別及搭配詞識(shí)別。文獻(xiàn)［6］通過在文本分析結(jié)果的基礎(chǔ)上，引入韻律節(jié)奏的預(yù)測(cè)機(jī)制，實(shí)現(xiàn)了文本處理和韻律預(yù)測(cè)的融合。文獻(xiàn)［7］提出一種基于支持向量機(jī)（Support Vector Machine，SVM）的多音字規(guī)則自動(dòng)調(diào)整體系，有效地處理了漢語多音字的問題。以上的研究工作提高了漢語普通話文本分析的準(zhǔn)確性。

中國(guó)是一個(gè)地域遼闊，方言和民族語言豐富的國(guó)家，大多數(shù)人說的都是方言或者是帶方言口音的普通話。因此，研究普通話到方言的跨語言語音合成，實(shí)現(xiàn)同一個(gè)說話人的普通話、方言和帶方言口音的普通話語音的語音合成對(duì)于自然友好的人機(jī)交互有重要的意義。近年來，對(duì)于面向語音合成的民族語言的文本分析，已經(jīng)展開了研究。如文獻(xiàn)［8］實(shí)現(xiàn)了正向和逆向的最大匹配藏文分詞算法，文獻(xiàn)［9］采用最大匹配法和分詞詞庫(kù)相結(jié)合的方法實(shí)現(xiàn)藏語文本的自動(dòng)分詞，文獻(xiàn)［10］總結(jié)了維吾爾語的音節(jié)劃分規(guī)則、詞根詞綴的劃分規(guī)則以及韻律變化規(guī)則。但是現(xiàn)有研究缺少對(duì)方言的標(biāo)準(zhǔn)字音轉(zhuǎn)換的分析，缺乏對(duì)方言特殊發(fā)音的考慮，無法獲得方言準(zhǔn)確的韻律上下文的信息，從而不能合成出自然的方言語音。目前已實(shí)現(xiàn)了中英文混合語音合成［11］以及普通話到閩方言中臺(tái)灣話的語音轉(zhuǎn)換［12］，在方言的語音合成中，雖然實(shí)現(xiàn)了華北方言中聊城話［13］、沈陽話［14］、天津話［15］、蘭州話［16］的語音合成，但只是利用語音修改技術(shù)，將普通話的韻律修改為方言的韻律，不能合成出方言特有的讀音。

普通話和蘭銀官話是甘肅地區(qū)的主要語言，而蘭州方言又是蘭銀官話的一個(gè)重要代表。本文在漢語文本分析的基礎(chǔ)上，進(jìn)行普通話和蘭州方言混合語言的文本分析，為面向基于隱馬爾可夫模型（Hidden Markov Model，HMM）［17］的語音合成系統(tǒng)提供上下文相關(guān)的標(biāo)注，從而實(shí)現(xiàn)方言/普通話的混合語言語音合成。

2 語音評(píng)估方法音標(biāo)字母標(biāo)注設(shè)計(jì)

語音評(píng)估方法音標(biāo)字母（Speech Assessment Methods Phonetic Alphabet，SAMPA），即機(jī)讀音標(biāo)，是歐洲的ESPRIT開發(fā)的一種計(jì)算機(jī)可讀的音標(biāo)系統(tǒng)，用ASCII字符表示國(guó)際音標(biāo)的所有符號(hào)，表示世界上各種語言。本文利用張家騄修訂完善的漢語拼音的機(jī)讀音標(biāo)（SAMPA-SC）［18］的設(shè)計(jì)思想，設(shè)計(jì)蘭州方言的機(jī)讀音標(biāo)（SAMPA-LZ）。通過對(duì)照普通話和蘭州方言的聲韻母的國(guó)際音標(biāo)，發(fā)現(xiàn)兩者大部分的國(guó)際音標(biāo)是相同的。因此，本文以國(guó)際音標(biāo)為參考，將兩者國(guó)際音標(biāo)一致的部分，直接利用漢語拼音標(biāo)記蘭州方言的讀音。對(duì)于兩者國(guó)際音標(biāo)不一致的部分，則采用簡(jiǎn)單化原則，利用定義的簡(jiǎn)單符號(hào)進(jìn)行標(biāo)記。設(shè)計(jì)流程如圖1所示。

圖1 蘭州方言的機(jī)讀音標(biāo)設(shè)計(jì)流程

2.1 聲母

普通話共有22個(gè)輔音，其中，21個(gè)都可作聲母，另一個(gè)輔音/ng/只作韻尾。而蘭州方言共有26個(gè)聲母，其中，21個(gè)聲母的國(guó)際音標(biāo)和普通話的國(guó)際音標(biāo)一致。對(duì)這21個(gè)蘭州方言的聲母，直接用對(duì)應(yīng)的漢語拼音來標(biāo)音。如漢語拼音聲母/p/和蘭州方言聲母/p/的國(guó)際音標(biāo)都是/P′/，則將蘭州方言聲母/p/的讀音標(biāo)記為漢語拼音聲母/p/。

蘭州方言剩余的5個(gè)聲母是蘭州方言特有的聲母，無法用漢語拼音表示出來，但是都有相應(yīng)的國(guó)際音標(biāo)，用國(guó)際音標(biāo)表示這5個(gè)聲母，分別是pf，pf′，v，z，no。對(duì)這5個(gè)聲母，以國(guó)際音標(biāo)為基礎(chǔ)，根據(jù)簡(jiǎn)單化原則，按如下方法設(shè)計(jì)SAMPA-LZ：

（1）如果國(guó)際音標(biāo)（International Phonetic Alphabet，IPA）可以直接用ASCII字符表示，并且從未使用過該國(guó)際音標(biāo)，則直接采用國(guó)際音標(biāo)來定義蘭州方言的SAMPA-LZ。

（2）對(duì)于難以用鍵盤輸入的國(guó)際音標(biāo)，使用和國(guó)際音標(biāo)相近的未使用過的鍵盤符號(hào)來定義。例如蘭州方言中的聲母/no/，無法直接從鍵盤鍵入，為了和已經(jīng)使用過的/n/區(qū)別，就用符號(hào)n′來表示聲母/no/。表1給出蘭州方言中特有的5個(gè)聲母的國(guó)際音標(biāo)和定義的機(jī)讀音標(biāo)SAMPA-LZ。

表1 蘭州方言獨(dú)有聲母的機(jī)讀音標(biāo)

表1列舉漢字的蘭州方言讀音和普通話完全不同。對(duì)于這樣一些漢字，需要根據(jù)聲韻母轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換。

2.2 韻母

普通話共有38個(gè)韻母，除了3個(gè)特殊的單元音韻母外，常用的韻母有35個(gè)。蘭州方言共有32個(gè)韻母，其中，有一部分韻母的發(fā)音和普通話的韻母一致，還有一些韻母是普通話沒有的。針對(duì)這些韻母，采用和聲母相似的簡(jiǎn)單化原則，利用易于從鍵盤輸入的符號(hào)進(jìn)行標(biāo)音。表2列出了蘭州方言特有韻母的國(guó)際音標(biāo)、對(duì)應(yīng)的漢語拼音、漢語拼音的機(jī)讀音標(biāo)以及定義的蘭州方言的機(jī)讀音標(biāo)。

表2 蘭州方言特有韻母的機(jī)讀音標(biāo)

在表2中，漢語拼音中的韻母/an/，在蘭州方言里變?yōu)轫嵞?，而這個(gè)韻母的國(guó)際音標(biāo)與普通話的不同，因此，定義了與漢語拼音/an/的機(jī)讀音標(biāo)/an/不一致的標(biāo)音符號(hào)/An/來代表蘭州方言韻母其他韻母都采用同樣的方法處理。

2.3 聲調(diào)

聲調(diào)是語音必不可少的特征，具有區(qū)別意義的作用。普通話孤立音節(jié)有陰、陽、上、去和輕聲5種不同的聲調(diào)，而蘭州方言只有陰、陽、上、去4種聲調(diào)，但是兩者的調(diào)值完全不同。因此，本文利用聲調(diào)的調(diào)值作為蘭州方言聲調(diào)的機(jī)讀音標(biāo)蘭州方言的機(jī)讀音標(biāo)，如表3所示。

表3 蘭州方言聲調(diào)的機(jī)讀音標(biāo)

2.4 基于SAM PA-LZ的拼音轉(zhuǎn)寫

在跨語言的語音合成中，需要利用文本分析將輸入的文本轉(zhuǎn)換為普通話或者方言的讀音。在本文中，首先利用普通話的文本分析，將漢字轉(zhuǎn)換成漢語拼音。然后通過對(duì)比普通話讀音和蘭州方言讀音，一致的用漢語拼音表示，對(duì)于不一致的，在基于普通話和蘭州方言聲韻母轉(zhuǎn)換規(guī)則的基礎(chǔ)上，利用本文定義的SAMPA-LZ標(biāo)音規(guī)則，最終將漢語拼音轉(zhuǎn)換為蘭州方言的讀音。

2.4.1 普通話和蘭州方言聲韻母的轉(zhuǎn)換規(guī)則

普通話和蘭州方言在聲、韻、調(diào)上有一致的地方，但存在許多不同的發(fā)音。本文通過分析普通話和蘭州方言在聲、韻、調(diào)上的異同，總結(jié)出了41條普通話的聲韻母轉(zhuǎn)為為蘭州方言的聲韻母的轉(zhuǎn)換規(guī)則。轉(zhuǎn)換規(guī)則用統(tǒng)一的格式表示：“→”左邊是普通話的聲母+韻母；“→”右邊是對(duì)應(yīng)的蘭州方言的聲母+韻母。普通話的聲韻母用漢語拼音表示，蘭州方言的聲韻母如果和普通話的一致，就用漢語拼音表示，不一樣的用定義的機(jī)讀音標(biāo)SAMPA-LZ表示。例如，規(guī)則b，p，m，s+o，ao，ai，ei→b，p，m，s+e的意思是，如果普通話的聲母/b/，/p/，/m/，/s/和韻母/o/，/ao/，/ai/，/ei/組合，則在蘭州方言中，聲母不變，但韻母都發(fā)/e/的音。如“白”在普通話中讀/bai/，在蘭州方言中讀/be/。

2.4.2 普通話和蘭州方言聲調(diào)的轉(zhuǎn)換規(guī)則

雖然普通話和蘭州方言都有陰、陽、上、去4種聲調(diào)，但是由于兩者在每一種聲調(diào)上的調(diào)值完全不同，使得這2種語言在聽感上大相徑庭，這就是所謂的變調(diào)。普通話和蘭州方言變調(diào)規(guī)律如表4所示。

表4 普通話和蘭州方言調(diào)值變化規(guī)律

同時(shí)，本文還考慮了蘭州方言在連續(xù)語流中的變調(diào)規(guī)律：

（1）2個(gè)上聲相連時(shí)，前上變陽平51。

（2）去聲在陰平、陽平、上聲、及去聲前一律變成中平33。

（3）2個(gè)陽平字相連，前字變成中平33。

3 蘭州方言的文本分析

語音合成系統(tǒng)分為前端的自然語言處理和后端的語音信號(hào)生成2個(gè)部分。自然語言處理主要包括文本分析模塊和韻律生成模塊。在整個(gè)語音合成系統(tǒng)中，文本分析起著關(guān)鍵性的作用。文本分析的結(jié)果直接影響韻律預(yù)測(cè)的準(zhǔn)確性和合成語音的自然度。本文以聲韻母作為合成基元，利用普通話的文本分析，在語法規(guī)則知識(shí)庫(kù)和語法詞典的指導(dǎo)下，通過文本規(guī)范化、語法分析和韻律邊界預(yù)測(cè)，獲得輸入文本的普通話拼音、詞邊界信息、韻律邊界信息和語句信息。然后利用蘭州方言的標(biāo)音系統(tǒng)，修改與普通話發(fā)音不一致的拼音。進(jìn)而根據(jù)蘭州方言聲韻母組合的變音規(guī)律，實(shí)現(xiàn)蘭州方言的變音處理，得到輸入文本的蘭州方言讀音。在此基礎(chǔ)上，利用文本分析獲得的上下文信息，生成語音合成后端所需要的上下文相關(guān)標(biāo)注。圖2給出了普通話和蘭州方言的文本分析流程。

圖2 普通話和蘭州方言文本分析流程

語音合成后端利用上下文相關(guān)的標(biāo)注生成聲韻母的語音信號(hào)，而上下文相關(guān)的標(biāo)注中最關(guān)鍵的信息是聲韻母的讀音，以及聲韻母的上下文相關(guān)信息。普通話和蘭州方言有相同的上下文信息，因此，利用普通話的文本分析，經(jīng)過文本規(guī)范化、語法分析和韻律邊界預(yù)測(cè)，即可獲得蘭州方言的上下文相關(guān)信息。但是，因?yàn)樘m州方言有部分發(fā)音與普通話不同，無法用漢語拼音來表示這些特殊發(fā)音。對(duì)于這樣一些特殊發(fā)音的蘭州方言的聲韻母，利用蘭州方言的機(jī)讀音標(biāo)進(jìn)行標(biāo)音。對(duì)于輸入的漢語文本，通過遍歷語法詞典將文字序列轉(zhuǎn)換成普通話的拼音序列，從而獲得普通話的聲韻母讀音，然后查找機(jī)讀音標(biāo)SAMPA-LZ修改特殊的蘭州方言讀音，結(jié)合文本分析得到的詞信息、韻律邊界信息和聲調(diào)信息，最終得到蘭州方言的上下文相關(guān)標(biāo)注。

3.1 文本規(guī)范

文本規(guī)范就是將非漢字字符串轉(zhuǎn)換成漢字串以確定讀音的過程［19］。對(duì)輸入文本進(jìn)行分析，將文本中除中文字符以外的非標(biāo)準(zhǔn)詞，如英文字符、數(shù)字字符以及符號(hào)字符轉(zhuǎn)換成對(duì)應(yīng)的漢字。

文本規(guī)范的處理效果直接影響著文本拼音信息的正確性。一個(gè)非標(biāo)準(zhǔn)詞在不同的上下文可能對(duì)應(yīng)不同的標(biāo)準(zhǔn)發(fā)音，所以，必須從特殊符號(hào)出發(fā)，提取有用的上下文信息，歸納出在特定環(huán)境下的不同處理策略。如“985高?！毙枰凑兆址?guī)范記為“九八五”，而“985名教師”則需按照數(shù)字規(guī)范為“九百八十五”。本文利用有限狀態(tài)自動(dòng)機(jī)方法，采用最長(zhǎng)匹配策略，利用詞典從真實(shí)文本中將最長(zhǎng)串識(shí)別為非標(biāo)準(zhǔn)詞。然后，采用最大熵算法的統(tǒng)計(jì)模型，選取適當(dāng)?shù)奶卣髂０逵?xùn)練建模，同時(shí)，設(shè)定一定規(guī)則，對(duì)部分非標(biāo)準(zhǔn)詞消岐，最后，再次通過遍歷詞典，產(chǎn)生非標(biāo)準(zhǔn)詞的標(biāo)準(zhǔn)拼音。

有時(shí)文本規(guī)范對(duì)符號(hào)的理解不能簡(jiǎn)單通過上下文確定。可將不同文本規(guī)范化的結(jié)果全部保存，在后續(xù)的處理過程中獲得了足夠的信息后，根據(jù)一定的準(zhǔn)則再做判斷。

3.2 語法分析

目前語法分析多以句子為劃分對(duì)象而不是以整篇文本作為劃分對(duì)象，所以，首先要對(duì)文本進(jìn)行句子劃分。本文確定句子邊界的基本思路是利用標(biāo)點(diǎn)符號(hào)。對(duì)于純漢語文本來說，能確定句子邊界的符號(hào)有“，”“。”“、”“？”“：”“；”“！”等。在句子邊界確定以后，利用N元文法模型，結(jié)合動(dòng)態(tài)規(guī)劃（dynamic Programming，DP）算法來完成分詞。假定一個(gè)單詞出現(xiàn)的概率分布只與這個(gè)詞前面的n-1個(gè)單詞有關(guān)，與更早出現(xiàn)的無關(guān)，即：

其中，w1，w2，…，wn表示詞串；Wopt表示最優(yōu)詞語序列。然后根據(jù)每個(gè)詞與相鄰詞的結(jié)合概率，從各種可能的組合中找出概率最大的詞串作為劃分結(jié)果。本文使用來自人民日?qǐng)?bào)語料庫(kù)的56 382個(gè)詞條的詞典和一個(gè)多音字字典，將劃分出的詞查詞典來確定拼音。

3.3 韻律邊界預(yù)測(cè)

準(zhǔn)確的韻律特征是合成高質(zhì)量語音的保證，獲取準(zhǔn)確的韻律結(jié)構(gòu)是獲得準(zhǔn)確韻律特征的保證。漢語的韻律層級(jí)分別是韻律詞、韻律短語和語調(diào)短語。一般來說，語調(diào)短語的邊界容易判斷，基本上可以認(rèn)為標(biāo)點(diǎn)符號(hào)（逗號(hào)、句號(hào)、問號(hào)、感嘆號(hào)等斷句標(biāo)點(diǎn)符號(hào)）就是語調(diào)短語的邊界。對(duì)于韻律詞邊界和韻律短語邊界，本文基于鄰接度（Adjacent Degree，AD）特征描述語法結(jié)構(gòu)和韻律結(jié)構(gòu)的關(guān)系，利用基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)算法（Transformation-based Error D riven Learning Algorithm，TBL）實(shí)現(xiàn)韻律詞和韻律短語的預(yù)測(cè)［20］。

本文選取前一個(gè)語法詞、當(dāng)前語法詞和后一個(gè)語法詞的詞長(zhǎng)、詞性，以及均勻分布模型產(chǎn)生的韻律詞預(yù)分類信息作為韻律邊界預(yù)測(cè)的輸入特征。定義300多條韻律規(guī)則模板，利用貪婪搜索算法對(duì)樣本的輸入特征及樣本上下文的輸入特征進(jìn)行搜索，將搜索到的實(shí)例特征填入相應(yīng)的模板規(guī)則中。在遍歷完模板中的所有模版規(guī)則后，就得到了該樣本的實(shí)例化規(guī)則。針對(duì)文本中的每一個(gè)樣本重復(fù)以上的搜索過程后，就得到所有樣本的完整實(shí)例化規(guī)則集，利用TBL算法實(shí)現(xiàn)對(duì)未標(biāo)注文本韻律邊界的預(yù)測(cè)。

4 測(cè)試結(jié)果與分析

為了驗(yàn)證本文提出的文本分析方法能夠正確產(chǎn)生方言語音合成所需的上下文相關(guān)的信息，選取普通話和蘭州方言的所有聲韻母以及靜音和停頓作為上下文相關(guān)的語音合成基元，設(shè)計(jì)了一套上下文標(biāo)注格式，用來標(biāo)注每個(gè)合成基元的聲韻母層、音節(jié)層、詞層、韻律詞層、韻律短語層和語句層的上下文相關(guān)特征，如表5所示。

表5 上下文相關(guān)的標(biāo)注格式

表中小寫字母是變量（指代包括音段信息、聲調(diào)信息、位置信息、詞性信息、句型信息等）；大寫的字母是不同標(biāo)注層的標(biāo)示符號(hào)；“+”，“-”等符號(hào)用于區(qū)分不同模式串。

普通話和蘭州方言采用相同的上下文相關(guān)的標(biāo)注格式。P1～P7表示在基元層每一個(gè)聲韻母的相關(guān)信息；P3表示當(dāng)前的聲韻母；P2是P3的前一個(gè)聲韻母；P4是P3的后一個(gè)聲韻母；P1表示P2的前一個(gè)聲韻母；P5表示P4的后一個(gè)聲韻母；P6，P7表示P3所處的音節(jié)中的前后位置；在音節(jié)層到詞語層分別用大寫字母A～M表示。在音節(jié)層，A表示前一個(gè)音節(jié)；B表示當(dāng)前音節(jié)；C表示后一個(gè)音節(jié)，在所表示的音節(jié)內(nèi)不同符號(hào)分別表示音節(jié)的聲韻母信息和聲調(diào)信息。在詞層，D表示前一個(gè)詞；E表示當(dāng)前詞；F表示后一個(gè)詞，分別給出了詞的位置信息和所包含的音節(jié)數(shù)信息。同樣，G，H，I表示韻律詞層，包含韻律詞的位置信息與韻律詞中包含的字信息。用J，K，L表示韻律短語層，包韻律短語的位置信息，以及韻律短語中包含的詞和韻律詞的信息。M表示語句層，包含語句中所含的音節(jié)、詞、韻律詞、韻律短語的數(shù)量信息以及語句的句型信息。陳述句用d表示，疑問句用q表示，祈使句用i表示，感嘆句用e表示。

在上下文相關(guān)的標(biāo)注格式里，不僅考慮合成基元各個(gè)層級(jí)的上下文相關(guān)特征，還涉及靜音和停頓部分。靜音段和停頓段的表示如表6所示。

表6 靜音與停頓的符號(hào)

對(duì)于輸入的漢語語句，首先利用文本分析獲得每個(gè)音節(jié)的蘭州方言聲韻母信息，組成訓(xùn)練聲學(xué)模型所需的單音素標(biāo)注文件。同時(shí)，利用TBL算法獲得語句的韻律詞和韻律邊界信息。在此基礎(chǔ)上，利用單音素標(biāo)注、韻律邊界信息和文本分析獲得的詞信息，生成上下文相關(guān)的標(biāo)注文件，用于聲學(xué)模型的訓(xùn)練和語音合成。圖3給出了漢語語句“春天像個(gè)小姑娘花枝招展的笑著”的部分上下文相關(guān)標(biāo)注，包括單音素標(biāo)注中的所有聲、韻母和音節(jié)層的上下文相關(guān)信息，省略了其他各層信息。如圖3的第3行中的“sil^ch-un+t=iaN”表示當(dāng)前韻母/un/的前一個(gè)音素為/ch/；前前音素為sil；后一個(gè)音素為/t/；后后音素為/iaN/。可以看出，文本分析程序正確地獲得了漢語語句的方言發(fā)音信息。根據(jù)表5可知，“/A”，“/B”，“/C”分別表示當(dāng)前韻母/un/的前一個(gè)音節(jié)、當(dāng)前音節(jié)和后一個(gè)音節(jié)的上下文信息，這也與“春”字韻母的上下文相關(guān)信息是一致的，表明文本分析正確地獲得了方言的聲韻母信息以及每個(gè)聲韻母所在的上下文相關(guān)信息。

圖3 部分上下文相關(guān)標(biāo)注的測(cè)試結(jié)果

5 結(jié)束語

本文對(duì)輸入的漢語語句，先后經(jīng)過文本規(guī)范、語法分析、韻律邊界預(yù)測(cè)3個(gè)過程的處理，實(shí)現(xiàn)了普通話的字音轉(zhuǎn)換，并得到普通話合成基元的聲韻母層、音節(jié)層、詞層、韻律詞層、韻律短語層以及語句層的上下文相關(guān)信息。通過對(duì)比普通話和蘭州方言的聲韻母，定義一套標(biāo)記蘭州方言特有發(fā)音的標(biāo)音符號(hào)SAM PA-LZ，總結(jié)了普通話到蘭州方言的聲韻母轉(zhuǎn)換規(guī)則，并利用轉(zhuǎn)換規(guī)則將普通話的聲韻母轉(zhuǎn)換成蘭州方言的聲韻母，從而實(shí)現(xiàn)了方言的字音轉(zhuǎn)換。在此基礎(chǔ)上，利用蘭州方言的聲韻母和文本分析、韻律預(yù)測(cè)獲得的上下文信息，產(chǎn)生了用于語音合成的上下文相關(guān)標(biāo)注。同時(shí)，利用上下文相關(guān)的信息設(shè)計(jì)一套用于聲學(xué)模型聚類的決策樹問題集。

［1］ Chu M in，Lu Shinan.A Text-to-Speech System with High Intelligibility and High Naturalness for Chinese［J］. Chinese Journal of Acoustics，1996，15（1）：81-90.

［2］ Bourlard H，Dines J，Majim ai-Doss M，et al.Current Trends in Multilingual Speech Processing［J］.Sadhana，2011，36（5）：885-915.

［3］ Yang Hongwu，Keiichiro O，Gan Zhenye，et al.Realizing Tibetan Speech Synthesis by Speaker Adaptive Training［C］// Proceedings of Signal and Information Pro-cessing Association Annual Summ it and Conference.Washington D.C.，USA：IEEE Press，2013：1-4.

［4］李曉紅.面向語音合成的文本處理技術(shù)的改進(jìn)［D］.北京：北京交通大學(xué)，2010.

［5］姚金國(guó)，代志龍.基于文本分析的知識(shí)獲取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)［J］.計(jì)算機(jī)工程，2011，37（2）：157-159.

［6］陶建華，蔡蓮紅，趙晟.漢語語音合成中的文本分析和韻律處理［C］//中國(guó)中文信息學(xué)會(huì)20周年學(xué)術(shù)會(huì)議論文集.北京：清華大學(xué)出版社，2001：272-279.

［7］陳志剛.中文語音合成系統(tǒng)中文本分析的若干關(guān)鍵技術(shù)［D］.合肥：中國(guó)科學(xué)技術(shù)大學(xué)，2003.

［8］索南扎西.藏語語音合成關(guān)鍵技術(shù)研究［D］.拉薩：西藏大學(xué)，2011.

［9］高璐，陳琪，李永宏，等.藏語語音合成中文本分析的若干問題的研究［J］.西北民族大學(xué)學(xué)報(bào)：自然科學(xué)版，2010，31（2）：27-33.

［10］馬歡，吾守爾·斯拉木.維吾爾語文語轉(zhuǎn)換系統(tǒng)文本分析模塊初探［J］.計(jì)算機(jī)工程，2006，32（16）：267-268.

［11］姚金國(guó)，代志龍.基于HCSIPA的中英文混合語音合成［J］.計(jì)算機(jī)工程，2013，39（4）：14-17.

［12］ Pan Nenghuang，Yu Mingshi，Tsai Z.A Chinese to Taiwanese Text-to-Speech System［J］.Communications of Institute of Information and Computing Machinery，2008，11（4）：27-38.

［13］李明，蔡蓮紅，李勇，等.普通話與聊城話的聲學(xué)特征對(duì)比及轉(zhuǎn)換［C］//第7屆中國(guó)語音學(xué)學(xué)術(shù)會(huì)議暨語音學(xué)前沿問題國(guó)際論壇論文集.北京：北京大學(xué)出版社，2006：1-4.

［14］賈珈，蔡蓮紅，李明，等.漢語普通話與沈陽方言轉(zhuǎn)換的研究［J］.清華大學(xué)學(xué)報(bào)：自然科學(xué)版，2009，49（S1）：1309-1315.

［15］王兵，蘇恩澤.天津話語音合成系統(tǒng)［J］.計(jì)算技術(shù)與自動(dòng)化，1995，14（4）：37-39.

［16］ Guo Weitong，Yang Hongwu，Pei Dong，et al.Prosody Conversion of Chinese Northw est Mandarin Dialect Based on Five Degree Tone Model［J］.JDCTA：International Journal of Digital Content Technology and Its Applications，2012，6（17）：323-332.

［17］ Zen Hega，Tokuda K，Black A.Statistical Parametric Speech Synthesis［J］.Speech Communication，2009，51（11）：1039-1064.

［18］張家騄.漢語普通話機(jī)讀音標(biāo)SAMPA-SC［J］.聲學(xué)學(xué)報(bào)，2009，34（1）：81-86.

［19］賈玉祥，黃德智，劉武.中文語音合成中的文本正則化研究［J］.中文信息學(xué)報(bào)，2008，22（5）：45-51.

［20］楊鴻武，朱玲.基于句法特征的漢語韻律邊界預(yù)測(cè)［J］.西北師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2013，49（1）：41-45.

編輯劉冰

Research on Text Analysis for Dialect SPeech Synthesis

GUO Weitong1，YANG Hongwu1，SONG Jihua2，GU Xiang1，GAN Zhenye1
（1.College of Physics and Electronic Engineering，Northwest Norm al University，Lanzhou 730070，China；2.College of Information Science and Technology，Beijing Norm al University，Beijing 100875，China）

A text analysis method for converting grapheme to dialect phoneme is proposed for statistical parametric dialect speech synthesis.A set of Speech Assessment Methods Phonetic Alphabet（SAMPA）-based symbols are designed for labeling pronunciation of dialect by com paring the differences between Mandarin and dialect.A set of conversion rules is also designed that can transform Mandarin pronunciation to dialect pronunciation.The text analysis is conducted for Chinese sentences to obtain lexicon words and their initials and finals.A transformation-based error driven learning algorithm is used to obtain the prosodic words and prosodic phrases boundaries.The conversion rules are employed to obtain the SAMPA of dialect initials and dialect finals.The input sentences are converted into context-dependent labels. Test result show s that the proposed method can generate correct context-dependent labels.

text analysis；grapheme-to-phoneme conversion；Speech Assessment Methods Phonetic Alphabet（SAMPA）；speech synthesis；syntactic analysis

郭威彤，楊鴻武，宋繼華，等.面向方言語音合成的文本分析研究［J］.計(jì)算機(jī)工程，2015，41（9）：184-189.

英文引用格式：Guo Weitong，Yang Hongwu，Song Jihua，et al.Research on Text Analysis for Dialect Speech Synthesis［J］.Computer Engineering，2015，41（9）：184-189.

1000-3428（2015）09-0184-06

TP391

10.3969/j.issn.1000-3428.2015.09.034

國(guó)家自然科學(xué)基金資助項(xiàng)目（61263036，61262055）；甘肅省杰出青年基金資助項(xiàng)目（1210RJDA 007）；甘肅省青年科技研究計(jì)劃基金資助項(xiàng)目（1208RJYA078）；西北師范大學(xué)青年教師科研能力提升計(jì)劃基金資助項(xiàng)目（NWNU-LKQN-12-27）。

郭威彤（1982-），女，碩士研究生，主研方向：自然語言處理，模式識(shí)別；楊鴻武（通訊作者）、宋繼華，教授、博士；顧香，碩士研究生；甘振業(yè)，副教授、博士。

2014-09-11

2014-10-21 E-m ail：guow t@nw nu.edu.cn