趙云雪,張 瓏,鄭世杰
(哈爾濱師范大學(xué))
在語(yǔ)音信號(hào)處理領(lǐng)域,韻律模型的研究已經(jīng)很好地用于英語(yǔ)、法語(yǔ)的語(yǔ)音識(shí)別[1-4].近些年,隨著研究的不斷深入,技術(shù)的不斷進(jìn)步,韻律模型也開(kāi)始逐步地應(yīng)用到漢語(yǔ)的語(yǔ)音識(shí)別領(lǐng)域.特別是基于朗讀語(yǔ)篇語(yǔ)料庫(kù),語(yǔ)音的韻律特征成為語(yǔ)音識(shí)別技術(shù)中的研究焦點(diǎn).
韻律規(guī)則是合成語(yǔ)音中的一個(gè)不可或缺的部分.在許多西方語(yǔ)言為母語(yǔ)的人眼里,漢語(yǔ)聽(tīng)起來(lái),有聲有色、有板有眼、快慢有致,像歌曲一樣優(yōu)美動(dòng)聽(tīng).語(yǔ)流中這種由音高、音長(zhǎng)、音強(qiáng)和時(shí)長(zhǎng)等所體現(xiàn)出來(lái)的特征,稱為“韻律特征”,也叫“超音段特征”[5],它們反映出語(yǔ)音信號(hào)不同特性之間的差異.韻律特征主要包括聲調(diào)、語(yǔ)調(diào)、重音和節(jié)奏等.聲調(diào)屬于音節(jié)層的韻律;語(yǔ)調(diào)屬于句子層,乃至語(yǔ)篇層的韻律.韻律對(duì)合成語(yǔ)音的自然度和可懂讀以及是否連貫的影響極大,甚至還會(huì)影響語(yǔ)音識(shí)別的可理解度.對(duì)于同一個(gè)音素,由于語(yǔ)境不同,重音的表現(xiàn)也會(huì)不同,并且聲學(xué)特征會(huì)表現(xiàn)出很大的差別.通過(guò)修改語(yǔ)音數(shù)據(jù)的聲學(xué)參數(shù),如基頻、音長(zhǎng)和音強(qiáng),可以進(jìn)行重音和語(yǔ)調(diào)的模擬,實(shí)現(xiàn)語(yǔ)速和聲調(diào)的變化.
眾所周知,漢語(yǔ)可以分為字、詞、短語(yǔ)、句子、段落和篇章等不同部分.相應(yīng)地,漢語(yǔ)的重音也有與韻律結(jié)構(gòu)相對(duì)應(yīng)的層級(jí)結(jié)構(gòu),可以分為:音節(jié)、音步、韻律詞、韻律短語(yǔ)和語(yǔ)調(diào)單位.從目前語(yǔ)音識(shí)別的研究狀況來(lái)看,我們常常關(guān)心詞與詞之間的或者句子與句子之間韻律層級(jí).關(guān)于漢語(yǔ)韻律層級(jí)的劃分以及韻律劃分同句法和語(yǔ)法之間的關(guān)系,很多研究者給出了不同的結(jié)論.并且,我們也知道人們?cè)谶M(jìn)行語(yǔ)言交流時(shí),其交流的語(yǔ)言不僅僅是各個(gè)單元的層級(jí)結(jié)構(gòu),還有各個(gè)單元的輕重也同樣起著非常重要的作用.一般說(shuō)漢語(yǔ)的重音,是指說(shuō)話或朗讀時(shí)讀的比較重的音素或短語(yǔ),因此常常給人一種幻覺(jué),語(yǔ)音的輕重是由氣流的強(qiáng)弱產(chǎn)生的.漢語(yǔ)普通話中,一般可以將漢語(yǔ)重音分為:詞重音和句重音.所謂詞重音,指詞的某個(gè)音節(jié)可分為重輕等級(jí).漢語(yǔ)的語(yǔ)句重音是指一句話里重讀的某個(gè)音節(jié)或詞語(yǔ).韻律的層級(jí)結(jié)構(gòu)和重音構(gòu)成了韻律研究中的兩個(gè)基本的問(wèn)題.
現(xiàn)有的研究中,大部分都是基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法.為了描述韻律特征的結(jié)構(gòu)信息、輕重音以及基頻運(yùn)動(dòng)的模式,需要一個(gè)統(tǒng)一的框架.目前,已有很多這樣的描述框架,如 ToBI[6]、TILT[7]、Fujisaki 等人[8]、IViE[9]、C_ToBI[10]等.在構(gòu)建這些標(biāo)有韻律信息的韻律庫(kù)時(shí),完全依靠人工標(biāo)注這些韻律結(jié)構(gòu)信息和輕重音是十分耗時(shí)的和低效的,并且也不準(zhǔn)確;還不利于韻律模型在自然語(yǔ)言理解中的應(yīng)用.因此,人們?cè)絹?lái)越傾向于利用計(jì)算機(jī)技術(shù),通過(guò)建立模型對(duì)韻律進(jìn)行自動(dòng)標(biāo)注.
該研究中將充分利用來(lái)自聲學(xué)(如基頻或音高、能量、音強(qiáng)、時(shí)長(zhǎng)等方面)的信息以及上下文方面的信息,構(gòu)建漢語(yǔ)重音檢測(cè)的特征集,使用Weka中的機(jī)器學(xué)習(xí)的方法訓(xùn)練模型,進(jìn)而對(duì)漢語(yǔ)重音進(jìn)行檢測(cè).
該文在第1部分中將詳細(xì)闡述本研究的國(guó)內(nèi)外研究概況和發(fā)展趨勢(shì);在第2部分簡(jiǎn)單介紹ASCDD朗讀語(yǔ)篇語(yǔ)料庫(kù);在第3部分詳細(xì)介紹了本文所使用的上下文多維度聲學(xué)特征組;在第4部分對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行描述;并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;在第5部分,給出我們的實(shí)驗(yàn)結(jié)果和本研究領(lǐng)域的發(fā)展趨勢(shì).
國(guó)內(nèi)研究狀況,對(duì)于漢語(yǔ)的重音檢測(cè)技術(shù),胡偉湘等人[11]利用音長(zhǎng)和音高聲學(xué)相關(guān)特征,采用基于分類回歸樹結(jié)構(gòu)的區(qū)分度模型,在韻律標(biāo)注語(yǔ)料庫(kù)ASCCD上能夠達(dá)到78%的重音檢測(cè)正確率.邵艷秋等人[12]又利用神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)相關(guān)特征進(jìn)行漢語(yǔ)重音檢測(cè),能夠達(dá)到78.4%的正確率.倪崇嘉等人[13]對(duì)漢語(yǔ)重音檢測(cè)做了進(jìn)一步的研究,利用聲學(xué)相關(guān)特征以及詞典語(yǔ)法相關(guān)特征對(duì)漢語(yǔ)重音進(jìn)行檢測(cè),采用Boosting集成分類回歸樹對(duì)當(dāng)前音節(jié)的聲學(xué)相關(guān)特征以及詞典和語(yǔ)法相關(guān)特征進(jìn)行建模,同時(shí)還對(duì)詞典和語(yǔ)法相關(guān)特征采用條件隨機(jī)場(chǎng)方法建模,最后,將Boosting集成分類回歸樹模型和條件隨機(jī)場(chǎng)模型加權(quán)組合獲得識(shí)別率更高的混合模型,在ASCCD語(yǔ)料庫(kù)上能夠獲得76.3%重音檢測(cè)正確率.
國(guó)外研究狀況,對(duì)于英語(yǔ)的重音檢測(cè)技術(shù),Ananthakrishnan等人[14]構(gòu)建了韻律識(shí)別系統(tǒng),選用耦合隱馬爾可夫模型(CHMM)在音節(jié)和詞層次上對(duì)重音進(jìn)行檢測(cè).在基于BURNC語(yǔ)料庫(kù)重音檢測(cè)的實(shí)驗(yàn)表明,在音節(jié)層次或音素層次上達(dá)到74.9%英語(yǔ)重音檢測(cè)正確率.2008年,Ananthakrishnan等人[15]又在上述研究的基礎(chǔ)上,在最大后驗(yàn)概率(Maximum A Prior,MAP)框架下,利用BURNC語(yǔ)料庫(kù)對(duì)英語(yǔ)重音進(jìn)行檢測(cè),能夠達(dá)到86.75%的重音檢測(cè)正確率.然后,Ananthakrishnan等人[16]僅利用RFC特征和韻律語(yǔ)言模型對(duì)英語(yǔ)重音進(jìn)行檢測(cè),在BURNC語(yǔ)料庫(kù)上能夠達(dá)到67.7%檢測(cè)正確率.Sridhar等人[17]在最大熵框架下,利用聲學(xué)和語(yǔ)法的特征對(duì)韻律進(jìn)行自動(dòng)標(biāo)注,在波士頓大學(xué)廣播新聞?wù)Z料庫(kù)和波士頓Derection語(yǔ)料庫(kù)(Boston Directions Corpus,BDC)上對(duì)單個(gè)詞的重音檢測(cè)分別能夠達(dá)到86.0%和79.8%的正確率.Johnson等人[18]利用神經(jīng)網(wǎng)絡(luò)和高斯混合模型在BURNC語(yǔ)料庫(kù)上實(shí)驗(yàn),結(jié)果充分表明,對(duì)單個(gè)詞的重音能夠達(dá)到84.2%檢測(cè)正確率.Rosenberg等人[19]試驗(yàn)了在2~20 bark上,僅采用能量相關(guān)特征,利用分類回歸樹的C4.5算法對(duì)重音進(jìn)行檢測(cè),在BDC語(yǔ)料庫(kù)上對(duì)重音的檢測(cè)正確率能夠達(dá)到81.9%.Sun[20]利用 Pitch Target特征,同時(shí)結(jié)合時(shí)長(zhǎng)、能量以及一些文本特征構(gòu)造特征集,采用集成機(jī)器學(xué)習(xí)的Boosting和Bagging方法訓(xùn)練分類器,分別能夠達(dá)到87.17%和84.26%的重音檢測(cè)正確率.Hun等人[21]利用聲學(xué)相關(guān)特征和詞典語(yǔ)法特征方面的信息,采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法建立聲學(xué)-重音模型和語(yǔ)法-重音模型,并通過(guò)加權(quán)的方法對(duì)聲學(xué)-重音模型和語(yǔ)法-重音模型進(jìn)行組合,能夠達(dá)到89.84%的重音檢測(cè)正確率.Margolis等人[22]利用 Boosting方法、決策樹以及高斯線性分類器對(duì)重音進(jìn)行檢測(cè),分別達(dá)到 88.0%、86.3%、87.1%的檢測(cè)正確率.
ASCCD朗讀語(yǔ)篇語(yǔ)料庫(kù)(Annotated Speech Corpus of Chinese Discourse)由語(yǔ)篇語(yǔ)料、語(yǔ)音數(shù)據(jù)和語(yǔ)音學(xué)標(biāo)注信息組成,適用于語(yǔ)言語(yǔ)音研究、語(yǔ)音工程開(kāi)發(fā)和基礎(chǔ)漢語(yǔ)普通話教學(xué)等領(lǐng)域.語(yǔ)料文本是18篇敘事體、議論體語(yǔ)篇,每篇3~5個(gè)自然段,每個(gè)自然段500~600個(gè)音節(jié),總計(jì)9000個(gè)音節(jié),共10個(gè)發(fā)音人,5男5女,分別記為 M001、M002、M003、M004、M005、F001、F002、F003、F004、F005,使用標(biāo)準(zhǔn)普通話,以自然的方式,標(biāo)準(zhǔn)的語(yǔ)速,流暢地朗讀語(yǔ)篇.所有語(yǔ)音都經(jīng)過(guò)標(biāo)注,音段采用SAMPA-C標(biāo)準(zhǔn)標(biāo)注[23],韻律采用C-ToBI韻律標(biāo)注系統(tǒng)標(biāo)注,其標(biāo)注了音節(jié)拼音、聲韻母、聲調(diào)、韻律邊界等級(jí)以及語(yǔ)句重音信息[24].標(biāo)記每個(gè)韻律單位的重音,共分0、1、2、3級(jí).漢語(yǔ)的重音也是與韻律結(jié)構(gòu)對(duì)應(yīng)的層級(jí)結(jié)構(gòu).韻律詞中最重音節(jié)重音標(biāo)為1,次要韻律短語(yǔ)中最重音節(jié)重音標(biāo)為2,主要韻律短語(yǔ)中最重音節(jié)重音標(biāo)為3,0則表示不重讀,即正常讀音.在本研究中,我們將音節(jié)分為輕音、正常讀音和重音,不細(xì)分它們之間的差別,將韻律詞重音和次要韻律短語(yǔ)(MIP)重音看做正常讀音,只把主要韻律短語(yǔ)(MAP)重音看作是重讀.ASCCD語(yǔ)料庫(kù)中重音的分布如表1所示.
表1 ASCCD語(yǔ)料庫(kù)中重音的分布
文獻(xiàn)[25]和文獻(xiàn)[26]表明,時(shí)長(zhǎng)、強(qiáng)度和基頻等聲學(xué)特征,與重音有很強(qiáng)的相關(guān)性.因此,在本文采用時(shí)長(zhǎng)、基頻、音強(qiáng)和能量等相關(guān)聲學(xué)特征對(duì)漢語(yǔ)重音進(jìn)行預(yù)測(cè).重音是語(yǔ)音信號(hào)的一部分區(qū)域,那么,重音的表現(xiàn)也會(huì)受到周圍環(huán)境影響.因此,我們假設(shè)基于上下文的聲學(xué)特征能夠提高漢語(yǔ)重音的檢測(cè)正確率.為了驗(yàn)證我們的假設(shè),我們提取了基頻、音強(qiáng)、能量和時(shí)長(zhǎng)的上下文特征.漢語(yǔ)中單音節(jié)詞和雙音節(jié)詞所占的比重較高,故本文選取了八個(gè)上下文窗口:(1)當(dāng)前音節(jié)前一個(gè)音節(jié);(2)當(dāng)前音節(jié)后一個(gè)音節(jié);(3)當(dāng)前音節(jié)前兩個(gè)音節(jié);(4)當(dāng)前音節(jié)后兩個(gè)音節(jié);(5)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(6)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié);(7)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(8)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié).本文是采用Z-SCORE算法對(duì)某些特征進(jìn)行標(biāo)準(zhǔn)化的.
f0_min:當(dāng)前音節(jié)的基頻最小值
f0_max:當(dāng)前音節(jié)的基頻最大值
f0_mean:當(dāng)前音節(jié)的基頻平均值
f0_stdev:當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差
f0_zMax:當(dāng)前音節(jié)歸一化后的基頻最大值
norm_f0_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最小值
norm_f0_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最大值
norm_f0_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻平均值
norm_f0_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差
norm_f0_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)歸一化的基頻最大值
delta_f0_min:當(dāng)前音節(jié)基頻曲線傾斜度的最小值
delta_f0_max:當(dāng)前音節(jié)基頻曲線傾斜度的最大值
delta_f0_mean:當(dāng)前音節(jié)基頻曲線傾斜度的平均值
delta_f0_stdev:當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_f0_zMax:當(dāng)前音節(jié)基頻曲線傾斜度歸一化的最大值
delta_norm_f0_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最小值
delta_norm_f0_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最大值
delta_norm_f0_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的平均值
delta_norm_f0_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_norm_f0_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度歸一化后的最大值
f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻最大值
f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻平均值
norm_f0_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻平均值
norm_f0_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻最大值
delta_f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值
delta_f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值
delta_norm_f0_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值
delta_norm_f0_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值
漢語(yǔ)中單音節(jié)和雙音節(jié)詞所占的比重較高,所以本文選取當(dāng)前音節(jié)前兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)這樣八個(gè)上下文窗口,同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的基頻類似特征.
I_min:當(dāng)前音節(jié)的音強(qiáng)最小值
I_max:當(dāng)前音節(jié)的音強(qiáng)最大值
I_mean:當(dāng)前音節(jié)的音強(qiáng)平均值
I_stdev:當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差
I_zMax:當(dāng)前音節(jié)歸一化后的音強(qiáng)最大值
norm_I_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最小值
norm_I_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值
norm_I_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)平均值
norm_I_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差
norm_I_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值
delta_I_min:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值
delta_I_max:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值
delta_I_mean:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值
delta_I_stdev:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的標(biāo)準(zhǔn)差
delta_I_zMax:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值
delta_norm_I_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值
delta_norm_I_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值
delta_norm_I_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值
delta_norm_I_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差
delta_norm_I_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值
I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)最大值
I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)平均值
norm_I_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)平均值
norm_I_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)最大值
delta_I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值
delta_I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值
delta_norm_I_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值
delta_norm_I_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值
同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的音強(qiáng)類似特征.
bark__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的平均值
bark__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值
bark__max:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最大值
bark__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的標(biāo)準(zhǔn)值
bark__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最小值
bark_tilt__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的標(biāo)準(zhǔn)差
bark_tilt__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最小值
bark_tilt__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的平均值
bark_tilt__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值歸一化的最大值
bark_tilt__max最大值:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最大值
bark_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的平均值
bark_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值
bark_tilt_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的最大值
bark_tilt_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的平均值
英語(yǔ)重音和荷蘭語(yǔ)重音的研究表明:在500 Hz到2000 Hz頻帶上的能量與重音有密切的聯(lián)系[13].同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的能量類似特征.
duration_duration:當(dāng)前音節(jié)的時(shí)長(zhǎng)
duration_follpause:當(dāng)前音節(jié)之后的停頓時(shí)間
duration_duration_f2b0_zNorm:當(dāng)前音節(jié)前兩個(gè)音節(jié)的時(shí)長(zhǎng)標(biāo)準(zhǔn)化
同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的時(shí)長(zhǎng)類似特征.
在漢語(yǔ)語(yǔ)料庫(kù)ASCCD上,選擇F001、F002、F003和F005四個(gè)人作為訓(xùn)練集,選擇F004一個(gè)人作為測(cè)試集,在句子層次上訓(xùn)練集與測(cè)試集的大小是4∶1,在音節(jié)層次上訓(xùn)練集共包含了35060個(gè)音節(jié),測(cè)試集上共包含了8761個(gè)音節(jié),其中重音音節(jié)有964個(gè).對(duì)于機(jī)器學(xué)習(xí)方法,我們采用WEKA的NaiveBayes分類器,并且使用WEKA的默認(rèn)設(shè)置訓(xùn)練得到.
貝葉斯分類器的分類原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類.
表2 基于聲學(xué)特征的漢語(yǔ)重音檢測(cè)正確率
該文和文獻(xiàn)[13]最大的不同是選取的上下文窗口.文獻(xiàn)[13]認(rèn)為,漢語(yǔ)在重讀時(shí),當(dāng)前音節(jié)之前的音節(jié)對(duì)重音的影響程度要大于當(dāng)前音節(jié)之后的影響,所以,只選擇了當(dāng)前音節(jié)之前的兩個(gè)音節(jié)以及之后的一個(gè)音節(jié)作為當(dāng)前音節(jié)的上下文窗口.該文實(shí)驗(yàn)表明,不同上下文窗口的優(yōu)化組合能更好檢測(cè)漢語(yǔ)重音,其結(jié)果見(jiàn)表2.
表3 各個(gè)聲學(xué)特征的檢測(cè)正確率
重音感知中不僅僅有聲學(xué)特征,還有詞典、語(yǔ)法特征.在眾多特征中,哪種特征是影響重音感知最重要的因素,不同人有不同的解釋.趙元任先生認(rèn)為,漢語(yǔ)重音特征表現(xiàn)為音域加寬、音程加大,其次才是氣流加強(qiáng)[27].林茂燦等人認(rèn)為,漢語(yǔ)重音最重要的特征是音長(zhǎng)增加,而音強(qiáng)的作用不是想象中那么大[28].沈?yàn)热藙t認(rèn)為,在聽(tīng)辨重音時(shí),時(shí)長(zhǎng)的作用并不明顯,而音高的作用很重要[29].在該實(shí)驗(yàn)中,基頻、音強(qiáng)、時(shí)長(zhǎng)和能量四種聲學(xué)特征之間進(jìn)行比較可得出,基頻是重音感知最重要的因素(見(jiàn)表3).
該文基于ASCCD朗讀語(yǔ)篇語(yǔ)料庫(kù),結(jié)合上下文多維度聲學(xué)相關(guān)特征進(jìn)行漢語(yǔ)重音檢測(cè),采用NaiveBayes算法對(duì)當(dāng)前音節(jié)及前后音節(jié)的聲學(xué)特征組進(jìn)行建模,該方法充分利用了當(dāng)前音節(jié)及前后音節(jié)的相關(guān)特性.實(shí)驗(yàn)的結(jié)果表明Naive-Bayes分類器具有良好的分類效果.將來(lái),我們要對(duì)所用的特征進(jìn)行簡(jiǎn)化,嘗試使用其他的特征組合,比如語(yǔ)言學(xué)特征,并還要探索其他的建模方法和技術(shù)以刻畫重音的屬性.
[1] Gallwitz F,Batliner A,Buckow J,et al.Integrated recognition of words and phrase boundaries[J].Proceedings of the International Conference on Spoken Language Processing,1998(7):2883-2886.
[2] Hirschberg Julia,Swerts Marc.Prosodic cues to recognition errors[J].Proceedings of the Automatic Speech Recognition and Understanding Workshop,1999:345-352.
[3] Hirschberg Julia,Litman Diane,Swerts Marc.Generalizing prosodic prediction of speech recognition errors[J].Proceedings of the International Conference on Spoken Language Processing,2000:615-618.
[4] Hirschberg Julia.Communication and prosody:Functional aspects of prosody[J].Speech Communication,2002,36(1):31-43.
[5] 韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[6] Silverman K,Beckman M,Pitrelli J,et al.ToBI:A standard for labeling English prosody[C].//Proceedings of the 1992 international conference on spoken language processing,1992(2):867-870.
[7] Taylor P.The TILT intonation model[J].Proceedings of the International Conference on Spoken Language Processing Sydney.Australia,1998(4):1383-1386.
[8] Fujisaki H,Hirose K.Modeling the dynamic characteristics of voice fundamental frequency with application to analysis and synthesis of intonation[J]Proceedings of the International Congress of Linguistic.Tokyo,Japan,1982:57-70.
[9] Grabe E,Nolan F,F(xiàn)arrar K.IViE-A comparative transcription system for international variation in English//Proceedings of the International Conference on Spoken Language Processing.Sydney,Australia,1998:1259-1262.
[10] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 2002.Aixen-Provence,F(xiàn)rance,2002:39-46.
[11]胡偉湘,董宏輝,陶建華.等.漢語(yǔ)朗讀話語(yǔ)重音自動(dòng)分類研究[J].中文信息學(xué)報(bào),2005,19(6):78-83.
[12]邵艷秋,韓紀(jì)慶,劉挺.等.自然風(fēng)格言語(yǔ)的漢語(yǔ)句重音自動(dòng)判別研究[J].聲學(xué)學(xué)報(bào),2006,31(3):203-210.
[13]倪崇嘉,張愛(ài)英,劉文舉.基于聲學(xué)相關(guān)特征與詞典語(yǔ)法相關(guān)特征的漢語(yǔ)重音檢測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2011,34(9):1638-1647.
[14] Ananthakrishnan S,Narayanan S.An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Philadephia,PA,USA,2005.1-269-1-272.
[15] Ananthakrishnan S,Narayanan S.Automatic prosodic event detection using acoustic,lexical,and syntactic evidence.IEEE Transactions on Audio,Speech,and Language Process,2008,16(1):216-228.
[16] Ananthakrishnan S,Narayanan S.Fine-grained pitch accent and boundary tone labeling with parametric F0 features//Proceedings ofthe InternationalConference on Acoustics,Speech,and Signal Processing.Las Vegas,Nevada,USA,2008.4545-4548.
[19] Sridhar V K R,et al.Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework.IEEE Transactions on Audio,Speech,and Language Process,2008,16(4):797-811.
[20] Johnson M H,et al.Simultaneous recognition of words and prosody in Boston University radio speech corpus.Speech Communications,2005,46(3-4):418-438.
[21] Rosenberg A,Hirschberg J.Detecting pitch accent using pitch-corrected energy-based predictors//Proceedings of the Interspeech.Antwerp,Belgium,2007.2777-2780.
[22] Sun Xuejing.Pitch accent prediction using ensemble machine learning//Proceedings of the International Conference on Spoken Language Processing.Denver,Colorado,USA,2002.953-956.
[23] Hun J,Liu Y.Automatic prosodic events detection using syllable-based acoustic and syntactic features//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,China,2009:4565-4568.
[24] Margolis A,Ostendorf M.Acoustic-based pitch-accent detection in speech:Dependence on word identity and insensitivity to variations in word usage//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,Chhina,2009.4513-4516.
[25] Chen Xiaoxia,Li Aijun,Sun Guohua,et al.An application of SAMPA-C for standard Chinese//Proceedings of the International Conference on Spoken Language Processing.Beijing,China,2000.652-655.
[26] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 200.Aix-en-Provence,F(xiàn)rance,2002.39-46.
[27] Pitrelli J F.ToBI prosodic analysis of a professional speaker of American English//Proceedings of the Speech Prosody.Nara,Japan,2004.557-560.
[28] Nenkova A,Brenier J,Kothari A,et al.To memorize or to Predict:Prominence labeling in conversational speech//Proceedings of the HLT-NAACL.Rochester,NY,USA,2007.9-16.
[29]趙元任.語(yǔ)言問(wèn)題.北京:商務(wù)印書館,1980.
[30]林茂燦.顏景助.孫國(guó)華.北京話兩字組正常重音的初步試驗(yàn).方言,1984(1):57-73.
[31]沈炯,Hoek J H.漢語(yǔ)語(yǔ)勢(shì)重音的音理:簡(jiǎn)要報(bào)告.語(yǔ)文研究,1994(3):10-15.