亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合上下文多維度聲學(xué)特征組的漢語(yǔ)重音檢測(cè)*

        2014-12-02 03:01:04趙云雪鄭世杰
        關(guān)鍵詞:傾斜度基頻重音

        趙云雪,張 瓏,鄭世杰

        (哈爾濱師范大學(xué))

        0 引言

        在語(yǔ)音信號(hào)處理領(lǐng)域,韻律模型的研究已經(jīng)很好地用于英語(yǔ)、法語(yǔ)的語(yǔ)音識(shí)別[1-4].近些年,隨著研究的不斷深入,技術(shù)的不斷進(jìn)步,韻律模型也開(kāi)始逐步地應(yīng)用到漢語(yǔ)的語(yǔ)音識(shí)別領(lǐng)域.特別是基于朗讀語(yǔ)篇語(yǔ)料庫(kù),語(yǔ)音的韻律特征成為語(yǔ)音識(shí)別技術(shù)中的研究焦點(diǎn).

        韻律規(guī)則是合成語(yǔ)音中的一個(gè)不可或缺的部分.在許多西方語(yǔ)言為母語(yǔ)的人眼里,漢語(yǔ)聽(tīng)起來(lái),有聲有色、有板有眼、快慢有致,像歌曲一樣優(yōu)美動(dòng)聽(tīng).語(yǔ)流中這種由音高、音長(zhǎng)、音強(qiáng)和時(shí)長(zhǎng)等所體現(xiàn)出來(lái)的特征,稱為“韻律特征”,也叫“超音段特征”[5],它們反映出語(yǔ)音信號(hào)不同特性之間的差異.韻律特征主要包括聲調(diào)、語(yǔ)調(diào)、重音和節(jié)奏等.聲調(diào)屬于音節(jié)層的韻律;語(yǔ)調(diào)屬于句子層,乃至語(yǔ)篇層的韻律.韻律對(duì)合成語(yǔ)音的自然度和可懂讀以及是否連貫的影響極大,甚至還會(huì)影響語(yǔ)音識(shí)別的可理解度.對(duì)于同一個(gè)音素,由于語(yǔ)境不同,重音的表現(xiàn)也會(huì)不同,并且聲學(xué)特征會(huì)表現(xiàn)出很大的差別.通過(guò)修改語(yǔ)音數(shù)據(jù)的聲學(xué)參數(shù),如基頻、音長(zhǎng)和音強(qiáng),可以進(jìn)行重音和語(yǔ)調(diào)的模擬,實(shí)現(xiàn)語(yǔ)速和聲調(diào)的變化.

        眾所周知,漢語(yǔ)可以分為字、詞、短語(yǔ)、句子、段落和篇章等不同部分.相應(yīng)地,漢語(yǔ)的重音也有與韻律結(jié)構(gòu)相對(duì)應(yīng)的層級(jí)結(jié)構(gòu),可以分為:音節(jié)、音步、韻律詞、韻律短語(yǔ)和語(yǔ)調(diào)單位.從目前語(yǔ)音識(shí)別的研究狀況來(lái)看,我們常常關(guān)心詞與詞之間的或者句子與句子之間韻律層級(jí).關(guān)于漢語(yǔ)韻律層級(jí)的劃分以及韻律劃分同句法和語(yǔ)法之間的關(guān)系,很多研究者給出了不同的結(jié)論.并且,我們也知道人們?cè)谶M(jìn)行語(yǔ)言交流時(shí),其交流的語(yǔ)言不僅僅是各個(gè)單元的層級(jí)結(jié)構(gòu),還有各個(gè)單元的輕重也同樣起著非常重要的作用.一般說(shuō)漢語(yǔ)的重音,是指說(shuō)話或朗讀時(shí)讀的比較重的音素或短語(yǔ),因此常常給人一種幻覺(jué),語(yǔ)音的輕重是由氣流的強(qiáng)弱產(chǎn)生的.漢語(yǔ)普通話中,一般可以將漢語(yǔ)重音分為:詞重音和句重音.所謂詞重音,指詞的某個(gè)音節(jié)可分為重輕等級(jí).漢語(yǔ)的語(yǔ)句重音是指一句話里重讀的某個(gè)音節(jié)或詞語(yǔ).韻律的層級(jí)結(jié)構(gòu)和重音構(gòu)成了韻律研究中的兩個(gè)基本的問(wèn)題.

        現(xiàn)有的研究中,大部分都是基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)方法.為了描述韻律特征的結(jié)構(gòu)信息、輕重音以及基頻運(yùn)動(dòng)的模式,需要一個(gè)統(tǒng)一的框架.目前,已有很多這樣的描述框架,如 ToBI[6]、TILT[7]、Fujisaki 等人[8]、IViE[9]、C_ToBI[10]等.在構(gòu)建這些標(biāo)有韻律信息的韻律庫(kù)時(shí),完全依靠人工標(biāo)注這些韻律結(jié)構(gòu)信息和輕重音是十分耗時(shí)的和低效的,并且也不準(zhǔn)確;還不利于韻律模型在自然語(yǔ)言理解中的應(yīng)用.因此,人們?cè)絹?lái)越傾向于利用計(jì)算機(jī)技術(shù),通過(guò)建立模型對(duì)韻律進(jìn)行自動(dòng)標(biāo)注.

        該研究中將充分利用來(lái)自聲學(xué)(如基頻或音高、能量、音強(qiáng)、時(shí)長(zhǎng)等方面)的信息以及上下文方面的信息,構(gòu)建漢語(yǔ)重音檢測(cè)的特征集,使用Weka中的機(jī)器學(xué)習(xí)的方法訓(xùn)練模型,進(jìn)而對(duì)漢語(yǔ)重音進(jìn)行檢測(cè).

        該文在第1部分中將詳細(xì)闡述本研究的國(guó)內(nèi)外研究概況和發(fā)展趨勢(shì);在第2部分簡(jiǎn)單介紹ASCDD朗讀語(yǔ)篇語(yǔ)料庫(kù);在第3部分詳細(xì)介紹了本文所使用的上下文多維度聲學(xué)特征組;在第4部分對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行描述;并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析;在第5部分,給出我們的實(shí)驗(yàn)結(jié)果和本研究領(lǐng)域的發(fā)展趨勢(shì).

        1 國(guó)內(nèi)外研究概況和發(fā)展趨勢(shì)

        國(guó)內(nèi)研究狀況,對(duì)于漢語(yǔ)的重音檢測(cè)技術(shù),胡偉湘等人[11]利用音長(zhǎng)和音高聲學(xué)相關(guān)特征,采用基于分類回歸樹結(jié)構(gòu)的區(qū)分度模型,在韻律標(biāo)注語(yǔ)料庫(kù)ASCCD上能夠達(dá)到78%的重音檢測(cè)正確率.邵艷秋等人[12]又利用神經(jīng)網(wǎng)絡(luò)對(duì)聲學(xué)相關(guān)特征進(jìn)行漢語(yǔ)重音檢測(cè),能夠達(dá)到78.4%的正確率.倪崇嘉等人[13]對(duì)漢語(yǔ)重音檢測(cè)做了進(jìn)一步的研究,利用聲學(xué)相關(guān)特征以及詞典語(yǔ)法相關(guān)特征對(duì)漢語(yǔ)重音進(jìn)行檢測(cè),采用Boosting集成分類回歸樹對(duì)當(dāng)前音節(jié)的聲學(xué)相關(guān)特征以及詞典和語(yǔ)法相關(guān)特征進(jìn)行建模,同時(shí)還對(duì)詞典和語(yǔ)法相關(guān)特征采用條件隨機(jī)場(chǎng)方法建模,最后,將Boosting集成分類回歸樹模型和條件隨機(jī)場(chǎng)模型加權(quán)組合獲得識(shí)別率更高的混合模型,在ASCCD語(yǔ)料庫(kù)上能夠獲得76.3%重音檢測(cè)正確率.

        國(guó)外研究狀況,對(duì)于英語(yǔ)的重音檢測(cè)技術(shù),Ananthakrishnan等人[14]構(gòu)建了韻律識(shí)別系統(tǒng),選用耦合隱馬爾可夫模型(CHMM)在音節(jié)和詞層次上對(duì)重音進(jìn)行檢測(cè).在基于BURNC語(yǔ)料庫(kù)重音檢測(cè)的實(shí)驗(yàn)表明,在音節(jié)層次或音素層次上達(dá)到74.9%英語(yǔ)重音檢測(cè)正確率.2008年,Ananthakrishnan等人[15]又在上述研究的基礎(chǔ)上,在最大后驗(yàn)概率(Maximum A Prior,MAP)框架下,利用BURNC語(yǔ)料庫(kù)對(duì)英語(yǔ)重音進(jìn)行檢測(cè),能夠達(dá)到86.75%的重音檢測(cè)正確率.然后,Ananthakrishnan等人[16]僅利用RFC特征和韻律語(yǔ)言模型對(duì)英語(yǔ)重音進(jìn)行檢測(cè),在BURNC語(yǔ)料庫(kù)上能夠達(dá)到67.7%檢測(cè)正確率.Sridhar等人[17]在最大熵框架下,利用聲學(xué)和語(yǔ)法的特征對(duì)韻律進(jìn)行自動(dòng)標(biāo)注,在波士頓大學(xué)廣播新聞?wù)Z料庫(kù)和波士頓Derection語(yǔ)料庫(kù)(Boston Directions Corpus,BDC)上對(duì)單個(gè)詞的重音檢測(cè)分別能夠達(dá)到86.0%和79.8%的正確率.Johnson等人[18]利用神經(jīng)網(wǎng)絡(luò)和高斯混合模型在BURNC語(yǔ)料庫(kù)上實(shí)驗(yàn),結(jié)果充分表明,對(duì)單個(gè)詞的重音能夠達(dá)到84.2%檢測(cè)正確率.Rosenberg等人[19]試驗(yàn)了在2~20 bark上,僅采用能量相關(guān)特征,利用分類回歸樹的C4.5算法對(duì)重音進(jìn)行檢測(cè),在BDC語(yǔ)料庫(kù)上對(duì)重音的檢測(cè)正確率能夠達(dá)到81.9%.Sun[20]利用 Pitch Target特征,同時(shí)結(jié)合時(shí)長(zhǎng)、能量以及一些文本特征構(gòu)造特征集,采用集成機(jī)器學(xué)習(xí)的Boosting和Bagging方法訓(xùn)練分類器,分別能夠達(dá)到87.17%和84.26%的重音檢測(cè)正確率.Hun等人[21]利用聲學(xué)相關(guān)特征和詞典語(yǔ)法特征方面的信息,采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法建立聲學(xué)-重音模型和語(yǔ)法-重音模型,并通過(guò)加權(quán)的方法對(duì)聲學(xué)-重音模型和語(yǔ)法-重音模型進(jìn)行組合,能夠達(dá)到89.84%的重音檢測(cè)正確率.Margolis等人[22]利用 Boosting方法、決策樹以及高斯線性分類器對(duì)重音進(jìn)行檢測(cè),分別達(dá)到 88.0%、86.3%、87.1%的檢測(cè)正確率.

        2 ASCCD朗讀語(yǔ)篇語(yǔ)料庫(kù)

        ASCCD朗讀語(yǔ)篇語(yǔ)料庫(kù)(Annotated Speech Corpus of Chinese Discourse)由語(yǔ)篇語(yǔ)料、語(yǔ)音數(shù)據(jù)和語(yǔ)音學(xué)標(biāo)注信息組成,適用于語(yǔ)言語(yǔ)音研究、語(yǔ)音工程開(kāi)發(fā)和基礎(chǔ)漢語(yǔ)普通話教學(xué)等領(lǐng)域.語(yǔ)料文本是18篇敘事體、議論體語(yǔ)篇,每篇3~5個(gè)自然段,每個(gè)自然段500~600個(gè)音節(jié),總計(jì)9000個(gè)音節(jié),共10個(gè)發(fā)音人,5男5女,分別記為 M001、M002、M003、M004、M005、F001、F002、F003、F004、F005,使用標(biāo)準(zhǔn)普通話,以自然的方式,標(biāo)準(zhǔn)的語(yǔ)速,流暢地朗讀語(yǔ)篇.所有語(yǔ)音都經(jīng)過(guò)標(biāo)注,音段采用SAMPA-C標(biāo)準(zhǔn)標(biāo)注[23],韻律采用C-ToBI韻律標(biāo)注系統(tǒng)標(biāo)注,其標(biāo)注了音節(jié)拼音、聲韻母、聲調(diào)、韻律邊界等級(jí)以及語(yǔ)句重音信息[24].標(biāo)記每個(gè)韻律單位的重音,共分0、1、2、3級(jí).漢語(yǔ)的重音也是與韻律結(jié)構(gòu)對(duì)應(yīng)的層級(jí)結(jié)構(gòu).韻律詞中最重音節(jié)重音標(biāo)為1,次要韻律短語(yǔ)中最重音節(jié)重音標(biāo)為2,主要韻律短語(yǔ)中最重音節(jié)重音標(biāo)為3,0則表示不重讀,即正常讀音.在本研究中,我們將音節(jié)分為輕音、正常讀音和重音,不細(xì)分它們之間的差別,將韻律詞重音和次要韻律短語(yǔ)(MIP)重音看做正常讀音,只把主要韻律短語(yǔ)(MAP)重音看作是重讀.ASCCD語(yǔ)料庫(kù)中重音的分布如表1所示.

        表1 ASCCD語(yǔ)料庫(kù)中重音的分布

        3 基于聲學(xué)特征相關(guān)特征的重音檢測(cè)

        文獻(xiàn)[25]和文獻(xiàn)[26]表明,時(shí)長(zhǎng)、強(qiáng)度和基頻等聲學(xué)特征,與重音有很強(qiáng)的相關(guān)性.因此,在本文采用時(shí)長(zhǎng)、基頻、音強(qiáng)和能量等相關(guān)聲學(xué)特征對(duì)漢語(yǔ)重音進(jìn)行預(yù)測(cè).重音是語(yǔ)音信號(hào)的一部分區(qū)域,那么,重音的表現(xiàn)也會(huì)受到周圍環(huán)境影響.因此,我們假設(shè)基于上下文的聲學(xué)特征能夠提高漢語(yǔ)重音的檢測(cè)正確率.為了驗(yàn)證我們的假設(shè),我們提取了基頻、音強(qiáng)、能量和時(shí)長(zhǎng)的上下文特征.漢語(yǔ)中單音節(jié)詞和雙音節(jié)詞所占的比重較高,故本文選取了八個(gè)上下文窗口:(1)當(dāng)前音節(jié)前一個(gè)音節(jié);(2)當(dāng)前音節(jié)后一個(gè)音節(jié);(3)當(dāng)前音節(jié)前兩個(gè)音節(jié);(4)當(dāng)前音節(jié)后兩個(gè)音節(jié);(5)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(6)當(dāng)前音節(jié)前一個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié);(7)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后一個(gè)音節(jié);(8)當(dāng)前音節(jié)前兩個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié).本文是采用Z-SCORE算法對(duì)某些特征進(jìn)行標(biāo)準(zhǔn)化的.

        3.1 對(duì)于基頻特征,為每一音節(jié)計(jì)算下列特征

        f0_min:當(dāng)前音節(jié)的基頻最小值

        f0_max:當(dāng)前音節(jié)的基頻最大值

        f0_mean:當(dāng)前音節(jié)的基頻平均值

        f0_stdev:當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差

        f0_zMax:當(dāng)前音節(jié)歸一化后的基頻最大值

        norm_f0_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最小值

        norm_f0_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻最大值

        norm_f0_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻平均值

        norm_f0_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的基頻標(biāo)準(zhǔn)差

        norm_f0_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)歸一化的基頻最大值

        delta_f0_min:當(dāng)前音節(jié)基頻曲線傾斜度的最小值

        delta_f0_max:當(dāng)前音節(jié)基頻曲線傾斜度的最大值

        delta_f0_mean:當(dāng)前音節(jié)基頻曲線傾斜度的平均值

        delta_f0_stdev:當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

        delta_f0_zMax:當(dāng)前音節(jié)基頻曲線傾斜度歸一化的最大值

        delta_norm_f0_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最小值

        delta_norm_f0_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的最大值

        delta_norm_f0_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的平均值

        delta_norm_f0_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

        delta_norm_f0_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度歸一化后的最大值

        f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻最大值

        f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的基頻平均值

        norm_f0_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻平均值

        norm_f0_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化基頻最大值

        delta_f0_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值

        delta_f0_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值

        delta_norm_f0_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化最大值

        delta_norm_f0_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的基頻曲線傾斜度的歸一化平均值

        漢語(yǔ)中單音節(jié)和雙音節(jié)詞所占的比重較高,所以本文選取當(dāng)前音節(jié)前兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)和當(dāng)前音節(jié)后兩個(gè)音節(jié)、一個(gè)音節(jié)、零個(gè)音節(jié)這樣八個(gè)上下文窗口,同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的基頻類似特征.

        3.2 對(duì)于音強(qiáng)特征,為每一音節(jié)計(jì)算下列特征

        I_min:當(dāng)前音節(jié)的音強(qiáng)最小值

        I_max:當(dāng)前音節(jié)的音強(qiáng)最大值

        I_mean:當(dāng)前音節(jié)的音強(qiáng)平均值

        I_stdev:當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差

        I_zMax:當(dāng)前音節(jié)歸一化后的音強(qiáng)最大值

        norm_I_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最小值

        norm_I_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值

        norm_I_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)平均值

        norm_I_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)標(biāo)準(zhǔn)差

        norm_I_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)的音強(qiáng)最大值

        delta_I_min:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值

        delta_I_max:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值

        delta_I_mean:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值

        delta_I_stdev:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的標(biāo)準(zhǔn)差

        delta_I_zMax:當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值

        delta_norm_I_min:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最小值

        delta_norm_I_max:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的最大值

        delta_norm_I_mean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度的平均值

        delta_norm_I_stdev:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)基頻曲線傾斜度的標(biāo)準(zhǔn)差

        delta_norm_I_zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)音強(qiáng)曲線傾斜度歸一化的最大值

        I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)最大值

        I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化的音強(qiáng)平均值

        norm_I_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)平均值

        norm_I_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的歸一化音強(qiáng)最大值

        delta_I_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值

        delta_I_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值

        delta_norm_I_f2b0__zMax:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化最大值

        delta_norm_I_f2b0__zMean:說(shuō)話者標(biāo)準(zhǔn)化后當(dāng)前音節(jié)前的兩個(gè)音節(jié)的音強(qiáng)曲線傾斜度的歸一化平均值

        同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的音強(qiáng)類似特征.

        3.3 對(duì)于能量特征,為每一音節(jié)計(jì)算下列特征

        bark__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的平均值

        bark__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值

        bark__max:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最大值

        bark__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的標(biāo)準(zhǔn)值

        bark__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)能量的最小值

        bark_tilt__stdev:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的標(biāo)準(zhǔn)差

        bark_tilt__min:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最小值

        bark_tilt__mean:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的平均值

        bark_tilt__zMax:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值歸一化的最大值

        bark_tilt__max最大值:當(dāng)前音節(jié)500~2000 Hz頻率范圍內(nèi)的能量與總能量的比值的最大值

        bark_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的平均值

        bark_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量歸一化的最大值

        bark_tilt_f2b0__zMax:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的最大值

        bark_tilt_f2b0__zMean:當(dāng)前音節(jié)前的兩個(gè)音節(jié)的500~2000 Hz頻率范圍內(nèi)能量與總能量的比值歸一化的平均值

        英語(yǔ)重音和荷蘭語(yǔ)重音的研究表明:在500 Hz到2000 Hz頻帶上的能量與重音有密切的聯(lián)系[13].同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的能量類似特征.

        3.4 對(duì)于時(shí)長(zhǎng)特征,為每一音節(jié)計(jì)算下列特征

        duration_duration:當(dāng)前音節(jié)的時(shí)長(zhǎng)

        duration_follpause:當(dāng)前音節(jié)之后的停頓時(shí)間

        duration_duration_f2b0_zNorm:當(dāng)前音節(jié)前兩個(gè)音節(jié)的時(shí)長(zhǎng)標(biāo)準(zhǔn)化

        同計(jì)算當(dāng)前音節(jié)前的兩個(gè)音節(jié)的上下文相關(guān)特征一樣,也計(jì)算了其他7個(gè)上下文窗口的時(shí)長(zhǎng)類似特征.

        4 試驗(yàn)及實(shí)驗(yàn)結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境

        在漢語(yǔ)語(yǔ)料庫(kù)ASCCD上,選擇F001、F002、F003和F005四個(gè)人作為訓(xùn)練集,選擇F004一個(gè)人作為測(cè)試集,在句子層次上訓(xùn)練集與測(cè)試集的大小是4∶1,在音節(jié)層次上訓(xùn)練集共包含了35060個(gè)音節(jié),測(cè)試集上共包含了8761個(gè)音節(jié),其中重音音節(jié)有964個(gè).對(duì)于機(jī)器學(xué)習(xí)方法,我們采用WEKA的NaiveBayes分類器,并且使用WEKA的默認(rèn)設(shè)置訓(xùn)練得到.

        貝葉斯分類器的分類原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類.

        4.2 實(shí)驗(yàn)結(jié)果及分析

        表2 基于聲學(xué)特征的漢語(yǔ)重音檢測(cè)正確率

        該文和文獻(xiàn)[13]最大的不同是選取的上下文窗口.文獻(xiàn)[13]認(rèn)為,漢語(yǔ)在重讀時(shí),當(dāng)前音節(jié)之前的音節(jié)對(duì)重音的影響程度要大于當(dāng)前音節(jié)之后的影響,所以,只選擇了當(dāng)前音節(jié)之前的兩個(gè)音節(jié)以及之后的一個(gè)音節(jié)作為當(dāng)前音節(jié)的上下文窗口.該文實(shí)驗(yàn)表明,不同上下文窗口的優(yōu)化組合能更好檢測(cè)漢語(yǔ)重音,其結(jié)果見(jiàn)表2.

        表3 各個(gè)聲學(xué)特征的檢測(cè)正確率

        重音感知中不僅僅有聲學(xué)特征,還有詞典、語(yǔ)法特征.在眾多特征中,哪種特征是影響重音感知最重要的因素,不同人有不同的解釋.趙元任先生認(rèn)為,漢語(yǔ)重音特征表現(xiàn)為音域加寬、音程加大,其次才是氣流加強(qiáng)[27].林茂燦等人認(rèn)為,漢語(yǔ)重音最重要的特征是音長(zhǎng)增加,而音強(qiáng)的作用不是想象中那么大[28].沈?yàn)热藙t認(rèn)為,在聽(tīng)辨重音時(shí),時(shí)長(zhǎng)的作用并不明顯,而音高的作用很重要[29].在該實(shí)驗(yàn)中,基頻、音強(qiáng)、時(shí)長(zhǎng)和能量四種聲學(xué)特征之間進(jìn)行比較可得出,基頻是重音感知最重要的因素(見(jiàn)表3).

        5 總結(jié)與展望

        該文基于ASCCD朗讀語(yǔ)篇語(yǔ)料庫(kù),結(jié)合上下文多維度聲學(xué)相關(guān)特征進(jìn)行漢語(yǔ)重音檢測(cè),采用NaiveBayes算法對(duì)當(dāng)前音節(jié)及前后音節(jié)的聲學(xué)特征組進(jìn)行建模,該方法充分利用了當(dāng)前音節(jié)及前后音節(jié)的相關(guān)特性.實(shí)驗(yàn)的結(jié)果表明Naive-Bayes分類器具有良好的分類效果.將來(lái),我們要對(duì)所用的特征進(jìn)行簡(jiǎn)化,嘗試使用其他的特征組合,比如語(yǔ)言學(xué)特征,并還要探索其他的建模方法和技術(shù)以刻畫重音的屬性.

        [1] Gallwitz F,Batliner A,Buckow J,et al.Integrated recognition of words and phrase boundaries[J].Proceedings of the International Conference on Spoken Language Processing,1998(7):2883-2886.

        [2] Hirschberg Julia,Swerts Marc.Prosodic cues to recognition errors[J].Proceedings of the Automatic Speech Recognition and Understanding Workshop,1999:345-352.

        [3] Hirschberg Julia,Litman Diane,Swerts Marc.Generalizing prosodic prediction of speech recognition errors[J].Proceedings of the International Conference on Spoken Language Processing,2000:615-618.

        [4] Hirschberg Julia.Communication and prosody:Functional aspects of prosody[J].Speech Communication,2002,36(1):31-43.

        [5] 韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.

        [6] Silverman K,Beckman M,Pitrelli J,et al.ToBI:A standard for labeling English prosody[C].//Proceedings of the 1992 international conference on spoken language processing,1992(2):867-870.

        [7] Taylor P.The TILT intonation model[J].Proceedings of the International Conference on Spoken Language Processing Sydney.Australia,1998(4):1383-1386.

        [8] Fujisaki H,Hirose K.Modeling the dynamic characteristics of voice fundamental frequency with application to analysis and synthesis of intonation[J]Proceedings of the International Congress of Linguistic.Tokyo,Japan,1982:57-70.

        [9] Grabe E,Nolan F,F(xiàn)arrar K.IViE-A comparative transcription system for international variation in English//Proceedings of the International Conference on Spoken Language Processing.Sydney,Australia,1998:1259-1262.

        [10] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 2002.Aixen-Provence,F(xiàn)rance,2002:39-46.

        [11]胡偉湘,董宏輝,陶建華.等.漢語(yǔ)朗讀話語(yǔ)重音自動(dòng)分類研究[J].中文信息學(xué)報(bào),2005,19(6):78-83.

        [12]邵艷秋,韓紀(jì)慶,劉挺.等.自然風(fēng)格言語(yǔ)的漢語(yǔ)句重音自動(dòng)判別研究[J].聲學(xué)學(xué)報(bào),2006,31(3):203-210.

        [13]倪崇嘉,張愛(ài)英,劉文舉.基于聲學(xué)相關(guān)特征與詞典語(yǔ)法相關(guān)特征的漢語(yǔ)重音檢測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2011,34(9):1638-1647.

        [14] Ananthakrishnan S,Narayanan S.An automatic prosody recognizer using a coupled multi-stream acoustic model and a syntactic-prosodic language model//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Philadephia,PA,USA,2005.1-269-1-272.

        [15] Ananthakrishnan S,Narayanan S.Automatic prosodic event detection using acoustic,lexical,and syntactic evidence.IEEE Transactions on Audio,Speech,and Language Process,2008,16(1):216-228.

        [16] Ananthakrishnan S,Narayanan S.Fine-grained pitch accent and boundary tone labeling with parametric F0 features//Proceedings ofthe InternationalConference on Acoustics,Speech,and Signal Processing.Las Vegas,Nevada,USA,2008.4545-4548.

        [19] Sridhar V K R,et al.Exploiting acoustic and syntactic features for automatic prosody labeling in a maximum entropy framework.IEEE Transactions on Audio,Speech,and Language Process,2008,16(4):797-811.

        [20] Johnson M H,et al.Simultaneous recognition of words and prosody in Boston University radio speech corpus.Speech Communications,2005,46(3-4):418-438.

        [21] Rosenberg A,Hirschberg J.Detecting pitch accent using pitch-corrected energy-based predictors//Proceedings of the Interspeech.Antwerp,Belgium,2007.2777-2780.

        [22] Sun Xuejing.Pitch accent prediction using ensemble machine learning//Proceedings of the International Conference on Spoken Language Processing.Denver,Colorado,USA,2002.953-956.

        [23] Hun J,Liu Y.Automatic prosodic events detection using syllable-based acoustic and syntactic features//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,China,2009:4565-4568.

        [24] Margolis A,Ostendorf M.Acoustic-based pitch-accent detection in speech:Dependence on word identity and insensitivity to variations in word usage//Proceedings of the International Conference on Acoustics,Speech,and Signal Processing.Taipei,Taiwan,Chhina,2009.4513-4516.

        [25] Chen Xiaoxia,Li Aijun,Sun Guohua,et al.An application of SAMPA-C for standard Chinese//Proceedings of the International Conference on Spoken Language Processing.Beijing,China,2000.652-655.

        [26] Li Aijun.Chinese prosody and prosodic labeling of spontaneous speech//Proceedings of the Speech Prosody 200.Aix-en-Provence,F(xiàn)rance,2002.39-46.

        [27] Pitrelli J F.ToBI prosodic analysis of a professional speaker of American English//Proceedings of the Speech Prosody.Nara,Japan,2004.557-560.

        [28] Nenkova A,Brenier J,Kothari A,et al.To memorize or to Predict:Prominence labeling in conversational speech//Proceedings of the HLT-NAACL.Rochester,NY,USA,2007.9-16.

        [29]趙元任.語(yǔ)言問(wèn)題.北京:商務(wù)印書館,1980.

        [30]林茂燦.顏景助.孫國(guó)華.北京話兩字組正常重音的初步試驗(yàn).方言,1984(1):57-73.

        [31]沈炯,Hoek J H.漢語(yǔ)語(yǔ)勢(shì)重音的音理:簡(jiǎn)要報(bào)告.語(yǔ)文研究,1994(3):10-15.

        猜你喜歡
        傾斜度基頻重音
        語(yǔ)音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
        基于時(shí)域的基頻感知語(yǔ)音分離方法?
        上頜不同區(qū)域牙槽骨頰舌向傾斜度的CBCT測(cè)量分析*
        重音在“文學(xué)作品朗讀”中的運(yùn)用
        藝術(shù)家(2020年5期)2020-12-07 07:49:32
        橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
        45000kHz基頻晶體濾波器
        電子制作(2017年20期)2017-04-26 06:57:35
        維吾爾語(yǔ)詞重音的形式判斷
        淺談?wù)Z句重音的把握
        大眾文藝(2015年5期)2015-01-27 11:12:44
        基于重音理論的英語(yǔ)聽(tīng)力學(xué)習(xí)策略
        408XL傾斜度測(cè)試的原理及實(shí)質(zhì)
        国产啪亚洲国产精品无码 | 最新日本免费一区二区三区| 又爽又猛又大又湿的视频| 自拍偷拍韩国三级视频| 噜噜噜噜私人影院| 无码丰满熟妇一区二区| 精品一区二区久久久久久久网站| 午夜一级韩国欧美日本国产 | 亚洲av综合日韩| 免费无码又爽又刺激高潮的视频网站 | 亚洲av中文字字幕乱码| 亚洲一区二区精品在线| 亚洲国产精品不卡av在线| 精品综合久久久久久888蜜芽| 亚洲精品综合欧美一区二区三区| 国产精品国产三级国产专播| 亚洲人av毛片一区二区| 亚洲av综合av国一区二区三区| 国产精品成人一区二区不卡| 最近2019年好看中文字幕视频| 猫咪免费人成网站在线观看| 色婷婷狠狠97成为人免费| 国产内射一级一片内射高清视频1| 99999久久久久久亚洲| 无码一区二区波多野结衣播放搜索 | 亚洲av日韩av激情亚洲| 国产精品午夜无码av天美传媒| 国产精品98视频全部国产| 亚洲天堂av一区二区三区不卡| 国产精品毛片无遮挡高清| 日韩中文字幕免费视频| 97视频在线播放| 国产免费人成视频在线观看播放| 国产91在线播放九色快色| 玩弄人妻少妇精品视频| 国产成人免费a在线视频| 国产69精品一区二区三区| 亚洲国产区中文在线观看 | 国产一卡2卡3卡四卡国色天香| 全部免费国产潢色一级| 青青青视频手机在线观看|