亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用AdaBoost-SVM集成算法和語塊信息的韻律短語識別*

2016-01-26 06:48:28錢揖麗,馮志茹

計(jì)算機(jī)工程與科學(xué) 2015年12期

關(guān)鍵詞：識別

通信地址：030006 山西省太原市山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院Address:School of Computer & Information Technology, Shanxi University, Taiyuan 030006, Shanxi,P.R.China

錢揖麗1，2，馮志茹1

(1.山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院，山西太原 030006；

2.山西大學(xué)計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室，山西太原 030006)

摘要：提出一種基于漢語語塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法的漢語韻律短語識別方法。首先，對語料進(jìn)行自動分詞、詞性標(biāo)注和初語塊標(biāo)注，然后基于結(jié)合緊密度獲取語塊歸并規(guī)則并利用規(guī)則對初語塊進(jìn)行歸并，得到最終的語塊結(jié)構(gòu)。其次，基于語塊結(jié)構(gòu)并利用AdaBoost-SVM集成算法，構(gòu)建漢語韻律短語識別模型。同時(shí)，該文利用多種算法分別構(gòu)建了利用語塊信息和不利用語塊的多個(gè)模型，對比實(shí)驗(yàn)結(jié)果表明，表示淺層句法信息的語塊能夠在韻律短語識別中做出積極有效的貢獻(xiàn)；利用AdaBoos-SVM集成算法實(shí)現(xiàn)的模型性能更佳。

關(guān)鍵詞：漢語語塊；AdaBoost-SVM；韻律短語；識別

1引言

語音合成是制造語音的技術(shù)。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)，是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)。目前機(jī)器合成的語音與人講的話之間還有明顯的差距，其自然度還有待進(jìn)一步的提高。韻律的差距是影響語音自然度的重要因素之一，合成的語音單調(diào)枯燥，且在節(jié)奏、輕重、停頓等方面的處理不當(dāng)使其聽起來非常別扭。充分掌握和運(yùn)用自然語言的韻律信息，是提高合成語音自然度的關(guān)鍵。

人在說話時(shí)往往會按照話語表達(dá)的核心、語義和發(fā)音的生理機(jī)能等，自然地在話語中添加必要的停歇。停歇的位置、時(shí)長等對于語義表達(dá)、語流的生動性和自然度等有著很大的影響。

語音上的停歇與文本的韻律結(jié)構(gòu)緊密相關(guān)。目前比較公認(rèn)的是將韻律結(jié)構(gòu)從下到上分為三個(gè)級別，即：韻律詞、韻律短語和語調(diào)短語。在韻律結(jié)構(gòu)邊界會出現(xiàn)長短不同的停歇，韻律層次越高，停歇的時(shí)間就越長。由于韻律詞往往與語法詞相對應(yīng)，而語調(diào)短語則通常是一個(gè)完整的分句，因此，韻律短語是人們研究的重點(diǎn)。針對韻律短語識別研究，已有的工作有基于語言學(xué)規(guī)則的方法[1]，這類方法復(fù)用度低且很容易受到人為因素的限制；有基于統(tǒng)計(jì)的方法，如基于二叉樹[2，3]、馬爾科夫模型[4]、最大熵模型[5]、決策樹[6]等等，這些方法使用的特征大多為詞、詞性等詞法特征，或者使用依賴人工標(biāo)注的語法特征；還有規(guī)則和統(tǒng)計(jì)相結(jié)合的方法等，這些工作使得韻律結(jié)構(gòu)劃分問題取得了一定的進(jìn)展。

通過對大量語料的分析可知，韻律結(jié)構(gòu)和句法結(jié)構(gòu)之間存在著一定的聯(lián)系。韻律結(jié)構(gòu)是以句法結(jié)構(gòu)為基礎(chǔ)的，在句法上不能夠出現(xiàn)停頓的地方(如詞內(nèi)音節(jié)之間)，韻律上也不允許出現(xiàn)停頓；而在句法上的高層結(jié)構(gòu)之間，特別是標(biāo)點(diǎn)符號出現(xiàn)的地方，韻律上一定會出現(xiàn)停頓[7]。但是，由于漢語句子和句法結(jié)構(gòu)的復(fù)雜性和靈活多變性，往往存在著一定的嵌套關(guān)系，且句法分析器的生成較為復(fù)雜，對隨機(jī)的句子進(jìn)行分析得到的結(jié)果還不甚理想。為了降低句法分析難度，語塊在CoNLL-2000被提出。語塊分析能夠?qū)浞ǚ治銎鸬胶芎玫闹薪樽饔?，并為后續(xù)的句法分析提供依據(jù)。另外，通過觀察和統(tǒng)計(jì)發(fā)現(xiàn)，人們在朗讀或說話的時(shí)候往往會自然地將句子切分成一定長度的語塊流，語塊的切分還會把句法上相關(guān)的詞進(jìn)行整合，對韻律短語的識別起到積極作用。所以，本文在漢語語塊識別的基礎(chǔ)上，提出將語塊結(jié)構(gòu)這種非遞歸嵌套的淺層句法結(jié)構(gòu)應(yīng)用于韻律短語的識別。

另外，要實(shí)現(xiàn)韻律短語的自動識別，就需要構(gòu)造一個(gè)具有較高泛化能力的高精度學(xué)習(xí)機(jī)。但是，由于尋找一種較強(qiáng)的分類算法用于韻律短語識別較為困難，基于強(qiáng)、弱學(xué)習(xí)算法的等價(jià)性問題，利用集成學(xué)習(xí)方法能夠使多個(gè)準(zhǔn)確率略高于隨機(jī)猜測的弱分類器進(jìn)行加權(quán)融合，形成一個(gè)強(qiáng)學(xué)習(xí)算法，達(dá)到比強(qiáng)分類器更好的分類效果。所以，本文使用AdaBoost集成學(xué)習(xí)算法，用SVM方法訓(xùn)練生成多個(gè)基分類器，再將多個(gè)基分類器用加權(quán)投票的方法集成，形成一個(gè)新的強(qiáng)分類器完成對韻律短語的預(yù)測。多項(xiàng)對比實(shí)驗(yàn)結(jié)果顯示，基于語塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法構(gòu)建的模型性能更佳。

2AdaBoost-SVM集成算法

實(shí)現(xiàn)韻律短語的自動識別，需要構(gòu)造出一個(gè)具有較高泛化能力的高精度學(xué)習(xí)機(jī)。而領(lǐng)域知識和學(xué)習(xí)數(shù)據(jù)集本身及其分布對泛化能力的制約較大。傳統(tǒng)的數(shù)理統(tǒng)計(jì)與模式識別的方法需要盡可能精確地找到預(yù)測的規(guī)則，故構(gòu)造精度高的學(xué)習(xí)機(jī)很難；而集成學(xué)習(xí)的思想大大改變了以往研究的思路。

2.1　Boosting算法

集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法，對于分類問題其主要思想是：使用一些分類效率只需略高于隨機(jī)猜測的弱分類學(xué)習(xí)算法，學(xué)習(xí)生成多個(gè)不同的基分類學(xué)習(xí)機(jī)，然后將多個(gè)基分類學(xué)習(xí)機(jī)組合成強(qiáng)分類學(xué)習(xí)機(jī)[8]，這個(gè)新形成的分類學(xué)習(xí)機(jī)具有較強(qiáng)的泛化能力。

從Schapire R E[9]證明一個(gè)強(qiáng)分類學(xué)習(xí)機(jī)可以被多個(gè)弱分類學(xué)習(xí)機(jī)通過某些方法得到開始，Boosting算法便得以出現(xiàn)。此后，F(xiàn)reund Y[10]提出了一種更有效的Boost-by-majority算法。但是，這兩種算法在解決實(shí)際問題時(shí)就會有許多問題產(chǎn)生。在使用弱分類學(xué)習(xí)算法前，必須先知道其最差正確率。1997年，Schapire R E和Freund Y[11]提出的AdaBoost算法解決了這一問題，且其算法效率與Boosting-by-majority相當(dāng)，而且極易應(yīng)用于實(shí)際問題中。之后，又提出了可以控制投票機(jī)制的AdaBoost.M1、AdaBoost.M2和AdaBoost.R算法。

2.2　基于AdaBoost的SVM集成算法

雖然AdaBoost方法自適應(yīng)能力強(qiáng)且實(shí)現(xiàn)簡單，可以提高任意一種弱分類器的分類精度，但卻特別容易受到噪聲數(shù)據(jù)的影響[12]。這是由于AdaBoost算法強(qiáng)調(diào)分類錯(cuò)誤的數(shù)據(jù)更為重要，所以在每次訓(xùn)練結(jié)束后會對訓(xùn)練錯(cuò)誤的數(shù)據(jù)賦予更大的權(quán)重。這種現(xiàn)象在迭代多次后更為明顯，因此導(dǎo)致最終的集成分類器效果下降。所以，為了保證和提高算法效果，本文在使用AdaBoost算法訓(xùn)練時(shí)對數(shù)據(jù)權(quán)重的賦值加入了一個(gè)參數(shù)進(jìn)行調(diào)節(jié)。

AdaBoost-SVM集成算法的主要思想是：選用SVM作為基分類器，再用AdaBoost算法進(jìn)行迭代生成T個(gè)子SVM分類器，在迭代的過程中為保證每次生成的子SVM分類器之間的差異性，對每個(gè)子分類器輸入大小相同但內(nèi)容包含前面分類器給出的錯(cuò)分樣本的子訓(xùn)練集。這樣使得算法更關(guān)注錯(cuò)分樣本，并不像AdaBoost算法使用的是原始訓(xùn)練數(shù)據(jù)集。最后將這些子SVM分類器按照加權(quán)投票的方法組合生成最終的集成分類器。

本文中的AdaBoost-SVM算法描述為：

輸入：訓(xùn)練樣本集L={(x1，y1)，(x2，y2)，…，(xi，yi)，…，(xN，yN)}，其中xi∈Rn,yi={1，-1}，迭代次數(shù)T，基分類算法SVM。

輸出：用于韻律短語識別的集成分類器H(x)。

初始化訓(xùn)練集樣本權(quán)重φ1(xi)=1/N，i=1，2，…，N;迭代次數(shù)t=1。

Fort=1，…，T：

②在得到的訓(xùn)練集Lt上利用SVM分類算法訓(xùn)練生成一個(gè)基分類器ht:x→{-1，1}，并計(jì)算分類器在整個(gè)訓(xùn)練集L上的分類誤差：

⑤更新樣本權(quán)重：

其中，Zt為歸一化因子,β表示權(quán)重。

EndFor

輸出最終集成分類器：

3語塊結(jié)構(gòu)及其處理

3.1　語塊的分類

語塊是指介于詞匯和句子之間的模式化的短語。語塊的識別和分析屬于淺層句法分析的范疇。目前中文語塊的定義主要有兩大類：一類是從進(jìn)行了句法標(biāo)記的句法樹庫中直接抽取出句法樹的非終結(jié)點(diǎn)作為語塊[12，13]，另一類是根據(jù)具體的中文語法現(xiàn)象對句子進(jìn)行分析，構(gòu)造出具有獨(dú)立性和完整性的語塊定義[14]。

本文建立的語塊屬于第二類，共分八種類型，分別是：名詞語塊(NC)、動詞語塊(VC)、形容詞語塊(JC)、副詞語塊(AC)、介詞語塊(PC)、連詞語塊(CC)、數(shù)量詞語塊(QC)和方位語塊(LC)。它們具備兩個(gè)特征：一是語塊之間無重疊，句子中的任一詞都只能屬于一個(gè)語塊，且語塊之間無嵌套，若有歧義則按照最長匹配的原則進(jìn)行劃分[10]；二是句子中的每個(gè)詞都必須進(jìn)行語塊標(biāo)注，且語塊內(nèi)部不再進(jìn)行細(xì)分。

3.2　語塊的加工處理

3.2.1　初始語塊的標(biāo)注

初始語塊的標(biāo)注方法為：首先根據(jù)漢語的句法特征總結(jié)歸納出各類語塊的具體特征，如：助詞“的”往往依附于其前面的成分，數(shù)詞和量詞往往是一個(gè)整體等；然后利用正則文法，設(shè)置不同的子文法限制，各子文法結(jié)合有限狀態(tài)自動機(jī)嵌套遞歸對文本中的句子進(jìn)行正則匹配，從而完成初始語塊的標(biāo)注。

例如，經(jīng)過分詞和詞性標(biāo)注的句子為：

我們/r 從/p 實(shí)際/n 出發(fā)/v，大力/d 種植/v 石榴/n，摸索/v 出/v 了/u 一/m 條/q 治理/v 水土/n和/c 治窮/v 致富/v 相/d 結(jié)合/v 的/u 成功/a 之/u 路/n

上述例句的初始語塊標(biāo)注結(jié)果為：

【NC 我們/r】【PC 從/p】【NC 實(shí)際/n】【VC 出發(fā)/v】，【AC 大力/d】【VC 種植/v】【NC 石榴/n】，【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v】【NC 水土/n】【CC 和/c】【VC 治窮/v】【VC 致富/v】【AC 相/d】【VC 結(jié)合/v的/u】【JC 成功/a之/u】【NC 路/n】其中，位于每個(gè)“【】”之間的部分就是語塊。

3.2.2　基于結(jié)合緊密度的初始語塊歸并

將各類語塊間的結(jié)合緊密度定義為：

(1) VC+NC→VC；

(2) JC+NC/VC→JC；

(3) QC+NC/JC→QC；

(4) CC+NC/VC/JC →CC；

(5) xC+LC→LC，xC表示任意語塊類型；

(6) PC+yC→PC，yC表示除介詞語塊PC外的其余任意語塊類型；

(7) AC+zC→AC，zC表示除連詞語塊CC外的其余任意語塊類型；

(8) mC+xC →mC,mC為以“的”結(jié)尾的任意語塊類型。

例如，3.2.1節(jié)中例句經(jīng)過初始語塊歸并后的結(jié)果為：

【NC 我們/r】【PC 從/p實(shí)際/n】【VC 出發(fā)/v】，【AC 大力/d種植/v】【石榴/n】，【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v水土/n】【CC 和/c治窮/v】【VC 致富/v】【AC 相/d結(jié)合/v的/u】【JC 成功/a之/u路/n】

在初始句子中，共有22個(gè)詞間邊界，它們都是潛在的韻律短語邊界；經(jīng)過語塊標(biāo)注和歸并后，最終待預(yù)測的邊界縮減至12個(gè)，共有10個(gè)結(jié)合緊密的詞間邊界被首先剔除。

4利用AdaBoost-SVM和語塊信息的韻律短語識別

4.1　模型特征及處理

考慮到SVM具有良好的泛化能力，且本文使用SVM主要用于AdaBoost算法的基分類算法，也就是說，只要SVM分類效果好于隨機(jī)猜測的結(jié)果就行，所以基分類器選取的特征為：當(dāng)前語塊內(nèi)容c、當(dāng)前語塊的類型t、當(dāng)前語塊所含詞的個(gè)數(shù)wlen和當(dāng)前語塊所含字的個(gè)數(shù)clen。特征向量表示為：

另外，為了進(jìn)行對比實(shí)驗(yàn)，本文也實(shí)現(xiàn)了不利用語塊信息的分離器，選用的特征為：當(dāng)前詞的內(nèi)容w、當(dāng)前詞的詞性p和當(dāng)前詞的長度l。特征向量表示為：

使用LibSVM工具包作為SVM分類器進(jìn)行實(shí)驗(yàn)，由于SVM只能處理數(shù)值型的特征數(shù)據(jù)，而本文采用的特征：語塊內(nèi)容、語塊類型、詞、詞性均為文本型數(shù)據(jù)，所以本文首先采用構(gòu)建詞袋和詞性袋等方法，對數(shù)據(jù)集中的文本數(shù)據(jù)進(jìn)行數(shù)值化處理，使其適用于SVM分類器的數(shù)據(jù)處理過程。

4.2　AdaBoost-SVM算法實(shí)現(xiàn)

在利用2.2節(jié)中描述的算法進(jìn)行韻律短語識別時(shí)，令yi=1表示當(dāng)前邊界是韻律短語邊界，yi=-1表示當(dāng)前邊界不是韻律短語邊界；在利用語塊信息時(shí)，xi表示不同類型的語塊；不使用語塊信息時(shí)，xi則表示語法詞。

為了使算法更精確，引入?yún)?shù)β來降低被正確分類個(gè)體上賦予權(quán)重減少的量，或被錯(cuò)誤分類個(gè)體上賦予權(quán)重增加的量。β的值不宜過大，隨著β的增大算法的誤差有上升趨勢[16]，所以本文將β設(shè)定為5。

(6) 上層時(shí)鐘源為2套設(shè)備，采用Windows time的SNTP協(xié)議，下一層采用NTP協(xié)議Meinberg工具，此時(shí)會出現(xiàn)下層時(shí)鐘不能同步上層時(shí)鐘源。因?yàn)樯蠈?個(gè)時(shí)鐘源采用的SNTP協(xié)議，時(shí)鐘精度僅能保持在秒級，很容易相差50 ms，當(dāng)2個(gè)時(shí)鐘源相差50 ms，下一層時(shí)鐘源采用NTP協(xié)議，將會停止向上一層時(shí)鐘源同步。

使用AdaBoost算法每生成一個(gè)子SVM分類器，該分類器就會在整個(gè)訓(xùn)練集上測試其分類效果，根據(jù)測試結(jié)果更新訓(xùn)練集上樣本的權(quán)重，若錯(cuò)分則增加權(quán)重，若分類正確則降低權(quán)重，并由分類結(jié)果計(jì)算出每個(gè)分類器的權(quán)重αt。若分類錯(cuò)誤的樣本較多，說明分類器的分類效果不好，αt的值較??；若分類錯(cuò)誤的樣本較少，則說明分類器的分類效果好，αt的值較大。為了保證AdaBoost做種生成的集成分類器的效果，往往更多地集成比較好的分類算法，所以以αt作為各個(gè)基分類器ht的權(quán)重。

在進(jìn)行韻律短語邊界預(yù)測時(shí)，對于一個(gè)測試語料集L，輸入未標(biāo)注韻律結(jié)構(gòu)的句子s訓(xùn)練過程中生成的T個(gè)子SVM分類器ht，會生成T個(gè)韻律短語標(biāo)注結(jié)果。若ht(x)=yi(i=1，…，N)，代表第t個(gè)子SVM分類器分類正確，則對子SVM分類器ht投一票。最后，根據(jù)投票結(jié)果，將得票最多的分類作為AdaBoost-SVM對輸入句子s的集成分類結(jié)果。

5實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)語料是來源于1998年《人民日報(bào)》的3 200個(gè)句子，經(jīng)過分詞、詞性標(biāo)注以及人工韻律結(jié)構(gòu)標(biāo)注，平均每句含有34.61個(gè)詞，10.36個(gè)韻律短語。隨機(jī)抽取2 800句作為訓(xùn)練集，400句用于開放測試。

5.1　語塊標(biāo)注與歸并的影響

基于不同加工粒度的實(shí)驗(yàn)語料，即顆粒大小為“詞”的詞標(biāo)注語料和以“語塊”為單位的語塊標(biāo)注語料，分別統(tǒng)計(jì)和計(jì)算自然邊界(詞邊界或語塊邊界)與韻律短語邊界的對應(yīng)關(guān)系，得到結(jié)果如表1所示。

Table 1　Word/block boundary and prosodic phrase boundary

從表1可以看出：一方面，實(shí)驗(yàn)語料經(jīng)過分詞后，韻律邊界僅占所有詞邊界的19.55%；而進(jìn)行語塊標(biāo)注和歸并后，由于大量詞邊界被包含到語塊內(nèi)部自然剔除，韻律邊界所占比例大幅提高到54.69%，語塊的引入剔除了大量的噪聲邊界，帶來了積極的影響。另一方面，語塊也會帶來一些負(fù)面影響，有4.23%的韻律短語邊界會因被歸并在語塊內(nèi)部而丟失，這類情況大多是多個(gè)名詞或多個(gè)動詞同時(shí)出現(xiàn)導(dǎo)致的，可利用如長度約束機(jī)制等來解決。

5.2　分類器個(gè)數(shù)的影響

在生成AdaBoost-SVM的過程中，本文將子訓(xùn)練集大小設(shè)定為N*3/4(N為總訓(xùn)練集的大小)并進(jìn)行迭代，直到達(dá)到訓(xùn)練次數(shù)或分類誤差εt>0.5為止。不同分類器個(gè)數(shù)下AdaBoost-SVM的韻律短語識別結(jié)果如表2所示。

Table 2　Comparison of recognition results

從表2中可以看出，隨著分類器個(gè)數(shù)的增加，AdaBoost-SVM的分類效果也越來越好?；诸惼鱾€(gè)數(shù)為5時(shí)韻律短語識別的F值為70.24%；當(dāng)基分類器數(shù)增加到40個(gè)時(shí)，其F值提高到88.56%，提升了18.32%。但是，基分類器個(gè)數(shù)的增加也會增加時(shí)間開銷，導(dǎo)致訓(xùn)練時(shí)間過長。

5.3　不同方法的實(shí)驗(yàn)結(jié)果比較與分析

基于詞標(biāo)注和語塊標(biāo)注兩類語料，分別采用CRFs、SVM、AdaBoost-SVM方法構(gòu)建實(shí)現(xiàn)了六個(gè)相應(yīng)的韻律短語識別模型。各個(gè)模型的實(shí)驗(yàn)結(jié)果對比情況如表3所示。

Table 3　Comparison of experimental results of different models

利用語塊前后CRFs、SVM、Adaboost-SVM這三類模型韻律短語識別F值的比較如圖1所示，同樣利用語塊時(shí)SVM算法與Adaboost-SVM算法的性能比較如圖2所示。

Figure 1　F-value comparison of 3 models before and after the use of chunks圖1　利用語塊前后三類模型F值的比較

Figure 2　Performance comparison between the SVM and the Adaboost-SVM圖2　SVM算法與Adaboost-SVM算法性能比較

從以上圖表中可以看出：(1)對于上述三種方法，引入并利用語塊信息之后，模型的總體性能都得到了明顯的提升，CRFs模型韻律短語識別F值提高了9.41%，SVM方法提高了8.35%，AdaBoost-SVM方法提高了11.87%；(2)利用語塊信息的模型，韻律短語識別的正確率都大大提高，這是通過語塊標(biāo)注將大量的噪聲邊界自然剔除的結(jié)果；(3)同樣基于語塊結(jié)構(gòu)，與SVM方法相比，Adaboost-SVM集成算法獲得了更好的效果，召回率、正確率都得到了大幅的提高，其F值提高了約18%。

綜上所述，反映淺層句法信息的語塊結(jié)構(gòu)能夠被應(yīng)用于漢語韻律結(jié)構(gòu)的分析，并做出積極有效的貢獻(xiàn)；而且，集成學(xué)習(xí)方法的識別效果高于其他強(qiáng)分類器的識別效果。通過語塊結(jié)構(gòu)的標(biāo)注和歸并，實(shí)現(xiàn)了對語料中結(jié)合緊密語法詞的整合，從而準(zhǔn)確縮小了待識別邊界的范圍。另外，由于語塊的粒度較大，選用語塊特征相當(dāng)于縮小了訓(xùn)練空間上的大小，模型訓(xùn)練的時(shí)間開銷也會明顯縮減，尤其在使用集成學(xué)習(xí)算法時(shí)，表現(xiàn)更為明顯。

6結(jié)束語

正確劃分句子的韻律結(jié)構(gòu)對于提高機(jī)器合成語音的自然度具有重要的意義和作用。本文基于語塊結(jié)構(gòu)并利用AdaBoost-SVM算法實(shí)現(xiàn)了一個(gè)漢語韻律短語識別模型。首先，對語料進(jìn)行自動分詞、詞性標(biāo)注、初語塊標(biāo)注和歸并處理，建立以“語塊”為單位的語料。然后，基于上述語塊標(biāo)注語料并利用AdaBoost-SVM集成算法訓(xùn)練生成最終的分類器用于漢語韻律短語的識別。本文利用CRFs、SVM、AdaBoost-SVM共三種算法分別構(gòu)建了利用語塊信息和不利用語塊的六個(gè)韻律短語識別模型，并將測試結(jié)果進(jìn)行了對比。實(shí)驗(yàn)結(jié)果表明，不論是上述哪種方法，引入并利用語塊信息之后，其韻律短語識別效果都能得到明顯的提升，反映淺層句法信息的語塊能夠做出積極有效的貢獻(xiàn)。同時(shí)，利用AdaBoos-SVM集成算法實(shí)現(xiàn)的模型性能更佳，其韻律短語識別的F值為88.56%，比SVM模型提高了18%左右。

由于集成學(xué)習(xí)算法只要求基分類器的效果大于隨機(jī)猜測的即可，故本文中SVM算法選用的特征僅限于當(dāng)前詞的內(nèi)容、詞性和長度，沒有考慮和利用上下文語境信息。而且，在利用LibSVM對數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)，耗時(shí)較長，導(dǎo)致AdaBoost-SVM算法的時(shí)間復(fù)雜性仍然較高。另外，利用正則匹配的方法進(jìn)行語塊的識別，不可避免地會使部分韻律短語邊界包含在語塊結(jié)構(gòu)的內(nèi)部。今后的研究中會針對以上問題進(jìn)行深入的研究與改進(jìn)。

參考文獻(xiàn):附中文

[1]Cao Jian-fen.Prediction of prosodic organization based on grammatical information[J].Journal of Chinese Information Processing, 2003,17(3):41-46.(in Chinese)

[2]Xun En-dong,Qian Yi-li,Guo Qing, et al.Using binary tree as pruning strategy to identify prosodic phrase breaks[J].Journal of Chinese Information Processing, 2006,20(3):1-5.(in Chinese)

[3]Qian Yi-li,Xun En-dong.Prediction o f speech pauses based on punctuation information and statistical language model[J].Pattern Recognition and Artificial Intelligence, 2008,21(4):541-545.(in Chinese)

[4]Taylor P,Black A W.Assigning phrase breaks from part-of-speech sequences[J].Computer Speech & Language,1998,12(2):99-117．

[5]Li Jian-feng,Hu Guo-ping,Wang Ren-hua.Prosody phrase break prediction based on maximum entropy model[J].Journal of Chinese Information Processing, 2004,18(5):56-63.(in Chinese)

[6]Wang Yong-xin,Cai Lian-hong.Syntactic information and analysis and prediction of prosody structure[J].Journal of Chinese Information Processing, 2010,24 (1):65-70.(in Chinese)

[7]Cao Jian-fen.The linguistic and phonetic clues in Chinese prosodic segmentation[C]∥Proc of the 5th National Conference on Modern Phonetics(PCC’2001)，2001,:176-179.(in Chinese)

[8]Li Xiang.Application and research of Boosting classification algorithm[D].Lanzhou:Lanzhou Jiaotong University,2012.(in Chinese)

[9]Schapire R E.The strength of weak learnability[J].Machine Learning，1990，52:197-227．

[10]Freund Y.Boosting a weak learning algorithm by majority[J].Information and Computation,1995,121(2):256-285．

[11]Freund Y，Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences，1997，55(1):119-139．

[12]Zhou Qiang,Zhan Wei-dong,Ren Hai-bo.Building a large scale Chinese functional chunk bank [C]∥Proc of the 6th National Conference on Computational Linguistics (JSCL’2001),2001:102-107.(in Chinese)

[13]Zhou Qiang,Li Yu-mei.Chinese chunk parsing evaluation tasks[J].Journal of Chinese Information Processing, 2010，24(1):123-128.(in Chinese)

[14]Li Su-jian,Liu Qun.Research on definition and acquisition of chunk[C]∥Proc of the 7th National Conference on Computational Linguistics (JSCL’2003),2003:110-115.(in Chinese)

[15]Qian Yi-li,Feng Zhi-ru.Identification of Chinese prosodic phrase based on chunk and CRF[J].Journal of Chinese Information Processing, 2014，28(5):32-38.(in Chinese)

[16]Zhang Chun-xia.Research on the algorithm of ensemble learning[D].Xi’an:Xi’an Jiaotong University，2010．(in Chinese)

[1]曹劍芬.基于語法信息的漢語韻律結(jié)構(gòu)預(yù)測[J].中文信息學(xué)報(bào),2003，17(3):41-46．

[2]荀恩東，錢揖麗，郭慶，等.應(yīng)用二叉樹剪枝識別韻律短語邊界[J].中文信息學(xué)報(bào),2006,20(3):1-5．

[3]錢揖麗，荀恩東.基于標(biāo)點(diǎn)信息和統(tǒng)計(jì)語言模型的語音停頓預(yù)測[J].模式識別與人工智能,2008，21(4):541-545．

[5]李劍鋒,胡國平,王仁華.基于最大熵模型的韻律短語邊界預(yù)測[J].中文信息學(xué)報(bào),2004,18(5):56-63．

[6]王永鑫,蔡蓮紅.語法信息與韻律結(jié)構(gòu)的分析與預(yù)測[J].中文信息學(xué)報(bào),2010,24 (1):65-70．

[7]曹劍芬.漢語韻律切分的語音學(xué)和語言學(xué)線索[C]∥新世紀(jì)的現(xiàn)代語音學(xué)—第五屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議,2001:176-179．

[8]李想.Boosting分類算法的應(yīng)用與研究[D].蘭州:蘭州交通大學(xué)，2012．

[12]周強(qiáng),李玉梅.漢語塊分析評測任務(wù)設(shè)計(jì)[J].中文信息學(xué)報(bào),2010,24 (1):123-128．

[13]周強(qiáng),詹衛(wèi)東,任海波.構(gòu)建大規(guī)模的漢語語塊庫[C]∥自然

語言理解與機(jī)器翻譯—全國第六屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議,2001:102-107.

[14]李素建,劉群.漢語組塊的定義和獲取[C]∥語言計(jì)算與基于內(nèi)容的文本處理—全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議,2003:110-115．

[15]錢揖麗,馮志茹.基于語塊和條件隨機(jī)場(CRFs)的韻律短語識別[J].中文信息學(xué)報(bào),2014,28(5):32-38．

[16]張春霞.集成學(xué)習(xí)中有關(guān)算法的研究[D].西安:西安交通大學(xué)，2010．

錢揖麗(1977-),女，山西平遙人，博士，副教授，CCF會員(E200022706M)，研究方向?yàn)樽匀徽Z言處理。E-mail:qyl@sxu.edu.cn

QIAN Yi-li,born in 1977,PhD,associate professor,CCF member(E200022706M),her research interest includes natural language processing.

馮志茹(1988-),女，山西代縣人，碩士，研究方向?yàn)樽匀徽Z言處理。E-mail:fengzhiru0321@126.com

FENG Zhi-ru,born in 1988,MS,her research interest includes natural language processing.

Recognition of Chinese prosodic phrasesbased on AdaBoost-SVM algorithm and chunk information

QIAN Yi-li1，2,FENG Zhi-ru1

(1.School of Computer & Information Technology,Shanxi University,Taiyuan 030006;

2.Key Laboratory of Computational Intelligence and

Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China)

Abstract:We propose a recognition method for Chinese prosodic phrases based on Chunk and the AdaBoost-SVM algorithm. Firstly, the initial chunks are marked on the corpus of automatic word segmentation and the part of speech tagging, and then they are merged using the rules based on the closeness between initial Chunks. Secondly, based on the block structure and the AdaBoost-SVM integrated algorithm, a Chinese prosodic phrase recognition model is constructed. Meanwhile we utilize various algorithms to build different models which use or not use Chunk information. Comparative experimental results show that the shallow syntactic information chunks make a positive and effective contribution to Chinese prosodic phrase recognition, and the performance of the AdaBoost-SVM model is better.

Key words:Chinese chunk;AdaBoost-SVM;prosodic phrase;recognition

作者簡介:

doi:10.3969/j.issn.1007-130X.2015.12.020

中圖分類號：TP391.43

文獻(xiàn)標(biāo)志碼：A

基金項(xiàng)目：國家自然科學(xué)基金資助項(xiàng)目(61175067)；國家自然科學(xué)青年基金資助項(xiàng)目(61005053，61100138)；山西省科技基礎(chǔ)條件平臺建設(shè)項(xiàng)目(2015091001-0102)；山西省青年科技研究基金資助項(xiàng)目(2012021012-1)；山西省回國留學(xué)人員科研資助項(xiàng)目(2013-022)

收稿日期：修回日期：2015-10-19

文章編號：1007-130X(2015)12-2324-07

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用AdaBoost-SVM集成算法和語塊信息的韻律短語識別*

2.1 Boosting算法

2.2 基于AdaBoost的SVM集成算法

3.1 語塊的分類

3.2 語塊的加工處理

3.2.1 初始語塊的標(biāo)注

3.2.2 基于結(jié)合緊密度的初始語塊歸并

4.1 模型特征及處理

4.2 AdaBoost-SVM算法實(shí)現(xiàn)

5.1 語塊標(biāo)注與歸并的影響

5.2 分類器個(gè)數(shù)的影響

5.3 不同方法的實(shí)驗(yàn)結(jié)果比較與分析

2.1　Boosting算法

2.2　基于AdaBoost的SVM集成算法

3.1　語塊的分類

3.2　語塊的加工處理

3.2.1　初始語塊的標(biāo)注

3.2.2　基于結(jié)合緊密度的初始語塊歸并

4.1　模型特征及處理

4.2　AdaBoost-SVM算法實(shí)現(xiàn)

5.1　語塊標(biāo)注與歸并的影響

5.2　分類器個(gè)數(shù)的影響

5.3　不同方法的實(shí)驗(yàn)結(jié)果比較與分析