亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        臨近最優(yōu)主動學(xué)習(xí)的藏語語音識別方法研究

        2018-11-17 02:50:38李要嬙徐曉娜吳立成

        趙 悅,李要嬙,徐曉娜,吳立成

        中央民族大學(xué) 信息工程學(xué)院,北京 100081

        1 引言

        藏語是一種非常重要的中國少數(shù)民族語種,在我國使用藏語的人數(shù)500多萬,其中主要分布在我國的西藏自治區(qū)以及青海、甘肅、四川和云南等藏族聚集區(qū)。藏語語音識別技術(shù)的發(fā)展,不僅可以有效地解決藏族地區(qū)和我國其他區(qū)域之間的語言障礙問題,促進(jìn)民族間的相互交流,而且可以推動藏區(qū)經(jīng)濟(jì)、科技、文化等領(lǐng)域的發(fā)展,促進(jìn)民族團(tuán)結(jié)統(tǒng)一,增強(qiáng)民族凝聚力。

        在語音識別領(lǐng)域,語音識別算法(如隱馬爾科夫模型和深度神經(jīng)網(wǎng)絡(luò)等)采用監(jiān)督式學(xué)習(xí)方式建立語音識別模型[1]。為了建立高準(zhǔn)確的語音識別模型,這種學(xué)習(xí)方式需要大量的帶標(biāo)注的語音語料,而標(biāo)注語音語料是一件非常費(fèi)時(shí)費(fèi)力的工作。通常以詞為語音識別單位的標(biāo)注工作所花費(fèi)的時(shí)間是實(shí)際音頻語句時(shí)間的10倍,以音素為識別單位的語音標(biāo)注工作將會達(dá)到語音語句時(shí)間長度的400倍[2]。藏語作為小語種,其語音標(biāo)注專家十分匱乏,人工標(biāo)注語音語料更加耗時(shí)耗力。目前,帶標(biāo)注的藏語連續(xù)語音數(shù)據(jù)量還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際語音識別系統(tǒng)建模的需要[3-5]。

        然而,在大量未標(biāo)記的數(shù)據(jù)集中,有許多較為相似的信息,如果能夠選擇較少的數(shù)據(jù)給語音專家去標(biāo)注,那么同樣會獲得具有較高精度的識別器,這便是主動學(xué)習(xí)的原理。

        主動學(xué)習(xí)的過程如圖1所示,其基于少量的帶標(biāo)注訓(xùn)練樣本建立初始識別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇最具有價(jià)值的樣本交給用戶標(biāo)記,然后將標(biāo)記后的樣本加入到當(dāng)前訓(xùn)練集中,更新識別器,直到識別器達(dá)到滿意的精度[6]。主動學(xué)習(xí)通常被用來減少人工標(biāo)注的數(shù)據(jù)量,解決標(biāo)注工作繁瑣冗長的問題。它可以從大量未標(biāo)注的數(shù)據(jù)中挑選一些具有價(jià)值的樣本交給用戶進(jìn)行標(biāo)注,以便利用少量高質(zhì)量的訓(xùn)練樣本構(gòu)建與大數(shù)據(jù)量訓(xùn)練方式一樣精準(zhǔn)的識別模型[7]。

        圖1 主動學(xué)習(xí)過程

        本文針對藏語拉薩話連續(xù)語音識別目標(biāo),構(gòu)造了語音語料的評價(jià)函數(shù)和語料批量選擇的目標(biāo)函數(shù),通過臨近最優(yōu)選擇算法,實(shí)現(xiàn)了語音數(shù)據(jù)的挑選。實(shí)驗(yàn)結(jié)果顯示,通過使用主動學(xué)習(xí)方法挑選的少量樣本進(jìn)行建模,所構(gòu)建的語音識別模型識別精度可以達(dá)到與使用全部數(shù)據(jù)進(jìn)行建模的精度。本文提出的基于主動學(xué)習(xí)的藏語語音語料選擇方法,可以加快藏語連續(xù)語音識別工作,為識別建模提供充分、可信的訓(xùn)練數(shù)據(jù)。

        2 語料評價(jià)函數(shù)構(gòu)造

        主動學(xué)習(xí)方法首先通過樣本評價(jià)函數(shù)對候選數(shù)據(jù)集中的樣本進(jìn)行打分,因此,對已標(biāo)注的樣本集進(jìn)行了數(shù)據(jù)統(tǒng)計(jì),通過當(dāng)前的數(shù)據(jù)分布情況和語音識別目標(biāo),構(gòu)造藏語拉薩話語音語料的評價(jià)函數(shù)。

        本文對現(xiàn)有訓(xùn)練數(shù)據(jù)集中單音素出現(xiàn)的頻數(shù)進(jìn)行了統(tǒng)計(jì),如圖2所示。將出現(xiàn)頻數(shù)低于50次的音素定義為稀疏音素。本文稀疏音素頻數(shù)分布圖如圖3所示。

        考慮到構(gòu)建的訓(xùn)練數(shù)據(jù)集應(yīng)該盡量涵蓋全部藏語拉薩話音素,并且各個音素?cái)?shù)據(jù)分布要均衡,同時(shí)結(jié)合提高語音識別準(zhǔn)確率的目標(biāo),在構(gòu)造主動學(xué)習(xí)的樣本評價(jià)函數(shù)時(shí),主要考慮以下三個因素:

        (1)句子中識別音子的覆蓋度Xk,即語音句子中包含識別音子的個數(shù);

        圖2 單音素頻數(shù)分布圖

        圖3 稀疏音素頻數(shù)分布圖

        (2)句子中稀疏音子的覆蓋度Yk,即語音句子中包含稀疏音子的個數(shù);

        (3)句子對于語音識別精度提高的貢獻(xiàn)度Zk,即每個語音句子加入到識別器中,語音識別精度的提高程度。

        基于以上三個評價(jià)因素,語音語料的評價(jià)函數(shù)可以寫成:

        3 臨近最優(yōu)語料子集的目標(biāo)函數(shù)構(gòu)造

        大多數(shù)的主動學(xué)習(xí)方法都是非批量的方法,它們一次只選擇一個最有價(jià)值的樣本去標(biāo)注[8]。因?yàn)榉桥康闹鲃訉W(xué)習(xí)方法對每一個選出的數(shù)據(jù)都要進(jìn)行識別器的重新訓(xùn)練,所以訓(xùn)練過程緩慢,并且不能進(jìn)行多專家在線同時(shí)標(biāo)注。

        相反,批量主動學(xué)習(xí)方法允許一次選擇多個未標(biāo)注的樣本[9-11]。但是如果只是把單一樣本選擇策略應(yīng)用到批量主動學(xué)習(xí)選擇樣本過程中效果并不好,因?yàn)樗x樣本具有高度的信息相似性,例如N-best方法。為了選擇能夠代表整體數(shù)據(jù)集的全局最優(yōu)子集樣本,作者在文獻(xiàn)[12]中利用submodular函數(shù)理論優(yōu)化了樣本選擇問題?;谠摴ぷ鳎疚难芯苛伺R近最優(yōu)語音樣本集合的目標(biāo)函數(shù),并證明了該函數(shù)具有submodularity性質(zhì),這使得主動學(xué)習(xí)器可以利用greedy算法來獲得臨近最優(yōu)的語料子集。

        批量主動學(xué)習(xí)的一般過程是:基于少量的已標(biāo)注訓(xùn)練樣本建立初始識別器,在每次迭代學(xué)習(xí)中,根據(jù)目標(biāo)函數(shù)的設(shè)定,在候選樣本集中選擇多個最具有價(jià)值的樣本交給用戶標(biāo)注,然后將這些標(biāo)注后的樣本加入到當(dāng)前的訓(xùn)練集中,更新識別器,直到識別器達(dá)到滿意的精度。在每次迭代學(xué)習(xí)過程中,批量主動學(xué)習(xí)的目的就是從未標(biāo)記的樣本中選擇一個最優(yōu)子集S*,S*可以通過式(2)獲得:

        其中,O(S)為目標(biāo)函數(shù),S為樣本數(shù)是N的子集。為得到O(S)的最優(yōu)解,需要將O(S)構(gòu)造為submodular函數(shù),利用其函數(shù)性質(zhì),就可獲得其臨近最優(yōu)解,也就是臨近最優(yōu)樣本數(shù)據(jù)集S*。

        一個函數(shù)是submodular函數(shù)的充分必要條件是:如果有且僅有A?B?V并且s∈VB,那么如果函數(shù)滿足“回報(bào)遞減(diminishing returns)”性質(zhì):

        第2章闡述了單一樣本評價(jià)函數(shù)基于三個考慮因素,在批量選擇樣本時(shí),同樣依據(jù)這三個評價(jià)因素,希望每次迭代能夠選擇出N個未標(biāo)注樣本,它們構(gòu)成的樣本子集涵蓋最多的音素個數(shù)、最多的稀疏音子個數(shù)和具有最大的期望識別誤差減少。因此,對于式(2)中的目標(biāo)函數(shù)O(S),構(gòu)造如下公式:

        其中,X(S)代表樣本集中音素出現(xiàn)的個數(shù);Y(S)表示稀疏音子出現(xiàn)的次數(shù);Z(S)表示樣本集的期望識別誤差減少;α、β、γ同式(1)中的定義一樣,仍然分別是三個因素的預(yù)設(shè)系數(shù)。

        下面來推導(dǎo)O(S)滿足submodular函數(shù)的充分必要條件。讓A?B?U且{s}?UB,則:

        證明過程的第二步中,X(A?{s})-X(A)等于{s}中新出現(xiàn)的音素個數(shù)或等于0;Y(A?{s})-Y(A)等于{s}中稀疏音子出現(xiàn)次數(shù);根據(jù)文獻(xiàn)[6]中的證明,期望誤差減少函數(shù) Z(A?{s})-Z(A)等于為當(dāng)前分類器在未標(biāo)注數(shù)據(jù)集上的分類信息熵,即期望誤差。同理,也可以推導(dǎo)出:

        因?yàn)锳?B?U,所以由式(7)得:

        從而,O(?)滿足式(3),其是submodular函數(shù)。

        4 基于臨近最優(yōu)批量主動學(xué)習(xí)的藏語語音語料選擇算法

        正如文獻(xiàn)[16]所示,如果目標(biāo)函數(shù)為submodular函數(shù),那么由S={}(此時(shí)O(S)=0)開始,使用greedy算法,迭代地選擇未標(biāo)注樣本并加入到S中,直到有N個樣本被加入為止,那么此時(shí)獲得的集合S就是臨近最優(yōu)集合。根據(jù)第3章構(gòu)造的語料子集目標(biāo)函數(shù)公式(4),藏語語音語料選擇算法描述如下。

        算法1臨近最優(yōu)批量主動學(xué)習(xí)算法

        1.隨機(jī)從未標(biāo)注樣本集U中選擇少量樣本,為每個樣本標(biāo)注文本內(nèi)容,形成初始訓(xùn)練數(shù)據(jù)集L;

        2.基于L訓(xùn)練語音識別器C;

        3.循環(huán)以下各步驟直到識別器精度滿足設(shè)定的要求或選擇了全部未標(biāo)注樣本;

        3.1 greedy算法發(fā)現(xiàn)S;

        3.2 用戶標(biāo)注S,并將標(biāo)注后的S加入到L中;

        3.3 重新訓(xùn)練識別器C,在測試集上獲得C的識別精度。

        算法2 greedy算法發(fā)現(xiàn)S 1.S={};

        2.While|S|≤N

        2.1 基于當(dāng)前識別器C*(初始C*=C)預(yù)估數(shù)據(jù)集U(L?S)中每一個未標(biāo)注樣本的語音內(nèi)容,即用音素表征的語音內(nèi)容;

        2.2 根據(jù)式(1)計(jì)算每一個未標(biāo)注樣本的Xk、Yk;

        2.3 將每一個預(yù)標(biāo)注的樣本分別加入預(yù)訓(xùn)練集L*=,訓(xùn)練識別器Ck,得到期望誤差ek;

        2.4 對數(shù)據(jù)集U(L?S)中的每一個樣本根據(jù)式(1)進(jìn)行打分,得到sk;

        2.5 選擇sk得分最高的未標(biāo)注樣本加入S,即S=S+{xk};

        2.6 用sk得分最高的預(yù)標(biāo)注樣本對應(yīng)的識別器Ck替換 C*,即 C*=Ck

        3.End

        5 實(shí)驗(yàn)結(jié)果分析

        本文使用自建的藏語拉薩話連續(xù)語音數(shù)據(jù)集對提出的語音語料選擇方法進(jìn)行評估。實(shí)驗(yàn)中,語料665句,選取其中57句作為測試數(shù)據(jù),剩余608句中的564句作為主動學(xué)習(xí)的初始訓(xùn)練集,44句作為未標(biāo)注語料。實(shí)驗(yàn)測得,用608句作為全部訓(xùn)練數(shù)據(jù),句子識別率為75.07%。

        在主動學(xué)習(xí)中,564句初始訓(xùn)練集的識別率為65.07%,根據(jù)臨近最優(yōu)主動學(xué)習(xí)算法進(jìn)行實(shí)驗(yàn),每次在未標(biāo)注數(shù)據(jù)集中挑選N=2條語音語句添加到初始訓(xùn)練集中,并且式(1)和式(4)中的 α、β、γ 參數(shù)均設(shè)置為1。利用HTK進(jìn)行識別模型建模,當(dāng)進(jìn)行8次迭代選擇了16條語句后,識別器的識別率就達(dá)到75.73%。實(shí)驗(yàn)結(jié)果如表1所示,其折線圖如圖4所示。

        表1 三種方法的語音識別率實(shí)驗(yàn)數(shù)據(jù)比較 %

        圖4 三種方法的語音識別率折線圖比較

        正如實(shí)驗(yàn)結(jié)果顯示,第8次迭代學(xué)習(xí)后,臨近最優(yōu)批量主動學(xué)習(xí)方法選擇大約1/3的未標(biāo)注語料,就可以使識別器的識別精度與全部語料訓(xùn)練的結(jié)果相當(dāng),其表現(xiàn)好于N-best和隨機(jī)數(shù)據(jù)選擇兩種方法。本文提出的語音語料選擇方法,明顯減少了語音標(biāo)注的工作量,不需要標(biāo)注全部語音語料就可以達(dá)到全部語音語料的識別率,甚至高于全部訓(xùn)練語句的識別率。

        6 總結(jié)

        本文研究了基于臨近最優(yōu)主動學(xué)習(xí)的藏語語音語料選擇方法,提出了語料樣本評價(jià)函數(shù)和臨近最優(yōu)批量樣本選擇的目標(biāo)函數(shù),并證明了后者具有submodular函數(shù)性質(zhì)。該函數(shù)性質(zhì)保證了基于greedy算法實(shí)現(xiàn)的藏語語料選擇是臨近最優(yōu)樣本集,該樣本集包含了最有價(jià)值的樣本參與人工標(biāo)注和識別器訓(xùn)練,減少了冗余樣本的標(biāo)注,極大地提高了語音識別器構(gòu)建的工作效率。

        青青青伊人色综合久久| 十八18禁国产精品www| 女人大荫蒂毛茸茸视频| 91久久国产自产拍夜夜嗨| 加勒比一区二区三区av| 成人影院在线视频免费观看| 特级无码毛片免费视频尤物| 国产乱淫视频| 中文字幕中文一区中文字幕| 国产流白浆视频在线观看 | 97久久精品人人妻人人| 国产熟女乱综合一区二区三区| 亚洲视频免费一区二区 | 亚洲中文字幕国产视频| 无码ol丝袜高跟秘书在线观看 | 激情都市亚洲一区二区| 久久久久亚洲av无码专区喷水| 国产精品麻豆aⅴ人妻| 久久精品视频按摩| 国产在线观看午夜视频| 无码aⅴ免费中文字幕久久| 国产人成午夜免电影观看| av东京热一区二区三区| 激情亚洲一区国产精品| 精品少妇人妻av无码久久| 中文字幕在线观看国产双飞高清| 高清国产精品一区二区| 精品无码久久久久久久久| 欧美日本国产va高清cabal| 久久夜色精品国产噜噜噜亚洲av| 精品极品一区二区三区| 天天噜日日噜狠狠噜免费| 婷婷丁香91| 国产精品午夜高潮呻吟久久av | 亚洲色图偷拍自拍在线| 男女高潮免费观看无遮挡| 97国产免费全部免费观看| 亚洲一区二区三区资源| 中文人妻av久久人妻水蜜桃| 后入内射欧美99二区视频| 偷拍自拍一区二区三区|