亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        無(wú)標(biāo)注的含噪中文長(zhǎng)篇幅語(yǔ)音文本的文語(yǔ)對(duì)齊研究*

        2015-12-02 03:51:04王永遠(yuǎn)賈曉茹李傳越
        關(guān)鍵詞:文本語(yǔ)言模型

        張 巍,王永遠(yuǎn),賈曉茹,李傳越

        (中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)院,山東 青島 266100)

        近年來(lái),隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上各種多媒體資源越來(lái)越多,可以直接在網(wǎng)絡(luò)上獲得大量的語(yǔ)音及其對(duì)應(yīng)文本的資源。但是,這些資源中的文本和語(yǔ)音往往不是一一對(duì)應(yīng)的,語(yǔ)音中有時(shí)會(huì)摻雜一些噪音,如背景音樂(lè)、掌聲等;而文本中也會(huì)存在一些單詞冗余或者缺失的現(xiàn)象,將這樣的數(shù)據(jù)稱為含有噪音的語(yǔ)音和文本。如何利用網(wǎng)絡(luò)上大量的含噪文本與語(yǔ)音數(shù)據(jù),盡可能多的找出其中能夠一一對(duì)齊的部分,即文語(yǔ)對(duì)齊技術(shù)是有效利用這類資源的關(guān)鍵問(wèn)題。隨著網(wǎng)絡(luò)上可用多媒體資源的爆炸性增長(zhǎng),這一思路引起了越來(lái)越多研究人員的興趣。

        文語(yǔ)對(duì)齊是語(yǔ)音識(shí)別中的一項(xiàng)重要技術(shù),它主要是指將語(yǔ)音與其對(duì)應(yīng)的含噪文本在時(shí)間上進(jìn)行對(duì)齊的過(guò)程。對(duì)齊后的文本語(yǔ)音可用于聲學(xué)模型的訓(xùn)練,語(yǔ)料庫(kù)的自動(dòng)構(gòu)建和多媒體檢索等領(lǐng)域[1-2]。

        文語(yǔ)對(duì)齊的傳統(tǒng)方法是利用一個(gè)已經(jīng)訓(xùn)練好的聲學(xué)模型,對(duì)要對(duì)齊的語(yǔ)音進(jìn)行識(shí)別,產(chǎn)生包含識(shí)別結(jié)果的文本文件,然后利用該文本文件和原始文本進(jìn)行比對(duì),找出他們的共同部分。這樣,文語(yǔ)對(duì)齊問(wèn)題就轉(zhuǎn)換成了文本與文本的對(duì)齊問(wèn)題[3],語(yǔ)音識(shí)別模塊是該技術(shù)的核心部分,識(shí)別器性能的好壞將直接影響到文語(yǔ)對(duì)齊的正確率。目前,大多數(shù)的文語(yǔ)對(duì)齊技術(shù)多依賴于一個(gè)經(jīng)過(guò)大量數(shù)據(jù)訓(xùn)練的識(shí)別器,如在Braunschweiler[4]中用于執(zhí)行語(yǔ)音識(shí)別的聲學(xué)模型是利用了150h的語(yǔ)音進(jìn)行訓(xùn)練得到的,Hazen T J[5]中同樣使用了一個(gè)經(jīng)過(guò)充分訓(xùn)練的聲學(xué)模型來(lái)執(zhí)行文語(yǔ)對(duì)齊的算法。而為了得到一個(gè)識(shí)別效果好的聲學(xué)模型需要至少幾十個(gè)小時(shí)甚至上百個(gè)小時(shí)正確語(yǔ)料進(jìn)行訓(xùn)練,為了獲該部分的數(shù)據(jù),不管是通過(guò)人工錄音還是直接從別處購(gòu)買其成本都是昂貴的。而且人工錄音產(chǎn)生的語(yǔ)音數(shù)據(jù)因?yàn)殇浺舡h(huán)境和麥克風(fēng)本身的限制,不能很好的兼顧到各種實(shí)際中存在的語(yǔ)音環(huán)境和麥克風(fēng)采集聲音的不同角度,在實(shí)際的識(shí)別中也就沒(méi)有了很好的魯棒性。因此有必要找到一種方法能盡可能的擺脫對(duì)預(yù)先訓(xùn)練的,只適應(yīng)特定環(huán)境的聲學(xué)模型的依賴。

        本文提出一種基于網(wǎng)上開(kāi)放語(yǔ)音識(shí)別引擎來(lái)自動(dòng)的獲得語(yǔ)音和文本一一對(duì)應(yīng)的數(shù)據(jù)的算法,以開(kāi)放的識(shí)別器來(lái)替代需要大量有標(biāo)注數(shù)據(jù)預(yù)先訓(xùn)練的識(shí)別器,從而擺脫了對(duì)需要大量有標(biāo)注數(shù)據(jù)訓(xùn)練的聲學(xué)模型的依賴。并接著利用得到的數(shù)據(jù)來(lái)訓(xùn)練一個(gè)面向識(shí)別領(lǐng)域的聲學(xué)模型,接著以此聲學(xué)模型為核心改進(jìn)了傳統(tǒng)的文語(yǔ)對(duì)齊SailAlign算法,對(duì)語(yǔ)音和文本重新進(jìn)行迭代的、自適應(yīng)的文語(yǔ)對(duì)齊。

        1 基于開(kāi)放識(shí)別引擎及有限狀態(tài)機(jī)語(yǔ)言模型的文語(yǔ)對(duì)齊算法

        在傳統(tǒng)的文語(yǔ)對(duì)齊算法中,原始的語(yǔ)音經(jīng)過(guò)預(yù)先訓(xùn)練的識(shí)別器識(shí)別后會(huì)產(chǎn)生帶有時(shí)間信息的文本,該時(shí)間即為文本在音頻文件中的位置信息。將該部分文本與原始的文本進(jìn)行文本對(duì)齊后,將會(huì)得到二者的公共部分,也即語(yǔ)音中一定含有的部分,然后根據(jù)文本的時(shí)間信息,即可找到與之對(duì)應(yīng)的的語(yǔ)音。

        為了擺脫對(duì)預(yù)先訓(xùn)練的聲學(xué)模型的依賴,考慮利用谷歌的開(kāi)放語(yǔ)音識(shí)別引擎(Google voice recogni-tion,簡(jiǎn)記為GVR)來(lái)代替?zhèn)鹘y(tǒng)文語(yǔ)對(duì)齊技術(shù)中的語(yǔ)音識(shí)別器,對(duì)含噪的語(yǔ)音和文本進(jìn)行識(shí)別。但是在利用GVR對(duì)語(yǔ)音進(jìn)行識(shí)別產(chǎn)生的文本文件中并不包含時(shí)間信息,沒(méi)有了時(shí)間信息也就無(wú)法正確找出文本所對(duì)應(yīng)的語(yǔ)音。為此,提出了一種基于有限狀態(tài)機(jī)(Finite State Automaton,簡(jiǎn)記為FSA)的語(yǔ)言模型識(shí)別算法來(lái)得到需要的時(shí)間信息,進(jìn)而得到文本所對(duì)應(yīng)的語(yǔ)音,稱該算法為GVR-FSA算法。

        1.1 GVR-FSA文語(yǔ)對(duì)齊算法

        該算法首先利用GVR對(duì)原始的語(yǔ)音進(jìn)行識(shí)別得到識(shí)別結(jié)果,接下里將該部分結(jié)果與原始的文本進(jìn)行文本對(duì)齊,在對(duì)齊的結(jié)果文件中包含2個(gè)部分,即兩者共同含有的部分和不一致的部分。共同的部分為語(yǔ)音中一定包含的部分,而另一部分是否包含并不確定,本文利用基于有限狀態(tài)機(jī)的語(yǔ)言模型來(lái)描述文本的這一特性。然后再經(jīng)過(guò)利用原始的含噪語(yǔ)音和文本進(jìn)行訓(xùn)練的語(yǔ)音識(shí)別器(下文中將稱該識(shí)別器為含噪識(shí)別器)對(duì)語(yǔ)音進(jìn)行第二次識(shí)別,在本次識(shí)別過(guò)程中結(jié)合由上面得到基于有限狀態(tài)機(jī)的語(yǔ)言模型來(lái)得到文本所對(duì)應(yīng)的準(zhǔn)確的時(shí)間信息。由于有限狀態(tài)機(jī)對(duì)文本的結(jié)構(gòu)做了進(jìn)一步的規(guī)定,使得它比普通的、單純統(tǒng)計(jì)概率的語(yǔ)言模型對(duì)文本的限制更加的嚴(yán)格[10],所以即使是利用含噪識(shí)別器對(duì)語(yǔ)音進(jìn)行重識(shí)別的情況下仍能找出文本所對(duì)應(yīng)的正確時(shí)間信息。實(shí)驗(yàn)數(shù)據(jù)表明由該算法得到的文本和語(yǔ)音不對(duì)應(yīng)的時(shí)間誤差在0.1%左右,大大低于在人工錄音過(guò)程中對(duì)該誤差的要求。

        該算法的主要模塊,流程圖見(jiàn)圖1。

        圖1 GVR-FSA文語(yǔ)對(duì)齊算法的流程圖Fig.1 The flow chart for the algorithm of the GVR speech-text alignment

        1.2 各功能模塊的功能描述

        下面分別介紹上述算法流程圖中各個(gè)模塊的功能。

        1.2.1 文本的正則化 在由網(wǎng)絡(luò)得到的文本中常會(huì)含有一些亂碼如“&nbsp”和“strong”等,還有一些和讀音不一致的常用的符號(hào)如“%”,以及數(shù)字符號(hào)如“1984年”、“200多公里”等,這些都需要根據(jù)語(yǔ)音中的讀音時(shí)進(jìn)行轉(zhuǎn)換,即將“&nbsp”和“strong”部分刪除、將“%”轉(zhuǎn)換成“百分之”、將“1984年”轉(zhuǎn)換為“一九八四年”、將“200多公里”轉(zhuǎn)換為“二百多公里”等。即將文本進(jìn)行正則化處理,以得到較為規(guī)整的文本來(lái)提高文本與文本對(duì)齊的正確率。

        1.2.2 含噪識(shí)別器的訓(xùn)練 將經(jīng)過(guò)文本正則化處理的文本和原始的語(yǔ)音作為訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練一個(gè)語(yǔ)音識(shí)別器,以執(zhí)行GVR算法中的第二次語(yǔ)音識(shí)別。

        由于語(yǔ)音和文本中含有噪聲,不能保證語(yǔ)音和文本的一一對(duì)應(yīng),會(huì)有大量文本和語(yǔ)音對(duì)應(yīng)不上的數(shù)據(jù),由此訓(xùn)練的隱馬爾科夫模型與準(zhǔn)確的模型間會(huì)存在較大的誤差。而如果我們識(shí)別器中的隱馬爾可夫模型的數(shù)目越少,其受該部分錯(cuò)誤數(shù)據(jù)的影響也就會(huì)越少。因此在這里我們訓(xùn)練了一個(gè)基于聲韻母的單音素語(yǔ)音識(shí)別器。

        1.2.3 原始語(yǔ)音文件切分 在網(wǎng)絡(luò)上直接獲得的語(yǔ)音一般都比較長(zhǎng),直接將其用GVR進(jìn)行識(shí)別的識(shí)別正確率低;同時(shí)由于語(yǔ)音在通過(guò)網(wǎng)絡(luò)提交給GVR時(shí)會(huì)受限于網(wǎng)絡(luò)帶寬,在網(wǎng)速不佳時(shí)識(shí)別速度也比較慢;經(jīng)常會(huì)導(dǎo)致在返回的識(shí)別結(jié)果的文本文件中有大量的空文件,識(shí)別效果很不理想。

        經(jīng)過(guò)分析各種時(shí)長(zhǎng)下語(yǔ)音的識(shí)別效果,我們發(fā)現(xiàn)GVR對(duì)時(shí)長(zhǎng)為10~20s的語(yǔ)音識(shí)別效果最好。故我們對(duì)長(zhǎng)語(yǔ)音首先進(jìn)行了切分,以得到適合GVR識(shí)別的音頻文件。然后將該部分短的音頻文件提交至GVR進(jìn)行識(shí)別。

        1.2.4 GVR識(shí)別得到文本 谷歌語(yǔ)音識(shí)別引擎是開(kāi)放的識(shí)別工具,在用戶把音頻文件按照要求的格式提交后,它會(huì)返回一個(gè)個(gè)包含識(shí)別結(jié)果的文本文件。為了在下面執(zhí)行文本與文本對(duì)齊的方便,我們?cè)摬糠值玫降男〉奈谋疚募凑赵嫉恼Z(yǔ)音數(shù)據(jù)匯總成一個(gè)較大的文本文件。

        1.2.5 文本過(guò)濾 由GVR識(shí)別返回的文本結(jié)果中會(huì)含有一些噪音,如一般會(huì)有英文單詞、數(shù)字和單個(gè)的字母等垃圾信息,為了提高在接下來(lái)文本與文本對(duì)齊的準(zhǔn)確性,這里對(duì)該部分垃圾信息進(jìn)行過(guò)濾。只保留返回結(jié)果中的漢字部分。

        1.2.6 基于FSA的重識(shí)別 在得到文本過(guò)濾后的文本(下文中用識(shí)別文本來(lái)代表該部分文本)后,下一步的工作就是找出文本中正確識(shí)別的部分。為此將原始文本和識(shí)別文本進(jìn)行文本對(duì)齊,對(duì)齊后兩者同時(shí)含有的共同部分即為正確識(shí)別的文本。

        在GVR返回的文本中,只有識(shí)別結(jié)果而無(wú)時(shí)間信息,無(wú)法得到該部分文本所對(duì)應(yīng)的語(yǔ)音部分。為了得到所需要的時(shí)間信息,我們利用上面訓(xùn)練的含噪識(shí)別器,并結(jié)合基于有限狀態(tài)機(jī)的語(yǔ)言模型[4]對(duì)語(yǔ)音進(jìn)行第二次識(shí)別,以將該正確部分文本對(duì)應(yīng)的語(yǔ)音找出,形成文本與語(yǔ)音一一對(duì)應(yīng)的數(shù)據(jù)。

        基于有限狀態(tài)機(jī)的語(yǔ)言模型由兩部分組成,一部分為正確文本,指的是在文本對(duì)齊中產(chǎn)生的正確識(shí)別部分的文本,即為識(shí)別文本與原始文本都含有的部分;另一部分為剩余文本,指的是原始文本中除去已正確識(shí)別出的文本外剩下的未對(duì)齊的部分。對(duì)于該部分文本不能確定它在原始的語(yǔ)音是否存在。因此,在構(gòu)造該語(yǔ)言模型時(shí)將正確文本在語(yǔ)言模型中視為必會(huì)出現(xiàn)的狀態(tài),而將剩余文本作為可選的狀態(tài)來(lái)完成有限狀態(tài)自動(dòng)機(jī)的構(gòu)建。原理見(jiàn)圖2。

        圖2 有限狀態(tài)機(jī)圖示,W1和W3為正確部分,W2和W4為可選部分Fig.2 The diagram of the finite state automata,W1and W3are the right part,W1and W3are the optional part

        2 改進(jìn)的SailAlign文語(yǔ)對(duì)齊算法[6]

        通過(guò)分析GVR-FSA算法的識(shí)別過(guò)程,發(fā)現(xiàn)在網(wǎng)絡(luò)不穩(wěn)定時(shí),經(jīng)常會(huì)得到許多空的返回文件,使得整個(gè)識(shí)別過(guò)程對(duì)網(wǎng)絡(luò)的依賴性很大,算法的穩(wěn)定性不好。在返回的非空文本中能夠正確識(shí)別的文本約為50%(見(jiàn)實(shí)驗(yàn)部分),識(shí)別的正確率也比較低;而接下來(lái)還需要重新訓(xùn)練含噪識(shí)別器對(duì)語(yǔ)音進(jìn)行二次識(shí)別,以獲得時(shí)間信息,這又進(jìn)一步增加了整個(gè)算法的時(shí)間復(fù)雜。

        為了克服上述缺點(diǎn),我們?cè)诶肎VR-FSA算法得到了語(yǔ)音文本一一對(duì)應(yīng)的部分?jǐn)?shù)據(jù)后,接著利用該部分?jǐn)?shù)據(jù)訓(xùn)練了一個(gè)基于三音素的漢語(yǔ)連續(xù)語(yǔ)音的聲學(xué)模型,以該模型作為語(yǔ)音識(shí)別器,并參考了傳統(tǒng)的文語(yǔ)對(duì)齊算法SailAlign的架構(gòu)來(lái)重新執(zhí)行文語(yǔ)對(duì)齊。由于該識(shí)別器返回的識(shí)別結(jié)果中就包含了時(shí)間信息,因此也就不需要在GVR-FSA算法中所需要的重識(shí)別過(guò)程,整個(gè)算法的時(shí)間復(fù)雜度得到了降低,同時(shí)該語(yǔ)音識(shí)別器是通過(guò)要識(shí)別領(lǐng)域的文本和語(yǔ)音訓(xùn)練得到的,也能保證其較高的識(shí)別率。同時(shí)SailAlign算法在執(zhí)行文語(yǔ)對(duì)齊得到了語(yǔ)音和文本一一對(duì)齊的數(shù)據(jù)后,接著利用該部分?jǐn)?shù)據(jù)對(duì)聲學(xué)模型進(jìn)行了加強(qiáng)訓(xùn)練,然后利用新的聲學(xué)模型對(duì)接下來(lái)的數(shù)據(jù)進(jìn)行識(shí)別。整個(gè)過(guò)程是一個(gè)迭代的過(guò)程,與GVR-FSA算法相比,其識(shí)別器的識(shí)別率是在不斷的提高的。SailAlign算法已在Black M P和Lee C C[7]中提到的關(guān)于對(duì)齊含有噪音的交互語(yǔ)音數(shù)據(jù)領(lǐng)域得到了成功的應(yīng)用。

        該算法的流程見(jiàn)圖3。

        圖3 SailAlign算法的流程Fig.3 The process of the algorithm of the SailAlign

        同時(shí)為了進(jìn)一步提高該算法中語(yǔ)音識(shí)別器的識(shí)別率,對(duì)SailAlign算法中的語(yǔ)言模型部分進(jìn)行了改進(jìn)。SailAlign算法中的語(yǔ)言模型是基于要識(shí)別文本所建立的語(yǔ)言模型,在識(shí)別文本中的錯(cuò)誤率不是很高的情況下,該算法能獲得很好的效果。但隨著文本錯(cuò)誤率的升高,錯(cuò)誤部分對(duì)整個(gè)語(yǔ)言模型的影響也越來(lái)越大,使得識(shí)別的準(zhǔn)確率降低。為此我們使用了融合的語(yǔ)言模型來(lái)避免文本錯(cuò)誤率升高對(duì)語(yǔ)音識(shí)別正確率的影響。具體是首先我們基于大量文本訓(xùn)練了一個(gè)通用的語(yǔ)言模型,將待識(shí)別的文本訓(xùn)練了一個(gè)特定的語(yǔ)言模型;在實(shí)際的語(yǔ)音識(shí)別中使用的語(yǔ)言模型是將上述兩個(gè)語(yǔ)言模型進(jìn)行融合得到的(融合的比例為通用的模型為0.2,特定的模型為0.8),以此來(lái)削弱文本錯(cuò)誤率對(duì)識(shí)別結(jié)果的影響,同時(shí)又保證了識(shí)別結(jié)果向原文本的偏置。實(shí)驗(yàn)結(jié)果表明,融合的語(yǔ)言模型在文本噪音較大時(shí)仍能取得較高的識(shí)別正確率。但在識(shí)別過(guò)程中,由于使用了通用的語(yǔ)言模型與特定的語(yǔ)言模型融合的技術(shù),使得每次的識(shí)別過(guò)程中的語(yǔ)言模型都比較大,識(shí)別的時(shí)間相對(duì)于原算法來(lái)說(shuō)延長(zhǎng)了很多。

        2.1 語(yǔ)音數(shù)據(jù)的預(yù)處理

        首先對(duì)音頻文件進(jìn)行切分,將長(zhǎng)語(yǔ)音文件切分成較小的語(yǔ)音片段。(本文中約為10~15s)。與GVR部分不同的是,這里我們是在聲學(xué)特征領(lǐng)域?qū)σ纛l文件進(jìn)行切分,即首先對(duì)音頻文件進(jìn)行聲學(xué)特征的抽取,然后直接在聲學(xué)特征域內(nèi)對(duì)音頻進(jìn)行切分,這樣在以后的迭代識(shí)別中就不需要再進(jìn)行聲學(xué)特征的抽取了,使得整個(gè)算法過(guò)程更加高效[6]。

        2.2 語(yǔ)音識(shí)別,文本與文本的對(duì)齊

        與GVR文語(yǔ)對(duì)齊算法過(guò)程類似,接下來(lái)對(duì)切分成小音頻段的語(yǔ)音進(jìn)行識(shí)別,并將識(shí)別后的結(jié)果匯總成1個(gè)文本文件,并將該文本文件與原始文本進(jìn)行對(duì)齊,找出正確識(shí)別的部分,并將剩下的文本和語(yǔ)音視為未對(duì)齊的部分,利用SailAlign進(jìn)行重新對(duì)齊,即迭代的進(jìn)行識(shí)別與對(duì)齊。

        2.3 聲學(xué)模型與語(yǔ)言模型的自適應(yīng)

        為了提高對(duì)噪音的魯棒性,對(duì)每次迭代的識(shí)別和對(duì)齊后,我們都要用已經(jīng)對(duì)齊的好的語(yǔ)音和文本來(lái)更新聲學(xué)模型,而對(duì)于語(yǔ)言模型則是是在每次迭代后都再基于未對(duì)齊語(yǔ)音部分來(lái)重新建立。該過(guò)程將迭代進(jìn)行3次,在最后的2次迭代過(guò)程中,聲學(xué)模型將不在更新,只是對(duì)語(yǔ)言模型進(jìn)行自適應(yīng)。

        3 實(shí)驗(yàn)結(jié)果及數(shù)據(jù)分析

        使用開(kāi)源的工具sox來(lái)對(duì)在GVR-FSA算法中的長(zhǎng)語(yǔ)音進(jìn)行切分;而在SailAlign算法中對(duì)音頻進(jìn)行切割的工具,使用的是Ghosh P K[9]描述的工具;語(yǔ)言模型的訓(xùn)練是使用的SRILM工具[8];文本與文本的對(duì)齊使用的動(dòng)態(tài)規(guī)劃的算法,利用的開(kāi)源工具Sclite來(lái)實(shí)現(xiàn)的。

        原始的語(yǔ)音和文本數(shù)據(jù)使用的是網(wǎng)上免費(fèi)的新聞聯(lián)播數(shù)據(jù),約為20h,利用該部分?jǐn)?shù)據(jù),首先分別對(duì)GVR-FSA和SailAlign兩種文語(yǔ)對(duì)齊算法的性能進(jìn)行測(cè)試和比較;接著對(duì)改進(jìn)前后的SailAlign算法中文本錯(cuò)誤率對(duì)它的影響做了比對(duì)和分析;最后測(cè)試了2種文語(yǔ)對(duì)齊算法得到的對(duì)齊后數(shù)據(jù)的錯(cuò)誤距離(error margin),以此來(lái)衡量?jī)煞N文語(yǔ)對(duì)齊算法產(chǎn)生的數(shù)據(jù)的準(zhǔn)確性,并對(duì)此進(jìn)行了分析。錯(cuò)誤距離即為算法得到的語(yǔ)音及其時(shí)間和實(shí)際語(yǔ)音所對(duì)應(yīng)時(shí)間之間的誤差所允許的時(shí)間間隔,本文將該間隔設(shè)為50ms,error margin大于50ms的數(shù)據(jù)被認(rèn)為是對(duì)齊錯(cuò)誤的數(shù)據(jù)。需要說(shuō)明的是在實(shí)際測(cè)試算法對(duì)齊后數(shù)據(jù)的準(zhǔn)確性時(shí),我們統(tǒng)計(jì)的是error margin大于50ms的字的個(gè)數(shù)占原始文本中正確字的個(gè)數(shù)的百分比,即字錯(cuò)誤率(Word error rate)。

        初始的20h左右的含噪新聞聯(lián)播數(shù)據(jù)經(jīng)過(guò)GVRFSA算法對(duì)齊后,得到了文本和語(yǔ)音一一對(duì)齊的數(shù)據(jù)約為10h。然后利用該部分?jǐn)?shù)據(jù)訓(xùn)練出一個(gè)基于三音素的連續(xù)語(yǔ)音聲學(xué)模型,以用于實(shí)現(xiàn)SailAlign算法。SailAlign算法中的通用語(yǔ)言模型是用了搜狗實(shí)驗(yàn)室的新聞文本進(jìn)行訓(xùn)練的。測(cè)試數(shù)據(jù)我們用的是1h的含噪語(yǔ)音和文本。

        測(cè)試的結(jié)果見(jiàn)圖4、5和6。

        圖4給出基于測(cè)試數(shù)據(jù)的GVR-FSA和SailAlign 2個(gè)算法中的正確率比較。在這里的正確率是指2種算法得到的準(zhǔn)確文本中漢字的個(gè)數(shù)占原文本中漢字的總個(gè)數(shù)的百分比。

        圖4 SailAlign和GVR的性能比較Fig.4 The comparison of performance between the SailAlign and the GVR

        從圖中可以看出,由于SailAlign算法中使用了面向原始的語(yǔ)音和文本的數(shù)據(jù)來(lái)訓(xùn)練聲學(xué)模型和語(yǔ)言模型,識(shí)別的性能有了顯著的提高,同時(shí)該算法的魯棒性也很高,在噪聲達(dá)到10%時(shí)仍然有著較高的正確率。而GVR-FSA的魯棒性雖然也較高,在各種噪音情況下基本保持了同樣的識(shí)別正確率,但是其識(shí)別率較低,同時(shí)由于其對(duì)網(wǎng)絡(luò)的依賴性,使得它穩(wěn)定性和時(shí)間效率較低。

        接下來(lái)對(duì)改進(jìn)前后的SailAlign算法的識(shí)別性能進(jìn)行了測(cè)試(見(jiàn)圖5)。

        圖5 改進(jìn)前后的SailAlign性能比較Fig.5 The performance comparison of the SailAlign

        從圖5中可以看出,文本中的噪音對(duì)只通過(guò)單文本訓(xùn)練的語(yǔ)言模型的識(shí)別性能影響比較明顯,而通過(guò)加入通用的語(yǔ)言模型后,在噪聲達(dá)到10%時(shí)仍能達(dá)到94.5%的識(shí)別率,這里94.5%指的是正確識(shí)別出的文本占原文本中正確文本的概率。SailAlign的魯棒性得到了提高,在利用兩種算法得到的語(yǔ)音和文本對(duì)應(yīng)的數(shù)據(jù)中會(huì)存在有的語(yǔ)音和文本對(duì)應(yīng)錯(cuò)誤的情況,一般來(lái)說(shuō)是指在文本開(kāi)頭或結(jié)尾的部分會(huì)存在多字或少字的現(xiàn)象,即該部分語(yǔ)音的時(shí)間與實(shí)際正確時(shí)間的前后時(shí)間誤差超過(guò)了本文對(duì)error margin 50ms的要求,這里用WER來(lái)表示不匹配的概率。

        圖6給出的是在2種算法的WER比較。

        圖6 SailAlign和GVR的字錯(cuò)誤率能比較Fig.6 The comparison of WER between the SailAlign and the GVR

        從圖中發(fā)現(xiàn)2種算法的WER都比較低,低于人工標(biāo)注語(yǔ)音文本數(shù)據(jù)中所允許的0.1%的錯(cuò)誤率。由算法得到的數(shù)據(jù)可直接應(yīng)用于語(yǔ)料庫(kù)的構(gòu)建和多媒體的檢索等領(lǐng)域。

        4 總結(jié)展望

        本文介紹了一種不依賴于預(yù)先訓(xùn)練好的聲學(xué)模型的文語(yǔ)對(duì)齊的算法,實(shí)驗(yàn)表明,該算法在噪音比較高的情況下,仍然可以達(dá)到比較高的性能。SailAlign算法中用的聲學(xué)模型是用了10h的語(yǔ)音文本數(shù)據(jù)訓(xùn)練得到的,增多訓(xùn)練的數(shù)據(jù)量將會(huì)進(jìn)一步的減小WER。

        接下來(lái)的研究工作主要是進(jìn)一步擺脫對(duì)開(kāi)放識(shí)別器的依賴,研究如何在沒(méi)有開(kāi)放語(yǔ)音識(shí)別器的情況下,也沒(méi)有可用于訓(xùn)練聲學(xué)模型的語(yǔ)音與文本數(shù)據(jù)情況下來(lái)進(jìn)行文語(yǔ)對(duì)齊算法的技術(shù)。具體來(lái)說(shuō)就是繼續(xù)加強(qiáng)對(duì)語(yǔ)言模型的限制,利用本文中提到的基于有限狀態(tài)機(jī)的語(yǔ)言模型方法對(duì)原始的文本進(jìn)行處理,考慮到各種可能文本字符間的狀態(tài)轉(zhuǎn)移路徑,然后將語(yǔ)音對(duì)各種路徑進(jìn)行一個(gè)打分,找到其中概率最大的路徑,即為語(yǔ)音所對(duì)應(yīng)的文本。而如何對(duì)轉(zhuǎn)移路徑進(jìn)行打分將是該算法的關(guān)鍵。

        [1]Moreno P J,Alberti C.A factor automaton approach for the forced alignment of long speech recordings[C].Proc of the IEEE International Conference on Acoustics,Speech,and Signal Processing,Taipei:ICASSP,2009:4869-4872.

        [2]Caseiro D,Meinedo H,Serralheiro A,et al.Spoken book alignment using WFSTs[C].Proc of the second international conference on Human Language Technology Research.San Francisco:ACM,2002:194-196.

        [3]Moreno P,Joerg C,van Thong J M,et al.A recursive algorithm for the forced alignment of very long audio segments[C].Proc of the Int’l Conf on Spoken Language Processing,Sydney:IEEE press,1998:2711-2714.

        [4]Braunschweiler N,Gales M J F,Buchholz S.Lightly supervised recognition for automatic alignment of large coherent speech recordings[C].Proc of the Interspeech,Chiba:INTERSPEECH,2010:2222-2225.

        [5]Hazen T J.Automatic alignment and error correction of human generated transcripts for long speech recordings[C].Proc of Interspeech,Pittsburgh:INTERSPEECH,2006:1606-1609.

        [6]Katsamanis A,Black M P,Georgiou P G,et al.SailAlign:Robust long speech-text alignment[J].Proc of Workshop on New Tools and Methods for Very Large Scale Research in Phonetic Sciences,2011,1:28-31.

        [7]Black M P,Katsamanis A,Lee C C,et al.Auto-matic classification of married couples’behavior using audio features[C].Proc of the Interspeech,Chiba:INTERSPEECH-2010,2010:2230-2033.

        [8]Stolcke A.SRILM-an extensible language modeling toolkit[C].Proc Int’l Conf on Spoken Language Processing,Colorado:ICSLP,2002:269-273.

        [9]Ghosh P K,Tsiartas A,Narayanan S S.Robust voice activity detection using long-term signal variability[J].IEEE Trans Audio Speech and Language Processing,2010:19:600-613.

        [10]Stan A,Bell P,King S.A grapheme-based method for automatic alignment of speech and text data[J].IEEE Workshop on Spoken Language Technology,2012,1:286-290.

        猜你喜歡
        文本語(yǔ)言模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        語(yǔ)言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        讓語(yǔ)言描寫(xiě)搖曳多姿
        累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        欧美黑人又粗又大xxxx| 日本一区二区三区视频免费在线| 综合亚洲二区三区四区在线| 亚洲国产av一区二区四季| 日本久久伊人特级黄色| 中国女人内谢69xxxxxa片| 高潮潮喷奶水飞溅视频无码| 亚洲日韩一区二区三区| 国产无遮挡又黄又爽又色| 国产精品一区二区暴白浆| 特级毛片爽www免费版| 色综合中文综合网| 国产人在线成免费视频麻豆| 国产成人精品日本亚洲直播| 国产精品毛片大尺度激情| 亚洲高清一区二区精品| 一区二区三区国产在线视频| 女人高潮久久久叫人喷水| 性久久久久久久| 国产三级精品美女三级| 麻豆精品国产免费av影片| 国产精品一区二区av麻豆日韩| 国产亚洲一区二区在线观看| 黑人巨大跨种族video| 午夜亚洲www湿好大| 色欧美与xxxxx| 国产一区二区三区亚洲精品| 女人天堂国产精品资源麻豆| 青青草狠吊色在线视频| 国内精品伊人久久久久网站| 猫咪www免费人成网最新网站 | 久久国产亚洲高清观看5388| 最近2019年好看中文字幕视频 | 日本少妇人妻xxxxx18| 亚洲成人777| 伊人狼人影院在线视频| 久久精品免费视频亚洲| 女色av少妇一区二区三区| 亚洲精品无码不卡在线播放he| 老熟女多次高潮露脸视频| 国产视频网站一区二区三区|