亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多流信息融合的集外詞檢索

        2014-11-17 07:13:40熊世富
        數(shù)據(jù)采集與處理 2014年2期
        關(guān)鍵詞:音素音節(jié)檢索

        熊世富 郭 武

        (中國科學技術(shù)大學電子工程與信息科學系,合肥,230027)

        引 言

        語音檢索是在大量的語音數(shù)據(jù)中發(fā)現(xiàn)感興趣的關(guān)鍵詞以及主題,其中關(guān)鍵詞的檢索技術(shù)(Spoken term detection,STD)是目前研究的熱點。由于NIST的推動[1],采用兩步驟的關(guān)鍵詞檢索是主流算法。第一步通過大詞匯連續(xù)語音識別系統(tǒng)(Large vocabulary continuous speech recognition,LVCSR)將語音文件轉(zhuǎn)化為文本,第二步在識別的文本上查找所關(guān)注的關(guān)鍵詞。這種算法的優(yōu)越性在于可以充分利用LVCSR的成果,另外關(guān)鍵詞還可以動態(tài)設(shè)置。但是由于LVCSR無法識別集外詞(Out of vocabulary,OOV),相比于集內(nèi)詞檢索,導致集外詞檢索性能急劇下降,因而如何提高集外詞的檢索性能是STD系統(tǒng)面臨的一個主要挑戰(zhàn)。

        為了解決集外詞檢索問題,學者們將識別單元投向?qū)庠~具有更強建模能力的子詞單元[2],通常為音素:通過音素識別器生成音素網(wǎng)格(Lattices),并將查詢詞轉(zhuǎn)化為音素序列,最后從音素網(wǎng)格中檢索[3]。除音素之外,其他子詞單元也被用在語音檢索中,如:詞片[4](Fragment),音節(jié)[5](Syllable)等。這些基于非音素子詞單元語音檢索的基本思想是創(chuàng)建一個合適的子詞列表,該子詞列表既能很好地對集外詞進行表示,又對語言的上下文約束信息具有較強的捕捉能力。其中詞片是基于數(shù)據(jù)驅(qū)動,使用統(tǒng)計方法自動選擇的可變長度音素序列,而音節(jié)則具有很強的語言學特征。在檢索方面,為了滿足速度和性能上的要求,完全匹配的n元語言模型-加權(quán)有限狀態(tài)機[6](ngram-weighted finite state transducer,ngram-WFST)檢索和模糊匹配檢索[7]分別被提出。

        相對而言,基于音素的STD系統(tǒng)受語法約束較小,更容易發(fā)現(xiàn)集外詞,但也更容易在識別中引入虛警;而詞片和音節(jié)的STD系統(tǒng)受語法約束較強,在相同的條件下,對于OOV更容易形成漏警??紤]到音素、音節(jié)、詞片的不同性質(zhì)和它們之間潛在的互補性,本文分別生成了基于音素、音節(jié)、詞片的STD系統(tǒng),并將三者進行結(jié)果融合。針對音素、音節(jié)和詞片的不同特點,對基于音素的STD系統(tǒng)采用完全匹配的ngram-WFST檢索以降低虛警,對基于音節(jié)、詞片的STD系統(tǒng)則采用模糊匹配檢索以減少漏警。最后采用線性邏輯回歸[8](Linear logistic regression,LLR)的算法將三個子系統(tǒng)的結(jié)果進行融合,提高檢索性能。

        1 多流信息融合檢索系統(tǒng)

        多流信息融合的關(guān)鍵詞檢索系統(tǒng)如圖1所示。在系統(tǒng)中,包括詞片、音節(jié)和音素三種不同的識別單元。一般而言,針對OOV詞的子詞STD系統(tǒng)基本框架包括語音轉(zhuǎn)寫和關(guān)鍵詞檢索兩個模塊。對于待檢索的任意語音文件,首先通過子詞解碼器將語音文件轉(zhuǎn)寫為子詞Lattices,同時為了方便檢索,需要將非音素Lattices轉(zhuǎn)化為音素Lattices,并建立相應的音素倒排索引以加快后端的檢索速度。對于待查詢的關(guān)鍵詞,也需要通過字形到音(Grapheme to phoneme,G2P)的轉(zhuǎn)換得到需查詢的音素序列,然后在倒排索引上進行音素匹配,其中置信度的選擇是非常重要的。下面將逐一介紹音素、音節(jié)、詞片子詞列表的挑選方法。

        1.1 音素

        為了增加詞邊界信息,加上特殊符號以標明單詞邊界,如alabama:#ae l ax b ae m ax#,這樣相對于平常英語識別中常用到的40~50個左右的音素,本文使用的音素個數(shù)相對會多很多,有171個帶位置信息的音素。在此基礎(chǔ)上重新構(gòu)建字典對應的音素信息,用大量的文本數(shù)據(jù)訓練生成3gram音素語言模型(Language model,LM)用于解碼。

        圖1 多流信息融合STD系統(tǒng)Fig.1 Multi-streamed based STD system

        1.2 音節(jié)

        為了獲得用于解碼的音節(jié)列表,首先進行了英語音節(jié)化工作。采用基于支持向量機-隱馬爾科夫模[9-10](Support vector machine-h(huán)idden markov model,SVM-HMM)的方法對LVCSR詞典進行音節(jié)化,并提取所有不同的音節(jié)單元,獲得了21 000個帶位置信息的音節(jié),并用于生成3gram音節(jié)語言模型。

        1.3 詞片

        與音節(jié)不同,詞片為基于數(shù)據(jù)驅(qū)動的。本文通過減值的5gram音素語言模型[4]獲得了21 000個帶位置信息的詞片,并用這個詞片列表生成3gram詞片語言模型用于解碼。

        2 檢索算法

        在進行語音識別后,需要建立音素倒排索引。本文在實驗中采用Lattice-tool[11]工具將音素Lattices轉(zhuǎn)化為ngram倒排索引,其中每條gram索引g包含信息為gram音素串Ig、所屬語音文件IDg、發(fā)生位置(開始時間-結(jié)束時間)Og和后驗概率得分Wg,以g(Ig,Og,Wg,IDg)表示。待檢索的關(guān)鍵詞在轉(zhuǎn)換成音素序列之后,就在ngram倒排索引中進行檢索。

        為了提高性能,根據(jù)不同子詞系統(tǒng)的特點,對基于音素的子系統(tǒng)采用完全匹配的ngram-WFST檢索方法,對基于音節(jié)和詞片的子系統(tǒng)采用模糊匹配的檢索方法。為便于描述,針對固定的語音文件,將ngram 索引g(Ig,Og,Wg,IDg)簡寫為g(Ig,Og,Wg),定義|g|為索引g中Ig包含的音素個數(shù)。

        2.1 ngram-WFST完全匹配檢索

        基于ngram-WFST的檢索系統(tǒng)由三部分組成:首先將ngram倒排索引編譯生成索引FST,其次將查詢詞發(fā)音分段并編譯成用于檢索的詞典FST,最后將索引FST和詞典FST進行FST合成,以達到檢索的目的。具體過程如下:

        2.1.1 索引FST

        (1)為每條ngram索引g(Ig,Og,Wg)分配輸入狀態(tài)Sg和輸出狀態(tài)Eg,將索引g(Ig,Og,Wg)轉(zhuǎn)化為FST弧r(Sg,Eg,Ig,Og,Wg),并且新建初始狀態(tài)和結(jié)束狀態(tài)S,E。

        (2)添加轉(zhuǎn)移弧r(S,Sg,ε,ε,1.0)和r(Eg,E,ε,IDg,1.0),使所有的r(Sg,Eg,Ig,Og,Wg)與初始狀態(tài)和結(jié)束狀態(tài)S,E連通,其中ε為FST中的空符號表達。

        (3)添加轉(zhuǎn)移弧r(Eg,Sg′,ε,ε,1.0),將滿足條件①索引重疊時間dist(g,g′)<T和②|g|=N|,g′|<=N的弧r(Sg,Eg,Ig,Og,Wg)和r(Sg′,Eg′,Ig′,Og′,Wg′)相連,生成初始的 FST 索引。

        (4)對初始FST索引使用FST確定化、狀態(tài)數(shù)最小化、ε-移除操作進行優(yōu)化,生成最終的索引FST。

        2.1.2 詞典FST

        (1)將查詢詞發(fā)音進行ngram分段。以n=3為例,對于alabama這個詞,其ngram分段發(fā)音為alabama:#ae-l-ax-b-ae-m-ax#,3gram 分段發(fā)音數(shù)為3。

        (2)將3gram分段發(fā)音編譯為詞典FST,如圖2所示。

        圖2 詞典3gram-WFSTFig.2 3gram-WFST of dictionary

        2.1.3 檢索

        由于索引FST 中ngram 弧r(Sg,Eg,Ig,Og,Wg)均與初始狀態(tài)和結(jié)束狀態(tài)相連,所以最終的檢索過程只需將詞典FST和索引FST進行FST合并操作即可。為了降低虛警,對檢索返回得分進行長度歸一化

        式中:qtste為查詢詞項q的一個檢索結(jié)果,N(q)為q對應發(fā)音中的音素個數(shù),M(q)為q的ngram分段發(fā)音數(shù),Wgi為q的ngram分段發(fā)音對應的第i條索引gi(Igi,Ogi,Wgi,IDgi)中的后驗概率Wgi。

        2.2 模糊匹配檢索

        對于音節(jié)和詞片子詞系統(tǒng),為了減少漏警,在不過多引入虛警的前提下,使用模糊匹配進行檢索。模糊匹配檢索系統(tǒng)構(gòu)建的大致過程為:獲得3gram倒排索引,其中所有索引g滿足條件|g|=3;檢索查詢詞項q的triphone發(fā)音序列,如alabama:#ae-l-ax-l-ax-b-ax-b-ae-b-ae-m-ae-m-ax#,在相鄰triphone 3gram索引時間間隔dist(g,g′)小于一定閾值T的條件下,檢索到的不同tirphone數(shù)M大于單詞總triphone發(fā)音數(shù)N(q)的一半時召回并返回如下得分

        發(fā)音個數(shù),Wgi為q的triphone發(fā)音對應的第i條索引gi(Igi,Ogi,Wgi,IDgi)中的后驗概率Wgi。

        3 多流信息融合方法

        由于本文中有三個子系統(tǒng),對于同一個關(guān)鍵詞,這三個子系統(tǒng)可能給出不同的置信度得分和不同的檢索結(jié)果。本文在線性回歸的基礎(chǔ)上,分三種情況對結(jié)果進行得分融合。當一個關(guān)鍵詞檢索結(jié)果在三個子系統(tǒng)中都被檢出時,對各個系統(tǒng)的得分進行線性加權(quán)

        當一個關(guān)鍵詞檢索結(jié)果只由兩個系統(tǒng)檢出時,融合得分為這兩個系統(tǒng)得分的線性加權(quán)

        最后,當一個關(guān)鍵詞檢索結(jié)果僅由單系統(tǒng)檢出時,認為它不夠可信,對該系統(tǒng)的得分進行懲罰

        式中:p為懲罰因子。

        融合中的關(guān)鍵問題是線性回歸參數(shù)的選取,本文使用線性邏輯回歸融合策略,具體過程為:首先提取開發(fā)集中所有三個子系統(tǒng)檢索結(jié)果中的正例(正確的檢索結(jié)果)得分和反例(錯誤的檢索結(jié)果)得分作為LLR的訓練數(shù)據(jù),訓練并獲得各系統(tǒng)相應的權(quán)重系數(shù)w1,w2,w3,然后將這些權(quán)重歸一化作為式(3)的加權(quán)系數(shù)和式(5)中對應系統(tǒng)的懲罰因子,最后對w1,w2,w3兩兩歸一化作為式(4)相應系統(tǒng)的加權(quán)系數(shù),例如:當某個檢索結(jié)果只由系統(tǒng)i和系統(tǒng)j檢出時,加權(quán)系數(shù)分別為

        4 實驗配置

        4.1 實驗數(shù)據(jù)及基本配置

        本文實驗是在NIST STD 2006英語電話語音數(shù)據(jù)庫上進行的,該數(shù)據(jù)庫包含開發(fā)集和測試集兩部分,每部分都有大約3h語音。

        聲學模型訓練數(shù)據(jù)為總計360h語音的Switchboard和CallHome語料庫。語言模型訓練采用Switchboard、CallHome語料庫的標注文件和英語廣播新聞數(shù)據(jù)。

        采用39維感知線性預測(Perceptual linear prediction,PLP)參數(shù)作為聲學特征。通過最大似然估計(Maximum likelihood estimation,MLE)訓練算法得到60高斯的HMM模型,然后使用最小音素錯誤(Minimum phone error,MPE)區(qū)分性訓練準則對獲得的MLE參數(shù)進行優(yōu)化。

        4.2 OOV詞挑選

        由于NIST任務集中集外詞相對較少,只有2%左右的比例,不適合研究工作的開展,因此需要在NIST的任務集上重新挑選一些詞匯作為集外詞。挑選集外詞的原則是:首先保留NIST測試任務中已有的集外詞,也就是語音識別詞典中不包含的詞匯;其次挑選具有一定意義的地名、人名,這些詞匯的選擇是因為它們經(jīng)常是關(guān)鍵詞檢索所關(guān)注的內(nèi)容。為了保證關(guān)鍵詞檢索的穩(wěn)健性,要求被選擇的OOV詞均最少在開發(fā)集和測試集出現(xiàn)過5次以上。為保證實驗的真實性,對于這些集外詞,必須把其對應的原始語音文件從聲學模型訓練中去除,文本標注從語言模型訓練數(shù)據(jù)中剔除,語音識別詞典也要剔除這些OOV詞。基于以上原則,在開發(fā)集上挑選了313個集外詞,在測試集上挑選了320個集外詞。

        5 實驗結(jié)果與分析

        對于STD任務,使用NIST STD 2006評測計劃定義的實際詞項權(quán)重值[1](Actual term weighted value,ATWV)作為主要的性能評估尺度。

        5.1 音素識別率

        表1給出了STD 2006開發(fā)集上不同解碼單元在集內(nèi)詞區(qū)域和集外詞區(qū)域的音素識別率(Phone recognition accuracy,PACC)。對于集內(nèi)詞識別而言,音素識別系統(tǒng)的PACC明顯低于音節(jié)、詞片和詞識別系統(tǒng)的PACC。由于詞識別系統(tǒng)對集外詞的建模能力較弱,導致詞識別系統(tǒng)在集外詞和集內(nèi)詞區(qū)域的PACC反差很大,其在集外詞區(qū)域上的PACC明顯低于音節(jié)、詞片識別系統(tǒng)。

        表1 不同解碼單元在NIST STD 2006開發(fā)集上的音素識別率Table 1 Phone recognition accuracy using different types of decoding units on NIST STD06development set%

        5.2 集外詞檢索性能

        (1)單系統(tǒng)檢索結(jié)果

        表2分別給出了ngram-WFST和模糊匹配檢索系統(tǒng)在STD 2006開發(fā)集上的檢索結(jié)果。由于音節(jié)和詞片識別系統(tǒng)PACC較高,識別混淆低,使用模糊匹配能在引入較少虛警的情況下,降低了漏警,因而模糊匹配檢索結(jié)果好于ngram-WFST檢索結(jié)果。音素識別系統(tǒng)本身混淆就很高,使用模糊匹配,在虛警已很高的情況下又進一步提高了虛警,其模糊匹配性能是不可接受的。

        基于表2實驗結(jié)果,對于音素檢索系統(tǒng),使用ngram-WFST檢索,對于音節(jié)和詞片檢索系統(tǒng),使用模糊匹配檢索。同時,為了平衡虛警和漏警,所有系統(tǒng)均使用詞項相關(guān)置信度歸一方法提高系統(tǒng)性能[12]。

        表2 NIST STD 2006開發(fā)集上ngram-WFST和模糊匹配檢索結(jié)果Table 2 ATWV results based on ngram-WFST and fuzzy search on NIST STD06development set

        (2)多系統(tǒng)融合結(jié)果

        為了研究不同子詞系統(tǒng)之間的互補性,分別做了音素、音節(jié)、詞片系統(tǒng)之間的兩兩融合和三者間的融合,表3為對應的ATWV值。相對于性能最好的以詞片作為識別單元的單系統(tǒng),多系統(tǒng)融合的性能在開發(fā)集和測試集上,分獲得了11%和12%的ATWV相對提升。

        表3 開發(fā)集和測試集上的集外詞檢索ATWVTable 3 ATWV results of OOV on development and eval set

        (3)融合系統(tǒng)檢索時間復雜度分析

        多流信息融合系統(tǒng)采用三個STD子系統(tǒng)進行獨立的集外詞檢索,最后進行三系統(tǒng)的檢索結(jié)果融合。其中STD子系統(tǒng)由兩部分構(gòu)成:子詞解碼部分和檢索部分,子詞解碼時間依賴于解碼器的速度,因此三系統(tǒng)的總解碼時間基本上等于單系統(tǒng)的三倍。

        而對于本文中使用的檢索算法,ngram-WFST檢索和模糊匹配檢索系統(tǒng)時間復雜度各有不同,模糊匹配由于檢索到查詢詞部分triphone發(fā)音既可召回,相對于ngram-WFST完全匹配算法,搜索空間變大,搜索時間更長;具體檢索耗費時間如表4所示。本文實驗中,主機配置為:

        Pentium(R)Dual-Core CPU 3.00GHz,2GB內(nèi)存。

        表4 開發(fā)集上的各子詞STD系統(tǒng)的檢索耗時Table 4 Search time of different sub-word units STD system on development set

        從表4可知,在已經(jīng)建立好索引的情況下,當采用串行方式時,三系統(tǒng)總計檢索時間為三者之和,檢索開發(fā)集上313個詞需要耗費21.52s。但是值得注意的是,多流融合STD系統(tǒng)由三個完全獨立的子系統(tǒng)構(gòu)成,完全可以并行處理,這時融合系統(tǒng)檢索速度等同于最慢系統(tǒng)的檢索速度,檢索開發(fā)集上313個詞只需耗費7.65s。

        6 結(jié)束語

        雖然詞片和音節(jié)分別以數(shù)據(jù)驅(qū)動和語言學規(guī)則兩種不同方式選擇,由于兩者均為可變長度的音素序列,在一定程度上具有相似性,導致兩者的互補性較弱,因而融合之后性能提升不大。由于音素語言模型約束性較弱,無法充分利用上下文信息,因此音素識別器的識別混淆度很大,識別生成的lattices中包含很多音節(jié)和詞片不包含的信息,從而使得音素和音節(jié)、詞片間互補性較強,融合之后能夠顯著提高檢索性能。

        本文首先分別利用音素、音節(jié)和詞片構(gòu)建STD系統(tǒng)用于集外詞檢索,接著研究了各子詞對集外詞的建模能力,并針對各子詞STD系統(tǒng)的特性,對音素系統(tǒng)使用完全匹配的ngram-WFST檢索、對詞片和音節(jié)進行模糊匹配檢索,提高單系統(tǒng)性能,最后利用線性回歸得分融合策略,較大程度提高了系統(tǒng)性能。

        [1]NIST.The spoken term detection(STD)2006evaluation plan[EB/OL].http://www.itl.nist.gov/iad/mig/tests/std/2006/ docs/std06-evalplan-v10.pdf,2006-9-13.

        [2]Szoke I,Burget L,Cernocky J,et al.Sub-word modeling of out of vocabulary words in spoken term detection[C]//Proceedings of IEEE Workshop on Spoken Language Technology.Goa,India:IEEE,2008:273-276.

        [3]Wallace R,Vogt R,Sridharan S.A phonetic search approach to the 2006NIST spoken term detection evaluation[C]//Proceedings of Interspeech.Antwerp.Belgium:IEEE,2007:2393-2396.

        [4]Rastrow A,Sethy A,Ramabhadran B,et al.Towards using hybrid word and fragment units for vocabulary independent LVCSR systems[C]//Proc of Interspeech.Brighton,UK:IEEE,2009:1931-1934.

        [5]Larson M,EickEler S.Using syllable-based indexing features and language models to improve German spoken document retrieval[C]//Proceedings of Eurospeech.Geneva,Switzerland:IEEE,2003:1217-1220.

        [6]Liu C,Wang D,Tejedor J.N-gram FST indexing for spoken term detection[C]//Proceedings of Interspeech.Portland,Oregon,USA:IEEE,2012.

        [7]Xu Y,Guo W,Shansu,et al.Spoken term detection for OOV terms based on phone fragment[C]//Pro-ceedings of International Conference on Audio,Language and Image Processing.Shanghai, China:IEEE,2012:1031-1034.

        [8]Brummer N,Burget L,Cernocky J,et al.Fusion of heterogeneous speaker recognition systems in the STBU submission for the NIST speaker recognition evaluation 2006[J].IEEE Trans on Audio,Speech and Language Processing,2007,15(7):2072-2084.

        [9]Bartlett S,Kondrak G,Cherry C.On the syllabification of phonemes[C]//Proceedings of the North A-merican Chapter of the Association for Computational Linguistics -Human Language Technologies.Boulder,Colorado,USA:Association for Computational Linguistics,2009:308-316.

        [10]劉輝,楊俊安,許學忠.基于HMM和SVM串聯(lián)模型的低空飛行目標聲識別方法[J].數(shù)據(jù)采集與處理,2010,25(6):751-755.Liu Hui,Yang Junan,Xu Xuezhong.Low altitude passive acoustic target recognition based on HMM and SVM[J].Journal of Data Acquisition and Processing,2010,25(6):751-755.

        [11]Stolcke A.SRILM -An extensible language modeling toolkit[C]//Proceedings of the International Conference of Spoken Language Processing.Denver,Colorado,USA:IEEE,2002:901-904.

        [12]Wang D,Tejedor J,King S,et al.Term-dependent confidence normalization for out-of-vocabulary spoken term detection[J].Journal of Computer Science and Technology,2012,27(2):358-375.

        猜你喜歡
        音素音節(jié)檢索
        新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學生英語音素意識
        小學英語課堂中音素意識與自然拼讀整合訓練的探索
        拼拼 讀讀 寫寫
        2019年第4-6期便捷檢索目錄
        ?不定冠詞a與an
        藏文音節(jié)字的頻次統(tǒng)計
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        快樂拼音
        木管樂器“音節(jié)練習法”初探
        中文字幕亚洲精品人妻| 久久久久久国产精品无码超碰动画| 国产精品永久免费视频| 国产av专区一区二区三区| 成人av一区二区亚洲精| 午夜天堂av天堂久久久| 亚洲人成电影在线观看天堂色| 九九精品无码专区免费| 国产视频在线播放亚洲| 无码国产精成人午夜视频一区二区| 国产色无码精品视频国产| 亚洲AV无码精品呻吟| 亚洲熟女一区二区三区不卡 | 国产亚洲精品av一区| 中文字幕无线码| 亚洲人成人网毛片在线播放| 在线免费观看亚洲毛片| 日本高清一级二级三级| 天天影视性色香欲综合网| 国产99页| 少妇精品偷拍高潮少妇在线观看 | 日韩中文字幕熟女人妻| 中文字幕亚洲精品无码| 日本少妇人妻xxxxx18| 蜜臀av中文人妻系列| 国产亚洲精品品视频在线| 天堂资源中文最新版在线一区| 国产aⅴ夜夜欢一区二区三区| 中文字幕一区二区三区6| 欧洲乱码伦视频免费| 国精产品一品二品国在线| 色综合久久久久综合一本到桃花网| 亚洲天堂久久午夜福利| 中文字幕人妻无码一夲道| 囯产精品无码va一区二区| 日韩国产一区二区三区在线观看 | 亚洲AV秘 无码二区在线| 视频一区中文字幕日韩| 无套中出丰满人妻无码| 5级做人爱c视版免费视频| 中文字幕一区二区三区在线乱码|