張衛(wèi)強,宋貝利,蔡 猛,劉 加
(清華大學(xué)電子工程系,北京 100084)
基于音素后驗概率的樣例語音關(guān)鍵詞檢測方法
張衛(wèi)強,宋貝利,蔡 猛,劉 加
(清華大學(xué)電子工程系,北京 100084)
低資源條件下的語音關(guān)鍵詞檢測是一個具有挑戰(zhàn)性的問題,因為傳統(tǒng)的基于大詞匯量連續(xù)語音識別(LVCSR)的語音關(guān)鍵詞檢測方法不再適用.針對此問題提出了一種基于深度神經(jīng)網(wǎng)絡(luò)(DNN)輸出層后驗概率特征和改進的動態(tài)時間規(guī)整(DTW)算法的語音關(guān)鍵詞檢測方法.采用無監(jiān)督高斯混合模型(GMM)和中、英文DNN音素模型得出的輸入特征構(gòu)建互補的子系統(tǒng),并在SWS2013多語種數(shù)據(jù)集上進行實驗.結(jié)果表明:相對于基線系統(tǒng),分數(shù)層面的多語種、多系統(tǒng)融合能夠有效地提升語音關(guān)鍵詞檢測系統(tǒng)的性能.
樣例查詢;語音關(guān)鍵詞檢測;DNN輸出層特征;動態(tài)時間規(guī)整
語音關(guān)鍵詞檢測(spoken term detection,STD)是語音識別技術(shù)的一項應(yīng)用,其目的是在連續(xù)的、無限制的語音流中檢測出感興趣的關(guān)鍵詞語音片段.在語音關(guān)鍵詞檢測領(lǐng)域,基于大詞匯量連續(xù)語音識別(large vocabulary continuous speech recognition,LVCSR)方法[1]的提出,顯著提高了識別的精確程度.LVCSR系統(tǒng)要求充分的語料資源,包括至少數(shù)十小時的有標注數(shù)據(jù)和可靠的發(fā)音字典等.但在實際的應(yīng)用場景中,獲取這些資源往往由于成本高昂而無法實現(xiàn),這使得傳統(tǒng)的LVCSR方法不再適用.
基于樣例查詢(query-by-example,QBE)的語音關(guān)鍵詞檢測方法采用少量含有關(guān)鍵詞樣例的語音片段作為查詢輸入,而非文本形式的關(guān)鍵詞.這種系統(tǒng)通過從測試數(shù)據(jù)中搜索與關(guān)鍵詞樣例相似的片段來完成關(guān)鍵詞的定位.目前語音關(guān)鍵詞檢測領(lǐng)域解決QBE問題主要采用基于動態(tài)時間規(guī)整(dynamic time warping,DTW)的方法[2-5].基于DTW的QBE系統(tǒng)的檢索效果依賴于2個關(guān)鍵因素:一是選取適合的特征,二是選擇有效的檢索算法.典型的基于模板匹配方法的DTW系統(tǒng)直接采用聲學(xué)特征進行DTW匹配[6].而后驗概率特征的引入可以大大減少說話人和環(huán)境的失配對系統(tǒng)性能的影響,因此迅速成為樣例關(guān)鍵詞識別領(lǐng)域的主流方法.后驗概率特征可以從音素級詞格[2]中獲得,也可以直接從音素解碼器中得到[3,5].對于無監(jiān)督的關(guān)鍵詞識別任務(wù),研究人員采用高斯后驗概率作為系統(tǒng)輸入,而不再需要任何語言先驗信息[4]. 文獻[2]提出了一種改進的DTW算法,提高了關(guān)鍵詞檢索的效率.在文獻[3,5]中,采用了ANN音素解碼器得出的后驗概率特征,此方法在SWS2013評測中取得了最佳成績[7].
深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNNs)模型在機器學(xué)習(xí)領(lǐng)域的一項重要應(yīng)用是將中間層或輸出層的輸出作為新的特征,改善系統(tǒng)性能.本文采用分別在漢語普通話和英語數(shù)據(jù)上訓(xùn)練得到的DNN模型來產(chǎn)生2種不同的后驗概率特征作為系統(tǒng)輸入并在之后進行分數(shù)層面的系統(tǒng)融合.中文模型用700,h中文數(shù)據(jù)訓(xùn)練得來,包括5個隱含層和1個擁有98個節(jié)點的輸出層,這些節(jié)點代表著96個中文音素單元和2個非語音單元.第2種DNN模型用700,h英文數(shù)據(jù)訓(xùn)練,包括6個隱含層,其輸出層包含47個代表英文音素的節(jié)點.這些DNN模型的輸出層輸出進行歸一化后即可直接作為樣例語音關(guān)鍵詞檢測系統(tǒng)的輸入特征.
本文采用文獻[2-3]中提出的改進的DTW算法作為檢索算法,通過對搜索過程加入拓撲限制來提高檢索速度.
本節(jié)主要介紹本文采用的基于樣例的語音關(guān)鍵詞檢測系統(tǒng).
1.1 特征提取
本文提出的樣例語音關(guān)鍵詞檢測系統(tǒng)主要適用于低資源條件的應(yīng)用場景.常見的特征生成方法有兩類:采用無監(jiān)督訓(xùn)練的方法得到語種無關(guān)的特征;直接采用某種已知語言的音素解碼器來產(chǎn)生特征.
對于無監(jiān)督的方法,用數(shù)據(jù)集中的所有數(shù)據(jù)訓(xùn)練一個高斯混合模型(Gaussian mixture model,GMM),并為每一個語音幀生成一個高斯后驗概率特征
式中:is表示第i幀;mC′為GMM的第m′個高斯分量;m′為高斯分量的個數(shù),本文中設(shè)為50.
同GMM相比,DNN模型有3點優(yōu)勢[8]:①采用規(guī)定窗長的多幀特征,可以為結(jié)合上下文建模;②非線性層數(shù)多,特征變換能力強;③直接對聲學(xué)狀態(tài)建模,與識別任務(wù)的聯(lián)系更緊密.DNN模型的應(yīng)用可以顯著提高語音關(guān)鍵詞檢測的性能,這一點在以O(shè)pen-KWS2013 為代表的一系列評測中都得到了驗證.
DNN能夠?qū)μ卣鬟M行深層次的非線性映射,產(chǎn)生更具區(qū)分力的高層特征,因此相對于傳統(tǒng)的PLP等特征類型,DNN作為特征提取器產(chǎn)生的特征對信號帶寬、噪聲等因素更魯棒.本文采用DNN解碼器同時為關(guān)鍵詞和測試語音生成音素后驗概率特征.
對于中文模型,用實驗室采集的700,h中文數(shù)據(jù)訓(xùn)練出包含5個隱含層的DNN模型.中文模型的輸出層包含98個節(jié)點,其中96個代表中文音素,另2個代表非語音.對于英文模型,訓(xùn)練數(shù)據(jù)為從Switchboard數(shù)據(jù)集和Fisher數(shù)據(jù)集中選取的700,h英文語音,DNN模型包含5個隱含層和具有41個節(jié)點的輸出層[9].
觀察數(shù)據(jù)集中的語音信號,可以發(fā)現(xiàn)2個對特征匹配準確度有影響的特性:①語音信號中包含很多非語音片段,特別是在樣例的開始、中間和結(jié)尾處都可能出現(xiàn)非語音片段,這會對識別性能產(chǎn)生很大的影響;②對于很多樣例而言,有效語音的長度不足以代表一個完整的詞,使用這樣的樣例語音生成的模板進行檢索會帶來較高的虛警率.
為解決上述問題,需要增加語音活動檢測(voice activity detection,VAD)步驟.如果某一幀語音對應(yīng)的代表非語音的音素后驗概率之和超過了預(yù)先設(shè)定的門限,將這一幀從后驗概率特征向量中去除.對于關(guān)鍵詞樣例和測試數(shù)據(jù),如果去除非語音后保留的幀數(shù)不足,此樣例或測試數(shù)據(jù)片段將不再參與后續(xù)的語音關(guān)鍵詞檢測.
1.2 動態(tài)時間規(guī)整檢索算法
式中:iq為樣例的第i幀特征;jx為測試語音的第j幀特征.而Q與X之間的平均距離計算如下:
式中il和jl代表Q與X之間的第l個對準.對準的終止條件為i1=1,il=m,j1=k1且jl=k2,1≤k1<k2≤n.
為了高效地尋找樣例Q在測試數(shù)據(jù)段X中的最佳匹配,本文采用了文獻[2-3]中提到的改進型DTW檢索算法.DTW算法的步驟如下.
(1)初始化邊界:
(3)im=時匹配結(jié)束.
采用以上DTW算法,可以獲得目標關(guān)鍵詞在時間區(qū)間se[,]t t中的平均累計距離,其中,st和et在SAD結(jié)果中對應(yīng)于1k、2k的開始時間和結(jié)束時間.圖1是樣例與測試語音相似度矩陣的示意,涂黑部分表示一條可能的匹配路徑.
圖1 樣例與測試語音相似度矩陣示意Fig.1 Example of similarity matrices between a query and a test utterance
在改進的DTW算法中,限制匹配路徑在樣例和測試語音中每次只能前進1幀.通過合理的遍歷順序,只需相鄰3個節(jié)點的最小累計距離就可以計算相似度矩陣中當前節(jié)點的最小累計距離.對于每一段測試語音,只記錄最佳5個彼此不重疊的匹配結(jié)果.
1.3 分數(shù)校準
測試數(shù)據(jù)集中的語音樣例具有不同的時長、來自多個大洲、不同語族的多種語言,這給為所有樣例確定統(tǒng)一的檢測門限帶來了困難.合理的分數(shù)校準方法可以有效提升統(tǒng)一門限下的語音關(guān)鍵詞檢測性能.為進行分數(shù)校準,首先對每一個關(guān)鍵詞的所有檢索記錄進行排序,并保留分數(shù)最高的N個記錄.在本文的實驗中N取500.
考察DTW搜索的結(jié)果,發(fā)現(xiàn)在測試語音的同一位置存在有多個可能關(guān)鍵詞命中的現(xiàn)象.為了減少測試數(shù)據(jù)本身對匹配分數(shù)的影響,對于每一個假定的關(guān)鍵詞命中,都需要計算在同一位置其他所有關(guān)鍵詞的匹配分數(shù),并通過減去其中最高的兩個關(guān)鍵詞分數(shù)平均值的方式對原始匹配分數(shù)進行修正,即
式中:sq,t為第q個關(guān)鍵詞的第t個可能命中的原始分數(shù);sq1,t、sq2,t為除q外其他關(guān)鍵詞在此位置匹配分數(shù)最高的兩個.
進行以上分數(shù)校準后,對原始分數(shù)和修正后的分數(shù)分別進行z-norm歸一化[10]
qδ為第q個關(guān)鍵詞N個最高分數(shù)的均值和方差.
原始分數(shù)和修正分數(shù)的z-norm歸一化結(jié)果將以MTWV(maximum term weighted value)值為權(quán)重進行線性融合,獲得相應(yīng)子系統(tǒng)的最終分數(shù).
本文采用的測試數(shù)據(jù)集為SWS2013多語種數(shù)據(jù)集[7],每個關(guān)鍵詞一個樣例.SWS2013多語種數(shù)據(jù)集包括來自歐洲和非洲不同語族的9種語言,涵蓋了多種不同的語音形式和聲學(xué)條件.測試數(shù)據(jù)集的具體組成見表1.
表1 按語種劃分的數(shù)據(jù)集組成Tab.1 Database contents disaggregated per language
系統(tǒng)性能的評價指標采用MTWV,即式中:θ為獲得最高TWV值時的判決門限;miss()Pθ為按詞平均漏報率;fa()Pθ為按詞平均虛警率;β為虛警代價. 需要注意此處的β值與NIST STD評測和OpenKWS評測中采用的不同,這是不同數(shù)據(jù)集的關(guān)鍵詞先驗概率不一致造成的.
2.1 中、英文DNN模型子系統(tǒng)
DNN模型子系統(tǒng)有2種,即中文96個輸出節(jié)點的DNN模型和英文41個節(jié)點的DNN模型.它們各自的原始分數(shù)、修正分數(shù)以及z-norm歸一化后的結(jié)果如表2所示.
表2 中、英文DNN模型結(jié)果Tab.2 Results of Chinese/English DNN models
2.2 不同類型分數(shù)的融合
表2表明修正分數(shù)相對于原始分數(shù)取得了更高的MTWV值.在經(jīng)過z-norm歸一化后,原始分數(shù)和修正分數(shù)取得了相似的MTWV性能.作為子系統(tǒng)的最終結(jié)果,融合后的分數(shù)取得了比2種分數(shù)都要好的MTWV性能.
2.3 不同語言子系統(tǒng)的融合
中、英文DNN模型子系統(tǒng)分別進行分數(shù)校準后,用MTWV值作為權(quán)重進行線性融合.不同語種子系統(tǒng)的融合顯著提升了系統(tǒng)性能,達到了0.363,0,如表3所示.
表3 多語種融合結(jié)果Tab.3 Fusion of different languages
2.4 不同模型子系統(tǒng)的融合
如表4所示,作為對照的無監(jiān)督GMM系統(tǒng)性能比DNN系統(tǒng)差很多.但GMM系統(tǒng)與DNN系統(tǒng)具有互補性,以MTWV值作為權(quán)重將GMM系統(tǒng)與2套DNN系統(tǒng)進行融合,可以進一步將MTWV性能從0.306,0提高到0.336,9.
表4 DNN與無監(jiān)督GMM融合結(jié)果Tab.4 Fusion of DNN and unsupervised GMM
本文采用無監(jiān)督GMM后驗概率和DNN音素后驗概率作為基于DTW的樣例語音關(guān)鍵詞檢測系統(tǒng)的輸入特征.DNN系統(tǒng)的性能明顯優(yōu)于GMM系統(tǒng),這與語音識別其他領(lǐng)域研究的結(jié)論一致.分數(shù)處理方面,為每個關(guān)鍵詞保留N個最優(yōu)搜索結(jié)果,并對歸一化后的原始分數(shù)和修正分數(shù)進行融合,以獲得最佳性能.多個不同語言的DNN模型和無監(jiān)督GMM模型子系統(tǒng)的融合使系統(tǒng)性能得到顯著提升.
[1] Miller D R H,Kleber M,Kao C L,et al. Rapid and accurate spoken term detection[C] // Proc Interspeech. Antwerp,Belgium,2007:314-317.
[2] Hazen T J,Shen W,White C. Query-by-example spoken term detection using phonetic posteriorgram templates[C]// Proc ASRU IEEE. Florence,Italy,2009:421-426.
[3] Rodriguez-Fuentes L J,Varona A,Penagarikano M,et al. High-performance query-by-example spoken term detection on the SWS 2013 evaluation[C]// Proc ICASSP IEEE. Florence,Italy,2014:7819-7823.
[4] Zhang Y,Glass J R. Unsupervised spoken keyword spotting via segmental DTW on Gaussian posteriorgrams [C]//Proc ASRU IEEE. Merano,Italy,2009:398-403.
[5] Szoke I,Burget L,Grezl F,et al. Calibration and fusion of query-by-example systems—But SWS 2013 [C]// Proc ICASSP IEEE. Florence,Italy,2014:7849-7853.
[6] Ney H. The use of a one-stage dynamic programming algorithm for connected word recognition[J]. IEEE Transactions on Acoustics,Speech,and Signal Processing,1984,32(2):188-196.
[7] Anguera X,Rodriguez-Fuentes L J,Sz?ke I,et al. Query-by-example spoken term detection evaluation on low-resource languages[C]. //Proceedings of the 4th International Workshop on Spoken Language Technologies for Under-Resourced Languages. St. Petersburg,Russia,2014:24-31.
[8] Hinton G,Deng L,Yu D,et al. Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups[J]. IEEE Signal Processing Magazine,2012,29:82-97.
[9] Cai M,Shi Y Z,Liu J. Deep maxout neural networks for speech recognition [C]// Proc ASRU IEEE. Olomouc,Czech Republic,2013:291-296.
[10] Wang H,Lee D. CUHK system for the spoken web search task at MediaEval 2012[C]// Proc MediaEval. Pisa,Italy,2012:1-2.
(責任編輯:金順愛,王曉燕)
A Query-by-Example Spoken Term Detection Method Based on Phonetic Posteriorgram
Zhang Weiqiang,Song Beili,Cai Meng,Liu Jia
(Department of Electronic Engineering,Tsinghua University,Beijing 100084,China)
Spoken term detection in low-resource situations is a challenging task,because traditional large vocabulary continuous speech recognition(LVCSR)approaches are often unusable.We propose a query-by-example(QBE) spoken term detection(STD)method based on deep neural network(DNN)posteriorgram features and a modified dynamic time warping(DTW)research approach.Subsystems are built with unsupervised Gaussian mixture model (GMM)and DNN monophone models trained on Chinese and English languages. The subsystems are then evaluated on the SWS2013 multilingual database of low-resource languages.The score-level fusion of these different languages and different subsystems is shown to improve performance significantly compared with the baseline results.
query-by-example;spoken term detection;deep neural network output features;dynamic time warping
TP391.4
A
0493-2137(2015)09-0757-04
10.11784/tdxbz201507032
2015-03-15;
2015-07-09.
國家自然科學(xué)基金資助項目(61370034,61273268,61403224).
張衛(wèi)強(1979— ),男,博士,副研究員.
張衛(wèi)強,wqzhang@tsinghua.edu.cn.