亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于動態(tài)匹配詞格檢索的關鍵詞檢測

        2014-02-21 11:47:42鄭永軍張連海
        應用科學學報 2014年2期
        關鍵詞:音素后驗檢索

        鄭永軍, 張連海

        信息工程大學信息系統(tǒng)工程學院,鄭州450002

        關鍵詞識別(keyword recognition,KWR)又稱為關鍵詞檢測(keyword spotting,KWS),是一種特殊的語音識別技術,指在連續(xù)的無限制的自然語音流中識別出給定的詞即關鍵詞的過程[1].語音關鍵詞檢測技術被看作是處理口語、跨越人機交流障礙最有效的解決方案之一[2],已成為語音識別研究領域的一個熱點,在語音文檔檢索、信息查詢、語音實時監(jiān)聽、命令控制以及口語對話系統(tǒng)等現(xiàn)實領域中都發(fā)揮著非常重要的作用.

        隨著信息技術的發(fā)展,語音數(shù)據(jù)呈爆炸式增長,迫切需要能夠高效索引和檢索這些數(shù)據(jù)的技術.目前,解決此問題的一種方法是應用語音轉寫機(speech-to-text transcription,STT)創(chuàng)建文本形式的索引,然后應用傳統(tǒng)的文本檢索引擎進行快速檢索,但該方法受關鍵詞表的限制,不適用于集外詞(out-of-vocabulary,OOV)的檢測領域,如新聞廣播索引、語音文檔檢索、實時監(jiān)聽等.這些領域通常采用與關鍵詞表、任務無關的檢測方法,目前基于子詞Lattice(如音素Lattice)的關鍵詞檢測[3-4]已成為一種主流的解決方法,因為Lattice能夠保存多候選識別結果來補償識別錯誤帶來的影響,并取得了不錯的檢測效果,但仍存在子詞識別錯誤和Lattice結構復雜等不足.

        文獻[5]充分考慮音素識別結果的錯誤規(guī)律和模糊發(fā)音現(xiàn)象,提出了一種基于動態(tài)匹配詞格檢索(dynamic match lattice spotting,DMLS)的方法,將基于Lattice的快速檢測和動態(tài)序列匹配技術融合在一起,實現(xiàn)了快速而準確的關鍵詞檢測.文獻[6]提出了音素誤判懲罰矩陣的方法,綜合考慮替換、插入和刪除3種識別錯誤,通過訓練語料來估計代價函數(shù),其性能相對更好.文獻[7]在DMLS中融合了維特比得分和Jaro-Winkler距離兩種關鍵詞置信度,提升了系統(tǒng)的性能.但在DMLS中,動態(tài)匹配并不能完全補償音素識別錯誤,這是因為音素Lattice的精度直接影響了關鍵詞檢測的性能.因此,如何進一步提高前端識別結果的性能是解決問題的關鍵.TRAP(temporal pattern)特征是一種長時性特征,能有效利用語音信號的幀間相關性信息,不僅提高了聲學特征的噪聲魯棒性,而且有助于解決音素的協(xié)同發(fā)音問題.鑒于此,本文采用基于TRAP特征的音素Lattice識別器作為前端,利用DMLS方法搭建了一個關鍵詞檢測系統(tǒng),與傳統(tǒng)的前端基于MFCC和PLP特征的識別器相比,該關鍵詞檢測系統(tǒng)的召回率提升顯著.本文首先研究了基于TRAP特征的音素Lattice生成方法,然后研究了DMLS算法,最后搭建了語音關鍵詞檢測系統(tǒng),并分析了實驗結果.

        1 基于TRAP特征的Lattice生成

        1.1 Lattice結構

        Lattice是由連續(xù)語音識別器一遍解碼直接生成的中間結果,是一個有向無環(huán)圖,代表識別中間過程的解碼信息.在生成的Lattice結構中,基本元素包括節(jié)點信息和弧信息,如圖1所示.每個節(jié)點包含識別單元信息、時間信息、以此節(jié)點為起點的弧及以此節(jié)點為終點的弧.每條弧包含識別單元的聲學模型得分、語言模型得分、同起點的鄰弧和同終點的鄰弧[8].解碼生成的Lattice提供了每個語音片段詳細的音素表示形式,構成了后續(xù)索引和檢索操作的基礎.

        圖1 “start”的音素Lattice結構Figure 1 Phone Lattice structure of“start”

        本文采用基于TRAP特征的音素Lattice生成方法.首先提取TRAP特征,然后將TRAP特征分割組合后輸入高低兩層多層感知器(multilayer perceptron,MLP)得到音素狀態(tài)的后驗概率,并以得到的音素狀態(tài)的后驗概率作為新的觀測特征應用HMM建模,解碼得到更精準的音素Lattice.

        1.2 TRAP特征

        目前,梅爾頻域倒譜系數(shù)(mel frequency cepstrum coefficient,MFCC)和感知線性預測系數(shù)(perceptual linear predictive,PLP)是應用最廣泛的特征參數(shù),是語音識別領域特征提取技術的基礎.這些特征描述的是語音信號一個短時間幀(通常為20-30ms)內的頻譜包絡特性,容易受到通信信道和窄帶噪聲等因素的影響而變得不穩(wěn)定,從而導致音素識別器性能的下降[9-10].另外,語音學理論和相關實驗分析表明,音素的一些重要信息分布在數(shù)百毫秒的時間跨度內,而不只是音素本身的持續(xù)時間.由于協(xié)同發(fā)音現(xiàn)象的存在,音素發(fā)音在時間上并不是完全獨立存在的,相鄰音素發(fā)音部分重疊且互相影響.這些都表明語音識別中需要應用能夠捕捉長時信息的特征或模型[11].

        圖2 傳統(tǒng)頻譜特征和TRAP特征比較Figure 2 Comparison between conventional spectral feature and TPAP feature

        針對上述問題,文獻[9]提出把頻譜特征進行時域擴展,即在幀長25ms幀移10ms的條件下,將當前幀的Mel子帶能量和其前后各50幀的子帶能量進行組合,得到1s長的時域擴展特征,這種時域子帶特征被稱為TRAP特征.TRAP特征主要是基于具有長時上下文信息的窄帶頻譜,其特征矢量描述的是各個Mel子帶在長時間內的能量變化軌跡.該方法能有效利用語音信號的幀間相關性信息,不僅提高了聲學特征的噪聲魯棒性,而且有助于解決音素的協(xié)同發(fā)音現(xiàn)象.文獻[12]研究TRAP結構,通過實驗得出音素識別最優(yōu)的TRAP特征長度約為310ms,如圖2所示.從此以后,基于TRAP特征及其改進方法獲得了廣泛應用[13].

        1.3 多層感知器

        多層感知器(MLP)是一種典型的多層前饋神經網絡,能把輸入的多個數(shù)據(jù)集映射到單一的輸出數(shù)據(jù)集上,因具有較強的非線性映射能力而成為神經網絡研究的熱點之一.如圖3所示,MLP是一個3層的神經網絡,通常由3部分構成:一組感知單元(源節(jié)點)組成的輸入層、一層或多層計算節(jié)點的隱含層、一層計算節(jié)點的輸出層.同層神經元節(jié)點之間沒有連接,相鄰層的神經元節(jié)點間相互連接,前層節(jié)點的輸出即為后層節(jié)點的輸入.在隱含層上,通常采用sigmoid非線性激活函數(shù)(logistic函數(shù)和雙曲正切函數(shù))將輸入映射到非線性空間.MLP具有良好的區(qū)分性,廣泛應用于語音識別領域.它可以完成聲學層特征與識別單元之間的非線性變換,將聲學層特征映射為識別單元后驗概率的同時,能夠有效抑制聲學層特征中的冗余信息及噪聲,從而將區(qū)分性信息保留在識別單元的后驗概率中[14].

        圖3 3層MLP結構Figure 3 MLP structure with three layers

        1.4 Lattice生成

        本文將TRAP特征和MLP應用于音素Lattice的生成,可以得到比傳統(tǒng)的頻譜特征更精準的音素Lattice,進而提高后端關鍵詞檢測的性能,具體流程如圖4所示.

        1)提取TRAP特征,選擇幀長和幀移分別為25ms和10ms.語音信號經過漢明窗后變?yōu)槎虝r信號,進行FFT變換后計算短時能量譜;將頻譜轉化為Mel域后通過三角帶通濾波器,使每幀語音信號的輸出為23個Mel子帶能量的一維向量;接著將當前幀的子帶能量和其前后各15幀進行組合,得到每幀語音信號所對應的時域擴展特征,即TRAP特征.

        2)分割TRAP特征為左右兩個部分,即中心幀及其左邊15幀的子帶能量稱作左子帶特征(left context,LC),中心幀及其右邊15幀的子帶能量稱作右子帶特征(right context,RC).LC和RC相應地加漢明窗的左右半窗,可以起到對中心幀及其附近幀加權的作用,更好地促進分類.對特征進行離散余弦變換(discrete cosine transform,DCT),可以降低特征的維數(shù)和幀間的相關性.然后對DCT變換后的特征進行均值和方差歸一化,并將各個子帶的特征拼接起來,得到了輸入MLP的特征矢量.

        3)應用兩層MLP將前期得到的特征矢量映射為識別單元的后驗概率,識別單元為音素或是音素狀態(tài),本文選擇音素狀態(tài).高、低兩層MLP的識別目標一致,均為識別單元的后驗概率.將兩個低層MLP的輸出進行取對數(shù)、均值和方差歸一化后拼接成新的向量作為高層MLP的觀測特征,則高層MLP的輸出為最終的映射結果.最后將這些后驗概率作為特征應用HMM建模,使用HTK工具包中的Hvite解碼得到音素Lattice.

        圖4 基于TRAP特征的Lattice生成框架Figure 4 Architecture of Lattice generation based on TRAP features

        2 動態(tài)匹配詞格檢索

        2.1 索引建立

        語音解碼生成的Lattice可以直接被檢索,但需要對每一個新的關鍵詞進行密集的Lattice遍歷,嚴重限制了檢索的速度.取而代之的Lattice遍歷和處理是在索引階段離線完成的,通過執(zhí)行一個改進的維特比算法遍歷Lattice來創(chuàng)建一個固定長度的音素序列數(shù)據(jù)庫(sequence database,SDB).假設目標音素序列的最大長度已知,并且小于索引音素序列的長度,索引音素序列長度[15]通常設為N=10.DMLS的檢索就可以限制在SDB中近似匹配音素序列,簡化了近似匹配的過程,過程如下:

        步驟1 Θ={θ(1),θ(2),···}表示Lattice中所有為N的節(jié)點序列的集合,其中θ(i)={θ1,θ2,···,θN}是一個節(jié)點序列,每個θk對應一個單獨的節(jié)點,每個節(jié)點存儲一個識別出的音素.

        步驟2 節(jié)點序列所對應的音素標簽序列Φ(θ)=(φ(θ1),φ(θ2),···,φ(θN))也能從Lattice中得到,同時節(jié)點序列的起始時間由Y(θ)給出.

        步驟3 對于每一個音素Lattice中的節(jié)點n,所有以其為終止節(jié)點的序列集合被稱為觀察序列集,定義為Q(Θ,n)={θ∈Θ|θN=n}.

        步驟4 Q′(Θ,n)定義為Q(Θ,n)的子集,包含K個路徑得分最高的音素序列.節(jié)點序列θ的路徑得分從Lattice中計算得到,為累加θ回溯得到的路徑上全部聲學和語言模型得分,也為每條弧的似然得分SArclike的累加.Lattice中每條弧的似然得分SArclike為

        式中,Saclike為聲學模型得分,Slmlike為語言模型得分,τlmscale為語言模型比例因子,ηwdpenalty為詞插入懲罰.在通常情況下,假設K=10.應用子集Q′(Θ,n)而不是Q(Θ,n)是為了以最小的信息損失代價來降低SDB的存儲要求.

        在音素Lattice中的所有節(jié)點上重復以上過程,得到一個節(jié)點序列的集合,A=∪nQ′(Θ,n).這一階段的最終輸出是節(jié)點序列的集合θ∈A,共同構成SDB.相應的音素序列和時間邊界信息分別由Φ(θ)和Y(θ)給出.

        2.2 動態(tài)匹配檢索

        在檢索階段,當一個關鍵詞提交給系統(tǒng)時,首先利用發(fā)音字典將其轉化為音素的表示形式,如果關鍵詞在字典中不存在,則應用letter-to-sound的規(guī)則估計其相應的音素發(fā)音[16].關鍵詞的發(fā)音,即一個音素序列,被稱為目標序列,記作ρ.檢索涉及到將目標音素序列ρ和SDB中存儲的每一個索引音素序列Φ(θ)進行比較,需要計算目標音素序列ρ和索引音素序列Φ(θ)之間的距離Δ(Φ(θ),ρ).所得結果的集合R僅僅包含距離小于某一特定閾值δ的節(jié)點序列,即

        定義Δ(Φ,ρ)為這樣的距離,當Φ表示正確的檢出結果時其取值較小,當Φ表示虛警錯誤時其取值較大.本文Δ(Φ,ρ)定義每一個觀察音素序列Φ和目標序列ρ之間的最小編輯距離(minimum edit distance,MED).MED包含匹配、替換、插入、刪除等4種操作.由于音素解碼過程中出現(xiàn)的常見錯誤主要是替換錯誤,故本文MED的計算僅僅考慮音素的替換錯誤代價,令Ci=Cd=∞,可將MED的計算認為是音素序列對中每個音素替換代價的總和,即

        式中,M為目標音素序列的長度.替換代價Cs(φi,ρi)表示和一個后驗概率相關聯(lián)的懲罰,這個后驗概率則是觀察到的音素為φi而實際目標音素為ρi的概率.一些先驗信息可以用來估計音素替換錯誤的概率.可以直接觀察音素識別器的輸出,即通過觀察音素識別器實際產生的音素識別錯誤訓練得到改進的音素混淆度估計.實現(xiàn)此方法的一種途徑是:首先在訓練語料庫中解碼得到一個音素識別結果,然后比較音素識別結果和參考的音素標注.此比較主要基于一個動態(tài)規(guī)劃的字符串對齊過程,而沒有應用音素邊界的時間位置信息.HTK工具包中的HResults被用于對齊音素識別結果和參考的音素標注,生成一個音素混淆矩陣,此矩陣編碼如下:在給定對齊結果的條件下,音素識別結果中音素x和參考標注中的音素y對齊的次數(shù)為s(x,y),插入音素x的次數(shù)為i(x),每個音素的刪除次數(shù)為d(y).

        給定混淆矩陣的統(tǒng)計量,音素識別器輸出音素x作為實際語音音素y的識別結果的概率定義為P(Ex|Ry),于是從混淆矩陣中估計得到

        在關鍵詞檢索中,替換代價和索引中音素x作為實際語音音素y的識別結果的后驗概率是相關的,即

        式(6)中的音素先驗概率同樣可以從混淆矩陣中統(tǒng)計得到

        因此,音素的替換代價被定義為在給定觀察值音素x的條件下,出現(xiàn)目標音素y的后驗概率的相關信息,即

        3 實驗配置及結果

        3.1 實驗配置

        本文實驗采用TIMIT語料庫,該語料庫是由DARPA支持贊助,MIT、SRI、TI等幾家機構共同完成的. 它包含來自美國8個不同方言區(qū)的共630人的語音文件,每人10句總共6300個語句,分為TRAIN和TEST兩個文件集合.本文實驗選擇TRAIN中3696個語句作為訓練集,選擇TEST中1344個語句作為測試集,未采用其中適合于說話人實驗的SA1和SA2中的語句.TIMIT語料庫中總共含有61個音素單元,按照BUT的劃分標準將TIMIT中61個音素映射為39個音素,如將塞音的成阻(closure)和除阻(burst)部分合并(bcl b→b),這種劃分較為精細.

        實驗采用的關鍵詞詞表規(guī)模為150個,各關鍵詞在測試集TEST中共出現(xiàn)725次,關鍵詞包含的音素數(shù)目為3~10個,平均關鍵詞的音素數(shù)目為6個.實驗使用3層的MLP,應用QuickNet工具按照經典的反向傳播算法訓練MLP.TRAP特征提取時使用了Mel域的23個頻帶(頻帶間互有交疊),時域擴展時向前向后各擴展了15幀,相當于每幀特征使用了310ms的信息.每個頻帶上的TRAP特征分割并作DCT變換后變?yōu)?1維,最終得到的LC和RC特征維數(shù)為253維,作為低層MLP的輸入特征.此外,需要音素state-level標注來訓練MLP,因此先用一個應用MFCC特征的GMM/HMM音素識別器進行強制對齊,得到state-level標注信息.每個音素均勻切分為3狀態(tài),因此低層MLP的輸出維數(shù)為117維.最后將這兩個MLP的輸出合并為234維作為高層MLP的輸入,輸出維數(shù)為117維.高低兩層MLP的隱含層神經元的數(shù)量均為500.

        3.2 評價標準

        召回率(recall)和虛警率(false alarm rate)是衡量關鍵詞檢測性能的兩項重要指標.召回率PRecall又稱查全率,表示正確的關鍵詞檢測結果數(shù)量Ncorrect占實際出現(xiàn)的關鍵詞數(shù)量Ntrue的百分比.虛警率PFA定義為虛警數(shù)目NFA被分母歸一化后的結果,本文虛警率的分母定義為語音文檔長度H與關鍵詞詞表大小S的乘積,物理含義為每個關鍵詞每小時的虛警數(shù)目,如式(11)和(12)所示.另外,本文以接收機工作特性(receiver operating characteristics,ROC)曲線和品質因數(shù)(f igure of merit,FOM)作為評價指標來綜合衡量虛警率和召回率的關系.根據(jù)NIST的定義可知,ROC曲線的橫軸為虛警率,縱軸為召回率,F(xiàn)OM定義為虛警率在0~10范圍內的平均召回率,如式(13)所示:

        3.3 M ED代價閾值對系統(tǒng)性能的影響

        MED的代價閾值δ是關鍵詞檢測的關鍵參數(shù)之一,直接影響關鍵詞檢測的性能.圖5和6分別給出了召回率PRecall和虛警率PFA隨δ的變化曲線,從圖中可以看出,隨著δ的增大,關鍵詞檢出數(shù)量增多,但虛警錯誤的數(shù)量也增加得很快.一般而言,兩個指標是互相對立的.在應用過程中,一般尋找兩者的平衡點,能使召回率與虛警率均滿足實際的需求,通常取PFA=10時接收機工作點附近的召回率作為比較.經過實驗驗證,δ最優(yōu)的取值為所有可能出現(xiàn)的替換代價的均值

        式中,Mphn為所有可能出現(xiàn)替換錯誤的音素對的總數(shù),可以通過在音素混淆矩陣中統(tǒng)計得到,Pphn為BUT的39個音素集,G(ρ)是與目標音素序列ρ的長度相關的一個偏移量.當調整最優(yōu)系統(tǒng)性能時,對于音素發(fā)音較長的關鍵詞,閾值δ可以通過G(ρ)調整設置稍大一點,即取值偏離代價均值右邊一些;對于較短的關鍵詞,閾值δ可以通過G(ρ)調整設置小一點,取值偏離代價均值左邊一些.

        圖5 不同代價閾值下的召回率曲線Figur e 5 Recall curve for different cost thresholds

        圖6 不同代價閾值下的虛警率曲線Figure 6 False alarm rate curve for different cost thresholds

        3.4 系統(tǒng)性能比較

        本文中系統(tǒng)性能對比實驗采用的是傳統(tǒng)的頻譜特征MFCC和PLP的關鍵詞檢測系統(tǒng).以MFCC特征參數(shù)為例,包括語音歸一化對數(shù)能量、12維MFCC參數(shù)及其一階、二階差分系數(shù),共計39維特征參數(shù).實驗應用HTK工具包對39個音素單元進行HMM建模,聲學模型分別采用16個高斯混元的單音子模型(monophone)和8個高斯混元的三音子模型(triphone).表1和2分別給出了各系統(tǒng)的音素識別準確率和關鍵詞檢測性能,圖7給出了相應的ROC曲線.可以看出,應用基于TRAP特征和DMLS的關鍵詞檢測方法在PFA=10的工作點附近時,召回率比基線系統(tǒng)約提升了5%,綜合指標FOM提升了0.038.系統(tǒng)性能提升的主要原因是:TRAP特征有效利用了語音信號的幀間相關性信息;MLP良好的區(qū)分性抑制了聲學特征中的冗余信息和噪聲;DMLS中的動態(tài)序列匹配技術補償了音素識別錯誤.

        表1 不同系統(tǒng)音素識別準確率的比較Table 1 Accuracy rate comparison of different phone recognition systems %

        表2 不同系統(tǒng)檢測性能的比較Table 2 Detection performance comparison of different systems

        4 結語

        圖7 不同關鍵詞檢測系統(tǒng)的ROC曲線Figure 7 ROC curves of various keyword spotting systems

        本文將TRAP特征和多層感知器引入到動態(tài)匹配詞格檢索中.實驗結果表明,TRAP特征作為一種長時性特征,能夠有效利用語音信號的幀間相關性信息.應用TRAP特征和具有良好區(qū)分能力的MLP在關鍵詞檢測的前端能夠得到更精準的Lattice,在后端則根據(jù)動態(tài)匹配補償音素識別錯誤,從而提升關鍵詞檢測的性能,相比應用傳統(tǒng)MFCC和PLP頻譜特征的基線系統(tǒng)具有一定的優(yōu)勢.下一步的研究工作是MED計算時綜合考慮音素識別的插入和刪除錯誤,更好地補償音素識別錯誤,另外可以融合基于Lattice后驗概率的置信度方法,尋求多種置信度之間的互補性,進一步提升系統(tǒng)的性能.

        [1]王炳錫,屈丹,彭煊.實用語音識別基礎[M].北京:國防工業(yè)出版社,2005:287-291.

        [2]孫成立.語音關鍵詞識別技術的研究[D].北京:北京郵電大學,2008:1-2.

        SUNChengli.A study of speech keyword recognition technology[D].Beijing:Beijing University of Posts and Telecommunications,2008:1-2.(in Chinese)

        [3]NGK,ZUEV W.Subword-based approaches for spoken document retrieval[J].Speech Communication,2000,32:157-186.

        [4]AKBACAK M,BURGET L,WANG W,VAN H J.Rich system combination for keyword spotting in noisy and acoustically heterogeneous audio streams[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2013:8267-8271.

        [5]THAMBIRATNAM K,SRIDHARAN S.Rapid yet accurate speech indexing using dynamic match lattice spotting[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(1):346-357.

        [6]HAN C,KANG S,LEE C.Phone mismatch penalty matrices for two-stage keyword spotting via multipass phone recognizer[C]//The 11th Annual Conference of the International Speech Communication Association,2010:202-205.

        [7]RAJABZADEH M,TABIBIAN S,AKBARI A.Improved dynamic match phone lattice search using viterbi scores and jaro winkler distance for keyword spotting system[C]//International Symposium on Artif icial Intelligence and Signal Processing,2012:423-427.

        [8]李文昕,屈丹,李弼程,王炳錫.語音關鍵詞檢測系統(tǒng)中基于時長和邊界信息的置信度[J].應用科學學報,2012,30(6):588-594.

        LIWenxin,QUDan,LIBicheng,WANGBingxi.Conf idence measure based on time and boundary features for speech keyword spotting system[J].Journal of Applied Sciences,2012,30(6):588-594.(in Chinese)

        [9]HERMANSKY H,SHARMA S.TRAPs-classif iers of temporal patterns[C]//International Conference on Spoken Language Processing,1998:1003-1006.

        [10]SHARMA S,ELLIS D,KAJAREKAR S,JAIN P,HERMANSKY H.Feature extraction using non-linear transformation for robust speech recognition on the aurora database[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2000:1117-1120.

        [11]SCHwARZP.Phonemerecognition based on long temporal context[D].Brno:Brno University of Technology,2008:7-40.

        [12]MATEJKA P,SCHwARZ P,CERNOCKY J.Recognition of phoneme strings using TRAP technique[C]//European Conference on Speech Communication and Technology,2003:1-4.

        [13]GREZL F,KARAFIAT M.Integrating recent MLP feature extraction techniques into TRAP architecture[C]//The 12th Annual Conference of the International Speech Communication Association,2011:1229-1232.

        [14]TUSKEZ,PLAHLC,SCHLUTERR.A study on speaker normalized MLP features in LVCSR[C]//The 12th Annual Conference of the International Speech Communication Association,2011:1089-1092.

        [15]WALLACER.Fast and accurate phonetic spoken term detection[D].Queensland:Queensland University of Technology,2010:51-90.

        [16]WANG D,KING S,FRANKEL J.Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):688-698.

        [17]LIN H,SYUPAKOV A,BILMES J.Improving multilattice alignment based spoken keyword spotting[C]//IEEE International Conference on Acoustic,Speech and Signal Processing,2009:4877-4880.

        猜你喜歡
        音素后驗檢索
        新目標英語七年級(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學生英語音素意識
        基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
        小學英語課堂中音素意識與自然拼讀整合訓練的探索
        貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
        2019年第4-6期便捷檢索目錄
        ?不定冠詞a與an
        一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
        雷達學報(2017年6期)2017-03-26 07:53:04
        專利檢索中“語義”的表現(xiàn)
        專利代理(2016年1期)2016-05-17 06:14:36
        基于貝葉斯后驗模型的局部社團發(fā)現(xiàn)
        日本高清一道本一区二区| 97人妻视频妓女网| 青青青草国产熟女大香蕉| 亚洲一区二区三区视频免费看| 在教室伦流澡到高潮hgl动漫| 国产色综合天天综合网| 91在线区啪国自产网页| 色婷婷亚洲精品综合影院| 性猛交ⅹxxx富婆视频| 国产无遮挡又黄又爽又色| a级国产精品片在线观看| 日产国产精品亚洲高清| 中国精品18videosex性中国| 亚洲不卡中文字幕无码| 久久国产A∨一二三| 东风日产车是不是国产的 | 国产偷国产偷亚洲高清视频| 国产一区二区内射最近更新 | 青青草视频网站在线观看| 国产精品www夜色视频| 五月婷一本到五月天| 免费一区二区三区av| 国产激情久久久久影院小草| 人人妻人人澡人人爽久久av| 青草青草伊人精品视频| 男女啪啪在线视频网站| 国产午夜福利久久精品| 巨大欧美黑人xxxxbbbb| 精品一区二区三区不老少妇| 91久久精品国产综合另类专区| 国产涩涩视频在线观看| 人妻精品一区二区三区视频| 亚洲一区二区三区成人网| 又色又爽又高潮免费视频国产| 在线一区不卡网址观看| 国产麻豆成人精品av| 亚洲 日本 欧美 中文幕| 天堂在线www中文| 国内精品人人妻少妇视频| 国产白浆一区二区三区性色| 色婷婷久久综合中文久久蜜桃av|