亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配的集外詞檢測(cè)

        2014-11-17 07:13:42鄭永軍張連海
        數(shù)據(jù)采集與處理 2014年2期
        關(guān)鍵詞:音素置信度字形

        鄭永軍 張連海

        (解放軍信息工程大學(xué)信息系統(tǒng)工程學(xué)院,鄭州,450001)

        引 言

        關(guān)鍵詞識(shí)別(Keyword recognition,KWR),亦稱(chēng)關(guān)鍵詞檢測(cè)(keyword spotting,KWS)[1],是指在語(yǔ)音數(shù)據(jù)中查找到所有可能出現(xiàn)的給定詞的過(guò)程。語(yǔ)音關(guān)鍵詞檢測(cè)技術(shù)被看作是能有效處理口語(yǔ)和實(shí)現(xiàn)人機(jī)智能通信的解決方案之一[2]。目前KWS面臨的一個(gè)主要挑戰(zhàn)是集外詞(Out-of-vocabulary,OOV)的檢測(cè)。集外詞是指那些不在系統(tǒng)字典里的詞。出現(xiàn)集外詞的原因是由于系統(tǒng)詞表有一個(gè)固定的大小,不能覆蓋全部的詞匯,隨著人類(lèi)語(yǔ)言的變化發(fā)展,會(huì)產(chǎn)生更多的新詞,這些詞都是集外詞,而它們也是人們關(guān)注的關(guān)鍵詞。OOV的檢測(cè)性能相比集內(nèi)詞有一定差距,主要是因?yàn)镺OV具有很高的發(fā)音不確定性和多樣性,并且發(fā)音的不確定性很難通過(guò)聲學(xué)和語(yǔ)言學(xué)模型來(lái)建模[3]。

        解決OOV檢測(cè)問(wèn)題的常用方法是應(yīng)用子詞建模單元,例如:音素、音節(jié)、字形(Grapheme)、字形音素對(duì)(Graphone)和詞片段(Word-fragment)等,首先將集外詞轉(zhuǎn)換為子詞序列,然后將這些子詞序列在先前創(chuàng)建的索引中檢索。文獻(xiàn)[4]根據(jù)聲學(xué)混淆度和語(yǔ)言模型得分將集外詞擴(kuò)展為集內(nèi)詞,彌補(bǔ)集外詞的識(shí)別錯(cuò)誤。文獻(xiàn)[5]提出了動(dòng)態(tài)匹配詞格檢索(Dynamic match lattice spotting,DMLS)方法,將基于音素Lattice的快速檢測(cè)和動(dòng)態(tài)序列匹配技術(shù)融合在一起,實(shí)現(xiàn)了快速而準(zhǔn)確的關(guān)鍵詞開(kāi)集檢測(cè)。文獻(xiàn)[6]應(yīng)用聯(lián)合最大熵N元模型進(jìn)行查詢(xún)擴(kuò)展,提升了語(yǔ)音文檔檢索的性能。文獻(xiàn)[7]采用隨機(jī)發(fā)音建模方法補(bǔ)償集外詞發(fā)音的不確定性,在索引中檢測(cè)集外詞所有可能的發(fā)音。文獻(xiàn)[8]提出了前后綴查詢(xún)擴(kuò)展方法,并引入有窮自動(dòng)機(jī)壓縮檢索空間,實(shí)現(xiàn)了高效的中文語(yǔ)音檢索。文獻(xiàn)[9-11]將多種語(yǔ)音索引系統(tǒng)融合在一起,應(yīng)用不同子詞建模單元間的互補(bǔ)性來(lái)提升集外詞檢測(cè)的性能。

        動(dòng)態(tài)匹配應(yīng)用最小編輯距離(Minimum edit distance,MED)作為置信度,在檢索時(shí)允許一定的誤匹配,替換、插入和刪除錯(cuò)誤代價(jià)通過(guò)音素混淆矩陣得到,主要應(yīng)用的是聲學(xué)信息。而查詢(xún)擴(kuò)展通常是創(chuàng)建與集外詞相關(guān)的多種發(fā)音,應(yīng)用的是字形和發(fā)音之間的對(duì)應(yīng)信息,沒(méi)有應(yīng)用聲學(xué)信息。兩者是在不同的層面補(bǔ)償集外詞發(fā)音的不確定性,理論上存在一定的互補(bǔ)性,基于此,本文將查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配融合在一起解決集外詞的檢測(cè)問(wèn)題。首先利用DMLS方法搭建一個(gè)關(guān)鍵詞檢測(cè)系統(tǒng),然后分析研究基于聯(lián)合多元模型(Joint-multigram model,JMM)[12-13]的查詢(xún)擴(kuò)展和基于 MED 的動(dòng)態(tài)匹配,最后將查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配融合在一起,采用了兩種融合方法,一種是結(jié)果融合,另一種是置信度融合。實(shí)驗(yàn)結(jié)果表明二者的融合提升了系統(tǒng)性能。

        1 基于DMLS的關(guān)鍵詞檢測(cè)系統(tǒng)

        基于DMLS的關(guān)鍵詞檢測(cè)系統(tǒng)框架如圖1所示。

        圖1 基于DMLS的關(guān)鍵詞檢測(cè)系統(tǒng)框架Fig.1 Architecture of keyword spotting system based on DMLS

        索引階段首先采用BUT的連續(xù)語(yǔ)音識(shí)別系統(tǒng)[14]生成音素Lattice,音素Lattice提供了每個(gè)語(yǔ)音片段詳細(xì)的音素表示形式,然后執(zhí)行一個(gè)改進(jìn)的維特比算法遍歷Lattice來(lái)創(chuàng)建一個(gè)固定長(zhǎng)度的音素序列數(shù)據(jù)庫(kù)(Sequence database,SDB),作為后續(xù)檢索操作的索引。后端檢索階段為研究的重點(diǎn),本文主要研究集外詞的檢測(cè)。當(dāng)一個(gè)集外詞查詢(xún)項(xiàng)提交給系統(tǒng)時(shí),首先應(yīng)用聯(lián)合多元模型將集外詞擴(kuò)展為n-best發(fā)音的表示形式,并得到其發(fā)音的概率得分。其次,采用基于最小編輯距離的動(dòng)態(tài)匹配確定與查詢(xún)項(xiàng)發(fā)音近似匹配的音素序列。最后根據(jù)查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配的不同融合方法得到檢測(cè)結(jié)果。

        2 融合查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配的改進(jìn)

        2.1 基于JMM的查詢(xún)擴(kuò)展

        一個(gè) LTS(Letter-to-sound)模型通常被定義為字形G=(g1,g2,…,gL)和發(fā)音Q=(q1,q2,…,qR)兩個(gè)符號(hào)序列之間的隨機(jī)映射。字形和發(fā)音是在同樣的社會(huì)背景下發(fā)展起來(lái)的兩個(gè)系統(tǒng),兩者之間具有緊密的聯(lián)系,遵循不同的規(guī)則。字形和發(fā)音間的對(duì)應(yīng)關(guān)系定義為字形和發(fā)音序列間的映射,其分量被稱(chēng)為字音對(duì)(Grapheme-phoneme pair)。最簡(jiǎn)單的映射為一個(gè)音素對(duì)應(yīng)一個(gè)字形,如果字形和發(fā)音長(zhǎng)度不同,可以插入空字符,此外多對(duì)多的映射也是合理的,例如圖2給出了詞“speaking”的字形和發(fā)音的對(duì)應(yīng)關(guān)系。

        圖2 詞“speaking”的字形和發(fā)音對(duì)應(yīng)關(guān)系Fig.2 Grapheme-phoneme correspondence of the word"speaking"

        JMM的基本思想是對(duì)字形和發(fā)音的聯(lián)合概率進(jìn)行建模。多元Multigram是一個(gè)符號(hào)序列,長(zhǎng)度可以為0,1或是更長(zhǎng)。一個(gè)字音對(duì)包含一個(gè)字形多元和一個(gè)音素多元,因此也被稱(chēng)為聯(lián)合多元。按照文獻(xiàn)[12]的定義,一個(gè)聯(lián)合多元u=被稱(chēng)為graphone,其中為字形分量,為音素分量。字形和發(fā)音的對(duì)應(yīng)關(guān)系用U表示,實(shí)際為一個(gè)graphone序列,表示為

        式中H為graphone的長(zhǎng)度和要滿(mǎn)足如下約束

        式中:符號(hào)∧表示連接;L和R分別為字形和音素序列的長(zhǎng)度和包含長(zhǎng)度可變的符號(hào)。字形和發(fā)音的映射可以用graphone來(lái)描述。為了描述字形發(fā)音映射的隨機(jī)屬性,可以對(duì)U的概率分布進(jìn)行建模,即聯(lián)合多元模型,通常表示為

        在JMM中,字形G和發(fā)音Q的聯(lián)合概率為所有可能graphone序列的概率總和,表示為

        式中G(U)和Q(U)分別為對(duì)應(yīng)于U的字形和音素序列。那么發(fā)音預(yù)測(cè)公式為

        式中P(U)可以應(yīng)用標(biāo)準(zhǔn)的n元語(yǔ)言模型建模,得到

        本文應(yīng)用工具包Sequitur G2P[15]訓(xùn)練JMM模型,n-best發(fā)音預(yù)測(cè)解碼算法詳見(jiàn)文獻(xiàn)[12]。應(yīng)用JMM模型可以將集外詞查詢(xún)項(xiàng)term擴(kuò)展為其n-best發(fā)音的表示形式(Q1,P(Q1|G)),…,(Qn,P(Qn|G)),Qi為一個(gè)發(fā)音,P(Qi|G)為其相應(yīng)的發(fā)音得分,代表這一發(fā)音的概率。以詞“bungalow”的查詢(xún)擴(kuò)展為例,如表1所示。每一個(gè)發(fā)音Qi的置信度可以用其發(fā)音得分的對(duì)數(shù)表示,如式(7)所示。在集外詞檢測(cè)時(shí),如果在索引中同一時(shí)段內(nèi)檢測(cè)到查詢(xún)項(xiàng)term的多個(gè)發(fā)音時(shí),將檢測(cè)結(jié)果合并并分配最大的發(fā)音得分置信度,如式(8)所示。

        表1 詞“bungalow”的查詢(xún)擴(kuò)展Table 1 Query expansion of the word″bungalow″

        2.2 基于MED的動(dòng)態(tài)匹配

        在語(yǔ)音識(shí)別中,經(jīng)常會(huì)出現(xiàn)替換、插入和刪除錯(cuò)誤(見(jiàn)圖3),并且集外詞出現(xiàn)識(shí)別錯(cuò)誤的概率更高,這嚴(yán)重影響關(guān)鍵詞檢測(cè)的性能。因此在檢索中采用動(dòng)態(tài)匹配,應(yīng)用最小編輯距離作為置信度,允許一定的誤匹配來(lái)補(bǔ)償識(shí)別錯(cuò)誤。

        最小編輯距離又稱(chēng)為L(zhǎng)evenshtein距離,主要用于度量將一個(gè)字符串轉(zhuǎn)換為另外一個(gè)字符串所付出的最小代價(jià)。這種轉(zhuǎn)換主要包含4種編輯操作:匹配、替換、插入和刪除,通常每種編輯操作都會(huì)有相應(yīng)的代價(jià)。本文應(yīng)用MED檢測(cè)和查詢(xún)項(xiàng)term的發(fā)音Q(目標(biāo)音素序列)近似匹配的索引音素序列。MED計(jì)算的核心思想是應(yīng)用一個(gè)代價(jià)矩陣來(lái)累加轉(zhuǎn)換代價(jià),執(zhí)行一個(gè)遞推過(guò)程來(lái)更新代價(jià)矩陣的各個(gè)元素,從而確定整體的最小轉(zhuǎn)換代價(jià)。定義Φ=(φ1,φ2,…,φN)為索引音素序列,Q=(q1,q2,…,qM)為目標(biāo)音素序列,ΩN+1×M+1為N+1×M+1維的代價(jià)矩陣,Cs(φi,qj),Ci(φi)和Cd(qj)分別為替換、插入和刪除代價(jià)Ωi,j為代價(jià)矩陣Ω中的元素,表示將子序列變換為的最小代價(jià)。具體流程如下:

        (1)初始化一個(gè)N+1×M+1維的代價(jià)矩陣Ω,矩陣的第一個(gè)元素Ω0,0=0;

        (2)初始化代價(jià)矩陣的第一行元素

        (3)初始化代價(jià)矩陣的第一列元素

        (4)從左到右從上到下依次更新代價(jià)矩陣的元素

        圖3 語(yǔ)音識(shí)別常見(jiàn)錯(cuò)誤Fig.3 Common errors in speech recognition

        ΩN,M即為將Φ轉(zhuǎn)換為Q的最小代價(jià),通常情況下N≥M,所以還要執(zhí)行一個(gè)回溯算法尋找最優(yōu)路徑,并在最優(yōu)路徑上確定和Q最為近似的音素子序列Φ′,得到時(shí)間邊界信息和最小編輯距離Δ(Φ′,Q)。在DMLS中,某一檢測(cè)結(jié)果的置信度得分被簡(jiǎn)單定義為索引音素子序列Φ′和目標(biāo)音素序列Q之間距離的負(fù)值,如式(12)所示。如果CMED(Φ′,Q)在設(shè)定的閾值范圍之內(nèi),那么Φ′就為檢測(cè)結(jié)果。

        在MED的原始定義中,替換、插入和刪除的代價(jià)通常為1,不能完全反映各個(gè)音素之間識(shí)別錯(cuò)誤的規(guī)律和模糊發(fā)音現(xiàn)象。因此可以通過(guò)觀察音素識(shí)別器實(shí)際產(chǎn)生的音素錯(cuò)誤訓(xùn)練得到改進(jìn)的替換、插入和刪除錯(cuò)誤代價(jià)[16]。HTK工具包中的HResults被用于對(duì)齊訓(xùn)練集音素識(shí)別結(jié)果和參考的音素標(biāo)注,生成一個(gè)音素混淆矩陣。替換、插入和刪除錯(cuò)誤代價(jià)可以通過(guò)最大似然估計(jì)從音素混淆矩陣中訓(xùn)練得到。應(yīng)用音素混淆度加權(quán)的MED可以更好地補(bǔ)償音素識(shí)別錯(cuò)誤,從而改善關(guān)鍵詞檢測(cè)的準(zhǔn)確性。

        2.3 融合查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配

        由上文可知,查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配是在不同的層面補(bǔ)償集外詞發(fā)音的不確定性,理論上存在一定的互補(bǔ)性,可以將二者融合在一起進(jìn)行集外詞的檢測(cè)。本文研究了兩種融合方法,第一種是結(jié)果融合(如圖4所示)。分別應(yīng)用查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配并行的檢測(cè)集外詞。查詢(xún)擴(kuò)展:應(yīng)用JMM將集外詞查詢(xún)項(xiàng)term擴(kuò)展為n-best發(fā)音Qi,1≤i≤n,然后將這些發(fā)音在索引中進(jìn)行精確匹配,得到檢測(cè)結(jié)果。動(dòng)態(tài)匹配:同樣是應(yīng)用JMM得到term的1-best發(fā)音Q1-best,然后在索引中采用動(dòng)態(tài)匹配,檢索和Q1-best近似的結(jié)果。最后將兩個(gè)系統(tǒng)在索引中的同一時(shí)間段內(nèi)出現(xiàn)的檢測(cè)結(jié)果合并,并分配最大的置信度得分(如式(13)),同時(shí)保留不同的檢測(cè)結(jié)果。

        另外一種方法是置信度融合,最小編輯距離衡量的是查詢(xún)項(xiàng)發(fā)音(目標(biāo)音素序列)和索引音素序列間的相似度,而發(fā)音得分描述的是發(fā)音和字形之間的對(duì)應(yīng)關(guān)系,兩種置信度都是和發(fā)音相關(guān)的,且在同一個(gè)數(shù)量級(jí)上,可以將MED和發(fā)音得分融合構(gòu)成混合置信度進(jìn)行集外詞的檢出和確認(rèn),如式(14)所示。

        圖4 查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配的結(jié)果融合Fig.4 Result fusion between query expansion and dynamic match

        式中η為加權(quán)因子,平衡MED和發(fā)音得分兩種置信度的貢獻(xiàn)度。在實(shí)際檢測(cè)中,同一個(gè)查詢(xún)項(xiàng)term的多個(gè)發(fā)音可能會(huì)出現(xiàn)在索引中的同一時(shí)間段內(nèi),需要合并檢測(cè)結(jié)果并分配最大的置信度得分,如式(15)所示。實(shí)驗(yàn)表明置信度融合的方法更好,有效提升了系統(tǒng)的性能。

        2.4 算法步驟

        (1)采用連續(xù)語(yǔ)音識(shí)別系統(tǒng)生成音素Lattice;

        (2)執(zhí)行一個(gè)改進(jìn)的維特比算法遍歷Lattice來(lái)創(chuàng)建索引;

        (3)應(yīng)用發(fā)音字典CMUdict訓(xùn)練JMM模型;

        (4)應(yīng)用JMM模型將集外詞查詢(xún)項(xiàng)擴(kuò)展為其n-best音素發(fā)音;

        (5)應(yīng)用兩種不同的融合方法在索引中檢索關(guān)鍵詞,并根據(jù)置信度閾值輸出檢測(cè)結(jié)果。

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 實(shí)驗(yàn)配置

        本文實(shí)驗(yàn)采用TIMIT語(yǔ)料庫(kù),主要分為T(mén)RAIN和TEST兩個(gè)文件集合。本文實(shí)驗(yàn)選擇TRAIN中3 696個(gè)語(yǔ)句作為訓(xùn)練集,選擇TEST中1 344個(gè)語(yǔ)句作為測(cè)試集,未采用其中適合于說(shuō)話人實(shí)驗(yàn)的SA1和SA2中的語(yǔ)句。TIMIT語(yǔ)料庫(kù)中共含有61個(gè)音素單元,其劃分較為精細(xì),按照BUT的劃分標(biāo)準(zhǔn),將TIMIT中61個(gè)音素映射為39個(gè)音素,如將塞音的成阻(Closure)和除阻(Burst)部分合并(bcl b→b)。實(shí)驗(yàn)選取的集外詞規(guī)模為100個(gè),各關(guān)鍵詞在測(cè)試集TEST中出現(xiàn)的次數(shù)總共為344次。訓(xùn)練JMM模型應(yīng)用的是卡耐基梅隆大學(xué)的英文發(fā)音字典CMUdict,該字典共包含125 000個(gè)英文單詞,訓(xùn)練時(shí)剔除了1 832個(gè)和實(shí)驗(yàn)選取的集外詞相關(guān)的單詞。

        3.2 評(píng)價(jià)標(biāo)準(zhǔn)

        本文采用接收機(jī)工作特性(Receiver operating characteristics,ROC)曲線和品質(zhì)因數(shù)(Figure of merit,F(xiàn)OM)[17]作為系統(tǒng)性能的評(píng)價(jià)指標(biāo)。ROC曲線定義為不同的置信度閾值下,系統(tǒng)的召回率PRecall隨虛警率PFA的變化趨勢(shì),反映了系統(tǒng)的綜合性能。召回率PRecall為正確的關(guān)鍵詞檢測(cè)結(jié)果數(shù)量Ncorrect占實(shí)際出現(xiàn)的關(guān)鍵詞數(shù)量Ntrue的百分比。虛警率PFA定義為虛警個(gè)數(shù)NFA被分母歸一化后的結(jié)果,H為語(yǔ)音文檔長(zhǎng)度,S為關(guān)鍵詞詞表大小,如式(16,17)所示。FOM定義為虛警率在0~10范圍內(nèi)的平均召回率,如式(18)所示。

        3.3 系統(tǒng)性能比較

        將基于JMM查詢(xún)擴(kuò)展的檢測(cè)方法記為CJMM,基于動(dòng)態(tài)匹配的檢測(cè)方法記為CMED,第一種融合查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配的檢測(cè)方法記為CMED+JMM,第二種融合方法記為Cfusion。表2對(duì)比了不同系統(tǒng)集外詞檢測(cè)的性能,圖5給出了相應(yīng)的ROC曲線。從圖中可以看出CMED方法優(yōu)于CJMM方法,主要是由于動(dòng)態(tài)匹配在檢索中綜合考慮了音素識(shí)別的錯(cuò)誤規(guī)律,能夠更好地補(bǔ)償集外詞的不確定性。同時(shí),兩種方法又是在不同的層面補(bǔ)償集外詞發(fā)音的不確定性,理論上存在一定的互補(bǔ)性,實(shí)驗(yàn)結(jié)果也驗(yàn)證了這一點(diǎn)。第一種融合方法相比單一的動(dòng)態(tài)匹配,F(xiàn)OM相對(duì)提升了3.9%,說(shuō)明直接將兩種方法的檢測(cè)結(jié)果融合具有一定的互補(bǔ)性,但性能提升有限,需要進(jìn)一步進(jìn)行優(yōu)化融合方法。

        在第二種融合方法中,查詢(xún)擴(kuò)展的階數(shù)n和加權(quán)因子η共同決定系統(tǒng)的最終性能。表3給出了Cfusion方法在不同擴(kuò)展階數(shù)n和加權(quán)因子η下系統(tǒng)的性能。當(dāng)查詢(xún)擴(kuò)展為2-best發(fā)音,加權(quán)因子η=0.7時(shí),F(xiàn)OM相對(duì)提升了19.8%,具有最優(yōu)的系統(tǒng)性能。這說(shuō)明在優(yōu)化了擴(kuò)展階數(shù)和置信度得分貢獻(xiàn)度后,第二種融合方法效果更好。另外,分析表3的實(shí)驗(yàn)結(jié)果可知在動(dòng)態(tài)匹配中已經(jīng)允許一定的誤匹配存在,如果查詢(xún)擴(kuò)展階數(shù)較大,虛警率將急劇增加,影響整體性能,當(dāng)擴(kuò)展為3-best發(fā)音時(shí),F(xiàn)OM下降已經(jīng)非常明顯。

        表2 不同系統(tǒng)集外詞檢測(cè)性能的比較Table 2 Comparison of OOV detection performance in different systems

        表3 Cfusion方法在不同參數(shù)下的FOMTable 3 FOM of Cfusionmethod using different parameters

        4 結(jié)束語(yǔ)

        圖5 不同集外詞檢測(cè)系統(tǒng)的ROC曲線Fig.5 ROC curves of various OOV detection systems

        針對(duì)關(guān)鍵詞檢測(cè)中集外詞檢測(cè)性能較低的問(wèn)題,本文提出了一種改進(jìn)的集外詞檢測(cè)方法,將基于聯(lián)合多元模型的查詢(xún)擴(kuò)展和基于最小編輯距離的動(dòng)態(tài)匹配融合在一起。本文研究了兩種融合方法:第一種方法是直接將兩者的檢測(cè)結(jié)果進(jìn)行融合,性能有一定提升;第二種方法通過(guò)引入一個(gè)加權(quán)因子η來(lái)優(yōu)化平衡最小編輯距離和發(fā)音得分置信度的貢獻(xiàn)度。實(shí)驗(yàn)結(jié)果表明,在擴(kuò)展為2-best發(fā)音,加權(quán)因子η=0.7時(shí),查詢(xún)擴(kuò)展和動(dòng)態(tài)匹配具有最優(yōu)的互補(bǔ)性,F(xiàn)OM相對(duì)提高了19.8%。下一步的工作重點(diǎn)是研究混合索引問(wèn)題,提升系統(tǒng)的實(shí)用性。

        [1]王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005:287-291.Wang Bingxi,Qu Dan,Peng Xuan.Practical fundamentals of speech recognition[M].Beijing:National Defense Industry Press,2005:287-291.

        [2]孫成立.語(yǔ)音關(guān)鍵詞識(shí)別技術(shù)的研究[D].北京:北京郵電大學(xué),2008:1-2.Sun Chengli.A study of speech keyword recognition technology[D].Beijing:Beijing University of Posts and Telecommunications,2008:1-2.

        [3]Wang Dong.Out-of-vocabulary spoken term detection[D].Edinburgh:School of Informatics,University of Edinburgh,2010:9-13.

        [4]Logan B,Thong J M V.Confusion-based query expansion for OOV words in spoken document retrieval[C]//The 7th International Conference on Spoken Language Processing.Colorado,USA:ISCA,2002:1997-2000.

        [5]Thambiratmann K,Sridharan S.Rapid yet accurate speech indexing using dynamic match lattice spotting[J].IEEE Transactions on Audio,Speech,and Language Processing,2007,15(1):346-357.

        [6]Mamou J,Ramabhadran B.Phonetic query expansion for spoken document retrieval[C]//The 9th Annual Conference of the International Speech Communication Association.Brisbane,Australia:ISCA,2008:2106-2109.

        [7]Wang Dong,King S,F(xiàn)rankel J.Stochastic pronunciation modeling for out-of-vocabulary spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):688-698.

        [8]李偉,吳及,呂萍.基于查詢(xún)擴(kuò)展的中文語(yǔ)音高效檢索[J].模式識(shí)別與人工智能,2011,24(4):561-566.Li Wei,Wu Ji,LüPing.Query expansion based high performance Chinese voice retrieval[J].Pattern Recognition and Artificial Intelligence,2011,24(4):561-566.

        [9]Qin Long,Sun Ming,Rudnicky A.System combination for out-of-vocabulary word detection[C]//IEEE International Conference on Acoustic,Speech and Signal Processing.Kyoto,Japan:IEEE,2012:4817-4820.

        [10]Xu Yong,Guo Wu,Dai Lirong.A hybrid fragment/syllable-based system for improved OOV term detection[C]//The 8th International Symposium on Chinese Spoken Language Processing.Hong Kong,China:[s.n.],2012:378-382.

        [11]Kanda N,Itoyama K,Okuno H G.Multiple index combination for Japanese spoken term detection with optimum index selection based on OOV-region classifier[C]//IEEE International Conference on Acoustic,Speech and Signal Processing.Vancouver,Canada:IEEE,2013:8540-8544.

        [12]Bisani M,Ney H.Joint-sequence models for grapheme-to-phoneme conversion[J].Speech Communication,2008,50(5):434-451.

        [13]Jouvet D,F(xiàn)ohr D,Illina I.Evaluating grapheme-tophoneme converters in automatic speech recognition context[C]//IEEE International Conference on A-coustic,Speech and Signal Processing.Kyoto,Japan:IEEE,2012:4821-4824.

        [14]Grezl F,Karafiat M.Integrating recent MLP feature extraction techniques into TRAP architecture[C]//The 12th Annual Conference of the International Speech Communication Association.Florence,Italy:ISCA,2011:1229-1232.

        [15]Hahn S,Lehnen P,Wiesler S,et al.Improving LVCSR with hidden conditional random fields for grapheme-to-phoneme conversion[C]//The 14th Annual Conference of the International Speech Communication Association.Lyon,F(xiàn)rance:ISCA,2013:495-499.

        [16]Wallace R.Fast and accurate phonetic spoken term detection[D].Queensland:Queensland University of Technology,2010:51-90.

        [17]Wallace R,Baker B,Vogt R,et al.Discriminative optimization of the figure of merit for phonetic spoken term detection[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(6):1677-1687.

        猜你喜歡
        音素置信度字形
        新目標(biāo)英語(yǔ)七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        依托繪本課程,培養(yǎng)學(xué)生英語(yǔ)音素意識(shí)
        小學(xué)英語(yǔ)課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        甲骨文“黍”字形義考
        甲骨文中的字形直立化二則
        ?不定冠詞a與an
        正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
        復(fù)習(xí)生字字形的方法
        添一筆變個(gè)字
        亚洲 都市 校园 激情 另类| 国产在线无码一区二区三区视频| 国产精品美女久久久久av超清 | 亚洲最大中文字幕在线| 国产超碰人人爽人人做人人添| 亚洲男人av香蕉爽爽爽爽| 欧洲一级无码AV毛片免费| 亚洲女同av在线观看| 三a级做爰片免费观看| 亚洲色偷偷色噜噜狠狠99| 人妻丰满熟妇av一区二区| 中美日韩在线一区黄色大片| 亚洲av无码乱码国产精品| 在线观看欧美精品| 中文字幕中文一区中文字幕| 久久精品av在线观看| 日本精品αv中文字幕| 国产精品成人午夜久久| 亚洲一区二区三区资源| 日本少妇高潮喷水视频| 日韩无套内射视频6| 成年视频网站在线观看777| 蜜桃视频一区二区三区四| 天天狠天天添日日拍| 久久AV中文一区二区三区| 精品国产三级国产av| 大地资源网在线观看免费官网 | 国产自拍精品一区在线观看| 国产农村乱子伦精品视频| 久久尤物av天堂日日综合| 国产av天堂一区二区二区| 夫妇交换性三中文字幕 | 久久综合国产乱子伦精品免费| 欧洲亚洲视频免费| 亚洲一区二区三区精品久久av | 无码人妻精品丰满熟妇区| 国产高清a| 九七青青草视频在线观看| 免费无码a片一区二三区| 国产午夜亚洲精品不卡福利| 国产麻豆国精精品久久毛片|