亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Viterbi 解碼技術(shù)的智能語(yǔ)音交互算法研究

        2021-06-14 13:02:30黃小奇陳光文許卓偉方志丹
        電子設(shè)計(jì)工程 2021年10期
        關(guān)鍵詞:信號(hào)檢測(cè)模型

        黃小奇,范 晟,陳光文,許卓偉,彭 鍇,方志丹,王 爍

        (廣東電網(wǎng)有限責(zé)任公司汕頭供電局,廣東汕頭 515000)

        語(yǔ)音交互作為最方便、易學(xué)的人機(jī)交互方式,已開(kāi)始嘗試應(yīng)用于智能家居、車載系統(tǒng)、智能手機(jī)等電子產(chǎn)品領(lǐng)域[1-2]。然而,語(yǔ)音交互技術(shù)的真正成熟應(yīng)用還需克服眾多困難,尤其是在語(yǔ)音識(shí)別上。如實(shí)用與訓(xùn)練環(huán)境通常存在巨大的差異,導(dǎo)致實(shí)際使用過(guò)程中語(yǔ)音識(shí)別率較低;或者語(yǔ)用層、聲學(xué)層和語(yǔ)言層的語(yǔ)音識(shí)別能力與人類相比仍有較大差距;亦或是人類通常在交流中存在笑聲、咳嗽、哭泣等非正常語(yǔ)音現(xiàn)象與重復(fù)、停頓等不規(guī)則語(yǔ)言現(xiàn)象,導(dǎo)致語(yǔ)音識(shí)別誤差較大[3-5]。因此,如何使用合適的語(yǔ)音交互算法準(zhǔn)確識(shí)別實(shí)際環(huán)境下人類的語(yǔ)言,是提高語(yǔ)音識(shí)別率的關(guān)鍵。

        實(shí)際上,在人類交流的過(guò)程中,通常只需要通過(guò)幾個(gè)關(guān)鍵詞就可以正確推斷出談話的核心內(nèi)容,而不需要對(duì)連續(xù)語(yǔ)音進(jìn)行辨析與識(shí)別,這為語(yǔ)音識(shí)別提供了思路[6-7]。目前,基于語(yǔ)音關(guān)鍵詞的識(shí)別過(guò)程主要有基于垃圾模型、基于音素與音節(jié)識(shí)別、基于連續(xù)語(yǔ)音識(shí)別共3 類關(guān)鍵詞識(shí)別結(jié)構(gòu)[8]。3 類識(shí)別結(jié)構(gòu)有各自的優(yōu)勢(shì)和弊端,因此,文中將音素、音節(jié)與連續(xù)語(yǔ)音識(shí)別相結(jié)合,將后者結(jié)構(gòu)中的網(wǎng)格(詞網(wǎng)格)用音素、音節(jié)的網(wǎng)格進(jìn)行替代。基于核心的Viterbi 搜索解碼技術(shù),結(jié)合前端處理、聲學(xué)與語(yǔ)言模型,設(shè)計(jì)了面向漢字的智能語(yǔ)音交互算法。該算法主要側(cè)重于語(yǔ)音識(shí)別的關(guān)鍵詞檢測(cè),并在交互平臺(tái)上進(jìn)行整合測(cè)試。測(cè)試結(jié)果表明,該算法具有一定的實(shí)用價(jià)值。

        1 語(yǔ)音識(shí)別系統(tǒng)架構(gòu)

        語(yǔ)音識(shí)別系統(tǒng)通常包括語(yǔ)音輸入、信號(hào)處理、信號(hào)解碼以及文本輸出4大部分,如圖1所示。

        圖1 語(yǔ)音識(shí)別過(guò)程框架示意圖

        語(yǔ)音輸入主要是通過(guò)麥克風(fēng)采集原始的語(yǔ)音信號(hào),通過(guò)語(yǔ)音信號(hào)處理提取語(yǔ)音的特征,然后使用聲學(xué)、語(yǔ)言模型進(jìn)一步進(jìn)行建模處理、概率計(jì)算和結(jié)果輸出[9-10]。

        1.1 語(yǔ)音信號(hào)處理

        語(yǔ)音信號(hào)處理主要用于加工實(shí)際音頻信號(hào),去除次要部分,從而提高后續(xù)處理的質(zhì)量與效率[11]。首先,采用端點(diǎn)檢測(cè)來(lái)確定收集到的實(shí)際語(yǔ)音有效信號(hào)的頭尾,即排除靜音段和頭尾部無(wú)用段,以此降低誤判的可能,從而提高語(yǔ)音識(shí)別的性能。由于短時(shí)平均過(guò)零率Zn與短時(shí)能量En通常是語(yǔ)音信號(hào)的時(shí)域特征,所以文中選用上述時(shí)域特征的結(jié)合算法,對(duì)原始語(yǔ)音信號(hào)的端點(diǎn)進(jìn)行檢測(cè)。

        然后采用預(yù)加重提高語(yǔ)音信號(hào)的高頻部分。由于音頻信號(hào)的高頻部分能量少,直接傳輸會(huì)造成音頻信號(hào)高頻傳輸衰弱,因而需要預(yù)加重來(lái)提高音頻的高頻部分,從而彌補(bǔ)口唇輻射與聲門激勵(lì)的倍頻跌落影響(6 dB/倍頻),得到較為平坦的語(yǔ)音信號(hào)頻譜。采用一階高通濾波傳遞函數(shù):

        其中,a為預(yù)加重系數(shù),且0.9<a<1.0。

        聲學(xué)特征參數(shù)如能量、頻率等主要用于描述語(yǔ)音信號(hào)的特性及變化情況,通常為隨時(shí)間變化的函數(shù)。提取聲學(xué)特征參數(shù)主要有基于線性預(yù)估系數(shù)轉(zhuǎn)換的倒頻譜、感知線性預(yù)測(cè)和梅爾頻率倒譜參數(shù),也是文中選用動(dòng)態(tài)幀長(zhǎng)分析法提取的參數(shù)(24 維,由1 階差分與前12 階參數(shù)構(gòu)成)[12]。

        1.2 聲學(xué)模型

        聲學(xué)模型主要有:1)HMM 隱馬爾科夫模型,即統(tǒng)計(jì)模型,表現(xiàn)出雙重隨機(jī)過(guò)程,可用于描述非平穩(wěn)信號(hào)中出現(xiàn)的短時(shí)平穩(wěn)段和短時(shí)平穩(wěn)段之間的動(dòng)態(tài)特性;2)GMM 混合高斯模型,為常用的統(tǒng)計(jì)模型,由K個(gè)單高斯模型分量線性相加構(gòu)成;3)SGMM 子空間混合高斯模型。

        1.3 語(yǔ)言模型

        語(yǔ)言模型用于對(duì)自然語(yǔ)言的結(jié)構(gòu)和統(tǒng)計(jì)中存在的內(nèi)在規(guī)律進(jìn)行描述,在連續(xù)語(yǔ)音識(shí)別中尤其是在大詞匯的情況下發(fā)揮著重要作用。該模型對(duì)候選序列能夠起到聲學(xué)特征的輔助決策作用,這在很大程度上能夠降低搜索空間,從而提高搜索效率。語(yǔ)言模型主要分為基于文法(根據(jù)文法規(guī)則建立,包括正則文法與上下文無(wú)關(guān)文法)或基于統(tǒng)計(jì)(對(duì)文本資料中詞匯的出現(xiàn)概率進(jìn)行統(tǒng)計(jì),通常與聲學(xué)模型相結(jié)合,從而有效提高識(shí)別準(zhǔn)確率)的語(yǔ)言模型[13]。文中選用的是基于統(tǒng)計(jì)的語(yǔ)言模型,具體為N-gram 語(yǔ)言模型。

        1.4 Viterbi搜索解碼

        搜索解碼主要用于在搜索空間中找到最佳的匹配結(jié)果,是語(yǔ)音交互算法的核心所在。

        搜索解碼主要有Viterbi 和A*算法,文中選用Viterbi 搜索解碼算法設(shè)計(jì)智能語(yǔ)音交互算法[14],其具有典型的動(dòng)態(tài)規(guī)劃特性,能夠?qū)τ^察序列(長(zhǎng)度為T)的最佳狀態(tài)序列進(jìn)行搜索與查找。此外,該算法實(shí)質(zhì)上為遞歸算法,其最優(yōu)解不會(huì)丟失,并可以較好地規(guī)避最優(yōu)狀態(tài)序列與聲學(xué)觀測(cè)序列間常出現(xiàn)的時(shí)間對(duì)準(zhǔn)問(wèn)題。圖2 為Viterbi 搜索解碼算法的一般過(guò)程示意圖。

        圖2 Viterbi搜索解碼算法的一般過(guò)程示意圖

        其步驟可描述為:對(duì)狀態(tài)1 進(jìn)行初始化,如式(2)所示;遞歸,得到式(3)、(4);對(duì)最佳狀態(tài)進(jìn)行搜索,得到式(5),S*與P*分別代表最佳狀態(tài)序列和最佳分?jǐn)?shù);回溯路徑如式(6)所示。

        在語(yǔ)音識(shí)別過(guò)程中多次使用了搜索策略,通過(guò)知識(shí)源、語(yǔ)言/聲學(xué)模型的高效循環(huán)使用,提高語(yǔ)音識(shí)別率。通常多次搜索的中間結(jié)果形式為L(zhǎng)attice 網(wǎng)格、N-Best 列表及混淆網(wǎng)絡(luò)[15-16]。

        2 語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)

        圖3 為文中語(yǔ)音識(shí)別過(guò)程的框架示意圖。將采集到的語(yǔ)音輸入到連續(xù)語(yǔ)音識(shí)別器中,產(chǎn)生Lattice網(wǎng)格或N-Best 詞格(存儲(chǔ)為文本格式),借助關(guān)鍵詞搜索器(基于關(guān)鍵詞搜索算法)輸出候選關(guān)鍵詞。再經(jīng)置信度和關(guān)鍵詞確認(rèn),輸出關(guān)鍵詞。

        圖3 語(yǔ)音識(shí)別過(guò)程的框架示意圖

        2.1 解碼器設(shè)計(jì)

        根據(jù)式(1),在預(yù)處理過(guò)程中將預(yù)加重系數(shù)選取為0.95;借助漢明窗進(jìn)一步進(jìn)行分幀處理(每幀定為20 s,幀移定為15 ms),從而得到上述3 種聲學(xué)特征參數(shù)。

        在預(yù)處理結(jié)束后的聲學(xué)模型訓(xùn)練中,文中選用HMM-SGMM-UBM 模型作為聲學(xué)模型對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行訓(xùn)練。由于其算法面向的是大詞匯量的漢語(yǔ),因此選取聲韻母基元作為基本的語(yǔ)音基元。

        在語(yǔ)音模型的訓(xùn)練中,文中選用清華大學(xué)漢語(yǔ)庫(kù)中的基于詞的三元語(yǔ)音模型。該語(yǔ)音模型具備48 k 個(gè)字,總共包括772 000 句,總字?jǐn)?shù)為1.15 億,總詞量為1 800 萬(wàn),由SRILM 工具訓(xùn)練得到。

        在最佳路徑搜索中,文中利用Viterbi Beam 搜索解碼算法得到音節(jié)與詞網(wǎng)格。Viterbi Beam 算法能夠按照一定的規(guī)則裁剪路徑,使得搜索計(jì)算量大幅度減少,從而避免經(jīng)典的Viterbi 搜索解碼算法由于考慮所有路徑而造成的計(jì)算量巨大的問(wèn)題。其搜索步驟依次為:

        1)路徑初始化;

        2)遞推過(guò)程,為嵌套循環(huán):

        3)終止并確定路徑。

        值得注意的是,裁剪路徑會(huì)根據(jù)實(shí)時(shí)情況忽略得分較低或可能性較低的路徑,其標(biāo)準(zhǔn)為各路徑與最優(yōu)路徑的得分差是否大于設(shè)定閾值。

        2.2 Lattice網(wǎng)格確定

        Lattice 網(wǎng)格由式(7)進(jìn)行定義,其各邊對(duì)應(yīng)音節(jié)或詞候選,包含了語(yǔ)言學(xué)與聲學(xué)信息,如圖4 所示(以語(yǔ)句“上海的工人師傅克服困難”為例)。

        圖4 詞Lattice網(wǎng)格結(jié)構(gòu)圖

        其中,P與S分別代表了全部節(jié)點(diǎn)和有向邊的集合;pstart與pend分別代表了唯一起始和結(jié)束節(jié)點(diǎn)。

        每一條邊又可用式(8)進(jìn)行表示:

        其中,S(a)、E[a]分別代表了邊a的起始與結(jié)束節(jié)點(diǎn);I(a)為候選標(biāo)識(shí);lk(a)為權(quán)重。由語(yǔ)言模型得分(lm[a])和聲學(xué)模型得分acc[a]加上權(quán)重系數(shù)λtm(λtm>0)計(jì)算得到[17-18],如式(9)所示。

        2.3 關(guān)鍵詞搜索設(shè)計(jì)

        由于令牌傳遞算法具有查找關(guān)鍵詞效率高、計(jì)算存儲(chǔ)空間要求低的特點(diǎn),文中選用該算法作為語(yǔ)音識(shí)別的關(guān)鍵詞搜索算法,對(duì)關(guān)鍵詞候選項(xiàng)進(jìn)行逐步生成。

        具體而言,關(guān)鍵詞搜索的步驟為:

        1)對(duì)長(zhǎng)度為N的關(guān)鍵詞進(jìn)行搜索,起始于拼音格中的第一個(gè)音節(jié)節(jié)點(diǎn)w’,在達(dá)到某個(gè)音節(jié)節(jié)點(diǎn)Pt時(shí)的時(shí)刻記為t。若關(guān)鍵詞W’與Pt的相似度超過(guò)了設(shè)定閾值,則輸出候選Token。若前向節(jié)點(diǎn)此時(shí)已存在有激活的Token,則將該Token 復(fù)制到節(jié)點(diǎn)Pt,此時(shí)的候選音節(jié)串(長(zhǎng)度為l)可表示為P=p1p2…pt;若l<[N+α·N],則對(duì)該Token 進(jìn)行保留,以供后續(xù)擴(kuò)展;若l=[N+α·N],則對(duì)相似度進(jìn)行計(jì)算;若相似度并未超過(guò)設(shè)定閾值,則將該Token 刪除,否則記錄關(guān)鍵詞信息并刪除該Token。

        2)若搜索過(guò)程已到達(dá)Lattice 尾部,則停止搜索,并將殘留的Token 刪除,最終可得到一個(gè)關(guān)鍵詞候選序列。

        2.4 置信度計(jì)算

        由于關(guān)鍵詞檢測(cè)通常存在替代與插入現(xiàn)象,因此需要對(duì)常規(guī)的置信度算法進(jìn)行改進(jìn)。式(10)即為文中改進(jìn)置信度算法引入的最小編輯距離字符串相似度函數(shù):

        其中,λ1(i=1,2,3,4)表示的是一個(gè)常數(shù),Plat與Length(W)分別代表的是候選關(guān)鍵詞W的后驗(yàn)概率得分和音節(jié)個(gè)數(shù),Pmed表示的是音節(jié)串相似度。

        2.5 關(guān)鍵詞確認(rèn)

        同一語(yǔ)音段通常存在較多的候選關(guān)鍵詞,因此文中引入兩類關(guān)鍵詞輸出規(guī)則解決該問(wèn)題,從而確定一個(gè)關(guān)鍵詞的假象命中:

        1)不限制關(guān)鍵詞在語(yǔ)音段的數(shù)量與位置;

        2)必須選擇最優(yōu)候選關(guān)鍵詞作為假象的唯一有效命中而輸出。

        通常,針對(duì)語(yǔ)音識(shí)別輸出的候選關(guān)鍵詞,若在一定時(shí)間內(nèi)與實(shí)際關(guān)鍵詞相同,則表明檢測(cè)正確;否則,表明檢測(cè)失敗。進(jìn)一步,文中使用查準(zhǔn)率(正確識(shí)別數(shù)/檢測(cè)總數(shù))、召回率(正確識(shí)別數(shù)/參考總數(shù))和誤識(shí)率(錯(cuò)誤識(shí)別數(shù)/參考總數(shù))對(duì)語(yǔ)音識(shí)別進(jìn)行評(píng)價(jià)。

        3 實(shí)驗(yàn)測(cè)試

        該文的硬件部分為Intel Core i7 9700k CPU,32 GB 內(nèi)存與2 T 硬盤的服務(wù)器,安裝的系統(tǒng)為Centos 7,使用的軟件為Kaldi 工具(基于C++),編寫(xiě)程序的腳本為Python、Perl與Shell。

        該文的智能語(yǔ)音交互的語(yǔ)音識(shí)別實(shí)現(xiàn)界面如圖5 所示。其包括批量關(guān)鍵詞搜索和錄音交互兩個(gè)部分,支持關(guān)鍵詞檢測(cè)、創(chuàng)建現(xiàn)場(chǎng)錄音及錄音的保存與顯示。

        圖5 文中語(yǔ)音識(shí)別的交互實(shí)現(xiàn)界面圖

        在對(duì)關(guān)鍵詞詞表進(jìn)行預(yù)置后,通過(guò)“選擇文件”按鈕可對(duì)待檢語(yǔ)音文件進(jìn)行選取與顯示;通過(guò)“執(zhí)行檢測(cè)”按鈕可開(kāi)始檢測(cè)選中的語(yǔ)音文件,其運(yùn)行結(jié)果在檢測(cè)結(jié)果窗口輸出。圖6 為3 條語(yǔ)句的檢測(cè)結(jié)果??梢钥闯觯瑱z測(cè)出的關(guān)鍵詞總共耗時(shí)21.34 s。

        圖6 該文語(yǔ)音識(shí)別的運(yùn)行結(jié)果界面圖

        此外,該文的智能語(yǔ)音交互還可以實(shí)現(xiàn)測(cè)試集的整體導(dǎo)入與檢測(cè),導(dǎo)入的所有文件列表、檢測(cè)結(jié)果和性能統(tǒng)計(jì)將在界面上顯示;若已含有測(cè)試集標(biāo)注文件,還可輸出查準(zhǔn)率、召回率與誤識(shí)率,如圖7所示。

        圖7 測(cè)試集整體檢測(cè)和結(jié)果輸出界面圖

        經(jīng)過(guò)多次、長(zhǎng)期的測(cè)試,該智能語(yǔ)音交互的關(guān)鍵詞語(yǔ)音識(shí)別效果較好,查準(zhǔn)率能夠穩(wěn)定維持在90%以上,召回率也能穩(wěn)定維持在95%以上,誤識(shí)率一般低于13%,可以為相關(guān)智能語(yǔ)音交互算法設(shè)計(jì)提供借鑒和參考。

        4 結(jié)束語(yǔ)

        由于人類交流通常只需要通過(guò)幾個(gè)關(guān)鍵詞即可正確推斷出談話的核心內(nèi)容,而不需要對(duì)連續(xù)語(yǔ)音進(jìn)行辨析和識(shí)別。文中基于Viterbi 搜索解碼技術(shù),結(jié)合前端處理(語(yǔ)音信號(hào))、聲學(xué)和語(yǔ)言模型,設(shè)計(jì)了面向漢字關(guān)鍵詞的智能語(yǔ)音交互算法。該算法依次通過(guò)連續(xù)語(yǔ)音識(shí)別器、關(guān)鍵詞搜索器、置信度確認(rèn)、關(guān)鍵詞確認(rèn)等過(guò)程實(shí)現(xiàn)對(duì)語(yǔ)音中關(guān)鍵詞的搜索。經(jīng)過(guò)人機(jī)交互軟件的載入和測(cè)試,表明文中的算法具有較高的查準(zhǔn)率、召回率和較低的誤識(shí)率。

        猜你喜歡
        信號(hào)檢測(cè)模型
        一半模型
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        信號(hào)
        鴨綠江(2021年35期)2021-04-19 12:24:18
        重要模型『一線三等角』
        完形填空二則
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        基于FPGA的多功能信號(hào)發(fā)生器的設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:42
        3D打印中的模型分割與打包
        婷婷激情六月| 亚洲二区三区在线播放| 加勒比一区二区三区av| 国产亚洲成人av一区| 国产免费拔擦拔擦8x高清在线人| 亚洲综合无码一区二区三区 | 最近中文字幕精品在线| 欧美做受又硬又粗又大视频| 亚洲精品黑牛一区二区三区| 亚洲a级片在线观看| 亚洲精品av一区二区日韩| 无套内谢孕妇毛片免费看| 中国妇女做爰视频| 福利视频一二三在线观看| 天堂av一区二区在线观看| 亚洲中文字幕综合网站| 不卡av网站一区二区三区| а天堂中文最新一区二区三区| 日本五月天婷久久网站| 日韩精品视频免费福利在线观看 | 亚洲av黄片一区二区| 人妻少妇精品专区性色anvn| 宅男66lu国产在线观看| 日日躁夜夜躁狠狠久久av| 亚洲国产成人无码电影| 色噜噜亚洲精品中文字幕| 亚洲一区二区三区尿失禁| 每天更新的免费av片在线观看| 国产91中文| 亚洲电影一区二区三区| 成人偷拍自拍在线视频| 中文字幕在线乱码一区| 粉嫩虎白女毛片人体| 在线观看视频亚洲| 日本一区二区三区精品不卡| 激情综合五月开心婷婷| 玩弄放荡人妻少妇系列| 亚洲国产精品线观看不卡| 邻居少妇太爽在线观看| 很黄很色很污18禁免费| 免费男人下部进女人下部视频|