(中國(guó)人民解放軍63888部隊(duì) 濟(jì)源 459000)
目前語(yǔ)音通信干擾效果評(píng)估系統(tǒng)中,一般是首先建立無(wú)線電臺(tái)通信專向,發(fā)方發(fā)送語(yǔ)音報(bào)文或鍵報(bào),被試干擾設(shè)備進(jìn)行干擾,收方進(jìn)行報(bào)文抄收;然后將所抄報(bào)文與報(bào)底校對(duì),計(jì)算報(bào)文正確率來(lái)評(píng)估干擾設(shè)備的干擾效果,以鑒定設(shè)備性能是否達(dá)到技術(shù)指標(biāo)要求。這種主觀評(píng)估方法過(guò)程中存在許多人為因素,如抄報(bào)人員的抄收水平、精神狀態(tài)以及對(duì)方報(bào)文發(fā)送的規(guī)范與否等因素,都會(huì)對(duì)評(píng)估結(jié)果帶來(lái)一定影響。
隨著通信技術(shù)不斷提高,語(yǔ)音通信干擾效果評(píng)估方法在逐步向客觀評(píng)估轉(zhuǎn)變,本文在介紹客觀評(píng)估系統(tǒng)的基礎(chǔ)上,分析研究了語(yǔ)音識(shí)別關(guān)鍵技術(shù),以及基于小語(yǔ)音庫(kù)的語(yǔ)音識(shí)別技術(shù)在客觀評(píng)估系統(tǒng)中的應(yīng)用,并給出了應(yīng)用方法。
語(yǔ)音通信干擾客觀評(píng)估系統(tǒng)通過(guò)比對(duì)受干擾前的原始語(yǔ)音與受干擾后的語(yǔ)音的參數(shù)特征,實(shí)現(xiàn)干擾效果的客觀評(píng)估。系統(tǒng)組成包括報(bào)文產(chǎn)生及控制終端、發(fā)信電臺(tái)、收信電臺(tái)、語(yǔ)音處理終端、收端計(jì)算機(jī)等,系統(tǒng)功能框圖如圖1所示。
系統(tǒng)工作流程為:發(fā)送端計(jì)算機(jī)將數(shù)字報(bào)文轉(zhuǎn)換成語(yǔ)音報(bào)文(.wav文件),并產(chǎn)生控制信號(hào)控制電臺(tái)(PTT)進(jìn)行發(fā)射,同時(shí)將已產(chǎn)生的語(yǔ)音報(bào)文通過(guò)音頻輸出系統(tǒng)送入電臺(tái)音頻口,由電臺(tái)將語(yǔ)音報(bào)文自動(dòng)發(fā)送出去;在接收端,將無(wú)線電臺(tái)輸出的音頻送入計(jì)算機(jī),由計(jì)算機(jī)進(jìn)行音頻采集,基于小語(yǔ)音庫(kù)范圍進(jìn)行語(yǔ)音識(shí)別,最后與發(fā)送端的報(bào)文比較進(jìn)行報(bào)文判決,給出誤碼率。
圖1 系統(tǒng)功能框圖
語(yǔ)音識(shí)別系統(tǒng)基本構(gòu)造如圖2所示。
系統(tǒng)分為前端處理和后端處理兩部分,前端處理部分包括語(yǔ)音的錄入、處理、特征值的提取。后端處理是一個(gè)跨數(shù)據(jù)庫(kù)的搜索過(guò)程,分為訓(xùn)練和識(shí)別,訓(xùn)練是對(duì)所建的模型進(jìn)行評(píng)估、匹配、優(yōu)化,獲得模型參數(shù);識(shí)別是一個(gè)專用的搜索數(shù)據(jù)庫(kù)過(guò)程。獲取前端數(shù)值后,在聲學(xué)模型、語(yǔ)言模型和字典中進(jìn)行匹配。聲學(xué)模型表示一種語(yǔ)言的發(fā)音,可以通過(guò)訓(xùn)練來(lái)識(shí)別特定用戶的語(yǔ)音模型和發(fā)音環(huán)境的特征。語(yǔ)言模型是對(duì)語(yǔ)料庫(kù)單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則[1]。
總體上說(shuō)語(yǔ)音識(shí)別是一個(gè)模式識(shí)別、匹配的過(guò)程,在這個(gè)過(guò)程中,計(jì)算機(jī)首先要根據(jù)人的語(yǔ)音特點(diǎn)建立語(yǔ)音模型,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語(yǔ)音識(shí)別所需的模板。然后,在識(shí)別過(guò)程中,計(jì)算機(jī)根據(jù)語(yǔ)音識(shí)別的整體模型,將計(jì)算機(jī)中已經(jīng)存有的語(yǔ)音模板與輸入語(yǔ)音信號(hào)的特征進(jìn)行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語(yǔ)音匹配的模板。最后通過(guò)查表和判決算法給出識(shí)別結(jié)果[2]。
模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫(kù)中的某一個(gè)模型獲得最佳匹配。顯然,識(shí)別結(jié)果與語(yǔ)音特征的選擇、聲學(xué)模型和語(yǔ)言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系[3]。
選擇識(shí)別單元是語(yǔ)音識(shí)別研究的第一步,語(yǔ)音識(shí)別單元有單詞(句)、音節(jié)和音素三種,應(yīng)該根據(jù)具體研究的識(shí)別系統(tǒng)的特點(diǎn),選擇具體的識(shí)別單元。
單詞(句)單元廣泛應(yīng)用于中小詞匯語(yǔ)音識(shí)別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫(kù)太龐大,訓(xùn)練模型任務(wù)繁重,模型匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求。
音節(jié)單元多見(jiàn)于漢語(yǔ)語(yǔ)音識(shí)別,因?yàn)闈h語(yǔ)是單音節(jié)結(jié)構(gòu)的語(yǔ)言,而英語(yǔ)是多音節(jié)語(yǔ)言。漢語(yǔ)大約有1300 個(gè)音節(jié),如果不考慮聲調(diào),約有408個(gè)無(wú)調(diào)音節(jié),數(shù)量相對(duì)較少。因此,對(duì)于中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),以音節(jié)為識(shí)別單元基本是可行的。
音素單元以前多見(jiàn)于英語(yǔ)語(yǔ)音識(shí)別的研究中,但目前中、大詞匯量漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)也在越來(lái)越多地被采用。漢語(yǔ)音節(jié)僅由聲母和韻母構(gòu)成,而且聲、韻母聲學(xué)特性相差很大。在實(shí)際應(yīng)用中常把聲母依后續(xù)韻母的不同而構(gòu)成細(xì)化聲母,這樣雖然增加了模型數(shù)目,但提高了易混淆音節(jié)的區(qū)分能力。
語(yǔ)音信號(hào)中含有豐富的信息,如何從中提取出對(duì)語(yǔ)音識(shí)別有用的信息是語(yǔ)音識(shí)別的關(guān)鍵。特征提取就是完成這項(xiàng)工作,它對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除對(duì)語(yǔ)音識(shí)別無(wú)關(guān)緊要的冗余信息,獲得影響語(yǔ)音識(shí)別的重要信息。對(duì)于非特定人語(yǔ)音識(shí)別來(lái)講,希望特征參數(shù)盡可能多地反映語(yǔ)義信息,盡量減少說(shuō)話人的個(gè)人信息(對(duì)特定人語(yǔ)音識(shí)別來(lái)講,則相反)。從信息論角度講,這是信息壓縮的過(guò)程。
線性預(yù)測(cè)(LP)分析技術(shù)是目前應(yīng)用比較廣泛的特征參數(shù)提取技術(shù),許多成功的應(yīng)用系統(tǒng)都采用基于LP 技術(shù)提取的倒譜參數(shù)。但線性預(yù)測(cè)模型是純數(shù)學(xué)模型,沒(méi)有考慮人類聽(tīng)覺(jué)系統(tǒng)對(duì)語(yǔ)音的處理特點(diǎn)。
Mel參數(shù)和基于感知線性預(yù)測(cè)(PLP)分析提取的感知線性預(yù)測(cè)倒譜,在一定程度上模擬了人耳對(duì)語(yǔ)音的處理特點(diǎn),應(yīng)用了人耳聽(tīng)覺(jué)感知方面的一些研究成果[4]。實(shí)驗(yàn)證明,采用這種技術(shù)能使語(yǔ)音識(shí)別系統(tǒng)的性能有一定提高。
MFCC 的分析著眼于人耳的聽(tīng)覺(jué)特性,因?yàn)槿硕?tīng)到的聲音的高低與聲音的頻率并不成線性正比關(guān)系,而用MEL頻率尺度則更符合人耳的聽(tīng)覺(jué)特性。MEL 頻率與實(shí)際頻率的具體關(guān)系可用公式(1)表示:
實(shí)際頻率f的單位是Hz。根據(jù)Zwicker的工作,臨界頻率帶寬隨著頻率的變化而變化,并與Mel頻率的增長(zhǎng)一致,在1000Hz以下,大致呈線性分布,帶寬為100Hz左右,在1000Hz以上呈對(duì)數(shù)增長(zhǎng)[5]。
HMM 模型是語(yǔ)音信號(hào)時(shí)變特征的有參表示法。它由相互關(guān)聯(lián)的兩個(gè)隨機(jī)過(guò)程共同描述信號(hào)的統(tǒng)計(jì)特性。其中一個(gè)是隱蔽的(不可觀測(cè)的)具有有限狀態(tài)的馬爾可夫鏈,另一個(gè)是與馬爾可夫鏈的每一狀態(tài)相關(guān)聯(lián)的觀察矢量的隨機(jī)過(guò)程(可觀測(cè)的)。隱蔽馬爾可夫鏈的特征要靠可觀測(cè)到的信號(hào)特征揭示。這樣,語(yǔ)音等時(shí)變信號(hào)某一段的特征就由對(duì)應(yīng)狀態(tài)觀察符號(hào)的隨機(jī)過(guò)程描述,而信號(hào)隨時(shí)間的變化由隱蔽馬爾可夫鏈的轉(zhuǎn)移概率描述。
HMM 模型在某狀態(tài)j下對(duì)應(yīng)的觀察值可以由一組概率bjk(k=1,2,…,M)來(lái)描述,它是M個(gè)離散可數(shù)的觀察值中的一個(gè),因而稱為離散HMM[6]。當(dāng)觀察值為一個(gè)連續(xù)的隨機(jī)變量X,其在狀態(tài)j下對(duì)應(yīng)的觀察值由一個(gè)觀察概率密度函數(shù)bj(X)表示,這就成了連續(xù)的HMM。連續(xù)的HMM 用Baum-We1ch算法估計(jì)模型參數(shù)時(shí),雖然在估計(jì)π,A參數(shù)時(shí)適用,但在估計(jì)描述bj(X)的參數(shù)時(shí)必須對(duì)bj(X)加以一定的限制才能成立。目前運(yùn)用最廣泛的是高斯型bj(X)[7],它可以用下面公式表示:
其中,N(X,μjk,∑jk)為多維高斯概率函數(shù),μjk為均值矢量,∑jk為方差矩陣,K為bjk(X)的混合概率個(gè)數(shù),Cj(X)為組合系數(shù),且
語(yǔ)音識(shí)別的關(guān)鍵技術(shù)對(duì)語(yǔ)音識(shí)別率起著極其重要的作用,要使語(yǔ)音識(shí)別技術(shù)能夠應(yīng)用于實(shí)際評(píng)估系統(tǒng),以下幾個(gè)影響因素必須考慮:
1)建立語(yǔ)音模板庫(kù),也就是語(yǔ)音模型的訓(xùn)練。而且模板的好壞直接影響著識(shí)別率的高低,對(duì)于非特定人的語(yǔ)音識(shí)別系統(tǒng),需要大量的原始語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音參考模型。
2)提取語(yǔ)音特征參數(shù),對(duì)于非特定人語(yǔ)音識(shí)別,提取的特征參數(shù)應(yīng)盡量不含有說(shuō)話人的信息。
3)聲學(xué)建模是連續(xù)語(yǔ)音識(shí)別中聲學(xué)層面解決的關(guān)鍵步驟,語(yǔ)音識(shí)別單元的選擇是聲學(xué)建模中的一個(gè)基本而重要的問(wèn)題。
所謂基于小語(yǔ)音庫(kù)的語(yǔ)音識(shí)別系統(tǒng),就是語(yǔ)音模板庫(kù)中的語(yǔ)音源限定在一定的數(shù)量范圍內(nèi),是中、大型語(yǔ)音庫(kù)的簡(jiǎn)化,基于小語(yǔ)音庫(kù)的語(yǔ)音識(shí)別系統(tǒng)在識(shí)別過(guò)程中模式匹配需要進(jìn)行的運(yùn)算量特別小。
目前語(yǔ)音通信的特點(diǎn),通信內(nèi)容主要是話報(bào),只需要能夠正確識(shí)別出0~9這10個(gè)數(shù)碼及少量固定詞語(yǔ)的語(yǔ)音報(bào)文,語(yǔ)音識(shí)別技術(shù)就完全可以應(yīng)用于語(yǔ)音通信干擾效果評(píng)估系統(tǒng)中。
按照?qǐng)?bào)文生成方法,計(jì)算機(jī)利用報(bào)文產(chǎn)生軟件生成隨機(jī)數(shù)字報(bào)文,數(shù)碼0~9在語(yǔ)音文件里均勻分布,然后由語(yǔ)音合成軟件將數(shù)字報(bào)文生成語(yǔ)音文件,該語(yǔ)音文件是一串?dāng)?shù)字語(yǔ)音,包括男聲或女聲,發(fā)音表見(jiàn)表1,數(shù)字報(bào)文語(yǔ)音文件里四個(gè)數(shù)字為一組,該語(yǔ)音文件作為評(píng)估系統(tǒng)的客觀信號(hào)源。
表1 數(shù)字報(bào)文發(fā)音表
建立語(yǔ)音庫(kù),即語(yǔ)音模板的訓(xùn)練是語(yǔ)音識(shí)別系統(tǒng)中的一個(gè)關(guān)鍵過(guò)程,它的好壞直接關(guān)系到語(yǔ)音識(shí)別系統(tǒng)識(shí)別率的高低[8]。為了得到一個(gè)好的模板,往往需要有大量的原始語(yǔ)音數(shù)據(jù)來(lái)訓(xùn)練語(yǔ)音模型。另外普通大詞匯量語(yǔ)音識(shí)別系統(tǒng)語(yǔ)音模型庫(kù)龐大,訓(xùn)練模型任務(wù)繁重,匹配算法復(fù)雜,難以滿足實(shí)時(shí)性要求[9]。
將語(yǔ)音識(shí)別技術(shù)應(yīng)用在特定的語(yǔ)音通信效果評(píng)估系統(tǒng)中,只需要建立包含0~9這10個(gè)數(shù)碼合成的語(yǔ)音及其它少量詞語(yǔ)的小語(yǔ)音庫(kù),即可滿足系統(tǒng)需要?;谛≌Z(yǔ)音庫(kù)的語(yǔ)音識(shí)別需要識(shí)別的語(yǔ)音源數(shù)量特別少,系統(tǒng)運(yùn)算量小,應(yīng)用的可行性大大提高。而且小語(yǔ)音庫(kù)中的語(yǔ)音由計(jì)算機(jī)通過(guò)語(yǔ)音合成技術(shù)生成,所有的語(yǔ)音報(bào)文具有相同說(shuō)話人的特定信息,特征參數(shù)的提取穩(wěn)定,大大地提高了識(shí)別的正確率。
另外基于小語(yǔ)音庫(kù)的語(yǔ)音識(shí)別系統(tǒng)可以采用適用于小詞匯量語(yǔ)音識(shí)別單元的單詞單元作為語(yǔ)音識(shí)別單元。
語(yǔ)音通信干擾效果評(píng)估系統(tǒng)功能流程圖如圖3所示。
圖3 報(bào)文生成及錄音評(píng)估系統(tǒng)功能流程圖
系統(tǒng)一般分為準(zhǔn)備階段、試驗(yàn)過(guò)程及結(jié)果處理階段。首先在計(jì)算機(jī)中通過(guò)報(bào)文生成軟件產(chǎn)生數(shù)字報(bào)文,并合成語(yǔ)音文件,然后將通信終端設(shè)備與無(wú)線電臺(tái)相連接,由發(fā)送計(jì)算機(jī)及通信終端控制發(fā)端電臺(tái)按要求(如頻率、調(diào)制方式、功率要求等)進(jìn)行發(fā)送,接收端進(jìn)行人工抄報(bào),同時(shí)錄音采集。結(jié)果處理是利用語(yǔ)音識(shí)別系統(tǒng)對(duì)接收的語(yǔ)音文件在基于小語(yǔ)音庫(kù)的模板中進(jìn)行識(shí)別,給出識(shí)別結(jié)果,并統(tǒng)計(jì)出錯(cuò)誤碼子和組數(shù)。
基于4.2節(jié)中所描述的小語(yǔ)音庫(kù)的語(yǔ)音識(shí)別在語(yǔ)音通信干擾效果評(píng)估系統(tǒng)中,利用識(shí)別軟件對(duì)錄音存儲(chǔ)的客觀語(yǔ)音報(bào)文進(jìn)行識(shí)別的過(guò)程簡(jiǎn)化如下:
發(fā)送端發(fā)送的數(shù)碼報(bào)文為在0~9中隨機(jī)選取的4個(gè)數(shù)字為一組的組合,收端計(jì)算機(jī)中預(yù)先存有包含數(shù)碼0~9的小語(yǔ)音庫(kù)模版,根據(jù)模式匹配的方法,對(duì)語(yǔ)音進(jìn)行識(shí)別成數(shù)碼報(bào)文,由程序?qū)⒃摂?shù)碼報(bào)文進(jìn)行錯(cuò)誤率統(tǒng)計(jì),最后給出干擾效果評(píng)估結(jié)果[10]。
這種利用基于小語(yǔ)音庫(kù)的匹配方法進(jìn)行語(yǔ)音識(shí)別的識(shí)別率能夠達(dá)到很高(應(yīng)用中正確率大于99%),忽略極少數(shù)不能正確識(shí)別的數(shù)字,認(rèn)為識(shí)別正確率基本接近人工收聽(tīng)的結(jié)果。
同時(shí)在客觀評(píng)估的基礎(chǔ)上還可以再進(jìn)行人工校報(bào),將主觀評(píng)估與客觀評(píng)估結(jié)果綜合考慮,給出更加合理的評(píng)估結(jié)果。
本文介紹了語(yǔ)音識(shí)別的關(guān)鍵技術(shù),分析了語(yǔ)音模板庫(kù)僅為特定少量詞語(yǔ)的小語(yǔ)音庫(kù)語(yǔ)音識(shí)別評(píng)估系統(tǒng),以及它在特定的語(yǔ)音通信效果評(píng)估系統(tǒng)中的應(yīng)用,介紹了實(shí)際應(yīng)用方法,對(duì)于今后建立語(yǔ)音通信客觀評(píng)估系統(tǒng)上具有一定的指導(dǎo)意義。
目前系統(tǒng)中的數(shù)字報(bào)文均是任意選取的,沒(méi)有任何實(shí)際語(yǔ)義,評(píng)估結(jié)果只能根據(jù)報(bào)文錯(cuò)組率而不能根據(jù)實(shí)際語(yǔ)義來(lái)進(jìn)行識(shí)別評(píng)估。但是從阻斷通信意圖上來(lái)說(shuō),利用有語(yǔ)義的語(yǔ)音報(bào)文進(jìn)行干擾效果評(píng)估更具有一定的現(xiàn)實(shí)意義。所以筆者下一步會(huì)進(jìn)行語(yǔ)音通信干擾效果評(píng)估系統(tǒng)中基于語(yǔ)義的語(yǔ)音報(bào)文識(shí)別研究。
[1]吳淑珍,趙朝陽(yáng).基于聽(tīng)覺(jué)模型的客觀音質(zhì)評(píng)估方法研究[J].電子學(xué)報(bào),1999(7):92(94).
[2]張璐琳,陳靜.國(guó)軍標(biāo)(GJB4405A-2007)[J].語(yǔ)音通信干擾效果評(píng)定準(zhǔn)則,2007.
[3]崔文迪,黃關(guān)維.語(yǔ)音識(shí)別綜述[J].福建電腦,2008(1):28-29.
[4]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000:73-76.
[5]查普曼.MATLAB[M].北京:科學(xué)出版社,1998:46-47.
[6]樊昌信,張甫翊,徐炳祥,等.通信原理[M].北京:國(guó)防工業(yè)出版社,2001:370-372.
[7]LA Liporace.Maximum Likelihood for Multivariate Observation of MarkovSource.IEEE.Trans.IT[J].1982,28(5):729-734.
[8]徐煒,徐濟(jì)仁.基于聲韻分割的語(yǔ)音信號(hào)特征提取技術(shù)[J].小型微型計(jì)算機(jī)系統(tǒng),2002,23(2):172(175).
[9]王瑛,張知易.一種基于人耳聽(tīng)覺(jué)特性的語(yǔ)音客觀測(cè)度研究[J].通信技術(shù),1999(3):62(68).
[10]謝虹.電子裝備作戰(zhàn)效能評(píng)估[J].航天電子對(duì)抗,1998(3):57(59).
[11]王彪.基于Matlab的語(yǔ)音識(shí)別系統(tǒng)研究[J].計(jì)算機(jī)與數(shù)字工程,2011,39(12).
[12]劉萍,廖廣銳.高噪聲背景下的語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)與數(shù)字工程,2009,37(7).