面向指控系統(tǒng)的嵌入式語(yǔ)音交互技術(shù)設(shè)計(jì)與實(shí)現(xiàn)
楊加平
(江蘇自動(dòng)化研究所計(jì)算機(jī)事業(yè)部,江蘇 連云港 222006)
Design and Realization of Speech Interaction Technology Face to Command and Control System
YANG Jiaping
(Computer Division,Jiangsu Automation Research Institute,Lianyungang 222006,China)
摘要:針對(duì)海軍指控系統(tǒng)的信息輸入延遲問(wèn)題,提出一種新的語(yǔ)音交互解決方案。以DSP芯片為核心的交互系統(tǒng),并針對(duì)具體的應(yīng)用環(huán)境,給出了系統(tǒng)的初步設(shè)計(jì)思路和具體步驟,對(duì)現(xiàn)實(shí)中的一些實(shí)際問(wèn)題有一定的指導(dǎo)意義。
關(guān)鍵詞:語(yǔ)音識(shí)別;指控;DSP
中圖分類號(hào):TN912
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-2257(2015)04-0072-03
收稿日期:2014-11-17
作者簡(jiǎn)介:楊加平(1988-),男,江蘇鹽城人,工程師,主要從事加固計(jì)算機(jī)研制工作。
Abstract:A new kind of solution is given for speech interaction for command & control system of navy that interaction system is centered on DSP chip and in allusion to the specific use of the environment,the preliminary design ideas and the specific steps of the system are given,that solution can guide to resolve some real problem in reality.
Key words:speech recognition;command & control;DSP
0引言
對(duì)于海軍用指控系統(tǒng),反應(yīng)時(shí)間是指從雷達(dá)發(fā)現(xiàn)錄取目標(biāo)開(kāi)始到系統(tǒng)給出滿足精度的目標(biāo)指示為止的時(shí)間間隔(不包括必要的人工操作時(shí)間),此指標(biāo)至關(guān)重要。實(shí)際中,此反應(yīng)時(shí)間越小,則留給本艦的生存機(jī)會(huì)越大。要縮短艦載指控系統(tǒng)的反應(yīng)時(shí)間就必須盡可能壓縮信息處理的時(shí)間。從人機(jī)交互角度來(lái)看,改善信息輸入手段,盡量減少人工操作時(shí)間,是減少信息處理時(shí)間的重要手段。
1語(yǔ)音交互系統(tǒng)實(shí)現(xiàn)的可行性
隨著計(jì)算機(jī)技術(shù)日新月異的發(fā)展,最近15年中語(yǔ)音識(shí)別技術(shù)的研究有了實(shí)質(zhì)性的突破,許多成功的語(yǔ)音識(shí)別系統(tǒng)相繼問(wèn)世。例如,Cardin等研制的基于TIDIGIT數(shù)據(jù)庫(kù)的非特定人連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng),誤識(shí)率僅為0.5%;而Das等研制的20 000單詞的特定人孤立詞語(yǔ)音識(shí)別系統(tǒng),誤識(shí)率僅為1%。據(jù)統(tǒng)計(jì),現(xiàn)有的語(yǔ)音識(shí)別系統(tǒng)以每年2n的速度降低誤識(shí)率。目前,這些系統(tǒng)部分或全部地克服了特定說(shuō)話人、孤立詞、小詞匯量和有限語(yǔ)法這4個(gè)約束,達(dá)到了很高的識(shí)別率。更重要的是,這些系統(tǒng)中的絕大部分已經(jīng)走出實(shí)驗(yàn)室成為商品。其中,最具代表性的當(dāng)屬I(mǎi)BM公司研制的ViaVoice,它屬于大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),其誤識(shí)率,在一定的環(huán)境下可以低于5%。
本文所設(shè)計(jì)的語(yǔ)音識(shí)別系統(tǒng),基于特定人、孤立詞、小詞匯量和有限語(yǔ)法的語(yǔ)音識(shí)別技術(shù),該技術(shù)已經(jīng)非常成熟,系統(tǒng)完全能夠?qū)崿F(xiàn)。
2語(yǔ)音交互系統(tǒng)的功能組成
語(yǔ)音技術(shù)包括語(yǔ)音識(shí)別技術(shù)和語(yǔ)音合成技術(shù)。本交互裝置主要實(shí)現(xiàn)語(yǔ)音識(shí)別功能和語(yǔ)音播放功能,可大致分為4部分,如圖1所示。
圖1 語(yǔ)音交互系統(tǒng)功能原理
2.1語(yǔ)音特征提取
語(yǔ)音特征提取,是從語(yǔ)音波形中提取隨時(shí)間變化的語(yǔ)音特征序列。Mel 頻標(biāo)倒譜參數(shù)(MFCC) 特征是目前使用最廣泛的語(yǔ)音特征之一,具有計(jì)算簡(jiǎn)單、區(qū)分能力好等突出的優(yōu)點(diǎn),因而常常成為許多實(shí)際識(shí)別系統(tǒng)的首選。在經(jīng)典MFCC特征提取算法中,輸入語(yǔ)音首先通過(guò)傅里葉變換得到其頻譜,然后再在頻域上應(yīng)用一組Mel頻率上均勻分布的濾波器,來(lái)得到類似人耳聽(tīng)覺(jué)特性的非線性頻譜分辨率。
2.2聲學(xué)模型與模式匹配(識(shí)別算法)
聲學(xué)模型是識(shí)別系統(tǒng)的底層模型,并且是語(yǔ)音識(shí)別系統(tǒng)中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語(yǔ)音特征通過(guò)訓(xùn)練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識(shí)別時(shí)將未知的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計(jì)算未知語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對(duì)語(yǔ)音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識(shí)別率,以及靈活性有較大影響。目前,中大詞匯量的非特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng),一般采用HMM模型,計(jì)算比較復(fù)雜;對(duì)于便攜式移動(dòng)設(shè)備(如手機(jī)、掌上電腦等)而言,多是基于使用孤立詞識(shí)別系統(tǒng),綜合考慮算法的易實(shí)現(xiàn)性和響應(yīng)的速度,一般采用動(dòng)態(tài)時(shí)間規(guī)整(DTW)識(shí)別算法。動(dòng)態(tài)時(shí)間規(guī)整采用了動(dòng)態(tài)規(guī)劃的思想,能夠?qū)崿F(xiàn)最佳意義上的待測(cè)語(yǔ)音與模板之間的時(shí)間對(duì)準(zhǔn),這就解決了要比較的2個(gè)語(yǔ)音持續(xù)時(shí)間不同的問(wèn)題。
2.3語(yǔ)義理解
計(jì)算機(jī)對(duì)識(shí)別結(jié)果進(jìn)行語(yǔ)法、語(yǔ)義分析。明白語(yǔ)言的意義以便作出相應(yīng)的反應(yīng)。一般上層軟件做出相應(yīng)操作,執(zhí)行相應(yīng)命令。
2.4語(yǔ)音播放
計(jì)算機(jī)運(yùn)行各種應(yīng)用程序,如果此程序和語(yǔ)音交互裝置存有接口,則程序?qū)⒆詣?dòng)調(diào)用交互裝置中的語(yǔ)音播放模塊,實(shí)時(shí)把信息播放給用戶。
3硬件結(jié)構(gòu)和軟件流程設(shè)計(jì)
識(shí)別系統(tǒng)采用嵌入式系統(tǒng)。嵌入式是將語(yǔ)言識(shí)別軟件及模型,寫(xiě)在設(shè)備的存儲(chǔ)器里,識(shí)別過(guò)程在終端完成。
3.1硬件結(jié)構(gòu)設(shè)計(jì)
一個(gè)完備的語(yǔ)音交互系統(tǒng),不但要具備語(yǔ)音信號(hào)的采集和播放功能,而且更重要的是要能完成復(fù)雜的語(yǔ)音信號(hào)分析和處理算法。通常這些算法運(yùn)算量大,且又要滿足實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的快速高效處理要求,因此,采用高速DSP芯片。以TMS320C6200為信號(hào)處理核心設(shè)計(jì)了該系統(tǒng),其硬件配置如圖2所示。TMS320C6200是美國(guó)Texas Instrument公司的16位定點(diǎn)DSP產(chǎn)品,它包括改進(jìn)的哈佛(Harvard)結(jié)構(gòu)、高性能CPU、片內(nèi)存儲(chǔ)器、在片外圍接口以及一套高效的匯編指令集,性價(jià)比好。語(yǔ)音采樣和輸出采用TLC320AD50芯片,該芯片是TI公司生產(chǎn)的16位語(yǔ)音編碼/解碼芯片,采用sigma-delta技術(shù)提供高精度低速信號(hào)變換,有2個(gè)串行同步變換通道和前后處理的濾波器。片外程序存儲(chǔ)器、數(shù)據(jù)存儲(chǔ)器均選用Flash芯片。
圖2 硬件結(jié)構(gòu)
系統(tǒng)中DSP控制AD/DA部件完成語(yǔ)音數(shù)據(jù)的采集和回放,并根據(jù)下載軟件完成相應(yīng)的信號(hào)分析,是系統(tǒng)的關(guān)鍵部件。使用時(shí),DSP程序下載到C6200的內(nèi)部程序區(qū)。采樣前,C6200通過(guò)內(nèi)部定時(shí)器Timer來(lái)設(shè)置AD/DA部件的采樣頻率。單個(gè)樣點(diǎn)采樣完成后,AD/DA部件產(chǎn)生C6200硬件中斷INT1,C6200響應(yīng)中斷INT1,將來(lái)自AD的采樣數(shù)據(jù)寫(xiě)入FIFO,主機(jī)通過(guò)讀FIFO獲得采樣數(shù)據(jù);語(yǔ)音回放前,C6200按照回放頻率設(shè)置內(nèi)部定時(shí)器Timer,使之產(chǎn)生中斷INT1;回放時(shí),主機(jī)將數(shù)據(jù)寫(xiě)入FIFO,C6200定時(shí)響應(yīng)中斷INT1,從FIFO讀取數(shù)據(jù)并將它送到DA輸出;信號(hào)處理任務(wù)在C6200內(nèi)部完成,單次處理的輸入輸出數(shù)據(jù)在片外存儲(chǔ)器與DSP部件之間交換。
3.2軟件設(shè)計(jì)
整個(gè)工作流程主要由主機(jī)控制流程和DSP中斷處理流程構(gòu)成。軟件流程如圖3所示,其中,INT1用于語(yǔ)音信號(hào)的采樣和回放;INT2用于主機(jī)向DSP傳送程序運(yùn)行參數(shù)、DSP向主機(jī)傳送數(shù)據(jù);INT3用于從片外程序存儲(chǔ)器下載程序,對(duì)于不同的分析處理有不同的DSP程序。
圖3 軟件流程
4語(yǔ)音交互裝置抗干擾設(shè)計(jì)
影響語(yǔ)音識(shí)別的因素很多,主要包括背景噪聲、傳輸通道變化、心理緊張及工作壓力和情緒變化所發(fā)生的發(fā)音變異。這些因素共同構(gòu)成了影響識(shí)別系統(tǒng)頑健性的諸要素。
4.1背景噪音
早在1911 年,Lombard 就發(fā)現(xiàn)了說(shuō)話者在背景噪聲下會(huì)努力調(diào)整自己的發(fā)音方式,以提高說(shuō)話的清晰度,即使發(fā)相同的語(yǔ)音,其語(yǔ)音的特征參數(shù)MCFF也會(huì)與安靜環(huán)境下的發(fā)音有所不同,像聲音變高,語(yǔ)速變慢,音調(diào)及共振峰變化等,這就是后來(lái)被研究者稱作的Lombard 效應(yīng)現(xiàn)象。Lombard 效應(yīng)影響的大小依賴于背景噪聲的強(qiáng)弱和類型。 艦載設(shè)備環(huán)境復(fù)雜,背景噪音多,艦船上主要有海浪聲、風(fēng)聲、馬達(dá)聲、人的走動(dòng)聲、飛機(jī)起飛降落盤(pán)旋聲和槍炮聲等;潛艇上主要有水流聲、馬達(dá)聲、人的走動(dòng)聲和武器發(fā)射時(shí)的巨大噪音等。在實(shí)際應(yīng)用中,通過(guò)分析可以得知,背景噪聲的特征參數(shù)MFCC的低階特征變化比較明顯,而高階特征幾乎保持不變。因此,可以通過(guò)對(duì)低階特征加較小的權(quán)值,高階特征加較大的權(quán)值,使背景噪聲的MCFF特征盡量保持平穩(wěn),來(lái)減小背景噪聲對(duì)正常語(yǔ)音的影響,從而減少語(yǔ)音的變異,使得變異語(yǔ)音的特征和正常語(yǔ)音特征接近。
4.2傳輸通道的變化
為保證傳輸通道的電氣性能,減小噪聲信號(hào)的引入,采用濾波、放大等設(shè)計(jì)手段,將傳輸通道造成的衰減影響減到最小。
4.3情緒影響
情緒影響語(yǔ)音信號(hào)的特性,東南大學(xué)在這方面進(jìn)行了研究,提出了一些情感語(yǔ)音信號(hào)識(shí)別的方法。本文不再詳述。
5結(jié)束語(yǔ)
對(duì)語(yǔ)音識(shí)別技術(shù)在艦載指控系統(tǒng)中的應(yīng)用,進(jìn)行了設(shè)計(jì)。提出了以AD/DA芯片采樣輸出語(yǔ)音信號(hào),以高速DSP芯片為核心的控制系統(tǒng)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的設(shè)計(jì)方法,并給出了軟件流程。對(duì)交互裝置中的抗干擾情況進(jìn)行了簡(jiǎn)要描述,具有較強(qiáng)的工程實(shí)用性。
參考文獻(xiàn):
[1]董士海,王衡.人機(jī)交互.北京:北京大學(xué)出版社,2004.
[2]黃鳳崗,宋克歐.模式識(shí)別.哈爾濱:哈爾濱工程大學(xué)出版社,1998.
[3]趙訓(xùn)威.基于TMS320C6200系列DSP芯片的應(yīng)用與開(kāi)發(fā).北京:人民郵電出版社,2002.
投稿郵箱更改啟事
各位作者:本刊投稿電子郵箱現(xiàn)為jxydz@vip.sina.com。由于網(wǎng)站域名更改,原投稿電子郵箱jxydzb@public.gz.cn停止使用。特此聲明。感謝各位作者和讀者一直以來(lái)對(duì)本刊的大力支持。
機(jī)械與電子雜志社