摘 要: 數(shù)字語(yǔ)音錄制過程中存在的環(huán)境、用戶口音和非目標(biāo)詞匯等干擾,使以往開發(fā)出的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確性較低、可移植性較差。因此,對(duì)無(wú)線通信的數(shù)字語(yǔ)音識(shí)別系統(tǒng)進(jìn)行優(yōu)化設(shè)計(jì),設(shè)計(jì)系統(tǒng)的核心元件為C6727DSP芯片、QGDH710 語(yǔ)音識(shí)別芯片和CC2520射頻收發(fā)器。C6727DSP芯片進(jìn)行數(shù)字語(yǔ)音的前期處理工作;QGDH710 語(yǔ)音識(shí)別芯片對(duì)處理后的數(shù)字語(yǔ)音進(jìn)行識(shí)別,并將其識(shí)別出的指令反饋到CC2520射頻收發(fā)器;CC2520射頻收發(fā)器進(jìn)行指令的格式轉(zhuǎn)換工作,并將指令傳輸?shù)接脩魺o(wú)線通信設(shè)備中,最終實(shí)現(xiàn)數(shù)字語(yǔ)音識(shí)別系統(tǒng)在無(wú)線通信中的有效利用。為了方便用戶進(jìn)行系統(tǒng)操作,軟件給出用戶無(wú)線通信設(shè)備虛擬功能圖。經(jīng)實(shí)驗(yàn)驗(yàn)證可知,該設(shè)計(jì)系統(tǒng)準(zhǔn)確性較高,具有高度可移植性。
關(guān)鍵詞: 無(wú)線通信; 數(shù)字語(yǔ)音識(shí)別系統(tǒng); 系統(tǒng)設(shè)計(jì); 虛擬功能圖
中圖分類號(hào): TN915?34; TN912.34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)16?0151?04
Abstract: The interference such as environment, user accent and non?target vocabulary exists in digital voice recording process, which makes the developed digital speech recognition systems used for wireless communication low accuracy and poor portability. Therefore, the optimization design of the digital speech recognition system used for wireless communication was performed. The core components of the system are chip C6727DSP, speech recognition chip QGDH710 and CC2520RF transceiver. The chip C6727DSP is used for early stage processing of the digital speech. The speech recognition chip QGDH710 is used to recognize the processed digital speech, and feed the recognized instruction back to the CC2520 RF transceiver. The CC2520 RF transceiver is used to convert the instruction format, and transmit the instructions to the user’s wireless communication equipment to realize effective utilization of the digital speech recognition system in wireless communication. To perform system operation conveniently for the users, a virtual function diagram of user’s wireless communication equipment is given by means of software. The experimental verification results show that the designed system has high accuracy and good portability.
Keywords: wireless communication; digital speech recognition system; system design; virtual function diagram
0 引 言
近年來(lái),數(shù)字語(yǔ)音識(shí)別技術(shù)在人們?nèi)粘I钪械玫搅藦V泛應(yīng)用。無(wú)線通信作為當(dāng)今社會(huì)利用率最高的通信科技,極大地方便了人們的生活。將數(shù)字語(yǔ)音識(shí)別技術(shù)應(yīng)用于無(wú)線通信中,是一項(xiàng)具有較高實(shí)用價(jià)值的科研項(xiàng)目[1?3]。由于用戶在錄制數(shù)字語(yǔ)音的過程中常常存在環(huán)境、用戶口音和非目標(biāo)詞匯等多方干擾,不但降低了數(shù)字語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性,也加重了無(wú)線通信的傳輸壓力,導(dǎo)致系統(tǒng)可移植性較差。因此,開發(fā)出一種能夠有效解決上述問題的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng),在科技發(fā)展中顯得尤為重要[4?5]。
曾開發(fā)出的用于無(wú)線通信的數(shù)字語(yǔ)音識(shí)別系統(tǒng)均存在一定缺陷,基于LP技術(shù)的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)[6],在用戶個(gè)人計(jì)算機(jī)基礎(chǔ)上,利用LP技術(shù)很好地解決了數(shù)字語(yǔ)音傳輸易丟失和易變音的現(xiàn)象,為語(yǔ)音識(shí)別系統(tǒng)的開發(fā)奠定了基礎(chǔ),但該系統(tǒng)的準(zhǔn)確性和可移植性均不高,只能在處于安靜環(huán)境下的特定計(jì)算機(jī)上使用;基于DTW技術(shù)的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)[7],在LP技術(shù)的基礎(chǔ)上開發(fā)出DTW技術(shù),并得到了較高的數(shù)字語(yǔ)音識(shí)別能力,系統(tǒng)的準(zhǔn)確性較高,但可移植性不高;基于ANN的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)[8],利用ANN強(qiáng)大的計(jì)算能力和存儲(chǔ)效率,實(shí)現(xiàn)了系統(tǒng)對(duì)數(shù)字語(yǔ)音的完美識(shí)別,但其無(wú)線通信的傳輸安全能力卻差強(qiáng)人意;基于HMM的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)[9],將HMM的強(qiáng)大計(jì)算能力納入到軟件中進(jìn)行設(shè)計(jì),利用軟件控制數(shù)字語(yǔ)音識(shí)別和無(wú)線通信,其準(zhǔn)確性高、可移植性強(qiáng),但仍存在可優(yōu)化空間。
準(zhǔn)確性是評(píng)價(jià)無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)性能的“說明書”,可移植性則是判斷所設(shè)計(jì)的系統(tǒng)能否有效連接用戶無(wú)線通信設(shè)備的憑證。為了解決上述無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的缺陷,開發(fā)準(zhǔn)確性高、可移植性強(qiáng)的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)。經(jīng)實(shí)驗(yàn)驗(yàn)證可知,所設(shè)計(jì)的系統(tǒng)準(zhǔn)確性較高,并具有高度可移植性。
1 無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)
1.1 系統(tǒng)整體設(shè)計(jì)
無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)由數(shù)字語(yǔ)音處理模塊、數(shù)字語(yǔ)音識(shí)別模塊和無(wú)線通信模塊組成,該系統(tǒng)的核心組成元件為C6727DSP芯片、QGDH710 語(yǔ)音識(shí)別芯片和CC2520射頻收發(fā)器,保證了無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性和高度可移植性,如圖1所示。
1.2 數(shù)字語(yǔ)音處理模塊設(shè)計(jì)
DSP是一種能夠通過運(yùn)算進(jìn)行數(shù)字語(yǔ)音處理的芯片,其運(yùn)算速度快,使用簡(jiǎn)便且靈活,并具有較強(qiáng)的穩(wěn)定性和可移植性,在復(fù)雜的數(shù)字集成系統(tǒng)中應(yīng)用較廣。
無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)選用由TI公司設(shè)計(jì)生產(chǎn)的C6727DSP芯片,作為數(shù)字語(yǔ)音處理模塊的處理核心。C6727DSP芯片功能為:
(1) 為用戶提供并行和串行外設(shè)接口兩種通信方法,無(wú)需外界存儲(chǔ)器;
(2) 寫入數(shù)據(jù)的安全性和靈活性非常高,可同步開啟多條指令的實(shí)施通道;
(3) 為更加高效地進(jìn)行數(shù)字語(yǔ)音的處理工作,設(shè)計(jì)者為C6727DSP芯片添加了引腳復(fù)用功能,并利用計(jì)時(shí)器、掉電邏輯、邏輯控制和各種指令為處理工作提供實(shí)時(shí)管控。圖2是C6727DSP芯片的配置圖。
由圖2可知,C6727DSP芯片的核心元件為中央處理器和存儲(chǔ)器。中央處理器中涵蓋了多個(gè)數(shù)字語(yǔ)音數(shù)據(jù)處理平臺(tái)和數(shù)據(jù)緩沖區(qū)。處理平臺(tái)能夠進(jìn)行數(shù)字語(yǔ)音數(shù)據(jù)的運(yùn)算、存取、邏輯推理和定位,定位可實(shí)現(xiàn)數(shù)據(jù)緩沖區(qū)和存儲(chǔ)器間的數(shù)據(jù)相互調(diào)用。數(shù)據(jù)緩沖區(qū)位于中央處理器的兩端,C6727DSP芯片利用總線將其相連。處理平臺(tái)指引數(shù)據(jù)緩沖區(qū)進(jìn)行數(shù)據(jù)的收發(fā)工作,方便數(shù)據(jù)緩沖區(qū)中數(shù)據(jù)互相調(diào)用和置換。
中央處理器和存儲(chǔ)器的連接采用0805封裝,并在連接電線上安裝特定阻值的電阻,以增強(qiáng)數(shù)據(jù)傳輸穩(wěn)定性。這一方法同樣適用于C6727DSP芯片中其他元件間的連接。在中央處理器向存儲(chǔ)器傳遞數(shù)字語(yǔ)音處理數(shù)據(jù)前,應(yīng)先經(jīng)由高達(dá)分頻,縮減數(shù)字語(yǔ)音數(shù)據(jù)頻率,保留其中的重要波形。
高達(dá)分頻不但可以減輕存儲(chǔ)器的存儲(chǔ)壓力,也為無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)節(jié)約了識(shí)別時(shí)間。存儲(chǔ)器接收到已處理的數(shù)字語(yǔ)音數(shù)據(jù),并存儲(chǔ)成功后,數(shù)字語(yǔ)音處理模塊會(huì)將存儲(chǔ)數(shù)據(jù)傳輸?shù)綌?shù)字語(yǔ)音識(shí)別模塊。
1.3 數(shù)字語(yǔ)音識(shí)別模塊設(shè)計(jì)
通過數(shù)字語(yǔ)音處理模塊對(duì)數(shù)字語(yǔ)音進(jìn)行一系列處理工作,為用戶提供更準(zhǔn)確的數(shù)字語(yǔ)音識(shí)別。
無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)利用可編程中斷控制器進(jìn)行數(shù)字語(yǔ)音的識(shí)別工作。數(shù)字語(yǔ)音識(shí)別的難點(diǎn)在于如何有效避免環(huán)境噪音、用戶口音和非目標(biāo)詞匯對(duì)識(shí)別工作的干擾。為此,可編程中斷控制器選用國(guó)內(nèi)某科技公司開發(fā)的QGDH710 語(yǔ)音識(shí)別芯片。
QGDH710芯片采用可外設(shè)接口的雙向16 b語(yǔ)音轉(zhuǎn)換器,并配置了高效能的數(shù)字語(yǔ)音功率放大器,可對(duì)多因素干擾下的數(shù)字語(yǔ)音進(jìn)行有效識(shí)別。QGDH710芯片的接口類型多種多樣,可給予無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)較強(qiáng)的可移植性。
可編程中斷控制器將數(shù)字語(yǔ)音處理模塊傳輸來(lái)的數(shù)字語(yǔ)音數(shù)據(jù)轉(zhuǎn)換成語(yǔ)音格式。與初始語(yǔ)音相比,經(jīng)處理過的語(yǔ)音更加清晰、占用內(nèi)存更小、語(yǔ)調(diào)更為標(biāo)準(zhǔn),能夠保障無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確性。
數(shù)字語(yǔ)音識(shí)別模塊能夠通過可編程中斷控制器將數(shù)字語(yǔ)音準(zhǔn)確識(shí)別出來(lái),進(jìn)而獲取到用戶所需的控制指令。該指令通過QGDH710芯片提供的數(shù)據(jù)傳輸接口反饋到無(wú)線通信模塊。圖3是可編程中斷控制器中QGDH710芯片串口通信電路圖。
由圖3可知,可編程中斷控制器利用QGDH710芯片為用戶提供APP調(diào)試接口,用戶可將其自主編輯的APP納入到QGDH710芯片中進(jìn)行調(diào)試。數(shù)字語(yǔ)音識(shí)別模塊通過上述電路與無(wú)線通信模塊進(jìn)行數(shù)據(jù)傳輸。
1.4 無(wú)線通信模塊設(shè)計(jì)
無(wú)線通信模塊利用ZigBee通信技術(shù),把無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)與用戶的無(wú)線通信設(shè)備連接起來(lái),實(shí)現(xiàn)數(shù)字語(yǔ)音對(duì)無(wú)線通信的準(zhǔn)確控制。
無(wú)線通信模塊采用CC2520射頻收發(fā)器,其傳輸安全性較高并可為用戶提供幀管控和指令緩沖等功能。圖4是CC2520射頻收發(fā)器結(jié)構(gòu)圖。
由圖4可知,當(dāng)CC2520收到數(shù)字語(yǔ)音識(shí)別模塊發(fā)送的指令后,先將指令低頻放大至中頻,再經(jīng)數(shù)字調(diào)節(jié)器將指令的語(yǔ)音格式轉(zhuǎn)換為數(shù)字格式。其轉(zhuǎn)換過程主要包括信號(hào)增益、通信通道篩選、解擴(kuò)和數(shù)據(jù)對(duì)應(yīng)等。
指令經(jīng)上述處理后,CC2520射頻收發(fā)器將開始指令的無(wú)線通信。其先進(jìn)行指令再處理,隨后將指令傳輸?shù)接脩魺o(wú)線通信設(shè)備中。數(shù)字格式指令中具有相同向量值的頻率可經(jīng)數(shù)/模轉(zhuǎn)換輸出語(yǔ)音模擬信號(hào),而向量值不同的數(shù)字指令將進(jìn)行頻率合成。因頻率合成操作受邏輯控制,故合成后的向量值應(yīng)是相等的,此時(shí)再將其轉(zhuǎn)換成語(yǔ)音模擬信號(hào)。
CC2520射頻收發(fā)器選用的傳輸方法是差分法。差分法對(duì)電路負(fù)載具有一定的要求,若CC2520射頻收發(fā)器接收到的指令會(huì)造成電路負(fù)載超標(biāo),差分法將自動(dòng)關(guān)閉CC2520射頻收發(fā)器,這樣則會(huì)影響整個(gè)無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的傳輸效率。為此,在無(wú)線通信模塊電路中加入了指令轉(zhuǎn)換電路,該電路內(nèi)置單相接收天線、單片微控制器和計(jì)時(shí)器,嚴(yán)格限制指令的超負(fù)載傳輸。
2 無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)實(shí)現(xiàn)
無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的功能實(shí)質(zhì)為虛擬流程識(shí)別系統(tǒng),其數(shù)字語(yǔ)音處理模塊、數(shù)字語(yǔ)音識(shí)別模塊和無(wú)線通信模塊,可被分別看作標(biāo)準(zhǔn)虛擬流程識(shí)別系統(tǒng)的特性煉化、標(biāo)準(zhǔn)匹配和標(biāo)準(zhǔn)傳輸三項(xiàng)虛擬處理功能,這些功能將在用戶無(wú)線通信設(shè)備的軟件中顯示。為了更好地便于用戶理解和使用,無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)還將系統(tǒng)中的一些重要處理流程編制成功能列表,其虛擬功能圖如圖5所示。
由圖5可知,無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)為用戶無(wú)線通信設(shè)備軟件提供了8種處理功能,這8種處理功能相互套用處理,為用戶提供了較好的服務(wù)。
(1) 特性煉化、標(biāo)準(zhǔn)匹配、標(biāo)準(zhǔn)傳輸。此三者是功能主項(xiàng),可滿足用戶80%的使用需求;
(2) 語(yǔ)音預(yù)處理。反復(fù)進(jìn)行數(shù)字語(yǔ)音指令的去噪、格式轉(zhuǎn)換、濾波等操作;
(3) 端點(diǎn)檢測(cè)。實(shí)現(xiàn)用戶對(duì)無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)的硬件檢測(cè)和軟件清理;
(4) 識(shí)別決策、指令輸出。為用戶提供個(gè)性化決策控制,用戶可經(jīng)由這兩個(gè)功能預(yù)設(shè)數(shù)字語(yǔ)音所對(duì)應(yīng)的指令;
(5) 數(shù)字語(yǔ)音加重。在無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)成功獲取到初始數(shù)字語(yǔ)音后,此時(shí)用戶可通過數(shù)字語(yǔ)音加重功能重復(fù)播放數(shù)值語(yǔ)音指令。虛線框代表待選添加功能。由于這一功能并不常用,故將其自動(dòng)隱藏,縮減用戶無(wú)線通信設(shè)備軟件的內(nèi)存占用率。
由于數(shù)字語(yǔ)音在重復(fù)播放中會(huì)消耗一定的能量,致使播放效果逐漸降低,故在每一次重復(fù)播放前,系統(tǒng)軟件將對(duì)數(shù)字語(yǔ)音進(jìn)行加重處理,其數(shù)學(xué)表達(dá)式為:
[H(Z)=1-uZ-1]
式中:[H(Z)]是數(shù)字語(yǔ)音加重標(biāo)準(zhǔn)值;[u]是加重因子,取值0.938;[Z]是初始數(shù)字語(yǔ)音聲音值。
3 實(shí)驗(yàn)分析
系統(tǒng)的準(zhǔn)確性通過基于HMM的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)和本文系統(tǒng)的兩項(xiàng)對(duì)比實(shí)驗(yàn)驗(yàn)證。準(zhǔn)確性驗(yàn)證實(shí)驗(yàn)1在安靜環(huán)境中以無(wú)口音朗讀數(shù)字的條件下進(jìn)行,準(zhǔn)確性驗(yàn)證實(shí)驗(yàn)2則在嘈雜環(huán)境中以有口音朗讀數(shù)字的條件下進(jìn)行。兩實(shí)驗(yàn)結(jié)果如表1和表2所示。
由表1和表2中的數(shù)據(jù)可知,本文系統(tǒng)在安靜環(huán)境、嘈雜環(huán)境和用戶口音存在的情況下,均能對(duì)數(shù)字語(yǔ)音進(jìn)行較好識(shí)別,其識(shí)別準(zhǔn)確率均維持在98.3%以上;而基于HMM的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)在嘈雜環(huán)境和用戶口音存在的情況下,識(shí)別準(zhǔn)確率明顯下降,但識(shí)別準(zhǔn)確率也可維持在91.5%以上,證明該系統(tǒng)存在較大的可優(yōu)化余地。以上結(jié)果能夠驗(yàn)證本文系統(tǒng)具有較高的準(zhǔn)確性。
可移植性是判斷本文系統(tǒng)能否有效連接用戶無(wú)線通信設(shè)備的憑證,可移植性高的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)也是該領(lǐng)域的發(fā)展趨勢(shì)。圖6是本文系統(tǒng)、基于HMM的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)可移植曲線圖。
由圖6可知:基于HMM的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng)可移植性曲線一直低于本文系統(tǒng),可見本文系統(tǒng)具有較高的可移植性。
4 結(jié) 論
本文開發(fā)一種準(zhǔn)確性較高、可移植性較強(qiáng)的無(wú)線通信數(shù)字語(yǔ)音識(shí)別系統(tǒng),該系統(tǒng)的核心元件為C6727DSP芯片、QGDH710 語(yǔ)音識(shí)別芯片和CC2520射頻收發(fā)器。C6727DSP芯片進(jìn)行數(shù)字語(yǔ)音的前期處理工作。QGDH710 語(yǔ)音識(shí)別芯片對(duì)處理后的數(shù)字語(yǔ)音進(jìn)行識(shí)別,并將其識(shí)別出的指令反饋到CC2520射頻收發(fā)器。CC2520射頻收發(fā)器進(jìn)行指令的格式轉(zhuǎn)換工作,并將指令傳輸?shù)接脩魺o(wú)線通信設(shè)備中,最終實(shí)現(xiàn)數(shù)字語(yǔ)音識(shí)別系統(tǒng)在無(wú)線通信中的有效利用。為方便用戶進(jìn)行系統(tǒng)操作,給出用戶無(wú)線通信設(shè)備虛擬功能圖。經(jīng)實(shí)驗(yàn)驗(yàn)證可知,所設(shè)計(jì)系統(tǒng)準(zhǔn)確性較高,具有高度可移植性。
參考文獻(xiàn)
[1] 王威,胡桂明,楊麗,等.基于ELM和PCA的漢語(yǔ)數(shù)字語(yǔ)音識(shí)別研究[J].電聲技術(shù),2015,39(11):49?53.
[2] 陳孟元.基于改進(jìn)型DTW算法和MFCC的語(yǔ)音識(shí)別[J].安徽工程大學(xué)學(xué)報(bào),2014,29(1):53?57.
[3] 陳斌,張連海,牛銅,等.基于MCE準(zhǔn)則的語(yǔ)音識(shí)別特征線性判別分析[J].自動(dòng)化學(xué)報(bào),2014,40(6):1208?1215.
[4] 李余芳,蘇潔,胡文君,等.基于HTK的普米語(yǔ)孤立詞的語(yǔ)音識(shí)別[J].云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,24(5):426?430.
[5] 趙海峰,毛文博,凌花,等.指揮員命令語(yǔ)音識(shí)別算法[J].指揮信息系統(tǒng)與技術(shù),2014,5(2):31?35.
[6] 陳可新,黃偉民.基于Asterisk的語(yǔ)音識(shí)別技術(shù)研究和實(shí)現(xiàn)[J].長(zhǎng)春師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,34(3):44?46.
[7] 栗小艷,唐杰,王旸,等.超聲語(yǔ)音識(shí)別系統(tǒng)的研發(fā)及臨床應(yīng)用[J].臨床醫(yī)學(xué)工程,2015,22(9):1133?1135.
[8] 吳蔚瀾,蔡猛,田垚,等.低數(shù)據(jù)資源條件下基于Bottleneck特征與SGMM模型的語(yǔ)音識(shí)別系統(tǒng)[J].中國(guó)科學(xué)院大學(xué)學(xué)報(bào),2015,32(1):97?102.
[9] 張毅,黎小松,羅元,等.基于人耳聽覺特性的語(yǔ)音識(shí)別預(yù)處理研究[J].計(jì)算機(jī)仿真,2015,32(12):322?326.