亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用

2015-07-09 21:40:50朱俊等

現(xiàn)代電子技術(shù) 2015年8期

朱俊等

摘要：語音控制技術(shù)作為一種有效的自動(dòng)化控制方法在航天領(lǐng)域有著廣闊的應(yīng)用前景。基于Kinect設(shè)備，將語音控制技術(shù)運(yùn)用于航天三維可視化系統(tǒng)的智能控制，通過語音指令采集、預(yù)處理、語音識(shí)別和三維可視化界面控制，實(shí)現(xiàn)了一套完整的航天三維可視化系統(tǒng)的語音控制方案。測(cè)試結(jié)果表明，該語音控制方案能有效識(shí)別用戶的語音命令，并完成對(duì)三維可視化界面的控制。

關(guān)鍵詞：語音控制；語音識(shí)別；航天三維可視化； Kinect

中圖分類號(hào)： TN912?34 文獻(xiàn)標(biāo)識(shí)碼： A 文章編號(hào)： 1004?373X（2015）08?0151?03

三維可視化展示在航天領(lǐng)域有著極其重要的地位，指揮顯示系統(tǒng)需要通過三維可視化展示向各級(jí)指揮員直觀地顯示航天器發(fā)射的過程。在實(shí)際應(yīng)用中，傳統(tǒng)的可視化控制方式是指揮員向可視化操作人員下達(dá)指令，然后由操作人員完成三維可視化系統(tǒng)的操作，包括視角的切換、推遠(yuǎn)、拉近以及關(guān)鍵動(dòng)作的控制等。這種控制模式在很大程度上限制了指揮員對(duì)于三維可視化系統(tǒng)的自由控制，并且加重了三維可視化操作人員的工作負(fù)擔(dān)。同時(shí)，傳統(tǒng)控制模式不能實(shí)現(xiàn)遠(yuǎn)距離控制，指揮員的位置與三維可視化操控臺(tái)要控制在一定的距離內(nèi)。而語音識(shí)別技術(shù)能夠很好地解決這些問題，通過語音識(shí)別技術(shù)，指揮員可直接向三維可視化服務(wù)器下達(dá)口令，無需通過操作人員進(jìn)行控制，并能解除指揮員與操控臺(tái)距離的限制。

語音識(shí)別技術(shù)是通過識(shí)別說話者聲音標(biāo)識(shí)而正確判斷出聲音所傳遞的信息，以方便實(shí)現(xiàn)相關(guān)處理和控制[1]。近年來該技術(shù)在軍事、工業(yè)、家電、通信、醫(yī)療[2]等諸多領(lǐng)域得到廣泛應(yīng)用，如電燈等家用電器的控制，通過語音識(shí)別可以實(shí)現(xiàn)設(shè)備的控制自動(dòng)化等[3]。張建等人將語音識(shí)別技術(shù)應(yīng)用到雷達(dá)模擬系統(tǒng)中，通過設(shè)置語音服務(wù)器將內(nèi)話通信系統(tǒng)與語音識(shí)別相結(jié)合，運(yùn)用語音命令輸入進(jìn)行模擬控制，降低了模擬機(jī)長(zhǎng)的工作負(fù)擔(dān)，提高了工作效率[4]。孫愛中等人對(duì)基于DSP的語音識(shí)別系統(tǒng)進(jìn)行了研究，實(shí)現(xiàn)了在移動(dòng)電子設(shè)備上的漢字語音輸入[5]。另外，語音識(shí)別技術(shù)在機(jī)器人控制[6]、機(jī)器狗控制系統(tǒng)模型[7] 方面也有應(yīng)用。隨著航空航天領(lǐng)域的發(fā)展，語音識(shí)別在機(jī)載語音控制方面也有相關(guān)研究[8]。

本文基于語音識(shí)別技術(shù)設(shè)計(jì)了一套航天可視化界面控制系統(tǒng)，通過識(shí)別三維可視化常用控制命令，實(shí)現(xiàn)指揮員對(duì)顯示頁面的直接語音控制，突破傳統(tǒng)指揮控制模式的局限性。

1 系統(tǒng)結(jié)構(gòu)

為實(shí)現(xiàn)通過語音技術(shù)對(duì)三維可視化頁面完成視角切換、場(chǎng)景放縮等語音控制功能，設(shè)計(jì)了如下步驟：第一步通過語音采集設(shè)備獲取指令；第二步運(yùn)用語音識(shí)別系統(tǒng)對(duì)獲取的指令進(jìn)行識(shí)別；第三步將識(shí)別出的指令傳遞給三維可視化服務(wù)器并觸發(fā)相應(yīng)控制動(dòng)作。

1.1 硬件結(jié)構(gòu)

硬件設(shè)備主要包括三個(gè)部分（如圖1所示）：語音指令采集器、指令識(shí)別服務(wù)器和三維可視化系統(tǒng)服務(wù)器。語音指令采集器主要用于捕獲語音指令，并將語音指令轉(zhuǎn)換成音頻流傳遞給指令識(shí)別服務(wù)器。

由于Kinect[9]在語音采集和識(shí)別方面有很多優(yōu)良的特性和廣泛的應(yīng)用，這里選擇了Kinect作為語音指令采集器。指令識(shí)別服務(wù)器的主要功能是對(duì)Kinect傳入的音頻進(jìn)行預(yù)處理和語音指令的識(shí)別，并將識(shí)別出的控制指令發(fā)送給三維可視化系統(tǒng)服務(wù)器。預(yù)處理包括背景噪音去除、回音去除、自動(dòng)增益控制等內(nèi)容。由于語音控制指令相對(duì)簡(jiǎn)單，并且指令識(shí)別服務(wù)器只需要對(duì)幾條固定的指令進(jìn)行正確識(shí)別，所以對(duì)于計(jì)算機(jī)硬件要求不高。因此，采用一臺(tái)普通的聯(lián)想辦公電腦作為指令識(shí)別服務(wù)器。三維可視化系統(tǒng)服務(wù)器要完成航天發(fā)射過程中各器件的三維模型和狀態(tài)的展示，并響應(yīng)從指令識(shí)別服務(wù)器獲取的指令，完成三維可視化頁面的操作和控制。由于三維可視化系統(tǒng)服務(wù)器在顯示各航天器件的三維可視化模型和圖像時(shí)計(jì)算資源開銷比較大，所以采用了配置較高的聯(lián)想工作站（ThinkStation D30）作為三維可視化系統(tǒng)服務(wù)器。

1.2 軟件模塊

系統(tǒng)軟件模塊主要包括語音預(yù)處理、語音指令識(shí)別、三維可視化界面控制三個(gè)模塊。

（1）語音預(yù)處理。從語音指令采集器獲取的原始音頻數(shù)據(jù)質(zhì)量較低，需要通過一系列算法處理來提高音頻數(shù)據(jù)質(zhì)量，主要處理包括回聲消除（Acoustic Echo Cancellation，AEC）、自動(dòng)增益控制（Acoustic Gain Control，AGS）和噪聲抑制（Noise Suppression，NS）?；芈曄ˋEC）通過提取發(fā)聲者的聲音模式，然后根據(jù)這一模式從麥克風(fēng)接收到的音頻中挑選出特定的音頻來消除回聲。自動(dòng)增益控制（AGS）用于調(diào)整發(fā)生者聲音振幅與時(shí)間保持一致。例如當(dāng)發(fā)聲者靠近或者遠(yuǎn)離麥克風(fēng)時(shí)，聲音會(huì)出現(xiàn)變得響亮或更柔和，自動(dòng)增益控制就是將這種變化效果進(jìn)一步增強(qiáng)。噪聲抑制（NS）用于從麥克風(fēng)接收到的音頻信號(hào)中剔除非語言聲音。通過刪除背景噪音，使講話者的聲音能夠被麥克風(fēng)更清楚更明確地捕獲到。

（2）語音指令識(shí)別。語音識(shí)別可分為兩類：對(duì)自由形式的語音識(shí)別（Recognition of Free?form Dictation）和對(duì)特定命令的識(shí)別（Recognition of Command）。自由形式的語音識(shí)別需要訓(xùn)練軟件來識(shí)別特定的聲音以提高識(shí)別精度，通常讓講話人朗讀一段文字使得軟件能夠識(shí)別講話人聲音的特征模式，然后根據(jù)這一特征模式來進(jìn)行識(shí)別。而特定命令的識(shí)別限制了說話人所講詞匯的范圍，基于這一詞匯范圍，識(shí)別軟件不需要熟悉講話人語音模式就可以識(shí)別出講話人所說的內(nèi)容。針對(duì)本文的應(yīng)用，語音識(shí)別引擎只需要識(shí)別幾種特定的語音指令，因此屬于對(duì)特定命令的識(shí)別。在實(shí)際應(yīng)用中，向語音識(shí)別引擎中添加了6種三維可視化界面控制常用的語音命令，包括“打開”、“點(diǎn)火”、“重置”、“推遠(yuǎn)”、“拉近”、“切換”。語音識(shí)別引擎對(duì)上述6種指令進(jìn)行識(shí)別，并向三維可視化界面控制模塊發(fā)送控制信號(hào)。

（3）三維可視化界面控制。三維可視化界面控制模塊能夠接受語音指令識(shí)別模塊發(fā)送的6種語音指令，并觸發(fā)每個(gè)指令所對(duì)應(yīng)的事件，調(diào)用一些控制三維可視化界面的函數(shù)，實(shí)現(xiàn)對(duì)三維可視化界面的控制。例如，當(dāng)接受到“打開”命令信號(hào)時(shí)，三維可視化界面控制模塊觸發(fā)“打開”所對(duì)應(yīng)的事件，可視化界面會(huì)開始展示發(fā)射塔架抱臂打開的三維動(dòng)畫。

2 基于Kinect的語音控制系統(tǒng)

Kinect被譽(yù)為和鼠標(biāo)一樣偉大的人機(jī)交互方式，其提供的動(dòng)作識(shí)別、手勢(shì)識(shí)別和語音識(shí)別功能在醫(yī)療、教育、科研以及娛樂等多個(gè)領(lǐng)域都有令人驚嘆的應(yīng)用。針對(duì)航天三維可視化系統(tǒng)的語音控制這一實(shí)際需求，采用Kinect提供的強(qiáng)大語音識(shí)別功能來實(shí)現(xiàn)對(duì)航天三維可視化界面的智能控制。

Kinect配備有麥克風(fēng)陣列用于采集用戶的語音音頻數(shù)據(jù)，其麥克風(fēng)陣列包含4個(gè)相互獨(dú)立的朝向下方的小型麥克風(fēng)，能夠捕捉多聲道立體聲音。值得一提的是，微軟認(rèn)為最佳的聲音收集方向應(yīng)該是朝下的。因此，Kinect設(shè)計(jì)了朝下的麥克風(fēng)陣列用于盡可能地獲取優(yōu)質(zhì)聲音信號(hào)以及判斷不同方向的聲源。與普通單麥克風(fēng)采集的數(shù)據(jù)相比，Kinect陣列技術(shù)包含了噪聲抑制（NS）、回聲消除（AEC）以及自動(dòng)增益控制（AGS）等多種預(yù)處理，盡可能避免了環(huán)境噪聲的影響，大大提高了采集的語音數(shù)據(jù)質(zhì)量。正是因?yàn)镵inect在高質(zhì)量地采集用戶語音數(shù)據(jù)方面展現(xiàn)出來的優(yōu)良性能，才促使在實(shí)際采集用戶語音命令時(shí)選擇Kinect作為語音采集設(shè)備。

為了方便開發(fā)人員基于Kinect進(jìn)行開發(fā)，微軟提供的Kinect SDK允許開發(fā)者借助Visual Studio，利用C++或C#等語言進(jìn)行相關(guān)應(yīng)用的開發(fā)[10]。針對(duì)本文涉及的語音指令識(shí)別應(yīng)用，主要用到Kinect SDK中封裝的KinectAudioSource和SpeechRecognitionEngine兩個(gè)類。通過設(shè)置KinectAudioSource對(duì)象提供的功能屬性NoiseSuppression、EchoCancellationMode和AutomaticGainControlEnabled的屬性值，就可以很方便地

實(shí)現(xiàn)語音原始數(shù)據(jù)的預(yù)處理，具體屬性值如表1所示。SpeechRecognitionEngine是基于Microsoft.Speech類庫(kù)實(shí)現(xiàn)的語音命令識(shí)別，它可以分析和解譯預(yù)處理后的音頻數(shù)據(jù)流，然后匹配出最合適的語音命令。語音識(shí)別引擎會(huì)對(duì)音頻數(shù)據(jù)流中的特定單元設(shè)定一定的可信度權(quán)重，并有選擇地過濾不包含特定待識(shí)別命令的音頻數(shù)據(jù)流。待識(shí)別命令集可以通過GrammarBuilder類進(jìn)行建立和添加。在本文中，通過GrammarBuilder類添加了包含“打開”、“點(diǎn)火”、“重置”、“推遠(yuǎn)”、“拉近”、“切換”6種語音命令的待識(shí)別命令集，SpeechRecognitionEngine會(huì)查找和識(shí)別這6種語音指令，并向三維可視化界面控制模塊發(fā)送相應(yīng)控制信號(hào)。另外，Kinect SDK不支持中文語音識(shí)別，添加了微軟中文語音識(shí)別功能，實(shí)現(xiàn)了基于Kinect中文語音指令識(shí)別。

3 實(shí)驗(yàn)結(jié)果與分析

為了檢驗(yàn)本文設(shè)計(jì)的語音控制系統(tǒng)在航天三維可視化界面控制中的效果，選取了男女各一名，在不同噪聲背景下，向語音指令采集設(shè)備發(fā)出6種語音命令20次，以測(cè)試是否正確控制界面。考慮到實(shí)際應(yīng)用中，指揮員在下達(dá)控制口令時(shí)環(huán)境中可能存在不同程度的背景噪聲，因此，在測(cè)試時(shí)設(shè)置三種不同強(qiáng)度的背景噪音，以檢測(cè)本語音控制系統(tǒng)的抗噪能力。三種背景噪聲非別設(shè)定為低噪音（20～40 dB）、中噪音（40～60 dB）、高噪音（60～80 dB）。詳細(xì)測(cè)試結(jié)果見表2。

表1 KinectAudioSource類功能屬性的詳細(xì)信息

通過表2的測(cè)試統(tǒng)計(jì)數(shù)據(jù)可以看出，在各種不同條件下，運(yùn)用語音識(shí)別技術(shù)對(duì)航天三維可視化系統(tǒng)進(jìn)行控制均能夠達(dá)到較高的正確率，能夠滿足航天領(lǐng)域的實(shí)際需求。其中，在低噪音下的控制正確率能達(dá)到90%以上，隨著環(huán)境噪音增強(qiáng)，界面控制的正確率有所下降，這和最初的估計(jì)一致?？紤]到實(shí)際發(fā)射時(shí)，現(xiàn)場(chǎng)環(huán)境的噪聲不會(huì)太高，因此本語音控制系統(tǒng)的抗噪能力可以達(dá)到實(shí)際應(yīng)用的要求。

4 結(jié) 語

本文研究了語音控制技術(shù)在航天三維可視化系統(tǒng)中的應(yīng)用，并基于Kinect的語音處理和識(shí)別系統(tǒng)具體實(shí)現(xiàn)了對(duì)航天三維可視化界面的語音控制，取得了初步研究成果。目前，只實(shí)現(xiàn)了6種最常用的三維可視化界面語音控制，但隨著航天三維可視化技術(shù)的發(fā)展，必然對(duì)三維可視化界面控制提出更高的要求，屆時(shí)將進(jìn)一步豐富和完善本文實(shí)現(xiàn)的語音控制系統(tǒng)。另外，隨著語音控制技術(shù)進(jìn)一步發(fā)展，將深入發(fā)掘該技術(shù)在航天領(lǐng)域的其他應(yīng)用潛力。

參考文獻(xiàn)

[1] SHANNON R V， ZENG F G， KAMATH V， et al. Speech recognition with primarily temporal cues [J]. Science， 1995， 270（5234）： 303?304.

[2] HAWLEY M S， ENDERBY P， GREEN P， et al. A speech?controlled environmental control system for people with severe dysarthria [J]. Medical Engineering & Physics， 2007， 29（5）： 586?593.

[3] 徐子豪，張騰飛.基于語音識(shí)別和無線傳感網(wǎng)絡(luò)的智能家居系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)測(cè)量與控制，2012，20（1）：180?183.

[4] 張健，譚景信.語音命令識(shí)別技術(shù)及其在雷達(dá)模擬機(jī)中的應(yīng)用技術(shù)及其在雷達(dá)模擬[J].計(jì)算機(jī)工程與設(shè)計(jì)，2010，31（3）： 655?659.

[5] 孫愛中，劉冰，張琬珍，等.基于DSP的語音識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù)，2013，36（9）：76?78.

[6] ROGALLA O， EHRENMANN M， ZOLLNER R， et al. Using gesture and speech control for commanding a robot assistant [C]// Proceedings of 2002 11th IEEE International Workshop on Robot and Human Interactive Communication. [S.l.]： IEEE， 2002： 454?459.

[7] 閔華松，劉冬.王田苗智能機(jī)器狗的語音控制模型研究[J].計(jì)算機(jī)工程，2012，38（1）：188?191.

[8] 須明，王博，王凱.駕駛艙語音控制指令的設(shè)計(jì)問題討論[J].航空電子技術(shù)，2012，43（3）：39?43.

[9] 余濤.Kinect應(yīng)用開發(fā)實(shí)戰(zhàn)：用最自然的方式與機(jī)器對(duì)話[M].北京：機(jī)械工業(yè)出版社，2012.