梁漢泉,陳錦彪
(廣東電網有限責任公司 佛山供電局,廣東 佛山 528000)
基于語音控制的人機交互智能系統(tǒng)研究*
梁漢泉,陳錦彪
(廣東電網有限責任公司 佛山供電局,廣東 佛山 528000)
摘要:語音控制是當前最具發(fā)展前景的新興技術之一,目前已廣泛應用于車載終端、智能機器人等場合。對語音識別在玩具車上的應用進行了深入研究?;诟叨燃傻腄SP芯片進行語音控制系統(tǒng)的設計,使用了雙硅麥減噪,能夠獲取到清晰的音頻數(shù)據(jù)。根據(jù)DTW算法和動態(tài)模板匹配,對輸入語音信號進行了端點檢測,對特定人的孤立詞進行了識別。當多個語意近似詞匯無法準確識別時,提供選擇處理,使語音引擎對音質、音色的區(qū)別進行了靈活的處理,提高了識別率和用戶體驗感受。該語音識別在正常生活環(huán)境中進行了測試,能適應日常生活或工作環(huán)境。研究結果表明,此方案和算法具有準確的識別效果。
關鍵詞:語音控制;人機交互;智能系統(tǒng);研究
語言是人類進行信息表達的最自然的手段。隨著技術的發(fā)展,以語音識別為核心的語音控制在汽車聲控、自動售票、智能玩具和智能家具等方面的應用越來越廣泛。語音控制方式的人機交互具有快捷、簡便的顯著優(yōu)點,但由于人類語言的多樣化,語音控制的實現(xiàn)也存在一定的復雜性,需要在實踐中不斷研究并加以提升。筆者結合多年工作經驗,設計了一套語音控制系統(tǒng),其特點是關鍵詞語列表可以任意動態(tài)編輯,小體積、低功耗和可通用,因此有著廣泛的應用前景。
1語音控制原理
語音控制的實現(xiàn)包含2個基本環(huán)節(jié)[1]:1)語音識別;2)語音與計算機交互。
1.1語音識別
語音識別的過程主要分2個階段[2]:1)訓練階段;2)識別階段。訓練階段是通過用戶輸入若干次訓練語音,經過預處理和特征提取后得到特征參數(shù),最后通過特征參數(shù)建模達到建立訓練語音的參考模型庫的目的;而識別階段是將輸入語音的特征矢量參數(shù)和參考模型庫中的參考模型進行相似性度量比較,然后把相似性最高的輸入特征矢量作為識別結果輸出,從而達到語音識別的目的。語音識別的工作原理如圖1所示。
圖1 語音識別的工作原理
語音識別的關鍵技術包括:1)預處理,主要要做好語音識別基元選取和端點檢測,可采用的技術有反混疊濾波、模/數(shù)轉換和預加重等;2)特征提取,常用的特征采集函數(shù)為倒譜、共振峰、線性預測系數(shù)、平均能量和過零數(shù)等;3)距離測度,常用的方法有HMM距離測度、似然比測度和歐氏距離測度等。
1.2語音與計算機交互
該環(huán)節(jié)的過程為經識別的語音轉換成字符,計算機尋找與字符相匹配的指令集并調用相關指令,然后經計算機指令接口去觸發(fā)指令所代表的操作。關于第三方軟件的語音操作,可以通過統(tǒng)一的語音指令接口,由第三方軟件監(jiān)聽相應的指令從而實現(xiàn)對第三方軟件的語音操作。
2語音控制系統(tǒng)的設計
2.1總體設計方案
目前,適用于語音控制的硬件芯片全部基于嵌入式原理[3],具有代表性的有三星公司的S3C2440A、凌陽的SPCE061A和I-CRoute的LD332X等。考慮到語音處理涉及的數(shù)據(jù)運算量大,數(shù)據(jù)算法復雜,筆者結合現(xiàn)實環(huán)境,選用集中性強、功耗低的DSP類芯片來進行系統(tǒng)設計。系統(tǒng)總體框架如圖2所示。
圖2 語音控制系統(tǒng)的總體框架
SDRAM為數(shù)據(jù)存儲器,F(xiàn)LASH為程序存儲器,RPT2000為無線收發(fā)模塊,語音編解碼芯片為TLV320AIC23 B。經由麥克風的語音通過音頻解碼處理后傳送給DSP芯片,DSP根據(jù)預設算法進行分析,識別出語音控制命令。語音命令一方面送LCD顯示,另一方面通過無線方式與智能設備實現(xiàn)交互。
2.2語音識別的算法選擇
從計算量、移植便利性和語音識別率等多方面綜合考慮,本文選用DTW算法來作為本設計的算法。該算法的主要邏輯公式為[4]:
(1)
2.3系統(tǒng)軟件實現(xiàn)
軟件編制流程圖如圖3所示。
圖3 語音控制系統(tǒng)的軟件編制流程圖
語音編制解碼芯片與DSP之間用I2C總線互聯(lián),系統(tǒng)啟動時,DSP通過CSL片上支持庫和MCBSP串口來分別完成對TLV320 AIC23的配置和讀寫操作。存儲器通過EMIF口與DSP進行雙向通信,主要存儲聚類過程中的模板。無線收發(fā)模塊有7個引腳,引腳功能配置通過DSP的I/O口進行。
3基于語音控制的智能系統(tǒng)結構
從工作模塊上講,基于語音控制的智能系統(tǒng)一般包括3個組成部分:上位機部分、區(qū)域控制器部分和核心控制中心。其中:1)上位機支持麥克風作為語音輸入接口,主要負責智能系統(tǒng)的系統(tǒng)管理、實時狀態(tài)監(jiān)控等,是人機交互主界面;2)區(qū)域控制器由DSP處理器、外擴存儲器、CAN總線模塊和電源管理模塊等組成,負責指令的解析(包括經語音識別產生的指令)、信息的處理;3)核心控制中心的構成與區(qū)域控制器類似,唯有增加了編碼器接口模塊以及可能的電動機驅動模塊(如機器人控制就需要用到電動機驅動模塊),負責完成指令的終極執(zhí)行。
基于語音控制的智能系統(tǒng)工作模式如下:1)用戶的語音指令經麥克風輸入,上位機處理后產生計算機能理解的程序代碼;2)區(qū)域控制器通過通信網絡(如以太網)接收上位機給出的程序代碼,并進行解析計算,產生各類控制量;3)核心控制中心通過CAN總線接收控制量信息,輸出最終的控制信號,完成指令的執(zhí)行。
4性能測試
4.1計算機仿真
對本文設計的語音控制系統(tǒng)進行簡單的計算機仿真,其結果見表1。其中,模板1表示對“1”的聚類,模板2表示對“2”的聚類,其余類推。顯然,在語音輸入“2”時,系統(tǒng)檢測到模板2與其最接近,因此判斷為“2”;在語音輸入“8”時,系統(tǒng)檢測到模板8與其最接近,因此判斷為“8”。仿真結果初步顯示了系統(tǒng)的有效性和正確性。
4.2用于對玩具小車的測試
將本次設計的語音控制系統(tǒng)用于玩具小車,分別針對2種情況進行測試:1)輸入語音的時間固定(如3 s);2)輸入語音為語音流,即長短不一,需要進行端點檢測。為了保證檢測效果的合理性,在試驗中選擇了5個不同音色的人進行語音命令的發(fā)布。檢測結果的匯總(每次測試100遍)見表2。
表1 語音控制系統(tǒng)識別效果的計算機仿真
表2 不同音色人員應用語音控制系統(tǒng)的實際結果
實驗室測試結果顯示,本次設計的語音控制系統(tǒng)的控制成功率>98%,因此滿足國家要求,可將其投用于實際生產中。同時應認識到,測試樣本是基于實驗室環(huán)境的純凈樣本,當周邊噪聲增強時,識別率可能會有所下降。這也說明,語音控制的關鍵是要做輸入語音的預處理工作。
5提高語音識別率的措施探討
筆者結合多年工作經驗,總結出如下幾個提升語音控制水平的措施:1)盡量使用標準化語法、格式化語法進行命令表述;2)對應用系統(tǒng)的專業(yè)性詞匯進行容錯、近似詞匯定義;3)為應對標準語法命令(前半部分為指令抬頭,后半部分為執(zhí)行內容),應將識別文本定義為類似DOS命令及其參數(shù)格式的樣子,建立標準的指令通信接口和標準指令集;4)對存在多個近似詞匯的情形,可將疑似信息全部輸出,然后采用選擇題方法供用戶確認,這樣一方面增加了體驗感,另一方面也提高了準確性。
6結語
利用語音控制實現(xiàn)人機交互,一方面解放施令方的雙手,另一方面也便于實現(xiàn)遠程控制??梢哉f,語音控制技術是時代的前沿,也是各行各業(yè)應用的趨勢,應該加以快速推廣。本文主要就語音控制系統(tǒng)的設計進行了研究,同時對語音控制系統(tǒng)如何融入整個人機交互的智能系統(tǒng)做了闡述。運用實例證明,本文構建的語音控制系統(tǒng)簡捷、有效。當然,因語音自身的復雜性,以及周邊環(huán)境的影響,今后語音控制系統(tǒng)應在容錯、降噪等方面進行深入研究。
參考文獻
[1] 金鑫. 基于LD3320的語音控制系統(tǒng)設計實現(xiàn)[J]. 電腦與信息技術, 2011, 19(6):38-39.
[2] 鄭微. 基于DSP的智能語音控制系統(tǒng)設計[J]. 傳感器與微系統(tǒng), 2012, 31(2):48-50.
[3] 夏峰. 語音控制的多功能車載終端系統(tǒng)的設計與實現(xiàn)[J]. 機電一體化, 2013, 6(9):173-174.
[4] 于春雪. 嵌入式語音控制選單系統(tǒng)的實現(xiàn)與應用[J]. 電聲技術, 2012, 2(1):13-14.
* 中國南方電網有限責任公司科技項目(030600KK52140058)
責任編輯鄭練
Intelligent System Research based on Voice Control Human-computer Interaction
LIANG Hanquan, CHEN Jinbiao
(Foshan Power Supply Bureau, Guangdong Power Grid Co., Ltd., Foshan 528000, China)
Abstract:The voice control is one of the most promising emerging technologies, and it currently has been widely used in automotive terminals, intelligent robot, etc. The application of speech recognition in the toy car is studied. By DSP chips for voice control system based on a highly integrated design, use the double silicon wheat noise reduction to achieve the audio data clearly. Based on DTW algorithm and dynamic template matching, the input speech in signal endpoint is detected, and someone's isolated word is recognized. When multiple semantic approximation vocabulary is failed to be correctly identified, provide selection processing, make the speech engine timbre and tone color different for the flexible processing, improve the recognition rate and the user experience. The speech recognition is tested in the normal life environment, and it can adapt to application in daily life or work environment. The results show that the scheme and algorithm has accurate recognition effect.
Key words:voice control, human-computer interaction, intelligent system, research
收稿日期:2015-05-15
作者簡介:梁漢泉(1962-),男,高級工程師,主要從事軟件工程及智能化應用等方面的研究。
中圖分類號:TP 183
文獻標志碼:B