劉立輝,楊 毅,王旭陽(yáng),徐 磊
(中國(guó)電子科學(xué)研究院,北京 100041)
機(jī)載任務(wù)系統(tǒng)語(yǔ)音交互技術(shù)應(yīng)用研究
劉立輝,楊 毅,王旭陽(yáng),徐 磊
(中國(guó)電子科學(xué)研究院,北京 100041)
針對(duì)大型機(jī)載任務(wù)系統(tǒng)人機(jī)工效提升問(wèn)題,文中采用一種適用于新系統(tǒng)研制和現(xiàn)有系統(tǒng)改造的語(yǔ)音交互技術(shù)應(yīng)用方法,以實(shí)現(xiàn)通過(guò)語(yǔ)音技術(shù)提升系統(tǒng)人機(jī)工效的目的。該方法基于MVC分層架構(gòu),在各個(gè)層次上構(gòu)建語(yǔ)音功能模塊,包括針對(duì)機(jī)載任務(wù)系統(tǒng)的語(yǔ)音詞庫(kù)、應(yīng)用開發(fā)庫(kù)和語(yǔ)音交互插件,并定義3個(gè)層次模塊之間的交互接口。該方法最大限度實(shí)現(xiàn)了語(yǔ)音功能的獨(dú)立性。在部分典型機(jī)載任務(wù)對(duì)比試驗(yàn)中,采用該方法構(gòu)建的語(yǔ)音交互系統(tǒng)提升人機(jī)工效15%以上。
機(jī)載任務(wù)系統(tǒng);語(yǔ)音交互;人機(jī)交互;人機(jī)工效
隨著人工智能技術(shù)的迅猛發(fā)展,國(guó)內(nèi)外針對(duì)智能交互技術(shù)的研究日益廣泛。從人機(jī)交互角度來(lái)看,改善信息輸入手段、減少人工操作時(shí)間,是提高信息系統(tǒng)效率的重要手段[1]。在裝備領(lǐng)域,“以人為本”、致力于操作員舒適性的新型人機(jī)交互技術(shù)應(yīng)用是裝備發(fā)展的必然趨勢(shì)。
視覺(jué)和聽覺(jué)是人類獲取外界信息的最主要來(lái)源,語(yǔ)言是人類最重要、最有效、最常用和最方便的溝通方式[2]。自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)是目前最為成熟的人工智能技術(shù),已被廣泛應(yīng)用于車輛、船舶等系統(tǒng)中。開展機(jī)載環(huán)境下的任務(wù)系統(tǒng)語(yǔ)音交互技術(shù)研究,對(duì)于優(yōu)化系統(tǒng)人機(jī)工效,進(jìn)而提升整個(gè)系統(tǒng)的運(yùn)行效率,有著重要意義[3]。
本文提出一種適用于機(jī)載任務(wù)系統(tǒng)的語(yǔ)音交互技術(shù)應(yīng)用方法,并結(jié)合典型機(jī)載任務(wù)對(duì)比試驗(yàn),驗(yàn)證了語(yǔ)音交互技術(shù)對(duì)機(jī)載任務(wù)系統(tǒng)人機(jī)工效的改善效果。
人類對(duì)語(yǔ)音技術(shù)的研究始于上世紀(jì)五十年代,AT&T Bell 實(shí)驗(yàn)室實(shí)現(xiàn)了首個(gè)突破性成果——Audry系統(tǒng)。該系統(tǒng)是全球首個(gè)可識(shí)別10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。上世紀(jì)八十年代,隨著人工神經(jīng)元網(wǎng)絡(luò)(Artificial Neural Network,ANN)的成功應(yīng)用,語(yǔ)音技術(shù)得到了更進(jìn)一步的發(fā)展。上世紀(jì)九十年代,語(yǔ)音識(shí)別系統(tǒng)走出實(shí)驗(yàn)室,發(fā)展成為了實(shí)用產(chǎn)品。國(guó)外企業(yè)包括IBM、Apple、AT&T、Google等公司均致力于語(yǔ)音產(chǎn)品的研發(fā)[4]。IBM公司于1997 年開發(fā)出的ViaVoice語(yǔ)音識(shí)別系統(tǒng)帶有一個(gè)由32 000個(gè)單詞組成的基本詞匯表(可擴(kuò)展至65 000個(gè)單詞),平均識(shí)別率可以達(dá)到95%[2]。2006年,Hinton提出了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)技術(shù)[5],伴隨硬件性能的顯著提升和數(shù)據(jù)規(guī)模的爆發(fā),深度神經(jīng)網(wǎng)絡(luò)技術(shù)得到了長(zhǎng)足發(fā)展。語(yǔ)音識(shí)別技術(shù)在特定環(huán)境下的識(shí)別率已經(jīng)超越了人類[6]。
我國(guó)語(yǔ)音技術(shù)研究工作一直緊跟美國(guó),處于世界領(lǐng)先地位。中科院聲學(xué)所、自動(dòng)化所、清華大學(xué)、科大訊飛、百度、騰訊等科研機(jī)構(gòu)均參與了研究,并取得了高水平的科研成果,其中科大訊飛語(yǔ)音識(shí)別系統(tǒng)的中文識(shí)別率首次突破了97%。除此之外,語(yǔ)音技術(shù)不僅覆蓋了交通、教育、娛樂(lè)、金融等與人類生活息息相關(guān)的領(lǐng)域,還被應(yīng)用于國(guó)家戰(zhàn)略安全的相關(guān)領(lǐng)域。
近十余年,我國(guó)加快了大型機(jī)載任務(wù)系統(tǒng)的研制工作,已經(jīng)裝備了諸如新型戰(zhàn)斗機(jī)、預(yù)警機(jī)、偵察機(jī)、干擾機(jī)、反潛機(jī)等多門類的大型機(jī)載任務(wù)系統(tǒng),積累了大量運(yùn)行數(shù)據(jù)。其中,話音數(shù)據(jù)和指令數(shù)據(jù)對(duì)于裝備改進(jìn)研究具有重要意義。此類數(shù)據(jù)為機(jī)載語(yǔ)音識(shí)別、合成、翻譯等技術(shù)研究提供了數(shù)據(jù)基礎(chǔ)。
人機(jī)交互是機(jī)載任務(wù)系統(tǒng)運(yùn)行過(guò)程中的重要組成部分,人機(jī)交互效率嚴(yán)重制約著整個(gè)系統(tǒng)的運(yùn)行效率。目前,提升機(jī)載任務(wù)系統(tǒng)人機(jī)工效的主要措施包括針對(duì)屏幕畫面、鍵盤/鼠標(biāo)和座椅等設(shè)施的改進(jìn)。通過(guò)加裝語(yǔ)音交互功能提升大型機(jī)載任務(wù)系統(tǒng)人機(jī)工效的相關(guān)研究,尚處于早期試驗(yàn)階段。
與常規(guī)系統(tǒng)相比,機(jī)載任務(wù)系統(tǒng)通常應(yīng)用于救援系統(tǒng)或作戰(zhàn)裝備,具有更高的準(zhǔn)確性和穩(wěn)定性要求,其使用流程和應(yīng)用環(huán)境更為復(fù)雜。實(shí)驗(yàn)表明,直接將民用語(yǔ)音交互系統(tǒng)置于機(jī)載噪音環(huán)境下,其語(yǔ)音識(shí)別率不到65%,遠(yuǎn)遠(yuǎn)滿足不了此類系統(tǒng)的準(zhǔn)確性要求。
語(yǔ)音技術(shù)應(yīng)用于機(jī)載任務(wù)系統(tǒng)面臨諸多困難:
(1)魯棒性:語(yǔ)音系統(tǒng)對(duì)環(huán)境依賴性強(qiáng),要求測(cè)試條件和訓(xùn)練條件保持一致,否則系統(tǒng)性能會(huì)下降,尤其對(duì)于機(jī)載噪聲環(huán)境,會(huì)因人的情緒或心理變化導(dǎo)致語(yǔ)音發(fā)生改變,對(duì)于多操作員的機(jī)載任務(wù)系統(tǒng)是個(gè)難題[2];
(2)語(yǔ)音采集:即使在安靜環(huán)境下,語(yǔ)音系統(tǒng)一半以上的識(shí)別錯(cuò)誤來(lái)自于語(yǔ)音采集。在機(jī)載任務(wù)系統(tǒng)中適配安裝符合操作要求的采集設(shè)備是個(gè)難點(diǎn)[2];
(3)系統(tǒng)兼容:如何根據(jù)系統(tǒng)要求,選擇合適的計(jì)算單元和處理策略是語(yǔ)音處理的重中之重,影響著系統(tǒng)計(jì)算資源分配策略,在一定程度上,對(duì)系統(tǒng)主業(yè)務(wù)功能存在影響;
(4)操作兼容:在機(jī)載任務(wù)系統(tǒng)中集入語(yǔ)音交互功能,將在一定程度上改變操作員的現(xiàn)有操作習(xí)慣。要使操作員更加自然地接受新功能需要做大量的前期工作。
綜上所述,降噪技術(shù)和魯棒性技術(shù)是語(yǔ)音交互應(yīng)用的核心技術(shù)要求,對(duì)于提升復(fù)雜環(huán)境下的語(yǔ)音識(shí)別效果至關(guān)重要。語(yǔ)音引擎移植技術(shù)是機(jī)載任務(wù)系統(tǒng)語(yǔ)音交互功能集成的關(guān)鍵。
語(yǔ)音交互是眾多人機(jī)交互手段之一,是對(duì)傳統(tǒng)的基于GUI(Graphic User Interface)交互范式的指向型(Pointing)交互手段的一種補(bǔ)充,而非替代。語(yǔ)音交互的最大特點(diǎn)是可實(shí)現(xiàn)一語(yǔ)直達(dá)的“穿透式”命令控制,可顯著壓縮交互過(guò)程中的中間環(huán)節(jié)(如菜單瀏覽、選取等)。在設(shè)計(jì)語(yǔ)音交互系統(tǒng)時(shí),應(yīng)盡可能發(fā)揮其“穿透式”的交互效果,避免增加中間操作過(guò)程,使其在如下情況中突顯出快捷性。
(1)看不見(jiàn):當(dāng)被操控對(duì)象處于操作員有效視野(Useful Field of View, UFOV)之外(或處于隱藏狀態(tài))時(shí),適用“穿透式”的語(yǔ)音控制命令。例如,當(dāng)通信控制界面未被打開時(shí),操作員可直接發(fā)布“電臺(tái)開機(jī)”語(yǔ)音控制命令,完成對(duì)通信電臺(tái)工作狀態(tài)的更改設(shè)置;
(2)顧不上:當(dāng)操作員雙手忙于操縱其他設(shè)備的同時(shí),面臨突發(fā)緊急情況,可通過(guò)發(fā)布語(yǔ)音命令,實(shí)現(xiàn)對(duì)系統(tǒng)的多功能并行控制。在機(jī)載任務(wù)系統(tǒng)中加裝語(yǔ)音交互模塊,建議遵循如下原則:
(1)加裝語(yǔ)音功能,不應(yīng)破壞現(xiàn)有操作習(xí)慣,以疊加補(bǔ)充為主;
(2)語(yǔ)音控制命令應(yīng)便于記憶,且音調(diào)清晰,使操作員可以很方便地記憶并可準(zhǔn)確地口頭表述;
(3)語(yǔ)音功能模塊應(yīng)相對(duì)獨(dú)立,將對(duì)系統(tǒng)主業(yè)務(wù)功能的影響降到最低。
在機(jī)載任務(wù)系統(tǒng)中,常見(jiàn)的操作包括對(duì)話框操作、命令窗口操作、地圖操作、表格操作和文本對(duì)話操作等。然而,并非所有機(jī)載操作都適合應(yīng)用語(yǔ)音交互方式。經(jīng)過(guò)分析,適用于語(yǔ)音交互的應(yīng)用場(chǎng)景歸納總結(jié)如下:
(1)常用控制命令。語(yǔ)音交互的基礎(chǔ)是操作員和計(jì)算機(jī)通過(guò)一致對(duì)應(yīng)的命令詞表相互理解。操作員記憶力有限,過(guò)多的命令詞會(huì)增加操作員的記憶負(fù)荷,而計(jì)算機(jī)只能理解已注冊(cè)過(guò)的命令詞表。采用語(yǔ)音輸入時(shí),應(yīng)盡可能限定在常用命令范圍內(nèi),并且將語(yǔ)音命令詞表固化,避免頻繁改動(dòng);
(2)枚舉值輸入。語(yǔ)音輸入變量應(yīng)為可枚舉的有限離散變量。語(yǔ)音交互周期為從語(yǔ)音發(fā)出開始到計(jì)算機(jī)識(shí)別響應(yīng)為止。這個(gè)周期限制了語(yǔ)音交互的時(shí)效性,例如“地圖放大”操作更適合滑塊控制方式,而非操作員連續(xù)的語(yǔ)音輸入“放大!放大!…”。但是,對(duì)于地圖一次性放大N倍,采用語(yǔ)音控制就相對(duì)高效;
(3)精確表述短語(yǔ)。可精確表述的命令短語(yǔ)便于被計(jì)算機(jī)所理解,例如 “紅外設(shè)備開機(jī)”,簡(jiǎn)單明了且無(wú)二義性,適合采用語(yǔ)音控制方式。而難以精確表述的命令就不宜采用語(yǔ)音控制,例如 “圖片縮小”操作,需要操作員反復(fù)觀察判斷并持續(xù)反饋,不適合語(yǔ)音控制。在機(jī)載任務(wù)系統(tǒng)中,可精確表述的語(yǔ)音命令包括對(duì)象召喚(如對(duì)菜單、對(duì)話框等的調(diào)取)、檔位/開關(guān)設(shè)置(如工作狀態(tài)設(shè)置、圖層顯隱控制)等。當(dāng)計(jì)算機(jī)收到語(yǔ)音命令時(shí),經(jīng)過(guò)匹配解析,可映射為對(duì)某個(gè)對(duì)象的控制操作,例如計(jì)算機(jī)收到“打開通信參數(shù)”語(yǔ)音命令時(shí),彈出名稱為“通信參數(shù)”的對(duì)話框。又如語(yǔ)音命令“雷達(dá)低空開機(jī)”,可使“雷達(dá)參數(shù)”對(duì)話框中的“雷達(dá)低空開機(jī)”選項(xiàng)處于被選中狀態(tài),體現(xiàn)了語(yǔ)音控制的“穿透式”快捷性特點(diǎn);
(4)多槽命令輸入。語(yǔ)音命令還可支持同時(shí)對(duì)多個(gè)參數(shù)的設(shè)置(多槽命令詞),操作員可以一次性對(duì)多個(gè)參數(shù)進(jìn)行設(shè)置,例如語(yǔ)音命令“26001 26002合批”即可完成兩個(gè)批號(hào)目標(biāo)的“合批”操作。而采用鍵盤鼠標(biāo)操作,需要在對(duì)話框中分別輸入批號(hào)1“26001”和批號(hào)2“26002”后,再點(diǎn)擊“合批”按鈕,相對(duì)耗時(shí)更多,如圖1所示。
圖1 多槽命令詞輸入示意圖
在機(jī)載任務(wù)系統(tǒng)中集成語(yǔ)音模塊,需要兼顧考慮現(xiàn)有系統(tǒng)的人機(jī)交互架構(gòu),最大限度避免影響現(xiàn)有業(yè)務(wù)功能。實(shí)現(xiàn)時(shí)應(yīng)遵從MVC架構(gòu)設(shè)計(jì),將語(yǔ)音模塊進(jìn)行分層設(shè)計(jì),自下而上分為語(yǔ)音引擎、語(yǔ)音組件、語(yǔ)音插件3個(gè)部分。
語(yǔ)音引擎是實(shí)現(xiàn)語(yǔ)音識(shí)別和語(yǔ)音合成的核心模塊。語(yǔ)音組件實(shí)現(xiàn)語(yǔ)音交互控制的邏輯功能,將語(yǔ)音引擎接口封裝,向應(yīng)用層提供二次開發(fā)接口。語(yǔ)音插件實(shí)現(xiàn)機(jī)載任務(wù)系統(tǒng)的業(yè)務(wù)功能,通過(guò)語(yǔ)音接口調(diào)用語(yǔ)音基礎(chǔ)功能。語(yǔ)音模塊組成如圖2所示。
圖2 語(yǔ)音模塊組成圖
語(yǔ)音引擎可以運(yùn)行于可編程硬件板卡、也可以軟件形態(tài)運(yùn)行于常規(guī)操作系統(tǒng)。相對(duì)應(yīng)的,語(yǔ)音組件可實(shí)現(xiàn)兩個(gè)版本:軟件引擎版和板卡引擎版。在系統(tǒng)集成時(shí),可根據(jù)客戶端數(shù)量需求,采用單機(jī)版語(yǔ)音交互系統(tǒng)或C/S架構(gòu)的語(yǔ)音交互系統(tǒng)。
單機(jī)版語(yǔ)音交互系統(tǒng)中,語(yǔ)音組件和語(yǔ)音引擎均運(yùn)行于本地計(jì)算機(jī)。該系統(tǒng)的優(yōu)點(diǎn)是部署簡(jiǎn)單,不受網(wǎng)絡(luò)帶寬限制;缺點(diǎn)是整個(gè)系統(tǒng)硬件資源利用率低。其中,軟件引擎版不需增加額外硬件,但需搶占本地計(jì)算機(jī)的計(jì)算資源;板卡引擎版需要在本地計(jì)算機(jī)上接入語(yǔ)音引擎板卡,但基本不占用本地計(jì)算資源。
C/S版語(yǔ)音交互系統(tǒng)是將語(yǔ)音組件的語(yǔ)音輸入、輸出模塊運(yùn)行于本地計(jì)算機(jī),將語(yǔ)音引擎及其外圍服務(wù)軟件配置于服務(wù)器端。該系統(tǒng)優(yōu)點(diǎn)是可實(shí)現(xiàn)一臺(tái)服務(wù)器同時(shí)服務(wù)于多個(gè)客戶端,系統(tǒng)整體資源利用率高;缺點(diǎn)是受網(wǎng)絡(luò)帶寬限制,當(dāng)網(wǎng)絡(luò)傳輸壓力增大時(shí),會(huì)對(duì)語(yǔ)音交互品質(zhì)造成影響。
機(jī)載語(yǔ)音模塊設(shè)計(jì)及集成需要符合現(xiàn)有系統(tǒng)的組件規(guī)范和插件規(guī)范,詳見(jiàn)圖3。
圖3 語(yǔ)音模塊集成示意圖
機(jī)載任務(wù)系統(tǒng)人機(jī)交互子系統(tǒng)用于實(shí)現(xiàn)整個(gè)系統(tǒng)的信息綜合顯示和人機(jī)交互功能,包含圖形、文字、圖表顯示,命令輸入和應(yīng)答輸出等。
按照?qǐng)D形、文件等基礎(chǔ)服務(wù)功能的集成方式,將語(yǔ)音功能作為獨(dú)立功能,封裝為框架中各個(gè)層次上的功能模塊。語(yǔ)音引擎模塊實(shí)現(xiàn)對(duì)操作系統(tǒng)、基礎(chǔ)硬件的調(diào)用,對(duì)上封裝為底層調(diào)動(dòng)接口,供上層服務(wù)組件調(diào)用。語(yǔ)音組件,與圖形組件、文件組件等其他組件一樣,根據(jù)具體系統(tǒng)需求,實(shí)現(xiàn)對(duì)底層引擎的適應(yīng)性封裝,供上層業(yè)務(wù)模塊(業(yè)務(wù)插件)調(diào)用。這些組件在對(duì)底層引擎調(diào)用的同時(shí),實(shí)現(xiàn)對(duì)基礎(chǔ)數(shù)據(jù)的管理調(diào)度,例如語(yǔ)音組件通過(guò)綜合調(diào)用語(yǔ)音引擎和語(yǔ)音詞庫(kù)實(shí)現(xiàn)語(yǔ)音命令識(shí)別。
語(yǔ)音交互引擎包括語(yǔ)音識(shí)別引擎和語(yǔ)音合成引擎。語(yǔ)音合成引擎主要用于計(jì)算機(jī)語(yǔ)音播報(bào)等應(yīng)用。語(yǔ)音交互的重點(diǎn)在于計(jì)算機(jī)對(duì)人類語(yǔ)言的識(shí)別過(guò)程,其原理[7]如圖4。
圖4 語(yǔ)音識(shí)別引擎原理圖
語(yǔ)音識(shí)別工作包含兩個(gè)大的步驟:模型訓(xùn)練和識(shí)別。模型訓(xùn)練是利用訓(xùn)練數(shù)據(jù)訓(xùn)練聲學(xué)模型和語(yǔ)言模型。目前比較流行的聲學(xué)模型構(gòu)建是用隱馬爾科夫模型(Hidden Markov Model, HMM)[8]來(lái)對(duì)時(shí)間序列建模,在隱馬爾科夫模型的各個(gè)狀態(tài)上,使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。神經(jīng)網(wǎng)絡(luò)有多隱層的全連接網(wǎng)絡(luò),包括卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs)[9-11]、遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNNs)[12-13]和時(shí)延神經(jīng)網(wǎng)絡(luò)(Time-delay Neural Networks, TDNNs)[14]等。語(yǔ)言模型雖然也可以采用復(fù)雜的統(tǒng)計(jì)模型,但由于其在解碼過(guò)程中需要被頻繁調(diào)用,因此一般多使用N元文法[15]。除了訓(xùn)練兩個(gè)模型外,系統(tǒng)還需要根據(jù)識(shí)別詞典或文法來(lái)構(gòu)建解碼網(wǎng)絡(luò)。識(shí)別則是根據(jù)上一步提供的各種資源對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行解碼,將其轉(zhuǎn)為文本。
對(duì)于語(yǔ)音識(shí)別系統(tǒng),除算法外,居于核心地位的是語(yǔ)音數(shù)據(jù)。真實(shí)準(zhǔn)確的語(yǔ)音數(shù)據(jù)的獲取和處理,是機(jī)載語(yǔ)音交互系統(tǒng)構(gòu)建的關(guān)鍵問(wèn)題。一般情況下,一套成熟的語(yǔ)音識(shí)別系統(tǒng)至少需要300~500 h的訓(xùn)練數(shù)據(jù)。盡管在機(jī)載任務(wù)系統(tǒng)中,命令詞相對(duì)明確,但考慮到噪聲等因素,訓(xùn)練數(shù)據(jù)至少也得超過(guò)幾十小時(shí)。
在識(shí)別方面看,機(jī)載語(yǔ)音環(huán)境噪音較大,降噪處理將作為機(jī)載語(yǔ)音系統(tǒng)長(zhǎng)期持續(xù)研究的內(nèi)容。降噪算法可以分為單通道降噪算法和多通道降噪算法。單通道降噪算法主要通過(guò)語(yǔ)音和噪聲在時(shí)域和頻域上分布的不同特點(diǎn),以區(qū)分二者的信號(hào),包括譜減法[16]、維納濾波法[17]、基于統(tǒng)計(jì)模型的算法[18-19]和基于子空間的算法[20-22]等,近些年隨著深度學(xué)習(xí)技術(shù)在信號(hào)處理領(lǐng)域的引入,也有研究通過(guò)使用DNN模型來(lái)對(duì)語(yǔ)音和噪音進(jìn)行分類,取得了理想的效果[23]。多通道降噪算法除了能夠利用時(shí)、頻域信息外,還可以利用空間上的區(qū)分度進(jìn)行噪聲抑制,主要方法有波束形成[24]、維納濾波[25]和盲源分離[26-27]等算法。另外,針對(duì)機(jī)載艙室環(huán)境,遠(yuǎn)場(chǎng)語(yǔ)音信號(hào)去噪[28]也將是未來(lái)研究的方向之一。
另外,基于機(jī)載任務(wù)系統(tǒng)對(duì)命令苛刻的實(shí)時(shí)性要求,與識(shí)別速度相關(guān)的解碼模塊是語(yǔ)音識(shí)別系統(tǒng)高效運(yùn)行的關(guān)鍵,需要不斷進(jìn)行優(yōu)化改進(jìn)以適應(yīng)未來(lái)不斷變化的語(yǔ)音語(yǔ)義環(huán)境。解碼模塊主要包括解碼網(wǎng)絡(luò)的構(gòu)建和解碼算法兩部分內(nèi)容?,F(xiàn)代語(yǔ)音識(shí)別系統(tǒng)由于需要支持大規(guī)模語(yǔ)言模型和詞典,解碼網(wǎng)絡(luò)的構(gòu)建方法分為基于前綴樹(Prefix Tree)[29]和加權(quán)有限狀態(tài)轉(zhuǎn)換機(jī)(Weighted Finite State Transducer, WFST)[30-31]兩種方式?;谇熬Y樹的解碼網(wǎng)絡(luò),創(chuàng)建一個(gè)根節(jié)點(diǎn), 各個(gè)詞的音素狀態(tài)序列與根節(jié)點(diǎn)連接,并將前綴相同的狀態(tài)串合并,由此構(gòu)成了音素狀態(tài)級(jí)的前綴樹解碼網(wǎng)絡(luò)?;赪FST的解碼網(wǎng)絡(luò)主要通過(guò)復(fù)合(Composition)、確定化(Determination)和最小化(Minimization)等一系列WFST的標(biāo)準(zhǔn)化操作將聲學(xué)模型、語(yǔ)言模型和識(shí)別詞典等所有的識(shí)別資源生成為一個(gè)網(wǎng)絡(luò),其網(wǎng)絡(luò)緊致程度比前綴樹形式更高,因此一般解碼速度也更快。
(1)交互任務(wù)成功率。對(duì)于機(jī)載任務(wù)系統(tǒng)來(lái)說(shuō),交互任務(wù)成功與否是操作員最為關(guān)注的問(wèn)題。因此,將交互任務(wù)成功率[32]作為語(yǔ)音系統(tǒng)的主要評(píng)估指標(biāo),其本質(zhì)是語(yǔ)音識(shí)別率。在此,采用短語(yǔ)識(shí)別率作為機(jī)載語(yǔ)音系統(tǒng)評(píng)估指標(biāo),即識(shí)別正確的命令短語(yǔ)數(shù)目與測(cè)試集短語(yǔ)總數(shù)目的比值。搭建語(yǔ)音系統(tǒng)試驗(yàn)評(píng)估平臺(tái),在機(jī)載噪音回放環(huán)境下開展測(cè)試。在未采取硬件降噪措施時(shí),語(yǔ)音識(shí)別率可以達(dá)到80%以上。為提高語(yǔ)音識(shí)別的準(zhǔn)確性,采用麥克陣列技術(shù)進(jìn)行降噪處理,通過(guò)信噪比的改善進(jìn)一步提升語(yǔ)音數(shù)據(jù)質(zhì)量。從實(shí)驗(yàn)結(jié)果看,經(jīng)過(guò)硬件降噪處理后的語(yǔ)音數(shù)據(jù)信噪比明顯提升,語(yǔ)音識(shí)別率超過(guò)90%。如果結(jié)合魯棒性糾錯(cuò)技術(shù),可以進(jìn)一步提高語(yǔ)音識(shí)別效果;
(2)交互效率。設(shè)計(jì)典型機(jī)載任務(wù)對(duì)比試驗(yàn),測(cè)試加裝語(yǔ)音交互模塊的系統(tǒng)操作時(shí)間,與未改造系統(tǒng)進(jìn)行比較,判斷語(yǔ)音交互在機(jī)載人機(jī)工效提升上的效果。通過(guò)典型任務(wù)試驗(yàn),驗(yàn)證各類語(yǔ)音交互模塊的工作效率以及人機(jī)工效提升作用。從試驗(yàn)結(jié)果看,語(yǔ)音交互在常用控制命令、枚舉值輸入、精確表述短語(yǔ)等方面有突出優(yōu)勢(shì),能夠大幅縮短操作時(shí)間,交互效率提升15%以上。但是,在多槽命令輸入方面有待進(jìn)一步優(yōu)化設(shè)計(jì),在其具體命令詞設(shè)計(jì)上需要做更加細(xì)致的工作。
語(yǔ)音是交互系統(tǒng)中最自然的交互媒介,語(yǔ)音交互技術(shù)作為新型交互手段應(yīng)用于機(jī)載任務(wù)系統(tǒng)具備較高可行性。隨著計(jì)算機(jī)和人工智能技術(shù)的發(fā)展,其實(shí)用性將進(jìn)一步提高。語(yǔ)音交互與其他交互技術(shù)有機(jī)結(jié)合是機(jī)載任務(wù)系統(tǒng)人機(jī)交互技術(shù)發(fā)展的重要方向,其應(yīng)用前景非常廣泛。
[1] 楊加平.面向指控系統(tǒng)的嵌入式語(yǔ)音交互技術(shù)設(shè)計(jì)與實(shí)現(xiàn)[J].機(jī)械與電子,2015(4):72-74.
[2] 何湘智.語(yǔ)音識(shí)別的研究與發(fā)展[J].計(jì)算機(jī)與現(xiàn)代化, 2002(3):3-6.
[3] 夏樂(lè)樂(lè).機(jī)載語(yǔ)音信號(hào)檢測(cè)與處理技術(shù)[D].南京:南京航空航天大學(xué), 2014.
[4] 張飛宇.在線教學(xué)平臺(tái)中視頻語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)[J].電子科技,2012,25(10):43-48.
[5] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1535.
[6] Amodei D,Ananthanarayanan S,Anubhai R,et al.Deep speech 2: End-to-end speech recognition in English and Mandarin[C].New York: International Conference on Machine Learning,2016.
[7] 景春進(jìn),陳東東,周琳琦.基于中文語(yǔ)音識(shí)別技術(shù)的艦艇指揮訓(xùn)練系統(tǒng)的研究[J].計(jì)算機(jī)測(cè)量與控制,2014,22(8):2571-2573.
[8] 蔡明琦,凌震華,戴禮榮.基于隱馬爾科夫模型的中文發(fā)音動(dòng)作參數(shù)預(yù)測(cè)方法[J].數(shù)據(jù)采集與處理,2014,29(3):204-210.
[9] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition[C].Kyoto:IEEE International Conference on Acoustics, Speech and Signal Processing,IEEE,2012.
[10] Abdel-Hamid O,Mohamed A R,Jiang H,et al.Convolutional neural networks for speech recognition[J].IEEE/ACM Transactions on Audio Speech & Language Processing,2014,22(10):1533-1545.
[11] Palaz D,Magimai-Doss M,Collobert R. Convolutional Neural Networks-based continuous speech recognition using raw speech signal[C].Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing,IEEE,2015.
[12] Graves A,Mohamed A R,Hinton G.Speech recognition with deep recurrent neural networks[J].IEEE Transacitons on Imagenation,2013,38(3):6645-6649.
[13] Li X,Wu X.Constructing long short-term memory based deep recurrent neural networks for large vocabulary speech recognition[C]. Brisbane:IEEE International Conference on Acoustics,Speech and Signal Processing, IEEE,2015.
[14] Peddinti V,Povey D,Khudanpur S.A time delay neural network architecture for efficient modeling of long temporal contexts[C]. Dresden:Interspeech,2015.
[15] 單煜翔,陳諧,史永哲,等.基于擴(kuò)展N元文法模型的快速語(yǔ)言模型預(yù)測(cè)算法[J].自動(dòng)化學(xué)報(bào),2012,38(10):1618-1626.
[16] 王水平,唐振民,陳北京,等.復(fù)雜環(huán)境下語(yǔ)音增強(qiáng)的復(fù)平面譜減法[J].南京理工大學(xué)學(xué)報(bào),2013,37(6):857-862.
[17] 余世經(jīng),李冬梅,劉潤(rùn)生.一種基于CASA的單通道語(yǔ)音增強(qiáng)方法[J].電聲技術(shù),2014,38(2):50-54.
[18] Kwon H,Son J,Bae K.Speech enhancement using modified minimum mean square error short-time spectral amplitude estimator[J].ITC-CSCC,2003,87(6):228-231.
[19] 張寧,顧明亮,朱俊梅,等.語(yǔ)音活動(dòng)檢測(cè)對(duì)方言辨識(shí)系統(tǒng)的影響研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(11):73-76.
[20] Chang H Y,Rahardja S,Koh S N.Audible noise reduction in eigendomain for speech enhancement[J].IEEE Transactions on Audio Speech & Language Processing,2007,15(6):1753-1765.
[21] 王燁,屈丹,李弼程,等.基于子空間映射和得分規(guī)整的GSV-SVM方言識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(1):278-282.
[22] 王耀軍,林永剛.壓縮感知下的自適應(yīng)聲源定位估計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(14):62-66.
[23] Wang Y.Supervised speech separation using deep neural networks[M].Ohio:The Ohio State University,2015.
[24] 韓穎.復(fù)雜環(huán)境下陣列語(yǔ)音識(shí)別方法的研究[D].錦州:遼寧工業(yè)大學(xué),2014.
[25] 王立東,肖熙.傳聲器陣列空間維納濾波語(yǔ)音增強(qiáng)方法的研究[J].電聲技術(shù),2013,37(8):53-56.
[26] Brandstein M S,Ward D B.Microphone arrays: signal processing techniques and applications[M].Berlin:Springer Science & Business Media,2013.
[27] 欒先冬,徐巖.基于螢火蟲算法的變步長(zhǎng)語(yǔ)音信號(hào)盲源分離[J].電子科技,2016,29(7):4-7.
[28] 唐軍華,王永剛,劉世輝.一種遠(yuǎn)場(chǎng)語(yǔ)音信號(hào)去噪算法研究與實(shí)現(xiàn)[J].電子科技,2014, 27(8):144-146.
[29] 邵俊堯.海量孤立詞識(shí)別算法研究[D]. 北京:北京郵電大學(xué),2013.
[30] 陳智鵬,賀志陽(yáng),呂萍等.語(yǔ)音識(shí)別中WFST網(wǎng)絡(luò)構(gòu)建與解碼的效率優(yōu)化[C].天津:全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議,2013.
[31] 郭宇弘,黎塔,肖業(yè)鳴,等.基于加權(quán)有限狀態(tài)機(jī)的動(dòng)態(tài)匹配詞圖生成算法[J].電子與信息學(xué)報(bào),2014,36(1):140-146.
[32] 韓超,劉加.新型多模態(tài)人性化語(yǔ)音交互系統(tǒng)[J].電聲技術(shù),2009,33(8):78-80.
Applied Research on the Speech Interaction Technology in Airborne Mission System
LIU Lihui,YANG Yi,WANG Xuyang,XU Lei
(China Academy of Electronics and Information Technology,Beijing 100041,China)
A method of speech interaction technology application adapted to new system developing and existing system rebuilding was used to improve the ergonomics in large airborne mission system with speech technology. The method was based on MVC layered architecture, and was used to build speech function modules in every layer, including speech database, development library and speech interaction plugs related to airborne mission system, and to define the interactive interfaces between the modules in three layers. The method realized the maximum independent of speech function. In contrastive tests of partial typical airborne mission, the speech interaction system built by this method improved more than 15% in ergonomics.
airborne mission system;speech interaction;human computer interaction;ergonomics
2017- 09- 21
國(guó)家部委項(xiàng)目(14G00101)
劉立輝(1981-),男,碩士,高級(jí)工程師。研究方向:大型電子系統(tǒng)軟件設(shè)計(jì)與開發(fā)。楊毅(1985-),男,博士,工程師。研究方向:人機(jī)交互系統(tǒng)設(shè)計(jì)與開發(fā)。王旭陽(yáng)(1988-),男,博士,工程師。研究方向:語(yǔ)音交互系統(tǒng)設(shè)計(jì)與開發(fā)。
10.16180/j.cnki.issn1007-7820.2017.12.033
TN912.3
A
1007-7820(2017)12-125-05