劉 磊,趙 鵬
讀者出版?zhèn)髅焦煞萦邢薰?/p>
語音識別聲控技術(shù)在移動客戶端的應(yīng)用
劉磊,趙鵬
讀者出版?zhèn)髅焦煞萦邢薰?/p>
計算機(jī)信息技術(shù)的高速發(fā)展與廣泛應(yīng)用,讓語音識別聲控技術(shù)得到了長足的進(jìn)步。本文分析了語音聲控識別技術(shù)的發(fā)展現(xiàn)狀,并探討了語音識別聲控技術(shù)在移動客戶端的具體應(yīng)用。
語音識別聲控;移動客戶端;應(yīng)用
移動通訊技術(shù)與信息技術(shù)的迅猛發(fā)展,讓智能手機(jī)這類移動客戶端得到了迅速普及,并且成為應(yīng)用語音識別聲控技術(shù)的重要領(lǐng)域。借助一定的識別裝置或者設(shè)備,對被識別對象的有關(guān)信息進(jìn)行及時收集與處理,并將處理結(jié)果上傳至計算機(jī)系統(tǒng),這就是識別技術(shù)。語音識別聲控歸屬于識別技術(shù)中,這種技術(shù)主要是將語音作為識別信息。由于手機(jī)等便攜式移動客戶端具備的運算能力有限,如何提高客戶端的運算量,這是當(dāng)前語音識別聲控技術(shù)應(yīng)用中需要重點研究的問題。
自上世紀(jì)五十年代開始,很多學(xué)者就開展了對語音識別聲控技術(shù)的研究[1]。1952年,一些研究者通過大量實驗,最終構(gòu)成可以對簡單英文數(shù)字發(fā)音進(jìn)行識別的語音系統(tǒng)。而日本NEC實驗室則在1963年,嘗試從數(shù)字方向開展對語音識別聲控的長期研究。經(jīng)過全球研究者的共同努力,語音識別聲控技術(shù)得到了迅速發(fā)展,并且逐漸從理論研究轉(zhuǎn)向?qū)嶋H應(yīng)用中。但是在應(yīng)用過程中若要對語音識別進(jìn)行信息校對或糾正,將極大影響系統(tǒng)的識別速度。鑒于此,研究者開展了更為深入的語音識別聲控研究,以解決由于口音、環(huán)境不同導(dǎo)致的識別誤差。
從當(dāng)前語音識別聲控技術(shù)的應(yīng)用情況來看,對于特殊的語音或詞匯,應(yīng)用該系統(tǒng)均可以快速進(jìn)行識別。例如,在電話查詢與電話轉(zhuǎn)接過程中,語音識別聲控系統(tǒng)接收任務(wù)后會自動存儲信息,并且根據(jù)設(shè)定數(shù)據(jù)的匹配度完成任務(wù),以提高識別率。但是目前應(yīng)用語音識別聲控技術(shù)還存在較多限制因素,如移動客戶端運算量不高等,這就需要進(jìn)一步對該技術(shù)進(jìn)行鞏固。
移動客戶端由于運算能力較小,只能對計算機(jī)中的部分存儲與處理功能給予支持,這樣系統(tǒng)對語音的識別與處理需要一定的時間,之后才能顯示到手機(jī)等移動客戶端上。盡管移動客戶端在應(yīng)用語音識別聲控技術(shù)上還存在一些限制,但是我們可以通過對手機(jī)終端進(jìn)行編程,讓其可以識別數(shù)字撥號語音,或者識別撥打人的姓名。由于移動客戶端內(nèi)存較小,能夠識別的語音一般不超過十條[2]。此外語音識別聲控技術(shù)在移動客戶頓的應(yīng)用,其最大限制因素就是噪音。研究表明,受噪音影響的移動客戶端語音用戶遠(yuǎn)比受互聯(lián)網(wǎng)影響的用戶多[3]。目前來看,語音識別聲控技術(shù)在手機(jī)等終端設(shè)備中的應(yīng)用并不多見,這與手機(jī)商家營銷方式不當(dāng)或者技術(shù)不成熟有關(guān)。
隨著移動客戶端信息處理能力的提升與內(nèi)存的增加,逐漸增強(qiáng)了智能手機(jī)等終端的語音識別聲控能力。例如,2005年三星電子推出的一款SCH-p-207型手機(jī),就具備語音撥號功能與語音聲控聽寫功能。用戶只需要通過語音聲控,就可以完成文本書寫與撥號。而智能手機(jī)內(nèi)存的逐漸增加,也減少了語音識別聲控技術(shù)的應(yīng)用限制[4]。另一個促進(jìn)語音識別聲控技術(shù)發(fā)展的重要因素,就是網(wǎng)速的提升。高速的無線通信網(wǎng)絡(luò)促進(jìn)了大量新技術(shù)的應(yīng)用,其中一個就是語音識別聲控技術(shù)。高速網(wǎng)絡(luò)能夠迅速傳遞語音處理信息,而遠(yuǎn)程服務(wù)器能夠及時獲取處理結(jié)果。
當(dāng)前語音識別聲控技術(shù)在智能手機(jī)中的應(yīng)用,并不限于語音書寫與撥號方面。語音撥號是智能手機(jī)最為基本的語音識別功能,甚至在很多低端手機(jī)中均可見這種功能。Gartner分析師指出,智能手機(jī)等移動客戶端將具有更為開放的語音識別功能。同時在不進(jìn)行復(fù)雜編程的情況下,僅依靠可識別語音程序,就可以讓移動客戶端完成相應(yīng)的指令任務(wù)。若引入運算、存儲能力更為強(qiáng)大的設(shè)備,將更好的促進(jìn)語音識別聲控的應(yīng)用。
與其它語音識別聲控技術(shù)相比,谷歌語音搜索存在的限制因素更少。這是因為它是由互聯(lián)網(wǎng)服務(wù)器完成繁雜的工作,減少了客戶端的工作量,這也讓谷歌語音搜索更加具有實用性。例如,用戶通過客戶端發(fā)出“查找附近電影院”的語音指令,系統(tǒng)將根據(jù)語音迅速識別并搜集信息,然后將搜索結(jié)果發(fā)送至客戶端頁面。此外,谷歌語音搜索程序不僅可以識別各類語音短語的意思,還可以讓用戶了解移動客戶端(手機(jī))的具體位置。
互聯(lián)網(wǎng)信息時代的到來以及移動通訊技術(shù)的進(jìn)步,讓世界各地的人們能夠更加便捷、靈活地進(jìn)行語音通信。目前各種基于語音識別聲控開展的活動均可以在互聯(lián)網(wǎng)上實現(xiàn),如電子商務(wù)、語音翻譯等。本文對語音識別聲控技術(shù)在移動客戶端的應(yīng)用進(jìn)行了探究,以此為促進(jìn)語音識別聲控技術(shù)的發(fā)展提供參考。
[1]禹琳琳.語音識別技術(shù)及應(yīng)用綜述[J].現(xiàn)代電子技術(shù),2013(13).
[2]王宏志,徐玉超,李美靜.基于Mel頻率倒譜參數(shù)相似度的語音端點檢測算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2012(05).
[3]文翰,黃國順.語音識別中DTW算法改進(jìn)研究[J].微計算機(jī)信息,2013(19).
[4]邵學(xué)彬,徐太花,章亦葵.基于語音識別的汽車空調(diào)控制系統(tǒng)[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2012(10).