曾小會 廖婷婷 全趙婕 貴州大學
科學家們對語音識別的研究開始于二十世紀五十年代,在這個探索時期人們僅初步了解了語音特征。1952年第一個能識別10個英文數(shù)字的識別系統(tǒng)在Bell實驗室得到實現(xiàn)。隨后科學家們又相繼研制出針對特定人的能夠識別單音節(jié)詞的識別系統(tǒng),直到1959年林肯實驗室實現(xiàn)了識別十個元音單元的識別系統(tǒng),這是第一個針對非特定人的識別系統(tǒng)。
六十年代,計算機的發(fā)展給語音識別帶來了新的機遇和發(fā)展平臺,各種計算機算法和理論運營而生,極大地促進了語音識別技術的發(fā)展,使其從模擬化逐漸轉向數(shù)字化研究。
七十年代,科學家們在小量詞匯和孤立詞識別上加大研究力度,在特定人、孤立詞、小量詞匯方面取得了一定成就。
八十年代是語音識別技術研究的一個重要轉折時期,多項研究取得了巨大的突破,首先,由小量詞匯、孤立詞進步為大量詞匯、連接詞和連續(xù)語音,并且逐漸脫離特定人轉而針對非特定人。其次,語音識別算法從模板匹配轉移到了統(tǒng)計模型,實現(xiàn)了統(tǒng)計模型隱馬爾可夫模型和神經網絡模型,這兩大統(tǒng)計模型在今天仍舊在語音識別技術上占據著重要地位。
九十年代以后,由于隱馬爾可夫模型的整體框架設計相對完善、模型的自適應性問題得到解決,并且使其具有了并行性、魯棒性、容錯性和學習特性,在參數(shù)提取和優(yōu)化方面也取得了重大進展,語音識別技術開始被應用于實際生活中,語音識別系統(tǒng)逐漸產品化。
進入二十一世紀后,隨著移動互聯(lián)網和手機應用的普及,給語音識別技術帶來了更大的發(fā)展平臺并使其迅猛發(fā)展。2010年Google發(fā)布了支持語音操作與檢索的Voice Action;2011年微軟獲得在語音搜索技術上的成功;同年,蘋果公司的Siri首度出現(xiàn)在公眾視野,標志著人機交互取得了巨大突破,人類進入語音識別技術的新紀元。
雖然在九十年代語音識別技術在根本技術上取得了一個質的飛躍,如上面提到的在容錯性,及參數(shù)提取等方面的優(yōu)化和進一步完善,語音識別技術已經是逐漸走向成熟的階段,但是,日常生活中該技術并沒有得到廣泛的應用,說明現(xiàn)階段仍存在一些問題,從而其在商業(yè)市場上的發(fā)展受到了限制。
(1)語種轉換方面的技術缺失:消費者在韓國購買了一個具有語音控制功能的電飯煲,卻因為語言障礙無法使用,語音識別中的語言模塊的相關技術沒有得到充分發(fā)展,無法實現(xiàn)如韓語到漢語相互間的切換,對比與在計算機領域成熟的文字切換技術,就略低一籌。
(2)識別正確率底且速度慢:要打開語音識別技術在商業(yè)上的市場,必須保證其功能的完整性與達到消費者的可接受度,如何在嘈雜的環(huán)境下精確捕捉有效的語音信號,怎樣能在預設語言如普通話不標準的情況下提取關鍵的詞句指令,保證正確率的基礎上提升系統(tǒng)在相關階段的進程速度,能夠靈敏快速地作出反應,則需要在技術層次上做更深一步的研究。
(3)功能過于單一,從而應用領域受到限制:綜合市面上在語音識別技術上的應用,如語音控制燈,軟件上的語音搜索功能等,因為其在待定語音命令過于單一的缺陷下,不能實現(xiàn)較深程度的人機交互,功能局限,缺少技術支撐,顯然極大地限制了語音識別技術的應用范圍,同時,這也是現(xiàn)階段語音識別技術的主要發(fā)展方向。
我們應多與國內外在語音轉換方面有優(yōu)勢及成熟經驗的公司、機構等交流,并在此基礎上加入一些創(chuàng)新元素,更加完美的彌補語音轉換方面技術的缺失。我國的語音識別的研究工作一直緊跟著國際腳步。在漢語語音識別技術上,我們還有自己的特色,并且已經達到國際先進水平。2017年4月,科大訊飛實現(xiàn)了從聽見、收音到翻譯,它只需要一到兩秒即反應出結果?!奥犚姟毕到y(tǒng)還為外交部部長當了一次現(xiàn)場的同聲翻譯,訊飛聽見系統(tǒng)除了中文語音的轉寫,也實現(xiàn)了對英、日、韓、藏、維等多種語種翻譯。
由于客觀因素及復雜因素等會對識別率造成影響,對語音識別是一大挑戰(zhàn)。相比較于智能語音識別軟件,使用者更趨向于敲擊鍵盤來表達,這與人們對智能語音助手的傳統(tǒng)印象有關——錯誤率識別速度慢。百度在識別錯誤率高且速度慢這方面采取了應用Deep CNN(深層卷積神經網絡技術)于語音識別的研究,使用了包含Residual連接的深層CNN,以及VGGnet等結構,將基于短時記憶單元和連接時序分類的端對端語音識別技術相結合,使得識別的錯誤率下降了10%以上。
隨著語音識別技術準確率的提高,它的功能不僅不再單一,而且它的應用范圍也在不斷擴大。對于搜索、購物和發(fā)現(xiàn)娛樂內容,及對機器說話等將很快實現(xiàn)。語言交互過程包括語義分析、句子切斷、語音識別、算法處理及語言反饋等復雜的過程。要解決這個問題,需要擁有海量、優(yōu)質的語言交流數(shù)據集。事實上,國內外不少公司試圖探索語音聊天機器人在心理輔導、抑郁癥治療等項目上的潛力了,語音識別功能不再因為過于單一而受到限制,智能語音識別技術今后的發(fā)展趨勢值得期待。
[1]劉幺和 宋庭新.語音識別與控制護應用技術.科學出版社,2008
[2]趙力.語音信號處理.機械工業(yè)出版社,2003
[3]王炳錫 屈丹 彭煊.實用語音識別基礎.國防工業(yè)出版社,2005
[4]盧瑞文.自動識別技術.化學工業(yè)出版社,2005