亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

智能語音識別技術的前世今生

2018-12-25 08:08:06曾小會廖婷婷全趙婕貴州大學

數(shù)碼世界 2018年4期

曾小會廖婷婷全趙婕貴州大學

科學家們對語音識別的研究開始于二十世紀五十年代，在這個探索時期人們僅初步了解了語音特征。1952年第一個能識別10個英文數(shù)字的識別系統(tǒng)在Bell實驗室得到實現(xiàn)。隨后科學家們又相繼研制出針對特定人的能夠識別單音節(jié)詞的識別系統(tǒng)，直到1959年林肯實驗室實現(xiàn)了識別十個元音單元的識別系統(tǒng)，這是第一個針對非特定人的識別系統(tǒng)。

六十年代，計算機的發(fā)展給語音識別帶來了新的機遇和發(fā)展平臺，各種計算機算法和理論運營而生，極大地促進了語音識別技術的發(fā)展，使其從模擬化逐漸轉向數(shù)字化研究。

七十年代，科學家們在小量詞匯和孤立詞識別上加大研究力度，在特定人、孤立詞、小量詞匯方面取得了一定成就。

八十年代是語音識別技術研究的一個重要轉折時期，多項研究取得了巨大的突破，首先，由小量詞匯、孤立詞進步為大量詞匯、連接詞和連續(xù)語音，并且逐漸脫離特定人轉而針對非特定人。其次，語音識別算法從模板匹配轉移到了統(tǒng)計模型，實現(xiàn)了統(tǒng)計模型隱馬爾可夫模型和神經網絡模型，這兩大統(tǒng)計模型在今天仍舊在語音識別技術上占據著重要地位。

九十年代以后，由于隱馬爾可夫模型的整體框架設計相對完善、模型的自適應性問題得到解決，并且使其具有了并行性、魯棒性、容錯性和學習特性，在參數(shù)提取和優(yōu)化方面也取得了重大進展，語音識別技術開始被應用于實際生活中，語音識別系統(tǒng)逐漸產品化。

進入二十一世紀后，隨著移動互聯(lián)網和手機應用的普及，給語音識別技術帶來了更大的發(fā)展平臺并使其迅猛發(fā)展。2010年Google發(fā)布了支持語音操作與檢索的Voice Action；2011年微軟獲得在語音搜索技術上的成功；同年，蘋果公司的Siri首度出現(xiàn)在公眾視野，標志著人機交互取得了巨大突破，人類進入語音識別技術的新紀元。

雖然在九十年代語音識別技術在根本技術上取得了一個質的飛躍，如上面提到的在容錯性，及參數(shù)提取等方面的優(yōu)化和進一步完善，語音識別技術已經是逐漸走向成熟的階段，但是，日常生活中該技術并沒有得到廣泛的應用，說明現(xiàn)階段仍存在一些問題，從而其在商業(yè)市場上的發(fā)展受到了限制。

（1）語種轉換方面的技術缺失：消費者在韓國購買了一個具有語音控制功能的電飯煲，卻因為語言障礙無法使用，語音識別中的語言模塊的相關技術沒有得到充分發(fā)展，無法實現(xiàn)如韓語到漢語相互間的切換，對比與在計算機領域成熟的文字切換技術，就略低一籌。

（2）識別正確率底且速度慢：要打開語音識別技術在商業(yè)上的市場，必須保證其功能的完整性與達到消費者的可接受度，如何在嘈雜的環(huán)境下精確捕捉有效的語音信號，怎樣能在預設語言如普通話不標準的情況下提取關鍵的詞句指令，保證正確率的基礎上提升系統(tǒng)在相關階段的進程速度，能夠靈敏快速地作出反應，則需要在技術層次上做更深一步的研究。

（3）功能過于單一，從而應用領域受到限制：綜合市面上在語音識別技術上的應用，如語音控制燈，軟件上的語音搜索功能等，因為其在待定語音命令過于單一的缺陷下，不能實現(xiàn)較深程度的人機交互，功能局限，缺少技術支撐，顯然極大地限制了語音識別技術的應用范圍，同時，這也是現(xiàn)階段語音識別技術的主要發(fā)展方向。

我們應多與國內外在語音轉換方面有優(yōu)勢及成熟經驗的公司、機構等交流，并在此基礎上加入一些創(chuàng)新元素，更加完美的彌補語音轉換方面技術的缺失。我國的語音識別的研究工作一直緊跟著國際腳步。在漢語語音識別技術上，我們還有自己的特色，并且已經達到國際先進水平。2017年4月，科大訊飛實現(xiàn)了從聽見、收音到翻譯，它只需要一到兩秒即反應出結果?！奥犚姟毕到y(tǒng)還為外交部部長當了一次現(xiàn)場的同聲翻譯，訊飛聽見系統(tǒng)除了中文語音的轉寫，也實現(xiàn)了對英、日、韓、藏、維等多種語種翻譯。

由于客觀因素及復雜因素等會對識別率造成影響，對語音識別是一大挑戰(zhàn)。相比較于智能語音識別軟件，使用者更趨向于敲擊鍵盤來表達，這與人們對智能語音助手的傳統(tǒng)印象有關——錯誤率識別速度慢。百度在識別錯誤率高且速度慢這方面采取了應用Deep CNN（深層卷積神經網絡技術）于語音識別的研究，使用了包含Residual連接的深層CNN，以及VGGnet等結構，將基于短時記憶單元和連接時序分類的端對端語音識別技術相結合，使得識別的錯誤率下降了10%以上。

隨著語音識別技術準確率的提高，它的功能不僅不再單一，而且它的應用范圍也在不斷擴大。對于搜索、購物和發(fā)現(xiàn)娛樂內容，及對機器說話等將很快實現(xiàn)。語言交互過程包括語義分析、句子切斷、語音識別、算法處理及語言反饋等復雜的過程。要解決這個問題，需要擁有海量、優(yōu)質的語言交流數(shù)據集。事實上，國內外不少公司試圖探索語音聊天機器人在心理輔導、抑郁癥治療等項目上的潛力了，語音識別功能不再因為過于單一而受到限制，智能語音識別技術今后的發(fā)展趨勢值得期待。

[1]劉幺和宋庭新.語音識別與控制護應用技術.科學出版社，2008

[2]趙力.語音信號處理.機械工業(yè)出版社，2003

[3]王炳錫屈丹彭煊.實用語音識別基礎.國防工業(yè)出版社，2005

[4]盧瑞文.自動識別技術.化學工業(yè)出版社，2005