自動語音識別技術(Auto Speech Recognize,ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術在“能聽會說”的智能計算機系統(tǒng)中扮演著重要角色,相當于給計算機系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能,進而實現(xiàn)信息時代利用“語音”這一最自然、最便捷的手段進行人機通信和交互。
如今,語音識別技術已經(jīng)發(fā)展成為涉及聲學、語言學、數(shù)字信號處理、統(tǒng)計模式識別等多學科技術的一項綜合性技術?;谡Z音識別技術研發(fā)的現(xiàn)代語音識別系統(tǒng)在很多場景下獲得了成功的應用,不同任務條件下所采用的技術又會有所不同。語音識別系統(tǒng)構建過程整體上包括兩大部分:訓練和識別。訓練通常是離線完成的,對預先收集好的海量語音、語言數(shù)據(jù)庫進行信號處理和知識挖掘,獲取語音識別系統(tǒng)所需要的“聲學模型”和“語言模型”;而識別過程通常是在線完成的,對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“后端”兩大模塊:“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓練好的聲學模型和語言模型對用戶說話的特征向量進行統(tǒng)計模式識別(又稱解碼),得到其包含的文字信息,此外,后端模塊還存在一個自適應的反饋模塊,可以對用戶的語音進行自學習,從而對聲學模型和語音模型進行必要的校正,進一步提高識別的準確率。
語音識別技術所面臨的問題是非常艱巨和困難的。盡管早在20世紀50年代,世界各國就開始了對這項技術的研究,但直到今天,距離該技術完美解決還存在著巨大差距,不過這并不妨礙不斷進步的語音識別系統(tǒng)在許多相對受限的場合下獲得成功應用。
市場上已經(jīng)有不采用語音識別技術的產品,包括智能手機、智能電視、平板電腦、汽車導航、瀏覽器等。國內科大訊飛公司為聯(lián)想最新的智能電視量身定制了業(yè)界領先的高識別率的語音識別引擎,基于此引擎實現(xiàn)了語音控制、語音搜索和語音輸入等特色應用功能,徹底顛覆了傳統(tǒng)依靠遙控器按鍵、觸屏等手動操控方式,真正實現(xiàn)了用戶與電視之間的自由、智能交互,即用戶只需通過自然語言就能夠完成電視上的全部應用操作,包括語音啟動程序、搜索及直接播放影片和應用、打開網(wǎng)站、文字輸入、查詢百科、查詢天氣和新聞資訊等,甚至還能與電視聊天、做算術題、提供客服支持等。聯(lián)想智能電視內置了首個電視微博應用,當用戶在觀看電視節(jié)目或在線視頻時,可以隨時登錄微博查看其他用戶的相關評論,自己也可以通過語音來進行微博的文字輸入、發(fā)布微博、參與話題討論,輸入速度更快,從而給用戶帶來更好的應用體驗。