若怡
隨著計算機、“互聯(lián)網(wǎng)+”、大數(shù)據(jù)應用、人工智能等技術在生活與工作中的深度運用,人類越來越迫切地冀望以“操作指令與機器執(zhí)行相互配合”的模式替代傳統(tǒng)的機械性勞動,通過人機交互的智能方式進一步促進工作效率的顯著提升。因此,近年來,作為理想的人機交互方式之一的“語音識別技術”,正在經(jīng)歷著提速發(fā)展的黃金時期。其工作原理是通過捕捉聲波的方式,將聲波予以數(shù)字化,轉換成基本語言單位或者音素,再根據(jù)音位、語境等要素構建詞語,轉變?yōu)橄鄳奈谋净蛘呙?,從而保持與機器聽到的詞語的一致性,最大限度地降低人力成本,大幅提升應用領域的工作效能。
“語音識別”又稱為“自動語音識別”,其最基本的功能是將說話人的語音中的詞匯內容轉換成計算機可讀的方式輸入(比如:二進制編碼、字符序列)。一般而言,“語音識別”的應用涵蓋了語音撥號、聽寫數(shù)據(jù)錄入、語音導航、室內設備控制、語音文檔檢索等方面。通過與其他自然語言處理技術(比如:機器翻譯、語音合成)相結合,“語音識別”還可以構造出更加復雜的應用(譬如:由中文到英文的翻譯)。
要追溯語音識別的發(fā)展史,就要從“貝爾研究所”(又稱為:Bell實驗室)說起。1952年,貝爾研究所的Davis等人經(jīng)多番研究,成功地建立了世界上第一個“語音識別系統(tǒng)”。該系統(tǒng)能夠識別9個英文數(shù)字的發(fā)音,標志著人類探索語音識別技術的大門正式打開。進入20世紀60年代,計算機的應用推動了語音識別的發(fā)展??茖W家們運用動態(tài)規(guī)劃、線性預測等分析技術,力圖從標準模板匹配的視角進行突破,從而破解大范圍捕捉聲波的難題,即“語音信號產生模型的問題”。時間的年輪來到20世紀80年代,“隱馬爾可夫模型”(簡稱“HMM”)和“人工神經(jīng)網(wǎng)絡”(簡稱“ANN”)兩大理論代替標準模板匹配技術在語音識別領域被廣泛應用,加速了語音識別模型的發(fā)展。之后,隨著多媒體時代的到來,語言識別系統(tǒng)逐漸從“實驗室”走向“實用”,從“研究”走向“產品”。日本、美國等技術領先國家亦在這個時期,開始將“語音識別技術”應用至具體的產品研發(fā)領域,推出了噪聲下的語音識別和會話(口語)識別系統(tǒng)、高級人機口語接口和自動電話翻譯系統(tǒng)等智能化產品,在語音識別技術的應用及產品化方面跨出了重大的一步,正式開啟了語音識別“產品化”的進程。
根據(jù)人民日報海外版的報道,“語音的交互界面正在成為新的主流,全球的語音產業(yè)的智能化已經(jīng)步入應用的高速增長期。據(jù)預測,2017年全球智能語音產業(yè)規(guī)?;驅⒊^110億美元,到2020年則將達到200億美元”。在語音產品智能化的大勢所趨下,對語音識別的要求亦在不斷地提高。當前,語音識別不僅局限于“語音采集識別”“信息實時錄入”等傳統(tǒng)功能,更將觸角延伸至“語音及文字的相互翻譯”“人機智能交互”等深度功能。不但嘗試將語音轉寫為文字,更探索識別或者確認發(fā)出語音的說話人,并根據(jù)說話人的指令進行下一步的操作。這正是“語音識別”智能化的最大亮點。
盡管語音智能識別在我國的科研推廣起步較晚,然而信息化、數(shù)字化、智能化(又稱為:三化)在我國的產業(yè)發(fā)展中越來越得到研發(fā)企業(yè)、政府機構、消費市場的青睞。據(jù)工信部賽迪研究院數(shù)據(jù)顯示,“2016年我國人工智能企業(yè)已經(jīng)達到709家,總量高居全球第二,位列美國之后”。乘著這股“東風”,語音智能識別近年來在華夏大地得到了迅猛的發(fā)展,尤其是從“實驗室系統(tǒng)”到“市場化商品”的演變。自2013年第一屆中國電子信息博覽會舉辦至今,我國的智能語音技術在信息通信、司法、刑事偵查、醫(yī)療、金融、家用電器等領域的新產品、新應用已初露端倪——
在移動互聯(lián)網(wǎng)領域,越來越多的產品亦加入了語音智能識別技術。目前,安卓手機的語音智能識別大多采用了科大訊飛的系統(tǒng)。科大訊飛與中國移動共同推出的語音門戶產品“靈犀”,更是具備離線語音識別、識別速度優(yōu)化等深度功能,用戶人數(shù)逾百萬。又比如:滴滴打車軟件采取了地圖系統(tǒng)與語音智能識別結合的系統(tǒng),一經(jīng)面世便獲得了消費者的廣泛關注與歡迎。百度力推的搜索界面和導航犬亦引入了語音識別功能,為用戶提供了更人性化的服務體驗。再比如:在手機上被廣泛使用的各類輸入法軟件。以“訊飛語音輸入法”為例。訊飛語音輸入法已經(jīng)可以實時將說話者的普通話語音直接轉化為漢字輸入,實現(xiàn)了高精準的識別錄入。
目前,公安部已經(jīng)成立了“智能語音實驗室”,著力研究語音偵控應用系統(tǒng)、聲紋識別系統(tǒng)、語音轉寫系統(tǒng),致力于智能語音技術在公安機關的研究和應用,將科研成果轉化為核心戰(zhàn)斗力。地方層面,寧夏、山東、上海、南京、浙江、吉林等地已經(jīng)開啟了警務智能語音應用的先行先試。以“寧夏銀川市公安局執(zhí)法辦案區(qū)智能化管理系統(tǒng)”為例。銀川市公安局結合屬地執(zhí)法辦案的實際情況及現(xiàn)實需求,聯(lián)合天津天地偉業(yè)數(shù)碼科技有限公司和寧夏天佑信息科技有限公司進行深入研發(fā),在辦案中心和案件管理中心推出了執(zhí)法辦案區(qū)智能化管理系統(tǒng)。該系統(tǒng)引入了人員定位、智能合成錄像、智能報警等科技應用。其中,包含了警務智能語音服務平臺。平臺的基礎功能是為民警在辦案區(qū)訊問室審訊犯罪嫌疑人提供語音內容的快速轉寫服務,普通話識別率達到95%以上。又比如:浙江省金華市公安局提出建立“智能語音云平臺”。平臺集成聲紋自動識別、語音自動轉換文字、在線翻譯等功能,建成全局語音應用的統(tǒng)一接口,并探索建設覆蓋全警的智能語音助手。交互通過語音、說話能即時轉成文字并傳送至后臺,需要調取的信息也可以語音的方式反饋,民警不用再填寫臺賬,也不用手工輸入信息,形成感知和研判環(huán)節(jié)的語音技術設備基本替代人力。
以往,人民法院的書記員需全程記錄庭審的過程。為配合書記員的錄入,訴訟參與人發(fā)言時常常要刻意放慢語速,且庭審后需耗費大量時間核對筆錄。然而,近年來人民法院受理的案件數(shù)量逐年攀升,且法院的工作人員卻流失嚴重,因此“案多人少”是當下法院面臨的主要矛盾。在這樣的背景下,通過技術手段提高庭審筆錄制作的效率成為了法院系統(tǒng)的不二選擇。其中,語音智能識別已成為法院審理案件的重要抓手。
以浙江省高級人民法院為例。盡管浙江省高級人民法院于2014年8月探索以“庭審錄音錄像”取代“傳統(tǒng)書面筆錄”,庭審節(jié)奏變得更加緊湊,但是此種嘗試仍然存在弊端,例如法官不易直接采集筆錄內容,制作裁判文書;當事人若要上訴或者申請再審,書記員需要重新謄錄筆錄,更加費時。為此,浙江省高級人民法院于2016年3月正式啟動“語音智能識別系統(tǒng)”的研發(fā)工作,同年5月在杭州西湖法院等部分基層法院進行試點運行,同年8月底在全省105家法院全面鋪開推廣應用。據(jù)《法制日報》介紹,浙江省高級人民法院的“語音智能識別系統(tǒng)”具備語音自主學習能力,可以自動學習歷史案件數(shù)據(jù),結合不同法院和訴訟參與人的語音資料進行有針對性的學習。即便帶有一定口音的普通話,系統(tǒng)經(jīng)過反復學習和模型訓練,識別率亦可持續(xù)提高。同時,法官還可以提前導入案件起訴狀等內容,讓系統(tǒng)提前“學習”,從而提升當事人姓名、案件特定關鍵詞的識別率。該系統(tǒng)可以用于庭審、調解、合議、聽證、審判委員會討論等各類辦案環(huán)節(jié),用途更包括語音轉寫、高頻詞分析、內容檢索、爭議焦點歸納、法官庭審習慣分析、當事人畫像、案件預判、知識挖掘等諸多方面。據(jù)統(tǒng)計,該系統(tǒng)的整體識別準確率可以達到95%以上,既減輕法官、書記員制作筆錄的負擔,又令審理過程更加順暢。
值得關注的是,全國各地法院正在借鑒浙江先進經(jīng)驗的做法。比如:海南省高級人民法院于2017年7月與科大訊飛簽署戰(zhàn)略合作協(xié)議,將語音智能識別技術引入海南法院庭審,實現(xiàn)在庭審過程中對法官、原告、被告、犯罪嫌疑人、證人等各方的語音內容自動實時識別成文字。
在歐美國家,“語音識別”已經(jīng)在醫(yī)療領域使用了近十年,主要用于節(jié)約醫(yī)生電子文本錄入的時間,降低文本錄入工作難度,令醫(yī)生將更多時間和精力用在與患者及家屬溝通交流、為更多患者診斷等事情上。以“美國Nuance公司的英文語音識別技術及電腦輔助病歷抄寫系統(tǒng)”為例。醫(yī)生可使用掌上移動型設備將病患看診狀況口述下來,存成語音檔案,直接傳送至語音識別服務器。此系統(tǒng)可在5分鐘內完成轉錄10小時的語音,極大地縮短音頻文件轉錄文本的時間。據(jù)統(tǒng)計,美國臨床中使用語音識別錄入的應用比例已達10%至20%,有效地控制電子文本記錄及診斷報告生成時間和質量。
我國亦在效仿此種先進做法。北京協(xié)和醫(yī)院在國內首先提出使用語音識別技術錄入醫(yī)療領域電子文本。之后,北京協(xié)和醫(yī)院通過定制醫(yī)療領域語言模型、個性化語言模型、部署語音云支持多渠道多終端等方式,探索建立了“醫(yī)療語音識別系統(tǒng)”。目前,該系統(tǒng)在協(xié)和醫(yī)院病房、醫(yī)技科室、手術休息室已經(jīng)上線使用,尤其對長段信息、自由醫(yī)囑錄入的成效明顯。據(jù)統(tǒng)計,超過50%的醫(yī)生認為語音識別技術每天可節(jié)約一小時左右的時間。超過90%的醫(yī)生希望使用語音錄入方式。
在金融服務的語音智能識別方面,德國無疑走在了產業(yè)的前端。德意志銀行于2002年就開發(fā)了“語音識別電話”,于2009年更采用Nuance的自助語音導航對上述系統(tǒng)進行全面升級。升級后的系統(tǒng)可以正確地引導客戶通過語音發(fā)出的請求,準確定位客戶的交易需求,幫助其尋找到實現(xiàn)交易需求的途徑。在英國,巴克萊銀行在私人銀行分部Wealth推出了“語音智能識別身份鑒定功能”,亦采用Nuance為其提供技術支持。該系統(tǒng)通過比較呼入客戶的聲音與儲存在語音庫中的聲音,以此來驗證客戶身份。若驗證成功,客戶將可以實現(xiàn)自己的交易需求;若驗證失敗,系統(tǒng)將啟用其他的安全認證方式對客戶的身份進行進一步的核實、確認。
我國在21世紀開始初探語音智能識別在銀行服務層面的產品應用。比如:工商銀行于2012年推出了“貴賓服務專線”,并在大連等地投入運營。該專線運用了自動語音應答系統(tǒng),能對語音進行自動識別和智能判斷,并準確定位到客戶需要辦理的業(yè)務。客戶無需層層收聽電話語音提示,亦不用根據(jù)提示層層選擇需要辦理的業(yè)務,只需說出“查余額”“轉賬”“定期存款”“利率查詢”等欲辦理的業(yè)務名稱,即可快速定位進入需要辦理的相應業(yè)務。據(jù)測算,使用自動語音應答系統(tǒng)后,之前用戶需按鍵交互5-8次的業(yè)務,現(xiàn)在只需語音交互2-3次即可,平均交互次數(shù)較之前大幅縮短。這項技術不僅令客戶使用簡單的語音辦理各項業(yè)務,提升客戶滿意度,而且優(yōu)化電話銀行流程,提高用戶呼入成功率,降低運營成本。
隨著互聯(lián)網(wǎng)與智能語音操控相結合的實踐應用,傳統(tǒng)家電廠商的轉型升級已經(jīng)成為必然的趨勢,智能空調、智能電視、智能冰箱均陸續(xù)上線。以“格蘭仕的G+滴滴”為例。該款產品系一款主打語音交互的智能洗衣機。相較于傳統(tǒng)的洗衣機,其最大的不同之處在于搭載了“格蘭仕G+智慧平臺”,為用戶提供了語音操控及手機APP遠程遙控的疊加功能,并融合了BroadLink DNA system、科大訊飛等一流語音軟件技術的資源,可以“聽懂”各類方言。在連接無線網(wǎng)絡后,用戶可以憑借配套的手機APP遠程遙控系統(tǒng),隨時隨地控制洗衣機的基本操作。尤其對于老人、孩子來講,僅通過語音就可以簡單的對洗衣機進行操控,大大簡化了洗衣機的操控難度。
正如百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏給出的答案,“語音智能識別已經(jīng)不僅局限于將客戶需要的信息呈現(xiàn)出來,還會將一些連鎖信息進行反饋,并自動生成給客戶一套全面的服務。基于這種智能化的技術進化,語音智能識別必將成為日后移動互聯(lián)網(wǎng)的入口之一”。隨著語音技術的逐步成熟,“語音智能識別”在不久的未來必將應用到社會生活的方方面面,更加貼近我們的日常,其產業(yè)鏈覆蓋將更加完備。比如:2017年12月初,上海申通地鐵集團與阿里巴巴和螞蟻金服集團舉行戰(zhàn)略合作意向書簽署儀式,成功達成戰(zhàn)略合作,將引入多模態(tài)智能語音交互技術,在未來實現(xiàn)乘客憑借自身語音在綁定支付寶賬戶后輕松進出車站的愿景。或許,全領域的語音智能識別時代即將到來!
編輯:黃靈 yeshzhwu@foxmail.com