楊玄章
新生報(bào)到季,某校剛剛?cè)雽W(xué)的新同學(xué)沒有像以往一樣領(lǐng)到厚厚的一本新生指南,取而代之的是一個(gè)叫“新生助手”的小盒子或者手機(jī)“小馬甲”。在這個(gè)陌生的環(huán)境下,這個(gè)“新生助手”就成為了同學(xué)們?nèi)谌胄@生活最可靠的伙伴了。
語音技術(shù)進(jìn)校園
“哪里可以買到便宜的洗漱用品?”新生小賈剛剛把行李放下,就要買必備的生活用品了。
“小助手”回答道:“學(xué)校周邊步行范圍內(nèi)有兩個(gè)超市,一個(gè)物美超市在南門外面的學(xué)府街2號(hào),一個(gè)是學(xué)生超市在學(xué)校的二食堂邊上。您是要買牙刷、牙膏和毛巾么?請選擇一下吧?!边@時(shí),在智能設(shè)備的屏幕上,展現(xiàn)了這兩個(gè)超市的地圖,同時(shí)把小賈可能要買的東西在這兩個(gè)超市的價(jià)格都羅列在下面。
小賈很高興地說道:“好啊,就這幾個(gè)東西吧,我想從學(xué)校里的學(xué)生超市買這幾樣。給我送到宿舍來吧。”
“好的,”接到了小賈的指示,“小助手”直接下了單,“東西會(huì)在30分鐘之后送達(dá)。另外,今天是新學(xué)期第一天,你要不要去校園里看看呢?”
小賈問道:“去哪里看好呢?新學(xué)期學(xué)校應(yīng)該有什么活動(dòng)吧?”
“小助手”依次列出了今天學(xué)校所有的活動(dòng)和地點(diǎn):“10點(diǎn)到17點(diǎn),北門小樹林有各個(gè)社團(tuán)的招新活動(dòng);10點(diǎn)到11點(diǎn),我的朋友S博士會(huì)介紹學(xué)校的智能授課評(píng)估系統(tǒng)……”
“這個(gè)智能授課要去聽,據(jù)說以后我們的課堂綜合評(píng)分,都是由這個(gè)智能語音系統(tǒng)來完成的?!蓖奚岬男∮谠谂赃吶滩蛔〔遄?。
“好啊!那就幫我們訂兩個(gè)座位吧,我們10點(diǎn)去參加S博士的演講?!毙≠Z說。
幾秒鐘后,“小助手”在其上方投射出一個(gè)報(bào)告廳的全息座位圖,其中有兩個(gè)座位高亮顯示:“定好了!你們的座位在在H21和H23。報(bào)告廳離宿舍不遠(yuǎn),我已經(jīng)把路線圖推送到你們的手機(jī)上了?!?/p>
小賈和小于順著地圖的指引,剛剛來到報(bào)告廳門口,“小助手”先跳出來和“S博士”打招呼了:“S博士你好,這是新生小賈和小于,今天來學(xué)習(xí)智能授課評(píng)估系統(tǒng)?!?/p>
這時(shí)候,教室門口突然跳出來一個(gè)戴博士帽的大胖子博士全息圖,很熱情地和大家打招呼:“歡迎歡迎,今天還有另一個(gè)校區(qū)的同學(xué),通過全息在線和我們互動(dòng)?!?/p>
大家坐定之后,一個(gè)更大號(hào)的“博士帽”被投射到最前面,“S博士”開始詳細(xì)地講解如何與該系統(tǒng)進(jìn)行良好的互動(dòng),從而爭取到更好的課堂分?jǐn)?shù)。
其中有一點(diǎn)最讓小賈印象深刻:回答課堂問題時(shí),你們只要以你最喜歡的方式說出你的想法就好了,我們的系統(tǒng)會(huì)全面分析你的答案,并分析你的語氣和語速,從而得到最好的分?jǐn)?shù)。
會(huì)議的最后,小賈和小于很好奇地問“小助手”:“S博士到底在哪個(gè)校區(qū)工作???”
“小助手”嘿嘿一笑說:“S博士和我一樣啊,是你們的智能語音助手哦?!?/p>
看過上面的故事,有的同學(xué)也許會(huì)問:這是哪個(gè)科幻小說中的場景?如果是在幾年前,這樣的場景也許還是人們對于遙遠(yuǎn)未來智能社會(huì)的幻想。不過,最近智能語音領(lǐng)域的迅猛發(fā)展,讓很多這樣的“科幻”場景即將成為現(xiàn)實(shí)。
那么,智能語音從哪里來到哪里去?未來這方面的技術(shù)會(huì)如何改變我們的社會(huì)和生活?帶著這些問題,我們采訪了這個(gè)領(lǐng)域在中國成長起來的大咖:科大訊飛。
最早接近“人類智能”的領(lǐng)域
近年來,“人工智能”這四個(gè)字在各個(gè)方向“轟炸”著人們的認(rèn)知。事實(shí)上,這四個(gè)字意味著語音、圖像、視頻、文本、日志分析等多個(gè)領(lǐng)域。在這些個(gè)領(lǐng)域里面,很多離真正的“人類智能”還有一定距離。但是,智能語音領(lǐng)域卻有著不一樣的進(jìn)展。
2015年,科大訊飛最新語音轉(zhuǎn)寫產(chǎn)品“訊飛聽見”將中文普通話識(shí)別和轉(zhuǎn)寫的實(shí)用準(zhǔn)確率提高到了95%以上,遠(yuǎn)超過人類專業(yè)速記員的速度和準(zhǔn)確度。這個(gè)不同尋常的發(fā)布與那些最新研究成果和技術(shù)實(shí)驗(yàn)有很大的不同,這標(biāo)志著中文智能語音的技術(shù)已經(jīng)可以真真實(shí)實(shí)地達(dá)到人類的水平。
“科大訊飛雖然成立18年了,但是在語音識(shí)別領(lǐng)域其實(shí)還是個(gè)新兵,”訊飛負(fù)責(zé)人這樣告訴記者:“最早的語音識(shí)別技術(shù)可以追溯到上世紀(jì)50年代,貝爾研究所Davis等人研究成功了世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng);1960年英國Denes等人研究成功第一個(gè)計(jì)算機(jī)語音識(shí)別系統(tǒng)。大規(guī)模的語音識(shí)別研究始于上世紀(jì)70年代以后,在小詞匯量、孤立詞的識(shí)別方面取得了實(shí)質(zhì)性的進(jìn)展。”
上世紀(jì)90年代以后,大詞匯量連續(xù)語音識(shí)別得到優(yōu)化,在語音識(shí)別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。1997年,IBM Viavoice首個(gè)語音聽寫產(chǎn)品問世。
自2009年以來,借助機(jī)器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識(shí)別技術(shù)得到突飛猛進(jìn)的發(fā)展。2010年,谷歌發(fā)布VoiceAction支持語音操作與搜索。2011年初,微軟的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型在語音搜索任務(wù)上獲得成功。也就在同年,蘋果手機(jī)助理Siri首次亮相,人機(jī)交互掀開了新的篇章。
科大訊飛成立于1999年,相比這些巨頭來說,是個(gè)不折不扣的“新兵”,剛開始難免是要坐冷板凳的。但是,在多年的積累之后,科大訊飛在智能語音領(lǐng)域中的貢獻(xiàn)讓人刮目相看。有些人認(rèn)為中國的企業(yè)可能在中文智能語音方面積累更多一些,事實(shí)上,科大訊飛在歷次的國內(nèi)外語音合成評(píng)測中,各項(xiàng)關(guān)鍵指標(biāo)均名列第一。2008年至今,科大訊飛連續(xù)在國際說話人、語種識(shí)別評(píng)測大賽中名列前茅。2014年,科大訊飛首次參加國際口語機(jī)器翻譯評(píng)測比賽(International Workshop on Spoken Language Translation)即在中英和英中互譯方向中以顯著優(yōu)勢勇獲第一。2016年,國際語音識(shí)別大賽(CHiME)科大訊飛取得全部指標(biāo)第一;在認(rèn)知智能領(lǐng)域,相繼獲得國際認(rèn)知智能測試(Winograd Schema Challenge)全球第一、國際知識(shí)圖譜構(gòu)建大賽(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任務(wù)全球第一。
智能語音技術(shù)從簡單的比賽和實(shí)驗(yàn)室成果,到真正的實(shí)用化,甚至超過人類的智能水平,要做的工作比我們想象得要復(fù)雜得多。如果我們打開“訊飛聽見”的技術(shù)鏈,發(fā)現(xiàn)其集成了包括語音轉(zhuǎn)寫識(shí)別技術(shù)、篇章級(jí)處理方案、自然語言處理技術(shù)、陣列解混響技術(shù)、口語化風(fēng)格處理技術(shù)、聲紋識(shí)別等多方面的技術(shù),為了應(yīng)對每個(gè)人之間的個(gè)體化的差異,方言語音識(shí)別、高抗噪語音識(shí)別、個(gè)性化識(shí)別等多方面的功能也是必不可少的。去年12月,“ 訊飛聽見”的升級(jí)版本在原實(shí)時(shí)轉(zhuǎn)寫漢字的基礎(chǔ)上,還可同步翻譯為英、日、韓、維等多種語言。
更高階:認(rèn)知智能
人工智能的“旅程”中,在很長一段時(shí)間,一直處于“能存會(huì)算”的計(jì)算智能時(shí)代。在這一時(shí)期,機(jī)器還是計(jì)算的機(jī)器,人類和機(jī)器交互的方式還很有限很低效,在有限的交流中,機(jī)器能按照人來安排的指令,完成特定的功能已經(jīng)算是合格了。
智能語音領(lǐng)域的發(fā)展,率先將機(jī)器的“聽、說、理解”能力拉升到了“感知智能”的階段。以谷歌、微軟、訊飛為代表的一批優(yōu)秀的企業(yè)和機(jī)構(gòu)將語音的識(shí)別、認(rèn)知、合成、翻譯等能力植入了機(jī)器內(nèi)。同時(shí),在教育、車載、家居、通信、硬件和城市等多個(gè)領(lǐng)域,產(chǎn)生了豐富的應(yīng)用。
“現(xiàn)在我們要進(jìn)入認(rèn)知智能階段了?!笨拼笥嶏w強(qiáng)調(diào)說。從最新的訊飛產(chǎn)品線來看,在教育評(píng)測、知識(shí)服務(wù)、智能客服、機(jī)器翻譯等領(lǐng)域,機(jī)器已經(jīng)開始具備了“能理解會(huì)思考”的能力了。“人工智能在智能語音這個(gè)領(lǐng)域里已經(jīng)超過人類了。最近我們在做一些教育評(píng)測領(lǐng)域的實(shí)踐。如今,機(jī)器主觀題閱卷技術(shù)對語文、英文等學(xué)科的評(píng)分已達(dá)到或超過人工評(píng)分水平?!?/p>
當(dāng)智能語音系統(tǒng)具備足夠多的實(shí)踐、“學(xué)習(xí)”過足夠多的數(shù)據(jù),“練習(xí)”過足夠多的對話,也許它真的可以為人類“打開另一扇窗口”。
那到底未來是什么呢?也許智能語音技術(shù)與其他人工智能技術(shù)配合起來,可以讓人們專注在自己的興趣上,而不用擔(dān)心是誰來完成基礎(chǔ)服務(wù);可以讓小孩子可以自如地獲取知識(shí),而不用關(guān)心誰在扮演老師的角色;可以讓科學(xué)家將精力集中在最核心的研究上,而不用操心是誰來進(jìn)行配合性的工作;可以讓上班族們在早高峰可以美美地睡一覺,而不用費(fèi)心交通狀況和換乘方案……
毫無疑問,人工智能未來肯定會(huì)在我們身邊扮演一個(gè)主要角色,智能語音技術(shù)顯然也會(huì)成為這里面的重要核心之一。不過,這個(gè)領(lǐng)域仍需杰出的人才進(jìn)行數(shù)十年如一日的堅(jiān)守和創(chuàng)新,大家準(zhǔn)備好了么?