2011年10月,蘋果公司推出iPhone 4S,其最大的亮點(diǎn)便是Siri這一智能語音工具。近一年后,中文版Siri讓國(guó)內(nèi)的蘋果用戶開始熱衷于對(duì)著手機(jī)說出指令。在“調(diào)戲”Siri的熱潮逐漸褪去后,人們發(fā)現(xiàn),Siri的更方便之處在于設(shè)定鬧鐘、記錄備忘、查詢天氣、搜索地圖,而并非只用來消遣。之后的Siri“涉黃”——理解“嫖娼”之義并搜索不良場(chǎng)所的新聞雖不光彩,卻從側(cè)面映襯出智能語音軟件正越來越“強(qiáng)大”。
“語音識(shí)別其實(shí)在2008年就發(fā)展到比較成熟的程度了,但因?yàn)橹暗慕?jīng)驗(yàn),很多公司擔(dān)心最終效果,不敢做大規(guī)模推廣?!编嵲c是語音和語言解決方案提供商N(yùn)uance通訊公司大中華區(qū)的總經(jīng)理,他向《世界博覽》記者表示,自己十年前也用過語音產(chǎn)品,光錄入本人的聲音都要半個(gè)小時(shí)以上?,F(xiàn)如今則是另一番面貌?!昂芏嗖煌膹S家都希望把語音變?yōu)樽约耶a(chǎn)品的功能之一?!?/p>
最早用于呼叫中心
普通消費(fèi)者可以觸及的語音產(chǎn)品遠(yuǎn)非Siri一個(gè),在競(jìng)爭(zhēng)對(duì)手Android平臺(tái)上,Google就推出了與強(qiáng)大搜索功能結(jié)合的語音助手Google Now;在智能手機(jī)的軟件商店里,國(guó)產(chǎn)的訊飛語點(diǎn)、小i機(jī)器人等一批類似Siri產(chǎn)品竟相面世;不只在移動(dòng)設(shè)備上,三星、長(zhǎng)虹等家電廠商推出了多款智能語音電視,三洋推出了全語音系列的微波爐;在奔馳、福特等品牌的汽車上,語音助手也逐漸成為了一項(xiàng)標(biāo)準(zhǔn)配置。
面對(duì)著硝煙四起的國(guó)內(nèi)語音市場(chǎng),Nuance公司正逐漸從幕后走向臺(tái)前。并不為普通消費(fèi)者所熟知的Nuance是全球領(lǐng)先的語音技術(shù)公司,在全球語音市場(chǎng)占據(jù)著2/3的份額??偛课挥诿绹?guó)馬薩諸塞州的Nuance成立于1992年,與之合作的企業(yè)清單上囊括了各個(gè)領(lǐng)域的知名跨國(guó)企業(yè):埃森哲、通用、IBM、微軟、三星、諾基亞、福特……超過2/3的財(cái)富100強(qiáng)企業(yè)使用了Nuance的語音解決方案,裝載其語音技術(shù)的手機(jī)在全球有五億部以上。這當(dāng)中。蘋果手機(jī)上的Siri最讓人聯(lián)想到Nuance的語音技術(shù)。
Nuance在英國(guó)、德國(guó)、日本、巴西等主要國(guó)家和地區(qū)有35個(gè)區(qū)域辦事處,產(chǎn)品遍及70多個(gè)國(guó)家。如今,它正將目光聚焦在中國(guó)市場(chǎng),這里在其全球商業(yè)版圖中地位愈發(fā)重要。鄭裕慶從2008年開始任職,這個(gè)長(zhǎng)駐北京的香港人在IT行業(yè)從業(yè)近20年,在業(yè)務(wù)拓展、運(yùn)營(yíng)管理、產(chǎn)品布局以及不同市場(chǎng)的推廣方面擁有豐富的經(jīng)驗(yàn)?!拔业墓ぷ饕恢币詠矶际沁M(jìn)入剛剛快速成長(zhǎng)、市場(chǎng)前景廣闊的公司。未來十幾年間語音將是人與機(jī)器交互最快的輸入方式,”鄭裕慶在英國(guó)Essex大學(xué)計(jì)算機(jī)系人工智能專業(yè)獲得碩士學(xué)位,他表示,“我看好這個(gè)市場(chǎng)中的機(jī)會(huì),只是沒有預(yù)料到一切發(fā)展得這么快?!?/p>
早在2000年左右,Nuance公司就已經(jīng)進(jìn)入中國(guó)內(nèi)地。當(dāng)時(shí)的語音市場(chǎng)尚未成熟,但該公司通過合作伙伴將Nuance的語音技術(shù)引入中國(guó),其中企業(yè)用戶的呼叫中心是Nuance在中國(guó)的兩大重頭業(yè)務(wù)之一。鄭裕慶解釋說,例如訂餐電話中心如果用按鍵輸入,多層級(jí)的菜單不方便找到消費(fèi)者需要的菜品。“通過自然語音理解技術(shù)提供導(dǎo)航系統(tǒng),使菜單扁平化,消費(fèi)者打入電話,用自然語表達(dá),機(jī)器幫忙分析、處理需求,用戶體驗(yàn)就能得到提升?!焙艚兄行牡恼Z音技術(shù)應(yīng)用如今已相當(dāng)成熟。
十年前語音技術(shù)尚未得到普及,當(dāng)時(shí)國(guó)內(nèi)市場(chǎng)對(duì)文字輸入的需求相對(duì)較高,這也是Nuance進(jìn)入中國(guó)的重要契機(jī)——除了語音識(shí)別,它還是全球領(lǐng)先的文字輸入方案提供商,在觸摸屏、十二鍵、九鍵等不同手機(jī)上,多數(shù)大廠家都在用Nuance的T9文字輸入產(chǎn)品。
語音的普及源自汽車
Nuance的語音解決方案提供豐富和廣泛的語音、語言、文本和圖像產(chǎn)品組合,支持多達(dá)35種主要語言?!斑M(jìn)入中國(guó)后,我們希望能用領(lǐng)先的語音技術(shù)去幫助國(guó)內(nèi)OEM廠家(原始設(shè)備制造商)開拓國(guó)際市場(chǎng)。與我們合作的廠家都是比較國(guó)際化的,希望在中國(guó)和國(guó)際市場(chǎng)有所作為。他們能夠利用語音技術(shù)使產(chǎn)品在全球市場(chǎng)具備差異化的競(jìng)爭(zhēng)優(yōu)勢(shì)?!编嵲c說。
在中國(guó)地區(qū),Nuance涉獵的兩大業(yè)務(wù)對(duì)象分別是企業(yè)類和移動(dòng)類用戶,前者主要是呼叫中心,用于語音導(dǎo)航。對(duì)于后者,Nuance提供的是針對(duì)移動(dòng)設(shè)備的語音解決方案,對(duì)象包括手機(jī)、電視、電腦、家電、汽車等廠商,例如三星、LG、松下等廠商的電視都采用了Nuance語音技術(shù)實(shí)現(xiàn)語音控制。
然而真正將語音技術(shù)從呼叫中心帶到普通消費(fèi)者身邊的是汽車。
駕車者開車的同時(shí)按動(dòng)中控臺(tái)的按鈕十分不便,接打電話或輸入短信則會(huì)讓基本安全都難以保證,如果能夠?qū)崿F(xiàn)在汽車上的語音輸入,對(duì)車主帶來的便捷不言而喻。比亞迪最近在廣州車展發(fā)布的“思銳”車型便采用了Nuance的語音技術(shù)。Nuance與國(guó)內(nèi)廠商一般合作的模式是:大型的OEM希望利用語音技術(shù)開發(fā)特色功能,Nuance提供技術(shù),由廠家自己設(shè)計(jì)或開發(fā)應(yīng)用。
起初,語音技術(shù)被應(yīng)用于奔馳一級(jí)的高級(jí)車型上,隨著技術(shù)發(fā)展普及,這項(xiàng)便捷服務(wù)也得以延伸到更多品牌和級(jí)別的汽車上,使用者數(shù)量大幅增加。這個(gè)過程中不可忽視的一點(diǎn)是技術(shù)的進(jìn)步。
在汽車上,停車、30公里、100公里、開窗、雨刷、人的談話聲、開音響等等是完全不同的聲音環(huán)境。Nuance利用獨(dú)有的算法,專門去除風(fēng)噪聲,其他脈沖形成的聲音抑或揚(yáng)聲器播出的聲音,也可以被語音系統(tǒng)屏蔽掉,從而只識(shí)別駕駛者發(fā)出的命令。
“這項(xiàng)技術(shù)叫作回聲消除(Echo Cancellation)??乖爰夹g(shù)最大的難題是副駕駛和后排乘客的說話聲,聲音聚集到一起最難處理。我們還有Beanforming(定向)技術(shù)。分辨駕駛者位置上的聲音來源。在降噪方面,我們有一系列的先進(jìn)技術(shù)和針對(duì)不同噪聲的處理辦法?!?/p>
鄭裕慶表示,Nuance公司的技術(shù)優(yōu)勢(shì)在于對(duì)噪音的處理和遠(yuǎn)距離的語音識(shí)別,公司已經(jīng)有十多年的經(jīng)驗(yàn)積累?!败噧?nèi)噪音會(huì)直接影響終端用戶的體驗(yàn),所以很關(guān)鍵。但如何去除噪音同時(shí)保持高識(shí)別率是非常不易的?!?/p>
抗噪技術(shù)不止應(yīng)用在汽車上,最常見還有語音智能電視。使用Nuance語音技術(shù)的電視,觀眾坐在沙發(fā)上就可以對(duì)著屏幕通過命令換臺(tái)、調(diào)節(jié)音量以及搜索網(wǎng)絡(luò)內(nèi)容。同時(shí)電視聲音照樣放出、家人坐在沙發(fā)上盡興聊天,這其中運(yùn)用的也是回聲消除和定向技術(shù)。
“中國(guó)是全新的市場(chǎng),很多公司還不知道如何測(cè)試語音效果,我們也慢慢地教給他們測(cè)試標(biāo)準(zhǔn)。一些國(guó)內(nèi)的競(jìng)爭(zhēng)對(duì)手價(jià)格便宜,甚至做完產(chǎn)品再收費(fèi),但廠商們逐漸發(fā)覺便宜并不是好事。用戶體驗(yàn)無法保證?!编嵲c說,國(guó)內(nèi)廠家并不像國(guó)外的知名廠商,后者習(xí)慣先投入開發(fā)再看結(jié)果,而國(guó)內(nèi)廠商因?yàn)槿肆Αr(shí)間等成本限制,更樂于看到結(jié)果再去應(yīng)用。因此,Nuance也開發(fā)了一些語音應(yīng)用,然后由廠商進(jìn)行定制,但變化幅度不會(huì)太大?!癗uance在中國(guó)的策略非常靈活,看合作者是想自己研發(fā)還是由我們?nèi)退麄內(nèi)ラ_發(fā),我們?cè)趪?guó)內(nèi)也有自己的團(tuán)隊(duì)?!?/p>
在移動(dòng)終端發(fā)力
在語音技術(shù)發(fā)展的十余年間,Nuance最具革命意義、最為國(guó)外用戶熟識(shí)的產(chǎn)品是在電腦上使用的Dragon Naturally Speaking軟件,它能夠通過語音指令對(duì)PC完成多項(xiàng)操作,如文字輸入、打開瀏覽器、發(fā)送郵件等。這款軟件早在1998年前就已推出,但由于當(dāng)時(shí)的中國(guó)軟件市場(chǎng)不太成熟,所以未能進(jìn)入中國(guó)。
而Nuance在中國(guó)真正發(fā)力也應(yīng)該算是鄭裕慶加入之后?!拔襾砉緯r(shí),Nuance大中華區(qū)只有17個(gè)人,沒有技術(shù)支持和開發(fā)團(tuán)隊(duì),支持中文的產(chǎn)品也很有限。”經(jīng)過數(shù)年發(fā)展,目前Nuance在國(guó)內(nèi)已有兩個(gè)研發(fā)中心:北京的研發(fā)中心專門負(fù)責(zé)文字輸入產(chǎn)品,上海研發(fā)中心負(fù)責(zé)中文的語音解決方案。國(guó)內(nèi)市場(chǎng)團(tuán)隊(duì)幾年前僅有二三十人,現(xiàn)在已超過100人,研發(fā)團(tuán)隊(duì)也在不斷擴(kuò)大。
在中文領(lǐng)域,Nuance采集了南至廣州福建、北到黑龍江乃至西北等全國(guó)各地的語音數(shù)據(jù),這使其產(chǎn)品在識(shí)別帶口音的普通話時(shí)準(zhǔn)確率也很高。中文語音數(shù)據(jù)的收集工作,1999年左右就已有專門的數(shù)據(jù)員走南訪北。
Nuance的語音方案目前可以支持粵語、普通話、臺(tái)灣國(guó)語,其中的普通話覆蓋各地口音。在口音的問題上,鄭裕慶堅(jiān)信“外來和尚更會(huì)念經(jīng)”:“你可以測(cè)試國(guó)內(nèi)語音廠家的引擎和我們的引擎,我們對(duì)口音的處理比他們好得多?!?/p>
Siri的問世,對(duì)國(guó)內(nèi)智能語音市場(chǎng)起推波助瀾,很多廠家加入到語音產(chǎn)品的開發(fā)隊(duì)伍中,不同行業(yè)的大量廠商也對(duì)語音技術(shù)有所需求。Nuance在中國(guó)的業(yè)務(wù)增長(zhǎng)每年都能達(dá)到50%以上,盈利主要來自企業(yè)用戶。鄭裕慶透露說,通過與手機(jī)、PND(導(dǎo)航系統(tǒng))、汽車等各大廠商合作,Nuance如今在個(gè)人消費(fèi)市場(chǎng)上的業(yè)務(wù)比重相對(duì)呼叫中心更高。
2009年12月,該公司在北美推出著名的Dragon Dictation(聲龍聽寫)和Dragon Search(聲龍搜索)應(yīng)用,前者能夠?qū)⒂脩舻恼Z音轉(zhuǎn)化為文本信息、郵件或Twitter發(fā)送,后者利用語音實(shí)現(xiàn)搜索并同時(shí)呈現(xiàn)多家網(wǎng)站的結(jié)果,在中國(guó)可以顯示雅虎、新浪愛問、優(yōu)酷、淘寶和大眾點(diǎn)評(píng)的搜索結(jié)果。二者都在蘋果的App store獲得了良好口碑和超過百萬的下載,Dragon Dictation還被《時(shí)代》評(píng)為2010年十大iPhone應(yīng)用軟件。
鄭裕慶并未在采訪中回答任何關(guān)于蘋果Siri的問題,但值得注意的一點(diǎn)是,Dragon Dictation和Dragon Search比起Siri的面世時(shí)間要早近兩年,可以推斷這兩款廣受歡迎的語音應(yīng)用對(duì)后來Siri的推出有怎樣的引導(dǎo)意義。
“Nuance的軟件在Android Play Store和APP Store分別都有免費(fèi)應(yīng)用下載,我們想讓用戶免費(fèi)體驗(yàn)產(chǎn)品,同時(shí)進(jìn)行數(shù)據(jù)收集,提高語音引擎的準(zhǔn)確度,這樣產(chǎn)品才能更加成熟,”鄭裕慶說,“如果我們不前期先投入,相信到今天沒有一個(gè)廠家會(huì)愿意采用我們的產(chǎn)品,放在他們手機(jī)或汽車上面?!边@些客戶囊括摩托羅拉、諾基亞、HTC、三星等品牌的世界八大手機(jī)制造商以及全球十大汽車制造商。
而面對(duì)數(shù)量越來越多的國(guó)內(nèi)合作者,Nuance公司今年已將服務(wù)器搬到中國(guó)。在學(xué)習(xí)人工智能出身的鄭裕慶看來,未來的語音輸入、手勢(shì)控制和面部識(shí)別將會(huì)整合為一個(gè)整體解決方案,但在輸入方面,語音輸入仍是最快捷的方式,“實(shí)現(xiàn)語音輸入,一定要有最好的語義理解引擎才行?!?/p>