卡地亞·莫斯科維奇
一個(gè)剛學(xué)會(huì)走路的小孩搖搖晃晃穿過(guò)起居室,來(lái)到墻角的一個(gè)光滑的黑色圓柱體前停下來(lái)。他尖聲說(shuō)道:“Alexa,播放兒童音樂(lè)?!彪m然發(fā)音含混不清,但是這個(gè)圓柱體明白了請(qǐng)求,房間里響起了音樂(lè)。
Alexa是亞馬遜的云端語(yǔ)音識(shí)別軟件,它是黑色圓柱體音箱Echo的大腦。Alexa的面世在全球造成了轟動(dòng),除了小孩以外,因?yàn)樗麄冇X(jué)得這是理所當(dāng)然的。小孩子會(huì)伴隨著Alexa成長(zhǎng)。在人工智能的支持下,Alexa學(xué)會(huì)了回答越來(lái)越多的問(wèn)題,有朝一日可能會(huì)進(jìn)化到能與人自由交談的地步。
漫長(zhǎng)的語(yǔ)音識(shí)別之路
但是,任何10歲以上的人都知道,從前不是這樣的。語(yǔ)音識(shí)別軟件發(fā)展到今天經(jīng)歷了漫長(zhǎng)的道路。雖然Echo比啤酒杯更瘦,但是第一批語(yǔ)音識(shí)別機(jī)器——20世紀(jì)中葉開(kāi)發(fā)的那些——幾乎可以占滿(mǎn)一整個(gè)房間。
人類(lèi)很久以前就試圖對(duì)機(jī)器講話(huà)——或者至少讓機(jī)器對(duì)我們說(shuō)話(huà)?!罢Z(yǔ)音能夠讓我們與機(jī)器實(shí)現(xiàn)難以置信的簡(jiǎn)單互動(dòng),它是最自然、最方便的交互方式,也是我們每天都在使用的東西,”亞馬遜設(shè)備事業(yè)部和亞馬遜Alexa歐洲區(qū)副總裁喬利特·凡德·穆勒恩說(shuō),“語(yǔ)音就是未來(lái)?!?/p>
1773年,俄國(guó)科學(xué)家、在哥本哈根生活的生理學(xué)教授克里斯蒂安·克拉特齊斯坦開(kāi)始思考語(yǔ)音技術(shù)。他制造了一個(gè)特別的設(shè)備,把共鳴管和風(fēng)琴管連接起來(lái),發(fā)出類(lèi)似于人類(lèi)語(yǔ)言中元音的聲音。就在十多年后,維也納的沃爾夫?qū)ゑT·肯佩倫制造了一臺(tái)類(lèi)似的機(jī)械聲學(xué)語(yǔ)音機(jī)器。在19世紀(jì)初,英國(guó)發(fā)明家查爾斯·惠斯通用皮革共鳴器改進(jìn)了馮·肯佩倫的系統(tǒng)。該系統(tǒng)可以通過(guò)手動(dòng)調(diào)整或控制發(fā)出像語(yǔ)言一樣的聲音。
到1881年,亞歷山大·格拉漢姆·貝爾和他的兄弟查爾斯·薩姆納·天特一起制造了一個(gè)蠟涂層的旋轉(zhuǎn)圓柱體,一根唱針對(duì)傳入的聲音壓力作出反應(yīng),切出垂直的凹槽。這一發(fā)明為1907年獲得專(zhuān)利的第一臺(tái)留聲機(jī)鋪平了道路。他們是希望用機(jī)器來(lái)聽(tīng)寫(xiě)秘書(shū)念的筆記和書(shū)信,這樣就不再需要速記員。隨后,這些記錄可以用打字機(jī)打出來(lái)。這一發(fā)明很快在全球流行起來(lái),在越來(lái)越多的辦公室里,秘書(shū)會(huì)帶著笨拙的耳機(jī),聆聽(tīng)錄音并完成轉(zhuǎn)錄。
但所有這些雛形都是被動(dòng)式機(jī)器——直到1952年自動(dòng)數(shù)字識(shí)別機(jī)“Audrey”的問(wèn)世。它由貝爾實(shí)驗(yàn)室制造,體型巨大,占滿(mǎn)了一個(gè)六英尺高的繼電器架子,耗電量很大,連接著大量纜線。它能夠識(shí)別語(yǔ)音的基本單位“音素”。
那時(shí),計(jì)算機(jī)系統(tǒng)非常昂貴、笨重,存儲(chǔ)空間和運(yùn)算速度有限。但是Audrey仍然能夠識(shí)別數(shù)字的發(fā)音110到911準(zhǔn)確率高達(dá)90%,至少它的開(kāi)發(fā)者戴維斯發(fā)音時(shí)是這樣。當(dāng)面對(duì)其他幾位指定的說(shuō)話(huà)者時(shí),它的準(zhǔn)確率為70%~80%,但如果是不熟悉的聲音,它的準(zhǔn)確率就會(huì)大大降低?!斑@在當(dāng)時(shí)是一個(gè)驚人的成就,但是那個(gè)系統(tǒng)需要一整個(gè)房間的電子設(shè)備,還需要專(zhuān)業(yè)的電路,才能識(shí)別單個(gè)數(shù)字,”貝爾實(shí)驗(yàn)室信息分析部的查理·巴哈說(shuō)。
由于Audrey只能識(shí)別指定說(shuō)話(huà)者的聲音,它的用途就比較有限:比如它可以為收費(fèi)電話(huà)的接線員提供語(yǔ)音撥號(hào)的功能,但實(shí)際上沒(méi)有這個(gè)必要,因?yàn)樵诖蠖鄶?shù)情況下,通過(guò)手動(dòng)按鈕撥號(hào)成本更低,且更簡(jiǎn)便。Audrey仍然是雛形——它領(lǐng)先于普通的計(jì)算機(jī)。雖然它并沒(méi)有用在生產(chǎn)系統(tǒng)中,但是“它說(shuō)明了語(yǔ)音識(shí)別是可以實(shí)現(xiàn)的,”巴哈爾說(shuō)。
但是還有另一個(gè)目標(biāo)。“我相信Audurey開(kāi)發(fā)的最初目的是要減少帶寬,即電線上傳輸?shù)臄?shù)據(jù)量,”巴哈爾的同事、諾基亞貝爾實(shí)驗(yàn)室的拉里·奧戈?duì)柭f(shuō)。語(yǔ)音識(shí)別所需帶寬比原始聲波要小。但是隨著20世紀(jì)70和80年代電話(huà)機(jī)開(kāi)關(guān)的數(shù)字化,電話(huà)線路分配變的更快、更便宜,同時(shí)仍需要接線員來(lái)理解撥號(hào)請(qǐng)求。于是,20世紀(jì)70年代和80年代,貝爾實(shí)驗(yàn)室語(yǔ)音研究投入了大量精力研究以下內(nèi)容:識(shí)別數(shù)字零到十以及“是”與“否”。“電話(huà)系統(tǒng)在能夠識(shí)別這12個(gè)單詞后,就能夠單純依靠機(jī)器完成電話(huà)接線,”奧戈?duì)柭f(shuō)。
Audrey并不是唯一。20世紀(jì)60年代,日本的幾個(gè)團(tuán)隊(duì)也對(duì)語(yǔ)音識(shí)別進(jìn)行研究,最著名的包括東京無(wú)線電研究實(shí)驗(yàn)室的元音識(shí)別器、京都大學(xué)的音素識(shí)別器和NEC實(shí)驗(yàn)室的數(shù)字語(yǔ)音識(shí)別器。
在1962年的世界博覽會(huì)上,IBM展示了它的“鞋盒”機(jī)器,它能夠理解16個(gè)口頭表達(dá)的英語(yǔ)單詞。美國(guó)、英國(guó)和蘇聯(lián)還有其他研究。蘇聯(lián)的研究人員發(fā)明了動(dòng)態(tài)規(guī)整算法,并將其用來(lái)制造一個(gè)能夠駕馭200個(gè)單詞的識(shí)別器。但這些系統(tǒng)大都基于樣本匹配,也就是把單詞與存儲(chǔ)在機(jī)器里的語(yǔ)音進(jìn)行匹配。
手機(jī)語(yǔ)言識(shí)別進(jìn)入生活
最大的一次飛躍發(fā)生在1971年,當(dāng)時(shí)美國(guó)國(guó)防部的研究機(jī)構(gòu)Darpa出資開(kāi)展一個(gè)為期五年的語(yǔ)音理解研究項(xiàng)目,目標(biāo)是達(dá)到1000個(gè)單詞的詞匯量。很多公司和學(xué)術(shù)機(jī)構(gòu)參與了該項(xiàng)目,包括IBM、卡內(nèi)基梅隆大學(xué)和斯坦福研究所。于是,Harpy在卡內(nèi)基梅隆大學(xué)誕生。
和它的前輩不同,Harpy能夠識(shí)別整句話(huà)?!拔覀儾幌氩樵~典——所以我想要制造一個(gè)能夠翻譯話(huà)語(yǔ)的機(jī)器。這樣,當(dāng)你在講一種語(yǔ)言時(shí),它會(huì)把你說(shuō)的話(huà)轉(zhuǎn)換成文本,然后進(jìn)行機(jī)器翻譯,所有任務(wù)都一次完成,”卡內(nèi)基梅隆大學(xué)曾經(jīng)在Harpy項(xiàng)目和該大學(xué)的Hearsay-II項(xiàng)目工作的計(jì)算機(jī)科學(xué)教授亞歷山大·韋貝爾說(shuō)。
從單詞轉(zhuǎn)到詞組并不容易?!熬渥永锏膯卧~會(huì)交匯起來(lái),你會(huì)弄不清楚,不知道單詞從哪里開(kāi)始,到哪里結(jié)束。于是,你會(huì)得到‘euthanasia'這樣的東西,而它可能是‘youth in Asia?!表f貝爾說(shuō),“或者,當(dāng)你說(shuō)‘Give me a new display時(shí),它可能會(huì)被理解為'‘give me a nudist play。”
Harpy一共能識(shí)別1011個(gè)單詞,這大概是一個(gè)普通的三歲小孩的詞匯量。它的準(zhǔn)確率也相當(dāng)不錯(cuò),所以實(shí)現(xiàn)了Darpa最初的目標(biāo)?!八闪爽F(xiàn)代語(yǔ)音識(shí)別系統(tǒng)真正的祖先,”卡內(nèi)基梅隆大學(xué)語(yǔ)言技術(shù)所的所長(zhǎng)杰米·卡博內(nèi)爾說(shuō),“它是第一個(gè)成功利用語(yǔ)言模型判斷哪些單詞放在一起會(huì)產(chǎn)生意義的系統(tǒng),因此它能夠降低語(yǔ)音識(shí)別的錯(cuò)誤。”
在之后的一些年里,語(yǔ)音識(shí)別系統(tǒng)進(jìn)一步發(fā)展。在20世紀(jì)80年代,IBM制造了語(yǔ)音激活的打字機(jī)Tangora,它能夠處理二萬(wàn)個(gè)單詞的詞匯量。IBM的方法是基于隱馬爾可夫模型,把統(tǒng)計(jì)學(xué)納入數(shù)字信號(hào)處理技術(shù)。這一方法讓我們有可能預(yù)測(cè)哪些音素最有可能出現(xiàn)在某一給定音素的后面。
IBM的競(jìng)爭(zhēng)對(duì)手Dragon Systems提出了自己的方法。此時(shí),技術(shù)取得了長(zhǎng)足的進(jìn)步,語(yǔ)音識(shí)別終于能夠應(yīng)用到實(shí)際生活中——比如可以讓兒童訓(xùn)練講話(huà)的玩偶。雖然取得了很多成就,但是當(dāng)時(shí)的所有程序都采用了不連續(xù)聽(tīng)寫(xiě),這意味著用戶(hù)必須在每個(gè)單詞后停頓一下。1990年,Dragon Systems發(fā)布了第一款消費(fèi)語(yǔ)音識(shí)別產(chǎn)品Dragon Dictate,9000美元的售價(jià)令人咂舌。然后,在1997年,Dragon NaturallySpeaking 問(wèn)世——這是第一款連續(xù)語(yǔ)音識(shí)別產(chǎn)品。
“在那以前,語(yǔ)音識(shí)別產(chǎn)品局限在不連續(xù)的話(huà)語(yǔ),這就意味著它們一次只能識(shí)別一個(gè)單詞,” Nuance Communications公司高級(jí)副總裁、Dragon的總經(jīng)理彼得·馬奧尼說(shuō),“Dragon是連續(xù)語(yǔ)音識(shí)別的先鋒,它首次實(shí)現(xiàn)了實(shí)用的語(yǔ)音識(shí)別,可用來(lái)創(chuàng)建文件?!盌ragon NaturallySpeaking每分鐘能夠識(shí)別100個(gè)單詞的話(huà)語(yǔ)——時(shí)至今日,它仍在使用。比如美國(guó)和英國(guó)的很多醫(yī)生用它來(lái)歸檔醫(yī)療記錄。
在過(guò)去的10年間,大致基于人腦工作模式的機(jī)器學(xué)習(xí)技術(shù)讓計(jì)算機(jī)能夠接受大量語(yǔ)音的訓(xùn)練,從而成功識(shí)別不同人的不同口音。
然而,直至谷歌發(fā)布了用于蘋(píng)果手機(jī)的谷歌語(yǔ)音搜索應(yīng)用“Google Voice Search”,技術(shù)才又繼續(xù)向前發(fā)展。谷歌的方法是使用云計(jì)算處理應(yīng)用收到的數(shù)據(jù)。突然間,大眾可以獲得的語(yǔ)音識(shí)別擁有了大規(guī)模計(jì)算的能力。谷歌能夠運(yùn)行大規(guī)模的數(shù)據(jù)分析,匹配用戶(hù)的單詞和數(shù)10億個(gè)搜索詞條中積累的大量人類(lèi)語(yǔ)音的例子。2010年,谷歌為安卓手機(jī)的語(yǔ)音搜索添加了“個(gè)性化識(shí)別”。2011年中期,又把語(yǔ)音搜索加入Chrome瀏覽器。蘋(píng)果也很快推出了它自己的版本,名為Siri,而微軟的語(yǔ)音識(shí)別功能名為AI Cortana,名字來(lái)自流行的光環(huán)系列游戲中的一個(gè)人物。
自由交談成為可能
所以,下一步會(huì)發(fā)生什么?“在語(yǔ)音處理領(lǐng)域,最成熟的技術(shù)就是語(yǔ)音合成,”奧戈?duì)柭f(shuō),“機(jī)器語(yǔ)音和人類(lèi)語(yǔ)音現(xiàn)在已經(jīng)基本上無(wú)法區(qū)分。但是在很多情況下,自動(dòng)語(yǔ)音識(shí)別與人耳相比仍有較大差距?!彪m然在一個(gè)幾乎沒(méi)有噪音的環(huán)境下,一個(gè)人只要講話(huà)清晰就能被自動(dòng)識(shí)別,但是當(dāng)發(fā)生所謂的“雞尾酒會(huì)效應(yīng)”(人類(lèi)能夠在嘈雜的聚會(huì)中聽(tīng)到某一個(gè)人說(shuō)的話(huà))時(shí),最新技術(shù)仍束手無(wú)策。就連Alexa也是這樣,如果房間里很吵鬧,你就必須靠近黑色圓柱體,清楚大聲的對(duì)它講話(huà)。
亞馬遜在語(yǔ)音識(shí)別方面的嘗試是受到了《星際迷航》中計(jì)算機(jī)的啟發(fā),凡德·穆勒恩說(shuō)。亞馬遜的目標(biāo)是制造一個(gè)完全可由語(yǔ)音控制的云端計(jì)算機(jī)——這樣你就可以自然的與它交談。當(dāng)然,好萊塢的魔法仍然領(lǐng)先于今日的科技。但是,凡德·穆勒恩說(shuō):“我們正處于機(jī)器學(xué)習(xí)和人工智能的黃金時(shí)代。讓機(jī)器按照人類(lèi)的方式做事仍然遙不可及,但是我們每天都在解決一些難以置信的復(fù)雜問(wèn)題?!?/p>
(摘自英國(guó)廣播公司新聞網(wǎng))
(編輯/華生)