楊玄章
智能購物助理,對著它說你想買什么,它就能運用語音識別軟件記錄下來,并分好類。當你去購物前打印出來即可
就在十幾年以前,基于人工智能的語音識別和合成還僅是科幻電影的元素。那個時候,人們認為“能和人類對話”、“替人類講話”等技術還有很長的路要走。
2014年,在英國雷丁大學舉辦的圖靈測試競賽上,人類設計的機器問答對話系統(tǒng)首次通過了著名的“圖靈測試”。圖靈測試是由計算科學領域的大師阿蘭·圖靈在1950年提出的,他認為如果設備能在5分鐘內(nèi)答由人類測試者提出的一系列問題,且其超過30%的回答讓測試者認為是人類所答,則可以認為這個設備具備人工智能。64年后的這次測試中,俄羅斯人維西羅夫的人工智能軟件“尤金”成功地讓測試者在33%的情況下認為是在與人類對話。
這之后智能語言的發(fā)展就一發(fā)不可收拾了,成為各個國家科學家和業(yè)內(nèi)領先企業(yè)的重要突破口。
很快,以科大訊飛為代表的語音識別的精度提高到了95%以上。
微軟研究院的系統(tǒng)可以達到與人類相同的對話水準,實現(xiàn)了歷史性的突破。從谷歌大腦(Google Brain)項目中脫穎而出的谷歌翻譯,已經(jīng)接近人類筆譯的水平。
就在2016年10月,微軟又宣布,其語音識別系統(tǒng)的詞錯率降低到5.9%,這已經(jīng)相當于人類專業(yè)速錄員的水平。這意味著,計算機第一次在對話中的詞匯識別上做到跟人類一樣好。
現(xiàn)如今,在智能語音技術上,各個公司的目標已經(jīng)定位在“超越人類水平”,請注意:不是超越人類設計制造的智能設備或者程序,而是超越人類本身。
一個古老的方向
語音技術一直是考驗計算機智能水平最重要的一塊“試金石”之一。在眾多的計算科學子學科里,語音技術應該算是最古老的方向之一了。教科書里普遍把智能語音技術的最早實質性實踐定位在1952年貝爾實驗室設計實現(xiàn)的Audrey系統(tǒng)上,這是一次里程碑式的突破,計算機歷史上第一次正確識別出了十個阿拉伯數(shù)字的讀音及含義。
不過事實上,與智能語音技術相關的工作早在一個世紀前就開始了。1877年,愛迪生發(fā)明了留聲機,可以把聲音記錄和重放。這個看似簡單的發(fā)明其實奠定了語音相關研究的基礎。因為只有人們可以正確記錄和播放聲音,才有可能去研究它。
1936年,貝爾實驗室的工程師們設計實現(xiàn)了Voder系統(tǒng),這是人類第一個電子聲音合成系統(tǒng),自此開創(chuàng)了一個新的學科。1952年,貝爾實驗室的Audrey也利用了Voder,這樣他們才既可以聽懂十個阿拉伯數(shù)字,又可以“說出”十個阿拉伯數(shù)字,這樣一個完整的機器對話系統(tǒng)算是有了雛形。
有了這樣的開局,人們都看到了希望,各大公司和大學等機構投入巨資去研究語音識別技術。1962年,IBM的“鞋盒子”(Shoebox system)可以聽懂16個英文單詞;1971年,美國DARPA(美國國防部下屬的研發(fā)機構)資助的項目組演示了可以識別1000個單詞的技術,緊接著卡耐基梅隆大學的Harpy系統(tǒng)就能聽懂1000多個單詞了。雖然這個早期階段被業(yè)內(nèi)人士稱為僅是“baby talk”,但是他們的積極嘗試給以后語音技術大發(fā)展奠定了重要的理論及實踐基礎。
上世紀八十年代開始,由于引入了一個隱藏馬爾科夫模型(Hidden Markov Model HMM),這個領域產(chǎn)生了質的飛躍,語音識別的準確度和合成的精度都大幅提升。這個模型的發(fā)明人就是大名鼎鼎的數(shù)學家雷昂納德鮑姆,他也是華爾街量化交易的奠基人之一。有了這一利器,語音技術的發(fā)展一發(fā)不可收拾,各種越來越智能的語音系統(tǒng)層出不窮,可以商用的系統(tǒng)也開始進入家庭(如Julie娃娃),走進個人電腦(如微軟office語音識別系統(tǒng)),手機(如蘋果的Siri)和互聯(lián)網(wǎng)(如谷歌的voice search)。這一階段是智能語音技術發(fā)展的“飛躍時期”,語音識別和合成技術真正走向實用,并在全社會的各個角落開花結果。
然而,智能語音領域的專家和開拓者一直有一個夢想, 就是創(chuàng)造出真正可以和人類對話的人工智能系統(tǒng)。就這樣,故事回到了本文開頭時提到的2014年圖靈測試競賽。不過,“尤金”的成功仍只是個開頭,這個領域在近兩年進入了真正的黃金時代。隨著深度學習的引入,機器可以更加深入地學習并理解語音;配以更高性能CPU和GPU的智能終端和機器人們,可以更高速地處理語音,理解更深層次的語義;高速網(wǎng)絡、云計算和大數(shù)據(jù)的支持使得人們可以讓機器進行更大規(guī)模的統(tǒng)計訓練,學習海量的語素,更有效地理解和還原各種人類語言的含義……
在2016 BOT大數(shù)據(jù)應用大賽上,闖進決賽的11個機器人項目無一例外地展現(xiàn)了成熟且強大的智能語音能力,這些應用范圍非常廣,涵蓋了購物、招聘、法律、旅游、教育、保健、客服、投資等多個領域,著實讓人眼前一亮。如智能購車顧問,它將購車過程中的所有知識和大家的需求都納入了學習的范圍,結合互聯(lián)網(wǎng)海量的汽車評論,在對話中通過了解用戶的屬性、需求、說話方式來推測適合用戶的車。還有的將機器人對話應用在人力資源領域,以后使用這種技術的公司就不用安排寶貴的人力去做首輪面試了,支持智能語音能力的機器人就可以勝任了。
也就在前不久,美國《華盛頓郵報》報道了一個出人意料的新職業(yè):機器人作家。報道認為電腦已經(jīng)具備學習和理解人類語言中深層次東西的能力,因此具備了成為詩人、劇作家、小說家的潛質。就在今年的里約奧運會上,這家報紙就把這個新“記者”邀請到報道團隊中,它的名字叫“Heliograf”。在里約奧運會上,一些初級的報道內(nèi)容(比如說獎牌榜、比賽時間、新媒體互動等)全部是這個“新入行”的記者完成的。
2016年,白宮在Facebook上為總統(tǒng)奧巴馬“聘請”了一位機器人,用以增強總統(tǒng)與普通民眾之間的交流。要知道美國總統(tǒng)是個很忙的職業(yè),但是在Facebook上,每天有數(shù)以十萬計的民眾給他留言,希望得到一個回復。這時候,聊天機器人就有用武之地了。這個“總統(tǒng)發(fā)言人”可以從大量的留言中歸類篩選出最有人氣的問題發(fā)給總統(tǒng)。在奧巴馬回復之后,機器人又可以把這些回復變換成合適的句式和語氣回復給廣大的網(wǎng)友。
可以預見到,在不久的將來,智能語音技術將催生更多的創(chuàng)新,迸發(fā)出更大的能量。
數(shù)字語音技術圖譜
用起來簡單的智能語音技術并不簡單,在端到端的應用中,需要多種技術來支持。
首先,要“聽得懂”。基本的語音識別過程中,首先會利用移動窗口函數(shù)將一段連續(xù)的語音波形切開成一小段一小段,每小段稱為一幀。分幀之后,需要對每一個小段進行波形變換,根據(jù)人耳的生理特性進行特征提取,將這些表面上雜亂無章的內(nèi)容變成具有不同特征的多維向量,從而組成不同的狀態(tài),這一步是語音識別中最難的地方。解決這個問題最成熟的方法就是運用隱藏馬爾可夫模型(HMM),將各個幀最合理地組成狀態(tài)再把狀態(tài)組合成因素,最后將因素組合成單詞。
其次,要“傳得開”。由于要動用大量的后臺資源進行模型訓練、語音分解和語義理解,語音的壓縮和傳輸技術也是必不可少的一環(huán)。隨著各種高保真立體聲的語音壓縮技術的引入,在各種應用中參與交流的各方都可以接收到高質量的話音。
再者,要“答得出”。在正確識別出語音的基本語素,同時能保證高質量的傳輸后,需要人工智能技術來弄懂這里面的深刻含義,并給出正確合理的答案。自然語言處理(NLP)是這個領域最核心的技術,同時也是一個非常廣博的技術方向,其中包括詞類標注、詞法分析、句法分析、篇章分析、情感分析等多個技術。早期的NLP受到計算能力的限制,往往采用一些基本的機器學習算法來進行分類、理解和整理,精度不是很高,只能滿足特定場景的應用。隨著計算能力的提升,網(wǎng)絡質量的提高以及大數(shù)據(jù)技術的引入,人們可以采用更復雜的深度學習來進行這項工作。
最后,要“說得出”。在智能語音技術中,數(shù)字語音合成這個領域最早產(chǎn)生大規(guī)模的應用。在機場、火車站、智能手機、導航、商場等多個領域,文字轉語音(Text-To-Speech, TTS)都發(fā)揮著巨大的作用。后來,TTS系統(tǒng)不僅可以自動合成語音,還能根據(jù)現(xiàn)場環(huán)境、情感和語境來變換語速和語調,還能模擬特定人物的語音,“志玲姐姐”就在某導航軟件中通過TTS技術展現(xiàn)出來。如今,機器人可以利用這項技術可以不費吹灰之力將自然語言處理的結果展現(xiàn)出來,惟妙惟肖,生動可人。
責任編輯:方丹敏
人機語音交互,使人與機器之間溝通變得像人與人溝通一樣簡單。讓機器說話,用的是語音合成技術;讓機器聽懂人說話,用的是語音識別技術
父親,