眠眠
只聽一聲“啟動!”主角對著機器發(fā)出了指令,緊接著,機器非常聽話地發(fā)出“咔咔咔”的啟動聲,這是我們在很多科幻劇中都能見到的場景。如今,這種場景不再是我們的腦洞,相信大家都用手機和平板電腦感受過聲音控制的爽快了。沒錯,語音作為一種便捷的交流方式,在其基礎(chǔ)上發(fā)展出的聲控,有著怎樣令人驚嘆的技術(shù)呢?
聲控技術(shù)的前世今生
最早期的聲控技術(shù)并不涉及具體的語音,而是只要感受到聲音的存在,就可以實現(xiàn)開啟和關(guān)閉的功能。在實現(xiàn)這項功能的過程中,發(fā)揮最主力作用的玩意兒叫作“傳聲器”。也許這個名字聽起來有點陌生,但是它的綽號“麥克風(fēng)”,你們肯定耳熟能詳了。傳聲器的本質(zhì)就是一種將聲音信號轉(zhuǎn)變?yōu)殡娦盘柕霓D(zhuǎn)換裝置。發(fā)明它的是大名鼎鼎的“電話之父”——亞歷山大·貝爾。
傳聲器的原理并不復(fù)雜,它有一個非常靈敏并能夠感受到聲波微小振動的振膜:當(dāng)振膜振動后,會帶動與其相連的電磁鐵不斷開合,這樣一來就產(chǎn)生了變化的電流,這就是由聲音信號轉(zhuǎn)變而來的電信號。電信號再經(jīng)過一系列的放大、整流、濾波處理之后,既可以實現(xiàn)各種控制功能,也可以重新還原為人聲語音。當(dāng)然,除了電磁鐵,還有電阻、電容、晶體等其他觸發(fā)產(chǎn)生電信號的方法,更新穎的科技還在不斷地開發(fā)中。
雖然早期聲控技術(shù)因為設(shè)計簡單,觸發(fā)條件也過于單一,如今已逐漸被淘汰。但我們依然能夠在不少場合發(fā)現(xiàn)它的存在。比如樓道里的聲控?zé)?,為夜晚出行的居民們帶來了莫大的方便。它的原理就是最簡單的聲控技術(shù)。
從聲音控制到語音控制
當(dāng)聲控技術(shù)發(fā)展到一定階段之后,有人就開始琢磨了:咱能不能再更進一步,實現(xiàn)語音控制呢?畢竟,多樣化的語音能夠?qū)崿F(xiàn)更多操縱與控制的可能??墒侨说穆曇舾鞑幌嗤鯓硬拍茏寵C器準(zhǔn)確地識別出每個人說的話呢?
其實早在計算機發(fā)明之前,關(guān)于語音控制的設(shè)想就已經(jīng)被先驅(qū)者們提出了。早期的聲碼器就可以被視為一種語音識別儀器的雛形。1920年生產(chǎn)的玩具狗“電波雷克斯”(Radio Rex)可能是世界上最早的語音識別裝置。這么看來,作為最原始的人工智能,它可能是“阿爾法狗”的老祖宗了……
后來,經(jīng)過聲學(xué)家、語言學(xué)家和算法大神們的不懈努力,人們終于發(fā)現(xiàn)了語音可以被識別的方式:人類的語音具有兩種彼此密切相關(guān)卻又相對獨立的特征,它們分別是語言特征和聲學(xué)特征。所謂語言特征,就是指我們說的每一句話,都可以最終細分到一個字或一個詞,而這些字詞之間,有些存在非常高的相關(guān)性,有些呢,又幾乎老死不相往來。比如,“尷”這個字后面,八成會跟著“尬”,但是后面跟著其他字比如“你”,這樣的組合就幾乎從未出現(xiàn)過。這涉及一個概率問題,可以通過概率統(tǒng)計的方式來找出其中的內(nèi)在規(guī)律。
而聲學(xué)特征就更容易理解了。打個比方,三國時期的猛將張飛在當(dāng)陽橋上一聲斷喝,嚇退了多少曹兵。有些站得遠的小兵,可能根本沒看清對面那個大漢是誰,然而光聽見聲音,就知道是燕人張翼德了。這就是因為張飛的語音很有特點。這種特點包括“嗓門大、聲音渾厚、帶有河北一帶口音”。是的,這三個特點就分別對應(yīng)了聲學(xué)特征的三大屬性:物理屬性、生理屬性和社會屬性,是不是一目了然呢?
語音識別,橫空出世
當(dāng)人類逐漸掌握了語音的奧秘之后,就開始挑戰(zhàn)語音識別這個看上去高深莫測的黑科技了。20世紀(jì)60年代,計算機的快速發(fā)展推動了語音識別技術(shù),科學(xué)家發(fā)明了許多關(guān)于它的理論,其中最有名的就是隱馬爾可夫模型(HMM)(名字聽起來真晦澀)。其實,當(dāng)時絕大多數(shù)的工程師們看到這些理論公式時也是一頭霧水。到了80年代,以“貝爾”命名的AT&T Bell實驗室邁出了決定性的一步,他們把原本深奧無比的純數(shù)學(xué)模型工程化,為應(yīng)用開發(fā)打下了重要的基石。再到90年代,深度神經(jīng)網(wǎng)絡(luò)技術(shù)的突破性發(fā)展,讓語音技術(shù)的發(fā)展突破了瓶頸。于是21世紀(jì)后的語音識別技術(shù)發(fā)展,就像是坐了火箭一樣“蹭蹭蹭”地突飛猛進。
有了這些基礎(chǔ),再來看語音識別的原理,好像也沒有那么復(fù)雜嘛。簡單地說就是當(dāng)語音輸入后,計算機進行兩類特征提取,再將提取的特征值放進一個龐大的模型庫里。在這個模型庫中不斷地進行訓(xùn)練和匹配,最終通過解碼得到結(jié)果。用一個形象的比喻來說,就好比把一幅拼圖打碎,再將每片拼圖的形狀和圖案特征都放進一個拼圖庫里不斷地組合,和原圖對比,最終得到最接近原圖的那一幅。當(dāng)然了,這只是個粗淺的比喻,具體的實現(xiàn)還涉及神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)、語言學(xué)、算法、編程等專業(yè)知識。
“聲控”可以無處不在
聲控技術(shù)是為了給人類帶來便利的。因此,在我們生活中的各個角落都可以用到它。特別是一些不適合用手來操作的場合,例如開車。通過聲控技術(shù),我們只要開口說話,就能讓車輛執(zhí)行需要的動作:打開地圖導(dǎo)航、開啟空調(diào)、關(guān)閉車窗、呼叫緊急處理服務(wù)等等。畢竟,一邊開車一邊分心去找那些按鈕是很危險的。還有現(xiàn)在智能設(shè)備上的交互系統(tǒng),比如微軟家的Cortana、三星家的S-voice、蘋果家的Siri,都使用了語音識別的功能。我國也研發(fā)了自己的系統(tǒng),比如搜狗和訊飛,根據(jù)中文口音、連讀等獨特的發(fā)音習(xí)慣,打造屬于中國人的語音輸入系統(tǒng)。
隨著科技的不斷發(fā)展,聲控技術(shù)只會越來越普及。我們可以預(yù)見,在未來的每個角落,我們都能用自己最熟悉的溝通方式和生活中的設(shè)備互動。這極大地增加了生活的便利性和幸福感,或許實現(xiàn)和人工智能的便捷交流也不再遙遠。