亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

我用聲音“遙控”世界

2017-06-07 17:06:40眠眠

科學(xué)Fans 2017年5期

關(guān)鍵詞：特征

眠眠

只聽一聲“啟動！”主角對著機器發(fā)出了指令，緊接著，機器非常聽話地發(fā)出“咔咔咔”的啟動聲，這是我們在很多科幻劇中都能見到的場景。如今，這種場景不再是我們的腦洞，相信大家都用手機和平板電腦感受過聲音控制的爽快了。沒錯，語音作為一種便捷的交流方式，在其基礎(chǔ)上發(fā)展出的聲控，有著怎樣令人驚嘆的技術(shù)呢？

聲控技術(shù)的前世今生

最早期的聲控技術(shù)并不涉及具體的語音，而是只要感受到聲音的存在，就可以實現(xiàn)開啟和關(guān)閉的功能。在實現(xiàn)這項功能的過程中，發(fā)揮最主力作用的玩意兒叫作“傳聲器”。也許這個名字聽起來有點陌生，但是它的綽號“麥克風(fēng)”，你們肯定耳熟能詳了。傳聲器的本質(zhì)就是一種將聲音信號轉(zhuǎn)變?yōu)殡娦盘柕霓D(zhuǎn)換裝置。發(fā)明它的是大名鼎鼎的“電話之父”——亞歷山大·貝爾。

傳聲器的原理并不復(fù)雜，它有一個非常靈敏并能夠感受到聲波微小振動的振膜：當(dāng)振膜振動后，會帶動與其相連的電磁鐵不斷開合，這樣一來就產(chǎn)生了變化的電流，這就是由聲音信號轉(zhuǎn)變而來的電信號。電信號再經(jīng)過一系列的放大、整流、濾波處理之后，既可以實現(xiàn)各種控制功能，也可以重新還原為人聲語音。當(dāng)然，除了電磁鐵，還有電阻、電容、晶體等其他觸發(fā)產(chǎn)生電信號的方法，更新穎的科技還在不斷地開發(fā)中。

雖然早期聲控技術(shù)因為設(shè)計簡單，觸發(fā)條件也過于單一，如今已逐漸被淘汰。但我們依然能夠在不少場合發(fā)現(xiàn)它的存在。比如樓道里的聲控?zé)?，為夜晚出行的居民們帶來了莫大的方便。它的原理就是最簡單的聲控技術(shù)。

從聲音控制到語音控制

當(dāng)聲控技術(shù)發(fā)展到一定階段之后，有人就開始琢磨了：咱能不能再更進一步，實現(xiàn)語音控制呢？畢竟，多樣化的語音能夠?qū)崿F(xiàn)更多操縱與控制的可能?？墒侨说穆曇舾鞑幌嗤鯓硬拍茏寵C器準(zhǔn)確地識別出每個人說的話呢？

其實早在計算機發(fā)明之前，關(guān)于語音控制的設(shè)想就已經(jīng)被先驅(qū)者們提出了。早期的聲碼器就可以被視為一種語音識別儀器的雛形。1920年生產(chǎn)的玩具狗“電波雷克斯”（Radio Rex）可能是世界上最早的語音識別裝置。這么看來，作為最原始的人工智能，它可能是“阿爾法狗”的老祖宗了……

后來，經(jīng)過聲學(xué)家、語言學(xué)家和算法大神們的不懈努力，人們終于發(fā)現(xiàn)了語音可以被識別的方式：人類的語音具有兩種彼此密切相關(guān)卻又相對獨立的特征，它們分別是語言特征和聲學(xué)特征。所謂語言特征，就是指我們說的每一句話，都可以最終細分到一個字或一個詞，而這些字詞之間，有些存在非常高的相關(guān)性，有些呢，又幾乎老死不相往來。比如，“尷”這個字后面，八成會跟著“尬”，但是后面跟著其他字比如“你”，這樣的組合就幾乎從未出現(xiàn)過。這涉及一個概率問題，可以通過概率統(tǒng)計的方式來找出其中的內(nèi)在規(guī)律。

而聲學(xué)特征就更容易理解了。打個比方，三國時期的猛將張飛在當(dāng)陽橋上一聲斷喝，嚇退了多少曹兵。有些站得遠的小兵，可能根本沒看清對面那個大漢是誰，然而光聽見聲音，就知道是燕人張翼德了。這就是因為張飛的語音很有特點。這種特點包括“嗓門大、聲音渾厚、帶有河北一帶口音”。是的，這三個特點就分別對應(yīng)了聲學(xué)特征的三大屬性：物理屬性、生理屬性和社會屬性，是不是一目了然呢？

語音識別，橫空出世

當(dāng)人類逐漸掌握了語音的奧秘之后，就開始挑戰(zhàn)語音識別這個看上去高深莫測的黑科技了。20世紀(jì)60年代，計算機的快速發(fā)展推動了語音識別技術(shù)，科學(xué)家發(fā)明了許多關(guān)于它的理論，其中最有名的就是隱馬爾可夫模型（HMM）（名字聽起來真晦澀）。其實，當(dāng)時絕大多數(shù)的工程師們看到這些理論公式時也是一頭霧水。到了80年代，以“貝爾”命名的AT&T Bell實驗室邁出了決定性的一步，他們把原本深奧無比的純數(shù)學(xué)模型工程化，為應(yīng)用開發(fā)打下了重要的基石。再到90年代，深度神經(jīng)網(wǎng)絡(luò)技術(shù)的突破性發(fā)展，讓語音技術(shù)的發(fā)展突破了瓶頸。于是21世紀(jì)后的語音識別技術(shù)發(fā)展，就像是坐了火箭一樣“蹭蹭蹭”地突飛猛進。

有了這些基礎(chǔ)，再來看語音識別的原理，好像也沒有那么復(fù)雜嘛。簡單地說就是當(dāng)語音輸入后，計算機進行兩類特征提取，再將提取的特征值放進一個龐大的模型庫里。在這個模型庫中不斷地進行訓(xùn)練和匹配，最終通過解碼得到結(jié)果。用一個形象的比喻來說，就好比把一幅拼圖打碎，再將每片拼圖的形狀和圖案特征都放進一個拼圖庫里不斷地組合，和原圖對比，最終得到最接近原圖的那一幅。當(dāng)然了，這只是個粗淺的比喻，具體的實現(xiàn)還涉及神經(jīng)網(wǎng)絡(luò)機器學(xué)習(xí)、語言學(xué)、算法、編程等專業(yè)知識。

“聲控”可以無處不在

聲控技術(shù)是為了給人類帶來便利的。因此，在我們生活中的各個角落都可以用到它。特別是一些不適合用手來操作的場合，例如開車。通過聲控技術(shù)，我們只要開口說話，就能讓車輛執(zhí)行需要的動作：打開地圖導(dǎo)航、開啟空調(diào)、關(guān)閉車窗、呼叫緊急處理服務(wù)等等。畢竟，一邊開車一邊分心去找那些按鈕是很危險的。還有現(xiàn)在智能設(shè)備上的交互系統(tǒng)，比如微軟家的Cortana、三星家的S-voice、蘋果家的Siri，都使用了語音識別的功能。我國也研發(fā)了自己的系統(tǒng)，比如搜狗和訊飛，根據(jù)中文口音、連讀等獨特的發(fā)音習(xí)慣，打造屬于中國人的語音輸入系統(tǒng)。

隨著科技的不斷發(fā)展，聲控技術(shù)只會越來越普及。我們可以預(yù)見，在未來的每個角落，我們都能用自己最熟悉的溝通方式和生活中的設(shè)備互動。這極大地增加了生活的便利性和幸福感，或許實現(xiàn)和人工智能的便捷交流也不再遙遠。