楊婷 李靖 黃成琳
近年來,隨著人工智能技術(shù)的快速發(fā)展,語音識別技術(shù)越來越成熟,語音交互模式正逐漸發(fā)展成為一種簡單、可依賴的智能人機交互模式。在以智能語音為主要交互方式的智能時代中,人們的雙手和雙眼將得以解放,人們的生活將更加便利和美好。
計算機行業(yè)變革的原動力及前智能時代面臨的問題
科技改變生活、改變世界,計算機技術(shù)的興起與發(fā)展歷程真切有力地證實了這一點。
20世紀末期,微軟、蘋果用鼠標(biāo)點開了PC時代的大門,讓個人電腦走進千家萬戶,使得信息的傳播擺脫了時空的束縛。21世紀初,蘋果、谷歌在觸屏上劃開了移動時代的帷幕,讓智能手機風(fēng)靡全球,使得社交和娛樂無處不在。作為計算機領(lǐng)域最具典型性的兩種不同形態(tài)的產(chǎn)品,個人電腦和智能手機均以獨有的方式得到了千千萬萬的人們的普遍認可和接受,從而引發(fā)了時代的變革。
早期電腦依賴于鍵盤和字符屏幕的交互體驗?zāi)J綄⒍鄶?shù)人拒之于計算機的門外,而依賴于鼠標(biāo)點擊的圖形用戶界面交互模式的發(fā)明,無疑極大地降低了普通民眾使用和理解個人電腦的門檻,使得PC時代的步伐悄然而至,進而深刻地影響了人們的生活。傳統(tǒng)手機依賴于實體鍵盤或筆觸交互的體驗?zāi)J?,讓手機的使用總顯得不那么便捷,而依賴于多點觸控的交互體驗?zāi)J阶屓藗儗κ謾C的操作更加得心應(yīng)手、方便快捷,使得移動時代的浪潮洶涌而至,從而改變?nèi)藗內(nèi)粘I畹姆椒矫婷妗?/p>
事實表明,引發(fā)計算機時代變革的真正動力,源于技術(shù),卻并非純粹的技術(shù)。確切的說,那是一種建立在計算機技術(shù)上的最友好便捷的人機交互體驗?zāi)J健_@是一個用戶體驗至上的年代,計算機的使命是為人們創(chuàng)造出一個簡單、可依賴,卻又不乏趣味的多彩世界,只有最大限度地降低人們的學(xué)習(xí)和使用成本,才能創(chuàng)造出最具普適性的大眾產(chǎn)品。
緊隨移動時代的步伐,我們即將迎來一個全新的計算機時代——智能時代。在這個時代,一切設(shè)備都將被納入到計算機互聯(lián)網(wǎng)組成的體系中接受支配和調(diào)動。那將是一個隨心所欲的時代,一切設(shè)備的控制和調(diào)動都將變得輕而易舉和不費吹灰之力。為了迎接美好智能時代的到來,人們?nèi)栽诓粩嗟嘏蛧L試。然而,何謂智能時代,智能時代用戶的真正訴求和痛點何在,究竟什么才是真正的智能,這些問題目前似乎尚未形成普遍的共識或意識。
在我們目前所處的這個前智能時代,探索者們通常的做法是用智能手機觸屏方式來控制我們的設(shè)備以求達到便捷控制的目的。那么既然如此,我們?yōu)槭裁床恢苯又圃斐鲆粋€智能的萬能遙控器來實現(xiàn)這種控制?手機的使命不是應(yīng)該定位于娛樂和社交才更加合理嗎?設(shè)備的控制是否該另請高明,智能時代是否一定需要與智能手機以及它的那一套觸屏操作模式捆綁在一起?這是真正的智能嗎?
值得注意的是,智能時代應(yīng)該是一個不同于PC時代和移動時代的全新計算機時代。設(shè)備與人的距離已經(jīng)超出了人手的勢力范圍,設(shè)備的反饋模式也脫離了屏幕的限制,依賴于雙手和雙眼的觸屏交互模式對于用戶而言顯然已經(jīng)有些力不從心和差強人意。或許,智能時代亟須尋求一種不同于PC和手機的全新的用戶交互模式來引發(fā)計算機領(lǐng)域的再一次革新,使得智能的理念深入人心。
一種語音智能控制模式的構(gòu)想及其可行性
不妨做如下一個構(gòu)想,在你的家居系統(tǒng)中,存在很多不同類型的設(shè)備,包括電視、冰箱、空調(diào)、洗衣機、電燈、空氣凈化器等。這些設(shè)備與傳統(tǒng)的設(shè)備在核心功能上沒有本質(zhì)區(qū)別,甚至更加專一和簡單,但是它們都具有一個共同的神奇特點——那就是聽主人的口令行事。作為主人的你,首先需要為每一個設(shè)備取一個個性化的名字,比如電燈叫做亮亮,空調(diào)叫做大個頭,電視叫做小明。然后就會出現(xiàn)這樣一種交互場景:
你說:亮亮,開燈!
電燈回應(yīng):亮亮得令,亮亮已開燈。
你說:大個頭,啟動空調(diào)!
空調(diào)回應(yīng):大個頭得令,大個頭已啟動空調(diào)!
你說:大個頭,播報溫度!
空調(diào)回應(yīng):大個頭得令,當(dāng)前20攝氏度!
你說:亮亮,關(guān)燈!
電燈回應(yīng):亮亮得令,亮亮已關(guān)燈!
你說:小明,湖南衛(wèi)視!
電視回應(yīng):小明得令,小明已跳到湖南衛(wèi)視!
你說:小明,關(guān)機!
電視回應(yīng):小明得令,小明已關(guān)機!
這將是一個美妙的場景,在這個場景中一切設(shè)備都被擬人化了,成為了聽你口令調(diào)遣的仆人,語音成為你們之間最便捷的溝通方式,而你的雙手和雙眼也因此得到了解放,再也不用望著狹小的觸屏點來點去了。不知道這樣一種構(gòu)想是否會讓人有些小小的激動和期待。
在我們所構(gòu)想的那個美妙場景中,有以下幾點要素需要明確和強調(diào):
1.每個設(shè)備都具有至少一個由“主人”錄入(或系統(tǒng)默認指定)的個性化的語音名稱,這個語音名稱將被系統(tǒng)用來確定“主人”命令下達的對象,因此不同設(shè)備其名稱不能相同;
2.每個設(shè)備具有有限的語音指令集,每條指令均可個性化定制或者由系統(tǒng)默認指定,這個語音指令也是系統(tǒng)決定使用何種指令的根本依據(jù);
3.設(shè)備指令執(zhí)行的結(jié)果全部由預(yù)設(shè)的系統(tǒng)語音播報,播報效果友好(音色甜美柔、富有感染力)且語義明晰。
總之,一切的要旨都是追求語音交互的極致體驗,讓人與設(shè)備的交流暢通無阻、親切自然,讓語音的這種交互模式成為另一種全新的簡單可依賴的人機交互模式。
從已有的技術(shù)現(xiàn)狀來看,實現(xiàn)這樣一個擬人化的家居系統(tǒng)似乎并非遙不可及,甚至可以說技術(shù)條件已然具備。其中,最關(guān)鍵的問題在于語音指令的識別。
現(xiàn)如今,語音識別技術(shù)在軟件互聯(lián)網(wǎng)科技行業(yè)已經(jīng)并不新鮮,甚至趨于成熟?;蛟S識別準(zhǔn)確率的問題仍然是這項技術(shù)的一個現(xiàn)有瓶頸,但需要明確的是,在構(gòu)想中的那個擬人化的智能家居系統(tǒng)中,我們并不需要完全的語音識別。確切地說,我們需要的是一種語音指令匹配技術(shù)。當(dāng)“主人”發(fā)出一個語音指令時,系統(tǒng)需要在有限的指令集中挑選出匹配度最高的一項指令來執(zhí)行,并反饋執(zhí)行結(jié)果。我們有理由相信,在現(xiàn)有的語音識別技術(shù)水平上,語音指令匹配準(zhǔn)確率可以達到一個實用性的高度。
在這樣一個智能體系中,控制中心負責(zé)語音指令的接收、匹配與分發(fā),語音接收器是一個必備的終端,其他的設(shè)備作為接受控制的目標(biāo)設(shè)備。每當(dāng)一個目標(biāo)設(shè)備接入系統(tǒng)時,需要注冊設(shè)備語音名稱、設(shè)備指令集以及設(shè)備反饋集,而設(shè)備指令執(zhí)行的反饋結(jié)果播報既可以直接由語音接收器來完成,也可以由執(zhí)行指令的目標(biāo)設(shè)備來完成,可視場景而定。
對于語音接收器來說,手機可以是一個常規(guī)的選擇,但可以有無限的想象空間,比如一個智能手表、智能手環(huán)、智能鈕扣或者對講機等,甚至還可以是隱匿于建筑物之中的語音接收器??傊?,那將是一個充滿無限可能的個性化設(shè)備。
語音智能控制模式實施需要解決的問題
當(dāng)然,對于這樣一個想想都覺得美妙的系統(tǒng)來說,也難免會存在一些問題或者漏洞。最顯著的是識別準(zhǔn)確率的問題,即由距離和環(huán)境噪聲等因素導(dǎo)致的識別問題,這些問題有賴于研究者們探索出更可靠的辦法來逐步優(yōu)化和解決。
此外,某些場景下可能還會涉及安全問題。比如,如何解決語音開門時的安全性問題?對于任何一個人模擬下達“開門”的用戶指令時,系統(tǒng)是否都要執(zhí)行?不過,倘若指令的接收器是如同鑰匙一樣用戶隨身攜帶的物品(如智能手表),那么這個問題就不是問題了。即便語音接收器被直接固定到墻上,我們?nèi)钥梢允褂靡纛l指紋、人臉識別、指紋識別或者其他任何有效的途徑來共同協(xié)助完成身份的識別。
除安全問題外,同時可能還會涉及到用戶隱私問題。比如在私人場合,語音接收器是否需要全程開啟,這難免會讓人擔(dān)心正常的人與人之間的語音交流信息泄漏到互聯(lián)網(wǎng)中。這種擔(dān)憂卻也并非關(guān)鍵問題,一種語音接收器啟停的合理觸發(fā)機制可以有效解決這種擔(dān)憂。
盡管語音交互體驗?zāi)J交蛟S潛存諸多問題,但倘若人們一旦發(fā)現(xiàn)并認可了它的無限潛力,那么我們相信這種模式定會在世人的集思廣益和共同努力中不斷被優(yōu)化、改進和完善,以至達到極致體驗。
智能時代的展望
如今,我們所處的時代是一個充斥著各色大大小小電子屏幕的時代,電子屏幕在創(chuàng)造多彩世界的同時也將人們的感官引向了視覺疲勞的邊緣。上班時,我們需要面對13英寸大小的電腦屏幕辦公。下班后,出于放松和休息的目的,我們的眼睛也一刻離不開那塊5英寸大小的手機屏幕。屏幕無疑豐富了我們的世界,卻也成為我們生活的羈絆,在屏幕的世界里,人們的感官能力陷入了一種使用失衡的畸形狀態(tài)——我們太過依賴于那雙業(yè)已疲憊的雙眼,當(dāng)我們走在車水馬龍的街道上時,我們的眼睛顯然已經(jīng)不夠用了。
既然感官已失衡,視覺已疲勞,何不有所改變,換用聽覺呢?形與色的世界固然炫麗多姿、令人依戀,但聲音的世界同樣五彩斑斕、美妙無比,或許語音也可以如同文字和畫面一樣,很好地描繪這個世界,表達人們的意念,甚至在某些場合的使用更加完美恰當(dāng)。只不過,目前來說語音的潛在魅力還遠未被發(fā)掘出來。
美好的智能時代,需要由一種全新的人機交互模式來進行開創(chuàng)和締造,但愿語音能夠分擔(dān)這一歷史級的使命,在這個視覺疲勞的時代解放我們的雙手和雙眼,創(chuàng)造出一個擬人化的世界,引領(lǐng)智能時代的真正到來。