亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

解剖語(yǔ)音交互背后的層級(jí)

2018-12-20 07:11:34

現(xiàn)代企業(yè)文化 2018年31期

自動(dòng)駕駛有所謂的L1—L4，所以不管車企還是技術(shù)提供商都按著這臺(tái)階逐步爬坡，幾乎每個(gè)人都理解，終極的自動(dòng)駕駛是不太可能一蹴而就在短期實(shí)現(xiàn)的。語(yǔ)音交互領(lǐng)域的情形則正相反，雖然短期也就能達(dá)到類似自動(dòng)駕駛L2的水平，但每個(gè)人的潛在預(yù)期都比L4還高。

語(yǔ)音交互的終極目標(biāo)

語(yǔ)音交互的便利程度正好與人工智能的發(fā)展程度成正比，智能程度越高語(yǔ)音交互的等級(jí)也就越高，所以其終極形態(tài)與人工智能的終極形態(tài)類似。

如果拋棄特別夸張的想象來(lái)說(shuō)，那語(yǔ)音交互要能達(dá)成《她》或者《黑鏡》里描述的樣子：當(dāng)你給它輸入數(shù)據(jù)后，它能夠根據(jù)輸入數(shù)據(jù)表現(xiàn)出不同的個(gè)性；在數(shù)據(jù)的處理上它近乎是全能的，只受個(gè)人權(quán)限的限制；如果真的賦予實(shí)體，那它可以感知周圍環(huán)境并做出與人類似但很多方面會(huì)更優(yōu)秀的反應(yīng)。

今天的智能音箱和未來(lái)相對(duì)終極的語(yǔ)音交互方式以及設(shè)備相比，其差距要遠(yuǎn)大于286電腦和今天的Pad的差距。

一旦發(fā)展成上面這樣的程度，那語(yǔ)音交互就會(huì)徹底的打開邊界，而不只是我們使用數(shù)據(jù)的一種方式。甚至?xí)蔀樯畹谋匦杵?。我們不?huì)對(duì)iPhone產(chǎn)生依戀，但語(yǔ)音交互則會(huì)。

回顧下《黑鏡》里描述的場(chǎng)景，可以對(duì)此有更好的理解：女主人公的丈夫去世，過(guò)于思念自己丈夫的女主人公通過(guò)公開自己丈夫的數(shù)據(jù)創(chuàng)建了一個(gè)有性格的、屬于自己的語(yǔ)音交互機(jī)器人。這個(gè)機(jī)器人在絕大多數(shù)方面表現(xiàn)和女主丈夫一致。女主使用一段時(shí)間后，就升級(jí)了這服務(wù)，為這語(yǔ)音交互機(jī)器人賦予了和自己丈夫一樣的形體。

這看著非?？苹茫珜?shí)際上一旦語(yǔ)音交互達(dá)到上述程度，那這類事情幾乎一定發(fā)生。既然我們能接受很宅的躲在家里，那就一定能接受這樣一種非真實(shí)，但更完美的電子助手進(jìn)入心靈的世界。《她》這部電影雖然沒(méi)拍，但如果有為個(gè)性化語(yǔ)音交互系統(tǒng)塑形的服務(wù)，主人公也一定會(huì)接受。

在這里互聯(lián)網(wǎng)反倒是限制了我們的想象力，因?yàn)榛ヂ?lián)網(wǎng)更多的體現(xiàn)的只是工具的屬性，但實(shí)際上語(yǔ)音交互系統(tǒng)所要涵蓋的范圍要比互聯(lián)網(wǎng)大得多。當(dāng)前之所以它能做的還不多，主要是層級(jí)還不夠。

語(yǔ)音交互的階段

我們可以這樣定義語(yǔ)音交互的L1階段：能以極高的準(zhǔn)確率，在典型的環(huán)境下響應(yīng)用戶的語(yǔ)音輸入。極高的準(zhǔn)確率最低應(yīng)該在90%+。這時(shí)承載語(yǔ)音交互的設(shè)備主要負(fù)責(zé)功能性的提示與反饋（燈與屏幕等）。

當(dāng)前所有與語(yǔ)音相關(guān)的公司，事實(shí)上都是在達(dá)成L1的路上。L1的出口為語(yǔ)音交互習(xí)慣徹底樹立，人們面對(duì)每款設(shè)備的時(shí)候會(huì)首先想到用語(yǔ)音操作，而不是遙控器或者屏幕。

在L1階段語(yǔ)音交互更像是自動(dòng)化程度、精準(zhǔn)程度更高的搜索，但搜索的范圍擴(kuò)大了。不單是局限于已有的數(shù)字內(nèi)容，也擴(kuò)展到家電、視頻通話等正常搜索不會(huì)覆蓋的領(lǐng)域。

我們可以這樣定義L2階段：能以極高的準(zhǔn)確率識(shí)別出交互的當(dāng)事人和環(huán)境，然后進(jìn)行個(gè)性化的交互。這時(shí)承載語(yǔ)音交互的設(shè)備通過(guò)攝像頭等傳感器能夠?qū)崟r(shí)進(jìn)行感知，可以進(jìn)行適當(dāng)移動(dòng)，初步擬人。

L2階段體現(xiàn)的是個(gè)性化，不再是千人一面。如果L2得以達(dá)成，那《她》所描述的場(chǎng)景是可以實(shí)現(xiàn)的。語(yǔ)音交互可以定制出性格，而這種性格很可能確實(shí)滿足某個(gè)人的心理期待。

在L2階段，語(yǔ)音交互會(huì)打破工具的邊界，嘗試走入過(guò)去重來(lái)沒(méi)被搜索等介入的領(lǐng)域，比如排遣寂寞?，F(xiàn)在的各種APP是按照領(lǐng)域來(lái)切分的，而在L2階段，那所有APP的邊界會(huì)被打破，信息的輸出是按照人來(lái)切分的。也就是說(shuō)不再有BAT頭條、美團(tuán)等，而只是有張三的語(yǔ)音交互助理，李四的語(yǔ)音交互助理。

我們可以這樣定義L3階段：只要有數(shù)據(jù)，那語(yǔ)音交互系統(tǒng)的能力是可以無(wú)邊界擴(kuò)展的（包括個(gè)性和能力）。交互設(shè)備可以進(jìn)行擬人化輸出。

L3階段體現(xiàn)的是后端內(nèi)容擴(kuò)展的無(wú)邊界特性，不再是有多少智能就有多少人工以及擬人化輸出，擬人化輸出包括移動(dòng)，說(shuō)話的語(yǔ)調(diào)，風(fēng)格，姿態(tài)等。

如果L3階段得以實(shí)現(xiàn)，那《黑鏡》描述的場(chǎng)景是可以實(shí)現(xiàn)的。只要有一個(gè)人充分的數(shù)據(jù)描述，那就可以立刻模擬這個(gè)人出來(lái)，然后給他賦予一個(gè)真實(shí)的身體。

在L3階段，語(yǔ)音交互及其載體會(huì)是社會(huì)生活，甚至家庭的一部分。本質(zhì)上從L1到L3體現(xiàn)的是數(shù)字化程度的不斷加深，智能程度不斷加深，同時(shí)數(shù)字和智能又按照自己的理想形態(tài)進(jìn)行物化的過(guò)程。

語(yǔ)音交互的發(fā)展趨勢(shì)

現(xiàn)在與語(yǔ)音交互相關(guān)的公司核心在做的就是L1階段的事。這個(gè)時(shí)候雖然在人工智能的大趨勢(shì)里面，但本質(zhì)上智能并沒(méi)那么關(guān)鍵，關(guān)鍵的是便利以及能輸出的內(nèi)容。這兩者會(huì)推動(dòng)樹立語(yǔ)音交互這種習(xí)慣。

如果要在數(shù)量級(jí)上進(jìn)行判斷的話，那3年后的目標(biāo)是：每年有10億臺(tái)支持語(yǔ)音交互的設(shè)備售出。至少故事機(jī)、電視機(jī)、電視盒子、汽車前后裝、白色家電、燈、鬧鐘等會(huì)加入這種特性。手機(jī)、Pad、電腦這些大品類上語(yǔ)音交互的能力則會(huì)變成標(biāo)配，但使用頻次估計(jì)需要更長(zhǎng)的時(shí)間進(jìn)行提升，在最初交互頻次會(huì)很差，語(yǔ)音交互本身并非一種獨(dú)立的交互方式，而是同其背后的內(nèi)容深度綁定的，我們很多的應(yīng)用實(shí)際上是針對(duì)手機(jī)和鍵盤鼠標(biāo)操作優(yōu)化過(guò)的）。

凡是電子設(shè)備都可以用語(yǔ)音來(lái)進(jìn)行交互。語(yǔ)音交互不會(huì)挑設(shè)備，同之前的交互相比，它可以更加低廉，理論上只要麥克風(fēng)并且能聯(lián)網(wǎng)就足夠了。這和為設(shè)備加入鍵盤鼠標(biāo)或者屏幕相比，代價(jià)要低很多。這點(diǎn)上做出表率的仍然是亞馬遜，亞馬遜不停地推出新的設(shè)備如微波爐、車載設(shè)備等。當(dāng)然不同設(shè)備上語(yǔ)音交互的層次是不同的，有些設(shè)備比如白色家電上面語(yǔ)音交互會(huì)限制在一到三輪以內(nèi)。

在更高一級(jí)的視角下面，所有當(dāng)前的努力其實(shí)本質(zhì)作用就一個(gè)：通過(guò)便利性樹立語(yǔ)音交互的習(xí)慣。習(xí)慣背后跟隨的是用戶時(shí)間。這兩者會(huì)為下面的進(jìn)一步發(fā)展提供試驗(yàn)田。只有達(dá)成了這一目標(biāo)，從技術(shù)到產(chǎn)品再到用戶這一循環(huán)才算真正完成了第一次迭代。

語(yǔ)音交互看著太簡(jiǎn)單了，不過(guò)是說(shuō)話而已，所以很容易被誤解為像說(shuō)話一樣的交互就是現(xiàn)在語(yǔ)音交互設(shè)備所應(yīng)該干的事。其實(shí)不是的，語(yǔ)音交互從L1到L3有可能比自動(dòng)駕駛從L1—L5還要漫長(zhǎng)。