微軟小冰,這個一直混跡在微信、QQ里的逗貧“少女”,一直讓人又愛又恨。當(dāng)微軟小冰搖身一變,成了一個肌膚雪白、面若玉盤、身形玲瓏的智能音箱時,又以新花招開始“搞事情”了。
米家生態(tài)鏈Yeelight語音助手是雙AI(人工智能)系統(tǒng),同時搭載了小愛同學(xué)和微軟小冰。這是搭載微軟小冰的第一款智能音箱,也是微軟小冰在中國落地的第一個智能硬件。
這一年來,BAT(百度、阿里巴巴、騰訊)都在積極將人工智能語音助手落地為智能硬件。阿里的天貓精靈在去年“雙11”以99元的低價賣出40多萬臺;百度推出帶屏幕的智能音箱小度在家;騰訊發(fā)布了自己的人工智能語音助手叮當(dāng),并與長虹電視展開合作。當(dāng)然,還有京東的叮咚和小米的小愛同學(xué)。
大家都在忙著布局語音助手的軟硬件,期望搶奪智能家居場景的入口。在對話式人工智能領(lǐng)域耕耘多年,還沒有硬件落地的微軟終于坐不住了。
去年12月,微軟發(fā)布與小米合作的米家生態(tài)鏈Yeelight語音助手。今年3月22日,微軟(亞洲)互聯(lián)網(wǎng)工程院宣布推出新一代語音交互技術(shù):全雙工語音交互感官(Full-duplex Voice Sense)。微軟小冰的對話能力因此顯著提高,相比同類語音助手,她能實現(xiàn)自然流暢的對話式交流。
藏身于手機中的蘋果Siri和電腦中的微軟小娜早已被人們所熟知,現(xiàn)在亞馬遜的Alexa、阿里的天貓精靈、京東的叮咚以及小米的小愛同學(xué)都搖身一變“住進”了智能音箱里。在對話體驗上,用戶要發(fā)音清楚、一字一頓地說話,才能被理解。這種體驗可以用一個詞來形容——費勁。
在微軟看來,這種“費勁”不只是前端表現(xiàn)的問題,更是底層框架的問題。微軟小冰全球負責(zé)人、微軟亞洲互聯(lián)網(wǎng)工程院副院長李笛認為:“國內(nèi)對人工智能整體的發(fā)展更像在堆積木,而沒有探索到底層框架的設(shè)計上?!?/p>
他介紹,在全球范圍內(nèi),從基礎(chǔ)框架的基本理念來看,目前的對話式人工智能可以分為兩種。第一種叫Turnoriented(面向單一任務(wù)的框架);第二種為Sessionoriented(面向?qū)υ捜痰目蚣埽?。目前,大部分的語音助手都是第一種框架。從Turn-oriented到Session-oriented是技術(shù)底層框架的變化。
Session-oriented到底能給對話式人工智能帶來什么樣的改變呢?Turn-oriented面向單個任務(wù),一問一答,能很迅速地通過最少的對話幫你完成任務(wù)。在Turn-oriented的框架下,每一個對話就像是一個十字路口,你每發(fā)出一個指令,助手就把你帶向一個目的點,然后又回到路口中央。當(dāng)助手不能回答問題/完成指令時,一般會用搜索引擎直接給出搜索答案。體驗過Siri、微軟小娜的人都有感觸,問一兩個簡單問題還好,想多說幾句幾乎是不可能的,而且人們時常會感到“很尷尬”,還有一些挫敗感。
在Session-oriented框架下,對話不只是命令,而是混合的,在閑聊的過程中它還能完成每一個任務(wù),更接近人與人之間自然的對話。“對話像河流一樣,我們認為任何一個自然發(fā)生的對話,都是混合的。隨著進一步的交流有可能引發(fā)出新的任務(wù),然后再隨著新的任務(wù)引發(fā)一些知識的了解,然后走下去,持續(xù)流轉(zhuǎn)。”
當(dāng)用戶喚醒Yeelight中的微軟小冰后,它能和用戶連續(xù)聊天超過20分鐘。在聊天過程中它也保持傾聽,你可以打斷它,讓它去關(guān)燈、設(shè)置鬧鐘,在它完成任務(wù)后可以再回到閑聊,或者回到唱歌、講笑話、講故事的功能模式中。
微軟從4年前開始同時布局兩種框架,微軟小娜是Turnoriented,微軟小冰是Session-oriented。但當(dāng)時,兩邊的技術(shù)都還不成熟。全雙工語音交互技術(shù)補上了Seesionoriented框架的最后一個環(huán)節(jié)。
全雙工語音交互技術(shù)可實時預(yù)測人類即將說出的內(nèi)容,實時生成回應(yīng)并控制對話節(jié)奏,能理解對話場景在訴說者/傾聽者之間實現(xiàn)角色轉(zhuǎn)變,還可以識別說話人的性別以及說話人的數(shù)量。
微軟小冰首席架構(gòu)師周力說,國內(nèi)大部分的語音助手在IOT(物聯(lián)網(wǎng))上采用的是單層交互,通常都是一問一答,用戶說完一句話,智能音箱才能回答;或者是智能音箱在說話的時候,就沒法接受新的指令。而全雙工能實現(xiàn)一直聽加一直說,聽和說都是一直持續(xù)動態(tài)進行的。
全雙工語音交互背后主要有兩個關(guān)鍵技術(shù):一是預(yù)測模型,實現(xiàn)邊聽邊想。例如,當(dāng)用戶說出一句話的時候,小冰會先回答“嗯,你說”,然后再去完成指令,這樣可以填補完成指令的空白時間。
二是生成模型,讓其更好理解場景,自動生成回復(fù)。正常的對話都不是單向的一問一答,小冰也會在適當(dāng)?shù)臅r候主動提供內(nèi)容,并且能知道在用戶完成指令沉默幾秒后自動結(jié)束對話。周力介紹,現(xiàn)在小冰的所有回復(fù)都是自己生成的,有別于傳統(tǒng)的基于模塊、搜索來進行的回復(fù)。
周力認為,在電腦、智能手機帶動的即時通信時代下,人們習(xí)慣了遠距離的、隔著屏幕的消息的發(fā)送和接收,而對話式人工智能和智能硬件把人們拉回到非文字的純語音交流狀態(tài)。但許多設(shè)計還是基于消息的一來一往設(shè)計的,并不是一種連續(xù)的交互的狀態(tài)?!盁o屏幕的語音交互應(yīng)擺脫消息式的對話,進入連續(xù)交互的對話。”
全雙工語音交互技術(shù)已經(jīng)首先在微軟小冰全球產(chǎn)品線中落地。其中在中國市場,已經(jīng)應(yīng)用在中國科技館的小冰電話亭、米家生態(tài)鏈Yeelight語音助手中。在日本有小冰凜菜的直播平臺,還有車載智能項目,未來6個月會覆蓋更多的產(chǎn)品線。
李笛談道:“3年前,國內(nèi)很多人工智能的硬件設(shè)備就來找過我們。那時候我們還沒準備好,不想把時間放在一定會被取代的框架上?!?/p>
微軟小冰一直活躍在微信、Line等即時通信軟件上,而微軟深知IOT和IM(即時通信)對話式人工智能的要求不同。在IM上,小冰的延遲、插科打諢更容易被接受。Yeelight中的微軟小冰目前具備的功能有:連續(xù)聊天、控制智能設(shè)備、日常查天氣/時間、設(shè)置鬧鐘/提醒、唱歌、講故事、讀心術(shù)、猜歌名。陪聊和娛樂的功能很強大,但是目前還不能播放音樂、收聽新聞等內(nèi)容。
李笛說,如今各個智能音箱都在強調(diào)的技能對微軟來說并不困難,難的是如何能夠構(gòu)建出一個很完整的系統(tǒng)?!斑@個我們已經(jīng)做到了。我們?nèi)眱?nèi)容,其他人缺好的系統(tǒng)。”
在他看來,微軟語音助手落地智能硬件有以下優(yōu)勢:
第一,提供AI的解決方案。跟其他的API(操作系統(tǒng)留給應(yīng)用程序的調(diào)用接口)相比,微軟的解決方案更關(guān)注終端產(chǎn)品體驗。
第二,提供一部分與AI解決方案相關(guān)的內(nèi)容,包括與其他資訊、資源的整合。比如對接米家生態(tài)鏈中的幾十種設(shè)備,實現(xiàn)語音交互功能。
第三,提供自創(chuàng)的內(nèi)容。例如現(xiàn)有的“小冰姐姐講故事”已經(jīng)出現(xiàn)在90%以上的兒童可交互機器人中。微軟既是AI助手,又是內(nèi)容提供商。
雖說全雙工語音交互這樣的底層技術(shù)應(yīng)用范圍很廣,但大家目前爭奪的焦點依然在于智能家居場景。音箱、電視、電冰箱、頂燈這些常見的家居設(shè)備,哪一個會成為日后的中樞呢?
李笛認為,目前智能音箱的成功和AI的成功是兩件事。產(chǎn)品設(shè)計、價格、渠道、補貼等市場策略會影響智能音箱的銷量,但硬件存在換機周期。即使某個品牌現(xiàn)在擁有較大的市場份額,但只要有真正強大好用的AI出現(xiàn),就很可能被替換掉。
但是,人們喜歡的AI助手究竟是什么樣的呢?把各種技能都塞進智能音箱,把音箱當(dāng)遙控器、播放器等各種工具就一定受歡迎嗎?所有人都會期望與AI助手有良好的聊天體驗甚至情感交流嗎?小冰的聊天體驗確實好于其他的AI助手,但是目前還不能播放音樂著實令人覺得可惜。以后的小冰會把各種技能都學(xué)到手嗎,那個時候小冰還是小冰嗎?這些問題都值得我們繼續(xù)思考、探索。