技術(shù)宅
微軟為Windows 10內(nèi)置了一款語音智能助手——Cortana(中文名:微軟小娜),同時在Windows 8.1 Phone也集成了該應(yīng)用。小娜能夠了解用戶的喜好和習(xí)慣,幫助用戶進行日程安排、回答問題等,仿佛是一個實實在在的“人”,實際上“她”卻只是一個智能程序。現(xiàn)在“她”又連續(xù)解鎖了多項智能功能,比如“關(guān)注學(xué)術(shù)動態(tài)”、“附近美食團購”等等。那么小娜是怎么實現(xiàn)上述功能的?就讓我們來看看“她”的背后有什么樣的技術(shù)支撐。
解密小娜的前世今生
微軟小娜看上去非常神奇,其實“她”就是現(xiàn)在流行的智能語音人機交互技術(shù)的一種表現(xiàn)形式。說到語音交互,對于微軟來說,早在Windows Vista發(fā)布之初就內(nèi)置了“語音識別”組件,通過這個組件我們可以借助語音實現(xiàn)語音輸入、語音控制程序啟動等交互功能,這功能現(xiàn)在通過小娜都可以輕松實現(xiàn)(圖1)。
不過隨著移動設(shè)備的普及,以及Windows 10全平臺的需要,微軟將語音識別功能推廣到PC和移動設(shè)備上,同時結(jié)合Bing搜索引擎,微軟使用功能更強大的小娜作為替代。當(dāng)然在移動語音交互領(lǐng)域,各大IT巨頭也互不相讓,蘋果推出了Siri,谷歌則推出了Google Now,它們和小娜一樣都是智能語音人機交互技術(shù)的典型代表(圖2)。
為什么那么聰明——解密小娜背后的技術(shù)
使用過小娜的朋友都會被“她”的聰明勁折服,無論是語音搜索、輸入,或是語音命令,小娜都可以準確無誤地執(zhí)行,而且經(jīng)過一段時間使用以后,小娜將越來越了解用戶的行為習(xí)慣,可以為大家做出更多智能的操作。那么小娜的這些本領(lǐng)是怎么掌握的?
首先要實現(xiàn)語音交互,小娜就必須實現(xiàn)對語音精準識別和輸入。在語音輸入識別領(lǐng)域,這原來就是微軟亞洲研究院(現(xiàn)已更改為微軟亞洲互聯(lián)網(wǎng)工程院,小娜正是出自其手)的強項?,F(xiàn)在小娜支持多種語言,除了中文外還有英語、德語、西班牙語、法語、意大利語等。從支持語言方面就可以看到微軟在這方面的技術(shù)有多強大。當(dāng)然撇開其他外語不說,單就中文的支持而言,由于中國目前方言眾多,每個地方的人講普通話幾乎都會帶各自的口音,經(jīng)過實際測試可以看到,無論是南方口音,還是典型東北話,目前小娜幾乎都可以精準識別,這是小娜語音智能交互的基礎(chǔ),其背后功臣正是微軟語音識別技術(shù)(圖3)。
其次小娜具備和設(shè)備智能交互的功能,比如可以基于手機設(shè)備進行一些操作,包括打電話、設(shè)置提醒等,同時結(jié)合微軟的必應(yīng)搜索,小娜可以實現(xiàn)智能問答和推送。啟動小娜后,我們只要對著手機語音輸入一些關(guān)鍵詞,小娜正確識別后就會根據(jù)關(guān)鍵詞的不同迅速給出反饋。
比如你輸入的是“呼叫XXX”,小娜識別后會智能判斷出你想執(zhí)行的操作是撥打電話,接著小娜就會遍歷手機通訊錄,找出符合語音輸入的聯(lián)系人后開啟電話撥號,實現(xiàn)類似很多手機吹噓的語音撥號功能(圖4)。當(dāng)然這只是小娜一個簡單的功能,我們還可以輸入類似“訂購車票”、“啟動計算器”、“明天買蛋糕”等自然語言,小娜就會根據(jù)你的關(guān)鍵詞,然后智能關(guān)聯(lián)到對應(yīng)的程序為你服務(wù)(比如輸入買蛋糕,小娜則會自動啟動鬧鐘提醒服務(wù)為你買蛋糕增加語音提醒)。
如果你輸入的是和操作并不關(guān)聯(lián)的關(guān)鍵字,比如輸入“附近有什么餐館”,小娜則會結(jié)合必應(yīng)搜索功能,通過對你當(dāng)前位置的定位,然后將附近餐館的位置推送給你(圖5)。
當(dāng)然除了這些智能交互操作,如果你開放個人數(shù)據(jù)(可以在小娜中進行設(shè)置),完全信任她,小娜就會根據(jù)你開放的權(quán)限提供更多智能的服務(wù)。比如你經(jīng)常在微信中訂閱某明星信息,那么小娜就會利用必應(yīng)強大的搜索功能實時將該明星的信息推送給你,讓你獲得更多個性化的服務(wù)(圖6)。
當(dāng)然,小娜這些看上去很神奇的功能,背后實際上依靠的是微軟的云計算、云服務(wù)和搜索引擎的大數(shù)據(jù)功能實現(xiàn)的。比如搜索引擎的大數(shù)據(jù)功能可以通過分析用戶輸入“北京”和“去北京”這兩個關(guān)鍵字的不同,然后為用戶呈現(xiàn)不同的反饋結(jié)果(如前者是進行北京相關(guān)知識的查詢,后者則是反饋去北京的交通工具如訂購火車、機票)。
生活可以更美好——小娜們給我們帶來的便利
從上面的內(nèi)容可以看到小娜的強大功能,一方面我們只要借助平時的自然語言輸入即可獲得很多便捷服務(wù),比如在開車時撥打電話,我們只要呼叫聯(lián)系人的名字即可撥打電話,這種語音操作可以解放我們的雙手。另一方面,小娜基于大數(shù)據(jù)技術(shù)可以為我們提供更多個性化服務(wù),比如對于現(xiàn)在的股民,開放我們的個人數(shù)據(jù)給小娜讀取后,小娜就會實時為我們推送股市信息,給我們獲取需要的資訊帶來更多的便利。
不過,對于語音助手未來的演變,我們還需要有一段適應(yīng)期,語音識別和交互技術(shù)仍然還有很大提升空間。語音并不會完全代替鼠標、觸摸屏和手勢,這些交互技術(shù)各有所長,未來會互相結(jié)合使用。隨著大數(shù)據(jù)、云計算技術(shù)的發(fā)展,類似小娜、Siri這種語音助手未來將會無處不在,必然會給我們的生活帶來更多的便利。