阿里、百度兩大巨頭巧合地在同一天對外公布了自己的人工智能進(jìn)展:智能語音音箱和無人駕駛。經(jīng)過前期基礎(chǔ)和技術(shù)上的儲備與競爭之后,科技企業(yè)間人工智能競爭升級,開始了應(yīng)用與產(chǎn)品上的競逐。
從人工智能的架構(gòu)層級來看,這些年的發(fā)展已經(jīng)逐漸向下端滲透。具體說,人工智能可分為基礎(chǔ)層、技術(shù)層和應(yīng)用層,其中基礎(chǔ)層為算力支撐(AI芯片、云計算),技術(shù)層為算法平臺,應(yīng)用層是AI向各傳統(tǒng)行業(yè)的滲透應(yīng)用。
通俗地理解,基礎(chǔ)層靠近“云”,應(yīng)用層靠近“端”,是各種產(chǎn)品的落地。在之前不斷累積的大數(shù)據(jù)和算法優(yōu)化過程后,當(dāng)今正是各種場景之下的應(yīng)用服務(wù)相繼爆發(fā)之時。
而單從最近兩巨頭的動作就可看出,語音識別已成為其中主戰(zhàn)場。也許這么說會覺得和無人駕駛相離太遠(yuǎn),但仔細(xì)分析,無人駕駛現(xiàn)在更重視用戶體驗和人機(jī)交互,多個概念車中都展示了語音控制汽車,可謂能動口絕不動手,用戶一聲令下就直接控制汽車行駛狀態(tài),這其中對語音識別的需求也是不言而喻的。
各巨頭看準(zhǔn)語音識別必將火熱、成為主戰(zhàn)場自有其理由。語音交互之所以越來越被重視,是因為互聯(lián)網(wǎng)、智能硬件的普及,改變了互聯(lián)網(wǎng)的入口方式。而語音就是最簡單的,最直接的交互方式,是通用的互聯(lián)網(wǎng)輸入模式。
從用戶角度來說,最簡單的控制就是“一聲令下”的簡單方式,無需任何操作讓機(jī)器讀懂人心。從商業(yè)場景來說,不論是娛樂、工作、家庭、出行、旅行等哪個場景,用戶都會隨時隨地需要語音控制,特別是不同場景下的語音信息代表不同需求,覆蓋全場景的語音接口搭載在各種智能硬件上,可以最大限度收集用戶需求。在深度挖掘后預(yù)判用戶未來需求,打通各個場景數(shù)據(jù)后可為各巨頭建立自身的生態(tài)鏈,讓更多場景的大數(shù)據(jù)反哺語音識別等人工智能技術(shù)的研發(fā)。
除了語音識別,AI在語音合成、對話管理。問答等方面也做了很多工作,還包括在不同端上的信號處理,例如麥克風(fēng)陣列等等都是要去實踐的,這樣才能完成語音交互的完整過程。語音識別技術(shù)的進(jìn)展是有目共睹的,不過對此仍需保持冷靜,人機(jī)交互的自然性尚未達(dá)到和真人交流一般的靈活,機(jī)器人或智能硬件的“智商”也不能和真人相比。
以私人助手為例,如果對面是一個真人管家,那么用戶的一個表情也許管家就會讀懂需求。但對機(jī)器人來說,不僅需要用戶說出需求,而且用戶語氣和情緒的變化所代表的意義未必能全部捕捉,這時也許還需要用戶再次用語言說清需求,在用戶體驗上造成不便。
所以說,決勝人工智能或許是個偽命題,這些科技巨頭理論上應(yīng)該比普羅大眾對人工智能的價值有更深刻的認(rèn)識,他們也有充分可支配的資源進(jìn)行研究和布局?;ヂ?lián)網(wǎng)時代、移動互聯(lián)網(wǎng)時代都是百花齊放各展所長,人工智能時代也是如此。