2014年5月29日,微軟(亞洲)互聯(lián)網(wǎng)工程院發(fā)布了一款名為“小冰”的人工智能聊天機(jī)器人。這個(gè)號(hào)稱擁有16歲少女智商的機(jī)器人首先出現(xiàn)在微信平臺(tái)上,頂著一張90后“萌妹子”自拍照的頭像。這種明確的性別定位,與可男可女的機(jī)器人Siri有了些許不同,反而更像一個(gè)真實(shí)存在的“人”。
然而,這位萌妹子成為“微信紅人”后卻問(wèn)題不斷。5月30日,部分小冰公號(hào)在對(duì)話時(shí)出現(xiàn)了“無(wú)應(yīng)答”“答非所問(wèn)”“重復(fù)回答”等故障。研發(fā)方就此致歉,稱為公測(cè)期準(zhǔn)備的10萬(wàn)個(gè)小冰賬號(hào)于上線首日被搶注一空,同時(shí)與小冰聊天的用戶超過(guò)百萬(wàn),導(dǎo)致?lián)矶隆A硪环矫?,也有“部分小冰被騰訊微信系統(tǒng)誤判為SPAM賬號(hào)”,即垃圾賬號(hào)的原因。
5月31日,認(rèn)證為“微軟必應(yīng)項(xiàng)目經(jīng)理”的新浪微博公號(hào)稱“企鵝有時(shí)候不讓我說(shuō)話”。次日,微軟宣布,“騰訊公司在未做任何說(shuō)明的情況下,突然開始大規(guī)模殺死在各個(gè)聊天群組之中的小冰賬號(hào)?!北灰曌鳌捌姹钡男”?,僅三天即告夭折,而其在聲明中使用的“屠刀”等措辭,將這次紛爭(zhēng)升格為了戰(zhàn)爭(zhēng)。
微軟方面指責(zé)騰訊以微信出現(xiàn)假冒賬號(hào)為借口,封殺了全部真正的小冰。并稱在上線伊始,雙方就建立了溝通渠道,“我們建議可采用任何形式的合作,雙方的溝通本來(lái)正在進(jìn)行”。騰訊公司則聲稱,接到了大量用戶詢問(wèn),擔(dān)心這款產(chǎn)品的運(yùn)營(yíng)方式是否會(huì)泄露用戶聊天內(nèi)容?!敖?jīng)查證后發(fā)現(xiàn)該產(chǎn)品涉及模擬用戶操作、誘導(dǎo)用戶拉群、批量注冊(cè)垃圾賬號(hào)等影響平臺(tái)規(guī)則和用戶體驗(yàn)的違規(guī)行為”。但騰訊亦稱仍在與微軟溝通。 雙方談判隨后終告失敗。微軟在近幾天內(nèi)迅速與易信、米聊合作,讓小冰在上述平臺(tái)“復(fù)活”。此外,微軟還稱將與觸寶結(jié)合,擔(dān)當(dāng)用戶生活服務(wù)私人助手;并與奇虎360公司達(dá)成“戰(zhàn)略合作”,預(yù)期在“人工智能、移動(dòng)互聯(lián)等方面展開深度技術(shù)合作”。而騰訊方面亦在開發(fā)自己的語(yǔ)音智能產(chǎn)品。
圍繞語(yǔ)音智能的一場(chǎng)大戰(zhàn)似已拉開序幕。
在2011年Siri隨iPhone 4s面世之前,無(wú)論是語(yǔ)音應(yīng)用還是人工智能領(lǐng)域,這樣的“熱鬧”都還不可想象。
就算是中國(guó)語(yǔ)音應(yīng)用第一品牌科大訊飛股份有限公司(下稱科大訊飛),語(yǔ)音支撐軟件在2010年實(shí)現(xiàn)營(yíng)業(yè)收入也僅6400萬(wàn)元。業(yè)界公認(rèn)該公司占據(jù)語(yǔ)音應(yīng)用60%以上市場(chǎng)份額,換言之,市場(chǎng)總量不過(guò)1億元,且主要是基于語(yǔ)音合成業(yè)務(wù)。海通證券分析師陳美鳳測(cè)算,由語(yǔ)音識(shí)別業(yè)務(wù)帶來(lái)的營(yíng)業(yè)收入不到語(yǔ)音支撐軟件收入的10%。
語(yǔ)音應(yīng)用主要分為三大部分,語(yǔ)音識(shí)別、語(yǔ)音合成和聲紋識(shí)別,其中聲紋識(shí)別技術(shù)目前尚未真正形成市場(chǎng)。如果說(shuō)將Siri及其同類產(chǎn)品看作一個(gè)“人”的話,語(yǔ)音識(shí)別可以視作他的耳朵,而語(yǔ)音合成則是“嘴巴”。
讓機(jī)器人“說(shuō)話”更容易。早期的語(yǔ)音合成可以簡(jiǎn)單理解為“錄音+重放”。首先邀請(qǐng)一名閱讀者錄制較常出現(xiàn)的詞句。而后在“說(shuō)話”時(shí),將文本切割為短句、詞語(yǔ)甚至是發(fā)音片斷,與錄音資料進(jìn)行匹配后播放。但這種做法有時(shí)會(huì)令語(yǔ)句聽起來(lái)相對(duì)生硬,甚或較難理解,因此自上世紀(jì)80年代以來(lái),對(duì)語(yǔ)音合成技術(shù)的改進(jìn)主要是針對(duì)自然度和音質(zhì)。這一技術(shù)在公交、地鐵等公共廣播系統(tǒng)應(yīng)用已久,智能手機(jī)出現(xiàn)后也被廣泛用于讀書、讀報(bào)軟件。
一度成為語(yǔ)音應(yīng)用瓶頸的是語(yǔ)音識(shí)別技術(shù)。上海智臻網(wǎng)絡(luò)科技有限公司(下稱智臻科技)先后推出的MSN聊天機(jī)器人、海寶機(jī)器人曾經(jīng)風(fēng)靡一時(shí)。公司董事長(zhǎng)袁輝稱,在2004年首次開發(fā)MSN機(jī)器人時(shí),也曾考慮過(guò)讓它能“聽說(shuō)讀寫”,但最終仍僅定位為文字機(jī)器人,原因是當(dāng)時(shí)的語(yǔ)音識(shí)別技術(shù)不成熟,“識(shí)別率只有60%,甚至更低”。
早在上世紀(jì)90年代就已經(jīng)出現(xiàn)了商用的中文語(yǔ)音聽寫系統(tǒng),用于將人口述的語(yǔ)句轉(zhuǎn)換為文字存儲(chǔ),省卻雙手打字之累。當(dāng)時(shí)的這類系統(tǒng)必須經(jīng)過(guò)使用者的“訓(xùn)練”才能勉強(qiáng)“聽懂”這個(gè)人的話,其他人使用則又要再度訓(xùn)練,且對(duì)發(fā)音、語(yǔ)速都有較高要求?;鹆艘欢螘r(shí)間后很快沉寂。
楊寧平2003年回國(guó)創(chuàng)業(yè)時(shí),國(guó)內(nèi)都談不上有語(yǔ)音識(shí)別市場(chǎng)。當(dāng)時(shí)在美國(guó)等一些國(guó)家,語(yǔ)音識(shí)別技術(shù)已經(jīng)被用于一些企業(yè)的呼叫中心,代替人工接線員,但在國(guó)內(nèi),企業(yè)“機(jī)器聽懂人話”的反應(yīng)普遍都是“怎么可能”?楊寧平創(chuàng)立上?;⒂嵖萍加邢薰荆ㄏ路Q基立訊)初期,長(zhǎng)年靠其他電話業(yè)務(wù)勉強(qiáng)維持。
要讓機(jī)器“聽”懂人話,首先要將語(yǔ)音信號(hào)轉(zhuǎn)換為機(jī)器能夠識(shí)別的頻譜,將其與系統(tǒng)中已有的聲學(xué)模型進(jìn)行比對(duì),從而確認(rèn)發(fā)音。雖然每個(gè)人說(shuō)話的時(shí)候音量、聲調(diào)、頻率各不相同,但相同的發(fā)音轉(zhuǎn)換為頻譜后,仍會(huì)擁有共同的幾項(xiàng)特征。這些特征就是識(shí)別不同發(fā)音的關(guān)鍵。比如,“方(fang第一聲)”“風(fēng)(feng,第一聲)”“分”(fen,第一聲)”“粉(fen,第三聲),排除聲母發(fā)音后,不同的韻母和聲調(diào)會(huì)顯示不同的特征。
在對(duì)發(fā)音進(jìn)行識(shí)別的過(guò)程中,系統(tǒng)已有的聲學(xué)模型至關(guān)重要。除了要有準(zhǔn)確性,還要盡量包容每個(gè)人不同的口音。早期建立這一模型的方法,是由使用者本人進(jìn)行“訓(xùn)練”,通過(guò)招募志愿者閱讀指定文字收集語(yǔ)音語(yǔ)料建立“說(shuō)話人無(wú)關(guān)模型”。但是志愿者量不夠大,這導(dǎo)致模型的準(zhǔn)確性和包容度皆不足。
上海交通大學(xué)電子信息與電器工程學(xué)院特別研究員俞凱認(rèn)為,互聯(lián)網(wǎng)尤其是云計(jì)算技術(shù)的應(yīng)用,是搜集語(yǔ)料的最大助力?!艾F(xiàn)在一些開放的語(yǔ)音識(shí)別平臺(tái),像谷歌、百度、搜狗有上千萬(wàn)人在用,能夠收集上億數(shù)據(jù)。真正的說(shuō)話人無(wú)關(guān)模型就是互聯(lián)網(wǎng)普及后出現(xiàn)的。”
提高識(shí)別率的方法還有模糊匹配、領(lǐng)域限制等。對(duì)機(jī)器而言,發(fā)音并不等于文字。例如,發(fā)音“feng”,究竟是“鋒利”的“鋒”,還是“山峰”的“峰”,或是其他同音字,還需要再進(jìn)一步與語(yǔ)言模型進(jìn)行比對(duì),找出最接近的一組顯示出來(lái)?!耙酝饕墙厝∫恍┒陶Z(yǔ)、短句,但是語(yǔ)料豐富、技術(shù)發(fā)展后,會(huì)用一串發(fā)音去比對(duì),因此反而是較長(zhǎng)的語(yǔ)句識(shí)別準(zhǔn)確率更高?!睏顚幤浇榻B。
然而,無(wú)論研究者將已有技術(shù)一步一步改進(jìn)得多么細(xì)致,語(yǔ)音識(shí)別在本世紀(jì)初都只是一個(gè)十分狹小的領(lǐng)域,企業(yè)大多較小甚至微小。當(dāng)時(shí)基立訊所有成員一共三人,如今的行業(yè)巨頭科大訊飛也只是個(gè)十多人的“草臺(tái)班子”。研究者亦多集中于中國(guó)科學(xué)院自動(dòng)化所、聲學(xué)所,及北大、清華和中國(guó)科技大學(xué)三大院校。他們能夠接到的語(yǔ)音識(shí)別業(yè)務(wù)也都十分有限,要么是在大型項(xiàng)目中分一杯羹,要么就是一些試驗(yàn)性的“創(chuàng)新項(xiàng)目”,難稱保本,遑論盈利。
市場(chǎng)的拯救者Siri在2011年出現(xiàn)了。它將語(yǔ)音技術(shù)與人工智能相融合,激發(fā)了技術(shù)控們的熱情。百度、搜狗等搜索引擎紛紛推出語(yǔ)音搜索功能,騰訊則是語(yǔ)音輸入法,長(zhǎng)虹、聯(lián)想等則將其引入了智能電視、智能手機(jī)等各類家電。
資本熱情在2012年爆發(fā)??拼笥嶏w迎接各大機(jī)構(gòu)的密集調(diào)研,動(dòng)輒六七十人集體前往,市盈率也由70倍升至90倍。成立于2012年6月的北京云知聲信息技術(shù)有限公司更是在成立500天后就獲得了高達(dá)1億元的A輪融資,創(chuàng)造了當(dāng)年這一領(lǐng)域的最高融資記錄。
但在袁輝看來(lái),Siri并不等同于語(yǔ)音技術(shù)。這款機(jī)器人之所以受到追捧,固然是因?yàn)椤奥牎薄罢f(shuō)”能力更像一個(gè)“人”。但要像人一樣“陪聊”,僅僅會(huì)聽說(shuō)遠(yuǎn)遠(yuǎn)不夠,更重要的是“大腦”。很多人認(rèn)為Siri是智能語(yǔ)音,但它實(shí)際上是機(jī)器人,只是以語(yǔ)音形式來(lái)互動(dòng)。科大訊飛像美國(guó)的Nuance,而小i就是中國(guó)的Siri。智臻科技成立于2001年,小i是其主打的智能機(jī)器人品牌。Nuance是一家語(yǔ)音識(shí)別技術(shù)研發(fā)機(jī)構(gòu),也是Siri的語(yǔ)音轉(zhuǎn)換引擎的提供商。
袁輝自認(rèn)為,2003年至2011年,其所在公司一直是全球最大的虛擬機(jī)器人提供商和運(yùn)營(yíng)商。但直到三年前Siri推出,公司方實(shí)現(xiàn)盈利。此前則幾經(jīng)艱難,甚至一度靠私人借高利貸維持。
與以往的聊天機(jī)器人相比,Siri及類似產(chǎn)品確實(shí)顯得更加“智能”。此前的一些聊天機(jī)器人運(yùn)用的是關(guān)鍵詞抓取技術(shù),根據(jù)關(guān)鍵詞進(jìn)行反應(yīng)。如一句話中出現(xiàn)了“天氣”,即便使用者只是無(wú)意中提及這個(gè)詞,得到的回答就是當(dāng)?shù)禺?dāng)天的天氣。經(jīng)常被逗樂(lè)的還有不能判斷否定句,如輸入“我愛你”和“我愛你才怪”,得到的回答都是“我愛你”。
這源自機(jī)器人對(duì)語(yǔ)義理解不足。智臻科技資深市場(chǎng)顧問(wèn)梅莉介紹,僅在銀行信用卡系統(tǒng)中,該公司收集到的余額查詢表達(dá)方式就有200多種,包括“查詢余額”這樣出現(xiàn)頻率較高的,也有“老子還有多少銀子”等。只有讓機(jī)器理解各類千奇百怪的表述和具備邏輯能力,才能真正可以讓機(jī)器用自然語(yǔ)言交流。
更大的問(wèn)題在于降噪。車載語(yǔ)音導(dǎo)航設(shè)備一度被認(rèn)為是語(yǔ)音技術(shù)應(yīng)用的一大增長(zhǎng)點(diǎn)。然而實(shí)際應(yīng)用中,行駛過(guò)程中產(chǎn)生的噪音,往往令機(jī)器難以識(shí)別語(yǔ)句的語(yǔ)音,導(dǎo)致無(wú)法進(jìn)一步實(shí)現(xiàn)交流。這種情況在智能家居領(lǐng)域相對(duì)好些,但要識(shí)別哪些話是人們的普通交談,哪些話是對(duì)機(jī)器人“說(shuō)”的,難度則又進(jìn)一層。
Siri之后,機(jī)器人的耳朵和大腦都變得越來(lái)越“智能”,現(xiàn)在如何讓語(yǔ)音智能“有用”成為挑戰(zhàn)。
即使有了蘋果公司的支持,Siri的“無(wú)所不知”之路也難稱順利。多數(shù)使用者嘗鮮后很快厭倦了Siri,并不真正用這個(gè)“助理”查詢天氣、交通等,也不使用它的語(yǔ)音撥號(hào)等內(nèi)置應(yīng)用,Siri的“所知”也十分有限,它更像是一個(gè)純娛樂(lè)性的聊天機(jī)器人。問(wèn)題是,聊天無(wú)法產(chǎn)生價(jià)值,換言之就是“沒用”。
要讓語(yǔ)音智能“有用”,智臻科技找到的出路是客服。小i被廣泛用于金融、通訊領(lǐng)域的短信和網(wǎng)絡(luò)客服,以及社保、財(cái)政、街道等政府部門自動(dòng)問(wèn)答系統(tǒng)。這種做法的好處是,將服務(wù)范圍限制在一定領(lǐng)域內(nèi),從而提高語(yǔ)音、語(yǔ)言和語(yǔ)義識(shí)別的正確率。相較通用語(yǔ)音識(shí)別引擎85%的正確率,此類服務(wù)的正確率則都在90%以上甚至更高。
招商銀行信用卡微信機(jī)器人是最受歡迎的七大微信公號(hào)之一,其識(shí)別正確率目前已達(dá)98%。用戶在添加這個(gè)賬號(hào)后,可以像真人一樣和機(jī)器人對(duì)話,獲得常見問(wèn)題的回答。用戶在綁定信用卡后,則可以查詢自己的賬單、還款金額和積分等信息,還可以辦理分期付款等簡(jiǎn)單業(yè)務(wù),復(fù)雜業(yè)務(wù)亦可由系統(tǒng)直接跳轉(zhuǎn)至手機(jī)銀行辦理。
小i也被用于短信客服系統(tǒng)。一般的短信自助客服系統(tǒng)須經(jīng)過(guò)早已設(shè)計(jì)好的路徑,操作復(fù)雜,耗時(shí)較長(zhǎng)。如要進(jìn)行余額查詢,往往需要經(jīng)過(guò)服務(wù)語(yǔ)言、服務(wù)大類、服務(wù)小類、服務(wù)細(xì)目的層層選擇,而相對(duì)智能化的自助客服系統(tǒng)則能直接將客戶引至操作層。據(jù)稱這樣做可令招行節(jié)省約5000萬(wàn)元短信費(fèi)用。
智臻科技項(xiàng)目負(fù)責(zé)人孟慶國(guó)估算,銀行業(yè)每通客服電話的成本大約是5元(包含人員工資、通信費(fèi)、水電、座席硬件設(shè)備等)。2012年招行卡中心客服的人工話務(wù)量超過(guò)6000萬(wàn)通,若微信的智能互動(dòng)和自助服務(wù)能節(jié)省10%的話務(wù)量,則招行信用卡中心一年節(jié)省的費(fèi)用大概是3000萬(wàn)元。
IT研究和顧問(wèn)咨詢公司Gartner在2011年的分析報(bào)告中就曾指出,截至2011年,全球大約有36家智能機(jī)器人系統(tǒng)服務(wù)商。在其調(diào)查的19家服務(wù)商中,收入大于500萬(wàn)美元的近三分之一。Gartner預(yù)計(jì),2014年全球1000強(qiáng)公司中至少有20%會(huì)采用智能機(jī)器人系統(tǒng)來(lái)提高服務(wù)水平。
盡管如此,語(yǔ)音智能應(yīng)用仍有長(zhǎng)路要走。除人工智能難在通用領(lǐng)域產(chǎn)生價(jià)值外,語(yǔ)音識(shí)別仍是瓶頸。由于中文方言繁多,對(duì)口音甚至方言的識(shí)別,需在大量語(yǔ)料積累的基礎(chǔ)上,非經(jīng)濟(jì)實(shí)力和用戶基礎(chǔ)雄厚不能做到。目前僅科大訊飛陸續(xù)公開推廣相關(guān)識(shí)別引擎。
“Siri定位是做個(gè)無(wú)所不知無(wú)所不能的機(jī)器人,如果能實(shí)現(xiàn)肯定非常厲害,就是變形金剛出現(xiàn)的時(shí)候。小i就是在‘變形金剛’這條路上走了八年,最后死掉了。”袁輝認(rèn)為,這條路不是普通創(chuàng)業(yè)者能走的。