正月
人工智能等技術(shù)都在背后加快著計算機的“聽說”功能。
對著谷歌 Home智能音箱,“偷偷”告訴它你想買買買的東西。英語、法語、西班牙語、印度語……語言沒有阻礙你的手機會瞬間知曉這個“秘密”,并且還能顯示搜索結(jié)果。
當然,除了懂得多國語言,谷歌 Home的語音配對(Voice Match)功能,可以讓最多六個用戶連接到同一臺音箱。據(jù)說它是首個具備此功能的智能音箱,也因此顯得與其它智能音箱更加不同。
現(xiàn)在,語音助手已然成為智能手機們的標配,有“個性”就成為差異化的要素。比如蘋果的Siri是個段子手、三星的Bixby成了消除孤獨寂寞冷的高手……
去年10月推出的谷歌 Pixel手機在今年升級后會展現(xiàn)什么樣的個性呢?這可能要取決于 “谷歌 Assistant”的發(fā)揮。
這個工具能夠整合日歷和事件功能,可以根據(jù)用戶當前的位置、活動項目整合服務,而不再是單一的網(wǎng)絡搜索功能?!霸诓煌O備之間通用的谷歌 Assistant,通過機器學習,會隨著時間的推移而變得越發(fā)強大?!惫雀?Assistant 工程總監(jiān)Pravir Gupta說。
這是谷歌正在探索的軟件硬件結(jié)合的模式。人工智能等技術(shù)都在背后加快著計算機的“聽說”功能。比如深度神經(jīng)網(wǎng)絡技術(shù)提高了語音搜索中語音識別的準確性,這使得用戶在嘈雜的環(huán)境中也可以與手機自由對話。在機器學習的幫助下,自然語言處理系統(tǒng)能夠更好地理解人們想說的話。
現(xiàn)在谷歌語音搜索支持 119 種語言,其中包括 11 種印度語言和 3 種印度尼西亞語言。Pixel Buds是一種能實時將你周圍別人說的話翻譯成你的母語的耳機,運用了語音識別和翻譯技術(shù)。有了它你就能在陌生的語言環(huán)境中漫游,幾秒鐘后便能翻譯成你的母語。這項技術(shù)的翻譯效果也將隨著時間的推移得到顯著的提升。
另一方面,機器學習正在實現(xiàn)文本向語音轉(zhuǎn)換,通過轉(zhuǎn)換引擎,手機可以用語料并不豐富的語種,比如孟加拉語、高棉語和爪哇語與人們對話。機器學習模型有助于減少構(gòu)建文本到語音模型所需的數(shù)據(jù)量。
人工智能等技術(shù)也反過來被應用到最新一代的Pixel手機中。機器學習和計算攝影技術(shù)的結(jié)合使新款Pixel 手機具備了人像模式功能。這個功能能夠在拍攝人像時柔和虛化背景,讓Pixel在拍照功能上能夠和IPHONE 7 Plus之后的手機媲美。
語音的新戰(zhàn)場
好的醫(yī)療文檔有助于醫(yī)療團隊成員更好的照顧病患。現(xiàn)在醫(yī)生們經(jīng)常要在工作日中花6~11小時在電子病歷上,醫(yī)生們嘗試使用工具來創(chuàng)建醫(yī)患對話的日志。而語音技術(shù)在“翻譯”醫(yī)患對話上找到了新的戰(zhàn)場。
谷歌 Brain團隊嘗試使用谷歌 Assistant、谷歌 Home以及谷歌 Translate來紀錄醫(yī)患對話,并總結(jié)記錄。在“醫(yī)療對話中的語音識別”項目中,這個團隊展示了使用自動語音識別模型紀錄醫(yī)療對話的可能。大部分現(xiàn)有的醫(yī)療自動語音識別解決方案,主要是識別醫(yī)生醫(yī)囑,也就是說識別一個人的專用醫(yī)療術(shù)語。而這個項目是建立能夠識別多人對話,并且內(nèi)容涵蓋從天氣到醫(yī)療判斷的語音模型。
谷歌的這個團隊與斯坦福大學的醫(yī)生和研究者一起開展工作。實際上,斯坦福大學已經(jīng)在使用技術(shù)提升醫(yī)生滿意度上做了廣泛研究,理解類似自動語音識別技術(shù)如何抓取醫(yī)生的記錄。
在一項研究中,團隊研究了何種類型的醫(yī)療相關信息能夠被從醫(yī)療對話中抽取出來,從而降低醫(yī)生不斷打開電子病例的頻率。這項研究獲得了病人的授權(quán),并且為了保護個人隱私而模糊了病患身份。谷歌團隊希望這項研究不僅能降低醫(yī)生的日常工作負載,還能幫助病患得到更好的醫(yī)療照顧。
掘金大部隊
除了谷歌之外,微軟、亞馬遜等公司都是語音識別市場上的主要玩家。為推動AI語音技術(shù)發(fā)展、同時阻擊蘋果和谷歌等競爭對手,微軟和亞馬遜還選擇“抱團”策略,雙方在9月就AI語音助手合作達成了共識,將雙方各自的智能語音助理Cortana和Alexa進行整合。
通過此次合作,雙方的語音助手將能夠互相激活。亞馬遜Alexa的用戶可以訪問微軟Cortana的一些特有功能,如工作日歷,閱讀工作郵件。而Cortana的用戶可以通過Alexa在亞馬遜網(wǎng)站上購物,也可以控制家中的智能設備。不過,評論認為有一個現(xiàn)實壁壘擺在微軟和亞馬遜面前,這兩家公司都沒有自己的智能手機。
微軟旗下的智能語音助手Cortana與亞馬遜旗下的Alexa、谷歌旗下的谷歌 assistant和蘋果旗下的Siri正在智能家居領域鋪開全面競爭,這幾家IT巨頭都在試圖將旗下的智能語音服務滲透到人們生活的各個場景中爭奪入口。
三星除了自有的Bixbay外,還奉行開放策略。三星電子旗下音箱和汽車零部件企業(yè)哈曼國際公司所推出的音箱分別支持谷歌Assistant、亞馬遜 Alexa 以及微軟 Cortana。哈曼旗下?lián)碛蠮BL等多個知名品牌。語音操控系統(tǒng)與硬件的結(jié)合,成為巨頭公司圈地之戰(zhàn)。
不過,作為人類延長器官而存在的智能手機決定了這才是語音識別技術(shù)的最大戰(zhàn)場。一項調(diào)查顯示,語音識別市場在2023年將價值183億美元,年復合增長率將達到19.8%。