岳麗麗
吳曉波說過,2014年到2016年是中國最好的創(chuàng)業(yè)時代。聲智科技(SoundAI)聯(lián)合創(chuàng)始人常樂算是抓住了這一“時代”尾巴的一撥人之一。2016年創(chuàng)辦聲智科技,專注于聲學(xué)與人工智能融合方向的技術(shù)研發(fā),包括她在內(nèi)的4名創(chuàng)始成員都來自中國科學(xué)院聲學(xué)所。
常樂告訴創(chuàng)業(yè)邦,人和機器的交互方式在不斷演變,從旋鈕和鍵盤、鼠標、觸摸屏演變到第4代以語音為代表的遠場語音交互手段。語音已經(jīng)成為最重要的人機交互入口,這是一個國內(nèi)外同步創(chuàng)新、爭奪科技制高點與未來產(chǎn)業(yè)重構(gòu)的新機遇。
而遠場語音交互市場的興起還要歸功于美國電商巨頭亞馬遜推出的智能音箱Echo,其帶來的顯著變化就是把語音交互方式從近場升級為遠場。以北美市場為首,圍繞人工智能遠場語音交互技術(shù)的產(chǎn)品已經(jīng)開始落地,但彼時,國內(nèi)大多數(shù)產(chǎn)品還停留在近場語音交互階段。常樂預(yù)判“未來國內(nèi)的發(fā)展模式一定會往遠場語音交互方式過渡”,因此,創(chuàng)業(yè)初期聲智科技決定由該市場切入。
此前,常樂的師兄,現(xiàn)在的聲智科技創(chuàng)始成員,與常樂一起同在中科院聲學(xué)所從事相關(guān)技術(shù)的研發(fā),創(chuàng)立聲智科技則意味著把技術(shù)做商業(yè)化落地。由此組成的創(chuàng)始團隊構(gòu)成了聲智科技的競爭力之一。常樂解釋,聲學(xué)是物理學(xué)科的二級學(xué)科,很多高校本科并不開設(shè)這個專業(yè),到了研究生階段才有一些高校、研究所開設(shè),相關(guān)人才稀缺。同時國內(nèi)專注在聲學(xué)領(lǐng)域研究的人才很少。
人和機器的交互方式在不斷演變,語音已經(jīng)成為最重要的人機交互入口,這是一個國內(nèi)外同步創(chuàng)新、爭奪科技制高點與未來產(chǎn)業(yè)重構(gòu)的新機遇。
在目前200人的團隊中,除創(chuàng)始團隊外,聲智科技還引進了包括中國科學(xué)院、清華大學(xué)、北京大學(xué)、中國科技大學(xué)、北京航空航天大學(xué)、中國傳媒大學(xué)、MIT等名校畢業(yè)生以及Google、Broadcom、Dolby、騰訊、百度等精英。
常樂提到,2010年由于深度學(xué)習(xí)技術(shù)的出現(xiàn)和應(yīng)用,人工智能開始在商業(yè)領(lǐng)域展現(xiàn)其價值。智能語音在國內(nèi)是從1956年中科院聲學(xué)所的第一套電子管語音識別系統(tǒng)開始,直到2011年語音技術(shù)才真正獲得市場認同,這個時候語音識別技術(shù)開始快速迭代,2016年機器語音識別率終于在2016年達到了一般人類的水平。但是這個結(jié)果還存在非常大的邊界約束,因為沒有考慮到真實環(huán)境的物理因素干擾,其真實效果還是不能滿足實際應(yīng)用的要求。商業(yè)化落地需要構(gòu)建真實的場景下的遠場語音交互,比如在嘈雜的餐館、迎風(fēng)行駛的車上等。首先聲智科技要解決的是空間物理環(huán)境聲場的影響,也就是構(gòu)建一個靈敏的“耳朵”,提升體驗感?!坝辛遂`敏的耳朵,就能采集到更好的數(shù)據(jù)集,訓(xùn)練出更好的機器學(xué)習(xí)的模型,反哺整個交互過程?!?/p>
其次,聲智科技基于底層聲學(xué)技術(shù)生成完整的軟硬件方案,構(gòu)建基于聲智科技人工智能操作系統(tǒng)搭建的人工智能交互平臺。完整的語音交互過程包括從聽到聲音到大腦解析成文字再到最終說出來,其中包括了多項技術(shù),聲學(xué)處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環(huán)境下的人的聲音;語音識別則是要把聽到的人聲翻譯成文字;語義理解則分析這些文字的意義;語音合成就把機器要表達的文字翻譯成語音。再融合知識圖譜、人工智能大數(shù)據(jù)分析和解析、智能搜索推薦、智能決策等技術(shù),形成完整的人工交互鏈條,聲智科技再開始在此基礎(chǔ)之上迭代產(chǎn)品和服務(wù)。
聲智科技(SoundAI) 聯(lián)合創(chuàng)始人常樂 這是一個國內(nèi)外同步創(chuàng)新、爭奪科技制高點與未來產(chǎn)業(yè)重構(gòu)的新機遇
常樂介紹,聲智科技推出人工智能操作系統(tǒng)的目標用戶群體主要分為兩大方向。第一為內(nèi)容和服務(wù)提供方,聲智科技可以滿足他們在不同設(shè)備、載體嵌入服務(wù)和內(nèi)容的需求。“未來用戶可能會在智能音箱、智能屏、智能汽車等新一代智能終端設(shè)備上使用傳統(tǒng)服務(wù),通過我們的人工智能操作系統(tǒng)構(gòu)建服務(wù)平臺,幫助這類目標客戶將服務(wù)、內(nèi)容提供給第三方,類似于在手機上安裝他們的App?!钡诙莻鹘y(tǒng)硬件廠商,通過安裝聲智科技的人工智能操作系統(tǒng),為硬件升級進行智能化賦能,打造具有人工智能交互能力的新型設(shè)備產(chǎn)品。
現(xiàn)在聲智科技已研發(fā)出人工智能操作系統(tǒng)Azero、人工智能開放平臺Babel和融合感知算法引擎Cimon,以及深度結(jié)合應(yīng)用場景的AI硬件設(shè)備、AI營銷客服、AI語音助手、AI虛擬數(shù)字人、AI音視頻會議等產(chǎn)品和行業(yè)綜合解決方案。
初期,聲智科技率先落地在消費電子品這類用戶使用量較大的場景,聲智科技占據(jù)中國70%的遠場語音交互市場?,F(xiàn)逐步向傳統(tǒng)金融、安防以及醫(yī)療、交通等領(lǐng)域開始新的探索。在此次疫情期間,聲智科技也有所行動,推出了AI數(shù)字人紅外測溫設(shè)備、可視化AI語音電梯等非接觸式抗疫解決方案。常樂介紹,AI數(shù)字人紅外測溫儀可實現(xiàn)1~6米范圍內(nèi)、0.2秒內(nèi)完成多個目標的高精度測溫,支持實時AI語音合成播報,自動上傳預(yù)警信息。
目前聲智科技已在安徽、廣州、青島、成都、北京等全國18個省市的學(xué)校、辦公大廳、寫字樓落地。AI語音電梯整體解決方案無須下載任何App或小程序,只需要一句話“小易小易,上樓/下樓”就可以實現(xiàn)電梯呼叫?,F(xiàn)在已在北京市海淀醫(yī)院正式投入使用,北醫(yī)三院也即將落地使用。
回顧人機交互技術(shù)的發(fā)展史,相較于近場語音交互,遠場語音交互技術(shù)的出現(xiàn)成功解決了真實場景下的復(fù)雜聲學(xué)問題。但當(dāng)前還只是人機自然交互的發(fā)展初期,即便智能語音交互也還任重而道遠。在聲智科技看來,所有的AI產(chǎn)品仍沒有達到理想的狀態(tài),在不斷優(yōu)化過程中,聲智科技始終注重的是用戶體驗,“語音識別率超過99%這個數(shù)字對于用戶來說,意義不大,相反,交互體驗對他來說更為重要,也就是推薦的產(chǎn)品是不是他想要的,聽到的是不是夠準確。”
為了更好地實現(xiàn)AI從感知智能進入認知智能的階段,需要針對不同場景,在語義理解方面建立不同知識圖譜庫,不斷進行學(xué)習(xí)和迭代。常樂表示,現(xiàn)階段,智能家居等領(lǐng)域的語音識別率已經(jīng)相對較高,而在一些智能交通、智能醫(yī)療領(lǐng)域、安防司法等專業(yè)性較強領(lǐng)域,還需要針對自然語義理解方面收集更多的語料庫和數(shù)據(jù)集進一步的迭代,這是聲智科技今年重點的發(fā)力方向。
同時常樂預(yù)判,未來的人機交互,也將實現(xiàn)更加多傳感融合的多模態(tài)人機交互手段,使可交互信息的理解度和可靠性更高,會是融合交互將成為人類和機器相互學(xué)習(xí)的關(guān)鍵手段。這也是聲智科技下一步優(yōu)化迭代的方向。
從長遠來看,能快速把技術(shù)落地應(yīng)用到相應(yīng)業(yè)務(wù)領(lǐng)域,得益于聲智科技團隊的落地能力和營銷能力。在常樂看來,初期已有聲學(xué)技術(shù)儲備到逐步建立了多模態(tài)交互技術(shù),能達到這一技術(shù)壁壘的企業(yè)在國內(nèi)寥寥可數(shù)。
聲智科技現(xiàn)有客戶數(shù)約500家,包括華為、小米、百度、騰訊、阿里巴巴、中國移動、中國聯(lián)通、中央人民廣播電臺、聯(lián)想、創(chuàng)維、寶潔、萬科、奇虎360、金蝶、浪潮、國美、堅果等企業(yè)。常樂提到,成立初期國內(nèi)市場的相關(guān)需求特別強烈,聲智科技占據(jù)了先發(fā)優(yōu)勢,前期的種子客戶也都是互聯(lián)網(wǎng)巨頭公司,像小米的首臺智能音箱、奇虎360打造的第一款具有語音交互功能的安防攝像頭、阿里天貓精靈魔盒都應(yīng)用了聲智科技的技術(shù)。
據(jù)悉,聲智科技現(xiàn)有商業(yè)模式主要圍繞軟件授權(quán),芯片、模組和整體產(chǎn)品方案,以及服務(wù)費。去年銷售額達3億元,已在上海、蘇州、青島等地落地分公司。
2016年獲得由洪泰基金領(lǐng)投,峰瑞資本跟投的1600萬人元民幣Pre-A輪融資;
2017年獲得由洪泰基金、百度、藍港互動等投資的近億元A輪融資;
2018年12月,聲智科技已完成2億元人民幣B輪融資,由毅達資本領(lǐng)投,峰瑞資本、正居資本跟投, 中關(guān)村銀行、InnoVen Capital聯(lián)合參與。