文/姜姝姝
創(chuàng)業(yè)五年,他憑什么召喚Pandora神技?
文/姜姝姝
看創(chuàng)業(yè)公司CEO的微信朋友圈往往是一件有趣的事情,不時有雞湯,不時有抱怨和自嘲,剩下的還有做宣傳的。人工智能公司云知聲的CEO黃偉就是這樣的典型代表,用零碎的感受真實(shí)地反映了創(chuàng)業(yè)一路的體驗(yàn),盡管他還時不時發(fā)出感慨“作為CEO,最大的缺點(diǎn)是不會裝,需要突破?!?/p>
和互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的時代不一樣,AI門檻比較高,技術(shù)發(fā)展和數(shù)據(jù)需要長期積累,才能由量變到質(zhì)變。從行業(yè)細(xì)分來看,云知聲的市場份額僅次于“校友”——上市公司科大訊飛,但作為中國科技大學(xué)創(chuàng)業(yè)軍的師弟,黃偉是如何在五年時間內(nèi)加速成長,早于師兄們推出Pandora語音中控完整技術(shù)方案。如同陸奇在百度喊出口號:開發(fā)者成功,百度就成功。黃偉和云知聲也將這五年的技術(shù)積累,交付給了行業(yè)和合作伙伴,智能解決方案可幫助合作伙伴實(shí)現(xiàn)6個月快速集成、量產(chǎn)出貨,各種類似Amazon Echo的智能化產(chǎn)品將落地加速。在采訪、研究和長期的跟蹤中,機(jī)器人圈總結(jié)出四點(diǎn)優(yōu)勢:
云知聲是一個團(tuán)隊(duì)在戰(zhàn)斗,黃偉曾經(jīng)說,“股東之間、同事之間、兄弟之間,唯有信任不可動搖?!眲?chuàng)業(yè),志同道合者才能在一起。從云知聲的核心團(tuán)隊(duì)來看,算是技術(shù)男的同盟。其中,黃偉畢業(yè)于中國科技大學(xué),博士主攻方向就是當(dāng)年冷門的“神經(jīng)網(wǎng)絡(luò)”,不過還算幸運(yùn)的是他畢業(yè)后進(jìn)入了摩托羅拉,能找到和他研究方向匹配的工作,在那里他帶隊(duì)開發(fā)出世界上首個手機(jī)聲紋認(rèn)證系統(tǒng),并完成多項(xiàng)語音交互產(chǎn)品研發(fā)。但在金融危機(jī)期間,摩托羅拉將整個語音識別團(tuán)隊(duì)出售給Nuance。從語音巨頭Nuance離開的黃偉,于2009年7月加入盛大網(wǎng)絡(luò)旗下的創(chuàng)新院,當(dāng)年的盛大創(chuàng)新院可謂是個傳奇,牛人聚集,包括云知聲的CTO梁家恩。
“我在中科院呆了10 年,其中讀書工作各5年,技術(shù)研究很透徹。后來去盛大研究院呆了1年,對我影響很大。”梁家恩說,在這里他懂得了用戶體驗(yàn),互聯(lián)網(wǎng)的精神,還接觸了資本市場,大開眼界。“很多技術(shù)不好甚至沒有技術(shù)的,都玩得風(fēng)生水起,我自信那里技術(shù)沒有比我高的?!庇谑?,2012年6月由他牽頭成立了云知聲信息技術(shù)公司,專注于語音市場。
技術(shù)牛是云知聲的標(biāo)簽,如何證明呢?首先是搜狗找到他們,搜狗語音助手當(dāng)時面臨科大訊飛和云知聲兩個選擇,二者性能不相上下,但是云知聲在處理器的速度上更快,而且更靈活、高效,小團(tuán)隊(duì)執(zhí)行力很強(qiáng),2012年11月云知聲正式與搜狗語音助手合作,為其提供語音識別服務(wù)。
2013年老羅做錘子手機(jī)的時候也想加入語音控制,梁家恩便拿著方案去錘子公司了。隨后便有了錘子發(fā)布會上云知聲的亮相,由于老羅關(guān)注度很高,那次發(fā)布會讓云知聲名氣漲了不少。
一步一步,語音領(lǐng)域的黑馬崛起了。直到2017年6月,云知聲成立的五周年之際,拿出了Pandora。
智能中控和音箱類產(chǎn)品是個“硬骨頭”,從產(chǎn)品概念的提出到最終量產(chǎn)出貨,中間涉及語音識別、語音喚醒、語義理解、用戶畫像、聲學(xué)等綜合技術(shù),同時,聲學(xué)、結(jié)構(gòu)、麥克風(fēng)陣列等因素又互相關(guān)聯(lián)互相影響。復(fù)雜的AI技術(shù)元素和環(huán)節(jié)讓大部分智能中控的產(chǎn)品化之路步履維艱,但是云知聲做到了,而且還有志于幫其他企業(yè)實(shí)現(xiàn)。
Pandora是什么?智能中控解決方案,關(guān)于支撐“Pandora”的核心AI技術(shù),黃偉試圖通過描述各種情況下的交互過程予以解釋:用戶喚醒詞話音剛落,設(shè)備就能快速給出應(yīng)答,反應(yīng)速度<0.3秒;哪怕用戶有口音,或者在5到10米的地方遠(yuǎn)距離發(fā)出指令,設(shè)備依然能夠準(zhǔn)確識別并回復(fù);當(dāng)用戶處在嘈雜的環(huán)境,并且在長時間沒有交互的情況下,設(shè)備離線低功耗的特性可節(jié)省用電量,并以趨于零的低誤喚醒率保持穩(wěn)定狀態(tài);當(dāng)然,用戶也可以與設(shè)備保持多輪對話,并在交互中隨時打斷,設(shè)備都可以靈活應(yīng)對,實(shí)現(xiàn)行云流水般順暢的流式交互。
當(dāng)設(shè)備實(shí)現(xiàn)了自由感知后,不僅能進(jìn)行自然語言交互,還能實(shí)現(xiàn)知性會話:有知識、能決策、可自學(xué)習(xí);隨著與用戶交互的持續(xù)深入,設(shè)備還能通過聲音定位用戶屬性,繪制用戶畫像,針對不同用戶需求提供個性化服務(wù);從而根據(jù)用戶畫像,利用多音色高音質(zhì)語音合成技術(shù),為用戶推薦喜歡的合成聲音。
從產(chǎn)品形態(tài)上來說,智能音箱或許只是過渡產(chǎn)品,但是用自然語言喚醒的智能解決方案還能以機(jī)器人及車載、家居中控等各種百變身份,最終成為日常生活中的智能管家、娛樂玩伴和生活助理。
從解決方案本身來說,仍然是云知聲一貫的“云端芯”戰(zhàn)略。和其他同行不一樣,云知聲一直有著“芯”的情節(jié),2015年云知聲正式推出了AI芯,當(dāng)年云知聲自主研發(fā)的“AI芯”就在汽車導(dǎo)航的后裝市場達(dá)到了60%的份額。而且AI芯受到了智能家電領(lǐng)域的熱捧。
為什么是“AI芯”,而不是APP或者其他?黃偉認(rèn)為:“未來所有智能都是從芯片端發(fā)起的,而且芯一定是和云連接在一起的?!甭曇舻闹悄苓M(jìn)化使得用戶可以通過語音交互更智能的操控終端設(shè)備,而終端設(shè)備的智能進(jìn)化讓云知聲通過語音云大數(shù)據(jù)看見聲音背后的價(jià)值。
單機(jī)智能絕不是黃偉和云知聲的終極目標(biāo),云知聲將憑借深厚的技術(shù)積累以及在醫(yī)療、教育等專業(yè)垂直領(lǐng)域豐富的實(shí)踐經(jīng)驗(yàn),在未來逐漸將更多專業(yè)的服務(wù)引入“Pandora”方案,使得基于“Pandora”的產(chǎn)品不僅可以是生活助理,也可以是家庭醫(yī)生、法律專家、家庭教師。
垂直領(lǐng)域的場景,對云知聲一直不是難題,它既是白色家電領(lǐng)域唯一規(guī)模量產(chǎn)的芯片供應(yīng)商,也是國內(nèi)首家醫(yī)療云服務(wù)供應(yīng)商;在中國后裝車載市場語音方案占有率達(dá)到60%、語音公有云日調(diào)用量2億次、教育云社會化口語測評服務(wù)市場占有率穩(wěn)居第一……
以上這些場景,沒有一個是可以不費(fèi)力氣就拿下的。以醫(yī)療為例,一直以來,病歷備案、影像數(shù)據(jù)及醫(yī)療報(bào)告等信息錄入都是醫(yī)生的重要工作職責(zé)。國內(nèi)某著名三甲醫(yī)院影像科數(shù)據(jù)顯示,影像科40個大夫每天共處理超過1000份報(bào)告,平均每人每天錄入大約30份報(bào)告,需要耗用3小時,錄入報(bào)告的時間相當(dāng)于一個醫(yī)生每天38%的工作時間。如何將醫(yī)生從繁瑣的信息錄入工作中解放出來,成為亟須解決的問題。
今年5月,云知聲面向醫(yī)學(xué)影像領(lǐng)域提供了??苹悄苷Z音方案,由三部分組成:醫(yī)療語音識別引擎、語音錄入終端及醫(yī)療專業(yè)設(shè)備,為各大醫(yī)院主管領(lǐng)導(dǎo)及醫(yī)學(xué)影像專家獻(xiàn)上良策。
拿出這個方案之前,云知聲已經(jīng)與協(xié)和醫(yī)院、北京大學(xué)人民醫(yī)院、青島大學(xué)附屬醫(yī)院以及浙江省臺州醫(yī)院等三十多家國內(nèi)知名三甲醫(yī)院達(dá)成合作,經(jīng)實(shí)地調(diào)研,云知聲從收集到的上千份調(diào)查問卷中分析得出數(shù)據(jù):約90%以上醫(yī)生認(rèn)為語音識別準(zhǔn)確率超過95%,達(dá)到可用水平;約48%醫(yī)生認(rèn)為語音錄入系統(tǒng)每天可節(jié)省1小時以上時間;約47%醫(yī)生希望立即使用語音錄入系統(tǒng)。
天下武功,唯快不破。如果說云知聲有什么獨(dú)家秘笈,那么第一條便是:快。
做產(chǎn)品快:
語音識別、語義技術(shù)本是一個長期的工程,但對在該行業(yè)研究了10 年的技術(shù)專家們來說,卻是“會者不難”,2012年成立后不久,“云知聲”語音識別公有云就發(fā)布了,成為國內(nèi)繼“科大訊飛”之后第二家語音云。
而被搜狗“相中”的另一大原因就是快,云知聲從與搜狗首次接觸到達(dá)成合作最終發(fā)布產(chǎn)品只花了兩周時間。老羅做錘子手機(jī)時最初找的是科大訊飛,但找了 2 個月對方?jīng)]拿出任何東西,于是老羅發(fā)了一條抱怨的微博,有人把這條微博 @梁家恩,梁家恩便在老羅微博里評論“云知聲力挺老羅”,結(jié)果當(dāng)天晚上,云知聲的 CTO 便拿著方案去錘子公司了。
融資快:
2012年,人工智能還遠(yuǎn)遠(yuǎn)沒有今天的普及程度,不只是普通大眾,連投資人對于AI還知之甚少。但是云知聲在拿到千萬元級別的天使投資之前,只做了3個月。時間進(jìn)入到2013年4月初云知聲開始正式接觸各路投資人,敲定億元A輪融資僅花了三個月時間,10月,云知聲正式對外確認(rèn)完成啟明創(chuàng)投的A輪融資,金額達(dá)1億元人民幣。當(dāng)然,創(chuàng)立不到500天就能快速打動投資人融到1億元人民幣,與技術(shù)、方向兩個關(guān)鍵詞有直接關(guān)系,“投資人的邏輯很簡單,時機(jī)、趨勢、團(tuán)隊(duì),這三點(diǎn)我們都符合?!绷杭叶髟偨Y(jié)。
自然交互,是機(jī)器時代的起點(diǎn),云知聲顯然踩準(zhǔn)了這個點(diǎn),而且在這條路上快速前進(jìn)。2017年,被認(rèn)為是對話式人工智能的元年,人類開始與機(jī)器自然共處,我們可以很欣慰在這個重要的轉(zhuǎn)折點(diǎn)上,有類似云知聲這樣的中國企業(yè)不屬于國外巨頭,發(fā)出了自己的聲音。我們一同盼望機(jī)器時代的到來,感受從聲音出發(fā)帶給我們的種種驚喜。
姜姝姝 本刊副總編輯