王杰夫
康執(zhí)璽用鼠標從屏幕邊上拖來一些長方形的模塊,并把它們用線依次連接起來,一個人工智能機器學習的模型就做好了,前后用了不到一刻鐘。根據(jù)模型初始數(shù)據(jù)的不同,這個模型可以有不同的功能,例如識別信用卡詐騙,或是檢測垃圾郵件。
“如果沒有先知平臺,搭建一個識別信用卡詐騙模型可能需要花費數(shù)據(jù)團隊幾個月的時間,”康執(zhí)璽告訴《第一財經(jīng)周刊》,“普通技術(shù)員工經(jīng)過一個月的訓(xùn)練,差不多能熟練使用先知平臺上的模型?!笨祱?zhí)璽是第四范式先知平臺的產(chǎn)品負責人,為了讓普通技術(shù)人員也可以輕松搭建機器學習模型,他和團隊已經(jīng)不間斷工作了一年之久。
第四范式是一個提供AI機器學習模型的通用型平臺。該公司的算法工程團隊開發(fā)了一系列的基礎(chǔ)設(shè)施組件,以此組成了大規(guī)模分布式機器學習框架(General Distributed Brain Technology,GDBT)??祱?zhí)璽稱,未來兩年,普通技術(shù)人員可以在“先知平臺”上做出類似AlphaGo復(fù)雜度的人工智能,“這里面的難點不是AlphaGo本身,難點是如何讓普通人也可以做出AlphaGo”。
目前市面上比較流行的計算框架,例如Hadoop、Sparkd更適合執(zhí)行傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)(ETL)任務(wù)。而第四范式“先知平臺”的框架由C++語言編寫,可以在單機、MPI、Yarn、Mesos等多個分布式環(huán)境運行,例如很多企業(yè)在計算時所用的硬件資源并不相同,GDBT可以針對不同的硬件資源、不同的算法場景,就調(diào)度、計算模式、機器學習算法部件的抽象等做優(yōu)化。
成立兩年多來,第四范式相繼拿到紅杉資本和創(chuàng)新工場數(shù)千萬元人民幣的天使輪和A輪融資。雖然還沒實現(xiàn)自負盈虧,但是創(chuàng)始人戴文淵稱,公司已經(jīng)開始有了營收。
AI for Everyone,這既是第四范式的公司目標,也是戴文淵2014年決定從華為諾亞方舟實驗室離職創(chuàng)業(yè)的原因。在這之前,他最常問自己的問題是“人工智能要創(chuàng)造更大的價值,要通過什么方式去做”。
過去十幾年,人工智能在學術(shù)領(lǐng)域一直處于發(fā)展瓶頸期。直到2007年左右,還在讀碩士的戴文淵和一些同行感覺到機器學習在理論上取得了很大進展,這時候就需要海量數(shù)據(jù)來推動人工智能的發(fā)展。戴文淵認為,這個機會很可能發(fā)生在互聯(lián)網(wǎng)公司,于是2009年他進入百度工作,參與搭建百度鳳巢。這是一個全新的廣告銷售系統(tǒng),百度鳳巢系統(tǒng)背后的人工智能需要識別信息、廣告,以及智能地匹配不同的權(quán)重因素。
作為百度鳳巢的總架構(gòu)師,戴文淵需要當一個全才—不只要懂機器學習的原理,還要精通數(shù)學統(tǒng)計、編程、分布式計算,以及要有很強的架構(gòu)能力?!安粌H要設(shè)計算法,還要懂業(yè)務(wù)”,戴文淵為此專門用半年的時間學習網(wǎng)絡(luò)營銷,只有這樣才能明白人工智能可以應(yīng)用在哪些方面。百度鳳巢用了三四百人,花了三四年才做出來,投入的成本之大,甚至影響到了百度公司的業(yè)績,為此李彥宏還出面向股東做過解釋。不過,如今百度鳳巢已經(jīng)成為拉動百度利潤增長的核心,人工智能終于有了產(chǎn)業(yè)效果。
對于戴文淵來說,百度鳳巢的成功意味著AI for Someone已經(jīng)實現(xiàn),更關(guān)鍵的是,他從中看到了AI for Everyone的機會。但是讓人工智能服務(wù)每個技術(shù)人員的目標還有重重困難,當前,絕大多數(shù)的AI技術(shù)都集中在Google、Facebook、百度等互聯(lián)網(wǎng)公司巨頭手中,作為商業(yè)公司的它們不可能將AI核心技術(shù)完全開放出來。比如Google,雖然開源了深度學習系統(tǒng)TensorFlow,但是這套系統(tǒng)上手難度高,另一方面,與Google自家的服務(wù)深度綁定,對于不想依附Google的中小企業(yè)并不友好。
因此戴文淵認為,與其等待大公司的“施舍”,不如做一家人工智能的企業(yè)服務(wù)公司,專門為那些養(yǎng)不起大型AI團隊的公司提供AI服務(wù)。
在構(gòu)建百度鳳巢時,戴文淵開始嘗試簡化搭建機器學習模型的工程。工作之余,他動手寫了一堆機器學習的組件,并找來一個實習生,讓后者通過這些機器學習組件搭建一個全新的模型。短短一個月,這名實習生做出了一個機器學習的模型。這個結(jié)果讓戴文淵很振奮,如果一個實習生一個月就能做出來一個機器學習模型,那招來10個實習生,經(jīng)過培訓(xùn),一年就能服務(wù)120個客戶。事實上,這也成為第四范式最初的運作模式。
然而這種模式很快就遇到了問題。首先是人才的短缺,戴文淵意識到這相當于把人工智能公司做成勞動密集型公司,但人工智能的人才資源嚴重不足。另一方面,由于出售的產(chǎn)品是一套機器學習的模型,買家只能使用卻無法修改,一旦出了問題或者遇到需要調(diào)整的地方,還需要第四范式再次提供服務(wù)。
因此在最初階段,金融客戶只愿意把一些非核心的的項目外包給第四范式。對于大型金融機構(gòu)來說,風險控制是業(yè)務(wù)核心,交給第三方公司去做相當于命脈交到其他人手里,這是它們無法接受的。
了解到實際的客戶需求后,戴文淵意識到第四范式還是要做一個通用型平臺,“就像在賣建造機器學習模型的釘子和錘子”。在這種模式下,第四范式只負責提供機器學習的工具,工具用來做什么就與他們無關(guān)了。一個金融機構(gòu)購買先知平臺后開發(fā)了十幾套機器學習模型,至于有沒有用來開發(fā)風控模型這些核心產(chǎn)品,“這就是商業(yè)機密了,我們也不清楚”,戴文淵說。
雖然看起來產(chǎn)品形態(tài)更加簡單了,開發(fā)難度反而比之前大了好幾倍。從產(chǎn)品上看,釘子和錘子因為要給普通人用,所以耐用性要好,比如對于建模時所輸入的數(shù)據(jù)不能挑剔,即使數(shù)據(jù)有空缺、格式不對,也不可以宕機。從內(nèi)核上看,考慮到工具將來的迭代發(fā)展,底層代碼要從頭開始寫,原來戴文淵在百度鳳巢時寫的組件不夠用了。
在這之后,第四范式的算法工程團隊開發(fā)了一系列基礎(chǔ)設(shè)施組件,逐步搭建了一套大規(guī)模分布式機器學習框架GDBT?,F(xiàn)在,先知平臺已經(jīng)開發(fā)出2.0版本,無論建模還是評估,只要從應(yīng)用左側(cè)拖動相應(yīng)的組件并連接,就能完成計算,而且每套先知平臺都可以像Office工具一樣反復(fù)使用。不過,與傳統(tǒng)企業(yè)工具的銷售模式不同,不同版本的先知平臺根據(jù)所能調(diào)用的運算核心來定價,售價越高,所能調(diào)用的核心越多,建模時的數(shù)據(jù)處理能力也就越強。
金融業(yè)也是最符合人工智能應(yīng)用場景的領(lǐng)域。人工智能第一波商業(yè)化應(yīng)用就在華爾街的高頻交易上。戴文淵稱,全國性的股份制商業(yè)銀行已購買先知平臺。據(jù)第四范式提供的數(shù)據(jù),某家股份制商業(yè)銀行基于先知平臺搭建的交易分期服務(wù),40天內(nèi)交易分期的響應(yīng)率提升了68%。11月初結(jié)束的第三屆世界互聯(lián)網(wǎng)大會上,第四范式公布了先知平臺的公有云版本,戴文淵也離他設(shè)想的AI for Everyone更近了一步。目前,先知平臺業(yè)務(wù)的主要拓展方向仍然集中在金融領(lǐng)域。戴文淵表示,選擇金融作為切入口的直接原因就是數(shù)據(jù),一般來講,傳統(tǒng)企業(yè)比較忽視數(shù)據(jù)積累,而金融業(yè)的優(yōu)勢在于業(yè)務(wù)數(shù)據(jù)保存得很完整。對于機器學習模型來說,原始數(shù)據(jù)質(zhì)量越高、數(shù)量越大,建造出的模型就越好。