譚婧
人類正從IT走向DT(DataTechnology),這是個(gè)大背景。
企業(yè)處在數(shù)據(jù)產(chǎn)品和AI產(chǎn)品的紅海,想活命就必須手持一本《AI避坑逃生指南》。
個(gè)人處在競(jìng)爭(zhēng)與內(nèi)卷的浪潮,數(shù)據(jù)思維和工具是護(hù)身符。
在上海市徐匯區(qū)虹漕路77號(hào)C8,我見(jiàn)到了和鯨科技創(chuàng)始人范向偉與首席產(chǎn)品官殷自強(qiáng)。這是一家擁有近15萬(wàn)注冊(cè)數(shù)據(jù)科學(xué)家社區(qū)的公司,同時(shí)也是在數(shù)據(jù)科學(xué)的江湖里無(wú)論如何也不會(huì)錯(cuò)過(guò)的公司。
我們?cè)?jīng)從2017年就開(kāi)始“聊天”。
這次只是,無(wú)數(shù)次中的一次。
只是這次,忠實(shí)地做了記錄。
出發(fā)時(shí),和鯨只是一家被稱作“對(duì)標(biāo)谷歌Kaggle”的公司。到如今,和鯨是一家“走通”從競(jìng)賽到社區(qū),再到產(chǎn)品的公司。在中國(guó),乃至全球,這條路,都是獨(dú)一無(wú)二的。
彼時(shí),美國(guó)有,中國(guó)抄。
那一輪,投資人拿和鯨和Kaggle做中美對(duì)標(biāo),數(shù)據(jù)競(jìng)賽玩家拿“中國(guó)版Kaggle”指代和鯨。
Kaggle是什么?是全球最大的數(shù)據(jù)科學(xué)技術(shù)分享社區(qū)(在線分享代碼、項(xiàng)目和數(shù)據(jù)集等),創(chuàng)立于2010年?!癒aggle大神”是數(shù)據(jù)科學(xué)競(jìng)賽界頂禮膜拜的江湖稱謂,可見(jiàn)其地位之顯赫。
2017年,Kaggle被谷歌收購(gòu),宣布收購(gòu)消息是彼時(shí)谷歌云首席科學(xué)家李飛飛。消息漂洋過(guò)海,范向偉耳邊都是:“賣(mài)給BAT,財(cái)富就自由”。
范向偉不想“賣(mài)”公司,因?yàn)樗婚_(kāi)始就沒(méi)有“抄”。辦競(jìng)賽、搭平臺(tái)、建社區(qū)、出產(chǎn)品,全套拳法,天人合一。
到今天,真相大白了。因?yàn)闆](méi)得抄了,反而能看出來(lái)誰(shuí)在踏踏實(shí)實(shí)做數(shù)據(jù)科學(xué)的產(chǎn)品。
既然不被收購(gòu),那接下來(lái),路在何方?這個(gè)問(wèn)題,范向偉這幾年應(yīng)該被問(wèn)了無(wú)數(shù)次。當(dāng)年,有人說(shuō)Kaggle可以推出SaaS產(chǎn)品,因?yàn)樽プ×艘蝗邯?dú)特的、技術(shù)含量極高的、小眾的群體。這群人的需求,比中情局的情報(bào)還珍貴。
四年過(guò)去了,Kaggle始終沒(méi)有邁出這一步。被誤稱為“中國(guó)版Kaggle”的公司卻做到了。SaaS產(chǎn)品“數(shù)據(jù)科學(xué)云端協(xié)作工具”,并非誕生美國(guó)硅谷車(chē)庫(kù),而誕生在中國(guó)人自己的數(shù)據(jù)科學(xué)社區(qū)。
如果它有口號(hào)的話,估計(jì)會(huì)和熊貓、雪豹、金絲猴“撞稿”:“我們誕生在中國(guó)?!北藭r(shí),數(shù)據(jù)化浪潮開(kāi)天劈地,數(shù)據(jù)競(jìng)賽風(fēng)起云涌,范向偉從上海交通大學(xué)統(tǒng)計(jì)系的教室里緩步走出。他并不熱心于完成碩士學(xué)業(yè),而是心心念念數(shù)據(jù)競(jìng)賽。興趣是最好的開(kāi)始,而同行者最是惺惺相惜。社區(qū)就是吸鐵石,把同類人“吸”在一起。
數(shù)據(jù)競(jìng)賽社區(qū)高手云集,人氣高,思路廣,不乏大量活躍者,貢獻(xiàn)算法、案例、數(shù)據(jù)集,吸引更多數(shù)據(jù)人才,武林高手齊聚光明頂,圍攻“挑戰(zhàn)性數(shù)據(jù)問(wèn)題”。
數(shù)據(jù)競(jìng)賽社區(qū)中國(guó)不止一家,阿里巴巴、百度都有,是不是論規(guī)模,定輸贏?范向偉的答案是否定的。
和鯨不只是數(shù)據(jù)競(jìng)賽舉辦方。別人僅僅是辦一場(chǎng)活動(dòng),和鯨團(tuán)隊(duì)則在打磨產(chǎn)品——先做競(jìng)賽系統(tǒng),再把整個(gè)競(jìng)賽系統(tǒng)SaaS化。他們做到了從人力運(yùn)營(yíng)轉(zhuǎn)換到競(jìng)賽產(chǎn)品。
范向偉說(shuō):“多年前,比賽客戶就開(kāi)始自辦比賽了,我們只提供競(jìng)賽產(chǎn)品。比如華東師范大學(xué),就是用和鯨的比賽系統(tǒng)直接辦比賽?!毖莼c進(jìn)化都是悄然發(fā)生的。
歌手唱:《想愛(ài)誰(shuí)你就去愛(ài)誰(shuí)》,范向偉說(shuō):“想辦競(jìng)賽你就去辦競(jìng)賽”,下半句是:“給你工具就行了?!?/p>
中國(guó)移動(dòng)、中國(guó)電信、南方電網(wǎng)、中華醫(yī)學(xué)會(huì)、鵬城實(shí)驗(yàn)室、北京醫(yī)保局都來(lái)找和鯨辦數(shù)據(jù)競(jìng)賽,范向偉拿出產(chǎn)品——數(shù)據(jù)競(jìng)賽管理平臺(tái)。一面辦比賽,一面產(chǎn)品化。這是一件很有趣的事兒。
數(shù)據(jù)競(jìng)賽不崇尚孤膽英雄,團(tuán)隊(duì)作戰(zhàn)更為常見(jiàn)。一起寫(xiě)代碼,讓“協(xié)作”成為參賽選手的剛需。從那時(shí)開(kāi)始,像種子一樣的“協(xié)作”產(chǎn)品理念,已經(jīng)發(fā)芽了。數(shù)據(jù)競(jìng)賽系統(tǒng)突出競(jìng)賽,數(shù)據(jù)科學(xué)云端協(xié)作工具突出協(xié)同,兩個(gè)產(chǎn)品的底層模塊有共同之處。
首席產(chǎn)品官殷自強(qiáng)說(shuō):“SaaS化是因?yàn)橛凶ナ郑覀儾庞袡C(jī)會(huì)摸索產(chǎn)品化的道路?!焙亡L社區(qū)打磨產(chǎn)品的方法是獨(dú)一無(wú)二的,類似開(kāi)源軟件的方法論,千手捉蟲(chóng)(bug)快,和真實(shí)需求的距離最近。
“有多近?”“和鯨團(tuán)隊(duì)的辦公室,是距離中國(guó)數(shù)據(jù)科學(xué)競(jìng)賽比賽現(xiàn)場(chǎng)最近的地方。”打磨,是SaaS產(chǎn)品的必由之路。
殷自強(qiáng)說(shuō):“數(shù)據(jù)競(jìng)賽的價(jià)值是什么?這個(gè)問(wèn)題我們思考了五年,這五年來(lái),我們辦了100多場(chǎng)比賽,100個(gè)不同的場(chǎng)景,100家不同的機(jī)構(gòu),處理100個(gè)人工智能需求,100個(gè)機(jī)器學(xué)習(xí)需求,共性在哪?”
“直接給到客戶的,相當(dāng)于為客戶做定制開(kāi)發(fā)。某一模塊可能只是客戶唯一需求。對(duì)于高速迭代的工具平臺(tái),這種先定制開(kāi)發(fā),再產(chǎn)品化的模式會(huì)遇到很大的挑戰(zhàn)。”殷自強(qiáng)說(shuō)。
“和鯨的做法是,某個(gè)產(chǎn)品模塊上新,讓社區(qū)先使用?!鄙鐓^(qū),是和鯨得天獨(dú)厚的寶地,是孫悟空的花果山,是哪咤的陳塘關(guān)。“比賽結(jié)束,一切都結(jié)束了,那是活動(dòng)營(yíng)銷(xiāo)公司的生意?!币笞詮?qiáng)補(bǔ)充說(shuō)。
這時(shí)候,有人質(zhì)疑,是不是和鯨的產(chǎn)品,只用于數(shù)據(jù)競(jìng)賽?答案并不是。
產(chǎn)品要在場(chǎng)景無(wú)數(shù)次驗(yàn)證大規(guī)模的需求,數(shù)據(jù)競(jìng)賽就是這樣的場(chǎng)景,證明產(chǎn)品是可以支撐千人同時(shí)在線編程。若論同時(shí)使用產(chǎn)品的人數(shù),一家普通公司不可能比社區(qū)里的人多。
所以,和鯨的產(chǎn)品對(duì)客戶的服務(wù),變成了降維滿足客戶需求。和鯨社區(qū)里的各色需求都被提煉成產(chǎn)品的迭代需求。這既是一種“折磨”,也是一種“幸福”。折磨受得越多,產(chǎn)品越成熟。很多時(shí)候,在和鯨辦公室里看見(jiàn)研發(fā)團(tuán)隊(duì)誰(shuí)的神情最焦灼,那人便是殷自強(qiáng)。
但是他說(shuō)這句話的時(shí)候充滿自信心:“從來(lái)沒(méi)有碰到過(guò)哪個(gè)公司的并發(fā),把我們給卡住了。”
數(shù)據(jù)與AI的發(fā)展既強(qiáng)勢(shì),又混沌。做數(shù)據(jù)和AI產(chǎn)品要對(duì)主流技術(shù)趨勢(shì)敏感,有判斷力。用范向偉的話說(shuō)就是:“數(shù)據(jù)科學(xué)已經(jīng)發(fā)展到第三階段(3.0),數(shù)據(jù)類型、基礎(chǔ)設(shè)施、分析工具和工程任務(wù)中的行為,發(fā)生巨大變化?!?/p>
一個(gè)軟件版本用N年的時(shí)代,已經(jīng)一去不復(fù)返了。殷自強(qiáng)自問(wèn)自答:“快速擴(kuò)容是一個(gè)里程碑。10臺(tái)變成100臺(tái),1000臺(tái)變成10000臺(tái),這種變化不能影響服務(wù)。支持大規(guī)模工程的能力,業(yè)界遲早要有,且大家都會(huì)去選最好的。這件事情,為什么不是我們來(lái)做?”當(dāng)K8s剛出1.0版本的時(shí)候,CTO和技術(shù)團(tuán)隊(duì)敏銳地關(guān)注了。
第一,發(fā)現(xiàn)大廠都選K8s,主流的大廠進(jìn)來(lái),需求迅速變成現(xiàn)實(shí)。第二,K8s表現(xiàn)強(qiáng)勢(shì),剛出來(lái)的時(shí)候還有一個(gè)叫Swarm的一套技術(shù),也能解決彈性控制的問(wèn)題,但還是被K8s快速淘汰掉了。第三,K8s是開(kāi)源的。人工智能界的好東西,很多都開(kāi)源了。
判斷結(jié)論有了:K8s有優(yōu)勢(shì),會(huì)帶來(lái)一波變化,那就抓住它。產(chǎn)品好是一個(gè)大概念,有很多“訣竅”是外行人難以察覺(jué)的。
江湖有一種迷信,似乎只要算法高超,就勝券在握。但是,傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法各有優(yōu)勢(shì),各有用途。
大規(guī)模深度學(xué)習(xí)已是貴族游戲了,只有工業(yè)界的頭部大公司才可以承受,鯉魚(yú)躍龍門(mén)般的高門(mén)檻限制了創(chuàng)新探索和整體發(fā)展。比起深度學(xué)習(xí),數(shù)據(jù)分析“身價(jià)平平”。
但是,江湖有云,欲練上乘劍法,不限招式多寡?!兑刑焱例堄洝樊?dāng)中,孤鴻子和楊逍比武,楊逍奪走孤鴻子的倚天劍又扔還。殺傷力不大,侮辱性極強(qiáng)。
楊逍拿著劍冷笑道:“倚天劍,好大的名氣!在我眼中,卻如廢銅廢鐵一般!”孤鴻子對(duì)兵器盲目迷信。楊逍就不信這個(gè)邪。
算法和產(chǎn)品都是工具,工具的存在,是為了解決問(wèn)題。在“解決問(wèn)題”這個(gè)終極任務(wù)面前,人的智慧極為重要,不能過(guò)分夸大工具的威力。
范向偉說(shuō):“我們判斷數(shù)據(jù)分析的場(chǎng)景價(jià)值更大一些,或者是說(shuō),要做AI,首先要從數(shù)據(jù)分析起步。單獨(dú)看技術(shù)難度,數(shù)據(jù)分析肯定簡(jiǎn)單,但是不能說(shuō)價(jià)值低,要做好數(shù)據(jù)分析,一樣充滿挑戰(zhàn),需要發(fā)掘人的價(jià)值、解決人的問(wèn)題?!?/p>
倚天劍不能擊敗所有對(duì)手,深度學(xué)習(xí)也不能。范向偉認(rèn)為,在企業(yè)中,最難處理的問(wèn)題,永遠(yuǎn)是人的問(wèn)題。他堅(jiān)信,人是一切問(wèn)題的根源,也是一切辦法的支點(diǎn)。
所以,當(dāng)和鯨團(tuán)隊(duì)意識(shí)到這個(gè)問(wèn)題的重要性的時(shí)候,產(chǎn)品邏輯了然于胸——數(shù)據(jù)科學(xué)云端協(xié)作工具,也就是和鯨的ModelWhale。他說(shuō):“數(shù)據(jù)科學(xué)家彼此之間的協(xié)同,是權(quán)利責(zé)任、資源分配、分工協(xié)同、過(guò)程追蹤、成果整合的問(wèn)題。產(chǎn)品定位,立足于此?!?/p>
“人才和管理,是數(shù)據(jù)產(chǎn)品和AI產(chǎn)品落地過(guò)程中隱形大坑?!边@句話應(yīng)該寫(xiě)在《AI避坑逃生指南》的第一頁(yè)。
明槍易躲,暗坑難防。近幾年,最知名的數(shù)據(jù)產(chǎn)品,莫過(guò)于數(shù)據(jù)中臺(tái)。一個(gè)數(shù)據(jù)中臺(tái)的實(shí)施與落地,牽扯企業(yè)組織變革、資源變革、流程變革……一場(chǎng)變革尚且窮盡其力,如此多的變革,讓一款產(chǎn)品,難負(fù)其重。這是數(shù)字化改革的“深水區(qū)”,觸動(dòng)了很多人的深層次利益。
某公司中層干部的內(nèi)心獨(dú)白是:“我們部門(mén)的私有數(shù)據(jù),是私有資產(chǎn),為啥要和隔壁部門(mén)共享。年終獎(jiǎng)拱手讓人嘛?”數(shù)據(jù)工具的先進(jìn)性,并不能解決人類思維的慣性。
產(chǎn)品邏輯的背后,是產(chǎn)品理念、企業(yè)的理念,以及創(chuàng)始團(tuán)隊(duì)的信仰。數(shù)據(jù)協(xié)作工具這一類型的產(chǎn)品猛地聽(tīng)起來(lái),并不容易理解。而范向偉則認(rèn)為這是最好的“工具”。
“數(shù)據(jù)思維”狠狠告別“原始年代”,也是個(gè)體的必然選擇。培訓(xùn)拯救不了焦慮,數(shù)據(jù)科學(xué)唯有從動(dòng)手開(kāi)始。
殷自強(qiáng)說(shuō):“我們也在做拖拉拽系統(tǒng),降低門(mén)檻,降低畏懼情緒?!?/p>
“同時(shí),也思考用戶快速搭建分析框架(框架包括,觀察數(shù)據(jù)分布、提取特征、測(cè)試模型、評(píng)估效果),完善代碼,并調(diào)整成能提高模型準(zhǔn)確率和業(yè)務(wù)相關(guān)性的成果(報(bào)告或模型)?!遍T(mén)檻的高度是一個(gè)比較值,不是一個(gè)絕對(duì)值。自2017年起,范向偉就一直拿學(xué)英語(yǔ)這件事情打比方。他說(shuō):“七八十年代,國(guó)民整體英語(yǔ)水平偏低,英語(yǔ)翻譯很吃香。近十年,英語(yǔ)普及得較好,英語(yǔ)能力不再是一種稀缺能力?!?/p>
以前,學(xué)英語(yǔ)。如今,學(xué)數(shù)據(jù)科學(xué)。
范向偉也談到了5年以來(lái)的觀察:“5年前,用戶絕大多數(shù)是計(jì)算機(jī)專業(yè)背景,因?yàn)榫幊淌乔瞄T(mén)磚?,F(xiàn)在,很多社會(huì)科學(xué)學(xué)院、大氣科學(xué)學(xué)院、商學(xué)院、醫(yī)學(xué)院背景的人已經(jīng)離不開(kāi)數(shù)據(jù)科學(xué)的工具了。”這個(gè)變化,符合幾年前他的判斷。他說(shuō):“我們跟隨行業(yè)的腳步,很多人在社區(qū)里成長(zhǎng),努力培養(yǎng)數(shù)據(jù)思維,學(xué)以致用。和鯨團(tuán)隊(duì)不相信,只靠類似AI全家桶的產(chǎn)品,就能解決產(chǎn)業(yè)里無(wú)法窮盡的問(wèn)題。”
將視野放寬到行業(yè),那些做數(shù)據(jù)科學(xué)產(chǎn)品與AI產(chǎn)品的中國(guó)SaaS廠商,幫客戶把算法都搞定了,變成一個(gè)普通業(yè)務(wù)員工能去用的工具。
范向偉認(rèn)為:這是過(guò)度“封裝”,容易陷入局部最優(yōu)的陷阱,長(zhǎng)期看來(lái),難以迭代,拓展和復(fù)用。企業(yè)業(yè)務(wù)是動(dòng)態(tài)變化的,數(shù)據(jù)的用法是動(dòng)態(tài)變化的。有,且只有:業(yè)務(wù)員越具備數(shù)據(jù)思維的時(shí)候,越利用得好數(shù)據(jù),才會(huì)把數(shù)據(jù)的價(jià)值滲透到毛細(xì)血管級(jí)別的場(chǎng)景里面去。
《AI避坑逃生指南》認(rèn)為:定位數(shù)據(jù)與人工智能類的企業(yè)級(jí)產(chǎn)品,有兩個(gè)大坑。首先是,工具類的產(chǎn)品都是賦能千行百業(yè)的,石油、電力、交通等,大多數(shù)情況下創(chuàng)業(yè)者自己不是核心用戶,你滿足的是別人的需求,無(wú)法得知客戶的真實(shí)需求,容易踏進(jìn)主觀臆斷的坑。其次是,訂單合同金額較高,碰到大的項(xiàng)目,客戶必定有定制化的需求,標(biāo)準(zhǔn)化產(chǎn)品賣(mài)不進(jìn)去。屈從定制,團(tuán)隊(duì)和人力就搭進(jìn)去了,容易踏進(jìn)人力資源外包公司的坑。
如今的和鯨是國(guó)家氣象信息中心國(guó)家級(jí)工程——?dú)庀蟠髷?shù)據(jù)云平臺(tái)(“天擎”)數(shù)據(jù)挖掘分析系統(tǒng)支撐方。和鯨做了哪些準(zhǔn)備?第一,洞悉了客戶需求的“水晶球”,第二,做到了產(chǎn)品通用性的厚積薄發(fā)。