文‖《上海國資》記者 金琳
陳運文:只要有足夠的數(shù)據(jù),這個世界沒有偶然
文‖《上海國資》記者 金琳
他為公司新入職的同事下發(fā)了一套題,如何預測泰坦尼克號上的幸存者
在絕大多數(shù)人尚未聽說過大數(shù)據(jù)這個名字的時候,陳運文就已經浸淫其中。如今大數(shù)據(jù)如火如荼,離職創(chuàng)業(yè)對于他來說是一件水到渠成的事情。良好的教育和職業(yè)背景使陳運文創(chuàng)辦的達觀數(shù)據(jù)在張江高科“895創(chuàng)業(yè)營”中脫穎而出。
著名投資人巴菲特曾經說,對投資高科技行業(yè)不感興趣,因為這個行業(yè)變化太快,競爭激烈,難以把握。對此,陳運文則自信地表示,大數(shù)據(jù)領域競爭相對較少,自己的團隊一直處于技術研發(fā)一線,這是別人難以逾越的核心競爭力。
正因為此,“達觀數(shù)據(jù)科技”成立短短幾個月,就獲得了來自真格基金領投的1000萬人民幣天使輪融資,眾米資本和掌門科技集團跟投。
數(shù)據(jù)應用已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產因素。
達觀數(shù)據(jù)抓住潮流。
2008年獲得復旦大學計算機博士學位的陳運文有著讓旁人羨慕的履歷,畢業(yè)后的第一份工作就是百度核心技術研發(fā)工程師,后進入盛大創(chuàng)新院擔任大數(shù)據(jù)團隊負責人,成為盛大文學、騰訊文學首席數(shù)據(jù)官。
“在復旦掌握了學術界前沿的數(shù)據(jù)挖掘技術,在百度是從學術界進入產業(yè)界,理論轉化為實踐。在盛大開拓了視野,結識了很多互聯(lián)網(wǎng)各個方向的精英。在騰訊鍛煉和提升了團隊管理能力。每一份經歷都是一次收獲,不過最難忘的還是盛大研究院?!标愡\文說。
陳運文一直對盛大網(wǎng)絡心存感激,他告訴記者,“盛大網(wǎng)絡放手讓技術人員去探索,讓我們去參加競賽”。正是這種敢于投入,敢于涉足前沿研究的魄力,讓陳運文成為國內第一批接觸大數(shù)據(jù)領域的人。
陳運文與盛大網(wǎng)絡結緣于2010年。那一年,還在北京百度工作的陳運文在一次聚會上結識了當時的盛大創(chuàng)新院一位副院長,他向陳運文介紹了盛大創(chuàng)新院的規(guī)劃:既要進行創(chuàng)新項目的孵化,又可以結合盛大內部的應用需求來做一些有意思的工作。那時盛大正處于巔峰狀態(tài),盛大游戲一騎絕塵,管理層希望在其他領域有所拓展,據(jù)說盛大創(chuàng)新院最初是要模仿普林斯頓大學高級研究院,在這種思路下,盛大以業(yè)內一流的薪水,從全國各地招聘了很多一流的互聯(lián)網(wǎng)人才。陳運文是江蘇人,去百度工作之前,他在復旦計算機系攻讀了碩士和博士,盛大網(wǎng)絡描繪的藍圖讓有意向回上海發(fā)展的陳運文非常心動。很快,他就接到了邀請加入盛大創(chuàng)新院的電話。
陳運文說,創(chuàng)新院聚集了各行各業(yè)的技術牛人,沒有經營壓力,沒有KPI考核,沒有部門之間的隔閡,有的是腦洞大開和激情四射。“有想法的人都有很強的內在驅動力?!痹朴嬎?、多媒體、大數(shù)據(jù)……,那些當時聽上去有點兒玄的技術,現(xiàn)在都成了最熱的名詞。
創(chuàng)新院的氛圍讓陳運文感觸頗深?!皠?chuàng)新院有兩項獨特的制度,一個是技術分享會,每周開一次講座,大牛們輪流上陣,有助于大家開闊眼界。另一個制度是項目評審會,如果有好的想法可以提出,大家?guī)兔Τ鲋饕?,不同意的可以‘拍磚’。”這些制度看起來平等、民主、公開。陳運文說,創(chuàng)新院總是鼓勵大家去試一試,志同道合的幾位小伙伴很容易就聚在一起把點子實現(xiàn)出來,例如現(xiàn)在用戶規(guī)模達7個億的Wi-Fi萬能鑰匙當時也只是創(chuàng)新院里一個初創(chuàng)的項目。
在盛大創(chuàng)新院,陳運文負責大數(shù)據(jù)研究。在創(chuàng)新院寬松的氛圍下,2011年,陳運文所在的大數(shù)據(jù)團隊開發(fā)出了一套個性化的推薦系統(tǒng),這個系統(tǒng)涵蓋了獲取新聞、深度分析、用戶個性化口味的建模和精準推薦等一系列服務。
值得一提的是,因為在盛大大數(shù)據(jù)挖掘方面的優(yōu)異成績,他作為隊長代表創(chuàng)新院參加了各項國際比賽,在國際計算機學會的大數(shù)據(jù)挖掘競賽中,拿到過國際亞軍,創(chuàng)下中國大陸企業(yè)參賽的歷史最好成績。在2012年倫敦大數(shù)據(jù)黑客馬拉松大賽和2013年ACMCIKM舉辦的國際數(shù)據(jù)挖掘競賽中,他又連奪兩個冠軍,并受到盛大集團最高層的親自嘉獎。如今,這些獎狀被擺放在陳運文辦公室的顯眼位置。讓陳運文記憶最深刻的是2012年在倫敦舉辦的EMI數(shù)據(jù)黑客競賽,“我們對500萬聽歌用戶的數(shù)據(jù)進行了挖掘,開發(fā)了系統(tǒng)分析用戶偏好模型,形成了500萬個預測模型,從數(shù)十萬首曲庫中預測每個用戶最有可能接下來收聽的歌曲,精度超過了其他300支參賽隊獲得了冠軍。競賽過程中我們和劍橋大學代表隊的算法交替領先,在競賽截止前1分鐘才最終鎖定勝局”。
“聚是一團火,散是滿天星?!北M管最后盛大創(chuàng)新院解散了,但是陳運文認為,“這是創(chuàng)業(yè)人才的黃埔軍?!薄j愡\文說,盛大創(chuàng)新院走出去的團隊在上海創(chuàng)業(yè)圈形成了巨大的影響。
在盛大創(chuàng)新院解散后,陳運文和他的團隊加入了盛大文學,擔任首席數(shù)據(jù)官。
在盛大文學,他開發(fā)了針對文本的自動審核系統(tǒng),搭建了文學搜索引擎和推薦系統(tǒng)。正是有了這些系統(tǒng),讀者才能從浩瀚的書籍中找到自己想看的內容。盛大文學被騰訊并購后,陳運文又加入騰訊擔任數(shù)據(jù)中心的負責人。他領銜開發(fā)的這些系統(tǒng)還在繼續(xù)沿用。
2015年年底,陳運文和他的團隊正式創(chuàng)業(yè),很順利地拿到了投資,天使輪一共融到了1000萬元。公司業(yè)務主要面向企業(yè),已與多家企業(yè)建立了合作關系,幫助企業(yè)挖掘大數(shù)據(jù),并與一些媒體展開合作,開發(fā)了針對讀者的個性化推薦系統(tǒng)。公司還服務兩萬多家新媒體,推出了新媒體大數(shù)據(jù)排行榜。
大數(shù)據(jù)產業(yè)鏈大致可分為上游大數(shù)據(jù)資源、中游大數(shù)據(jù)儲存與分析以及下游大數(shù)據(jù)應用三個環(huán)節(jié)。其中,數(shù)據(jù)資源是大數(shù)據(jù)發(fā)展的基礎和前提,目前主要掌握在政府部門、國有企業(yè)以及BAT等大型互聯(lián)網(wǎng)公司手中。數(shù)據(jù)加工、處理、流通以及應用是實現(xiàn)數(shù)據(jù)價值的終點和驅動力,也是陳運文等創(chuàng)業(yè)企業(yè)大展身手的戰(zhàn)場。
達觀數(shù)據(jù)人才濟濟,陳運文任CEO,CTO紀達麒是原騰訊文學數(shù)據(jù)中心高級研究員、搜狗廣告系統(tǒng)架構師;COO馮佳妮是原盛大云計算公司運營總監(jiān);首席科學家段如冰也是原盛大創(chuàng)新院資深研究員,美國南加州大學博士后……不過,在創(chuàng)辦公司的過程中,陳運文覺得最大的困難是尋找人才。“應聘者一般希望選擇大的平臺,我們希望招到大數(shù)據(jù)領域最好的工程師,最有潛力的畢業(yè)生,就要做好說服工作?!标愡\文說,公司通過提供有競爭力的薪酬,小而美的特色來吸引人才?!拔覀儠o員工提供全面的鍛煉機會?!?/p>
關于大數(shù)據(jù),陳運文的理解是,數(shù)據(jù)要落地,產生價值,才是真正有用的大數(shù)據(jù)應用?!斑@里的落地,既可以是對歷史數(shù)據(jù)的總結,生成報表,更可以是對未來數(shù)據(jù)的預測,并提供自動化的服務。達觀數(shù)據(jù)就在這些落地的方向深耕?!彼麑τ浾哒f,“通過大數(shù)據(jù),很多事情都是可以預測的?!?/p>
他為公司新入職的同事下發(fā)了一套題——如何預測泰坦尼克號上的幸存者。整套題通過獲取泰坦尼克號上所有乘客的真實信息,包括性別、年齡、職業(yè)、票價、艙位等,然后編寫程序來預測這2000余名乘員中哪些人最終得以生還。
在陳運文眼里,將所有信息加以綜合挖掘,就能夠推演出最終的答案——“705名生還者都可以準確預測。”
預測這樣的事件只是數(shù)據(jù)挖掘的一個案例,對于極客而言,只要給他們足夠的信息,這個世界就沒有意外和偶然。
現(xiàn)在,陳運文用自己的技術幫助企業(yè)進行商業(yè)決策。陳運文將第一批客戶瞄準為自媒體人,通過數(shù)據(jù)分析,為自媒體提供可以引發(fā)熱議的話題,并告訴這些作者,什么人喜愛看他們的文章、會關注什么話題。讓機器自己學會分析信息早就在商業(yè)行為中廣泛存在。在百度工作期間,陳運文負責搜索引擎的核心算法研究,主要“為用戶提供最有價值的信息”。工作的難點不在于搜索信息,而在于讓機器認知用戶的搜索意圖。
用戶經常會在搜索框中輸入“口語詞匯或者模糊的語句”,服務器要從人們的搜索語句中判斷真正的需求。陳運文就需要設計算法讓搜索引擎理解用戶的語義,從數(shù)百億的網(wǎng)頁中迅速找到對用戶最有價值的結果。這種“算法”就屬于人工智能。百度每天的搜索有數(shù)十億次,每當陳運文改進了算法都能看到用戶點擊的滿意度在上升。
達觀數(shù)據(jù)已經形成了清晰的商業(yè)模式,按照數(shù)據(jù)規(guī)模、模塊功能、使用時長收取技術服務費。公司在創(chuàng)立四個月后已經實現(xiàn)盈虧平衡,計劃在今年下半年起在全國擴大銷售和市場規(guī)模。
達觀數(shù)據(jù)利用在推薦系統(tǒng)和機器學習等領域的技術優(yōu)勢,專注于為企業(yè)提供大數(shù)據(jù)挖掘服務,服務對象不僅有目前活躍的新媒體行業(yè),也包括電商、金融、傳統(tǒng)企業(yè)等。在895創(chuàng)業(yè)營的培養(yǎng)下,達觀數(shù)據(jù)快速成長,現(xiàn)已針對電商、新媒體和服務企業(yè)開發(fā)了多個大數(shù)據(jù)解決方案,其提供的大數(shù)據(jù)預測、搜索引擎、個性化推薦等產品服務能夠幫助客戶更好地提升點擊率,實現(xiàn)廣告營銷。
陳運文說:“我們面向這些企業(yè)的收費是階梯性設置的,根據(jù)用戶的數(shù)據(jù)規(guī)模、調用接口的數(shù)量和頻次等指標來定價。”而他們服務過的企業(yè),除了可提供已經開通使用的功能,還會根據(jù)所采集的反饋數(shù)據(jù),持續(xù)優(yōu)化系統(tǒng)。
“雖然我們現(xiàn)在還是一個很小的公司,但目標遠大。希望未來大家討論大數(shù)據(jù)的時候,都能想到‘達觀’。我覺得這樣我們就成功了?!敝袊ヂ?lián)網(wǎng)都會以國際上成功的企業(yè)為范本,達觀也是如此,達觀對標的是一家美國大數(shù)據(jù)服務公司Taboola,這家公司通過幫助發(fā)行商網(wǎng)站提升流量并通過廣告盈利,發(fā)展極為迅速,已成為僅次于Google的北美第二大流量公司。
陳運文的耐心和親和力讓人印象深刻。他認為,老板的親和力能讓團隊更有“韌性”,尤其逆境的時候大家能沉得住氣,能一起團隊起來想辦法?!拔蚁M约耗苌硐仁孔?,讓員工打心眼里佩服我、信任我,愿意跟著我一起堅持到底?!?/p>
回顧創(chuàng)業(yè)來的歷程。他說:“事實上,大數(shù)據(jù)應用的需求很多,出發(fā)之前你會發(fā)現(xiàn)這個領域很多條路都能走。但你其實不知道哪條路能走到終點。”陳運文一直很和緩的語氣忽然加重了點,“但我們會沿著現(xiàn)在的路堅定走下去?!?/p>