網(wǎng)易杭研院汪源:十余年大數(shù)據(jù)凝結(jié)成“網(wǎng)易云”
作為國內(nèi)最早誕生的互聯(lián)網(wǎng)公司之一,網(wǎng)易在過去十余年的產(chǎn)品研發(fā)、孵化和運維過程中,各個部門對數(shù)據(jù)有著不同且繁雜的需求。為了把這些繁雜的需求用統(tǒng)一的手段來解決,網(wǎng)易在大數(shù)據(jù)分析方面進行了十余年的探索,并自2015年開始通過“網(wǎng)易云”推出了一系列面向B端企業(yè)客戶的云服務(wù)產(chǎn)品。
“如何梳理數(shù)據(jù)、處理數(shù)據(jù)、提高數(shù)據(jù)分析的效率,這是網(wǎng)易一直思考的問題。”為此,汪源將網(wǎng)易大數(shù)據(jù)分析之路劃分為初步階段、起步階段和整合階段。
在2008年以前的初步階段中,網(wǎng)易和國內(nèi)的大部分公司一樣,使用傳統(tǒng)的方法進行數(shù)據(jù)統(tǒng)計。2009和2010這兩年,可以說是網(wǎng)易在大數(shù)據(jù)分析上的“初體驗”年,當(dāng)然,這也與網(wǎng)易及國內(nèi)整體互聯(lián)網(wǎng)行業(yè)的快速發(fā)展密切相關(guān)。汪源介紹,正是因為無法簡單面對海量的業(yè)務(wù)數(shù)據(jù),網(wǎng)易開始嘗試引入Hadoop等成熟的開源技術(shù)來解決數(shù)據(jù)存儲和計算的瓶頸。
從2011年開始,針對在前一階段中數(shù)據(jù)格式不規(guī)范、產(chǎn)品接入成本高、計算任務(wù)不穩(wěn)定等突出問題,網(wǎng)易開始走上大數(shù)據(jù)分析的整合階段,其中最顯著的變化便是整合、規(guī)范各類采集機制、指標(biāo)體系等,將數(shù)據(jù)分析“工具化”,以適應(yīng)產(chǎn)品、設(shè)計、運營和市場等不同場景。
在經(jīng)歷全面整合的階段之后,“盡管已經(jīng)將數(shù)據(jù)分析進行‘工具化’應(yīng)用,網(wǎng)易的問題依舊無法全部解決,公司對于個性化的數(shù)據(jù)需求以及靈活的多維分析需求難以完全滿足,數(shù)據(jù)分析的‘平臺化’開始被提出,網(wǎng)易的大數(shù)據(jù)分析進入了全新的階段?!蓖粼凑f。
2014年以來,網(wǎng)易開始加速大數(shù)據(jù)分析的平臺化發(fā)展,以提高數(shù)據(jù)獲取速度,提升數(shù)據(jù)分析效率,更快發(fā)揮數(shù)據(jù)價值。“網(wǎng)易猛犸”與“網(wǎng)易有數(shù)”兩大數(shù)據(jù)分析平臺就是在這個階段逐漸成型的。
對于很多企業(yè)而言,大數(shù)據(jù)雖然看起來很美,卻又面臨著數(shù)據(jù)孤立,需求反饋周期長的問題。網(wǎng)易猛犸大數(shù)據(jù)平臺可以實現(xiàn)從各種不同數(shù)據(jù)源提取數(shù)據(jù),同步到內(nèi)核存儲系統(tǒng),同時對外提供便捷的操作體驗。據(jù)悉,現(xiàn)在每天約有130億條數(shù)據(jù)進入網(wǎng)易猛犸平臺,經(jīng)過數(shù)據(jù)建模和清洗,進行數(shù)據(jù)分析預(yù)測。
網(wǎng)易的另一大數(shù)據(jù)分析平臺“網(wǎng)易有數(shù)”則可以極大地簡化數(shù)據(jù)探索,提高數(shù)據(jù)可視化方面的效率,提供靈活報表制作等,幫助分析師專注于自己的工作內(nèi)容。此外,網(wǎng)易有數(shù)在二維空間通過綜合運用分區(qū)塊、顏色、大小等標(biāo)識,展示多維數(shù)據(jù),推動數(shù)據(jù)文化落地,有
利于管理層和業(yè)務(wù)人員的自助分析。
汪源對網(wǎng)易未來大數(shù)據(jù)平臺進行了展望。他認(rèn)為,從網(wǎng)易大數(shù)據(jù)分析發(fā)展歷程的第三階段開始,抽象數(shù)據(jù)的層次已經(jīng)很高。進入第四個階段,網(wǎng)易希望能夠開發(fā)出更基礎(chǔ)的大數(shù)據(jù)處理平臺。
大數(shù)據(jù)分析面臨著各種挑戰(zhàn),既有集成、計算和分析等老問題,同時也有新的挑戰(zhàn),諸如數(shù)據(jù)量多樣性、數(shù)據(jù)類型多樣性、需求多樣性等。面對這些問題,汪源對網(wǎng)易大數(shù)據(jù)分析平臺未來的解決方案做了設(shè)想:“回歸到計算機軟硬件設(shè)計的基礎(chǔ),各類計算機應(yīng)用場景,總線和組件的標(biāo)準(zhǔn)是統(tǒng)一的。從底層基礎(chǔ)開始,設(shè)計大數(shù)據(jù)平臺的數(shù)據(jù)集成、計算和分析,開發(fā)出融合大數(shù)據(jù)處理平臺,從而滿足未來遇到的各種個性化的數(shù)據(jù)分析需求。”
從網(wǎng)易大數(shù)據(jù)發(fā)展的歷程來看,基于杭州研究院10年的技術(shù)積累,網(wǎng)易已經(jīng)具備了成熟的互聯(lián)網(wǎng)產(chǎn)品技術(shù)體系,并且有力地支撐了網(wǎng)易云音樂、云課堂、易信、LOFTER、公開課等產(chǎn)品的發(fā)展。
汪源表示,網(wǎng)易云將會把這些能力開放出來,提供給更多的用戶使用。比如網(wǎng)易易盾作為網(wǎng)易云推出的極速智能反垃圾云服務(wù),其依托的便是網(wǎng)易的大數(shù)據(jù)和云計算服務(wù),提供文本過濾、圖片識別、語音分析、視頻檢測等服務(wù),幫助企業(yè)和開發(fā)者實現(xiàn)對垃圾有害信息的實時過濾、精準(zhǔn)攔截。
除了網(wǎng)易易盾,從去年開始,以網(wǎng)易技術(shù)服務(wù)能力的全面開放為初衷,網(wǎng)易云還陸續(xù)發(fā)布了網(wǎng)易云信(即時通訊云服務(wù))、網(wǎng)易七魚(全智能云客服)、網(wǎng)易視頻云、網(wǎng)易蜂巢(容器云)、網(wǎng)易云捕(質(zhì)量跟蹤平臺)一系列產(chǎn)品,并從研發(fā)云、運營云、運作云的角度對云服務(wù)進行了重新的劃分。不難想象,隨著網(wǎng)易在云計算、大數(shù)據(jù)等方面的研發(fā)積累日漸成熟,將會有更多樣的云服務(wù)出現(xiàn)。