韓昱
大數(shù)據(jù)的流水線徹夜未停。
2016年11月12日,周六,數(shù)據(jù)工程師關(guān)錚錚通宵之后仍未合眼。并非“雙十一”剁手,而是在調(diào)取整個(gè)“雙十一”的銷售數(shù)據(jù)。
他要趕出一篇數(shù)據(jù)報(bào)告。
關(guān)錚錚所在環(huán)節(jié)之前,數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)建模,每一步都有所謂的數(shù)據(jù)工程師坐在電腦前復(fù)制粘貼,或是敲著代碼。一秒鐘17萬(wàn)個(gè)電商訂單在線上堆積,就像一團(tuán)亂麻,他們將這些麻線搬運(yùn)、篩選、橫豎擺置,織成一張張PPT畫布。
亂麻需快刀斬。在整個(gè)大數(shù)據(jù)流水線中,AI扮演著快刀角色,它以更高的效率輔助數(shù)據(jù)工程師;也在飛速的成長(zhǎng)中,慢慢“侵襲”這群人。
云端機(jī)會(huì)
數(shù)據(jù)即資產(chǎn),這已是共識(shí)。到2020年,我國(guó)大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù)業(yè)務(wù)收入將突破10 000億元,年復(fù)合增長(zhǎng)率保持在30%左右。
數(shù)據(jù)工程師稀缺性凸顯。
關(guān)錚錚負(fù)責(zé)數(shù)據(jù)鏈條最后一個(gè)環(huán)節(jié),從數(shù)據(jù)的變化得出結(jié)論。由于客戶都是企業(yè),所以得有專業(yè)的觀點(diǎn)。“跟我原來(lái)的工作很像,都是整合數(shù)據(jù)和已有經(jīng)驗(yàn)提出結(jié)論和建議”。2015年,他踩著大數(shù)據(jù)風(fēng)口,從咨詢公司跳槽而來(lái)。
AI打敗了咨詢公司里關(guān)錚錚的上游,填單子、做調(diào)研等工作已不需要投入大量人力。大數(shù)據(jù)公司里,關(guān)錚錚的上游是誰(shuí)?數(shù)據(jù)清理工程師、數(shù)據(jù)架構(gòu)師、算法工程師……
“工程師”的名號(hào)似乎很有優(yōu)越感,實(shí)際上他們就像銷售公司里的“經(jīng)理”。Jawbone數(shù)據(jù)科學(xué)副總裁Monica Rogati曾介紹,大部分?jǐn)?shù)據(jù)工程師的工作極其枯燥乏味,他們80%的時(shí)間都是大數(shù)據(jù)苦工。
初始數(shù)據(jù)庫(kù)的生成,就像把原材料篩選出來(lái),拼裝成了一個(gè)個(gè)零部組件,這由數(shù)據(jù)清理工程師完成;挖掘數(shù)據(jù)的規(guī)律、價(jià)值,讓數(shù)據(jù)按照既有的邏輯得出想要的結(jié)果,由數(shù)據(jù)架構(gòu)師和算法工程師操作;得出數(shù)據(jù)產(chǎn)品,分析背后的原因,關(guān)錚錚便屬于這個(gè)工種。這部分直接用到的數(shù)據(jù)部分不多,但要依托于數(shù)據(jù)呈現(xiàn)的結(jié)果。
簡(jiǎn)單重復(fù)、機(jī)械乏味,數(shù)據(jù)工程師就像富士康工人各司其職。但他們清楚,每一個(gè)環(huán)節(jié)里,人成為了領(lǐng)導(dǎo),AI還不能夠自主做事。
因此他們依舊稀缺。關(guān)錚錚的領(lǐng)導(dǎo)每年畢業(yè)季都要跑到北京、上海、西安等高校聚集的城市,市面上成熟的數(shù)據(jù)工程師奇缺,他只能把手伸到上游生源。
清華大數(shù)據(jù)產(chǎn)業(yè)聯(lián)合會(huì)的秘書長(zhǎng)王霞曾講到,清華大數(shù)據(jù)相關(guān)專業(yè)的畢業(yè)生供不應(yīng)求,還沒(méi)畢業(yè)都已被企業(yè)預(yù)定完畢。
身價(jià)背后
大華,是這一個(gè)行業(yè)崛起的受益者。
從最開(kāi)始月薪7 000元的畢業(yè)生,到現(xiàn)在月薪超過(guò)20 000元的算法工程師,他只用了兩年?!拔磥?lái)一定會(huì)越來(lái)越好,你翻翻百度、今日頭條這些公司的招聘,大數(shù)據(jù)相關(guān)的工程師起薪至少50 000元,這還只是一線工作人員?!绷钠鹱约哼@部分工作,大華充滿信心。
雖然對(duì)收入沒(méi)有這么大的預(yù)期,但關(guān)錚錚同樣很滿意現(xiàn)在的狀態(tài)。他很愿意接納現(xiàn)有的AI輔助,為了時(shí)效趕報(bào)告,AI幫他省去了不少簡(jiǎn)單卻繁多的工作。
關(guān)錚錚入行快10年,最初做咨詢研究時(shí),支撐分析的數(shù)據(jù)報(bào)表需要研究員用Excel去刷,“Excel已經(jīng)是相對(duì)很智能的工具了,那個(gè)時(shí)候Excel最多可以處理65 536條數(shù)據(jù),后來(lái)可以升級(jí)到10萬(wàn)條,但都不及現(xiàn)在?!?/p>
那時(shí),關(guān)錚錚為了得出一個(gè)數(shù)據(jù)報(bào)表,需要在Excel里填寫不同的公式。簡(jiǎn)單報(bào)表得要一天才能完成,復(fù)雜些的就要耗上好幾天。而今,這些數(shù)據(jù)報(bào)表都是前端的IT人員做出來(lái)的,跑報(bào)表也不用手動(dòng)操作,“機(jī)器自動(dòng)完成,原來(lái)辛苦一天才能做出一個(gè)報(bào)表,現(xiàn)在機(jī)器一天就可以完成幾千份。”
但欣喜背后同樣有不為人知的辛苦。
數(shù)據(jù)清理師王姐頭痛的是,沒(méi)完沒(méi)了地給數(shù)據(jù)補(bǔ)屬性。
王姐主要負(fù)責(zé)商品數(shù)據(jù)的清洗工作,原始數(shù)據(jù)都需要包含商品的品牌、價(jià)格,以及相關(guān)的性能等標(biāo)簽。少一個(gè)標(biāo)簽都有可能在入庫(kù)以后出錯(cuò),嚴(yán)重時(shí)會(huì)影響產(chǎn)品的最終呈現(xiàn)。
最開(kāi)始,這些補(bǔ)碼的工作完全是由人工完成的,每個(gè)人從早到晚盯著拉不到底的Excel填空,時(shí)間稍長(zhǎng)特別容易看串行,所以數(shù)據(jù)的初審復(fù)審等質(zhì)檢工作非常重要。
隨著非結(jié)構(gòu)化數(shù)據(jù)類型的增加、數(shù)據(jù)量幾何型增長(zhǎng)以及數(shù)據(jù)計(jì)算邏輯越發(fā)復(fù)雜,在原有IT系統(tǒng)里,要完成全部數(shù)據(jù)處理工作幾乎是不可能完成的。
現(xiàn)在,初級(jí)的補(bǔ)碼工作開(kāi)始由AI來(lái)代替,但是人工還是不能省掉?!皺C(jī)器畢竟還比較機(jī)械化,它只會(huì)在固定的位置補(bǔ)標(biāo)簽,如果原始數(shù)據(jù)串行,機(jī)器同樣會(huì)發(fā)生錯(cuò)誤,人工就會(huì)比機(jī)器考慮得更為全面些?!?/p>
他們習(xí)慣于將我們認(rèn)為的AI,稱為“機(jī)器”。
誰(shuí)占上風(fēng)
雖然會(huì)嘗試引入AI替代人工,但在王姐看來(lái),現(xiàn)在的AI還太初級(jí),數(shù)據(jù)的清洗不只是補(bǔ)補(bǔ)碼,貼貼漏掉的標(biāo)簽?zāi)敲春?jiǎn)單。生成原始的數(shù)據(jù)庫(kù)需要一定的邏輯在里邊:哪些標(biāo)簽需要加進(jìn)來(lái)?哪些標(biāo)簽的權(quán)重更高?根據(jù)市場(chǎng)的變化,標(biāo)簽的性質(zhì)、權(quán)重又都需要調(diào)整,即便有被AI替代的可能,也是重復(fù)、機(jī)械性的那部分,完全替代還需要時(shí)間。
“AI還太初級(jí)”,王姐道出了真諦。弱AI只能執(zhí)行簡(jiǎn)單任務(wù),強(qiáng)AI才能夠達(dá)到與人類持平的智能水平。但王姐沒(méi)有想到,強(qiáng)AI會(huì)在未來(lái)20~30年實(shí)現(xiàn),已經(jīng)成為行業(yè)的共識(shí)。
目前來(lái)看,大華最不容易被替代。
數(shù)據(jù)工程師進(jìn)到算法和建模階段,幾乎都需要與具體業(yè)務(wù)場(chǎng)景關(guān)的,然后通過(guò)算法模型和編程,完成數(shù)據(jù)產(chǎn)品從初級(jí)階段到成品的加工。
大華對(duì)于“AI能替代他”的觀點(diǎn)感到驚訝。大華認(rèn)為,大數(shù)據(jù)就是通過(guò)算法和模型,在多源多維的數(shù)據(jù)中建立關(guān)聯(lián)并挖掘其中的規(guī)律,并通過(guò)分布式技術(shù),讓系統(tǒng)的數(shù)據(jù)存儲(chǔ)和計(jì)算能力大幅提高。目前公司的AI程序編寫,大華也有參與,“你說(shuō)我編出來(lái)的一個(gè)程序,回頭把我替代了?”
人們?cè)谡`解AI??拼笥嶏w的語(yǔ)音識(shí)別系統(tǒng)是AI,載著李彥宏闖入五環(huán)的無(wú)人駕駛汽車是AI,海爾在AWE上推出的物聯(lián)網(wǎng)是AI,那么富士康的機(jī)械手是AI嗎?
都是。通過(guò)大量數(shù)據(jù)輸入,不停息的機(jī)器學(xué)習(xí),AI正在變得越來(lái)越智能。數(shù)據(jù)是AI的營(yíng)養(yǎng)池,所以在互聯(lián)網(wǎng)、金融等產(chǎn)生海量數(shù)據(jù)的行業(yè)里,AI吸食數(shù)據(jù),并搶奪工作機(jī)會(huì)。
關(guān)錚錚組裝數(shù)據(jù),并將之形成產(chǎn)品。AI可以比他做更好看的PPT,可以比他懂更多的行業(yè)知識(shí),更可以神速般分析數(shù)據(jù)。AI可能取代他嗎?他同樣自信地覺(jué)得能常駐與此。
取代或是不取代,我們不得而知。AI正在以每天學(xué)習(xí)30 000套棋譜的速度追趕人類,我們以怎樣的心態(tài)與行動(dòng)去迎接,才是最有意義的話題。
北京東四環(huán),華燈初上。往北30公里,富士康工人已做好交接班,開(kāi)始2元/次的KTV,4元/次的電影,或是10元/次的按摩。關(guān)錚錚所在大數(shù)據(jù)公司燈火通明,外賣和泡面的味道在樓層亂竄。
鍵盤噠噠響動(dòng)。endprint