劉敏行
“大數(shù)據(jù)技術(shù)與應(yīng)用的產(chǎn)生發(fā)展,表明信息技術(shù)革命進(jìn)入了一個新的轉(zhuǎn)折點,數(shù)據(jù)資源真正與能源、材料等量齊觀,共同推動人類社會的進(jìn)步。更加廣泛深入的大數(shù)據(jù)應(yīng)用將出人意料的改變傳統(tǒng)產(chǎn)業(yè)[1]?!庇纱丝梢钥闯鰳I(yè)界共識:大數(shù)據(jù)的技術(shù)與應(yīng)用方興未艾,發(fā)展迅速。
雖然大數(shù)據(jù)在國內(nèi)還處于初級階段,但是商業(yè)價值已經(jīng)凸顯出來。手中握有數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;同時,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,引發(fā)眾多新的業(yè)態(tài)產(chǎn)生。
然而,我們知道,大數(shù)據(jù)的基本概念是通過快速獲取、處理、分析以從中提取具有價值的海量、多樣化的數(shù)據(jù),正如《大數(shù)據(jù)時代》一書中提到的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)[2]。從大數(shù)據(jù)產(chǎn)業(yè)的角度看,其產(chǎn)業(yè)鏈應(yīng)該包括大數(shù)據(jù)的采集與挖掘、組織與管理、分析與發(fā)現(xiàn)、應(yīng)用與服務(wù)等環(huán)節(jié)。因此無論是從大數(shù)據(jù)的概念還是從產(chǎn)業(yè)鏈的角度,我們都可以發(fā)現(xiàn),大數(shù)據(jù)的關(guān)鍵環(huán)節(jié)是巨量數(shù)據(jù)的采集與挖掘。數(shù)據(jù)采集與數(shù)據(jù)挖掘涉及眾多技術(shù)與方法,通過觀察與分析騰訊微信平臺功能的擴展,發(fā)現(xiàn)平臺化應(yīng)該是數(shù)據(jù)采集與挖掘的關(guān)鍵。
騰訊最近更新了微信5.2版本,打開新版微信,歡迎界面回顧了微信3周年的發(fā)展歷程,里面記錄了微信功能擴展的一個個里程碑——“語音聊天”、“搖一搖”、“朋友圈”、“飛機大戰(zhàn)”、“微信支付”等。從這些所謂里程碑的應(yīng)用擴展,可以管窺騰訊的大數(shù)據(jù)策略。很多人原以為微信只不過是加入語音的QQ,到后來發(fā)現(xiàn)微信迅速涉足了游戲、在線支付,以及依托春節(jié)推出“理財通”這個與淘寶的“支付寶”相抗衡的金融工具,人們才真正發(fā)現(xiàn),微信根本不是什么QQ的親兄弟,而是騰訊在不知不覺中構(gòu)建的一個大型社交生態(tài)平臺,這個平臺就是大數(shù)據(jù)平臺,依托這一平臺,騰訊才真正采集和挖掘了近5億用戶的相關(guān)數(shù)據(jù)。
眾所周知,平臺化的應(yīng)用對于數(shù)據(jù)收集十分方便。由于同處一個平臺上,各個分支模塊的數(shù)據(jù)一般會存在一臺相同的機器上,互相提取數(shù)據(jù)顯然比獨立時要方便許多,還能節(jié)省很多信息成本。比如,微信在沒有整合入游戲功能之前,騰訊要收集有關(guān)游戲方面的數(shù)據(jù),就不得不去尋求一些游戲應(yīng)用開發(fā)公司的支持。這一過程,公司不僅需要支付昂貴費用,而且所獲數(shù)據(jù)不一定準(zhǔn)確和適用。仍拿微信和游戲公司比較,游戲公司的主攻方向是怎么把游戲情節(jié)設(shè)計得更加吸引人,畫面做的更加炫酷、質(zhì)量更好,故很多數(shù)據(jù)都集中在有關(guān)游戲設(shè)計本身的各個參數(shù)上。但作為一個社交平臺的微信顯然更關(guān)心的是人們喜歡玩哪些類型的游戲、人們什么時候會玩游戲、人們一般花多少時間玩游戲等等這些偏用戶信息類的數(shù)據(jù),需求和取舍不同,有關(guān)數(shù)據(jù)的標(biāo)準(zhǔn)也不同;而如果將游戲應(yīng)用整合到一個平臺上來,那平臺管理團(tuán)隊就可以更具針對性的采集數(shù)據(jù)了,數(shù)據(jù)的可信度也就有了保證。
同時,平臺化有利于數(shù)據(jù)采集的標(biāo)準(zhǔn)化、規(guī)格化。因為來源于同一個平臺的數(shù)據(jù),存儲起來就可以是標(biāo)準(zhǔn)和規(guī)格的數(shù)據(jù)。這既方便數(shù)據(jù)的提取、檢索,更為重要的是,標(biāo)準(zhǔn)化、規(guī)格化的存儲格式給今后的數(shù)據(jù)挖掘效率帶來了保證。作者曾經(jīng)動手編寫過一項有關(guān)數(shù)據(jù)挖掘的程序,先編寫數(shù)據(jù)挖掘算法程序,然后讀入幾組“大數(shù)據(jù)”進(jìn)行正確性和效率的驗證。結(jié)果在算法設(shè)計及優(yōu)化上花的時間不多,倒是花在處理數(shù)據(jù)輸入上費了一番功夫,原因就是給的測試數(shù)據(jù)格式不確定——數(shù)據(jù)數(shù)值之間的空格數(shù)不定,有的數(shù)據(jù)每一行是以windows標(biāo)準(zhǔn)的’ ’結(jié)尾,有的卻以linux標(biāo)準(zhǔn)的’ ’結(jié)尾;驗證起來難度很大。有時候,可能程序運行的數(shù)據(jù)不是原始數(shù)據(jù),一開始就錯了,最終程序走不通。因此,如果數(shù)據(jù)本身是以一種比較標(biāo)準(zhǔn)的格式存儲的,甚至是用更高效率的數(shù)據(jù)結(jié)構(gòu)存儲的,這對于數(shù)據(jù)的挖掘應(yīng)用,就會更加高效和正確。
當(dāng)然,平臺化也給數(shù)據(jù)挖掘提供了新思路、新價值。[3]“大數(shù)據(jù)的核心是挖掘出龐大的數(shù)據(jù)庫中獨有的價值 ”,重點是要挖掘不同類數(shù)據(jù)之間潛在的聯(lián)系,即“交叉數(shù)據(jù)”的價值。微信平臺上有“滴滴打車”應(yīng)用,還有微信支付支持的電子商城和電影票購買業(yè)務(wù)?!暗蔚未蜍嚒睉?yīng)用可以獲取兩大關(guān)鍵數(shù)據(jù),即地點和時間。地點即使用打車應(yīng)用之前要告知的目的地,時間則是根據(jù)路況信息推算出乘客在出租車上大概花費的時間。有了地點,服務(wù)器可以馬上從平臺上搜尋與目的地距離較近的商城或電影院,然后根據(jù)乘客的乘車時間推送一定長度的優(yōu)惠促銷信息吸引用戶消費。這里,“滴滴打車”的數(shù)據(jù)分析結(jié)果對于商城銷售商品發(fā)揮了重要作用。另外,像微信這種社交平臺,對于游戲設(shè)置本身信息的關(guān)注可能不多,更關(guān)心的是反映用戶使用習(xí)慣的數(shù)據(jù),比如用戶每天在什么時候打開游戲,一般愿意花多長時間在游戲上。諸如這樣的數(shù)據(jù),表面上看反映的是用戶玩游戲的習(xí)慣,但思路再放開一點,游戲其實是一種放松娛樂的方式。加之,微信平臺設(shè)置的網(wǎng)游不像大型網(wǎng)游,只是一些小游戲,往往是人們無聊的時候隨手玩一兩局,玩游戲的時間反映了一個人感到無聊的時間。然而,人們無聊不一定只能玩游戲啊,可能也會愿意看一兩篇小文章、小短片來消遣。于是,騰訊大數(shù)據(jù)平臺可以借此在用戶無聊的時間里,推送一些小容量小的文章、圖片、視頻,甚至是小廣告,這樣游戲應(yīng)用的數(shù)據(jù)又產(chǎn)生了難以估量的商業(yè)價值。
當(dāng)然,騰訊具體如何挖掘數(shù)據(jù),作者沒有深入調(diào)查,但從微信平臺采集的數(shù)據(jù),騰訊完全可以做點大文章。馮小剛拍攝的《私人定制》上映后,結(jié)果“私人定制”很快成為一種很火的銷售方式,因為針對每個人特定條件、需求的精準(zhǔn)營銷,專為“私人定制”的商品和服務(wù)受到越來越多人的青睞。要想真正做得精準(zhǔn),更加“私人”化,關(guān)鍵在于私人數(shù)據(jù)的充分挖掘。而平臺化的應(yīng)用,有利于公司整合相關(guān)數(shù)據(jù),進(jìn)行更加深入、系統(tǒng)的挖掘與分析,從而使“私人定制”成為可能。作者猜想,騰訊未來一定會借助平臺化這一“大數(shù)據(jù)”挖掘利器,將更多、更廣的應(yīng)用整合到微信平臺上,比如說被常用來作為收集、分析數(shù)據(jù)的搜索和地圖工具,也許不久的將來,就會出現(xiàn)在手機的微信應(yīng)用里。
上述分析,足以說明,騰訊的微信平臺是其大數(shù)據(jù)戰(zhàn)略的重要支點。憑借這一支點,騰訊在大數(shù)據(jù)應(yīng)用方面必將走在國內(nèi)眾多機構(gòu)與企業(yè)的前頭。
其實,采用平臺化策略,推動大數(shù)據(jù)產(chǎn)業(yè)的不僅僅是騰訊;國外的facebook、twitter,以及我們熟悉的Google,實際上都是先構(gòu)建了一個大數(shù)據(jù)采集平臺,然后對海量數(shù)據(jù)進(jìn)行深入挖掘分析,最終形成大數(shù)據(jù)應(yīng)用的。
平臺化戰(zhàn)略就是數(shù)據(jù)整合以及標(biāo)準(zhǔn)和規(guī)范的戰(zhàn)略。大數(shù)據(jù)的前提是如何更好地整合巨量數(shù)據(jù),沒有巨量的數(shù)據(jù)資源,難以構(gòu)建大數(shù)據(jù)應(yīng)用,更難以形成大數(shù)據(jù)產(chǎn)業(yè)鏈。采集到了巨量數(shù)據(jù),如果沒有數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化,如果不能將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),如果不能方便快捷地挖掘出不同數(shù)據(jù)之間的關(guān)聯(lián)性,也難以實現(xiàn)真正的大數(shù)據(jù)應(yīng)用[4]。
由此,作者認(rèn)為,平臺化是大數(shù)據(jù)戰(zhàn)略實施的關(guān)鍵,有一個良好的數(shù)據(jù)整合平臺,才能真正構(gòu)建良好的大數(shù)據(jù)應(yīng)用。無疑,拓展大數(shù)據(jù)應(yīng)用,發(fā)展大數(shù)據(jù)產(chǎn)業(yè),首先要考慮的是構(gòu)建一個能夠?qū)崿F(xiàn)數(shù)據(jù)采集與挖掘的大數(shù)據(jù)平臺。
[1]《中國信息化》雜志2014年第1期第5頁
[2]麥肯錫研究報告:《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)率的前沿》,2011年5月發(fā)布。
[3]維克托.邁爾-舍恩伯格與肯尼恩.庫克耶,《大數(shù)據(jù)時代》,浙江人民出版社出版。
[4] 謝超,《大數(shù)據(jù)下的數(shù)據(jù)分析平臺架構(gòu)》,《程序員》雜志2011年第8期。