本刊記者 | 張鵬
在剛剛過(guò)去的2013年,以電商和互聯(lián)網(wǎng)企業(yè)為代表的IT先驅(qū)們不斷試水大數(shù)據(jù)業(yè)務(wù),電信、金融以及保險(xiǎn)等傳統(tǒng)行業(yè)也對(duì)大數(shù)據(jù)的發(fā)展前景予以充分肯定并積極布局;另一方面,那些從事數(shù)據(jù)庫(kù)、信息管理、數(shù)據(jù)分析與挖掘的IT服務(wù)提供商們不斷從旁搖旗吶喊,致使大數(shù)據(jù)保持了高頻率的媒體曝光度;甚至在資本市場(chǎng)中,那些具備大數(shù)據(jù)潛能的IT企業(yè)也被評(píng)為“績(jī)優(yōu)股”,相關(guān)的技術(shù)收購(gòu)和企業(yè)兼并也在緊鑼密鼓地進(jìn)行中。
不難看出,繼云計(jì)算在ICT領(lǐng)域大行其道之后,“大數(shù)據(jù)”接棒成為下一個(gè)炙手可熱的關(guān)鍵詞。許多未能在云計(jì)算“炒作期”內(nèi)聲名鵲起的企業(yè)都試圖加入大數(shù)據(jù)行列,希望借此掀開下一輪的行業(yè)風(fēng)潮,但問題是,大數(shù)據(jù)真的來(lái)了嗎?
答案似乎是令人失望的,無(wú)論從大數(shù)據(jù)的用戶需求、開放數(shù)據(jù)源、技術(shù)手段、商業(yè)模式還是法律法規(guī)方面來(lái)看,距離真正的商用都有很長(zhǎng)一段路要走。而這段必經(jīng)的過(guò)渡期并不會(huì)因大數(shù)據(jù)所蘊(yùn)藏的巨大能量而縮短,相反的,大數(shù)據(jù)的“落地之旅”還要等到業(yè)界對(duì)大數(shù)據(jù)的“熱炒”褪去,才會(huì)真正開始。
這一點(diǎn)在Gartner給出的大數(shù)據(jù)炒作周期模型(Hype Cycle for Big Data)中得到了充分印證。Gartner認(rèn)為,所有的新興技術(shù)概念都要經(jīng)歷“概念孕育期—泡沫炒作期—泡沫幻滅期—應(yīng)用發(fā)展期—成熟生產(chǎn)期”,大數(shù)據(jù)也不例外。而目前,大數(shù)據(jù)正處于“泡沫炒作期”且該趨勢(shì)還會(huì)繼續(xù)攀升,相比之下,云計(jì)算已經(jīng)度過(guò)了炒作期的最高峰,進(jìn)入到“泡沫幻滅期”的下坡階段。
Gartner研究總監(jiān)曾劭清告訴《通信世界》記者:“大數(shù)據(jù)只有進(jìn)入‘泡沫幻滅期’后,才會(huì)真正面對(duì)來(lái)自市場(chǎng)、用戶、技術(shù)以及應(yīng)用等方面的現(xiàn)實(shí)挑戰(zhàn)。而目前,那些‘大數(shù)據(jù)’的積極參與者們必須要面對(duì)技術(shù)未成熟、數(shù)據(jù)難統(tǒng)一、應(yīng)用粗放式以及法律未健全等一系列的待解難題?!?/p>
對(duì)于大數(shù)據(jù)的理解,業(yè)界往往存在兩種誤區(qū),其一認(rèn)為大數(shù)據(jù)即當(dāng)下與日俱增的網(wǎng)絡(luò)流量,基于互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)和數(shù)量的不斷攀升,每時(shí)每刻都在產(chǎn)生PB級(jí)的內(nèi)容信息和網(wǎng)絡(luò)信令,但其實(shí),這僅是“大數(shù)據(jù)”的一部分。
那些人與物、物與物的網(wǎng)絡(luò)互聯(lián)和信息交替為“大數(shù)據(jù)”奠定了數(shù)據(jù)基礎(chǔ),業(yè)界對(duì)于大數(shù)據(jù)的不斷重視更多的是源于物聯(lián)網(wǎng)的發(fā)展?;趥鞲芯W(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、視頻語(yǔ)音智能搜索系統(tǒng)產(chǎn)生了大量的商業(yè)模式和運(yùn)營(yíng)體系,相應(yīng)的移動(dòng)設(shè)備、追蹤器、射頻傳感等器件產(chǎn)品也開始大量涌現(xiàn),由此可能引發(fā)出的信息量將不可估計(jì)。
另一類誤解是,大數(shù)據(jù)的技術(shù)核心在于數(shù)據(jù)庫(kù)和分析挖掘工具,其實(shí)不然。所謂大數(shù)據(jù),是涵蓋了處理時(shí)效(Velocity)、數(shù)據(jù)格式(Variety)與數(shù)據(jù)量(Volume)三大類內(nèi)容,因此所需的技術(shù)也非單一,而是多種前沿技術(shù)的綜合體。除了處理常規(guī)的結(jié)構(gòu)化數(shù)據(jù),企業(yè)還需要對(duì)那些大量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行捕捉、收集、清洗、挖掘和分享等。
為此,Gartner羅列了近50種相關(guān)技術(shù),如基于Hadoop的SQL接口編程、面向電子商務(wù)的大數(shù)據(jù)分析能力等等,這些技術(shù)距離成熟可能還需要2到5年甚至10年的時(shí)間,而他們的成熟與否將直接決定大數(shù)據(jù)何時(shí)才能走出過(guò)渡階段。
“慶幸的是,我們已看到一些關(guān)鍵技術(shù)的成熟和部署速度在不斷加快,比如文本分析(Text Analytics)、內(nèi)存中分析(In-Memory Analytics)、智能電子裝置(Intelligent Electronic Devices)、社交媒體監(jiān)測(cè)(Social Media Monitors)、語(yǔ)音識(shí)別技術(shù)(Speech Recognition)等。這些技術(shù)的成熟將有效支撐大數(shù)據(jù)從前端采集到后端分析的完整技術(shù)鏈條?!痹壳蹇偙O(jiān)這樣表示。
技術(shù)是大數(shù)據(jù)的實(shí)現(xiàn)手段,而數(shù)據(jù)源則是根本基礎(chǔ)。按照中國(guó)工程院院士鄔賀銓的話說(shuō),大數(shù)據(jù)強(qiáng)調(diào)的不是數(shù)據(jù)而是挖掘,我國(guó)需要盡快制定“信息保護(hù)法”和“信息公開法”,既要鼓勵(lì)面向群體而且服務(wù)社會(huì)的數(shù)據(jù)挖掘,又要防止針對(duì)個(gè)體侵犯隱私的行為,提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。
事實(shí)也是如此,數(shù)據(jù)的公開化與合法化對(duì)于大數(shù)據(jù)產(chǎn)業(yè)生態(tài)起著至關(guān)重要的作用。在美國(guó),由于政府、公共、民生等行業(yè)早已將數(shù)據(jù)開放化,不僅數(shù)據(jù)免費(fèi)而且軟件代碼也開放源代碼,這使得大數(shù)據(jù)的應(yīng)用創(chuàng)新層出不窮。
FlyOnTime.us就是一家“讓數(shù)據(jù)說(shuō)話”的企業(yè)。該網(wǎng)站將歷史航班延誤時(shí)間的數(shù)據(jù)、美國(guó)聯(lián)邦公司航空管理局的機(jī)場(chǎng)信息以及美國(guó)國(guó)家海洋和大氣管理局的以往氣象報(bào)告和國(guó)家氣象服務(wù)的實(shí)時(shí)狀態(tài)聯(lián)合起來(lái),由此可以很準(zhǔn)確地判斷出惡劣環(huán)境下某一特定機(jī)場(chǎng)的航班延遲情況,用戶實(shí)現(xiàn)了航班的實(shí)時(shí)查詢、延遲判斷以及在平臺(tái)上進(jìn)行交互和反饋。
但在中國(guó),數(shù)據(jù)公開化和合法化還存在著太多挑戰(zhàn)。在合規(guī)性方面,我國(guó)至今尚沒有形成國(guó)家層面的有關(guān)數(shù)據(jù)共享的法律,只有相關(guān)的條文、法規(guī)以及章程和意見作為支撐。各部門、各行業(yè)的數(shù)據(jù)相互獨(dú)立。
類似淘寶、京東這類電商企業(yè)的BI營(yíng)銷和內(nèi)容推送等多是基于互聯(lián)網(wǎng)用戶過(guò)往的交易信息和瀏覽記錄,而這種粗放式的數(shù)據(jù)分析與挖掘方式雖然可以針對(duì)個(gè)體進(jìn)行營(yíng)銷,但由于無(wú)法了解更深入的用戶信息(比如用戶的個(gè)人信息、收入水平、位置信息、喜愛偏好等),對(duì)于促進(jìn)再次消費(fèi)的能力還很有限。
而一個(gè)完整的用戶信息圖譜起碼需要三方力量的配合,首先是銀行提供的個(gè)人信息、薪資水平、消費(fèi)能力等,其次是運(yùn)營(yíng)商提供的家庭成員信息、位置信息以及定位服務(wù),最后是電商平臺(tái)的消費(fèi)記錄、搜索瀏覽記錄等。但現(xiàn)階段,銀行、電信運(yùn)營(yíng)商以及電商還無(wú)法實(shí)現(xiàn)用戶數(shù)據(jù)的共享。
中國(guó)需要制定大數(shù)據(jù)發(fā)展戰(zhàn)略,盡管標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,但這是我國(guó)實(shí)現(xiàn)跨越發(fā)展的機(jī)會(huì)所在。切忌一哄而起,在目的不明的情況下就大興數(shù)據(jù)中心,到處搞‘?dāng)?shù)據(jù)房地產(chǎn)’。
中國(guó)工程院院士 鄔賀銓
不過(guò)在互聯(lián)網(wǎng)領(lǐng)域,包括淘寶、阿里巴巴、京東、亞馬遜等知名電商已經(jīng)在數(shù)據(jù)應(yīng)用方面做出了不小的成果。淘寶架構(gòu)師毛波對(duì)此表示,每年的“雙十一”都是一次挑戰(zhàn),面對(duì)每分鐘數(shù)億次的交易量,淘寶需要提前進(jìn)行數(shù)據(jù)分析并做好各種應(yīng)對(duì)高并發(fā)性的預(yù)案。“在這方面,雖然Hadoop的實(shí)時(shí)分析并不占優(yōu)勢(shì),但可用做之前的預(yù)測(cè)準(zhǔn)備,對(duì)往年情況如用戶消費(fèi)習(xí)慣、搜索習(xí)慣、瀏覽習(xí)慣等數(shù)據(jù)進(jìn)行分析,作為當(dāng)天數(shù)據(jù)分析的基礎(chǔ)?!?/p>
IT服務(wù)商們也打響了有關(guān)“大數(shù)據(jù)”的暗戰(zhàn)。IBM、SAP、Oracle以及Teradata等傳統(tǒng)的從事數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)以及分析工具的IT服務(wù)商們不斷強(qiáng)化自身在大數(shù)據(jù)領(lǐng)域的技術(shù)能力,對(duì)于一些創(chuàng)新技術(shù)的企業(yè)收購(gòu)也在進(jìn)行當(dāng)中。而類似浪潮、HP、DELL等IT硬件廠商也在迎合大數(shù)據(jù)的市場(chǎng)需求,推出面向數(shù)據(jù)分析的硬件方案以及相關(guān)分析平臺(tái)。據(jù)了解,聯(lián)想希望借助大數(shù)據(jù)完成自身“由硬及軟”的完美蛻變,其自主研發(fā)的大數(shù)據(jù)分析平臺(tái)正在公司內(nèi)部試用,2014年有望面世。
在金融、電力、航空等行業(yè)領(lǐng)域內(nèi),傳統(tǒng)的信息和數(shù)據(jù)的獲取渠道正在擴(kuò)大,基于用戶的社交信息、電子商務(wù)以及移動(dòng)終端上所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)也被收集過(guò)來(lái),由此構(gòu)建更為完整的用戶全景視圖。比如,花旗銀行在向用戶推薦金融產(chǎn)品時(shí)會(huì)基于“全景”數(shù)據(jù)進(jìn)行分析,當(dāng)儲(chǔ)戶為孩子開辦了信用卡,銀行則推薦給用戶“成長(zhǎng)學(xué)習(xí)”類的理財(cái)基金,而當(dāng)某儲(chǔ)戶有了裝修計(jì)劃后,該銀行也會(huì)立即推薦適合的分期式貸款業(yè)務(wù)。
在電信領(lǐng)域,三家運(yùn)營(yíng)商很早就開始了數(shù)據(jù)分析實(shí)踐,不過(guò)很大程度上這種分析都是為了內(nèi)部?jī)?yōu)化。比如通過(guò)收集網(wǎng)管系統(tǒng)中各地區(qū)的信號(hào)強(qiáng)弱質(zhì)量和用戶掉話率,可以分析出各個(gè)細(xì)分地區(qū)的無(wú)線網(wǎng)絡(luò)信號(hào)的覆蓋情況,進(jìn)而對(duì)移動(dòng)網(wǎng)絡(luò)的性能和指標(biāo)進(jìn)行微調(diào),優(yōu)化網(wǎng)絡(luò)覆蓋能力。與此同時(shí),運(yùn)營(yíng)商鼓勵(lì)內(nèi)部創(chuàng)新,一些省公司基于自身數(shù)據(jù)平臺(tái)建立BI系統(tǒng)、客戶挽留系統(tǒng)等,對(duì)于保持用戶滿意度和增強(qiáng)用戶粘性起到了一定的促進(jìn)作用。
而在海外運(yùn)營(yíng)商看來(lái),大數(shù)據(jù)也可以賺錢。在2012年,西班牙電信Telefonica創(chuàng)立了獨(dú)立業(yè)務(wù)單元Telefonica Dynamic Insights,以合法化的方式在英國(guó)向政府機(jī)關(guān)、零售商等出售收集到經(jīng)過(guò)整理的匿名統(tǒng)計(jì)性的用戶信息。比如英國(guó)倫敦郊區(qū)新開了一家大型購(gòu)物中心,西班牙電信通過(guò)移動(dòng)網(wǎng)絡(luò)收集到活躍在購(gòu)物中心附近的用戶群體,通過(guò)分析他們的個(gè)人信息(如性別、年齡、居住地址以及家庭成員等)得出該購(gòu)物中心的主流消費(fèi)群的年齡、收入、家庭結(jié)構(gòu)以及喜愛偏好等信息,用以更好地促進(jìn)賣家進(jìn)行針對(duì)性營(yíng)銷。然而,Telefonica短期內(nèi)并不會(huì)將該業(yè)務(wù)在德國(guó)開展,因?yàn)榈聡?guó)有一些全球最嚴(yán)格的數(shù)據(jù)保護(hù)法案。
當(dāng)然,這些被出售的信息都是統(tǒng)計(jì)性的,并非針對(duì)個(gè)體成員,西班牙電信早在用戶進(jìn)行業(yè)務(wù)辦理時(shí),就通過(guò)或優(yōu)惠或贈(zèng)送的方式獲得了用戶公開自身數(shù)據(jù)的許可。