放眼望去,大數(shù)據(jù)時代已經(jīng)撼動了美國社會的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟、人文以及社會的其他各個領域,并催生了了各行各業(yè)的變革力量。
大數(shù)據(jù)在美國已經(jīng)發(fā)展到如火如荼的地步。政府部門、IT企業(yè)、零售、醫(yī)療等傳統(tǒng)行業(yè)以及互聯(lián)網(wǎng)、軟硬件公司將大數(shù)據(jù)能夠帶來的方方面面都展示在人們面前——盡管這些在美國還被認為是“初級階段”——放眼望去,大數(shù)據(jù)時代已經(jīng)撼動了美國社會的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟、人文以及社會的其他各個領域。
因為其背后的沿承和爆發(fā)的背景如此重要,目前科技界和學術界的人士甚至預測,大數(shù)據(jù)作為一項技術和理念本身,很有可能避免成為一下硅谷臭名昭著的“技術成熟度曲線”的受害者。這個曲線曾經(jīng)昭示,一個新技術誕生后,經(jīng)過新聞媒體和學術會議的大肆宣傳,該趨勢將一下子跌到谷底,許多創(chuàng)業(yè)公司變得岌岌可危,直到發(fā)展到一定階段再重新爆發(fā)——這個曲線云計算曾經(jīng)且正在經(jīng)歷,但大數(shù)據(jù)很有可能“幸免”。
一個說得通的原因是,在目前的美國,“大數(shù)據(jù)”的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術,或者所謂的“4個V”之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎上是無法實現(xiàn)的。
所以變革將無法避免。而對大數(shù)據(jù)的掌握程度可以轉化為經(jīng)濟價值的來源。
《大數(shù)據(jù)時代》一書的作者,維克托·邁爾·舍恩伯格上月底來到中國時,向一眾業(yè)內和媒體人士著重介紹了其對大數(shù)據(jù)時代可能產生的價值變革的判斷依據(jù)和論斷結果。在回答記者的現(xiàn)場提問時,維克托表示,我們現(xiàn)在討論的商業(yè)公司的形式是前大數(shù)據(jù)時代的模式,那么在大數(shù)據(jù)時代,從現(xiàn)有的模式中找模式是非常有問題的。我們要用新思維來衡量一切,包括新的企業(yè)模式,企業(yè)間關系以及社會、政府、商業(yè)等的關系。
大數(shù)據(jù)的科學價值和社會價值正是體現(xiàn)在這里。
被改變的政治與政府
一個略有被媒體夸大但基本屬實的案例是,奧巴馬今年成功連任美國總統(tǒng),其背后那個幾十人構成的數(shù)據(jù)分析與挖掘團隊至關重要。
這支團隊在2008年奧巴馬競選時就已存在并發(fā)揮作用。而這次,他們更動用了5倍于上屆的人員規(guī)模,且進行了更大規(guī)模與深入的數(shù)據(jù)挖掘。它幫助奧巴馬在獲取有效選民、投放廣告、募集資金方面起到一定作用。事實證明,奧巴馬募集到的資金盡管與對手羅姆尼募集的資金規(guī)模不相上下,但前者從普通民眾直接募集到的資金是后者的近兩倍。據(jù)一項調查顯示,奧巴馬團隊籌得的第一個1億美金中,98%來自于小于250美金的小額捐款,而羅姆尼團隊在籌得相同數(shù)額捐款的情況下,這一比例僅為31%。
以競選工作組發(fā)言ABen LaBolt的話來形容:奧巴馬團隊擁有“核代碼”——數(shù)據(jù)是能夠擊敗羅姆尼的最根本優(yōu)勢。更“極端”的說法是,奧巴馬勝選的原因不在于經(jīng)濟、外交政策或是婦女問題,而是贏在大數(shù)據(jù)!
當然,這個說法難免牽強,但仍可以看做美國政治或者說政界人士受到科技的影響越來越大——據(jù)《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》一書作者徐子沛在不久前的一次沙龍上透露,目前美國許多政界人士都十分重視社交網(wǎng)絡,并期冀通過數(shù)據(jù)挖掘和數(shù)據(jù)分析從中獲益。而數(shù)據(jù)創(chuàng)新給公民、政府、社會帶來的種種挑戰(zhàn)和變革,已經(jīng)深入人心。
但社交媒體分析,僅僅是大數(shù)據(jù)“冰山一角”的部分。
在目前已被認可的范疇中,大數(shù)據(jù)的價值鏈中,數(shù)據(jù)本身、技能以及思維三個層面是核心競爭領域,社交媒體分析可以看做是數(shù)據(jù)分析技能層面的細分領域,也是傳統(tǒng)數(shù)據(jù)挖掘范疇下的新變種。
在數(shù)據(jù)領域占據(jù)領先地位的美國,已經(jīng)在這三個層面都取得了長足發(fā)展,其中,政府層面的變化極為明顯,甚至將數(shù)據(jù)價值提升到了國家戰(zhàn)略層面——2012年3月,奧巴馬政府宣布“大數(shù)據(jù)的研究和發(fā)展計劃?!卑讓m聲明公開稱:“通過提高代們從大型復雜的數(shù)字數(shù)據(jù)集中提取知識和觀點的能力,承諾幫助加快在科學與工程中的步伐,加強國家安全,并改變教學研究?!?/p>
在這個計劃里,美國國家科學基金、國家衛(wèi)生研究院、能源部、國防部、國防部高級研究計劃局、地質勘探局等6個聯(lián)邦政府部門,宣布將啟動2億美元的投資計劃,提高從大量數(shù)字數(shù)據(jù)中訪問、組織、收集發(fā)現(xiàn)信息的工具和技術水平,從而了解更多正在進行的聯(lián)邦政府的計劃,解決所大數(shù)據(jù)所帶來的機遇和挑戰(zhàn),并計劃與工業(yè)界、大學研究界、非營利性機構與管理者一起利用大數(shù)據(jù)所創(chuàng)造的機會。
其中,美國國家衛(wèi)生研究院開展的免費開放由國際千人基因組計劃,它將創(chuàng)建的人類遺傳變異研究數(shù)據(jù)集,供研究人員自由訪問和使用;美國國家科學基金會和美國國家衛(wèi)生研究院將對大數(shù)據(jù)進行聯(lián)合招標,改進核心科學與技術手段,提高從各種大型數(shù)據(jù)集中提取重要信息并對其進行有效管理、分析和可視化的能力;美國國防部則計劃每年投資2.5億美元左右,在各個軍事部門開展一系列研究計劃,旨在以創(chuàng)新方式使用海量數(shù)據(jù),通過感知、認知和決策支持的結合,加強大數(shù)據(jù)決策力;美國能源部則將斥資2500萬美元建立可擴展數(shù)據(jù)管理與可視化研究所(SDAV),幫助科學家對數(shù)據(jù)進行有效管理,促進其生物和環(huán)境研究計劃、美國核數(shù)據(jù)計劃等的研究成果……
而作為奧巴馬開放政府承諾的產物,2009年至今Data.gov全面開放了40萬聯(lián)邦政府原始數(shù)據(jù)集。目前Data.gov宣布采用新“開源政府平臺”管理數(shù)據(jù),代碼將向各國開發(fā)者開放。從這個角度看,大數(shù)據(jù)已成為美國國家創(chuàng)新戰(zhàn)略、國家安全戰(zhàn)略、國家ICT產業(yè)發(fā)展戰(zhàn)略以及國家信息網(wǎng)絡安全戰(zhàn)略的交叉領域、核心領域。
當然從現(xiàn)在來看,說大數(shù)據(jù)改變美國政治或政府的確有些夸張,但從另一層面看,美國政府的開放性數(shù)據(jù)服務轉型正走在世界前列。
被變革的行業(yè)與產業(yè)
大數(shù)據(jù)價值本身的被認知與被挖掘,建立在一個前提下——數(shù)據(jù)化。我們不能將數(shù)據(jù)化等同為數(shù)字化,后者不過是將模擬數(shù)據(jù)轉換為二進制碼方便計算機存儲和分析,而前者則是把日常生活、生產、商業(yè)等方方面面的現(xiàn)象轉化為可制表分析的量化形式的過程。
正是這個過程,形成了各行各業(yè)的變革力量——因為這是大數(shù)據(jù)時代所獨有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產品和服務,或深刻的洞見。
中科院計算所所長孫凝暉對此表示,“大數(shù)據(jù)在未來很可能會成為一個新的行業(yè),而且大數(shù)據(jù)本身也超越了互聯(lián)網(wǎng)行業(yè),不僅僅是在網(wǎng)絡,生物基因本身也是大數(shù)據(jù),各個物種的基因數(shù)據(jù)產生以后也會產生很多的學術價值。商業(yè)價值?!边@種說法并非沒有依據(jù)。
從美國市場上已經(jīng)發(fā)生的案例來看,互聯(lián)網(wǎng)行業(yè)、商業(yè)智能與咨詢服務領域、零售行業(yè)受益最大,但醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文等領域,都開始“承認”大數(shù)據(jù)的價值。事實上在美國各個行業(yè)和應用領域,大數(shù)據(jù)的應用已經(jīng)遍地開花。
互聯(lián)網(wǎng)行業(yè),雅虎于2008年初便開始啟用大數(shù)據(jù)技術,每天分析超過200PB的數(shù)據(jù),使得雅虎的服務變得更人性化,更貼近用戶和客戶。它與雅虎IT系統(tǒng)的方方面面進行協(xié)作,包括搜索、廣告、用戶體驗和欺詐發(fā)現(xiàn)等;為了更深入的了解每一個用戶,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網(wǎng)站上的所有行為都記錄下來,這些數(shù)據(jù)的有效分析使得亞馬遜對于客戶的購買行為和喜好有了全方位了解,對于其貨品種類、庫存、倉儲、物流、及廣告業(yè)務上都有著極大的效益回饋。
醫(yī)療衛(wèi)生領域的應用也正在爆發(fā)——喬布斯通過大數(shù)據(jù)輔助癌癥治療,通過智能手機上的應用程序來監(jiān)測病人的身體顫動,甚至如丹麥癌癥協(xié)會通過大數(shù)據(jù)來研究手機使用是否致癌,還有微軟這樣的公司來分析病患的再入住率等。最著名的案例來自谷歌——在2009年,甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機科學家們感到震驚——文中表示,和疾控中心一樣,谷歌也能判斷出流感是從哪里傳播出來的,而且他們的判斷非常及時,不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。谷歌公司發(fā)現(xiàn)能夠通過人們在網(wǎng)上檢索的詞條辨別出其是否感染了流感后,把5 000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行了比較。而通過一個數(shù)學模型處理后,他們的預測與官方數(shù)據(jù)的相關性高達97%。所以,2009年甲型H1NI流感爆發(fā)的時候,與習慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個更有效、更及時的指示標。公共衛(wèi)生機構的官員獲得了非常有價值的數(shù)據(jù)信息。
不得不提的還有零售行業(yè)。實際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從數(shù)據(jù)中獲得了巨大的利益,也因此鞏固了自己在業(yè)界的長盛不衰。以曾經(jīng)因“少女懷孕事件”而成為大數(shù)據(jù)典型案例的Tesco公司為例,這家全球利潤第二大的零售商從其會員卡的用戶購買記錄中,充分了解一個用戶是什么“類別”的客人,如速食者、單身、有上學孩子的家庭等等,并基于這些分類進行一系列的業(yè)務活動,比如,通過郵件或信件寄給用戶的促銷可以變得十分個性化,店內的上架商品及促銷也可以根據(jù)周圍人群的喜好、消費的時段來更加有針對性,從而提高貨品的流通。這樣的做法為Tesco獲得了豐厚的回報,僅在市場宣傳一項,就能幫助Tesco每年節(jié)省3.5億英鎊的費用。
此外在能源行業(yè),Saas型軟件公司Opower使用數(shù)據(jù)來提高消費用電的能效,并取得了顯著的成功一Opower與多家電力公司合作,分析美國家庭用電費用并將之與周圍的鄰居用電情況進行對比,被服務的家庭每個月都會收到一份對比的報告,顯示自家用電在整個區(qū)域或全美類似家庭所處水平,以鼓勵節(jié)約用電。據(jù)報道,Opower的服務已覆蓋了美國幾百萬戶居民家庭,預計為美國消費用電每年節(jié)省5億美元。
最值得一提的是生物信息行業(yè)。生物信息是繼互聯(lián)網(wǎng)行業(yè)之后數(shù)據(jù)進發(fā)最迅速的行業(yè),并將遠遠超過互聯(lián)網(wǎng)產生的數(shù)據(jù):人類用0和1創(chuàng)造了虛擬世界,而造物主用A/C/T/G四種元素創(chuàng)造了萬物生靈,生命的產生、發(fā)展、消亡的奧秘盡在其中。隨著測序技術的發(fā)展,金基因組的測序價格由十年前的上億美元降至今天的數(shù)千美元,這使得更多人、物種的DNA信息的獲取成為可能。個體全基因組信息的獲取,使得個性化診療服務成為可能。大數(shù)據(jù)時代,一切的一切都存在著可能,而這一切的改變我們也正在體驗之中。
被重塑的價值與思維
事實上,自20世紀末以來,信息變革一直在發(fā)生,但此前都集中在技術上,而大數(shù)據(jù)時代的到了讓我們開始關注信息本身。
數(shù)據(jù)一貫被我們冠以“精確”的標簽,但維克托·邁爾·舍恩伯格認為,“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產物,只有5%的數(shù)據(jù)時有框架且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受模糊,那么9%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。”
換句話說,全樣本時代的大數(shù)據(jù)的簡單算法,比小數(shù)據(jù)的復雜算法更有效。Google的翻譯系統(tǒng)備受好評,但它不需要像IBM曾重金打造的Candide系統(tǒng)一樣精確的翻譯300萬句話,而是靠掌握的不同語言翻譯的質量參差不齊的數(shù)百億頁文檔——它把語言看做是可以判別可能性的數(shù)據(jù),而不是語言本身。這個例子意味著,我們不再需要擔心某個數(shù)據(jù)點對整套分析的不利影響,而是要接受這些紛繁的數(shù)據(jù)并從中收益,而不是以高昂的代價消除所有的不確定性。
大數(shù)據(jù)的科學價值和社會價值正是體現(xiàn)在這里。一方面,對大數(shù)據(jù)的掌握程度可以轉化為經(jīng)濟價值的來源。不過一個問題是,另一方面,大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟、人文以及社會的其他各個領域——最簡單的,亞馬遜可以幫我們推薦想要的書,谷歌可以為關聯(lián)網(wǎng)站排序,facebook知道我們的喜好,而Linkedln可以猜出我們認識誰。當然,同樣的技術也可以運用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。
一個更美好的比喻是:“如果說20世紀是一個石油為王的時代,21世紀就是一個數(shù)據(jù)為王的時代,21世紀數(shù)據(jù)的價值有可能等同于20世紀的石油。”值得注意的是,目前互聯(lián)網(wǎng)為主的技術和服務能力對大數(shù)據(jù)的處理和挖掘還遠遠不夠,未來會有更多的有價值的數(shù)據(jù)從海量的大數(shù)據(jù)里發(fā)掘出來,產生很多新的商業(yè)形態(tài)、新的企業(yè)和新的服務。
但大數(shù)據(jù)的變革力量還不止于此——最核心的論題是,大數(shù)據(jù)只提供參考答案,不是最終答案。因為它放棄了對因果關系的渴求,而只關注相關關系——只需要知道是什么,而不需知道為什么——這徹底推翻了自古以來的慣例,所以我們理解現(xiàn)實和做決定的基礎也將受到根本性挑戰(zhàn)。在這種情況下,大數(shù)據(jù)將與互聯(lián)網(wǎng)的發(fā)明一樣,這絕不僅僅是信息技術領域的革命,更是在全球范圍啟動透明政府、加速行業(yè)企業(yè)創(chuàng)新、引領社會變革的利器。
從這個角度出發(fā),技術革新之外,思維模式的革新和管理變革不可避免,數(shù)據(jù)驅動型的企業(yè)和政府正在變得可能。
透視美國大數(shù)據(jù)爆發(fā)全景,一場生活、工作與思維的大變革正在發(fā)生。