姚芳沁
距離美國《自然》雜志在2008年9月的封面??惺状翁岢觥按髷?shù)據(jù)”的概念,至今剛好過了10年。在這10年間,大數(shù)據(jù)由一個(gè)學(xué)術(shù)界的新名詞演變成決定人類工作和生活方方面面的龐大系 統(tǒng)。
什么是大數(shù)據(jù)?市場(chǎng)調(diào)研公司IDC從4個(gè)維度的特征來定義它,即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動(dòng)的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價(jià)值的大?。╒alue)。
簡單說,就是當(dāng)數(shù)據(jù)量超過了單臺(tái)計(jì)算機(jī)的處理能力時(shí),就形成了大數(shù)據(jù)。它的出現(xiàn)本身就是互聯(lián)網(wǎng)世界擴(kuò)張的必然結(jié)果。
搜索引擎Google為了解決日益膨脹的海量數(shù)據(jù)存儲(chǔ)和處理問題,成為大數(shù)據(jù)技術(shù)開發(fā)的先行者。當(dāng)大數(shù)據(jù)的基礎(chǔ)架構(gòu)搭建完成之后,后來的大數(shù)據(jù)應(yīng)用有了更大的想象空間。2013年大數(shù)據(jù)技術(shù)開始向商業(yè)、技術(shù)、醫(yī)療、政府、教育、經(jīng)濟(jì)、交通、物流及社會(huì)的各個(gè)領(lǐng)域滲透,因此這一年也被稱為大數(shù)據(jù)元年。
云技術(shù)的主流化讓中小公司在不需要花巨額成本搭建數(shù)據(jù)系統(tǒng)的情況下,便可以從云端遠(yuǎn)程獲得大數(shù)據(jù)為自己的業(yè)務(wù)服務(wù)。大數(shù)據(jù)技術(shù)也不再是大公司的專利,它的商業(yè)機(jī)會(huì)達(dá)到空前繁榮。市場(chǎng)調(diào)研公司IDC預(yù)計(jì)大數(shù)據(jù)業(yè)務(wù)和數(shù)據(jù)分析市場(chǎng)將以年平均11.7%的增速持續(xù)擴(kuò)張,到2020年在全球?qū)⑦_(dá)到2030億美元的規(guī)模。
從普通的消費(fèi)者產(chǎn)品到工業(yè)設(shè)備,幾乎每件產(chǎn)品內(nèi)都可以植入一個(gè)芯片來實(shí)現(xiàn)數(shù)據(jù)收集。這些帶有通信能力的設(shè)備組成了物聯(lián)網(wǎng)。在生活中,隨處可見的傳感器、智能手機(jī)、可穿戴設(shè)備、智能家居、工業(yè)機(jī)器人、無人駕駛汽車等物品,都可以是物聯(lián)網(wǎng)上的一環(huán)。物聯(lián)網(wǎng)設(shè)備之間通過數(shù)據(jù)分享,再由自動(dòng)化系統(tǒng)組織協(xié)作,便可以讓這些機(jī)器獨(dú)立分析和完成一些任務(wù)。
調(diào)研公司Gatner預(yù)計(jì)到2020年有超過半數(shù)的新興商業(yè)體都會(huì)基于物聯(lián)網(wǎng)運(yùn)行。這就對(duì)高速數(shù)據(jù)傳輸?shù)姆€(wěn)定性提出了極高的要求。試想一下,在攜帶了眾多傳感器的無人駕駛汽車上,如果有一個(gè)出現(xiàn)了片刻停頓,就會(huì)造成數(shù)據(jù)傳輸?shù)娜笔В浜蠊麑⒇P(guān)人命。
因此,在未來的數(shù)據(jù)處理中,能滿足瞬間反應(yīng)需要的5G通信技術(shù)將會(huì)成為主流。5G的優(yōu)勢(shì)不僅在于更高速的數(shù)據(jù)傳輸,還能減少網(wǎng)絡(luò)通信過程中的延遲問題。延遲是指獲取對(duì)發(fā)送的信息響應(yīng)所需的時(shí)間,因此5G可以實(shí)現(xiàn)過去4G網(wǎng)絡(luò)下無法實(shí)現(xiàn)的事情。比如,通過5G網(wǎng)絡(luò)連接機(jī)器人,便可以協(xié)調(diào)它們彼此間的工作,進(jìn)一步優(yōu)化工業(yè)自動(dòng)化水 平。
當(dāng)人們身邊的一切都成了數(shù)據(jù)采集器時(shí),可想而知,數(shù)據(jù)量也將面臨爆炸式的增長。依照當(dāng)前的計(jì)算機(jī)處理能力,分析大量的數(shù)據(jù)還是得花上一定的時(shí)間。如果能在幾分鐘時(shí)間內(nèi)處理幾十億的數(shù)據(jù)量,便能為公司提供更快速及時(shí)的數(shù)據(jù)分析結(jié)果。
這樣的數(shù)據(jù)處理能力,只有通過量子計(jì)算機(jī)才能實(shí)現(xiàn),2019年也將是量子計(jì)算機(jī)正式走向商業(yè)化的一年。
量子計(jì)算機(jī)采用量子力學(xué)原理處理計(jì)算。傳統(tǒng)計(jì)算機(jī)中,數(shù)據(jù)存儲(chǔ)是以“比特”(byte)為單位。每個(gè)比特在特定時(shí)刻只有0或1中的一個(gè)狀態(tài)。而在量子計(jì)算中,數(shù)據(jù)以量子比特(qubit)的形式存儲(chǔ),量子比特是0和1的疊加狀態(tài),也就是說,它既可以是0也可以是1。這就讓一個(gè)量子比特可以完成兩個(gè)比特才能完成的并行運(yùn)算,讓量子的計(jì)算能力相比傳統(tǒng)計(jì)算機(jī),以指數(shù)級(jí)別增長。
Google投資的量子計(jì)算機(jī)公司D-Wave的聯(lián)合創(chuàng)始人Eric Ladizinsky用了一種更通俗的比喻來解釋量子計(jì)算的原理。假設(shè)你被要求5分鐘內(nèi)在國家圖書館5000萬冊(cè)藏書中的其中一本書的某頁上找到一個(gè)大寫字母“X”,這根本就不能做到。但如果你處于5000萬個(gè)平行現(xiàn)實(shí)中,每個(gè)現(xiàn)實(shí)中的你會(huì)查看不同的書籍,某個(gè)現(xiàn)實(shí)中的你必然能找到這個(gè)“X”。普通計(jì)算機(jī)就是那個(gè)需要在5分鐘內(nèi)找遍盡可能多的書的你,而量子計(jì)算機(jī)能將你復(fù)制出5000萬個(gè),每個(gè)同時(shí)翻找一本書。
這種超快的計(jì)算速度將徹底改變所有行業(yè)。以人工智能為例,人工智能在學(xué)習(xí)時(shí)需要依靠大量的數(shù)據(jù)和運(yùn)算,量子計(jì)算可以解決訓(xùn)練量和速度的問題,大大提高學(xué)習(xí)進(jìn)程。
去年8月,摩根士丹利發(fā)布了一份32頁的報(bào)告,預(yù)測(cè)在接下來的10年內(nèi),量子計(jì)算機(jī)將對(duì)油氣、醫(yī)療、金融、航空、國防、人工智能等多個(gè)行業(yè)產(chǎn)生深遠(yuǎn)影響,換句話說,量子計(jì)算機(jī)可以在任何依賴大數(shù)據(jù)的行業(yè)發(fā)揮作用。摩根士丹利預(yù)計(jì),高端量子計(jì)算機(jī)的市值將從目前的50億美元增長到2025年的100億美 元。
那么,有了這么多數(shù)據(jù)到底有什么用?曾幫助Facebook建立更精確的數(shù)據(jù)分析系統(tǒng)的Jeffrey Hammerbacher在Facebook IPO時(shí)憤憤地說,“我這代人中最聰明的大腦都在思索如何讓人們點(diǎn)擊廣告?!睕]錯(cuò),早期的數(shù)據(jù)應(yīng)用焦點(diǎn)幾乎都在廣告上,這主要也是因?yàn)閷?duì)大數(shù)據(jù)研究最為成熟的技術(shù)巨頭,其商業(yè)模式大多是依賴廣告收入。
正如《經(jīng)濟(jì)學(xué)人》所指出的,目前全球最有價(jià)值的資源不是石油,而是數(shù)據(jù)。不論政府還是公司都不會(huì)輕易放棄對(duì)它的掌控。
當(dāng)然數(shù)據(jù)應(yīng)用的潛力遠(yuǎn)不止于廣告,以數(shù)據(jù)支持的商業(yè)決策也成為一種主流文化。
成立于2015年的Streetbees是一家利用大數(shù)據(jù)技術(shù)顛覆市場(chǎng)調(diào)研的創(chuàng)業(yè)公司。它的數(shù)據(jù)分析能給到企業(yè)客戶諸如“哪個(gè)項(xiàng)目最有可能達(dá)成”“推動(dòng)銷售增長的核心因素是什么”“某產(chǎn)品是否可以進(jìn)入一個(gè)新興市場(chǎng)”等具有戰(zhàn)略性的指導(dǎo)意見。
Streetbees的數(shù)據(jù)直接來自用戶個(gè)人上傳。用戶可以像在社交媒體上發(fā)布信息那樣在Streetbees的平臺(tái)上,以文字、圖片或是視頻的形式更新自己的日常狀態(tài),比方說一張吃早餐的圖片就包含了你在哪里吃早餐、選擇哪些早餐品牌等數(shù)據(jù),它們代表著消費(fèi)者行為最真實(shí)的信息。
不過,大多數(shù)的公司都面臨著同樣的困境:如何把海量的、原始的、未經(jīng)整理的數(shù)據(jù)轉(zhuǎn)化成有價(jià)值的方案建議,指導(dǎo)商業(yè)行為。
“當(dāng)前任何涉及數(shù)字化應(yīng)用的領(lǐng)域都需要數(shù)據(jù)的支持。盡管那些最耗時(shí)的數(shù)據(jù)收集工作已經(jīng)可以自動(dòng)完成,但這還遠(yuǎn)遠(yuǎn)不夠,任何好的大數(shù)據(jù)分析工具最后都需要人性化的元素。數(shù)據(jù)的購物體驗(yàn)就應(yīng)該像你在使用Spotify一樣,你輸入想要的內(nèi)容,它就能直接給你答案。”市場(chǎng)研究公司Forrester Research的首席研究員Michele Goetz對(duì)《第一財(cái)經(jīng)》雜志說。
如何簡化數(shù)據(jù)分析在商業(yè)應(yīng)用中的程序,讓它變得更直觀更可視化而且還必須支持自然語言,人工智能可以做到。大數(shù)據(jù)公司的競(jìng)爭(zhēng)焦點(diǎn)也由數(shù)據(jù)整合和分析能力轉(zhuǎn)移到數(shù)據(jù)知識(shí)的呈現(xiàn),即以一種通俗易懂的形式來表達(dá)數(shù)據(jù)分析結(jié)果的價(jià)值,把數(shù)據(jù)翻譯成能直接被人理解的知識(shí)建議。
早在2014年,IBM就推出了基于云技術(shù)的自然語言人工智能數(shù)據(jù)分析服務(wù)Watson Analytics。企業(yè)客戶可以直接用自然語言發(fā)問,沃森就表現(xiàn)得像個(gè)專業(yè)的商業(yè)顧問一樣。在這個(gè)過程中,Watson Analytics能夠自動(dòng)完成數(shù)據(jù)整理,分離出有用的數(shù)據(jù),分析得出要點(diǎn)和趨勢(shì),并用可視化的形式表達(dá)出來。
Streetbees也開發(fā)了類似的人工智能產(chǎn)品。它能時(shí)刻分析處理用戶上傳的數(shù)據(jù),并總結(jié)出趨勢(shì)特征。當(dāng)客戶有需要時(shí),就可以直接以自然語言向數(shù)據(jù)庫提問,并獲得對(duì)應(yīng)的解答。
加入人工智能技術(shù)的服務(wù)調(diào)研正獲得越來越多大公司的青睞,Streetbees的客戶包括了聯(lián)合利華、百事、沃達(dá)豐、歐萊雅等大型跨國公司。去年,Streetbees還獲得了歐洲最大的技術(shù)風(fēng)投公司Atomico領(lǐng)投的價(jià)值1200萬美元的A輪融 資。
“接下來就是要讓人工智能完成更為專業(yè)化、人性化的數(shù)據(jù)分析任務(wù)。比如可以總結(jié)一大段文字的核心要點(diǎn),大量數(shù)據(jù)中反映出怎樣的趨勢(shì),然后用一種講故事的方式呈現(xiàn)出來。”Streetbees的創(chuàng)始人、公司CEO Tugce Bulut對(duì)《第一財(cái)經(jīng)》雜志說。Streetbees現(xiàn)在正在開發(fā)這種自動(dòng)講故事的產(chǎn)品。
當(dāng)然,沒有大量數(shù)據(jù)的支持,任何公司都無法完成對(duì)人工智能算法的訓(xùn)練和提升。對(duì)于像Streetbees這樣的創(chuàng)業(yè)公司來說,很大一部分?jǐn)?shù)據(jù)資源來自于公共數(shù)據(jù),包括政府、世界銀行和經(jīng)濟(jì)合作與發(fā)展組織的開放數(shù)據(jù)。Streetbees將公司總部設(shè)在英國,很大一部分原因也在于英國在開放數(shù)據(jù)方面的良好環(huán)境。
在萬維網(wǎng)基金會(huì)針對(duì)全球數(shù)據(jù)開放程度的國家排名中,英國與加拿大并列排名第一。
英國政府早在2010年就發(fā)表了開放數(shù)據(jù)政策,并上線了data.gov.uk網(wǎng)站。整個(gè)項(xiàng)目由萬維網(wǎng)的發(fā)明者Tim Berners-Lee負(fù)責(zé)。“我們花很大的成本組建政府公共數(shù)據(jù),如果就把它堆放在辦公室里,實(shí)在太浪費(fèi)了?!盉ernersLee當(dāng)時(shí)在接受BBC采訪時(shí)說。他的理想就是將數(shù)據(jù)作為一種公共資源來對(duì)待。data.gov.uk一共包括了10項(xiàng)服務(wù)類別,數(shù)據(jù)集從啟動(dòng)時(shí)的2500個(gè),增長至目前的4.5萬個(gè)。
交通部門在開放數(shù)據(jù)方面表現(xiàn)最好。倫敦交通局把時(shí)刻表、服務(wù)狀態(tài)、運(yùn)行異常通告等對(duì)所有人免費(fèi)公開,總共80個(gè)開放數(shù)據(jù)源都可以經(jīng)由統(tǒng)一的API接入,大大提高了第三方開發(fā)者使用這些數(shù)據(jù)的效率。倫敦交通局的數(shù)據(jù)顯示,目前有超過600個(gè)App都在使用這些開放數(shù)據(jù),其中也包括最受歡迎的地圖交通軟件Citymapper,它們?yōu)閭惗亟?jīng)濟(jì)貢獻(xiàn)了1.3億英鎊(約合11.3億元人民 幣)。
此外,英國也希望通過開放數(shù)據(jù)吸引一些新興技術(shù)到英國開發(fā)測(cè)試。2018年英國地形測(cè)量局公開地圖數(shù)據(jù),方便企業(yè)使用它的地理信息數(shù)據(jù),這些數(shù)據(jù)已經(jīng)用在了無人駕駛汽車的測(cè)試中。此外,使用地理信息數(shù)據(jù)來優(yōu)化定位追蹤技術(shù),對(duì)于引導(dǎo)公共交通、跟蹤供應(yīng)鏈、規(guī)劃貨運(yùn)路線都有很大的幫 助。
盡管英國所有的政府公共部門都有自己的開放數(shù)據(jù)戰(zhàn)略,但每個(gè)部門所提供的數(shù)據(jù)質(zhì)量和開放程度參差不齊。比如一些數(shù)據(jù)會(huì)有缺失,政府開支的數(shù)據(jù)通常都是過期的—當(dāng)開放數(shù)據(jù)有助于通過某項(xiàng)立法時(shí),政府部門便會(huì)表現(xiàn)積極一些,否則便是敷衍的態(tài)度。
因此,在2017年12月,英國政府又針對(duì)開放數(shù)據(jù)提出了新的修改意見,明確規(guī)定哪些數(shù)據(jù)必須開放,以及如何保證開放數(shù)據(jù)便于人們使用。
“數(shù)據(jù)應(yīng)該以一種開放并且易于使用的形式存在,這樣第三方在使用數(shù)據(jù)時(shí)才能創(chuàng)造新的價(jià)值。僅僅開放數(shù)據(jù)是不夠的。數(shù)據(jù)的質(zhì)量以及獲取數(shù)據(jù)的便利性是開放數(shù)據(jù)下一階段的目標(biāo)?!庇紫嗵乩咨っ樊?dāng)時(shí)發(fā)表講話時(shí)說。
Bulut認(rèn)為不應(yīng)該只是政府等公共部門具有開放數(shù)據(jù)的義務(wù),在保證數(shù)據(jù)匿名的前提下,那些社交媒體巨頭也應(yīng)該把它們的數(shù)據(jù)開放給所有人。“只有這樣才能實(shí)現(xiàn)用戶數(shù)據(jù)使用的全透明化,因?yàn)閿?shù)據(jù)的最終所有權(quán)屬于每個(gè)人,而不是某個(gè)機(jī)構(gòu)或是大公司。”Bulut說。
在Streetbees,所有參與調(diào)研的用戶都能獲得獎(jiǎng)勵(lì),Streetbees把收入返還給真正為調(diào)查做貢獻(xiàn)的普通人的做法,也讓它和用戶之間的關(guān)系更透明,用戶可以隨時(shí)提供他們?cè)敢夥窒淼男畔?,他們也很清楚這些信息會(huì)用來做什么。“用戶對(duì)自己的信息如何使用完全知情。這跟Facebook那種背著用戶把他們的喜好轉(zhuǎn)賣給第三方的做法是完全不同的?!盉ulut說。
去年3月,F(xiàn)acebook爆出數(shù)據(jù)泄露丑聞,驚醒了那些在數(shù)據(jù)經(jīng)濟(jì)下狂奔的人,用戶數(shù)據(jù)隱私的重要性被提到了一個(gè)前所未有的高度。兩個(gè)月后《通用數(shù)據(jù)保護(hù)條例》(GDPR)在歐盟正式生效,這項(xiàng)被稱為“史上最嚴(yán)數(shù)據(jù)法”最重要的原則之一是,有數(shù)據(jù)的地方就要有保護(hù)。
數(shù)據(jù)保護(hù)要由“屬地”轉(zhuǎn)向“屬人”。因而對(duì)于數(shù)據(jù)的保護(hù)也就不止于國界,任何企業(yè)只要在歐盟市場(chǎng)有業(yè)務(wù),涉及到收集用戶個(gè)人信息的,都要受到GDPR的監(jiān)管。
歐洲議會(huì)在2012年1月提出要改革歐盟數(shù)據(jù)保護(hù)法規(guī),2016年4月通過了GDPR,并給予企業(yè)兩年的過渡期調(diào)整。理論上來講,準(zhǔn)備時(shí)間已足夠充裕??墒聦?shí)是,在Facebook出事之前,根本沒有人把它當(dāng)回事,就在GDPR正式生效前4個(gè)月,還有1/4的企業(yè)從沒聽說過GDPR。
“很少有公司能1 0 0%執(zhí)行新規(guī)?!盪nited Lex的首席隱私官Jason Straight對(duì)《第一財(cái)經(jīng)》雜志說,他所在的公司負(fù)責(zé)為企業(yè)客戶制定遵守GDPR法案的具體章程。
根據(jù)GDPR的規(guī)定,出現(xiàn)數(shù)據(jù)泄露問題的企業(yè)必須在72小時(shí)之內(nèi)向執(zhí)法機(jī)構(gòu)匯報(bào),用戶個(gè)人數(shù)據(jù)是如何被收集和使用的、目的是什么,企業(yè)必須完全透明地向用戶解釋清楚。“很長時(shí)間以來,企業(yè)的做法都是先想盡辦法從用戶那里騙來數(shù)據(jù),然后再考慮怎么利用它們,而在GDPR下,這種方式就行不通了?!盨traight說。
“你瘋了嗎?如果告訴用戶我們是如何使用他們的數(shù)據(jù),他們肯定不愿意把數(shù)據(jù)給我們了?!边@是Straight聽到的很多企業(yè)客戶的反應(yīng)。而GDPR就是要消滅這一點(diǎn)。
更令這些企業(yè)恐懼的一條規(guī)定是所謂的“數(shù)據(jù)獲取需求”,歐盟成員國的公民有權(quán)要求瀏覽由企業(yè)收集的個(gè)人信息資料,這些用戶—在GDPR的規(guī)定中他們被稱為“數(shù)據(jù)主體”(Data Subject)—可以要求刪除、修改數(shù)據(jù),甚至讓公司以任何形式寄送一份詳細(xì)的數(shù)據(jù)資料以供閱覽。要知道,這些數(shù)據(jù)很有可能分布在多個(gè)不同的服務(wù)器上,其格式種類更是多到數(shù)不清,有些公司可能自己都未必知道所有數(shù)據(jù)的去 向。
GDPR還提出了一項(xiàng)頗具創(chuàng)新性的權(quán)利,即用戶擁有“數(shù)據(jù)的可攜權(quán)”,它不僅賦予用戶取得個(gè)人數(shù)據(jù)的權(quán)利,還賦予用戶傳輸該數(shù)據(jù)的權(quán)利。舉例來說,用戶可以要求Facebook將自己所有的個(gè)人數(shù)據(jù)打包成Twitter、LinkedIn或是微博都能使用的格式,并能傳輸?shù)狡渌脚_(tái)繼續(xù)使用。
所以要做到真正執(zhí)行GDPR,企業(yè)需要重新設(shè)立和規(guī)劃自己的內(nèi)部組織架構(gòu),以便在用戶提出類似的需求時(shí)能及時(shí)反饋。
有批評(píng)人士認(rèn)為,歐盟推出如此嚴(yán)格的數(shù)據(jù)保護(hù)法令,將有可能限制數(shù)據(jù)產(chǎn)業(yè)以及整個(gè)互聯(lián)網(wǎng)行業(yè)的發(fā)展。為了合規(guī),企業(yè)必須投入相當(dāng)大的一筆成本,這也不利于中小企業(yè)的發(fā)展。而對(duì)于大公司來說,為了避免觸犯GDPR,很有可能出現(xiàn)的趨勢(shì)是限制與第三方平臺(tái)分享用戶數(shù)據(jù),轉(zhuǎn)而利用數(shù)據(jù)自己做新產(chǎn) 品。
就連政府在開放數(shù)據(jù)上的態(tài)度也因敏感的數(shù)據(jù)隱私問題而變得保守起來。去年,英國開放數(shù)據(jù)的管理單位由數(shù)字服務(wù)部轉(zhuǎn)到了數(shù)字、文化、媒體和體育部,象征著政府希望對(duì)數(shù)據(jù)采取集中化管理;8月,英國財(cái)政部發(fā)布的一份報(bào)告指出,政府開始質(zhì)疑免費(fèi)開放數(shù)據(jù)是否過于理想,以及這種做法有可能對(duì)安全、隱私造成的危害。
大數(shù)據(jù)所帶來的便利以及商業(yè)價(jià)值的發(fā)揮,離不開持續(xù)的數(shù)據(jù)供給,對(duì)于真正生產(chǎn)數(shù)據(jù)的用戶而言,把數(shù)據(jù)交給他人分析,又免不了擔(dān)心隱私的泄露。有關(guān)大數(shù)據(jù)的未來,也就存在于開放與隱私間的持續(xù)博弈。