剛過去的春運(yùn)、情人節(jié),有幾張地圖給人印象深刻。借由央視等傳播平臺(tái),百度春運(yùn)地圖、情人節(jié)地圖直觀地繪制出了春運(yùn)期間幾億人的流動(dòng)軌跡,以及情人節(jié)期間各種消費(fèi)、生活相關(guān)的數(shù)據(jù)。這些圖表看似簡單,但卻需要大量的數(shù)據(jù)支撐,和強(qiáng)大的計(jì)算能力。因?yàn)橹庇^地呈現(xiàn)了春運(yùn)期間人口的遷徙路線,而使這些數(shù)據(jù)與普通人發(fā)生聯(lián)系,對普通人來說都是容易理解并有切實(shí)指導(dǎo)意義的。百度推出的情人節(jié)浪漫指數(shù),呈現(xiàn)的是各個(gè)省份區(qū)域網(wǎng)民的實(shí)時(shí)搜索行為,通過情人節(jié)一天的搜索數(shù)據(jù)積累,從而得出北京的浪漫指數(shù)為452,浙江、上海緊隨其后。雖然這只是百度一家網(wǎng)站的數(shù)據(jù),但因?yàn)槠鋸V泛的使用率,可以大致程度上反映出實(shí)際情況。世紀(jì)佳緣網(wǎng)站《2013-2014年中國男女婚戀觀調(diào)查報(bào)告》也指出,從絕對值來看,浙江、北京、上海的男性在戀愛中的花費(fèi)最高,這從另一個(gè)角度反映了這種實(shí)際情況。
這就是大數(shù)據(jù)時(shí)代的普通場景,通過獲取億萬計(jì)的數(shù)據(jù)并進(jìn)行分析、視覺呈現(xiàn),進(jìn)而反映一種現(xiàn)象。而我們也不是僅在節(jié)假日才接觸到大數(shù)據(jù)分析,其實(shí),在每一天的網(wǎng)絡(luò)足跡里,我們都可以發(fā)現(xiàn)大數(shù)據(jù)的足跡。當(dāng)你搜索了某件商品,突然發(fā)現(xiàn)該商品不斷出現(xiàn)在你新打開的網(wǎng)頁上;當(dāng)你在微博里討論、關(guān)注或提及某件商品,該商品就可能會(huì)出現(xiàn)在你的微博頁面的淘寶廣告鏈接里。你打開的網(wǎng)站或APP,可以進(jìn)行自定義設(shè)置,或者根據(jù)你個(gè)人的使用記錄而給你推薦頁面內(nèi)容。
過去的一年經(jīng)歷了大數(shù)據(jù)行業(yè)的快速發(fā)展,2013年因而被認(rèn)為是「大數(shù)據(jù)元年」。
歡迎來到「大數(shù)據(jù)時(shí)代」。
何謂
大數(shù)據(jù)
2013年曝出的「棱鏡門」,讓全世界民眾知道了美國政府大數(shù)據(jù)監(jiān)控的冰山一角,也使美國民眾擔(dān)心自身的隱私會(huì)被濫用。奧地利的游戲開發(fā)者Wolfie Chtistl也以類似主題開發(fā)了一款讓玩家盡可能多地收集并買賣私人信息的游戲《數(shù)據(jù)商人》。在這個(gè)游戲世界中,玩家利用黑客、偵探或電商方案盡可能多地收集私人數(shù)據(jù)信息,并把這些數(shù)據(jù)賣給大型企業(yè)、保險(xiǎn)公司,或者中央安全局,就如現(xiàn)實(shí)中的境況一般。
大數(shù)據(jù)研究專家舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中提出了這樣三個(gè)觀點(diǎn):大數(shù)據(jù)「不是隨機(jī)樣本,而是全體數(shù)據(jù)」;「不是精確性,而是混雜性」;「不是因果關(guān)系,而是相關(guān)關(guān)系」。另外大數(shù)據(jù)具有4V特性,即Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
大量
我們這兩年經(jīng)常接觸到「大數(shù)據(jù)」這個(gè)詞,那么大數(shù)據(jù)到底有多大?就如「大」是個(gè)相對的概念,并不指代具體數(shù)量,大數(shù)據(jù)也是根據(jù)近幾年網(wǎng)絡(luò)信息數(shù)據(jù)量的快速增多而提出的,最初是在2010年因?yàn)辂溈襄a有關(guān)大數(shù)據(jù)的長篇報(bào)告而開始被媒體廣泛采納。最近同行的看法是,量級達(dá)到PB的數(shù)據(jù)可以被稱為大數(shù)據(jù),1PB約等于105萬GB,而目前手機(jī)的主流內(nèi)存為2GB。當(dāng)然,說大數(shù)據(jù)已經(jīng)跟每個(gè)人息息相關(guān),并非說這個(gè)人產(chǎn)生或擁有了PB級別的數(shù)據(jù),而是指他和其他人產(chǎn)生、使用的類似信息已經(jīng)達(dá)到很大的量,需要大量的計(jì)算機(jī)進(jìn)行運(yùn)算。
高速
2009年,美國華盛頓大學(xué)的研究人員曾使用15萬張F(tuán)lickr圖片網(wǎng)站上的圖片,構(gòu)建了整個(gè)羅馬城遺址的3D模型。整個(gè)3D模型構(gòu)建過程共使用了496個(gè)CPU核心,耗時(shí)8小時(shí)。這種數(shù)據(jù)量雖然不是很大,但其分析的邏輯也是大數(shù)據(jù)思維。
多樣
Facebook擁有500億張以上的用戶照片。2013年4月,美國波士頓馬拉松期間發(fā)生了爆炸案,而Facebook的這些照片里可能就有爆炸案的線索。兩三萬運(yùn)動(dòng)員,加上近50萬圍觀群眾,在同一天同一地點(diǎn)拍攝的照片可能有幾十萬張,錄像可能有幾千小時(shí)。用人工搜查比較顯然是不可能的。那么,這就需要對照片進(jìn)行分析的大數(shù)據(jù)軟件。
價(jià)值
近兩年流行的微博、微信,其幾億用戶構(gòu)建的復(fù)雜關(guān)系網(wǎng)就需要大數(shù)據(jù)分析軟件進(jìn)行分析判斷。微信會(huì)推薦你的手機(jī)通訊錄、QQ好友上的人給你加為微信朋友。而最近,可能因?yàn)槲⑿诺膹?qiáng)勢影響,電腦客戶端的QQ也開始頻繁推薦一些你可能認(rèn)識的人加為QQ好友。
大數(shù)據(jù)何以到來
雖然說,每個(gè)人都是不容易量化分析的,但通過支付信息,獲知你收入的最大開銷在什么方面,你的購物傾向;通過點(diǎn)餐時(shí)購買的食品,獲取你的飲食偏好,飲食營養(yǎng)程度;通過鞋子及衣服或配飾上的各種傳感器收集運(yùn)動(dòng)量,來判斷你運(yùn)動(dòng)類型,健康情況;通過GPS定位得到你的活動(dòng)范圍,你是在打車,還是坐公交,抑或步行,還是聚會(huì)或宅在家,都可以分析出來;通過電視、電影、書籍的購買與觀看情況,獲知你的文化消費(fèi)傾向;通過你家里的廚衛(wèi)用品、室溫、濕度等,也可以知道你的生活環(huán)境。如果通過這些細(xì)化的方面獲知你更多的信息,哪怕一個(gè)沒有和你見過面的人,也會(huì)覺得對你了如指掌。
智能終端的普及
各種智能終端的廉價(jià)化和部署覆蓋率的大大提高,使得大數(shù)據(jù)的收集開始變得容易。不管是監(jiān)測交通的攝像頭,還是手機(jī)上的攝像頭,都很容易將身邊的狀況記錄下來并數(shù)字化。另外,隨著廉價(jià)的并行計(jì)算解決方案,如MPI框架、GPU計(jì)算的普及,海量數(shù)據(jù)存儲(chǔ)、計(jì)算能力如今可以很廉價(jià)地獲得。
云計(jì)算的興起
大數(shù)據(jù)真正進(jìn)入日常生活,除了廣泛存在的智能終端和分析軟件,也是因?yàn)樵朴?jì)算的出現(xiàn)。云計(jì)算之前,傳統(tǒng)的計(jì)算機(jī)無法處理大量的非結(jié)構(gòu)化數(shù)據(jù),云計(jì)算使得海量數(shù)據(jù)的存儲(chǔ)和快速分析成為可能,再加上每個(gè)人都擁有的智能終端以及帶寬不斷增加的移動(dòng)通信網(wǎng)絡(luò),使得海量數(shù)據(jù)的收集成為可能。
至于大數(shù)據(jù)和云計(jì)算的關(guān)系,有些人可能會(huì)有誤解,并把它們混淆起來。然而,兩者的區(qū)別在于,云計(jì)算是硬件資源的虛擬化,而大數(shù)據(jù)就是海量數(shù)據(jù)的高效處理。打個(gè)比方來說,云計(jì)算相當(dāng)于計(jì)算機(jī)和操作系統(tǒng),將大量的硬件資源虛擬化之后再進(jìn)行分配使用,在云計(jì)算領(lǐng)域做得比較優(yōu)秀的亞馬遜,為云計(jì)算提供了一個(gè)商業(yè)化的標(biāo)準(zhǔn);而最有活力的開源云平臺(tái)是Openstack。
公司重視起大數(shù)據(jù)
著名的信息技術(shù)研究和分析公司Gartner最新發(fā)布的一份名為《2013年大數(shù)據(jù)普及程度背后的炒作》的報(bào)告指出,越來越多的企業(yè)開始從事大數(shù)據(jù)工作。2012年,只有27%的企業(yè)進(jìn)行大數(shù)據(jù)工作,而另外31%的企業(yè)都表示將會(huì)在接下來的兩年中進(jìn)行大數(shù)據(jù)開發(fā)工作。到了2013年的數(shù)據(jù)則分別是30%和34%。
大數(shù)據(jù)圖譜
谷歌知識圖譜
長期以來,谷歌搜索一直努力改善排名,為用戶找到其最有價(jià)值的網(wǎng)頁。但搜索的形式并沒有太大變化,通過輸入關(guān)鍵詞搜索后,得到由標(biāo)題、鏈接以及關(guān)鍵詞相關(guān)的簡短內(nèi)文片段組成的頁面顯示結(jié)果。這種搜索,也需要存儲(chǔ)、計(jì)算海量的網(wǎng)頁信息,也處理極大的數(shù)據(jù);但知識圖譜更符合大數(shù)據(jù)時(shí)代的特征,因?yàn)樵谒阉鞯捻撁嬗覚?,集成了更直接的答案。比如搜索金字塔,?huì)呈現(xiàn)金字塔在地圖上的位置、來自維基百科的文字簡介、建筑相關(guān)信息表、旅游信息等。
從用戶體驗(yàn)的角度來看,知識圖譜的好處顯而易見。你能夠直接獲得搜索內(nèi)容的基本信息匯總,而不用根據(jù)文字片段和網(wǎng)站名稱判斷究竟哪個(gè)鏈接最有價(jià)值,然后再打開新頁面人工過濾頁面內(nèi)的有價(jià)值信息。這種知識圖譜并非人工編輯后的結(jié)果,而是通過計(jì)算機(jī)分析其龐大的信息庫,而算出的信息,可以說是大數(shù)據(jù)的一種體現(xiàn)。
淘寶時(shí)光機(jī)
淘寶已經(jīng)是很多人日常生活中離不開的網(wǎng)站,他們可能從買家轉(zhuǎn)變成賣家,可能從黃鉆買家成長為皇冠買家,淘寶時(shí)光機(jī)就是對這些年來的用戶數(shù)據(jù)進(jìn)行分析,然后通過大學(xué)畢業(yè)、戀愛、遷移城市、結(jié)婚、買房、生子、買車等人生軌跡串起來,讓人頗有些感動(dòng)。淘寶時(shí)光機(jī)之所以能對用戶做出這樣的判斷,是因?yàn)橛脩舻南M(fèi)、瀏覽數(shù)據(jù)更顯露他們當(dāng)時(shí)的狀況,而淘寶時(shí)光機(jī)從這些數(shù)據(jù)中挖掘出用戶們背后的故事。
淘寶消費(fèi)指數(shù)
淘寶的消費(fèi)指數(shù),已經(jīng)廣為人知,你可以登錄淘寶指數(shù)網(wǎng)址,實(shí)時(shí)搜索相關(guān)關(guān)鍵詞指數(shù),比如,筆者在今年2月份某天上午,搜索了「文胸」的淘寶指數(shù),發(fā)現(xiàn),33%的購買者是男性(當(dāng)然,應(yīng)該主要不是為了自己使用),浙江地區(qū)淘寶消費(fèi)者的喜歡程度最高。
大數(shù)據(jù)
理解生態(tài)
報(bào)道:生態(tài)監(jiān)察與大數(shù)據(jù)協(xié)作
7年前,大衛(wèi)·施梅爾受邀設(shè)計(jì)美國國家生態(tài)監(jiān)察網(wǎng)絡(luò)(National Ecological Observatory Network,以下簡稱NEON)時(shí),這個(gè)由美國國家自然科學(xué)基金會(huì)資助的普通項(xiàng)目還沒有正式名稱、雇員和詳細(xì)計(jì)劃。然而,在運(yùn)用遙感、數(shù)據(jù)存儲(chǔ)和電腦計(jì)算能力后,NEON嘗試著解決了生態(tài)學(xué)領(lǐng)域最大的問題:全球氣候變化、土地利用和生物多樣性是如何影響著自然界,生態(tài)系統(tǒng)和生物圈的。
「最初,我們對這個(gè)問題不太了解?!勾笮l(wèi)說。
大衛(wèi)是以美國國家大氣研究中心資深科學(xué)家的身份接手NEON這個(gè)項(xiàng)目的。當(dāng)時(shí),他對該項(xiàng)目的復(fù)雜程度感到驚訝,那需要通過各種測量方法獲取解決問題的科學(xué)數(shù)據(jù),而在建立觀測站和雇用員工之前,他必須明確測量地點(diǎn)、測量內(nèi)容、測量方法以及如何組織數(shù)據(jù)。
大衛(wèi)開始在全美國篩選合適的站點(diǎn)設(shè)置,部署了受到美國國家航天局啟發(fā)的「老虎隊(duì)」來研發(fā)精確的科學(xué)方法和數(shù)據(jù)處理需求,最終計(jì)劃雇用數(shù)十名不同背景的科學(xué)家,沿著美國大陸、阿拉斯加、夏威夷和波多黎各沿線,建立100多個(gè)數(shù)據(jù)收集點(diǎn),連續(xù)30年每年記錄約6000億個(gè)原始測量數(shù)據(jù),并將原始測量數(shù)據(jù)轉(zhuǎn)換成更加易用的數(shù)據(jù)產(chǎn)品,讓科學(xué)家和公眾自由訪問。建立這個(gè)觀測網(wǎng)絡(luò)預(yù)計(jì)耗時(shí)4年多,耗費(fèi)約4.34億美元,另外需要數(shù)百萬美元的年度運(yùn)行支出。
2007年,大衛(wèi)成為NEON的首席科學(xué)家以及第一個(gè)全職雇員?!负芫靡詠恚乙恢睂θ珖?guī)模的科學(xué)研究很感興趣,而這又是一個(gè)數(shù)據(jù)密集型的項(xiàng)目,」他說,「我沒法兒拒絕設(shè)計(jì)一個(gè)如此大規(guī)模的數(shù)據(jù)采集系統(tǒng)。」
這種跨學(xué)科、大規(guī)模的觀測或?qū)嶒?yàn)數(shù)據(jù)的類似分析,也即「大科學(xué)」,用來探究許多奧秘。例如:什么是暗物質(zhì),它如何分布在整個(gè)宇宙中?在其他星球上會(huì)存在生命嗎,或者說,其他星球適合生命存在嗎?遺傳物質(zhì)和疾病之間的聯(lián)系是什么?
但目前的生態(tài)監(jiān)測數(shù)據(jù)很混亂,從物理科學(xué)、生命科學(xué)到用戶在Google、Facebook等上面產(chǎn)生的內(nèi)容,都是非結(jié)構(gòu)性的大雜燴數(shù)據(jù)流,需要更新更靈活的數(shù)據(jù)庫、大規(guī)模計(jì)算能力和精確的算法,才能夠從它們中篩出一些有意義的內(nèi)容。
但是,「大數(shù)據(jù)并不神奇」,2013年夏天,大衛(wèi)在紐約的一個(gè)數(shù)據(jù)庫講習(xí)班上這樣提醒。不管你手握多少數(shù)據(jù),分析不了就沒有意義。
對于NEON這樣的項(xiàng)目,數(shù)據(jù)分析是一項(xiàng)復(fù)雜的工作。在早期,當(dāng)生態(tài)監(jiān)察的數(shù)據(jù)與物理和生物工程相比還屬于中等規(guī)模時(shí),項(xiàng)目團(tuán)隊(duì)就意識到了它的復(fù)雜程度?!窷EON對大數(shù)據(jù)的貢獻(xiàn)不是在量上,」該項(xiàng)目的數(shù)據(jù)產(chǎn)品助理總監(jiān)史蒂夫說,「而是在于數(shù)據(jù)成分的復(fù)雜程度和在空間、時(shí)間的分布上?!?/p>
與氣候?qū)W20來個(gè)關(guān)鍵數(shù)據(jù)測量或者粒子物理學(xué)中巨量但有序的數(shù)據(jù)測量不同,NEON需要持續(xù)追蹤的量超過500個(gè),包括氣溫、土壤和水測量,到昆蟲、鳥類、哺乳動(dòng)物和微生物,以及遙感和航空成像等方面的測量數(shù)據(jù)。大部分?jǐn)?shù)據(jù)是高度無序的,很難解析。
跨學(xué)科合作
另外,除了從技術(shù)角度來說的數(shù)據(jù)挑戰(zhàn),更大的挑戰(zhàn)來自于非技術(shù)因素。許多研究人員認(rèn)為,未來的大數(shù)據(jù)科學(xué)項(xiàng)目和分析工具想要成功,需要綜合自然科學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué),以及具備高超的領(lǐng)導(dǎo)能力。在這個(gè)將異常復(fù)雜的任務(wù)分散給一組計(jì)算機(jī)處理的大數(shù)據(jù)時(shí)代,問題變成了「如何在研究人員之間布局分布式科學(xué)?」
「機(jī)器不可能組織數(shù)據(jù)科學(xué)的研究,」美國加州大學(xué)伯克利分校的統(tǒng)計(jì)學(xué)家于賓(音)說,「它必須靠人來引導(dǎo)。但目前沒人知道誰在引領(lǐng)數(shù)據(jù)科學(xué)行業(yè)?!勾髮W(xué)「非常封閉」,而數(shù)據(jù)科學(xué)不僅要跨學(xué)科,更要「超越學(xué)科界限」。
美國阿貢國家實(shí)驗(yàn)室的環(huán)境微生物學(xué)家杰克表示,大科學(xué)項(xiàng)目「不可能由一個(gè)人完成,而需要協(xié)同工作。但如何協(xié)作是一個(gè)大問題」。他曾幫助NEON開發(fā)了分析土壤樣品的標(biāo)準(zhǔn),并計(jì)劃在數(shù)據(jù)公開后繼續(xù)使用該數(shù)據(jù)。
傳統(tǒng)上,生態(tài)學(xué)只涉及小型、本地化的研究,檢查有機(jī)體同環(huán)境的相互作用,但在特定類型的問題上有其局限性,并反映在研究者的特定方法學(xué)上,而生態(tài)系統(tǒng)實(shí)際存在的巨大影響不可能由短期和小型項(xiàng)目來研究完成。
而大衛(wèi)領(lǐng)導(dǎo)的NEON項(xiàng)目,通過標(biāo)準(zhǔn)化的大規(guī)模數(shù)據(jù)監(jiān)測使得整個(gè)國土范圍內(nèi)的生態(tài)系統(tǒng)研究變得可行。他說,擁有大量豐富的數(shù)據(jù),將使得科學(xué)家能夠通過合作將真實(shí)世界的復(fù)雜性和多樣性進(jìn)行大尺度現(xiàn)象建模,而不是用簡化的模型糊弄一下。
生態(tài)學(xué)家大約于50年前第一次涉足大數(shù)據(jù)的世界,嘗試對大尺度系統(tǒng)進(jìn)行建模。雖然這得到了志愿者和國際合作伙伴的支持,但同時(shí)也受到傳統(tǒng)生態(tài)學(xué)者的嚴(yán)厲批評,他們對大數(shù)據(jù)模型和超大規(guī)模合作持懷疑態(tài)度。那時(shí)還缺乏現(xiàn)代的遙感技術(shù),和現(xiàn)在的計(jì)算能力、數(shù)據(jù)庫、數(shù)據(jù)存儲(chǔ)、遠(yuǎn)程通訊和互聯(lián)網(wǎng)絡(luò)。大部分生態(tài)學(xué)者不習(xí)慣集體工作,如何讓微生物學(xué)家與植物學(xué)家共事,如何讓水文學(xué)家與氣象學(xué)家共事,這些都是挑戰(zhàn)。但這些項(xiàng)目為類似NEON的新型合作方式開辟了道路。
大衛(wèi)對NEON基本想法成型于30年前他的職業(yè)生涯剛剛開始的時(shí)候,那時(shí),他要與化學(xué)家、植物學(xué)家和微生物學(xué)家們共享實(shí)驗(yàn)室空間和資源。在NEON的66名研究人員團(tuán)隊(duì)里,沒有哪兩個(gè)人做著同樣的事情。具有計(jì)算機(jī)、軟件工程、工程、天體物理等背景的人從不同學(xué)科角度共同處理數(shù)據(jù)。
在一個(gè)多樣性的團(tuán)隊(duì)中工作,研究人員必須樂于聆聽,去學(xué)習(xí)不同領(lǐng)域的知識,雖然講述者和收聽者也會(huì)因?yàn)檎J(rèn)識不同而產(chǎn)生分歧。
習(xí)慣于生產(chǎn)并共享開放數(shù)據(jù)及源代碼后,年輕的科學(xué)家們成長起來。NEON進(jìn)行的一項(xiàng)專業(yè)調(diào)查顯示:「獲得學(xué)位20年以內(nèi)的受訪者中,80%的人表示可能或者很可能用到NEON的開放數(shù)據(jù)?!?/p>
2012年,當(dāng)NEON進(jìn)入基礎(chǔ)建設(shè)階段后,由于對研究和科學(xué)計(jì)劃比對施工和執(zhí)行更有興趣,NEON的創(chuàng)始人大衛(wèi)離開了NEON,成了美國航天局噴射推進(jìn)實(shí)驗(yàn)室的「碳與氣候」項(xiàng)目的首席科學(xué)家,繼續(xù)他的大數(shù)據(jù)研究之路,使用太空觀測站監(jiān)測到的大數(shù)據(jù)進(jìn)行全球性的碳預(yù)算和生態(tài)系統(tǒng)研究。
大數(shù)據(jù)與營銷
奢侈品行業(yè)的RFID碼
PRADA在紐約的旗艦店中每件衣服上都有RFID碼。每當(dāng)顧客拿起一件衣服進(jìn)試衣間,RFID碼會(huì)被自動(dòng)識別和跟蹤。同時(shí),數(shù)據(jù)會(huì)被傳至PRADA總部,每一件衣服被試穿的時(shí)間、地點(diǎn)、時(shí)長等數(shù)據(jù)都被存儲(chǔ)起來并加以分析。如果有一款衣服被試穿的次數(shù)多,但卻賣得少,那就要深入分析其中的原因。
汽車的數(shù)據(jù)化
汽車的運(yùn)行信息被數(shù)據(jù)化后,意味著汽車成了配有傳統(tǒng)的輪子、方向盤和沙發(fā)的大型計(jì)算系統(tǒng),可以數(shù)字化導(dǎo)航、自動(dòng)駕駛,每一次維修、每一次駕駛路線、每一次事故的錄像、每一天汽車關(guān)鍵部件的狀態(tài)都能數(shù)據(jù)化,甚至你的每一個(gè)駕駛習(xí)慣都能一一記錄下來。
保險(xiǎn)公司需要調(diào)用你的汽車數(shù)據(jù)進(jìn)行建模分析,結(jié)論可能是你的車型好、車況好、駕駛習(xí)慣好,常走的線路事故率低,過去一年也沒有出過車禍,因此可以給予很大幅度的優(yōu)惠折扣。擁有大數(shù)據(jù)并使用大數(shù)據(jù)的保險(xiǎn)公司將比傳統(tǒng)公司更具競爭優(yōu)勢,而大數(shù)據(jù)將成為保險(xiǎn)公司最核心的競爭力。
大數(shù)據(jù)
指導(dǎo)生活
生活中很多時(shí)候其實(shí)可以用大數(shù)據(jù)思維來分析問題。比如,一個(gè)糖果廠按比例生產(chǎn)紅色和綠色兩種糖果。如果你喜歡紅色,討厭綠色,想多買紅色糖果,但糖果是包起來的,外面看不出來,那怎么才能知道這個(gè)糖果廠的生產(chǎn)比例是怎樣的?最簡單的模型就是,買100粒糖果全部剝開看看。比如有60粒紅色,我就得出結(jié)論說紅色比例是60%。買的糖果越多,估算出的比例和實(shí)際比例就越接近。另外,還可以考慮食用色素的價(jià)格對糖果顏色的影響。通過觀察紅綠兩色色素價(jià)格和糖果比例之間的關(guān)系,可以預(yù)測何時(shí)糖果廠會(huì)大量生產(chǎn)紅色糖果。當(dāng)然,實(shí)際情況會(huì)比這更復(fù)雜,比如還要考慮競爭對手的產(chǎn)品顏色,決策者的心情,天氣晴陰等等??紤]的因素越多,需要的數(shù)據(jù)也越多,也就需要大數(shù)據(jù)分析軟件來進(jìn)行分析。
路況直播
類似谷歌地圖這樣的導(dǎo)航APP,可以直接在地圖上顯示路況,這并不是說谷歌能直接拿到交管部門的實(shí)時(shí)數(shù)據(jù),而是根據(jù)谷歌地圖海量用戶的移動(dòng)速度,綜合得出的數(shù)據(jù)。
可穿戴設(shè)備與大數(shù)據(jù)
目前的可穿戴設(shè)備,基本包括四大類:1.運(yùn)動(dòng)和健康輔助類的,如國外的Jawbone Up、Nike+ Fuelband、Fitbit Flex,以及國內(nèi)的咕咚手環(huán)、大麥計(jì)步器等;2.可以不依附于智能手機(jī)的獨(dú)立智能設(shè)備,如iWatch、果殼智能手表等;3.作為互聯(lián)網(wǎng)輔助產(chǎn)品的,如Google Glass、百度Eye等;4.與物聯(lián)網(wǎng)密切相關(guān)的體感設(shè)備,如MYO等。
這些可穿戴設(shè)備大多數(shù)仍然是通過物理傳感器實(shí)現(xiàn)簡單的計(jì)步、計(jì)算運(yùn)動(dòng)量,甚至推送信息等,與生物傳感技術(shù)結(jié)合,將人體作為一種輸入甚至輸出的方式,最后通過其自身或通過手機(jī)APP的方式連接互聯(lián)網(wǎng),從而避免傳統(tǒng)電子產(chǎn)品信息孤島的宿命,實(shí)現(xiàn)獨(dú)立于智能手機(jī)之外的核心價(jià)值??纱┐髟O(shè)備的核心價(jià)值體現(xiàn)在其與云計(jì)算、大數(shù)據(jù)的關(guān)系上,其記錄的數(shù)據(jù)匯聚成大規(guī)模的數(shù)據(jù),帶給個(gè)人更美好的生活體驗(yàn)。
去哪兒機(jī)票地圖
在去哪兒網(wǎng)搜索機(jī)票,可以看到未來幾個(gè)月內(nèi)的大致機(jī)票價(jià)格,這種數(shù)據(jù)分析,就是基于以往幾年,各個(gè)地區(qū)各個(gè)時(shí)間段的機(jī)票價(jià)格分析總結(jié)出來的。早在2003年,美國的Farecast公司,就開始利用大數(shù)據(jù),預(yù)測機(jī)票的價(jià)格走勢以及升降幅度,能幫助消費(fèi)者抓住最佳購買時(shí)機(jī)。
報(bào)道:分析大數(shù)據(jù)找女友
據(jù)美國《連線》雜志報(bào)道,一位加州大學(xué)洛杉磯分校的博士生,通過對大規(guī)模數(shù)據(jù)處理和并行數(shù)值方法的博士論文研究,并在美國最大的在線約會(huì)網(wǎng)站OkCupid上實(shí)踐了大數(shù)據(jù)分析的理論,歷經(jīng)失敗和磨難后,最終找到了女朋友。
這位研究大數(shù)據(jù)的博士生叫克里斯·麥金萊,35歲,體型偏瘦,是4000萬名通過Match.com等在線約會(huì)婚戀網(wǎng)站的美國人中非常普通的一個(gè)。他上次分手后,在網(wǎng)上搜索、聯(lián)系了9個(gè)月后都沒有結(jié)果,直到他意識到自己應(yīng)該像一個(gè)數(shù)學(xué)家一樣去約會(huì)。
OkCupid的獨(dú)特之處在于,約會(huì)對象是通過計(jì)算方法來自動(dòng)匹配的;其門檻在于成員需要回答一系列廣泛涉及政治、宗教、生活、愛、性等方面的問題,然后才有機(jī)會(huì)和人約會(huì)。通常來說,用戶要從問題庫中選擇350個(gè)問題來回答。OkCupid的匹配引擎在分析了成員的回答數(shù)據(jù)后,計(jì)算出兩個(gè)人是否適合在一起。根據(jù)麥金萊的回答,在洛杉磯與他相互匹配比超過90%的女性不超過100位,而OkCupid洛杉磯地區(qū)的女性會(huì)員達(dá)8萬名。
為了提升與女性的匹配比,尤其是讓那些他喜歡的類型的女性能留意到他,他想主動(dòng)去篩選數(shù)據(jù),建立自己的新形象。
麥金萊在波士頓郊區(qū)長大,獲得過中文本科學(xué)位,后來喜歡上應(yīng)用數(shù)學(xué),就讀了個(gè)數(shù)學(xué)博士。他通過建立多個(gè)OkCupid賬戶,編寫程序腳本收集了1000位適齡女性會(huì)員的資料,在他的機(jī)器人賬號被網(wǎng)站封了以后,又想法子從美國各地獲得了2萬名女性的600萬個(gè)問題。于是,麥金萊甚至連論文都顧不上了,全身心地投入到分析女性用戶數(shù)據(jù)上。
他重點(diǎn)留意了一組多數(shù)看起來很獨(dú)立像是音樂人或藝術(shù)家的二十幾歲女生,和另一組從事編輯、設(shè)計(jì)等創(chuàng)造性工作的年齡稍大的女性,決定在這兩組女生中尋找目標(biāo),并針對這兩種類型的女生制作了兩份個(gè)人簡介,一份附上了他攀巖時(shí)的照片,另一份上是他在音樂演出時(shí)彈吉他的照片。
他通過每天成千次地訪問這些女性的首頁,來獲得大量的回訪。然后,他約會(huì)過網(wǎng)絡(luò)設(shè)計(jì)師、博客編輯、編劇專業(yè)學(xué)生等20個(gè)女生,等到他完成了55次約會(huì)后,他發(fā)現(xiàn)只和3個(gè)女孩發(fā)展到第二次約會(huì);只和一個(gè)發(fā)展到第三次約會(huì)。這樣的約會(huì)效率,無疑是很低的,這似乎沒顯出麥金萊精心準(zhǔn)備問題、分析數(shù)據(jù)的效果來。這也打擊了他的自尊心,甚至讓他懷疑起他的大數(shù)據(jù)分析來。
這時(shí)Christine Tien Wang給他留了言,麥金萊發(fā)現(xiàn)對方是一位28歲、在加州大學(xué)洛杉磯分校學(xué)習(xí)藝術(shù)的女孩,而他倆的匹配度達(dá)到了91%。他對她一見鐘情,倆人聊起書籍、藝術(shù)、音樂來。這是麥金萊第88個(gè)約會(huì)對象,兩周后他倆確定了關(guān)系,暫停他們的OkCupid帳戶。
一年后,麥金萊向Christine求婚成功,只是目前還未確定何時(shí)舉辦婚禮。
大數(shù)據(jù)促進(jìn)工作
谷歌將驗(yàn)證碼用到谷歌圖書館計(jì)劃
你在注冊或登錄網(wǎng)站時(shí),經(jīng)常會(huì)碰到被網(wǎng)站要求填寫證明你是人而非機(jī)器的驗(yàn)證碼。2000年,這項(xiàng)技術(shù)被發(fā)明時(shí)是為了防止垃圾郵件和不必要的騷擾。谷歌后來從另一個(gè)角度來使用這項(xiàng)技術(shù),谷歌要求用戶填寫驗(yàn)證碼時(shí),可能會(huì)將谷歌圖書掃描項(xiàng)目中不能被機(jī)器識別的字符隨機(jī)發(fā)送給5個(gè)人,這相當(dāng)于讓用戶在填寫驗(yàn)證碼的同時(shí),免費(fèi)為谷歌圖書掃描項(xiàng)目確認(rèn)字符。這項(xiàng)眾包技術(shù),據(jù)說每年能為谷歌省下十多億美元。
《紙牌屋》與大數(shù)據(jù)挖掘
最近,《紙牌屋》第二季已經(jīng)被國內(nèi)的視頻網(wǎng)站購得版權(quán),并被配上中文字幕由受眾觀看,尤其得到美劇愛好者的追捧。
Netflix推出的《紙牌屋》是大數(shù)據(jù)挖掘的一個(gè)典型例子。相較于其他有線電視臺(tái),Netflix有著優(yōu)異的數(shù)據(jù)分析能力和推薦系統(tǒng),對于用戶的了解甚至比任何導(dǎo)演都清楚?!都埮莆荨返漠a(chǎn)生過程就是深入分析用戶需求,然后再生產(chǎn)電視劇的過程。從美劇觀眾的喜好來分析,喜歡《美麗心靈》的喜歡《生活大爆炸》的可能性會(huì)更大,喜歡《臥虎藏龍》的喜歡《醉拳》的可能性也大。這種分析基本上沒錯(cuò),但Netflix公司著力提升推薦算法的準(zhǔn)確率,2006年推出了Netflix Prize 百萬美元大獎(jiǎng),就是讓用戶找到能夠提升其推薦算法10%的高級方法。
大數(shù)據(jù)改造社會(huì)
谷歌流感地圖
不得不說,2014年開始被廣大民眾熟知的百度的春節(jié)地圖,谷歌早在2009年就制作出了類似邏輯的流感地圖。谷歌通過分析5000萬條美國人最頻繁檢索的詞匯,和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù),通過分析人們的搜索記錄來判斷其是否患上了流感,由此建立了一個(gè)特定的數(shù)學(xué)模型。最終,通過這個(gè)數(shù)學(xué)模型,谷歌成功預(yù)測了2009年冬季流感的傳播,甚至可以具體到特定的地區(qū)和州。
用數(shù)據(jù)阻止犯罪
因?yàn)榇髷?shù)據(jù)技術(shù)的不斷發(fā)展,和分析軟件的成熟,美國的警察哪怕在現(xiàn)場得到極少的信息,也都能勾勒這些犯罪事件及其背后主謀者的輪廓,分析他們是否有自殺傾向,幫助警察預(yù)計(jì)可能出現(xiàn)的結(jié)果,并及時(shí)做出調(diào)整,挽救更多可能遭受傷害的民眾。
在大多數(shù)此類案件的深度研究中,研究者最近分析了美國所有在大規(guī)模襲擊后自殺的槍手襲擊前的生活和在犯罪現(xiàn)場的行為,有許多槍手的襲擊行為符合美國聯(lián)邦調(diào)查局對于恐怖主義的形式定義。關(guān)鍵的發(fā)現(xiàn)是那些符合定義的槍手極其不可能自己動(dòng)手自殺,而攻擊政府建筑的恐怖主義大規(guī)模襲擊者大多會(huì)死在警察手里。這是合情合理的,因?yàn)樽詺⑿钥植乐髁x者會(huì)竭盡全力掩蓋他們死亡的愿望。他們希望那些評判他們的人相信他們完全是由思想意識驅(qū)使的殺手,沒有自殺傾向。
不愿意射殺自己的行為并不適用于工作場所、學(xué)校和其他公共商業(yè)場所的襲擊者。在那些場景中,89%到91%的槍手以飲彈或服毒這樣自我傷害的方法自殺??植乐髁x襲擊、校園襲擊和其他公共場所的襲擊者,一般可能會(huì)留下自殺留言或一段揭示他們自殺傾向的說明。但由于自殺性恐怖主義者試圖掩蓋他們的精神疾病和真實(shí)意圖,過去20年美國大規(guī)模槍殺兇手的全部資料中僅有一名是自愿朝自己的頭開了一槍。
這些模式對于提高應(yīng)急響應(yīng)策略和挽救生命具有重要意義。比如,對在政府軍事設(shè)施或其他恐怖主義目標(biāo)發(fā)生的大規(guī)模槍擊做出響應(yīng)的警察應(yīng)該預(yù)見到犯罪者很有可能會(huì)讓警察射殺自己,并對可能發(fā)生的激烈交火導(dǎo)致的死傷做出應(yīng)對。但當(dāng)趕到諸如學(xué)校這樣的襲擊場所時(shí),警察應(yīng)對犯罪者施加更多緊迫的壓力。在那種情況下,槍手更有可能飲彈自盡或在被警察包圍時(shí)投降。
報(bào)道:網(wǎng)絡(luò)平臺(tái)和數(shù)據(jù)分析打擊人口販賣
根據(jù)最新的估算,包括違背自身意愿的性交易在內(nèi),被迫在農(nóng)業(yè)、工業(yè)和制造業(yè)勞役的被販賣人口全球約有2100萬,2012年為奴役者產(chǎn)生了高達(dá)320億美元的骯臟利潤。全世界有大量非政府組織在從事著解救被奴役者的人道主義工作,但還是得面對這種慘痛的現(xiàn)狀。
2013年,谷歌Ideas部門召開了一次會(huì)議,意在曝光、定位以及摧毀組織人口販賣等非法網(wǎng)絡(luò)的存在,并捐贈(zèng)300萬美元款項(xiàng),資助反人口販賣組織。雖然這些機(jī)構(gòu)各自具有高效的信息來源,然而他們之前并不共享資源。而谷歌運(yùn)用其大數(shù)據(jù)能力,將它們協(xié)同組織在一起。
谷歌的第一步計(jì)劃是:優(yōu)化人口販運(yùn)熱線的組織系統(tǒng),想方設(shè)法使它們「以數(shù)據(jù)導(dǎo)向的方式更高效地運(yùn)營」。比如,運(yùn)營著美國國家反人口販賣熱線的北極星項(xiàng)目,目前已經(jīng)運(yùn)用72000個(gè)電話數(shù)據(jù)來追蹤美國的人口販賣動(dòng)向。
「人販子很精明地使用高科技來犯罪,那么我們需要更熟練地運(yùn)用技術(shù)?!构雀杵煜碌拇壬茩C(jī)構(gòu)總監(jiān)杰奎琳這么表示。杰奎琳曾為蓋茨基金會(huì)服務(wù),在印度幫助人們開展預(yù)防艾滋病的行動(dòng),看到了人口販賣和性奴役的現(xiàn)實(shí)。2013年,谷歌贊助的北極星等機(jī)構(gòu)獲得了全球生態(tài)論壇頒發(fā)的「全球影響力獎(jiǎng)」,表彰他們運(yùn)用大數(shù)據(jù)這種現(xiàn)代工具,通過互聯(lián)網(wǎng)、電信網(wǎng)絡(luò)來打擊人口販賣的工作。
「人口販賣不是一個(gè)非常靜態(tài)或非常簡單的事情。有跡象表明,人口販賣者使用一些我們甚至還沒弄明白的技術(shù)。他們對這些技術(shù)已經(jīng)很熟練了,那么我們必須掌握比他們更先進(jìn)的技術(shù),使我們的工作更加高效?!贡睒O星項(xiàng)目的首席執(zhí)行官布拉德利這么表示。人販子利用社交媒體招徠不明就里的受害者,使用移動(dòng)設(shè)備內(nèi)置的GPS來追蹤其控制下的婦女,使用網(wǎng)絡(luò)群組作為販賣婦女和勞工的虛擬空間,或者強(qiáng)迫婦女參與網(wǎng)上直播的色情表演。
當(dāng)谷歌和北極星項(xiàng)目決定運(yùn)營反人口販運(yùn)熱線電話時(shí),他們不單是要做接受各種求助的信息中心,更要采用最新的數(shù)據(jù)分析技術(shù),將這些信息轉(zhuǎn)化成行動(dòng)。
數(shù)據(jù)分析反人口販賣
目前反人口販賣熱線的一個(gè)主要問題是,它們通常是相互隔絕、沒有信息共享的。波蘭的熱線電話收集到的記錄,與在洛杉磯收到的數(shù)據(jù)記錄是不同的,但它們之間可能存在某種聯(lián)系。
谷歌要做的一件事是使數(shù)據(jù)庫基礎(chǔ)設(shè)施標(biāo)準(zhǔn)化,所收集的數(shù)據(jù)只要是有用的,只要你能處理,就能用其來采取行動(dòng)。Palantir數(shù)據(jù)分析公司的軟件工程師就要做接下來的分析工作,該公司在2014年2月份的估值已達(dá)到了90億美元。
Palantir公司使全球反人口販運(yùn)熱線收到的數(shù)據(jù)都能發(fā)揮用處,一部分?jǐn)?shù)據(jù)即時(shí)響應(yīng),另一部分用于模式識別。即時(shí)響應(yīng)是指收到一個(gè)被迫賣淫者或被迫勞動(dòng)者的熱線電話或文本信息后,作出的即時(shí)應(yīng)對策略??赡苣莻€(gè)受害者只有乘人販子沒注意的幾分鐘時(shí)間求救,因此熱線電話的反應(yīng)速度必須夠快。Palantir公司的技術(shù)讓呼叫中心的接線員能很快看到受害者所處的地理區(qū)域,當(dāng)?shù)赜心男┓钦M織或執(zhí)法機(jī)構(gòu)能夠快速幫上忙,而減少了一些溝通時(shí)間。
除了這種強(qiáng)大的搜索和映射工具,受害者呼叫過來的相關(guān)數(shù)據(jù)還會(huì)自動(dòng)推送給熱線接線員,而不必由接線員手動(dòng)查詢。例如,如果受害者描述說她在某條道路某個(gè)位置上,是從道路左側(cè)的服務(wù)站打出電話的,那么,可能與該地點(diǎn)匹配的相關(guān)數(shù)據(jù)會(huì)自動(dòng)顯示在接線員的屏幕上。Palantir公司此前已經(jīng)集成了相關(guān)的地理位置信息和數(shù)據(jù),接線員可能在接到電話后的兩三分鐘就判斷出受害者所在的位置,而不是用十來分鐘甚至更長時(shí)間才能進(jìn)行判斷。原來要進(jìn)行的關(guān)鍵字搜索、地理搜索,都可以保存并在后臺(tái)自動(dòng)運(yùn)行。技術(shù)公司找出問題所在點(diǎn)后,政府機(jī)構(gòu)、執(zhí)法機(jī)關(guān)和非政府組織的工作者可以更好地對受害者進(jìn)行解救。
也許最重要的是,通過谷歌公司開發(fā)的系統(tǒng),可讓大數(shù)據(jù)在網(wǎng)絡(luò)開放平臺(tái)進(jìn)行共享,而這在過去是難以想象的。數(shù)據(jù)共享比我們想象的要困難。谷歌的開放平臺(tái)和Palantir公司的數(shù)據(jù)分析技術(shù)出現(xiàn)前,不同組織間的數(shù)據(jù)的大規(guī)模共享要么是全部共享,要么是一點(diǎn)都不共享。因?yàn)橐恍╆P(guān)鍵數(shù)據(jù)可能會(huì)在全球范圍內(nèi)侵犯一個(gè)人的公民自由權(quán)或各種人權(quán),根據(jù)法律,往往不被允許共享。比如,為了給某個(gè)名為瑪利亞的受害者增加一些單獨(dú)的信息,瑪麗亞原有的資料已經(jīng)列出她的個(gè)人信息,包括姓名、出生日期、現(xiàn)住址、原住址、電話號碼、母語,現(xiàn)在要增加一些其他信息,這可能已經(jīng)包含了她所在的位置,人販子的團(tuán)隊(duì)人數(shù),她的皮條客的名字,以及對他們的各種描述。這樣增加信息后的文件包含更多有價(jià)值的信息,是不能被隨便分享的,因?yàn)檫@涉及到受害者的私密信息,以及可能會(huì)被不法分子獲取。
在過去,類似的反人口販賣機(jī)構(gòu)相互傳遞信息時(shí),一個(gè)機(jī)構(gòu)可以打印出瑪利亞的文檔,然后通過掃描和傳真將其發(fā)給需求該信息的機(jī)構(gòu),但在大多數(shù)人口販賣案件中,時(shí)間和效率是至關(guān)重要的,因此通過落后的單件傳真的方式是很低效的。
而通過谷歌的開放平臺(tái)和Palantir公司的數(shù)據(jù)分析技術(shù),全球各地的人口販賣受害者的信息形成了大數(shù)據(jù),并通過一個(gè)非常精細(xì)的安全模型共享,這能阻止過度分享給個(gè)人隱私帶來的危害,又能盡可能地促進(jìn)信息的共享和傳播。例如,研究者在分析人口販賣在世界的某一地方的趨勢時(shí),沒有必要知道瑪麗亞的名字、電話號碼或地址,但她的籍貫、年齡或種族是非常重要的。Palantir公司的技術(shù)允許研究者進(jìn)行這樣的共享,使每一個(gè)分析師只得到其所需要的必要數(shù)據(jù)集,適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展需要。這就如微信,一方面可以點(diǎn)對點(diǎn)溝通,建立群組溝通,對所有朋友分享朋友圈的信息,也可以只對部分人開放信息,信息隱私和共享得到了精細(xì)的設(shè)置。
北極星項(xiàng)目的CEO邁爾斯對美國眾議院外交事務(wù)委員會(huì)說:「這個(gè)全球安全網(wǎng)不僅更容易為數(shù)以千萬計(jì)的人口販賣受害者提供熱線電話幫助,同時(shí)也告訴人們只有在準(zhǔn)備了充分的大數(shù)據(jù)儲(chǔ)備的基礎(chǔ)上,才能快速地對求助者提供幫助?!?/p>
數(shù)據(jù)引領(lǐng)健康
大數(shù)據(jù)的重要價(jià)值在于能在問題發(fā)生前預(yù)測性地給出答案,而這對預(yù)防疾病或者與病魔斗爭非常重要。通過一個(gè)人的飲食、生活習(xí)慣、居住條件、遺傳病史等數(shù)據(jù)進(jìn)行分析,就可以提前預(yù)判這個(gè)人是否會(huì)患某種病,在什么時(shí)候患病,在體檢時(shí)重點(diǎn)關(guān)注,并做好預(yù)防措施。喬布斯從患上胰腺癌到離世長達(dá)8年之久,幾乎創(chuàng)造了胰腺癌歷史上的奇跡,是因?yàn)閱滩妓乖诳拱┒窢幹兄Ц洞罅抠M(fèi)用對自身DNA和腫瘤DNA進(jìn)行排序,得到了包括整個(gè)基因密碼的數(shù)據(jù)文檔,醫(yī)生們可以根據(jù)喬布斯的特定基因組成按所需效果用藥,如果癌癥病變導(dǎo)致藥物失效,醫(yī)生可以及時(shí)更換另一種藥。
報(bào)道:一位晚期結(jié)腸癌患者的大數(shù)據(jù)治療
在大數(shù)據(jù)運(yùn)用到來之前,斯蒂芬妮是不幸的。
斯蒂芬妮是美國一家造船廠的管鉗工,和曾經(jīng)的電焊工特倫斯結(jié)了婚。后來,特倫斯參軍,2005年1月時(shí)被派往伊拉克。然后,斯蒂芬妮每天給特倫斯發(fā)郵件。不幸的是,在她懷孕7個(gè)月時(shí),特倫斯陣亡。她懷孕9個(gè)月時(shí),卡特里娜颶風(fēng)肆虐墨西哥灣沿岸,她在天災(zāi)中生下了瑪奇勒。到了2013年,斯蒂芬妮和特倫斯的第一個(gè)女兒凱姆莉已經(jīng)17歲,就讀于當(dāng)?shù)氐母咧?,再加上她的丈夫去世后才出生的瑪奇勒,她的生活本來還不算孤苦伶仃。然而,她卻突然被告知患了結(jié)腸癌。
因?yàn)檎煞虻囊蛩兀灿薪】当kU(xiǎn),并能夠進(jìn)美國基斯勒空軍基地醫(yī)療中心治病。2013年6月17日,她的腫瘤切除手術(shù)由主治醫(yī)生歐文·羅伯茨操刀。醫(yī)生說要從她的結(jié)腸切除腫瘤。手術(shù)本來進(jìn)行得很好,但醫(yī)生又發(fā)現(xiàn)癌細(xì)胞已經(jīng)擴(kuò)散至淋巴,而必須進(jìn)行化療。在進(jìn)入治療室后,她等著醫(yī)生為她化療。醫(yī)生開始為她的癌細(xì)胞已經(jīng)轉(zhuǎn)移而難過。
「我是不是要死了?」斯蒂芬妮問醫(yī)生。
「我不能回答這個(gè)問題?!贯t(yī)生說。接著,他告訴斯蒂芬妮,她的結(jié)腸癌已經(jīng)從第三階段進(jìn)入了第四階段,也就是說癌癥已經(jīng)惡化了。如果化療有效果的話,她還能活28個(gè)月,如果化療失敗的話,可能只能活6個(gè)月了。
「我還要回到學(xué)校進(jìn)修,我要讀完我的供應(yīng)鏈管理課程,」她的嗓音喑啞了,「我會(huì)找到一份工作,并做出一番事業(yè)的!我會(huì)再婚,我會(huì)看著我的女兒們長大嫁人,我會(huì)做個(gè)好外婆的!」然后,她落下了眼淚。「這不公平!瑪奇勒不能在10歲前失去雙親啊,這是不公平的!」
夏德特與大數(shù)據(jù)
在大數(shù)據(jù)技術(shù)到來之后,斯蒂芬妮的不幸開始伴隨著希望,而這希望,也源于夏德特的個(gè)性和稟賦,以及他對大數(shù)據(jù)的信心。夏德特出現(xiàn)在斯蒂芬妮的生活中是個(gè)偶然,但在大數(shù)據(jù)背景下,又不僅僅是個(gè)巧合的事情。
如果不了解夏德特的個(gè)性和成長歷程,恐怕也就無法理解斯蒂芬妮的不幸命運(yùn)中為何又摻雜著一線希望。
夏德特的履歷比較豐富。高中畢業(yè)時(shí),他加入了美國空軍,經(jīng)受過特種部隊(duì)的嚴(yán)酷訓(xùn)練,實(shí)現(xiàn)了自己兒時(shí)的夢想。他因?yàn)樵谲娭械膬?yōu)異數(shù)學(xué)表現(xiàn)而在離開軍隊(duì)后被送到大學(xué)學(xué)習(xí),在加州理工學(xué)院獲得了應(yīng)用數(shù)學(xué)和計(jì)算機(jī)科學(xué)的本科學(xué)位,并在加州大學(xué)戴維斯分校獲得了數(shù)學(xué)碩士。這對特種部隊(duì)出來的人來說,已經(jīng)非常優(yōu)秀了,然后,他最后還在加州大學(xué)洛杉磯分校獲得了生物數(shù)學(xué)方面的博士學(xué)位。在學(xué)術(shù)和工作方面,夏德特堅(jiān)持變化,主動(dòng)迎接挑戰(zhàn),但有些方面似乎永遠(yuǎn)不會(huì)改變。不管什么季節(jié),他都會(huì)穿著白色POLO衫和運(yùn)動(dòng)短褲去工作及會(huì)見朋友。
博士畢業(yè)后,夏德特在制藥巨頭默克公司找到了一份工作,逐漸成為醫(yī)療行業(yè)應(yīng)用大數(shù)據(jù)的代表人物之一。他在默克公司成功地推出多款新藥物,然而,他在實(shí)驗(yàn)室的發(fā)現(xiàn)又告訴他,諾貝爾獎(jiǎng)獲得者沃森和克里克闡明了DNA結(jié)構(gòu)后的分子生物學(xué)是有問題的。數(shù)十億美元的研究資金花在證明研究一個(gè)分子就能找出疾病的原因上,或者通過研究阿爾茨海默氏病患者的細(xì)胞來找出救治的原因。于是,夏德特告訴默克公司說,如果按照原來的判斷走下去最終是會(huì)失敗的,因?yàn)榧膊〉漠a(chǎn)生不是來自單個(gè)基因和通路,而是基因和通路的交互作用,這種交互作用只能由超級計(jì)算機(jī)的深?yuàn)W算法來測算。默克公司不認(rèn)同他的看法,于是夏德特前往硅谷這個(gè)重視數(shù)據(jù)的地方。
他加入了太平洋生物科學(xué)公司去做基因測序的工作。在那里,他通過成為合作者網(wǎng)絡(luò)的「樞紐」來測試他的網(wǎng)絡(luò)模型,并和亞馬遜公司合作了他的超級計(jì)算項(xiàng)目,他提出的映射病原體的想法,吸引了谷歌公司的關(guān)注。他還曾與美國哈佛大學(xué)的研究人員一起,找出了霍亂肆虐中的海地的應(yīng)變措施,并找到南亞國家的救援人員來幫助。他以為他的這些科學(xué)成就會(huì)使他得到足夠的風(fēng)險(xiǎn)投資,于是,他自己出來在加州大學(xué)舊金山分校做了一個(gè)實(shí)驗(yàn)室,但風(fēng)險(xiǎn)投資家并不想投錢給他,他們只想從中賺錢。夏德特自己也不想下那樣的賭注,他希望有人給他投資。
2011年的春天,他終于找到了有興趣投資他的曼哈頓東城醫(yī)學(xué)院,當(dāng)年7月,夏德特帶著他的家人從硅谷來到紐約,成為新創(chuàng)建的「基因組和生物多樣性研究所」的負(fù)責(zé)人,并將獲得1.5億美元用于未來的研究。
從某個(gè)方面來說,一切都發(fā)生了變化。夏德特現(xiàn)在手下有400個(gè)工作人員,在進(jìn)行9個(gè)基因測序,醫(yī)院地下室配有一部超級計(jì)算機(jī)。但在其他方面,他仍然穿著短褲,眼睛總是盯著筆記本電腦,辦公室的墻壁上貼著寫有復(fù)雜公式的紙條。最重要的是,他仍然是一個(gè)從不會(huì)說「不可能」,從不會(huì)拒絕什么的人。當(dāng)他得知,一位丈夫曾為國捐軀的婦女患了晚期結(jié)腸癌而一籌莫展時(shí),他說:「這正是我們需要研究的病人。」
其實(shí),這才可能是他從硅谷來到紐約的原因。他可能并不真正需要能同時(shí)測量9個(gè)基因序列的團(tuán)隊(duì),他可能真的不需要一部超級計(jì)算機(jī),因?yàn)樗缇鸵呀?jīng)和谷歌、亞馬遜一起做過超級計(jì)算機(jī)才能勝任的項(xiàng)目。他真正需要的東西,是他從來沒有過的。也就是說,他需要患者,他需要像斯蒂芬妮這樣的患者。
大數(shù)據(jù)分析救活結(jié)腸癌晚期患者
從她被診斷出結(jié)腸癌的那一刻,一個(gè)最迫切的問題在斯蒂芬妮的腦海里等待解答:結(jié)腸癌會(huì)遺傳嗎?當(dāng)她去網(wǎng)上了解結(jié)腸癌后,很驚訝地發(fā)現(xiàn),癌癥往往被描述為「老人的病」。夏德特讓他的伊坎研究所一個(gè)20人的研究小組對她進(jìn)行研究,并告訴她,如果研究結(jié)果顯示她易患結(jié)腸癌,那么她可能會(huì)將結(jié)腸癌遺傳給她的女兒。
通過對腫瘤細(xì)胞的數(shù)據(jù)分析,伊坎研究所的研究人員發(fā)現(xiàn)她的癌癥細(xì)胞有一種新型的基因片段。到了去年7月20日,斯蒂芬妮已經(jīng)做完了她的第三輪化療。醫(yī)生從接下來的化療開始給她服用阿瓦斯丁,目的是使癌細(xì)胞得不到血液中營養(yǎng)的供應(yīng)而「餓死」,以加強(qiáng)化療的效果。但阿瓦斯丁的副作用很大,包括會(huì)伴隨內(nèi)臟出血,斯蒂芬妮和她的醫(yī)生當(dāng)時(shí)并不清楚這種副作用。在夏德特對她的細(xì)胞基因進(jìn)行研究的同時(shí),她要到醫(yī)院繼續(xù)治療。斯蒂芬妮的體重從住院初期的99磅減為85磅。她被認(rèn)為是嚴(yán)重脫水,需要輸血?!高@階段的化療是非常困難的?!贯t(yī)生說?!傅谒碾A段的癌癥很可能是致命的?!瓜牡绿睾退难芯繄F(tuán)隊(duì)對斯蒂芬妮第四階段的腫瘤細(xì)胞進(jìn)行觀察和研究后,在顯微鏡下,他們發(fā)現(xiàn)了疑惑,認(rèn)為那些不是常見的癌細(xì)胞。
研究人員從斯蒂芬妮的血液樣本中提取出了癌細(xì)胞。而在基因測序的研究下,他們又找到了她從父母繼承下來的基因,以及基因突變后的基因數(shù)據(jù)。研究人員將斯蒂芬妮出生時(shí)的基因,與現(xiàn)在患癌癥后的基因進(jìn)行比較。結(jié)果,大數(shù)據(jù)分析證明她的癌癥是她從父母那兒遺傳下來的。
發(fā)現(xiàn)癌癥4個(gè)月后,斯蒂芬妮的腫瘤細(xì)胞已經(jīng)從她的結(jié)腸擴(kuò)散到她的肝臟。斯蒂芬妮被告知她可能僅僅還有6個(gè)月的生命。2013年10月9日,斯蒂芬妮在簽署了知情同意書后,被醫(yī)生切除了她的肝臟。醫(yī)生根據(jù)腫瘤細(xì)胞的擴(kuò)散情況,告訴她有40%的機(jī)會(huì)再活5年。在得到夏德特團(tuán)隊(duì)的基因測序和數(shù)據(jù)分析服務(wù)時(shí),斯蒂芬妮還同時(shí)在醫(yī)院進(jìn)行化療,她曾哭著求急診室的醫(yī)生告訴她,她是否快要死了。
然而到了2013年10月25日,她曾通過CT掃描確定的5個(gè)腫瘤,外科醫(yī)生只找到4個(gè)。其中一個(gè)腫瘤很小,另一個(gè)通過化療后已經(jīng)變得「模糊」,一個(gè)已經(jīng)死了,沒有病變的跡象,剩下的兩個(gè)活著的腫瘤位于她的肝臟,但肝臟切下后被快速冷凍,也就不可能影響到她的身體。
最后一次手術(shù)前,她的母親拉著她的手說:「我真為你感到驕傲?!?/p>
最后的手術(shù)非常成功,她有40%的可能再多活5年時(shí)間。她的幾個(gè)月的診治過程,運(yùn)用了一些人類已知的最強(qiáng)大的診斷工具,并將診斷過程中從癌細(xì)胞獲取的大數(shù)據(jù)進(jìn)行全面的研究和分析,夏德特和她的醫(yī)生相信最終有可能治好她。
對斯蒂芬妮來說,這已是不幸中的萬幸;對斯蒂芬妮的醫(yī)生來說,經(jīng)歷了晚期結(jié)腸癌而能幸存下來,算是一個(gè)奇跡;對夏德特和他的團(tuán)隊(duì)來說,通過對癌細(xì)胞大數(shù)據(jù)的挖掘和分析,使斯蒂芬妮能奇跡般地存活下來,這比在醫(yī)院里做純粹的科研更有成就感和價(jià)值?!肝蚁M?年后我們回首過往,會(huì)微笑面對所有一切磨難,因?yàn)椋瑢ξ襾碚f,大數(shù)據(jù)是新生命的開始。」
近幾個(gè)月以來的大數(shù)據(jù)創(chuàng)新
京東白條
2月13日,京東開放公測「京東白條」的申請。消費(fèi)者在京東購物時(shí),最多可以獲得1.5萬元的信用額度,「先消費(fèi)、后付款」,以及享有30天免息期或者3至12個(gè)月分期付款,且付款利率低于傳統(tǒng)銀行利率。
「京東白條」是大數(shù)據(jù)分析的產(chǎn)物,通過對用戶的消費(fèi)記錄、配送信息、退貨信息、購物評價(jià)等數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)評級,建立了京東自己的信用體系。正是基于大數(shù)據(jù)分析,「京東白條」可在1分鐘內(nèi)在線實(shí)時(shí)完成申請和授信過程,分期付款標(biāo)準(zhǔn)利率為每期5‰,僅為銀行類似業(yè)務(wù)的一半。公測以來,不少人在社交平臺(tái)上曬出了自己在京東的白條額度。
「綠鏡」視頻編輯功能
2013年11月,愛奇藝網(wǎng)站推出「綠鏡」視頻編輯功能。該功能能夠通過綜合分析用戶海量視頻觀看數(shù)據(jù),自動(dòng)判斷用戶喜好,并將精彩內(nèi)容抽離出來,生成受關(guān)注程度最高的「精華版」視頻,用戶進(jìn)入愛奇藝內(nèi)容播放頁即可選擇觀看完整視頻或綠鏡精華版內(nèi)容。
亞馬遜預(yù)判用戶購物
成立十多年來,亞馬遜已經(jīng)掌握了巨量的用戶購買行為信息,通過對這些大數(shù)據(jù)信息進(jìn)行分析,可以預(yù)見到用戶的購買行為,在他們實(shí)際下單前便將包裹發(fā)出。2014年初,亞馬遜就推出了這樣的服務(wù)。他們判斷是否提前發(fā)貨的數(shù)據(jù)信息包括:顧客此前的訂單、商品搜索記錄、心愿單、購物車,甚至包括用戶鼠標(biāo)在某商品頁面的停留時(shí)間。在用戶正式下單前,這些包裹仍會(huì)暫存在快遞公司的轉(zhuǎn)運(yùn)中心或卡車?yán)?,一旦用戶確認(rèn)購物,就能更快地收到包裹。