文/李國杰 程學(xué)旗
中國科學(xué)院計(jì)算技術(shù)研究所 北京 100190
近年來,大數(shù)據(jù)引起了產(chǎn)業(yè)界、科技界和政府部門的高度關(guān)注。2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計(jì)劃(Big Data Research and Development Initiative)”。這是繼1993年美國宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國政府認(rèn)為,大數(shù)據(jù)是“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志,這對未來的科技與經(jīng)濟(jì)發(fā)展必將帶來深遠(yuǎn)影響。
人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時代[1,16]。以數(shù)據(jù)為中心的傳統(tǒng)學(xué)科(如基因組學(xué)、蛋白組學(xué),天體物理學(xué)和腦科學(xué)等)的研究產(chǎn)生了越來越多的數(shù)據(jù)。例如,用電子顯微鏡重建大腦中的突觸網(wǎng)絡(luò),1立方毫米大腦的圖像數(shù)據(jù)就超過1PB。但近年來大數(shù)據(jù)的飆升主要還是來自日常生活,特別是互聯(lián)網(wǎng)公司的服務(wù)。據(jù)著名咨詢公司IDC的統(tǒng)計(jì),2011年全球被創(chuàng)建和復(fù)制的數(shù)據(jù)總量為1.8ZB(10的21次方),其中75%來自于個人(主要是圖片、視頻和音樂),遠(yuǎn)遠(yuǎn)超過人類有史以來所有印刷材料的數(shù)據(jù)總量(200PB)[11]。Google公司通過大規(guī)模集群和MapReduce軟件,每月處理的數(shù)據(jù)量超過400PB;百度每天大約要處理幾十PB數(shù)據(jù);Facebook注冊用戶超過10億,每月上傳的照片超過10億張,每天生成300TB以上的日志數(shù)據(jù);淘寶網(wǎng)會員超過3.7億,在線商品超過8.8億,每天交易數(shù)千萬筆,產(chǎn)生約20TB數(shù)據(jù)。傳感網(wǎng)和物聯(lián)網(wǎng)的蓬勃發(fā)展是大數(shù)據(jù)的又一推動力,各個城市的視頻監(jiān)控每時每刻都在采集巨量的流媒體數(shù)據(jù)。工業(yè)設(shè)備的監(jiān)控也是大數(shù)據(jù)的重要來源。例如,勞斯萊斯公司對全世界數(shù)以萬計(jì)的飛機(jī)引擎進(jìn)行實(shí)時監(jiān)控,每年傳送PB數(shù)量級的數(shù)據(jù)。
一般意義上,大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4個V,即Volume(體量浩大)、Variety(模態(tài)繁多)、Velocity(生成快速)和Value(價值巨大但密度很低)。首先,數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級,甚至開始以EB和ZB來計(jì)數(shù)。IDC的研究報(bào)告稱,未來10年全球大數(shù)據(jù)將增加50倍,管理數(shù)據(jù)倉庫的服務(wù)器數(shù)量將增加10倍[11]。其次,大數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?,F(xiàn)代互聯(lián)網(wǎng)應(yīng)用呈現(xiàn)出非結(jié)構(gòu)化數(shù)據(jù)大幅增長的特點(diǎn),至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例將達(dá)到整個數(shù)據(jù)量的75%以上。同時,由于數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在,使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在。再次,大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強(qiáng)的時效性,用戶只有把握好對數(shù)據(jù)流的掌控才能有效利用這些數(shù)據(jù)。另外,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。最后,雖然數(shù)據(jù)的價值巨大,但是基于傳統(tǒng)思維與技術(shù),人們在實(shí)際環(huán)境中往往面臨信息泛濫而知識匱乏的窘態(tài),大數(shù)據(jù)的價值利用密度低。
毫無疑問,大數(shù)據(jù)隱含著巨大的社會、經(jīng)濟(jì)、科研價值,已引起了各行各業(yè)的高度重視[14,15,17]。如果能有效地組織和使用大數(shù)據(jù),將對社會經(jīng)濟(jì)和科學(xué)研究發(fā)展產(chǎn)生巨大的推動作用,同時也孕育著前所未有的機(jī)遇。著名的O'Reilly公司斷言:“數(shù)據(jù)是下一個‘Intel Inside’,未來屬于將數(shù)據(jù)轉(zhuǎn)換成產(chǎn)品的公司和人們?!?/p>
IBM、Oracle、Microsoft、Google、Amazon、Facebook等跨國巨頭是發(fā)展大數(shù)據(jù)處理技術(shù)的主要推動者。自2005年以來,IBM投資160億美元進(jìn)行了30次與大數(shù)據(jù)有關(guān)的收購,促使其業(yè)績穩(wěn)定高速增長。2012年,IBM股價突破200美元大關(guān),3年之內(nèi)股價翻了3倍。華爾街早就開始招聘精通數(shù)據(jù)分析的天文學(xué)家和理論數(shù)學(xué)家來設(shè)計(jì)金融產(chǎn)品。IBM現(xiàn)在是全球數(shù)學(xué)博士的最大雇主,數(shù)學(xué)家正在將其數(shù)據(jù)分析的才能應(yīng)用于石油勘探、醫(yī)療健康等各個領(lǐng)域。eBay通過數(shù)據(jù)挖掘可精確計(jì)算出廣告中的每一個關(guān)鍵字為公司帶來的回報(bào)。通過對廣告投放的優(yōu)化,2007年以來eBay產(chǎn)品銷售的廣告費(fèi)降低了99%,而頂級賣家占總銷售額的百分比卻上升至32%。目前推動大數(shù)據(jù)研究的動力主要是企業(yè)經(jīng)濟(jì)效益,巨大的經(jīng)濟(jì)利益驅(qū)使大企業(yè)不斷擴(kuò)大數(shù)據(jù)處理規(guī)模[14,15,17]。
近幾年,Nature和Science等國際頂級學(xué)術(shù)刊物相繼出版??瘉韺iT探討對大數(shù)據(jù)的研究[6-9]。2008年Nature出版專刊“Big Data”[6],從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、超級計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with da?ta”[7],討論了數(shù)據(jù)洪流(Data Deluge)所帶來的挑戰(zhàn),特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用。2012年4月歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會會刊ERCIM News出版專刊“Big Data”[9],討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新技術(shù)等問題,并介紹了歐洲科研機(jī)構(gòu)開展的研究活動和取得的創(chuàng)新性進(jìn)展。在這樣的大背景下,2012年5月,香山科學(xué)會議組織了以“大數(shù)據(jù)科學(xué)與工程——一門新興的交叉學(xué)科?”為主題的第424次學(xué)術(shù)討論會,來自國內(nèi)外35個單位橫跨IT、經(jīng)濟(jì)、管理、社會、生物等多個不同學(xué)科領(lǐng)域的43位專家代表參會,并就大數(shù)據(jù)的理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進(jìn)行了深入討論。6月,中國計(jì)算機(jī)學(xué)會青年計(jì)算機(jī)科技論壇(CCF YOCSEF)舉辦了“大數(shù)據(jù)時代,智謀未來”學(xué)術(shù)報(bào)告會,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論??傮w而言,大數(shù)據(jù)技術(shù)及相應(yīng)的基礎(chǔ)研究已經(jīng)成為科技界的研究熱點(diǎn),大數(shù)據(jù)科學(xué)作為一個橫跨信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等諸多領(lǐng)域的新興交叉學(xué)科方向正在逐步形成。
大數(shù)據(jù)同時也引起了包括美國在內(nèi)的許多國家政府的極大關(guān)注。如前所述,2012年3月,美國公布了“大數(shù)據(jù)研發(fā)計(jì)劃”[13]。該計(jì)劃旨在提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識的能力,進(jìn)而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國家安全。根據(jù)該計(jì)劃,美國國家科學(xué)基金會(NSF)、國立衛(wèi)生研究院(NIH)、國防部(DOD)、能源部(DOE)、國防部高級研究計(jì)劃局(DARPA)、地質(zhì)勘探局(USGS)6個聯(lián)邦部門和機(jī)構(gòu)共同提高收集、儲存、保留、管理、分析和共享海量數(shù)據(jù)所需的核心技術(shù),擴(kuò)大大數(shù)據(jù)技術(shù)開發(fā)和應(yīng)用所需人才的供給。該計(jì)劃還強(qiáng)調(diào),大數(shù)據(jù)技術(shù)事關(guān)美國國家安全、科學(xué)和研究的步伐,將引發(fā)教育和學(xué)習(xí)的變革。歐盟方面也有類似的舉措。過去幾年歐盟已對科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施投資1億多歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon 2020計(jì)劃的優(yōu)先領(lǐng)域之一。2012年1月截止的預(yù)算為5000萬歐元的FP7 Call 8專門征集針對大數(shù)據(jù)的研究項(xiàng)目,仍以基礎(chǔ)設(shè)施為先導(dǎo)[9]。縱觀國際形勢,對大數(shù)據(jù)的研究與應(yīng)用已引起各國政府的高度重視,并已成為重要的戰(zhàn)略布局方向。
大數(shù)據(jù)是與自然資源、人力資源一樣重要的戰(zhàn)略資源,是一個國家數(shù)字主權(quán)的體現(xiàn)。大數(shù)據(jù)時代,國家層面的競爭力將部分體現(xiàn)為一國擁有大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋、運(yùn)用的能力。一個國家在網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將是繼海、陸、空、天之后另一個大國博弈的空間。在大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),意味著數(shù)字主權(quán)無險可守,意味著國家安全將出現(xiàn)漏洞。大數(shù)據(jù)將直接影響國家和社會穩(wěn)定,是關(guān)系國家安全的戰(zhàn)略性問題。因此,我國應(yīng)盡快研究并制定我們國家的大數(shù)據(jù)戰(zhàn)略。
大數(shù)據(jù)是現(xiàn)有產(chǎn)業(yè)升級與新產(chǎn)業(yè)誕生的重要推動力量。數(shù)據(jù)為王的大數(shù)據(jù)時代的到來,產(chǎn)業(yè)界需求與關(guān)注點(diǎn)發(fā)生了重大轉(zhuǎn)變:企業(yè)關(guān)注的重點(diǎn)轉(zhuǎn)向數(shù)據(jù),計(jì)算機(jī)行業(yè)正在轉(zhuǎn)變?yōu)檎嬲男畔⑿袠I(yè),從追求計(jì)算速度轉(zhuǎn)變?yōu)殛P(guān)注大數(shù)據(jù)處理能力,軟件也將從編程為主轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。大數(shù)據(jù)處理的興起也改變了云計(jì)算的發(fā)展方向,使其進(jìn)入以分析即服務(wù)(AaaS)為主要標(biāo)志的Cloud 2.0時代。采用大數(shù)據(jù)處理方法,生物制藥、新材料研制生產(chǎn)的流程會發(fā)生革命性的變化,可以通過數(shù)據(jù)處理能力極高的計(jì)算機(jī)并行處理,同時進(jìn)行大批量的仿真比較和篩選,大大提高科研和生產(chǎn)效率,甚至使整個行業(yè)邁入數(shù)字化與信息化的新階段。數(shù)據(jù)已成為與礦物和化學(xué)元素一樣的原始材料,未來可能形成數(shù)據(jù)服務(wù)、數(shù)據(jù)探礦、數(shù)據(jù)化學(xué)、數(shù)據(jù)材料、數(shù)據(jù)制藥等一系列戰(zhàn)略性的新興產(chǎn)業(yè)。
大數(shù)據(jù)還引起了科技界對科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場革命。最早的科學(xué)研究只有實(shí)驗(yàn)科學(xué),隨后出現(xiàn)了以研究各種定律和定理為特征的理論科學(xué)。由于理論分析方法在許多問題上過于復(fù)雜,難以解決實(shí)際問題,人們開始尋求模擬的方法,導(dǎo)致計(jì)算科學(xué)的興起。海量數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對海量數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象。2007年,已故的圖靈獎得主吉姆·格雷(Jim Gray)在他最后一次演講中描繪了數(shù)據(jù)密集型科學(xué)研究的“第四范式”(The Fourth Paradigm)[5],把數(shù)據(jù)密集型科學(xué)從計(jì)算科學(xué)中單獨(dú)區(qū)分開來。格雷認(rèn)為,要解決我們面臨的某些最棘手的全球性挑戰(zhàn),“第四范式”可能是唯一具有系統(tǒng)性的方法。其實(shí),“第四范式”不僅是科研方式的轉(zhuǎn)變,也是人們思維方式的大變化。
計(jì)算機(jī)科學(xué)是關(guān)于算法的科學(xué),數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)。從事數(shù)據(jù)科學(xué)研究的學(xué)者更關(guān)注數(shù)據(jù)的科學(xué)價值,試圖把數(shù)據(jù)當(dāng)成一個“自然體(Data nature)”來研究,提出所謂“數(shù)據(jù)界(Data universe)”的概念,頗有把計(jì)算機(jī)科學(xué)劃歸為自然科學(xué)的傾向。但脫離各個領(lǐng)域的“物理世界”,作為客觀事物間接存在形式的“數(shù)據(jù)界”究竟有什么共性問題還不清楚。物理世界在網(wǎng)絡(luò)空間中有其數(shù)據(jù)映像,目前一些學(xué)者認(rèn)為,數(shù)據(jù)界的規(guī)律其本質(zhì)可能是物理世界的規(guī)律(還需要在物理世界中測試驗(yàn)證)。除去各個領(lǐng)域的規(guī)律,作為映像的“數(shù)據(jù)界”還有其獨(dú)特的共同規(guī)律嗎?這是一個值得深思的問題。
任何領(lǐng)域的研究,若要成為一門科學(xué),一定是研究共性的問題。針對非常狹窄領(lǐng)域的某個具體問題,主要依靠該問題涉及的特殊條件和專門知識做數(shù)據(jù)挖掘,不大可能使大數(shù)據(jù)成為一門科學(xué)。數(shù)據(jù)研究能成為一門科學(xué)的前提是,在一個領(lǐng)域發(fā)現(xiàn)的數(shù)據(jù)相互關(guān)系和規(guī)律具有可推廣到其他領(lǐng)域的普適性。抽象出一個領(lǐng)域的共性科學(xué)問題往往需要較長的時間,提煉“數(shù)據(jù)界”的共性科學(xué)問題還需要一段時間的實(shí)踐積累。至少未來5—10年內(nèi)計(jì)算機(jī)界的學(xué)者還需多花精力協(xié)助其他領(lǐng)域的學(xué)者解決大數(shù)據(jù)帶來的技術(shù)挑戰(zhàn)問題。通過分層次的不斷抽象,大數(shù)據(jù)的共性科學(xué)問題才會逐步清晰明朗。
當(dāng)前數(shù)據(jù)科學(xué)的目標(biāo)還不很明確,但與其他學(xué)科一樣,科學(xué)研究的道路常常是先做“白盒研究”,知識積累多了就有可能抽象出通用性較強(qiáng)的“黑盒模型”和普適規(guī)律。數(shù)據(jù)庫理論是一個很好的例子。在經(jīng)歷了層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫多年實(shí)踐后,Codd[18]發(fā)現(xiàn)了數(shù)據(jù)庫應(yīng)用的共性規(guī)律,建立了有堅(jiān)實(shí)理論基礎(chǔ)的關(guān)系模型。在這之前人們也一直在問數(shù)據(jù)庫可不可能有共性的理論?,F(xiàn)在大數(shù)據(jù)研究要做的事就是提出像關(guān)系數(shù)據(jù)庫這樣的理論來指導(dǎo)海量非結(jié)構(gòu)化數(shù)據(jù)的處理。
信息技術(shù)的發(fā)展使我們逐步進(jìn)入“人-機(jī)-物”融合的三元世界,未來的世界可以做到“機(jī)中有人,人中有機(jī),物中有機(jī),機(jī)中有物”。所謂“機(jī)”就是聯(lián)系人類社會(包括個人身體與大腦)與物理世界的網(wǎng)絡(luò)空間,其最基本的構(gòu)成元素是不同于原子和神經(jīng)元的bit。物理空間和人類社會(包括人的大腦)都有共性的科學(xué)問題和規(guī)律,與這兩者有密切聯(lián)系的網(wǎng)絡(luò)空間會不會有不同的共性科學(xué)問題?從“人-機(jī)-物”三元世界的角度來探討大數(shù)據(jù)科學(xué)的共性問題,也許是一個可以嘗試的突破口。
觀察各種復(fù)雜系統(tǒng)得到的大數(shù)據(jù),直接反映的往往是一個個孤立的數(shù)據(jù)和分散的鏈接,但這些反映相互關(guān)系的鏈接整合起來就是一個網(wǎng)絡(luò)。例如,基因數(shù)據(jù)構(gòu)成基因網(wǎng)絡(luò),腦科學(xué)實(shí)驗(yàn)數(shù)據(jù)形成神經(jīng)網(wǎng)絡(luò),Web數(shù)據(jù)反映出社會網(wǎng)絡(luò)。數(shù)據(jù)的共性、網(wǎng)絡(luò)的整體特征隱藏在數(shù)據(jù)網(wǎng)絡(luò)中,大數(shù)據(jù)往往以復(fù)雜關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)這樣一種獨(dú)特的形式存在,因此要理解大數(shù)據(jù)就要對大數(shù)據(jù)后面的網(wǎng)絡(luò)進(jìn)行深入分析。網(wǎng)絡(luò)有不少參數(shù)和性質(zhì),如平均路徑長度、度分布、聚集系數(shù)、核數(shù)、介數(shù)等,這些性質(zhì)和參數(shù)也許能刻畫大數(shù)據(jù)背后網(wǎng)絡(luò)的共性。因此,大數(shù)據(jù)面臨的科學(xué)問題本質(zhì)上可能就是網(wǎng)絡(luò)科學(xué)問題,復(fù)雜網(wǎng)絡(luò)分析應(yīng)該是數(shù)據(jù)科學(xué)的重要基石。
目前,研究Web數(shù)據(jù)的學(xué)者以復(fù)雜網(wǎng)絡(luò)上的數(shù)據(jù)(信息)傳播機(jī)理、搜索、聚類、同步和控制作為主要研究方向。最新的研究成果表明[4],隨機(jī)的Scale-free網(wǎng)絡(luò)不是一般的“小世界”,而是“超小世界(Ultrasmall world)”,規(guī)模為N的網(wǎng)絡(luò)的最短路徑的平均長度不是一般小世界的lnN而是lnlnN。網(wǎng)絡(luò)數(shù)據(jù)研究應(yīng)發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生、傳播以及網(wǎng)絡(luò)信息涌現(xiàn)的內(nèi)在機(jī)制,還要研究隱藏在數(shù)據(jù)背后的社會學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)的機(jī)理,同時利用這些機(jī)理研究互聯(lián)網(wǎng)對政治、經(jīng)濟(jì)、文化、教育、科研的影響?;诖髷?shù)據(jù)對復(fù)雜系統(tǒng)內(nèi)在機(jī)理進(jìn)行整體性的研究,也許將為研究復(fù)雜系統(tǒng)提供新的途徑。從這種意義上看,數(shù)據(jù)科學(xué)是從整體上研究復(fù)雜系統(tǒng)的一門科學(xué)。
發(fā)現(xiàn)Scale-free網(wǎng)絡(luò)的Albert-László Barabási教授在2012年1月的Nature Phys?ics上發(fā)表一篇重要文章“The network take?over”[3]。文章認(rèn)為:20世紀(jì)是量子力學(xué)的世紀(jì),從電子學(xué)到天文物理學(xué),從核能到量子計(jì)算,都離不開量子力學(xué);而到了21世紀(jì),網(wǎng)絡(luò)理論正在成為量子力學(xué)的可尊敬的后繼,正在構(gòu)建一個新的理論和算法的框架。
大數(shù)據(jù)研究不同于傳統(tǒng)的邏輯推理研究,而是對數(shù)量巨大的數(shù)據(jù)做統(tǒng)計(jì)性的搜索、比較、聚類、分類等分析歸納,因此繼承了統(tǒng)計(jì)科學(xué)的一些特點(diǎn)。統(tǒng)計(jì)學(xué)關(guān)注數(shù)據(jù)的相關(guān)性或稱關(guān)聯(lián)性,所謂“相關(guān)性”是指兩個或兩個以上變量的取值之間存在某種規(guī)律性。“相關(guān)分析”的目的是找出數(shù)據(jù)集里隱藏的相互關(guān)系網(wǎng)(關(guān)聯(lián)網(wǎng)),一般用支持度、可信度、興趣度等參數(shù)反映相關(guān)性。兩個數(shù)據(jù)A和B有相關(guān)性,只有反映A和B在取值時相互有影響,并不能告訴我們有A就一定有B,或者反過來有B就一定有A。嚴(yán)格來講,統(tǒng)計(jì)學(xué)無法檢驗(yàn)邏輯上的因果關(guān)系。如,根據(jù)統(tǒng)計(jì)結(jié)果:可以說“吸煙的人群肺癌發(fā)病率會比不吸煙的人群高幾倍”,但統(tǒng)計(jì)結(jié)果無法得出“吸煙致癌”的邏輯結(jié)論。統(tǒng)計(jì)學(xué)的相關(guān)性有時可能會產(chǎn)生把結(jié)果當(dāng)成原因的錯覺。如,統(tǒng)計(jì)結(jié)果表明:下雨之前常見到燕子低飛,從時間先后看兩者的關(guān)系可能得出燕子低飛是下雨的原因,而事實(shí)上,將要下雨才是燕子低飛的原因。
也許正是因?yàn)榻y(tǒng)計(jì)方法不能致力于尋找真正的原因,才促使數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)在商業(yè)領(lǐng)域廣泛流行。企業(yè)的目標(biāo)是多賺錢,只要從數(shù)據(jù)挖掘中發(fā)現(xiàn)某種措施與增加企業(yè)利潤有較強(qiáng)的相關(guān)性,采取這種措施就是了,不必深究為什么能增加利潤,更不必發(fā)現(xiàn)其背后的內(nèi)在規(guī)律和模型。一般而言,企業(yè)收集和處理大數(shù)據(jù),不是按學(xué)者們經(jīng)常描述的“從數(shù)據(jù)到信息再到知識和智慧”的研究思路,而是走“從數(shù)據(jù)直接到價值”的捷徑。Google廣告獲得巨額收入經(jīng)常被引用作為大數(shù)據(jù)相關(guān)分析的成功案例,美國Wired雜志主編Chris Anderson在他的著名文章“The End of Theory”的結(jié)尾發(fā)問:“現(xiàn)在是時候問這一句了:科學(xué)能從谷歌那兒學(xué)到什么?”[2]。
因果關(guān)系的研究曾引發(fā)了科學(xué)體系的建立,近代科學(xué)體系獲得的成就已經(jīng)證明,科學(xué)是研究因果關(guān)系最重要的手段。相關(guān)性研究是可以替代因果分析的科學(xué)新發(fā)展還只是因果分析的補(bǔ)充,不同的學(xué)者有完全不同的看法。我們都是從做平面幾何證明題開始進(jìn)入科學(xué)大花園的,腦子里固有的邏輯思維模式少不了因果分析,判斷是否是真理也習(xí)慣看充分必要條件,對于大數(shù)據(jù)的關(guān)聯(lián)分析蘊(yùn)含的科學(xué)意義往往理解不深。對于簡單封閉的系統(tǒng),基于小數(shù)據(jù)的因果分析容易做到。當(dāng)年開普勒發(fā)現(xiàn)行星三大定律,牛頓發(fā)現(xiàn)力學(xué)三大定律都是基于小數(shù)據(jù)。但對于開放復(fù)雜的巨系統(tǒng),傳統(tǒng)的因果分析難以奏效,因?yàn)橄到y(tǒng)中各個組成部分之間相互有影響,可能互為因果,因果關(guān)系隱藏在整個系統(tǒng)之中?,F(xiàn)在的“因”可能是過去的“果”,此處的“果”也可能是別處的“因”,因果關(guān)系本質(zhì)上是一種相互糾纏的相關(guān)性。在物理學(xué)的基本粒子理論中,頗受重視的歐幾里德量子引力學(xué)(霍金所倡導(dǎo)的理論)本身并不包括因果律。因此,對于大數(shù)據(jù)的關(guān)聯(lián)分析是不是“知其然而不知其所以然”,其中可能包含深奧的哲理,不能貿(mào)然下結(jié)論。
根據(jù)數(shù)據(jù)的來源,大數(shù)據(jù)可以初略地分成兩大類:一類來自物理世界,另一類來自人類社會。前者多半是科學(xué)實(shí)驗(yàn)數(shù)據(jù)或傳感數(shù)據(jù),后者與人的活動有關(guān)系,特別是與互聯(lián)網(wǎng)有關(guān)。這兩類數(shù)據(jù)的處理方式和目標(biāo)差別較大,不能照搬處理科學(xué)實(shí)驗(yàn)數(shù)據(jù)的方法來處理Web數(shù)據(jù)。
科學(xué)實(shí)驗(yàn)是科技人員設(shè)計(jì)的,如何采集數(shù)據(jù)、處理數(shù)據(jù)事先都已想好了,不管是檢索還是模式識別,都有一定的科學(xué)規(guī)律可循。美國的大數(shù)據(jù)研究計(jì)劃中專門列出尋找希格斯粒子(被稱為“上帝粒子”)的大型強(qiáng)子對撞機(jī)(LHC)實(shí)驗(yàn)。這是一個典型的基于大數(shù)據(jù)的科學(xué)實(shí)驗(yàn),至少要在1萬億個事例中才可能找出1個希格斯粒子。2012年7月4日,CERN宣布發(fā)現(xiàn)新的玻色子,標(biāo)準(zhǔn)差為4.9,被認(rèn)為可能是希格斯玻色子(承認(rèn)是希格斯玻色子粒子需要5個標(biāo)準(zhǔn)差,即99.99943%的可能性是對的)[12]。設(shè)計(jì)這一實(shí)驗(yàn)的激動人心之處在于,不論找到還是沒有找到希格斯粒子,都是物理學(xué)的重大突破。從這一實(shí)驗(yàn)可以看出,科學(xué)實(shí)驗(yàn)的大數(shù)據(jù)處理是整個實(shí)驗(yàn)的一個預(yù)定步驟,發(fā)現(xiàn)有價值的信息往往在預(yù)料之中。
Web上的信息(譬如微博)是千千萬萬的人隨機(jī)產(chǎn)生的,從事社會科學(xué)研究的學(xué)者要從這些看似雜亂無章的數(shù)據(jù)中尋找有價值的蛛絲馬跡。網(wǎng)絡(luò)大數(shù)據(jù)有許多不同于自然科學(xué)數(shù)據(jù)的特點(diǎn),包括多源異構(gòu)、交互性、時效性、社會性、突發(fā)性和高噪聲等,不但非結(jié)構(gòu)化數(shù)據(jù)多,而且數(shù)據(jù)的實(shí)時性強(qiáng),大量數(shù)據(jù)都是隨機(jī)動態(tài)產(chǎn)生??茖W(xué)數(shù)據(jù)的采集一般代價較高,LHC實(shí)驗(yàn)設(shè)備花了幾十億美元,因此對采集什么數(shù)據(jù)要做精心安排。而網(wǎng)絡(luò)數(shù)據(jù)的采集相對成本較低,網(wǎng)上許多數(shù)據(jù)是重復(fù)的或者沒有價值,價值密度很低。一般而言,社會科學(xué)的大數(shù)據(jù)分析,特別是根據(jù)Web數(shù)據(jù)做經(jīng)濟(jì)形勢、安全形勢、社會群體事件的預(yù)測,比科學(xué)實(shí)驗(yàn)的數(shù)據(jù)分析更困難。
未來的任務(wù)主要不是獲取越來來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,從數(shù)據(jù)中挖掘知識。幾百年來,科學(xué)研究一直在做“從薄到厚”的事情,把“小數(shù)據(jù)”變成“大數(shù)據(jù)”,現(xiàn)在要做的事情是“從厚到薄”,要把大數(shù)據(jù)變成小數(shù)據(jù)。要在不明顯增加采集成本的條件下盡可能提高數(shù)據(jù)的質(zhì)量。要研究如何科學(xué)合理地抽樣采集數(shù)據(jù),減少不必要的數(shù)據(jù)采集。兩三歲的小孩學(xué)習(xí)識別動物和汽車等,往往幾十張樣本圖片就足夠了,研究清楚人類為什么具有小數(shù)據(jù)學(xué)習(xí)能力,對開展大數(shù)據(jù)分析研究具有深刻的指導(dǎo)意義。
近10年來增長最快的數(shù)據(jù)是網(wǎng)絡(luò)上傳播的各種非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)的背后是相互聯(lián)系的各種人群,網(wǎng)絡(luò)大數(shù)據(jù)的處理能力直接關(guān)系到國家的信息空間安全和社會穩(wěn)定[10]。從心理學(xué)、經(jīng)濟(jì)學(xué)、信息科學(xué)等不同學(xué)科領(lǐng)域共同探討網(wǎng)絡(luò)數(shù)據(jù)的產(chǎn)生、擴(kuò)散、涌現(xiàn)的基本規(guī)律,是建立安全和諧的網(wǎng)絡(luò)環(huán)境的重大戰(zhàn)略需求,是促使國家長治久安的大事。我國擁有世界上最多的網(wǎng)民和最大的訪問量,在網(wǎng)絡(luò)大數(shù)據(jù)分析方面已有較強(qiáng)的基礎(chǔ),有望做出世界領(lǐng)先的原始創(chuàng)新成果,應(yīng)加大網(wǎng)絡(luò)大數(shù)據(jù)分析方面的研究力度。
計(jì)算復(fù)雜性是計(jì)算機(jī)科學(xué)的基本問題,科學(xué)計(jì)算主要考慮時間復(fù)雜性和空間復(fù)雜性。對于大數(shù)據(jù)處理,除了時間和空間復(fù)雜性外,可能還需要考慮解決一個問題需要多大的數(shù)據(jù)量,暫且稱為“數(shù)據(jù)量復(fù)雜性”。數(shù)據(jù)量復(fù)雜性和空間復(fù)雜性不是一個概念,空間復(fù)雜性要考慮計(jì)算過程中產(chǎn)生的空間需求。
設(shè)想有人采集完全隨機(jī)地拋擲硬幣的正反面數(shù)據(jù),得到極長的01數(shù)字序列,通過統(tǒng)計(jì)可計(jì)算出現(xiàn)正面的比例。可以肯定,收集的數(shù)據(jù)越多,其結(jié)果與0.5的誤差越小,這是一個無限漸進(jìn)的過程。基于唯象假設(shè)的數(shù)據(jù)處理常出現(xiàn)這類增量式進(jìn)步,數(shù)據(jù)多一點(diǎn),結(jié)果就好一點(diǎn)。這類問題的數(shù)據(jù)科學(xué)價值可能不大。反過來,可能有些問題的數(shù)據(jù)處理像個無底洞,無論多少數(shù)據(jù)都不可能解決問題。這種問題有些類似NP問題。我們需要建立一種理論,對求解一個問題達(dá)到某種滿意程度(對判定問題是有多大把握說“是”或“否”,優(yōu)化問題是接近最優(yōu)解的程度)需要多大規(guī)模的數(shù)據(jù)量給出理論上的判斷。當(dāng)然,目前還有很多問題沒有定義清楚,比如,對于網(wǎng)絡(luò)搜索之類的問題,如何定義問題規(guī)模和數(shù)據(jù)規(guī)模等。
對從事大數(shù)據(jù)研究的學(xué)者而言,最有意思的問題應(yīng)該是,解決一個問題的數(shù)據(jù)規(guī)模有一個閾值。數(shù)據(jù)少于這個閾值,問題解決不了;達(dá)到這個閾值,就可以解決以前解決不了的大問題;而數(shù)據(jù)規(guī)模超過這個閾值,對解決問題也沒有更多的幫助。我們把這類問題稱為“預(yù)言性數(shù)據(jù)分析問題”,即在做大數(shù)據(jù)處理之前,我們可以預(yù)言,當(dāng)數(shù)據(jù)量到達(dá)多大規(guī)模時,該問題的解可以達(dá)到何種滿意程度。
與社會科學(xué)有關(guān)的大數(shù)據(jù)問題,例如輿情分析、情感分析等,許多理論問題過去沒有考慮過,才剛剛開始研究。迫切需要計(jì)算機(jī)學(xué)者與社會科學(xué)領(lǐng)域的學(xué)者密切合作,共同開拓新的疆域。借助大數(shù)據(jù)的推力,社會科學(xué)將脫下“準(zhǔn)科學(xué)”的外衣,真正邁進(jìn)科學(xué)的殿堂。
已故圖靈獎得主吉姆·格雷提出的數(shù)據(jù)密集型科研“第四范式(the fourth paradigm)”,將大數(shù)據(jù)科研從第三范式(計(jì)算科學(xué))中分離出來單獨(dú)作為一種科研范式,是因?yàn)槠溲芯糠绞讲煌诨跀?shù)學(xué)模型的傳統(tǒng)研究方式[5]。Google公司的研究部主任Peter Norvig的一句名言可以概括兩者的區(qū)別:“所有的模型都是錯誤的,進(jìn)一步說,沒有模型你也可以成功(All models are wrong,and increasingly you can succeed without them)”[2]。PB級數(shù)據(jù)使我們可以做到?jīng)]有模型和假設(shè)就可以分析數(shù)據(jù)。將數(shù)據(jù)丟進(jìn)巨大的計(jì)算機(jī)機(jī)群中,只要有相互關(guān)系的數(shù)據(jù),統(tǒng)計(jì)分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律。實(shí)際上,Google的廣告優(yōu)化配置、戰(zhàn)勝人類的IBM沃森問答系統(tǒng)都是這么實(shí)現(xiàn)的,這就是“第四范式”的魅力!
美國Wired雜志主編Chris Anderson 2008年曾發(fā)出“理論已終結(jié)”的驚人斷言:“數(shù)據(jù)洪流使(傳統(tǒng))科學(xué)方法變得過時(The Data Deluge Makes the Scientific Method Obsolete)”[2]。他指出,獲得海量數(shù)據(jù)和處理這些數(shù)據(jù)的統(tǒng)計(jì)工具的可能性提供了理解世界的一條完整的新途徑。Petabytes讓我們說:相互關(guān)系已經(jīng)足夠(Correlation is enough)。我們可以停止尋找模型,相互關(guān)系取代了因果關(guān)系,沒有具有一致性的模型、統(tǒng)一的理論和任何機(jī)械式的說明,科學(xué)也可以進(jìn)步。
Chris Anderson的極端看法并沒有得到科學(xué)界的普遍認(rèn)同,數(shù)據(jù)量的增加能否引起科研方法本質(zhì)性的改變?nèi)匀皇且粋€值得探討的問題。對研究領(lǐng)域的深刻理解(如空氣動力學(xué)方程用于風(fēng)洞實(shí)驗(yàn))和數(shù)據(jù)量的積累應(yīng)是一個迭代累進(jìn)的過程。沒有科學(xué)假設(shè)和模型就能發(fā)現(xiàn)新知識究竟有多大的普適性也需要實(shí)踐來檢驗(yàn),我們需要思考:這類問題有多大的普遍性?這種優(yōu)勢是數(shù)據(jù)量特別大帶來的還是問題本身有這種特性?所謂從數(shù)據(jù)中獲取知識要不要人的參與,人在機(jī)器自動學(xué)習(xí)和運(yùn)行中應(yīng)該扮演什么角色?也許有些領(lǐng)域可以先用第四范式,等領(lǐng)域知識逐步豐富了再過渡到第三范式。
現(xiàn)有的數(shù)據(jù)中心技術(shù)很難滿足大數(shù)據(jù)的需求,需要考慮對整個IT架構(gòu)進(jìn)行革命性的重構(gòu)。而存儲能力的增長遠(yuǎn)遠(yuǎn)趕不上數(shù)據(jù)的增長,因此設(shè)計(jì)最合理的分層存儲架構(gòu)已成為IT系統(tǒng)的關(guān)鍵。數(shù)據(jù)的移動已成為IT系統(tǒng)最大的開銷,目前傳送大數(shù)據(jù)最高效也最實(shí)用的方式是通過飛機(jī)或地面交通工具運(yùn)送磁盤而不是網(wǎng)絡(luò)通信。在大數(shù)據(jù)時代,IT系統(tǒng)需要從數(shù)據(jù)圍著處理器轉(zhuǎn)改變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),將計(jì)算推送給數(shù)據(jù),而不是將數(shù)據(jù)推送給計(jì)算。大數(shù)據(jù)也導(dǎo)致高可擴(kuò)展性成為對IT系統(tǒng)最本質(zhì)的需求,并發(fā)執(zhí)行(同時執(zhí)行的線程)的規(guī)模要從現(xiàn)在的千萬量級提高到10億級以上。
在應(yīng)對處理大數(shù)據(jù)的各種技術(shù)挑戰(zhàn)中,以下幾個問題值得高度重視:
(1)大數(shù)據(jù)的去冗降噪技術(shù)。大數(shù)據(jù)一般都來自多個不同的源頭,而且往往以動態(tài)數(shù)據(jù)流的形式產(chǎn)生。因此,大數(shù)據(jù)中常常包含有不同形態(tài)的噪聲數(shù)據(jù)。另外,數(shù)據(jù)采樣算法缺陷與設(shè)備故障也可能會導(dǎo)致大數(shù)據(jù)的噪聲。大數(shù)據(jù)的冗余則通常來自兩個方面:一方面,大數(shù)據(jù)的多源性導(dǎo)致了不同源頭的數(shù)據(jù)中存在有相同的數(shù)據(jù),從而造成數(shù)據(jù)的絕對冗余;另一方面,就具體的應(yīng)用需求而言,大數(shù)據(jù)可能會提供超量特別是超精度的數(shù)據(jù),這又形成數(shù)據(jù)的相對冗余。降低噪聲、消除冗余是提高數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)存儲成本的基礎(chǔ);
(2)大數(shù)據(jù)的新型表示方法。目前表示數(shù)據(jù)的方法,不一定能直觀地展現(xiàn)出大數(shù)據(jù)本身的意義。要想有效利用數(shù)據(jù)并挖掘其中的信息或知識,必須找到最合適的數(shù)據(jù)表示方法。在一種不合適的數(shù)據(jù)表示中尋找大數(shù)據(jù)的固定模式、因果關(guān)系和關(guān)聯(lián)關(guān)系時,可能會落入固有的偏見之中。數(shù)據(jù)表示方法和最初的數(shù)據(jù)產(chǎn)生者有著密切關(guān)系。如果原始數(shù)據(jù)有必要的標(biāo)識,就會大大減輕事后數(shù)據(jù)識別和分類的困難。但標(biāo)識數(shù)據(jù)會給用戶增添麻煩,所以往往得不到用戶認(rèn)可。研究既有效又簡易的數(shù)據(jù)表示方法是處理網(wǎng)絡(luò)大數(shù)據(jù)必須解決的技術(shù)難題之一;
(3)高效率低成本的大數(shù)據(jù)存儲。大數(shù)據(jù)的存儲方式不僅影響其后的數(shù)據(jù)分析處理效率也影響數(shù)據(jù)存儲的成本。因此,就需要研究高效率低成本的數(shù)據(jù)存儲方式。具體則需要研究多源多模態(tài)數(shù)據(jù)高質(zhì)量獲取與整合的理論和技術(shù)、流式數(shù)據(jù)的高速索引創(chuàng)建與存儲、錯誤自動檢測與修復(fù)的理論和技術(shù)、低質(zhì)量數(shù)據(jù)上的近似計(jì)算的理論和算法等;
(4)大數(shù)據(jù)的有效融合。數(shù)據(jù)不整合就發(fā)揮不出大數(shù)據(jù)的大價值。大數(shù)據(jù)的泛濫與數(shù)據(jù)格式太多有關(guān)。大數(shù)據(jù)面臨的一個重要問題是個人、企業(yè)和政府機(jī)構(gòu)的各種數(shù)據(jù)和信息能否方便地融合。如同人類有許多種自然語言一樣,作為網(wǎng)絡(luò)空間中唯一客觀存在的數(shù)據(jù)難免有多種格式。但為了掃清網(wǎng)絡(luò)大數(shù)據(jù)處理的障礙,應(yīng)研究推廣不與平臺綁定的數(shù)據(jù)格式。大數(shù)據(jù)已成為聯(lián)系人類社會、物理世界和網(wǎng)絡(luò)空間的紐帶,需要通過統(tǒng)一的數(shù)據(jù)格式構(gòu)建融合人、機(jī)、物三元世界的統(tǒng)一信息系統(tǒng);
(5)非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的高效處理。據(jù)統(tǒng)計(jì),目前采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)無法勝任這些數(shù)據(jù)的處理,因?yàn)殛P(guān)系數(shù)據(jù)庫系統(tǒng)的出發(fā)點(diǎn)是追求高度的數(shù)據(jù)一致性和容錯性。根據(jù)CAP(Consistency,Availability,tolerance to network Partitions)理論,在分布式系統(tǒng)中,一致性、可用性、分區(qū)容錯性三者不可兼得,因而并行關(guān)系數(shù)據(jù)庫必然無法獲得較強(qiáng)的擴(kuò)展性和良好的系統(tǒng)可用性。系統(tǒng)的高擴(kuò)展性是大數(shù)據(jù)分析最重要的需求,必須尋找高擴(kuò)展性的數(shù)據(jù)分析技術(shù)。以MapReduce和Hadoop為代表的非關(guān)系數(shù)據(jù)分析技術(shù),以其適合非結(jié)構(gòu)數(shù)據(jù)處理、大規(guī)模并行處理、簡單易用等突出優(yōu)勢,在互聯(lián)網(wǎng)信息搜索和其他大數(shù)據(jù)分析領(lǐng)域取得了重大進(jìn)展,已成為大數(shù)據(jù)分析的主流技術(shù)。MapReduce和Hadoop在應(yīng)用性能等方面還存在不少問題,還需要研究開發(fā)更有效、更實(shí)用的大數(shù)據(jù)分析和管理技術(shù);
(6)適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境。不同行業(yè)需要不同的大數(shù)據(jù)分析工具和開發(fā)環(huán)境,應(yīng)鼓勵計(jì)算機(jī)算法研究人員與各領(lǐng)域的科研人員密切合作,在分析工具和開發(fā)環(huán)境上創(chuàng)新。當(dāng)前跨領(lǐng)域跨行業(yè)的數(shù)據(jù)共享仍存在大量壁壘,海量數(shù)據(jù)的收集,特別是關(guān)聯(lián)領(lǐng)域的同時收集還存在很大挑戰(zhàn)。只有跨領(lǐng)域的數(shù)據(jù)分析才更有可能形成真正的知識和智能,產(chǎn)生更大的價值;
(7)大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)。大數(shù)據(jù)的獲取、通信、存儲、管理與分析處理都需要消耗大量的能源。在能源問題日益突出的今天,研究創(chuàng)新的數(shù)據(jù)處理和傳送的節(jié)能方法與技術(shù)是重要的研究方向。
盡管大數(shù)據(jù)意味著大機(jī)遇,但同時也意味著工程技術(shù)、管理政策、人才培養(yǎng)等方面的大挑戰(zhàn)。只有解決了這些基礎(chǔ)性的挑戰(zhàn)問題,才能充分利用這個大機(jī)遇,得到大數(shù)據(jù)的大價值。因此,我國亟需在國家層面對大數(shù)據(jù)給予高度重視,特別需要從政策制定、資源投入、人才培養(yǎng)等方面給予強(qiáng)有力的支持;另一方面,建立良性的大數(shù)據(jù)生態(tài)環(huán)境是有效應(yīng)對大數(shù)據(jù)挑戰(zhàn)的唯一出路,需要科技界、工業(yè)界以及政府部門在國家政策的引導(dǎo)下共同努力,通過消除壁壘、成立聯(lián)盟、建立專業(yè)組織等途徑,建立和諧的大數(shù)據(jù)生態(tài)系統(tǒng)。
就大數(shù)據(jù)研究計(jì)劃與措施,我們有如下的建議:
大數(shù)據(jù)涉及物理、生物、腦科學(xué)、醫(yī)療、環(huán)保、經(jīng)濟(jì)、文化、安全等眾多領(lǐng)域。網(wǎng)絡(luò)空間中的數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,這類大數(shù)據(jù)與人的活動密切相關(guān),因此也與社會科學(xué)密切相關(guān)。而網(wǎng)絡(luò)數(shù)據(jù)科學(xué)和工程是信息科學(xué)技術(shù)與社會科學(xué)等多個不同領(lǐng)域高度交叉的新型學(xué)科方向,對國家的穩(wěn)定與發(fā)展有獨(dú)特的作用,因此應(yīng)特別重視與支持網(wǎng)絡(luò)大數(shù)據(jù)的研究。大數(shù)據(jù)涉及應(yīng)用領(lǐng)域很廣,當(dāng)前大數(shù)據(jù)的研究應(yīng)與國計(jì)民生密切相關(guān)的科學(xué)決策、環(huán)境與社會管理、金融工程、應(yīng)急管理(如疾病防治、災(zāi)害預(yù)測與控制、食品安全與群體事件)以及知識經(jīng)濟(jì)為主要應(yīng)用領(lǐng)域。
無論是國外政府的大數(shù)據(jù)研究計(jì)劃,還是國內(nèi)外大公司的大數(shù)據(jù)研發(fā),當(dāng)前最重視的都是大數(shù)據(jù)分析算法和大數(shù)據(jù)系統(tǒng)的效率。因此,當(dāng)工業(yè)界把主要精力放在應(yīng)對大數(shù)據(jù)的工程技術(shù)挑戰(zhàn)的時候,科技界應(yīng)開始著手關(guān)注大數(shù)據(jù)的基礎(chǔ)理論研究。大數(shù)據(jù)科學(xué)作為一個新興的交叉學(xué)科方向,其共性理論基礎(chǔ)將來自多個不同的學(xué)科領(lǐng)域,包括計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、人工智能、社會科學(xué)等。因此,大數(shù)據(jù)的基礎(chǔ)研究離不開對相關(guān)學(xué)科的領(lǐng)域知識與研究方法論的借鑒。在大數(shù)據(jù)的基礎(chǔ)研究方面,建議研究大數(shù)據(jù)的內(nèi)在機(jī)理,包括大數(shù)據(jù)的生命周期、演化與傳播規(guī)律,數(shù)據(jù)科學(xué)與社會學(xué)、經(jīng)濟(jì)學(xué)等之間的互動機(jī)制,以及大數(shù)據(jù)的結(jié)構(gòu)與效能的規(guī)律性(如社會效應(yīng)、經(jīng)濟(jì)效應(yīng)等)。在大數(shù)據(jù)計(jì)算方面,研究大數(shù)據(jù)表示、數(shù)據(jù)復(fù)雜性以及大數(shù)據(jù)計(jì)算模型。在大數(shù)據(jù)應(yīng)用基礎(chǔ)理論方面,研究大數(shù)據(jù)與知識發(fā)現(xiàn)(學(xué)習(xí)方法、語義解釋),大數(shù)據(jù)環(huán)境下的實(shí)驗(yàn)與驗(yàn)證方法,以及大數(shù)據(jù)的安全與隱私等。
2012年10月,中國計(jì)算機(jī)學(xué)會和中國通信學(xué)會各自成立了大數(shù)據(jù)專家委員會,從行業(yè)學(xué)會的層面來組織和推動大數(shù)據(jù)的相關(guān)產(chǎn)學(xué)研用活動。但這還不夠,建議中科院、科技部、基金委共同推動成立一個組織機(jī)構(gòu),建立一個大數(shù)據(jù)科學(xué)研究平臺,更好地組織大數(shù)據(jù)的協(xié)同創(chuàng)新研究與戰(zhàn)略性應(yīng)用;成立國家級的行業(yè)大數(shù)據(jù)共享聯(lián)盟,使產(chǎn)業(yè)界、科技界以及政府部門都能夠參與進(jìn)來,一方面為學(xué)術(shù)研究提供基本的數(shù)據(jù)資源,另一方面為大數(shù)據(jù)的應(yīng)用提供理論與技術(shù)支持。此外,還需成立國家級的面向大數(shù)據(jù)研究與應(yīng)用的開源社區(qū),同時也向國際開源社區(qū)的核心團(tuán)隊(duì)舉薦核心成員,使國際頂級的開源社區(qū)能夠聽到來自中國的“聲音”。
在資源支持方面,建議啟動“中國大數(shù)據(jù)科學(xué)與工程研究計(jì)劃”,從宏觀上對我國的大數(shù)據(jù)產(chǎn)學(xué)研用做出系統(tǒng)全面的短期與長期規(guī)劃。設(shè)立自然科學(xué)重大研究計(jì)劃(基金重大)以及重大基礎(chǔ)科學(xué)研究項(xiàng)目群(“973”項(xiàng)目群或“863”重大項(xiàng)目)等專項(xiàng)資金,有針對性地資助有關(guān)大數(shù)據(jù)的重大科研活動。此外,國家在大數(shù)據(jù)平臺的構(gòu)建、典型行業(yè)的應(yīng)用以及研發(fā)人才的培養(yǎng)等方面應(yīng)提供相應(yīng)的財(cái)力、物力與人力支持。
1 李國杰.大數(shù)據(jù)研究的科學(xué)價值.中國計(jì)算機(jī)學(xué)會通訊,2012,8(9):8-15.
2 Chris Anderson.The End of Theory:The Data Deluge Makes the Scientific Method Obsolete.Wired,2008,16(7).
3 Albert-László Barabási.The network takeover.Nature Physics,2012,8(1):14-16.
4 Reuven Cohen,Shlomo Havlin.Scale-Free Networks Are Ultrasmall.Physical Review Letters,2003,90,(5).
5 Tony Hey,Stewart Tansley,Kristin Tolle(Editors).The Fourth Paradigm:Data-Intensive Scientific Discovery.Microsoft,2009,October 16.
6 Big Data.Nature,2008,455(7209):1-136.
7 Dealing with data.Science,2011,331(6018):639-806.
8 Complexity.Nature Physics,2012,8(1).
9 Big Data.ERCIM News,2012,(89).
10 David Lazer,Alex Pentland,Lada Adamic et al.Computational Social Science.Science,2009,323(5915):721-723.
11 The 2011 Digital Universe Study:Extracting Value from Chaos.International Data Corporation and EMC,June 2011.
12 CERN experiments observe particle consistent with long-sought Higgs boson.CERN press release,July 4,2012.
13 Tom Kalil.Big Data is a Big Deal,March 29,2012.Available at:http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
14 Divyakant Agrawal,Philip Bernstein,Elisa Bertino et al.Challenges and Opportunities with Big Data,Cyber Center Technical Reports,February 2012.Available at:http://docs.lib.purdue.edu/cctech/1.
15 James Manyika,Michael Chui,Brad Brown et al.Big data:The next frontier for innovation,competition,and productivity.McK-insey Global Institute,May 2011.
16 Steve Lohr.The Age of Big Data.New York Times,February 11,2012.
17 Pattern-Based Strategy:Getting Value from Big Data.Gartner Group press release,July 2011.
18 Codd E F.A Relational Model of Data for Large Shared Data Banks.Communications of the ACM,1970,13(6):377-387.