郭華東 陳潤(rùn)生 徐志偉 孫建軍 畢 軍 王力哲 駱健俊 沈華偉 顧東曉 梁 棟沈文慶 張 旭 Hans Wolfgang Spiess Thomas Lengauer 中國(guó)科學(xué)院遙感與數(shù)字地球研究所 北京 0009 中國(guó)科學(xué)院生物物理研究所 北京 000 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 0090 南京大學(xué) 南京 00 中國(guó)科學(xué)院上海分院 上?!?00 Max Planck Institute for Polymer Research Mainz 8 Max Planck Institute for In formatics Saarbrü cken
自然科學(xué)與人文科學(xué)大數(shù)據(jù)
——第六屆中德前沿探索圓桌會(huì)議綜述*
郭華東1陳潤(rùn)生2徐志偉3孫建軍4畢軍4王力哲1駱健俊2沈華偉3顧東曉4梁棟1沈文慶5張旭5Hans Wolfgang Spiess6Thomas Lengauer7
1中國(guó)科學(xué)院遙感與數(shù)字地球研究所北京100094
2中國(guó)科學(xué)院生物物理研究所北京100101
3中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京100190
4南京大學(xué)南京210023
5中國(guó)科學(xué)院上海分院上海200031
6Max Planck Institute for Polymer ResearchMainz55128
7Max Planck Institute for In formaticsSaarbrü cken66123
大數(shù)據(jù)是知識(shí)經(jīng)濟(jì)時(shí)代的戰(zhàn)略高地,是國(guó)家和全球的新型戰(zhàn)略資源。作為思維的革命性創(chuàng)新,大數(shù)據(jù)為科學(xué)研究帶來(lái)了新的方法論。第六屆中德前沿探索圓桌會(huì)議以“自然科學(xué)與人文科學(xué)大數(shù)據(jù)”為主題,在“生物醫(yī)藥大數(shù)據(jù)”、“物理、化學(xué)與地球科學(xué)領(lǐng)域大數(shù)據(jù)”、“人文與社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術(shù)與方法”4個(gè)領(lǐng)域進(jìn)行研討,總結(jié)了大數(shù)據(jù)對(duì)于科學(xué)發(fā)現(xiàn)的重要作用、意義以及面臨的重大問(wèn)題,形成了關(guān)于發(fā)展科學(xué)大數(shù)據(jù)研究的相關(guān)建議。
大數(shù)據(jù),科學(xué)大數(shù)據(jù),生命科學(xué),地球科學(xué),人文科學(xué),社會(huì)科學(xué),計(jì)算機(jī)技術(shù),中德前沿探索圓桌會(huì)議
新一輪信息技術(shù)革命與人類(lèi)社會(huì)活動(dòng)交匯融合,引發(fā)了數(shù)據(jù)爆炸式增長(zhǎng),數(shù)據(jù)類(lèi)型繁多且復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)和處理模式的能力范圍,“大數(shù)據(jù)”概念也應(yīng)運(yùn)而生。2014 年 4 月,國(guó)際數(shù)據(jù)公司(IDC)發(fā)布的第 7 份數(shù)字宇宙研究報(bào)告中指出,全球數(shù)據(jù)量將以超過(guò)每?jī)赡攴环乃俣瘸掷m(xù)增長(zhǎng),2013 年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量已達(dá) 4.4 ZB(Zettabyte,澤字節(jié),1 ZB=1021B),預(yù)計(jì)到 2020 年將增至 44 ZB[1]。我國(guó)擁有的全球數(shù)據(jù)量比例預(yù)計(jì)也將由 2012 年的13% 提升至 21%[2]。大數(shù)據(jù)已對(duì)全球生產(chǎn)、流通、分配與消費(fèi)模式產(chǎn)生重要影響,正在改變?nèi)藗兩a(chǎn)生活方式、經(jīng)濟(jì)運(yùn)行機(jī)制和國(guó)家治理模式。大數(shù)據(jù)作為知識(shí)經(jīng)濟(jì)時(shí)代的一項(xiàng)戰(zhàn)略使能技術(shù),是各國(guó)的一種新型戰(zhàn)略資源。不久的將來(lái),圍繞大數(shù)據(jù)引起的競(jìng)爭(zhēng)不僅將決定國(guó)際信息產(chǎn)業(yè)格局,還將深刻影響經(jīng)濟(jì)發(fā)展、國(guó)家安全、科技進(jìn)步和綜合競(jìng)爭(zhēng)力[3]。
大數(shù)據(jù)為分析和推理方法的創(chuàng)新提供了一個(gè)全新的、極富前景的路徑,同時(shí)也為自然科學(xué)與人文社會(huì)科學(xué)的研究提供了新的契機(jī)。科學(xué)大數(shù)據(jù)作為大數(shù)據(jù)的分支體系已成為繼實(shí)驗(yàn)、理論和計(jì)算模式之后的數(shù)據(jù)密集型科研范式的典型代表,正在從模型驅(qū)動(dòng)模式向數(shù)據(jù)驅(qū)動(dòng)模式進(jìn)行轉(zhuǎn)化,帶來(lái)了科研方法論的創(chuàng)新??茖W(xué)大數(shù)據(jù)由各學(xué)科產(chǎn)生或收集的規(guī)模巨大且多源異構(gòu)的數(shù)據(jù)組成,例如生命科學(xué)中的基因組數(shù)據(jù)、地球科學(xué)中的觀測(cè)和模擬數(shù)據(jù)、化學(xué)和材料科學(xué)中的測(cè)量數(shù)據(jù)以及數(shù)字化的人文歷史數(shù)據(jù)。這些數(shù)據(jù)亟需在全球科技界實(shí)現(xiàn)共享,以實(shí)現(xiàn)其價(jià)值的充分利用。同時(shí),如何保證數(shù)據(jù)的可持續(xù)性使用也是當(dāng)前面臨的一個(gè)嚴(yán)峻挑戰(zhàn)。隨著數(shù)據(jù)產(chǎn)生變得日益便捷,數(shù)據(jù)分析開(kāi)始成為瓶頸。眾所周知,大數(shù)據(jù)中充斥著偏差和噪聲。從大數(shù)據(jù)中析取知識(shí)涉及統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)等技術(shù),然而從數(shù)據(jù)中得到的往往只是關(guān)聯(lián)關(guān)系而非因果關(guān)系。對(duì)因果關(guān)系的探究超出了統(tǒng)計(jì)學(xué)的能力范疇,至今沒(méi)有系統(tǒng)化的解決方案。此外,如何讓基于統(tǒng)計(jì)方法的預(yù)測(cè)看上去更合理,也是一項(xiàng)重大挑戰(zhàn)。
基于以上背景,以“自然科學(xué)與人文科學(xué)大數(shù)據(jù)”為主題的第六屆中德前沿探索圓桌會(huì)議于 2015 年 11月19—21日在中科院上海交叉學(xué)科研究中心召開(kāi)。40 余位中外學(xué)者圍繞會(huì)議主題,秉承前沿領(lǐng)域、交叉學(xué)科、自由探索的宗旨進(jìn)行了深入的探討和前瞻。會(huì)議共設(shè) 4 個(gè)議題,分別為“生物醫(yī)藥大數(shù)據(jù)”“物理、化學(xué)與地球科學(xué)領(lǐng)域大數(shù)據(jù)”“人文與社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術(shù)與方法”,共 21位專(zhuān)家作了會(huì)議報(bào)告。在與會(huì)專(zhuān)家積極探討交流以及中德青年科學(xué)家小組的努力工作下,會(huì)議達(dá)成初步共識(shí),認(rèn)為:大數(shù)據(jù)作為改變?nèi)祟?lèi)生活及理解世界的新方式,正驅(qū)動(dòng)著科學(xué)研究范式的轉(zhuǎn)化,推動(dòng)著科學(xué)發(fā)展;應(yīng)科學(xué)地認(rèn)知大數(shù)據(jù)對(duì)于科學(xué)發(fā)現(xiàn)的重要作用、意義以及面臨的重大問(wèn)題;在建立科學(xué)大數(shù)據(jù)中心方面進(jìn)行交流和合作;組建科學(xué)大數(shù)據(jù)工作組開(kāi)展大數(shù)據(jù)熱點(diǎn)問(wèn)題的研究;注重大數(shù)據(jù)青年科學(xué)家的培養(yǎng)等。
大數(shù)據(jù)的特征在于:(1)海量數(shù)據(jù);(2)數(shù)據(jù)以高度動(dòng)態(tài)的方式持續(xù)產(chǎn)生;(3)數(shù)據(jù)的高度異質(zhì)性;(4)數(shù)據(jù)質(zhì)量存在噪聲、不完整和偏見(jiàn)方面的嚴(yán)重問(wèn)題。這些特征在各科學(xué)領(lǐng)域都普遍存在,而在各科學(xué)領(lǐng)域相對(duì)于大數(shù)據(jù)研究的需求卻又有很大的不同。
1.1 生物醫(yī)藥大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)
20 世紀(jì) 90 年代初國(guó)際上開(kāi)始人類(lèi)基因組計(jì)劃研究,從此開(kāi)啟了人類(lèi)認(rèn)識(shí)自身遺傳密碼的劃時(shí)代的航程。隨著人類(lèi)基因組圖譜工作的完成,人類(lèi)基因組的數(shù)據(jù)變得更加完善與準(zhǔn)確。以近年來(lái)增長(zhǎng)最快的數(shù)據(jù),人類(lèi)的單核苷酸多態(tài)性(SNP)數(shù)據(jù)為例,它代表著不同人種以及正常人和某些病人基因組中堿基的差異,已有 100 135 281 個(gè)人類(lèi)非冗余并被確認(rèn)的 SNP 位點(diǎn)被數(shù)據(jù)庫(kù)收錄。這表明人的基因組中平均每幾十個(gè)堿基就有 1 個(gè)堿基差異。但在已知 SNP 中,僅有不到 1% 的 SNP 造成蛋白的變化。GenBank 中的 dbEST 數(shù)據(jù)庫(kù)收錄了大約 870 多萬(wàn)條代表著人類(lèi)基因表達(dá)小片段的表達(dá)序列標(biāo)簽(EST)序列,覆蓋了人類(lèi)基因的 95%,冗余度已遠(yuǎn)超過(guò) 10。隨著對(duì)基因組數(shù)據(jù)的不斷挖掘,科學(xué)家發(fā)現(xiàn)了一些重要事實(shí):DNA 上編碼蛋白質(zhì)的區(qū)域,也就是基因,只占人類(lèi)基因組的一小部分,不會(huì)超過(guò)整個(gè)基因組的 3%,其余占人類(lèi)基因組 97% 左右的“非編碼 DNA”序列仍不大清楚其功能,但卻蘊(yùn)涵著生物體復(fù)雜性的信息、具有重要的生物學(xué)功能,且與人類(lèi)疾病相關(guān),迄今為止,我們對(duì)這些非編碼序列以及相關(guān)的非編碼基因和非編碼 RNA 的功能只有很少的了解[4]?!度祟?lèi)基因組計(jì)劃》的完成和深入發(fā)展為生命科學(xué)積累了大量的數(shù)據(jù)和資料,這將有可能從更深層次上了解人體生長(zhǎng)、發(fā)育、正常生理活動(dòng),同時(shí)也可能了解各種疾病的病因,并提出防治途徑。
現(xiàn)今,已經(jīng)存在著包含不同種類(lèi)組學(xué),如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組、表觀遺傳組等大數(shù)據(jù)的多個(gè)大型國(guó)際共享平臺(tái)。獲取組學(xué)數(shù)據(jù)的方法與技術(shù)已日漸成熟,關(guān)鍵是數(shù)據(jù)挖掘。與組學(xué)數(shù)據(jù)的海量特征相比,組學(xué)數(shù)據(jù)的復(fù)雜特征則更具有挑戰(zhàn)性。組學(xué)數(shù)據(jù)復(fù)雜性的本質(zhì)是源于生物體的結(jié)構(gòu)和功能以及生命活動(dòng)過(guò)程本身的多樣性和復(fù)雜性。為此必須使用信息科學(xué)領(lǐng)域正在發(fā)展的解析大數(shù)據(jù)內(nèi)涵的一系列理論、方法與技術(shù),必須將當(dāng)前國(guó)際上兩大前沿領(lǐng)域“組學(xué)”與“大數(shù)據(jù)”融合。臨床上,組學(xué)大數(shù)據(jù)的挖掘可得到大量不同人以及正常人與病人之間在分子水平的差異,關(guān)鍵問(wèn)題是這些差異中哪些是與疾病直接相關(guān)的、相關(guān)的程度如何?只有找到了這種聯(lián)系,才能得到表征特定疾病的分子標(biāo)記,才能發(fā)現(xiàn)藥物設(shè)計(jì)的分子靶標(biāo),才能實(shí)現(xiàn)轉(zhuǎn)化,將組學(xué)分析獲取的知識(shí)用于臨床。因此,生物大數(shù)據(jù)在醫(yī)藥領(lǐng)域應(yīng)用的前提是建立代表分子水平差異的基因型與代表疾病特征的表現(xiàn)型之間的橋梁。為此,需要發(fā)展生物信息學(xué)、系統(tǒng)生物學(xué),包括生物網(wǎng)絡(luò)研究的大量理論、方法與技術(shù),建立并完善基因型與表型的關(guān)聯(lián)。
1.2 地球大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)
伴隨著對(duì)地觀測(cè)技術(shù)的不斷發(fā)展,在空間觀測(cè)、地球物理、地球化學(xué)、地質(zhì)勘探和地面?zhèn)鞲衅骶W(wǎng)絡(luò)等領(lǐng)域產(chǎn)生著龐大的數(shù)據(jù),其具有海量、多源、異構(gòu)、多時(shí)態(tài)、多尺度、高維度、高復(fù)雜性、非平穩(wěn)和非結(jié)構(gòu)化等特性,為實(shí)現(xiàn)地球科學(xué)領(lǐng)域的數(shù)據(jù)密集型知識(shí)發(fā)現(xiàn)提供了有利支撐[5]。以全球變化研究和數(shù)字地球?yàn)槔蜃兓芯繉?duì)地球系統(tǒng)化、綜合化觀測(cè)的需求帶動(dòng)了對(duì)地觀測(cè)技術(shù)的高速發(fā)展,全球已建立準(zhǔn)實(shí)時(shí)、全天候的地球數(shù)據(jù)獲取能力,形成了高空間、高時(shí)間、高光譜分辨率的天空地一體化對(duì)地觀測(cè)系統(tǒng),作為面向全球可持續(xù)發(fā)展的多學(xué)科挑戰(zhàn)性的關(guān)鍵問(wèn)題,全球變化研究主要包括全球變化過(guò)程的監(jiān)測(cè)、全球變化的模擬分析、全球變化響應(yīng)策略研究等,而這些研究都依賴(lài)于地球大數(shù)據(jù),如長(zhǎng)時(shí)間序列多時(shí)空尺度的對(duì)地觀測(cè)數(shù)據(jù),精確的、連續(xù)的地面臺(tái)站觀測(cè)和試驗(yàn)數(shù)據(jù),基于有科學(xué)依據(jù)的理論推測(cè)與估算數(shù)據(jù)等。因此地球大數(shù)據(jù)可為全球變化研究發(fā)展提供新的解決思路。數(shù)字地球作為多學(xué)科交叉的研究領(lǐng)域,其目標(biāo)是呈現(xiàn)一個(gè)基于海量、多類(lèi)型、多源、多分辨率、多時(shí)空尺度的虛擬地球,不僅涵蓋大氣、地理、地質(zhì)、環(huán)境、生態(tài)、資源等地球科學(xué)各個(gè)學(xué)科的數(shù)據(jù),也與信息科學(xué)、空間科學(xué)、人文社會(huì)科學(xué)密切相關(guān),具有地球大數(shù)據(jù)的主要特征。數(shù)字地球的發(fā)展高度依賴(lài)地球大數(shù)據(jù),從而實(shí)現(xiàn)對(duì)地球系統(tǒng)進(jìn)行描述、分析、模擬和預(yù)測(cè)[6]。
地球大數(shù)據(jù)為地球科學(xué)帶來(lái)了新的動(dòng)力,但在傳輸、存儲(chǔ)、處理、分析、管理、共享和知識(shí)發(fā)現(xiàn)等方面也帶來(lái)了巨大的技術(shù)挑戰(zhàn)。為應(yīng)對(duì)這些挑戰(zhàn),科學(xué)家們正致力于研發(fā)面向地球大數(shù)據(jù)的計(jì)算平臺(tái)、算法和軟件系統(tǒng)等,如基于高性能平臺(tái)系統(tǒng)、大規(guī)模存儲(chǔ)技術(shù)、全流程自動(dòng)化處理技術(shù)、高效化計(jì)算技術(shù)、數(shù)據(jù)共享與服務(wù)系統(tǒng)等。雖然這些技術(shù)帶來(lái)一些革新,但大數(shù)據(jù)技術(shù)引入地球科學(xué)領(lǐng)域的時(shí)間尚短,且地球大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的行業(yè)特點(diǎn)具有明顯差異,還存在一系列關(guān)鍵技術(shù)亟需攻克,如大規(guī)模多元數(shù)據(jù)集成與挖掘技術(shù),大規(guī)模并發(fā)任務(wù)、數(shù)據(jù)、算法的多層次混合并行計(jì)算技術(shù),數(shù)據(jù)、網(wǎng)絡(luò)、計(jì)算多資源動(dòng)態(tài)協(xié)同處理技術(shù)等。另一值得關(guān)注的方面是地球大數(shù)據(jù)的密集型科學(xué)發(fā)現(xiàn)。地球大數(shù)據(jù)的知識(shí)發(fā)現(xiàn),不僅僅是信息提取,還有挖掘隱含的、非顯見(jiàn)的模式、規(guī)律和知識(shí)。針對(duì)地球大數(shù)據(jù)規(guī)模龐大、維度超高但信息密度低的問(wèn)題,科學(xué)家正探索通過(guò)人工智能方法簡(jiǎn)化數(shù)據(jù)量與數(shù)據(jù)維度,使大數(shù)據(jù)變小后再進(jìn)行后續(xù)研究。此外,數(shù)據(jù)的極大豐富使得知識(shí)發(fā)現(xiàn)由“模型驅(qū)動(dòng)”逐漸轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”成為可能。但是,高效挖掘地球大數(shù)據(jù)所蘊(yùn)藏知識(shí)仍處于起步階段,亟需發(fā)展面向地球大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)創(chuàng)新理論與方法,如適應(yīng)地球大數(shù)據(jù)的認(rèn)知模型、面向全體數(shù)據(jù)的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)方法等[3]。
1.3 人文與社會(huì)科學(xué)大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)
在人文和社會(huì)科學(xué)領(lǐng)域,大數(shù)據(jù)也正在成為熱門(mén)話題,它為人文社會(huì)科學(xué)研究與發(fā)展帶來(lái)了新的歷史性機(jī)遇與挑戰(zhàn)。當(dāng)前,人文社會(huì)科學(xué)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如文化遺產(chǎn)大數(shù)據(jù)、金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡(luò)輿情大數(shù)據(jù)、醫(yī)療與健康大數(shù)據(jù)等,數(shù)據(jù)的規(guī)模和信息的完整性都是以往無(wú)法比擬的。政府、工業(yè)界、高校和研究機(jī)構(gòu)越來(lái)越多的數(shù)據(jù)對(duì)社會(huì)開(kāi)放,極大降低了數(shù)據(jù)的獲取成本,同時(shí)數(shù)據(jù)充裕帶來(lái)了研究機(jī)遇的質(zhì)變,以往不可研究、不能研究的問(wèn)題在大數(shù)據(jù)環(huán)境下成為可能。黨的十八屆五中全會(huì)提出實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略和推進(jìn)數(shù)據(jù)資源開(kāi)放共享,為人文社會(huì)科學(xué)研究打開(kāi)了“另一扇窗子”[7]。
在大數(shù)據(jù)環(huán)境下,人們不僅關(guān)心數(shù)據(jù)建模、分析、管理、復(fù)用和建立大數(shù)據(jù)基礎(chǔ)設(shè)施,還關(guān)心如何構(gòu)造和利用基于數(shù)據(jù)的、開(kāi)放協(xié)同的研究與創(chuàng)新模式[8,9]。當(dāng)前,在人文社會(huì)科學(xué)研究領(lǐng)域,以“人文計(jì)算”、復(fù)雜網(wǎng)絡(luò)分析、大規(guī)模數(shù)據(jù)分析為特征的研究方法逐漸被采納,涌現(xiàn)出了越來(lái)越多基于現(xiàn)實(shí)數(shù)據(jù)分析的定量化研究成果,人文社會(huì)科學(xué)的“科學(xué)性”顯著增強(qiáng)[8]。不僅如此,人文社會(huì)科學(xué)研究中大數(shù)據(jù)分析方法的使用,還提高了人文社會(huì)科學(xué)研究者的研究能力,開(kāi)啟了人文社會(huì)科學(xué)研究的新局面。網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)金融、宏觀經(jīng)濟(jì)分析、圖書(shū)情報(bào)知識(shí)服務(wù)、歷史文獻(xiàn)管理、電子商務(wù)、新聞與數(shù)字出版、旅游管理、健康管理與養(yǎng)老服務(wù)等許多人文社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究成果不斷涌現(xiàn)[10-12],所關(guān)注的內(nèi)容不僅包括針對(duì)人文社會(huì)科學(xué)特定領(lǐng)域和問(wèn)題情景下的大數(shù)據(jù)建模與處理方法,還包括大數(shù)據(jù)資源管理與利用方法,以及大數(shù)據(jù)環(huán)境下的信息共享服務(wù)、安全、隱私保護(hù)等。例如:W lodarczak等人[13]基于社交大數(shù)據(jù)進(jìn)行觀點(diǎn)挖掘與情感分析,Kim 與 Jeong 等人[14]采用基于觀點(diǎn)的大數(shù)據(jù)挖掘進(jìn)行股票漲跌預(yù)測(cè)。
人文社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究在面臨著巨大機(jī)遇的同時(shí),也存在一系列現(xiàn)實(shí)問(wèn)題,不僅大數(shù)據(jù)分析的“注重關(guān)聯(lián),不關(guān)注因果”、“過(guò)擬合”等問(wèn)題在人文社會(huì)科學(xué)研究領(lǐng)域同樣存在,且已有研究成果總體上偏重于大數(shù)據(jù)應(yīng)用分析,針對(duì)人文社會(huì)科學(xué)特定問(wèn)題情境的大數(shù)據(jù)理論和建模方法研究和創(chuàng)新不足[15-17]。此外,人文社會(huì)科學(xué)大數(shù)據(jù)研究目前還面臨 4 個(gè)方面的問(wèn)題。
(1)科研資料總量的快速增加和數(shù)據(jù)質(zhì)量問(wèn)題給人文社會(huì)科學(xué)研究帶來(lái)了巨大挑戰(zhàn)。當(dāng)前人文社會(huì)科學(xué)研究者在各自研究領(lǐng)域都面臨大量數(shù)據(jù)資料的處理問(wèn)題[8],研究范式的轉(zhuǎn)變也使得人文社會(huì)科學(xué)研究越來(lái)越依賴(lài)高質(zhì)量的數(shù)據(jù),迫切需要構(gòu)建人文社會(huì)科學(xué)數(shù)據(jù)的質(zhì)量保障機(jī)制,以及研究新的計(jì)算機(jī)處理模式和分析方法以支持人文社會(huì)領(lǐng)域科學(xué)家對(duì)知識(shí)的獲取、標(biāo)注、比較、取樣、闡釋與表現(xiàn)。
(2)資料數(shù)字化帶來(lái)的挑戰(zhàn)。資料數(shù)字化改變了傳統(tǒng)人文社會(huì)科學(xué)的資料類(lèi)型,數(shù)字資源的采集、加工和處理對(duì)高水平研究成果的獲得作用日益顯著[8]。以“大數(shù)據(jù)”為代表的數(shù)據(jù)資源在數(shù)據(jù)粒度、碎片化、結(jié)構(gòu)多元化、信息質(zhì)量等方面具有更高的復(fù)雜度,對(duì)資料的匯集、保存和綜合利用更加依賴(lài)計(jì)算機(jī)的輔助,人文社會(huì)科學(xué)家進(jìn)行數(shù)據(jù)處理分析也越來(lái)越需要依賴(lài)信息技術(shù)手段,迫切需要開(kāi)發(fā)可用于人文社會(huì)科學(xué)大數(shù)據(jù)采集、清洗、分析處理和可視化的工具和方法。傳統(tǒng)人文社會(huì)科學(xué)學(xué)者對(duì)信息處理分析工具與技巧的缺失將影響該領(lǐng)域高水平研究成果的產(chǎn)出。
(3)數(shù)據(jù)出版和共享方面的挑戰(zhàn)。缺乏能夠應(yīng)用于大數(shù)據(jù)研究實(shí)踐成果和學(xué)術(shù)著作快速出版的開(kāi)放工具和平臺(tái),也是一個(gè)重要挑戰(zhàn)。目前亟需可用于不同學(xué)科、不同制度下的數(shù)據(jù)出版(有適當(dāng)標(biāo)準(zhǔn)和授信)和數(shù)據(jù)共享的集成化平臺(tái),以及多數(shù)據(jù)集成化出版。
(4)大數(shù)據(jù)資源管理、知識(shí)產(chǎn)權(quán)、安全與隱私方面的挑戰(zhàn)。大數(shù)據(jù)運(yùn)用不僅帶來(lái)了更多問(wèn)題的解決方法,也帶來(lái)了數(shù)據(jù)資源管理、公民知識(shí)產(chǎn)品、數(shù)據(jù)安全與用戶隱私等方面的一系列問(wèn)題,這在人文社會(huì)科學(xué)領(lǐng)域顯得尤為突出。大數(shù)據(jù)資源管理的公共政策,大數(shù)據(jù)資源與產(chǎn)業(yè)的深度融合,以及大數(shù)據(jù)商業(yè)價(jià)值的挖掘與知識(shí)產(chǎn)權(quán)、數(shù)據(jù)安全和用戶隱私保護(hù)之間關(guān)系的研究方興未艾,尚待取得突破性的進(jìn)展,值得進(jìn)一步的探索。
1.4 大數(shù)據(jù)處理技術(shù)與方法發(fā)展現(xiàn)狀及挑戰(zhàn)
大數(shù)據(jù)在數(shù)據(jù)規(guī)模、數(shù)據(jù)增速、數(shù)據(jù)類(lèi)型、數(shù)據(jù)質(zhì)量、數(shù)據(jù)價(jià)值等方面的特性給大數(shù)據(jù)處理技術(shù)與方法提出了新的科學(xué)技術(shù)挑戰(zhàn)[9]。主要體現(xiàn)在 5 個(gè)方面:
(1)數(shù)據(jù)存儲(chǔ)管理方面。數(shù)據(jù)產(chǎn)生過(guò)程和數(shù)據(jù)分析過(guò)程的分離,使得傳統(tǒng)面向數(shù)據(jù)查詢需求的關(guān)系數(shù)據(jù)庫(kù)不再適用,亟需面向數(shù)據(jù)分析需求的大規(guī)模數(shù)據(jù)倉(cāng)庫(kù)和 NoSQL 數(shù)據(jù)庫(kù)[18];(2)數(shù)據(jù)分析方法方面。數(shù)據(jù)的產(chǎn)生和獲取過(guò)程不再有嚴(yán)格的控制,相關(guān)性分析代替因果性分析逐漸成為數(shù)據(jù)分析的主要方式,問(wèn)題驅(qū)動(dòng)的研究方式逐漸被數(shù)據(jù)驅(qū)動(dòng)的研究方式所代替[19];(3)模型和算法方面。半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求成為主流,傳統(tǒng)基于特征工程(feature engineering)的方法逐漸被基于特征學(xué)習(xí)(feature learning)的方法超越并取代[20];(4)計(jì)算體系結(jié)構(gòu)方面。新型存儲(chǔ)器件和計(jì)算器件(例如 GPU 等)不斷涌現(xiàn),使得通用處理器和單一體系結(jié)構(gòu)逐漸過(guò)渡為專(zhuān)用處理器和異構(gòu)體系結(jié)構(gòu)[21];(5)計(jì)算和服務(wù)方面。對(duì)于計(jì)算資源的高可靠性和高易用性的需求日增,以互聯(lián)網(wǎng)為媒介的云計(jì)算模式和數(shù)據(jù)中心逐漸成為大數(shù)據(jù)處理的新型模式[22]。
近幾年,大數(shù)據(jù)分析處理技術(shù)和方法有了長(zhǎng)足的發(fā)展。Hadoop 分布式文件系統(tǒng)、Map-Reduce 和 Spark 分布式計(jì)算框架、銜接高性能計(jì)算和大數(shù)據(jù)的 DataMPI、云計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)等新技術(shù)深刻影響和改變著大數(shù)據(jù)的分析處理。一方面,計(jì)算能力和計(jì)算模式的變革為大數(shù)據(jù)分析處理提供了高易用性、高可靠性和低熵的計(jì)算資源;另一方面,人類(lèi)社會(huì)活動(dòng)的信息化和數(shù)字化程度達(dá)到了空前的水平,日益豐富的大數(shù)據(jù)構(gòu)成了人、機(jī)、物三元世界的詳實(shí)數(shù)字記錄,形成了前所未有的數(shù)據(jù)資源。計(jì)算資源和數(shù)據(jù)資源的結(jié)合,為人工神經(jīng)網(wǎng)絡(luò)的復(fù)興和深度學(xué)習(xí)技術(shù)的發(fā)展提供了前所未有的契機(jī),共同催生了人工智能新的春天。無(wú)論是圖形圖像處理和自然語(yǔ)言理解等基礎(chǔ)研究方面,還是無(wú)人駕駛和智能機(jī)器人等具體應(yīng)用方面,以深度學(xué)習(xí)技術(shù)和大數(shù)據(jù)分析引擎為代表的大數(shù)據(jù)分析和處理技術(shù)都帶來(lái)了質(zhì)的進(jìn)步,產(chǎn)生了深遠(yuǎn)影響。相應(yīng)地,為深度學(xué)習(xí)設(shè)計(jì)和開(kāi)發(fā)的新型計(jì)算框架和專(zhuān)用計(jì)算芯片近年來(lái)也取得了很大的進(jìn)步。另外,各類(lèi)體現(xiàn)互聯(lián)網(wǎng)思維的“互聯(lián)網(wǎng)+”應(yīng)用,也在推動(dòng)著大數(shù)據(jù)分析和處理技術(shù)的進(jìn)步,以“眾包”為代表的群智計(jì)算在很多應(yīng)用場(chǎng)景(例如借助互聯(lián)網(wǎng)進(jìn)行的眾包光學(xué)字符識(shí)別系統(tǒng) reCAPTCHA[23])中發(fā)揮了重要作用,解決了傳統(tǒng)計(jì)算模式無(wú)法或難以解決的問(wèn)題,是大數(shù)據(jù)分析和處理技術(shù)的一個(gè)新方向。
2.1 生物醫(yī)藥大數(shù)據(jù)
在生命科學(xué)領(lǐng)域,獲取組學(xué)數(shù)據(jù)的方法與技術(shù)已日漸成熟,關(guān)鍵是數(shù)據(jù)挖掘。對(duì)占人類(lèi)基因組 97% 左右的非編碼序列信息的積累與挖掘也已引起國(guó)際上的廣泛關(guān)注,預(yù)示著這一領(lǐng)域?qū)⑷〉猛黄?。如何從海量?fù)雜的組學(xué)數(shù)據(jù)中獲取生命活動(dòng)的知識(shí)已成為了基因組及相關(guān)研究的關(guān)鍵。當(dāng)前的困難主要包括計(jì)算量大、樣本量小、有效事件頻率低、存在共同與特異的變化等。今后發(fā)展的目標(biāo)包括需要增大計(jì)算資源與樣本數(shù)目,發(fā)展與完善統(tǒng)計(jì)、分析、建模等方法,并構(gòu)建動(dòng)態(tài)的、雙色(含蛋白質(zhì)及 RNA)的復(fù)雜網(wǎng)絡(luò)。當(dāng)下,最為活躍的研究熱點(diǎn)包括整合分析來(lái)源成分復(fù)雜的數(shù)據(jù),在確保病人隱私不受侵犯的前提下,更有效地整合來(lái)自生物學(xué)與臨床醫(yī)學(xué)的數(shù)據(jù)以用于診斷、治療等方面的研究。更長(zhǎng)遠(yuǎn)的研究目標(biāo),則是基于數(shù)據(jù)的進(jìn)一步演繹,如,闡明基因型與表型的關(guān)系。雖然目前已經(jīng)存在著包含不同種類(lèi)組學(xué)大數(shù)據(jù)的多個(gè)大型國(guó)際共享平臺(tái),為了擴(kuò)大國(guó)家在生物醫(yī)藥大數(shù)據(jù)方面的影響力,更多數(shù)據(jù)應(yīng)同時(shí)對(duì)整個(gè)科學(xué)界開(kāi)放(涉及諸如病人隱私的數(shù)據(jù)除外)。比較好的做法是將數(shù)據(jù)存放在領(lǐng)域內(nèi)已建立的全球數(shù)據(jù)存儲(chǔ)中心。如有必要,建立國(guó)家大型計(jì)算機(jī)中心或生物醫(yī)學(xué)權(quán)威數(shù)據(jù)庫(kù)以方便數(shù)據(jù)的采集、處理以及共享。
2.2 地球大數(shù)據(jù)
地球大數(shù)據(jù)的誕生,使人類(lèi)對(duì)地球系統(tǒng)的認(rèn)知從傳統(tǒng)的經(jīng)驗(yàn)資料搜集、理論推導(dǎo)、局部物理過(guò)程理解和模擬轉(zhuǎn)化到利用地球大數(shù)據(jù)進(jìn)行信息挖掘與知識(shí)發(fā)現(xiàn),從而探索地球系統(tǒng)中關(guān)鍵信息和各子系統(tǒng)及各生物物理變量之間的相互關(guān)聯(lián)和作用。因此,建議在3個(gè)層面發(fā)展地球大數(shù)據(jù),使其更好地服務(wù)知識(shí)發(fā)現(xiàn)。(1)地球大數(shù)據(jù)為地球科學(xué),尤其是地球系統(tǒng)科學(xué)的研究提供了全新的方法論。基于天空地一體化的地球觀測(cè)大數(shù)據(jù),結(jié)合地球科學(xué)領(lǐng)域的數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的模型、算法,發(fā)展地球大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的理論與方法是地球科學(xué)領(lǐng)域亟待解決的重大科學(xué)問(wèn)題。(2)地球大數(shù)據(jù)傳輸、存儲(chǔ)、管理、處理、計(jì)算與共享高度依賴(lài)于大數(shù)據(jù)技術(shù),結(jié)合互聯(lián)網(wǎng)領(lǐng)域大數(shù)據(jù)技術(shù)和云計(jì)算的最新研究成果,研發(fā)面向地球大數(shù)據(jù)的平臺(tái)系統(tǒng)、數(shù)據(jù)的高效組織與集成、算法的并行計(jì)算技術(shù)、大規(guī)模數(shù)據(jù)挖掘、資源調(diào)度與優(yōu)化、信息共享與服務(wù)方法等關(guān)鍵技術(shù),發(fā)展以大數(shù)據(jù)技術(shù)和云計(jì)算為核心的地球大數(shù)據(jù)處理與應(yīng)用綜合服務(wù)平臺(tái),是地球科學(xué)領(lǐng)域大數(shù)據(jù)發(fā)展的前提和基礎(chǔ)。(3)加強(qiáng)地球科學(xué)領(lǐng)域與各相關(guān)領(lǐng)域的協(xié)同合作研究,推進(jìn)大數(shù)據(jù)與跨學(xué)科領(lǐng)域大數(shù)據(jù)的交叉和融合,推動(dòng)地球科學(xué)的創(chuàng)新發(fā)展。例如,數(shù)字地球科學(xué)作為多學(xué)科交叉的研究領(lǐng)域,其學(xué)科發(fā)展依賴(lài)于不同學(xué)科大數(shù)據(jù)的綜合集成的解決方法。
2.3 人文與社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)
大數(shù)據(jù)的運(yùn)用有助于形成人文社會(huì)科學(xué)研究新思維,進(jìn)一步推動(dòng)研究數(shù)據(jù)有序開(kāi)放、跨學(xué)科深度協(xié)作,以及人文社會(huì)科學(xué)與自然科學(xué)及工程技術(shù)學(xué)科的融合,從而開(kāi)啟人文社會(huì)科學(xué)研究新局面[8]。為推動(dòng)人文社會(huì)科學(xué)大數(shù)據(jù)學(xué)科發(fā)展,提出 4 方面建議:(1)推動(dòng)構(gòu)建人文社會(huì)科學(xué)大數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)與共建共享。制定人文社會(huì)科學(xué)大數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)和實(shí)現(xiàn)大數(shù)據(jù)資源共建共享是推動(dòng)人文社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)發(fā)展的基礎(chǔ)性工作。為此,建議制定人文社會(huì)科學(xué)大數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn),構(gòu)建人文社會(huì)科學(xué)大數(shù)據(jù)共享平臺(tái),積極開(kāi)展人文社會(huì)科學(xué)大數(shù)據(jù)共建共享機(jī)制與管理方法的探索與創(chuàng)新,為推動(dòng)大數(shù)據(jù)滿足人文社會(huì)科學(xué)領(lǐng)域研究人員的信息服務(wù)需求提供重要保障。(2)推動(dòng)通過(guò)跨學(xué)科研究與合作開(kāi)發(fā)人文社會(huì)科學(xué)大數(shù)據(jù)分析模型及公共服務(wù)平臺(tái)。應(yīng)鼓勵(lì)國(guó)內(nèi)外計(jì)算機(jī)信息科學(xué)與人文社會(huì)科學(xué)領(lǐng)域的學(xué)者和技術(shù)人員開(kāi)展跨學(xué)科的研究與合作,突破學(xué)科壁壘,開(kāi)發(fā)面向人文社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)分析處理需要的計(jì)算方法以及工具性軟件平臺(tái),為人文社會(huì)科學(xué)大數(shù)據(jù)研究提供技術(shù)手段支持。(3)積極推動(dòng)具有中國(guó)特色的人文社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)理論研究與大數(shù)據(jù)技術(shù)產(chǎn)業(yè)化應(yīng)用實(shí)踐。進(jìn)一步開(kāi)展面向中國(guó)經(jīng)濟(jì)社會(huì)發(fā)展重大現(xiàn)實(shí)需求、具有中國(guó)特色的人文社會(huì)科學(xué)大數(shù)據(jù)理論研究,將大數(shù)據(jù)分析方法與我國(guó)人文社會(huì)科學(xué)具體實(shí)踐有機(jī)融合,促進(jìn)大數(shù)據(jù)分析在我國(guó)互聯(lián)網(wǎng)金融、網(wǎng)絡(luò)輿情管理、數(shù)字出版、電子商務(wù)、健康管理與養(yǎng)老服務(wù)、物流管理、旅游管理、智慧城市與交通管理等重點(diǎn)領(lǐng)域的研究與實(shí)踐;進(jìn)一步推動(dòng)人文社會(huì)科學(xué)大數(shù)據(jù)研究與大數(shù)據(jù)產(chǎn)業(yè)的融合發(fā)展。進(jìn)一步開(kāi)展具有中國(guó)特色的大數(shù)據(jù)資源管理公共政策,大數(shù)據(jù)資源管理領(lǐng)導(dǎo)力(即首席數(shù)據(jù)執(zhí)行官),大數(shù)據(jù)商業(yè)價(jià)值,大數(shù)據(jù)知識(shí)產(chǎn)權(quán)、數(shù)據(jù)安全與用戶隱私保護(hù)等核心問(wèn)題的研究與實(shí)踐。(4)加強(qiáng)人文社會(huì)科學(xué)領(lǐng)域青年學(xué)者、博士生與研究生大數(shù)據(jù)分析方法教育與能力培養(yǎng),鼓勵(lì)他們更多地參與大數(shù)據(jù)領(lǐng)域的國(guó)際學(xué)術(shù)交流與合作。在人文社會(huì)科學(xué)相關(guān)院系,開(kāi)設(shè)大數(shù)據(jù)分析與建模課程;利用科研院所、高等學(xué)校、工業(yè)界和海外的各種相關(guān)數(shù)據(jù)、平臺(tái)和人才資源,對(duì)人文社會(huì)科學(xué)領(lǐng)域科研人員進(jìn)行大數(shù)據(jù)分析與處理技術(shù)培訓(xùn),增強(qiáng)我國(guó)人文社會(huì)科學(xué)研究人員利用大數(shù)據(jù)分析方法解決人文社會(huì)領(lǐng)域科學(xué)問(wèn)題的能力,大力培養(yǎng)人文社會(huì)科學(xué)領(lǐng)域青年大數(shù)據(jù)科學(xué)家和大數(shù)據(jù)分析師,推動(dòng)我國(guó)人文社會(huì)科學(xué)研究人員在國(guó)際高水平乃至頂級(jí)期刊發(fā)表更多體現(xiàn)中國(guó)特色的人文社會(huì)科學(xué)大數(shù)據(jù)研究成果;為人文社會(huì)科學(xué)領(lǐng)域研究人員特別是青年學(xué)者參與大數(shù)據(jù)研究領(lǐng)域的國(guó)際學(xué)術(shù)交流和合作提供更多機(jī)會(huì),進(jìn)一步擴(kuò)大我國(guó)人文社會(huì)科學(xué)領(lǐng)域科學(xué)家在國(guó)際學(xué)術(shù)界的影響。
2.4 大數(shù)據(jù)處理技術(shù)與方法
大數(shù)據(jù)處理技術(shù)與方法方面,建議重點(diǎn)發(fā)展3個(gè)方向。(1)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)技術(shù)已經(jīng)在許多非結(jié)構(gòu)化數(shù)據(jù)的處理方面——特別是在表達(dá)學(xué)習(xí)方面,展現(xiàn)出了其強(qiáng)大的生命力,但仍面臨著計(jì)算代價(jià)大、模型訓(xùn)練慢、可解釋性差等突出問(wèn)題,未來(lái)仍需探索如何在深度學(xué)習(xí)的模型方面整合人的先驗(yàn)知識(shí)或抽象能力,在降低對(duì)大量訓(xùn)練數(shù)據(jù)的依賴(lài)性的同時(shí)提高模型的可解釋性[24]。(2)低熵計(jì)算框架。計(jì)算作為一種資源需要以一種低熵的方式為大數(shù)據(jù)分析處理提供服務(wù),即降低計(jì)算資源在使用過(guò)程中的損耗,并提高易用性和可靠性,這需要云計(jì)算技術(shù)、新型計(jì)算器件、數(shù)據(jù)中心網(wǎng)絡(luò)等多個(gè)方面的技術(shù)進(jìn)步。同時(shí),設(shè)計(jì)安全可靠、可信易用的數(shù)據(jù)共享模式,降低數(shù)據(jù)使用過(guò)程的頻繁搬遷及數(shù)據(jù)一致性約束,也是促進(jìn)低熵計(jì)算實(shí)現(xiàn)需要努力的方向[25]。(3)數(shù)據(jù)使能的社會(huì)智能。大數(shù)據(jù)是銜接人、機(jī)、物三元世界的紐帶,蘊(yùn)含了關(guān)于人類(lèi)活動(dòng)和社會(huì)智能的知識(shí)[26],如何利用這些數(shù)據(jù)探索社會(huì)智能涌現(xiàn)的機(jī)理并構(gòu)建數(shù)據(jù)使能的社會(huì)計(jì)算模式,是未來(lái)大數(shù)據(jù)分析處理和人工智能的重要探索方向,以互聯(lián)網(wǎng)為媒介的人機(jī)互動(dòng)的人計(jì)算是可能的一種嘗試形式[27],未來(lái)期待更為柔性和易用的促使社會(huì)智能涌現(xiàn)的計(jì)算模型出現(xiàn)。
致謝:感謝張鳳、吳艷、章文峻、王東瑤、蔣芳、薛芳、滕曉龍為會(huì)議的籌備、組織所付出的辛勤勞動(dòng)。
1 Turner V, Gantz J F, Reinsel D, et al. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things. Framingham: IDC Analyze the Future, 2014.
2 Gantz J F, Reinsel D. The Digital Universe in 2020: Big Data,Bigger Digital Shadows, and Biggest Grow th in the Far East. Fram ingham: IDC Analyze the Future, 2012.
3 Guo H D, Wang L Z, Liang D. Big Earth Data from space: a new engine for Earth science. Science Bulletin, 2016, 61(7):505-513.
4 Consortium E P. An integrated encyclopedia of DNA elements in the human genome. Nature, 2012, 489(7414): 57-74.
5 何國(guó)金, 王力哲, 馬燕, 等. 對(duì)地觀測(cè)大數(shù)據(jù)處理: 挑戰(zhàn)與思考.科學(xué)通報(bào), 2015, 60(5-6): 470-478.
6 Guo H D, Wang L Z, Chen F, et al. Scientific big data and Digital Earth. Chinese Science Bulletin, 2014, 59(35): 5066-5073.
7 孫建軍. 大數(shù)據(jù)時(shí)代人文社會(huì)科學(xué)如何發(fā)展. 光明日?qǐng)?bào), 2014-07-07.
8 孫建軍. 大數(shù)據(jù)使社科研究不再“望數(shù)興嘆”. 人民日?qǐng)?bào),2016-02-18.
9 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考. 中國(guó)科學(xué)院院刊, 2012, 27(6): 647-657.
10 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題. 管理科學(xué)學(xué)報(bào), 2013, 16(1): 1-9.
11 俞立平. 大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué). 中國(guó)軟科學(xué), 2013, 2013, (7):177-183.
12 M cA fee A, Brynjolfsson E. Big data: the management revolution. Harvard Business Review, 2012, 90(10): 60-66, 68, 128.
13 W lodarczak P, Soar J, Ally M. Reality M ining in eHealth. Health Information Science, Cham: Springer International Publishing,2015: 1-6.
14 Kim Y, Jeong M, Jeong S R. Using big data opinion m ining topredict rises and falls in the stock price index. Handbook of Research on Organizational Transformations Through Big Data Analytics. Hershey: IGI Global, 2016.
15 Sandra G B. Social science in the era of big data. Po licy & Internet. 2013, 5(2): 147-160.
16 M orozov E. To Save Every thing, C lick Here: the fo lly of technological solutionism. New York: Public A ffairs, 2013.
17 Lazer D, Kennedy R, King G, et al. The parable of Google flu:traps in big data analysis. Science, 2014, 343: 1203-1205.
18 Leavitt N. W ill NoSQL databases live up to their prom ise? IEEE Computer, 2010, 43(2): 12-14.
19 Hey T, Tansley S, Tolle K. The fourth paradigm: data-Intensive scientific discovery. Microsoft Research, 2009.
20 Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 38(8): 1798-1828.
21 Liu D, Chen T, Liu S, et al. PuDianNao: A polyvalent machine learning accelerator // Proceedings of the 20th international conference on architectural support for programm ing languages and operating system s (ASPLOS 2015). New York: ACM, 2015:369-381.
22 A rmbrust M, Fox A, Griffith R, et al. A view of cloud com puting. Communications of the ACM, 2010, 53(4): 50-58.
23 von Ahn L, M aurer B, M cM illen C, et al. reCAPTCHA: humanbased character recognition via web security measures. Science,2008, 321(5895): 1465-1468.
24 LeCun Y, Bengio Y, Hinto G. Deep learning. Nature, 2015,521(7553): 436-444.
25 Lu X, Liang F, Wang B, et al. DataMPI: Extending MPI to hadoop-like big data com puting // Proceedings of the 28th IEEE international parallel and distributed processing symposium(IPDPS 2014). Phoenix: IEEE, 2014: 829-838.
26 Shen H W, Barabási A L. Collective credit allocation in science. PNAS, 2014, 111(34): 12325-12330.
27 M ichelucci P, Dickinson J L. The pow er of crow ds. Science,2016, 351(6268): 32-33.
郭華東中科院遙感與數(shù)字地球所研究員。中科院院士、發(fā)展中國(guó)家科學(xué)院院士、國(guó)際歐亞科學(xué)院院士。現(xiàn)擔(dān)任國(guó)際數(shù)字地球?qū)W會(huì)(ISDE)主席及 ISDE 中國(guó)國(guó)家委員會(huì)主席、國(guó)科聯(lián)(ICSU)國(guó)際科技數(shù)據(jù)委員會(huì)(CODATA)前主席及中國(guó)國(guó)家代表、災(zāi)害風(fēng)險(xiǎn)綜合研究計(jì)劃(IRDR)科學(xué)委員會(huì)委員及 IRDR 中國(guó)委員會(huì)主席、《國(guó)際數(shù)字地球?qū)W報(bào)》主編等職。主要從事遙感科學(xué)與應(yīng)用研究,在遙感信息機(jī)理、雷達(dá)對(duì)地觀測(cè)、數(shù)字地球科學(xué)等方面取得系列成果。發(fā)表論文 400 余篇,出版專(zhuān)著和主編著作 16 部,獲國(guó)家和省部級(jí)科技獎(jiǎng)勵(lì) 13 項(xiàng)。E-mail: hdguo@radi.ac.cn
Guo HuadongProfessor of Institute of Remote Sensing and Digital Earth (RADI), the Chinese Academy of Sciences (CAS), an Academ ician of CAS, a Fellow of The World Academy of Sciences for the advancement of science in developing countries (TWAS), and an Academicianof the International Eurasian Academy of Sciences (IEAS). He presently serves as President of the International Society for Digital Earth (ISDE),Past-President of the ICSU Committee on Data for Science and Technology (CODATA), Science Comm ittee Member of the Integrated Research on Disaster Risk (IRDR) programme co-sponsored by ICSU, ISSC, and UNISDR, Editor-in-Chief of the International Journal of Digital Earth,and Chairman of the Chinese National Committee for ISDE and China Comm ittee for IRDR. He specializes in theremote sensing science and its applications, and has conducted ground-breaking research on the information mechanisms of remote sensing, radar for Earth observation,and digital Earth science. Prof. Guo has published more than 400 papers and sixteen books, and is the principal awardee of thirteen national and CAS prizes. E-mail: hdguo@radi.ac.cn
Big Data in Natural Sciences, Humanities and Social Sciences——Review of the 6th Exploratory Round Table Conference
Gou Huadong1Chen Runsheng2Xu Zhiwei3Sun Jianjun4Bi Jun4Wang Lizhe1Luo Jianjun2Shen Huawei3Gu Dongxiao4Liang Dong1Shen Wenqing5Zhang Xu5Hans Wolfgang Spiess6Thomas Lengauer7
(1Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China;2Institute of Biophysics, Chinese Academy of Sciences, Beijing 100101, China;
3Institute of Computing Technology, Chinese Academy of Sciences , Beijing 100190, China;4Nanjing University , Nanjing 210023, China;5Shanghai Branch of Chinese Academy of Sciences, Shanghai 200031, China;6M ax Planck Institute for Polymer Research, M ainz 55128, Germany;7Max Planck Institute for Informatics, Saarbrücken 66123, Germany)
Big data has begun to significantly influence global production, circulation, distribution, and consum ption patterns. It is changing humankind's production methods, lifestyles, mechanisms of econom ic operation, and country governance models. It is a strategic enablingtechnology in the era of know ledge-driven econom ies, and also a new type of strategic resource for nations and the world. It offers a prom ising new route for innovative methods of analysis and inference, and provides new opportunities for natural sciences, humanities and social sciences. Ubiquitous in the discussion of today's technology, the colorful and not clearly delineated term “big data” is on people's m inds,regarding both its immense potential and its actual and perceived risks. The 6thExploratory Round Table Conference (ERTC 2015) under the theme of “Big Data in the Natural Sciences and Humanities” was successfully held in Shanghai in November 2015. It was a joint project of the Chinese Academ y of Sciences (CAS) and M ax Planck Society (MPG), focused on topics that are only just beginning to emerge in the scientific community. Scientists from CAS and MPG met together w ith experts around China and the world to review the status of research and technology regarding and using big data and to discuss how it can and should be harnessed for furthering science. Big data is characterized by(1) highly accessible generation of large volumes of data which (2) are generated continuously in a highly dynam ic fashion, and which feature(3) high data heterogeneity and (4) serious issues of data quality regarding noise, incompleteness, and biases. The status and requirements of big data research differ substantially among individual scientific domains. In the life sciences, the field has large, internationally shared repositories of highly diverse om ics data. Current activities include bringing together biological and medical (patient) data for research on diagnosis and therapy and making patient data accessible while preserving patient privacy. In the Earth sciences, various Earth observation methods, for example, remote sensing, ground sensor networks, geophysics, geochemistry, and geological surveys, have afforded huge volumes of data, so called big Earth data. Exciting themes include global change and digital Earth science. The concept of digital Earth is a virtual representation of our planet constructed w ith massive, multi-resolution, multi-temporal Earth observation, and socioeconomic data of different types. This multi-disciplinary challenge relies on big data. Big data is also emerging for the humanities and social sciences. High-resolution 3D-imaging, for exam ple, has led to the generation of large amounts of data for digital reproductions of cultural heritage artifacts that require large processing capabilities for filtering and reassembly. The key problem in social sciences is that the vast majority of data is still only available as images, texts, or websites, w ithout appropriate metadata to enable discovery and analysis. M ethodologies based on big data pose a number of challenges. (1) In order to gain trust in the data and learned predictive models, the predictions must be interpretable by a human.(2) Another challenge is the resulting loss of privacy: in some settings, complex predictive models are able to recoup partial information from different databases, and effectively deanonym ize seemingly anonymous data. (3) A t the infrastructure level, energy- and cost-efficient solutions are becom ing a grow ing necessity. (4) Furthermore, the software deployed on such infrastructure must deal transparently and resiliently w ith the noise and heterogeneity inherent to big data. In the three-day conference, a prelim inary consensus was proposed that big data, as a new way of human life and understanding the world, is driving the transformation of scientific research paradigms and promoting scientific development. It should be scientifically cognized how big data is playing a critical role for scientific discovery, what the significance is, and what major challenges are being faced. The conference also recommended establishing a Scientific Data Center in communication and cooperation, to form a scientific working group to research big data issues, and to enhance cultivation of young scientists in the realm of big data.
big data, scientific big data, life sciences, earth sciences, humanities, social sciences, computing technology, Exploratory Round Table Conference
10.16418/j.issn.1000-3045.2016.06.014
*資助項(xiàng)目:中科院規(guī)劃與戰(zhàn)略研究專(zhuān)項(xiàng)
修改稿收到日期:2016 年4月29日