亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自然科學(xué)與人文科學(xué)大數(shù)據(jù)
        ——第六屆中德前沿探索圓桌會議綜述*

        2016-10-18 02:03:57郭華東陳潤生徐志偉孫建軍王力哲駱健俊沈華偉顧東曉棟沈文慶HansWolfgangSpiessThomasLengauer中國科學(xué)院遙感與數(shù)字地球研究所北京0009中國科學(xué)院生物物理研究所北京000中國科學(xué)院計(jì)算技術(shù)研究所北京0090南京大學(xué)南京00中國科學(xué)院上海分院上海000MaxPlanckInstituteforPolymerResearchMainzMaxPlanckInstituteforInformaticsSa
        中國科學(xué)院院刊 2016年6期
        關(guān)鍵詞:研究

        郭華東 陳潤生 徐志偉 孫建軍 畢 軍 王力哲 駱健俊 沈華偉 顧東曉 梁 棟沈文慶 張 旭 Hans Wolfgang Spiess Thomas Lengauer 中國科學(xué)院遙感與數(shù)字地球研究所 北京 0009 中國科學(xué)院生物物理研究所 北京 000 中國科學(xué)院計(jì)算技術(shù)研究所 北京 0090 南京大學(xué) 南京 00 中國科學(xué)院上海分院 上?!?00 Max Planck Institute for Polymer Research Mainz 8 Max Planck Institute for In formatics Saarbrü cken 

        自然科學(xué)與人文科學(xué)大數(shù)據(jù)
        ——第六屆中德前沿探索圓桌會議綜述*

        郭華東1陳潤生2徐志偉3孫建軍4畢軍4王力哲1駱健俊2沈華偉3顧東曉4梁棟1沈文慶5張旭5Hans Wolfgang Spiess6Thomas Lengauer7
        1中國科學(xué)院遙感與數(shù)字地球研究所北京100094
        2中國科學(xué)院生物物理研究所北京100101
        3中國科學(xué)院計(jì)算技術(shù)研究所北京100190
        4南京大學(xué)南京210023
        5中國科學(xué)院上海分院上海200031
        6Max Planck Institute for Polymer ResearchMainz55128
        7Max Planck Institute for In formaticsSaarbrü cken66123

        大數(shù)據(jù)是知識經(jīng)濟(jì)時(shí)代的戰(zhàn)略高地,是國家和全球的新型戰(zhàn)略資源。作為思維的革命性創(chuàng)新,大數(shù)據(jù)為科學(xué)研究帶來了新的方法論。第六屆中德前沿探索圓桌會議以“自然科學(xué)與人文科學(xué)大數(shù)據(jù)”為主題,在“生物醫(yī)藥大數(shù)據(jù)”、“物理、化學(xué)與地球科學(xué)領(lǐng)域大數(shù)據(jù)”、“人文與社會科學(xué)領(lǐng)域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術(shù)與方法”4個(gè)領(lǐng)域進(jìn)行研討,總結(jié)了大數(shù)據(jù)對于科學(xué)發(fā)現(xiàn)的重要作用、意義以及面臨的重大問題,形成了關(guān)于發(fā)展科學(xué)大數(shù)據(jù)研究的相關(guān)建議。

        大數(shù)據(jù),科學(xué)大數(shù)據(jù),生命科學(xué),地球科學(xué),人文科學(xué),社會科學(xué),計(jì)算機(jī)技術(shù),中德前沿探索圓桌會議

        新一輪信息技術(shù)革命與人類社會活動(dòng)交匯融合,引發(fā)了數(shù)據(jù)爆炸式增長,數(shù)據(jù)類型繁多且復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)和處理模式的能力范圍,“大數(shù)據(jù)”概念也應(yīng)運(yùn)而生。2014 年 4 月,國際數(shù)據(jù)公司(IDC)發(fā)布的第 7 份數(shù)字宇宙研究報(bào)告中指出,全球數(shù)據(jù)量將以超過每兩年翻一番的速度持續(xù)增長,2013 年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量已達(dá) 4.4 ZB(Zettabyte,澤字節(jié),1 ZB=1021B),預(yù)計(jì)到 2020 年將增至 44 ZB[1]。我國擁有的全球數(shù)據(jù)量比例預(yù)計(jì)也將由 2012 年的13% 提升至 21%[2]。大數(shù)據(jù)已對全球生產(chǎn)、流通、分配與消費(fèi)模式產(chǎn)生重要影響,正在改變?nèi)藗兩a(chǎn)生活方式、經(jīng)濟(jì)運(yùn)行機(jī)制和國家治理模式。大數(shù)據(jù)作為知識經(jīng)濟(jì)時(shí)代的一項(xiàng)戰(zhàn)略使能技術(shù),是各國的一種新型戰(zhàn)略資源。不久的將來,圍繞大數(shù)據(jù)引起的競爭不僅將決定國際信息產(chǎn)業(yè)格局,還將深刻影響經(jīng)濟(jì)發(fā)展、國家安全、科技進(jìn)步和綜合競爭力[3]。

        大數(shù)據(jù)為分析和推理方法的創(chuàng)新提供了一個(gè)全新的、極富前景的路徑,同時(shí)也為自然科學(xué)與人文社會科學(xué)的研究提供了新的契機(jī)??茖W(xué)大數(shù)據(jù)作為大數(shù)據(jù)的分支體系已成為繼實(shí)驗(yàn)、理論和計(jì)算模式之后的數(shù)據(jù)密集型科研范式的典型代表,正在從模型驅(qū)動(dòng)模式向數(shù)據(jù)驅(qū)動(dòng)模式進(jìn)行轉(zhuǎn)化,帶來了科研方法論的創(chuàng)新??茖W(xué)大數(shù)據(jù)由各學(xué)科產(chǎn)生或收集的規(guī)模巨大且多源異構(gòu)的數(shù)據(jù)組成,例如生命科學(xué)中的基因組數(shù)據(jù)、地球科學(xué)中的觀測和模擬數(shù)據(jù)、化學(xué)和材料科學(xué)中的測量數(shù)據(jù)以及數(shù)字化的人文歷史數(shù)據(jù)。這些數(shù)據(jù)亟需在全球科技界實(shí)現(xiàn)共享,以實(shí)現(xiàn)其價(jià)值的充分利用。同時(shí),如何保證數(shù)據(jù)的可持續(xù)性使用也是當(dāng)前面臨的一個(gè)嚴(yán)峻挑戰(zhàn)。隨著數(shù)據(jù)產(chǎn)生變得日益便捷,數(shù)據(jù)分析開始成為瓶頸。眾所周知,大數(shù)據(jù)中充斥著偏差和噪聲。從大數(shù)據(jù)中析取知識涉及統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)等技術(shù),然而從數(shù)據(jù)中得到的往往只是關(guān)聯(lián)關(guān)系而非因果關(guān)系。對因果關(guān)系的探究超出了統(tǒng)計(jì)學(xué)的能力范疇,至今沒有系統(tǒng)化的解決方案。此外,如何讓基于統(tǒng)計(jì)方法的預(yù)測看上去更合理,也是一項(xiàng)重大挑戰(zhàn)。

        基于以上背景,以“自然科學(xué)與人文科學(xué)大數(shù)據(jù)”為主題的第六屆中德前沿探索圓桌會議于 2015 年 11月19—21日在中科院上海交叉學(xué)科研究中心召開。40 余位中外學(xué)者圍繞會議主題,秉承前沿領(lǐng)域、交叉學(xué)科、自由探索的宗旨進(jìn)行了深入的探討和前瞻。會議共設(shè) 4 個(gè)議題,分別為“生物醫(yī)藥大數(shù)據(jù)”“物理、化學(xué)與地球科學(xué)領(lǐng)域大數(shù)據(jù)”“人文與社會科學(xué)領(lǐng)域大數(shù)據(jù)”和“大數(shù)據(jù)處理技術(shù)與方法”,共 21位專家作了會議報(bào)告。在與會專家積極探討交流以及中德青年科學(xué)家小組的努力工作下,會議達(dá)成初步共識,認(rèn)為:大數(shù)據(jù)作為改變?nèi)祟惿罴袄斫馐澜绲男路绞?,正?qū)動(dòng)著科學(xué)研究范式的轉(zhuǎn)化,推動(dòng)著科學(xué)發(fā)展;應(yīng)科學(xué)地認(rèn)知大數(shù)據(jù)對于科學(xué)發(fā)現(xiàn)的重要作用、意義以及面臨的重大問題;在建立科學(xué)大數(shù)據(jù)中心方面進(jìn)行交流和合作;組建科學(xué)大數(shù)據(jù)工作組開展大數(shù)據(jù)熱點(diǎn)問題的研究;注重大數(shù)據(jù)青年科學(xué)家的培養(yǎng)等。

        1 大數(shù)據(jù)在不同學(xué)科領(lǐng)域的發(fā)展現(xiàn)狀及挑戰(zhàn)

        大數(shù)據(jù)的特征在于:(1)海量數(shù)據(jù);(2)數(shù)據(jù)以高度動(dòng)態(tài)的方式持續(xù)產(chǎn)生;(3)數(shù)據(jù)的高度異質(zhì)性;(4)數(shù)據(jù)質(zhì)量存在噪聲、不完整和偏見方面的嚴(yán)重問題。這些特征在各科學(xué)領(lǐng)域都普遍存在,而在各科學(xué)領(lǐng)域相對于大數(shù)據(jù)研究的需求卻又有很大的不同。

        1.1 生物醫(yī)藥大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

        20 世紀(jì) 90 年代初國際上開始人類基因組計(jì)劃研究,從此開啟了人類認(rèn)識自身遺傳密碼的劃時(shí)代的航程。隨著人類基因組圖譜工作的完成,人類基因組的數(shù)據(jù)變得更加完善與準(zhǔn)確。以近年來增長最快的數(shù)據(jù),人類的單核苷酸多態(tài)性(SNP)數(shù)據(jù)為例,它代表著不同人種以及正常人和某些病人基因組中堿基的差異,已有 100 135 281 個(gè)人類非冗余并被確認(rèn)的 SNP 位點(diǎn)被數(shù)據(jù)庫收錄。這表明人的基因組中平均每幾十個(gè)堿基就有 1 個(gè)堿基差異。但在已知 SNP 中,僅有不到 1% 的 SNP 造成蛋白的變化。GenBank 中的 dbEST 數(shù)據(jù)庫收錄了大約 870 多萬條代表著人類基因表達(dá)小片段的表達(dá)序列標(biāo)簽(EST)序列,覆蓋了人類基因的 95%,冗余度已遠(yuǎn)超過 10。隨著對基因組數(shù)據(jù)的不斷挖掘,科學(xué)家發(fā)現(xiàn)了一些重要事實(shí):DNA 上編碼蛋白質(zhì)的區(qū)域,也就是基因,只占人類基因組的一小部分,不會超過整個(gè)基因組的 3%,其余占人類基因組 97% 左右的“非編碼 DNA”序列仍不大清楚其功能,但卻蘊(yùn)涵著生物體復(fù)雜性的信息、具有重要的生物學(xué)功能,且與人類疾病相關(guān),迄今為止,我們對這些非編碼序列以及相關(guān)的非編碼基因和非編碼 RNA 的功能只有很少的了解[4]?!度祟惢蚪M計(jì)劃》的完成和深入發(fā)展為生命科學(xué)積累了大量的數(shù)據(jù)和資料,這將有可能從更深層次上了解人體生長、發(fā)育、正常生理活動(dòng),同時(shí)也可能了解各種疾病的病因,并提出防治途徑。

        現(xiàn)今,已經(jīng)存在著包含不同種類組學(xué),如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組、表觀遺傳組等大數(shù)據(jù)的多個(gè)大型國際共享平臺。獲取組學(xué)數(shù)據(jù)的方法與技術(shù)已日漸成熟,關(guān)鍵是數(shù)據(jù)挖掘。與組學(xué)數(shù)據(jù)的海量特征相比,組學(xué)數(shù)據(jù)的復(fù)雜特征則更具有挑戰(zhàn)性。組學(xué)數(shù)據(jù)復(fù)雜性的本質(zhì)是源于生物體的結(jié)構(gòu)和功能以及生命活動(dòng)過程本身的多樣性和復(fù)雜性。為此必須使用信息科學(xué)領(lǐng)域正在發(fā)展的解析大數(shù)據(jù)內(nèi)涵的一系列理論、方法與技術(shù),必須將當(dāng)前國際上兩大前沿領(lǐng)域“組學(xué)”與“大數(shù)據(jù)”融合。臨床上,組學(xué)大數(shù)據(jù)的挖掘可得到大量不同人以及正常人與病人之間在分子水平的差異,關(guān)鍵問題是這些差異中哪些是與疾病直接相關(guān)的、相關(guān)的程度如何?只有找到了這種聯(lián)系,才能得到表征特定疾病的分子標(biāo)記,才能發(fā)現(xiàn)藥物設(shè)計(jì)的分子靶標(biāo),才能實(shí)現(xiàn)轉(zhuǎn)化,將組學(xué)分析獲取的知識用于臨床。因此,生物大數(shù)據(jù)在醫(yī)藥領(lǐng)域應(yīng)用的前提是建立代表分子水平差異的基因型與代表疾病特征的表現(xiàn)型之間的橋梁。為此,需要發(fā)展生物信息學(xué)、系統(tǒng)生物學(xué),包括生物網(wǎng)絡(luò)研究的大量理論、方法與技術(shù),建立并完善基因型與表型的關(guān)聯(lián)。

        1.2 地球大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

        伴隨著對地觀測技術(shù)的不斷發(fā)展,在空間觀測、地球物理、地球化學(xué)、地質(zhì)勘探和地面?zhèn)鞲衅骶W(wǎng)絡(luò)等領(lǐng)域產(chǎn)生著龐大的數(shù)據(jù),其具有海量、多源、異構(gòu)、多時(shí)態(tài)、多尺度、高維度、高復(fù)雜性、非平穩(wěn)和非結(jié)構(gòu)化等特性,為實(shí)現(xiàn)地球科學(xué)領(lǐng)域的數(shù)據(jù)密集型知識發(fā)現(xiàn)提供了有利支撐[5]。以全球變化研究和數(shù)字地球?yàn)槔?,全球變化研究對地球系統(tǒng)化、綜合化觀測的需求帶動(dòng)了對地觀測技術(shù)的高速發(fā)展,全球已建立準(zhǔn)實(shí)時(shí)、全天候的地球數(shù)據(jù)獲取能力,形成了高空間、高時(shí)間、高光譜分辨率的天空地一體化對地觀測系統(tǒng),作為面向全球可持續(xù)發(fā)展的多學(xué)科挑戰(zhàn)性的關(guān)鍵問題,全球變化研究主要包括全球變化過程的監(jiān)測、全球變化的模擬分析、全球變化響應(yīng)策略研究等,而這些研究都依賴于地球大數(shù)據(jù),如長時(shí)間序列多時(shí)空尺度的對地觀測數(shù)據(jù),精確的、連續(xù)的地面臺站觀測和試驗(yàn)數(shù)據(jù),基于有科學(xué)依據(jù)的理論推測與估算數(shù)據(jù)等。因此地球大數(shù)據(jù)可為全球變化研究發(fā)展提供新的解決思路。數(shù)字地球作為多學(xué)科交叉的研究領(lǐng)域,其目標(biāo)是呈現(xiàn)一個(gè)基于海量、多類型、多源、多分辨率、多時(shí)空尺度的虛擬地球,不僅涵蓋大氣、地理、地質(zhì)、環(huán)境、生態(tài)、資源等地球科學(xué)各個(gè)學(xué)科的數(shù)據(jù),也與信息科學(xué)、空間科學(xué)、人文社會科學(xué)密切相關(guān),具有地球大數(shù)據(jù)的主要特征。數(shù)字地球的發(fā)展高度依賴地球大數(shù)據(jù),從而實(shí)現(xiàn)對地球系統(tǒng)進(jìn)行描述、分析、模擬和預(yù)測[6]。

        地球大數(shù)據(jù)為地球科學(xué)帶來了新的動(dòng)力,但在傳輸、存儲、處理、分析、管理、共享和知識發(fā)現(xiàn)等方面也帶來了巨大的技術(shù)挑戰(zhàn)。為應(yīng)對這些挑戰(zhàn),科學(xué)家們正致力于研發(fā)面向地球大數(shù)據(jù)的計(jì)算平臺、算法和軟件系統(tǒng)等,如基于高性能平臺系統(tǒng)、大規(guī)模存儲技術(shù)、全流程自動(dòng)化處理技術(shù)、高效化計(jì)算技術(shù)、數(shù)據(jù)共享與服務(wù)系統(tǒng)等。雖然這些技術(shù)帶來一些革新,但大數(shù)據(jù)技術(shù)引入地球科學(xué)領(lǐng)域的時(shí)間尚短,且地球大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的行業(yè)特點(diǎn)具有明顯差異,還存在一系列關(guān)鍵技術(shù)亟需攻克,如大規(guī)模多元數(shù)據(jù)集成與挖掘技術(shù),大規(guī)模并發(fā)任務(wù)、數(shù)據(jù)、算法的多層次混合并行計(jì)算技術(shù),數(shù)據(jù)、網(wǎng)絡(luò)、計(jì)算多資源動(dòng)態(tài)協(xié)同處理技術(shù)等。另一值得關(guān)注的方面是地球大數(shù)據(jù)的密集型科學(xué)發(fā)現(xiàn)。地球大數(shù)據(jù)的知識發(fā)現(xiàn),不僅僅是信息提取,還有挖掘隱含的、非顯見的模式、規(guī)律和知識。針對地球大數(shù)據(jù)規(guī)模龐大、維度超高但信息密度低的問題,科學(xué)家正探索通過人工智能方法簡化數(shù)據(jù)量與數(shù)據(jù)維度,使大數(shù)據(jù)變小后再進(jìn)行后續(xù)研究。此外,數(shù)據(jù)的極大豐富使得知識發(fā)現(xiàn)由“模型驅(qū)動(dòng)”逐漸轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”成為可能。但是,高效挖掘地球大數(shù)據(jù)所蘊(yùn)藏知識仍處于起步階段,亟需發(fā)展面向地球大數(shù)據(jù)的知識發(fā)現(xiàn)創(chuàng)新理論與方法,如適應(yīng)地球大數(shù)據(jù)的認(rèn)知模型、面向全體數(shù)據(jù)的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)方法等[3]。

        1.3 人文與社會科學(xué)大數(shù)據(jù)發(fā)展現(xiàn)狀及挑戰(zhàn)

        在人文和社會科學(xué)領(lǐng)域,大數(shù)據(jù)也正在成為熱門話題,它為人文社會科學(xué)研究與發(fā)展帶來了新的歷史性機(jī)遇與挑戰(zhàn)。當(dāng)前,人文社會科學(xué)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如文化遺產(chǎn)大數(shù)據(jù)、金融大數(shù)據(jù)、商業(yè)大數(shù)據(jù)、網(wǎng)絡(luò)輿情大數(shù)據(jù)、醫(yī)療與健康大數(shù)據(jù)等,數(shù)據(jù)的規(guī)模和信息的完整性都是以往無法比擬的。政府、工業(yè)界、高校和研究機(jī)構(gòu)越來越多的數(shù)據(jù)對社會開放,極大降低了數(shù)據(jù)的獲取成本,同時(shí)數(shù)據(jù)充裕帶來了研究機(jī)遇的質(zhì)變,以往不可研究、不能研究的問題在大數(shù)據(jù)環(huán)境下成為可能。黨的十八屆五中全會提出實(shí)施國家大數(shù)據(jù)戰(zhàn)略和推進(jìn)數(shù)據(jù)資源開放共享,為人文社會科學(xué)研究打開了“另一扇窗子”[7]。

        在大數(shù)據(jù)環(huán)境下,人們不僅關(guān)心數(shù)據(jù)建模、分析、管理、復(fù)用和建立大數(shù)據(jù)基礎(chǔ)設(shè)施,還關(guān)心如何構(gòu)造和利用基于數(shù)據(jù)的、開放協(xié)同的研究與創(chuàng)新模式[8,9]。當(dāng)前,在人文社會科學(xué)研究領(lǐng)域,以“人文計(jì)算”、復(fù)雜網(wǎng)絡(luò)分析、大規(guī)模數(shù)據(jù)分析為特征的研究方法逐漸被采納,涌現(xiàn)出了越來越多基于現(xiàn)實(shí)數(shù)據(jù)分析的定量化研究成果,人文社會科學(xué)的“科學(xué)性”顯著增強(qiáng)[8]。不僅如此,人文社會科學(xué)研究中大數(shù)據(jù)分析方法的使用,還提高了人文社會科學(xué)研究者的研究能力,開啟了人文社會科學(xué)研究的新局面。網(wǎng)絡(luò)輿情管理、互聯(lián)網(wǎng)金融、宏觀經(jīng)濟(jì)分析、圖書情報(bào)知識服務(wù)、歷史文獻(xiàn)管理、電子商務(wù)、新聞與數(shù)字出版、旅游管理、健康管理與養(yǎng)老服務(wù)等許多人文社會科學(xué)領(lǐng)域大數(shù)據(jù)研究成果不斷涌現(xiàn)[10-12],所關(guān)注的內(nèi)容不僅包括針對人文社會科學(xué)特定領(lǐng)域和問題情景下的大數(shù)據(jù)建模與處理方法,還包括大數(shù)據(jù)資源管理與利用方法,以及大數(shù)據(jù)環(huán)境下的信息共享服務(wù)、安全、隱私保護(hù)等。例如:W lodarczak等人[13]基于社交大數(shù)據(jù)進(jìn)行觀點(diǎn)挖掘與情感分析,Kim 與 Jeong 等人[14]采用基于觀點(diǎn)的大數(shù)據(jù)挖掘進(jìn)行股票漲跌預(yù)測。

        人文社會科學(xué)領(lǐng)域大數(shù)據(jù)研究在面臨著巨大機(jī)遇的同時(shí),也存在一系列現(xiàn)實(shí)問題,不僅大數(shù)據(jù)分析的“注重關(guān)聯(lián),不關(guān)注因果”、“過擬合”等問題在人文社會科學(xué)研究領(lǐng)域同樣存在,且已有研究成果總體上偏重于大數(shù)據(jù)應(yīng)用分析,針對人文社會科學(xué)特定問題情境的大數(shù)據(jù)理論和建模方法研究和創(chuàng)新不足[15-17]。此外,人文社會科學(xué)大數(shù)據(jù)研究目前還面臨 4 個(gè)方面的問題。

        (1)科研資料總量的快速增加和數(shù)據(jù)質(zhì)量問題給人文社會科學(xué)研究帶來了巨大挑戰(zhàn)。當(dāng)前人文社會科學(xué)研究者在各自研究領(lǐng)域都面臨大量數(shù)據(jù)資料的處理問題[8],研究范式的轉(zhuǎn)變也使得人文社會科學(xué)研究越來越依賴高質(zhì)量的數(shù)據(jù),迫切需要構(gòu)建人文社會科學(xué)數(shù)據(jù)的質(zhì)量保障機(jī)制,以及研究新的計(jì)算機(jī)處理模式和分析方法以支持人文社會領(lǐng)域科學(xué)家對知識的獲取、標(biāo)注、比較、取樣、闡釋與表現(xiàn)。

        (2)資料數(shù)字化帶來的挑戰(zhàn)。資料數(shù)字化改變了傳統(tǒng)人文社會科學(xué)的資料類型,數(shù)字資源的采集、加工和處理對高水平研究成果的獲得作用日益顯著[8]。以“大數(shù)據(jù)”為代表的數(shù)據(jù)資源在數(shù)據(jù)粒度、碎片化、結(jié)構(gòu)多元化、信息質(zhì)量等方面具有更高的復(fù)雜度,對資料的匯集、保存和綜合利用更加依賴計(jì)算機(jī)的輔助,人文社會科學(xué)家進(jìn)行數(shù)據(jù)處理分析也越來越需要依賴信息技術(shù)手段,迫切需要開發(fā)可用于人文社會科學(xué)大數(shù)據(jù)采集、清洗、分析處理和可視化的工具和方法。傳統(tǒng)人文社會科學(xué)學(xué)者對信息處理分析工具與技巧的缺失將影響該領(lǐng)域高水平研究成果的產(chǎn)出。

        (3)數(shù)據(jù)出版和共享方面的挑戰(zhàn)。缺乏能夠應(yīng)用于大數(shù)據(jù)研究實(shí)踐成果和學(xué)術(shù)著作快速出版的開放工具和平臺,也是一個(gè)重要挑戰(zhàn)。目前亟需可用于不同學(xué)科、不同制度下的數(shù)據(jù)出版(有適當(dāng)標(biāo)準(zhǔn)和授信)和數(shù)據(jù)共享的集成化平臺,以及多數(shù)據(jù)集成化出版。

        (4)大數(shù)據(jù)資源管理、知識產(chǎn)權(quán)、安全與隱私方面的挑戰(zhàn)。大數(shù)據(jù)運(yùn)用不僅帶來了更多問題的解決方法,也帶來了數(shù)據(jù)資源管理、公民知識產(chǎn)品、數(shù)據(jù)安全與用戶隱私等方面的一系列問題,這在人文社會科學(xué)領(lǐng)域顯得尤為突出。大數(shù)據(jù)資源管理的公共政策,大數(shù)據(jù)資源與產(chǎn)業(yè)的深度融合,以及大數(shù)據(jù)商業(yè)價(jià)值的挖掘與知識產(chǎn)權(quán)、數(shù)據(jù)安全和用戶隱私保護(hù)之間關(guān)系的研究方興未艾,尚待取得突破性的進(jìn)展,值得進(jìn)一步的探索。

        1.4 大數(shù)據(jù)處理技術(shù)與方法發(fā)展現(xiàn)狀及挑戰(zhàn)

        大數(shù)據(jù)在數(shù)據(jù)規(guī)模、數(shù)據(jù)增速、數(shù)據(jù)類型、數(shù)據(jù)質(zhì)量、數(shù)據(jù)價(jià)值等方面的特性給大數(shù)據(jù)處理技術(shù)與方法提出了新的科學(xué)技術(shù)挑戰(zhàn)[9]。主要體現(xiàn)在 5 個(gè)方面:

        (1)數(shù)據(jù)存儲管理方面。數(shù)據(jù)產(chǎn)生過程和數(shù)據(jù)分析過程的分離,使得傳統(tǒng)面向數(shù)據(jù)查詢需求的關(guān)系數(shù)據(jù)庫不再適用,亟需面向數(shù)據(jù)分析需求的大規(guī)模數(shù)據(jù)倉庫和 NoSQL 數(shù)據(jù)庫[18];(2)數(shù)據(jù)分析方法方面。數(shù)據(jù)的產(chǎn)生和獲取過程不再有嚴(yán)格的控制,相關(guān)性分析代替因果性分析逐漸成為數(shù)據(jù)分析的主要方式,問題驅(qū)動(dòng)的研究方式逐漸被數(shù)據(jù)驅(qū)動(dòng)的研究方式所代替[19];(3)模型和算法方面。半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理需求成為主流,傳統(tǒng)基于特征工程(feature engineering)的方法逐漸被基于特征學(xué)習(xí)(feature learning)的方法超越并取代[20];(4)計(jì)算體系結(jié)構(gòu)方面。新型存儲器件和計(jì)算器件(例如 GPU 等)不斷涌現(xiàn),使得通用處理器和單一體系結(jié)構(gòu)逐漸過渡為專用處理器和異構(gòu)體系結(jié)構(gòu)[21];(5)計(jì)算和服務(wù)方面。對于計(jì)算資源的高可靠性和高易用性的需求日增,以互聯(lián)網(wǎng)為媒介的云計(jì)算模式和數(shù)據(jù)中心逐漸成為大數(shù)據(jù)處理的新型模式[22]。

        近幾年,大數(shù)據(jù)分析處理技術(shù)和方法有了長足的發(fā)展。Hadoop 分布式文件系統(tǒng)、Map-Reduce 和 Spark 分布式計(jì)算框架、銜接高性能計(jì)算和大數(shù)據(jù)的 DataMPI、云計(jì)算技術(shù)、深度學(xué)習(xí)技術(shù)等新技術(shù)深刻影響和改變著大數(shù)據(jù)的分析處理。一方面,計(jì)算能力和計(jì)算模式的變革為大數(shù)據(jù)分析處理提供了高易用性、高可靠性和低熵的計(jì)算資源;另一方面,人類社會活動(dòng)的信息化和數(shù)字化程度達(dá)到了空前的水平,日益豐富的大數(shù)據(jù)構(gòu)成了人、機(jī)、物三元世界的詳實(shí)數(shù)字記錄,形成了前所未有的數(shù)據(jù)資源。計(jì)算資源和數(shù)據(jù)資源的結(jié)合,為人工神經(jīng)網(wǎng)絡(luò)的復(fù)興和深度學(xué)習(xí)技術(shù)的發(fā)展提供了前所未有的契機(jī),共同催生了人工智能新的春天。無論是圖形圖像處理和自然語言理解等基礎(chǔ)研究方面,還是無人駕駛和智能機(jī)器人等具體應(yīng)用方面,以深度學(xué)習(xí)技術(shù)和大數(shù)據(jù)分析引擎為代表的大數(shù)據(jù)分析和處理技術(shù)都帶來了質(zhì)的進(jìn)步,產(chǎn)生了深遠(yuǎn)影響。相應(yīng)地,為深度學(xué)習(xí)設(shè)計(jì)和開發(fā)的新型計(jì)算框架和專用計(jì)算芯片近年來也取得了很大的進(jìn)步。另外,各類體現(xiàn)互聯(lián)網(wǎng)思維的“互聯(lián)網(wǎng)+”應(yīng)用,也在推動(dòng)著大數(shù)據(jù)分析和處理技術(shù)的進(jìn)步,以“眾包”為代表的群智計(jì)算在很多應(yīng)用場景(例如借助互聯(lián)網(wǎng)進(jìn)行的眾包光學(xué)字符識別系統(tǒng) reCAPTCHA[23])中發(fā)揮了重要作用,解決了傳統(tǒng)計(jì)算模式無法或難以解決的問題,是大數(shù)據(jù)分析和處理技術(shù)的一個(gè)新方向。

        2 科學(xué)大數(shù)據(jù)發(fā)展建議

        2.1 生物醫(yī)藥大數(shù)據(jù)

        在生命科學(xué)領(lǐng)域,獲取組學(xué)數(shù)據(jù)的方法與技術(shù)已日漸成熟,關(guān)鍵是數(shù)據(jù)挖掘。對占人類基因組 97% 左右的非編碼序列信息的積累與挖掘也已引起國際上的廣泛關(guān)注,預(yù)示著這一領(lǐng)域?qū)⑷〉猛黄?。如何從海量?fù)雜的組學(xué)數(shù)據(jù)中獲取生命活動(dòng)的知識已成為了基因組及相關(guān)研究的關(guān)鍵。當(dāng)前的困難主要包括計(jì)算量大、樣本量小、有效事件頻率低、存在共同與特異的變化等。今后發(fā)展的目標(biāo)包括需要增大計(jì)算資源與樣本數(shù)目,發(fā)展與完善統(tǒng)計(jì)、分析、建模等方法,并構(gòu)建動(dòng)態(tài)的、雙色(含蛋白質(zhì)及 RNA)的復(fù)雜網(wǎng)絡(luò)。當(dāng)下,最為活躍的研究熱點(diǎn)包括整合分析來源成分復(fù)雜的數(shù)據(jù),在確保病人隱私不受侵犯的前提下,更有效地整合來自生物學(xué)與臨床醫(yī)學(xué)的數(shù)據(jù)以用于診斷、治療等方面的研究。更長遠(yuǎn)的研究目標(biāo),則是基于數(shù)據(jù)的進(jìn)一步演繹,如,闡明基因型與表型的關(guān)系。雖然目前已經(jīng)存在著包含不同種類組學(xué)大數(shù)據(jù)的多個(gè)大型國際共享平臺,為了擴(kuò)大國家在生物醫(yī)藥大數(shù)據(jù)方面的影響力,更多數(shù)據(jù)應(yīng)同時(shí)對整個(gè)科學(xué)界開放(涉及諸如病人隱私的數(shù)據(jù)除外)。比較好的做法是將數(shù)據(jù)存放在領(lǐng)域內(nèi)已建立的全球數(shù)據(jù)存儲中心。如有必要,建立國家大型計(jì)算機(jī)中心或生物醫(yī)學(xué)權(quán)威數(shù)據(jù)庫以方便數(shù)據(jù)的采集、處理以及共享。

        2.2 地球大數(shù)據(jù)

        地球大數(shù)據(jù)的誕生,使人類對地球系統(tǒng)的認(rèn)知從傳統(tǒng)的經(jīng)驗(yàn)資料搜集、理論推導(dǎo)、局部物理過程理解和模擬轉(zhuǎn)化到利用地球大數(shù)據(jù)進(jìn)行信息挖掘與知識發(fā)現(xiàn),從而探索地球系統(tǒng)中關(guān)鍵信息和各子系統(tǒng)及各生物物理變量之間的相互關(guān)聯(lián)和作用。因此,建議在3個(gè)層面發(fā)展地球大數(shù)據(jù),使其更好地服務(wù)知識發(fā)現(xiàn)。(1)地球大數(shù)據(jù)為地球科學(xué),尤其是地球系統(tǒng)科學(xué)的研究提供了全新的方法論。基于天空地一體化的地球觀測大數(shù)據(jù),結(jié)合地球科學(xué)領(lǐng)域的數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的模型、算法,發(fā)展地球大數(shù)據(jù)知識發(fā)現(xiàn)的理論與方法是地球科學(xué)領(lǐng)域亟待解決的重大科學(xué)問題。(2)地球大數(shù)據(jù)傳輸、存儲、管理、處理、計(jì)算與共享高度依賴于大數(shù)據(jù)技術(shù),結(jié)合互聯(lián)網(wǎng)領(lǐng)域大數(shù)據(jù)技術(shù)和云計(jì)算的最新研究成果,研發(fā)面向地球大數(shù)據(jù)的平臺系統(tǒng)、數(shù)據(jù)的高效組織與集成、算法的并行計(jì)算技術(shù)、大規(guī)模數(shù)據(jù)挖掘、資源調(diào)度與優(yōu)化、信息共享與服務(wù)方法等關(guān)鍵技術(shù),發(fā)展以大數(shù)據(jù)技術(shù)和云計(jì)算為核心的地球大數(shù)據(jù)處理與應(yīng)用綜合服務(wù)平臺,是地球科學(xué)領(lǐng)域大數(shù)據(jù)發(fā)展的前提和基礎(chǔ)。(3)加強(qiáng)地球科學(xué)領(lǐng)域與各相關(guān)領(lǐng)域的協(xié)同合作研究,推進(jìn)大數(shù)據(jù)與跨學(xué)科領(lǐng)域大數(shù)據(jù)的交叉和融合,推動(dòng)地球科學(xué)的創(chuàng)新發(fā)展。例如,數(shù)字地球科學(xué)作為多學(xué)科交叉的研究領(lǐng)域,其學(xué)科發(fā)展依賴于不同學(xué)科大數(shù)據(jù)的綜合集成的解決方法。

        2.3 人文與社會科學(xué)領(lǐng)域大數(shù)據(jù)

        大數(shù)據(jù)的運(yùn)用有助于形成人文社會科學(xué)研究新思維,進(jìn)一步推動(dòng)研究數(shù)據(jù)有序開放、跨學(xué)科深度協(xié)作,以及人文社會科學(xué)與自然科學(xué)及工程技術(shù)學(xué)科的融合,從而開啟人文社會科學(xué)研究新局面[8]。為推動(dòng)人文社會科學(xué)大數(shù)據(jù)學(xué)科發(fā)展,提出 4 方面建議:(1)推動(dòng)構(gòu)建人文社會科學(xué)大數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)與共建共享。制定人文社會科學(xué)大數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn)和實(shí)現(xiàn)大數(shù)據(jù)資源共建共享是推動(dòng)人文社會科學(xué)領(lǐng)域大數(shù)據(jù)發(fā)展的基礎(chǔ)性工作。為此,建議制定人文社會科學(xué)大數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn),構(gòu)建人文社會科學(xué)大數(shù)據(jù)共享平臺,積極開展人文社會科學(xué)大數(shù)據(jù)共建共享機(jī)制與管理方法的探索與創(chuàng)新,為推動(dòng)大數(shù)據(jù)滿足人文社會科學(xué)領(lǐng)域研究人員的信息服務(wù)需求提供重要保障。(2)推動(dòng)通過跨學(xué)科研究與合作開發(fā)人文社會科學(xué)大數(shù)據(jù)分析模型及公共服務(wù)平臺。應(yīng)鼓勵(lì)國內(nèi)外計(jì)算機(jī)信息科學(xué)與人文社會科學(xué)領(lǐng)域的學(xué)者和技術(shù)人員開展跨學(xué)科的研究與合作,突破學(xué)科壁壘,開發(fā)面向人文社會科學(xué)領(lǐng)域大數(shù)據(jù)分析處理需要的計(jì)算方法以及工具性軟件平臺,為人文社會科學(xué)大數(shù)據(jù)研究提供技術(shù)手段支持。(3)積極推動(dòng)具有中國特色的人文社會科學(xué)領(lǐng)域大數(shù)據(jù)理論研究與大數(shù)據(jù)技術(shù)產(chǎn)業(yè)化應(yīng)用實(shí)踐。進(jìn)一步開展面向中國經(jīng)濟(jì)社會發(fā)展重大現(xiàn)實(shí)需求、具有中國特色的人文社會科學(xué)大數(shù)據(jù)理論研究,將大數(shù)據(jù)分析方法與我國人文社會科學(xué)具體實(shí)踐有機(jī)融合,促進(jìn)大數(shù)據(jù)分析在我國互聯(lián)網(wǎng)金融、網(wǎng)絡(luò)輿情管理、數(shù)字出版、電子商務(wù)、健康管理與養(yǎng)老服務(wù)、物流管理、旅游管理、智慧城市與交通管理等重點(diǎn)領(lǐng)域的研究與實(shí)踐;進(jìn)一步推動(dòng)人文社會科學(xué)大數(shù)據(jù)研究與大數(shù)據(jù)產(chǎn)業(yè)的融合發(fā)展。進(jìn)一步開展具有中國特色的大數(shù)據(jù)資源管理公共政策,大數(shù)據(jù)資源管理領(lǐng)導(dǎo)力(即首席數(shù)據(jù)執(zhí)行官),大數(shù)據(jù)商業(yè)價(jià)值,大數(shù)據(jù)知識產(chǎn)權(quán)、數(shù)據(jù)安全與用戶隱私保護(hù)等核心問題的研究與實(shí)踐。(4)加強(qiáng)人文社會科學(xué)領(lǐng)域青年學(xué)者、博士生與研究生大數(shù)據(jù)分析方法教育與能力培養(yǎng),鼓勵(lì)他們更多地參與大數(shù)據(jù)領(lǐng)域的國際學(xué)術(shù)交流與合作。在人文社會科學(xué)相關(guān)院系,開設(shè)大數(shù)據(jù)分析與建模課程;利用科研院所、高等學(xué)校、工業(yè)界和海外的各種相關(guān)數(shù)據(jù)、平臺和人才資源,對人文社會科學(xué)領(lǐng)域科研人員進(jìn)行大數(shù)據(jù)分析與處理技術(shù)培訓(xùn),增強(qiáng)我國人文社會科學(xué)研究人員利用大數(shù)據(jù)分析方法解決人文社會領(lǐng)域科學(xué)問題的能力,大力培養(yǎng)人文社會科學(xué)領(lǐng)域青年大數(shù)據(jù)科學(xué)家和大數(shù)據(jù)分析師,推動(dòng)我國人文社會科學(xué)研究人員在國際高水平乃至頂級期刊發(fā)表更多體現(xiàn)中國特色的人文社會科學(xué)大數(shù)據(jù)研究成果;為人文社會科學(xué)領(lǐng)域研究人員特別是青年學(xué)者參與大數(shù)據(jù)研究領(lǐng)域的國際學(xué)術(shù)交流和合作提供更多機(jī)會,進(jìn)一步擴(kuò)大我國人文社會科學(xué)領(lǐng)域科學(xué)家在國際學(xué)術(shù)界的影響。

        2.4 大數(shù)據(jù)處理技術(shù)與方法

        大數(shù)據(jù)處理技術(shù)與方法方面,建議重點(diǎn)發(fā)展3個(gè)方向。(1)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)技術(shù)已經(jīng)在許多非結(jié)構(gòu)化數(shù)據(jù)的處理方面——特別是在表達(dá)學(xué)習(xí)方面,展現(xiàn)出了其強(qiáng)大的生命力,但仍面臨著計(jì)算代價(jià)大、模型訓(xùn)練慢、可解釋性差等突出問題,未來仍需探索如何在深度學(xué)習(xí)的模型方面整合人的先驗(yàn)知識或抽象能力,在降低對大量訓(xùn)練數(shù)據(jù)的依賴性的同時(shí)提高模型的可解釋性[24]。(2)低熵計(jì)算框架。計(jì)算作為一種資源需要以一種低熵的方式為大數(shù)據(jù)分析處理提供服務(wù),即降低計(jì)算資源在使用過程中的損耗,并提高易用性和可靠性,這需要云計(jì)算技術(shù)、新型計(jì)算器件、數(shù)據(jù)中心網(wǎng)絡(luò)等多個(gè)方面的技術(shù)進(jìn)步。同時(shí),設(shè)計(jì)安全可靠、可信易用的數(shù)據(jù)共享模式,降低數(shù)據(jù)使用過程的頻繁搬遷及數(shù)據(jù)一致性約束,也是促進(jìn)低熵計(jì)算實(shí)現(xiàn)需要努力的方向[25]。(3)數(shù)據(jù)使能的社會智能。大數(shù)據(jù)是銜接人、機(jī)、物三元世界的紐帶,蘊(yùn)含了關(guān)于人類活動(dòng)和社會智能的知識[26],如何利用這些數(shù)據(jù)探索社會智能涌現(xiàn)的機(jī)理并構(gòu)建數(shù)據(jù)使能的社會計(jì)算模式,是未來大數(shù)據(jù)分析處理和人工智能的重要探索方向,以互聯(lián)網(wǎng)為媒介的人機(jī)互動(dòng)的人計(jì)算是可能的一種嘗試形式[27],未來期待更為柔性和易用的促使社會智能涌現(xiàn)的計(jì)算模型出現(xiàn)。

        致謝:感謝張鳳、吳艷、章文峻、王東瑤、蔣芳、薛芳、滕曉龍為會議的籌備、組織所付出的辛勤勞動(dòng)。

        1 Turner V, Gantz J F, Reinsel D, et al. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things. Framingham: IDC Analyze the Future, 2014.

        2 Gantz J F, Reinsel D. The Digital Universe in 2020: Big Data,Bigger Digital Shadows, and Biggest Grow th in the Far East. Fram ingham: IDC Analyze the Future, 2012.

        3 Guo H D, Wang L Z, Liang D. Big Earth Data from space: a new engine for Earth science. Science Bulletin, 2016, 61(7):505-513.

        4 Consortium E P. An integrated encyclopedia of DNA elements in the human genome. Nature, 2012, 489(7414): 57-74.

        5 何國金, 王力哲, 馬燕, 等. 對地觀測大數(shù)據(jù)處理: 挑戰(zhàn)與思考.科學(xué)通報(bào), 2015, 60(5-6): 470-478.

        6 Guo H D, Wang L Z, Chen F, et al. Scientific big data and Digital Earth. Chinese Science Bulletin, 2014, 59(35): 5066-5073.

        7 孫建軍. 大數(shù)據(jù)時(shí)代人文社會科學(xué)如何發(fā)展. 光明日報(bào), 2014-07-07.

        8 孫建軍. 大數(shù)據(jù)使社科研究不再“望數(shù)興嘆”. 人民日報(bào),2016-02-18.

        9 李國杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考. 中國科學(xué)院院刊, 2012, 27(6): 647-657.

        10 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務(wù)管理研究若干前沿課題. 管理科學(xué)學(xué)報(bào), 2013, 16(1): 1-9.

        11 俞立平. 大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué). 中國軟科學(xué), 2013, 2013, (7):177-183.

        12 M cA fee A, Brynjolfsson E. Big data: the management revolution. Harvard Business Review, 2012, 90(10): 60-66, 68, 128.

        13 W lodarczak P, Soar J, Ally M. Reality M ining in eHealth. Health Information Science, Cham: Springer International Publishing,2015: 1-6.

        14 Kim Y, Jeong M, Jeong S R. Using big data opinion m ining topredict rises and falls in the stock price index. Handbook of Research on Organizational Transformations Through Big Data Analytics. Hershey: IGI Global, 2016.

        15 Sandra G B. Social science in the era of big data. Po licy & Internet. 2013, 5(2): 147-160.

        16 M orozov E. To Save Every thing, C lick Here: the fo lly of technological solutionism. New York: Public A ffairs, 2013.

        17 Lazer D, Kennedy R, King G, et al. The parable of Google flu:traps in big data analysis. Science, 2014, 343: 1203-1205.

        18 Leavitt N. W ill NoSQL databases live up to their prom ise? IEEE Computer, 2010, 43(2): 12-14.

        19 Hey T, Tansley S, Tolle K. The fourth paradigm: data-Intensive scientific discovery. Microsoft Research, 2009.

        20 Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 38(8): 1798-1828.

        21 Liu D, Chen T, Liu S, et al. PuDianNao: A polyvalent machine learning accelerator // Proceedings of the 20th international conference on architectural support for programm ing languages and operating system s (ASPLOS 2015). New York: ACM, 2015:369-381.

        22 A rmbrust M, Fox A, Griffith R, et al. A view of cloud com puting. Communications of the ACM, 2010, 53(4): 50-58.

        23 von Ahn L, M aurer B, M cM illen C, et al. reCAPTCHA: humanbased character recognition via web security measures. Science,2008, 321(5895): 1465-1468.

        24 LeCun Y, Bengio Y, Hinto G. Deep learning. Nature, 2015,521(7553): 436-444.

        25 Lu X, Liang F, Wang B, et al. DataMPI: Extending MPI to hadoop-like big data com puting // Proceedings of the 28th IEEE international parallel and distributed processing symposium(IPDPS 2014). Phoenix: IEEE, 2014: 829-838.

        26 Shen H W, Barabási A L. Collective credit allocation in science. PNAS, 2014, 111(34): 12325-12330.

        27 M ichelucci P, Dickinson J L. The pow er of crow ds. Science,2016, 351(6268): 32-33.

        郭華東中科院遙感與數(shù)字地球所研究員。中科院院士、發(fā)展中國家科學(xué)院院士、國際歐亞科學(xué)院院士?,F(xiàn)擔(dān)任國際數(shù)字地球?qū)W會(ISDE)主席及 ISDE 中國國家委員會主席、國科聯(lián)(ICSU)國際科技數(shù)據(jù)委員會(CODATA)前主席及中國國家代表、災(zāi)害風(fēng)險(xiǎn)綜合研究計(jì)劃(IRDR)科學(xué)委員會委員及 IRDR 中國委員會主席、《國際數(shù)字地球?qū)W報(bào)》主編等職。主要從事遙感科學(xué)與應(yīng)用研究,在遙感信息機(jī)理、雷達(dá)對地觀測、數(shù)字地球科學(xué)等方面取得系列成果。發(fā)表論文 400 余篇,出版專著和主編著作 16 部,獲國家和省部級科技獎(jiǎng)勵(lì) 13 項(xiàng)。E-mail: hdguo@radi.ac.cn

        Guo HuadongProfessor of Institute of Remote Sensing and Digital Earth (RADI), the Chinese Academy of Sciences (CAS), an Academ ician of CAS, a Fellow of The World Academy of Sciences for the advancement of science in developing countries (TWAS), and an Academicianof the International Eurasian Academy of Sciences (IEAS). He presently serves as President of the International Society for Digital Earth (ISDE),Past-President of the ICSU Committee on Data for Science and Technology (CODATA), Science Comm ittee Member of the Integrated Research on Disaster Risk (IRDR) programme co-sponsored by ICSU, ISSC, and UNISDR, Editor-in-Chief of the International Journal of Digital Earth,and Chairman of the Chinese National Committee for ISDE and China Comm ittee for IRDR. He specializes in theremote sensing science and its applications, and has conducted ground-breaking research on the information mechanisms of remote sensing, radar for Earth observation,and digital Earth science. Prof. Guo has published more than 400 papers and sixteen books, and is the principal awardee of thirteen national and CAS prizes. E-mail: hdguo@radi.ac.cn

        Big Data in Natural Sciences, Humanities and Social Sciences——Review of the 6th Exploratory Round Table Conference

        Gou Huadong1Chen Runsheng2Xu Zhiwei3Sun Jianjun4Bi Jun4Wang Lizhe1Luo Jianjun2Shen Huawei3Gu Dongxiao4Liang Dong1Shen Wenqing5Zhang Xu5Hans Wolfgang Spiess6Thomas Lengauer7

        (1Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100094, China;2Institute of Biophysics, Chinese Academy of Sciences, Beijing 100101, China;
        3Institute of Computing Technology, Chinese Academy of Sciences , Beijing 100190, China;4Nanjing University , Nanjing 210023, China;5Shanghai Branch of Chinese Academy of Sciences, Shanghai 200031, China;6M ax Planck Institute for Polymer Research, M ainz 55128, Germany;7Max Planck Institute for Informatics, Saarbrücken 66123, Germany)

        Big data has begun to significantly influence global production, circulation, distribution, and consum ption patterns. It is changing humankind's production methods, lifestyles, mechanisms of econom ic operation, and country governance models. It is a strategic enablingtechnology in the era of know ledge-driven econom ies, and also a new type of strategic resource for nations and the world. It offers a prom ising new route for innovative methods of analysis and inference, and provides new opportunities for natural sciences, humanities and social sciences. Ubiquitous in the discussion of today's technology, the colorful and not clearly delineated term “big data” is on people's m inds,regarding both its immense potential and its actual and perceived risks. The 6thExploratory Round Table Conference (ERTC 2015) under the theme of “Big Data in the Natural Sciences and Humanities” was successfully held in Shanghai in November 2015. It was a joint project of the Chinese Academ y of Sciences (CAS) and M ax Planck Society (MPG), focused on topics that are only just beginning to emerge in the scientific community. Scientists from CAS and MPG met together w ith experts around China and the world to review the status of research and technology regarding and using big data and to discuss how it can and should be harnessed for furthering science. Big data is characterized by(1) highly accessible generation of large volumes of data which (2) are generated continuously in a highly dynam ic fashion, and which feature(3) high data heterogeneity and (4) serious issues of data quality regarding noise, incompleteness, and biases. The status and requirements of big data research differ substantially among individual scientific domains. In the life sciences, the field has large, internationally shared repositories of highly diverse om ics data. Current activities include bringing together biological and medical (patient) data for research on diagnosis and therapy and making patient data accessible while preserving patient privacy. In the Earth sciences, various Earth observation methods, for example, remote sensing, ground sensor networks, geophysics, geochemistry, and geological surveys, have afforded huge volumes of data, so called big Earth data. Exciting themes include global change and digital Earth science. The concept of digital Earth is a virtual representation of our planet constructed w ith massive, multi-resolution, multi-temporal Earth observation, and socioeconomic data of different types. This multi-disciplinary challenge relies on big data. Big data is also emerging for the humanities and social sciences. High-resolution 3D-imaging, for exam ple, has led to the generation of large amounts of data for digital reproductions of cultural heritage artifacts that require large processing capabilities for filtering and reassembly. The key problem in social sciences is that the vast majority of data is still only available as images, texts, or websites, w ithout appropriate metadata to enable discovery and analysis. M ethodologies based on big data pose a number of challenges. (1) In order to gain trust in the data and learned predictive models, the predictions must be interpretable by a human.(2) Another challenge is the resulting loss of privacy: in some settings, complex predictive models are able to recoup partial information from different databases, and effectively deanonym ize seemingly anonymous data. (3) A t the infrastructure level, energy- and cost-efficient solutions are becom ing a grow ing necessity. (4) Furthermore, the software deployed on such infrastructure must deal transparently and resiliently w ith the noise and heterogeneity inherent to big data. In the three-day conference, a prelim inary consensus was proposed that big data, as a new way of human life and understanding the world, is driving the transformation of scientific research paradigms and promoting scientific development. It should be scientifically cognized how big data is playing a critical role for scientific discovery, what the significance is, and what major challenges are being faced. The conference also recommended establishing a Scientific Data Center in communication and cooperation, to form a scientific working group to research big data issues, and to enhance cultivation of young scientists in the realm of big data.

        big data, scientific big data, life sciences, earth sciences, humanities, social sciences, computing technology, Exploratory Round Table Conference

        10.16418/j.issn.1000-3045.2016.06.014

        *資助項(xiàng)目:中科院規(guī)劃與戰(zhàn)略研究專項(xiàng)

        修改稿收到日期:2016 年4月29日

        猜你喜歡
        研究
        FMS與YBT相關(guān)性的實(shí)證研究
        2020年國內(nèi)翻譯研究述評
        遼代千人邑研究述論
        視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        關(guān)于遼朝“一國兩制”研究的回顧與思考
        EMA伺服控制系統(tǒng)研究
        基于聲、光、磁、觸摸多功能控制的研究
        電子制作(2018年11期)2018-08-04 03:26:04
        新版C-NCAP側(cè)面碰撞假人損傷研究
        關(guān)于反傾銷會計(jì)研究的思考
        焊接膜層脫落的攻關(guān)研究
        電子制作(2017年23期)2017-02-02 07:17:19
        中文字幕色偷偷人妻久久一区| 国品精品一区二区在线观看| 色婷婷色99国产综合精品| 国产av麻豆精品第一页| 国产 一二三四五六| 日本爽快片18禁免费看| 亚洲AV无码资源在线观看 | 日韩无码无播放器视频| 高跟丝袜一区二区三区| 二区三区日本高清视频| 人妻丰满熟妇无码区免费| 成人免费ā片在线观看| 日韩肥熟妇无码一区二区三区 | 免费观看久久精品日本视频| 日本少妇又色又紧又爽又刺激| 国产av熟女一区二区三区| 99精品国产综合久久久久五月天| 国内精品久久久久久久亚洲| 久久精品人妻一区二三区| 国产综合色在线视频区| 成年女人毛片免费观看97| 国产精品va在线观看一| 日本一区二区三区高清视| 777米奇色狠狠俺去啦| 呻吟国产av久久一区二区| 中文字幕一二区中文字幕| 五月天中文字幕日韩在线| 日韩吃奶摸下aa片免费观看| 人妻久久999精品1024| 日韩av一区二区无卡| 免费国产线观看免费观看| 欧美freesex黑人又粗又大| 香蕉亚洲欧洲在线一区| 色和尚色视频在线看网站| 69一区二三区好的精华| 亚洲最大在线精品| 熟女不卡精品久久av| 免费无码不卡视频在线观看| 精品熟女少妇av免费观看| 国内精品人人妻少妇视频| 国产精华液一区二区三区|