亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        大數(shù)據(jù)與高性能計算

        2015-04-06 08:24:40陳文光
        大數(shù)據(jù) 2015年1期
        關(guān)鍵詞:高性能范式規(guī)律

        陳文光

        清華大學(xué)計算機(jī)科學(xué)與技術(shù)系 北京 100084

        大數(shù)據(jù)與高性能計算

        陳文光

        清華大學(xué)計算機(jī)科學(xué)與技術(shù)系 北京 100084

        大數(shù)據(jù)和高性能計算都是計算機(jī)技術(shù)發(fā)展的產(chǎn)物。高性能計算主要采用模擬方法,被稱作科學(xué)發(fā)現(xiàn)的第三范式;大數(shù)據(jù)主要從數(shù)據(jù)中總結(jié)規(guī)律,即使在對研究對象缺乏深入理解的情況下也可以發(fā)現(xiàn)一定的相關(guān)性,被稱作科學(xué)發(fā)現(xiàn)的第四范式。從研究范式、主要應(yīng)用類型以及計算機(jī)軟硬件系統(tǒng)的角度對大數(shù)據(jù)與高性能計算的關(guān)系展開闡述。

        大數(shù)據(jù);高性能計算;并行與分布式計算;相關(guān)性

        1 引言

        科學(xué)發(fā)現(xiàn)是改善人類生活最重要的基礎(chǔ),例如對動植物的馴化和耕作技術(shù)使人類能夠獲得穩(wěn)定的食物來源,數(shù)學(xué)和力學(xué)的發(fā)展使人類可以構(gòu)建房屋,抗生素的發(fā)現(xiàn)和雙盲測試使得人類擺脫了傳統(tǒng)醫(yī)學(xué),DNA的發(fā)現(xiàn)更標(biāo)志著人類對自身的了解達(dá)到了新的高度。由重大科學(xué)發(fā)現(xiàn)引發(fā)或推動的現(xiàn)代科學(xué)技術(shù)發(fā)展,正以超出想象的速度改善著人類的生存條件,促進(jìn)社會進(jìn)步。例如,平均預(yù)期壽命是人類社會發(fā)展程度的一個標(biāo)志性指標(biāo),如圖1所示[1]。可以看出,20世紀(jì)初,全球平均預(yù)期壽命僅有約30歲;2010年,全球預(yù)期壽命已達(dá)到67.2歲,許多發(fā)達(dá)國家的平均預(yù)期壽命已超過80歲1http://en. wikipedia.org/ wiki/Life_ expectancy。

        科學(xué)發(fā)現(xiàn)對人類如此重要,那么是什么因素導(dǎo)致了這些科學(xué)發(fā)現(xiàn),科學(xué)發(fā)現(xiàn)是否有“模式”?數(shù)千年來,人們逐漸總結(jié)出科學(xué)發(fā)現(xiàn)的若干范式:第一范式是實(shí)驗方法,即通過實(shí)驗驗證假說是否成立的科學(xué)發(fā)現(xiàn)方法,實(shí)驗方法的一個非常重要的地方是控制實(shí)驗條件,以排除各種非實(shí)驗因子的干擾;第二范式是理論方法,即通過數(shù)學(xué)方法進(jìn)行分析得出結(jié)論;隨著計算機(jī)技術(shù)的出現(xiàn),人們開始通過計算對復(fù)雜系統(tǒng)進(jìn)行模擬,從而產(chǎn)生了科學(xué)發(fā)現(xiàn)的第三范式,對大規(guī)??茖W(xué)工程問題的模擬催生了高性能計算;大數(shù)據(jù)則提供了進(jìn)一步的科學(xué)發(fā)現(xiàn)機(jī)會,Jim Gray將直接從數(shù)據(jù)中總結(jié)規(guī)律的方式,稱作科學(xué)發(fā)現(xiàn)的第四范式[2]。

        高性能計算和大數(shù)據(jù)都是計算機(jī)技術(shù)發(fā)展的產(chǎn)物,它們之間既有區(qū)別又存在緊密的聯(lián)系,本文將從研究范式、主要應(yīng)用類型以及計算機(jī)軟硬件系統(tǒng)的角度對大數(shù)據(jù)與高性能計算的關(guān)系展開闡述。

        2 高性能計算

        高性能計算主要面向挑戰(zhàn)性的科學(xué)與工程問題,例如飛行器設(shè)計、氣象預(yù)報、全球氣候變化模擬、核聚變模擬、新材料設(shè)計、藥物設(shè)計以及人類基因組等[3]。

        圖1 1820-2003年的人類預(yù)期壽命

        高性能計算主要采用數(shù)值模擬的方法,即科學(xué)發(fā)現(xiàn)的第三范式。以氣象預(yù)報為例,首先氣象科學(xué)家將氣象預(yù)報問題抽象為地球表面、云和太陽等實(shí)體之間的物理過程和相互關(guān)系(如圖2所示),然后將問題描述為流體力學(xué)和熱力學(xué)方程組,利用各種氣象觀測數(shù)據(jù)取得初始條件(經(jīng)過數(shù)據(jù)同化),再使用計算機(jī)用數(shù)值模擬的方法求解方程組,獲得預(yù)報值。藥物設(shè)計則是使用分子動力學(xué)方法對大量的藥物分子進(jìn)行篩選,計算候選藥物對特定靶點(diǎn)的活性,篩選其中活性較高的藥物再進(jìn)入實(shí)驗篩選。

        可以看出,面向科學(xué)與工程的高性能計算是在對所需求解的科學(xué)或工程問題已經(jīng)有相當(dāng)了解的情況下展開的,即已經(jīng)能夠為研究對象建立數(shù)學(xué)模型,并了解相應(yīng)的物理、化學(xué)過程的原理。由于系統(tǒng)的復(fù)雜性,這些方程通常無法得到解析解,因此需要數(shù)值模擬方法求解方程組。

        數(shù)值模擬方法的重要性顯而易見,對很多無法進(jìn)行實(shí)驗的復(fù)雜問題,數(shù)值模擬方法提供了一種研究問題的新手段,例如天氣預(yù)報和氣候變化研究,科學(xué)家無法在地球上進(jìn)行控制條件的實(shí)驗來驗證相關(guān)猜想。對新藥篩選這類問題,雖然可以通過實(shí)驗的方法得到候選藥物對靶點(diǎn)的活性,但大量篩選藥物的成本非常高,時間也非常長,數(shù)值模擬可以有效地降低藥物篩選的成本,加快篩選速度。

        解決重大挑戰(zhàn)問題所需數(shù)值模擬的計算量和內(nèi)存量通常非常大。以氣候模擬為例,云層模型的網(wǎng)格粒度需要精細(xì)到1.5 km以下,模擬時間達(dá)到真實(shí)時間的1/1 000以下,才能滿足氣候模擬研究者對精度和速度的要求。要達(dá)到這一要求,需要200 PFLOPS(1 P = 1015,F(xiàn)LOPS為每秒浮點(diǎn)運(yùn)算次數(shù))的峰值性能和10 TB以上內(nèi)存,這遠(yuǎn)遠(yuǎn)超出了現(xiàn)有單臺計算機(jī)的性能和內(nèi)存容量。

        因此,聚合多臺計算機(jī)能力的并行計算成為高性能計算的基本模式。相應(yīng)地,高性能計算需要解決并行性引入的一系列問題:算法收斂性、執(zhí)行的不確定性、負(fù)載平衡、容錯能力、功耗、編程性以及通信開銷等。高性能計算機(jī)一般采用高質(zhì)量服務(wù)器結(jié)點(diǎn)和高速專用網(wǎng)絡(luò),對系統(tǒng)的絕對性能有很高要求,有代表性的軟件包括并行編程模型MPI和OpenMP、用于GPU加速器編程的CUDA和OpenCL、并行文件系統(tǒng)Lustre和PVFS等。

        截至2015年4月,世界上最快的高性能計算機(jī)是中國的天河2號。該系統(tǒng)由國防科學(xué)技術(shù)大學(xué)研制,目前安裝在廣州超級計算中心。系統(tǒng)由16 000個結(jié)點(diǎn)組成,每個結(jié)點(diǎn)有2個通用處理器和3塊加速卡,共有1.4 PB內(nèi)存和12.4 PB外存系統(tǒng),互聯(lián)網(wǎng)絡(luò)采用國防科學(xué)技術(shù)大學(xué)自主研制的高速專用網(wǎng)絡(luò)TH Express-2,系統(tǒng)峰值速度達(dá)到了5.49 PFLOPS,整機(jī)功耗達(dá)到24 MW(包括冷卻部分)??梢钥闯?,即使是天河2號計算機(jī)這樣的世界最大的超級計算機(jī),其運(yùn)算能力與高精度全球氣候模擬的要求仍然存在很大差距。

        圖2 中尺度天氣預(yù)報GRAPES模式所描述的復(fù)雜物理過程及其相互作用關(guān)系

        3 大數(shù)據(jù)

        大數(shù)據(jù)近年來得到了各行各業(yè)的廣泛關(guān)注,其定義多種多樣,其中Gartner的3V定義是最為流行的定義之一,即大數(shù)據(jù)大在數(shù)據(jù)量(volume)、產(chǎn)生速度(velocity)以及多樣性(variety)。對大數(shù)據(jù)定義的討論已有較多,本文不再贅述。

        當(dāng)前大數(shù)據(jù)的應(yīng)用主要以數(shù)據(jù)挖掘算法和機(jī)器學(xué)習(xí)算法(如關(guān)聯(lián)規(guī)則挖掘、LR回歸、決策樹、神經(jīng)元網(wǎng)絡(luò)等)為主,廣泛應(yīng)用于政府、商業(yè)、金融等領(lǐng)域,并正在向工業(yè)、農(nóng)業(yè)領(lǐng)域擴(kuò)散。

        本文主要討論大數(shù)據(jù)的一個重要特征,即基于數(shù)據(jù)的規(guī)律發(fā)現(xiàn),也就是科學(xué)發(fā)現(xiàn)的第四范式。需要說明的是,盡管大數(shù)據(jù)強(qiáng)調(diào)“大”,但基于數(shù)據(jù)的規(guī)律發(fā)現(xiàn)并不一定要求數(shù)據(jù)量非常大,而且這一方法甚至不一定需要計算機(jī)。例如,開普勒從第谷對行星的觀測數(shù)據(jù)中總結(jié)出了開普勒三定律,為幾十年后牛頓發(fā)現(xiàn)萬有引力定律提供了基礎(chǔ),這是從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的經(jīng)典案例。隨著信息技術(shù)的發(fā)展,特別是近年來互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的飛速發(fā)展,大量的數(shù)據(jù)被產(chǎn)生、收集、存儲,亟待有效的分析方法從數(shù)據(jù)中挖掘有意義的規(guī)律,從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律的可能性和重要性大大增加了,這也是大數(shù)據(jù)在近年出現(xiàn)并流行的重要原因。

        這種從數(shù)據(jù)中挖掘規(guī)律的方法有兩個明顯特點(diǎn)。

        (1)觀測到的規(guī)律可能是概率的而非決定性的。例如,通過對基因和乳腺癌之間的關(guān)系進(jìn)行研究,從數(shù)據(jù)中發(fā)現(xiàn)“BRCA1基因突變的人發(fā)生乳腺癌的風(fēng)險是55%~65%”,這是個非常有意義的規(guī)律,因為沒有相關(guān)基因突變的人患乳腺癌的風(fēng)險要低得多,實(shí)際上著名影星安吉麗娜·朱莉檢測出自己的BRCA1基因突變后,通過手術(shù)切除了自己的乳房。但是,這一規(guī)律并非是決定性的,即使攜帶了BRCA1突變基因的人,仍然有40%左右的概率不會發(fā)病。

        (2)從數(shù)據(jù)中總結(jié)的規(guī)律很多時候僅是相關(guān)性規(guī)律,而非因果性。例如,通過分析歷史數(shù)據(jù)發(fā)現(xiàn),全球平均氣溫與當(dāng)時的二氧化碳濃度成正相關(guān),即二氧化碳濃度高的時候,全球氣溫也高。但是僅憑氣溫與二氧化碳濃度的數(shù)據(jù)分析,不能得出二氧化碳導(dǎo)致氣溫升高的結(jié)論,因為還有一種可能性是氣溫升高導(dǎo)致二氧化碳濃度升高。如果沒有進(jìn)一步的研究工作說明二氧化碳導(dǎo)致溫度升高的機(jī)理,僅能得出相關(guān)性,而不能得出因果性。當(dāng)然,很多時候僅有相關(guān)性就夠了,比如超市通過數(shù)據(jù)分析發(fā)現(xiàn),購買電筒的人經(jīng)常會購買蛋撻,雖然不知道其原因,但仍然可以將這兩種商品放在一起,增加銷售額。因此,關(guān)注相關(guān)性而非因果性是大數(shù)據(jù)的一個顯著特征。然而,在具體使用大數(shù)據(jù)分析得出的相關(guān)性時,需要注意相關(guān)性成立的條件。例如,如果數(shù)據(jù)都是春天的數(shù)據(jù),那么得到的相關(guān)性是否適用于秋天?

        可以看出,基于大數(shù)據(jù)的第四范式與基于高性能計算的第三范式有明顯區(qū)別。第三范式通常對研究對象已經(jīng)有了深入理解,可以用方程組描述其行為,模擬僅是為了求解復(fù)雜方程組;第四范式則可能對研究對象不是非常了解,僅有一些觀測數(shù)據(jù),但希望從這些數(shù)據(jù)中能夠發(fā)現(xiàn)相關(guān)性規(guī)律。

        從大數(shù)據(jù)定義中的3V可以看出,單臺計算機(jī)一般也是很難支撐大數(shù)據(jù)分析所需要的計算能力、內(nèi)存容量和存儲容量的,因此大數(shù)據(jù)分析平臺也很自然地利用分布式系統(tǒng)進(jìn)行并行計算,同樣會遇到高性能計算也會遇到的算法收斂性、執(zhí)行的不確定性、負(fù)載平衡、容錯能力、功耗、編程性以及通信開銷等問題。與高性能計算不同的是,大數(shù)據(jù)最初是由Google、Yahoo等互聯(lián)網(wǎng)公司主要推動的,其硬件平臺多由廉價的服務(wù)器通過普通以太網(wǎng)連接起來,而不像高性能計算機(jī)采用高質(zhì)量的服務(wù)器和高速專用網(wǎng)絡(luò)連接。因此與高性能計算相比,大數(shù)據(jù)處理軟件更注重系統(tǒng)的擴(kuò)展性和容錯性,對系統(tǒng)的絕對性能關(guān)注相對較少。其代表性的軟件平臺是Google的GFS和MapReduce/BigTable/Spanner等以及開源的Hadoop、Spark系統(tǒng)等。

        4 大數(shù)據(jù)與高性能計算的相互借鑒與融合

        表1從研究范式、應(yīng)用領(lǐng)域、硬件平臺、軟件平臺的角度比較了大數(shù)據(jù)與高性能計算。

        盡管表1列出了大數(shù)據(jù)與高性能計算在多個方面的顯著區(qū)別,但這兩個領(lǐng)域也存在許多共同點(diǎn),存在著相互借鑒與融合的趨勢。

        從研究范式來講,科學(xué)發(fā)現(xiàn)往往是多范式的結(jié)合,大數(shù)據(jù)分析發(fā)現(xiàn)的相關(guān)性盡管不包含因果性,卻為進(jìn)一步發(fā)現(xiàn)因果性提供了基礎(chǔ)。例如,在BRCA1基因突變可能導(dǎo)致乳腺癌后,進(jìn)一步的研究就可以集中在BRCA1基因突變所導(dǎo)致的生物過程上,為研究乳腺癌的機(jī)理提供了更為明確的途徑。另一方面,在Jim Gray關(guān)于第四范式的介紹中,認(rèn)為第四范式實(shí)際上融合了實(shí)驗、理論和模擬這前3個范式,即數(shù)據(jù)可以通過實(shí)驗,也可以是通過模擬得到,大數(shù)據(jù)算法本身就會用到理論,特別是統(tǒng)計學(xué)[2]。

        從硬件平臺上來看,現(xiàn)有普通服務(wù)器和網(wǎng)絡(luò)在處理通信較為頻繁的大數(shù)據(jù)問題時效率不高,而高性能計算機(jī)由于其高性能計算結(jié)點(diǎn)和高速專用網(wǎng)絡(luò),對這類問題的處理更為高效。例如,大數(shù)據(jù)平臺仍然廣泛使用吉比特網(wǎng),只有少數(shù)使用萬兆網(wǎng),而高性能計算機(jī)早已開始使用帶寬為40~56 Gbit/s的InfiniBand,并在廣播、多播、規(guī)約等操作上提供了硬件優(yōu)化,還提供了基于RDMA(遠(yuǎn)程直接內(nèi)存訪問)的快速通信機(jī)制。因此,大數(shù)據(jù)處理也開始借鑒高性能計算機(jī)的硬件平臺技術(shù)。例如,Oracle推出了大數(shù)據(jù)一體機(jī)Exadata,其內(nèi)部采用了高性能結(jié)點(diǎn)、高速專用網(wǎng)絡(luò)InfiniBand和高速存儲2https://www. oracle.com engineeredsystems/ exadata/ index.html。

        在軟件層面,許多大數(shù)據(jù)算法可以表達(dá)為稀疏矩陣運(yùn)算,并通過GPU等加速器進(jìn)行加速,而高性能計算在稀疏矩陣的CPU和GPU加速方面都有很好的軟件庫,可以用來加速大數(shù)據(jù)算法。許多研究者發(fā)現(xiàn),基于MapReduce和Spark的大數(shù)據(jù)算法實(shí)現(xiàn)效率過低,某些情況下甚至不如經(jīng)過良好優(yōu)化的單機(jī)并行程序,采用高性能計算的思路優(yōu)化大數(shù)據(jù)算法,也是一個重要的研究方向[4]。

        表1 大數(shù)據(jù)與高性能計算的比較

        另一方面,MapReduce、Spark等大數(shù)據(jù)編程系統(tǒng)所具有的良好容錯性也為解決極大規(guī)模高性能計算的容錯問題提供了新的思路。在天河2號這樣的P級系統(tǒng)中,全系統(tǒng)的平均無故障時間一般不超過10 h,但傳統(tǒng)高性能計算(MPI)編程模型的容錯代價太大,常用的保存檢查點(diǎn)方法通常會帶來巨大的I/O量,不僅開銷大,還影響了系統(tǒng)穩(wěn)定性,提高了系統(tǒng)故障率。利用編程系統(tǒng)和算法進(jìn)行更高效的容錯,是高性能計算發(fā)展的重要方向。更進(jìn)一步,利用大數(shù)據(jù)的方法分析高性能計算系統(tǒng)運(yùn)行時產(chǎn)生的事件記錄,可以有效預(yù)測系統(tǒng)中可能發(fā)生故障的部件,從而采取主動容錯的方式,在故障還未發(fā)生時就采取措施,降低故障給程序運(yùn)行帶來的開銷[5]。

        5 結(jié)束語

        大數(shù)據(jù)與高性能計算雖然起源于不同的研究范式,但都是利用計算進(jìn)行規(guī)律發(fā)現(xiàn)和預(yù)測的方法,盡管它們在研究范式、應(yīng)用領(lǐng)域、硬件平臺、軟件平臺上有所區(qū)別,但面臨類似的技術(shù)挑戰(zhàn),兩個領(lǐng)域也存在相互借鑒、共同發(fā)展和融合的趨勢。大數(shù)據(jù)和高性能計算的融合可望為人類提供更加強(qiáng)有力的科學(xué)發(fā)現(xiàn)工具,改善人類的生活,促進(jìn)社會的發(fā)展。

        [1] Goklany I M. The Improving State of the World: Why We’re Living Longer, Healthier, More Comfortable Lives on a Cleaner Planet. Washington: Cato Institute, 2006

        [2] Hey H, Tansley S, Tolle K. The Fourth Paradigm: Data-Intensive Scientific Discovery. Washington: Microsoft Research, 2009

        [3] National Science Foundation Advisory Committee for Cyber infrastructure Task Force on Grand Challenges Final Report. https://www.nsf.gov/cise/aci/taskforces/ TaskForceReport_randChallenges.pdf, 2011

        [4] Kyrola A, Blelloch G, Guestrin C. GraphChi: large-scale graph computation on just a PC. Proceedings of the 10th USENIX Symposium on Operating Systems Design and Implementation, Hollywood, CA, USA, 2012

        [5] Xu W, Huang L, Fox A, et al. Detecting large-scale system problems by mining console logs. Proceedings of the 22nd ACM Symposium on Operating Systems Principles, Big Sky, Montana, USA, 2009

        Chen W G. Big data and high performance computing. Big Data Research, 2015003

        Big Data and High Performance Computing

        Chen Wenguang
        Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China

        Both big data and high performance computing (HPC) are based on the computer technologies. The main methodology of HPC is simulation, which is called the third paradigm of scientific discovery. Big data explore data for correlations even without much knowledge on the object of study, which is called the fourth paradigm of scientific discovery. Big data and HPC with several aspects were compared, such as the research paradigm, main application domain and underlying hardware/software systems.

        big data, high performance computing, parallel and distributed computing, correlation

        2015-05-06;

        2015-05-08

        陳文光. 大數(shù)據(jù)與高性能計算. 大數(shù)據(jù), 2015003

        陳文光,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系教授,ACM中國理事會副主席,中國機(jī)算機(jī)學(xué)會杰出會員和杰出講者、副秘書長、YOCSEF榮譽(yù)委員,《ACM China Magazine》主編,主要研究領(lǐng)域為操作系統(tǒng)、編譯器與并行計算。

        猜你喜歡
        高性能范式規(guī)律
        以寫促讀:構(gòu)建群文閱讀教學(xué)范式
        甘肅教育(2021年10期)2021-11-02 06:14:08
        范式空白:《莫失莫忘》的否定之維
        規(guī)律睡眠中醫(yī)有妙招
        找規(guī)律 畫一畫 填一填
        找排列規(guī)律
        孫惠芬鄉(xiāng)土寫作批評的六個范式
        管窺西方“詩辯”發(fā)展史的四次范式轉(zhuǎn)換
        一款高性能BGO探測器的研發(fā)
        電子制作(2017年19期)2017-02-02 07:08:49
        高性能砼在橋梁中的應(yīng)用
        巧解規(guī)律
        色播视频在线观看麻豆 | 国产免费成人自拍视频| 粗大猛烈进出高潮视频大全| 亚洲av鲁丝一区二区三区黄| 久久久久久久99精品国产片| 制服无码在线第一页| 少妇呻吟一区二区三区| 中文字幕国产精品一二三四五区| 人妖国产视频一区二区| 全黄性性激高免费视频| 宝贝把腿张开我要添你下边动态图| 亚洲AVAv电影AV天堂18禁| 日日高潮夜夜爽高清视频| 久久久久亚洲av片无码| 国产精品无码日韩欧| 久久青青草视频免费观看| 久草手机视频在线观看| 香港三级日本三级a视频| 在线观看国产高清免费不卡黄| 国产天堂av手机在线| 岛国熟女精品一区二区三区| 日本三级欧美三级人妇视频黑白配| 精品 无码 国产观看| 日韩精品自拍一区二区| 久久婷婷色香五月综合缴缴情 | 隔壁老王国产在线精品| 大伊香蕉在线精品视频75| 99精品国产自产在线观看| 沐浴偷拍一区二区视频| 亚洲热线99精品视频| 热久久久久久久| 国产一区二区三区蜜桃| 精品精品国产高清a毛片| a级毛片毛片免费观看久潮喷| 久久91精品国产91久| 在教室轮流澡到高潮h免费视| 欧洲vat一区二区三区| 亚洲A∨无码国产精品久久网| 在线观看视频国产一区二区三区| 久久亚洲日韩精品一区二区三区| 国产美女遭强高潮网站|