亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用驅(qū)動的大數(shù)據(jù)融合平臺建設(shè)

        2017-04-21 08:06:37孟祥飛馮景華趙洋夏梓峻
        大數(shù)據(jù) 2017年2期
        關(guān)鍵詞:融合

        孟祥飛,馮景華,趙洋,夏梓峻

        國家超級計算天津中心,天津 300457

        應(yīng)用驅(qū)動的大數(shù)據(jù)融合平臺建設(shè)

        孟祥飛,馮景華,趙洋,夏梓峻

        國家超級計算天津中心,天津 300457

        論述了大數(shù)據(jù)在信息社會發(fā)展中的核心地位和對信息技術(shù)創(chuàng)新的全方位驅(qū)動;重點闡述了應(yīng)用驅(qū)動的大數(shù)據(jù)和超級計算、云計算融合平臺層次結(jié)構(gòu),在物理設(shè)施、系統(tǒng)軟件、管理體系幾個方面系統(tǒng)介紹了該融合平臺的體系架構(gòu)和實現(xiàn);同時,也以生物基因、氣象與空氣污染為典型應(yīng)用具體介紹了平臺應(yīng)用實現(xiàn);最后結(jié)合大數(shù)據(jù)發(fā)展和融合平臺建設(shè),形成了一些如何推動大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的思考,為政府和產(chǎn)業(yè)領(lǐng)域等提供參考。

        大數(shù)據(jù)融合平臺;應(yīng)用驅(qū)動;超級計算;云計算

        1 引言

        近幾年,信息技術(shù)的發(fā)展正在不斷推動全面和深入的社會變革,如沒有售貨員的超市、不用開燈的車間、無人駕駛汽車、全自動化的物流基地等,傳統(tǒng)零售業(yè)、制造業(yè)、交通、物流都曾是工業(yè)社會勞動密集、資源密集的支柱產(chǎn)業(yè),而由于信息技術(shù)的驅(qū)動,這些傳統(tǒng)的社會生產(chǎn)和社會關(guān)系都在進行重塑,也就是世界正在從工業(yè)社會向一個真正新興的信息社會轉(zhuǎn)變。

        信息社會重要的體現(xiàn)是它要以信息技術(shù)或信息化手段改造傳統(tǒng)產(chǎn)業(yè),并解放傳統(tǒng)產(chǎn)業(yè)領(lǐng)域的人力資源,同時衍生出更多新興的產(chǎn)業(yè)(如互聯(lián)網(wǎng)、機器人、3D打印等)轉(zhuǎn)移人力資源,構(gòu)建信息驅(qū)動的社會格局。信息社會的重要支撐涉及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能、電子信息、云計算、大數(shù)據(jù)等信息技術(shù)的方方面面,而信息社會的核心體現(xiàn)在大數(shù)據(jù)。

        2 對大數(shù)據(jù)的理解

        大數(shù)據(jù)最初提出與互聯(lián)網(wǎng)密切相關(guān),對應(yīng)提出了4V特征:海量的數(shù)據(jù)規(guī)模(volume)、多樣的數(shù)據(jù)類型(variety)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(velocity)和低價值密度(value)。但是,隨著大數(shù)據(jù)的不斷發(fā)展和融合,特別是大數(shù)據(jù)超出互聯(lián)網(wǎng)領(lǐng)域與更多產(chǎn)業(yè)、領(lǐng)域融合后,對大數(shù)據(jù)的理解也更深入和全面。從更廣泛的產(chǎn)業(yè)領(lǐng)域看,大數(shù)據(jù)最重要的特征是多源異構(gòu)特征明顯,如醫(yī)療衛(wèi)生、基因科學、智慧城市、能源等領(lǐng)域的數(shù)據(jù)各有特點,與互聯(lián)網(wǎng)大數(shù)據(jù)相比,不僅數(shù)據(jù)具有的特征、處理技術(shù)存在區(qū)別,同時每個行業(yè)都帶有本行業(yè)歷史發(fā)展、區(qū)域發(fā)展等各種特質(zhì)或約束,比如行業(yè)內(nèi)機構(gòu)個體間數(shù)據(jù)的封閉性、數(shù)據(jù)標準和質(zhì)量差異、數(shù)據(jù)安全及隱私等諸多方面的問題,形成的技術(shù)和社會發(fā)展領(lǐng)域的挑戰(zhàn)要遠高于互聯(lián)網(wǎng)領(lǐng)域。

        因此,大數(shù)據(jù)的意義不僅體現(xiàn)在技術(shù)層面,還體現(xiàn)了社會網(wǎng)絡(luò)化、信息化、標準體系建設(shè)發(fā)展到高度完善水平,經(jīng)濟、社會、科研、國防等應(yīng)用需求創(chuàng)新進入了新階段。

        (1)應(yīng)用驅(qū)動的數(shù)據(jù)價值再創(chuàng)造是大數(shù)據(jù)發(fā)展的目標

        大數(shù)據(jù)技術(shù)是為了解決數(shù)據(jù)管理困難、數(shù)據(jù)溝通不暢、數(shù)據(jù)價值密度低等實際問題而出現(xiàn)的,但這些都源自于應(yīng)用本身的需求。如醫(yī)療行業(yè),我國各大綜合醫(yī)院、專科醫(yī)院或許都有某位就診患者的信息,但目前彼此信息相互獨立,形成信息孤島,無法進行信息的高效共享,更談不上關(guān)聯(lián)分析,但在區(qū)域性疾病分析、個人健康關(guān)聯(lián)分析等實際應(yīng)用需求中,發(fā)展醫(yī)療大數(shù)據(jù)就應(yīng)解決信息獨立、信息孤島的問題。

        (2)數(shù)據(jù)獲取、標準體系構(gòu)建與科學管理是大數(shù)據(jù)發(fā)展的基礎(chǔ)

        大數(shù)據(jù)的一個重要特點就是數(shù)據(jù)源多樣化,包括數(shù)據(jù)庫、文本、圖片、視頻、網(wǎng)頁等各類結(jié)構(gòu)化、非結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)。因此,大數(shù)據(jù)處理的第一步是從數(shù)據(jù)源采集數(shù)據(jù),并進行預處理和集成操作,為后續(xù)流程提供統(tǒng)一的高質(zhì)量的數(shù)據(jù)集。如果單純將數(shù)據(jù)保存,不加以預處理和管理,硬盤最終將成為數(shù)據(jù)的墳墓。

        (3)網(wǎng)絡(luò)設(shè)施能力、高端電子信息技術(shù)發(fā)展等是大數(shù)據(jù)發(fā)展的保障

        大數(shù)據(jù)產(chǎn)業(yè)是社會信息化、網(wǎng)絡(luò)化和標準系統(tǒng)建設(shè)發(fā)展到一定階段的產(chǎn)物。社會高度信息化會產(chǎn)生海量多源異構(gòu)數(shù)據(jù),同時產(chǎn)生更多的數(shù)據(jù)分析需求;高度網(wǎng)絡(luò)化使得數(shù)據(jù)獲取和訪問變得更為便捷,為數(shù)據(jù)的自由流動提供了基礎(chǔ);標準系統(tǒng)的建設(shè)使得各類數(shù)據(jù)的存儲更為高效,更利于數(shù)據(jù)整合和分析。放眼全球,之所以美國率先提出大數(shù)據(jù)研究和發(fā)展計劃,并在大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展勢頭迅猛,主要是由于其已建立了較為完善的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,已擁有領(lǐng)先的高端信息技術(shù)。

        應(yīng)用驅(qū)動的數(shù)據(jù)價值再創(chuàng)造,更體現(xiàn)出大數(shù)據(jù)發(fā)展對信息技術(shù)和信息社會的驅(qū)動,具體體現(xiàn)在以下幾點:

        ● 數(shù)據(jù)要“從無到有”,也就是要解決數(shù)字化和信息化問題,這將驅(qū)動物聯(lián)網(wǎng)、模式識別、人工智能等領(lǐng)域的興起;

        ● 數(shù)據(jù)要“從散到融”,也就是數(shù)據(jù)要流動和融合,這將驅(qū)動互聯(lián)通信、信息安全等領(lǐng)域的發(fā)展;

        ● 數(shù)據(jù)要在復雜的背景下,高效處理有價值的信息,這又驅(qū)動了超級計算、云計算、機器學習等領(lǐng)域的創(chuàng)新。

        近年來,隨著互聯(lián)網(wǎng)、云計算與物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,大數(shù)據(jù)產(chǎn)業(yè)市場規(guī)模迅速增長,已成為全球創(chuàng)新發(fā)展的重要驅(qū)動。國家、企業(yè)及相關(guān)行業(yè)機構(gòu)都在向大數(shù)據(jù)看齊,搶占數(shù)據(jù)創(chuàng)新的先機,努力成為數(shù)據(jù)創(chuàng)新的最大獲益者。

        3 大數(shù)據(jù)平臺建設(shè)新需求

        自“十二五”以來,我國就著力推動大數(shù)據(jù)發(fā)展,進入“十三五”以后更是將大數(shù)據(jù)提升到國家發(fā)展戰(zhàn)略,推動大數(shù)據(jù)快速發(fā)展和國家戰(zhàn)略實施,成為國家在新的社會、技術(shù)發(fā)展階段推動國家創(chuàng)新發(fā)展的重要手段,促使大數(shù)據(jù)應(yīng)用不斷泛化。由互聯(lián)網(wǎng)領(lǐng)域發(fā)展來的大數(shù)據(jù)平臺由于業(yè)務(wù)、技術(shù)和企業(yè)自身利益局限,無法滿足醫(yī)療健康、油氣能源、生物基因、智慧制造等這些關(guān)系國計民生的重要行業(yè)和傳統(tǒng)支柱產(chǎn)業(yè)領(lǐng)域的大數(shù)據(jù)應(yīng)用需求,重點體現(xiàn)在如下幾個方面。

        (1)行業(yè)系統(tǒng)性需求

        例如,工業(yè)領(lǐng)域的大數(shù)據(jù)應(yīng)用涉及工業(yè)設(shè)備運行監(jiān)控和管理、產(chǎn)品研發(fā)設(shè)計與仿真、供應(yīng)鏈管理和優(yōu)化、市場輿情等綜合數(shù)據(jù)的獲取、整合和系統(tǒng)性分析;在生物基因領(lǐng)域,各基因庫數(shù)據(jù)和測序數(shù)據(jù)類型復雜多樣的特點、大規(guī)模群體數(shù)據(jù)分析、檢測信息服務(wù)等對平臺提出了存儲管理、高性能處理、高業(yè)務(wù)并發(fā)等不同層面的挑戰(zhàn);氣象和空氣污染等領(lǐng)域,對初始多樣性數(shù)據(jù)的獲取和管理、高精度長效數(shù)值預報、預報產(chǎn)品的處理和服務(wù)同樣要求平臺具備系統(tǒng)性的大數(shù)據(jù)支撐能力?;ヂ?lián)網(wǎng)企業(yè)的大數(shù)據(jù)平臺無法滿足這些應(yīng)用場景的需求,構(gòu)建面向產(chǎn)業(yè)需求的大數(shù)據(jù)綜合平臺是應(yīng)用的必然驅(qū)動。

        (2)大數(shù)據(jù)長時效管理需求

        對于大數(shù)據(jù),除了互聯(lián)網(wǎng)領(lǐng)域的電子商務(wù)、社交網(wǎng)絡(luò)、輿情等能夠快速積累大規(guī)模數(shù)據(jù)并應(yīng)用外,其他很多的行業(yè)領(lǐng)域,如教育、醫(yī)療健康、科學研究等,需要一個長期數(shù)據(jù)積累和標準化管理的過程,醫(yī)療健康對大病慢病的數(shù)據(jù)積累甚至要以10年為單元。這些特點要求大數(shù)據(jù)平臺要有良好的擴展性和穩(wěn)定性,并形成第三方公信力。

        4 大數(shù)據(jù)和超級計算、云計算融合平臺

        4.1 大數(shù)據(jù)融合平臺層次結(jié)構(gòu)

        大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比,在規(guī)模性、處理方式、理論方法等方面存在諸多不同的特點,如多源異構(gòu)、存儲分散、動態(tài)變化、先有數(shù)據(jù)后有模式等,這些特點決定了在大數(shù)據(jù)時代進行數(shù)據(jù)的科學管理和處理時面臨的問題和挑戰(zhàn)。所以,大數(shù)據(jù)融合平臺的設(shè)計和構(gòu)建,不僅要能夠應(yīng)對大數(shù)據(jù)應(yīng)用的現(xiàn)實需求,還要能夠適應(yīng)未來技術(shù)發(fā)展和應(yīng)用需求的動態(tài)變化。這里,重點針對當前大數(shù)據(jù)對信息技術(shù)形成的數(shù)據(jù)海量存儲、數(shù)據(jù)高效處理、數(shù)據(jù)服務(wù)多樣性及安全等多方面的挑戰(zhàn),提出基于超級計算和云計算的大數(shù)據(jù)融合平臺層次結(jié)構(gòu),如圖1所示。這個平臺結(jié)構(gòu)也體現(xiàn)其構(gòu)建的整體邏輯,就是大數(shù)據(jù)是應(yīng)用驅(qū)動,超級計算和云計算是能力與技術(shù)保障,從而可有效為行業(yè)和領(lǐng)域大數(shù)據(jù)應(yīng)用提供服務(wù)支撐。

        在該結(jié)構(gòu)下,基于超級計算和云計算相關(guān)軟硬件設(shè)施,配合大數(shù)據(jù)融合平臺關(guān)鍵模塊,實現(xiàn)了數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)共享和數(shù)據(jù)安全,最終實現(xiàn)了應(yīng)用驅(qū)動的大數(shù)據(jù)融合處理服務(wù)能力。基于云計算虛擬化技術(shù)、集成技術(shù)支撐大數(shù)據(jù)采集獲取、服務(wù)等需求;基于超級計算大規(guī)模并行計算能力支撐大數(shù)據(jù)分析處理需求;基于海量層次式動態(tài)可擴展存儲技術(shù)支撐大數(shù)據(jù)存儲需求。

        圖1 大數(shù)據(jù)融合平臺層次結(jié)構(gòu)

        4.2 融合平臺系統(tǒng)整體架構(gòu)

        應(yīng)用驅(qū)動的大數(shù)據(jù)與超級計算、云計算融合平臺,從整體架構(gòu)上主要涉及以下3個層面。

        ● 物理設(shè)施層:支撐大數(shù)據(jù)獲取、流動、處理、備份等的網(wǎng)絡(luò)、計算、存儲和災備物理設(shè)施。

        ● 系統(tǒng)軟件層:完成大數(shù)據(jù)整合、處理、展示、安全的系統(tǒng)軟件環(huán)境,進行大數(shù)據(jù)的一體化處理。

        ● 平臺管理層:對大數(shù)據(jù)融合平臺的監(jiān)控、調(diào)度、安全管理等。

        大數(shù)據(jù)融合平臺系統(tǒng)環(huán)境總體框架如圖2所示。

        4.2.1 融合平臺物理設(shè)施層的關(guān)鍵技術(shù)和建設(shè)內(nèi)容

        (1)高度穩(wěn)定的網(wǎng)絡(luò)設(shè)施

        網(wǎng)絡(luò)設(shè)施用于支撐多個數(shù)據(jù)系統(tǒng)接收發(fā)自客戶端(Web、應(yīng)用或者傳感器形式、設(shè)備等)的數(shù)據(jù),用戶可通過這些數(shù)據(jù)系統(tǒng)進行簡單的查詢和處理工作。平臺要求建設(shè)和配備高帶寬公共互聯(lián)網(wǎng)絡(luò)和多網(wǎng)冗余,以滿足大數(shù)據(jù)用戶和企業(yè)對數(shù)據(jù)傳輸速度和效率的要求;對于數(shù)據(jù)傳輸要求非常高的大數(shù)據(jù)應(yīng)用企業(yè)和用戶,建設(shè)點對點的高帶寬專網(wǎng),以提升網(wǎng)絡(luò)帶寬。通過互聯(lián)網(wǎng)、專網(wǎng)建設(shè)構(gòu)建和完善高效的服務(wù)網(wǎng)絡(luò)體系,保障用戶數(shù)據(jù)傳輸?shù)母咝Ш蛯崟r性。

        (2)高效多態(tài)的計算處理設(shè)施

        應(yīng)用驅(qū)動的大數(shù)據(jù)計算處理需求是多樣性顯著、時效性高。因此,大數(shù)據(jù)融合平臺中為了支撐這種復雜性處理需求,需要具備超級計算與云計算融合的計算處理設(shè)施,實現(xiàn)對事務(wù)并發(fā)、數(shù)據(jù)并發(fā)高效處理的系統(tǒng)需求。底層的計算能力要具有分布式計算、異構(gòu)高性能計算、內(nèi)存計算等多態(tài)計算設(shè)施。

        (3)大規(guī)模動態(tài)可擴展存儲設(shè)施

        大規(guī)模動態(tài)可擴展存儲設(shè)施重點針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)等不同來源和格式的數(shù)據(jù)對底層存儲系統(tǒng)的要求不同,數(shù)據(jù)處理的時效性要求不同,應(yīng)用處理需求與底層存儲系統(tǒng)要求不同,按需而建(如圖3所示),形成可支撐大量大數(shù)據(jù)應(yīng)用的存儲和處理的解決方案,解決大數(shù)據(jù)分級存儲構(gòu)建、分級存儲性能優(yōu)化、數(shù)據(jù)共享、數(shù)據(jù)遷移和去重等關(guān)鍵問題。

        存儲設(shè)施建設(shè)的重點是分級存儲系統(tǒng),其主要由3層組成:高速內(nèi)存存儲層、在線存儲層、近線存儲層。高速內(nèi)存存儲層可以極大地滿足數(shù)據(jù)分析對性能和處理速度的需求,滿足實時性大數(shù)據(jù)處理應(yīng)用的需求;在線存儲層提供較大容量的同時,滿足多數(shù)大數(shù)據(jù)應(yīng)用的處理性能需求,主要用于滿足在線處理業(yè)務(wù)的存儲需求;近線存儲層主要滿足數(shù)據(jù)的規(guī)模性需求,可以擴展至EB以上,滿足在線存儲之外的累積數(shù)據(jù)的大規(guī)模存儲需求,同時支撐數(shù)據(jù)的跨平臺交換。

        圖2 應(yīng)用驅(qū)動的大數(shù)據(jù)融合平臺系統(tǒng)環(huán)境總體框架

        同時,在不同應(yīng)用環(huán)境下,根據(jù)用戶數(shù)據(jù)的屬性不同,將數(shù)據(jù)分成3類進行虛擬化存儲:塊存儲、文件化存儲和對象存儲。

        當為用戶提供的虛擬機的硬盤空間不足時,通過傳統(tǒng)方式(如本地存儲、共享存儲)提供硬盤空間,將會出現(xiàn)不易管理,I/O瓶頸等一系列問題,需要采用塊存儲解決。

        圖3 按需而建的存儲設(shè)施環(huán)境

        在為用戶提供的虛擬化環(huán)境中,為了避免運行虛擬機對計算節(jié)點造成I/O、存儲壓力,提高虛擬機的可靠性,采用文件化存儲(即分布式文件系統(tǒng))。

        對象存儲(即云存儲)的存儲容量可達PB級,是一個適合存儲靜態(tài)數(shù)據(jù)的永久性存儲系統(tǒng),適合存儲的數(shù)據(jù)包括:虛擬機映像、郵件、備份文檔等。由于沒有“單點”或者主控節(jié)點,云存儲平臺具有更強的擴展性、冗余和持久性。

        (4)數(shù)據(jù)災備設(shè)施

        重點建設(shè)成本地運行與同步備份中心、異地災備中心的“兩地三中心”數(shù)據(jù)安全災備環(huán)境,實現(xiàn)數(shù)據(jù)運行中心和備份中心及本地數(shù)據(jù)多副本平臺,同時建立異地災備中心和數(shù)據(jù)同步平臺,保障大數(shù)據(jù)融合平臺的有效和可靠運行。

        4.2.2 平臺系統(tǒng)軟件層重點環(huán)節(jié)環(huán)境構(gòu)建

        (1)數(shù)據(jù)標準體系與數(shù)據(jù)整合

        在應(yīng)用驅(qū)動的大數(shù)據(jù)融合平臺上,數(shù)據(jù)整合和數(shù)據(jù)標準體系的建設(shè)緊密相關(guān)。首先,數(shù)據(jù)表示標準包括數(shù)據(jù)編碼規(guī)范、元數(shù)據(jù)規(guī)范、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一描述規(guī)范、大數(shù)據(jù)集統(tǒng)一描述規(guī)范等,同時這些表示又需要與各行業(yè)領(lǐng)域的行業(yè)標準對應(yīng),所以數(shù)據(jù)表示標準既有底層相對統(tǒng)一的數(shù)據(jù)規(guī)范,又有上層行業(yè)的個性需求,充分考慮才是解決多源異構(gòu)數(shù)據(jù)融合的核心。其次,數(shù)據(jù)存儲標準包括非關(guān)系型數(shù)據(jù)庫規(guī)范、非結(jié)構(gòu)數(shù)據(jù)管理系統(tǒng)規(guī)范等新型存儲系統(tǒng)相關(guān)規(guī)范,對應(yīng)的具體研究內(nèi)容是分布式文件系統(tǒng)、非關(guān)系型數(shù)據(jù)庫等技術(shù)實現(xiàn),重點是實現(xiàn)數(shù)據(jù)一致性、數(shù)據(jù)放置、故障檢測、可擴展性等方面。

        融合平臺應(yīng)該構(gòu)建基于數(shù)據(jù)總線的數(shù)據(jù)整合系統(tǒng),如圖4所示,主要包括數(shù)據(jù)總線和ETL(extract、transform、load)封裝件,其中每個數(shù)據(jù)源對應(yīng)一個ETL封裝件,中間件通過ETL封裝件和各個數(shù)據(jù)源交互。用戶在全局數(shù)據(jù)模式的基礎(chǔ)上向中間件發(fā)出查詢請求。數(shù)據(jù)總線處理用戶請求,將其轉(zhuǎn)換成各個數(shù)據(jù)源能夠處理的子查詢請求,并對此過程進行并行優(yōu)化,以提高查詢處理的并發(fā)性,減少響應(yīng)時間。封裝件對特定數(shù)據(jù)源進行了封裝,將其數(shù)據(jù)模型轉(zhuǎn)換為系統(tǒng)采用的通用模型,并提供一致的訪問機制。

        (2)面向特定應(yīng)用的大數(shù)據(jù)分析處理

        由于大數(shù)據(jù)的大數(shù)據(jù)量、分布存儲、并行處理等特點以及數(shù)據(jù)查詢、處理作業(yè)的多樣性,使得傳統(tǒng)的性能模型不適合于數(shù)據(jù)查詢與處理平臺,為有效估算作業(yè)成本,提高作業(yè)查詢、調(diào)度效率,縮短作業(yè)執(zhí)行時間,可重點構(gòu)建如下幾個方面的能力。

        ● 大數(shù)據(jù)處理的性能模型:針對大數(shù)據(jù)處理,建立數(shù)據(jù)查詢和處理作業(yè)的性能模型,準確預測作業(yè)的執(zhí)行成本和作業(yè)的執(zhí)行時間,為作業(yè)參數(shù)優(yōu)化、作業(yè)時間預測、基于成本的調(diào)度等提供參考依據(jù)。

        ● 基于成本的作業(yè)調(diào)度方法和優(yōu)化技術(shù):針對數(shù)據(jù)查詢?nèi)蝿?wù)到數(shù)據(jù)處理作業(yè)的一對多映射問題,研究高級數(shù)據(jù)查詢語言與作業(yè)的映射規(guī)則,研究面向大數(shù)據(jù)的查詢優(yōu)化技術(shù);針對大數(shù)據(jù)查詢、處理作業(yè)的調(diào)度問題,研究一種基于成本的作業(yè)調(diào)度策略。

        ● 高性能大數(shù)據(jù)處理原型系統(tǒng)及數(shù)據(jù)處理集成工具集:整合目前已有的大數(shù)據(jù)分析方法,利用現(xiàn)有的Spark、Hadoop等工具,構(gòu)建一個處理工具集,并提供一個簡單、直觀的用戶接口,避免繁瑣的算法參數(shù)、數(shù)據(jù)類型、數(shù)據(jù)類別等因素影響,降低數(shù)據(jù)處理使用門檻,為高效能環(huán)境的大數(shù)據(jù)應(yīng)用數(shù)據(jù)分析平臺提供支持。

        (3)大數(shù)據(jù)可視化技術(shù)

        主要關(guān)注基于平臺的數(shù)據(jù)處理流程可視化和高維數(shù)據(jù)結(jié)果展示可視化兩個方面。數(shù)據(jù)處理流程可視化指數(shù)據(jù)解析、查詢、統(tǒng)計、挖掘與預測等流程的可視化處理,通過全可視化操作界面構(gòu)建整個流程,由具備動態(tài)、智能的可視化引擎和圖形組件進行構(gòu)建,從而將應(yīng)用數(shù)據(jù)進行靈活自動的分析處理。該技術(shù)以可視化圖形組件形式提供給用戶端,用戶可根據(jù)需求自由組合、靈活切換各類模塊,實現(xiàn)特定數(shù)據(jù)分析處理需求。

        圖4 數(shù)據(jù)整合框架

        在用戶端提供一個全可視化操作界面,界面中包括:通用化系統(tǒng)API;系統(tǒng)化處理方法組合,支持自由組合數(shù)十個大數(shù)據(jù)領(lǐng)先機器智能算法;高性能集成若干個通用數(shù)據(jù)源,支持若干數(shù)據(jù)庫,如DB2、MySQL、MongoDB、Cassandra、Redis等;數(shù)據(jù)虛擬層支持異構(gòu)關(guān)系型、非關(guān)系型數(shù)據(jù);靈活切換各類完整智能可視化方法。

        如圖5所示,可視化交互系統(tǒng)構(gòu)建成多個可被調(diào)用的控件,把各種用戶交互功能打包成控件的API,易于其與外部各種信息平臺、網(wǎng)絡(luò)、系統(tǒng)進行集成和交互工作。各應(yīng)用平臺根據(jù)用戶需要建立客戶端,利用接口對分析結(jié)果信息進行多維可視化顯示與各種交互操作以及進行功能的擴展。

        高維數(shù)據(jù)結(jié)果展示可視化主要是指針對高維數(shù)據(jù)結(jié)果進行多層次可視化展示,從而更加直觀地挖掘有價值的信息。高維數(shù)據(jù)可視化的難點之一是如何在保證數(shù)據(jù)有效性的基礎(chǔ)上進行降維并行處理。

        (4)大數(shù)據(jù)安全防護系統(tǒng)環(huán)境

        安全防護服務(wù)為平臺的基本服務(wù),包括入侵防御、網(wǎng)絡(luò)監(jiān)控、病毒防護等模塊。

        入侵防御模塊:按照設(shè)定的安全防御策略,對網(wǎng)絡(luò)、系統(tǒng)的運行狀況進行監(jiān)視,盡可能發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證網(wǎng)絡(luò)系統(tǒng)資源的機密性、完整性和可用性,重點內(nèi)容如下。

        ● 網(wǎng)絡(luò)監(jiān)控對所有路由器、交換機、防火墻、入侵防御系統(tǒng)(intrusion prevention system,IPS)的運行狀況、網(wǎng)絡(luò)流量、用戶行為等進行日志記錄;

        ● 對相應(yīng)的訪問記錄進行自動審查,包括事件的日期和時間、用戶、事件類型、事件是否成功及其他與審計相關(guān)的信息;

        ● 能夠根據(jù)記錄數(shù)據(jù)進行分析,并生成審計報表(日報、周報、月報);

        ● 應(yīng)對審計記錄進行保護,避免受到未預期的刪除、修改或覆蓋等。

        不論是防火墻、入侵防御系統(tǒng)還是入侵檢測系統(tǒng)(intrusion detection system,IDS),都應(yīng)設(shè)置定期更新攻擊特征庫,并當檢測到攻擊行為時,應(yīng)記錄攻擊源IP、攻擊類型、攻擊目的、攻擊時間,在發(fā)生嚴重入侵事件時應(yīng)提供報警。

        網(wǎng)絡(luò)監(jiān)控模塊:網(wǎng)絡(luò)監(jiān)控能夠?qū)λ新酚善?、交換機、防火墻、IPS的運行狀況、網(wǎng)絡(luò)流量、用戶行為等進行日志記錄,能夠?qū)崟r記錄用戶在系統(tǒng)中發(fā)起的網(wǎng)絡(luò)行為,根據(jù)網(wǎng)絡(luò)監(jiān)控模塊的日志記錄信息,一方面能夠進一步分析用戶在時空維度、操作習慣等方面的優(yōu)勢,另一方面也能夠作為系統(tǒng)調(diào)整網(wǎng)絡(luò)設(shè)施布局、帶寬分配、安全策略調(diào)整等的參考依據(jù)。

        圖5 可視化交互技術(shù)

        病毒防護模塊:在平臺部署病毒防護設(shè)備和系統(tǒng),阻斷來自外部的病毒傳播和攻擊行為,并在內(nèi)網(wǎng)部署網(wǎng)絡(luò)病毒監(jiān)控系統(tǒng)(virus detection system,VDS),發(fā)現(xiàn)來自內(nèi)部的病毒傳播和攻擊行為??梢酝ㄟ^在核心路由器和專網(wǎng)接入路由器上增加具有防病毒功能的模塊實現(xiàn)防病毒網(wǎng)關(guān)的功能;通過將接入交換機的數(shù)據(jù)鏡像到VDS設(shè)備,可以監(jiān)控內(nèi)網(wǎng)傳輸數(shù)據(jù)中是否含有計算機病毒等惡意代碼。目前市場上防病毒網(wǎng)關(guān)的VDS設(shè)備大量采用云安全技術(shù),雖然云安全技術(shù)可以在一定程度上提高對新惡意代碼的響應(yīng)速度,但可能會造成內(nèi)部敏感信息的泄露。采用離線升級方式,即在內(nèi)部網(wǎng)絡(luò)搭建病毒定義碼升級服務(wù)器,獲得最新的病毒定義碼,不斷更新病毒碼,降低內(nèi)部敏感信息泄露風險。

        4.2.3 平臺全方位管理體系建設(shè)

        平臺全方位管理體系建設(shè)是涵蓋大數(shù)據(jù)融合平臺的監(jiān)控、調(diào)度、安全管理等策略的完善解決方案,這也是平臺能否高效發(fā)揮作用的重要環(huán)節(jié):平臺的監(jiān)控管理涉及底層硬件設(shè)施的監(jiān)控(包括計算、存儲、網(wǎng)絡(luò)等)、應(yīng)用處理任務(wù)監(jiān)控(應(yīng)用任務(wù))、安全監(jiān)控;平臺調(diào)度管理涉及任務(wù)調(diào)度、資源調(diào)度;平臺安全管理涉及制度、人員、過程、操作規(guī)范等,重點包括安全管理制度、安全管理機構(gòu)、人員安全管理、系統(tǒng)建設(shè)管理、系統(tǒng)運維管理。

        5 大數(shù)據(jù)融合平臺典型應(yīng)用

        應(yīng)用驅(qū)動的大數(shù)據(jù)與超級計算、云計算融合平臺,目標是最大化地滿足大數(shù)據(jù)應(yīng)用對信息技術(shù)平臺的要求,因此可以實現(xiàn)大數(shù)據(jù)業(yè)務(wù)流程的系統(tǒng)性覆蓋和對局部處理需求業(yè)務(wù)的廣泛覆蓋?,F(xiàn)在這一平臺方案已經(jīng)在生物基因、醫(yī)療健康、智慧港口、油氣能源、建筑信息模型(building information model,BIM)+地理信息系統(tǒng)(geographic information system)智慧城市、電子政務(wù)等產(chǎn)業(yè)大數(shù)據(jù)應(yīng)用領(lǐng)域開展服務(wù)支撐和應(yīng)用示范,其中有些領(lǐng)域目前利用了這一平臺方案中的部分能力,而生物基因、氣象霧霾、油氣能源開發(fā)等已經(jīng)逐步成為融合平臺系統(tǒng)能力充分施展的典型代表。

        5.1 生物基因領(lǐng)域的應(yīng)用

        生物基因領(lǐng)域各類數(shù)據(jù)庫物理位置相對分散、數(shù)據(jù)類型多樣,使得數(shù)據(jù)采集效率低、數(shù)據(jù)整合困難、數(shù)據(jù)分析處理時效性低。通過完善基因數(shù)據(jù)庫和細胞分析數(shù)據(jù)庫,可為用戶提供高效數(shù)據(jù)采集與傳輸、數(shù)據(jù)存儲、生物信息分析處理等一體化的多功能服務(wù),用戶可以通過互聯(lián)網(wǎng)遠程操作進行測序數(shù)據(jù)的處理,隨時隨地獲取生物信息分析資源。

        基于融合平臺形成的基因大數(shù)據(jù)處理平臺的對外提供服務(wù)的流程:首先由醫(yī)療機構(gòu)采集測試樣本,并進行相關(guān)預處理,然后將樣本中的基因數(shù)據(jù)信息上傳至本平臺進行基因比對、測序等工序,然后將處理結(jié)果整合回傳給醫(yī)療機構(gòu)。同時,在這個過程中不斷進行數(shù)據(jù)積累,形成群體基因分析大數(shù)據(jù),支撐疾病預防或個性化診斷等。

        5.2 氣象霧霾預警預報

        研究氣象霧霾的成因和機理需要大量多源異構(gòu)數(shù)據(jù)的支撐,涉及衛(wèi)星云圖數(shù)據(jù)、雷達數(shù)據(jù)、氣象監(jiān)測點數(shù)據(jù)、區(qū)域污染源排放清單等,這類數(shù)據(jù)存在數(shù)據(jù)量大、物理存儲分散、存儲格式多樣、數(shù)據(jù)實時更新等特點。通過網(wǎng)絡(luò)獲取衛(wèi)星、雷達、污染源等數(shù)據(jù),基于數(shù)據(jù)獲取和超級計算能力構(gòu)建自動化實時霧霾預警預報平臺,開展大規(guī)模數(shù)值預報,預報數(shù)據(jù)通過云平臺處理成產(chǎn)品,并對外發(fā)布,如圖6所示。

        圖6 自動化實時霧霾預警預報平臺系統(tǒng)框架

        基于該平臺已構(gòu)建區(qū)域氣象、空氣污染預報業(yè)務(wù)化平臺,為氣象部門、環(huán)保部門提供穩(wěn)定的長效高分辨率預報結(jié)果,滿足社會公共服務(wù),在保障亞洲太平洋經(jīng)濟合作組織(Asia-Pacific Economic Cooperation,APEC)會議、冬季奧林匹克運動會的申辦等重大氣象服務(wù)保障方面發(fā)揮了重要作用。同時,通過不斷積累觀測數(shù)據(jù)和預報數(shù)據(jù),利用大數(shù)據(jù)分析完善預警預報模型,并為研究區(qū)域長效氣象和環(huán)境變化、環(huán)境治理方案提供支撐。

        6 結(jié)束語

        應(yīng)用驅(qū)動的大數(shù)據(jù)融合平臺可進一步解決我國大數(shù)據(jù)領(lǐng)域創(chuàng)新能力和創(chuàng)新支撐平臺不足的現(xiàn)實問題。產(chǎn)業(yè)領(lǐng)域大數(shù)據(jù)研究、應(yīng)用轉(zhuǎn)化是一個跨界融合的系統(tǒng)工程,需要信息技術(shù)領(lǐng)域和產(chǎn)業(yè)行業(yè)領(lǐng)域深入合作,建立聯(lián)合實驗室、協(xié)同創(chuàng)新中心,實現(xiàn)強強聯(lián)合、相互推動和支撐,這是非常有效的協(xié)同發(fā)展方式。

        大數(shù)據(jù)對國家治理模式,企業(yè)的決策、組織和業(yè)務(wù)流程,個人生活方式都將產(chǎn)生巨大的影響,同高性能計算、云計算、物聯(lián)網(wǎng)等技術(shù)融合,支撐一個信息技術(shù)的新時代。在引導和推動大數(shù)據(jù)發(fā)展方面,國家要抓電子信息基礎(chǔ)產(chǎn)業(yè)發(fā)展,掌握芯片、通信、系統(tǒng)軟件等核心技術(shù)將掌握大數(shù)據(jù)發(fā)展的主動權(quán);在經(jīng)濟、社會發(fā)展的過程中,注重標準化和信息化體系建設(shè);加大網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè),提升數(shù)據(jù)流通效率,降低流通成本;向民生(如醫(yī)療健康、環(huán)境、交通、能源等)、政務(wù)、國防等領(lǐng)域傾斜,構(gòu)建具有第三方公信力的大數(shù)據(jù)平臺或開放機構(gòu),特別是基于大數(shù)據(jù)融合平臺的解決方案和成功應(yīng)用,可以進一步推動區(qū)域或者國家數(shù)據(jù)中心體系建設(shè),形成社會開發(fā)、政府可控的大數(shù)據(jù)科學發(fā)展生態(tài)。

        [1]鄭緯民. 從系統(tǒng)角度審視大數(shù)據(jù)計算[J]. 大數(shù)據(jù), 2015002.

        ZHENG W M. Reviewing big datacomputation from a system perspective[J]. Big Data Research, 2015002.

        [2]陳文光. 大數(shù)據(jù)與高性能計算[J]. 大數(shù)據(jù), 2015003. C H E N W G. B i g d a t a a n d h i g h performance computing[J]. Big Data Research, 2015003.

        [3]方濱興, 賈焰, 李愛平, 等. 大數(shù)據(jù)隱私保護技術(shù)綜述[J].大數(shù)據(jù), 2016001. FANG B X, JIA Y, LI A P, et al. Privacy preservation in big data: a survey[J]. Big Data Research, 2006001.

        [4]黎建輝, 周園春, 胡良霖. 中國科學院科學數(shù)據(jù)云建設(shè)與服務(wù)[J]. 大數(shù)據(jù), 2016061.

        LI J H, ZHOU Y C, HU L L. Scientific data cloud construction and service of Chinese Academy of Sciences[J]. Big Data Research, 2016061.

        Application-oriented integration platform construction on big data

        MENG Xiangfei, FENG Jinghua, ZHAO Yang, XIA Zijun
        National Supercomputer Center in Tianjin, Tianjin 300457, China

        Big data from information society reform was introduced. The application-oriented platform architecture integrating big data with supercomputing and cloud computing was introduced in detail, which including physical infrastructure, system software and management system. Moreover, some typical applications were introduced, such as biology and genomes, meteorology and air pollution. Finally, the opinions on how to promote application development of big data, which can provide reference for the decision-making of the governments and industries, were proposed.

        integration platform on big data, application-oriented, supercomputing, cloud computing

        G202

        A

        10.11959/j.issn.2096-0271.2017020

        孟祥飛(1979-),男,博士,國家超級計算天津中心教授級高級工程師,主任助理,應(yīng)用研發(fā)部部長,中華人民共和國國家發(fā)展和改革委員會“大數(shù)據(jù)處理技術(shù)與應(yīng)用”國家地方聯(lián)合實驗室主任工程師;中國計算機學會高性能計算專家委員會常委,中國醫(yī)促會醫(yī)學數(shù)據(jù)與醫(yī)學計量分會副主委,主要研究方向為大規(guī)模并行處理技術(shù)、大數(shù)據(jù)技術(shù)研發(fā)與應(yīng)用等。

        馮景華(1984-),男,國家超級計算天津中心主任助理、系統(tǒng)管理部部長,中國計算機學會YOCSEF天津AC委員,主要研究方向為高性能計算、云計算、大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)等。

        趙洋(1988-),男,國家超級計算天津中心中級工程師、科學計算組組長,負責高性能計算的應(yīng)用技術(shù)開發(fā),主要研究方向為高性能計算、并行編程和GPU優(yōu)化。

        夏梓峻(1986-),男,國家超級計算天津中心應(yīng)用研發(fā)部副部長,主要研究方向為數(shù)據(jù)分析與處理、大規(guī)模并行計算性能優(yōu)化、大規(guī)模并行計算程序開發(fā)和異構(gòu)并行程序開發(fā)和優(yōu)化。

        2017-01-23

        猜你喜歡
        融合
        一次函數(shù)“四融合”
        兩個壓縮體融合為一個壓縮體的充分必要條件
        村企黨建聯(lián)建融合共贏
        融合菜
        寬窄融合便攜箱TPFS500
        寬窄融合便攜箱IPFS500
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        寬窄融合便攜箱IPFS500
        《融合》
        媒體的五個融合和兩個不融合
        聲屏世界(2015年3期)2015-02-28 15:19:21
        亚洲av激情一区二区| 亚洲欧美中文在线观看4| 国产午夜精品久久久久九九| 亚洲综合一区二区三区久久| 国产精品美女久久久网av| 极品美女aⅴ在线观看| 小12箩利洗澡无码视频网站| 青春草在线观看免费视频| 麻豆69视频在线观看| 天堂8在线天堂资源bt| 一本一本久久a久久精品 | 久久精品国产自清天天线| 日韩在线不卡一区在线观看| 亚洲精品一区二区三区新线路| 国产成人综合美国十次| 欧美疯狂性xxxxxbbbbb| 人妻少妇看A偷人无码电影| 久久精品国产亚洲综合av| 精品乱码一区内射人妻无码| 天天做天天爱夜夜爽毛片毛片| 亚洲精品92内射| 亚洲一级电影在线观看| 久久中文字幕av一区二区不卡 | 久久午夜无码鲁丝片午夜精品 | 国产一区二区视频在线看| 国产精品久久精品第一页| 四川丰满少妇被弄到高潮| 久久久久久久久久免免费精品| 少妇被粗大猛进进出出男女片 | 国产成人国产三级国产精品| 亚洲图片日本视频免费| 国产欧美日韩综合在线一区二区| 中文字幕精品亚洲一区二区三区| 亚洲性无码av中文字幕| 午夜dj在线观看免费视频| 国产成人久久精品77777综合| 久久精品一区二区熟女| 内射爽无广熟女亚洲| 精品无码久久久九九九AV| 极品少妇一区二区三区四区视频| 国产精品久久久久9999|