亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        服務(wù)核聚變研究領(lǐng)域的集群系統(tǒng)①

        2019-04-10 05:07:14李傳冰鄭江山
        關(guān)鍵詞:超級(jí)計(jì)算機(jī)磁盤集群

        李傳冰,李 弘,蘭 婷,鄭江山,秦 宏

        (中國(guó)科學(xué)技術(shù)大學(xué) 物理學(xué)院 工程與應(yīng)用物理系,合肥 230026)

        超級(jí)計(jì)算機(jī)是通過網(wǎng)絡(luò)將數(shù)量龐大的計(jì)算節(jié)點(diǎn)連接起來,以達(dá)到增強(qiáng)計(jì)算能力的目的.在全球超級(jí)計(jì)算機(jī)top 500的榜單上,中美兩國(guó)長(zhǎng)期交替霸占榜首.2010年10月,天河一號(hào)二期(天河-1A)以峰值速度每秒4700萬億次,成為當(dāng)時(shí)世界上最快的超級(jí)計(jì)算機(jī).2013年6月起至2016年6月,最快的超級(jí)計(jì)算機(jī)是位于廣州的天河二號(hào)[1].2018年6月8日,美國(guó)橡樹嶺實(shí)驗(yàn)室宣布開發(fā)出全球最快的超級(jí)計(jì)算機(jī)“頂點(diǎn)”(Summit).理論上計(jì)算速度可以達(dá)到每秒20億億次,超過迄今最快的中國(guó)超算“神威·太湖之光”,有實(shí)力重奪全球第一.

        高性能計(jì)算目前在社會(huì)的應(yīng)用極其廣泛,航空航天、汽車制造、氣象預(yù)測(cè)、芯片制造、軍事情報(bào)搜集,這些都需要極強(qiáng)的算力,才能得出準(zhǔn)確的計(jì)算結(jié)果[2,3].而這些結(jié)果對(duì)工業(yè)設(shè)計(jì),前沿理論的推進(jìn)起著重大作用.在當(dāng)今科研界,主流的三大研究方式,理論、實(shí)驗(yàn)、數(shù)值模擬,三者相輔相成,缺一不可.高性能計(jì)算支撐的數(shù)值模擬,完美的再現(xiàn)了無法在現(xiàn)實(shí)中實(shí)現(xiàn)的實(shí)驗(yàn),既節(jié)約了高昂的實(shí)驗(yàn)成本,也避免了破壞環(huán)境生態(tài).目前,在科研界內(nèi)應(yīng)用高性能計(jì)算最多的幾個(gè)領(lǐng)域是核聚變、生物醫(yī)藥、微電子.尤其是核聚變的研究,在很多實(shí)驗(yàn)條件不成熟的情況下,用計(jì)算機(jī)模擬是最好的研究方式,既能夠驗(yàn)證理論,也能夠提供對(duì)實(shí)驗(yàn)裝置設(shè)計(jì)的指導(dǎo),在科學(xué)研究中能夠提供難以估量的價(jià)值,它的作用是理論和實(shí)驗(yàn)無法替代的.

        現(xiàn)在,有諸多Tokamak大科學(xué)裝置都使用了超級(jí)計(jì)算機(jī).2010年8月,在德國(guó)的Forschungszentrum Jülich(FZJ)有一個(gè)超級(jí)計(jì)算機(jī)專門為磁約束核聚變服務(wù),耗資1000萬歐元,由歐盟出資50%,德國(guó)出資40%,EFDA成員國(guó)出資10%組建的,浮點(diǎn)運(yùn)算的峰值可以達(dá)到101 Tflops,可以有效加快ITER的研究進(jìn)展.英國(guó)的卡爾漢姆聚變能研究中心(CCFE)為了支持JET和MAST項(xiàng)目也有一個(gè)超級(jí)計(jì)算機(jī)名叫Diego,通過Myrinet的網(wǎng)絡(luò)架構(gòu)將36臺(tái)HP的服務(wù)器連接起來.在印度,等離子體研究中心的Aditya托克馬克,有一個(gè)用網(wǎng)線和光纖連接的集群,600臺(tái)服務(wù)器,提供網(wǎng)絡(luò)、郵箱、域名解析等服務(wù).在日本,于2012年至2016年投入使用一個(gè)計(jì)算能力強(qiáng)大的集群,名叫HELIOS,包含有4500個(gè)計(jì)算節(jié)點(diǎn),72 000個(gè)核心,總的運(yùn)算峰值可以達(dá)到1.5 Pflops,完全用于核聚變研究領(lǐng)域,一半計(jì)算資源給日本使用,另一半資源給歐洲使用.可以清楚的看到,高性能集群在托克馬克中的廣泛應(yīng)用.在科研探索中起著極其重要的作用,強(qiáng)大的計(jì)算能力可以飛速推進(jìn)數(shù)值模擬的發(fā)展.

        1 KTX裝置對(duì)集群的要求

        受控核聚變是人類實(shí)現(xiàn)最終能源的夢(mèng)想,磁約束是目前實(shí)現(xiàn)受控核聚變的主流技術(shù)思路之一.磁約束有三種位形[4-7]: ① 仿星器,② 托克馬克,③ 反場(chǎng)箍縮.反場(chǎng)箍縮[8-11](Reversed Field Pinch,RFP)是β值(等離子體的壓強(qiáng)與磁能的比值)最大的磁約束聚變位形.反場(chǎng)箍縮最主要的優(yōu)點(diǎn)是工程實(shí)施簡(jiǎn)單,β值高,能夠通過歐姆加熱直接點(diǎn)火.位于中國(guó)科學(xué)技術(shù)大學(xué)的大型反場(chǎng)箍縮磁約束聚變實(shí)驗(yàn)裝置“Keda Torus eXperiment”(KTX)實(shí)驗(yàn)裝置采用的就是反場(chǎng)箍縮位形.

        KTX的數(shù)據(jù)先通過采集卡存儲(chǔ)在本地,之后再用網(wǎng)絡(luò)傳輸數(shù)據(jù)至集群.采集卡分為低速采集和高速采集.低速采集250 KB/s,每次采集有900道,高速采集60 MB/s,每次采集有十幾道,放電時(shí)長(zhǎng)10-20 ms,最多至200 ms.一年的實(shí)驗(yàn)月有6個(gè)月,每周有3天實(shí)驗(yàn)日,一天有200炮實(shí)驗(yàn)數(shù)據(jù).按照最大的原則計(jì)算,一年高速采集的數(shù)據(jù)至多3.5 TB左右,低速采集的數(shù)據(jù)最多13 TB,兩者合計(jì)不會(huì)超過20 TB.

        KTX對(duì)數(shù)據(jù)的存儲(chǔ)有以下一些要求:

        (1)容錯(cuò)性.如果一個(gè)存儲(chǔ)單元出現(xiàn)了損壞,可以不間斷的接收新數(shù)據(jù)的存入,還能完成原有數(shù)據(jù)的復(fù)制和轉(zhuǎn)移.

        (2)冗余性.將整個(gè)文件的兩個(gè)或更多副本存儲(chǔ)在不同的服務(wù)器上,或?qū)⒚總€(gè)文件分割到多個(gè)服務(wù)器上.從多個(gè)客戶端并行訪問副本.

        (3)有較快的讀寫性能.

        (4)兼容性好.

        (5)易于安裝和配置.

        KTX實(shí)驗(yàn)裝置的數(shù)據(jù)還需要有效的處理,所以需要高性能集群有較高的計(jì)算能力.快速做好數(shù)據(jù)的預(yù)處理才能高效的將計(jì)算結(jié)果演化為圖像,呈現(xiàn)給研究者面前,用于做更深入的物理分析.由于一炮數(shù)據(jù)具有多通道的特點(diǎn),KTX實(shí)驗(yàn)組對(duì)同時(shí)處理大批量數(shù)據(jù)具有強(qiáng)烈的需求,所以對(duì)集群的并行處理能力有較高要求.

        針對(duì)上述的KTX實(shí)驗(yàn)裝置的計(jì)算和存儲(chǔ)需求,設(shè)計(jì)了集群的相關(guān)參數(shù),并做了相關(guān)配置和部署.

        2 集群的硬件以及網(wǎng)絡(luò)架構(gòu)

        為了滿足核聚變研究領(lǐng)域的需求——可以較快的存儲(chǔ)、讀取、在線處理數(shù)據(jù),在集群的設(shè)計(jì)與部署中必須保證足夠的計(jì)算性能以及文件系統(tǒng)的讀寫性能.CPU核心數(shù)量多才能同時(shí)處理較多的作業(yè),在線同時(shí)處理KTX一炮多達(dá)數(shù)百道實(shí)驗(yàn)數(shù)據(jù).CPU的主頻高,運(yùn)算速度快才能快速的計(jì)算數(shù)據(jù).文件系統(tǒng)讀寫性能佳,才可以勝任快速存儲(chǔ)實(shí)驗(yàn)數(shù)據(jù),也能夠在需要的時(shí)候,快速地將數(shù)據(jù)從集群中讀取出來.

        集群平臺(tái)為聯(lián)想深騰X8800超算集群平臺(tái).有42個(gè)計(jì)算刀片,刀片式服務(wù)器的型號(hào)均為L(zhǎng)enovo Think System SN550,每個(gè)刀片有兩個(gè)物理CPU,每個(gè)CPU有16個(gè)計(jì)算核心.處理器都是Intel Xeon 可擴(kuò)展處理器金牌6142,主頻2.6 GHz.集群的理論浮點(diǎn)運(yùn)算峰值可達(dá)110 Tflops.每個(gè)刀片有128 GB內(nèi)存外加一塊240 GB的企業(yè)級(jí)SSD硬盤.另外還有兩臺(tái)機(jī)架式服務(wù)器用作管理和登陸,型號(hào)為L(zhǎng)enovo Think System SR550,每臺(tái)機(jī)架式服務(wù)器有兩個(gè)物理CPU,每個(gè)CPU有8個(gè)核心,主頻2.1 GHz,處理器是Intel Xeon可擴(kuò)展處理器金牌4110配置.每個(gè)機(jī)架式服務(wù)器有64 GB內(nèi)存,4塊600 GB的SAS 2.5寸熱插拔硬盤.最后有6臺(tái)IO節(jié)點(diǎn),也是機(jī)架式服務(wù)器,型號(hào)與管理節(jié)點(diǎn)相同,用來管理和負(fù)載均衡I/O.

        存儲(chǔ)系統(tǒng)是Lenovo Storage D3284,集中式存儲(chǔ)架構(gòu),GPFS并行文件系統(tǒng).總?cè)萘?.12 PB,實(shí)際容量可利用率超過70%.數(shù)據(jù)盤數(shù)量達(dá)到112塊,系統(tǒng)實(shí)測(cè)總聚會(huì)IO帶寬大于4.0 GB/s.

        網(wǎng)絡(luò)系統(tǒng)有兩套,一個(gè)是計(jì)算網(wǎng)絡(luò),另一個(gè)是管理網(wǎng)絡(luò).計(jì)算網(wǎng)絡(luò)采用56 Gbps FDR Infiniband 網(wǎng)絡(luò),互連所有節(jié)點(diǎn)(包括計(jì)算節(jié)點(diǎn)、管理節(jié)點(diǎn)、IO節(jié)點(diǎn)),保證整個(gè)集群計(jì)算刀片點(diǎn)對(duì)點(diǎn)帶寬56 Gbps.管理網(wǎng)絡(luò)采用1 Gb以太網(wǎng)連接到所有節(jié)點(diǎn),IPMI監(jiān)控管理網(wǎng)絡(luò),能夠?qū)崿F(xiàn)全部服務(wù)器的遠(yuǎn)程監(jiān)控管理.

        本系統(tǒng)中最大的優(yōu)勢(shì)是采用了Infiniband高速網(wǎng)絡(luò),用作點(diǎn)對(duì)點(diǎn)傳輸數(shù)據(jù).Infiniband高速網(wǎng)絡(luò)有效解決了傳統(tǒng)I/O總線造成的系統(tǒng)瓶頸[12].Infiniband 支持的是RDMA協(xié)議,它允許應(yīng)用程序直接讀取或?qū)懭脒h(yuǎn)程內(nèi)存,而無內(nèi)核干預(yù)和內(nèi)存拷貝發(fā)生,故而有很強(qiáng)的讀寫性能[13].

        3 使用xCAT軟件一站式部署系統(tǒng)

        3.1 xCAT的功能

        xCAT是一個(gè)高級(jí)的集群管理工具,xCAT給高性能集群、云計(jì)算、數(shù)據(jù)中心提供了一體化管理服務(wù).xCAT的實(shí)施規(guī)??梢院艽?可以管理多達(dá)1000多臺(tái)節(jié)點(diǎn).xCAT是開源的,可以得到公開的參考資料.xCAT能夠十分方便地遠(yuǎn)程給高性能集群部署系統(tǒng),也能夠批量下發(fā)命令給各從節(jié)點(diǎn),完成各種控制,包括對(duì)所有從節(jié)點(diǎn)遠(yuǎn)程開關(guān)機(jī).xCAT能夠?qū)崿F(xiàn)集群的全自動(dòng)化安裝,也即是基于網(wǎng)絡(luò)的無人看守式的安裝系統(tǒng)[14,15].

        3.2 xCAT定義數(shù)據(jù)表

        xCAT在做系統(tǒng)部署前會(huì)定義一系列數(shù)據(jù)表,存儲(chǔ)在xCAT的數(shù)據(jù)庫中.為了使將來集群工作時(shí),各種網(wǎng)絡(luò)能夠高效、穩(wěn)定地提供服務(wù),設(shè)計(jì)和定義好集群的網(wǎng)絡(luò)表是很重要的.xCAT中定義的集群網(wǎng)絡(luò)分兩種,以太管理網(wǎng)絡(luò)和infiniband高速網(wǎng)絡(luò).使用tabedit network命令設(shè)置網(wǎng)絡(luò)配置,定義網(wǎng)段和子網(wǎng)掩碼,以及主服務(wù)器master的IP.使用tabedit hosts命令配置主機(jī)名列表和IP列表.使用tabedit mac命令配置各服務(wù)器的網(wǎng)卡mac地址.

        在完成一系列數(shù)據(jù)表的定義后,對(duì)服務(wù)器進(jìn)行群組劃分,便于以后分組控制,統(tǒng)一執(zhí)行主服務(wù)器master的遠(yuǎn)程命令.給集群定義了四個(gè)組.

        (1)all,代表全部服務(wù)器.

        (2)computeserver,所有計(jì)算刀片構(gòu)成的組.

        (3)ioserver,所有IO節(jié)點(diǎn)構(gòu)成的組.

        (4)slaves,除了頭節(jié)點(diǎn)master以外的所有服務(wù)器.

        待完成數(shù)據(jù)表后,給劃分好群組的服務(wù)器導(dǎo)入相應(yīng)的系統(tǒng)鏡像,給各個(gè)備選的系統(tǒng)鏡像配置合適的分區(qū)文件,以及需要安裝的軟件包,還有安裝完系統(tǒng)后需要配置的軟件服務(wù),例如ntp、rsyslog等服務(wù).根據(jù)群組的設(shè)計(jì),集群的服務(wù)器分為三類.第一類是兩臺(tái)管理節(jié)點(diǎn),一臺(tái)用作集群主服務(wù)器master,同時(shí)作為并行作業(yè)調(diào)度器的頭節(jié)點(diǎn);另一臺(tái)用作登陸節(jié)點(diǎn).第二類是計(jì)算刀片,有42個(gè)節(jié)點(diǎn),用來執(zhí)行并行作業(yè)計(jì)算任務(wù).第三類是IO節(jié)點(diǎn),有6臺(tái),用作管理和平衡負(fù)載文件系統(tǒng)的讀寫.

        最后使用nodeset命令開始無人看管式遠(yuǎn)程部署系統(tǒng),每個(gè)服務(wù)器以PXE的方式啟動(dòng),推入系統(tǒng)鏡像.

        4 存儲(chǔ)的安全設(shè)計(jì)

        KTX實(shí)驗(yàn)組不僅需要集群可以快速處理、讀取數(shù)據(jù),還需要集群有足夠的安全機(jī)制能夠保障數(shù)據(jù)的安全性.KTX一年當(dāng)中只有一半的時(shí)間是實(shí)驗(yàn)期,因此實(shí)驗(yàn)數(shù)據(jù)的產(chǎn)出來之不易,一旦數(shù)據(jù)有損壞或者丟失,對(duì)核聚變的研究都會(huì)造成不小的損失.所以針對(duì)前文中提到的存儲(chǔ)需要具有容錯(cuò)性、冗余性,對(duì)GPFS并行文件系統(tǒng)進(jìn)行了安全設(shè)計(jì).

        GPFS文件系統(tǒng)本身具有數(shù)據(jù)安全性.GPFS文件系統(tǒng)是一種日志文件系統(tǒng),為不同節(jié)點(diǎn)建立各自獨(dú)立的日志,日志中記錄metadata的分布,一旦節(jié)點(diǎn)發(fā)生故障后,可以保證快速恢復(fù)數(shù)據(jù).GPFS的fail-over功能通過規(guī)劃,將數(shù)據(jù)分布到不同failure group內(nèi)達(dá)到高可用性,減少單點(diǎn)故障的影響.為了保證數(shù)據(jù)可用性,GPFS在多個(gè)failure group內(nèi)為每個(gè)數(shù)據(jù)實(shí)例做備份[16].

        4.1 GPFS 可用性機(jī)制

        GPFS有一套可用性判斷機(jī)制來保證數(shù)據(jù)完整性與系統(tǒng)安全.GPFS 提供三套不同的 quorum 機(jī)制來判斷系統(tǒng)當(dāng)前的狀態(tài),其中File system Descriptor Quorum 是系統(tǒng)內(nèi)置的,不能做配置,另外兩種 Node Quorum 和 Tiebreaker Quorum 方式只能選擇其中一個(gè),根據(jù)系統(tǒng)環(huán)境與可靠性分析來選擇使用哪一種機(jī)制.File system Descriptor Quorum的File system Descriptor描述的是文件系統(tǒng)信息的數(shù)據(jù).在幾個(gè)不同的 failuregroup 的磁盤上創(chuàng)建 GPFS 文件系統(tǒng)時(shí),文件系統(tǒng)的配置信息(簡(jiǎn)寫為 FD)會(huì)被拷貝寫到多個(gè)磁盤上,以實(shí)現(xiàn)冗余備份.FD quorum 的機(jī)制是通過判斷含有 FD 磁盤的在線數(shù)量來判斷當(dāng)前系統(tǒng)是否正常,當(dāng)超過半數(shù)的含有 FD 的磁盤掉線時(shí),就判斷為系統(tǒng)故障,文件系統(tǒng)就會(huì)自動(dòng)關(guān)閉.Node Quorum 是通過主機(jī)狀態(tài)來判斷系統(tǒng)可用性的機(jī)制.GPFS 文件系統(tǒng)集群中,可以設(shè)置多個(gè)主機(jī)節(jié)點(diǎn)為 quorum node.Node Quorum 的機(jī)制是通過判斷 quorum node 的狀態(tài)來判斷系統(tǒng)是否正常,當(dāng)超過半數(shù)的 quorum node 在線時(shí),判斷系統(tǒng)為正常,反之,將關(guān)閉文件系統(tǒng).Tiebreaker Quorum 是通過磁盤的狀態(tài)來判斷系統(tǒng)的可用性.可以設(shè)置系統(tǒng)通過監(jiān)視指定的一些磁盤作為 Tiebreaker Disk.當(dāng)超過半數(shù)的Tiebreaker Disk 掉線時(shí),則判斷系統(tǒng)故障,文件系統(tǒng)將會(huì)自動(dòng)關(guān)閉.Tiebreaker Quorum最多只能配置兩個(gè)用來監(jiān)控磁盤狀態(tài)的 quorum 主機(jī),當(dāng) 2 臺(tái) quorum 主機(jī)都宕機(jī)的話,GPFS 系統(tǒng)也將會(huì)關(guān)閉.根據(jù)以上三種判斷機(jī)制,GPFS 自動(dòng)判斷系統(tǒng)的狀態(tài),當(dāng)異常發(fā)生時(shí)自動(dòng)關(guān)閉系統(tǒng)以保護(hù)系統(tǒng)和數(shù)據(jù)的完整性.

        4.2 GPFS 可靠性分析與如何設(shè)計(jì)

        基于上面闡述的 GPFS 可用性機(jī)制,可以看出GPFS 是通過上述的三種 quorum 機(jī)制來檢查資源是否超過半數(shù)狀態(tài)正常來判斷系統(tǒng)狀態(tài)好壞.在設(shè)計(jì) GPFS文件系統(tǒng)集群的時(shí)候需要注意最好保證各種資源數(shù)都為 2N+1 個(gè)(N是指數(shù)量),也即數(shù)量為奇數(shù),來獲得系統(tǒng)最大的可用性.根據(jù)FD Quorum的設(shè)計(jì),一般情況下,丟失一個(gè) failure group 的磁盤實(shí)際不影響數(shù)據(jù)的完整性,但是由于FD Quorum 2N+1 的機(jī)制發(fā)揮作用,文件系統(tǒng)仍將會(huì)關(guān)閉,所以在創(chuàng)建一個(gè) GPFS 文件系統(tǒng)時(shí),可以通過增加一個(gè)很小的本地的磁盤作為第三個(gè)failure group.以實(shí)現(xiàn) 2N+1 的冗余設(shè)計(jì).本地的磁盤可以設(shè)置為只保存 GPFS 文件系統(tǒng)信息(FD),實(shí)際不參與數(shù)據(jù)讀寫.Node Quorum機(jī)制如果采用了 2N+1 個(gè)quorum node,那么這個(gè)系統(tǒng)就能容忍N(yùn)個(gè)主機(jī)節(jié)點(diǎn)的離線.Tiebreaker Quorum 機(jī)制只能配置兩個(gè) quorum 主機(jī),但是只要 tiebreaker 磁盤在線,有一個(gè) quorum 主機(jī)狀態(tài)正常,系統(tǒng)也能正常工作,這意味著至少有一臺(tái)quorum 主機(jī)在線.如果是主機(jī)節(jié)點(diǎn)數(shù)較多的情況,采用Tiebreaker Quorum機(jī)制其可靠性不如 Node Quorum機(jī)制.

        鑒于集群的規(guī)模,采用Node Quorum模式.6臺(tái)IO節(jié)點(diǎn)是quorum-manager node,登陸節(jié)點(diǎn)是quorum node,6臺(tái)IO節(jié)點(diǎn)作為仲裁管理節(jié)點(diǎn),當(dāng)它們損壞一半時(shí),才會(huì)關(guān)閉文件系統(tǒng).登陸節(jié)點(diǎn)則存儲(chǔ)GPFS文件系統(tǒng)信息.按照這種安全機(jī)制,冗余性是很強(qiáng)的,保證了KTX實(shí)驗(yàn)數(shù)據(jù)存儲(chǔ)時(shí)的安全要求.使用讀寫測(cè)試工具IOzone,對(duì)GPFS文件系統(tǒng)進(jìn)行壓力測(cè)試,一方面是檢查GPFS文件系統(tǒng)的性能,另一方面,檢驗(yàn)并行文件系統(tǒng)的穩(wěn)定性,從結(jié)果來看,文件系統(tǒng)的讀、寫性能在4.9 GB/S、2.8 GB/s左右.測(cè)試結(jié)果放在/gpfs目錄下,下面為測(cè)試的結(jié)果:

        Iozone命令后接的參數(shù)-i 0 -i 1指的是做write/rewrite和read/re-read測(cè)試,-r 1M指定測(cè)試塊大小為1 MB,-s 32 g指定測(cè)試文件大小為32 GB,-t 4指定測(cè)試時(shí)使用4線程,-+m nodelist指定節(jié)點(diǎn)列表.根據(jù)結(jié)果代碼所示,四線程總的寫速度是2.8 GB/s,四線程中最快的寫速度是986 MB/s,最慢的寫速度是447 MB/s;四個(gè)線程總的讀速度是4.9 GB/s,四個(gè)線程中最快的讀速度是1.3 GB/s,最慢的讀速度是1.1 GB/s.驗(yàn)證了GPFS文件系統(tǒng)有相當(dāng)好的讀寫性能,能夠快速讀寫文件.

        4.3 GPFS冗余性測(cè)試

        我們使用6臺(tái)IO節(jié)點(diǎn)作為仲裁管理節(jié)點(diǎn),在2N+1的Node Quorum冗余機(jī)制下,應(yīng)該能夠保證在3臺(tái)IO節(jié)點(diǎn)離線的情況下,文件系統(tǒng)仍然能正常的工作.為了驗(yàn)證GPFS文件系統(tǒng)的冗余性,我們做了如下測(cè)試.分別在有6臺(tái)、5臺(tái)、4臺(tái)、3臺(tái)仲裁管理節(jié)點(diǎn)正常工作的情況下,使用IOzone工具測(cè)試集群的讀寫速率.測(cè)試結(jié)果如圖1所示.

        圖1 GPFS文件系統(tǒng)冗余性檢測(cè)

        從圖1中可以看出仲裁管理節(jié)點(diǎn)的個(gè)數(shù)從6臺(tái)減少到3臺(tái)的過程中,GPFS文件 系統(tǒng)的讀寫速率維持在4.5 GB/s、2.8 GB/s附近.可見2N+1的Node Quorum機(jī)制發(fā)揮了作用,最多在半數(shù)的仲裁管理節(jié)點(diǎn)失效的情況下,GPFS文件系統(tǒng)仍然能夠正常工作,而且讀寫速率不受大的影響.GPFS文件系統(tǒng)的冗余性得到了保證,這樣避免了以后在集群的使用中單點(diǎn)故障的問題,數(shù)據(jù)的安全性得到了大大的增強(qiáng).

        5 結(jié)論與展望

        為了方便核聚變的研究,安裝并部署了一個(gè)高性能集群,考慮到KTX實(shí)驗(yàn)組的需求,一方面是能夠快速的處理、存儲(chǔ)、讀取數(shù)據(jù),另一方面保證數(shù)據(jù)有足夠的安全保障.據(jù)此,對(duì)集群的設(shè)計(jì)進(jìn)行了優(yōu)化.

        集群開啟超線程后一共有2688個(gè)邏輯CPU,每個(gè)CPU的主頻2.6 GHz,理論峰值浮點(diǎn)運(yùn)算能力達(dá)到110 Tflops,保證了強(qiáng)大的計(jì)算能力.在實(shí)際的Linpack測(cè)試當(dāng)中發(fā)現(xiàn)浮點(diǎn)運(yùn)算的峰值不理想,經(jīng)過研究發(fā)現(xiàn),是因?yàn)镃PU的內(nèi)存通道沒有占滿,每個(gè)物理CPU有6通道,但是只裝了兩根內(nèi)存條.為了提升浮點(diǎn)運(yùn)算性能,每臺(tái)刀片加裝8根同類型內(nèi)存條,一共加滿到12根內(nèi)存條.另外集群選用GPFS并行文件系統(tǒng),高達(dá)4.9 GB/s、2.8 GB/s的讀寫速率,提供了優(yōu)秀的讀寫性能.選用infiniband高速網(wǎng)絡(luò),保證了較高的網(wǎng)絡(luò)傳輸速度和較低的延遲率,并使用xCAT管理工具對(duì)集群進(jìn)行了有效穩(wěn)定的管理.設(shè)計(jì)了KTX實(shí)驗(yàn)數(shù)據(jù)存放于GPFS并行文件系統(tǒng)的安全保障機(jī)制,保證了數(shù)據(jù)的容錯(cuò)性、冗余性、穩(wěn)定性.

        未來KTX實(shí)驗(yàn)室會(huì)將實(shí)驗(yàn)數(shù)據(jù)大規(guī)模存入,數(shù)據(jù)都是HDF5格式的,下一步會(huì)規(guī)劃與設(shè)計(jì)快速讀取基于HDF5數(shù)據(jù)格式的方案,并設(shè)計(jì)和完善在線處理數(shù)據(jù)的功能.

        猜你喜歡
        超級(jí)計(jì)算機(jī)磁盤集群
        超級(jí)計(jì)算機(jī)
        超級(jí)計(jì)算機(jī)及其在航空航天領(lǐng)域中的應(yīng)用
        科技傳播(2019年22期)2020-01-14 03:06:36
        解決Windows磁盤簽名沖突
        電腦愛好者(2019年2期)2019-10-30 03:45:31
        海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
        修改磁盤屬性
        美國(guó)制造出全球最快超級(jí)計(jì)算機(jī)
        一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
        電子制作(2018年11期)2018-08-04 03:25:40
        每秒100億億次 中國(guó)超級(jí)計(jì)算機(jī)
        Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
        磁盤組群組及iSCSI Target設(shè)置
        日本熟妇中文字幕三级| 蜜桃视频在线观看免费亚洲| 美腿丝袜在线一区二区| 女人被狂躁c到高潮视频| 午夜福利院电影| 国产精品无码精品久久久| 国产熟女亚洲精品麻豆| 日本a一区二区三区在线| av日韩高清一区二区| 亚洲国产精品久久艾草| 亚洲精品aa片在线观看国产| 激情综合欧美| 国产在线白浆一区二区三区在线| 中国男女黄色完整视频| 无码中文亚洲av影音先锋| 亚洲色偷偷综合亚洲av伊人| 精品视频在线观看免费无码| av无码电影一区二区三区| 蜜桃av一区二区三区久久| 亚洲av色在线播放一区| 亚洲精品无码永久在线观看| 亚洲av无码一区二区三区人妖| 欧美黑人乱大交| 最新永久无码AV网址亚洲| 国产av在线观看91| 国产的自拍av免费的在线观看 | 午夜在线观看有码无码| 久久精品日韩免费视频| 久久午夜av一区二区三区| 亚洲精品国偷拍自产在线观看| 中文字幕人妻av一区二区| 99久久国产亚洲综合精品| 亚洲av精品一区二区三| av在线免费观看麻豆| 男人扒开添女人下部免费视频| 8888四色奇米在线观看| 欧洲一区在线观看| 亚洲永久精品日韩成人av| 久久天堂一区二区三区av| 蜜桃av抽搐高潮一区二区| 亚洲va中文字幕无码久久不卡|