亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        搭建高性能計(jì)算集群平臺(tái)探討

        2021-12-19 23:47:35李淑倩楊敏董玉敏侯波
        電腦知識(shí)與技術(shù) 2021年32期
        關(guān)鍵詞:探討

        李淑倩 楊敏 董玉敏 侯波

        摘要:隨著全球計(jì)算機(jī)技術(shù)的高速發(fā)展,本企業(yè)致力于研究高性能計(jì)算集群技術(shù)多年,且在生產(chǎn)和實(shí)踐中取得了良好效果。本文旨在通過(guò)對(duì)高性能計(jì)算集群平臺(tái)搭建而總結(jié)的一些粗淺認(rèn)識(shí),對(duì)高性能計(jì)算集群在本企業(yè)中的應(yīng)用進(jìn)行探討,為企業(yè)高性能計(jì)算集群運(yùn)行維護(hù)人員提供一些借鑒和參考。

        關(guān)鍵詞:搭建;HPCC;平臺(tái);探討

        中圖分類(lèi)號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2021)32-0147-02

        1 前言

        高性能計(jì)算集群High Performance Computing Cluster,簡(jiǎn)稱(chēng)HPCC,能為擁有大數(shù)據(jù)計(jì)算要求的應(yīng)用程序提供高性能數(shù)據(jù)并行處理能力,應(yīng)用集群技術(shù)能在部分節(jié)點(diǎn)出現(xiàn)操作系統(tǒng)、應(yīng)用或數(shù)據(jù)存儲(chǔ)故障時(shí),避免整個(gè)系統(tǒng)免于崩潰。

        1.1 企業(yè)概述

        本企業(yè)是集地震勘探處理、解釋、信息技術(shù)應(yīng)用于一體的科研機(jī)構(gòu),經(jīng)過(guò)多年技術(shù)研究和努力,引進(jìn)了大規(guī)模高性能計(jì)算集群系統(tǒng),搭建了能為地震勘探處理解釋等應(yīng)用提供高效計(jì)算能力的高性能計(jì)算集群平臺(tái),以滿(mǎn)足企業(yè)計(jì)算處理和存儲(chǔ)需求。

        1.2 平臺(tái)設(shè)計(jì)

        企業(yè)對(duì)用戶(hù)業(yè)務(wù)進(jìn)行了詳細(xì)調(diào)研和分析,集群節(jié)點(diǎn)涵蓋了CPU刀片、GPU機(jī)架式和其他機(jī)架式節(jié)點(diǎn),存儲(chǔ)以分布式為主,網(wǎng)絡(luò)結(jié)構(gòu)基于萬(wàn)兆以太網(wǎng)絡(luò)和InfiniBand(縮寫(xiě)IB)無(wú)限帶寬技術(shù)相結(jié)合原則而搭建,計(jì)算網(wǎng)絡(luò)核心由2臺(tái)HPCC交換機(jī)構(gòu)成,分別進(jìn)行10X10G鏈路捆綁,增強(qiáng)數(shù)據(jù)傳輸帶寬。

        圖1是本企業(yè)高性能計(jì)算集群HPCC網(wǎng)絡(luò)拓?fù)鋱D,大虛框內(nèi)是專(zhuān)為高性能計(jì)算而設(shè)計(jì)的計(jì)算網(wǎng),與辦公網(wǎng)絡(luò)隔離,業(yè)務(wù)互不交叉。隨著高性能計(jì)算處理能力的日新月異,平臺(tái)也經(jīng)過(guò)升級(jí)和擴(kuò)容,數(shù)據(jù)處理能力逐步提高,數(shù)據(jù)存儲(chǔ)容量從最早的G級(jí)到T級(jí),直到目前的P級(jí),此平臺(tái)也成為企業(yè)生產(chǎn)建設(shè)中不可缺少的重要環(huán)節(jié)。

        2 平臺(tái)搭建

        2.1 基礎(chǔ)設(shè)計(jì)

        2.1.1 節(jié)點(diǎn)

        1)CPU節(jié)點(diǎn)

        搭建的CPU計(jì)算節(jié)點(diǎn)為集群刀箱刀片式,配置2個(gè)6核CPU,主頻3.2GHz,主板插槽8個(gè)I/O端口,其中4個(gè)高速I(mǎi)/O端口,內(nèi)存48G,硬盤(pán)600G,做RAID1數(shù)據(jù)保護(hù),配IB網(wǎng)卡,4臺(tái)集群管理節(jié)點(diǎn)和1臺(tái)軟件管理節(jié)點(diǎn)配置同上,為機(jī)架式節(jié)點(diǎn)。

        2)GPU節(jié)點(diǎn)

        GPU計(jì)算節(jié)點(diǎn)為機(jī)架式,配置4個(gè)6核CPU,主頻3.2GHz,內(nèi)存48G,為利于圖形計(jì)算業(yè)務(wù)配2塊GPU圖形顯卡,硬盤(pán)1.5T,做RAID1數(shù)據(jù)保護(hù),配IB網(wǎng)卡,2臺(tái)集群管理節(jié)點(diǎn)與CPU節(jié)點(diǎn)同樣配置。

        2.1.2 存儲(chǔ)

        存儲(chǔ)搭建以分布式存儲(chǔ)為主,相對(duì)于集中式存儲(chǔ),分布式存儲(chǔ)除了傳統(tǒng)的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等,在分布式架構(gòu)中服務(wù)器分為管理數(shù)據(jù)的元數(shù)據(jù)節(jié)點(diǎn)和負(fù)責(zé)實(shí)際數(shù)據(jù)的管理服務(wù)器。

        當(dāng)客戶(hù)端需要從某個(gè)文件讀取數(shù)據(jù),首先從元數(shù)據(jù)節(jié)點(diǎn)獲取該文件具體在哪個(gè)數(shù)據(jù)節(jié)點(diǎn),元數(shù)據(jù)節(jié)點(diǎn)是主備部署,數(shù)據(jù)節(jié)點(diǎn)由大量節(jié)點(diǎn)構(gòu)成一個(gè)集群,由于數(shù)據(jù)節(jié)點(diǎn)集群分散了客戶(hù)端請(qǐng)求,使得元數(shù)據(jù)的訪(fǎng)問(wèn)頻度和訪(fǎng)問(wèn)量相對(duì)要小,通常不會(huì)成為性能瓶頸,這種分布式存儲(chǔ)架構(gòu)可通過(guò)動(dòng)態(tài)擴(kuò)展數(shù)據(jù)節(jié)點(diǎn)數(shù)量來(lái)增加承載能力。

        分布式存儲(chǔ)也是一種完全無(wú)中心架構(gòu)計(jì)算模式,客戶(hù)端通過(guò)一個(gè)設(shè)備映射關(guān)系計(jì)算出數(shù)據(jù)位置,核心組件只需安裝監(jiān)控服務(wù)、對(duì)象存儲(chǔ)服務(wù)和客戶(hù)端軟件,其中監(jiān)控服務(wù)用于維護(hù)存儲(chǔ)系統(tǒng)中服務(wù)器和硬盤(pán)等在線(xiàn)信息的硬件邏輯關(guān)系,監(jiān)控服務(wù)通過(guò)集群方式保證其服務(wù)可用性,對(duì)象存儲(chǔ)服務(wù)用于實(shí)現(xiàn)對(duì)磁盤(pán)的管理,通常一個(gè)磁盤(pán)對(duì)應(yīng)一個(gè)對(duì)象存儲(chǔ)服務(wù)。客戶(hù)端訪(fǎng)問(wèn)存儲(chǔ)從監(jiān)控服務(wù)讀取存儲(chǔ)資源布局信息,計(jì)算出具體的物理服務(wù)器信息和磁盤(pán)信息,最終與該位置直接通信進(jìn)行讀寫(xiě)存操作,不同于傳統(tǒng)的硬件RAID,所有數(shù)據(jù)全部由文件系統(tǒng)管理。

        由于早期數(shù)據(jù)存儲(chǔ)量穩(wěn)定,引進(jìn)了2套T級(jí)別的分布式存儲(chǔ),均10G掛載在HPCC交換機(jī)A下,為CPU和GPU節(jié)點(diǎn)提供數(shù)據(jù)存儲(chǔ)服務(wù)。

        2.1.3 網(wǎng)絡(luò)

        最初的網(wǎng)絡(luò)規(guī)模如圖1所示設(shè)計(jì)了一臺(tái)HPCC交換機(jī)A,此交換機(jī)是專(zhuān)為大數(shù)據(jù)計(jì)算應(yīng)用到智能、融合的企業(yè)邊緣網(wǎng)絡(luò)提供強(qiáng)大性能、功能需求而設(shè)計(jì),主要有模塊化體系結(jié)構(gòu)、集成安全身份識(shí)別、高度虛擬化數(shù)據(jù)中心的自動(dòng)化特性,可實(shí)現(xiàn)以太網(wǎng)自動(dòng)保護(hù)交換、無(wú)中斷切換和自我修復(fù)功能,通用端口借助強(qiáng)大的事件驅(qū)動(dòng)框架支持網(wǎng)絡(luò)部署和配置,允許基于身份的訪(fǎng)問(wèn)控制和策略,同時(shí)具有高可用性模塊化架構(gòu),提供進(jìn)程監(jiān)控、內(nèi)存保護(hù)功能,主備管理模塊系統(tǒng)的無(wú)中斷切換和模塊級(jí)軟件升級(jí)功能可為啟用了堆疊交換機(jī)提供無(wú)中斷切換保護(hù),模塊化和內(nèi)存保護(hù)設(shè)計(jì)防止系統(tǒng)損壞,支持融合網(wǎng)絡(luò)日益增長(zhǎng)的需求設(shè)計(jì),增強(qiáng)網(wǎng)絡(luò)安全性管理。CPU和GPU節(jié)點(diǎn)與客戶(hù)端通訊通過(guò)IB網(wǎng)關(guān)轉(zhuǎn)換為以太網(wǎng)絡(luò),IB網(wǎng)關(guān)12X10G上連到HPCC交換機(jī)A。IB技術(shù)基于高性能計(jì)算網(wǎng)絡(luò)通信標(biāo)準(zhǔn),具有極高的吞吐量和極低的延遲,可用于節(jié)點(diǎn)間交換互連、節(jié)點(diǎn)與存儲(chǔ)間直接或交換互連、存儲(chǔ)間互連,IB技術(shù)具有配置簡(jiǎn)單、管理方便功能,適合企業(yè)級(jí)大數(shù)據(jù)計(jì)算網(wǎng)絡(luò)的應(yīng)用。

        2.1.4 軟件

        節(jié)點(diǎn)全部安裝LINUX操作系統(tǒng),建立網(wǎng)絡(luò)信息服務(wù)NIS和時(shí)間同步NTP服務(wù)器,針對(duì)企業(yè)需求,在不同節(jié)點(diǎn)安裝CGG、Geoeast、Paradigm、Tomodel、Eposdb等業(yè)務(wù)軟件,部署Light/NCI、Pns等許可服務(wù)器。

        2.2 升級(jí)擴(kuò)容

        由于企業(yè)規(guī)模的擴(kuò)大,系統(tǒng)已不能滿(mǎn)足現(xiàn)狀,如圖1所示,隨后設(shè)計(jì)了數(shù)據(jù)交換性能和轉(zhuǎn)發(fā)能力更強(qiáng)的HPCC交換機(jī)B,與HPCC交換機(jī)A 10X10G互連,新節(jié)點(diǎn)均為刀片式CPU計(jì)算節(jié)點(diǎn),接在HPCC交換機(jī)B下,配置4個(gè)10核CPU,主頻2.8GHz,內(nèi)存128G,硬盤(pán)1.2T,做RAID1數(shù)據(jù)保護(hù),集群管理節(jié)點(diǎn)和IO節(jié)點(diǎn)配置4個(gè)12核CPU,主頻2.6GHz,內(nèi)存256G,硬盤(pán)2.4T(數(shù)據(jù)庫(kù)節(jié)點(diǎn)為6T),做RAID1數(shù)據(jù)保護(hù)。I/O節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)并響應(yīng)計(jì)算節(jié)點(diǎn)的存儲(chǔ)請(qǐng)求,企業(yè)采用了多I/O節(jié)點(diǎn)服務(wù)模式,將計(jì)算所需的初始數(shù)據(jù)、計(jì)算得出的最終數(shù)據(jù)和平臺(tái)數(shù)據(jù)存儲(chǔ)在I/O節(jié)點(diǎn)上,提高運(yùn)行效率。

        介于企業(yè)存儲(chǔ)數(shù)據(jù)業(yè)務(wù)規(guī)模,設(shè)計(jì)了P級(jí)別的大型分布式存儲(chǔ),接到HPCC交換機(jī)B下,由于老的分布式存儲(chǔ)性能和運(yùn)行指標(biāo)的下降,作為企業(yè)備份存儲(chǔ),各自在企業(yè)生產(chǎn)中肩負(fù)著不同的角色。

        2.3 用戶(hù)訪(fǎng)問(wèn)

        計(jì)算網(wǎng)雖通過(guò)匯聚交換機(jī)接入核心交換機(jī),但沒(méi)有設(shè)立網(wǎng)關(guān)、不發(fā)布路由,與辦公網(wǎng)業(yè)務(wù)安全隔離。對(duì)于有計(jì)算業(yè)務(wù)需求的用戶(hù),須到指定的計(jì)算網(wǎng)區(qū)域,使用計(jì)算網(wǎng)資源從事計(jì)算業(yè)務(wù),用戶(hù)在作業(yè)進(jìn)行時(shí),通過(guò)特定的作業(yè)調(diào)度軟件自動(dòng)被分配到不忙的計(jì)算節(jié)點(diǎn)運(yùn)行程序、提交數(shù)據(jù),縮短集群作業(yè)運(yùn)行時(shí)間,杜絕網(wǎng)絡(luò)安全隱患的發(fā)生。

        2.4 運(yùn)維監(jiān)控

        2.4.1 節(jié)點(diǎn)監(jiān)控

        企業(yè)對(duì)節(jié)點(diǎn)的監(jiān)控管理選用了開(kāi)源的網(wǎng)絡(luò)監(jiān)控系統(tǒng)Nagios Core,它可監(jiān)控SMTP、POP3、HTTP、NNTP、PING等網(wǎng)絡(luò)服務(wù),監(jiān)視處理器負(fù)載、磁盤(pán)使用情況等節(jié)點(diǎn)資源情況,能檢測(cè)和區(qū)分主機(jī)是宕機(jī)或不通,可直觀地查看當(dāng)前網(wǎng)絡(luò)狀態(tài)、問(wèn)題歷史記錄、日志文件等,當(dāng)主機(jī)、服務(wù)出現(xiàn)問(wèn)題或問(wèn)題解決時(shí)發(fā)出預(yù)警通知。

        企業(yè)定義了對(duì)當(dāng)前負(fù)載Current Load、當(dāng)前用戶(hù)數(shù)Current Users、根分區(qū)Root Partition、總進(jìn)程數(shù)Total Processes、交換分區(qū)Swap Usage、SSH和PING的監(jiān)控。

        2.4.2 存儲(chǔ)監(jiān)控

        針對(duì)存儲(chǔ)監(jiān)控,定制了服務(wù)器運(yùn)行情況、磁盤(pán)狀態(tài)、文件讀寫(xiě)統(tǒng)計(jì)和歷史報(bào)警信息等,如磁盤(pán)狀態(tài)、總系統(tǒng)容量達(dá)到上限或閾值時(shí)預(yù)警。

        3 實(shí)施效益

        考慮到通信延遲是高性能計(jì)算集群應(yīng)用面臨的最關(guān)鍵技術(shù)挑戰(zhàn),因此構(gòu)建了響應(yīng)速度更快的IB網(wǎng)絡(luò)、GPU加速等技術(shù),同時(shí)在數(shù)據(jù)方面使用更具成本效益、速度穩(wěn)定的持久性存儲(chǔ)服務(wù),部署這些技術(shù)均進(jìn)行網(wǎng)絡(luò)連通性、延遲和性能、CPU和GPU穩(wěn)定性以及節(jié)點(diǎn)間運(yùn)行大數(shù)據(jù)的測(cè)試,結(jié)果均滿(mǎn)足各專(zhuān)業(yè)計(jì)算軟件傳遞數(shù)據(jù)的運(yùn)行需求,使平臺(tái)業(yè)務(wù)得到穩(wěn)定運(yùn)行。

        在實(shí)施運(yùn)行中做到了勘探處理解釋研究的可視化和高效運(yùn)算,使用戶(hù)在短時(shí)間內(nèi)完成大數(shù)據(jù)量的分析和運(yùn)算,進(jìn)一步為油氣開(kāi)發(fā)研究做保障,極大滿(mǎn)足用戶(hù)對(duì)科研生產(chǎn)的應(yīng)用需求。未來(lái)我們將積極探索,尋求虛擬化和云計(jì)算資源對(duì)HPCC的支持,實(shí)時(shí)結(jié)合生產(chǎn)實(shí)際并運(yùn)用新技術(shù)保障HPCC業(yè)務(wù)的穩(wěn)定發(fā)展,為企業(yè)經(jīng)濟(jì)發(fā)展助力。

        參考文獻(xiàn):

        [1] 計(jì)算機(jī)技術(shù)與發(fā)展.基于MPICH2的高性能計(jì)算集群系統(tǒng)研究[Z].2020.10.

        [2] 百度文庫(kù).高性能計(jì)算集群系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[Z]. 2020.9.

        [3] CSDN網(wǎng).配置高性能計(jì)算集群[Z].2020.12.

        【通聯(lián)編輯:李雅琪】

        猜你喜歡
        探討
        江西武寧打鼓歌保護(hù)和傳承的路徑探討
        戲劇之家(2016年19期)2016-10-31 17:15:56
        中學(xué)籃球教學(xué)過(guò)程中常見(jiàn)問(wèn)題的研究
        論瑜伽的認(rèn)識(shí)及其市場(chǎng)探討
        探討企業(yè)人力資源管理與思想政治工作之間的關(guān)聯(lián)性
        新醫(yī)改背景下加強(qiáng)公立醫(yī)院工會(huì)工作的探討
        環(huán)境科學(xué)專(zhuān)業(yè)《環(huán)境生態(tài)學(xué)》課程教學(xué)改革探討
        互聯(lián)網(wǎng)+背景下企業(yè)會(huì)計(jì)核算制度探析
        新財(cái)務(wù)會(huì)計(jì)制度下醫(yī)院成本核算的探討與實(shí)踐分析
        芻議小學(xué)足球教學(xué)的訓(xùn)練教學(xué)方法
        體育旅游產(chǎn)業(yè)的特征及發(fā)展策略探討
        商(2016年27期)2016-10-17 07:16:17
        91热视频在线观看| 亚洲综合在线一区二区三区| 欧美裸体xxxx极品少妇| 亚洲AV色无码乱码在线观看| 亚洲AV无码国产精品色午夜软件| 亚洲综合在线一区二区三区| 国产精品妇女一区二区三区| 超级碰碰色偷偷免费视频| 自拍偷自拍亚洲精品播放| 久久久久久人妻一区精品| 无码成人片一区二区三区| 亚洲av高清资源在线观看三区| 男女做羞羞事的视频网站| 疯狂添女人下部视频免费| 青青草国产成人99久久| 亚州精品无码久久aV字幕| 韩国日本在线观看一区二区| 亚州终合人妖一区二区三区| 亚洲国产亚综合在线区| 人人妻人人妻人人片av| 欧美xxxx黑人又粗又长精品| 国产一区二区三区爆白浆| 中文字幕久区久久中文字幕 | 无码精品人妻一区二区三区漫画| 国产精品_国产精品_k频道| 亚洲毛片网| 国产麻豆一区二区三区在线播放| 日本伦理精品一区二区三区| 国产精品毛片无遮挡| 疯狂做受xxxx高潮欧美日本| 国产69口爆吞精在线视频喝尿| 久久精品国产黄片一区| 免费无码又爽又高潮视频| 未满十八勿入av网免费| 无码国产69精品久久久孕妇| 亚洲香蕉成人AV网站在线观看 | 91丝袜美腿亚洲一区二区| 在线亚洲+欧美+日本专区| 国产亚洲精品A在线无码| 在线观看国产精品一区二区不卡| 国产午夜片无码区在线播放|