李淑倩 楊敏 董玉敏 侯波
摘要:隨著全球計(jì)算機(jī)技術(shù)的高速發(fā)展,本企業(yè)致力于研究高性能計(jì)算集群技術(shù)多年,且在生產(chǎn)和實(shí)踐中取得了良好效果。本文旨在通過(guò)對(duì)高性能計(jì)算集群平臺(tái)搭建而總結(jié)的一些粗淺認(rèn)識(shí),對(duì)高性能計(jì)算集群在本企業(yè)中的應(yīng)用進(jìn)行探討,為企業(yè)高性能計(jì)算集群運(yùn)行維護(hù)人員提供一些借鑒和參考。
關(guān)鍵詞:搭建;HPCC;平臺(tái);探討
中圖分類(lèi)號(hào):TP311 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)32-0147-02
1 前言
高性能計(jì)算集群High Performance Computing Cluster,簡(jiǎn)稱(chēng)HPCC,能為擁有大數(shù)據(jù)計(jì)算要求的應(yīng)用程序提供高性能數(shù)據(jù)并行處理能力,應(yīng)用集群技術(shù)能在部分節(jié)點(diǎn)出現(xiàn)操作系統(tǒng)、應(yīng)用或數(shù)據(jù)存儲(chǔ)故障時(shí),避免整個(gè)系統(tǒng)免于崩潰。
1.1 企業(yè)概述
本企業(yè)是集地震勘探處理、解釋、信息技術(shù)應(yīng)用于一體的科研機(jī)構(gòu),經(jīng)過(guò)多年技術(shù)研究和努力,引進(jìn)了大規(guī)模高性能計(jì)算集群系統(tǒng),搭建了能為地震勘探處理解釋等應(yīng)用提供高效計(jì)算能力的高性能計(jì)算集群平臺(tái),以滿(mǎn)足企業(yè)計(jì)算處理和存儲(chǔ)需求。
1.2 平臺(tái)設(shè)計(jì)
企業(yè)對(duì)用戶(hù)業(yè)務(wù)進(jìn)行了詳細(xì)調(diào)研和分析,集群節(jié)點(diǎn)涵蓋了CPU刀片、GPU機(jī)架式和其他機(jī)架式節(jié)點(diǎn),存儲(chǔ)以分布式為主,網(wǎng)絡(luò)結(jié)構(gòu)基于萬(wàn)兆以太網(wǎng)絡(luò)和InfiniBand(縮寫(xiě)IB)無(wú)限帶寬技術(shù)相結(jié)合原則而搭建,計(jì)算網(wǎng)絡(luò)核心由2臺(tái)HPCC交換機(jī)構(gòu)成,分別進(jìn)行10X10G鏈路捆綁,增強(qiáng)數(shù)據(jù)傳輸帶寬。
圖1是本企業(yè)高性能計(jì)算集群HPCC網(wǎng)絡(luò)拓?fù)鋱D,大虛框內(nèi)是專(zhuān)為高性能計(jì)算而設(shè)計(jì)的計(jì)算網(wǎng),與辦公網(wǎng)絡(luò)隔離,業(yè)務(wù)互不交叉。隨著高性能計(jì)算處理能力的日新月異,平臺(tái)也經(jīng)過(guò)升級(jí)和擴(kuò)容,數(shù)據(jù)處理能力逐步提高,數(shù)據(jù)存儲(chǔ)容量從最早的G級(jí)到T級(jí),直到目前的P級(jí),此平臺(tái)也成為企業(yè)生產(chǎn)建設(shè)中不可缺少的重要環(huán)節(jié)。
2 平臺(tái)搭建
2.1 基礎(chǔ)設(shè)計(jì)
2.1.1 節(jié)點(diǎn)
1)CPU節(jié)點(diǎn)
搭建的CPU計(jì)算節(jié)點(diǎn)為集群刀箱刀片式,配置2個(gè)6核CPU,主頻3.2GHz,主板插槽8個(gè)I/O端口,其中4個(gè)高速I(mǎi)/O端口,內(nèi)存48G,硬盤(pán)600G,做RAID1數(shù)據(jù)保護(hù),配IB網(wǎng)卡,4臺(tái)集群管理節(jié)點(diǎn)和1臺(tái)軟件管理節(jié)點(diǎn)配置同上,為機(jī)架式節(jié)點(diǎn)。
2)GPU節(jié)點(diǎn)
GPU計(jì)算節(jié)點(diǎn)為機(jī)架式,配置4個(gè)6核CPU,主頻3.2GHz,內(nèi)存48G,為利于圖形計(jì)算業(yè)務(wù)配2塊GPU圖形顯卡,硬盤(pán)1.5T,做RAID1數(shù)據(jù)保護(hù),配IB網(wǎng)卡,2臺(tái)集群管理節(jié)點(diǎn)與CPU節(jié)點(diǎn)同樣配置。
2.1.2 存儲(chǔ)
存儲(chǔ)搭建以分布式存儲(chǔ)為主,相對(duì)于集中式存儲(chǔ),分布式存儲(chǔ)除了傳統(tǒng)的分布式文件系統(tǒng)、分布式塊存儲(chǔ)和分布式對(duì)象存儲(chǔ)外,還包括分布式數(shù)據(jù)庫(kù)和分布式緩存等,在分布式架構(gòu)中服務(wù)器分為管理數(shù)據(jù)的元數(shù)據(jù)節(jié)點(diǎn)和負(fù)責(zé)實(shí)際數(shù)據(jù)的管理服務(wù)器。
當(dāng)客戶(hù)端需要從某個(gè)文件讀取數(shù)據(jù),首先從元數(shù)據(jù)節(jié)點(diǎn)獲取該文件具體在哪個(gè)數(shù)據(jù)節(jié)點(diǎn),元數(shù)據(jù)節(jié)點(diǎn)是主備部署,數(shù)據(jù)節(jié)點(diǎn)由大量節(jié)點(diǎn)構(gòu)成一個(gè)集群,由于數(shù)據(jù)節(jié)點(diǎn)集群分散了客戶(hù)端請(qǐng)求,使得元數(shù)據(jù)的訪(fǎng)問(wèn)頻度和訪(fǎng)問(wèn)量相對(duì)要小,通常不會(huì)成為性能瓶頸,這種分布式存儲(chǔ)架構(gòu)可通過(guò)動(dòng)態(tài)擴(kuò)展數(shù)據(jù)節(jié)點(diǎn)數(shù)量來(lái)增加承載能力。
分布式存儲(chǔ)也是一種完全無(wú)中心架構(gòu)計(jì)算模式,客戶(hù)端通過(guò)一個(gè)設(shè)備映射關(guān)系計(jì)算出數(shù)據(jù)位置,核心組件只需安裝監(jiān)控服務(wù)、對(duì)象存儲(chǔ)服務(wù)和客戶(hù)端軟件,其中監(jiān)控服務(wù)用于維護(hù)存儲(chǔ)系統(tǒng)中服務(wù)器和硬盤(pán)等在線(xiàn)信息的硬件邏輯關(guān)系,監(jiān)控服務(wù)通過(guò)集群方式保證其服務(wù)可用性,對(duì)象存儲(chǔ)服務(wù)用于實(shí)現(xiàn)對(duì)磁盤(pán)的管理,通常一個(gè)磁盤(pán)對(duì)應(yīng)一個(gè)對(duì)象存儲(chǔ)服務(wù)。客戶(hù)端訪(fǎng)問(wèn)存儲(chǔ)從監(jiān)控服務(wù)讀取存儲(chǔ)資源布局信息,計(jì)算出具體的物理服務(wù)器信息和磁盤(pán)信息,最終與該位置直接通信進(jìn)行讀寫(xiě)存操作,不同于傳統(tǒng)的硬件RAID,所有數(shù)據(jù)全部由文件系統(tǒng)管理。
由于早期數(shù)據(jù)存儲(chǔ)量穩(wěn)定,引進(jìn)了2套T級(jí)別的分布式存儲(chǔ),均10G掛載在HPCC交換機(jī)A下,為CPU和GPU節(jié)點(diǎn)提供數(shù)據(jù)存儲(chǔ)服務(wù)。
2.1.3 網(wǎng)絡(luò)
最初的網(wǎng)絡(luò)規(guī)模如圖1所示設(shè)計(jì)了一臺(tái)HPCC交換機(jī)A,此交換機(jī)是專(zhuān)為大數(shù)據(jù)計(jì)算應(yīng)用到智能、融合的企業(yè)邊緣網(wǎng)絡(luò)提供強(qiáng)大性能、功能需求而設(shè)計(jì),主要有模塊化體系結(jié)構(gòu)、集成安全身份識(shí)別、高度虛擬化數(shù)據(jù)中心的自動(dòng)化特性,可實(shí)現(xiàn)以太網(wǎng)自動(dòng)保護(hù)交換、無(wú)中斷切換和自我修復(fù)功能,通用端口借助強(qiáng)大的事件驅(qū)動(dòng)框架支持網(wǎng)絡(luò)部署和配置,允許基于身份的訪(fǎng)問(wèn)控制和策略,同時(shí)具有高可用性模塊化架構(gòu),提供進(jìn)程監(jiān)控、內(nèi)存保護(hù)功能,主備管理模塊系統(tǒng)的無(wú)中斷切換和模塊級(jí)軟件升級(jí)功能可為啟用了堆疊交換機(jī)提供無(wú)中斷切換保護(hù),模塊化和內(nèi)存保護(hù)設(shè)計(jì)防止系統(tǒng)損壞,支持融合網(wǎng)絡(luò)日益增長(zhǎng)的需求設(shè)計(jì),增強(qiáng)網(wǎng)絡(luò)安全性管理。CPU和GPU節(jié)點(diǎn)與客戶(hù)端通訊通過(guò)IB網(wǎng)關(guān)轉(zhuǎn)換為以太網(wǎng)絡(luò),IB網(wǎng)關(guān)12X10G上連到HPCC交換機(jī)A。IB技術(shù)基于高性能計(jì)算網(wǎng)絡(luò)通信標(biāo)準(zhǔn),具有極高的吞吐量和極低的延遲,可用于節(jié)點(diǎn)間交換互連、節(jié)點(diǎn)與存儲(chǔ)間直接或交換互連、存儲(chǔ)間互連,IB技術(shù)具有配置簡(jiǎn)單、管理方便功能,適合企業(yè)級(jí)大數(shù)據(jù)計(jì)算網(wǎng)絡(luò)的應(yīng)用。
2.1.4 軟件
節(jié)點(diǎn)全部安裝LINUX操作系統(tǒng),建立網(wǎng)絡(luò)信息服務(wù)NIS和時(shí)間同步NTP服務(wù)器,針對(duì)企業(yè)需求,在不同節(jié)點(diǎn)安裝CGG、Geoeast、Paradigm、Tomodel、Eposdb等業(yè)務(wù)軟件,部署Light/NCI、Pns等許可服務(wù)器。
2.2 升級(jí)擴(kuò)容
由于企業(yè)規(guī)模的擴(kuò)大,系統(tǒng)已不能滿(mǎn)足現(xiàn)狀,如圖1所示,隨后設(shè)計(jì)了數(shù)據(jù)交換性能和轉(zhuǎn)發(fā)能力更強(qiáng)的HPCC交換機(jī)B,與HPCC交換機(jī)A 10X10G互連,新節(jié)點(diǎn)均為刀片式CPU計(jì)算節(jié)點(diǎn),接在HPCC交換機(jī)B下,配置4個(gè)10核CPU,主頻2.8GHz,內(nèi)存128G,硬盤(pán)1.2T,做RAID1數(shù)據(jù)保護(hù),集群管理節(jié)點(diǎn)和IO節(jié)點(diǎn)配置4個(gè)12核CPU,主頻2.6GHz,內(nèi)存256G,硬盤(pán)2.4T(數(shù)據(jù)庫(kù)節(jié)點(diǎn)為6T),做RAID1數(shù)據(jù)保護(hù)。I/O節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)并響應(yīng)計(jì)算節(jié)點(diǎn)的存儲(chǔ)請(qǐng)求,企業(yè)采用了多I/O節(jié)點(diǎn)服務(wù)模式,將計(jì)算所需的初始數(shù)據(jù)、計(jì)算得出的最終數(shù)據(jù)和平臺(tái)數(shù)據(jù)存儲(chǔ)在I/O節(jié)點(diǎn)上,提高運(yùn)行效率。
介于企業(yè)存儲(chǔ)數(shù)據(jù)業(yè)務(wù)規(guī)模,設(shè)計(jì)了P級(jí)別的大型分布式存儲(chǔ),接到HPCC交換機(jī)B下,由于老的分布式存儲(chǔ)性能和運(yùn)行指標(biāo)的下降,作為企業(yè)備份存儲(chǔ),各自在企業(yè)生產(chǎn)中肩負(fù)著不同的角色。
2.3 用戶(hù)訪(fǎng)問(wèn)
計(jì)算網(wǎng)雖通過(guò)匯聚交換機(jī)接入核心交換機(jī),但沒(méi)有設(shè)立網(wǎng)關(guān)、不發(fā)布路由,與辦公網(wǎng)業(yè)務(wù)安全隔離。對(duì)于有計(jì)算業(yè)務(wù)需求的用戶(hù),須到指定的計(jì)算網(wǎng)區(qū)域,使用計(jì)算網(wǎng)資源從事計(jì)算業(yè)務(wù),用戶(hù)在作業(yè)進(jìn)行時(shí),通過(guò)特定的作業(yè)調(diào)度軟件自動(dòng)被分配到不忙的計(jì)算節(jié)點(diǎn)運(yùn)行程序、提交數(shù)據(jù),縮短集群作業(yè)運(yùn)行時(shí)間,杜絕網(wǎng)絡(luò)安全隱患的發(fā)生。
2.4 運(yùn)維監(jiān)控
2.4.1 節(jié)點(diǎn)監(jiān)控
企業(yè)對(duì)節(jié)點(diǎn)的監(jiān)控管理選用了開(kāi)源的網(wǎng)絡(luò)監(jiān)控系統(tǒng)Nagios Core,它可監(jiān)控SMTP、POP3、HTTP、NNTP、PING等網(wǎng)絡(luò)服務(wù),監(jiān)視處理器負(fù)載、磁盤(pán)使用情況等節(jié)點(diǎn)資源情況,能檢測(cè)和區(qū)分主機(jī)是宕機(jī)或不通,可直觀地查看當(dāng)前網(wǎng)絡(luò)狀態(tài)、問(wèn)題歷史記錄、日志文件等,當(dāng)主機(jī)、服務(wù)出現(xiàn)問(wèn)題或問(wèn)題解決時(shí)發(fā)出預(yù)警通知。
企業(yè)定義了對(duì)當(dāng)前負(fù)載Current Load、當(dāng)前用戶(hù)數(shù)Current Users、根分區(qū)Root Partition、總進(jìn)程數(shù)Total Processes、交換分區(qū)Swap Usage、SSH和PING的監(jiān)控。
2.4.2 存儲(chǔ)監(jiān)控
針對(duì)存儲(chǔ)監(jiān)控,定制了服務(wù)器運(yùn)行情況、磁盤(pán)狀態(tài)、文件讀寫(xiě)統(tǒng)計(jì)和歷史報(bào)警信息等,如磁盤(pán)狀態(tài)、總系統(tǒng)容量達(dá)到上限或閾值時(shí)預(yù)警。
3 實(shí)施效益
考慮到通信延遲是高性能計(jì)算集群應(yīng)用面臨的最關(guān)鍵技術(shù)挑戰(zhàn),因此構(gòu)建了響應(yīng)速度更快的IB網(wǎng)絡(luò)、GPU加速等技術(shù),同時(shí)在數(shù)據(jù)方面使用更具成本效益、速度穩(wěn)定的持久性存儲(chǔ)服務(wù),部署這些技術(shù)均進(jìn)行網(wǎng)絡(luò)連通性、延遲和性能、CPU和GPU穩(wěn)定性以及節(jié)點(diǎn)間運(yùn)行大數(shù)據(jù)的測(cè)試,結(jié)果均滿(mǎn)足各專(zhuān)業(yè)計(jì)算軟件傳遞數(shù)據(jù)的運(yùn)行需求,使平臺(tái)業(yè)務(wù)得到穩(wěn)定運(yùn)行。
在實(shí)施運(yùn)行中做到了勘探處理解釋研究的可視化和高效運(yùn)算,使用戶(hù)在短時(shí)間內(nèi)完成大數(shù)據(jù)量的分析和運(yùn)算,進(jìn)一步為油氣開(kāi)發(fā)研究做保障,極大滿(mǎn)足用戶(hù)對(duì)科研生產(chǎn)的應(yīng)用需求。未來(lái)我們將積極探索,尋求虛擬化和云計(jì)算資源對(duì)HPCC的支持,實(shí)時(shí)結(jié)合生產(chǎn)實(shí)際并運(yùn)用新技術(shù)保障HPCC業(yè)務(wù)的穩(wěn)定發(fā)展,為企業(yè)經(jīng)濟(jì)發(fā)展助力。
參考文獻(xiàn):
[1] 計(jì)算機(jī)技術(shù)與發(fā)展.基于MPICH2的高性能計(jì)算集群系統(tǒng)研究[Z].2020.10.
[2] 百度文庫(kù).高性能計(jì)算集群系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[Z]. 2020.9.
[3] CSDN網(wǎng).配置高性能計(jì)算集群[Z].2020.12.
【通聯(lián)編輯:李雅琪】