摘要:針對(duì)復(fù)雜電子研制企業(yè)中傳統(tǒng)高性能設(shè)計(jì)仿真資源使用方式分散、有效利用率不高,集群式計(jì)算資源使用模式單一、數(shù)據(jù)資源與知識(shí)資源難以共享等問(wèn)題,本文提出了一種融合高性能計(jì)算資源調(diào)度技術(shù)和遠(yuǎn)程三維可視化技術(shù)的計(jì)算仿真一體化平臺(tái)架構(gòu)設(shè)計(jì)方案,通過(guò)整合高性能計(jì)算資源、存儲(chǔ)資源、高速網(wǎng)絡(luò)資源以及數(shù)據(jù)資源,提供兼具遠(yuǎn)程三維設(shè)計(jì)仿真和高性能計(jì)算能力的應(yīng)用系統(tǒng)級(jí)平臺(tái)服務(wù),以期為企業(yè)設(shè)計(jì)仿真提供一個(gè)統(tǒng)一便捷的基礎(chǔ)平臺(tái)。
關(guān)鍵詞:設(shè)計(jì)仿真;高性能計(jì)算;一體化平臺(tái)
一、引言
隨著信息技術(shù)的快速發(fā)展,數(shù)字化設(shè)計(jì)仿真已經(jīng)成為推動(dòng)我國(guó)現(xiàn)代復(fù)雜電子裝備研發(fā)迭代的強(qiáng)大動(dòng)力。與此同時(shí),復(fù)雜電子裝備也正在向多功能一體化、構(gòu)型變化大、集成度高等方向發(fā)展,具有技術(shù)更新?lián)Q代快、機(jī)電熱液磁等多專業(yè)交叉以及電訊、結(jié)構(gòu)和工藝深度耦合的特點(diǎn)。
復(fù)雜電子裝備研發(fā)技術(shù)的快速發(fā)展不僅對(duì)使用EDA、CAD、CAE等核心工業(yè)軟件的研發(fā)設(shè)計(jì)提出了非常高的要求,還需要高性能計(jì)算資源作為基礎(chǔ)硬件支撐。為了滿足EDA、CAD、CAE軟件與高性能計(jì)算集群集成應(yīng)用的需求,企業(yè)亟須集成軟硬件為一體的仿真計(jì)算一體化平臺(tái)作為產(chǎn)品研制的基礎(chǔ)硬件支撐環(huán)境。
二、仿真計(jì)算資源使用問(wèn)題分析
數(shù)字仿真技術(shù)在復(fù)雜電子裝備研制企業(yè)產(chǎn)品研發(fā)過(guò)程中發(fā)揮著越來(lái)越重要的作用,企業(yè)內(nèi)大量仿真計(jì)算資源是否被合理高效利用將直接影響到產(chǎn)品迭代效率與質(zhì)量。為了滿足企業(yè)發(fā)展需要,傳統(tǒng)設(shè)計(jì)仿真資源使用管理模式中存在的多個(gè)突出問(wèn)題亟須解決。
(一)設(shè)計(jì)仿真業(yè)務(wù)分離,影響研發(fā)效率
在傳統(tǒng)設(shè)計(jì)仿真模式下,設(shè)計(jì)師往往通過(guò)個(gè)人工作站進(jìn)行產(chǎn)品模型交互設(shè)計(jì),并且通過(guò)高性能計(jì)算資源進(jìn)行仿真計(jì)算。然而,模型設(shè)計(jì)與計(jì)算仿真分離的工作模式通常無(wú)法實(shí)現(xiàn)仿真設(shè)計(jì)數(shù)據(jù)的異機(jī)共享,在迭代優(yōu)化的過(guò)程中,模型難以避免地進(jìn)行多次數(shù)據(jù)上傳下載操作,這些重復(fù)工作不僅耗時(shí)耗力,而且也不會(huì)給產(chǎn)品的優(yōu)化設(shè)計(jì)帶來(lái)任何價(jià)值。
(二)資源使用方式分散、整體負(fù)載不均衡
在傳統(tǒng)設(shè)計(jì)仿真模式下,復(fù)雜電子裝備研制企業(yè)通常以小組為單位重復(fù)采購(gòu)大量的仿真計(jì)算資源,計(jì)算資源由各小組獨(dú)立使用,分散掌握在個(gè)人手中。物理分布分散無(wú)法形成有效設(shè)計(jì)仿真資源池,管理人員也無(wú)法從全局視角協(xié)調(diào)仿真計(jì)算任務(wù)錯(cuò)峰使用計(jì)算資源,導(dǎo)致硬件資源實(shí)際忙閑狀態(tài)不一,難以實(shí)現(xiàn)整體計(jì)算資源的均衡使用。
(三)計(jì)算資源缺乏統(tǒng)一管理平臺(tái)
在傳統(tǒng)資源管理模式下,計(jì)算資源的使用分配大多依賴純手工操作,難以實(shí)現(xiàn)高效管理。資源使用形式離散化的特點(diǎn)不僅難以形成統(tǒng)一的資源使用模式,也給仿真計(jì)算工作的規(guī)范化帶來(lái)不小的難度。同時(shí),離散化的資源使用方式往往伴隨著監(jiān)測(cè)手段的缺失,難以對(duì)故障進(jìn)行快速定位、分析與解決。
三、仿真計(jì)算一體化平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
針對(duì)傳統(tǒng)仿真計(jì)算資源使用過(guò)程中遇到的問(wèn)題,本文從底層硬件基礎(chǔ)設(shè)施和上層應(yīng)用服務(wù)兩個(gè)維度對(duì)高性能計(jì)算仿真平臺(tái)分別進(jìn)行架構(gòu)規(guī)劃與設(shè)計(jì)。平臺(tái)架構(gòu)設(shè)計(jì)遵循模塊化、易擴(kuò)展、易管理、高可靠、高穩(wěn)定的原則,旨在便于仿真計(jì)算平臺(tái)進(jìn)行建設(shè)、使用、維護(hù)、擴(kuò)展、故障定位等平臺(tái)全生命周期維護(hù)。
仿真計(jì)算平臺(tái)主要包括平臺(tái)服務(wù)層構(gòu)成的前端功能應(yīng)用、仿真應(yīng)用層構(gòu)成的仿真應(yīng)用支撐、集群架構(gòu)層構(gòu)成的集群軟件環(huán)境、節(jié)點(diǎn)系統(tǒng)層構(gòu)成的基礎(chǔ)軟件環(huán)境以及硬件架構(gòu)層構(gòu)成的基礎(chǔ)硬件平臺(tái),各功能模塊組成有機(jī)統(tǒng)一的整體,共同為用戶提供方便、快捷、高效、易用的仿真計(jì)算平臺(tái)。
面向復(fù)雜電子裝備研制企業(yè)高性能仿真計(jì)算一體化平臺(tái)架構(gòu)設(shè)計(jì)如圖1所示。
(一)硬件架構(gòu)層設(shè)計(jì)
硬件架構(gòu)層作為基礎(chǔ)硬件環(huán)境,由仿真計(jì)算集群、仿真可視化集群、高性能分布式存儲(chǔ)系統(tǒng)、管理節(jié)點(diǎn)四大模塊,以及高速計(jì)算網(wǎng)絡(luò)、帶外管理網(wǎng)絡(luò)、業(yè)務(wù)傳輸網(wǎng)絡(luò)三大互聯(lián)網(wǎng)絡(luò)模塊和用戶終端組成。不同模塊在仿真計(jì)算平臺(tái)中分別承擔(dān)不同的功能,并共同組成一個(gè)有機(jī)整體。
1.計(jì)算存儲(chǔ)模塊設(shè)計(jì)
仿真計(jì)算集群由CPU計(jì)算集群、GPU計(jì)算集群構(gòu)成,分別為邏輯推理計(jì)算、GPU加速等業(yè)務(wù)提供服務(wù)。仿真可視化集群以配備大顯存GPU渲染卡服務(wù)器組成,主要針對(duì)大模型三維仿真設(shè)計(jì)場(chǎng)景。高性能分布式存儲(chǔ)系統(tǒng)由多臺(tái)部署了高速并行分布式文件系統(tǒng)的分布式存儲(chǔ)節(jié)點(diǎn)組成,提供高性能、高可靠、高安全、彈性擴(kuò)展、開(kāi)放兼容的統(tǒng)一存儲(chǔ)空間及高速數(shù)據(jù)讀寫(xiě)服務(wù)。管理節(jié)點(diǎn)作為仿真計(jì)算平臺(tái)的資源調(diào)度樞紐,承載前端用戶與后端資源之間的資源調(diào)度管理功能,通過(guò)HA方式部署,避免單點(diǎn)故障。用戶終端則以分散接入的多臺(tái)普通終端機(jī)組成,接入普通千兆以太網(wǎng),通過(guò)平臺(tái)統(tǒng)一門(mén)戶登入使用遠(yuǎn)端資源。
2.互聯(lián)網(wǎng)絡(luò)模塊設(shè)計(jì)
高速計(jì)算互聯(lián)網(wǎng)絡(luò)選用高帶寬、低延時(shí)的IB網(wǎng)絡(luò),以滿足仿真計(jì)算過(guò)程中計(jì)算任務(wù)對(duì)不同服務(wù)器之間、服務(wù)器與存儲(chǔ)之間的數(shù)據(jù)高速傳輸需求,并提升并行計(jì)算效率。帶外管理網(wǎng)絡(luò)以千兆以太網(wǎng)組網(wǎng),用以滿足仿真計(jì)算平臺(tái)硬件的日常管理需求。業(yè)務(wù)傳輸網(wǎng)絡(luò)以萬(wàn)兆以太網(wǎng)組網(wǎng),以滿足管理節(jié)點(diǎn)對(duì)其他硬件設(shè)備的資源監(jiān)控、管理調(diào)度、交互設(shè)計(jì)命令、作業(yè)數(shù)據(jù)命令等數(shù)據(jù)傳輸需求。
(二)節(jié)點(diǎn)系統(tǒng)層設(shè)計(jì)
節(jié)點(diǎn)系統(tǒng)層作為基礎(chǔ)軟件環(huán)境,以操作系統(tǒng)、網(wǎng)絡(luò)連接、驅(qū)動(dòng)程序、集群文件系統(tǒng)、數(shù)據(jù)庫(kù)等組成,主要實(shí)現(xiàn)底層基礎(chǔ)硬件環(huán)境與上層應(yīng)用平臺(tái)的數(shù)據(jù)連接。
節(jié)點(diǎn)操作系統(tǒng)的選擇與部署需要綜合考慮仿真平臺(tái)兼容性、上層應(yīng)用軟件兼容性、計(jì)算存儲(chǔ)網(wǎng)絡(luò)設(shè)備適配性等。復(fù)雜仿真平臺(tái)一般需同時(shí)選擇部署Windows操作系統(tǒng)及Linux操作系統(tǒng),并根據(jù)實(shí)際需求靈活調(diào)整兩類(lèi)操作系統(tǒng)的版本及數(shù)量。網(wǎng)絡(luò)連接方式的選擇由實(shí)際業(yè)務(wù)特性決定,一般數(shù)據(jù)網(wǎng)絡(luò)選擇萬(wàn)兆網(wǎng)絡(luò)或IB網(wǎng)絡(luò)、業(yè)務(wù)網(wǎng)絡(luò)選擇萬(wàn)兆以太網(wǎng)絡(luò)、管理網(wǎng)絡(luò)選擇千兆以太網(wǎng)絡(luò)。集群文件系統(tǒng)一般可以選擇集中式存儲(chǔ)文件系統(tǒng)或分布式存儲(chǔ)文件系統(tǒng),實(shí)際類(lèi)型選擇需要綜合考慮實(shí)際業(yè)務(wù)場(chǎng)景讀寫(xiě)需求及后續(xù)擴(kuò)展需求;數(shù)據(jù)庫(kù)選擇只需要滿足仿真平臺(tái)的資源調(diào)度性能即可。
(三)集群架構(gòu)層設(shè)計(jì)
集群架構(gòu)層作為集群軟件環(huán)境,以實(shí)現(xiàn)底層計(jì)算資源與終端用戶連接為目標(biāo),由集群監(jiān)控系統(tǒng)、資源調(diào)度管理、資源分析展示、應(yīng)用門(mén)戶管理、安全控制管理、遠(yuǎn)程協(xié)同管理等幾大模塊組成。
集群監(jiān)控模塊能夠?qū)崟r(shí)監(jiān)控仿真平臺(tái)內(nèi)所有硬件設(shè)備、軟件環(huán)境的運(yùn)行狀態(tài)。源調(diào)度管理模塊能夠依據(jù)仿真任務(wù)對(duì)計(jì)算資源的需求對(duì)平臺(tái)內(nèi)硬件資源進(jìn)行調(diào)度和管理。資源分析展示模塊可以根據(jù)仿真平臺(tái)內(nèi)所有硬件設(shè)備、軟件環(huán)境的實(shí)時(shí)運(yùn)行監(jiān)控?cái)?shù)據(jù)同步繪制資源分析圖表并展示。應(yīng)用門(mén)戶管理模塊主要對(duì)接終端用戶,為終端用戶提供便捷易用的仿真平臺(tái)使用入口。安全控制管理模塊主要負(fù)責(zé)終端用戶、軟件資源、硬件資源、數(shù)據(jù)資源等使用權(quán)限控制。遠(yuǎn)程協(xié)同管理模塊主要實(shí)現(xiàn)終端用戶與后端可視化資源的便捷對(duì)接以及不同用戶之間的可視化協(xié)同設(shè)計(jì)。
(四)仿真應(yīng)用層設(shè)計(jì)
仿真應(yīng)用層作為仿真應(yīng)用支撐,主要由電磁仿真設(shè)計(jì)及分析、流體仿真設(shè)計(jì)及分析、結(jié)構(gòu)仿真設(shè)計(jì)及分析、熱分析、信號(hào)處理分析專業(yè)軟件組成,具體安裝部署需要以支撐終端用戶的使用需求為主。仿真應(yīng)用層主要用于部署支撐后臺(tái)仿真計(jì)算類(lèi)任務(wù)、遠(yuǎn)程交互設(shè)計(jì)任務(wù)等不同類(lèi)型使用需求的應(yīng)用軟件。
(五)平臺(tái)服務(wù)層設(shè)計(jì)
平臺(tái)服務(wù)層作為前端功能應(yīng)用,由遠(yuǎn)程可視化功能、仿真計(jì)算功能、數(shù)據(jù)管理功能以及為平臺(tái)管理服務(wù)的用戶管理、資源監(jiān)控、安全控制、統(tǒng)計(jì)分析、行為審計(jì)等功能組成。
四、仿真計(jì)算一體化平臺(tái)關(guān)鍵技術(shù)
(一)基于模塊的一體化平臺(tái)架構(gòu)設(shè)計(jì)
仿真計(jì)算一體化平臺(tái)可以通過(guò)模塊化架構(gòu)設(shè)計(jì),全面梳理設(shè)計(jì)仿真場(chǎng)景各環(huán)節(jié)的需求,并按模塊化原則進(jìn)行功能分類(lèi)設(shè)計(jì)。其中,各功能模塊獨(dú)立承擔(dān)不同業(yè)務(wù)類(lèi)型,各種業(yè)務(wù)類(lèi)型模塊相互配合組成有機(jī)整體,共同服務(wù)于設(shè)計(jì)仿真及平臺(tái)管理工作全生命周期。
在實(shí)際應(yīng)用場(chǎng)景中,設(shè)計(jì)師可以在同一平臺(tái)完成從模型設(shè)計(jì)到數(shù)值仿真工作,真正實(shí)現(xiàn)了設(shè)計(jì)仿真一體化的目標(biāo);管理員可以實(shí)現(xiàn)資源快速分發(fā)、資源高效管理、故障快速定位恢復(fù)等功能,實(shí)現(xiàn)了一體化平臺(tái)的便捷管理維護(hù)。
(二)異構(gòu)操作系統(tǒng)下的數(shù)據(jù)漫游
設(shè)計(jì)仿真與計(jì)算仿真所需要的軟件往往基于不同操作系統(tǒng)。設(shè)計(jì)師常用的設(shè)計(jì)仿真軟件一般基于Windows操作系統(tǒng),需要友好的三維交互操作體驗(yàn)。常用的計(jì)算仿真軟件一般基于Linux操作系統(tǒng),需要盡量減少不必要的非計(jì)算性能損耗,并且要求操作系統(tǒng)具有更高的運(yùn)行穩(wěn)定性。
仿真計(jì)算一體化平臺(tái)的構(gòu)建實(shí)現(xiàn)了仿真數(shù)據(jù)在不同操作系統(tǒng)下的漫游,使得設(shè)計(jì)師能夠在Windows仿真機(jī)器上完成三維可視化交互設(shè)計(jì),并快速使用高性能Linux計(jì)算資源進(jìn)行仿真計(jì)算,避免了數(shù)據(jù)在不同平臺(tái)上傳輸?shù)臒o(wú)效時(shí)間損耗,大幅提高了設(shè)計(jì)師的仿真設(shè)計(jì)效率。
(三)高性能計(jì)算集群資源統(tǒng)一監(jiān)控管理
仿真計(jì)算一體化平臺(tái)能夠?qū)ζ脚_(tái)內(nèi)異構(gòu)操作系統(tǒng)下的各計(jì)算資源集群進(jìn)行統(tǒng)一的監(jiān)控管理,并在同一管理頁(yè)面對(duì)仿真可視化集群、計(jì)算集群以及高性能存儲(chǔ)進(jìn)行統(tǒng)一監(jiān)控管理,使得仿真計(jì)算一體化平臺(tái)下所有計(jì)算存儲(chǔ)資源故障預(yù)警可以直接顯示在管理員面前,節(jié)省了管理員的運(yùn)維管理時(shí)間,大幅提升工作效率。
(四)交互設(shè)計(jì)與仿真計(jì)算資源自適應(yīng)調(diào)度
仿真計(jì)算一體化平臺(tái)實(shí)現(xiàn)對(duì)遠(yuǎn)程可視化集群和高性能計(jì)算集群統(tǒng)一框架下的調(diào)度,并根據(jù)終端用戶工作需求,實(shí)時(shí)評(píng)估集群內(nèi)各類(lèi)資源的使用情況,按照既定調(diào)度策略,自適應(yīng)地將最合適的機(jī)器分配給終端用戶,從而大幅提高復(fù)雜電子裝備研制企業(yè)所采購(gòu)高性能計(jì)算資源的有效利用率。
五、結(jié)束語(yǔ)
通過(guò)高性能仿真計(jì)算一體化平臺(tái)的規(guī)劃設(shè)計(jì)與建設(shè),能夠建成一個(gè)集三維模型設(shè)計(jì)、計(jì)算作業(yè)調(diào)度、數(shù)據(jù)資源管理、仿真資源監(jiān)控、安全控制為一體的資源統(tǒng)一調(diào)度使用管理平臺(tái),實(shí)現(xiàn)對(duì)工業(yè)仿真軟件與高性能計(jì)算資源的深度集成。通過(guò)平臺(tái)對(duì)計(jì)算資源的統(tǒng)一管理調(diào)度,可以實(shí)現(xiàn)優(yōu)化計(jì)算資源使用分配方式,使計(jì)算資源能夠以更加合理的方式進(jìn)行共享使用,提高計(jì)算資源的利用效率。平臺(tái)可以實(shí)現(xiàn)用戶使用友好化、任務(wù)調(diào)度自動(dòng)化、數(shù)據(jù)管理統(tǒng)一化、資源監(jiān)控可視化、安全管理可控化的目標(biāo),提升企業(yè)信息化資源在使用方面的協(xié)調(diào)、開(kāi)放、共享能力。仿真計(jì)算一體化平臺(tái)的構(gòu)建有助于大型工業(yè)軟件的高效應(yīng)用,助力復(fù)雜電子裝備研發(fā)設(shè)計(jì)與迭代升級(jí),并促進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型。
作者單位:劉洋 中國(guó)電子科技集團(tuán)公司第十四研究所
參考文獻(xiàn)
[1]路芳瑞.高性能計(jì)算與虛擬桌面基礎(chǔ)設(shè)施融合使用研究[J].現(xiàn)代電子技術(shù),2022,45(20).
[2]劉民,朱興國(guó),劉姜玲,等.目標(biāo)電磁特性協(xié)同仿真計(jì)算平臺(tái)構(gòu)建技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(25).
[3]詹嘉鑫.大數(shù)據(jù)環(huán)境下高性能計(jì)算模型及關(guān)鍵技術(shù)研究[J].電子技術(shù)與軟件工程,2022(12).
[4]謝興勇,譚飛,黃啟益.基于高性能計(jì)算的仿真平臺(tái)建設(shè)運(yùn)維策略探討.[J]數(shù)字技術(shù)與應(yīng)用,2021(39).
[5]戴霖,高小渭,吳騫華.高性能計(jì)算平臺(tái)構(gòu)建技術(shù)研究[J].通信設(shè)計(jì)與應(yīng)用,2019(1):127-128.
[6]王康,楊運(yùn)平,劉波平.面向材料科學(xué)研究的新型高性能計(jì)算平臺(tái)系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化,2019(3):39-44.
[7]劉強(qiáng),朱曉冰,賈蓓.高性能計(jì)算仿真云平臺(tái)的構(gòu)建策略分析[J].數(shù)字技術(shù)與應(yīng)用,2014(6):213.
[8]和榮,王小寧,盧莎莎.高性能計(jì)算環(huán)境通用計(jì)算平臺(tái)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(12):55-62.